10-те най-важни Hadoop условия, които трябва да знаете и разбирате

Съдържание

Но първо, погледнете как работи Hadoop
Hadoop Common
Hadoop разпределена файлова система (HDFS)
MapReduce
HBase
кошер
Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви
Apache Pig
Apache Spark
Апаче Касандра
Още един преговарящ ресурс (YARN)
Impala

Източник: Trueffelpix / Dreamstime.com

За вкъщи:

За да разберете наистина големите данни, трябва да разберете малко за Hadoop и езика около него.

Големите данни, завладяващото име за огромни обеми от структурирани, неструктурирани или полуструктурирани данни, е, че е трудно да се улавят, съхраняват, управляват, споделят, анализират и визуализират, поне като се използват традиционните приложения за бази данни и софтуер. Ето защо технологиите за големи данни имат потенциал да управляват и обработват огромни обеми данни ефективно и ефикасно. И неговият Apache Hadoop осигурява рамката и свързаните с тях технологии за обработка на големи масиви от данни в клъстери от компютри по разпределен начин. Така че, за да разберете наистина големите данни, трябва да разберете малко за Hadoop. Тук добре разгледайте основните термини, които ще чуете по отношение на Hadoop - и какво означават те.

Но първо, погледнете как работи Hadoop

Преди да влезете в екосистемата Hadoop, трябва да разберете ясно две основни неща. Първият е как се съхранява файл в Hadoop; второто е как се обработват съхраняваните данни. Всички технологии, свързани с Hadoop, работят главно в тези две области и го правят по-лесен за използване. (Вземете основите на това как работи Hadoop в Как Hadoop помага да разрешите проблема с големи данни.)

Сега, към условията.

Hadoop Common

Рамката на Hadoop има различни модули за различни функционалности и тези модули могат да си взаимодействат помежду си по различни причини. Hadoop Common може да се дефинира като обща библиотека за комунални услуги, която да поддържа тези модули в екосистемата Hadoop. Тези помощни програми са основно базирани на Java архивирани (JARs) файлове. Тези помощни програми се използват главно от програмисти и разработчици по време на разработка.

Hadoop разпределена файлова система (HDFS)

Разпределената файлова система Hadoop (HDFS) е подпроект на Apache Hadoop в рамките на софтуерната фондация Apache. Това е основата на съхранението в рамката на Hadoop. Това е разпределена, мащабируема и отказоустойчива файлова система, която обхваща множество хардуерни стоки, известни като Hadoop клъстер. Целта на HDFS е надеждно съхраняване на огромен обем данни с висок пропусклив достъп до данните на приложението. HDFS следва архитектура master / slave, където мастерът е известен като NameNode, а подчинените са известни като DataNodes.

MapReduce

Hadoop MapReduce също е подпроект на софтуерната фондация Apache. MapReduce всъщност е софтуерна рамка, чисто написана на Java. Основната му цел е да обработва големи набори от данни в разпределена среда (състояща се от стоков хардуер) по напълно успореден начин. Рамката управлява всички дейности като планиране на задачи, наблюдение, изпълнение и повторно изпълнение (в случай на неуспешни задачи).

HBase

Apache HBase е известен като база данни Hadoop. Това е колонен, разпространен и мащабируем магазин за големи данни. Известен е и като вид база данни NoSQL, която не е система за управление на релационни бази данни. Приложенията за HBase също са написани на Java, изградени на върха на Hadoop и работят на HDFS. HBase се използва, когато се нуждаете от четене / запис в реално време и произволен достъп до големи данни. HBase се моделира въз основа на концепциите на Googles BigTable.

кошер

Apache Hive е софтуерна система за съхранение на данни с отворен код. Първоначално Hive е разработен от, преди да попадне в рамките на софтуерната фондация Apache и става отворен код. Той улеснява управлението и задаването на заявки за големи масиви от данни на разпределено Hadoop съвместимо хранилище. Hive изпълнява всички свои дейности, използвайки SQL-подобен език, известен като HiveQL. (Научете повече в кратък интрод към кошер и прасе Apache.)

Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

Apache Pig

Pig е първоначално иницииран от Yahoo за разработване и изпълнение на задания MapReduce върху голям обем разпределени данни. Сега той се превърна в проект с отворен код в рамките на софтуерната фондация Apache. Apache Pig може да бъде определена като платформа за ефективен анализ на много големи масиви от данни. Инфраструктурният слой на свинете произвежда последователности от задания на MapReduce за извършване на реалната обработка. Езиковият слой на прасенцата е известен като Pig Latin и осигурява функции, подобни на SQL, за извършване на заявки в разпределени набори от данни.

Apache Spark

Spark е първоначално разработен от AMPLab в UC Berkeley. Той се превърна в проект на най-високо ниво на Apache през февруари 2014 г. Apache Spark може да бъде определен като отворен код, обща цел, клъстер-изчислителна рамка, която прави анализа на данните много по-бърз. Той е изграден на върха на разпределената файлова система Hadoop, но не е свързан с рамката MapReduce. Изпълнението на искрите е много по-бързо в сравнение с MapReduce. Той осигурява API на високо ниво в Scala, Python и Java.

Апаче Касандра

Apache Cassandra е друга база данни с отворен код NoSQL. Касандра се използва широко за управление на големи обеми от структурирани, полуструктурирани и неструктурирани данни в множество центрове за данни и облачно съхранение. Касандра е проектирана въз основа на „безстопанствена“ архитектура, което означава, че не поддържа модела master / slave. В тази архитектура всички възли са еднакви и данните се разпределят автоматично и равномерно във всички възли. Най-важните характеристики на Cassandras са непрекъснатата наличност, линейната мащабируемост, вградената / приспособима репликация, нито една точка на отказ и оперативна простота.

Още един преговарящ ресурс (YARN)

Още един преговарящ ресурс (YARN) също е известен като MapReduce 2.0, но всъщност попада под Hadoop 2.0. Преждата може да бъде дефинирана като рамка за планиране на работа и управление на ресурсите. Основната идея на YARN е да замени функционалностите на JobTracker с два отделни демона, отговорни за управлението на ресурсите и планирането / мониторинга. В тази нова рамка ще има глобален ResourceManager (RM) и специфичен за приложението master, известен като ApplicationMaster (AM). Глобалният ResourceManager (RM) и NodeManager (на възел подчинен) формират действителната рамка за изчисляване на данните. Съществуващите MapReduce v1 приложения също могат да се стартират на YARN, но тези приложения трябва да бъдат прекомпилирани с буркани Hadoop2.x.

Impala

Impala може да се дефинира като SQL заявка с масивна мощност на паралелна обработка (MPP). Протича родно по рамката на Apache Hadoop. Impala е проектиран като част от екосистемата Hadoop. Той споделя същата гъвкава файлова система (HDFS), метаданни, управление на ресурсите и рамки за сигурност, както се използва от други компоненти на екосистемата Hadoop. Най-важният момент е да се отбележи, че Impala е много по-бърз при обработката на заявки в сравнение с Hive. Но също така трябва да помним, че Impala е предназначен за запитване / анализ на малък набор от данни и е проектиран главно като инструмент за анализ, който работи върху обработени и структурирани данни.

Hadoop е важна тема в ИТ, но има и такива, които са скептично настроени към дългосрочната му жизнеспособност. Прочетете повече в Какво е Hadoop? Теория на циниците.