Kudu: Changer Changer в екосистемата Hadoop?

Видео: Apache Kudu (Incubating): New Hadoop Storage for Fast Analytics on Fast Data

Съдържание

Какво е Kudu?
Какво е текущото състояние на Kudus?
Как може Kudu да допълва HDFS / HBase?
Характеристики на рамката Kudu
Как може Kudu да промени екосистемата Hadoop?
Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви
заключение

Източник: Agsandrew / Dreamstime.com

За вкъщи:

Kudu е проект с отворен код, който помага за по-ефективно управление на съхранението.

Kudu е нов проект с отворен код, който осигурява актуализирано съхранение. Той е допълнение към HDFS / HBase, което осигурява последователно съхранение и само за четене. Kudu е по-подходящ за бърз анализ на бързи данни, който в момента е търсенето на бизнеса. Така Kudu не е просто още един проект за екосистема Hadoop, а по-скоро има потенциал да промени пазара. (За повече информация за Hadoop вижте 10-те най-важни Hadoop условия, които трябва да знаете и разбирате.)

Какво е Kudu?

Kudu е специален вид система за съхранение, която съхранява структурирани данни под формата на таблици. Всяка таблица има брой колони, които са предварително дефинирани. Всеки от тях има първичен ключ, който всъщност е група от една или повече колони от тази таблица. Този първичен ключ е направен за добавяне на ограничение и закрепване на колоните, а също така работи като индекс, което позволява лесно актуализиране и изтриване. Тези таблици са поредица от подмножества от данни, наречени таблети.

Какво е текущото състояние на Kudus?

Kudu е наистина добре разработен и вече е съчетан с много функции. Все пак ще се наложи известно полиране, което може да се направи по-лесно, ако потребителите предложат и направят някои промени.

Kudu е напълно отворен код и има лиценз за Apache Software 2.0. Той също така е предназначен да бъде представен на Apache, така че да може да бъде разработен като проект за инкубатор Apache. Това ще позволи развитието му да прогресира още по-бързо и допълнително да увеличи аудиторията си. След определен период от време, разработването на Kudu ще стане публично и прозрачно. Много компании като AtScale, Xiaomi, Intel и Splice Machine се обединиха, за да допринесат за развитието на Kudu. Kudu също има голяма общност, където голям брой аудитории вече предоставят своите предложения и принос. И така, хората са движещи развитието на Kudu напред.

Как може Kudu да допълва HDFS / HBase?

Kudu не е заместител на HDFS / HBase. Той всъщност е проектиран да поддържа както HBase, така и HFDS и да работи заедно с тях, за да увеличи функциите си. Това е така, защото HBase и HDFS все още имат много функции, които ги правят по-мощни от Kudu на определени машини. Като цяло подобни машини ще получат повече ползи от тези системи.

Характеристики на рамката Kudu

Основните характеристики на рамката Kudu са следните:

Изключително бързи сканирания на колоните на таблицата - Най-добрите формати на данни като Parquet и ORCFile се нуждаят от най-добрите процедури за сканиране, които се адресират перфектно от Kudu. Такива формати се нуждаят от бързо сканиране, което може да възникне само когато колонните данни са правилно кодирани.
Надеждност на работата - Рамката Kudu увеличава общата надеждност на Hadoop, като затваря много от вратичките и пропуските, налични в Hadoop.
Лесна интеграция с Hadoop - Kudu може да бъде лесно интегриран с Hadoop и различните му компоненти за по-голяма ефективност.
Напълно отворен код - Kudu е система с отворен код с лиценз Apache 2.0. Той има голяма общност от разработчици от различни компании и произход, които го актуализират редовно и дават предложения за промени.

Как може Kudu да промени екосистемата Hadoop?

Kudu е създаден, за да се впише в екосистемата на Hadoop и да подобри характеристиките си. Той може също да се интегрира с някои от ключовите компоненти на Hadoop като MapReduce, HBase и HDFS. Заданията MapReduce могат да предоставят данни или да вземат данни от таблиците на Kudu. Тези функции могат да се използват и в Spark. Специален слой прави някои компоненти на Spark като Spark SQL и DataFrame достъпни за Kudu. Въпреки че Kudu не е разработен толкова много, че да замени тези функции, се смята, че след няколко години той ще бъде достатъчно развит, за да го направи. Дотогава интеграцията между Hadoop и Kudu е наистина много полезна и може да запълни основните пропуски в екосистемата на Hadoop. (За да научите повече за Apache Spark, вижте как Apache Spark помага за бързото развитие на приложенията.)

Kudu може да бъде приложен на най-различни места. Някои примери за такива места са дадени по-долу:

Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

Поток на входове в почти реално време - На места, където трябва да се получат входни данни ASAP, Kudu може да свърши забележителна работа. Пример за такова място е в предприятията, където големи количества динамични данни се заливат от различни източници и трябва да бъдат бързо достъпни в реално време.
Приложения от времеви серии с различни модели на достъп - Kudu е идеален за приложения, базирани на времеви серии, тъй като е по-лесно да настроите таблици и да ги сканирате, като ги използвате. Пример за такова използване е в универсалните магазини, където трябва да се намерят стари данни и да се обработят бързо, за да се предскаже бъдещата популярност на продуктите.
Наследени системи - Много компании, които получават данни от различни източници и ги съхраняват в различни работни станции, ще се чувстват като у дома си с Kudu. Kudu е изключително бърз и може ефективно да се интегрира с Impala за обработка на данни на всички машини.
Предсказуемо моделиране - Учените за данни, които искат добра платформа за моделиране, могат да използват Kudu. Kudu може да се научи от всеки набор от данни, подадени в него. Ученият може да стартира и повторно пуска модела многократно, за да види какво се случва.

заключение

Въпреки че Kudu все още е в етап на разработка, той има достатъчно потенциал да бъде добра добавка за стандартни Hadoop компоненти като HDFS и HBase. Той има достатъчно потенциал за пълна промяна на екосистемата Hadoop чрез попълване на всички пропуски и добавяне на още някои функции. Освен това е много бърз и мощен и може да помогне за бърз анализ и съхранение на големи таблици с данни. Въпреки това, остава да се свърши малко работа, за да се използва по-ефективно.