Оперативен Hadoop в архитектурата на данните от ново поколение

Съдържание

Какво е архитектура на данни от ново поколение?
Очаквания от Hadoop в контекста на архитектурата от ново поколение
Какви стойности може да добави Hadoop към архитектурата на данните от ново поколение?
Подобрена производителност като архитектура на корпоративни данни
Разлика между Hadoop и други технологии
заключение

Източник: Romeo1232 / Dreamstime.com

За вкъщи:

Hadoop ще бъде ключов играч в архитектурата на данни от ново поколение поради способността си да борави с огромно количество данни.

Полезността на Hadoop започва да надхвърля големи обработки на данни и анализи, тъй като индустрията започва да изисква повече от нея. Hadoop постоянно се грижи за различни изисквания, свързани с архитектурата на корпоративните данни, като запазва първоначалните си силни страни. Списъкът с това, което Hadoop може да прави и в момента прави, е доста дълъг. Hadoop вече е в състояние да обработва огромни обеми транзакционни натоварвания, задача, която преди се очакваше от традиционните технологии. Ако вървим напред, има много възможности за Hadoop в бъдеще. Например транзакционните системи, базирани на SQL, могат да използват Hadoop SQL двигател и Hadoop също ще добави много RDBMS възможности. Можете да кажете, че Hadoop се превръща в хибрид за обработка на данни и аналитични възможности с възможности за корпоративна архитектура.

Какво е архитектура на данни от ново поколение?

По-просто казано, архитектурата на данни от ново поколение е развита форма на архитектура на данни. Всичко, включително модели на данни, политики за данни, правила и стандарти, които уреждат начина, по който данните се събират, съхраняват, подреждат, анализират или обработват, интегрират, използват и разпределят, се е развило в архитектурата на данни от следващо поколение.

Основната разлика между по-ранната архитектура на данните и архитектурата на данните от ново поколение е способността на последното да събира, съхранява и обработва огромни обеми от данни, известни също като големи данни, в реално време. Архитектурата изпълнява всички тези сложни задачи, без да се компрометира със стандартите за поверителност, сигурност и управление на данните.

Архитектурата на данните от ново поколение е изправена пред много предизвикателства. Не е лесно да се справите с обема, скоростта и разнообразието от големи данни. Към това добавете изискванията за оптимизиране на натовареността на системата, подобряване на производителността, бързина и точност и намаляване на разходите. Излишно е да казвам, че предишната архитектура на данни не трябваше да управлява подобни изисквания.

Така че CIO и информационните архитекти искат да намерят решение, което да им помогне да постигнат целите си. Operational Hadoop е фокусиран от известно време в тази връзка. Следващите раздели ще разгледат как оперативният Hadoop може да реши проблеми.

Очаквания от Hadoop в контекста на архитектурата от ново поколение

Компаниите са под все по-голям натиск за постигане на по-добри резултати и ефектите намаляват спрямо очакванията, поставени върху технологиите. Така че, от Hadoop вече не се очаква само да обработва данни. CIO и CTO искат повече от Hadoop. Дадено по-долу е списък на очакванията от Hadoop. Всъщност Hadoop вече постигна някои от тези очаквания.

Очаква се Hadoop да работи със системи за транзакции, които са базирани на SQL и имат възможности за създаване, четене, актуализиране и изтриване. Системите за транзакции ще използват механизма на SQL. Системите също така ще имат пълно съответствие на интерфейса на портативната операционна система (POSIX) и възможност за обработка на големи обеми на транзакции.

Очаква се Hadoop да поддържа функции като резервно копие, поносимост на грешките, възстановяване и възстановяване след бедствия. За да се развие Hadoop в система с възможности за RDBMS, тя трябва да е съвместима със съществуващите ИТ инструменти.

Hadoop вече работи върху изпълнението на очакванията, както е видно от някои развития. Hadoop може да предостави анализ в реално време и бързи отговори въз основа на поддръжката за управление на ресурсите, осигурена от YARN. YARN е мащабна и разпределена операционна система за приложения за големи данни в допълнение към това, че е мениджър на ресурси. Известно е, че други разработки като тази на Apache Storm, разпространени в архитектурата на памет като Apache Spark, Apache Hive, Drill и MapR-FS (високопроизводителна подмяна на HDFS), за да предлагат различни пълни възможности на базата данни, като резервно копие, възстановяване при бедствия, толерантност на повреди и др. (За повече информация относно YARN, вижте Какви са предимствата на рамката Hadoop 2.0 (YARN)?)

Какви стойности може да добави Hadoop към архитектурата на данните от ново поколение?

Стойностите, които оперативният Hadoop може да добави към архитектурата на данни от ново поколение, могат да се разглеждат от две перспективи: една, дали отговаря на очакванията, описани по-горе, и две, дали прави нещо допълнително. Дадени по-долу са важните стойности, които оперативният Hadoop може да донесе.

Hadoop вече е в състояние да осигури по-голяма мащабируемост и управляемост на данните в своята платформа чрез HDFS. А операционната система за данни е била активирана чрез приложенията на Hadoop за ПРЕДАВАНЕ. Тази стратегия представлява промяна в архитектурата на данните на фундаментално ниво. Сега Hadoop може да съхранява различни видове данни като ориентирани към транзакции бази данни, графични бази данни и бази данни за документи и тези данни могат да бъдат достъпни чрез YARN приложения. Не е необходимо дублирането или преместването на данните на други места.

Подобрена производителност като архитектура на корпоративни данни

Operational Hadoop е на път да се превърне в основната система на архитектурата на корпоративните данни. Тъй като Hadoop навлиза повече в архитектурата на корпоративните данни, силозите на данни ще бъдат премахнати, тъй като линиите между тях са елиминирани. Ще има бързо подобрение в почти всички аспекти. Подобренията ще се осъществят под формата на по-ефективни файлови формати, по-добра производителност на SQL двигателя, подобрени файлови системи и стабилност, които ще задоволят нуждите на корпоративните приложения.

Разлика между Hadoop и други технологии

В миналото основната разлика между Hadoop и технологиите за обработка на данни беше големите възможности за обработка на данни, отчитане и анализиране на Hadoop. Сега, тъй като оперативният Hadoop става все повече част от архитектурата на корпоративните данни, разликата между образуванията става все по-размита. И така, оперативният Hadoop се очертава като превъзходна алтернатива на съществуващата корпоративна архитектура на данни.

заключение

Предвид очакванията и напредъка, Hadoop ще бъде във фокуса на индустрията от доста време. Но има смисъл да не се фокусираме твърде много върху Hadoop и просто да игнорираме други технологии. Това е така, защото други технологии ще постигнат напредък по същите параметри и може дори да изпреварят Hadoop. Никога не е добре да имаш монопол на пазара. Добре е, че производителите на други технологии, различни от Hadoop, могат да бъдат мотивирани да доставят по-добри продукти и дори плъгини, които помагат на Hadoop да подобри своята производителност.