Защо искрата е платформата за големи данни за бъдещето

Видео: Как ще се Промени Света до 2050г? . Бъдещето на Роботите.

Съдържание

Какво представлява искра Apache?
Защо искрата е толкова важна за Hadoop
Какви са искрите уникални функции?
Защо искрата не е заместител на Hadoop
Какво мислят компаниите за Spark и Hadoop
Практически реализации
заключение

Източник: Snake3d / Dreamstime.com

За вкъщи:

Apache Spark е инструмент с отворен код за обработка на големи данни, който е пълзящ върху (и в някои отношения надминаващ) Hadoop.

Apache Hadoop отдавна е основата за приложения за големи данни и се счита за основна платформа за данни за всички предложения, свързани с големи данни. Въпреки това, базата данни и изчисленията в паметта набират популярност поради по-бързата производителност и бързите резултати. Apache Spark е нова рамка, която използва вградените памет възможности за бърза обработка (почти 100 пъти по-бърза от Hadoop). Така продуктът Spark все повече се използва в свят на големи данни и главно за по-бърза обработка.

Какво представлява искра Apache?

Apache Spark е рамка с отворен код за обработка на огромни обеми от данни (големи данни) със скорост и простота. Подходящ е за приложения за анализи, базирани на големи данни. Искрата може да се използва с Hadoop среда, самостоятелна или в облака. Той е разработен в Калифорнийския университет, а по-късно се предлага на софтуерната фондация Apache. По този начин той принадлежи към общността с отворен код и може да бъде много рентабилен, което допълнително позволява на любителските разработчици да работят с лекота. (За да научите повече за отворения код на Hadoops, вижте какво е влиянието на отворения код върху екосистемата Apache Hadoop?)

Основната цел на Spark е, че предлага на разработчиците рамка за приложения, която работи около центрирана структура на данни. Spark също е изключително мощен и има вродената способност бързо да обработва огромни количества данни за кратък период от време, като по този начин предлага изключително добри резултати.Това го прави много по-бърз от това, за което се твърди, че е най-близкият му конкурент - Hadoop.

Защо искрата е толкова важна за Hadoop

Apache Spark винаги е бил известен с това, че коства Hadoop в няколко функции, което вероятно обяснява защо той остава толкова важен. Една от основните причини за това би била да се вземе предвид скоростта на обработката му. Всъщност, както вече беше посочено по-горе, Spark предлага около 100 пъти по-бърза обработка от MapReduce на Hadoop за същото количество данни. Той също така използва значително по-малко ресурси в сравнение с Hadoop, като по този начин го прави икономически ефективен.

Друг ключов аспект, при който Spark има предимство, е по отношение на съвместимостта с мениджъра на ресурси. Известно е, че Apache Spark работи с Hadoop, точно както прави MapReduce, но в момента последният е съвместим само с Hadoop. Що се отнася до Apache Spark обаче, тя може да работи с други мениджъри на ресурси като YARN или Mesos. Учените за данни често цитират това като една от най-големите области, в които Spark наистина надминава Hadoop.

Когато става въпрос за лекота на използване, Spark отново се оказва много по-добър от Hadoop. Spark има API за няколко езика като Scala, Java и Python, освен че има харесвания на Spark SQL. Сравнително лесно е да се напишат зададени от потребителя функции. Случва се също така да се похвалите с интерактивен режим за изпълнение на команди. От друга страна, Hadoop е написан на Java и си спечели репутацията на доста трудно програмиране, въпреки че има инструменти, които помагат в процеса. (За да научите повече за Spark, вижте как Apache Spark помага за бързото развитие на приложения.)

Какви са искрите уникални функции?

Apache Spark има някои уникални функции, които наистина го отличават от много от конкурентите му в бизнеса с обработка на данни. Някои от тях са описани накратко по-долу.

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

Spark също има вродена способност да зарежда необходимата информация в сърцевината си с помощта на своите алгоритми за машинно обучение. Това позволява да бъде изключително бърз.

Apache Spark се предлага с възможност за обработка на графики или дори информация с графичен характер, като по този начин дава възможност за лесен анализ с много точност.

Apache Spark има MLib, което е рамка, предназначена за структурирано машинно обучение. Освен това той е предимно по-бърз в изпълнение от Hadoop. MLib също е в състояние да реши няколко проблема, като например статистическо отчитане, вземане на проби от данни и тестване на помещения, за да назовем само няколко.

Защо искрата не е заместител на Hadoop

Въпреки факта, че Spark има няколко аспекта, при които тръпва с ръце Hadoop, все още има няколко причини, поради които той все още не може да замести Hadoop.

Първо, Hadoop просто предлага по-голям набор от инструменти в сравнение с Spark. Той също има няколко практики, които са признати в индустрията. Apache Spark обаче все още е сравнително млад в областта и ще трябва известно време, за да се изравни с Hadoop.

MapReduce на Hadoop също определи определени отраслови стандарти, когато става въпрос за провеждане на пълноценни операции. От друга страна, все още се смята, че Spark не е напълно готов да работи с пълна надеждност. Често организациите, които използват Spark, се нуждаят от фина настройка, за да бъдат готови за техния набор от изисквания.

MapReduce на Hadoop също е по-лесно да се конфигурира. Не е така обаче при Spark, като се има предвид, че предлага изцяло нова платформа, която наистина не е изпробвала груби кръпки.

Какво мислят компаниите за Spark и Hadoop

Много компании вече започнаха да използват Spark за своите нужди за обработка на данни, но историята не свършва дотук. Той със сигурност има няколко силни аспекта, които го правят невероятна платформа за обработка на данни. Въпреки това той идва и със своя справедлив дял недостатъци, които се нуждаят от коригиране.

Това е индустриална представа, че Apache Spark е тук, за да остане и дори евентуално бъдещето за нуждите за обработка на данни. Въпреки това тя все още трябва да се подложи на много разработки и полиране, което ще й позволи наистина да използва потенциала си.

Практически реализации

Apache Spark е бил и все още се използва от много компании, които отговарят на техните изисквания за обработка на данни. Едно от най-успешните имплементации бе извършено от Shopify, който се стремеше да избере подходящи магазини за бизнес сътрудничество. Въпреки това, неговият склад за данни продължи да изтича, когато искаше да разбере продуктите, които клиентите му продават. С помощта на Spark компанията успя да обработи няколко милиона записа на данни и след това да обработи 67 милиона записа за няколко минути. Той също определи кои магазини отговарят на условията.

Използвайки Spark, Pinterest е в състояние да идентифицира развиващите се тенденции и след това го използва, за да разбере поведението на потребителите. Това допълнително дава възможност за по-добра стойност в общността на Pinterest. Spark се използва и от TripAdvisor, един от най-големите световни сайтове за информация за пътуване, за да ускори своите препоръки към посетителите.

заключение

Не може да се съмнявам в умението на Apache Spark, дори в момента и уникалния набор от функции, които носи на масата. Неговата мощност и скорост на обработка, заедно със съвместимостта, задава тона за няколко неща, които предстоят в бъдеще. Той обаче има и няколко области, които трябва да подобри, за да реализира истински пълния си потенциал. Докато Hadoop все още управлява изданието в момента, Apache Spark предстои светло бъдеще и мнозина се счита за бъдещата платформа за изискванията за обработка на данни.