Каква е разликата между големите данни и Hadoop?

Автор: Judy Howell
Дата На Създаване: 5 Юли 2021
Дата На Актуализиране: 23 Юни 2024
Anonim
Machine Learning with Python! Mean Squared Error (MSE)
Видео: Machine Learning with Python! Mean Squared Error (MSE)

Съдържание

Q:

Каква е разликата между големите данни и Hadoop?


A:

Разликата между големите данни и програмата с отворен код Hadoop е различна и основна. Първият е актив, често сложен и двусмислен, докато вторият е програма, която осъществява набор от цели и задачи за справяне с този актив.

Големите данни са просто големите масиви от данни, които бизнесът и другите страни събират, за да обслужват конкретни цели и операции. Големите данни могат да включват много различни видове данни в много различни видове формати. Например фирмите могат да положат много работа за събиране на хиляди части от данни за покупки във валутни формати, за идентификатори на клиенти като име или номер на социално осигуряване или за информация за продукта под формата на номера на модели, номера на продажби или инвентарни номера. Всичко това или всяка друга голяма маса информация може да се нарече големи данни. По правило той е суров и несортиран, докато не бъде поставен чрез различни видове инструменти и манипулатори.

Hadoop е един от инструментите, предназначени за работа с големи данни. Hadoop и други софтуерни продукти работят за интерпретиране или анализиране на резултатите от търсенето на големи данни чрез специфични собствени алгоритми и методи. Hadoop е програма с отворен код под лиценза на Apache, която се поддържа от глобална общност от потребители. Тя включва различни основни компоненти, включително MapReduce набор от функции и разпределена файлова система Hadoop (HDFS).


Идеята зад MapReduce е, че Hadoop може първо да картографира голям набор от данни и след това да извърши намаление на това съдържание за конкретни резултати. Функцията за намаляване може да се мисли като вид филтър за необработени данни. След това системата HDFS действа за разпространение на данни в мрежа или мигриране при необходимост.

Администраторите, разработчиците на базата данни и други могат да използват различните функции на Hadoop за справяне с големи данни по произволен начин. Например, Hadoop може да се използва за преследване на стратегии за данни като групиране и насочване с нееднакви данни или данни, които не се вписват добре в традиционната таблица или отговарят добре на прости запитвания.