Hadoop Analytics: Комбинирането на данни изисква източник-агностичен подход

Автор: Laura McKinney
Дата На Създаване: 1 Април 2021
Дата На Актуализиране: 16 Може 2024
Anonim
Hadoop Analytics: Комбинирането на данни изисква източник-агностичен подход - Технология
Hadoop Analytics: Комбинирането на данни изисква източник-агностичен подход - Технология


Източник: Agsandrew / Dreamstime.com

За вкъщи:

Изходно-агностичните методи са идеални за обработка на данни за Hadoop анализи.

Комбинирането на източници на данни в Hadoop е сложен бизнес. Някои от причините за това включват:

  • Персонализирани, специфични за източника скриптове, които комбинират източници на данни, са проблематични.
  • Използването на интеграция на данни или инструменти за наука за данни внася твърде голяма несигурност.
  • Добавянето на данни от външни източници е почти невъзможно.

Днес ще обсъдя как анализа на Hadoop се подобрява чрез източнично-агностични технологии, които улесняват комбинирането на вътрешни и външни източници на данни. Освен да опиша как действат източнично-агностичните методи, ще разкрия и защо Hadoop анализите се нуждаят от вградени възможности за интелигентност и трансфер на знания, разбиране на връзките и характеристиките на данните и мащабируема и високоефективна архитектура.



  • Източни-агностични методи включва гъвкав модел за разделителна способност на субекта, който позволява добавяне на нови източници на данни, използвайки статистически стабилни, повтарящи се процеси на науката за данни. Тези процеси използват алгоритми за събиране на знания от данните и оценка, анализ на тях, за да се определи най-добрият подход за интеграция.
    Независимо колко фрагментирани или непълни са оригиналните записи на източници, технологиите за анализиране на Hadoop трябва да бъдат източници на агностик и да могат да унифицират данни, без да променят или манипулират изходните данни. Тези технологии трябва също така да създават индекси на субекти въз основа на съдържанието на данни и атрибути за индивидите и как съществуват в света. За да постигнат това, те трябва да разберат съдържанието на данните, кон, структурата и как компонентите се свързват един с друг.
  • Вградена наука за данни и експертиза за интегриране на данни позволява да се изчистват, стандартизират и корелират данни с висока степен на точност и прецизност. Инструментите и отчетите за визуализация помагат на анализаторите да оценяват и да се учат от данни и да извършват настройка на системата въз основа на знания, получени от различни стъпки в процеса.
  • Разбиране на отношенията между образуванията води до по-точни процеси за разделяне на образувания. Тъй като субектите от реалния свят са не само сборът от техните атрибути, но и техните връзки, знанията за взаимоотношенията трябва да се използват за откриване, когато записите са еднакви. Това е особено важно за работа с ъглови случаи и големи данни.
  • Характеристика на данните подобрява анализа, разрешаването и свързването на данни чрез идентифициране и предоставяне на информация в рамките на източниците на данни. Той може да помогне за валидиране на съдържанието, плътността и разпределението на данните в колоните на структурирана информация. Характеризирането на данни може също да се използва за идентифициране и извличане на важни данни, свързани с образувания (име, адрес, дата на раждане и т.н.) от неструктурирани и полуструктурирани източници за връзка със структурирани източници.
  • Мащабируема, паралелна архитектура извършва анализи бързо, дори когато поддържа стотици структурирани, полуструктурирани и неструктурирани източници на данни и десетки милиарди записи.

Hadoop променя начина, по който светът извършва анализи. Когато към екосистемите на Hadoop се добавят нови аналитични източници за анализ, организациите могат да свържат точките в много вътрешни и външни източници на данни и да получат прозрения, които не са били възможни преди.


Тази статия е първоначално публикувана в Novetta.com. Тук е разрешено с разрешение. Novetta запазва всички авторски права.