5 ключови области, в които големите данни оказват голямо въздействие

Видео: #Buckfast или #Karnika ще стане #1 в света? Топ 5 критерии за размножаване на пчели в ACA - Част # 2

Съдържание

Как се случи
Големи данни, голяма възможност
Нещо за гледане

Източник: Nmedia /Dreamstime.com

За вкъщи:

Големите данни са голям бизнес навсякъде, но няколко специфични области използват тази технология най-много.

Когато стартирах тази статия, планирах да изброя различните видове големи платформи за данни. Но след три дни на опит да извадя всички различни предложения за големи данни - релационни срещу нерелационни, SQL срещу NoSQL и база данни срещу рамка - в някакво подобие на ред, реших да избегна тази бъркотия.

За да добавя обида към нараняването, се надявах да въведа човека, който въвел термина "големи данни", като част от статията. Но дори не мога да го направя. Няма съгласуван отговор. Всъщност има цялостен изследователски проект, който проучва кой излезе с големи данни първоначално. Вместо това ще разгледам някои от основните начини за използване на големи данни. Това е много по-важно. И е по-интересното му и изненадващо, отколкото може би си мислите.

Как се случи

Анализатори, използващи традиционното извличане на данни, манипулират данните от години. На същите тези анализатори сега е трудно да се справят с количеството и разнообразието от данни, които се спестяват от бизнеса, частните организации и правителствените агенции.

Въведете големи данни, следващата еволюционна стъпка в извличането на данни. Големите данни са проектирани да обработват огромните бази данни и безброй типове данни, създадени в днешния дигитален свят. Ако „масово“ мислите ли за Google и всички данни, които събира, ще бъдете в топката. Това, което може да ви изненада, е, че Google е едва на четвърто място в списъка на десетте най-големи бази данни в света. От януари 2014 г. Световният център за климатични данни оглави списъка с 220 терабайта данни и се досещате кой е размерът на базите данни, контролирани от определени правителствени агенции.

Разбира се, големите данни излетяха, защото това позволява да се манипулират огромни количества различни данни и да се открият невероятни - и невероятно подробни и лични - неща. Джон Съмър, анализатор на човешките ресурси, предоставя следния пример:

"Днес създаваме хипотези и събираме данни. Утре ще правим обратното. Постоянното, постоянно натрупване на данни ще ни позволи да разгледаме данните, преди да формираме въпроси. Това означава, че ще получаваме отговори на въпроси, които не сме правили" не знам да питам. Ще мислим за куп неща, за които приемаме, че са факти. "

Разбира се, всички сме чували за някои страховити начини, по които тези данни са били използвани, като способността на Targets да различава бременността на млада жена, преди семейството й дори да разбере. Но големите данни се използват и за много по-малко зловещи причини. Ето няколко организации, които го използват най-много:

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

Една очевидна област от големи данни ще помогне да се работи с електронни здравни записи безопасно и точно в медицинските организации. Наличието на точни записи ще осигури на пациентите по-добро обслужване и ще намали грешките. По очевидни причини здравната сфера адаптира големи данни с по-бавни темпове, за да се съобрази с правителствените разпоредби относно поверителността на пациентите.

Както бе споменато по-рано, големите данни са известни за предоставяне на отговори на незададени въпроси. В областта на здравеопазването това може да означава намиране на ново лекарство или лечение, които не биха били намерени по друг начин. Според McKinsey & Company големите данни биха могли да направят следното възможно в не толкова далечното бъдеще:

Предсказуемото моделиране на биологичните процеси и лекарства става по-сложно и широко разпространено.
Пациентите са идентифицирани да участват в клинични изпитвания въз основа на повече източници на информация, като например социални медии.
Изследванията се наблюдават в реално време за бързо идентифициране на проблеми с безопасността или експлоатацията.
Вместо твърди силози за данни, които са трудни за експлоатация, данните се улавят по електронен път и протичат лесно между различни единици.

Големи данни, голяма възможност

Докато големите данни се използват в някои специфични области, той предлага възможност за всички организации в следните области:

Почти за всяко регистриране на данни в компютърните и мрежовите устройства. Количеството данни, което се регистрира, бързо става неудобно. Големите данни могат лесно да управляват това количество данни, което позволява на администраторите да наблюдават мрежовата активност, да диагностицират проблеми или в примера, който ми даде Рубин, да търсят определени модели на мрежовия трафик, които биха посочили активност на злонамерен софтуер.

Ако четете тази статия, това е доста безопасен залог, че сте запознати с проблема с Heartbleed около OpenSSL. Освен техническия проблем, съществува опасението, че уязвимостта съществува от няколко години. Рубин спомена, че големите данни позволяват на мрежовите администратори, работещи с анализатори на данни, да създадат програма, която да търси във всички мрежови дневници за злонамерени сърдечни пулси. В този пост на EFF се споменава:

„Всички мрежови оператори, които имат обширни дневници за пакети, могат да проверяват за злонамерени сърдечни пулси, които най-често имат TCP полезен товар от 18 03 02 00 03 01 или 18 03 01 00 03 01 (или може би дори 18 03 03 00 03 01).“

Следният пример е извадка от извадката от командата show одит:

Router # show одит

* 14 септември 18: 37: 31.535:% AUDIT-1-RUN_VERSION: Hash:

24D98B13B87D106E7E6A7E5D1B3CE0AD Потребител:

* 14 септември 18: 37: 31.583:% AUDIT-1-RUN_CONFIG: Hash:

4AC2D776AA6FCA8FD7653CEB8969B695 Потребител:

* 14 септември 18: 37: 31.595:% AUDIT-1-STARTUP_CONFIG: Hash:

95DD497B1BB61AB33A629124CBFEC0FC Потребител:

* 14 септември 18: 37: 32.107:% AUDIT-1-FILESYSTEM: Hash:

330E7111F2B526F0B850C24ED5774EDE Потребител:

* 14 септември 18: 37: 32.107:% AUDIT-1-HARDWARE_CONFIG: Hash:

32F66463DDA802CC9171AF6386663D20 Потребител:

Ако следвате времевите марки, интервалът от време за всички тези записи беше по-малък от една секунда. Не бих искал дори да екстраполирам това за един ден, камо ли за две години!

Нещо за гледане

Ако проверявате обявите за работа, има голяма нужда от експерти по големи данни. Попитах Рубин за това. Той се съгласи, споменавайки, че студентите му се вълнуват от перспективите им. Тогава разбрах, че големите платформи за данни, по-специално тези, които се считат за отворен код, следват времева линия, много подобна на това как Linux стана мейнстрийм.

Университетите приемат версии с отворен код на платформи с големи данни, по-специално Hadoop, тъй като те са безплатни и студентите могат да манипулират изходния код. Така завършилите, които попълнят всички тези работни места, предпочитат да работят с платформи с отворен код, тъй като това е, което те знаят най-добре. Ще бъде интересно да гледате.