Може ли някога да има твърде много данни в големите данни?

Видео: Laser cleaning a rusty Range Rover chassis - Edd China’s Workshop Diaries 42

Съдържание

Q:

A:

Отговорът на въпроса е силно ДА. Абсолютно може да има твърде много данни в голям проект за данни.

Има много начини, по които това може да се случи, и различни причини, поради които професионалистите трябва да ограничават и лекуват данни по всякакъв брой начини, за да получат правилните резултати. (Прочетете 10 големи мита за големите данни.)

По принцип експертите говорят за разграничаване на "сигнала" от "шума" в даден модел. С други думи, в море от големи данни, съответните данни за поглед стават трудни за насочване. В някои случаи търсите игла в сено.

Да предположим, например, че една компания се опитва да използва големи данни, за да генерира конкретна информация за сегмент от клиентска база и техните покупки за определен период от време. (Прочетете Какво правят големите данни?)

Приемането на огромно количество активни данни може да доведе до поемането на случайни данни, които не са от значение, или дори може да доведе до пристрастие, което преглежда данните в една или друга посока.

Това също забавя драстично процеса, тъй като изчислителните системи трябва да се борят с все по-големи и по-големи масиви от данни.

В толкова много различни видове проекти е изключително важно инженерите на данни да обработват данните в ограничени и специфични набори от данни - в горния случай това ще бъдат само данните за този сегмент от клиенти, който се изследва, само данните за това време кадър, който се изучава, и подход, който премахва допълнителни идентификатори или основна информация, които могат да объркат нещата или да забавят системите. (Роля на ReadJob: Инженер на данни.)

За повече, нека разгледаме как става това в границите на машинното обучение. (Прочетете машинно обучение 101.)

Експертите за машинно обучение говорят за нещо, наречено „преоборудване“, при което прекалено сложният модел води до по-малко ефективни резултати, когато програмата за машинно обучение се разхлаби при нови производствени данни.

Преобличането се случва, когато сложен набор от точки от данни съвпадат твърде добре с първоначалния набор за обучение и не позволяват на програмата лесно да се адаптира към новите данни.

Технически понастоящем свръхфитинга се причинява не от наличието на твърде много извадки от данни, а от коронацията на твърде много точки от данни. Но бихте могли да твърдите, че наличието на твърде много данни може също да допринесе за този тип проблеми. Справянето с проклятието на измерението включва някои от същите техники, които са правени в по-ранни проекти за големи данни, както професионалистите се опитваха да определят с какво се хранят ИТ системите.

Изводът е, че големите данни могат да бъдат изключително полезни за компаниите или могат да се превърнат в голямо предизвикателство. Един от аспектите в това е дали компанията разполага с точните данни. Експертите знаят, че не е целесъобразно да се изхвърлят всички активи на данни в бункер и да се изяснят по този начин - в новите, създадени в облак и усъвършенствани системи за данни, има усилия за контрол и управление и обработка на данните, за да се получат по-точни и ефективно използване извън активите на данни.