Как са структурирани вашите данни? Разглеждане на структурирани, неструктурирани и полуструктурирани данни

Видео: ASOCEU BULGARIA - Lesson 2 - Research Methods: Primary Data

Съдържание

Какво са структурирани данни?
Какво са неструктурирани данни?
Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви
Попадане между: Полуструктурирани данни
Могат ли неструктурирани данни да се трансформират в структурирани данни?

Източник: monsitj / iStockphoto

За вкъщи:

Научете за структурирани, неструктурирани и полуструктурирани данни.

В исторически план анализаторите на данни са били в състояние да дешифрират и извличат информация само от един тип данни: структурирани данни. Този тип данни бяха лесно за търсене поради ясните си модели, но представляваха малък процент от общите налични данни.

Неструктурираните данни включват видео, аудио, s и данни, идващи и от социални медии и мобилни устройства. Това беше, с ръце надолу, най-големият запас от сурова информация, но все пак никой не успя да използва надеждно този ресурс.

Нещата обаче се промениха, тъй като увеличената наличност на съхранение и превъзходните възможности за обработка породиха неструктурирана анализа на данни - нова и следователно незряла форма на технологията. По-доброто бизнес разузнаване се възползва максимално от тази възможност и се правят значителни инвестиции за обобщаване на структурирана и неструктурирана анализа на данни за достъп до тази очевидно безкрайна златна мина.

Нека разгледаме тези два формата на данни, за да разберем различията им и какво има бъдещето за всички анализатори на данни.

Какво са структурирани данни?

Структурираните данни са генерирана от човека или машина и високо организирана информация, която може лесно да се съхранява в редови бази данни, известни като релационни бази данни (RDBs). Това е всичко, което съществува във формат, който може лесно да бъде улавян, съхраняван и организиран в RDB структура, която да бъде анализирана по-късно. (За да научите повече за базите данни, вижте нашето Въведение в базите данни.)

Примерите включват пощенски кодове, телефонни номера и демографски данни на потребители, като възраст или пол. Данните, открити в тези бази данни, могат да бъдат заявени с функции на структуриран език за заявки (SQL) или VLOOKUP функции в електронните таблици на Excel. Алгоритмите могат също да бъдат направени за бързо търсене на данни, открити в различните полета, като се използват техните индекси или техните числови и азбучни данни. Всички данни обаче са строго дефинирани по отношение на типа и името на полето и по този начин способността да се съхраняват, запитва и анализира е ограничена до известна степен.

Типичните приложения, които използват структурирани данни, включват софтуер за управление на болници, приложения за управление на взаимоотношения с клиенти (CRM) и резервационни системи на авиокомпаниите. Поради своята чиста организация и лесна достъпност, структурираните данни са полезни и ефективни при работа с голям обем информация. Когато пробивате черното масло, скрито в безкрайното количество данни, произвеждани всеки ден от човечеството, обаче търсенето на структурирани данни не е нищо друго, освен драскане на повърхността.

Какво са неструктурирани данни?

По-голямата част от данните, открити в дадена организация, са неструктурирани и някои я оценяват като до 80 процента от общите налични данни в момента. По дефиниция неструктурираните данни са всичко, което няма идентифицируема вътрешна структура. Някои видове данни обаче попадат в тази категория имам някаква форма на неясна вътрешна структура, но тя не съответства на база данни или електронна таблица.

Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

Повечето бизнес данни са неструктурирани, вариращи от взаимодействия с обслужване на клиенти, файлове, уеб регистри, видео и друго мултимедийно съдържание, автоматизация на продажбите, публикации в социалните медии. Няма нужда да се обяснява колко ценни биха могли да бъдат тези данни, ако могат да бъдат извлечени, организирани и анализирани.

Повечето неструктурирани данни се генерират от хората и по този начин се правят да бъдат разбрани от други хора. Това означава, че по-чистата компютърна интелигентност не разбира този тип информация, тъй като е твърде далечна от линейността на машинния език и структурираните бази данни.

Попадане между: Полуструктурирани данни

Полуструктурирани данни са трети тип данни, които представляват много по-малко парче от целия пай (5-10 процента). Буквално попаднали между двата свята, полуструктурираните данни съдържат вътрешни семантични маркери и маркировки, които идентифицират отделни елементи, но липсва структурата, необходима за поместване в релационна база данни.

Например, s може да изглежда като структурирани данни, тъй като те могат да бъдат категоризирани по дата, размер на файла или време. Те обаче не са, тъй като най-ценната информация е намерената в тях, а не нейните сравнително прости етикети. не може да бъде наистина подреден по съдържание и тема, тъй като хората не говорят по толкова строги модели, за да може машината да ги разбере недвусмислено. Други примери за полуструктурирани данни включват NoSQL бази данни, отворен стандарт JSON и език за маркиране XML.

Полуструктурираните данни обикновено се питат и катализират за анализ, като се използва анализ на метаданни. Например, рентгеновото сканиране се състои от огромен брой пиксели, които образуват изображението - които са по същество неструктурирани данни, които не могат да бъдат достъпни. Файлът за сканиране обаче все пак ще включва част от метаданни, която предоставя информация за него, като пояснения и идентификационен номер на потребителя.

Могат ли неструктурирани данни да се трансформират в структурирани данни?

Основното предизвикателство, пред което трябва да се изправи всеки анализатор на данни, е да организира информацията под ръка по чист, подреден начин, така че да може да се получи достъп до нея и да се разбере. Инструментите за извличане на данни обикновено не са оборудвани за анализиране на информация, която по дефиниция е твърде близка на човешкия език, което означава, че само друг човек може да я събира и категоризира.

Въпреки това, големият обем от неструктурирани данни прави всеки опит за съхраняването или организирането му изключително трудоемък и скъп. Пулът от информация, идваща от, да речем, уеб-базирана търсачка е толкова масивен, че повечето елементи изискват огромни инвестиции по отношение на работа и ресурси, само за да извлекат най-основните. Дори и най-ефективните техники за извличане на данни все още пропускат значително количество информация, открита в мрежата и, още по-лошо, в дълбоката мрежа.

Но техниките съществуват. И те се развиват с невероятна скорост. Например метаданните могат да се използват за свързване на структурирани и неструктурирани данни заедно. Събраната информация може да бъде филтрирана и индексирана както от потребители, така и от алгоритми, както и просто да се анализират съответните данни. Други решения включват „обработка на данни“, което е процес, чрез който сложните данни се организират постепенно стъпка по стъпка от нетехническите потребители. (За повече информация за обикновените потребители, които обработват данни, вижте как големите данни могат да помогнат в Google Анализ за самообслужване.)

В един момент ще можем ефективно да трансформираме тези масово неорганизирани количества информация в по-организиран и преструктуриран формат. Може би не днес, може би не утре, но скоро ще можем да нахлуем в най-големия свод, който човечеството някога е виждало: големи данни.