Как големи данни стават по-малки

Видео: ПОРУГАЛИСЬ...Кто КРУЧЕ???Tisha and Dania ride a children’s motorcycle in the HOUSE.

Съдържание

Как данните стават по-малки
Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви
Инструменти на търговията
Големи данни, голям потенциал

За вкъщи:

Как да събираме и анализираме големи данни е само едната страна на уравнението; другото е как да го разберем.

На 4 октомври 2012 г. Марк Зукърбърг обяви, че е достигнал основен момент: 1 милиард активни потребители. За да постави това под въпрос, той каза на интервюиращ, че единствените други компании с 1 милиард клиенти са „вероятно Coca Cola и McDonalds“.

Това е само един пример за много големия брой предприятия, с които сега трябва да се справят. Числата са толкова големи, че повечето хора наистина не могат да ги прегърнат, така да се каже. Това, което се случва е, че тези числа стават абстракции. Те са толкова големи, просто не са истински за нас.

Към това добавете факта, че всеки ден обработваме и съхраняваме повече и повече информация и се оказваме, че почти не можем да се справим както с количеството данни, така и с размера на отделните стойности. Google обработва около 24 петабайта на ден, докато видеоиграта "World of Warcraft" използва 1,3 петабайта за съхранение, за да поддържа играта си.

Сега това са големи числа. Проблемът тогава става не само как да се справим с толкова огромни количества данни, но и как да ги разберем. За щастие, помощта идва от различни посоки в тези области. (Вземете някаква информация за това колко големи данни се използват за тази инфографика, Хуманизиране на големи данни.)

Как данните стават по-малки

През последните няколко години бащата на световната мрежа, сър Тим Бърнърс-Ли, активно води кампания за отворени данни, която се определя като данни, които са достъпни за всеки да изследват и анализират. Във видеоклип на TED, Бърнърс-Лий дава примери как достъпът до данни е довел до излагането на расизъм в Охайо и е помогнал за осигуряването на така необходимото здравеопазване на бежанските лагери в Хаити.Ясно е, че това са приложения, при които данните са преминали от абстракция към действителност.

Може би най-известният разработчик на методи за представяне на статистически данни в лесна за разбиране графика е Ханс Рослинг. Програмата му Gapminder, софтуер, който преобразува международната статистика в движеща се, интерактивна графика, е достъпен за изтегляне на всички разновидности на персонални компютри. (Можете да намерите някои страхотни примери за това как се използва в този TED разговор. Развитието на Gapminder се обсъжда на друг разговор.) Забравете диаграмите на пай: Този софтуер представя статистически данни не само по начин, който има смисъл, но по този начин прави впечатление , Никога няма да получите goosebumps от статистиката на книгите, но тези графични пакети достатъчно удар, за да ви взриви ума.

Докато Рослинг е професор, който добре познава статистиката, Дейвид МакКандлесс е журналист, който едва наскоро се заинтересува от дизайна на методи за представяне на анализ на данни по начин, който наистина информира. Неговата беседа за TED представя примери за визуализации на данни от такива разнообразни проучвания като обществени притеснения относно видеоигрите, ефективността на витаминните добавки и романтичните разпадания по сезон и месец. За McCandless данните представляват уникална нова посока в журналистиката и начин за изследване на тема и предоставяне на представа по начин, който никога досега не е бил възможен. (Можете да разгледате някои наистина невероятни примери как това се прилага в Наръчника за журналистика на данни.)

Крис Джордан предприема различен подход. За разлика от Рослинг и Маккандълс, Джордан рисува върху своя произход като художник, за да представи информация по теми като смъртни случаи от тютюнопушене, затворнически арести, наркомании с рецепта и други основни проблеми по начин, който е красив и силен. Нейната информация - или данни - като изкуство и, в случая на Джорданс, някои доста силни политически коментари. (Можете да проверите работата на Джорданс тук.)

Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

Джордан, Рослинг и Маккандлесс са само три от многото хора, които се опитват да използват смислено големите данни, които сега съществуват в света, но тази група пионери с големи данни нараства.

Инструменти на търговията

Преди да можем да превърнем данните в нещо полезно, първо трябва да го осмислим. Трябва да се създадат инструменти, които да осмислят масовото разширяване на фактите и данните, генерирани всяка година от учени, преподаватели и предприятия. Проучване на IDC, спонсорирано от EMC през 2011 г., показа, че данните се удвояват постоянно и това отнема по-малко от две години всеки път. Освен това проучването посочва, че през 2011 г. ще бъдат създадени и повторени колосални 1,8 зеттабайта.

Зетабайат?

Да, това е 1000 екзабайта, а екзабайт е 1000 петабайта (което може би си спомняте, е 1000 терабайта, което от своя страна е 1000 гигабайта).

Сега има номер, който е труден за поставяне на ръце! Проучването EMC се опитва да го постави под въпрос, като предоставя някои интересни примери за това, което 1.8 zettabytes е еквивалентно на:

Всеки човек в Съединените щати туитира три туита в минута за 26 976 години нонстоп
Всеки човек в света има над 215 милиона ЯМР сканиране с висока разделителна способност на ден
Над 200 милиарда HD филма (всеки два часа по дължина). Щеше да отнеме един човек 47 милиона години, за да гледа всеки филм, ако гледаше цял ден всеки ден.
Количеството информация, необходимо за попълване на 57,5 милиарда Apple iPad от 32 GB.

С толкова много iPads бихме могли:

Създайте стена от iPad с дължина 4 005 мили и височина 61 фута, простираща се от Анкоридж, Аляска, до Маями, Флорида.
Изградете Великата китайска стена на iPad. (Това би било два пъти повече от средната височина на оригинала.)
Изградете 20-фута висока стена около Южна Америка
Покрийте 86 процента от Мексико Сити
Изградете планина 25 пъти по-висока от Mt. Fuji

За да можем да направим тези данни полезни - за да ги трансформираме в полезна информация, ние се нуждаем не само от приложения и „групиране“ - сключване на брак на услуги като Google Earth и заглавия на New York Times International или от ръководството за ресторант NYC с NYC Health Dept Оценки - но също така много мощни инструменти за филтриране, сортиране и анализиране на масиви от данни, за да се предостави необходимата информация за вземане на решения, научни изследвания и труден анализ. IBM е разработила такива инструменти, които колективно нарича Smarter Analytics, за използване във връзка със своите големи данни и облачни услуги. Той обединява софтуер, хардуер и консултантски услуги, за да се опита да предостави информационната платформа, на която да се вземат бизнес и научни решения. Hewlett-Packard, Oracle и много други ИТ компании също достигат до клиентите с продукти, за да се опитат ефективно да се справят с тази информационна глупост.

Големи данни, голям потенциал

За да осъзнаем потенциала на тази нова ера на данните, се нуждаем от много повече системи и приложения. Имаме нужда от ИТ специалисти с образование и умения на 21 век. Имаме нужда от специалисти по приложения, които наистина разбират работата и нуждите на бизнеса, индустрията, правителствените агенции, военните, предприемачите и изследователите. Нуждаем се също от спокойни и зрели анализатори, които ще поставят под въпрос преценките, направени въз основа на анализ на данни. Лесно ще бъдете завладени от мощните компютърни инструменти, работещи „магически“ върху маси от данни. Здравият разум трябва винаги да надделее или поне да изисква преработка на данните.

Вече знаем, че потенциалът за големи данни е безграничен, но такава е и възможността за грешка. Следователно инструментите, които са изградени, за да осмислят цялата тази информация, може да са ключът към обгръщането на ръцете ни около проблема с големи данни.