7 стъпки за учене на извличане на данни и наука за данни

Автор: Eugene Taylor
Дата На Създаване: 12 Август 2021
Дата На Актуализиране: 22 Юни 2024
Anonim
Дэннис Хонг: Мои семь видов робота
Видео: Дэннис Хонг: Мои семь видов робота

Съдържание


Източник: Пол Флот / Dreamstime.com

За вкъщи:

Науката за данни е най-добре научена чрез правене, но добра основа на статистиката и машинното обучение също има значение.

Често ме питат как да науча извличане на данни и наука за данни. Ето моето резюме.

Най-добре можете да научите извличането на данни и науката за данни, като правите, така че започнете да анализирате данни възможно най-скоро! Въпреки това, не забравяйте да научите теорията, тъй като се нуждаете от добра основа за статистическо и машинно обучение, за да разберете какво правите и да намерите истински стойностни нотки в шума от големи данни.

Ето седем стъпки за научаване на извличане на данни и наука за данни. Въпреки че са номерирани, можете да ги направите паралелно или в различен ред.

  1. Езици: Научете R, Python и SQL
  2. Инструменти: Научете как да използвате инструментите за извличане на данни и визуализация
  3. книги: Прочетете уводни книги, за да разберете основите
  4. Образование: Гледайте уебинари, вземайте курсове и обмислете сертификат или степен на наука за данни (Прочетете повече в Бен Лорикас как да подхранвате учен с данни.)
  5. Данни: Проверете наличните ресурси и намерете нещо там
  6. Състезания: Участвайте в състезания за извличане на данни
  7. Взаимодействайте с други учени с данни, чрез социални мрежи, групи и срещи

В тази статия използвам взаимозаменяемо извличане на данни и наука за данни. Вижте моята презентация, Анализ на индустрията на Google Анализ, където разглеждам развитието и популярността на различни термини като статистика, откриване на знания, извличане на данни, прогнозна анализа, наука за данни и големи данни.


1. Учене на езици

Неотдавнашно проучване на KDnuggets установи, че най-популярните езици за извличане на данни са R, Python и SQL. Има много ресурси за всеки, например:

  • Безплатна електронна книга за Data Science с R
  • Първи стъпки с Python за наука за данни
  • Python за анализ на данни: Agile Tools за данни от реалния свят
  • Незаменим Python: извличане на данни към науката за данни
  • W3 Schools Learning SQL

2. Инструменти: Data Mining, Data Science и софтуер за визуализация

Има много инструменти за извличане на данни за различни задачи, но най-добре е да се научите как да използвате пакет за извличане на данни, който поддържа целия процес на анализ на данни. Можете да започнете с безплатни (безплатни) инструменти като KNIME, RapidMiner и Weka.

Въпреки това, за много аналитични задачи трябва да знаете SAS, който е водещият търговски инструмент и широко използван. Други популярни софтуер за анализи и извличане на данни включват MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler и Rattle.


Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

Визуализацията е съществена част от всеки анализ на данни. Научете как да използвате Microsoft Excel (подходящ за много по-прости задачи), R графика, (особено ggplot2), а също и Tableau - отличен пакет за визуализация. Други добри инструменти за визуализация включват TIBCO Spotfire и Miner3D.

3. книги

Налични са много данни за извличане на данни и научни книги, но можете да проверите тези:

  • Извличане на данни и анализ: фундаментални концепции и алгоритми, безплатно изтегляне на PDF (чернова) от Мохамед Заки и Вагнер Майра-младши
  • Извличане на данни: Практически инструменти и техники за машинно обучение, от Ian Witten, Eibe Frank и Mark Hall, от авторите на Weka, и използвайки широко Weka в примери
  • Елементите на статистическото обучение, извличане на данни, заключения и прогнози, от Тревър Хасти, Робърт Тибширани, Джером Фридман. Страхотно въведение за математически ориентираните
  • LIONbook: Учене и интелигентна оптимизация, от Роберто Батити и Мауро Брунато, свободно достъпни в мрежата, глава по глава
  • Извличане на книга за масивни масиви от данни от А. Раджараман, Дж. Улман
  • Електронната статистика на StatSoft (безплатно), включва много теми за извличане на данни

4. Образование: Уебинари, курсове, сертификати и степени

Можете да започнете, като гледате някои от многото безплатни уебинари и уебкастове на най-новите теми в аналитиката, големите данни, извличането на данни и науката за данни.

Има и много онлайн курсове, кратки и дълги, много от тях безплатни. (Вижте онлайн образователната директория на KDnuggets.)

Проверете по-специално тези курсове:

  • Машинното обучение в Coursera, преподавано от Andrew Ng
  • Учене от данни в edX, преподаван от професора от Калтех Ясер Абу-Мостафа
  • Отворен онлайн курс по приложна наука на данни от Syracuse iSchool
  • Извличане на данни с Weka, безплатен онлайн курс
  • Вижте и безплатни онлайн слайдове от моя курс за извличане на данни, въвеждащ курс за извличане на данни в семестър

И накрая, помислете за получаване на сертификати за извличане на данни и наука за данни или висши степени, като магистърска степен по наука за данни.

5. Данни

Ще ви трябват данни за анализ - вижте директория KDnuggets на наборите от данни за обработка на данни, включително:

  • Правителствени, федерални, щатски, градски, местни и публични сайтове и портали за данни
  • API API, хъбове, пазари, платформи, портали и търсачки
  • Безплатни публични набори от данни

6. Състезания

Отново най-добре ще се научите, като правите, така че участвайте в състезания по Kaggle. Започнете с конкурси за начинаещи, като предвиждане на оцеляването на Титаник с помощта на машинно обучение.

7. Взаимодействайте: срещи, групи и социални мрежи

Можете да се присъедините към много групи връстници. Вижте Топ 30 LinkedIn групи за анализи, големи данни, извличане на данни и наука за данни.

AnalyticBridge е активна общност за анализи и научни данни.

Можете да присъствате на някои от многото срещи и конференции в Google Анализ, големи данни, извличане на данни, наука на данни и откриване на знания.

Освен това помислете за присъединяване към ACM SIGKDD, който организира годишната конференция на KDD - водещата изследователска конференция в тази област.

Тази статия е тръстика от KDNuggets.com. Използвано е с разрешение от автора.