Какви са някои ключови начини за автоматизиране и оптимизиране на процесите за научни данни? googletag.cmd.push (функция () {googletag.display (div-gpt-ad-1562928221186-0);}); Q:

Автор: Roger Morrison
Дата На Създаване: 28 Септември 2021
Дата На Актуализиране: 1 Юли 2024
Anonim
Какви са някои ключови начини за автоматизиране и оптимизиране на процесите за научни данни? googletag.cmd.push (функция () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Технология
Какви са някои ключови начини за автоматизиране и оптимизиране на процесите за научни данни? googletag.cmd.push (функция () {googletag.display (div-gpt-ad-1562928221186-0);}); Q: - Технология

Съдържание

Q:

Какви са някои ключови начини за автоматизиране и оптимизиране на процесите за научни данни?


A:

Процесите на научните данни в областта на машинното обучение и ИИ могат да бъдат разделени на четири отделни фази:

  1. събиране и проучване на данни,
  2. изграждане на модел,
  3. внедряване на модел и
  4. онлайн оценка и усъвършенстване.

От моя опит, най-възпрепятстващите фази са фазите на събиране на данни и модели на внедряване във всеки процес на машинно обучение, основан на науката за данни, и ето два начина да ги оптимизирате:

1. Създайте високо достъпна хранилище за данни.

В повечето организации данните не се съхраняват на едно централно място. Нека просто вземем информация, свързана с клиентите. Имате информация за контакт с клиенти, поддръжка на клиенти, обратна връзка с клиенти и история на сърфиране с клиенти, ако вашият бизнес е уеб приложение. Всички тези данни са естествено разпръснати, тъй като служат за различни цели. Те могат да пребивават в различни бази данни, а някои могат да бъдат напълно структурирани, а някои неструктурирани и дори да се съхраняват като обикновени файлове.


За съжаление, разпръснатостта на тези набори от данни е силно ограничаваща работата в областта на научните данни, тъй като основата на всички NLP, машинно обучение и AI проблеми е данни, Така че разполагането на всички тези данни на едно място - хранилището на данни - е от първостепенно значение за ускоряване на разработването и внедряването на модела. Като се има предвид, че това е изключително важно за всички процеси в областта на научните данни, организациите трябва да наемат квалифицирани инженери за данни, които да им помогнат да изграждат своите хранилища за данни. Това може лесно да започне като просто изхвърляне на данни на едно място и бавно да прерасне в добре обмислено хранилище за данни, напълно документирано и подлежи на проверка с помощни инструменти за експортиране на подмножество от данни в различни формати за различни цели.

2. Излагайте моделите си като услуга за безпроблемна интеграция.

В допълнение към осигуряването на достъп до данни е важно също така да може да се интегрират моделите, разработени от учени по данни. Интегрирането на модели, разработени в Python, може да бъде изключително трудно с уеб приложение, което работи на Ruby. В допълнение, моделите може да имат много зависимости от данни, които вашият продукт може да не е в състояние да предостави.


Един от начините да се справите с това е да настроите силна инфраструктура около вашия модел и да изложите достатъчно функционалност, необходима на вашия продукт, за да използвате модела като „уеб услуга“. Например, ако приложението ви се нуждае от класификация на настроенията в рецензиите на продуктите , всичко, което трябва да направите, е да се позове на уеб услугата, предоставяйки съответната услуга и услугата ще върне съответната класификация на настроенията, която продуктът може да използва директно. По този начин интеграцията е просто под формата на API повикване. Разединяването на модела и продукта, който го използва, прави наистина лесно за новите продукти, които предлагате, да използвате и тези модели с малко караница.

Сега настройването на инфраструктурата около вашия модел е съвсем друга история и изисква големи първоначални инвестиции от вашите инженерни екипи. След като инфраструктурата е налице, става въпрос само за изграждане на модели по начин, който да се вписва в инфраструктурата.