Пособие по ИИ: как разработать стратегию обработки данных для ИИ

Чтобы реализовать свою стратегию искусственного интеллекта, вам нужна эффективная стратегия обработки данных. Мы предлагаем план успеха.

👉️ Загрузите Пособие по ИИ, ваше руководство по разработке и развертыванию ИИ.

При разработке ИИ подходящая стратегия обработки данных позволит вашей компании эффективно получать, обрабатывать, управлять и извлекать выгоду из данных. Без стратегии обработки данных усилия вашей команды будут больше, чем необходимо, риски будут увеличиваться, а шансы на успех уменьшатся. Ниже, из нашего Пособия по искусственному интеллекту, мы предлагаем план для формулирования и реализации эффективной стратегии обработки данных.

На нашем мастер-классе по искусственному интеллекту Деян Петелин (директор по данным, Gousto) объяснил, как разработать эффективную стратегию обработки данных для искусственного интеллекта. Настройтесь!

Разработайте стратегию обработки данных для эффективного ИИ

«Данные - это жизненная сила любой системы искусственного интеллекта. Без этого ничего не происходит »(Дэвид Бенигсон,« Сигнал »).

Эффективная стратегия обработки данных состоит из шести компонентов:

Сбор и обработка. Получите и обработайте данные, необходимые для разработки эффективных прототипов и алгоритмов.
Качество. Разработайте набор данных, который имеет соответствующие характеристики для решения ваших бизнес-задач, минимизирует предвзятость и предлагает данные для обучения, помеченные с высокой степенью точности.
Контекст. Узнайте о происхождении ваших данных и сопоставлениях, через которые они проходят, чтобы вы могли эффективно использовать и делиться ими в своей компании.
Хранилище. Храните и структурируйте свои данные соответствующим образом, чтобы поддерживать ваши цели в отношении доступа, скорости, устойчивости и соответствия требованиям.
Предоставление: оптимизируйте доступность данных для вашей команды и реализуйте меры безопасности.
Управление и безопасность: Управляйте безопасностью данных, доступом и разрешениями, чтобы обеспечить надлежащее использование ваших хранилищ данных.

Определите свою стратегию обработки данных в самом начале своей инициативы в области искусственного интеллекта. Ежеквартально просматривайте его и обновляйте по мере изменения требований к продукту, роста вашей компании или появления нового законодательства.

Ускорьте сбор данных за счет использования нескольких источников

Получение данных для разработки прототипа или обучения ваших моделей может оказаться длительным процессом. В идеале у вас должны быть все необходимые данные с самого начала, и у вас будет стратегия данных для управления доступом к ним и управлением ими. В реальном мире ни то, ни другое маловероятно. Работа над проектом может выявить недостающие данные.

«Обеспечьте масштабный доступ к данным с первого дня» (Дэвид Бенигсон, Signal).

Заполнение пробелов в ваших собственных инициативах может занять месяцы, поэтому используйте несколько подходов, чтобы ускорить прогресс. Разработчики обычно используют несколько подходов к исходным данным, включая бесплатные ресурсы (например, агрегаторы наборов данных), партнерские отношения с третьими сторонами и создание новых закрытых данных.

Используйте бесплатные ресурсы: оцените уже существующие и бесплатные источники данных. Kaggle, большое сообщество специалистов по обработке данных и инженеров по машинному обучению, регулярно публикует источники данных для экспериментов по конкуренции. Они могут быть полезны для создания прототипов и начального обучения алгоритмов машинного обучения. Google Dataset Search может помочь вам найти конкретные наборы данных - будь то погода в Лондоне или статистика общественного транспорта в Манчестере. Кроме того, многие авторы научных статей теперь загружают образцы кода и наборы данных (либо необработанные данные, либо места для их получения) на такие платформы, как GitHub. Эти наборы данных часто используются для сравнительного анализа. Не все наборы данных из вышеперечисленных источников бесплатны для использования в бизнесе, поэтому убедитесь, что вы используете их уместно.
Развивайте партнерские отношения. Развивайте партнерские отношения с другими организациями - другими компаниями, университетами, поставщиками данных или правительственными ведомствами. Установление взаимовыгодных отношений может предложить вашей компании эксклюзивные данные и связанные с ними преимущества.
Создание данных: данные, которые вы ищете, могут быть недоступны или иметь слишком высокую стоимость. Возможно, вам потребуется потратить время и ресурсы на создание необходимых данных, и четверть специалистов по обработке данных делают это. Подход - встраивание датчиков, съемка фотографий или видео, проведение опросов или маркировка существующих наборов данных - будет зависеть от вашей отрасли и сценария использования. Собственные данные ценны - вот почему так мало бесплатного. Разработка репозитория закрытых данных со временем принесет пользу и защиту.

Вам нужно будет исключить дубликаты и объединить данные из нескольких источников в единое согласованное хранилище. Новые данные должны проходить аналогичный процесс, чтобы ваши данные оставались чистыми. Если вы объединяете поля или уменьшаете точность данных, сохраните исходные данные. Возможность анализировать пробелы в ваших данных позволит вам спланировать сбор данных в будущем и расставить приоритеты для решения бизнес-задач.

Разработайте сбалансированный, хорошо размеченный набор данных

Набор данных высокого качества имеет соответствующие характеристики для решения ваших бизнес-задач, сводит к минимуму предвзятость и предлагает данные обучения, помеченные с высокой степенью точности.

Важно разработать сбалансированный набор данных. Если у вас значительно больше выборок одного типа выходных данных, чем другого, ваш ИИ, скорее всего, проявит предвзятость. Вы можете решить, будет ли предвзятость вашей системы ложноположительной или ложноотрицательной, но предвзятость будет неизбежна. В ИИ есть три основных формы предвзятости:

Необоснованные корреляции между входными и выходными классификациями. Системы, которые предлагают работу на основе пола, а не навыков, или предоставляют или отказываются от финансовых продуктов на основе этнической принадлежности, являются примерами необоснованной корреляции, возникающей из нерепрезентативных исходных данных.
Ошибочные предположения в алгоритмах обучения, которые приводят к упущению релевантных взаимосвязей - так называемому «недообучению». Если вы не соответствуете требованиям, значит, вы недостаточно использовали свои данные. Если вы стремитесь спрогнозировать арендные цены на недвижимость и основываете свою модель только на количестве спален в собственности, ваши прогнозы будут плохими; ваша модель будет игнорировать важные характеристики, такие как местоположение, меблирована ли недвижимость и есть ли на ней парковка или сад.

Моделирующий шум вместо допустимых выходов - «переоснащение». Переобученная модель учитывает так много деталей в данных, что не может делать точных прогнозов. Рассмотрение всех данных, связанных со здоровьем группы людей, например, будет включать в себя столько естественных вариаций веса, артериального давления и общего уровня физической подготовки, что прогнозирование каких-либо характеристик или нового члена группы будет неточным.

Если функции, которые вы ищете, встречаются редко, может быть сложно получить сбалансированный набор данных. Вы хотите разработать модель, которая сможет эффективно справляться с редкими случаями, но не будет переоснащаться. Вы можете использовать искусственные данные, но не тогда, когда артефакты в искусственных данных сами влияют на модель. Вы также можете сохранить некоторую предвзятость к переобучению или недостаточному соответствию - и выбрать большую долю ложноположительных или ложноотрицательных результатов. Если вы ошибаетесь в отношении ложных срабатываний, одно из решений - позволить человеку проверить результат. Предпочтительный уклон - ложные срабатывания или ложные отрицания - скорее всего, будет зависеть от вашего домена. Если ваша система предназначена для распознавания логотипов компаний, отсутствие некоторых классификаций может быть менее проблематичным, чем неправильная идентификация других. При выявлении раковых клеток при сканировании отсутствие некоторых классификаций может быть гораздо более проблематичным, чем ошибочное выделение проблемных областей.

Очень важно гарантировать, что результаты вашего внутреннего тестирования сохраняются при применении к реальным данным. Точность 99% при внутреннем тестировании не имеет большого значения, если точность падает до 20%, когда ваша модель находится в производстве. Проверяйте заранее и часто на реальных данных.

«Если вы не посмотрите на реальные данные заранее, вы никогда не получите что-то, что работает в производственной среде» (д-р Джанет Бастиман, главный научный сотрудник, Storystream).

Прежде чем строить модель, отложите «тестовый набор» данных, которые, как вы можете гарантировать, никогда не использовались при обучении вашей системы ИИ. Большинство программ обучения случайным образом выбирают процент ваших данных для тестирования, но после нескольких итераций оставшиеся данные могут быть включены в ваш обучающий набор. Набор тестов, который, как вы уверены, никогда не использовался, можно повторно использовать для каждого нового релиза-кандидата.

«Когда мы смотрим на изображения автомобилей, я вовлекаю всю компанию. Мы все выходим и делаем снимки на свои телефоны и сохраняем их в качестве набора для внутреннего тестирования - так что мы можем быть уверены, что они никогда не были ни в одном из источников, которые мы использовали для обучения »(д-р Джанет Бастиман, главный научный сотрудник , Storystream).

Кроме того, убедитесь, что данные вашего «тестового набора» не устарели. Он всегда должен быть репрезентативным для реальных данных, которые вы анализируете. Регулярно обновляйте его, и каждый раз, когда вы видите «крайние случаи» или примеры, которые ваша система неправильно классифицирует, добавляйте их в набор тестов для улучшения.

Специалисты по обработке данных сообщают, что управление «грязными данными» - самая серьезная проблема, с которой они сталкиваются (Kaggle). Меньшие объемы релевантных, хорошо размеченных данных обычно обеспечивают более высокую точность модели, чем большие объемы данных низкого качества. В идеале ваша команда ИИ должна получать данные с исчерпывающей маркировкой со 100% точностью. На самом деле, данные обычно не помечены, промаркированы редко или помечены неправильно. Данные, помеченные людьми, все еще могут быть плохо маркированы. Маркировка данных часто осуществляется краудсорсингом и проводится неспециалистами. В некоторых контекстах маркировка также может быть субъективной по своей сути. Кроме того, люди, просматривающие большие объемы данных, могут столкнуться с явлением визуального насыщения, отсутствием элементов, которые присутствуют, или обнаружением артефактов, которых нет. Чтобы смягчить эти проблемы, компании часто ищут данные, помеченные несколькими людьми, для которых был взят консенсус или среднее значение.

Чтобы эффективно маркировать данные, подумайте о проблеме, которую вы решаете. «Определите предмет одежды на этом изображении», «определите предмет одежды на этом изображении и определите его положение» и «извлеките предмет одежды, описанный в этом тексте», для каждого из которых требуются разные инструменты маркировки. В зависимости от опыта вашей группы по маркировке данных вам может потребоваться вспомогательная система для ускорения маркировки данных и повышения ее точности. Вы хотите ограничить возможности команды по маркировке или предоставить свободный выбор? Будут ли они находить слова, числа или предметы и должны ли они иметь для этого инструмент выделения?

Воспользуйтесь существующими технологиями искусственного интеллекта и обработки данных, чтобы упростить процесс маркировки данных:

Для визуальной классификации используйте универсальный инструмент распознавания объектов, например ImageNet, для определения соответствующих категорий изображений (например, автомобилей) и местоположения объекта на изображении. Затем вы можете показать этикетировщикам изображение с выделенной областью и спросить о выделенном объекте, чтобы провести более глубокую классификацию (например, модель).
Для обработки естественного языка вы можете использовать существующий текстовый контент и классификаторы, такие как анализаторы тональности, для сортировки данных по широким категориям, которые пользователь может проверить и использовать для последующих приложений.
Используйте методы кластеризации, чтобы сгруппировать большие объемы похожих данных, которые можно пометить вместе.

Понимание контекста данных путем сбора человеческих знаний

Очень важно понимать, какие данные вы используете. Использование числа с пометкой «оценка» в вашей базе данных непрактично - и может быть невозможно, если вы не знаете, как оно было получено. Убедитесь, что вы фиксируете человеческие знания о том, как собирались данные, чтобы вы могли принимать обоснованные последующие решения относительно использования данных.

Ваша стратегия обработки данных должна гарантировать, что вы:

Разберитесь в происхождении данных. Крайне важно понимать, откуда пришли ваши данные, как они были собраны и ограничения процесса сбора. Относятся ли данные только к текущим клиентам или к населению? Используете ли вы изображения или аудио в необработанном виде или они уже были отредактированы в цифровом виде?
Определите свои переменные. Определенные переменные должны позволять вам различать необработанные данные, объединенные данные, ярлыки и предположения (например, предполагать пол человека по его названию).
Разберитесь в системах и сопоставлениях, через которые проходили данные. Когда вы обрабатываете данные через несколько систем и сопоставлений, могут возникать проблемы - так же, как фотокопии фотокопии начинают портиться. Например, если в системе есть поле даты рождения, которое импортируется в систему, которая требует вместо этого возраста, отображение будет точным во время обработки, но информация будет потеряна, и качество данных со временем ухудшится. Если это затем сопоставить с системой, которая использует возрастной диапазон, точность будет восстановлена, но за счет точности. Убедитесь, что ваши сопоставления сохраняют детали.

Понимание контекста ваших данных будет зависеть от процесса и документации больше, чем от инструментов. Без понимания контекста, в котором были собраны данные, вы можете упустить нюансы и внести непреднамеренную предвзятость. Например, если вы прогнозируете продажи нового безалкогольного напитка и объединяете существующие отзывы клиентов с данными заказанного вами опроса, вы должны убедиться, что понимаете, как проводился опрос. Отражает ли это мнение случайной выборки, людей из прохождения безалкогольных напитков или людей, выбирающих похожие напитки? Важно понимать информацию, которая явно не выражена в используемых вами данных. Документирование

эта информация улучшит ваше понимание результатов при тестировании ваших моделей. Изучение контекста данных должно побуждать ваших сотрудников задавать вопросы - и извлекать выгоду из их разных точек зрения. Если вам не хватает разнообразия в вашей команде, вам может не хватить точки зрения, необходимой для выявления недостатков в вашей методологии сбора данных. Убедитесь, что члены команды глубоко понимают сферу деятельности вашей компании, а также ее данные. Без более глубоких знаний в вашей области может быть сложно понять, какие переменные вводить в вашу систему, и результаты могут быть ухудшены. Например, при прогнозировании продаж компьютерных игр может быть важно учитывать противоречия, уникальность и силу фанатской базы в дополнение к обычным переменным.

Оптимальное хранение и структурирование данных для достижения ваших целей

Ваша стратегия хранения данных повлияет на удобство использования и производительность ваших данных. Характер ваших данных, скорость их роста и требования к доступности должны определять ваш подход.

Типы хранилищ включают базовый файловый, реляционный и безструктурированный язык запросов (NoSQL):

Базовое файловое хранилище: будь то облачное решение, такое как Amazon Web Services (AWS) или HotBlob, или собственное, базовое файловое хранилище не имеет ограничений по размеру файла, но работает медленно. для поиска и поисковые запросы обычно основываются просто на имени файла, размере или дате создания.
Реляционные: реляционные базы данных (включая MySQL или Oracle) могут хранить обширную информацию в отдельных таблицах, связанных друг с другом. Реляционные базы данных хорошо подходят для определенной информации со строгими определениями, которую можно сгруппировать в таблицы. Несмотря на то, что реляционные базы данных обладают мощной способностью разрешать сложные запросы и обеспечивают безопасность вплоть до полевого уровня, они могут бороться с большими элементами данных (включая изображения и документы) и их сложно масштабировать.
NoSQL: в последнее время стали популярными базы данных NoSQL (такие как Mongo или Redis), поскольку они не требуют ограничений полей, связанных с реляционными базами данных. Базы данных NoSQL эффективны для хранения больших объемов иерархических данных. Соответственно, они обычно связаны с инициативами «больших данных». Базы данных NoSQL можно легко масштабировать, добавляя дополнительные машины в вашу систему («горизонтальное масштабирование»), но с трудом удается разрешить сложные запросы из-за способа хранения данных.

Выбранный вами магазин повлияет на производительность и масштабируемость вашей системы. Рассмотрите возможность смешивания и сопоставления для удовлетворения ваших потребностей - например, реляционная база данных лиц с конфиденциальной информацией, связанной с данными, хранящимися в более доступной базе данных NoSQL. Конкретная конфигурация, которую вы выбираете, должна зависеть от типов данных, которые вы будете хранить, и от того, как вы собираетесь запрашивать свои данные.

Чтобы спланировать рост и обновления:

Прогноз увеличивается в объеме данных. Если начать с существующих данных, вы поймете текущие объемы данных и то, сколько новых данных вы добавляете каждый день. Если вы начинаете с нуля, вам нужно будет оценить рост данных на основе прогноза входящих данных. Вооружившись оценкой роста данных, вы можете определить объем хранилища, который вам потребуется для данных в течение первого года вашего проекта.
Облачные решения позволят вам хранить столько данных, сколько захотите, но при этом сбалансировать стоимость немедленного и долгосрочного хранения (в AWS разница между S3 и Glacier). Если вы используете собственное оборудование, вам также необходимо решить, следует ли архивировать данные вне вашего основного хранилища. Возможно, вам придется поддерживать физически отдельные хранилища данных для избранных личных данных, чтобы обеспечить их изоляцию.
Отслеживайте расходы, оставшееся пространство для хранения и производительность системы, чтобы вы могли действовать до того, как затраты станут чрезмерно высокими или у вас не закончится место для хранения. Для реляционных баз данных это критически важно, потому что масштабирование, вероятно, потребует от вас обновления оборудования, на котором работает ваша база данных. Для систем NoSQL будет проще масштабировать по горизонтали.

Для обеспечения устойчивости и возможности восстановления:

Относитесь к устойчивости как к критически важной. Данные - самый ценный компонент вашей стратегии искусственного интеллекта; если ваши данные будут потеряны, вы не сможете восстановить свои модели и потеряете значительную часть уникальности и ценности вашей компании.
В то время как у крупных компаний будут выделенные ресурсы и специальные навыки, стартапы и расширение масштабов также должны планировать устойчивость и возможность восстановления.
Обеспечьте регулярное резервное копирование. Хранение стоит недорого и доступно каждой компании.
Необходимая вам степень устойчивости будет зависеть от того, насколько критично, чтобы ваше хранилище данных было постоянно доступно для чтения и записи. Устойчивые системы будут дублировать ваши данные, поэтому реплика может беспрепятственно замещать вас, если часть вашей системы выйдет из строя. Кроме того, отказоустойчивые системы обычно балансируют нагрузку, чтобы множественные запросы не вызывали задержек.
Многие поставщики облачных услуг предлагают отказоустойчивые системы как часть своих услуг. Хотя в большинстве центров обработки данных есть собственные генераторы и резервное подключение к Интернету, значительные события, такие как ураганы и землетрясения, могут вызывать сбои в работе в течение нескольких часов или даже дней. Другие риски, включая каскадные сбои программного обеспечения, также могут кристаллизоваться. В зависимости от критичности вашего доступа к данным вы также можете искать отдельного провайдера с резервной копией, которую вы можете вызвать в случае серьезной аварии. Если вы управляете собственным хранилищем данных, вы должны как минимум управлять возможностью восстановления. Храните резервные копии в отдельном географическом месте и регулярно проверяйте, можете ли вы их успешно восстановить. Ваша первая катастрофа - не время узнавать, что ваши резервные копии не работают тихо.

При предоставлении данных учитывайте доступ, меры безопасности и актуальность данных.

Каждый третий специалист по данным сообщает, что доступ к данным является основным ингибитором продуктивности (Kaggle). Предоставление данных - обеспечение доступа к данным для сотрудников, которые в них нуждаются в упорядоченном и безопасном виде, - должно быть ключевым компонентом вашей стратегии обработки данных. Хотя передовые методы различаются в зависимости от обстоятельств, примите во внимание:

Доступ: ваша команда по анализу данных будет разочарована, если будет ждать, пока другая команда предоставит им данные. Может оказаться полезным предоставление им инструментов для прямого доступа. Большинство хранилищ данных предлагают только полный административный доступ или инструменты экспертного уровня. Возможно, вам понадобится время и ресурсы для реализации конкретного решения для вашей команды.
Меры предосторожности: защитите свою компанию от несчастных случаев. Убедитесь, что доступ к данным доступен только для чтения. Никто, кроме администратора, не должен иметь права удалять или изменять данные.
Ввод / вывод: чтение данных из ваших систем не должно блокировать добавление новых данных. Точно так же, если ваше хранилище данных постоянно обновляется, вашей команде не придется ждать значительный период, прежде чем они смогут извлечь требуемые данные.

Устаревшие данные могут стать серьезной проблемой и являются ключевым моментом при планировании стратегии выделения ресурсов. Если вы анализируете быстро меняющуюся информацию, решите, сколько исторических данных актуально. Вы можете включить все данные, определенный объем точек данных или данные из движущегося временного окна. Выберите подход, подходящий для решаемой проблемы. Ваша стратегия может развиваться по мере развития вашего решения.

Если вы коррелируете действия со временем, внимательно рассмотрите окно для своего временного ряда. Если вы прогнозируете уровни запасов, данные за несколько месяцев не смогут уловить сезонные колебания. И наоборот, если попытаться предсказать, ухудшаются ли жизненно важные показатели человека, чтобы сделать возможным быстрое вмешательство, артериальное давление человека в прошлом месяце, вероятно, будет менее актуальным. Поймите, могут ли периодические эффекты влиять на вашу систему, и убедитесь, что ваши модели и прогнозы основаны на нескольких циклах типичного периода, который вы моделируете. С прагматической точки зрения убедитесь, что ваши сценарии доступа учитывают актуальность данных, которые вам требуются, чтобы свести к минимуму текущие усилия.

Внедрение надежных процедур управления данными и безопасности

Управление данными и безопасность - важнейшие компоненты стратегии обработки данных. Личные данные защищены законодательством Великобритании и ЕС, и вы должны хранить их в надежном месте.

Вам может потребоваться зашифровать данные в состоянии покоя, а также при передаче данных между системами. Может быть полезно отделить личные данные от вашего основного хранилища данных, чтобы вы могли применить к ним более высокий уровень безопасности, не влияя на доступ вашей команды к другим данным. Однако обратите внимание, что личные данные, включенные в ваши модели, или вывод защищенных данных через ваши системы, подпадают под действие законодательства о защите данных.

Обеспечьте эффективное управление данными, основываясь на принципах надлежащего хранения и минимально необходимого доступа.

Физический доступ. Прямой доступ к вашему хранилищу данных должен быть строго ограничен ключевыми доверенными лицами. Лица с самым высоким уровнем доступа к вашим системам часто становятся мишенью для злонамеренных третьих лиц.
Пользователи. Потребности сотрудников в доступе к данным могут быть разными. Если людям не нужно просматривать конфиденциальные данные, у них не должно быть возможности просматривать или извлекать их.
Приложения. Другие системы, которые подключаются к вашему хранилищу данных, также должны рассматриваться как виртуальные пользователи и иметь ограничения. Многие компании не могут ограничить доступ к приложениям и страдают от неблагоприятных последствий в случае ошибки в подключенном приложении или взлома учетных данных для доступа к приложению.

Кроме того:

Как можно шире используйте многофакторную аутентификацию.
Регистрируйте каждый запрос доступа с идентификатором запрашивающего и деталями извлеченных данных.
Нанять стороннюю компанию для проведения тестирования на проникновение для проверки безопасности ваших систем.

Если человек увольняется или его увольняют, немедленно отмените доступ ко всем конфиденциальным системам, включая ваши данные. Убедитесь, что увольняющиеся сотрудники не могут сохранить копию ваших данных. Специалисты по обработке данных с большей вероятностью попытаются сохранить данные, чтобы решить проблему, над которой они работали, или из-за их близости к данным, чем к промышленному шпионажу. Однако ни одна из причин не является подходящей, и обе противоречат закону о защите данных. Убедитесь, что ваша команда осведомлена о законах и что у вас есть соответствующие политики.

🤖️ Загрузить Пособие по ИИ.

💡 Заинтересованы в искусственном интеллекте? Подпишитесь на наши сообщения в блоге.