Публикации

Разработка функций - глубокое погружение в методы кодирования и биннинга
Иллюстрация методов кодирования и объединения функций Разработка функций - самый важный аспект разработки модели науки о данных. В необработанном наборе данных есть несколько категорий объектов. Возможностями могут быть текст, дата / время, категориальные и непрерывные переменные. Для модели машинного обучения набор данных необходимо обработать в виде числовых векторов, чтобы обучить его с помощью алгоритма машинного обучения. Цель этой статьи - продемонстрировать методы..

Навигация по кластеризации временных рядов
Кластерный анализ, или более известный как кластеризация, тесно связан с областью социальных наук. Впервые он возник в области антропологии, а затем был введен в психологию Робертом Тайроном ¹. С тех пор она превратилась в область, охватывающую математическую строгость. Основная цель кластерного анализа состоит в том, чтобы разделить и классифицировать объекты по различным группам, что сложнее, чем кажется на самом деле. Это потому, что алгоритм не понимает, что такое «похожее», а..

Как стать инженером по искусственному интеллекту (ИИ) в 2023 году?
Искусственный интеллект (ИИ), несомненно, стал одной из самых захватывающих и преобразующих технологий нашего времени. От беспилотных автомобилей до виртуальных помощников — искусственный интеллект меняет отрасли и революционизирует то, как мы взаимодействуем с миром. Вступая в 2023 год, спрос на квалифицированных инженеров по искусственному интеллекту продолжает стремительно расти. Если вы очарованы возможностями ИИ и стремитесь стать инженером ИИ, вот дорожная карта, которая поможет вам..

Множественная линейная регрессия — За 9 шагов!
Шаг 1: Установите Анаконду https://www.anaconda.com/products/distribution Шаг 2. Установите ноутбуки Jupyter https://www.geeksforgeeks.org/how-to-install-jupyter-notebook-in-windows/ Шаг 3. Установите библиотеки данных и пакеты для анализа и анализа данных с помощью программирования на Python. Пример кода: #Импорт библиотек и пакетов для аналитики данных и обработки данных import numpy as np import pandas as pd from pandas import Series, DataFrame import seaborn as sns..

ОСНОВЫ ОБРАБОТКИ ДАННЫХ, ОБЪЯСНЕННЫЕ НА ПРИМЕРАХ
СОДЕРЖАНИЕ 1. Введение 2. Сбор данных 3. Оценка данных 4. Очистка данных ВВЕДЕНИЕ Говорят, что данные — это топливо будущего, и, как и любое другое топливо, они должны пройти через нефтеперерабатывающий завод, чтобы стать полезными. Мы научимся уточнять данные, чтобы сделать их полезными. Процесс уточнения не является очисткой данных. Не удивляйтесь, это называется обработкой данных. Хотя заблуждение состоит в том, что очистка данных является важным шагом в обработке..

Прогнозирование оттока клиентов с помощью машинного обучения
Контент Введение Терминология Проект Заключение Машины могут предсказывать будущее, если оно не слишком отличается от прошлого. Введение Прежде чем мы начнем, вы можете найти полные блокноты и наборы данных для этой статьи в этом репозитории GitHub и исключительно последний на Kaggle . Машинное обучение, несомненно, является одной из самых инновационных и мощных технологий в современном мире. Он применяется во многих областях, от простых систем прогнозирования..

Реализация структур данных в JavaScript
Как создавать списки, словари, стеки, связанные списки, очереди и многое другое в JS JavaScript, как и многие другие языки программирования, обеспечивает встроенную поддержку общих структур данных, таких как массивы, списки и словари. В этом сообщении блога мы обсудим, как реализовать некоторые из наиболее распространенных структур данных в JavaScript. Массивы Массивы — одна из самых простых и часто используемых структур данных. В JavaScript массивы имеют нулевой индекс и могут..

Мой опыт интервью по науке о данных
Импровизированное интервью по науке о данных с Сайедом Датским | Технические вопросы с ответами, отзывами и советами Недавно я давал интервью на позицию Data Scientist. Интервью было фиктивным, но оно довольно точно имитировало настоящее — рассчитано по времени и включало в себя кейс-стади. Его сделал Сайед Даниш, опытный специалист по обработке данных, специализирующийся на обработке естественного языка. Интервью прошло хорошо, и я поделился им с парой своих друзей. Но потом я..

Изучение различий между библиотеками векторного поиска и векторными базами данных
В последние годы векторные представления данных становятся все более популярными в приложениях машинного обучения, потому что они предлагают способ представления сложных данных в числовой форме, которой можно легко манипулировать с помощью алгоритмов. Например, при обработке естественного языка встраивание слов используется для представления слов в виде векторов в многомерном пространстве, которые можно использовать для измерения сходства между словами или для выполнения таких задач, как..

Навигация по шумихе вокруг ИИ и размышления о нишевых приложениях LLM
LLM, такие как GPT и другие LLM с открытым исходным кодом , являются исключительными технологиями для генерирования знаний и рассуждений. Эти базовые модели, обученные на обширных общедоступных данных, могут быть адаптированы для различных задач. Появились две общие парадигмы для решения проблем, специфичных для предметной области, и включения частных/внешних знаний: Тонкая настройка предварительно обученной модели для предметно-ориентированных приложений включает в себя обучение..

Практическое руководство по сверточным нейронным сетям (CNN) с Keras
Теоретическое объяснение и реальный пример Сверточные нейронные сети (CNN) обычно используются в области науки о данных, особенно для задач компьютерного зрения и классификации изображений. Рассмотрим задачу классификации изображений. Изображения состоят из пикселей, которые представлены числами. В сверточном слое CNN фильтры (или детекторы признаков) применяются к изображению, чтобы выделить отличительные особенности изображения, сохраняя пространственные отношения между пикселями...

Варианты использования аннотированных наборов данных, часть 1 (наука о данных)
MagicBrush: набор данных с аннотациями вручную для редактирования изображений под руководством инструкций (arXiv) Автор: Кай Чжан , Линбо Мо , Вэньху Чен , Хуан Сун , Ю Су . Аннотация: Редактирование изображений с текстовым управлением широко используется в повседневной жизни, начиная от личного использования и заканчивая профессиональными приложениями, такими как Photoshop. Однако существующие методы либо являются нулевыми, либо обучаются на автоматически синтезируемом наборе..

Демистификация утечки данных в машинном обучении
Автор: Ревальде Радитья Чандра Утечка данных в машинном обучении — это критическая проблема, которую часто упускают из виду, что может привести к переоценке производительности ваших прогностических моделей. В этой статье мы демистифицируем, что такое утечка данных, как она может произойти и какие важные шаги можно предпринять для ее предотвращения. Что такое утечка данных? Представьте, что вы играете в угадайку, в которой вам нужно угадать количество конфет в банке. Если у вас..

Глубокое обучение для менеджеров
Вы менеджер, изо всех сил пытающийся разобраться во всей этой чепухе о машинном обучении, искусственном интеллекте и глубоком обучении, о которой все говорят? Возможно, вы просто хотите знать, как эти технологии могут изменить или повлиять на вашу отрасль? Или, наконец, как вы можете продвигать свою карьеру и/или бизнес, используя эти технологии? Надеюсь, эта серия блогов поможет объяснить некоторые концепции глубокого обучения. Что такое глубокое обучение Глубокое обучение — это..

40 вариантов использования AI/ML, которые действительно изменили наш образ жизни
Данные вокруг нас. Сделайте их полезными! Было бы практически невозможно использовать самые современные технологии, доступные повсюду, без машинного обучения и искусственного интеллекта. Данные являются ключевым компонентом алгоритмов AI и ML. Огромные объемы данных, недорогие вычислительные ресурсы и программное обеспечение с открытым исходным кодом делают технологии машинного обучения и искусственного интеллекта доступными для всех. Вы уже видели или испытали варианты..

Обнаружение и классификация цветов ириса с помощью Python
Создание Персептрона и его приложений в кибербезопасности Недавно меня попросили начать изучение ИИ и его влияния на облачную безопасность. Я решил не торопиться и испачкать руки, изучив основы PyTorch и AI. В этой статье мы рассмотрим самый фундаментальный алгоритм искусственного интеллекта, персептрон, и реализуем его для классификации цветов по длине их лепестков и чашелистиков. После этого мы обсудим потенциальное влияние ИИ на кибербезопасность. Что такое персептрон..

4 концепции машинного обучения, которые я хотел бы знать, когда построил свою первую модель
Создавайте потрясающие модели машинного обучения с помощью этих 4 советов Вступление Одна из причин, по которой я люблю писать, заключается в том, что это дает мне возможность оглянуться назад, поразмыслить над своим опытом и подумать о том, что сработало, а что нет. В течение последних 3 месяцев мне было поручено построить модель машинного обучения, чтобы предсказать, следует ли оформлять RMA для продукта или нет. Я бы сказал, что это была первая серьезная модель машинного..

ML: методы интерпретации моделей
Реализация PDP, ICE ELI5, LIME, SHAP на табличном наборе данных Что такое интерпретируемость модели? Такова человеческая природа, что мы не доверяем тому, чего не понимаем. Алгоритмы искусственного интеллекта и машинного обучения — одни из самых мощных технологий, которые есть в нашем распоряжении, но они также и самые непонятые. Следовательно, одна из наиболее важных обязанностей специалиста по обработке и анализу данных — передавать сложную информацию простым для понимания способом...

Как работает Triplet Loss, часть 3 (Расширенное машинное обучение)
Кросс-модальное обучение общему представлению с функциями потери триплетов (arXiv) Автор: Феликс Отт , Дэвид Рюгамер , Лукас Хойблейн , Бернд Бишль , Кристофер Мучлер Аннотация: Обучение с общим представлением (CRL) изучает общее встраивание между двумя или более модальностями, чтобы улучшить данную задачу по сравнению с использованием только одной из модальностей. CRL из различных типов данных, таких как изображения и данные временных рядов (например, аудио или текстовые..

Уроки, извлеченные из неудачных PoC AI
После нескольких PoC AI я понял, что довольно легко запустить PoC AI с изначально положительными результатами, но в то же время трудно масштабировать AI для приложений масштаба предприятия и достичь стадии производства. В этой статье я расскажу о некоторых причинах неудач в паре проектов. Данные Работая с организациями, я заметил, что лишь небольшая часть лиц, принимающих решения, полностью понимает важность наличия хорошего набора данных, я имею в виду тщательно подобранный сбор..