Я поделюсь списком библиотек Python, используемых в науке о данных, аналитике, машинном обучении, НЛП и глубоком обучении, которые я буду использовать для создания проектов и коротких руководств в этом году. 2023.
Библиотеки следующие:
Spark — это унифицированный аналитический механизм для крупномасштабной обработки данных. Он предоставляет API высокого уровня на Scala, Java, Python и R, а также оптимизированный движок, поддерживающий общие графики вычислений для анализа данных.
Dask — это гибкая библиотека параллельных вычислений для аналитики.
LightGBM — это платформа для повышения градиента, в которой используются алгоритмы обучения на основе дерева и которая используется для ранжирования, классификации и многих других задач машинного обучения.
Быстрая, масштабируемая, высокопроизводительная библиотека Gradient Boosting в библиотеке деревьев решений, используемая для ранжирования, классификации, регрессии и других задач машинного обучения для Python, R, Java и C++. Поддерживает вычисления на CPU и GPU.
Набор инструментов для создания реальных приложений для машинного обучения и анализа данных на C++.
Приблизительные ближайшие соседи в C++/Python оптимизированы для использования памяти и загрузки/сохранения на диск.
H2O — это распределенная, быстрая и масштабируемая платформа машинного обучения с открытым исходным кодом: глубокое обучение, повышение градиента (GBM) и XGBoost, случайный лес, обобщенное линейное моделирование (GLM с эластичной сетью), K-Means, PCA, обобщенные аддитивные модели (GAM), RuleFit, машина опорных векторов (SVM), составные ансамбли, автоматическое машинное обучение (AutoML) и т. д.
Статистические модели: статистическое моделирование и эконометрика в Python.
mlpack — это интуитивно понятная, быстрая и гибкая библиотека машинного обучения C++ только для заголовков с привязками к другим языкам. Он задуман как аналог LAPACK в области машинного обучения и призван реализовать широкий набор методов и функций машинного обучения в качестве «швейцарского армейского ножа» для исследователей машинного обучения.
Модуль веб-анализа данных для Python с инструментами для скрапинга, обработки естественного языка, машинного обучения, сетевого анализа и визуализации.
Инструмент (от Meta) для создания высококачественных прогнозов для данных временных рядов, которые имеют множественную сезонность с линейным или нелинейным ростом.
Автоматизированное машинное обучение с помощью scikit-learn.
Оптимизация гиперпараметров для sklearn.
SMAC3: универсальный байесовский пакет оптимизации для оптимизации гиперпараметров.
Последовательная оптимизация на основе модели с интерфейсом `scipy.optimize`.
Набор инструментов Python (от Meta research) для выполнения безградиентной оптимизации.
Фреймворк оптимизации гиперпараметров в основном для машинного обучения.
Apache Superset — это платформа для визуализации и исследования данных.
Folium опирается на сильные стороны обработки данных экосистемы Python и мощные возможности сопоставления библиотеки Leaflet.js. Управляйте своими данными в Python, а затем визуализируйте их на карте Leaflet через folium.
Библиотека двумерных графиков для Project Jupyter.
VisPy — это высокопроизводительная интерактивная библиотека для визуализации 2D/3D-данных. VisPy использует вычислительную мощь современных графических процессоров (GPU) через библиотеку OpenGL для отображения очень больших наборов данных.
Быстрая визуализация данных и инструменты с графическим интерфейсом для научных и инженерных приложений.
Интерактивная визуализация данных в браузере от Python.
Библиотека декларативной статистической визуализации для Python.
Библиотека для отладки/проверки классификаторов машинного обучения и объяснения их прогнозов.
Объяснение прогнозов любого классификатора машинного обучения.
Теоретико-игровой подход для объяснения результатов любой модели машинного обучения.
Инструменты визуального анализа и диагностики для облегчения выбора модели машинного обучения.
Быстрая библиотека для AutoML и настройки.
Fastai упрощает обучение быстрых и точных нейронных сетей, используя лучшие современные практики.
Конечная исследовательская среда PyTorch. Масштабируйте свои модели без шаблонов.
Gensim — это библиотека Python для моделирования тем, индексирования документов и поиска сходства с большими корпусами. Целевой аудиторией является сообщество обработки естественного языка (NLP) и поиска информации (IR).
Transformers: современное машинное обучение для Pytorch, TensorFlow и JAX.
cuML — Библиотека машинного обучения RAPIDS
Библиотека машинного обучения с низким кодом и открытым исходным кодом на Python.
Решения для науки о данных, идеи, информационные панели, машинное обучение, развертывание. Он обрабатывает › 100 ГБ данных.
Выбор специалиста по данным с открытым исходным кодом для масштабирования, оценки и поддержки данных на естественном языке. Kern AI Refinery (сокр. refinery) помогает создавать более совершенные модели NLP с использованием подхода, ориентированного на данные. Полуавтоматизируйте маркировку, находите некачественные подмножества в обучающих данных и отслеживайте данные в одном месте.
Shapash делает модели машинного обучения прозрачными и понятными для всех.
XAI (объясняемый ИИ)
XAI — это библиотека машинного обучения, в основе которой лежит объяснимость ИИ. XAI содержит различные инструменты, позволяющие анализировать и оценивать данные и модели.
Библиотека, которая включает в себя самые современные объяснения для текстовых моделей машинного обучения и визуализирует результат с помощью встроенной панели мониторинга.
Интерпретируемый пакет машинного обучения, предназначенный для объяснения любой модели машинного обучения.
Интерпретируемость и объяснимость данных и моделей машинного обучения.
OmniXAI: библиотека для объяснимого ИИ
В завершение статьи хочу поделиться курсом от ineuron, пройдите его. Если вы купите этот курс по моей ссылке, я получу от него долю.
Преимущества набора курсов:
- 56+ практических отраслевых проектов в режиме реального времени по анализу данных, облаку, НЛП, машинному обучению, глубокому обучению (от определения проблемы до развертывания), 500 часов интерактивных занятий в реальном времени, Подготовка к собеседованию, пожизненный доступ и индивидуальное наставничество и многие другие.
Раскрытие информации. Некоторые внешние ссылки в этом сообщении являются партнерскими ссылками.
Партнерская ссылка:
https://ineuron.ai/course/Full-Stack-Data-Science-Bootcamp?campaign=affiliate&coupon_code=DUUJMILM
Пожалуйста, ознакомьтесь с другими моими статьями и скажите привет.
Подпишитесь на DDIntel Здесь.
Посетите наш сайт здесь: https://www.datadriveninvestor.com
Присоединяйтесь к нашей сети здесь: https://datadriveninvestor.com/collaborate