Введение

Линейная регрессия и логистическая регрессия — это два типа регрессионного анализа, которые используются для решения проблемы регрессии с помощью машинного обучения. Они являются наиболее известными методами регрессии. Но в машинном обучении существует много типов методов регрессионного анализа, и их использование зависит от характера задействованных данных.

В этой статье объясняются различные типы регрессии в машинном обучении и при каких условиях каждый из них можно использовать. Если вы новичок в машинном обучении, эта статья наверняка поможет вам понять концепцию регрессионного моделирования.

Что такое регрессионный анализ?

Регрессионный анализ — это метод прогнозного моделирования, который анализирует взаимосвязь между целевой или зависимой переменной и независимой переменной в наборе данных. Различные методы типа регрессионного анализа используются, когда целевая и независимая переменные демонстрируют линейную или нелинейную связь между собой, а целевая переменная содержит непрерывные значения. Метод регрессии используется в основном для определения силы предиктора, прогнозируемого тренда, временных рядов и в случае причинно-следственной связи.

Регрессионный анализ — это основной метод решения проблем регрессии в машинном обучении с использованием моделирования данных. Он включает в себя определение линии наилучшего соответствия, которая представляет собой линию, проходящую через все точки данных таким образом, чтобы расстояние линии от каждой точки данных было минимальным.

Типы методов регрессионного анализа

Существует много типов методов регрессионного анализа, и использование каждого метода зависит от ряда факторов. Эти факторы включают тип целевой переменной, форму линии регрессии и количество независимых переменных.

Ниже приведены различные методы регрессии:

  1. "Линейная регрессия"
  2. Логистическая регрессия
  3. Ридж-регрессия
  4. Лассо-регрессия
  5. Полиномиальная регрессия
  6. Байесовская линейная регрессия

Различные типы регрессии в методах машинного обучения подробно описаны ниже:

1. Линейная регрессия

Линейная регрессия — один из самых основныхтипов регрессии в машинном обучении. Модель линейной регрессии состоит из переменной-предиктора и зависимой переменной, линейно связанных друг с другом. Если данные включают более одной независимой переменной, то линейная регрессия называется моделями множественной линейной регрессии.

Приведенное ниже уравнение используется для обозначения модели линейной регрессии:

y=mx+c+e

где m — наклон линии, c — точка пересечения, а e — ошибка модели.

"Источник"

Линия наилучшего соответствия определяется путем изменения значений m и c. Ошибка предиктора — это разница между наблюдаемыми значениями и прогнозируемым значением. Значения m и c выбираются таким образом, чтобы давать минимальную ошибку предиктора. Важно отметить, что простая модель линейной регрессии чувствительна к выбросам. Поэтому его не следует использовать в случае данных большого размера.

2. Логистическая регрессия

Логистическая регрессия — это один из методов регрессионного анализа, который используется, когда зависимая переменная является дискретной. Пример: 0 или 1, истина или ложь и т. д. Это означает, что целевая переменная может иметь только два значения, а сигмовидная кривая обозначает отношение между целевой переменной и независимой переменной.

Логит-функция используется в логистической регрессии для измерения взаимосвязи между целевой переменной и независимыми переменными. Ниже приведено уравнение, обозначающее логистическую регрессию.

logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3….+bkXk

где p — вероятность появления признака.

"Источник"

Следует отметить, что для выбора логистической регрессии в качестве метода регрессионного анализа размер данных велик с почти одинаковым появлением значений, поступающих в целевые переменные. Также не должно быть мультиколлинеарности, что означает отсутствие корреляции между независимыми переменными в наборе данных.

3. Регрессия хребта

"Источник"

Это еще один из типов регрессии в машинном обучении, который обычно используется при высокой корреляции между независимыми переменными. Это связано с тем, что в случае мультиколлинеарных данных оценки методом наименьших квадратов дают несмещенные значения. Но в случае, если коллинеарность очень высока, может быть некоторое значение смещения. Поэтому в уравнение ридж-регрессии вводится матрица смещения. Это мощный метод регрессии, при котором модель менее подвержена переобучению.

Ниже приведено уравнение, используемое для обозначения регрессии хребта, где введение λ (лямбда) решает проблему мультиколлинеарности:

β = (X^{T}X + λ*I)^{-1}X^{T}y

Познакомьтесь:5 прорывных приложений машинного обучения

4. Лассо-регрессия

Лассо-регрессия — это один из типов регрессии в машинном обучении, который выполняет регуляризацию наряду с выбором признаков. Он запрещает абсолютный размер коэффициента регрессии. В результате значение коэффициента приближается к нулю, чего не происходит в случае ридж-регрессии.

В связи с этим в регрессии Лассо используется выбор признаков, который позволяет выбрать набор признаков из набора данных для построения модели. В случае регрессии Лассо используются только необходимые функции, а остальные обнуляются. Это помогает избежать переоснащения модели. В случае, если независимые переменные сильно коллинеарны, регрессия Лассо выбирает только одну переменную и заставляет другие переменные уменьшаться до нуля.

"Источник"

Ниже приведено уравнение, представляющее метод регрессии Лассо:

N^{-1}Σ^{N}_{i=1}f(x_{i}, y_{I}, α, β)

5. Полиномиальная регрессия

Полиномиальная регрессия — это еще один из методов типа регрессионного анализа в машинном обучении, который аналогичен множественной линейной регрессии с небольшими изменениями. В полиномиальной регрессии связь между независимыми и зависимыми переменными, то есть X и Y, обозначается n-й степенью.

Это линейная модель в качестве оценки. Метод наименьшего среднего квадрата также используется в полиномиальной регрессии. Линия наилучшего соответствия в полиномиальной регрессии, которая проходит через все точки данных, — это не прямая линия, а кривая, которая зависит от степени X или значения n.

"Источник"

При попытке свести среднеквадратичную ошибку к минимуму и получить линию наилучшего соответствия модель может быть склонна к переоснащению. Рекомендуется анализировать кривую ближе к концу, так как более высокие полиномы могут давать странные результаты при экстраполяции.

Уравнение ниже представляет полиномиальную регрессию:

l = β0+ β0x1+ε

Читайте: Идеи проекта машинного обучения

6. Байесовская линейная регрессия

Байесовская регрессия — это один из типов регрессии в машинном обучении, который использует теорему Байеса для определения значения коэффициентов регрессии. В этом методе регрессии вместо поиска метода наименьших квадратов определяется апостериорное распределение признаков. Байесовская линейная регрессия похожа на линейную регрессию и гребенчатую регрессию, но более стабильна, чем простая линейная регрессия.

"Источник"

Вывод

В дополнение к вышеупомянутым методам регрессии существует множество других типов регрессии в машинном обучении, в том числе эластичная сетевая регрессия, регрессия JackKnife, пошаговая регрессия и экологическая регрессия.

Эти различные методы типа регрессионного анализа можно использовать для построения модели в зависимости от типа доступных данных или того, который обеспечивает максимальную точность. Вы можете изучить эти техники подробнее или пройти курс контролируемого обучения на нашем веб-сайте.

Если вам интересно узнать больше о машинном обучении, ознакомьтесь с Дипломом PG в машинном обучении и искусственном интеллекте IIIT-B & upGrad, который предназначен для работающих профессионалов и предлагает более 450 часов тщательного обучения, более 30 тематических исследований и заданий, Статус выпускника IIIT-B, более 5 практических практических проектов и помощь в трудоустройстве в ведущих фирмах.

Эта статья первоначально была опубликована в блоге upGrad.