Что такое регрессия

Регрессия — это метод понимания взаимосвязи между независимыми переменными или входными функциями и зависимой переменной или результатом.

Линейная регрессия

Это контролируемый алгоритм машинного обучения, который используется для измерения взаимосвязи между независимой переменной и зависимой переменной.

Ранее мы использовали модель среднего для прогнозирования данных, но она предсказывала значение только для одной переменной. Таким образом, чтобы преодолеть эту проблему, регрессия появилась для прогнозирования нескольких значений.

Линейная регрессия используется, когда целевая переменная носит непрерывный характер. Мы не можем использовать линейную регрессию в задаче классификации (когда целевая переменная состоит из категориальных данных)

Уравнение линейной регрессии

Y=MX + C

i.e. Y = β0 + β1.X + β2.X2 + β3.X3 ……+ βn.Xn

Где ,

β0 = пересечение с осью Y (постоянная) точка, в которой линия наилучшего соответствия взаимодействует с осью Y

β1 = коэффициент наклона переменной x, указывающий, что единичное изменение X влияет на количество изменений Y.

В этом методе мы используем метод OLS (Обычный метод наименьших квадратов) для определения линии наилучшего соответствия в модели, которая рассчитывается путем минимизации ошибки наименьших квадратов между линией регрессии и точками данных.

Показатели оценки:

  • R квадрат (коэффициент детерминанта)
  • Скорректированный квадрат R
  • RMSE (среднеквадратичная ошибка)
  • AIC/BIC или информационные критерии Акаике / информационные критерии Байеса
  • Значение R-квадрата является статистической мерой, которая объясняет отклонение зависимой переменной от независимой переменной.

R квадрат = 1- SSE/SST. Идеальный диапазон R-квадрата от 0 до 1.

Скорректированный квадрат R является лучшим показателем оценки, чем квадрат R, потому что он не повлияет на квадрат скорректированного R, когда мы добавляем новые переменные в набор данных.

Значение R-квадрата увеличивается при добавлении переменной независимо от ее релевантности, но скорректированное значение R-квадрата будет увеличиваться только при добавлении соответствующих данных.

Скорректированный R-квадрат должен быть немного меньше, чем R-квадрат. R-квадрат и скорректированный R-квадрат не должны иметь большой разницы.

  • RMSE — это статистическая мера, используемая для сравнения различных алгоритмов с одними и теми же данными. Это сравнивается с использованием переменной Y. Значение RMSE должно быть низким. В идеале значение должно лежать в пределах 15% диапазона данных.

Методы регуляризации

  1. Ридж или штраф L2

2. Лассо или штраф L1

3. Эластичная сетка: комбинирует штрафы L1 и L2.

Предположения:

  • Предположение об отсутствии выбросов: в данных не должно быть выбросов.
  • Предположение о линейности: связь между переменными X и Y должна быть линейной.
  • Предположение о нормальности: переменная Y должна иметь нормальное распределение.
  • Предположение о мультиколлинеарности: остатки должны быть независимыми
  • Допущение гомоскедастичности: остатки должны иметь постоянную дисперсию.
  • Допущение случайности. Ошибка должна быть случайной по своей природе.

Типы линейной регрессии:

  • Простой
  • Несколько
  • Логистика
  • Порядковый номер
  • Мультиномиальный

Преимущества:

  • Это помогает понять различные точки данных и взаимосвязь между ними.
  • Он используется для прогнозирования и предсказания
  • Это помогает понять тенденции и закономерности

Недостатки

  • Он чувствителен к выбросам

Выбросы — это данные, которые вызывают удивление. Выбросы могут быть одномерными (на основе одной переменной) или многомерными. Если вы смотрите на возраст и доход, одномерными выбросами будут такие вещи, как человек, которому 118 лет, или тот, кто заработал 12 миллионов долларов в прошлом году. Многомерным исключением будет 18-летний юноша, заработавший 200 000 долларов. В данном случае ни возраст, ни доход не являются экстремальными, но очень немногие 18-летние люди зарабатывают столько денег.

Выбросы могут иметь огромное влияние на регрессию. Вы можете решить эту проблему, запросив статистику влияния из своего статистического программного обеспечения.

  • Линейная регрессия рассматривает среднее значение зависимых переменных

Линейная регрессия рассматривает связь между средним значением зависимой переменной и независимыми переменными. Например, если вы посмотрите на взаимосвязь между весом младенцев при рождении и характеристиками матери, такими как возраст, линейная регрессия будет рассматривать средний вес младенцев, рожденных матерями разного возраста. Однако иногда вам нужно смотреть на крайние значения зависимой переменной, например, дети подвергаются риску, когда их вес низкий, поэтому в этом примере вам следует посмотреть на крайние значения.

Точно так же, как среднее значение не является полным описанием одной переменной, линейная регрессия не является полным описанием отношений между переменными. Вы можете решить эту проблему, используя квантильную регрессию.

  • Данные должны быть независимыми

Линейная регрессия предполагает, что данные независимы. Это означает, что оценки одного субъекта (например, человека) не имеют ничего общего с оценками другого. Это часто, но не всегда разумно. Два распространенных случая, когда это не имеет смысла, — это кластеризация в пространстве и во времени.

Классический пример кластеризации в пространстве — результаты тестов учащихся, когда у вас есть ученики из разных классов, классов, школ и школьных округов. Учащиеся одного и того же класса, как правило, во многом похожи, т. е. они часто происходят из одного и того же района, у них одни и те же учителя и т. д. Таким образом, они не являются независимыми.

Примерами кластеризации во времени являются любые исследования, в которых вы измеряете одни и те же предметы несколько раз. Например, при изучении диеты и веса вы можете измерять каждого человека несколько раз. Эти данные не являются независимыми, потому что то, что человек весит в одном случае, связано с тем, что он или она весит в других случаях. Один из способов справиться с этим — использовать многоуровневые модели.