Статистика с точки зрения муравья: логистическая регрессия — мощный инструмент прогнозного моделирования

Введение

Логистическая регрессия — это статистический метод, используемый для анализа данных и прогнозирования на основе исторических наблюдений. Это популярный инструмент в науке о данных и машинном обучении из-за его универсальности и простоты реализации. В этой статье мы познакомим вас с основами логистической регрессии и объясним, как ее можно использовать для прогнозного моделирования.

Логистическая регрессия — это тип регрессионного анализа, который используется для прогнозирования вероятности бинарного результата. Другими словами, он используется для определения вероятности того, что событие произойдет или не произойдет. Результат обычно представлен бинарной переменной, такой как 0 или 1, да или нет, истина или ложь и т. д. Если мы используем линейную регрессию и хотим предсказать, провалит ли студент экзамен, используя продолжительность обучения как независимая переменная. Скорее всего, мы обнаружим, что чем выше продолжительность, тем выше шанс, что студент сдаст экзамен. Однако нет конца этой вероятности, и нет смысла иметь бесконечную вероятность.

Вот вам и логистическая регрессия, направленная на решение этой проблемы.

Модель логистической регрессии основана на логистической функции, которая сопоставляет любые входные данные с действительным значением с вероятностными выходными данными в диапазоне от 0 до 1. Логистическая функция также известна как сигмоидальная функция. > и имеет S-образную кривую. Логистическую функцию (форму функции кумулятивной плотности [CDF]) можно представить следующим образом:

Где:

F (x) - вероятность переменной результата
x - входной вектор

Тогда это обозначение можно преобразовать в:

Модель логистической регрессии направлена на поиск оптимальных значений β, которые максимизируют вероятность наблюдаемых данных. Обычно это делается с помощью процесса, называемого оценкой максимального правдоподобия (см. мою предыдущую статью).

Теперь, если мы хотим рассчитать отношение шансов Pi (вероятность yi=1), мы можем просто получить:

Затем мы добавляем натуральный бревно с обеих сторон:

Соответствие этой линии нельзя определить с помощью метода наименьших квадратов, потому что:

Метод наименьших квадратов не предназначен для бинарной классификации.
По мере увеличения x значение Pi приближается к 1. На новой оси y (ln [отношение шансов]) это приведет к тому, что значение ln [отношение шансов] будет близко к положительной бесконечности, что неприемлемо для метода наименьших квадратов (рис. ниже).

Используя метод максимального правдоподобия, мы можем оценить β0 и βi, чтобы получить максимальное значение P(x1,x2,…|(β0, β1)).

Поскольку мы можем использовать случайные величины для оптимизации функции логарифмического правдоподобия, оценки также являются случайными величинами и следуют модели нормального распределения (логарифмическое преобразование шансов будет следовать нормальному распределению). Так как дистрибутив будет иметь стандартные ошибки. Следовательно, мы можем рассчитать стандартные ошибки и значения P для оценок (используя критерий Вальда).

Приложения логистической регрессии

Логистическая регрессия обычно используется для задач бинарной классификации, где цель состоит в том, чтобы предсказать, принадлежит ли экземпляр к определенному классу или нет. Его можно использовать в широком спектре приложений, в том числе:

Анализ кредитного риска. Логистическую регрессию можно использовать для прогнозирования вероятности дефолта для конкретного заявителя на получение кредита на основе его кредитной истории, дохода и других факторов.

Медицинский диагноз. Логистическую регрессию можно использовать для прогнозирования вероятности наличия у пациента определенного заболевания на основе его симптомов, возраста и других факторов.

Маркетинг. Логистическую регрессию можно использовать для прогнозирования вероятности того, что клиент купит продукт, на основе его демографической информации, истории покупок и других факторов.

Обнаружение мошенничества. Логистическую регрессию можно использовать для прогнозирования вероятности мошенничества для данной транзакции на основе различных факторов, таких как сумма, место и время транзакции.

Реализация логистической регрессии в Python

Python предоставляет несколько библиотек для реализации логистической регрессии, включая scikit-learn и statsmodels. Вот пример того, как реализовать логистическую регрессию в scikit-learn:

from sklearn.linear_model import LogisticRegression

# Load data
X = ... # input features
y = ... # target variable (binary)

# Create logistic regression model
model = LogisticRegression()

# Fit the model to the data
model.fit(X, y)

# Make predictions on new data
y_pred = model.predict(new_X)

Заключение

Логистическая регрессия — мощный инструмент прогнозного моделирования, особенно в задачах бинарной классификации. Его легко внедрить, и его можно использовать в самых разных приложениях, от анализа кредитных рисков до обнаружения мошенничества. С увеличением объема данных, генерируемых в современном мире, логистическая регрессия становится все более важным инструментом для принятия решений на основе данных.

Я ценю каждую поддержку, если вам нравится эта статья!

Статистика с точки зрения муравья: логистическая регрессия — мощный инструмент прогнозного моделирования

Введение

Приложения логистической регрессии

Реализация логистической регрессии в Python

Заключение

Вопросы по теме