Аннотировать или нет? Прогнозирование падения производительности при смене домена . Статья # EMNLP2019 авторов Хади Эльсахар и Матиас Галле

В тот момент, когда вы запускаете модель в производство, она начинает деградировать. Построение моделей машинного обучения, которые хорошо работают в дикой природе во время производства, по-прежнему остается открытой и сложной проблемой. Хорошо известно, что современные модели машинного обучения могут быть хрупкими, а это означает, что даже при достижении впечатляющих результатов на тестовом наборе их производительность может значительно ухудшиться при знакомстве с новыми примерами с различиями в словарном запасе и стиле письма. Это несоответствие между примерами, наблюдаемыми во время обучения и вывода, может привести к падению производительности моделей машинного обучения в производственной среде, что может создать недоступные риски для некоторых критически важных приложений, учитывая данные, которые быстро развиваются, такие как обнаружение вредоносных программ или анализ настроений для автоматической торговли. Для практиков машинного обучения стало общеизвестным, что не существует решения, которое будет работать идеально вечно.

Зная все это, становится необходимым постоянный мониторинг и обслуживание моделей машинного обучения в производстве. Практики непрерывно отбирают и аннотируют примеры входных данных для оценки из потока входных данных в производстве и оценивают свою модель с использованием нескольких методов. Этот процесс обслуживания неизбежно требует времени и ресурсов. Постоянная ручная маркировка наборов оценочных данных не только требует времени и денег, но и препятствует прогнозированию рисков до их возникновения.

Что еще более важно, этот дорогостоящий процесс обслуживания будет продолжаться вечно до тех пор, пока кто-то захочет приличную производительность своих моделей машинного обучения, развернутых в производственной среде. На основании литературных исследований, связанных со сдвигом домена и обнаружением выхода из распределения, мы предлагаем метод, который может предсказать падение производительности модели при оценке в новом целевом домене, без необходимости в каких-либо помеченных примерах из этого целевого домена . Выполнение этой оценки, когда она выполняется точно и в режиме реального времени, может оказать важное влияние на процесс принятия решений по отладке и поддержке моделей машинного обучения в производственной среде. Например, такое понимание может привести к решению аннотировать больше данных для переобучения или даже соответствующей корректировки моделей (например, выполнения неконтролируемой адаптации предметной области).

Наше предложение состоит из двух пунктов:

  1. Мы предлагаем набор показателей обнаружения сдвига домена вместе с их адаптациями. Значения этих показателей должны хорошо коррелировать с падением производительности моделей машинного обучения в производственной среде.
  2. Метод регрессии, позволяющий напрямую узнать значение падения производительности модели машинного обучения при сдвиге домена.

1. Метрики обнаружения сдвига домена

Проблема несоответствия между обучением и выводом в литературе по машинному обучению обычно упоминается как сдвиг домена или сдвиг набора данных. Сдвиг домена происходит, когда смещается совместная вероятность входа / выхода исходного и целевого доменов (более формально Pₛ (x, y) ≠ Pₜ (x, y)). Это могло быть из-за Covariate Shift, когда ваша модель в производстве начинает видеть примеры входных данных из другого распределения входных данных, чем те, которые видели в обучении (Pₛ (x) ≠ Pₜ (x)); или из-за сдвига концепции, где аналогичные примеры, как ожидается, будут классифицироваться по-разному из-за сдвига в контексте домена, т.е. (Pₛ (y | x) ≠ Pₜ (y | x)) или даже сдвига в распределении меток (сдвиг метки) (Pₛ (y) ≠ Pₜ (y)).

Было много показателей обнаружения сдвига домена, связанных с одним или некоторыми из этих типов сдвига домена. Мы экспериментируем с тремя метриками из трех разных семейств наряду с их адаптациями:

  • Метрики, мотивированные литературой по H-дивергенции [2], такие как прокси A-расстояние.
  • Оценка достоверности и калибровка для обнаружения вне распределения [3]
  • Обратное тестирование [4].

Хотя эти показатели являются результатом хорошо изученных направлений работы, предлагаемые нами адаптации пытаются смягчить некоторые из их проблем на практике. Например, семейство мер, основанных на H-дивергенции, не зависит от задачи и модели, что делает их склонными к сбою, когда происходит серьезное изменение предельного распределения, которое не имеет отношения к задаче. Для получения более подробной информации о выбранных метриках и предлагаемых нами модификациях мы приглашаем вас прочитать статью.

Смещение домена → Падение производительности? Одна из общих проблем с такими показателями заключается в том, что их абсолютные значения не могут быть напрямую переведены как падение производительности модели при выполнении конкретной задачи. Чтобы исследовать это дальше, мы проводим крупномасштабные эксперименты, чтобы показать корреляцию между значениями метрик обнаружения сдвига домена и их фактическим падением производительности. Для этого мы полагаемся на крупномасштабные наборы данных, содержащие 5 миллионов предложений и более 500 смоделированных сценариев сдвига домена для анализа тональности и части задач тегирования речи. Из рисунка ниже видно, что, хотя существует общая корреляция, линейные корреляции в рамках отдельных моделей более распространены. Таким образом, можно сделать вывод, что разные модели по-разному ведут себя со сдвигами домена одной и той же величины, а абсолютные значения метрик обнаружения сдвига домена зависят от модели.

2. Прямой прогноз падения производительности

Решение, которое мы предлагаем для прямого прогнозирования падения производительности, заключается в изучении уязвимости модели к разным амплитудам сдвигов домена.

Учитывая небольшое фиксированное количество помеченных наборов данных оценки из разных исходных доменов, можно провести линию регрессии между падением точности модели и выбранными метриками обнаружения сдвига домена. Затем мы можем использовать эту линию регрессии для прогнозирования падения производительности этой модели при оценке в целевом домене. Предполагая, что доступность небольшого фиксированного размера наборов оценочных данных является существенной ценой, предлагаемый нами метод не требует каких-либо меток из целевого домена, что позволяет выполнять эту проверку во время выполнения и, следовательно, имеет большое влияние на процесс принятия решений во время выполнения. Что еще более важно, это накладные расходы, которые придется выполнять только один раз, а не навсегда, поскольку это обычные накладные расходы на обслуживание моделей машинного обучения в производстве.

Наши результаты по классификации и маркировке последовательностей показывают, что наш метод может прогнозировать падение производительности с коэффициентом ошибок до 2,15% и 0,89% для анализа настроений и тегов POS соответственно с использованием одного из предлагаемых нами модифицированных показателей.

Мы также показываем, что можно достичь очень адекватных результатов с помощью всего лишь нескольких наборов аннотированных оценочных данных.

Заворачивать

В заключение мы предлагаем метод, который может напрямую с высокой точностью предсказать падение производительности модели в производственной среде, если она подвергнется воздействию невидимых примеров. Наш метод дешев и может применяться во время выполнения, что может иметь большой потенциал в продвижении процесса принятия решений для машинного обучения в производстве и значительно снизить риски и затраты на обслуживание.

использованная литература

1- Хоакин Кионеро-Кандела и др. 2009: Изменение набора данных в машинном обучении, MIT Press

2- Шай Бен-Давид и др. 2010: теория обучения из разных областей, машинное обучение.

3- Кимин Ли и др. 2018: Обучение классификаторов, откалиброванных по достоверности, для обнаружения образцов вне распределения, ICLR

4- Wei Fan et al. 2006. Обратное тестирование: эффективная структура для выбора среди классификаторов при смещении выборки, SIGKDD