Сегодня проводится много научно-исследовательских работ по созданию лучших моделей и конвейеров машинного обучения как в академических кругах, так и в промышленности. Метрики, от F1 до оценки BLEU и других, определяют нашу оценку модели и, в конечном итоге, выбор модели для производства. Критические обсуждения в этом контексте сосредоточены на том, насколько обширным было тестирование, на качестве и количестве тестовых данных или на том, насколько «общими» являются результаты, то есть применимы ли они к другим областям, к…