В этой статье рассказывается, как мне удалось научить GPT-4 имитировать мой разговорный стиль. Мы рассмотрим каждый шаг этого интригующего процесса, от необработанных данных до обучения и оценки модели.

1. Сбор и структурирование данных: создание исходного материала

Данные — это кровь любого проекта машинного обучения, формирующая основу обучения модели. В этом случае мне пришлось собрать надежный набор данных моих письменных текстов. Это включало электронные письма, текстовые сообщения, сообщения в социальных сетях, среди прочего, которые были анонимными и структурированы в формат разговора.

Язык программирования Python предлагает простой способ сделать это:

В этом сценарии Python необработанные данные считываются, и каждая пара последовательных сообщений структурируется как пара запрос-ответ. Затем эти пары сохраняются в структурированном файле CSV. Например, если необработанные данные содержат предложения «A», «B», «C», «D», они будут структурированы как [(«A», «B»), («C», «D») ], где «A» и «C» — подсказки, а «B» и «D» — ответы.

2. Обучение под наблюдением: создание основы

Процесс обучения начался с обучения под наблюдением, где GPT-4 было поручено прогнозировать ответы на основе заданных подсказок. Посмотрим, как это было реализовано:

Этот фрагмент кода настраивает модель GPT-4 для обучения, используя мои данные в качестве входных данных. За процесс обучения отвечает класс Trainer из библиотеки Hugging Face's Transformers.

3. Итеративное уточнение: точность за счет итераций

После первоначального обучения использовался процесс, называемый «итеративным уточнением». Вот как это работало:

  1. Модель сгенерировала несколько…