В рамках моего стремления сравнить алгоритмы классификации текста с новым набором данных Google WikiReading я сегодня загрузил его в fastText:

Это экземпляр Compute Engine, который я использовал:

И вот некоторые подробности о том, как я преобразовал набор данных в формат, который устраивает fastText.

Учебный файл в итоге составил 4 ГБ, что соответствует примерно 4,7 миллионам статей в Википедии (только первые 300 слов, чтобы соответствовать статье WikiReading), каждая с одной или несколькими метками.

Объем используемой оперативной памяти все время оставался стабильным и составлял менее 3 ГБ, что впечатляет.

Я сообщу, когда получу точные результаты. Мне жаль, что я раньше не подал заявку на увеличение квоты на Cloud Compute, чтобы вместо этого я мог использовать машину с 64 виртуальными ЦП - я не привык ждать 8 часов для чего-либо, связанного с компьютером!