В рамках моего стремления сравнить алгоритмы классификации текста с новым набором данных Google WikiReading я сегодня загрузил его в fastText:
Это экземпляр Compute Engine, который я использовал:
Учебный файл в итоге составил 4 ГБ, что соответствует примерно 4,7 миллионам статей в Википедии (только первые 300 слов, чтобы соответствовать статье WikiReading), каждая с одной или несколькими метками.
Объем используемой оперативной памяти все время оставался стабильным и составлял менее 3 ГБ, что впечатляет.
Я сообщу, когда получу точные результаты. Мне жаль, что я раньше не подал заявку на увеличение квоты на Cloud Compute, чтобы вместо этого я мог использовать машину с 64 виртуальными ЦП - я не привык ждать 8 часов для чего-либо, связанного с компьютером!