Как работают модели нейронного языка, часть 3 (машинное обучение)

Компактный подход к предварительному обучению для моделей нейронного языка(arXiv)

Автор: Шахриар Голчин, Михай Сурдяну, Назгол Таваби, Ата Киапур

Аннотация . Адаптация предметной области для больших нейроязыковых моделей (NLM) связана с большими объемами неструктурированных данных на этапе предварительной подготовки. Однако в этом исследовании мы показываем, что предварительно обученные NLM более эффективно и быстрее изучают информацию в предметной области из компактного подмножества данных, которое фокусируется на ключевой информации в предметной области. Мы строим эти компактные подмножества из неструктурированных данных, используя комбинацию абстрактных резюме и экстрактивных ключевых слов. В частности, мы полагаемся на BART для создания абстрактных резюме и на KeyBERT для извлечения ключевых слов из этих резюме (или непосредственно из исходного неструктурированного текста). Мы оцениваем наш подход, используя шесть различных настроек: три набора данных в сочетании с двумя разными NLM. Наши результаты показывают, что классификаторы для конкретных задач, обученные поверх NLM, предварительно обученные с использованием нашего метода, превосходят методы, основанные на традиционном предварительном обучении, то есть случайном маскировании всех данных, а также методы без предварительного обучения. Кроме того, мы показываем, что наша стратегия сокращает время предварительной подготовки до пяти раз по сравнению с обычной предварительной подготовкой. Код всех наших экспериментов находится в открытом доступе по адресу https://github.com/shahriargolchin/compact-pretraining.

2.Модель нейронного языка на основе преобразователя, которая синтезирует карты активации мозга из текстовых запросов произвольной формы(arXiv)

Автор: Гиа Х. Нго, Минь Нгуен, Нэнси Ф. Чен, Мерт Р. Сабунку

Аннотация:Нейровизуализационные исследования часто ограничены количеством субъектов и когнитивных процессов, которые можно исследовать. Тем не менее, быстро растущее число нейробиологических исследований в совокупности накопило огромное количество результатов. Усвоение этой растущей литературы и получение новых идей остается серьезной проблемой, поскольку существующие метааналитические инструменты ограничены запросами по ключевым словам. В этой статье мы представляем Text2Brain, простой в использовании инструмент для синтеза карт активации мозга из открытых текстовых запросов. Text2Brain был построен на основе модели языка нейронной сети на основе преобразователя и метаанализа исследований нейровизуализации на основе координат. Text2Brain сочетает в себе кодировщик текста на основе преобразователя и генератор 3D-изображений и был обучен на текстовых фрагментах переменной длины и соответствующих им картах активации, отобранных из 13 000 опубликованных исследований. В наших экспериментах мы демонстрируем, что Text2Brain может синтезировать значимые паттерны нейронной активации из различных текстовых описаний в свободной форме. Text2Brain доступен на https://braininterpreter.com в качестве веб-инструмента для эффективного поиска в обширной литературе по нейровизуализации и создания новых гипотез.

Как работают модели нейронного языка, часть 3 (машинное обучение)

Вопросы по теме