Современные ИИ-модели отлично справляются с английским, китайским и русским языками — во многом благодаря огромному объему текстовых и речевых данных. Иначе дело обстоит с малоресурсными языками — так называют языки, по которым не хватает массива качественных данных для обучения ИИ-моделей. К их числу, например, относят арабский и казахский: несмотря на большое количество носителей, здесь по-прежнему ощущается острый дефицит наборов данных, особенно в задачах синтеза и распознавания речи. Для того, чтобы создать модели и речевые модели для таких языков, требуется дорогостоящий ручной сбор, разметка и обработка данных. В итоге качество поддержки этих языков в ИИ-инструментах уступает наиболее распространенным — из-за этого пользователи не могут полноценно использовать ИИ в повседневной жизни.
Решением этих задач будут заниматься в новой лаборатории методов эффективного ИИ и инфраструктуры данных для низкоресурсных сред ИТМО и MWS AI. Исследователи будут разрабатывать новые модели для синтеза и распознавания речи на малоресурсных языках, а также работать над ускорением и сжатием существующих ИИ-моделей — например, Qwen и Llama. Алгоритмы и методы, созданные в лаборатории, подойдут для работы с любыми моделями, основанными на архитектуре «трансформер», к которым относятся современные большие языковые модели. Все решения планируется публиковать в открытом доступе на GitHub и HuggingFace.
Возглавят лабораторию старший научный сотрудник мегафакультета трансляционных информационных технологий ИТМО, разработчик-эксперт центра фундаментальных исследований MWS AI Али Аммар, руководитель центра машинного обучения и фундаментальных исследований Стаматиос Лефкиммиатис и старший научный сотрудник мегафакультета трансляционных информационных технологий ИТМО Алексей Кашевник. Над исследованиями будут работать сотрудники ИТМО и MWS AI, а также студенты и аспиранты факультета информационных технологий и программирования ИТМО.
«Мой родной язык — арабский, и обучать модель для работы на нем намного дороже и сложнее, чем на английском. Это ограничивает исследования в области ИИ для носителей малоресурсные языков, поэтому мы хотим сделать ИИ-инструменты доступными для всех. В частности, мы планируем подготовить около 100 часов речи на арабском языке, которые, в том числе, сможем использовать для обучения моделей синтеза речи, в планах — обучение модели VibeVoice от Microsoft на русском, казахском и арабском языках», — подчеркнул руководитель лаборатории, сотрудник ИТМО и MWS AI Аммар Али.
При помощи математических методов оптимизации (квантизации, прунинга ИИ, линеаризации внимания) исследователи намерены разработать новые способы «сжатия» нейросетей, чтобы они работали быстрее и занимали меньше места при небольших потерях в точности (до 5%). В частности, ученые планируют увеличить скорость работы существующих моделей-трансформеров в 4 раза и снизить требования к вычислительным ресурсам для их запуска в 2 раза. Также команда будет создавать новые методы обучения ИИ-моделей классификации, сегментации и детекции данных, которые не требуют больших вычислительных затрат. Кроме того, разработчики планируют собирать и внедрять в существующие модели наборы данных для малоресурсных языков и создавать бенчмарки, которые помогут оценить работу больших языковых моделей (например, ChatGPT, Claude) на новых данных.
В перспективе снижение требований к ресурсам позволит «недорого» запускать ИИ-модели локально на устройствах с ограниченными вычислительными мощностями (например, на смартфонах) и обеспечит приватность, которая важна для университетов, бизнеса и отдельных пользователей. Кроме того, это даст возможность не зависеть от облачных сервисов крупных компаний и откроет для пользователей бесперебойный доступ к ИИ.