Сбер сегодня выложил в открытый доступ экспериментальную модель генеративного искусственного интеллекта. Речь идёт о текстовой нейросети, однако построена она на необычном для этой сферы принципе.
Модель является диффузионной. Это значит, что она генерирует текст не так, как принято сегодня в отрасли, когда система последовательно предсказывает каждое следующее слово.
Вместо этого нейросеть работает по тому же принципу, по которому обычно создаются изображения. Она пошагово улучшает сразу весь объём текста, а не выстраивает его слово за словом.
По словам разработчиков, такой подход позволяет получать результат быстрее. Кроме того, он в некоторой степени ближе к тому, как логику создания текста выстраивает человек.
При этом в компании отмечают, что решение не является уникальным. Подобные эксперименты проводят во многих лабораториях, но само направление новое и пока мало исследовано, а готовых рецептов оптимизации больших моделей такого типа не существует.
То, что Сбер отдаёт в открытый доступ, — это не коммерческий продукт. Модель задумана как доказательство того, что подход в целом работает, а целевой версией должна стать более крупная модель под названием Ultra, насчитывающая свыше 10 миллиардов параметров.
В компании признают, что до полноценного внедрения предстоит ещё немало работы. Отдельно отмечается любопытная деталь: значительную часть этой разработки, по словам представителей Сбера, выполнил студент-стажёр.
