Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат.
Диффузионные текстовые модели — между двух миров
Диффузионные модели и большие языковые модели прочно заняли и информационное поле, и исследовательское. Диффузионные модели генерируют прекрасные картинки, видео и аудио, а LLM отлично справляются с генерацией текста. Но где‑то посередине остается область диффузионных текстовых моделей. Нельзя сказать, что она забыта — нет, исследования ведутся, и есть хорошие локальные успехи — но сравниться с успехам нашумевших LLM и DM пока не получается.
«Надо включать мозги, руки в ноги и что-то делать» — интервью с Мариной Аншиной об IT в индустрии в 2024
В конце прошлого года мы поговорили с цифровыми директорами и лидерами IT-индустрии для нашего тг-канала об IT в индустрии Цифровой директор. Нас интересовали надежды (и опасения) коллег на 2024 год в IT. Из-за чего в России страдает ввод в эксплуатацию решений, почему мода на технологии — это не всегда хорошо, и зачем айтишникам своя “клятва Гиппократа” — читайте в интервью с Мариной Аншиной, председателем Правления Российского Союза ИТ-директоров, президентом фонда ФОСТАС.
Выбор данных, малые языковые модели и причём здесь Шмидхубер
Большие языковые модели — это хорошо, но интересно, можно ли получить сравнимое качество на малых моделях. Вести диалог с GPT-2 не получится, а тем более написать диплом или научную статью. Она и другие small language models (SLM) по большей части выдают слабый текст, даже если обучить их на всей Википедии.
Возможно, тут стоит вспомнить теорию Шмидхубера, который, как известно, всё придумал.
Цифровой клон свиньи — как фермы становятся умнее
Отслеживать состояние скота на фермах с помощью дистанционных методов становится мировой нормой. Или, по крайней мере, трендом.
В Южно-китайском сельскохозяйственном университете, например, научились определять вес свиней по камерам, установленным в коридоре перед убойным цехом. Модель компьютерного зрения определяет отдельных особей и оценивает вес по снимкам сверху. Главное, что всё это происходит не в закрытом загоне, а в движении — за 0,34 секунды.
Нео-РНН или Make RNNs great again
Когда в 2017 году появились трансформеры, популярные до этого RNN обрели слишком серьезного конкурента и отошли на второй план. Трансформеры допускали распараллеливание, а значит — ускоренное обучение, поэтому быстро захватили NLP. Преимущества трансформеров понятны, но с моделированием длинных последовательностей возникают проблемы даже у них. Для RNN это тоже непростая задача из-за исчезающих или взрывающихся градиентов. Но RNN с их линейной зависимостью от масштаба выглядят гораздо привлекательнее квадратичной сложности трансформеров. Идеальным вариантом было бы совместить преимущества тех и других.
Всё смешалось — эксперты, модели. Как уменьшить LLM, но не проиграть в продуктивности
Накатившая волна LLM с правилом “чем больше, тем лучше” уже вызывала естественный запрос — хочется повысить эффективность не за счет увеличения размера модели. Похоже, что вторая волна будет (или уже есть) именно такая — наращивание размеров уже не так впечатляет, появляется всё больше хитрых подходов, которые делают ставку не на размер. Мы разберем некоторые из них.