Как стать автором
Обновить
165.28
SberDevices
Создаём умные устройства
Сначала показывать

Slovo и русский жестовый язык

Уровень сложности Средний
Время на прочтение 10 мин
Количество просмотров 1.7K
Блог компании SberDevices Data Mining *Обработка изображений *Машинное обучение *Искусственный интеллект

Всем привет! В этой статье мы расскажем о непростой задаче распознавания русского жестового языка (РЖЯ) для слабослышащих. Насколько нам известно, в открытом доступе не существует универсального набора данных для распознавания РЖЯ. Поэтому мы решили выложить небольшую часть нашего датасета в открытый доступ. В статье мы затронем основные особенности РЖЯ, поговорим о проблемах и сложностях самого языка, и процессе его сбора и разметки. Расскажем, где искали экспертов и как нам в итоге удалось собрать самый большой и разнородный жестовый датасет для РЖЯ. В конце статьи представим набор предобученных нейронных сетей и небольшое приложение, демонстрирующее распознавание жестового языка. Часть датасета и веса моделей мы выложили в открытый доступ — все ссылки вы можете найти в конце статьи или в нашем репозитории.

Интересно?
Всего голосов 32: ↑32 и ↓0 +32
Комментарии 5

EasyPortrait — портретная сегментация и анализ лиц

Уровень сложности Средний
Время на прочтение 9 мин
Количество просмотров 1.8K
Блог компании SberDevices Data Mining *Обработка изображений *Машинное обучение *Искусственный интеллект

Всем привет! Наверняка, кто-то из вас уже пользовался сервисом видеоконференций SberJazz. Мы в нашей RnD команде решили помочь ребятам с задачей замены фона, для чего создали подходящий датасет и провели ряд исследований в направлении удаления фона (background removal). На этом мы не остановились и разметили данные для задачи анализа лица (face parsing). Это позволит пользователям применять эффекты бьютификации: сглаживание кожи, изменение размера и цвета губ или глаз, отбеливание зубов и т. д.

В данной статье мы расскажем о новом наборе данных EasyPortrait, опишем процесс его создания от идеи до разметки, и представим обученные на нем нейронные сети. Датасет и веса моделей мы выложили в открытый доступ — ссылки лежат в конце статьи и в нашем репозитории.

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Комментарии 16

Это не чат, это GigaChat. Русскоязычная ChatGPT от Сбера

Уровень сложности Средний
Время на прочтение 14 мин
Количество просмотров 85K
Блог компании Сбер Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *

Хайп вокруг нейросетей, выровненных при помощи инструкций и человеческой оценки (известных в народе под единым брендом «ChatGPT»), трудно не заметить. Люди разных профессий и возрастов дивятся примерами нейросетевых генераций, используют ChatGPT для создания контента и рассуждают на темы сознания, а также повсеместного отнимания нейросетями рабочих мест. Отдадим должное качеству продукта от OpenAI — так и подмывает использовать эту технологию по любому поводу — «напиши статью», «исправь код», «дай совет по общению с девушками».

Но как достичь или хотя бы приблизиться к подобному качеству? Что играет ключевую роль при обучении — данные, архитектура, ёмкость модели или что-то ещё? Создатели ChatGPT, к сожалению, не раскрывают деталей своих экспериментов, поэтому многочисленные исследователи нащупывают свой путь и опираются на результаты друг друга.

Мы с радостью хотим поделиться с сообществом своим опытом по созданию подобной модели, включая технические детали, а также дать возможность попробовать её, в том числе через API. Итак, «Салют, GigaChat! Как приручить дракона?»

Читать далее
Всего голосов 243: ↑232 и ↓11 +221
Комментарии 238

FRED-T5. Новая SOTA модель для русского языка от SberDevices

Время на прочтение 10 мин
Количество просмотров 9.7K
Блог компании SberDevices Open source *Машинное обучение *Искусственный интеллект Natural Language Processing *

Уже много времени прошло с момента публикации наших последних языковых моделей ruT5, ruRoBERTa, ruGPT-3. За это время много что изменилось в NLP. Наши модели легли в основу множества русскоязычных NLP-сервисов. Многие коллеги на базе наших моделей выпустили свои доменно-адаптированные решения и поделились ими с сообществом. Надеемся, что наша новая модель поможет вам поднять метрики качества, и ее возможности вдохновят вас на создание новых интересных продуктов и сервисов.

Появление ChatGPT и, как следствие, возросший интерес к методам обучения с подкреплением обратной связью от человека (Reinforcement Learning with Human Feedback, RLHF), привели к росту потребности в эффективных архитектурах для reward-сетей. Именно от «интеллекта» и продуктопригодности reward-модели зависит то, насколько эффективно модель для инструктивной диалоговой генерации будет дообучаться, взаимодействуя с экспертами. Разрабатывая FRED-T5, мы имели в виду и эту задачу, поскольку от качества её решения будет во многом зависеть успех в конкуренции с продуктами OpenAI. Так что если ваша команда строит в гараже свой собственный ChatGPT, то, возможно, вам следует присмотреться и к FRED’у. Мы уже ранее рассказывали в общих чертах об этой модели, а сейчас, вместе с публичным релизом, настало время раскрытия некоторых технических подробностей.

Появление новых, более производительных GPU и TPU открывает возможности для использования в массовых продуктах и сервисах всё более емких моделей машинного обучения. Выбирая архитектуру своей модели, мы целились именно в ее пригодность к массовому realtime-инференсу, поскольку время выполнения и доступное оборудование — это основные факторы, лимитирующие возможность создания массовых решений на основе нейросетевых моделей. Если вы уже используете в своем решении модель ruT5, то подменив ее на FRED-T5 вы, вероятно, получите заметное улучшение значений ваших целевых метрик. Конечно, в скором будущем мы обучим еще более емкие варианты модели FRED-T5 и проверим их возможности — мы планируем и дальнейшее развитие линейки энкодер-декодерных моделей для обработки русского языка.

Читать далее
Всего голосов 41: ↑40 и ↓1 +39
Комментарии 30

Как я сделал синтез своего голоса

Уровень сложности Простой
Время на прочтение 12 мин
Количество просмотров 13K
Блог компании SberDevices Машинное обучение *Искусственный интеллект Звук Голосовые интерфейсы *
Кейс

Всем привет! Меня зовут Гриша Стерлинг, я занимаюсь синтезом речи в SberDevices. Недавно прошла конференция AI Journey, где я рассказал, как сделал синтез своего голоса. За 15 минут выступления я не успел рассказать все, поэтому решил написать большой пост с деталями. Он будет интересен датасаентистам, людям из бизнеса и ai‑энтузиастам. Приглашаю всех под кат.

Читать дальше
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 8

Механика звука: как устроена новая умная колонка SberBoom и почему

Время на прочтение 10 мин
Количество просмотров 5.5K
Блог компании SberDevices Гаджеты Умный дом Звук
Обзор

SberDevices выпустила сразу две умные колонки с ассистентами Салют — компактную SberBoom Mini и полноразмерную SberBoom мощностью 40 Вт. 

Для нашей команды это не первый опыт в конструировании аудиоустройств — вам хорошо знакомы SberPortal, победитель международных премий за промышленный дизайн, и медиаколонка SberBox Time, о которой мы уже рассказывали

Забегая вперёд скажем, что SberBoom сильно от них отличается — в первую очередь архитектурой звука. Поэтому в этом посте мы не будем говорить о том, как придумывали внешний вид. Не расскажем, как делали подсветку корпуса. Не будем писать про микрофоны и ассистентов. Про фишечки в упаковке тоже не сегодня.

В первом посте сфокусировались на акустике. Под катом — всё про звуковую архитектуру SberBoom. 

Читать далее
Всего голосов 19: ↑18 и ↓1 +17
Комментарии 23

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

Время на прочтение 9 мин
Количество просмотров 4.7K
Блог компании SberDevices Open source *Data Mining *Машинное обучение *Искусственный интеллект

У нас в SberDevices очень сильная команда, разрабатывающая и развивающая решения в сфере речевых технологий. Раньше мы уже рассказывали о том, как обучить модель распознавания речи на открытых данных, и о том, как устроен наш синтез.

Однако, помимо распознавания и синтеза речи, мы развиваем технологии распознавания эмоций голоса для линейки наших умных устройств, а также для решений, позволяющих анализировать общение по телефону.  Например, на этой технологии базируется наш новый продукт SaluteSpeech Insights, который автоматически оценивает эмоции клиента и оператора колл-центра по каждой произнесенной ими фразе, классифицирует все диалоги на позитивные, нейтральные и негативные, определяет более 300 различных речевых характеристик, а еще прогнозирует оценку CSI (Customer Satisfaction Index).

Читать далее
Всего голосов 19: ↑18 и ↓1 +17
Комментарии 6

Маэстро: как виртуальные ассистенты Салют превращают текст в музыку

Время на прочтение 7 мин
Количество просмотров 1.8K
Блог компании SberDevices Машинное обучение *Искусственный интеллект Звук

2022 год войдет в историю как год прорыва генеративных нейронных технологий. Такие модели, как Midjourney, Stable Diffusion, DALL·E 2, Imagen и их аналоги показали нам, что нейронная сеть по обычному текстовому описанию может создавать картины, не уступающие произведениям талантливых художников. Это вызвало многочисленные протесты со стороны творческого сообщества, но прогресс не остановить, и все больше художников начинают использовать генеративные модели в своем рабочем процессе.

Наша команда решила адаптировать подход text-to-image к музыке в нотном домене. В результате этой работы у виртуальных ассистентов Салют появился навык «Маэстро», с помощью которого по текстовому запросу вы можете сгенерировать уникальные музыкальные композиции. Сейчас навык доступен в мобильных приложениях «Салют» и «Сбербанк Онлайн», и скоро будет доступен на умных устройствах Sber. Просто активируйте виртуального ассистента и скажите «Запусти Маэстро».

А как это все работает, мы расскажем дальше.

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Комментарии 7

TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке

Время на прочтение 9 мин
Количество просмотров 2.3K
Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *

Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500 сабмитов. Мы продолжаем разрабатывать инструменты для русского языка и в этой статье расскажем, как создали новый бенчмарк, который:

- опирается на оценку моделей в режимах zero-shot и few-shot; 

- использует новую библиотеку RuTransform для создания состязательных атак и трансформации данных с учётом особенностей русского языка на уровне слов и предложений — библиотека может быть использована как инструмент для аугментации данных;

- позволяет проводить детальный анализ качества модели на подмножествах тестовой выборки с учётом длин примеров, категории целевого класса, а также предметной области.

Читать далее
Всего голосов 27: ↑27 и ↓0 +27
Комментарии 1

Нейрофэнтези: сочиняем с ruGPT-3. Русский вариант AI Dungeon уже доступен пользователям ассистентов Салют

Время на прочтение 7 мин
Количество просмотров 5.1K
Блог компании SberDevices Машинное обучение *Искусственный интеллект
Из песочницы

Мы в SberDevices выпустили первый продукт в серии Нейроквестов — Нейрофэнтези. Квестами мы решили заняться по разным причинам. Например, в квестах можно испытать всю генеративную мощь семейства GPT-моделей. Квест также одновременно и литературный, и игровой формат взаимодействия с пользователем. В процессе игры фактически создается новая история. Среди решений на английском языке популярным стал проект AI Dungeon, мы захотели сделать нечто похожее на русском, попытавшись при этом превзойти оригинал, а также улучшить некоторые аспекты взаимодействия с пользователем. В этом посте расскажу, как мы разбирались с ходом сюжетных поворотов и с саджестами, и даже пришли к разработке инструмента для преобразования художественных текстов в обучающие данные в формате квеста.

Читать далее
Всего голосов 28: ↑27 и ↓1 +26
Комментарии 4

Умный дом Sber теперь полностью автономный. Из чего он состоит?

Время на прочтение 8 мин
Количество просмотров 6.2K
Блог компании SberDevices Гаджеты Умный дом Голосовые интерфейсы *

SberDevices сегодня перезапустили собственную платформу умного дома, отказавшись от сторонних инфраструктурных решений и сделав ее полностью автономной. Также с сегодняшнего дня в продажу поступило первое устройство умного дома Sber нового поколения – самая популярная лампа А60.

В этой статье мы хотим рассказать, как устроена наша платформа и как с её помощью мы выпускаем свои устройства и интегрируем устройства партнёров.

Читать далее
Всего голосов 40: ↑15 и ↓25 -10
Комментарии 20

Как мы сделали распознавание речи нескольких говорящих

Время на прочтение 9 мин
Количество просмотров 6.5K
Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *Голосовые интерфейсы *

В психологии есть понятие эффекта коктейльной вечеринки: человек способен воспринимать полезную для себя информацию даже в ситуации, когда вокруг него много источников речи и шума. Но насколько хорошо с такой задачей справляется искусственный интеллект? Можно ли добиться высокого качества распознавания речи, когда на записи говорят несколько человек?

Не так давно мы отметили 1 миллион проданных устройств с виртуальными ассистентами Салют. В нашей линейке в числе прочего представлены farfield-устройства, то есть те, с которыми можно “разговаривать” на расстоянии: смарт-дисплей SberPortal, ТВ-медиацентр SberBox Top и умная медиаколонка SberBox Time. В комнатах, где они стоят, может говорить одновременно несколько людей или играть телевизор, что существенно усложняет задачу распознавания. Иногда необходимость распознать больше одного голоса на записи возникает и у клиентов нашего API SmartSpeech — например, если это разговор двух людей.

В статье я расскажу, как мы решали эту проблему. Подробно остановимся на архитектуре нашего решения, узнаем о процессе её создания и возникавших сложностях, послушаем примеры работы системы.

Читать далее
Всего голосов 24: ↑23 и ↓1 +22
Комментарии 15

Добавляем голосовое управление на русском языке в VR-проект

Время на прочтение 5 мин
Количество просмотров 2K
Блог компании SberDevices Unity *Разработка под AR и VR *AR и VR Голосовые интерфейсы *
Туториал

Тема виртуальной, дополненной реальности, метавселенных набирает обороты. Но что это такое, как должно выглядеть, как этим пользоваться, никто толком пока не знает. Однако, как в своё время переход от десктопных приложений к мобильным, миграция в VR принесёт и новые паттерны взаимодействия с пользователем. Да, в виртуальной реальности уже можно «потрогать» предметы, но этого недостаточно для полноценного решения пользовательских задач. Кажется, что голосовое управление в VR станет ещё более актуальным, чем в мобильных устройствах — в виде, например, голосовых команд или ввода текстовых данных. 

Ниже опишу пошагово, как можно добавить голосовое управление на русском языке в VR-проект.

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 0

HaGRID — огромный открытый датасет для распознавания жестов

Время на прочтение 9 мин
Количество просмотров 4.9K
Блог компании SberDevices Data Mining *Обработка изображений *Машинное обучение *Искусственный интеллект

Хороший набор данных невероятно важен при обучении нейросетей. Наш датасет изображений с жестами HaGRID (Hand Gesture Recognition Image Dataset) — один из таких. С его помощью можно создать систему распознавания жестов, которая будет отлично работать в совершенно разных ситуациях. Например, жестовое управление можно использовать в видеоконференциях, для управления устройствами умного дома или мультимедийными возможностями автомобиля. Ещё одна важная возможность — создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов. Ниже рассказываем, как всё это работает, и делимся ссылками на датасет и набор предобученных моделей к нему.

Читать далее
Всего голосов 19: ↑19 и ↓0 +19
Комментарии 12

Большая версия ruDALL-E, или Как отличить Кандинского от Малевича

Время на прочтение 13 мин
Количество просмотров 57K
Блог компании Сбер Блог компании SberDevices Обработка изображений *Машинное обучение *Искусственный интеллект

Прошло около полугода с момента выхода базовой модели ruDALL-E XL (1.3B), мы – команды Sber AI и SberDevices – получили много лайков и, как подобается таким разработкам, дизлайков. Всё хорошее отразилось в гигантском наплыве пользователей в первые недели релиза: порядка 800 тыс. уникальных пользователей (на текущий момент уже более 2 млн.), – 1.2k ⭐ в репозитории и последующем изрядном списке фантастических файнтюнов (Emojich XL, Surrealist XL, генератор кроссовок, генератор покемонов). Но если читатель обратится к прошлой статье, то обязательно вспомнит, что в ней речь шла о двух версиях модели: XL (1.3B) и XXL (12B). На достигнутом мы не остановились, поэтому, сделав релиз текущего на тот момент чекпоинта XXL на SberCloud, продолжили заниматься сбором данных и дообучением модели. И вот, наконец, мы готовы вывести её в свет.

Читать далее
Всего голосов 45: ↑43 и ↓2 +41
Комментарии 20

Как автоматически переписать текст другими словами, сохранив смысл? Рассказываем про рерайт-сервис

Время на прочтение 8 мин
Количество просмотров 12K
Блог компании SberDevices Python *Машинное обучение *Искусственный интеллект Natural Language Processing *

Часто при работе с текстами мы хотим не только выделить главное из больших отрывков, но и переписать текст, сохранив его смысл. В предыдущем посте мы рассказали, как команда SberDevices делала AI Service суммаризатора. Сегодня давайте поговорим про наш опыт создания не просто парафразера, а именно рерайтера текста. В связке эти инструменты могут быть полезны для множества практических задач. Демо обоих сервисов доступны в маркетплейсе AI Services.

Читать далее
Всего голосов 15: ↑11 и ↓4 +7
Комментарии 22

Это наконец произошло: нейросеть и человек написали книгу. Вместе! Рассказываем, как им помогали разработчики

Время на прочтение 9 мин
Количество просмотров 12K
Блог компании SberDevices Python *Машинное обучение *Искусственный интеллект Natural Language Processing *

На этой неделе в издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices. 

«Пытаясь проснуться» — это первый в мире сборник рассказов, родившийся в результате сотрудничества писателя и его «двойника»-нейросети. Из 24 текстов в нём только половина принадлежит Пепперштейну — ещё дюжину сочинила генеративная нейросеть ruGPT-3, дополнительно обученная на рассказах Павла. 

В этом тексте мы расскажем, как обучали Нейроличность — двойника писателя — и что теперь будет с литературой (спойлер: а всё очень даже хорошо будет!).

Читать далее
Всего голосов 28: ↑26 и ↓2 +24
Комментарии 34

Практические применения генеративных моделей: как мы делали суммаризатор текстов

Время на прочтение 9 мин
Количество просмотров 6.3K
Блог компании SberDevices Python *Машинное обучение *Искусственный интеллект Natural Language Processing *


В последнее время вышло большое количество генеративных моделей для русского языка. Команды Сбера выпустили целое семейство авторегрессионных моделей ruGPT3, ruT5, о которых мы подробно писали ранее. Сегодня мы расскажем, как практически применять обучение таких моделей и какие продукты можно получить на их основе.

Мы выводим в открытый доступ два новых сервиса: Рерайтер и Суммаризатор. Модель «Рерайтер» способна переписать любой текст другими словами с сохранением смысла вне зависимости от длины и формата — от новостей и художественной литературы до постов в социальных сетях. Модель «Суммаризатор» позволяет создать сжатое изложение исходного текста, сохраняющее его главные тезисы. Эта модель может быть полезна для экономии времени читателя, а также выделения главных мыслей объёмных документов, научной или бизнес-литературы. В частности, использовать сервис можно для подготовки обзоров научных работ на заданную тему, создания новостных дайджестов, выделения наиболее важных событий в лентах информагентств для аналитики. 
Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 1

Как мы делали Салют ТВ: российскую платформу для умных телевизоров

Время на прочтение 8 мин
Количество просмотров 14K
Блог компании SberDevices Гаджеты Мониторы и ТВ Умный дом

В мае 2021 года мы представили Салют ТВ — платформу для телевизоров, разработанную командой SberDevices. Тогда СМИ назвали новинку «убийцей» Android TV. 

Салют ТВ — это адаптированная под телевизоры версия операционной системы StarOS, которая используется в умных устройствах Sber. Благодаря Салют ТВ телевизором можно управлять с помощью голоса, взаимодействовать с виртуальными ассистентами, выходить в интернет и даже заказывать продукты. Такой набор функций украсит любой SmartTV, но особенно полезен для бюджетных моделей. Ведь это поднимает их на качественно иной уровень, не задирая ценник.

С запуска прошёл почти год. Всё это время мы исследовали аудиторию, находили новых партнёров и расширяли линейку телевизоров с нашей платформой внутри. Но с чего всё началось? Почему мы решили делать софт именно для телевизоров? Как выбирали поставщиков? А факапы были? В статье мы расскажем «большую историю с нуля» о том, как создавали Салют ТВ.

Читать далее
Всего голосов 20: ↑12 и ↓8 +4
Комментарии 33

Модель-полиглот: как мы учили GPT-3 на 61 языке мира

Время на прочтение 10 мин
Количество просмотров 7.4K
Блог компании SberDevices Open source *Машинное обучение *Искусственный интеллект Natural Language Processing *

Генеративные языковые модели уверенно обосновались в практике Natural Language Processing (NLP). Большие предобученные трансформеры двигаются сразу в трёх направлениях: мультимодальность, мультизадачность и мультиязычность. Сегодня мы расскажем про последнюю — о том, как учили модель на основе GPT-3 на 61 языке мира.

Это — самая многоязычная авторегрессионная модель на сегодня. Такую модель можно использовать, например, чтобы создать вопросно-ответную систему, обрабатывающую тексты на многих языках, научить диалогового ассистента говорить на разных языках, а также сделать более универсальные решения для парсинга текста, извлечения информации.

Этим релизом мы хотим привлечь внимание к развитию NLP для языков стран СНГ, а также народов России. Для многих из представленных языков эта модель стала первой авторегрессионной языковой моделью. 

Модель доступна в двух вариантах размеров: mGPT XL на 1,3 миллиарда параметров — в открытом доступе, а mGPT 13B — будет доступна в ML Space SberCloud.

Читать далее
Всего голосов 31: ↑29 и ↓2 +27
Комментарии 30

Информация

Сайт
sberdevices.ru
Дата регистрации
Дата основания
2019
Численность
501–1 000 человек
Местоположение
Россия