В 2023 году языку COBOL исполнилось уже 64 года. Это один из старейших языков программирования, которые применяются на практике. Кроме того, он же — один из лидеров по объему написанного кода. Язык не собирается умирать, наоборот, он развивается. Конечно, конкурентом популярным ныне ЯП он не является, причины его популярности в другом. Об этом поговорим под катом.
Распознавание русского жестового языка: распознаём до 3+ жестов в секунду на обычном ПК без видеокарты
Привет!
Меня зовут Максим Новопольцев, я техлид RnD команды Центра развития технологий AI во благо общества, Sber AI. Мы занимаемся проектами, направленными на решение важных социальных и экологических задач, таких как сохранение биоразнообразия, создание инклюзивной среды, прогнозирование климатических рисков.
В этой статье я расскажу как и зачем мы создавали модель распознавания русского жестового языка и покажу, что из этого получилось.
Сегодня в России нет достаточного количества специалистов-переводчиков русского жестового языка (РЖЯ), с помощью которого общаются люди с ограничением слуха. По данным Всероссийского общества глухих, нехватка специалистов в этой сфере в России - около 4 тыс.
А между тем, глухие или неговорящие - достаточно большая группа людей, которая посещает государственные учреждения, ходит в магазины, банки и пр. По данным ВОЗ, более 5% населения мира, или 430 миллионов человек, имеют проблемы со слухом, а к 2050 г. с этой проблемой столкнется каждый десятый, или более 700 миллионов человек.
Система аутентификации: сделай сам vs возьми готовое
Разработка системы аутентификации может показаться начинающему разработчику простой задачей. Пользователь создает учетную запись, данные сохраняются, и в дальнейшем по логину-паролю происходит вход. Но когда начинаешь копать глубже, система аутентификации, точно луковица, открывает всё новые слои. В этой статье мы разберём некоторые общие проблемы, связанные с этим, и оценим возможные способы реализации.
Kandinsky Video — первая российская модель генерации видео по тексту
Если несколько предметов, постоянно меняющих форму и положение, будут последовательно возникать перед глазами через очень короткие промежутки времени и на маленьком расстоянии друг от друга, то изображения, которые они вызывают на сетчатке, сольются, не смешиваясь, и человеку покажется, что он видел предмет, постоянно меняющий форму и положение.
Жозеф Плато, август 1833 года
В недавней статье мы рассказали о возможности создания анимированных видеороликов на основе комбинации синтеза изображений и различных способов преобразования этих изображений (сдвиги в стороны, масштабирование и т. д.). Сегодня же речь пойдёт про нашу новую технологию синтеза полноценного видео по текстовому описанию, которую мы назвали Kandinsky Video (для затравки пара примеров приведена на рисунке 1).
Kandinsky 3.0 — новая модель генерации изображений по тексту
Без чувства современности художник останется непризнанным.
Михаил Пришвин
В прошлом году на АI Journey мы представили модель Kandinsky 2.0 — первую диффузионную мультиязычную модель генерации изображений по тексту, которая может генерировать изображения на основе русскоязычного текста. За ней последовали новые версии — Kandinsky 2.1 и Kandinsky 2.2, которые значительно отличались по качеству и своим возможностям от версии 2.0, и стали для нашей команды серьёзными вехами на пути к достижению лучшего качества генерации.
Спустя год после релиза нашей первой диффузионной модели мы представляем новую версию модели генерации изображений по тексту — Kandinsky 3.0! Это результат длительной работы нашей команды, которую мы вели параллельно с разработками версий Kandinsky 2.1 и 2.2. Мы провели много экспериментов по выбору архитектуры и проделали большую работу с данными, чтобы сделать понимание текста и качество генераций лучше, а саму архитектуру — проще и лаконичнее. Также мы сделали нашу модель более «отечественной»: теперь она значительно лучше ориентируется в российском и советском культурном поле.
В этой статье я кратко опишу ключевые моменты новой архитектуры, стратегию работы с данными и, конечно, продемонстрирую возможности нашей модели на примере генераций.
Генеративная «уловка-22», или Почему ИИ плохо отличает сгенерированные тексты от написанных человеком
Соблазн выдать текст, написанный ИИ, за оригинальный собственный стал особенно велик в последние годы, когда нейросети сделали огромный шаг вперёд. Вместе с этим, конечно же, появилась потребность определять тексты, написанные ИИ, а не человеком. Дошло до того, что некоторые учителя не засчитывают сочинения всему классу, хотя большинство работ действительно было написано учениками. Их тексты просто вызвали ошибочное срабатывание системы — ложноположительное (false positive). В этой статье мы разберём, почему инструменты определения сгенерированных текстов так неточны и можно ли с этим что-нибудь сделать.
Инновации на руке: почему в современных умных часах нет ничего нового
Первые умные устройства появились еще в 20 веке. Они были громоздкими, дорогими и не пользовались популярностью у населения. Часы были полностью электронными, а из функций только менялась яркость по датчику освещенности, а чтобы посмотреть время, нужно было нажать кнопку. Тем не менее в 70-е годы они произвели настоящий бум.
После инновационного прорыва, к разработке умных часов приступили разные компании из США, Японии и Кореи. Так, в устройствах начали появляться новые функции: электронная записная книжка, возможность управлять телевизором и первые приложения, которые записывались и распространялись на аудиокассетах.
В 20 веке каждые 3–5 лет на рынок выходили устройства, которые привносили новые технологии, функции и дизайн. Но сейчас мы видим меньше технологических достижений в сфере смарт-часов. Почему современные модели умных часов кажутся лишенными инноваций?
Создание видео zoom in и zoom out с помощью inpainting в Kandinsky
Развитие text2image-моделей открывает новые интересные возможности для создания креативного контента. Функция inpainting в Kandinsky позволяет создавать видео zoom in и zoom out с иллюзией приближения или отдаления от единого изображения. Таким образом Sber AI с коллегами из SberDevices продолжают развивать генеративные модели и расширяют творческие возможности умных устройств семейства "Салют".
GigaSearch или Поисковая система на GigaChat
Галлюцинации — это явление, которое до недавнего времени было привилегией человеческого сознания. Однако, с развитием текстовых генеративных моделей, таких как GigaChat и ChatGPT, возникла возможность наблюдать подобные "иллюзии" и в мире искусственного интеллекта.
Есть случаи, когда галлюцинации генеративной модели вполне уместны. Например, если вы попросите модель сгенерировать детскую сказку, то наличие в ней выдуманных персонажей и событий будет весьма кстати и понравится малышу.
Но мы точно не хотим получать выдуманную информацию про реальных людей или события. Кому интересно почитать о том, как мы боремся с галлюцинациями в GigaChat — добро пожаловать под кат.
Разработка через тестирование. Совместное использование JUnit 5 и Mockito
Привет, Хабр! На связи участница профессионального сообщества NTA Александра Грушина.
Поговорим о важности написания тестов к своему коду, о магии подхода test-driven development. Я расскажу о своём пути: от первого знакомства с концепцией TDD до умелого использования инструментов тестирования на Java (Junit 5 + Mockito).
Futura. Проект концептуального облика СберБизнес-2035
Всем известно, что дизайн призван показывать будущее вещей и таким образом их изобретать или переизобретать. И однажды такой момент в жизни любого продукта обязательно наступает. Дизайн умеет предчувствовать и, главное, — артикулировать, «овеществлять» своё предвидение. У дизайна это выходит особенно хорошо, потому что с одной стороны он — дитя искусства, и поэтому образы — его стихия. С другой стороны, папа дизайна — промышленность, поэтому ему подвластна форма или тело идеи.
Разработка рекомендательных систем: три открытых библиотеки от Сбера
Делимся своими открытыми библиотеками для разработки рекомендательных систем. Что? Да! Рассказываем подробнее. Всем известно, что Сбер это уже не просто банк, а огромная технологическая компания, которая включает в себя и сервисы компаний-партнёров: электронную коммерцию, индустрию развлечений и даже медицину. Количество пользователей достигло 108 млн, и для каждого из них мы создаём персональные рекомендации, которые помогают не потеряться в разнообразии предложений и выбрать лучшее.
Solutions architect, который не пишет код
В данной статье рассматривается профстандарт архитектора ПО (06.003).
Чем он занимается и как им стать.
Данной статьей я преследую цель ознакомить аудиторию с профстандартом архитектора программного обеспечения, чтобы дискуссии/диалоги велись с единым пониманием терминов, а также для расширения общего кругозора тех экспертов, кому это необходимо.
Жизнь после Spotify: какими музыкальными сервисами пользуются россияне
В сентябре 2023 года компания Mediascope BrandPulse провела исследование, согласно которому зарубежные музыкальные стриминговые сервисы остались в ТОП-5 самых популярных среди россиян. Несмотря на уход из страны, проблемы с оплатой премиум-подписок и другие ограничения. Так, YouTube Music пользуются 37% слушателей, а Apple Music — 12%. Они обходят некоторые отечественные сервисы — «Звук» (11%) и «МТС Музыку» (11%). Получается, россияне продолжают обходными путями запускать зарубежные стриминги.
Надо заметить, что Россия — уникальный регион. В большинстве стран мира выбирают общемировые сервисы вроде Spotify, YouTube Music, Apple Music и т. д. У нас же существуют сразу несколько локальных стримингов с достаточно большой аудиторией. Та же «Яндекс Музыка» в 2021 году занимала 2% рынка наравне с Deezer — 8 место в мировом топе. Но в 2022-ом все поменялось. Сегодня мы поговорим об отечественных музыкальных сервисах, их будущем и решениях, которые приняли рядовые россияне.
Мечта о российском АРМ: как заменить зарубежные мониторы, мышки и периферию
В июне 2023 года стало известно об инициативе, исходящей от отечественного производителя электроники «Бештау электроникс»: компания предлагает заменить иностранные АРМ с периферией (мышками, клавиатурами, мониторами и т. д.) на российские аналоги. Тем более, в сфере есть достаточно наработок. В Минпромторге к подобной идее относятся положительно, но призывают не делать поспешных выводов.
Сегодня мы поговорим про мечту о полностью отечественном АРМ: насколько она реальна в сложившихся условиях, и что предлагает российская индустрия прямо сейчас.
LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)
Привет, Хабр! На связи участница профессионального сообщества NTA Марина Коробова.
Данные занимают центральное место в информационном обществе. Именно информация является основой для принятия решений, развития бизнеса и научных исследований. Многие организации инвестируют огромные средства в системы, способные хранить, обрабатывать и анализировать данные.
Одной из главных проблем, с которыми сталкиваются компании, это непосредственная работа с базами данных с помощью языка SQL (Structured Query Language). Не все знают этот язык, и не у всех есть время изучать его. Поэтому на рынке появляются инструменты, позволяющие писать запрос на естественном языке и получать ответ на языке запросов.
В посте познакомлю вас с двумя AI-инструментами для генерации SQL-запросов: SQLCoder Defog и SQLthroughAI.
Как управлять сотнями sidecar-контейнеров без боли и сожаления
При использовании дополнительных контейнеров в Kubernetes важно развернуть их так, чтобы сократить количество YAML-кода и при этом не лишить платформенные команды возможности публиковать sidecar'ы без запроса на обновление приложение. Для этого подходят Sidecar Injector'ы — решения, которые позволяют писать свою логику изменения создаваемых ресурсов «на лету».
Меня зовут Максим Чудновский, я развиваю Platform V Synapse Service Mesh в СберТехе. Продолжаю свой рассказ о паттернах использования дополнительных контейнеров в Kubernetes. В этот раз поговорим, как устроены Sidecar Injector'ы, как перейти к управлению кластером через политики и какие готовые решения для этого существуют.
GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера
Обращаясь к мастерам научной фантастики, всё чаще удивляешься их проницательности. В рассказе Артура Кларка «Девять миллиардов имён Бога» компьютер воплотил пророчество тибетских монахов о наступлении конца света, а в повести Ника Горькавого «Астровитянка» ИИ был единственным другом маленькой девочки в течение десятка лет и помог ей выжить на чужой планете. Многие люди, включая специалистов, верят как в позитивный, так и в негативный путь развития искусственного интеллекта. К счастью, подобные системы являются лишь инструментом, который можно использовать себе во благо, или оставаться в стороне от этого. Уверен, что в течение нескольких лет ажиотаж вокруг нейросетей постепенно спадёт до такой степени, что мы будем относиться к ним как к ещё одному подарку технического прогресса.
А пока мы с вами находимся в настоящем и предвкушаем наступление новой технологической эры, предлагаю разобраться в основах машинного обучения и познакомиться с новой версией GigaChat'а. В ней нам удалось добиться качественного прорыва, обойти аналогичные по размеру языковые модели, а также расширить максимальную длину входного запроса модели и проделать множество других улучшений. Но обо всём по порядку.
Сначала освежим в памяти, что такое языковые модели и как они развивались до сегодняшних дней.
Посторонись, Copilot: подборка разнообразных AI-инструментов для разработчиков
За пределами всем известного GitHub Copilot лежит огромный мир полезных приложений для программистов, и каждую неделю в нем появляется что-нибудь новенькое. В этом посте мы расскажем об этих инструментах — как полноценных конкурентах продукта GitHub, так и более специфических плагинах, а также о нашей собственной разработке в этом направлении.
Размываем границы времени и учимся создавать видео — Kandinsky шагает дальше
В последние несколько лет активно развиваются генеративные модели, причём синтезировать с хорошим качеством уже сейчас получается и тексты, и аудио, и изображения, и видео, и 3D, и другие модальности. Если говорить про генерацию изображений, то стремительность прогресса в этом направлении обусловлена развитием диффузионного подхода и успехами при обучении больших диффузионных моделей (таких как DALL•E 2/3, Imagen, StableDiffusion, Kandinsky 2.X). Этот тип моделей показывает также отличное качество синтеза видео (ImagenVideo, Make-a-Video, Video LDM, GEN-1, GEN-2, Pika Labs, ZeroScope) и 3D-объектов (DreamFusion, Magic3D). При этом каждый месяц мы можем наблюдать за появлением новых open source (и не только) решений и сервисов, которые обеспечивают очень высокое визуальное качество генераций.
Несмотря на стремление исследователей в области машинного обучения создать единую модель для синтеза видео, есть не менее элегантные подходы к генерации видеороликов. В этой статье речь пойдёт как раз о таком способе создания анимированных видео на основе модели генерации изображений по тексту — в нашем случае, это, как вы уже успели догадаться, модель Kandinsky 2.2. В деталях изучив направление моделирования различных визуальных эффектов вокруг генеративной модели, которая обладает способностью преобразования изображений (image-to-image) и механизмами дорисовки (inpainting/outpainting), мы разработали решение, которое расширяет границы статичных генераций и даёт возможность синтеза так называемых анимационных видео. В качестве такого фреймворка имплементации различных вариантов анимаций мы взяли широко известный deforum, который хорошо зарекомендовал себя в связке с моделью StableDiffusion. И поверьте, задача скрещивания deforum с Kandinsky была отнюдь не простой. Об этом и поговорим далее!
Информация
- Сайт
- www.sber.ru
- Дата регистрации
- Дата основания
- Численность
- свыше 10 000 человек
- Местоположение
- Россия