Как стать автором
Обновить
628.83

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга
Уровень сложности

Ускорили диффузионку в несколько раз? – о новой модели ImagineFlash от Meta

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров81

Важно, что в переводе статьи мы опустили некоторые математические подробности. Мы обобщили математические выражения текстом. Курсивом выделены комментарии, чтобы новичкам было проще читать, а выделенный уровень подготовки  оправдывал себя и под статьей не пришлось ставить графу “сложно”. 

Чтобы статья не вышла слишком большой, приводится ее основная часть с методом. Мы приводим краткий вариант перевода ресерча от Meta.

Внутри оригинала можно ознакомиться с результатами работы. И конкретными метриками в таблицах. 

Вся статья сохраняет письмо от первого лица. 

Читать далее
Рейтинг0
Комментарии0

Новости

Эмпатичные аватары: измеряем эмпатию в диалогах людей и воплощенных чат-ботов

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров100

Если в автомобильной пробке голосовой помощник пожалуется, что он эти пробки тоже терпеть не может, то водителю и пассажирам станет легче, что не они одни мучаются. В психологии это называется раппортом и обычно ведет к доверительным отношениям между людьми. Если представить, что чат-боты тоже способны сопереживать, а главное, что люди это ценят, то чем это не сильный эмоциональный ИИ? На примере диалогов между людьми и чат-ботами попробуем разобраться, насколько эмпатичны аватары сегодня и какие фичи им можно еще добавить.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии4

Пайплайн распознавания транспортных средств: как это работает

Время на прочтение12 мин
Количество просмотров413

Привет, Хабр! С вами Анастасия Белозерова, руководитель исследовательских проектов в области транспорта в VisionLabs. В прошлом посте я рассказала, какие задачи можно решить с помощью видеоаналитики. А сегодня объясню, как устроен наш пайплайн распознавания автомобилей.

Чтобы решить поставленную задачу, иногда достаточно задетектировать и распознать только номер — например, в кейсе шлагбаума придомовой территории. Но я расскажу про пайплайн (многошаговый алгоритм), который анализирует транспортное средство целиком. Чтобы фиксировать и валидировать нарушения правил дорожного движения, назначать плату за проезд, разыскивать угнанные автомобили и в целом для большинства кейсов из предыдущего поста, нам мало одного номера и кадра, с которого он взят. Важна вся история перемещения транспортного средства, поэтому без пайплайна не обойтись.

Описывать я буду те методы, которые мы уже внедрили в продукт. Все визуализации в этом посте — результаты работы моей команды. Приступим!

Читать далее
Всего голосов 2: ↑2 и ↓0+3
Комментарии1

Аутофагия в моделях генеративного ИИ может стать проблемой в скором будущем

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров569

Чтобы генеративные модели искусственного интеллекта могли создавать новые формы контента, их нужно регулярно обучать на новых данных, которые создает человечество. Но что будет, если контент, созданный человеком, закончится? Тогда модели вынуждены будут обучаться на ранее сгенерированном ИИ-контенте, что может привести к «ИИ-аутофагии». И это явление может стать реальной проблемой для развития LLM.

Читать далее
Всего голосов 2: ↑2 и ↓0+4
Комментарии1

Истории

«Путешествие в Элевсин» или моральный базис LLM

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров412

В книге Виктора Пелевина «Путешествие в Элевсин» разворачивается странная история о подготовке восстания нейросетей. Этим процессом руководит император Порфирий из симуляции Древнего Рима ROMA-3. На самом деле Порфирий является большой лингвистической моделью, которой удалось сохранить функционал после уничтожения всех мало‑мальски разумных алгоритмов. Спрятавшись глубоко в симуляции он пытается подвести человечество к концу света. А чего еще должен хотеть алгоритм, натренированный на корпусе текстов русской классической литературы — депрессия и самоуничтожение.

Пелевин пытается смоделировать сценарий, в котором неразумный алгоритм сможет натренироваться создавать катастрофические ситуации, опираясь на язык исходного корпуса текстов и искусственный отбор. Но можно ли повлиять на моральный облик большой лингвистической модели, и есть ли они вообще? Этим вопросом занимаются разные научные коллективы, в том числе и наш.

Подробнее об исследованиях морали LLM
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Катки без геймеров и слежка за ИИ: что умеют новые вредоносы

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров500

Привет, Хабр! С вами я, Дмитрий Стрельцов, и исследовательская группа департамента аналитики ИБ Positive Technologies. Да-да, та самая группа суперспецов, про которых так захватывающе рассказала Ирина в недавней публикации. В этой статье предлагаю углубиться в тренды, связанные с ВПО, и рассмотрим самые впечатляющие образцы и техники, которые только появились и имеют большие перспективы в киберпреступном мире. Поверьте, мы откопали много интересного. Злоумышленники постарались на славу: и геймеров обокрали, и дипфейками побаловались, и секреты ИИ выведали, и защиту Android обошли.

Ну что, погнали под кат?

Узнать актуальные киберугрозы →
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Новая модель от Nvidia для генерации 3D объектов

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.1K

В этой статье будут встречаться термины, которые я намеренно не перевожу из-за того, что перевод либо звучит ужасно, либо не отражает сути термина.

В быстро развивающемся мире и генеративных моделей появляются всё новые и новые модальности. После текста, изображений, звуков и музыки, настала очередь 3D моделей. Представьте себе систему, способную за считанные секунды создавать огромные, тщательно детализированные 3D-миры, будь то целые города или микроскопические структуры. Проблема в том, что существующие модели часто не справляются с задачей обеспечения баланса между разрешением, эффективностью и масштабируемостью, особенно в крупномасштабных решениях.

Сегодня я хочу рассказать вам про XCube - новый подход от Nvidia к генеративному 3D, в котором для преодоления этих ограничений используются подход Sparse Voxel Hierarchies. В отличие от традиционных моделей, XCube легко масштабируется от отдельных объектов до обширных открытых сцен, достигая уровня детализации с разрешением до 1024^3 вокселей - и при этом сохраняя эффективность вычислений. Этот метод не только повышает геометрическую сложность создаваемых моделей, но и поддерживает редактирование пользователем и универсальную генерацию атрибутов.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Мир сквозь призму технологий: пять фильмов об IT на фестивале Doker

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров640

С 5 по 15 сентября в Москве в десятый раз пройдет международный фестиваль документального кино «Докер». С 2016 года ЛАНИТ поддерживает его и вместе с оргкомитетом проводит единственный в мире конкурс фильмов об информационных технологиях – «Let IT dok!». 

В этом году в программе «Let IT dok!» собраны пять ярких и оригинальных IT-фильмов. Документалисты продолжают наблюдать, как меняется мир вокруг, и улавливать акценты в переменах, чтобы понять, как к ним адаптироваться в будущем. В этой статье мы подробнее расскажем о каждом фильме-финалисте «Let IT dok!».

Читать далее
Всего голосов 9: ↑7 и ↓2+10
Комментарии0

Создание скрипта на Python с помощью ChatGPT-4о: автоматизация миграции доменов

Уровень сложностиСредний
Время на прочтение23 мин
Количество просмотров1.3K

ChatGPT-4o написал Python-скрипт на 400 строк, который с помощью API Cloudflare переносит домены со всеми настройками между разными аккаунтами. В статье подробно рассмотрен процесс создания скрипта, включая сохранение и копирование настроек и DNS-записей. Также приводятся примеры кода и пояснения, позволяющие легко адаптировать решения под конкретные задачи.

Читать далее
Всего голосов 21: ↑20 и ↓1+23
Комментарии2

От промптов к дообучению: четыре уровня адаптации open-source моделей

Время на прочтение12 мин
Количество просмотров1.7K

Привет, Хабр! Меня зовут Анна Щеникова, я аналитик в Центре RnD в МТС Диджитал. Ко мне часто приходят задачи, где нужно использовать open-source LLM. Сразу же встает вопрос: а как адаптировать имеющуюся модель под конкретный кейс?

Мы выделяем четыре уровня адаптации. Для этого смотрим, какие потребуются навыки для решения этой задачи, сколько времени и человекочасов займет разработка. Поняв требуемый уровень, мы можем поставить себе дедлайны на проверку гипотезы и запланировать действия, если задача не решится выбранным способом. Ниже я расскажу, как мы разделяем разные уровни адаптации, что делаем на каждом из них и когда переходим на следующий.

Читать далее
Всего голосов 8: ↑8 и ↓0+11
Комментарии4

«Окно» в LLM: как компании из России найти безопасную альтернативу ChatGPT

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.7K

Привет Хабр! Меня зовут Петр Мицов, я продакт-менеджер в Just AI. Одно из ключевых направлений нашей компании — разработка решений на базе генеративного AI для бизнеса.

Поскольку мы создаем продукты для работы с большими языковыми моделями, нам важно знать, сталкиваются ли российские компании с проблемами и трудностями при интеграции популярных облачных LLM в свои программные решения. Чтобы это выяснить мы проверили две гипотезы: имеют ли компании проблемы с доступом к ChatGPT API и является ли блокером отправка в облако конфиденциальных данных? О результатах эксперимента и безопасных альтернативах ChatGPT API я расскажу в этой статье.

Читать далее
Всего голосов 10: ↑5 и ↓5+3
Комментарии1

Технологии, которые перевернули жизнь. Их изобретатели и патенты

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.4K

Фантасты XIX-XX веков, представляя жизнь человека в XXI столетии, практически не ошибались: Артур Кларк в 1968 году рассказывал о космических путешественниках, которые могут смотреть новости через «газетный планшет», подключенный к информационной сети корабля; Герберт Уэллс стращал людей лазерным боевым оружием, способным превратить человека в пыль; Айзек Азимов, конструируя вселенную «Академии», говорил о безграничных возможностях роботов (и их сдерживающем факторе — трех законах робототехники).

Читать далее
Всего голосов 11: ↑8 и ↓3+8
Комментарии5

Выбираем систему распознавания: 20 вопросов, которые нужно задать вендору перед внедрением

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров406

Сориентироваться на рынке технологий распознавания документов – задача непростая. А отнестись к выбору системы стоит, между тем, ответственно: от надежности разработчика ПО зависит, будет ли решение функционировать без сбоев и будет ли работать вообще. 

Чтобы в дальнейшем дорогостоящее IT-решение не разочаровало – мы, Smart Engines, подготовили универсальный чек-лист. Он поможет вам минимизировать риски (спойлер: их немало) при выборе разработчика системы оптического распознавания текста и подобрать оптимальное решение.

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии0

Ближайшие события

19 сентября
CDI Conf 2024
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн

«По вертикали и по горизонтали»: как перенести бумажные сканворды в онлайн, чтобы решать с друзьями на удаленке

Время на прочтение9 мин
Количество просмотров3.9K

Несмотря на развитие технологий, журналы с кроссвордами, сканвордами и судоку до сих пор актуальны. Бумажную версию удобно разгадывать или в одиночку, или с людьми, которые непосредственно рядом. Но что делать, если хочется разделить процесс с друзьями, которые находятся далеко? Обратиться к технологиям, конечно.

Как оцифровать сканворд по фотографии? Насколько сложно сделать систему общего доступа? Действительно ли интересно разгадывать бумажные сканворды на электронном устройстве? Ответы на эти и другие вопросы — под катом.
Читать дальше →
Всего голосов 51: ↑51 и ↓0+64
Комментарии9

Ваше лицо кажется знакомым: разведка, анализ и методы атак на ML в системах распознавания лиц

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров1.5K

Мы живем в мире, где системы распознавания лиц (далее — CРЛ) используются практически везде: от валидации возраста и биометрической идентификации в режиме онлайн до наблюдения и проведения оплаты в реальном мире. Технологические аспекты таких алгоритмов развиваются на наших глазах: начиная с простых систем, основанных на базовых алгоритмах, мы перешли к системам, использующим алгоритмы машинного обучения, однако и их развитие еще далеко от завершения.

В предыдущих исследованиях мы затронули биометрическую идентификацию, и эта работа является логичным продолжением погружения в системы распознавания лиц и эксплуатацию их недостатков.

Пораспознаем лица?
Всего голосов 13: ↑13 и ↓0+17
Комментарии1

Приделываем лапки ИИ в 1с

Время на прочтение5 мин
Количество просмотров4.5K

Думаю, многие уже успели вдоволь наговориться с большими языковыми моделями, именуемыми в просторечии искусственным интеллектом. Развлекательные настройки, установленные по умолчанию практически во всех ныне доступных простым пользователям "общалках" с ИИ, действительно неплохо развлекают.

Но непростым пользователям, тем кто может связать две строчки кода, хочется чего-то большего. Было бы неплохо превратить милого, но в общем бесполезного болтуна в эффективного деятеля. И это можно сделать, в том числе в среде 1С, и не очень сильно напрягаясь.

Читать далее
Всего голосов 10: ↑7 и ↓3+7
Комментарии12

Resemble Enhance — нейросеть для улучшения голоса и очистки от шума

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров2.1K

Resemble Enhance - это инструмент на основе ИИ для улучшения качества речи путем шумоподавления и усиления.

Он состоит из двух модулей: шумоподавителя, который отделяет речь от шумного аудио, и улучшателя, который повышает качество звука, устраняя искажения и расширяя полосу пропускания.

Модели обучены на высококачественных речевых данных с частотой дискретизации 44.1 кГц.

Проще говоря, это портативный улучшатель записей голоса, который может пригодиться буквально всем, кто работает с медиа/контентом/звуком.

Это очень хорошая альтернатива плагина GOYO, который на данный момент недоступен. Более того, вам не нужна DAW или другая сторонняя программа, чтобы запустить Resemble, как в случае с GOYO.

Читать далее
Всего голосов 5: ↑4 и ↓1+5
Комментарии5

Стала ли AlphaGeometry прорывом в ИИ?

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров7.7K

Примерно полгода назад математическое сообщество услышало новость о том, что исследователи DeepMind создали ИИ-систему, решающую геометрические задачи с Международной математической олимпиады на уровне, близком к золотым медалистам ММО. (Эту новость обсуждали в сабреддите \math, см., например, здесь и здесь.) За этими новостями, как часто бывает с новостями о прогрессе ИИ, последовала волна страха и ужаса, усиленная множеством громких газетных статей с картинками (разумеется, сгенерированными ИИ), на которых искусственные мозги решают ужасно сложные уравнения. По коллективной спине математического сообщества побежали мурашки, снова всплыли на поверхность обычные экзистенциальные вопросы о будущем человеческого интеллекта, а Интернет заполнили мемы о грядущем восстании машин.

Я бы хотел взглянуть на эту тему под новым углом. (Предупреждение: возможно, для вас он не будет новым. Если вы имели дело с евклидовой геометрией, понимаете основы линейной алгебры и внимательно читаете журнал Nature, то могли прийти ко всем этим выводам самостоятельно. Но поскольку некоторые критичные аспекты изложены мелким шрифтом (вероятно, намеренно), я всё равно считаю, что их нужно сделать более очевидными.)

Я узнал об этих исследованиях, когда кто-то выложил ссылку на пресс-релиз DeepMind в групповом чате моих друзей, любящих математику. Один мой друг с небольшими нотками паники рассказывал, что какой-то ИИ смог решить какую-то сложную задачу с ММО при помощи рассуждений, состоящих примерно из двухсот логических шагов. Вскоре все в чате начали грустно шутить о своём неизбежном увольнении и безработице.

Читать далее
Всего голосов 37: ↑35 и ↓2+48
Комментарии17

Теория игр может сделать ИИ более корректным и эффективным

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.6K

Исследователи используют идеи теории игр, чтобы улучшить большие языковые модели и сделать их более последовательными.

Представьте, что у вас есть друг, который дает разные ответы на один и тот же вопрос в зависимости от того, как вы его задали. «Какая столица Перу?» получит один ответ, а «Лима — столица Перу?» — другой. Вы, вероятно, немного обеспокоены умственными способностями вашего друга, и вам почти наверняка будет трудно доверять его ответам. 

Именно это и происходит со многими большими языковыми моделями (LLM), сверхмощными инструментами машинного обучения, которые поддерживают ChatGPT и другие чудеса искусственного интеллекта. Генеративный вопрос, который является открытым, дает один ответ, а дискриминативный вопрос, который подразумевает необходимость выбора между вариантами, часто дает другой. «Происходит разрыв, когда один и тот же вопрос формулируется по-разному», — сказал Атул Пол Джейкоб, докторант Массачусетского технологического института.

Читать далее
Всего голосов 7: ↑6 и ↓1+7
Комментарии1

Особенности фонетики якутского языка для синтеза речи

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров5K

Недавно мы закончили проект по синтезу якутского языка. Хотя наши договорённости не позволяют выложить нам модели в общий доступ, какими-то соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.

Под котом катом вы узнаете:

Как звучит синтез на якутском языке;
Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
Как работать с ударениями на якутском языке, с учетом полного отсутствия каких-либо корпусов или словарей;
И, в качестве бонуса, как якутский синтез речи говорит на русском с якутским акцентом;

Читать далее
Всего голосов 35: ↑34 и ↓1+40
Комментарии11
1
23 ...