Машинное обучение *

Основа искусственного интеллекта

«От категорий к векторам», или нестандартное кодирование категориальных данных. Часть 2

Блог компании МегаФон Data Mining *Big Data *Машинное обучение *

Tutorial

Привет, Хабр! С вами снова Артём, Team Lead Data Scientist из МегаФона. Надеюсь, вам понравилась первая статья серии о нестандартных методах кодирования категориальных данных, где я поделился своим опытом и показал, как с кодированием справляется тематическое моделирование. Во второй части вы узнаете о более сложных подходах. Инсайты могут быть полезны специалистам в Data Science для решения широкого класса задач: от классификации до построения рекомендательных систем.

В путь

320

panda_dinozavrik вчера в 17:35

Нейронные сети в кибербезопасности

Информационная безопасность *Машинное обучение *Научно-популярное

Из песочницы

Глубокое обучение – это часть машинного обучения на основе нейронных сетей. В наше время каждый слышал про нейронные сети, да, может, и не каждый знает, что это такое и что оно делает, но само название всем знакомо.

Многие устройства, существующие сейчас, имеют внутри себя нейронную сеть, которая решает ту или иную задачу системы. На самом деле, если разбираться глубже это достаточно сложная структура, напоминающая совокупность нейронов в человеческом мозге. Сама их идея заставила многих заняться этой отраслью, чтобы получить выдающиеся результаты. Поэтому к 2021 году нейросети применяются в различных областях нашей жизни. Кибербезопасность не стала исключением.

Кибербезопасность-это полный набор всех методов, отвечающих за защиту сетей, программного обеспечения. С реализацией Интернета вещей IoT кибербезопасность становится все более важной, чем когда-либо. Компьютерные сети уязвимы для многих угроз. Более того, система должна быть защищена не только от внешних угроз, но и также необходимо защитить от внутренних, таких как неправомерное использование авторизованного доступа.

1.6K

jamm1985 вчера в 17:29

Машинное обучение в сейсмологии

Математика *Машинное обучение *

Все хотя бы раз слышали про землетрясения. Это опасное природное явление которое может привести к разрушению зданий, возникновению цунами и гибели людей. С помощью составления каталогов землетрясений и анализа сейсмической активности человечество пытается минимизировать риски от наступления сейсмических событий. Основной источник данных в сейсмологии - это непрерывные записи движения грунта, которые регистрируют с помощью сейсмических станций. Для того что бы составить представительный каталог землетрясений необходимо определить времена вступлений сейсмических волн в непрерывном потоке, рассчитать параметры очага и выполнить оценку магнитуды. Каждый этап рутинной обработки сейсмологических данных это предмет отдельной статьи, но мы с вами посмотрим на самое интересное - распознавание сейсмических волн методами машинного обучения. Определение времён вступлений сейсмических волн до сих пор выполняется (или корректируется) операторами-сейсмологами. Автоматизация этой сложной задачи позволит полностью исключить ручной труд при непрерывной обработке данных любой сейсмической сети. При этом, необходима такая модель, которая с одной стороны могла обеспечить точность отметок вступлений на уровне человека, а с другой была эффективна на этапе вывода (эксплуатация на CPU). Возможно ли это? Давайте посмотрим!

764

nurtdinovadf 5 ноября в 16:50

Бесплатное распознавание речи для всех желающих

Машинное обучение *Развитие стартапа Звук Natural Language Processing *Голосовые интерфейсы

Читать дальше →

+16

5.2K

Bee_brightside 5 ноября в 15:27

Первое правило машинного обучения: начните без машинного обучения

Блог компании билайн бизнес Программирование *Машинное обучение *Kubernetes *

Перевод

Эффективное использование машинного обучения — сложная задача. Вам нужны данные. Вам нужен надёжный конвейер, поддерживающий потоки данных. И больше всего вам нужна высококачественная разметка. Поэтому чаще всего первая итерация моих проектов вообще не использует машинное обучение.

Что? Начинать без машинного обучения?

Об этом говорю не только я.

Догадайтесь, какое правило является первым в 43 правилах машинного обучения Google?

Правило №1: не бойтесь запускать продукт без машинного обучения.

Машинное обучение — это здорово, но для него требуются данные. Теоретически, можно взять данные из другой задачи и подстроить модель под новый продукт, но она, скорее всего, не справится с базовыми эвристиками. Если вы предполагаете, что машинное обучение придаст вам рост на 100%, то эвристика даст вам 50%.

Читать дальше →

+25

5.4K

kucev 4 ноября в 10:28

Почему 87% проектов data science не добираются до продакшена?

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

«Если ваши конкуренты применяют ИИ и они нашли способ, позволяющий им ускориться, то они оторвутся от вас очень быстро», — поделилась CTO компании IBM по data science и ИИ Дебора Лефф на сцене Transform 2019.

В другом докладе, «Что вообще такое — работать с ИИ?» Лефф и старший вице-президент Gap по данным и аналитике Крис Чапо углубились в рассуждения о том, почему многие компании по-прежнему зря тратят время или терпят поражение, пытаясь реализовать стратегии работы с ИИ. И всё это несмотря на то, что преимущество, которым обладали крупные компании перед мелкими, теперь исчезло, а парадигма полностью изменилась. Благодаря ИИ быстрые компании обгоняют по эффективности медленные, вне зависимости от их размера. А крошечные безымянные компании отбирают долю рынка у гигантов.

Но если понимание того, что ИИ действительно даёт конкурентное преимущество, есть у всех, то почему до стадии продакшена добирается всего 13% проектов data science, или почти каждый десятый?

Читать дальше →

3.2K

svpra 4 ноября в 09:59

План обучения С#

.NET *C# *Машинное обучение *Data Engineering *

Из песочницы

Приветствую, Хабрачитатели!

Хотелось бы рассказать о моем алгоритме обучения языку, т.к. когда я был новичком, мне было очень сложно найти информацию о том, как правильно учится, где можно достать информацию и тому подобное. Поэтому вот: моя статья на эту тему. Ссылки тоже будут.

P.S. это статья для новичков, поэтому много фактов будут банальными для опытных разработчиков. Просьба не бить. Если что-то забыл - пишите в комментариях. Ну а теперь к статье :)

Итак, когда я начинал учится, я бродил по интернету в поиске нормального и вдохновляющего материала. Первое, что я нашел - уроки Гоши Дударя, но согласитесь, не самый лучший лучший вариант для начала обучения, так как темы у него объясняются крайне обобщенно, и весьма разбросано, пропуская ключевые моменты.

Второй вариант заключался в прохождении курса Sololearn. Sololearn оказался действительно намного полнее уроков Дударя, но как говорится - всё познается в сравнении.

И самый нормальный вариант - книга Герберта Шилдта по С#. Действительно, самое полное, что может быть. 1000 страниц, и после этого, ты сможешь выучить язык. Но я вам скажу, этого мало. Кстати, ссылка на скачивание всех книг из этой статьи, находится тут.

После прочтения этой книги вы можете считаться программистом. Но этого, как я уже говорил ранее, недостаточно. Почему? Потому что помимо основного языка, нужно знать алгоритмы, фреймворки, библиотеки, технологии, и иметь опыт, в конце концов. Но последнее приобретется, если вы будете оттачивать навыки, и решать задачи самостоятельно. А не тупо копировать код индусов со StackOverFlow. Ну а теперь к перечислению тех самых фреймворков и технологий.

Давай дальше

-3

5.4K

BootSector 3 ноября в 16:00

Рисуем вместе с CLIP Guided Diffusion HQ

Блог компании RUVDS.com Обработка изображений *Машинное обучение *Дизайн Будущее здесь

UPD: эта статья была написана до выхода интереснейшего материала о нейросети ruDALL-E. Мы решили всё равно её опубликовать — таким образом у читателей будет возможность сравнить изображения, сгенерированные отечественной и зарубежной сетями. Дальнейший текст публикуется без изменений.

Во времена старого Баша мне запомнилась одна цитата:

kok:
Подскажите какой прогой перегонять книги из txt в mp3
Izzzum:
^^^^^ No Comment а почему сразу не в 3gp или XviD?
kok:
А в каком по твоему формате аудиокниги?
kok:
Или ты думаешь, что какойто дурень сидит и начитывает перед микрофоном?

Что ж, если не предъявлять слишком высоких требований к реалистичности результата, можно сказать, что сегодня у нас такие «проги» есть. Речь, конечно же, о нейросетях, которые умеют генерировать практически любые виды контента.

Читать дальше →

+53

3.1K

perevalov_a 3 ноября в 15:35

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Поисковые технологии *Семантика *API *Машинное обучение *Голосовые интерфейсы

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

439

kucev 3 ноября в 11:49

Пять альтернатив Scale AI

Data Mining *Обработка изображений *Big Data *Машинное обучение *Искусственный интеллект

Перевод

Выбор подходящего инструмента для аннотирования данных — непростая задача, поэтому чтобы принять верное решение, необходимо знать все возможные варианты. В этой статье мы расскажем о лучших, по нашему мнению, альтернативах Scale AI.

Проекты машинного обучения и глубокого обучения стали сегодня мейнстримом.

Однако несмотря на огромные трудозатраты, только некоторым компаниям удалось превратить свои модели в продукты.

Согласно данным Gartner, для более чем 85% ИИ-проектов есть риск обеспечения плохих результатов из-за погрешностей в данных, алгоритмах или заблуждений разработчиков.

В частности, слабым звеном в ML/DL является качество данных, поскольку успех проектов сильно зависит от объёмов высококачественных размеченных данных, которые способна регулярно создавать команда.

Scale AI одним из первых воспользовался возможностью совершенствования и автоматизации управления, аннотирования и интегрирования данных.

Но Scale — не единственный мощный инструмент в области разметки данных для обучения ИИ.

Читать дальше →

647

worksolutions 3 ноября в 11:01

Нейродайджест: главное из области машинного обучения за октябрь 2021

Python *Машинное обучение *Искусственный интеллект TensorFlow *

3D-рендеринг сцены из нескольких фотографий, определение глубины и освещения по фото, нейронный дизайнер интерьеров, генерация звука по видео и многое другое в октябрьской подборке.

Перейти к обзору

1.3K

Farruh7 2 ноября в 20:06

Байесовская Сеть Доверия Применительно IoT

Блог компании OTUS Математика *Машинное обучение *Разработка для интернета вещей *Искусственный интеллект

Tutorial

Привет, Хабр. В предыдущей статье рассматривали методы и алгоритмы Обнаружения и Диагностики Неисправностей (ОДН) IoT устройств. Как логическое продолжение рассмотрим Байесовскую Сеть Доверия (БСД) для IoT устройств целю ОДН.

Байесовская сеть доверия (англ. Bayesian Belief Network, BBN) — это вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. БСД используются для моделирования предметных областей, которые характеризуются неопределенностью. Эта неопределенность может быть обусловлена недостаточным пониманием предметной области, неполным знанием ее состояния в момент принятия решения, случайным характером механизмов, определяющих поведение этой области, или комбинацией этих факторов. Например, БСД может быть использована для вычисления вероятности того, в чем причина не исправности устройства основываясь на данных по полученных из датчиков и поведением устройства в целом. Таким образом строиться зависимости между сигналами и неисправности устройства.

1.8K

toshiba_ru 2 ноября в 15:37

Ограниченный и субъективный, безразличный и прожорливый: четыре главных проблемы искусственного интеллекта

Машинное обучение *Искусственный интеллект Будущее здесь

В неспокойный 2020 год до 20% прибыли компаний в разных секторах экономики принес искусственный интеллект (ИИ), по опросам McKinsey. Однако чем шире внедряется эта технология, тем зримее трудности на пути её разработчиков. Почему ИИ отучают от расизма и хейтспича, как нейросеть заставляют перестать думать о прошлом, зачем разработчикам ИИ гуманитарный ликбез и сколько реального углекислого газа выбрасывает в атмосферу виртуальный чатбот? Рассказываем о четырёх главных проблемах искусственного интеллекта.

2.7K

ddimitrov 2 ноября в 14:34

ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России

Блог компании Сбер Блог компании SberDevices Обработка изображений *Машинное обучение *Искусственный интеллект

2021 год в машинном обучении ознаменовался мультимодальностью — активно развиваются нейросети, работающие одновременно с изображениями, текстами, речью, музыкой. Правит балом, как обычно, OpenAI, но, несмотря на слово «open» в своём названии, не спешит выкладывать модели в открытый доступ. В начале года компания представила нейросеть DALL-E, генерирующую любые изображения размером 256×256 пикселей по текстовому описанию. В качестве опорного материала для сообщества были доступны статья на arxiv и примеры в блоге.

С момента выхода DALL-E к проблеме активно подключились китайские исследователи: открытый код нейросети CogView позволяет решить ту же проблему — получать изображения из текстов. Но что в России? Разобрать, понять, обучить — уже, можно сказать, наш инженерный девиз. Мы нырнули с головой в новый проект и сегодня рассказываем, как создали с нуля полный пайплайн для генерации изображений по описаниям на русском языке.

В проекте активно участвовали команды SberAI, SberDevices, Самарского университета, AIRI и SberCloud.

Мы обучили две версии модели разного размера и дали им имена великих российских абстракционистов – Василия Кандинского и Казимира Малевича:

1. ruDALL-E Kandinsky (XXL) с 12 миллиардами параметров;

2. ruDALL-E Malevich (XL), содержащая 1,3 миллиарда параметров.

Некоторые версии наших моделей доступны в open source уже сейчас:

1. ruDALL-E Malevich (XL) [GitHub, HuggingFace]

2. Sber VQ-GAN [GitHub, HuggingFace]

3. ruCLIP Small [GitHub, HuggingFace]

4. Super Resolution (Real ESRGAN) [GitHub, HuggingFace]

Две последние модели встроены в пайплайн генерации изображений по тексту (об этом расскажем ниже).

Версии моделей ruDALL-E Malevich (XL), ruDALL-E Kandinsky (XXL), ruCLIP Small, ruCLIP Large, Super Resolution (Real ESRGAN) также скоро будут доступны в DataHub.

Обучение нейросети ruDALL-E на кластере Christofari стало самой большой вычислительной задачей в России:

1. Модель ruDALL-E Kandinsky (XXL) обучалась 37 дней на 512 GPU TESLA V100, а затем ещё 11 дней на 128 GPU TESLA V100 — всего 20 352 GPU-дней;

2. Модель ruDALL-E Malevich (XL) обучалась 8 дней на 128 GPU TESLA V100, а затем еще 15 дней на 192 GPU TESLA V100 – всего 3 904 GPU-дня.

Таким образом, суммарно обучение обеих моделей заняло 24 256 GPU-дней.

Разберём возможности наших генеративных моделей.

+100

39K

160

NewTechAudit 2 ноября в 14:01

Сравнение различных видов ML классификаторов в задаче распознавания сигналов

Python *Программирование *Машинное обучение *

Задача состоит в классификации гидроакустических сигналов. Сонары (гидролокаторы) посылают звук высокой частоты в определенном направлении и получают отраженную звуковую волну. По характеристике этой волны можно сделать вывод, от чего именно она отразилась – от морской мины или же от подводного камня, скалы. Используемый для решения задачи набор данных был разработан сотрудником аэрокосмического технологического центра Полом Горманом в разгар холодной войны. Для получения данных металлический цилиндр и цилиндрическая горная порода, оба длиной около 1,5 метров, размещались на песчаном дне океана.

1.2K

sahsAGU 2 ноября в 12:01

Бесплатный вебинар: Основы ИИ

Блог компании Microsoft Microsoft Azure Машинное обучение *Учебный процесс в IT Искусственный интеллект

Откройте для себя решения, которые можно создавать с помощью ИИ, и сервисы Azure, помогающие в разработке этих решений. Присоединяйтесь к нам на бесплатном мероприятии «Microsoft Azure Virtual Training Day: основы ИИ», чтобы получить общее представление о том, что такое ИИ, и узнать, как начать работу с ИИ в Azure.

Подробности и регистрация.

934

Takagi 2 ноября в 11:14

Извлекаем суть новости. Опыт Яндекса

Блог компании Яндекс Поисковые технологии *Машинное обучение *Искусственный интеллект Natural Language Processing *

Привет! Меня зовут Илья Гусев, я занимаюсь машинным обучением в команде Яндекс.Новостей. У каждого новостного сюжета на сервисе есть своя страница, где собраны новости об одном и том же событии из разных источников. Сегодня мы рассмотрим построение краткой выжимки, дайджеста сюжета. В такой выжимке, состоящей из фрагментов новостных документов, содержится основная информация о событии. Очевидно, почему дайджест полезен для пользователя — мы выводим на экран сюжета самое важное о событии. С похожими задачами сталкиваются многие инженеры: например OpenAI недавно опубликовала статью про реферирование книг. Поэтому я надеюсь, что описанный ниже подход будет вам полезен.

Как и всё в Новостях, построение такой выжимки должно быть полностью автоматическим. До внедрения выжимки текстовая часть сюжета выглядела так:

Теперь она выглядит так:

Читать дальше →

+21

3.7K

optiklab 1 ноября в 15:46

Как устроены первые в мире соревнования беспилотных болидов Formula 3 на Indy Autonomous Challenge 2021. Команда TUM

Высокая производительность *Хакатоны Машинное обучение *Робототехника Будущее здесь

Команда Мюнхенского технического университета (TUM Autonomous Motorsport team) только что выиграла первые в мире соревнования беспилотных болидов Formula 3 во время Indy Autonomous Challenge 2021 (далее, IAC 2021) проведённого 23 октября 2021 года компанией Cisco и большим количеством других компаний-партнёров.

Мне, как и, наверное, многим другим, эта область очень интересна. Но было достаточно сложно следить за происходящим в течение двух лет, так как информация появлялась частями и в разных местах, а также в разных интерпретациях. Но сейчас, когда соревнования проведены и сделаны уже первые выводы, самое время взглянуть «под капот» происходящего.

Вы безусловно можете найти всю эту информацию начав с главной страницы соревнований, но это займёт какое-то время. Я потратил два дня только чтобы собрать воедино разные технические детали и сделал это просто из собственного интереса. Так что, надеюсь, кому эта «компиляция» покажется удобной и интересной. В конце я постараюсь дать список ссылок на материалы, он тоже довольно длинный. Также, буду благодарен за корректировки и недостающие подробности от посвященных. Осторожно, под катом огромное количество изображений.

2.4K

mashkka_t 1 ноября в 15:18

Photo2recipe: рецепт блюда по одному фото

Блог компании OTUS Машинное обучение *Искусственный интеллект

В данном посте мы расскажем о нашем фреймворке, который по фотографии еды определяет, из каких ингредиентов состоит блюдо, а затем предлагает несколько вариантов рецептов его приготовления. Кстати, весь код проекта есть на github.

Наш алгоритм состоит из двух частей. На первом этапе он определяет состав блюда по фото, а затем на основании предсказанных ингредиентов предлагает наиболее подходящий рецепт блюда из базы рецептов. То, что рецепты подбираются именно из базы, а не генерируются нейросетью, позволяет избежать рекомендации несуществующих рецептов. А также не возникает проблем с тем, что сочетание несочетаемых продуктов (упс, нейросеть ошиблась) в рецепте может вызвать нежелательные побочные эффекты при пищеварении. Более того, то, что алгоритм состоит из двух отдельных этапов позволяет легко адаптировать его под особенности той или иной кухни: достаточно просто заменить коллекцию рецептов.

+13

1.4K

smirnovevgeny 1 ноября в 11:15

Классификация кассовых чеков

Блог компании Альфа-Банк Big Data *Хакатоны Машинное обучение *Искусственный интеллект

Банки получают содержание кассовых чеков клиентов по транзакциям, совершенных по собственным картам через Операторов Фискальных Данных с согласия клиента. Данные приходят в сыром текстовом формате, аналогичном тому, что вы получаете в магазине на бумажном носителе информации после каждой вашей покупки. Каждый магазин заносит товары в кассовое ПО в произвольном, полюбившемся ему формате. Чеки некоторых магазинов содержат полное название каждой из товарных позиций, большинство же, видимо, сильно экономят на бумаге и сокращают все названия.

В кассовых чеках не содержатся штрих-коды и другие идентификаторов товаров. К сожалению, исходя из вышеописанных причин, не может существовать единого каталога с категоризацией всех названий товаров из чеков. А ведь наличие такого каталога помогло бы более качественно отображать детализацию покупок клиенту. Дополнительно категоризация товарных позиций может быть использована в качестве дополнительных признаков в моделях, использующих транзакционные переменные.

Весной 2021-го года ВТБ организовывал соревнование на платформе Boosters с целью решения этой задачи.

+15

3.8K

2 3 ...

49 50

Машинное обучение *

«От категорий к векторам», или нестандартное кодирование категориальных данных. Часть 2

Новости

Нейронные сети в кибербезопасности

Машинное обучение в сейсмологии

Бесплатное распознавание речи для всех желающих

Первое правило машинного обучения: начните без машинного обучения

Что? Начинать без машинного обучения?

Почему 87% проектов data science не добираются до продакшена?

План обучения С#

Рисуем вместе с CLIP Guided Diffusion HQ

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Пять альтернатив Scale AI

Нейродайджест: главное из области машинного обучения за октябрь 2021

Байесовская Сеть Доверия Применительно IoT

Ограниченный и субъективный, безразличный и прожорливый: четыре главных проблемы искусственного интеллекта

ruDALL-E: генерируем изображения по текстовому описанию, или Самый большой вычислительный проект в России

Сравнение различных видов ML классификаторов в задаче распознавания сигналов

Бесплатный вебинар: Основы ИИ

Извлекаем суть новости. Опыт Яндекса

Как устроены первые в мире соревнования беспилотных болидов Formula 3 на Indy Autonomous Challenge 2021. Команда TUM

Photo2recipe: рецепт блюда по одному фото

Классификация кассовых чеков

Вклад авторов

Ваш аккаунт

Разделы

Информация

Услуги