Как стать автором

Семантика *

Веб 3.0

Статьи Посты Новости Авторы Компании

boldachev 27 дек 2022 в 16:50

Акты, классы и семантический сахар

10 мин

2.4K

Семантика*

В предыдущей статье «Событийная онтология vs объектная» были введены основные положения событийной семантики, описаны ее отличия от объектно-ориентированных подходов к моделированию предметной области. В данном тексте на конкретных примерах демонстрируются особенности событийного описания по сравнению с субстанциональным и релятивным. Вводится новое понятие «семантический сахар» и переосмысливается роль иерархических отношений свойств.

Читать далее

+5

JetHabr 26 дек 2022 в 12:34

Биграммы и триграммы. Кейс сбора и анализа информации из аудио с непонятными словами

4 мин

3.5K

Блог компании Инфосистемы ДжетСемантика*Машинное обучение*Искусственный интеллектNatural Language Processing*

Привет. Меня зовут Александр Родченков, я занимаюсь речевой аналитикой в центре машинного обучения «Инфосистемы Джет». Тут я расскажу о биграммах и триграммах на примере реального, хоть и довольно скромного, кейса. Что же это за «граммы» такие, с чем их «едят» и зачем они нам? Кейс решал задачу сбора и обработки данных одной из продовольственных компаний. Сложность задачи заключалась в том, что в речи было очень много специфических терминов и аббревиатур. Как мы с этим справились, и с какими неожиданностями столкнулись после, читай под катом.

Жми, не пожалеешь!

+10

boldachev 21 дек 2022 в 17:35

Событийная онтология vs объектная

14 мин

6.5K

Семантика*

В общем случае (вне и до информационных технологий), произнося слово «семантика», предлагают обсудить смысловой уровень языка – значения знаков и структур знаков (текстов). При этом семантика противопоставляется синтаксису, то есть формальным правилам соединения знаков в текст. Когда же речь о семантике заводится в сфере IT, то имеют в виду особые технологии, архитектуры приложений и языки описания данных, ориентированные на знаковое представление объектов и их свойств в компьютерных моделях предметных областей. В качестве основной цели семантического подхода видится «научение» компьютера распознавать смысл данных, описывающих деятельность и ее элементы, то есть реализовать переход от оперирования безликими данными к работе со значениями и знаниями. Предполагается, что широкое использование семантического подхода к моделированию предметных областей позволит унифицировать обмен информацией между независимыми поставщиками данных и приложениями, а также обеспечит возможность модифицировать структуру данных и бизнес-логику приложений не путем переписывания кода, а только через преобразование семантически определенных данных. К основным методам семантического подхода следует отнести: унификацию формата записи, уникальную идентификацию записей, включение метаданных в данные, стандартизацию словарей.

Традиционно семантическое описание предметной области называют онтологией этой области. При этом выражения «онтологическое описание», «онтологическая модель», «онтология предметной области» используют как синонимы. Онтология или онтологическая модель предметной области – это, по сути, структура из сущностей (концептов, понятий, типов объектов), их свойств и правил установления отношений между ними. Обычно онтологию представляют в виде графа, вершинами которого являются объекты, а ребрами – свойства. Часто такую структуру из объектов и значений их свойств, построенную для определенной предметной области, называют графом знаний (Knowledge Graph).

Читать далее

+5

Amvera_Speech 20 дек 2022 в 20:51

Насколько можно улучшить распознавание речи в записях с АЗС за месяц

3 мин

2K

Блог компании AmveraСемантика*Машинное обучение*Читальный залИскусственный интеллект

Эта история началась с того, что к нам пришел клиент, которому нужна была система распознавания речи. Да не простая, а качественно распознающая разговоры с микрофонов на АЗС, то есть речь в сильных шумах. Цель заказчика простая – контролировать, упоминают ли кассиры акции, предлагают ли установить мобильное приложение и выпить кофе. Вы наверняка все это сами слышали на заправках.

Но есть проблема. Хорошо распознать простую чистую речь могут почти все известные решения. Но речь, где на фоне играет радио, слышны звуки с других касс, громкость речи говорящих разная и присутствует много отраслевой лексики (бренды сигарет, марки топлива), качественно распознать не смогло ни одно «коробочное» решение.

Вызов принят! Мы решили за ограниченное время справиться с этим кейсом.

Шаг 1 – транскрибируем несколько файлов и замеряем качество распознавания на своем решении и решении конкурентов.

Для измерения качества распознавания используем метрику WER.

Читать далее

+6

wanderro 1 дек 2022 в 22:55

Вы ничего не знаете про SEO, или как подготовиться к неизбежному – тренды онлайн-продвижения ближайших 5-ти лет

14 мин

22K

Контент и копирайтинг*Интернет-маркетинг*Веб-аналитика*Алгоритмы*Семантика*

Из песочницы

SEO будущего – это уже не про сайты. Это не про развитие бложика на Виси или Хабре. Современное SEO – это новая парадигма понимания самой сути продвижения в интернете.

Читать далее

+14

kirillkosolapov 1 дек 2022 в 08:37

Пушкин – это нейросеть? Учимся распознавать сгенерированный текст

10 мин

2.2K

Блог компании AmveraИскусственный интеллектМашинное обучение*Математика*Семантика*

С появлением в 2020 году нейронной сети GPT3 и других архитектур – трансформеров, генерируемые тексты стали невероятно правдоподобными. Такими правдоподобными, что отдельно взятый текст, не несущий большой смысловой нагрузки, стало сложно отличить от написанного человеком. В статье мы разберем подход к определению сгенерированных текстов. И заодно выясним, является ли, по мнению алгоритма, Пушкин (и другие деятели искусства) искусственной нейронной сетью.

Суть подхода

Читать далее

+8

kirillkosolapov 14 ноя 2022 в 11:33

Используем нейросеть для генерации стихов в стиле «Евгения Онегина»

6 мин

5.1K

Блог компании AmveraМашинное обучение*Алгоритмы*Семантика*

Мне нравится концепция, согласно которой речь – это, в первую очередь, не способ коммуникации, а отражение сознания. В таком случае стихи - это отражение красоты сознания. Но сможет ли нейросеть сгенерировать стихотворения, похожие на рукотворные? Давайте попробуем сделать такой алгоритм.

Шаг 1 – выбираем архитектуру

Тренд последних лет в обработке естественных языков (NLP) - использование нейронных сетей. А если смотреть более узко, то - нейронных сетей архитектуры «трансформер», включающих блок внимания «attention». Суть подхода в том, чтобы использовать при кодировке как в энкодере эмбединга (вектор признаков на выходе слоя нейронной сети), так и в декодере, механизм «attention», позволяющий учитывать взаимосвязь между словами и «фокусировать внимание» нейронной сети только на контексте, имеющем значение для слова.

Одной из архитектур на основе трансформеров является ruBERT, его и возьмем. Но для чистоты эксперимента попробуем также использовать и более старый подход, а именно LSTM нейронную сеть.

Читать далее

+3

Amvera_Speech 17 окт 2022 в 08:52

Считаем, где дешевле распознавание речи — в облаке или на своем сервере

2 мин

2.7K

Блог компании AmveraИскусственный интеллектМонетизация IT-систем*Машинное обучение*Семантика*

Когда вы выбираете ASR, важно определиться не только с вендором, но и с моделью закупки. Конечно, если вы банк, облачная система вам не подойдет по умолчанию. Но для всех остальных кейсов мы попробуем сделать расчет и определить, при каком объеме трафика будет выгоднее уже не платить за облако, а поставить решение в контур.

Читать далее

+4

diana_dev 13 окт 2022 в 13:09

Автоматическое реферирование научных статей. Обзор работ

19 мин

2.6K

Блог компании Unistar Digital | Юнистар ДиджиталСемантика*Natural Language Processing*

Задача автоматического реферирования научного текста формулируется следующим образом: на основе текста научной статьи и, возможно, некоторой другой информации о ней, например цитат и ссылок на эту статью, содержащихся в других работах, требуется породить с помощью алгоритмов автоматической обработки текста небольшой сжатый реферат, который при этом будет максимально точно и полно передавать основные идеи, методы и результаты, описанные в статье.

Читать далее

+6

Amvera_Speech 10 окт 2022 в 19:43

Путь самурая в ASR, или как мы сделали распознавание речи для ЖД отрасли

3 мин

3.5K

Блог компании AmveraЧитальный залМашинное обучение*Программирование*Семантика*

Некоторое время назад к нам пришел клиент – крупный металлургический комбинат с запросам разработки системы распознавания речи. Продукцию комбината перевозят поезда. А во время железнодорожных грузоперевозок машинисты и диспетчеры должны переговариваться согласно регламенту. За переговоры не по регламенту - штраф. Поэтому “боль” клиента была сильной: получить систему автоматического контроля регламента переговоров по рации во избежание финансовых потерь и снижения риска катастроф.

Мы опрометчиво согласились. А когда получили аудиозаписи, поняли, что поторопились подписывать договор.

Читать, что было дальше

+14

cointegrated 9 окт 2022 в 13:00

Первый нейросетевой переводчик для эрзянского языка

10 мин

13K

Семантика*Data Mining*Машинное обучение*Искусственный интеллектNatural Language Processing*

Cезон Data Mining

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

Читать далее

+68

Weshid 30 сен 2022 в 13:04

Создание интеллектуальной вопросно-ответной системы

6 мин

4.5K

Блог компании Unistar Digital | Юнистар ДиджиталNatural Language Processing*Машинное обучение*Семантика*

В последнее время все больше крупных компаний выделяют свои ресурсы на создание искусственных диалоговых помощников (Алиса от Яндекса, Ассистенты Салют от Сбер и др). С такими системами можно, хоть и не в полной мере, поддерживать диалог. Ассистенты умеют выполнять простые команды: ставить таймер или будильник, вызывать такси, управлять умным домом. Но в то же время разработка таких систем стоит больших денег, а также ресурсов на поддержку. В большинстве своем многим предприятиям не требуется, чтобы система умела поддерживать диалог, а просто отвечала на конкретный вопрос. Аналог современных вопросно-ответных систем появился в 60-х годах XX века и назывался экспертными системами. Экспертная система включала в себя оболочку на естественном языке и позволяла задавать вопросы на узкую тематику. С развитием методов обработки естественного языка вопросно-ответные системы стало возможным выделить в отдельный класс и не акцентировать их под решение специализированной задачи. В статье описан процесс создания вопросно-ответной системы, в частности, с какими трудностями пришлось столкнуться, какие технологии использовались, и приведен реальный пример практического использования на базе поступающих заявок в Приемную комиссию МТУСИ.

Читать далее

+4

Xeanst 8 сен 2022 в 13:53

Что такое тезаурус и как определить семантическое сходство слов

7 мин

12K

Блог компании Unistar Digital | Юнистар ДиджиталСемантика*Natural Language Processing*Голосовые интерфейсы*Python*

При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений.

Читать далее

+17

diana_dev 26 авг 2022 в 15:20

Автоматическое реферирование текстов. Обзор работ

13 мин

6.5K

Блог компании Unistar Digital | Юнистар ДиджиталNatural Language Processing*Машинное обучение*Математика*Семантика*

Я думаю, многим знакома ситуация, когда в сжатые сроки необходимо ознакомиться с большим объёмом текстов – статей, обзоров, сюжетов, отзывов и так далее. Читать их все от начала и до конца слишком напряжно, не правда ли? И здесь на помощь приходят рефераты – краткие выжимки текстов, содержащие только самое главное и важное. Написанием рефератов занимаются зачастую эксперты, однако такая работа требует немало времени и усилий. Кроме того, труд экспертов должен, само собой, оплачиваться. Решение – применять методы автоматического реферирования текстов (Automatic Summarization), то есть порождать рефераты с помощью специальных компьютерных программ. В этой статье мы познакомимся с некоторыми наиболее распространёнными подходами к решению данной задачи.

Читать далее

+4

Weshid 11 авг 2022 в 14:16

Алгоритм обучения CBOW архитектуры для векторизации слов

5 мин

5.2K

Блог компании Unistar Digital | Юнистар ДиджиталСемантика*Математика*Машинное обучение*Natural Language Processing*

В этой статье подробно разбирается алгоритм обучения архитектуры CBOW (Continuous Bag of Words), которая появилась в 2013 году и дала сильный толчок в решении задачи векторного представления слов, т.к. в первый раз на практике использовался подход на основе нейронных сетей. Архитектура CBOW не столь требовательна к наличию GPU и вполне может обучаться на ЦП (хотя и более медленно). Большие готовые модели, обученные на википедии или новостных сводках, вполне могут работать на 4-х ядерном процессоре, показывая приемлемое время отклика.

Читать далее

+4

Xeanst 29 июл 2022 в 13:30

Автоматический синтез речи: взгляд лингвиста

8 мин

3.6K

Блог компании Unistar Digital | Юнистар ДиджиталСемантика*Машинное обучение*Natural Language Processing*Голосовые интерфейсы*

Что первым придет в голову, если перед нами встанет задача автоматического порождения речи по тексту? Вероятнее всего, мы позаботимся о расстановке пауз между словами, постараемся правильно выбрать интонацию фразы и расставить смысловые акценты. Обязательно построим фонетическую транскрипцию: орфография и произношение далеко не всегда однозначно соответствуют друг другу, о чем компьютер не узнает без нашей помощи. Полученную транскрипцию переведем в цифровой сигнал, который затем преобразуем в звуковые колебания.

Читать далее

+7

cointegrated 19 июл 2022 в 08:01

Восстанавливаем предложения из эмбеддингов LaBSE

8 мин

7.6K

Python*Семантика*Алгоритмы*Машинное обучение*Natural Language Processing*

На прошлой неделе меня дважды спрашивали, как восстановить текст предложения из его LaBSE эмбеддинга. Я дважды отвечал, что никак. Но на самом деле, конечно, можно обучить декодер генерировать текст по его эмбеддингу. Зачем? Например, чтобы переводить с 100 языков на русский, перефразировать предложения, модифицировать их смысл или стиль.

Модель для восстановления предложений из эмбеддингов опубликована как cointegrated/rut5-base-labse-decoder, а подробности – под катом.

Читать далее

+12

SubjectPersonalData 13 июл 2022 в 17:11

Теория алгоритма, дающего смысл словам

6 мин

4K

Семантика*Алгоритмы*Машинное обучение*Разработка робототехники*Natural Language Processing*

Recovery Mode

Существующие алгоритмы работающие с о смыслом слов:

• Векторное представление слов, GPT-3 - статистика

• Алгоритм Леска - подбор значения многозначного слова по статистике встречаемости слов в предложении

• Семантическая сеть - информационная модель предметной области, имеет вид ориентированного графа. Вершины графа соответствуют объектам предметной области, а дуги (ребра) задают отношения между ними. (см. рис. 1)

• В других вариантах - по сути поиск закономерностей через нейросети.

Читать далее

+6

bipiem 7 июл 2022 в 23:43

Расширенная визуализация связанных данных. Простые инструменты для простых задач

8 мин

5.4K

Семантика*Анализ и проектирование систем*Визуализация данных*Подготовка технической документации*

Даже сложные картинки часто читаются проще чем, простые столбики связанных данных (например, взаимосвязанных табличек). Такова особенность восприятия человека. Поэтому он постоянно пытается данные (знания) визуализировать в графике. В принципе любой граф с информацией к узлам или ребрам (сеть сущностей, их семантические типы, свойства и отношения) можно «громко» назвать графом связанных данных и даже Графом знаний (Knowledge graph).

Точных определений «Связанные данные» и его направления Knowledge graph – полагаю, что нет, поэтому не углубляясь в теорию, обозначим лишь базовый принцип «Связанных данных»: «субъект – связь (предикат) - объект» (тройки , triples). Принцип лежит во всех прикладных задачах визуализации этих самых «троек»: анализ больших графов (Gephi, Cytoscape), BPM (ARIS, ARPO), «графовые» Zettelkasten (Roam Research, Obsidian, Loqseq) - Personal Memory Manager / Personal Knowledge Management (TiddlyMap), всевозможные концептуальные - ментальные карты (мозгового штурма, карты разума mind-map) и заканчивая semantic Web.

Читать далее

-1

cointegrated 5 июн 2022 в 22:18

Рейтинг русскоязычных энкодеров предложений

9 мин

27K

Python*Семантика*Машинное обучение*Natural Language Processing*

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

Читать далее

+26

3

4 5 ...