Как стать автором
Обновить
4.4
Рейтинг

Семантика *

Веб 3.0

Сначала показывать
Порог рейтинга

Что такое тезаурус и как определить семантическое сходство слов

Блог компании Unistar Digital | Юнистар Диджитал Python *Семантика *Natural Language Processing *Голосовые интерфейсы *

При разработке чат-ботов и голосовых ассистентов часто возникает задача нахождения семантического сходства слов. Причина тому – наличие в языке большого количества схожих по смыслу слов и выражений.

Читать далее
Всего голосов 17: ↑17 и ↓0 +17
Просмотры 2.4K
Комментарии 3

Новости

Автоматическое реферирование текстов. Обзор работ

Блог компании Unistar Digital | Юнистар Диджитал Семантика *Математика *Машинное обучение *Natural Language Processing *

Я думаю, многим знакома ситуация, когда в сжатые сроки необходимо ознакомиться с большим объёмом текстов – статей, обзоров, сюжетов, отзывов и так далее. Читать их все от начала и до конца слишком напряжно, не правда ли? И здесь на помощь приходят рефераты – краткие выжимки текстов, содержащие только самое главное и важное. Написанием рефератов занимаются зачастую эксперты, однако такая работа требует немало времени и усилий. Кроме того, труд экспертов должен, само собой, оплачиваться. Решение – применять методы автоматического реферирования текстов (Automatic Summarization), то есть порождать рефераты с помощью специальных компьютерных программ. В этой статье мы познакомимся с некоторыми наиболее распространёнными подходами к решению данной задачи.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 1.3K
Комментарии 0

Алгоритм обучения CBOW архитектуры для векторизации слов

Блог компании Unistar Digital | Юнистар Диджитал Семантика *Математика *Машинное обучение *Natural Language Processing *

В этой статье подробно разбирается алгоритм обучения архитектуры CBOW (Continuous Bag of Words), которая появилась в 2013 году и дала сильный толчок в решении задачи векторного представления слов, т.к. в первый раз на практике использовался подход на основе нейронных сетей. Архитектура CBOW не столь требовательна к наличию GPU и вполне может обучаться на ЦП (хотя и более медленно). Большие готовые модели, обученные на википедии или новостных сводках, вполне могут работать на 4-х ядерном процессоре, показывая приемлемое время отклика.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 1.4K
Комментарии 3

Автоматический синтез речи: взгляд лингвиста

Блог компании Unistar Digital | Юнистар Диджитал Семантика *Машинное обучение *Natural Language Processing *Голосовые интерфейсы *

Что первым придет в голову, если перед нами встанет задача автоматического порождения речи по тексту? Вероятнее всего, мы позаботимся о расстановке пауз между словами, постараемся правильно выбрать интонацию фразы и расставить смысловые акценты. Обязательно построим фонетическую транскрипцию: орфография и произношение далеко не всегда однозначно соответствуют друг другу, о чем компьютер не узнает без нашей помощи.  Полученную транскрипцию переведем в цифровой сигнал, который затем преобразуем в звуковые колебания. 

Читать далее
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 2.2K
Комментарии 4

Восстанавливаем предложения из эмбеддингов LaBSE

Python *Семантика *Алгоритмы *Машинное обучение *Natural Language Processing *

На прошлой неделе меня дважды спрашивали, как восстановить текст предложения из его LaBSE эмбеддинга. Я дважды отвечал, что никак. Но на самом деле, конечно, можно обучить декодер генерировать текст по его эмбеддингу. Зачем? Например, чтобы переводить с 100 языков на русский, перефразировать предложения, модифицировать их смысл или стиль.

Модель для восстановления предложений из эмбеддингов опубликована как cointegrated/rut5-base-labse-decoder, а подробности – под катом.

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Просмотры 1.7K
Комментарии 29

Теория алгоритма, дающего смысл словам

Семантика *Алгоритмы *Машинное обучение *Разработка робототехники *Natural Language Processing *
Recovery mode

Существующие алгоритмы работающие с о смыслом слов:

Векторное представление слов, GPT-3 - статистика

Алгоритм Леска - подбор значения многозначного слова по статистике встречаемости слов в предложении

Семантическая сеть - информационная модель предметной области, имеет вид ориентированного графа. Вершины графа соответствуют объектам предметной области, а дуги (ребра) задают отношения между ними. (см. рис. 1)

В других вариантах - по сути поиск закономерностей через нейросети.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 2.6K
Комментарии 5

Расширенная визуализация связанных данных. Простые инструменты для простых задач

Семантика *Анализ и проектирование систем *Визуализация данных *Подготовка технической документации *

Даже сложные картинки часто читаются проще чем, простые столбики связанных данных (например, взаимосвязанных табличек). Такова особенность восприятия человека. Поэтому он постоянно пытается данные (знания) визуализировать в графике. В принципе любой граф с информацией к узлам или ребрам (сеть сущностей, их семантические типы, свойства и отношения) можно «громко» назвать графом связанных данных и даже Графом знаний (Knowledge graph).

Точных определений «Связанные данные» и его направления Knowledge graph – полагаю, что нет, поэтому не углубляясь в теорию, обозначим лишь базовый принцип «Связанных данных»: «субъект – связь (предикат) - объект» (тройки , triples). Принцип лежит во всех прикладных задачах визуализации этих самых «троек»: анализ больших графов (Gephi, Cytoscape), BPM (ARIS, ARPO), «графовые» Zettelkasten (Roam Research, Obsidian, Loqseq) - Personal Memory Manager / Personal Knowledge Management (TiddlyMap), всевозможные концептуальные - ментальные карты (мозгового штурма, карты разума mind-map) и заканчивая semantic Web. 

Читать далее
Всего голосов 1: ↑0 и ↓1 -1
Просмотры 1.4K
Комментарии 0

Рейтинг русскоязычных энкодеров предложений

Python *Семантика *Машинное обучение *Natural Language Processing *

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

Читать далее
Всего голосов 26: ↑26 и ↓0 +26
Просмотры 5.2K
Комментарии 17

Теория эволюции и работы мозга

Семантика *Алгоритмы *Машинное обучение *Разработка робототехники *Natural Language Processing *
Recovery mode

Эволюция мозга (базовые предпосылки).

Существует тест Роршаха — надо назвать, что ты видишь в кляксе, в которой в принципе и увидеть ничего реального нельзя. Но то, что человек видит определяется необъяснимыми внутренними процессами в его мозге. Интерпретации ответов подобраны опытным путем и никак, и нигде не объяснены.

Из описания вариантов ответа к одной из картинок теста Роршаха для англоязычного пациента: «Медведь может символизировать агрессию, конкуренцию, независимость, восстановление, а также — чувство уязвимости, незащищенность или открытость и честность (игра слов по-английски: bear — медведь, bare — обнажать, обнаруживать, разоблачать).» Здесь прямым текстом сказано, что в мозге слова содержатся в виде текста, почему так вышло, будет объяснено в описании эволюции мозга. Мы можем запоминать и понимать текст без картинки (правила, определения, анекдоты — мы их не представляем, но понимаем).

Из комментария к другой картинке «если пациент видит на ней гусениц, это говорит о перспективах его роста и понимании, что люди постоянно меняются и развиваются.» Здесь сказано, что существует некая связь между существительным гусеница и глаголом меняться (развиваться). То есть в определении слова гусеница в мозге используется этот глагол, ведь все гусеницы изменяются в бабочку.

Так же с помощью фМРТ исследований была создана семантическая карта головного мозга, из которой выходит, что крупные семантические группы слов (например, слова, связанные с едой, с действиями, с объектами, с домом), имеют в мозгу вполне конкретное представительство ссылка на статью. Кстати, в другой моей статье, ссылка на нее будет позже, как раз с этой точки зрения рассмотрены все слова.

Читать далее
Всего голосов 7: ↑2 и ↓5 -3
Просмотры 3K
Комментарии 9

Коллективное распознавание смысла

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

Предлагаемый материал является приложением в книге [1].

Современная цивилизация оказалась на перекрестке, на котором нужно выбрать смысл жизни. Из-за развития технологий большинство населения планеты может оказаться «лишним» - не востребованным в производстве ценностей. Есть и  другой вариант, когда каждый человек является высшей ценностью, абсолютной индивидуальностью и может быть незаменимо полезен в технологиях коллективного разума.

В восьмидесятых годах прошлого века задача создания научного направления «коллективный разум» была поставлена. Коллективный разум определяется ...

Читать далее
Всего голосов 10: ↑6 и ↓4 +2
Просмотры 3.4K
Комментарии 8

Алгебра текста без формул

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

Статья является рефератом Книги [1], основанной на представленных ранее публикациях [2], [3], [4] и [5].

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Просмотры 2.3K
Комментарии 5

Что такое транскрибация: рост популярности, возможности заработка и программы

Семантика *Поисковая оптимизация *Копирайт Научно-популярное Удалённая работа
Из песочницы

Далеко не каждый пользователь интернета сталкивался с понятием Транскрибация, но в тоже время фрилансеры успевают получать за это быстрые деньги. Спрос на услугу растет, поэтому разберем подробнее, о чем же речь, как это использовать и монетизировать.

Читать далее
Всего голосов 8: ↑4 и ↓4 0
Просмотры 12K
Комментарии 5

Облака, нейросети и управление данными. Какое будущее ждет российский LegalTech?

Блог компании NAUMEN Семантика *Искусственный интеллект

В мире наметилось четыре основных тренда в области автоматизации бизнеса, которые в полной мере проявляются и в России. Самый очевидный  интеллектуализация, то есть включение технологий искусственного интеллекта (ИИ) в информационные системы. С одной стороны, это инженерия ИИ, а с другой  внедрение отдельных элементов ИИ в рутинные операции: чат-боты, голосовые помощники, специфические интеллектуальные сервисы. Второй тренд связан с переходом к сервисной модели обслуживания, то есть последовательному упрощению операций: крупные блоки внутри бизнес-процесса намеренно дробятся на сервисы меньше и легче. Третий тренд  организации стремятся перенести вычисления и сервисы в облачные платформы. Пандемия, переход к удаленному режиму работы и распределению команд существенно усилили эту тенденцию. Наконец, важное направление связано с развитием платформ управления данными, которые интегрируют информацию компании и содержат инструменты ИИ для эффективного управления этими сведениями.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Просмотры 1.9K
Комментарии 3

Анализ погрешностей измерения уровня сигнала генератора СВЧ с помощью измерительного приемника

Семантика *Профессиональная литература *Производство и разработка электроники *
Из песочницы

Данная статья посвящена рассмотрению погрешностей, возникающих при измерении уровня мощности генераторов сигналов с помощью измерительного приемника R&S®FSMR3000. Даны рекомендации по минимизации основных погрешностей.

Для измерения уровня сигнала генераторов сигналов СВЧ в качестве калибратора уровня часто используются измерительные приемники, обладающие высокой линейностью в широком диапазоне. Одним из таких приемников является измерительный приемник R&S®FSMR3000 (далее – FSMR3000) [1]. Данный прибор представляет собой универсальную систему калиб­ровки генераторов сигналов и аттенюаторов. Измерительный при­емник FSMR3000 сочетает в себе калибратор уровня, анализатор модуляции и аудиосигналов, измеритель мощности и анализатор спектра и фазового шума. Благодаря высокой линейности и широкому диапазону частот (от 100 кГц до 8/26,5/50 ГГц в зависимости от модели прибора) он идеально подходит для решения измерительных задач в калибровочных и испытательных лабораториях.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.4K
Комментарии 2

HR и разрабовский суржик

Семантика *Терминология IT Читальный зал Интервью

О том, как чудесным эйчарам и золотым программистам жить на одной планете и продуктивно сотрудничать. Ну или так: "давайте картируем наши термины, чтобы они лучше нас понимали на собеседованиях".

Читать далее
Всего голосов 14: ↑8 и ↓6 +2
Просмотры 3.4K
Комментарии 20

«Искусство оскорблять» или soft skill, который пригодится всем

Семантика *Законодательство в IT Искусственный интеллект Социальные сети и сообщества
Из песочницы

"Искусство оскорблять" – как экологично выражаться и не "налипнуть" за свои слова на тюремный срок или на штраф? Что же такое «защита чести, достоинства и деловой репутации»? Как отделить оскорбление от высказывания своего мнения или оценки, пусть и не очень приятной? Почему в суд можно подать даже на Искусственный Интеллект? Важный  Soft Skill не только для руководителей, но и для любых рядовых работников. 

 

Читать далее
Всего голосов 41: ↑32 и ↓9 +23
Просмотры 27K
Комментарии 61

GPT для чайников: от токенизации до файнтюнинга

Семантика *Программирование *Машинное обучение *Natural Language Processing *
Tutorial

К моему удивлению, в открытом доступе оказалось не так уж много подробных и понятных объяснений того как работает модель GPT от OpenAI. Поэтому я решил всё взять в свои руки и написать этот туториал.

Читать далее
Всего голосов 31: ↑30 и ↓1 +29
Просмотры 13K
Комментарии 5

Императив предметной области при разработке информационных систем

Семантика *Анализ и проектирование систем *Исследования и прогнозы в IT *Бизнес-модели *Микросервисы *
Из песочницы

В настоящее время информационные технологии достигли высочайшей степени автоматизации разработки программного обеспечения. Мы умеем разрабатывать сложные распределённые приложения в кооперации многих команд, разделив систему на части так, чтобы минимизировать зависимость между подсистемами. У нас есть многочисленные техники и методики, полученные на основе огромного опыта создания программных систем, которые объясняют, как именно лучше выделять и отделять предметную область и другие части из системы. Мы умеем так изолировать эти части, что можем менять фреймворки для различных уровней архитектуры, использовать разные универсальные языки программирования (УЯП) и всё это существует вместе, масштабируется, выдерживает большие нагрузки, позволяет выполнять доработку компонентов, не переписывая всю систему. По большей части. Можем, когда хотим.

Прекрасно! Но почему мы до сих пор этого не делаем? Почему так много времени уделяем той части программной составляющей, которая не имеет отношения к предметной области – интерфейсу пользователя, вспомогательным слоям, работе с базой данных и постоянному связыванию этих частей с кодом предметной области в различных фреймворках? Неужели это настолько важно? Почему мы часто начинаем разработку с продумывания интерфейса между компонентами вместо того, чтобы просто писать логику предметной области? Из раза в раз. Уже много лет. Несмотря на технические возможности делать всё правильно.

Читать далее
Всего голосов 11: ↑8 и ↓3 +5
Просмотры 2.8K
Комментарии 23

Реверс-инжиниринг английской грамматики: математика? Равномерно темперированный строй?

Семантика *Реверс-инжиниринг *Учебный процесс в IT Изучение языков Natural Language Processing *

В процессе создания курса английской грамматики для “продвинутых” уровней я не могла избавиться от смутного ощущения, что английская видовременная система (то, что в обиходе называют английскими “временами”) базируется на несложной математике. 

О том, что меня заставило прийти к этому выводу, затем комбинаторика, механика, математика и немного про музыку.

Я рассматриваю английскую видовременную систему как систему, состоящую из четырёх подъязыков в составе одного.

На когнитивном уровне английский язык распознаёт четыре аспекта (грани, феномена) реальности. Для описания каждого аспекта реальности выделен свой подъязык:

Simple (S), 

Progressive (P), 

Perfect Simple (PS), и 

Perfect Progressive (PP). 

Каждый подъязык является полноценным и описывает определённый аспект с помощью базовой формулы:

S = to X

P = to be Xing

PS = to have Xed / Х3

PP = to have been Xing ,

где X Xing Xed Х3 - известные формы английских глаголов.

На 4 базовые формулы “накручиваются” маркеры настоящего, прошедшего и будущего времени, образуя тем самым полный грамматический набор из 12 видовременных форм.

Каждая из формул несёт в себе определенную смысловую информацию, которая сохраняется неизменной независимо от лексики. По несложному формальному рассчёту смысловая нагрузка на грамматическую формулу может достигать 60% от общего смысла фразы.

Эту информацию, заключённую в грамматической формуле помимо слов, я назвала “метасмысл”. Четыре выделенных мною метасмысла:

Читать далее
Всего голосов 11: ↑3 и ↓8 -5
Просмотры 2.2K
Комментарии 161

Метаинформация, возможности файловых систем и децентрализованные сети будущего

Децентрализованные сети *Семантика *Хранение данных *Научно-популярное Будущее здесь

Файл и файловая система - фундаментальные сущности, без которых современные компьютеры немыслимы. Мы привыкли к ним настолько, что порой не задумываемся - а могли бы эти сущности быть другими? Достаточно ли они удобны, эффективны, можно ли их улучшить, и если можно - то как? Насколько удобны и развиты средства для работы с различной метаинфорацией? И какое это все имеет отношение к децентрализованному интернету будущего? Об этом и пойдет разговор в данной статье.

Читать далее
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 5.4K
Комментарии 27

Вклад авторов