Как стать автором
Обновить
0.3
Рейтинг

Семантика *

Веб 3.0

Сначала показывать
Порог рейтинга

Рейтинг русскоязычных энкодеров предложений

Python *Семантика *Машинное обучение *Natural Language Processing *

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1K
Комментарии 0

Новости

Теория эволюции и работы мозга

Семантика *Алгоритмы *Машинное обучение *Разработка робототехники *Natural Language Processing *
Recovery mode

Эволюция мозга (базовые предпосылки).

Существует тест Роршаха — надо назвать, что ты видишь в кляксе, в которой в принципе и увидеть ничего реального нельзя. Но то, что человек видит определяется необъяснимыми внутренними процессами в его мозге. Интерпретации ответов подобраны опытным путем и никак, и нигде не объяснены.

Из описания вариантов ответа к одной из картинок теста Роршаха для англоязычного пациента: «Медведь может символизировать агрессию, конкуренцию, независимость, восстановление, а также — чувство уязвимости, незащищенность или открытость и честность (игра слов по-английски: bear — медведь, bare — обнажать, обнаруживать, разоблачать).» Здесь прямым текстом сказано, что в мозге слова содержатся в виде текста, почему так вышло, будет объяснено в описании эволюции мозга. Мы можем запоминать и понимать текст без картинки (правила, определения, анекдоты — мы их не представляем, но понимаем).

Из комментария к другой картинке «если пациент видит на ней гусениц, это говорит о перспективах его роста и понимании, что люди постоянно меняются и развиваются.» Здесь сказано, что существует некая связь между существительным гусеница и глаголом меняться (развиваться). То есть в определении слова гусеница в мозге используется этот глагол, ведь все гусеницы изменяются в бабочку.

Так же с помощью фМРТ исследований была создана семантическая карта головного мозга, из которой выходит, что крупные семантические группы слов (например, слова, связанные с едой, с действиями, с объектами, с домом), имеют в мозгу вполне конкретное представительство ссылка на статью. Кстати, в другой моей статье, ссылка на нее будет позже, как раз с этой точки зрения рассмотрены все слова.

Читать далее
Всего голосов 6: ↑1 и ↓5 -4
Просмотры 1.2K
Комментарии 7

Коллективное распознавание смысла

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

Предлагаемый материал является приложением в книге [1].

Современная цивилизация оказалась на перекрестке, на котором нужно выбрать смысл жизни. Из-за развития технологий большинство населения планеты может оказаться «лишним» - не востребованным в производстве ценностей. Есть и  другой вариант, когда каждый человек является высшей ценностью, абсолютной индивидуальностью и может быть незаменимо полезен в технологиях коллективного разума.

В восьмидесятых годах прошлого века задача создания научного направления «коллективный разум» была поставлена. Коллективный разум определяется ...

Читать далее
Всего голосов 10: ↑6 и ↓4 +2
Просмотры 2.8K
Комментарии 8

Алгебра текста без формул

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

Статья является рефератом Книги [1], основанной на представленных ранее публикациях [2], [3], [4] и [5].

Читать далее
Всего голосов 4: ↑2 и ↓2 0
Просмотры 1.9K
Комментарии 5

Что такое транскрибация: рост популярности, возможности заработка и программы

Семантика *Поисковая оптимизация Копирайт Научно-популярное Удалённая работа
Из песочницы

Далеко не каждый пользователь интернета сталкивался с понятием Транскрибация, но в тоже время фрилансеры успевают получать за это быстрые деньги. Спрос на услугу растет, поэтому разберем подробнее, о чем же речь, как это использовать и монетизировать.

Читать далее
Всего голосов 8: ↑4 и ↓4 0
Просмотры 7.1K
Комментарии 5

Облака, нейросети и управление данными. Какое будущее ждет российский LegalTech?

Блог компании NAUMEN Семантика *Искусственный интеллект

В мире наметилось четыре основных тренда в области автоматизации бизнеса, которые в полной мере проявляются и в России. Самый очевидный  интеллектуализация, то есть включение технологий искусственного интеллекта (ИИ) в информационные системы. С одной стороны, это инженерия ИИ, а с другой  внедрение отдельных элементов ИИ в рутинные операции: чат-боты, голосовые помощники, специфические интеллектуальные сервисы. Второй тренд связан с переходом к сервисной модели обслуживания, то есть последовательному упрощению операций: крупные блоки внутри бизнес-процесса намеренно дробятся на сервисы меньше и легче. Третий тренд  организации стремятся перенести вычисления и сервисы в облачные платформы. Пандемия, переход к удаленному режиму работы и распределению команд существенно усилили эту тенденцию. Наконец, важное направление связано с развитием платформ управления данными, которые интегрируют информацию компании и содержат инструменты ИИ для эффективного управления этими сведениями.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Просмотры 1.7K
Комментарии 3

Анализ погрешностей измерения уровня сигнала генератора СВЧ с помощью измерительного приемника

Семантика *Профессиональная литература Производство и разработка электроники *
Из песочницы

Данная статья посвящена рассмотрению погрешностей, возникающих при измерении уровня мощности генераторов сигналов с помощью измерительного приемника R&S®FSMR3000. Даны рекомендации по минимизации основных погрешностей.

Для измерения уровня сигнала генераторов сигналов СВЧ в качестве калибратора уровня часто используются измерительные приемники, обладающие высокой линейностью в широком диапазоне. Одним из таких приемников является измерительный приемник R&S®FSMR3000 (далее – FSMR3000) [1]. Данный прибор представляет собой универсальную систему калиб­ровки генераторов сигналов и аттенюаторов. Измерительный при­емник FSMR3000 сочетает в себе калибратор уровня, анализатор модуляции и аудиосигналов, измеритель мощности и анализатор спектра и фазового шума. Благодаря высокой линейности и широкому диапазону частот (от 100 кГц до 8/26,5/50 ГГц в зависимости от модели прибора) он идеально подходит для решения измерительных задач в калибровочных и испытательных лабораториях.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.2K
Комментарии 2

HR и разрабовский суржик

Семантика *Терминология IT Читальный зал Интервью

О том, как чудесным эйчарам и золотым программистам жить на одной планете и продуктивно сотрудничать. Ну или так: "давайте картируем наши термины, чтобы они лучше нас понимали на собеседованиях".

Читать далее
Всего голосов 14: ↑8 и ↓6 +2
Просмотры 3.3K
Комментарии 20

«Искусство оскорблять» или soft skill, который пригодится всем

Семантика *Законодательство в IT Искусственный интеллект Социальные сети и сообщества
Из песочницы

"Искусство оскорблять" – как экологично выражаться и не "налипнуть" за свои слова на тюремный срок или на штраф? Что же такое «защита чести, достоинства и деловой репутации»? Как отделить оскорбление от высказывания своего мнения или оценки, пусть и не очень приятной? Почему в суд можно подать даже на Искусственный Интеллект? Важный  Soft Skill не только для руководителей, но и для любых рядовых работников. 

 

Читать далее
Всего голосов 41: ↑32 и ↓9 +23
Просмотры 26K
Комментарии 61

GPT для чайников: от токенизации до файнтюнинга

Семантика *Программирование *Машинное обучение *Natural Language Processing *
Tutorial

К моему удивлению, в открытом доступе оказалось не так уж много подробных и понятных объяснений того как работает модель GPT от OpenAI. Поэтому я решил всё взять в свои руки и написать этот туториал.

Читать далее
Всего голосов 31: ↑30 и ↓1 +29
Просмотры 11K
Комментарии 5

Императив предметной области при разработке информационных систем

Семантика *Анализ и проектирование систем *Исследования и прогнозы в IT Бизнес-модели Микросервисы *
Из песочницы

В настоящее время информационные технологии достигли высочайшей степени автоматизации разработки программного обеспечения. Мы умеем разрабатывать сложные распределённые приложения в кооперации многих команд, разделив систему на части так, чтобы минимизировать зависимость между подсистемами. У нас есть многочисленные техники и методики, полученные на основе огромного опыта создания программных систем, которые объясняют, как именно лучше выделять и отделять предметную область и другие части из системы. Мы умеем так изолировать эти части, что можем менять фреймворки для различных уровней архитектуры, использовать разные универсальные языки программирования (УЯП) и всё это существует вместе, масштабируется, выдерживает большие нагрузки, позволяет выполнять доработку компонентов, не переписывая всю систему. По большей части. Можем, когда хотим.

Прекрасно! Но почему мы до сих пор этого не делаем? Почему так много времени уделяем той части программной составляющей, которая не имеет отношения к предметной области – интерфейсу пользователя, вспомогательным слоям, работе с базой данных и постоянному связыванию этих частей с кодом предметной области в различных фреймворках? Неужели это настолько важно? Почему мы часто начинаем разработку с продумывания интерфейса между компонентами вместо того, чтобы просто писать логику предметной области? Из раза в раз. Уже много лет. Несмотря на технические возможности делать всё правильно.

Читать далее
Всего голосов 11: ↑8 и ↓3 +5
Просмотры 2.4K
Комментарии 23

Реверс-инжиниринг английской грамматики: математика? Равномерно темперированный строй?

Семантика *Реверс-инжиниринг *Учебный процесс в IT Изучение языков Natural Language Processing *

В процессе создания курса английской грамматики для “продвинутых” уровней я не могла избавиться от смутного ощущения, что английская видовременная система (то, что в обиходе называют английскими “временами”) базируется на несложной математике. 

О том, что меня заставило прийти к этому выводу, затем комбинаторика, механика, математика и немного про музыку.

Я рассматриваю английскую видовременную систему как систему, состоящую из четырёх подъязыков в составе одного.

На когнитивном уровне английский язык распознаёт четыре аспекта (грани, феномена) реальности. Для описания каждого аспекта реальности выделен свой подъязык:

Simple (S), 

Progressive (P), 

Perfect Simple (PS), и 

Perfect Progressive (PP). 

Каждый подъязык является полноценным и описывает определённый аспект с помощью базовой формулы:

S = to X

P = to be Xing

PS = to have Xed / Х3

PP = to have been Xing ,

где X Xing Xed Х3 - известные формы английских глаголов.

На 4 базовые формулы “накручиваются” маркеры настоящего, прошедшего и будущего времени, образуя тем самым полный грамматический набор из 12 видовременных форм.

Каждая из формул несёт в себе определенную смысловую информацию, которая сохраняется неизменной независимо от лексики. По несложному формальному рассчёту смысловая нагрузка на грамматическую формулу может достигать 60% от общего смысла фразы.

Эту информацию, заключённую в грамматической формуле помимо слов, я назвала “метасмысл”. Четыре выделенных мною метасмысла:

Читать далее
Всего голосов 11: ↑3 и ↓8 -5
Просмотры 2K
Комментарии 161

Метаинформация, возможности файловых систем и децентрализованные сети будущего

Децентрализованные сети Семантика *Хранение данных *Научно-популярное Будущее здесь

Файл и файловая система - фундаментальные сущности, без которых современные компьютеры немыслимы. Мы привыкли к ним настолько, что порой не задумываемся - а могли бы эти сущности быть другими? Достаточно ли они удобны, эффективны, можно ли их улучшить, и если можно - то как? Насколько удобны и развиты средства для работы с различной метаинфорацией? И какое это все имеет отношение к децентрализованному интернету будущего? Об этом и пойдет разговор в данной статье.

Читать далее
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 4.7K
Комментарии 27

Конкордантность смысла

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

В [1, 2, 3] тексты (знаковые последовательности с повторами) с помощью матричных единиц, как образов слов, превращались (координатизировались) в алгебраические системы. Координатизация — необходимое условие алгебраизации любой предметной области...

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 1.5K
Комментарии 5

Диалоговые помощники для работы со структурированными данными

Семантика *Natural Language Processing *

 - Кто в нашей компании отвечает за согласование доступа в выходные на объект N?
 - Александр Иванов.
 - А какой у него телефон?

С таким диалогом легко справится любой офисный клерк, но для чат-ботов и диалоговых помощников подобные сценарии беседы до сих пор являются проблемой.

В статье мы рассказываем о том, как решили задачу преобразования вопросов пользователей на естественном языке в запросы к корпоративному графу знаний.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 1.6K
Комментарии 2

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Поисковые технологии *Семантика *API *Машинное обучение *Голосовые интерфейсы

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 812
Комментарии 0

Нейросети для Natural Language Inference (NLI): логические умозаключения на русском языке

Python *Семантика *Программирование *Машинное обучение *Natural Language Processing *

NLI (natural language inference) – это задача автоматического определения логической связи между текстами. Обычно она формулируется так: для двух утверждений A и B надо выяснить, следует ли B из A. Эта задача сложная, потому что она требует хорошо понимать смысл текстов. Эта задача полезная, потому что "понимательную" способность модели можно эксплуатировать для прикладных задач типа классификации текстов. Иногда такая классификация неплохо работает даже без обучающей выборки!

До сих пор в открытом доступе не было нейросетей, специализированных на задаче NLI для русского языка, но теперь я обучил целых три: tiny, twoway и threeway. Зачем эти модели нужны, как они обучались, и в чём между ними разница – под катом.

Читать далее
Всего голосов 24: ↑24 и ↓0 +24
Просмотры 9.6K
Комментарии 3

Многозадачная модель T5 для русского языка

Python *Семантика *Программирование *Машинное обучение *Natural Language Processing *

Модель T5 – это нейросеть, которая уже обучена хорошо понимать и генерировать текст, и которую можно дообучить на собственную задачу, будь то перевод, суммаризация текстов, или генерация ответа чат-бота.

В этом посте я рассказываю про первую многозадачную модель T5 для русского языка и показываю, как её можно обучить на новой задаче.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 5.7K
Комментарии 4

WHOW — Язык разметки («WHat-WHy-HOW»)

Семантика *

Если задаться вопросом, отчего семантические технологии до сих пор широко не шагнули в массы, ответ окажется на поверхности: из-за сложности существующей реализации. Сложно создать уникальный идентификатор предмета или отыскать в словарях идентификатор класса предмета, сложно и описывать предметные свойства - простому человеку не понятны и чужды эти Schema.org, Dublin Core, etc. Надобен бы простой, примитивный даже инструмент - чтобы занимательная семантика стала массовым явлением. И такой инструмент, конечно же, есть - это обычные вопросы естественного языка: что, зачем, как? - и т.д.

Читать далее
Всего голосов 10: ↑3 и ↓7 -4
Просмотры 2.9K
Комментарии 8

Об одной любопытной возможности IPFS

Децентрализованные сети Семантика *Исследования и прогнозы в IT Распределённые системы *Будущее здесь

В предыдущей заметкe нами была рассмотрена возможность идентификации сущностей (предметов) посредством устойчивых (immutable) понятий и CID. Выглядит это, вроде бы, не плохо, однако пока не совсем ясно, как сие можно использовать.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 3.5K
Комментарии 1

Вклад авторов