Как стать автором
Обновить
2.75
Рейтинг

Семантика *

Веб 3.0

Сначала показывать
  • Новые
  • Лучшие
Порог рейтинга
  • Все
  • ≥0
  • ≥10
  • ≥25
  • ≥50
  • ≥100

Императив предметной области при разработке информационных систем

Семантика *Анализ и проектирование систем *Исследования и прогнозы в IT Бизнес-модели Микросервисы *
Из песочницы

В настоящее время информационные технологии достигли высочайшей степени автоматизации разработки программного обеспечения. Мы умеем разрабатывать сложные распределённые приложения в кооперации многих команд, разделив систему на части так, чтобы минимизировать зависимость между подсистемами. У нас есть многочисленные техники и методики, полученные на основе огромного опыта создания программных систем, которые объясняют, как именно лучше выделять и отделять предметную область и другие части из системы. Мы умеем так изолировать эти части, что можем менять фреймворки для различных уровней архитектуры, использовать разные универсальные языки программирования (УЯП) и всё это существует вместе, масштабируется, выдерживает большие нагрузки, позволяет выполнять доработку компонентов, не переписывая всю систему. По большей части. Можем, когда хотим.

Прекрасно! Но почему мы до сих пор этого не делаем? Почему так много времени уделяем той части программной составляющей, которая не имеет отношения к предметной области – интерфейсу пользователя, вспомогательным слоям, работе с базой данных и постоянному связыванию этих частей с кодом предметной области в различных фреймворках? Неужели это настолько важно? Почему мы часто начинаем разработку с продумывания интерфейса между компонентами вместо того, чтобы просто писать логику предметной области? Из раза в раз. Уже много лет. Несмотря на технические возможности делать всё правильно.

Читать далее
Всего голосов 11: ↑8 и ↓3 +5
Просмотры 1.4K
Комментарии 23

Новости

Реверс-инжиниринг английской грамматики: математика? Равномерно темперированный строй?

Семантика *Реверс-инжиниринг *Учебный процесс в IT Изучение языков Natural Language Processing *

В процессе создания курса английской грамматики для “продвинутых” уровней я не могла избавиться от смутного ощущения, что английская видовременная система (то, что в обиходе называют английскими “временами”) базируется на несложной математике. 

О том, что меня заставило прийти к этому выводу, затем комбинаторика, механика, математика и немного про музыку.

Я рассматриваю английскую видовременную систему как систему, состоящую из четырёх подъязыков в составе одного.

На когнитивном уровне английский язык распознаёт четыре аспекта (грани, феномена) реальности. Для описания каждого аспекта реальности выделен свой подъязык:

Simple (S), 

Progressive (P), 

Perfect Simple (PS), и 

Perfect Progressive (PP). 

Каждый подъязык является полноценным и описывает определённый аспект с помощью базовой формулы:

S = to X

P = to be Xing

PS = to have Xed / Х3

PP = to have been Xing ,

где X Xing Xed Х3 - известные формы английских глаголов.

На 4 базовые формулы “накручиваются” маркеры настоящего, прошедшего и будущего времени, образуя тем самым полный грамматический набор из 12 видовременных форм.

Каждая из формул несёт в себе определенную смысловую информацию, которая сохраняется неизменной независимо от лексики. По несложному формальному рассчёту смысловая нагрузка на грамматическую формулу может достигать 60% от общего смысла фразы.

Эту информацию, заключённую в грамматической формуле помимо слов, я назвала “метасмысл”. Четыре выделенных мною метасмысла:

Читать далее
Всего голосов 11: ↑3 и ↓8 -5
Просмотры 1.4K
Комментарии 118

Метаинформация, возможности файловых систем и децентрализованные сети будущего

Децентрализованные сети Семантика *Хранение данных *Научно-популярное Будущее здесь

Файл и файловая система - фундаментальные сущности, без которых современные компьютеры немыслимы. Мы привыкли к ним настолько, что порой не задумываемся - а могли бы эти сущности быть другими? Достаточно ли они удобны, эффективны, можно ли их улучшить, и если можно - то как? Насколько удобны и развиты средства для работы с различной метаинфорацией? И какое это все имеет отношение к децентрализованному интернету будущего? Об этом и пойдет разговор в данной статье.

Читать далее
Всего голосов 11: ↑9 и ↓2 +7
Просмотры 3.1K
Комментарии 24

Конкордантность смысла

Поисковые технологии *Семантика *Алгоритмы *Natural Language Processing *

В [1, 2, 3] тексты (знаковые последовательности с повторами) с помощью матричных единиц, как образов слов, превращались (координатизировались) в алгебраические системы. Координатизация — необходимое условие алгебраизации любой предметной области...

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 1.1K
Комментарии 5

Диалоговые помощники для работы со структурированными данными

Семантика *Natural Language Processing *

 - Кто в нашей компании отвечает за согласование доступа в выходные на объект N?
 - Александр Иванов.
 - А какой у него телефон?

С таким диалогом легко справится любой офисный клерк, но для чат-ботов и диалоговых помощников подобные сценарии беседы до сих пор являются проблемой.

В статье мы рассказываем о том, как решили задачу преобразования вопросов пользователей на естественном языке в запросы к корпоративному графу знаний.

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 1K
Комментарии 2

Иерархическая классификация ожидаемого типа ответа на вопрос в вопросно-ответных системах на основе графов знаний

Поисковые технологии *Семантика *API *Машинное обучение *Голосовые интерфейсы

Одним из важных шагов, используемых людьми в поиске ответа на вопрос, является понимание того, какой именно тип ответа устроит автора. К примеру, на вопрос: "Который час?", мы ожидаем услышать ответ с типом "время", а на вопрос "Где родился Иван Петров?" -- ответ с типом "населённый пункт". То же самое верно и для вопросно-ответных систем (Question-Answering, QA), целью которых является поиск ответа на фактографические вопросы. В данной статье я представлю модуль определения ожидаемого типа ответа на вопрос (Expected Answer Type, EAT), который способен определять не только один класс, но и строить иерархию классов в качестве прогнозного значения. Модуль предоставляется как в виде веб-интерфейса (UI) так и в виде RESTful API. Данная функциональность позволяет конечным пользователям получать предсказания типа ответа для 104 языков, видеть достоверность прогноза и оставлять обратную связь. Кроме того, API позволяет исследователям и разработчикам интегрировать EAT-классификацию в свои системы.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 574
Комментарии 0

Нейросети для Natural Language Inference (NLI): логические умозаключения на русском языке

Python *Семантика *Программирование *Машинное обучение *Natural Language Processing *

NLI (natural language inference) – это задача автоматического определения логической связи между текстами. Обычно она формулируется так: для двух утверждений A и B надо выяснить, следует ли B из A. Эта задача сложная, потому что она требует хорошо понимать смысл текстов. Эта задача полезная, потому что "понимательную" способность модели можно эксплуатировать для прикладных задач типа классификации текстов. Иногда такая классификация неплохо работает даже без обучающей выборки!

До сих пор в открытом доступе не было нейросетей, специализированных на задаче NLI для русского языка, но теперь я обучил целых три: tiny, twoway и threeway. Зачем эти модели нужны, как они обучались, и в чём между ними разница – под катом.

Читать далее
Всего голосов 24: ↑24 и ↓0 +24
Просмотры 7.2K
Комментарии 3

Многозадачная модель T5 для русского языка

Python *Семантика *Программирование *Машинное обучение *Natural Language Processing *

Модель T5 – это нейросеть, которая уже обучена хорошо понимать и генерировать текст, и которую можно дообучить на собственную задачу, будь то перевод, суммаризация текстов, или генерация ответа чат-бота.

В этом посте я рассказываю про первую многозадачную модель T5 для русского языка и показываю, как её можно обучить на новой задаче.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 2.9K
Комментарии 4

WHOW — Язык разметки («WHat-WHy-HOW»)

Семантика *

Если задаться вопросом, отчего семантические технологии до сих пор широко не шагнули в массы, ответ окажется на поверхности: из-за сложности существующей реализации. Сложно создать уникальный идентификатор предмета или отыскать в словарях идентификатор класса предмета, сложно и описывать предметные свойства - простому человеку не понятны и чужды эти Schema.org, Dublin Core, etc. Надобен бы простой, примитивный даже инструмент - чтобы занимательная семантика стала массовым явлением. И такой инструмент, конечно же, есть - это обычные вопросы естественного языка: что, зачем, как? - и т.д.

Читать далее
Всего голосов 10: ↑3 и ↓7 -4
Просмотры 2.8K
Комментарии 8

Об одной любопытной возможности IPFS

Децентрализованные сети Семантика *Исследования и прогнозы в IT Распределённые системы *Будущее здесь

В предыдущей заметкe нами была рассмотрена возможность идентификации сущностей (предметов) посредством устойчивых (immutable) понятий и CID. Выглядит это, вроде бы, не плохо, однако пока не совсем ясно, как сие можно использовать.

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 3.3K
Комментарии 1

Как снизить зависимость кода от структуры данных?

Семантика *Анализ и проектирование систем *Проектирование и рефакторинг *

Структура данных часто пронизывает насквозь все слои приложения. При ее изменении приходится модифицировать структуру базы данных, логику работы с ними в программном коде, спецификации сервисов, интерфейс приложения. А если данные, описание их структуры и значительную часть логики обработки поместить в виртуализированное хранилище, и работать с ними как с единой онтологической моделью? Это сместит фокус с кода на данные и сделает приложения дата-центричными. Мы считаем, что такая трансформация позволит повысить скорость доставки полезных функций бизнес-пользователям и сэкономить ресурсы, требуемые на внесение изменений в приложения, открыть путь перехода к дата-центричной ИТ-архитектуре всего предприятия.

Читать далее
Всего голосов 12: ↑7 и ↓5 +2
Просмотры 8.1K
Комментарии 40

Примеры представления смысла документа через действия

Семантика *Искусственный интеллект

Всем привет!

В предыдущей статье «Смысл текста или представление знаний в системе, основанной на действиях» я описал способ представления знаний в виде семантической сети, построенной на действиях.

В этой статье, на примерах, посмотрим как могут выглядеть модели представляющие смысл текста (а также вопросы к содержанию текста!) с использованием данного подхода.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 2K
Комментарии 0

Немного о вариабельности SARS-CoV-2

Антивирусная защита *Семантика *Открытые данные *Веб-аналитика *

На сегодняшний день применяется не менее четырёх способов классификации вариантов SARS-CoV-2 (или hCoV-19). Проще всего с непривычки запутаться в ветвях филогенетического дерева (кладах), по-разному обозначаемых двумя конкурирующими организациями – GISAID (gisaid.org) и Nextstrain (nextstrain.org). Лавинообразное нарастание количества вариантов вируса усложняет восприятие и понимание подобных обозначений, поэтому деление на клады постепенно вытесняется делением на линии, обозначенным как PANGOLIN (Phylogenetic Assignment of Named Global Outbreak LINeages). Для такого деления используется секвенирование вирусных геномов и построение их полного филогенетического дерева.

Читать далее
Всего голосов 12: ↑10 и ↓2 +8
Просмотры 2.7K
Комментарии 12

Снится ли GGG Тиму Бернерсу-Ли?

Децентрализованные сети Семантика *Исследования и прогнозы в IT Распределённые системы *Будущее здесь

В 2007 году знаменитый автор слова из трёх букв 'W' опубликовал в своем блоге рассуждения о востребованности слова нового, на сей раз - из трёх букв 'G'. "Гигантский Глобальный Граф" - так предполагалось это произносить в полном, необрезанном виде. О чём шла речь? О том, что слово "граф" больше подходит для обозначения технологии представления взамосвязанных данных, нежели "паутина", пусть даже и "семантическая". Термин не прижился. Отчасти, возможно, из-за некоторой тавтологичности, отчасти же - из-за того, что привычная "паутина" оказалась милее сердцу обывателя, чем какой-то "граф".

Ну, да ладно, "ГГГ" не всплыло взлетело - не беда, ведь в конце концов - это лишь один из возможных псевдонимов планетарной семантической сети. Но что представлялось сиру Тиму в качестве цели для достижения (с помощью новых-то технологий связывания данных)?.. "Важны не документы, а то, что в них содержится. Очевидная истина." - писал он, - "...когда я бронирую билет на авиарейс, меня интересует именно этот рейс. Не страница рейса на сайте путешествий или страница рейса на сайте авиакомпании, но URI самого авиарейса. Вот что я поставлю в закладки. И каким бы устройством я ни воспользовался для открытия закладки, оно будет иметь доступ к ситуационно зависимому обзору всего, что я знаю об этом рейсе из разных источников. Задача заказа и совершения рейса потребует множества взаимодействий. И на их протяжении, эти задача и рейс будут на первом месте в моём осознании, веб-сайты – на втором, а сети и устройства – на третьем."

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 2.1K
Комментарии 7

Алгоритм для рейтинга комментариев, поощряющий хорошие аргументы

Семантика *Машинное обучение *Социальные сети и сообщества

Сайты вроде Хабра, Пикабу, Реддита, и Hacker News имеют древовидные системы комментариев к постам. Зарегистрированные пользователи могут голосовать за комментарии. Сайты используют рейтинги комментариев двумя способами:

- Управляют вниманием читателей комментариев. "Лучшие" комментарии отображаются сразу под постом, "худшие" - в подвале. Хабр почти не управляет вниманием читателей: он лишь блюрит "плохие" комментарии, но не переупорядочивает их. Впрочем, я (как наверное и многие другие читатели) часто листаю комментарии только цепляясь взглядом за двузначное значение рейтинга.

- Дают какие-то плюшки авторам "хороших" комментариев. Например, в некоторых сабреддитах нужно иметь определенный рейтинг комментариев в данном сабреддите чтобы опубликовать пост.

Кроме того, рейтинг комментариев, естественно, влияет на их авторов: положительный рейтинг поощряет авторов писать больше таких комментариев, а отрицательный - меньше. Таким образом, рейтинги комментариев еще неявно влияют на дискуссию на сайте.

Читать далее
Всего голосов 27: ↑23 и ↓4 +19
Просмотры 4.2K
Комментарии 67

Как устроен «Русский медвежонок» — оплот психодела и здравого смысла в образовании

Блог компании Орбита Семантика *


Если вы подозреваете, что «трамвай» — это глагол повелительного наклонения, или что «забор крови» — это нечто из фильмов ужасов, то вы точно понимаете, где в тестах по русскому языку есть обширное поле для лютого троллинга.

Сначала я вообще считал, что «Русский медвежонок» — это отдельное произведение искусства, созданное, чтобы с иррациональным юмором показать расширенные возможности языка. А потом allex познакомил меня с создателями сего шедевра, и выяснилось, что это вообще-то ужасно серьёзное дело, которым заняты математики и лингвисты. Предельно адекватные, насколько это вообще возможно для математиков и лингвистов.

Значит, сейчас «Медвежонок» — это самый массовый конкурс по русскому языку, подозрительно напоминающий олимпиаду всем, кроме формы. Формально он — игра. Предприятие это сугубо коммерческое, участие стоит 85 рублей (до 100 рублей на Дальнем Востоке). Участие добровольное, в качестве приза предполагается нечто символическое — это тоже осознанно, чтобы не было тех, кто играет на мамону. Все вопросы предполагают на входе некоторый общий уровень развития человека, рождённого на Земле в России. То есть это нечто из базовой школьной программы, общечеловеческие бытовые знания и базовый же кругозор. Задач на чистое академическое знание нет. Задач на зубрёжку нет. Даже если вам кажется, что есть. Задачи довольно хорошо тестируются на живых людях до раскатки на конечных пользователей.

В общем, я хочу показать, что бывает, когда математики добираются до русского языка. И познакомить вас с двумя прекрасными людьми — кандидатом физико-математических наук Игорем Рубановым и кандидатом филологических наук Еленой Муравенко.

Первое, что меня без меры порадовало — что в методологии «пять вариантов ответов» сразу подразумевается, что все эти варианты создаются так, чтобы максимально запутать отвечающего и, фактически, внести новый уровень сложности в задачу. Сейчас покажу пару примеров.
Читать дальше →
Всего голосов 173: ↑163 и ↓10 +153
Просмотры 53K
Комментарии 522

Перефразирование русских текстов: корпуса, модели, метрики

Python *Семантика *Программирование *Машинное обучение *Natural Language Processing *

Автоматическое перефразирование текстов может быть полезно в куче задач, от рерайтинга текстов до аугментации данных. В этой статье я собрал русскоязычные корпуса и модели парафраз, а также попробовал создать собственный корпус, обучить свою модель для перефразирования, и собрать набор автоматических метрик для оценки их качества.

В итоге оказалось, что модель для перевода перефразирует лучше, чем специализированные модели. Но, по крайней мере, стало более понятно, чего вообще от автоматического перефразирования можно хотеть и ожидать.

Читать далее
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 5.7K
Комментарии 5

Что можно положить в тег <head>

Блог компании HTML Academy Разработка веб-сайтов *Семантика *HTML *
Перевод
Tutorial

Рекомендуемый минимум

Ниже приведены основные элементы для любого веб-документа (веб-сайта/приложения):

meta charset — определяет кодировку веб-сайта, стандартом является utf-8.

meta name="viewport" — настройки viewport, связанные с мобильной отзывчивостью

width=device-width — физическая ширина устройства (отлично подходит для мобильных устройств!)

initial-scale=1 — начальный масштаб, 1 означает отсутствие масштабирования

Элементы

Допустимые элементы <head> включают meta, link, title, style, script, noscript и base.

Эти элементы предоставляют информацию о том, как документ должен восприниматься и отображаться веб-технологиями, например, браузерами, поисковыми системами, ботами и так далее.

Читать далее
Всего голосов 35: ↑35 и ↓0 +35
Просмотры 17K
Комментарии 23

Дата-центрическая архитектура: «волшебная пуля» от интеграционных проблем

Семантика *Облачные вычисления *Хранение данных *

Каждая организация использует множество приложений, каждое приложение имеет свою базу данных. В этих базах хранится описание одних и тех же объектов бизнес-процессов с разных точек зрения. Это порождает необходимость в сложных, дорогих и не всегда эффективных интеграционных решениях.

Мы расскажем о дата-центрической архитектуре — «волшебной пуле», позволяющей забыть об интеграции и открыть новые возможности для создания гибких и управляемых бизнес-приложений, аналитики и монетизации данных за счет их использования при принятии решений.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 2.9K
Комментарии 14

Маленький и быстрый BERT для русского языка

Семантика *Программирование *Data Mining *Машинное обучение *Natural Language Processing *

BERT – нейросеть, способная неплохо понимать смысл текстов на человеческом языке. Впервые появившись в 2018 году, эта модель совершила переворот в компьютерной лингвистике. Базовая версия модели долго предобучается, читая миллионы текстов и постепенно осваивая язык, а потом её можно дообучить на собственной прикладной задаче, например, классификации комментариев или выделении в тексте имён, названий и адресов. Стандартная версия BERT довольно толстая: весит больше 600 мегабайт, обрабатывает предложение около 120 миллисекунд (на CPU). В этом посте я предлагаю уменьшенную версию BERT для русского языка – 45 мегабайт, 6 миллисекунд на предложение. Она была получена в результате дистилляции нескольких больших моделей. Уже есть tinybert для английского от Хуавея, есть моя уменьшалка FastText'а, а вот маленький (англо-)русский BERT, кажется, появился впервые. Но насколько он хорош?

Читать далее
Всего голосов 57: ↑57 и ↓0 +57
Просмотры 14K
Комментарии 17

Вклад авторов