Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Ученый-лингвист нашел ключ к рукописи Войнича. Или нет

Изучение языков

В конце апреля Джерард Чешир из Бристольского университета опубликовал статью в журнале Romance Studies, где описывается языковая система, представленная в рукописи Войнича — средневековом литературном памятнике, который до сих не удавалось расшифровать. Новая попытка вызвала резонанс среди лингвистов, и большинство из них настроены скептически.
Читать дальше →
Всего голосов 21: ↑18 и ↓3+15
Просмотры5.1K
Комментарии 19

В МТИ нейросеть научилась расшифровывать забытые языки

АлгоритмыМашинное обучениеИзучение языков
image

В Массачусетском технологическом институте разработали нейросеть, которая поможет лингвистам расшифровать давно забытые языки.
Читать дальше →
Всего голосов 16: ↑16 и ↓0+16
Просмотры7K
Комментарии 9

Стив Джобс говорит понятнее, чем Билл Гейтс

Чулан
На прошлой неделе Билл Гейтс, и Стив Джобс практически одновременно произнесли большие программные речи. Стенограммы этих речей опубликованы в интернете: и речь Гейтса, и выступление Джобса.
Читать дальше →
Всего голосов 32: ↑30 и ↓2+28
Просмотры439
Комментарии 26

Кто взломает zip-архив, тот узнает, кто убил Летвиненко

Чулан
Есть такая экспертная система ВААЛ — лингвистическая экспертиза.
Здесь еще 05.01.2007 появился пост такого содержания:

«Литвиненко умер 23 ноября 2006 года, а вечером 24 ноября нам в руки попало одно интересное интервью. Оперативно был проведен его контент-анализ. Не может быть, сказали мы себе <lj-cut>и не стали ничего публиковать. Со временем «не может быть» стало обретать плоть и кровь.
Мы решили поступить так.
По адресу www.vaal.ru/download/enigma.zip находится файл, который можно скачать уже сейчас. Но этот файл зашифрован.
Когда завершится следствие по делу Литвиненко, и конкретным лицам будут предъявлены обвинения, мы сообщим в открытом доступе пароль к зашифрованному файлу, и каждый сам сможет проверить, насколько верными оказались наши предположения.»


Потом 06.06.2007 было продолжение
… После опубликования предыдущего материала к нам постоянно обращаются с просьбой дать пароль для расшифровки файла. Обращаются по электронной почте, обращаются в комментариях к публикации, иногда даже звонят по телефону.
Пришло время открыть пароль?
Нет, не пришло. Да, Великобритания обратилась к России с просьбой о выдаче Лугового, но это еще ни о чем не говорит...

И т.д., в том же ключе

Задача!
Файл доступен для скачивания.
Может быть его стоит взломать? И открыть миру истину?
Это возможно (взломать)?

ps
Такой вот странный мой первый пост.
С новосельем!
Всего голосов 54: ↑33 и ↓21+12
Просмотры320
Комментарии 37

Uz-Translations: иностранные языки, онлайн образование

Я пиарюсь


Уважаемые хабрапользователи, хочу представить вашему вниманию мой языковой проект: Uz-Translations — информационный блог для филологов и переводчиков. Сайт был запущен в 2004 году.

Цель сайта создать в Интернете уникальный ресурс, где будут собраны материалы как для изучающих, так и преподающих иностранные языки. Ежедневно на сайте размещаются статьи, посвященные искусству перевода, лингвистике, страноведению, а также обзоры программ, учебных материалов, словарей и онлайн курсов, которые сейчас набирают популярность во всем мире!

Буду рад услышать вашу критику и замечание в адрес сайта!
Всего голосов 24: ↑15 и ↓9+6
Просмотры1.5K
Комментарии 34

Кузявые ли бутявки, т.е. пишем морфологический анализатор на Python

Python
Морфологический анализатор для русского языка — это что-то заумное? Программа, которая приводит слово к начальной форме, определяет падеж, находит словоформы — непонятно, как и подступиться? А на самом деле все не так и сложно. В статье — как я писал аналог mystem, lemmatizer и phpmorphy на Python, и что из этого получилось.
Читать дальше →
Всего голосов 115: ↑109 и ↓6+103
Просмотры48K
Комментарии 44

Такете и Малума. Практическое использование феномена

Дизайн
«Билайн и МТС неожиданно в один день сменили логотипы вот на такие»:



«Как вы думаете, что из этого символ МТС, а что — Билайн?»

С таким вопросом я приставал к своим коллегам, а полученные ответы заносил в тетрадку и задумчиво хмыкал. В конце статьи будут результаты опроса, а пока что объясню в чем его смысл.

Давно известен и описан феномен сопоставления человеком бессмысленных слов бессмыссленным фигурам согласно их форме. Как вы думаете, что из этого Малума, а что — Такете?



В. Келер (W. Kohler) в 1947 году показал, что большинство людей называют округлую фигуру Малума, а угловатую — Такете. Это означает, что у людей есть механизмы возникновения стойких ассоциаций между словами и фигурами, независимо от их смысла. А раз так, просто необходимо эти механизмы использовать.

Развиваю тему под катом. Если вам интересно применение психологии в дизайне, некоторые другие идеи я описывал на своем сайте.

Читать дальше →
Всего голосов 151: ↑140 и ↓11+129
Просмотры5K
Комментарии 101

Гибридная реализация русской морфологии

Чулан
При создание поисковых решение одним из первых с чем приходиться сталкивать разработчику это предварительная обработка текста. Разбивка на термины, фильтрация стоп слов. Важной операцией влияющей на качество поиска на данном этапе является приведение слов к нормальной форме. Ниже приведены основные подходы к этой проблеме.
Читать дальше →
Всего голосов 17: ↑15 и ↓2+13
Просмотры711
Комментарии 4

Нанотехноблогии

Чулан
image

предыстория


Мы живем в постоянно ускоряющемся и постмодернизирующемся мире, в котором потоки информации выливаются на каждого в непомерном объеме.

Типичный представитель нашей эпохи склонен к клиповому мышлению, многозадачности и восприятию целой мозайки разнообразных данных каждый день.
Читать дальше →
Всего голосов 29: ↑16 и ↓13+3
Просмотры203
Комментарии 38

Слова имеют значение: языковые проблемы проектирования интерфейсов

Блог компании ALEE Software
imageРазрабатывая пользовательские интерфейсы, поневоле приходится иметь дело с проблемой языка. Невозможно смоделировать процесс человеко-машинного взаимодействия, вообще не используя слов и выражений естественного языка. Удовлетворение пользователя в процессе работы во многом обусловлено тем, насколько ясно и понятно написаны тексты инструкций, подсказок, какие языковые выражения использованы в пунктах меню и т. п. Если эти тексты перегружены малопонятной терминологией и содержат стилистические ошибки, то о каком удобстве пользователя можно вести речь? В данном тексте мы бы хотели выделить основные языковые проблемы, с которыми приходится сталкиваться при проектировании интерфейсов, и попытаться наметить возможные пути их решения. Приглашаем читателей к обсуждению. Надеемся, что в дискуссии примут участие не только представители ИТ-сферы, но и гуманитарии.

Читать дальше →
Всего голосов 7: ↑6 и ↓1+5
Просмотры4.1K
Комментарии 19

Узнать всё о лингвистическом аннотировании текстов на семинаре ABBYY Open

Блог компании ABBYY
В ближайший вторник, 24 мая, мы организуем в Москве семинар «Актуальные проблемы компьютерной лингвистики», посвящённый лингвистическому аннотированию текстов (корпусов). Мероприятие состоится в рамках серии открытых лекций и семинаров ABBYY Open.

Лингвистическое аннотирование является сегодня центральной темой, объединяющей интересы теоретических и компьютерных лингвистов. Разметка корпусов нужна как для задач машинного обучения систем Natural Language Processing (NLP), так и для получения собственно лингвистических результатов.

Приглашенные докладчики – известные специалисты в области компьютерной лингвистики Эдуард Хови (Eduard Hovy, University of Southern California/Information Sciences Institute) и Диана Маккарти (Diana McCarthy, Lexical Computing Ltd).

Подробную информацию о месте и времени проведения мероприятия, а также аннотации докладов вы можете прочитать здесь. Семинар бесплатный, для участия обязательно нужно зарегистрироваться и дождаться подтверждения регистрации.

Рабочий язык семинара – английский.
Всего голосов 21: ↑18 и ↓3+15
Просмотры2.3K
Комментарии 1

Австралийские роботы сами придумали себе язык

Искусственный интеллект
Пара разговаривающих роботов, изначально не обладавшая никаким языком для общения между собой, сама выработала его в ходе взаимодействия.
Читать дальше →
Всего голосов 218: ↑215 и ↓3+212
Просмотры2.8K
Комментарии 67

Нечёткий поиск на клиенте и Soundex

JavaScript
Soundex — один из алгоритмов сравнения двух строк по их звучанию. Был разработан чуть менее 100 лет назад Робертом Расселом и Маргарет Оделл. Активно используется в США при диктовке фамилий.

Я давно интересовался применением этого алгоритма и нашёл ему место для фильтрации данных на клиенте, а точнее, для поиска отеля по названию в проекте Островок.ru.

Задача

На Островке все найденные отели передаются на клиент и вся фильтрация и сортировка выдачи происходит в браузере. Необходимо было добавить фильтр по названию отеля.

Решение, проблемы и готовый скрипт
Всего голосов 72: ↑70 и ↓2+68
Просмотры7.6K
Комментарии 44

Имена людей и интерфейс

Интерфейсы
Пространство рассуждения статьи затрагивает вопросы различия имен людей во всем мире, и то, как это влияет на дизайн форм ввода, баз данных, онтологий информатики и др. в контексте Всемирной Паутины.

image

Заинтересованная аудитория: авторы HTML-контента, разработчики скриптов серверных приложений (PHP, JSP и т.д.), менеджеры веб-проектов и любые другие люди, так или иначе связанные с дизайном форм ввода данных, дизайна баз данных и онтологий, которые затрагивают личные имена людей.

Следует помнить о различиях формирования и традициях употребления имен людей в других странах. Зачастую создатели сайтов или программ одной культуры не учитывают национальные особенности пользователя другой, что заставляет последнего чувствовать себя непривычно, и ставит дополнительные преграды к использованию продукта.

Читать дальше →
Всего голосов 314: ↑301 и ↓13+288
Просмотры38K
Комментарии 121

Скрытые Марковские модели в распознавании речи

Алгоритмы
Из песочницы
Самое быстрое и эффективное взаимодействие между людьми происходит посредством устной речи. С помощью речи могут быть переданы различные чувства и эмоции, а главное — полезная информация. Необходимость создания компьютерных интерфейсов звукового ввода-вывода не вызывает сомнений, поскольку их эффективность основана на практически неограниченных возможностях формулировки в самых различных областях человеческой деятельности.

Читать дальше →
Всего голосов 35: ↑29 и ↓6+23
Просмотры21K
Комментарии 9

Методы современной лингвистики для изучения китайского языка

Изучение языков
Из песочницы
Очевидно, что перед каждым ученым, серьезно исследующим китайский язык, остро стоит вопрос о методологии (методе) своих изысканий, следовательно, — их перспективах и собственном месте в лоне китаистики.

Данный вопрос, несмотря на видимую простоту, сложен хотя бы потому, что эффективность конкретной лингвистической методологии должна быть обоснована в сопоставлении с другими методологическими системами и проанализирована на предмет возможности ее применения для изучения конкретного языкового материала.

Подобное исследование до сих пор целенаправленно не проводилось, что, как нам представляется, определяет актуальность исследования.

Итак, до начала 20 века — периода, когда стали известны идеи Ф. де Соссюра о необходимости формирования лингвистики как отдельной дисциплины, российские китаисты уже добились огромных успехов в деле подбора, анализа, систематизации языкового материала.

Читать дальше →
Всего голосов 22: ↑9 и ↓13-4
Просмотры2.2K
Комментарии 10

Заходят русский, англичанин и китаец в программу…

Блог компании «Лаборатория Касперского»
Привет, Хабровчане!
Что вы думаете про нашу техническую документацию и локализации продуктов, если вам доводилось с ними сталкиваться? И читаете ли вы документацию вообще?
В свою очередь, мы хотим рассказать вам, как ЛК удается делать так, чтобы и русский, и англичанин, и китаец одинаково легко обращались с нашими программами. Больше всех об этом знает руководитель отдела локализации и разработки технической документации Татьяна Родионова.


image― Татьяна, насколько это вообще объемная работа, как много сотрудников числится в вашем отделе?

― Сейчас в отделе работают 48 человек. По функциям все они делятся на 4 группы. Группа технического документирования разрабатывает материалы, которые помогают пользователю разобраться в программе. Это тексты графического интерфейса продуктов, справка, интегрированная в продукт, а также сопроводительные документы, такие как «Руководство пользователя». Тексты пишут технические писатели.
Локализацией текстов на языки занимаются переводчики и инженеры группы локализации. Сегодня мы локализуем наши продукты на 33 языка. Основные языки ― русский, английский, немецкий, французский и для некоторых продуктов ― китайский. Понятно, что локализовать продукт на 33 языка силами только штатных сотрудников невозможно. В помощь мы привлекаем переводческие агентства и носителей языков по всему миру.
Читать дальше →
Всего голосов 11: ↑8 и ↓3+5
Просмотры4.8K
Комментарии 1

Зачем информационным технологиям нужны лингвисты?

Я пиарюсь
Из песочницы
Добрый день! Эта заметка — результат моих горестных раздумий о роли современной филологии в век коммерции и информационных технологий. Моя интуиция настойчиво шепчет о том, что исследования языка сейчас могут быть полезны как никогда. Печальная же реальность демонстрирует все новые лица в ряду безработных кандидатов филологических наук. В связи с этим я хочу предложить участникам сообщества одну идею и прошу оценить ее с точки зрения реалистичности, жизнеспособности и полезности.

Идея состоит в том, чтобы практически использовать очень популярный сейчас анализ концептов. Практическое применение полевого описания концептов я вижу, во-первых, в том, чтобы использовать его в системе раскрутки сайтов, прогнозировании возможных поисковых запросов, формирования соответствующего текстового наполнения веб-ресурса. Во-вторых, оно может стать научной основой для создания названий с оптимальным ассоциативным фоном, в том числе адаптированных для различных культур (в случаях международного использования). В третьих — оно может помочь дизайнерам, которые работают, главным образом, с понятиями (по сути — концептами), выраженными в конкретных образах. Ниже коротко рассказывается о том, что такое концепт в лингвистике и как описываются его поля.

В последние годы в филологии приобрело популярность направление, которое называется когнитивной лингвистикой. Один из основных предметов изучения когнитивной лингвистики – концепты. Концепт – это «некое представление о фрагменте мира или части такого фрагмента, имеющее сложную структуру, выраженную разными группами признаков, реализуемых разнообразными языковыми способами и средствами. Концептуальный признак объективируется в закрепленной и свободной формах сочетаний соответствующих языковых единиц – репрезентантов концепта. Концепт отражает категориальные и ценностные характеристики знаний о некоторых фрагментах мира. В структуре концепта отображаются признаки, функционально значимые для соответствующей культуры» (Пименова М.В. Введение в когнитивную лингвистику. — Кемерово, 2004). Структура содержания концепта включает буквальный смысл (внутреннюю форму), пассивный, исторический слой, новейший, актуальный и активный слой, эволюционные семиотические ряды концептов, образы, ассоциации. Концепт может иметь или не иметь имени, но он всегда вербализуется в языковых единицах.

Вербализация – словесное отображение содержания концепта. Представляя концепт как поле, выделяют ядерную, околоядерную зоны, зоны ближней и дальней периферии. В ядерную зону входят единицы, называющие концепт, в околоядерную – характеризующие его. К ближней и дальней периферии относятся слова и выражения, соответственно более и менее тесно связанные с концептом по смыслу. Приведем фрагмент анализа концепта «Дом» в русском и немецком языках.
Читать дальше →
Всего голосов 15: ↑9 и ↓6+3
Просмотры815
Комментарии 4