• А ну-ка, сгруппировались, или как отделить фото котиков от счетов ЖКХ

      Удобно сфотографировать на смартфон страницу из паспорта, визитку коллеги, договор с банком или чек из ресторана. Важные документы всегда будут под рукой, и их можно распечатать или переслать. Но быстро найти нужные файлы в галерее мобильного телефона становится все сложнее. Как правило, у пользователей копится целая коллекция мемчиков и картинок с котиками вперемешку с фотографиями счетов на оплату электричества, СНИЛС и др. У сотрудников компаний, например, выездных менеджеров банка или юридической фирмы, тоже бывают похожие ситуации. Только вместо изображений пушистиков – сотни фотографий клиентских договоров и других документов. Как отыскать необходимый экземпляр, чтобы отправить коллегам в офис, или как распечатать фото водительского удостоверения в правильном масштабе, а не на весь А4? Придется повозиться.

      Гораздо проще решать все эти задачи с помощью одного приложения. Поэтому мы и обновили ABBYY FineScanner AI. Теперь он умеет автоматически сортировать фотографии из галереи смартфона на 7 групп документов и быстро ищет нужные фото по текстовым запросам.

      Сегодня мы подробно расскажем, как создавали каждую из этих фич, какие технологии при этом использовали и как в этом помог фреймворк ABBYY NeoML. Также покажем, как это работает в приложении. А в конце – поделимся нашими планами по развитию FineScanner и зададим вам несколько вопросов.
      Читать дальше →
    • Технологии для проверки «Тотального диктанта»: что можно улучшить?

        Я состою в жюри World AI & Data Challenge. Это такой международный конкурс для разработчиков технологий для решения разных социальных задач, таких как борьба с бедностью, помощь людям с ограничениями слуха и зрения, улучшение обратной связи между человеком и государственными организациями, и так далее. Сейчас идет второй этап конкурса, он продлится до октября. В рамках этого этапа мы отбираем лучшие решения для дальнейшей реализации проектов. Поскольку мы в ABBYY много работаем с текстами и их смыслом, то меня больше всего заинтересовала проверка текстов в рамках проекта «Тотальный диктант». Давайте на примере этой задачи разберёмся, почему обработка естественного языка — одна из самых недооценённых областей современного машинного обучения, а на сдачу обсудим, почему, даже когда речь идёт о проверке диктанта, всё «немного сложнее, чем кажется». И интереснее, естественно.

        Итак, задача: сделать алгоритм проверки «Тотального диктанта». Казалось бы, что может быть проще? Есть правильные ответы, есть тексты участников: бери и делай. Строчки сравнивать-то все умеют. И тут начинается интересное.
        Читать дальше →
      • О молодой, но мудрой ФПМИ и её последователе – ABBYY

          Сентябрь – волнительное время не только для школьников и студентов, но и для нас в ABBYY. Осенью студенты наших кафедр на Физтехе вернулись к учебе, а десятки наших коллег – к преподаванию. Каким будет этот учебный год – не загадываем. Просто пусть все будет хорошо. А в этом посте мы расскажем интересные подробности о Физтех-школе прикладной математики и информатики (ФПМИ МФТИ) и о том, как вместе с ней мы уже не первый год готовим крутых специалистов в области Natural Language Processing (NLP) и Computer Vision (CV).

          image
          Первокурсники ФПМИ на фоне самого популярного корпуса МФТИ для совместных фотографий.
          Читать дальше →
          • +19
          • 4,4k
          • 3
        • ABBYY FineReader Server против хаоса. Как наше решение удаляет дубликаты и наводит порядок в бизнес-документах?

            image


            Привет, Хабр! Наверняка вы помните посты о том, как наш ABBYY Recognition Server помогал в оцифровке материалов и каталогов библиотек на Сахалине, в Латвии, Великобритании и в других странах. Мы давно не рассказывали об этом продукте, а ведь все это время он развивался. Мы обучили его новым способностям, прокачали его навыки с помощью интеллектуальных OCR-технологий последнего поколения и даже дали новое имя – ABBYY FineReader Server. Объясняем: под общим брендом FineReader мы объединили все продукты для распознавания, конвертации и редактирования документов.


            Сегодня ABBYY FineReader Server помогает не только оцифровывать материалы из библиотек и архивов, но и упорядочивать хранение информации в крупных компаниях. Например, группа FESCO оцифровывает бухгалтерские счета и транспортные накладные и отправляет их в единый электронный архив, чтобы быстрее проводить транзакции, а сотрудники PwC прямо с мобильного телефона конвертируют фотографии счетов, договоров и других документов в PDF с возможностью полнотекстового поиска и отправляют их в корпоративные системы. В США юридическая фирма Kantor & Kantor использует это решение, чтобы быстрее находить значимую информацию в тысячах страниц судебных дел.


            В этом посте мы расскажем о нескольких новых возможностях ABBYY FineReader Server: как они технически реализованы и для чего крупные компании пользуются ими.

            Читать дальше →
          • Бизнес-процессы на прокачку: как Process Intelligence помогает компаниям определить, что, где и когда автоматизировать


              Как вы, возможно, слышали, в прошлом году ABBYY приобрела компанию TimelinePI – разработчика платформ Process Intelligence. Теперь, помимо интеллектуальной обработки информации, продукты ABBYY помогают компаниям решать новый класс задач – анализировать бизнес-процессы, понимать, как они устроены изнутри и как их изменить в лучшую сторону.

              Для нас это логичный шаг. В недрах крупных компаний непрерывно генерируются и обрабатываются огромные объемы данных. Наши решения для корпоративных заказчиков помогают приводить в структурированный вид разнообразные сведения из бухгалтерских, кадровых, логистических и других документов и удобнее работать с ними. А почему бы не только упорядочивать информацию, но и делать на ее основе полезные выводы для бизнеса? Например, понимать, как устроены процессы, выявлять в них неочевидные закономерности, анализировать те метрики, которые раньше не учитывали, да еще и предсказывать, что будет, если автоматизировать процессы с помощью той или иной технологии?

              Сегодня мы расскажем, что такое платформа для интеллектуального анализа бизнес-процессов ABBYY Timeline, для чего она нужна, и приведем примеры, как это решение работает и где оно полезно.
              Читать дальше →
            • Чем занимается главный архитектор в ABBYY? Интервью с Владимиром Юневым

                Так устроена наша компания, что она не может не развиваться. В прошлом году ABBYY приобрела TimelinePI – разработчика платформы для анализа бизнес-процессов и вышла на новый рынок. А сейчас мы активно переходим на современные облачные архитектуры.

                Конечно, пока за рубежом cloud-сервисами пользуются активнее, чем в России. По данным Gartner, в 2019 года мировой рынок публичных облаков составил $242,7 млрд, а в нашей стране – пока 73 млрд рублей (~$1 млрд), следует из отчета «ТМТ Консалтинг», хотя в России этот рынок растет быстрыми темпами.

                Наши международные клиенты уже пользуются решениями, которые работают в облаке, например, ABBYY FlexiCapture и Cloud OCR SDK. Они помогают заказчикам автоматически распознавать штрихкоды, извлекать из товарных накладных суммы и даты и многое другое – и делать все это со всевозможных устройств, различных операционных систем, удобно и безопасно. Нам бы хотелось, чтобы наши интеллектуальные решения становились еще доступнее для пользователей. Ведь даже в пандемию компаниям во всем мире все равно нужно обрабатывать счета, готовить налоговую отчетность, сравнивать написанное мелким шрифтом в разных версиях кредитных договоров, а также внедрять решения для удаленного обслуживания клиентов. Чтобы все эти задачи можно было решить в любое время, где угодно и в необходимом объеме, мы взяли курс на интеграцию наших продуктов с облачными технологиями.

                Именно поэтому в 2019 году в нашей команде появился главный архитектор – человек с хорошим знанием подходов к созданию архитектуры программного обеспечения в компании сегмента B2B и с большим опытом в построении и развитии облачных сервисов. Им стал Владимир Юнев, в прошлом – облачный архитектор и эксперт по стратегическим технологиям Microsoft, известный в сообществе на Хабре как @XaocCPS.

                Мы поговорили с Володей о том, чем занимается главный архитектор ABBYY и его команда, какими навыками и знаниями важно обладать такому специалисту и за какими ИТ-архитектурами будущее.
                Читать дальше →
              • Как сделать поиск по документам, накопленным почти за 100 лет. Опыт НПО Энергомаш и ABBYY

                  Многие знают, что ABBYY занимается обработкой и извлечением данных из разных документов. Но у наших продуктов есть и другие интересные возможности. В частности, с помощью решения ABBYY Intelligent Search можно быстро и удобно искать информацию по смыслу в электронных документах из корпоративных систем. Этим уже пользуются крупные российские компании, например, производитель ракетных двигателей АО «НПО Энергомаш».

                  Многолетняя практика показывает, что время вывода космических двигателей на рынок от момента начала работ составляет от 5 до 7 лет. В то же время для удержания лидирующих позиций необходимо сокращать сроки разработки и изготовления до 3 – 4 лет. Кроме того, усиление конкуренции привело к необходимости существенного снижения стоимости выпускаемых двигателей на 30 – 50%.

                  Указанных показателей невозможно достигнуть без внедрения современных цифровых технологий. Наиболее передовые компании используют инновационные подходы не только на всех стадиях производства, но и на всех стадиях жизненного цикла их изделий. Чем больше компании уходят в цифру, тем острее становится вопрос: как использовать большие данные с максимальной для себя выгодой?

                  За 90 лет работы НПО Энергомаш накопил вековой объем документов (как бумажных, так и электронных) с ценной информацией о наработках испытателей и конструкторов. Большая часть документов уже хранится в информационных системах компании (ИС). Согласно исследованию IDC, в среднем сотрудники крупных организаций пользуются 5-6 внутренними ИС. Около 36% времени в среднем уходит на поиск информации – в масштабах крупной компании это тысячи рабочих часов в день.

                  Сегодня мы расскажем, как помогли НПО Энергомаш создать корпоративную интеллектуальную информационно-поисковую систему (КИИПС) на базе ABBYY Intelligent Search – такую же удобную и быструю, как популярные поисковики.
                  Читать дальше →
                • Победители соревнований Dialogue Evaluation – о задачах, языковых моделях, ML и о себе

                    Недавно завершился «Диалог 2020», международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям. Партнером конференции впервые стала Физтех-школа прикладной математики и информатикии (ФПМИ) МФТИ. Традиционно одно из ключевых событий «Диалога» – это Dialogue Evaluation, соревнования между разработчиками автоматических систем лингвистического анализа текстов. Мы уже рассказывали на Хабре о задачах, которые участники состязаний решали в прошлом году, например, о генерации заголовков и поиске пропущенных слов в тексте. Сегодня мы поговорили с победителями двух дорожек Dialogue Evaluation этого года — Владиславом Корзуном и Даниилом Анастасьевым — о том, почему они решили участвовать в технологических соревнованиях, какие задачи и какими способами решали, чем ребята интересуются, где учились и чем планируют заниматься в будущем. Добро пожаловать под кат!
                    Читать дальше →
                  • Как создавать и изменять интерактивные PDF-формы, или новый скилл ABBYY FineReader PDF

                      Мы регулярно обучаем ABBYY FineReader PDF новым навыкам. Две недели назад мы рассказали на Хабре, как научили ABBYY FineReader PDF редактировать целые абзацы. Этот пост — о еще одном продвижении нашего продукта на пути к совершенству: программа теперь умеет создавать и редактировать интерактивные PDF-формы.

                      Раньше ABBYY FineReader PDF мог только заполнять такие формы – заявления на отпуск или визу, резюме, согласие на обработку персональных данных, исследования, опросы и т.д. Но что если компании нужно создать в формате PDF анкету, разработать шаблон документа или отредактировать в готовом бланке несколько полей, чтобы затем отправить его сотрудникам или клиентам? Теперь все это можно сделать в одной программе. О том, как это работает, для чего и кому может понадобиться такая функциональность, мы сегодня и расскажем. Поехали!
                      Читать дальше →
                    • ABBYY NeoML: как мы делали библиотеку машинного обучения и зачем она нужна


                        Привет, Хабр! Меня зовут Стас, и я отвечаю за направление Common Libraries в компании ABBYY. Недавно мы выложили на GitHub созданную нами библиотеку для машинного обучения NeoML.


                        NeoML — это кроссплатформенная C++ библиотека, позволяющая организовать полный цикл разработки ML-моделей. Основной фокус в ней сделан на простом и эффективном запуске готовых моделей на различных платформах. Даже если эти модели созданы другими фреймворками.


                        Вы спросите: зачем нужна еще одна библиотека машинного обучения?


                        Ниже я отвечу на этот вопрос, расскажу, как мы создавали нашу библиотеку, с какими сложностями столкнулись и что в итоге получилось. И в конце приведу результаты сравнительных замеров производительности.

                        Читать дальше →
                      • Открываем историю Большого. Часть вторая

                          image

                          Привет, Хабр. Хорошие новости: мы успешно завершили краудсорсинговый проект «Открой историю Большого» по оцифровке программ, афиш и фотографий, которые хранятся в музее Большого театра. Итогами делимся на сайте openbolshoi.ru, а в этом посте рассказываем, как технически был организован проект.

                          О том, почему мы начали заниматься этим проектом и что сделали на первом этапе, можно почитать здесь. А что же было дальше? После первой части проекта мы благодаря ABBYY FineReader PDF и с помощью волонтеров подготовили файлы программ и афиш в формате PDF с вычитанным текстовым слоем и передали их музею Большого театра. Теперь все данные хранятся в электронном виде, и сотрудники используют их, чтобы искать и копировать нужную информацию. Это быстрее и удобнее, чем перебирать документы в шкафах и перепечатывать текст из оригиналов.

                          Но как узнать больше о представлениях, а также о людях, чьи судьбы тесно связаны с историей театра? Как собрать статистику:


                          Помогли технологии Natural Language Processing (NLP), разработанные в ABBYY. Сегодня мы расскажем, как на втором этапе проекта алгоритмы извлекли из программ и афиш необходимые сведения, заполнили поля базы данных, а затем 7500 волонтеров проверили и дополнили информацию. А в конце поста читайте, как сейчас создается электронный архив музея с удобным поиском по всем представлениям и персонам.
                          Читать дальше →
                        • «Диалог» компьютерных лингвистов и специалистов по анализу данных впервые пройдет онлайн и бесплатно

                            Текущая ситуация в мире не повод останавливать диалог, особенно если его можно вести онлайн. С 17 по 20 июня состоится 26-ая Международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог». В этот раз она пройдет онлайн и будет бесплатной. Много лет основным организатором конференции выступает ABBYY: мы заинтересованы в развитии компьютерной лингвистики, обработки естественного языка (Natural Language Processing, NLP) и проведении исследований в этих областях. Подробнее о том, что такое «Диалог» и зачем он нужен, мы уже говорили на Хабре.

                            Сегодня расскажем об интересных событиях, которые запланированы на предстоящей конференции: докладах, темах дискуссий и трех технологических соревнованиях в рамках Dialogue Evaluation – по извлечению семантических отношений из деловых текстов, автоматическому поиску гиперонимов и морфосинтаксическому анализу текстов. Поехали!
                            Читать дальше →
                          • Как мы научили ABBYY FineReader PDF редактировать целые абзацы


                              Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.

                              Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.

                              Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.

                              В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!
                              Читать дальше →
                            • Давид Ян – о неинвазивности, кризисах и выжженной земле

                                Недавно я модерировал конференцию ABBYY «Месяц на удалёнке». На ней мы поговорили с Давидом Яном, серийным предпринимателем, основателем ABBYY и еще десятка компаний в области технологий и искусственного интеллекта.
                                Что происходит в мире? Как компании реагируют на текущую ситуацию? Какие шаги нужно предпринять, чтобы кризис не так жестко ударил по бизнесу, и чего нам всем ждать в будущем? Текстовую версию нашей беседы я публикую на Хабре, а аудио можно послушать в моём подкасте «Проветримся!»
                                Читать дальше →
                              • Про сильную матрицу и атмосферу в команде разработки

                                  Привет, Хабр. Сегодня хотим поделиться с вами интервью с руководителем команды разработки одного из новых продуктов ABBYY. Мы поговорили с ним про найм, принципы построения команды, развитие разработчиков, систему грейдов и другие околопроцессные вещи, которые так или иначе затрагивают всех разработчиков и тимлидов мира. Ну или почти всех.


                                  Читать дальше →
                                • Как мы технически обеспечиваем работу офисов ABBYY во время карантина

                                    Хабр, привет! Меня зовут Олег, и я отвечаю за IT-службу в группе компаний ABBYY. Больше месяца назад сотрудники ABBYY по всему миру начали работать и жить только дома. Больше никакого опенспейса и командировок. Поменялась ли моя работа? Нет. Хотя вообще-то да, но она изменилась еще 2-3 года назад. А сейчас мы технически обеспечиваем работу офисов в 13 странах так же, как и раньше. Просто теперь мы делаем это сидя дома – на кухне, на диване или на балконе, а в офисе только один дежурный. Кстати, вот и он:


                                    Сегодня я расскажу о том, какие задачи сейчас приходится решать IT-службе ABBYY, как нас спасают дежурные в офисах, почему MS Teams и Zoom теперь наше всё, и о многом другом. Добро пожаловать под кат.
                                    Читать дальше →
                                  • Как писать код, когда вокруг тебя бегают дети и спрашивают: «А во что ты будешь работать?»

                                      «Предвкушаю семейный дурдом», — ответила моя коллега за несколько дней до того, как начались трудовые будни на самоизоляции. До этого было легко спрятаться от семейства в офисе, где к тому же есть детская комната. Туда сотрудники приводили своих детей, и с ними занимался воспитатель. Но теперь все изменилось, и многим приходится выкручиваться самим, чтобы обрести, назовём это, work-children balance. А это вообще возможно? Мы попросили наших разработчиков и тимлидов поделиться опытом, как одновременно работать из дома, воспитывать маленьких детей и не сойти с ума выжить в этот месяц самоизоляции.
                                      Читать дальше →
                                    • Про кафедру ABBYY в МФТИ. Мой личный опыт

                                        Привет! Меня зовут Алексей, в этом году я заканчиваю учебу на бакалавриате ABBYY на Физтехе. А еще пишу диплом, работаю и все это делаю на удаленке. В этом посте я опишу свой опыт поступления на бакалавриат ABBYY: это было пару лет назад, в 2018 году, когда мир был более безопасным (на самом деле нет) и люди могли чаще трогать лицо руками.

                                        Я расскажу о том, как я выбирал базовую кафедру и не сошел с ума, легко ли мне было поступить, поделюсь с вами впечатлениями от процесса обучения и стажировки и признаюсь, каково совмещать учебу с работой. Надеюсь, мой пост пригодится студентам, которые размышляют, на какую базовую кафедру в МФТИ поступать и на что при этом обратить внимание. Ведь выбор кафедры очень важен, от него зависит сфера развития на ближайшие несколько лет.
                                        Читать дальше →
                                      • Игра в бога: искусственные организмы

                                          Что-то вроде тизера. Ксеноморфы существуют. Учёные создают ксеноморфов. Учёные создают ксеноморфов из соображений безопасности. Я сам в шоке. Под катом подробнее об этом (а это, кстати, совершенно официально называется ксенобиология) и о много другом, чем занимаются современные биологи. Не всё ж вам про COVID-19 читать!

                                          Это первая часть текста, написанного по мотивам эпизода подкаста про искусственные организмы.


                                          Читать дальше →
                                        • Почему мы выгораем?

                                            На дворе март, в теле авитаминоз, в мире эпидемия CoV19, а тут ещё и дедлайны. Дедлайнам про наши тяжёлые жизненные обстоятельства не сообщили. Самое время вспомнить о здоровье. В том числе и психическом. В конце концов, чем работаешь, то и ломается, а работаем мы головой.

                                            В октябре прошлого года я летал в Сибирь на TEDx Novosibirsk и в самолёте внезапно оказался рядом с другим спикером – Павлом Буковым. Он психотерапевт и собирался сделать доклад про профессиональное выгорание: как бы выгорать пореже и не дотла. Я, естественно, вспомнил, как год назад выгорел сам. Заодно вспомнил, сколько людей набивается в зал, когда на технологических конференция докладчик рассказывает про выгорание. В общем, пока мы летели в Сибирь, я записал с Павлом эпизод подкаста про стресс и выгорание и решил собрать из него статью.


                                            Читать дальше →

                                          Самое читаемое