Автоматическое распознавание деловых документов и форм

Smart Document Engine

— система автоматического анализа и распознавания документов для десктопных, серверных и мобильных платформ.

 

Smart Document Engine — высокопроизводительная система автоматизации обработки документов и форм. Система предназначена для автоматизации обработки и оцифровки бумажных документов, документооборота и оптимизации процессов массового ввода документов. Smart Document Engine позволяет быстро и надежно распознавать текстовые и иные реквизиты первичных, деловых, уставных, бухгалтерских, налоговых, нотариальных, юридических, страховых и банковских документов, а также типовых анкет и форм строгой отчетности.

 

Как и другие продукты Smart Engines, система распознавания документов Smart Document Engine работает полностью автономно — данные НЕ передаются ни на какие сервисы, НЕ сохраняются, и для работы системы НЕ требуется доступ в интернет. Вся обработка документов ведется локально на устройстве клиента.

Заказать продукт или консультацию

За счет использования state-of-the-art алгоритмов компьютерного зрения, компактных глубоких нейросетевых моделей с преобразованием Хафа (HoughNet и HoughEncoder) и энергоэффективной технологии распознавания текста GreenOCR®, разработанных нашими учеными и инженерами, Smart Document Engine позволяет решать даже на обычных мобильных телефонах задачи оптического распознавания деловых документов, которые раньше были доступны только высокопроизводительным серверам.

 

В результате современный мобильный телефон позволяет распознавать поток со специализированного документного сканера производительностью до 30 страниц в минуту, что ранее было доступно только высокопроизводительным рабочим станциям или серверам. При этом не принося в жертву качество распознавания, а обеспечивая высочайшую точность распознавания текстовых, цифровых и иных данных документа. Так, распознавание справки 2-НДФЛ на телефоне Galaxy S10 в среднем занимает меньше 3 секунд. При этом система одинаково хорошо и быстро обрабатывает как сканы анкет, так и фотографии, автоматически выполняя все действия, необходимые для классификации, извлечения из них данных и распознавания текста с учетом геометрических искажений, перепадов и неравномерностей освещения характерных для фотографий.

 

Важным аспектом Smart Document Engine является возможность создания специализированных решений для конкретных заказчиков, позволяющих производить автоматическую обработку, классификацию, распознавание и анализ бумажных и отсканированных pdf документов и форм любой сложности. Заказные решения позволят вашей организации снизить издержки и нагрузку на персонал, внедрив высокоэффективное и высокоточное поточное сканирование и распознавание документации, оптимизированное под конкретный поток данных и под существующие бизнес-процессы, при этом исключив передачу каких-либо данных сторонним сервисам или третьим лицам.

 

Технология GreenOCR®, входящая в систему Smart Document Engine, обеспечивает высокую точность распознавания печатного текста (OCR), рукопечатного и рукописного заполнения полей (ICR), а также распознавание меток и чекбоксов (OMR). Система построена на принципе — “что вижу, то распознаю”, и не использует лингвистических моделей, а высокое качество распознавания текста достигается предельно высокой точностью распознавания символов. Это позволяет достигать высокой точности оцифровки бумажных и сканированных документов, избегая ошибок когда система распознавания подменяет результат исходя из той или иной лингвистической или статистической модели языка.

 

Разработчикам при встраивании системы Smart Document Engine в десктопные, серверные и мобильные приложения доступен простой API (application programming interface), который позволяет реализовать систему распознавания документов документов в программах написанных на популярных языках программирования: C, C++, C#, Java, Python, PHP, Swift, Objective C для широкого круга операционных систем: iOS, Android, Sailfish Mobile, МОС «Аврора», Linux, Windows, macOS, ОС Эльбрус, РЕД ОС, Astra Linux, ОС Атликс, ОС Альт Линукс. и др. Имеется возможность подключения к популярным фреймворкам RPA и продуктам 1С.

 

Подробнее о распознавании платежек, счетов, KYC анкет, согласий и доверенностей

 

Подробнее о распознавании анкет, опросников и других форм

 

Подробнее о распознавании учредительных, бухгалтерских и учетных документов

 

Заказать продукт или консультацию

Наши клиенты

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 


Заказать продукт или консультацию

 

Возможности Smart Document Engine

Классификация и распознавание жестких форм

 

Жесткими формами называют документы, разные экземпляры которых совпадают “на просвет” при удалении реквизитов. Классическими примерами жестких форм являются больничный лист или бланк ЕГЭ. Система распознавания документов Smart Document Engine включает в себя state-of-the-art алгоритмы быстрой локализации и типизации жестких форм на сканах, фотографиях и в видеопотоке, что позволяет осуществлять мгновенное наведение и разбор таких документов, а также верификацию их типа.

Классификация и распознавание гибких форм

 

Гибкими формами называют документы, элементы и реквизиты которых могут менять взаимное расположение на бланке. Классическими примерами гибких форм являются широко распространенные налоговые и бухгалтерские документы, такие как справка 2-НДФЛ, бухгалтерский баланс предприятия, отчет о финансовых результатах, платежное поручение, и т.п. При помощи системы Smart Document Engine можно быстро идентифицировать документы подобного рода, локализовать значимые реквизиты, провести их распознавание и анализ.

Анализ документов произвольного вида

 

Система распознавания документов Smart Document Engine позволяет создавать решения для распознавания и анализа документов произвольного вида, такие как доверенности, согласия, договора. При помощи Smart Document Engine вы можете производить классификацию таких документов, извлекать текстовые или иные реквизиты, верифицировать наличие подписей и печатей, и др.

Поддержка сканов, фотографий и видео

 

Smart Document Engine может распознавать документы и формы как на изображениях, полученных с планшетных и протяжных сканеров, так и с фотографий и видео, полученных при помощи смартфонов, планшетов и других мобильных устройств.

Анализ многостраничных документов

 

Smart Document Engine позволяет классифицировать и распознавать как отдельные изображения документов, анкет и форм, так и многостраничные документы, либо последовательности страниц содержащих несколько документов. Обработка последовательности страниц позволяет упростить процесс потокового сканирования, производить сортировку потока и проверять наличие необходимых документов (проверка комплектности).

Распознавание текстовых реквизитов

 

Стек технологий, реализованный в платформе Smart Document Engine, позволяет быстро и точно распознавать однострочные и многострочные текстовые поля на более чем 100 языках мира, извлекать реквизиты из сплошного текста, машинописные и рукопечатные поля в разграфке, и многое другое.

Распознавание меток и чекбоксов

 

Система Smart Document Engine позволяет точно и надежно распознавать метки и чекбоксы, выполненные как в печатном варианте, так и ручкой.

Проверка наличия и распознавание рукописных пометок и подписей

 

Smart Document Engine позволяет извлекать рукописные поля и подписи, распознавать цифровые поля, выполненные от руки в свободной форме, а также верифицировать наличие рукописных отметок и подписей.

Распознавание таблиц

 

Для полноценной обработки бухгалтерских, налоговых, банковских и других документов в системе Smart Document Engine реализован поиск и распознавание табличных данных. Поддерживаются как таблицы с жесткой структурой, реляционные и нереляционные, таблицы с переменным количеством столбцов, и структурированные наборы реквизитов с разграфкой.

Поиск и распознавание печатей

 

Система Smart Document Engine оснащена модулями быстрого детектирования, локализации и классификации печатей. Помимо поиска и верификации наличия печати, платформа позволяет реализовать распознавание отдельных текстовых компонентов печатей.

Проверка наличия ключевых слов и словосочетаний

 

В процессах анализа сложноструктурированных документов для идентификации значимых фраз и параграфов, а также для обнаружения некорректных изменений в тексте печатных документов система Smart Document Engine позволяет проверять наличие ключевых слов, словосочетаний, фраз, и контролировать целостность контрольных параграфов.

Контроль заполнения документа

 

С помощью Smart Document Engine можно произвести контроль заполнения документа, включая проверку наличия обязательных текстовых или графических полей, анализ зон документа, предназначенных для рукописного или рукопечатного заполнения.

Контроль отсутствия помарок, исправлений, и прочих пометок

 

Система Smart Document Engine позволяет детектировать, локализовать, и распознавать помарки, зачеркивания, исправления и прочие пометки на документе с целью контроля его достоверности и извлечения дополнительной информации.

Контроль логотипов и прочих графических элементов

 

Smart Document Engine позволяет детектировать, локализовать и контролировать наличие графических элементов, таких как логотипы компаний, а также важных графических полей документов, таких как фотография, вклеенная в анкету.

Контроль цветности документа

 

Система Smart Document Engine позволяет определять как цветность документа в целом, так и его отдельных элементов (печатей и подписи), что позволяет распознать черно-белую копию документа даже при повторном сканировании или фотографировании.

Анализ атрибутов текстовых полей

 

Помимо распознавания текстовых полей Smart Document Engine позволяет анализировать атрибуты полей и отдельных текстовых символов, такие как характеристики шрифта (наличие засечек, курсив, жирность), оценки однородности и монотонности и др.

Заказать продукт или консультацию

Проверьте качество нашей технологии

Извлекайте данные типовых документов и форм на скан-копиях или фотографиях.

Поставка

С помощью Smart Document Engine SDK вы сможете добавить функциональность глубокого анализа и распознавания документов как в ваши инфраструктурные решения для автоматизации back office, так и в мобильные приложения, для максимального упрощения удаленного автоматического ввода документов.

 

Smart Document Engine поставляется в виде автономного SDK (software development kit), содержащего все необходимые прекомпилированные библиотеки, документацию программного интерфейса и примеры интеграции для различных языков программирования. Для разработчиков подготовлен простой, но многофункциональный API (application programming interface), который позволяет внедрить распознавание документов в решения с использованием языков C++, C#, Java, Python и Objective-C для широкого круга операционных систем: iOS, Android, Linux, Windows, MacOS, в том числе Sailfish Mobile, МОС “Аврора”, ОС Эльбрус, РЕД ОС, Astra Linux, и другие. Обеспечивается поддержка следующих аппаратных платформ: x86_64, ARM v7, v8 (Aarch32, Aarch64), MIPS, Эльбрус. Имеется возможность подключения к популярным фреймворкам RPA и продуктам 1С.

 

Документы, распознаваемые “из коробки” включают в себя свидетельство о постановке на налоговый учет гражданина РФ (ИНН), справка 2-НДФЛ, платежное поручение (форма 0401060), бухгалтерский баланс (форма 0710001), отчет о финансовых результатах (форма 0710002), заявления на выдачу загранпаспорта, форма АДИ-РЕГ, титульный лист устава, сертификат самозанятого, выписка ЕГРЮЛ, форма УПД, счет-фактура, а также справки о результатах анализов ПЦР нескольких популярных лабораторий России.

 

При необходимости ввода документов, удостоверяющих личность, технология органично дополняется нашим продуктом Smart ID Engine, который с высочайшим качеством и скоростью распознает более 1600 различных типов документов. Распознавание кодифицированных объектов, таких как машиночитаемые зоны (MRZ) и баркоды, доступно за счет использования Smart Code Engine.

 

 

Заказать продукт или консультацию

Особенности продукта

GreenOCR®
Разработанная учеными и инженерами нашей компании в рамках инициативы Green AI технология GreenOCR® обеспечивает непревзойденные качество и скорость распознавания при минимальном потреблении энергии и воздействии на окружающую среду. Все вычисления выполняются на CPU, не требуя использования дополнительных акселераторов вычислений типа GPU. Технология позволяет распознавать машинописные тексты (OCR), тексты написанные “от руки” (ICR) и метки (OMR).

 

Точность
Мы создали новое поколение технологий OCR, преодолевшее рубеж качества традиционных подходов за счет использования наших последних достижений в вычислительном интеллекте и глубоком обучении. Точность распознавания реквизитов документов доходит до 99.5% без участия человека.

 

Удобство
Наши передовые алгоритмы сами обнаруживают документ на кадре, автоматически определяют тип документа, находят реквизиты и распознают их. Система устойчива к различным геометрическим искажениям, шумам, перепадам освещения, дефектам печати и низкому разрешению.

 

Продуктовая линейка
В рамках Smart Document Engine возможно использовать все возможности по распознаванию кодифицированных объектов Smart Code Engine, распознаванию и проверки подлинности и живости ДУЛ Smart ID Engine. Клиентам предоставляется возможность использовать преимущества всех продуктов Smart Engines, пользуясь одним интерфейсом SDK, снижая затраты на интеграцию.

Скорость
Оригинальный целочисленный конвейер обработки изображений, включающий 8- и 4-битные глубокие нейросетевые архитектуры, позволяет использовать интеллектуальное распознавание документов даже на бюджетных телефонах за счет максимального использования имеющихся аппаратных ресурсов.

 

Надежность
Для повышения надежности результата мы используем подход «Что вижу, то и распознаю», в котором мы реализовали наши передовые достижения в AI: точное распознавание без словарей и грамматик, ответственные и компактные сети. Помимо результатов распознавания пользователю доступны оценки уверенности и другая информация о процессе распознавания.

 

Охват
Система позволяет распознавать документы на 100 языках: как использующих буквенные кириллические и латинские алфавиты, так и составленные на языках, где используются иероглифы: Корейский, Японский, традиционный и упрощенный Китайский. Кроме того, система ищет таблицы, печати, подписи, рукописные пометки, распознает чекбоксы и баркоды.

 

Поддержка Российских аппаратных платформ
Smart Document Engine — первая система распознавания документов которая нативно (без эмуляции) поддерживает Российские аппаратные платформы “Эльбрус”, “КОМДИВ” и “Байкал”, что позволяет использовать продукт в зонах максимальной ответственности и защищенности. Система Smart Document Engine обеспечивает беспрецедентный уровень безопасности обработки данных и защиту от санкционных рисков.

Безопасность
Благодаря достижениям наших ученых, все вычисления выполняются на конечных устройствах без передачи данных вовне, что подтверждено независимым международным аудитом. Данные НЕ передаются, НЕ сохраняются, НЕ требуется доступ в интернет, вся обработка ведется в оперативной памяти. Это правило «трех НЕ» обеспечивает высочайший уровень безопасности нашим клиентам.

 

Производительность
Высочайшая производительность достигается за счет комбинирования алгоритмов компьютерного зрения и глубокого обучения компактных нейронных сетей. Полный цикл от определения типа до распознавания всех реквизитов занимает от 2 секунд для страницы документа формата А4.

 

Многоплатформеность
Smart Document Engine поддерживает широкий класс операционных систем, включая специализированные операционные системы, предназначенные для работы с персональными данными: ОС Эльбрус, РЕД ОС, ОС Атликс, Astra Linux, Cent OS, Ubuntu, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Arch Linux и другие дистрибутивы Linux, MS Windows, macOS, ОС Аврора, iOS, Android, Sailfish Mobile OS.

 

Роботизация процессов (RPA)
Поддержка практически всех операционных систем и аппаратных платформ, скорость, качество и широкий круг устройств получения изображений (смартфон, планшет, умная камера, веб-камера, документ-камера, сканер), а также гибкие возможности интеграции оптимально подходят для роботизации бизнес-процессов ввода данных.

Заказать продукт или консультацию

Спецификация

Список поддерживаемых архитектур CPU:

 

– x8,
– x86_64
– ARMv7-v8 (AArch32 и AArch64)
– MIPS (MIPS32 и MIPS64)
– Elbrus

 

Список поддерживаемых Российских процессоров:

 

– Эльбрус-4С
– Эльбрус-8С
– Эльбрус-8СВ
– Эльбрус-1C+
– Эльбрус-2С+
– Эльбрус-16C
– КОМДИВ-32 (1890ВМ2Т, 5890ВЕ1Т, 1900ВМ2Т)
– КОМДИВ-64 (1890ВМ5Ф, 1890ВМ6Я, 1890ВМ8Я)
– КОМДИВ-128 (1890ВМ7Я, 1890ВМ9Я)
– Baikal-T1
– Baikal-M

 

Список поддерживаемых мобильных операционных систем:

 

– Android (версии 5.1 и выше)
– iOS (версии 9 и выше)
– Sailfish Mobile OS (версии 2.2 и выше)
– OC Аврора (версия 3.1.0 и выше)

 

Список поддерживаемых операционных систем для PC:

 

– MS Windows (все официально поддерживаемые правообладателем версии)
– Семейство ОС, основанных на ядре Linux (включая Ubuntu 14.04 и выше, CentOS 6 и выше, SUSE Linux Enterprise Server 12 и выше, Astra Linux 1.6 и выше, РЕД ОС 7 и выше)
– macOS (версии 10.13 High Sierra и выше)
– ОС Эльбрус (версии 8.11 и выше)

 

Список распознаваемых документов:

 

– Свидетельство о постановке на учёт гражданина РФ (ИНН)
– Справка 2-НДФЛ
– Платежное поручение (форма 0401060)
– Бухгалтерский баланс (форма 0710001)
– Отчет о финансовых результатах (ОКУД 0710002)
– Справка о результатах анализа ПЦР
– Справка о результатах анализа ПЦР на английском
– Заявления на выдачу загранпаспорта
– Форма АДИ-РЕГ
– Титульный лист устава
– Сертификат самозанятого
– Выписка ЕГРЮЛ
– Форма УПД
– Счет-фактура

 

Добавление других типов документов может быть выполнена под заказ.

 

Список поддерживаемых языков распознавания текста (OCR):

 

  • Кириллица (Русский, Абхазский, Белорусский, Болгарский, Казахский, Киргизский, Монгольский, Осетинский, Сербский, Таджикский, Узбекский, Украинский)
  • Латиница (Английский, Азейбаржанский, Аймара, Албанский, Африкаанс, Берберский, Боснийский, Венгерский, Волеаи, Гаитянский креольский, Датский, Зулу, Индонезийский, Ирландский, Исландский, Испанский, Итальянский, Кантонский, Кастильский, Каталонский, Кечуа, Коморский, Коса, Латышский, Литовский, Люксембургский, Македонский, Малайский, Мальтийский, Мандарин, Маори, Молдавский, Науруанский, Ндау, Ндебеле, Немецкий, Нидерландский, Норвежский, Палауский, Польский, Португальский, Руанда, Румынский, Рунди, Свази, Северный сото, Сейшельский креольский, Сесото, Словацкий, Словенский, Сомалийский, Суахили, Тамазайт, Тетум, Ток-писин, Тонга, Тсвана, Тсонга, Турецкий, Туркменский, Фиджи хинди, Фиджийский, Филиппинский, Финский, Французский, Хорватский, Чева, Чешский, Чибарве, Чичева, Шангани, Шведский, Шона, Эстонский, Южный ндебеле)
  • Китайский (классический, 20 000 иероглифов)
  • Японский (Хирагана, Катакана и Кандзи)
  • Корейский (Хангыль)
  • Сингальский
  • Греческий
  • Грузинский
  • Армянский
  • Иврит
  • Арабский
  • Фарси
  • Урду
  • Тамильский
  • Тайский

Список совместимых языков программирования

 

Smart Document Engine содержит API для следующих языков программирования:

  • C (стандарт С11 и выше)
  • С++ (стандарт С++11 и выше)
  • C# (версия 6.0 и выше)
  • Java (версия 1.7 и выше)
  • Python (версия 3.7.2 и выше)

Интеграция с использованием других языков программирование обсуждается отдельно.

 

Заказать продукт или консультацию

Заказать продукт

Для заказа решений, получения подробной информации или триал версий заполните приведенную ниже форму, и мы обязательно с Вами свяжемся.

    Наши клиенты

    Райффайзенбанк

    Райффайзенбанк распознает данные паспортов РФ с помощью технологий Smart Engines

    Ренессанс Страхование

    Smart Engines является поставщиком решений по сканированию и распознаванию документов для Группы Ренессанс Страхование

    Emirates NBD

    Emirates NBD использует технологии распознавания Smart Engines при открытии банковского счета через мобильное приложение

    АО «Медицина»

    Клиника академика Ройтберга использует Smart ID Engine для ускорения приема пациентов

    Заказать продукт

    Для заказа решений, получения подробной информации или триал версий заполните приведенную ниже форму, и мы обязательно с Вами свяжемся.