Как стать автором
Обновить
7

PDF

Межплатформенный формат электронных документов

Сначала показывать
Порог рейтинга
Уровень сложности

Как сканировать многостраничные двухсторонние документы, если под рукой только обычный сканер с автоподачей

Время на прочтение 3 мин
Количество просмотров 168
Настройка Linux *Open source *PDF Лайфхаки для гиков

Нет проблемы быстро сканировать документы с любым количеством страниц, если под рукой есть сканер с устройством автоматической подачи. Однако часто МФУ имеют дуплексную двустороннюю печать и сканер, который умеет сканировать только с одной стороны, но имеет устройство автоматической подачи документов.

При этом сканирование больших двухсторонних документов выглядит проблемой, которая поедает большое количество времени.

Ведь если документ состоит всего из нескольких страниц, то нет необходимости связываться с командной строкой, потому что можно вручную склеить сканы в любой программе, которая работает с PDF, просто переставив местами страницы или даже вручную перевернув их на сканере.

Но что если документ А4 формата имеет несколько десятков или даже сотен страниц как на фотографии?

Используем консольную программу pdftk
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 0

Новости

Самый простой способ редактировать PDF

Время на прочтение 3 мин
Количество просмотров 27K
Блог компании GlobalSign Информационная безопасность *PDF Браузеры Софт


История сложилась так, что в 80-е годы именно PostScript стал стандартом для цифровых документов, а из него появился «портативный» PDF. Вероятно, нам ещё долго придётся жить с этим наследием типографской индустрии 20 века.

Быстро поставить подпись/печать на полученный PDF и отправить его адресату — самый типичный сценарий в современном документообороте. Практика показывает, что некоторые офисные сотрудники предпочитают распечатать PDF, расписаться от руки — и отсканировать распечатку с подписью, сводя к нулю логику электронного документооборота. Если бумажная копия нужно только для сканирования, то это совершенно бесполезная трата бумаги и времени.

Посмотрим, какие есть варианты для быстрого редактирования PDF с сохранением правок в цифровом виде.
Читать дальше →
Всего голосов 41: ↑38 и ↓3 +35
Комментарии 152

Открытый проект Электронного подписания внутренних документов компании на примере кадровых

Время на прочтение 15 мин
Количество просмотров 2.5K
Анализ и проектирование систем *PDF ECM/СЭД *Бизнес-модели *

По мотивам Социальный труд и открытое проектирование. Введение

предлагается организовать открытый проект «Электронное подписание внутренних документов компании». Интерес к электронной подписи большой (МЧД и т.п.), но простых решений нет.

В целом подписание внутренних документов компании несложно расширить на «внешнее»: для этого достаточно с контрагентами заключить регламент, который «узаконит» применение подписи. Внутренние документы компании – разнообразны, распорядительные (приказы, распоряжения, служебные записки), бухгалтерские и управленческие отчеты и другие документы.

В целом «Электронное подписание внутренних документов компании» можно распространить на очень широкую отраслевую специфику, например, банковскую – подписание первичных документов и бухгалтерских отчетов (балансы, книга открытых \ закрытых счетов и т.п.) по 2346-У. 

Недавно обновился Трудовой кодекс (Статьи 21.1 – 22.3 введенные ФЗ от 22.11.2021 N 377) в части электронной подписи, что резко повысило интерес к подписанию кадровых документов. Предлагается в рамках проекта научиться подписывать кадровые документы, т.к. если это получится, то остальное будет реализовать еще проще. Важно не столько услужение задачи – сколько то, что электронный документооборот хоть как-то начали регламентировать законодательно (криво, но хоть как-то).

Как вариант: у компании уже есть HR-система, но без кнопки «подписать». Проект КЭДО позволит добавить эту кнопку (включая маршруты согласования и подписания) и организовать долговременный архив с электронной подписью документов в рамках юридически значимого документооборота.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 21

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт

Время на прочтение 8 мин
Количество просмотров 2.5K
PDF R *

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт.

Сегодня я хочу рассказать о том, как я писал отчеты на R, с чем сталкивался и как решал проблемы, которые возникали по ходу разработки. Отчеты были в формате PDF и запускались из Python в Camunda.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 4

Истории

Работаем с pdf из контекстного меню файлового менеджера

Время на прочтение 4 мин
Количество просмотров 4.1K
Программирование *PDF Разработка под Linux *
Туториал

Замечательный файловый менеджер Dolphin всем хорош. И две панели, и разнообразные контекстные меню ускоряющие обработку всевозможных команд и заданий. Но что делать если нужно простенько и быстро собрать несколько одностраничных pdf-файлов?

Узнать больше
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 5

Мечтают ли алгоритмы о финансовой отчётности: новый способ работы с ФО в ВТБ

Время на прочтение 13 мин
Количество просмотров 1.4K
Блог компании ВТБ Python *PDF

Финансовая отчетность (ФО) — штука предельно ответственная. Получаемая от бизнеса ФО постоянно нужна банку для организации повседневной деятельности. Но процесс получения важной для нас отчётности омрачается тем, что работа с ФО — это монотонный неэффективный конвейер, на поддержание которого банковские служащие тратят тысячи человекочасов. ВТБ использует электронные инструменты получения ФО, такие как: ФНС, 1С, Коробочное решение распознавания. Это основные направления развития, но сегодня они не покрывают всю потребность в клиентской ФО. 

Меня зовут Андрей Ходяков, я работаю с неструктурированными данными в управлении моделирования КИБ СМБ в банке ВТБ. И в этом материале я расскажу, как мы искали и нашли собственное решение для борьбы с рутиной ФО.

Взглянуть на ФО под новым углом
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 4

Разделение, объединение и поворот PDF-документов на Python с помощью borb

Время на прочтение 5 мин
Количество просмотров 6.4K
Python *PDF

Формат переносимых документов (PDF) не является форматом WYSIWYG (What You See is What You Get (То, Что Вы Видите, это То, Что Вы Получаете)). Он был разработан, чтобы быть независимым от платформы, независимым от базовой операционной системы и механизмов рендеринга.

Для достижения этой цели PDF был создан для взаимодействия с помощью чего-то более похожего на язык программирования, и для достижения результата полагается ряд инструкций и операций. Фактически, PDF основан на языке сценариев - PostScript, который был первым независимым от устройства языком описания страниц.

В этом руководстве мы будем использовать borb - библиотеку Python, предназначенную для чтения, манипулирования и генерации PDF-документов. Он предлагает как низкоуровневую модель (что позволяет получить доступ к точным координатам и макету), так и высокоуровневую модель (где вы можете делегировать точные расчеты полей, позиций и т. д.).

Читать далее
Всего голосов 8: ↑5 и ↓3 +2
Комментарии 2

Работа с pdf-файлами с помощью библиотеки fitz

Время на прочтение 4 мин
Количество просмотров 11K
Python *PDF

Возникла идея создать небольшую утилиту на Python, которая будет парсить PDF и сверять со списком швов, взятых из BIM модели. Изначально я обратился к библиотеке pdfminer, вернее к ее форку pdfminer.six. Но скорость работы меня совершенно не устраивала. Вот, например, загрузка файла в 10 страниц и парой картинок.

Читать далее
Всего голосов 18: ↑17 и ↓1 +16
Комментарии 4

Как сравнить два PDF-документа

Время на прочтение 4 мин
Количество просмотров 16K
Блог компании RUVDS.com PDF Читальный зал
Перевод

Существует несколько фундаментальных задач, которые встречаются при работе с большинством, а то и со всеми документами. Одна из них — сравнить две версии одного и того же документа. Это могут быть юридические соглашения или исправления в отчёте, которые, скорее всего, в наши дни будут представлены в формате PDF. В этой статье рассказывается, как можно сравнить содержимое двух файлов PDF или почему у вас не получится этого сделать.
Читать дальше →
Всего голосов 36: ↑34 и ↓2 +32
Комментарии 28

Кунг-фу стиля Linux: PDF для пингвинов

Время на прочтение 7 мин
Количество просмотров 14K
Блог компании RUVDS.com Настройка Linux **nix *PDF
Перевод
Вначале PostScript представлял собой язык программирования для принтеров. И хотя PostScript-принтеры всё ещё не потеряли актуальности, существует и множество других форматов, в которых можно отправлять данные на печать. Но благодаря PostScript появился Portable Document Format — PDF, который стал невообразимо популярным. Пожалуй, не проходит и дня, чтобы каждый из нас не просмотрел бы какой-нибудь PDF-документ на своём компьютере. Конечно, есть и форматы, конкурирующие с PDF, но им, в сравнении с PDF, принадлежит лишь небольшая доля рынка. Просмотр PDF-файлов в Linux — это не проблема. А как насчёт их редактирования? Как оказалось, это тоже несложно, правда, только если знать о том, как именно это делается.


Читать дальше →
Всего голосов 31: ↑31 и ↓0 +31
Комментарии 26

Linux на мобилках, PDFium и как рендерить PDF в 2 раза быстрее

Время на прочтение 5 мин
Количество просмотров 4.7K
Блог компании Открытая мобильная платформа C++ *Qt *PDF Разработка под Linux *

Привет, Хабр! В этой статье хотим рассказать о том, как мы протестировали три основные открытые библиотеки для работы с PDF-документами: Poppler, PDFium и MuPDF. Сравнили скорость рендера документов разного объёма, качество рендера, требования к технологиям разработки и условия лицензий для коммерческих продуктов на базе этих библиотек. Спойлер: победителем стала библиотека PDFium, но, как всегда, есть нюансы. Под катом обо всём по порядку.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 5

Счёт может быть красивым и в HTML, а не в PDF

Время на прочтение 3 мин
Количество просмотров 8.6K
Блог компании ITSOFT Веб-дизайн *HTML *PDF Финансы в IT

В статье “Что должно быть в счёте на оплату, чего быть не должно и что дико бесит” мы разбирали содержимое счёта. По результатам той работы возникло желание оформить счёт стильно ибо стандартный вариант бухгалтерских программ вроде 1С какой-то страшный.

В статье разберём плюсы генерации счетов в HTML-формате по сравнению с генерацией PDF и тюнинг версии для печати, добавим 5 копеек про ЭЦП (УКЭП).

Итак, погнали...
Всего голосов 12: ↑9 и ↓3 +6
Комментарии 57

Tesseract OCR, выделение распознанного текста на изображении

Время на прочтение 2 мин
Количество просмотров 10K
Python *PDF
Из песочницы

Прочитать картинку, сохранить текст, обработать текст, получить результат довольно просто. Хочу рассказать как этот результат отобразить для пользователя на ранее прочитанной картинке, например выделить кусочек текста содержащий целевое предложение. Такая задача будет полезна при выделении важной части текста и демонстрации её руководству в виде картинки.

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 3

Создание PDF-документа на Python с помощью pText

Время на прочтение 9 мин
Количество просмотров 19K
Блог компании SkillFactory Open source *Python *Программирование *PDF
Туториал
Перевод

Один из самых гибких и привычных способов сгенерировать pdf — написать код на LaTeX и воспользоваться соответствующей программой. Но есть и другие способы, которые могут оказаться проще и понятнее, чем LaTeX. Специально к старту курса Fullstack-разработчик на Python представляем перевод статьи о том, как для генерации PDF можно воспользоваться библиотекой pText; эта статья написана Йорисом Схеллекенсом — разработчиком pText.

Читать далее
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 5

Даешь свободную литературу! Или как я с политикой вуза боролся

Время на прочтение 5 мин
Количество просмотров 8.7K
Программирование *Delphi *Алгоритмы *HTML *PDF
Из песочницы
✏️ Технотекст 2021

Доброго времени суток, хабровчане!  Это мой первый пост на форуме, так что прошу строго не судить.

 Как и полагается любому техническому вузу – в нашем есть куча интернет ресурсов, которыми вуз чрезмерно гордится. Однако есть оборотная сторона медали – качество этих сервисов. А именно, если говорить про электронную библиотеку, о коей и пойдет речь в данной статье, то в ней напрочь отсутствует возможность скачивания pdf-версии нужной тебе методички, точнее она есть, но за это придется заплатить немало денЯк. Деньги далеко не маленькие (если говорить именно про цену за вузовские методички). Если же такой формат не устраивает, то можешь пользоваться онлайн библиотекой.

 В онлайн библиотеке есть просмотрщик книг, через который можно читать литературу. Просмотрщик оформлен максимально неудобно: долгое время не работал переход на определенную страницу книги, и книгу в 700 страниц приходилось перелистывать по страничке, что превращалось в адскую муку. Но самое ужасное в этом сайте то, что каждые 20 минут он просит авторизоваться по новой…

И теперь представьте картину: человек пытается подготовиться к контрольной по квантовой механике по методичкам преподавателя, объемом 700 страниц, где необходимый материал находится на 500, и может перелистывать по 5 страничек в минуту, и каждые 20 минут, его попытки приходится возобновлять.… В общем, жесть…. И вот после очередной неудачной попытки прочитать нужную главу,  я решил, что пришло время положить конец данному произволу.

Читать далее
Всего голосов 29: ↑23 и ↓6 +17
Комментарии 32

Шаблонизация PDF

Время на прочтение 6 мин
Количество просмотров 16K
Разработка веб-сайтов *Python *PDF GitHub *
imageХабрахабр, уважаемые коллеги!

Проблема впечатывания данных в PDF документ не нова, не я первый и не я последний кто с ней сталкивается, поэтому решил поделиться опытом решения и заодно представить вашему вниманию небольшое веб приложение по этой теме.

1. PDF формат хорош тем, что он не редактируемый. Во всяком случае рядовой пользователь вряд-ли будет заниматься внесением правок в документ PDF. И значит формат PDF хорошо подходит для обмена важными документами.

2. PDF формат плох тем, что он нередактируемый ) Т.к. шаблонизация, заполнение набором данных бланка документа PDF в автоматическом режиме затруднена, а в ручном режиме требуется установка платных, тяжеловесных приложений.

Меня, как программиста, беспокоит прежде всего 2-й пункт. Как в программном приложении впечатать необходимый набор данных в документ PDF?
Всего голосов 11: ↑6 и ↓5 +1
Комментарии 36

Пугающие эксперименты с PDF: запускаем «Арканоид» в документе

Время на прочтение 5 мин
Количество просмотров 12K
Блог компании VDSina.ru Ненормальное программирование *JavaScript *Google Chrome PDF
Перевод

Подробнее об этом хаке и особенностях его работы можно узнать из доклада на !!con 2020 «Playing Breakout… inside a PDF!!»

Если вы его не смотрели, то попробуйте открыть файл breakout.pdf в Chrome.

Как и многие из вас, я всегда считал PDF довольно безопасным форматом: автор создаёт текст и графику, после чего он открывается в программе просмотра PDF, больше ничего не делая. Несколько лет назад я мимоходом слышал об уязвимостях Adobe Reader, но особо не задумывался о том, как они могут возникать.

Изначально Adobe сделала PDF именно для этого, но мы уже выяснили, что сегодня это совсем не так. В 1310-страничной спецификации PDF (на самом деле довольно понятном и интересном чтиве) описывается безумное количество возможностей, в том числе:


но самое интересное для нас…

Читать дальше →
Всего голосов 56: ↑55 и ↓1 +54
Комментарии 8

Почему так сложно извлекать текст из PDF?

Время на прочтение 7 мин
Количество просмотров 27K
Программирование *PDF
Перевод
Перевод статьи с сайта компании FilingDB, составляющей базу данных из документации европейских компаний

Согласно распространённым представлениям, извлечение текста из PDF не должно быть такой уж сложной задачей. Ведь вот он, текст, прямо у нас перед глазами, и люди постоянно и с большим успехом воспринимают содержимое PDF. Откуда взяться трудностям в автоматическом извлечении текста?

Оказывается, точно так же, как работа с именами людей сложна для алгоритмов из-за множества пограничных случаев и неправильных предположений, так и работа с PDF сложна из-за чрезвычайной гибкости PDF-формата.

Основная проблема в том, что PDF не предполагался как формат для ввода данных – его разрабатывали, как канал вывода, дающий возможность тонкой подстройки вида итогового документа.
Читать дальше →
Всего голосов 52: ↑50 и ↓2 +48
Комментарии 25

Lorem Ipsum: пишем от руки

Время на прочтение 6 мин
Количество просмотров 6K
PHP *PDF
Из песочницы

Предисловие



Занимаюсь развитием образовательного проекта. И в этом году для ребят потребовались прописи на английском языке.

Несмотря на то, что мы все чаще печатаем тексты в электронном формате, написание их от руки остаётся ещё популярным в повседневной и профессиональной жизни.

Прописи — вещь полезная как и для детей, так и для взрослых. Одни еще учатся писать, другие — тренируются.

Нам было важно создать систему быстрого и удобного подбора прописей. Поэтому решили сделать свой генератор.

Тема интересная, но информации в интернете оказалось очень мало. Так возникла идея написать инструкцию создания своих прописей.
Читать дальше →
Всего голосов 19: ↑19 и ↓0 +19
Комментарии 18

Как создавать и изменять интерактивные PDF-формы, или новый скилл ABBYY FineReader PDF

Время на прочтение 7 мин
Количество просмотров 32K
Блог компании Content AI Обработка изображений *PDF Управление продуктом *Софт
Мы регулярно обучаем ABBYY FineReader PDF новым навыкам. Две недели назад мы рассказали на Хабре, как научили ABBYY FineReader PDF редактировать целые абзацы. Этот пост — о еще одном продвижении нашего продукта на пути к совершенству: программа теперь умеет создавать и редактировать интерактивные PDF-формы.

Раньше ABBYY FineReader PDF мог только заполнять такие формы – заявления на отпуск или визу, резюме, согласие на обработку персональных данных, исследования, опросы и т.д. Но что если компании нужно создать в формате PDF анкету, разработать шаблон документа или отредактировать в готовом бланке несколько полей, чтобы затем отправить его сотрудникам или клиентам? Теперь все это можно сделать в одной программе. О том, как это работает, для чего и кому может понадобиться такая функциональность, мы сегодня и расскажем. Поехали!
Читать дальше →
Всего голосов 19: ↑19 и ↓0 +19
Комментарии 14

Вклад авторов