Как стать автором
Обновить
11.2

PDF

Межплатформенный формат электронных документов

Сначала показывать
Порог рейтинга
Уровень сложности

Создание PDF размером с Германию

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 11K

Сегодня утром, пролистывая ленты социальных сетей, я уже в который раз встретил утверждение, что у PDF-документа есть максимально допустимый размер.

Подобное утверждение появилось на просторах интернета ещё в 2007 году. Этот твит является характерным примером постов с аналогичным заявлением, в которых оно преподносится как твёрдый факт без каких-либо подтверждающих свидетельств или объяснений. То есть мы должны просто принять, что один PDF может покрыть лишь около половины площади Германии, и нам никак не объясняют, почему его магический предел составляет 381 километр.

Тут мне стало интересно – а создавал ли кто-нибудь такой большой PDF? Насколько это сложно? А можно ли сделать документ ещё больше?

Несколько лет назад я из праздного любопытства немного поигрался с PostScript, предшественником PDF, и это оказалось очень увлекательным! Ранее мне не доводилось изучать внутреннее устройство PDF, так что здесь у меня возник для этого хороший повод.

Приступим!
Читать дальше →
Всего голосов 95: ↑92 и ↓3 +89
Комментарии 25

Новости

Dedoc: как автоматически извлечь из текстового документа всё и даже немного больше

Уровень сложности Средний
Время на прочтение 11 мин
Количество просмотров 3.5K

Привет, Хабр! 

Мы команда разработчиков Института Системного Программирования РАН, занимаемся Computer Vision в обработке электронных документов. Мы разработали open-source библиотеку dedoc, которая помогает разработчикам и дата-сайентистам в пару строк кода читать различные форматы текстовых документов и изображений с текстом, и далее приводить информацию к единой аккуратной структуре.

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 6

Акробата нет, но вы держитесь. Чем редактировать PDF?

Время на прочтение 7 мин
Количество просмотров 48K

Компания Adobe покинула российский рынок в марте 2022 года, лишив пользователей привычных инструментов для графического дизайна, редактирования фото и видео, веб-разработки. Одной из крупных потерь стал пакет программ для работы с документами формата PDF — Adobe Acrobat, поскольку, в отличие от программ для дизайна, они затрагивают максимально широкий круг пользователей. Это студенты и преподаватели, использующие учебные материалы, офисные работники из разных направлений бизнеса, сотрудники государственных организаций, работающие с документами, и обычные люди, которые оцифровывают личные бумаги для домашнего архива. Одним словом, трудно найти человека, который бы никогда не работал с файлами PDF.

C 2022 года все они оказались в ситуации, когда установить дистрибутив с официального сайта Adobe было невозможно, оплатить лицензию —  нельзя, продлить ее — тоже. Выход оставался один — искать альтернативы на российском рынке. Хорошая новость — такие варианты есть. И они ничуть не уступают международным продуктам — ни по качеству, ни по функциональности.

Читать далее
Всего голосов 51: ↑21 и ↓30 -9
Комментарии 55

Как добавить фон в PDF-документ на языке C#

Уровень сложности Простой
Время на прочтение 2 мин
Количество просмотров 2.7K

Фон отображается под текстом или изображениями на странице. Фон может быть как сплошным цветом, так и изображением. Фон можно выборочно применять к определенным страницам, диапазонам страниц или ко всем страницам документа. В этой статье я расскажу о том, как программно добавить цвет фона или изображение в PDF-документ на языке C# с помощью Free Spire.PDF for .NET.

Читать далее
Всего голосов 6: ↑2 и ↓4 -2
Комментарии 0

Истории

Извлечение текста из файлов PDF при помощи Python

Уровень сложности Средний
Время на прочтение 15 мин
Количество просмотров 22K

▍ Введение


В эпоху больших языковых моделей (Large Language Model, LLM) и постоянно расширяющейся сферы их применений непрерывно растёт и важность текстовых данных.

Существует множество типов документов, содержащих подобные виды неструктурированной информации, от веб-статей и постов в блогах до рукописных писем и стихов. Однако существенная часть этих данных хранится и передаётся в формате PDF. В частности, выяснилось, что за каждый год в Outlook открывают более двух миллиардов PDF, а в Google Drive и электронной почте ежедневно сохраняют 73 миллионов новых файлов PDF (2).

Поэтому разработка более систематического способа обработки этих документов и извлечения из них информации позволит нам автоматизировать процесс и лучше понять этот обширный объём текстовых данных. И в выполнении этой задачи, разумеется, нашим лучшим другом будет Python.
Читать дальше →
Всего голосов 55: ↑54 и ↓1 +53
Комментарии 10

Преобразование markdown в pdf на Python

Уровень сложности Простой
Время на прочтение 1 мин
Количество просмотров 4.4K

Каждому, кто ходил извилистой тропкой автоматической генерации pdf из markdown файлов ведомы связанные с этой задачей пеньки решения: Pandoc, LaTex, wkhtmltopdf и т.п.

Хочу поделиться с сообществом новым (по крайней мере для меня) вариантом решения этой задачи в Python.

Этот вариант имеет следующие плюсы.

Читать далее
Всего голосов 9: ↑6 и ↓3 +3
Комментарии 11

История FineReader: так создавалась легенда (часть II)

Время на прочтение 10 мин
Количество просмотров 2.5K

Мы продолжаем изучать летопись функционального развития легендарного редактора FineReader PDF. Первую часть 30-летней истории можно прочитать здесь. А сейчас перенесемся в середину нулевых. 

Читать далее
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 6

История FineReader: так создавалась легенда (часть I)

Время на прочтение 9 мин
Количество просмотров 4.4K

Не секрет, что многофункциональный редактор ContentReader PDF является технологическим наследником популярного решения компании ABBYY – FineReader PDF. После модификации исходного продукта его новую историю на российском рынке пишет Content AI. Между тем, легендарному редактору PDF в этом году исполнилось 30 лет. И это достойный повод, чтобы вспомнить, как все начиналось и как развивался продукт, ставший незаменимым инструментом для всех, кто работает с документами. 

Для полного погружения мы смогли найти ноутбук IBM ThinkPad T61 c Windows XP, установили на него все версии FineReader с 1 по 13 и сделали аутентичные скриншоты. Пристегнитесь, запускаем машину времени через три…два…один. 

Читать далее
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 9

Альтернативные утилиты для PDF

Время на прочтение 4 мин
Количество просмотров 11K


Помимо программ от Adobe есть много альтернативных специализированных библиотек и утилит для работы с PDF. Что характерно, зачастую опенсорсные инструменты даже удобнее, чем официальный* софт. Альтернативные ридеры/редакторы по функциональности сильно отличаются от Adobe. В свою очередь, программы Adobe сами отличаются от официальных спецификаций PDF.

*Примечание: программы Adobe не «официальные» в прямом смысле слова, потому что PDF является открытым и бесплатным стандартом ИСО.
Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 25

Человек, который создал Adobe

Уровень сложности Простой
Время на прочтение 7 мин
Количество просмотров 7.1K


19 августа 2023 года ушёл из жизни Джон Уорнок — ученый, который стал успешным бизнесменом и основал IT-компанию, завоевавшую известность во всём мире. Выручка корпорации Adobe в 2022 году составила 17,6 млрд. долларов США, а с ее продуктами работают десятки миллионов пользователей в разных уголках земного шара. Причем название одного из этих продуктов уже давно стало нарицательным, по крайней мере, глагол «отфотошопить» можно без труда отыскать в некоторых современных словарях.
Читать дальше →
Всего голосов 33: ↑32 и ↓1 +31
Комментарии 14

Как PDF изменил мир

Уровень сложности Простой
Время на прочтение 10 мин
Количество просмотров 9.9K

Нам сейчас трудно представить, но было время, когда документы для печати нельзя было создать и подготовить за считанные секунды. И вообще, раньше обмен документами был громоздким процессом, который включал в себя распечатку и физическую передачу из рук в руки. Но всё изменилось в 1993 году, когда Adobe Systems представила миру PDF (Portable Document Format) — революционно новый формат файлов, он упростил обмен документами и их архивирование.

Тридцать лет спустя PDF — популярный формат документов для всего: от налоговых форм до электронных книг и руководств пользователя. PDF изменило то, как пользователи создают, делятся и получают доступ к цифровым документам. Только в прошлом году пользователи открыли более 400 миллиардов PDF-файлов в продуктах Acrobat, а Adobe обработала более 8 миллиардов транзакций с электронными и цифровыми подписями. PDF стал неотъемлемой частью современного мира, оказав фундаментальное влияние на появление онлайн-печати.
Читать дальше →
Всего голосов 48: ↑48 и ↓0 +48
Комментарии 62

Как использовать C# для разделения PDF документа

Уровень сложности Простой
Время на прочтение 3 мин
Количество просмотров 2.4K

PDF является широко используемым форматом электронных документов, но иногда мы хотим разделить большой PDF файл на несколько отдельных файлов для более удобного управления и обработки. В этой статье мы расскажем, как с помощью языка C# и Free Spire.PDF for .NET разбить PDF документ.

Читать далее
Всего голосов 7: ↑1 и ↓6 -5
Комментарии 5

Работа с файлами в приложениях: как уйти от зарубежных .NET-библиотек

Время на прочтение 11 мин
Количество просмотров 7.8K

Когда в разрабатываемом приложении нужно конвертировать, создавать или изменять файлы, приходится подключать для этого готовые решения — чтобы не погружаться в спецификации форматов. Таких решений много, в том числе для С#, но вот незадача: все они зарубежные. В нынешних условиях применять их может быть неудобно, а кому-то даже нельзя.

Я Максим Саутин из компании SautinSoft. Хочу порассуждать, почему в России не было собственных разработок в этом направлении, и рассказать, как работают наши .NET-библиотеки, которые используются на российском рынке. 

Читать далее
Всего голосов 39: ↑8 и ↓31 -23
Комментарии 85

Ближайшие события

One Day Offer от УЦСБ
Дата 17 февраля
Время 10:00
Место
Онлайн

Как убрать пустые оборотные страницы из PDF после двухстороннего сканирования

Уровень сложности Средний
Время на прочтение 6 мин
Количество просмотров 6.6K

Около двух месяцев назад я написал статью как сканировать многостраничные двухсторонние документы, если под рукой только обычный сканер с автоподачей, в которой затронул проблему того, что МФУ часто имеют дуплексную двустороннюю печать, но односторонний сканер.

Однако после решения проблемы быстрого сканирования больших двухсторонних документов, была обнаружена ещё одна проблема — некоторое количество страниц могут оказаться односторонними. И это означает, что PDF будет иметь белые страницы, например, со сканами перфораций или отверстий под кольца.

Конечно, можно удалить несколько страниц из PDF вручную, но что если таких файлов сотни, а сами документы имеют несколько десятков или даже сотен страниц как на фотографии?

Используем bash-скрипт
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 10

Бесплатный доступ к PDF 2.0

Время на прочтение 5 мин
Количество просмотров 6.5K


В начале года мы задавались вопросом, почему стандарты ИСО не публикуют в открытом доступе, хотя эти знания нужны и полезны для человечества? По мнению некоторых представителей IT-индустрии, платный доступ к документам — не самая эффективная политика. Особенно когда дело касается общественно важных стандартов, таких как ISO 8601 — Представление дат и времени (в интернет-магазине первая часть продаётся за 166 франков) или ISO 639 — Коды для представления названий языков (тоже две части по 166 CHF). Платный доступ — искусственный барьер, который только мешает.

Для отдельных стандартов находятся спонсоры, которые оплачивают организации ИСО расходы, чтобы выложить документы в открытом доступе для всех. Это относится и к новому пакету стандартов PDF 2.0, принятому в 2017–2022 гг (разные части), который пришёл на смену прежним версиям PDF 1.0–1.7.
Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Комментарии 5

Встраиваем JS- скрипты в PDF для социальной инженерии — пошаговое руководство

Время на прочтение 7 мин
Количество просмотров 12K

Введение

Согласно статистике, большинство всех атак совершается с использованием вредоносного программного обеспечения, а половина от всех атак проводится с использованием методов социальной инженерии.

Таким образом, для проведения проверок с использованием методов социальной инженерии полезно научиться отслеживать реакцию пользователей, что они будут делать с полученным документом. Причём делать это необходимо штатными средствами, никого не взламывая. JavaScript идеально подходит для этих целей.

Мы, Маргарита Белоусова, аналитик аналитического центра и Анастасия Прядко, специалист по анализу защищенности компании УЦСБ написали пошаговую инструкцию, как сделать фишинговый документ: детали и примеры кода. Кроме того, мы кратко рассмотрели структуру PDF-файла, как и куда в него внедрять JavaScript, а также способы маскировки факта внедрения скрипта. Наш опыт пригодится безопасникам, системным администраторам и всем, кто связан с ИБ.

Структура PDF

Организация данных в памяти

PDF способен на большее, чем просто отображать текст. Он может также включать в себя изображения и другие мультимедийные элементы, может быть защищён паролем, выполнять JavaScript и многое другое. Вне зависимости от версии структура PDF документа неизменна:

Читать далее
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 6

Как сканировать многостраничные двухсторонние документы, если под рукой только обычный сканер с автоподачей

Уровень сложности Простой
Время на прочтение 5 мин
Количество просмотров 15K

Нет проблемы быстро сканировать документы с любым количеством страниц, если под рукой есть сканер с устройством автоматической подачи. Однако часто МФУ имеют дуплексную двустороннюю печать и сканер, который умеет сканировать только с одной стороны, но имеет устройство автоматической подачи документов.

При этом сканирование больших двухсторонних документов выглядит проблемой, которая поедает большое количество времени.

Ведь если документ состоит всего из нескольких страниц, то нет необходимости связываться с командной строкой, потому что можно вручную склеить сканы в любой программе, которая работает с PDF, просто переставив местами страницы или даже вручную перевернув их на сканере.

Но что если документ А4 формата имеет несколько десятков или даже сотен страниц как на фотографии?

Используем консольную программу pdftk
Всего голосов 33: ↑31 и ↓2 +29
Комментарии 31

Самый простой способ редактировать PDF

Время на прочтение 3 мин
Количество просмотров 80K


История сложилась так, что в 80-е годы именно PostScript стал стандартом для цифровых документов, а из него появился «портативный» PDF. Вероятно, нам ещё долго придётся жить с этим наследием типографской индустрии 20 века.

Быстро поставить подпись/печать на полученный PDF и отправить его адресату — самый типичный сценарий в современном документообороте. Практика показывает, что некоторые офисные сотрудники предпочитают распечатать PDF, расписаться от руки — и отсканировать распечатку с подписью, сводя к нулю логику электронного документооборота. Если бумажная копия нужно только для сканирования, то это совершенно бесполезная трата бумаги и времени.

Посмотрим, какие есть варианты для быстрого редактирования PDF с сохранением правок в цифровом виде.
Читать дальше →
Всего голосов 41: ↑38 и ↓3 +35
Комментарии 157

Открытый проект Электронного подписания внутренних документов компании на примере кадровых

Время на прочтение 15 мин
Количество просмотров 4K

По мотивам Социальный труд и открытое проектирование. Введение

предлагается организовать открытый проект «Электронное подписание внутренних документов компании». Интерес к электронной подписи большой (МЧД и т.п.), но простых решений нет.

В целом подписание внутренних документов компании несложно расширить на «внешнее»: для этого достаточно с контрагентами заключить регламент, который «узаконит» применение подписи. Внутренние документы компании – разнообразны, распорядительные (приказы, распоряжения, служебные записки), бухгалтерские и управленческие отчеты и другие документы.

В целом «Электронное подписание внутренних документов компании» можно распространить на очень широкую отраслевую специфику, например, банковскую – подписание первичных документов и бухгалтерских отчетов (балансы, книга открытых \ закрытых счетов и т.п.) по 2346-У. 

Недавно обновился Трудовой кодекс (Статьи 21.1 – 22.3 введенные ФЗ от 22.11.2021 N 377) в части электронной подписи, что резко повысило интерес к подписанию кадровых документов. Предлагается в рамках проекта научиться подписывать кадровые документы, т.к. если это получится, то остальное будет реализовать еще проще. Важно не столько услужение задачи – сколько то, что электронный документооборот хоть как-то начали регламентировать законодательно (криво, но хоть как-то).

Как вариант: у компании уже есть HR-система, но без кнопки «подписать». Проект КЭДО позволит добавить эту кнопку (включая маршруты согласования и подписания) и организовать долговременный архив с электронной подписью документов в рамках юридически значимого документооборота.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 21

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт

Время на прочтение 8 мин
Количество просмотров 3.6K

RStudio, R Markdown, Latex и отчеты в PDF формате. Мой опыт.

Сегодня я хочу рассказать о том, как я писал отчеты на R, с чем сталкивался и как решал проблемы, которые возникали по ходу разработки. Отчеты были в формате PDF и запускались из Python в Camunda.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 4

Вклад авторов