Как технология MRC уменьшает размер PDF-документов / Хабр
Формат PDF уже давно прижился как средство сохранения документов, которые затем не предполагается редактировать. Все PDF файлы можно условно разделить на два класса. Первый – это документы, которые были свёрстаны в цифровом виде, и затем были сконвертированы в PDF. Инструкция к какому-нибудь устройству будет, скорее всего, именно таким файлом. Внутри он выглядит как текст и графика плюс команды форматирования, описывающие, как надо располагать элементы на странице.
Второй класс – это документы, полученные в результате сканирования бумажных изображений. Их можно пропустить через ABBYY FineReader, и они превратятся в первый тип, а можно просто сохранить в PDF как картинки. И этим часто имеет смысл пользоваться, когда хочется сохранить исходный вид документа. Несмотря на то, что ABBYY FineReader довольно хорошо распознаёт документы, возникают ошибки распознавания, какие-то важные элементы на странице не находятся, в общем, то, что получается, по виду несколько отличается от исходного документа.
Поэтому часто имеет смысл сохранять в PDF изображение исходной картинки, а под него подкладывать распознанный текст для того, чтобы можно было найти документ по ключевым словам или воспользоваться copy-paste. Смущает только один момент – такие PDF-файлы имеют немаленький размер, от полумегабайта на страницу и больше. Соответственно, если отсканировать среднего размера учебник по матанализу, получится файл мегабайт на 200.
Такой размер объясняется тем, что внутри в PDF отсканированные, растровые изображения сжаты обычными картиночными кодеками, JPEG, JPEG2000, LZW или ZIP. Соответственно, меньше, чем занимают обычные JPEG-файлы для таких страничек, не получается. Чтобы уменьшить размер, обычно прибегают к разного рода ухищрениям – уменьшают разрешение, сильно занижают сжатие картинки, в результате чего сильно страдает качество текста в таких PDF.
Или тогда приходится отказываться от PDF и сохранять всё в DjVu. Получается довольно маленький размер, но действительность такова, что не все пользователи полученного файла с лёгкостью смогут его прочитать – всё-таки Adobe Acrobat стоит на гораздо большем числе компьютеров, чем DjVu-просмотрщик.
И тут на помощь приходит технология PDF MRC (от “Mixed Raster Content”) – ответ Adobe формату DjVu. Это тот же PDF, но заимствующий многие элементы из DjVu, и может читаться всеми популярными PDF-читалками. При использовании MRC размер страницы уменьшается раза в 4 при сохранении качества отсканированного изображения. Это происходит благодаря решению разделить изображение на слои и каждый слой сжимать наиболее подходящим кодеком. Текст сжимается кодеком JBIG2, всё остальное сжимается с помощью JPEG/JPEG2000/ZIP с разным качеством.
Как устроен внутри PDF MRC? Рассмотрим простой пример, а затем постепенно будем его усложнять.
Скан, JPEG, 1,2 Мб
Полезная информация – только буквы, всё остальное можно игнорировать. Найдём весь текст на странице, например, логично для этого запустить FineReader и распознать страницу. Затем выделяем весь найденный текст в отдельный слой, и сжимаем его с помощью кодека JBIG2. Получаем 50 килобайт на страницу против 400 у JPEG и 200 у чёрно-белого факсового кодека CCITT4.
JBIG2 специально создан для сжатия текста. При работе он объединяет внешне похожие изображения букв в кластеры. Примерами таких кластеров, например, могут служить все буквы ‘a’, напечатанные одним шрифтом одинакового размера. Немного отличающиеся буквы ‘a’, например, с искажениями от сканирования, или напечатанные другим шрифтом, попадут в другие кластеры. В результате получается словарь, в котором объединены часто встречающиеся одинаковые буквы. Затем для каждой буквы запоминается её место. Получается весьма компактно.
JBIG2, 50 Кб. PDF с дополнительной информацией имеет размер 80 Кб
Теперь усложним задачу. Пускай у нас есть неравномерный фон, который не хочется терять.
Tiff, 500 Кб
Для этого нам понадобится уже два слоя. Первым из них по-прежнему будет текст, сжатый JBIG2. А во второй слой попадёт всё, что остаётся от исходной картинки после вырезания букв и закрашивания дырок от них. Второй слой мы можем достаточно сильно сжать с помощью JPEG, так как на нём обычно нет особо ценной информации.
Итоговый PDF имеет размер 35 Кб против 190, которые мы бы получили, просто сжав всю картинку в JPEG.
Фон, 11 Кб, JPEG
Итоговый PDF MRC, 35 Кб
Следующее усложнение. До сих пор мы выводили только чёрно-белый текст. Пусть теперь у нас будет встречаться цветной текст.
Tiff, 700 Кб
По-прежнему жмём текст чёрно-белым кодеком JBIG2, но под цветные буквы подкладываем так называемую цветовую маску – ещё один слой, который видно в «прорезях», сделанных буквами. Этот слой содержит мало цветов, и прекрасно упаковывается, например, с помощью ZIP.
Текст, JBIG2, 11 Кб
Цветовая маска, ZIP, 3 Кб
Текст + цветовая маска выглядят так:
Фон, JPEG, 40 Кб
Со сжатием фона важно не переусердствовать – на него может попасть текст, который не был распознан как текст. И если мы сожмём его слишком сильно, такой текст будет трудно читать.
Итоговый PDF MRC, 60 Кб
Итак, набралось уже 3 слоя: текст, цветовая маска, которая раскрашивает текст, и фон. Осталось разделаться с элементами, которые не являются ни текстом, ни фоном. Например, это картинки или фотографии. С ними ничего особенного сделать нельзя, и мы просто добавим их в фон, сжимая JPEG или JPEG 2000 с высоким качеством.
Tiff, 600 Кб
Текст, JBIG2, 25 Кб
Цветовая маска, ZIP, 5 Кб
Фон, JPEG, 40 Кб
PDF MRC готов. Он содержит несколько слоёв, каждый из которых содержит разные кусочки картинки и сжат наиболее подходящим кодеком.
Итоговый PDF MRC, 72 Кб
Конечно же, есть изображения, которые не выигрывают в размере от использования MRC. Например, пытаться сжать так фотографию пейзажа нет никакого смысла, меньше, чем JPEG не получится. Или текст, напечатанный на фоне, содержащем много мелких деталей.
Из такой картинки PDF MRC не получится
Однако для многих документов, которые мы встречаем в повседневной жизни, MRC даёт отличные результаты.
И напоследок – несколько примеров PDF MRC, которые можно получить с помощью ABBYY FineReader, ABBYY FineReader Engine или ABBYY Recognition Server:
PDF, JPEG | PDF, MRC |
524 Кб | 218 Кб |
618 Кб | 175 Кб |
412 Кб | 113 Кб |
Итого, мы получаем сжатие в 2-6 раз при том же качестве, и это не предел. PDF MRC – ещё очень молодая технология, и она продолжает активно развиваться. Будут улучшения и в сторону улучшения качества, и в сторону уменьшения размера.
Все примеры PDF, приведённые в этой статье, получены с помощью ABBYY FineReader Engine 10, настройки по умолчанию.
Василий Панфёров,
Департамент продуктов для разработчиков
Онлайн конвертер архивов, сжатие файла и изменение формата
Чтобы создать архив или изменить тип архива, выполните несколько шагов:
- Выберите формат архива, в который вы хотите сжать ваш файл. Формат полученного архива может быть: 7Z, ZIP, RAR, GZIP, BZIP2, XZ, TAR. По умолчанию выбран формат 7Z.
- Перед началом конвертации выберите формат в который вы хотите сжать или конвертировать ваш файл:
- Выберите пункт «Конвертировать архив (только для архивов)«, если вам нужно изменить формат архива, например, ZIP в RAR.
- Выберите пункт «Сжать выбранный файл«, если вам нужно только сжать файл. Эта опция выбрана по умолчанию.
Внимание! На данный момент каждый файл сжимается в каждый свой архив, на данный момент нельзя сжать несколько файлов в один архив, но мы работаем над этой проблемой.
- Некоторые форматы поддерживают выбор уровня сжатия и установки пароля, поэтому после выбора формата рекомендуем проверить появившиеся доступные поля.
- С помощью кнопки «Добавить файлы» выберите файлы на вашем устройстве или просто перетащите в серую область.
Внимание! Время конвертации или архивации зависит от размера вашего файла. - После загрузки файла конвертация начнётся автоматически, при условии, что флаг «Начать конвертацию сразу…» выставлен, но вы всегда можете отменить автоматическую конвертацию.
- Процесс конвертации может занимать он нескольких секунд до нескольких минут, просто наберитесь терпения и все получится.
- В случае успешной конвертации файл будет доступен в таблице под полем добавления файлов. Если вам нужно просто скачать файл, то кликните на имя файла. Если вы хотите получить другие способы сохранения, то нажмите на ссылку «Info» чтобы сформировать QR-код для загрузки результата на ваш мобильный телефон или планшет, а также если вы хотите сохранить файл в одном из онлайн-сервисов хранения данных, таких как Google Drive или Dropbox.
На данный момент вы можете сжать любой файл, или преобразовать архив из форматов: APM, ARJ, CHM, cpio, DEB, FLV, JAR, LHA/LZH, LZMA, MSLZ, onepkg, RAR, RPM, smzip, SWF, XAR и Z, а так же выполнить конвертацию образов дисков: CramFS, DMG, FAT, HFS, ISO, MBR, NTFS, SquashFS, UDF и VHD в архив.
Начинать конвертацию сразу после окончания загрузки (добавляя файлы вы соглашаетесь с нашей политикой)
Я соглашаюсь на сбор, хранение и обработку моих данных, полученных с помощью этой формы, в соответствии с Политикой конфиденциальности и Условиями использования.
Кликните здесь для выбора файлов
или перетащите файлы в эту область
Что такое архивный файл?
Архивный файл представляет собой файл, который состоит из одного или нескольких файлов, собранных в один с помощью одного из методов сжатия. Архивные файлы используются для сбора данных множества файлов вместе в один файл для более легкой переносимости и хранения, или просто для сжатия файлов, чтобы использовать меньше места для хранения. Архивные файлы чаще всего хранят структуры каталогов, а так же дополнены методами обнаружения ошибок и содержат информацию о корректности данных, так же могут включать произвольные комментарии, а иногда и использовать встроенные функции шифрования (скрывать содержимое архива или производить распаковку файлов по паролю).
Преподавательские работы, вакансии воспитателей, школьные вакансии
Преподавательские работы, педагогические вакансии, школьные вакансии | ШколаВесна Выберите местоположение… Любое местоположениеТолько СШАМеждународныйОнлайнАлабамаАляскаАризонаАрканзасКалифорнияКолорадоКоннектикутДелавэрРасст. КолумбияФлоридаГрузияГавайиАйдахоИллинойсИндианаАйоваКанзасКентуккиЛуизианаМэнМэрилендМассачусетсМичиганМиннесотаМиссисипиМиссуриМонтанаНебраскаНевадаНью-ГэмпширНью-ДжерсиНью-МексикоНью-ЙоркСеверная КаролинаСеверная ДакотаОгайоОклахомаОрегонПенсильванияРод-АйлендЮжная КаролинаЮжная ДакотаTenne sseeТехасЮтаВермонтВирджинияВашингтонЗападная ВирджинияВисконсинВайомингВыберите категорию.
- Расширенный поиск
- Мой сохраненный поиск
Идентификатор задания
Соискатели
Продвиньте свою карьеру в области образования. Это бесплатно.
Если вы только начинаете или уже имеете опыт&запятая; SchoolSpring — лучшее место для управления вашей образовательной карьерой. Получите доступ к тысячам вакансий по всей стране со всего Интернета в одном , Удобная поисковая система. И это только начало. С SchoolSpring&запятая; доступ&двоеточие;
- Карьера Инструменты управления документами.
- Централизованная агрегация поиска работы.
- Оповещения по электронной почте.
- Комплексные приложения.
- Найти работу Бесплатная регистрация
Мы обновили нашу Политику конфиденциальности, вступившую в силу 27 января 2020 г.
Щелкните здесь для получения дополнительной информации.
Работодатели
Увеличьте охват и расширьте круг кандидатов.
Найдите учителей, администраторов, вспомогательный персонал и любую промежуточную роль в сфере образования с помощью более чем 2 миллионов соискателей работы в сфере образования по всей стране. Привлекайте больше соискателей даже на труднодоступные вакансии, экономя при этом деньги, потраченные на ярмарки вакансий и рекламу.
- Поиск кандидатов из нашего национального резерва.
- Распространяйте информацию о своих вакансиях на сайтах Indeed, Monster, Teach.org, через Twitter и т. д.
- Автоматические оповещения по электронной почте, рассылаемые заинтересованным соискателям.
- Прямая интеграция с TalentEd Recruit & Hire и другими системами отслеживания кандидатов.
- Разместить вакансию Узнать больше
Ищущие работу
- Найти работу
- Мой профайл
Работодатели
- Разместить вакансию
- Запросы на продажу
О нас
- Контакт
- Карта сайта
- политика конфиденциальности
- Условия эксплуатации
Соединять
Преподавательские работы, вакансии воспитателей, школьные вакансии
Преподавательские работы, педагогические вакансии, школьные вакансии | ШколаВесна Выберите местоположение… Любое местоположениеТолько СШАМеждународныйОнлайнАлабамаАляскаАризонаАрканзасКалифорнияКолорадоКоннектикутДелавэрРасст. КолумбияФлоридаГрузияГавайиАйдахоИллинойсИндианаАйоваКанзасКентуккиЛуизианаМэнМэрилендМассачусетсМичиганМиннесотаМиссисипиМиссуриМонтанаНебраскаНевадаНью-ГэмпширНью-ДжерсиНью-МексикоНью-ЙоркСеверная КаролинаСеверная ДакотаОгайоОклахомаОрегонПенсильванияРод-АйлендЮжная КаролинаЮжная ДакотаTenne sseeТехасЮтаВермонтВирджинияВашингтонЗападная ВирджинияВисконсинВайомингВыберите категорию.
- Расширенный поиск
- Мой сохраненный поиск
Идентификатор задания
Соискатели
Продвиньте свою карьеру в области образования. Это бесплатно.
Если вы только начинаете или уже имеете опыт&запятая; SchoolSpring — лучшее место для управления вашей образовательной карьерой. Получите доступ к тысячам вакансий по всей стране со всего Интернета в одном , Удобная поисковая система. И это только начало. С SchoolSpring&запятая; доступ&двоеточие;
- Карьера Инструменты управления документами.
- Централизованная агрегация поиска работы.
- Оповещения по электронной почте.
- Комплексные приложения.
- Найти работу Бесплатная регистрация
Мы обновили нашу Политику конфиденциальности, вступившую в силу 27 января 2020 г.
Щелкните здесь для получения дополнительной информации.
Работодатели
Увеличьте охват и расширьте круг кандидатов.
Найдите учителей, администраторов, вспомогательный персонал и любую промежуточную роль в сфере образования с помощью более чем 2 миллионов соискателей работы в сфере образования по всей стране. Привлекайте больше соискателей даже на труднодоступные вакансии, экономя при этом деньги, потраченные на ярмарки вакансий и рекламу.
- Поиск кандидатов из нашего национального резерва.
- Распространяйте информацию о своих вакансиях на сайтах Indeed, Monster, Teach.org, через Twitter и т. д.
- Автоматические оповещения по электронной почте, рассылаемые заинтересованным соискателям.
Ваш комментарий будет первым