Что такое оптическое распознавание символов? – Описание оптического распознавания символов – AWS
Что такое оптическое распознавание символов?
Оптическое распознавание символов (OCR) – это процесс преобразования изображения текста в машиночитаемый текстовый формат. Например, при сканировании бланка или квитанции, компьютер сохраняет скан в виде файла изображения. Текстовый редактор невозможно использовать для редактирования, поиска или подсчета слов в файле изображения. OCR помогает преобразовать изображение в текстовый документ, содержимое которого хранится в виде текстовых данных.
В чем заключается важность OCR?
Большинство рабочих процессов связано с получением информации из печатных изданий. Любой бизнес-процесс предусматривает бланки, счета, отсканированные юридические документы и контракты, напечатанные на бумажном носителе. Такие большие объемы бумажной работы требуют много времени и места для хранения и обработки. Хотя безбумажный документооборот — это путь вперед, сканирование документа в изображение создает определенные трудности. Этот процесс требует ручного вмешательства и может быть утомительным и медленным.
При оцифровке содержимого документа создаются файлы изображений со скрытым в них текстом. Программы обработки текста не могут обработать текст в изображениях. Технология OCR решает эту проблему путем преобразования изображения в текстовые данные, которые могут быть проанализированы офисным ПО. Затем такие данные можно использовать для аналитики, оптимизации операций, автоматизации процессов и повышения производительности.
Как работает OCR?
Технология OCR включает следующие этапы:
Получение изображения
Сканер считывает документы и преобразует их в двоичные данные. ПО OCR анализирует отсканированное изображение и классифицирует светлые области как фон, а темные — как текст.
Предварительная обработка
Чтобы подготовить текст к распознаванию, ПО OCR очищает изображение и удаляет ошибочные области. Применяются следующие методы очистки:
- Выравнивание и устранение уклона отсканированного документа для облегчения распознавания.
- Сглаживание контраста или удаление пятен цифрового изображения и сглаживание краевых эффектов текстовых изображений.
- Стирание рамок и линий на сканированном изображении.
- Распознавание шрифтов для многоязычной технологии OCR
Распознавание текста
Существует два основных типа алгоритмов OCR или программных процессов, которые использует ПО OCR для распознавания текста: сопоставление шаблонов и выделение признаков.
Сопоставление шаблонов
Сопоставление шаблонов работает путем выделения изображения символа, называемого глифом, и сравнения его с аналогичным глифом, хранящимся в памяти. Распознавание образа произойдет только в том случае, если шрифт и масштаб хранящегося глифа совпадают со шрифтом и масштабом отсканированного глифа. Данный метод эффективен при работе со сканами документов, набранных известным шрифтом.
Выделение признаков
Выделение признаков разбивает или раскладывает глифы на такие признаки, как линии, замкнутые контуры, направление линий и пересечения линий. Затем признаки используются для поиска наилучшего или ближайшего подходящего соответствия среди различных хранящихся глифов.
Окончательная обработка
После анализа система преобразует извлеченные текстовые данные в компьютерный файл. Некоторые системы OCR могут создавать аннотированные PDF-файлы, включающие как предыдущую, так и последующую версии отсканированного документа.
Какие виды OCR существуют?
Специалисты по анализу данных классифицируют различные виды технологий OCR на основе их использования и применения. Ниже представлены лишь некоторые примеры:
Программы простого оптического распознавания символов
Простой механизм OCR применяет множество различных хранимых шаблонов шрифтов и изображений текста в качестве шаблонов. Программное обеспечение OCR использует алгоритмы сопоставления шаблонов для посимвольного сравнения изображений текста с внутренней базой данных. Подход, при котором система сопоставляет текст слово за словом, называется оптическим распознаванием слов. Он имеет свои ограничения, поскольку существует практически неограниченное количество шрифтов и стилей почерка, и каждый отдельный тип не может быть учтен и сохранен в базе данных.
Программы интеллектуального распознавания символов
Современные системы OCR используют технологию интеллектуального распознавания символов (ICR) для считывания текста так же, как это делает человек. Они используют передовые методы машинного обучения человеческим навыкам чтения. Система машинного обучения, называемая нейронной сетью, анализирует текст на многих уровнях, многократно обрабатывая изображение. Она ищет различные атрибуты изображения (кривые, линии, пересечения и петли) и объединяет результаты различных уровней анализа для получения окончательного результата. Несмотря на то, что ICR обрабатывает изображения по символам, процесс не занимает много времени, а результаты получаются за считанные секунды.
Интеллектуальное распознавание слов
Интеллектуальные системы распознавания слов работают по тому же принципу, что и ICR, но обрабатывают изображения целых слов без предварительного выделения символов в изображении.
Оптическое распознавание знаков
Оптическое распознавание знаков позволяет идентифицировать логотипы, водяные знаки и другие обозначения в документе.
В чем заключаются основные преимущества OCR?
Специалисты по анализу данных классифицируют различные виды технологий OCR на основе их использования и применения. Ниже представлены лишь некоторые примеры:
Программы простого оптического распознавания символов
Простой механизм OCR применяет множество различных хранимых шаблонов шрифтов и изображений текста в качестве шаблонов. Программное обеспечение OCR использует алгоритмы сопоставления шаблонов для посимвольного сравнения изображений текста с внутренней базой данных. Подход, при котором система сопоставляет текст слово за словом, называется оптическим распознаванием слов. Он имеет свои ограничения, поскольку существует практически неограниченное количество шрифтов и стилей почерка, и каждый отдельный тип не может быть учтен и сохранен в базе данных.
Программы интеллектуального распознавания символов
Современные системы OCR используют технологию интеллектуального распознавания символов (ICR) для считывания текста так же, как это делает человек. Они используют передовые методы машинного обучения человеческим навыкам чтения. Система машинного обучения, называемая нейронной сетью, анализирует текст на многих уровнях, многократно обрабатывая изображение. Она ищет различные атрибуты изображения (кривые, линии, пересечения и петли) и объединяет результаты различных уровней анализа для получения окончательного результата. Несмотря на то, что ICR обрабатывает изображения по символам, процесс не занимает много времени, а результаты получаются за считанные секунды.
Интеллектуальное распознавание слов
Интеллектуальные системы распознавания слов работают по тому же принципу, что и ICR, но обрабатывают изображения целых слов без предварительного выделения символов в изображении.
Оптическое распознавание знаков
Оптическое распознавание знаков позволяет идентифицировать логотипы, водяные знаки и другие обозначения в документе.
В чем заключаются основные преимущества OCR?
Ниже приведены основные преимущества технологии OCR:
Текст с возможностью поиска
Предприятия могут преобразовывать имеющиеся и новые документы в базу знаний с возможностью полноценного поиска. ПО для автоматической обработки текстовой базы позволяет совершенствовать базу знаний предприятия.
Эффективность работы
Применение ПО OCR позволяет повысить эффективность работы путем автоматической интеграции документооборота и цифровых рабочих процессов. Вот несколько примеров того, что может сделать ПО OCR:
- Сканирование заполненных вручную форм для автоматизированной проверки, рассмотрения, редактирования и анализа. Такой подход сокращает время ручной обработки документов и ввода данных.
- Поиск необходимых документов с помощью быстрого поиска термина в базе данных, вместо ручного перебора файлов в ящике.
- Преобразование рукописных заметок в редактируемые тексты и документы.
Решения искусственного интеллекта
OCR часто является составляющей других решений в области искусственного интеллекта, которые могут внедрять предприятия. К примеру, OCR может применяться для сканирования и распознавания номерных знаков и дорожных указателей в самоуправляемых автомобилях, выявления логотипов брендов в сообщениях в социальных сетях или идентификации упаковки продукта в рекламных изображениях. Такие технологии искусственного интеллекта помогают предприятиям принимать более эффективные маркетинговые и операционные решения, которые позволяют сократить расходы и улучшить качество обслуживания клиентов.
Для чего применяется OCR?
Ниже перечислены некоторые распространенные случаи использования OCR в различных отраслях:
Банковская сфера
Банковская сфера использует OCR для обработки и проверки документов по кредитам, депозитных чеков и других финансовых операций. Такая проверка позволила повысить эффективность борьбы с мошенничеством и укрепить безопасность транзакций. Например, BlueVine, финансовая технологическая компания, предоставляющая финансирование малому и среднему бизнесу, использовала Amazon Textract, облачный сервис OCR, для разработки продукта, с помощью которого малые бизнесы в США могут быстро получить доступ к кредитам по Программе защиты заработной платы (PPP) в рамках пакета мер по стимулированию экономики в условиях COVID-19. Amazon Textract автоматически обрабатывал и анализировал десятки тысяч форм PPP в день, благодаря чему BlueVine смогла помочь нескольким тысячам предприятий получить средства и сохранить более 400 000 рабочих мест.
Здравоохранение
В системе здравоохранения OCR используется для обработки историй болезни пациентов, включая лечебные процедуры, анализы, больничные карты и страховые выплаты. OCR помогает оптимизировать рабочий процесс и сократить объем ручной работы в больницах, а также поддерживать актуальность записей. Например, компания nib Group обеспечивает медицинское страхование более 1 миллиона австралийцев и ежедневно получает тысячи заявок на выплату страхового возмещения за получение медицинских услуг. Клиенты компании могут сфотографировать свой медицинский счет и отправить его через мобильное приложение nib. Amazon Textract автоматически обрабатывает эти изображения, что позволяет компании гораздо быстрее рассматривать заявки.
Логистика
Логистические компании используют OCR для более эффективного отслеживания этикеток на упаковках, счетов, квитанций и других документов. Например, компания Foresight Group использует Amazon Textract для автоматизации обработки счетов в SAP. Ввод таких документов вручную отнимал много времени и приводил к ошибкам, поскольку сотрудникам Foresight приходилось вводить данные в несколько систем бухгалтерского учета. Благодаря Amazon Textract программное обеспечение компании Foresight стало более точно считывать символы на различных носителях и повысило эффективность ведения бизнеса компании.
Как AWS может помочь с OCR?
AWS предлагает две услуги, которые могут помочь внедрить OCR в бизнесе:
Amazon Textract – это сервис машинного обучения (ML), который с помощью OCR автоматически извлекает печатный и рукописный текст и данные из отсканированных документов (например, PDF-файлов). Сервис позволяет быстро считывать тысячи различных документов различных носителей и форматов. После извлечения информации из документов Amazon Textract присваивает уровень уверенности, что дает возможность принимать обоснованные решения о том, как использовать полученные результаты.
Amazon Rekognition может анализировать миллионы изображений и видеозаписей за считанные минуты и дополнять задачи визуальной проверки, выполняемые человеком, с помощью искусственного интеллекта. Для извлечения текста из изображений и видео можно использовать API Amazon Rekognition. В нем имеется возможность распознавать искаженный и деформированный текст из изображений и видеозаписей дорожных знаков, публикаций в социальных сетях и упаковок продуктов.
Создайте учетную запись AWS и начните работу с технологией OCR уже сегодня.
Распознавание текста ocr, распознать текст из pdf в word, распознать текст с картинки или фото
Распознавание текста OCR
Настраиваем «под ключ» роботов для распознавания текста.
АВТОМАТИЗАЦИЯ МАРКЕТИНГАПредварительный заказ распознавания текста OCR
Как используется OCR на сайтах?
Для определения наличия ключевых слов на определенных страницах вашего сайта можно использовать роботов с применением технологии OCR. В таком случае вам не придется тратить много человеческого труда для поиска текста на сайте.
Обращаем ваше внимание, что для того, чтобы распознать текст из pdf в word вам понадобятся стандартные онлайн-сервисы. RPA роботы предназначены для работы именно с такими сервисами, но не заменяют их.
Зачем использовать OCR в интернете?
Если вам нужно автоматизировать какие-либо действия и отталкиваться от текста на сайте, тогда скорее всего вам нужны услуги по оптическому распознаванию текстов (ocr) для больших объемов текста.
В таком случае вы сможете использовать робота, который будет не просто понимать текст на сайте, но и действовать в соответствии с этим текстом, автоматизируя вашу деятельность на вашем сайте или на других сайтах.
Как используется OCR для распознавания документов?
При автоматизации документооборота практически всегда требуется распознавать текст различных документов. В таком случае, кроме того, что нужно реализовать распознавание текст в пдф в ворд, часто требуется поиск текста по документу.
RPA робот может распознать текст по картинке или фотографии, или распознать текст из jpg в word, при этом такие действия могут быть только частью одного большого алгоритма робота, обрабатывающего документы.
Зачем нужно OCR для мессенджеров?
Распознавание текста по аудио не является технологией OCR, но мы можем использовать роботов для автоматизации процесса распознавания отдельных аудио записей, или всего разговора в текст. Распознать звук из видео в текст может много разных сервисов.
Задача роботов будет в таком случае только записывать необходимые разговоры, переводить голос в текст при помощи готовых сервисов, после чего робот сможет находить необходимые ключевые слова в подготовленном тексте.
Как работает OCR с приложениями?
Если вам нужно распознать отсканированный текст в большом объеме, на постоянной основе, тогда имеет смысл сделать робота, который будет отправлять тексты в приложения, например, сканера, принтера, abbyy, после чего будет взаимодействовать с ними.
Задача распознать рукописный текст с фото может быть только одной из списка задач, которые выполняет робот при работе с приложениями, поэтому просто помните, что RPA роботы работают с любыми приложениями.
Автономность процессов
Программа для распознавания текста работает без участия человека.
Повышение качества
Автоматическое распознавание текста с фото эффективнее человека.
Избавление от рутины
OCR найдет нужную информацию за несколько минут, в зависимости от сложности задачи.
Экономия времени
Поиск текста на картинках уменьшает объем ручного труда.
Обработка данных
Помогает автоматизировать обработку и сбор информации с любых источников в интернете.
Многозадачность
OCR робот работает с несколькими ресурсами одновременно.
ЕСТЬ ВОПРОСЫ?У нас есть ответы как использовать OCR
Что такое OCR?
OCR — это автоматическое распознавание текста с любых ресурсов в интернете — картинок, сайтов, видео.
Для чего нужно распознавание текста?
Автоматическое распознавание информации позволяет экономить огромное количество времени. Распознавание текста онлайн позволяет искать нужную информацию по всему интернету, независимо от формата.
Как можно автоматизировать решение каптчи?
Роботизировать решение каптчи, поиск данных на картинках и в интернете можно с помощью технологии OCR. Например, при выполнении проекта с оказанием услуги массовой коммуникации используется эта технологию при построении процессов общения с клиентами.
Использование OCR в роботах увеличивает их эффективность. Например, поиск информации используется при парсинге или скрапинге, чтобы робот понимал где в карточке товара находятся определенные характеристики товара.
В чем выгода роботизации OCR?
Роботизация OCR позволяет оптимизировать затраты на человеческий ресурс при поиске текста на компьютере локально, или в интернете. Например, если вы решите заказать email рассылку и вам нужно будет собрать базу — в этом вам поможет, в том числе, технология OCR. Таким образом, вы используете сразу 2 технологии при выполнении 1 задачи при помощи роботизации.
• НАШ БЛОГНовые статьи и кейсы
Полезная информация для тех, кто интересуется автоматизацией бизнес-процессов, внедрением программных роботов RPA, а также продажами и маркетингом.
Бесплатная консультация
Объяснение роботизированной автоматизации процессов: все, что вам нужно знать
Dmitriy Makarenko 14.02.2022
В этой статье мы подробнее обсудим основные преимущества автоматизации процессов и познакомим вас с ее историей, чтобы показать, как мы достигли того, что имеем сегодня. Но перед этим давайте рассмотрим краткий пример роботизированной автоматизации процессов:
Читать далее »3 вещи, которые следует учитывать перед внедрением автоматизации бизнес-процессов
Dmitriy Makarenko 05.02.2022
Третья компания сэкономила сотни часов ручной работы и получила своевременные и точные финансовые отчеты, после чего добилась пятикратного увеличения количества транзакций после внедрения решения по автоматизации между своими системами ERP и CRM.
Читать далее »Как выбрать программное обеспечение RPA: 8 вещей, которые следует принять
Dmitriy Makarenko 30.01.2022
Чтобы помочь вам решить, какое программное обеспечение RPA выбрать, мы попросили инженеров-программистов и бизнес-лидеров поделиться своими лучшими идеями.
Читать далее »Teklia — Автоматическое распознавание текста
06 декабря 2022 г. Около 1 минуты на чтение
Кристофер Керморвант
Возможность автоматической обработки текстовых документов долгое время была проблемой для исследователей искусственного интеллекта. При работе с распознаванием текста из изображений документов необходимо учитывать несколько элементов, особенно для исторических документов. В основном они написаны от руки и могут иметь сложную компоновку. До сих пор для распознавания текста были разработаны две разные технологии: OCR (оптическое распознавание символов) и HTR (распознавание рукописного текста). Хотя оба предназначены для обнаружения, идентификации и распознавания текстов, они работают по-разному.
Краткая история OCR и HTR
OCR, предпосылки автоматического распознавания текста
Оптическое распознавание символов, или OCR, было первым типом систем, разработанных для распознавания текста. Эти системы называются оптическими , потому что они основывали свое распознавание только на анализе форм символов и не принимали во внимание лингвистические аспекты слов и предложений. Они обучены распознавать форму каждого символа во многих шрифтах. Они дают хорошие результаты, если символы легко выделяются, шрифт стандартный и качество сканирования достаточно хорошее.
Когда эти условия не выполняются, производительность быстро ухудшается, а сгенерированный текст теряет согласованность:
В этом примере шрифт B (первая буква Бенджамина) нетипичен и искажен, OCR распознает W вместо. Без контекстной информации d’ распознается как @ , а à как 4 . Кажется очевидным, что лингвистическая информация, по крайней мере, язык текста, может улучшить производительность.
Системы оптического распознавания символов достигают своих пределов, когда распознаваемый текст больше не печатается, а пишется от руки: символы больше нельзя легко отделить, а их форма больше не стандартизирована.
Следовательно, основной принцип OCR, заключающийся в распознавании символов по отдельности и по их форме, не обеспечивает достаточной точности процесса, поскольку он не предназначен для связывания символов для распознавания слов и предложений.
Технологию оптического распознавания символов все еще можно использовать для рукописного ввода в одном конкретном случае: когда символы хорошо разделены, в письменном или рукописном письме:
Это называется ICR, для Intelligent Character Recognition .
HTR, еще один шаг к точному распознаванию текста
Первые методы, разработанные для распознавания рукописного текста, стремились выполнять распознавание на уровне слов. Эти подходы были названы HWR , для Распознавание рукописных слов . Первым шагом было разделение строк текста на слова. Поскольку эта сегментация не всегда была тривиальной, необходимо было принимать во внимание гипотезы сегментации слов.
После того, как слова были выделены, задача состояла в том, чтобы распознать буквы в каждом слове. Первый подход состоял в том, чтобы попытаться разделить курсивное слово на элементарные компоненты, графемы. Затем задача состояла в том, чтобы распознать каждую графему, а затем восстановить каждую букву из идентифицированных графем.
При таком подходе возникали многочисленные трудности: сложность сегментации графем, накопление ошибок на разных уровнях сегментации и распознавания и, наконец, очень высокая стоимость создания обучающих данных: позиции графем приходилось аннотировать.
Вдохновленные системами распознавания речи, были предложены модели, основанные на сегментации скользящего окна [2]. Этот подход радикально упрощает проблему сегментации на графемы или символы и позволяет обучать модели на больших базах данных с помощью статистических моделей, таких как скрытые марковские модели (HMM) или гибридные HMM с нейронными сетями.
При использовании этой технологии основной единицей распознавания рукописного текста является уже не слово, а строка текста. Теперь это называется распознаванием рукописного текста, HTR.
Рукописный текстовый документ, или HTR, предлагает больше возможностей и позволяет решить многие проблемы, связанные с OCR. HTR сочетает в себе как оптические, так и лингвистические аспекты. Цель оптической модели состоит в том, чтобы распознавать слова по их написанию в том виде, в каком они появляются на изображении. Оптическая модель обучается на изображении строк текста, собранных и расшифрованных вручную во время кампаний по аннотации. Лингвистическая модель предназначена для статистического моделирования последовательностей слов языка, чтобы система выдавала правильные и вероятные предложения. Эта модель может быть обучена на электронных текстовых корпусах и не требует изображений.
Помимо распознавания строк текста
Все модели, представленные до сих пор, требуют важного первого шага: обнаружения строк текста. Хотя для этого шага существуют хорошие модели, также были предложены модели, которые не требуют предварительного обнаружения строк текста, а имеют дело непосредственно с абзацами или страницами. Пример того, как работает этот тип модели, показан в видео ниже [3]:
Последние разработки в моделях внимания глубокого обучения, основанные на трансформерах, также позволяют отказаться от обнаружения строк текста при определенных условиях[4]. TEKLIA уже использовала этот тип моделей для проекта SIMARA.
Представляем автоматическое распознавание текста (ATR)
Зачем нужна новая концепция обработки документов?
За последнее десятилетие, с развитием алгоритмов глубокого обучения, в области автоматической обработки документов произошло сближение различных технологий: границы между OCR для печатных документов, HTR для рукописных документов и даже в последнее время с моделями анализа документов (DLA ) размываются. Модели распознают как печатный, так и рукописный текст, а также обрабатывают строки или абзацы. Старые категории OCR, ICR, HTR уже не актуальны.
Теперь мы должны обратиться к Автоматическое распознавание текста, ATR .
Ocelus, наша служба ATR
Ocelus, API автоматического распознавания текста Teklia, позволяет загружать изображение документа и получать полную расшифровку текста для печатных, рукописных или смешанных документов. Доступны как общие, так и языковые модели.
У вас есть текстовые документы, которые вы хотите обработать, попробуйте нашу демонстрацию Ocelus на ocelus.teklia.com.
Каталожные номера
[1] Ж.-К. Саймон и О. Барет, «Закономерности и особенности в линейных изображениях», в Анализ изображений структурированных документов , Берлин, Гейдельберг: Springer Berlin Heidelberg, 1992, стр. 261–281.
[2] Дж. Махоул, Р. Шварц, К. Лапре и И. Бацци, «Независимая от сценария методология оптического распознавания символов», Pattern Recognit. , том. 31, нет. 9, стр. 1285–1294, 1998.
[3] Теодор Блюш, «Сегментация и транскрипция совместных строк для сквозного распознавания рукописных абзацев», на 30-й конференции по системам обработки нейронной информации, 2016 г.
[4] Денис Кокне, Клеман Шатлен, Тьерри Паке, «Сквозное распознавание рукописного абзаца с использованием вертикальной сети внимания», IEEE Transactions on Pattern Analysis and Machine Intelligence (TPMI), 2022.
- Archives parlementaires , Национальная библиотека Франции. https://gallica.bnf.fr/ark:/12148/bpt6k480090t
Запутанные истории: OCR + HTR = ATR: автоматическое распознавание текста
06 января 2020
Inhoudsblokken
Body
Чем более современными становятся книги, тем проще можно применять оптическое распознавание символов (OCR). Во многом это связано со сходством со стандартным шрифтом, конечным количеством символов, меньшим количеством шума на страницах. Однако чем старше книги, тем больше проблем с распознаванием текста возникает, особенно при печати готическим шрифтом. Даже римский шрифт представляет собой проблему с длинной s (ſ), где s очень похожа на f. Поиск текста, когда символы не распознаются должным образом, является проблемой, часто заставляющей исследователей возвращаться к оригиналам, поскольку компьютер плохо справился с задачей. Я не хочу утверждать, что тексты, которые были расшифрованы в «Запутанных историях», безупречны, поскольку мы столкнулись с рядом проблем (о которых я расскажу здесь и в других блогах). Тем не менее, мы считаем, что корпус значительно улучшился и может использоваться для более продвинутого поиска текстов.
Организовав несколько семинаров на Транскрибусе, я узнал, что это Распознавание Рукописного Текста (HTR) можно так же легко применять к печатным текстам, потому что мы можем считать их очень правильным почерком. Помня об этом, мы решили протестировать Transkribus в рамках этого проекта, чтобы убедиться, что он действительно может достичь качества, при котором уровень ошибок символов (CER) составляет менее 5%. Транскрибус действительно требует обучения — сначала компьютер может видеть только пиксели и не будет знать, где найти текст (пока), если человек не укажет на него. Таким образом, после того, как все книги таинств (108) были загружены в Transkribus, мы могли начать (1) автоматический анализ макета, а затем (2) начать их расшифровку – частично – чтобы иметь достаточно GroundTruth для создания моделей, которые будут автоматически расшифровать остальные тексты.
Используете ABBYY или Transkribus, или и то, и другое?
Транскрибус имеет встроенный OCR-движок ABBYY FineReader (v.11). Печатные тексты можно сначала пропустить через ABBYY, чтобы они были максимально распознаны. Как уже было сказано, у этого есть некоторые недостатки:
- ABBYY нацелен на современные тексты (конечное количество символов, не слишком много шума на странице), чего нельзя сказать о ранних современных текстах.
- Вы можете выбрать «Готический» или «смешанный» (римский и готический) — но это не очень хорошо работает для старых текстов. Даже если вы применяете готику, предполагается, что вы имеете дело с немецкой готикой (Fraktur), которая отличается от голландской готики.
Он также имеет ряд преимуществ:
- В него встраивается информация о размере шрифтов, курсиве и полужирном (не безупречном).
- Распознает довольно много текста (не без ошибок).
Но, по крайней мере, часть текста уже распознана, а это значит, что другие части становится легче транскрибировать (исправление требует меньше усилий, чем расшифровка с нуля). Кроме того, когда вы расшифровали несколько страниц (по крайней мере, 10–15), становится интересно создать модель для уже расшифрованных страниц. Создание наземной истины становится итеративным процессом, в котором автоматические транскрипции становятся все лучше и требуют меньше исправлений. Transkribus имеет возможность проверить, все ли символы уже включены в ваш набор. Если, скажем, числа еще не завершены, вы, по крайней мере, знаете об этом, когда запускаете модель на следующих нескольких страницах. Вы уже будете знать, где недостатки модели и что нужно улучшить. Другие символы, которые вы уже включили на предыдущих страницах, теперь, скорее всего, будут правильными, поэтому исправление требует еще меньше усилий, чем раньше.
Почему я должен выбрать HTR вместо OCR?
Это действительно справедливый вопрос, который много раз приходил мне в голову. Итак, вот небольшая таблица информации:
ОКР (ABBYY/ТЕССЕРАКТ/КРАКЕН) | HTR (Транскрибус) |
Сосредоточьтесь на отдельных символах, поэтому контекст не используется | Сосредоточьтесь как на отдельных символах, так и на контексте (на основе предложения с n-граммой) |
Желательно чистый фон | Предпочтительно чистый фон, но с акцентом на области текста (сложности на пустых страницах) |
Внезапная смена языка/знаков может вызвать проблемы | Внезапная смена языка/символов может вызвать проблемы |
Обученный – стационарный – инструмент | Вы создаете истину и можете создать модель, соответствующую вашему тексту |
Поскольку вы отвечаете за создание достоверной информации для Transkribus или применяете модель, которая (почти) соответствует вашим потребностям; вы более уверены в качестве продукции.
Тренировочные модели, HTR и HTR+
Чтобы иметь возможность обучать модели, необходимо напрямую запросить команду Transkribus в Инсбруке. Пройдет несколько дней, и вдруг на вашем экране появится кнопка, позволяющая обучать модели. При желании вы можете сразу запросить функцию HTR+. Что это такое? Когда вы хотите обучать модели, вы получаете доступ к HTR, который позволяет вам обучать модель с помощью 40 эпох. Если вы запрашиваете опцию обучения в HTR+, количество эпох увеличивается до 200 эпох — за равное количество времени; и можно даже выбрать ручное изменение количества эпох до более чем 1000. Эпохи — это время, когда высокопроизводительный компьютер (HPC) в Инсбруке просматривает ваши тексты, прежде чем определить конечный результат модели.
Помните, что нужно обучить несколько страниц, прежде чем компьютер якобы распознает руку или шрифт? Базовые линии — линии, проведенные под символами в вашем тексте — на ваших изображениях направляют компьютер туда, куда он должен смотреть; затем ваши расшифровки «показывают» то, что компьютер должен понимать из пятен на странице. Когда вы назначаете обучающие страницы и тестовые страницы, пока компьютер работает над моделью, компьютер просматривает все эти страницы. Как для учебных, так и для тестовых страниц у вас есть транскрипция в поле транскрипции.
Afbeelding
Image
Bijschrift
Источник: Скриншот Transkribus (v. 1.9.0.7) — показывает готический указ XVI века и транскрипцию.
Тело
Итак, компьютер сначала просматривает тренировочные страницы, изучая, как выглядят капли и что вы, как тренер, хотите, чтобы он увидел словами. Затем он просмотрит тестовые страницы и увидит, сможет ли он расшифровать их самостоятельно, с проверкой предоставленных расшифровок. Он продолжает двигаться вперед и назад, становясь умнее в процессе. Вот почему график показывает довольно проблемные результаты в начале, улучшаясь к концу, потому что он видел текст, учился на мельчайших элементах в «каплях» и узнавал, например, что-то. «л» или «1». Чем больше он обучается, т. е. чем больше обучающего материала, тем лучше он будет работать. Имейте в виду, что вам потребуется около 10% ваших транскрипций для размещения в тестовой группе.
Переобучение и идеальный размер корпуса
Недавно Гандрам Лейферт (Университет Ростока) ответил на часто задаваемый вопрос на форуме Facebook «Пользователи Transkribus»: сколько обучающих выборок мне нужно для обучения хороших данных? Gundram — один из разработчиков HTR-компонента Transkribus. На этот вопрос он ответил, что нужно: «[…] не менее 1000 строк текста, но чем больше, тем лучше» (10 сентября 2019 г.).
Знак
Изображение
Bijschrift
Источник: график, обученный (всего!) 777 строк, 5415 слов. Это показывает переоснащение, поскольку набор поездов очень низкий, но набор проверки не приближается.
Afbeelding
Image
Bijschrift
Источник: график, обученный почти на 7142 строках, 51143 слова.
Тело
Почему это важно? Если Transkribus просмотрел слишком мало обучающих образцов, HTR научился только на основе представленной Истинной Основы (GT) и будет меньше работать с невидимым материалом. Это называется «переоснащение». HTR должен выучить общие правила текста и символов. Как узнать, есть ли случай «переоснащения»? Transkribus создает графики, соответствующие моделям. Всегда важно смотреть на них, поскольку они предоставляют вам общую информацию о данных, которые использовались для создания модели, и о том, насколько хорошо она работает. Если ошибка обучения продолжает уменьшаться, а ошибка теста остается постоянной, то имеет место случай переобучения и следует добавить дополнительный обучающий материал. Другими словами, HTR еще не усвоил общие правила расшифровки текста и нуждается в дополнительном учебном материале. Если же кривые и обучения, и теста очень долго остаются на одном и том же расстоянии друг от друга, но показывают, что обучаются, следует добавить дополнительные эпохи для обучения модели.
Обучение корпуса, который не может или с трудом может быть прочитан через OCR, с помощью HTR(+) очень полезно, так как автоматическое распознавание текста сначала обучается вручную на нескольких страницах, результаты намного лучше, чем у нас ожидалось сначала.
Ваш комментарий будет первым