Текст с картинки: распознавание изображений

Ноутбук

Как это работает?

OCR — это оптическое распознавание изображений, которое работает онлайн на tesseract.js. Технология идентифицирует и преобразует отсканированные печатные символы в электронный формат. Его легче распознать компьютером и другими программами. Грубо говоря, технология распознает текст, изучая его и переводя символы в код для дальнейшей обработки данных. Это означает, что физический документ становится машиночитаемым.

Программа OCR преобразует документ в черно-белую или двухцветную версию. Затем растровое изображение анализируется на наличие темных областей (текст) и светлых областей (фон). Затем темные области оцениваются как символы, которые на следующем этапе распознаются технологией для цифр или букв.

Для чего может использоваться программа?

Услуга полезна тем, кому необходимо перевести текст со сканера в электронный вид или

распознать текст на изображении и получить его как текстовый документ. Технология часто используется специалистами, работающими с большим объемом литературы и физических документов. Ввести такой текст вручную может быть невозможно.

Отсканированный текст может быть отредактирован и отформатирован пользователем в стандартном редакторе. Это упрощает обработку больших объемов текстов, изначально существующих вне электронного формата.

Readiris 17

Платформа: Windows, macOS

Лицензия: пробная версия; от $129

Распознает: JPEG, TIFF, PNG, BMP, PDF

Сохраняет: PDF, TXT, PPTX, DOCX, XLSX

Реадирис 17

Readiris — один из немногих PDF-редакторов, способных различать печатный текст и даже рукописный текст и преобразовывать его в стандартную текстовую матрицу. Программу можно использовать как сканер текста с изображением, так как она работает со всеми популярными моделями сканирующих устройств. Программа корректно распознает символы кириллицы и показывает высокую точность результатов. Пробная версия доступна в полном функционале в течение 10 дней.

Характеристики:

  • позволяет захватывать и оптимизировать изображения со сканера;
  • работает с более чем 170 языками и проверяет наличие ошибок;
  • сохраняет исходное форматирование документа;
  • распознает таблицы, штрих-коды, формулы, нестандартные символы.

Преимущества:

  • есть пакетный режим;
  • есть инструменты редактирования.

Минусы:

  • непрактичная рабочая панель;
  • высокая стоимость полной версии.

Распознавание текста онлайн без регистрации

Online OCR

Online OCR http://www.onlineocr.net/ — единственный сервис помимо Abbyy Finereader, который позволяет сохранять изображения в выходном формате вместе с текстом. Вот как выглядит распознанный вариант в формате вывода Word:

онлайн окр гостиница
Результат распознавания в онлайн OCR (полное имя и дата распознаны, но удалены вручную)

Форматы ввода PDF, TIF, JPEG, BMP, PCX, PNG, GIF
Выходные форматы Word, Excel, Adobe PDF, обычный текст
Размер файла До 5 Мб без регистрации и до 100 Мб с ней
Ограничения Не распознает более 15 изображений в час без регистрации
Качество Качество распознавания улик постоялого двора оказалось хорошим. Что-то вроде Abbyy Finereader — какие-то части документа лучше распознавались тем сервисом, а какие-то — этим.

Как пользоваться

  1. Загрузите файл (нажмите «Выбрать файл»)
  2. Выберите язык и формат вывода
  3. Введите капчу и нажмите «Конвертировать»

онлайн распознавание

Ссылка на выходной файл (текст с изображениями) и окно с текстовым содержимым показаны ниже

Free Online OCR

Бесплатное онлайн-распознавание текста https://www.newocr.com/ позволяет выделять части изображения. Отправляет результат в текстовом формате (изображения не сохраняются).

Форматы ввода PDF, DjVu JPEG, PNG, GIF, BMP, TIFF
Выходные форматы Text Plain (также можно загрузить PDF и Word, но они по-прежнему содержат неформатированный текст и изображения).
Размер файла До 5 Мб без регистрации и до 100 Мб с ней
Ограничения Без ограничений по количеству
Качество Качество признания таверны оставляет желать лучшего.

Вы можете распознавать как целое, так и выделять часть изображения для распознавания.

Как пользоваться

  1. Выберите файл или вставьте URL-адрес файла и нажмите «Предварительный просмотр» — изображение будет загружено и отображено в окне браузера
    Обязательно введите правильный язык.
  2. Выделите область сканирования (можно оставить полностью как есть)Бесплатный онлайн-распознаватель
  3. Выберите языки, на которых написан текст на изображении, и нажмите кнопку «OCRБесплатный онлайн-распознаватель
  4. Внизу появится текстовое поле

OCR Convert

Преобразование OCR http://www.ocrconvert.com/txt

Форматы ввода Многостраничные PDF, JPG, PNG, BMP, GIF, TIFF
Выходные форматы Текст чистый
Размер файла Общий размер файла до 5 МБ за раз.
Ограничения До 5 файлов одновременно. Сколько раз.
Качество Качество признания сертификата Inn среднее. (имя частично опознано). Лучше, чем Google, но хуже, чем Finereader

Как пользоваться

      1. Загрузите файл, выберите язык и нажмите кнопку «Обработать

oCR-конвертеры

      1. Отображается ссылка на файл с распознанным текстом

oCR-конвертеры

Free OCR

Бесплатное распознавание символов www.free-ocr.com признало документ худшим.

Форматы ввода PDF, JPG, PNG, BMP, GIF, TIFF
Выходные форматы Текст чистый
Размер файла До 6 Мб
Ограничения Распознается только первая страница файла PDF
Качество Качество распознавания сертификата гостевого дома низкое — правильно распознаются только три слова.

Как пользоваться

      1. Выберите файл
      2. Выберите язык на изображении
      3. Нажмите кнопку «Пуск

бесплатное распознавание

I2OCR

I2OCR http://www.i2ocr.com/ — хороший сервис со средним качеством печати. У него приятный дизайн, нет ограничений по количеству узнаваемых изображений. Но временами зависает.

Форматы ввода JPG, PNG, BMP, TIF, PBM, PGM, PPM
Выходные форматы Text Plain (также можно загрузить PDF и Word, но они по-прежнему содержат неформатированный текст и изображения).
Размер файла До 10 Мб
Ограничения нет
Качество Качество распознавания свидетельства ИНН среднее — сравнимо с OCR Convert.

Отмечается, что сервис время от времени не работает.

Как пользоваться

  1. Выберите ваш язык
  2. Скачать файл
  3. Введите капчу
  4. Нажмите кнопку «Извлечь текст
  5. Нажав кнопку «Скачать», вы можете скачать выходной файл в нужном формате
      1. i2ocr

Какой текст распознается лучше всего?

Чтобы сервис распознавал текст без ошибок, он должен соответствовать следующим требованиям:

  • отсканированная копия или четкое изображение текста на камеру телефона;
  • все знаки равны;
  • контраст между фоном и буквами;
  • текст хорошо читается;
  • обычный текстовый фон.

Сервис не распознает рукописный текст, капчу или текст с неровным или шумным фоном.

Читайте также: USB-кабель для принтера: выбор провода для подключения принтера, виды разъема, шнуры 3-5 метров и другой длины

Обзор программного обеспечения

Условно все приложения можно разделить на три категории:

  • Оплаченный.
  • Бесплатно.
  • Онлайн-сервисы.

Рассмотрим несколько вариантов из каждого раздела.

3. Распознавание текста документа

Мы предполагаем, что вы получили драгоценные отсканированные страницы. Чаще всего это форматы: tif, bmb, jpg, png. В общем, для ABBYY FineReader это не очень важно…

После открытия изображения в ABBYY FineReader программа обычно автоматически начинает выделять области и распознавать их. Но иногда она ошибается. Для этого рассмотрим выделение нужных областей вручную.

Важно! Не все сразу понимают, что после открытия документа в программе исходный документ появляется слева в окне, где вы выбираете разные области. После нажатия кнопки «распознать» программа покажет вам готовый текст в окне справа. После распознавания также неплохо проверить текст на наличие ошибок в том же FineReader.

3.1 Текст

Эта область используется для выделения текста. Рисунки и таблицы должны быть исключены из него. Редкие и необычные шрифты необходимо вводить вручную…

Чтобы выделить текстовую область, обратите внимание на строку вверху FineReader. Есть кнопка «Т» (см скриншот ниже, указатель мыши находится только на этой кнопке). Нажмите на нее, затем выберите красивую прямоугольную область, где будет размещен текст на изображении ниже. Кстати, в некоторых случаях нужно создавать текстовые блоки по 2-3, а иногда и по 10-12 на страницу, т.к форматирование текста может быть разным и одним прямоугольником всю область выделить нельзя.

Важно отметить, что изображения не должны попадать в область текста! Это сэкономит вам много времени позже…

3.2 Картинки

Он используется для выделения изображений и тех областей, которые трудно распознать из-за плохого качества или необычного написания.

На снимке экрана ниже указатель мыши находится на кнопке, используемой для выбора области «изображения». Кстати, в этой области можно выделить абсолютно любую часть страницы, и FineReader потом вставит ее в документ как обычное изображение. Они просто «тупо» копируют…

Обычно эта область используется для выделения плохо отсканированных таблиц, для выделения нестандартного текста и шрифтов, конечно же, изображений.

картинки

3.3 Таблицы

На скриншоте ниже показана кнопка для выбора столов. На самом деле, я редко использую его лично. Дело в том, что приходится довольно рутинно рисовать (по сути) каждую строчку на таблице и показывать, что и как должна делать программа. Если таблица маленькая и не очень хорошего качества, рекомендую использовать для этой цели область «изображение». Это сэкономит вам много времени, а потом вы сможете быстро создать таблицу в Word на основе изображения.

стол

3.4 Ненужные элементы

Важно отметить. Иногда на странице встречаются лишние элементы, которые мешают распознаванию текста, либо вообще не позволяют выделить нужную область. Их можно полностью удалить с помощью «ластика.

Для этого перейдите в режим редактирования изображения.

Выберите ластик и выберите ненужную область. Он будет удален, а на его месте останется белый лист.

Кстати, я рекомендую вам использовать эту опцию как можно чаще. Попробуйте все выделенные вами области текста, где вам не нужен кусок текста, или есть лишние точки, размытие, искажения — сотрите ластиком. Благодаря этому признание пойдет быстрее!

Adobe Scan

Платформа: Андроид, iOS

Лицензия: условно-бесплатная; от 349 руб

Распознает: изображения с камеры

Сохраняет: PDF

Адоб Скан

Как и продукт Microsoft, Adobe Scan также сканирует текстовые данные с помощью мобильной камеры. Результат сохраняется в виде документа PDF, оптимизированного для редактирования в программе Acrobat. Все результаты автоматически сохраняются в Adobe Document Cloud.

Характеристики:

  • подходит для различных видов информации: книга, доска, сертификат, визитка;
  • автоматическое сканирование среды на наличие документов;
  • редактировать созданные изображения;
  • расшифровка и использование встроенных форм.

Преимущества:

  • не требует оплаты;
  • файлы могут быть защищены;
  • корректно работает с русскими буквами.

Минусы:

  • нет автосохранения;
  • для использования приложения требуется регистрация.

Как оптимизировать фото, скриншот, изображение для лучшего качества преобразования?

Следуйте предыдущему пункту и старайтесь добиться максимального контраста между фоном и символами, при этом фон должен быть максимально однотонным.

4. Распознавание файлов PDF/DJVU

В целом этот формат распознавания ничем другим не будет отличаться от остальных — т.е с ним можно работать так же, как и с изображениями. Единственное, программа не должна быть слишком старой версии, если у вас не открываются файлы PDF/DJVU — обновите версию до 11.

Небольшой совет. После открытия документа в FineReader он автоматически начнет распознавать документ. Часто в файлах PDF/DJVU определенная область страницы не нужна во всем документе! Чтобы удалить такую ​​область на всех страницах, сделайте следующее:

1. Перейдите в раздел редактирования фотографий.

2. Включите опцию «обрезать».

3. Отметьте нужную область на всех страницах.

4. Нажмите на использование на всех страницах и обрежьте.

Online OCR

Платформа: веб

Лицензия: условно-бесплатная

Распознает: JPG, GIF, TIFF, BMP, PNG, PCX, PDF

Сохраняет: TXT, DOC, DOCX, XLSX, PDF

Онлайн-распознавание текста

На этом сервисе пользователи могут бесплатно выполнять распознавание текста и сохранять результат в редактируемых текстовых файлах без установки какого-либо программного обеспечения. Поддерживает работу со сканами, популярными графическими форматами, сканами и PDF. Без регистрации и оплаты распознавание доступно только 15 страниц в час. После авторизации этот лимит увеличивается до 50, а также увеличивается разрешенный размер (200 МБ).

Характеристики:

  • обработка текста в зависимости от особенностей исходного языка;
  • редактировать результат в режиме реального времени;
  • объединить обработанные файлы в единый проект;
  • анализ отдельных страниц документа.

Преимущества:

  • практичный русскоязычный менеджмент;
  • автоматический детектор типа документа;
  • история загруженных файлов.

Минусы:

  • загруженные изображения нельзя редактировать;
  • не всегда нужный результат.

Как пользоваться сервисом?

Для вас технология работает просто:

  1. Сделайте снимок с помощью телефона/камеры или отсканируйте текст, чтобы его можно было распознать. Поддерживаемые форматы: jpg, jpeg, png, bmp, pbm.
  2. Нажмите на кнопку «Загрузить файл».
  3. Выберите файл на своем компьютере.
  4. Дождитесь обработки вашего документа — это займет не более 1 минуты.
  5. Скопируйте текст и сохраните результат в удобном для вас формате:
    • Пустой текст (txt)
    • Адоб Акробат (pdf)
    • Microsoft Word (docx)
    • Опен-офис (неопр)
    • и так далее.

Скачивание файлов с сайта в готовом/выбранном формате будет реализовано позже.

Вы можете распознать любое количество файлов бесплатно. Регистрация или оплата не требуется.

Microsoft OneNote

Платформа: Windows, macOS

Лицензия: бесплатно

Распознает: JPEG, TIFF, PNG, BMP

Сохраняет: JPEG, TIFF, PNG, BMP

Майкрософт OneNote

Ноутбук от разработчика Microsoft работает как отдельная программа, также его можно приобрести в комплекте с программным обеспечением MS Office Office. Хотя ПО также распространяется в виде мобильного приложения, распознавание текста с изображения поддерживается только в десктопной версии на компьютере. Хотя информацию на изображениях нельзя изменить, данные можно скопировать и вставить в текстовый редактор.

Характеристики:

  • загружать изображения с жесткого диска или подключенной камеры;
  • скрыть выделенные области изображения;
  • вы можете добавлять заметки и преобразовывать их в редактируемый текст;
  • прослушивание обычного текста.

Преимущества:

  • автоматическое резервное копирование в облако предотвратит потерю важных данных;
  • в документе есть опция переводчика текста и проверка орфографии.

Минусы:

  • требует входа в систему с учетной записью Microsoft;
  • текст на изображениях нельзя редактировать.

2. Параметры сканирования текста

Здесь я не буду рассказывать о ваших драйверах для сканера, программах, которые к нему прилагались, потому что все модели сканеров разные, ПО тоже везде разное, и угадать, а тем более наглядно показать, как выполнить операцию, нереально.

Но все сканеры имеют одинаковые настройки, которые могут сильно повлиять на скорость и качество вашей работы. Давайте просто поговорим о них здесь. Я перечислю по порядку.

1) Качество сканирования — DPI

Во-первых, установите качество сканирования в настройках не ниже 300 DPI. Желательно выставить больше, если есть возможность. Чем выше DPI, тем четче будет ваше изображение, а значит, дальнейшая обработка будет быстрее. Кроме того, чем выше качество сканирования, тем меньше ошибок вам придется потом исправлять.

Наилучший вариант обычно обеспечивает 300-400 DPI.

2) Цветность

Этот параметр очень сильно влияет на время сканирования (кстати DPI тоже влияет, но они такие сильные, и только когда пользователь ставит высокие значения).

Обычно есть три режима:

— черно-белый (идеально подходит для обычного текста);

— серый (подходит для текста с таблицами и изображениями);

— цветной (для цветных журналов, книг вообще, документов, где важен цвет).

Как правило, время сканирования зависит от выбора цвета. Ведь если ваш документ большой, то даже лишние 5-10 секунд на странице в целом выльются в приличное время…

3) Картинки

Получить документ можно не только отсканировав, но и сфотографировав его. Как правило, в этом случае у вас будут какие-то другие проблемы: искажение изображения, размытие. Из-за этого может потребоваться более длительное дальнейшее редактирование и обработка полученного текста. Лично я не рекомендую использовать камеры для этого дела.

Важно отметить, что не все такие документы можно распознать, потому что качество сканирования может быть крайне низким…

Freemore OCR

Платформа: Windows

Лицензия: бесплатно

Распознает: JPEG, TIFF, PNG, BMP, PSD

Сохраняет: DOC, TXT

Распознавание символов Freemore

Freemore OCR — это простая в использовании программа, которая считывает текст с изображений или из нередактируемых PDF-файлов. Работа выполняется в двухоконном режиме, что особенно удобно при проверке точности результатов. Следует отметить, что при загрузке файл помечается как подозрительный; во время установки некоторые антивирусы должны быть отключены на некоторое время.

Характеристики:

  • корректно распознает текст, расположенный вокруг графических элементов;
  • позволяет встроить цифровую подпись;
  • есть варианты ручного редактирования результата;
  • экспортировать как новый файл или скопировать весь текст в буфер обмена.

Преимущества:

  • работает с файлами, защищенными паролем;
  • очень легко ориентироваться в меню.

Минусы:

  • не распознает кириллицу;
  • во время установки загружает рекламное ПО.

RiDoc

Программа для распознавания текста с изображения или со сканера с бесплатным периодом 30 дней. Вы можете скачать это здесь.

Приложение имеет хороший функционал и доступный интерфейс. Чтобы скачать изображение, нажмите кнопку «Открыть».

Затем кнопка «Распознать».

В итоге получаем готовый результат. Его можно открыть в Word или OpenOffice.

Вот результат.

Тоже не идеально, но намного больше, чем в предыдущем случае.
Вы также можете использовать водяной знак или склеить несколько изображений вместе.

ReadIris

Платный программный продукт с пробной версией на 100 страниц или 10 дней. Скачать программу для OCR-сканера можно с официального сайта здесь.

Разработчик — бельгийская компания IRIS, созданная в 1986 году. Основная специализация — технологии и продукты для интеллектуального распознавания документов.

Программа преобразует изображение, файл PDF или отсканированный документ в полностью редактируемый текстовый файл. Извлекает текст из ваших документов, сохраняя макет исходного файла. Имеет следующие функции:

  • конвертировать файлы Word, Excel и PowerPoint в индексированные PDF-файлы;
  • конвертировать документы с помощью контекстного меню;
  • показатель качества импортируемых документов;
  • автоматическое распознавание сканеров;
  • модуль коррекции перспективы.

Интерфейс программы русифицирован (задается при установке) и достаточно прост.

Нажимаем кнопку «Из файла» и выбираем наше изображение. Программа автоматически разделила его на два блока.

Для распознавания нажмите кнопку «Открыть» и укажите путь к изображению. Формат указан строкой выше.

Результат превзошел все ожидания. Даже надпись сохранилась.

Вы можете отправить документ по почте или в облако. Для этого нажмите на список выше и выберите. По умолчанию сохраняется в файл.

Эта программа стоит примерно 6000 рублей.

ABBYY FineReader

Самая известная и раскрученная программа.

Платная стоимость 6990 руб. Российская разработка 1993 года до сих пор считается одной из лучших в мире. Ключевая особенность:

  • Распознавание таблиц и графиков, математических формул.
  • Просмотр и навигация в формате PDF.
  • Создание и прямое редактирование pdf.
  • Работа с цифровой подписью.
  • Сравнение документов.
  • Добавление комментариев.

Программа имеет много возможностей. Интерфейс русифицирован и доступен.

После нажатия кнопки «Открыть» и выбора изображения начинается автоматическое разделение на блоки.

Нажмите соответствующую кнопку, чтобы начать процесс.

Затем остается выбрать, в каком формате сохранить и указать папку, в которой должен быть сохранен документ.

Откроем результат. Как видите, признание прошло отлично.

Давайте снова сравним его с ReadIris.

Первый вариант (Finereader) работает безупречно. Таким образом, мы могли бы отдать пальму первенства этой программе. По цене они сопоставимы, поэтому разница в 600-700 рублей особой роли не играет.

img2text

Платформа: веб

Лицензия: бесплатно

Распознает: JPEG, PNG, PDF

Сохраняет: PDF, TXT, DOCX, ODF

img2text

Бесплатный инструмент работает с популярными графическими форматами и нередактируемыми PDF-документами. Сервис ведет журнал ваших действий, поэтому, если произойдет внезапное отключение сети, вы сможете вернуться к работе без перезагрузки. Разработчики постоянно улучшают свой продукт и добавляют новые функции, на данный момент в нем есть инструмент перевода и также анонсирована возможность импорта файла по ссылке.

Характеристики:

  • изменять преобразованный текст прямо на сайте;
  • перевод иностранных документов;
  • программа проверки орфографии;
  • копирует результат в буфер обмена.

Преимущества:

  • работает совершенно бесплатно;
  • высокая скорость загрузки и обработки.

Минусы:

  • документ не должен содержать изображений, таблиц и колонок;
  • не работает корректно с файлами, использующими несколько языков.

OCR CuneiForm

Платформа: Windows, Linux, macOS

Лицензия: бесплатно

Распознает: JPG, TIFF, BMP, PNG, изображения со сканера

Сохраняет: docx

OCR CuneiForm

Программа распознавания фотографий CNeiForm OCR нацелена только на одно действие — захват изображений со сканера и преобразование текстовой информации на них. Также разрешено открывать графические файлы с персонального компьютера. После этого работу можно продолжить в любом текстовом редакторе. Допускается работа в одиночном или пакетном режиме.

Характеристики:

  • можно использовать вместо стандартного ПО для сканирования;
  • конвертировать графические файлы в редактируемый документ Word;
  • анализ документа на наличие форм, таблиц, изображений;
  • поиск в созданном текстовом файле;
  • узнаваемость в отдельных выделенных областях.

Преимущества:

  • сохраняет исходную структуру документа и его форматирование;
  • можно запустить в автоматическом режиме или настроить параметры;
  • специальный режим для матричного принтера.

Минусы:

  • допускается разрешение не выше 600;
  • не показал очень хороших результатов с изображением низкого качества.

Что можно делать с распознанным текстом?

Теперь у вас есть большой выбор манипуляций с готовым текстом:

  • копировать;
  • проверить правописание;
  • редактировать;
  • сделать SEO-анализ текста для подсчета слов и символов;
  • сохранить в файл для дальнейшей работы с ним на вашем устройстве.

Преимущества сервиса

  1. В несколько кликов вы получаете текст с изображения, готовый к редактированию и обработке.
  2. Все строго конфиденциально и защищено SSL+ сертификатом+.
  3. Ваши файлы и распознанные тексты не хранятся в сервисе и никак не оцениваются.
  4. Максимум 1 минута для распознавания файла.
  5. Используйте сервис без регистрации.
  6. Не требует установки на компьютер, вся работа выполняется в любом веб-браузере.

Платные и бесплатные программы

OCR CuneiForm

Бесплатная программа для распознавания отсканированного текста, которую можно скачать здесь.

Скачать OCR CuneiForm

Приложение было разработано в 1993 году компанией Cognitive Technologies. Одной из главных особенностей того времени была возможность распознавать смесь русского и английского языков. В 2009 году была добавлена ​​ветка, позволяющая распознавать смесь других языков. Программный продукт поставлялся со сканерами и МФУ ведущих производителей: Hewlet-Pachard, Epson, Xerox и др. последняя версия была выпущена в 2009 году.
После скачивания и установки пытаемся распознать текст. Давайте возьмем эту статью в качестве примера.


Интерфейс программы простой, меню на русском языке.

Нажмите на значок папки и загрузите изображение. Нажмите кнопку распознавания.

Результат не впечатляет. Разноцветный текст не распознается.

Несмотря на ярко выраженное использование различных словарей, английский также плохо распознавался.

В общем, идеальное изображение можно перевести в символы, но чем ниже качество исходного изображения, тем ниже качество результата.
Следует отметить, что это единственная русифицированная программа распознавания текста для сканирования, которую нам удалось скачать бесплатно легально. У всех остальных в лучшем случае есть бесплатная пробная версия.

Office Lens

Платформа: Андроид, iOS

Лицензия: бесплатно

Распознает: изображения с камеры

Сохраняет: PDF, PPT, DOCX

Офисные линзы

Ранее Office Lens (также известный как Microsoft Lens) был доступен для ПК, но теперь компания прекратила поддержку настольной версии. Приложение превращает ваш телефон в продвинутый сканер, автоматически анализируя окружающую среду и делая снимок документа. Возможна также работа с изображениями с неправильным видом (положенными боком, вверх ногами, лежащими на неровной поверхности и так далее).

Характеристики:

  • исправить результат после создания снимка;
  • извлечение печатного и рукописного текста на русском и английском языках;
  • распознавание таблиц и контактов;
  • создать многостраничный документ из изображений.

Преимущества:

  • абсолютно бесплатно;
  • есть различные пресеты и настройки документов (лист, фото, доска, визитка);
  • отправлять файлы в облачное хранилище.

Минусы:

  • для подключения к модулю OCR необходимо зарегистрировать аккаунт;
  • неверные результаты при извлечении русских букв.

Abbyy FineReader

Платформа: Windows, iOS, Android, Интернет

Лицензия: пробный период, от 5388 в год

Распознает: JPG, TIF, BMP, PNG, PDF, сигнал сканера, изображения камеры

Сохраняет: DOC, DOCX, XLS, XLSX, ODT, TXT, RTF, PDF, PDF/A, PPTX, EPUB, FB2

Эбби FineReader

Abbyy FineReader известен своим точным механизмом распознавания текста, который позволяет быстро распознавать текст на изображении. Приложение можно использовать в качестве дигитайзера бумаги, поскольку оно включает в себя инструмент для прямого захвата изображений со сканера. Их можно мгновенно сохранить в любом доступном формате, включая текстовые документы, файлы HTML или PDF. В бесплатной версии есть ограничение на количество страниц: не более 10.

Характеристики:

  • большое количество доступных языков;
  • оптимизировать размер изображений с минимальной потерей качества;
  • автоматическая проверка орфографии и грамматики;
  • работа с многостраничными документами;
  • редактировать распознанный текст.

Преимущества:

  • высокая точность результата даже при низком качестве изображения.
  • умеет различать разные языки в документе;
  • доступен для установки на все версии Windows с любой разрядностью.

Минусы:

  • обновления продаются отдельно;
  • необходимо зарегистрировать аккаунт на официальном сайте;
  • исходное форматирование и стиль документа теряются.

Перевод текста на другие языки

Если вам нужны переводы большого количества обработанных текстов, свяжитесь с нами по электронной почте (contactistio@gmail.com), мы добавим эту возможность.

Яндекс OCR

Недавно открыл для себя этот сервис и мне понравилось качество и простота использования. На самом деле он предназначен для перевода загруженного изображения, но его также можно использовать для распознавания текста с изображения. Регистрация не требуется, ограничений на количество фотографий нет. В настоящее время он находится в стадии бета-тестирования.

Просто зайдите на https://translate.yandex.ru/ocr, загрузите изображение (можно перетащить) и нажмите «Открыть в переводчике». Открывается и текст с картинки, и перевод в правом поле.

Перетащите изображение
Перетащите изображениеРезультат распознавания
Результат распознавания

Convertio

Convertio hhttps://convertio.co/ru/ocr/ работает своеобразно, поэтому сравнивать его сложно. В общем мне не понравилось. Свидетельство ИНН, которое было загружено целиком, он не узнал, потому что плохо отличает текст от изображений. Ни одно слово не было распознано! Для проверки вырезал из ИНН кусок текста и узнал — у меня получилось.

Кроме того, он временами зависает, пытаясь что-то распознать.

Форматы ввода pdf, jpg, bmp, gif, jp2, jpeg, pbm, pcx, pgm, png, ppm, tga, tiff, wbmp, webp
Выходные форматы Обычный текст, PDF, Word, Excel, Pptx, Djvu, Epub, Fb2, Csv
Размер файла ?, зависит от тарифа
Ограничения 10 страниц бесплатно, дополнительные цены от $7.
Качество Оценить сложно — файл с изображениями (ИНН) вообще не распознался, распознан отдельный обрезанный кусок текста.

Замечено, что сервис иногда зависает при распознавании, возможно ваши фотографии ставятся в большую очередь на бесплатном тарифе.

Оцените статью
Блог про Steam