- Как это работает?
- Для чего может использоваться программа?
- Readiris 17
- Распознавание текста онлайн без регистрации
- Online OCR
- Как пользоваться
- Free Online OCR
- Как пользоваться
- OCR Convert
- Как пользоваться
- Free OCR
- Как пользоваться
- I2OCR
- Как пользоваться
- Какой текст распознается лучше всего?
- Обзор программного обеспечения
- 3. Распознавание текста документа
- 3.1 Текст
- 3.2 Картинки
- 3.3 Таблицы
- 3.4 Ненужные элементы
- Adobe Scan
- Как оптимизировать фото, скриншот, изображение для лучшего качества преобразования?
- 4. Распознавание файлов PDF/DJVU
- Online OCR
- Как пользоваться сервисом?
- Microsoft OneNote
- 2. Параметры сканирования текста
- Freemore OCR
- RiDoc
- ReadIris
- ABBYY FineReader
- img2text
- OCR CuneiForm
- Что можно делать с распознанным текстом?
- Преимущества сервиса
- Платные и бесплатные программы
- OCR CuneiForm
- Office Lens
- Abbyy FineReader
- Перевод текста на другие языки
- Яндекс OCR
- Convertio
Как это работает?
OCR — это оптическое распознавание изображений, которое работает онлайн на tesseract.js. Технология идентифицирует и преобразует отсканированные печатные символы в электронный формат. Его легче распознать компьютером и другими программами. Грубо говоря, технология распознает текст, изучая его и переводя символы в код для дальнейшей обработки данных. Это означает, что физический документ становится машиночитаемым.
Программа OCR преобразует документ в черно-белую или двухцветную версию. Затем растровое изображение анализируется на наличие темных областей (текст) и светлых областей (фон). Затем темные области оцениваются как символы, которые на следующем этапе распознаются технологией для цифр или букв.
Для чего может использоваться программа?
Услуга полезна тем, кому необходимо перевести текст со сканера в электронный вид или
распознать текст на изображении и получить его как текстовый документ. Технология часто используется специалистами, работающими с большим объемом литературы и физических документов. Ввести такой текст вручную может быть невозможно.
Отсканированный текст может быть отредактирован и отформатирован пользователем в стандартном редакторе. Это упрощает обработку больших объемов текстов, изначально существующих вне электронного формата.
Readiris 17
Платформа: Windows, macOS
Лицензия: пробная версия; от $129
Распознает: JPEG, TIFF, PNG, BMP, PDF
Сохраняет: PDF, TXT, PPTX, DOCX, XLSX
Readiris — один из немногих PDF-редакторов, способных различать печатный текст и даже рукописный текст и преобразовывать его в стандартную текстовую матрицу. Программу можно использовать как сканер текста с изображением, так как она работает со всеми популярными моделями сканирующих устройств. Программа корректно распознает символы кириллицы и показывает высокую точность результатов. Пробная версия доступна в полном функционале в течение 10 дней.
Характеристики:
- позволяет захватывать и оптимизировать изображения со сканера;
- работает с более чем 170 языками и проверяет наличие ошибок;
- сохраняет исходное форматирование документа;
- распознает таблицы, штрих-коды, формулы, нестандартные символы.
Преимущества:
- есть пакетный режим;
- есть инструменты редактирования.
Минусы:
- непрактичная рабочая панель;
- высокая стоимость полной версии.
Распознавание текста онлайн без регистрации
Online OCR
Online OCR http://www.onlineocr.net/ — единственный сервис помимо Abbyy Finereader, который позволяет сохранять изображения в выходном формате вместе с текстом. Вот как выглядит распознанный вариант в формате вывода Word:
Результат распознавания в онлайн OCR (полное имя и дата распознаны, но удалены вручную)
Форматы ввода | PDF, TIF, JPEG, BMP, PCX, PNG, GIF |
Выходные форматы | Word, Excel, Adobe PDF, обычный текст |
Размер файла | До 5 Мб без регистрации и до 100 Мб с ней |
Ограничения | Не распознает более 15 изображений в час без регистрации |
Качество | Качество распознавания улик постоялого двора оказалось хорошим. Что-то вроде Abbyy Finereader — какие-то части документа лучше распознавались тем сервисом, а какие-то — этим. |
Как пользоваться
- Загрузите файл (нажмите «Выбрать файл»)
- Выберите язык и формат вывода
- Введите капчу и нажмите «Конвертировать»
Ссылка на выходной файл (текст с изображениями) и окно с текстовым содержимым показаны ниже
Free Online OCR
Бесплатное онлайн-распознавание текста https://www.newocr.com/ позволяет выделять части изображения. Отправляет результат в текстовом формате (изображения не сохраняются).
Форматы ввода | PDF, DjVu JPEG, PNG, GIF, BMP, TIFF |
Выходные форматы | Text Plain (также можно загрузить PDF и Word, но они по-прежнему содержат неформатированный текст и изображения). |
Размер файла | До 5 Мб без регистрации и до 100 Мб с ней |
Ограничения | Без ограничений по количеству |
Качество | Качество признания таверны оставляет желать лучшего. |
Вы можете распознавать как целое, так и выделять часть изображения для распознавания.
Как пользоваться
- Выберите файл или вставьте URL-адрес файла и нажмите «Предварительный просмотр» — изображение будет загружено и отображено в окне браузера
Обязательно введите правильный язык. - Выделите область сканирования (можно оставить полностью как есть)
- Выберите языки, на которых написан текст на изображении, и нажмите кнопку «OCR
- Внизу появится текстовое поле
OCR Convert
Преобразование OCR http://www.ocrconvert.com/txt
Форматы ввода | Многостраничные PDF, JPG, PNG, BMP, GIF, TIFF |
Выходные форматы | Текст чистый |
Размер файла | Общий размер файла до 5 МБ за раз. |
Ограничения | До 5 файлов одновременно. Сколько раз. |
Качество | Качество признания сертификата Inn среднее. (имя частично опознано). Лучше, чем Google, но хуже, чем Finereader |
Как пользоваться
-
-
- Загрузите файл, выберите язык и нажмите кнопку «Обработать
-
-
-
- Отображается ссылка на файл с распознанным текстом
-
Free OCR
Бесплатное распознавание символов www.free-ocr.com признало документ худшим.
Форматы ввода | PDF, JPG, PNG, BMP, GIF, TIFF |
Выходные форматы | Текст чистый |
Размер файла | До 6 Мб |
Ограничения | Распознается только первая страница файла PDF |
Качество | Качество распознавания сертификата гостевого дома низкое — правильно распознаются только три слова. |
Как пользоваться
-
-
- Выберите файл
- Выберите язык на изображении
- Нажмите кнопку «Пуск
-
I2OCR
I2OCR http://www.i2ocr.com/ — хороший сервис со средним качеством печати. У него приятный дизайн, нет ограничений по количеству узнаваемых изображений. Но временами зависает.
Форматы ввода | JPG, PNG, BMP, TIF, PBM, PGM, PPM |
Выходные форматы | Text Plain (также можно загрузить PDF и Word, но они по-прежнему содержат неформатированный текст и изображения). |
Размер файла | До 10 Мб |
Ограничения | нет |
Качество | Качество распознавания свидетельства ИНН среднее — сравнимо с OCR Convert.
Отмечается, что сервис время от времени не работает. |
Как пользоваться
- Выберите ваш язык
- Скачать файл
- Введите капчу
- Нажмите кнопку «Извлечь текст
- Нажав кнопку «Скачать», вы можете скачать выходной файл в нужном формате
Какой текст распознается лучше всего?
Чтобы сервис распознавал текст без ошибок, он должен соответствовать следующим требованиям:
- отсканированная копия или четкое изображение текста на камеру телефона;
- все знаки равны;
- контраст между фоном и буквами;
- текст хорошо читается;
- обычный текстовый фон.
Сервис не распознает рукописный текст, капчу или текст с неровным или шумным фоном.
Читайте также: USB-кабель для принтера: выбор провода для подключения принтера, виды разъема, шнуры 3-5 метров и другой длины
Обзор программного обеспечения
Условно все приложения можно разделить на три категории:
- Оплаченный.
- Бесплатно.
- Онлайн-сервисы.
Рассмотрим несколько вариантов из каждого раздела.
3. Распознавание текста документа
Мы предполагаем, что вы получили драгоценные отсканированные страницы. Чаще всего это форматы: tif, bmb, jpg, png. В общем, для ABBYY FineReader это не очень важно…
После открытия изображения в ABBYY FineReader программа обычно автоматически начинает выделять области и распознавать их. Но иногда она ошибается. Для этого рассмотрим выделение нужных областей вручную.
Важно! Не все сразу понимают, что после открытия документа в программе исходный документ появляется слева в окне, где вы выбираете разные области. После нажатия кнопки «распознать» программа покажет вам готовый текст в окне справа. После распознавания также неплохо проверить текст на наличие ошибок в том же FineReader.
3.1 Текст
Эта область используется для выделения текста. Рисунки и таблицы должны быть исключены из него. Редкие и необычные шрифты необходимо вводить вручную…
Чтобы выделить текстовую область, обратите внимание на строку вверху FineReader. Есть кнопка «Т» (см скриншот ниже, указатель мыши находится только на этой кнопке). Нажмите на нее, затем выберите красивую прямоугольную область, где будет размещен текст на изображении ниже. Кстати, в некоторых случаях нужно создавать текстовые блоки по 2-3, а иногда и по 10-12 на страницу, т.к форматирование текста может быть разным и одним прямоугольником всю область выделить нельзя.
Важно отметить, что изображения не должны попадать в область текста! Это сэкономит вам много времени позже…
3.2 Картинки
Он используется для выделения изображений и тех областей, которые трудно распознать из-за плохого качества или необычного написания.
На снимке экрана ниже указатель мыши находится на кнопке, используемой для выбора области «изображения». Кстати, в этой области можно выделить абсолютно любую часть страницы, и FineReader потом вставит ее в документ как обычное изображение. Они просто «тупо» копируют…
Обычно эта область используется для выделения плохо отсканированных таблиц, для выделения нестандартного текста и шрифтов, конечно же, изображений.
3.3 Таблицы
На скриншоте ниже показана кнопка для выбора столов. На самом деле, я редко использую его лично. Дело в том, что приходится довольно рутинно рисовать (по сути) каждую строчку на таблице и показывать, что и как должна делать программа. Если таблица маленькая и не очень хорошего качества, рекомендую использовать для этой цели область «изображение». Это сэкономит вам много времени, а потом вы сможете быстро создать таблицу в Word на основе изображения.
3.4 Ненужные элементы
Важно отметить. Иногда на странице встречаются лишние элементы, которые мешают распознаванию текста, либо вообще не позволяют выделить нужную область. Их можно полностью удалить с помощью «ластика.
Для этого перейдите в режим редактирования изображения.
Выберите ластик и выберите ненужную область. Он будет удален, а на его месте останется белый лист.
Кстати, я рекомендую вам использовать эту опцию как можно чаще. Попробуйте все выделенные вами области текста, где вам не нужен кусок текста, или есть лишние точки, размытие, искажения — сотрите ластиком. Благодаря этому признание пойдет быстрее!
Adobe Scan
Платформа: Андроид, iOS
Лицензия: условно-бесплатная; от 349 руб
Распознает: изображения с камеры
Сохраняет: PDF
Как и продукт Microsoft, Adobe Scan также сканирует текстовые данные с помощью мобильной камеры. Результат сохраняется в виде документа PDF, оптимизированного для редактирования в программе Acrobat. Все результаты автоматически сохраняются в Adobe Document Cloud.
Характеристики:
- подходит для различных видов информации: книга, доска, сертификат, визитка;
- автоматическое сканирование среды на наличие документов;
- редактировать созданные изображения;
- расшифровка и использование встроенных форм.
Преимущества:
- не требует оплаты;
- файлы могут быть защищены;
- корректно работает с русскими буквами.
Минусы:
- нет автосохранения;
- для использования приложения требуется регистрация.
Как оптимизировать фото, скриншот, изображение для лучшего качества преобразования?
Следуйте предыдущему пункту и старайтесь добиться максимального контраста между фоном и символами, при этом фон должен быть максимально однотонным.
4. Распознавание файлов PDF/DJVU
В целом этот формат распознавания ничем другим не будет отличаться от остальных — т.е с ним можно работать так же, как и с изображениями. Единственное, программа не должна быть слишком старой версии, если у вас не открываются файлы PDF/DJVU — обновите версию до 11.
Небольшой совет. После открытия документа в FineReader он автоматически начнет распознавать документ. Часто в файлах PDF/DJVU определенная область страницы не нужна во всем документе! Чтобы удалить такую область на всех страницах, сделайте следующее:
1. Перейдите в раздел редактирования фотографий.
2. Включите опцию «обрезать».
3. Отметьте нужную область на всех страницах.
4. Нажмите на использование на всех страницах и обрежьте.
Online OCR
Платформа: веб
Лицензия: условно-бесплатная
Распознает: JPG, GIF, TIFF, BMP, PNG, PCX, PDF
Сохраняет: TXT, DOC, DOCX, XLSX, PDF
На этом сервисе пользователи могут бесплатно выполнять распознавание текста и сохранять результат в редактируемых текстовых файлах без установки какого-либо программного обеспечения. Поддерживает работу со сканами, популярными графическими форматами, сканами и PDF. Без регистрации и оплаты распознавание доступно только 15 страниц в час. После авторизации этот лимит увеличивается до 50, а также увеличивается разрешенный размер (200 МБ).
Характеристики:
- обработка текста в зависимости от особенностей исходного языка;
- редактировать результат в режиме реального времени;
- объединить обработанные файлы в единый проект;
- анализ отдельных страниц документа.
Преимущества:
- практичный русскоязычный менеджмент;
- автоматический детектор типа документа;
- история загруженных файлов.
Минусы:
- загруженные изображения нельзя редактировать;
- не всегда нужный результат.
Как пользоваться сервисом?
Для вас технология работает просто:
- Сделайте снимок с помощью телефона/камеры или отсканируйте текст, чтобы его можно было распознать. Поддерживаемые форматы: jpg, jpeg, png, bmp, pbm.
- Нажмите на кнопку «Загрузить файл».
- Выберите файл на своем компьютере.
- Дождитесь обработки вашего документа — это займет не более 1 минуты.
- Скопируйте текст и сохраните результат в удобном для вас формате:
- Пустой текст (txt)
- Адоб Акробат (pdf)
- Microsoft Word (docx)
- Опен-офис (неопр)
- и так далее.
Скачивание файлов с сайта в готовом/выбранном формате будет реализовано позже.
Вы можете распознать любое количество файлов бесплатно. Регистрация или оплата не требуется.
Microsoft OneNote
Платформа: Windows, macOS
Лицензия: бесплатно
Распознает: JPEG, TIFF, PNG, BMP
Сохраняет: JPEG, TIFF, PNG, BMP
Ноутбук от разработчика Microsoft работает как отдельная программа, также его можно приобрести в комплекте с программным обеспечением MS Office Office. Хотя ПО также распространяется в виде мобильного приложения, распознавание текста с изображения поддерживается только в десктопной версии на компьютере. Хотя информацию на изображениях нельзя изменить, данные можно скопировать и вставить в текстовый редактор.
Характеристики:
- загружать изображения с жесткого диска или подключенной камеры;
- скрыть выделенные области изображения;
- вы можете добавлять заметки и преобразовывать их в редактируемый текст;
- прослушивание обычного текста.
Преимущества:
- автоматическое резервное копирование в облако предотвратит потерю важных данных;
- в документе есть опция переводчика текста и проверка орфографии.
Минусы:
- требует входа в систему с учетной записью Microsoft;
- текст на изображениях нельзя редактировать.
2. Параметры сканирования текста
Здесь я не буду рассказывать о ваших драйверах для сканера, программах, которые к нему прилагались, потому что все модели сканеров разные, ПО тоже везде разное, и угадать, а тем более наглядно показать, как выполнить операцию, нереально.
Но все сканеры имеют одинаковые настройки, которые могут сильно повлиять на скорость и качество вашей работы. Давайте просто поговорим о них здесь. Я перечислю по порядку.
1) Качество сканирования — DPI
Во-первых, установите качество сканирования в настройках не ниже 300 DPI. Желательно выставить больше, если есть возможность. Чем выше DPI, тем четче будет ваше изображение, а значит, дальнейшая обработка будет быстрее. Кроме того, чем выше качество сканирования, тем меньше ошибок вам придется потом исправлять.
Наилучший вариант обычно обеспечивает 300-400 DPI.
2) Цветность
Этот параметр очень сильно влияет на время сканирования (кстати DPI тоже влияет, но они такие сильные, и только когда пользователь ставит высокие значения).
Обычно есть три режима:
— черно-белый (идеально подходит для обычного текста);
— серый (подходит для текста с таблицами и изображениями);
— цветной (для цветных журналов, книг вообще, документов, где важен цвет).
Как правило, время сканирования зависит от выбора цвета. Ведь если ваш документ большой, то даже лишние 5-10 секунд на странице в целом выльются в приличное время…
3) Картинки
Получить документ можно не только отсканировав, но и сфотографировав его. Как правило, в этом случае у вас будут какие-то другие проблемы: искажение изображения, размытие. Из-за этого может потребоваться более длительное дальнейшее редактирование и обработка полученного текста. Лично я не рекомендую использовать камеры для этого дела.
Важно отметить, что не все такие документы можно распознать, потому что качество сканирования может быть крайне низким…
Freemore OCR
Платформа: Windows
Лицензия: бесплатно
Распознает: JPEG, TIFF, PNG, BMP, PSD
Сохраняет: DOC, TXT
Freemore OCR — это простая в использовании программа, которая считывает текст с изображений или из нередактируемых PDF-файлов. Работа выполняется в двухоконном режиме, что особенно удобно при проверке точности результатов. Следует отметить, что при загрузке файл помечается как подозрительный; во время установки некоторые антивирусы должны быть отключены на некоторое время.
Характеристики:
- корректно распознает текст, расположенный вокруг графических элементов;
- позволяет встроить цифровую подпись;
- есть варианты ручного редактирования результата;
- экспортировать как новый файл или скопировать весь текст в буфер обмена.
Преимущества:
- работает с файлами, защищенными паролем;
- очень легко ориентироваться в меню.
Минусы:
- не распознает кириллицу;
- во время установки загружает рекламное ПО.
RiDoc
Программа для распознавания текста с изображения или со сканера с бесплатным периодом 30 дней. Вы можете скачать это здесь.
Приложение имеет хороший функционал и доступный интерфейс. Чтобы скачать изображение, нажмите кнопку «Открыть».
Затем кнопка «Распознать».
В итоге получаем готовый результат. Его можно открыть в Word или OpenOffice.
Вот результат.
Тоже не идеально, но намного больше, чем в предыдущем случае.
Вы также можете использовать водяной знак или склеить несколько изображений вместе.
ReadIris
Платный программный продукт с пробной версией на 100 страниц или 10 дней. Скачать программу для OCR-сканера можно с официального сайта здесь.
Разработчик — бельгийская компания IRIS, созданная в 1986 году. Основная специализация — технологии и продукты для интеллектуального распознавания документов.
Программа преобразует изображение, файл PDF или отсканированный документ в полностью редактируемый текстовый файл. Извлекает текст из ваших документов, сохраняя макет исходного файла. Имеет следующие функции:
- конвертировать файлы Word, Excel и PowerPoint в индексированные PDF-файлы;
- конвертировать документы с помощью контекстного меню;
- показатель качества импортируемых документов;
- автоматическое распознавание сканеров;
- модуль коррекции перспективы.
Интерфейс программы русифицирован (задается при установке) и достаточно прост.
Нажимаем кнопку «Из файла» и выбираем наше изображение. Программа автоматически разделила его на два блока.
Для распознавания нажмите кнопку «Открыть» и укажите путь к изображению. Формат указан строкой выше.
Результат превзошел все ожидания. Даже надпись сохранилась.
Вы можете отправить документ по почте или в облако. Для этого нажмите на список выше и выберите. По умолчанию сохраняется в файл.
Эта программа стоит примерно 6000 рублей.
ABBYY FineReader
Самая известная и раскрученная программа.
Платная стоимость 6990 руб. Российская разработка 1993 года до сих пор считается одной из лучших в мире. Ключевая особенность:
- Распознавание таблиц и графиков, математических формул.
- Просмотр и навигация в формате PDF.
- Создание и прямое редактирование pdf.
- Работа с цифровой подписью.
- Сравнение документов.
- Добавление комментариев.
Программа имеет много возможностей. Интерфейс русифицирован и доступен.
После нажатия кнопки «Открыть» и выбора изображения начинается автоматическое разделение на блоки.
Нажмите соответствующую кнопку, чтобы начать процесс.
Затем остается выбрать, в каком формате сохранить и указать папку, в которой должен быть сохранен документ.
Откроем результат. Как видите, признание прошло отлично.
Давайте снова сравним его с ReadIris.
Первый вариант (Finereader) работает безупречно. Таким образом, мы могли бы отдать пальму первенства этой программе. По цене они сопоставимы, поэтому разница в 600-700 рублей особой роли не играет.
img2text
Платформа: веб
Лицензия: бесплатно
Распознает: JPEG, PNG, PDF
Сохраняет: PDF, TXT, DOCX, ODF
Бесплатный инструмент работает с популярными графическими форматами и нередактируемыми PDF-документами. Сервис ведет журнал ваших действий, поэтому, если произойдет внезапное отключение сети, вы сможете вернуться к работе без перезагрузки. Разработчики постоянно улучшают свой продукт и добавляют новые функции, на данный момент в нем есть инструмент перевода и также анонсирована возможность импорта файла по ссылке.
Характеристики:
- изменять преобразованный текст прямо на сайте;
- перевод иностранных документов;
- программа проверки орфографии;
- копирует результат в буфер обмена.
Преимущества:
- работает совершенно бесплатно;
- высокая скорость загрузки и обработки.
Минусы:
- документ не должен содержать изображений, таблиц и колонок;
- не работает корректно с файлами, использующими несколько языков.
OCR CuneiForm
Платформа: Windows, Linux, macOS
Лицензия: бесплатно
Распознает: JPG, TIFF, BMP, PNG, изображения со сканера
Сохраняет: docx
Программа распознавания фотографий CNeiForm OCR нацелена только на одно действие — захват изображений со сканера и преобразование текстовой информации на них. Также разрешено открывать графические файлы с персонального компьютера. После этого работу можно продолжить в любом текстовом редакторе. Допускается работа в одиночном или пакетном режиме.
Характеристики:
- можно использовать вместо стандартного ПО для сканирования;
- конвертировать графические файлы в редактируемый документ Word;
- анализ документа на наличие форм, таблиц, изображений;
- поиск в созданном текстовом файле;
- узнаваемость в отдельных выделенных областях.
Преимущества:
- сохраняет исходную структуру документа и его форматирование;
- можно запустить в автоматическом режиме или настроить параметры;
- специальный режим для матричного принтера.
Минусы:
- допускается разрешение не выше 600;
- не показал очень хороших результатов с изображением низкого качества.
Что можно делать с распознанным текстом?
Теперь у вас есть большой выбор манипуляций с готовым текстом:
- копировать;
- проверить правописание;
- редактировать;
- сделать SEO-анализ текста для подсчета слов и символов;
- сохранить в файл для дальнейшей работы с ним на вашем устройстве.
Преимущества сервиса
- В несколько кликов вы получаете текст с изображения, готовый к редактированию и обработке.
- Все строго конфиденциально и защищено SSL+ сертификатом+.
- Ваши файлы и распознанные тексты не хранятся в сервисе и никак не оцениваются.
- Максимум 1 минута для распознавания файла.
- Используйте сервис без регистрации.
- Не требует установки на компьютер, вся работа выполняется в любом веб-браузере.
Платные и бесплатные программы
OCR CuneiForm
Бесплатная программа для распознавания отсканированного текста, которую можно скачать здесь.
Скачать OCR CuneiForm
Приложение было разработано в 1993 году компанией Cognitive Technologies. Одной из главных особенностей того времени была возможность распознавать смесь русского и английского языков. В 2009 году была добавлена ветка, позволяющая распознавать смесь других языков. Программный продукт поставлялся со сканерами и МФУ ведущих производителей: Hewlet-Pachard, Epson, Xerox и др. последняя версия была выпущена в 2009 году.
После скачивания и установки пытаемся распознать текст. Давайте возьмем эту статью в качестве примера.
Интерфейс программы простой, меню на русском языке.
Нажмите на значок папки и загрузите изображение. Нажмите кнопку распознавания.
Результат не впечатляет. Разноцветный текст не распознается.
Несмотря на ярко выраженное использование различных словарей, английский также плохо распознавался.
В общем, идеальное изображение можно перевести в символы, но чем ниже качество исходного изображения, тем ниже качество результата.
Следует отметить, что это единственная русифицированная программа распознавания текста для сканирования, которую нам удалось скачать бесплатно легально. У всех остальных в лучшем случае есть бесплатная пробная версия.
Office Lens
Платформа: Андроид, iOS
Лицензия: бесплатно
Распознает: изображения с камеры
Сохраняет: PDF, PPT, DOCX
Ранее Office Lens (также известный как Microsoft Lens) был доступен для ПК, но теперь компания прекратила поддержку настольной версии. Приложение превращает ваш телефон в продвинутый сканер, автоматически анализируя окружающую среду и делая снимок документа. Возможна также работа с изображениями с неправильным видом (положенными боком, вверх ногами, лежащими на неровной поверхности и так далее).
Характеристики:
- исправить результат после создания снимка;
- извлечение печатного и рукописного текста на русском и английском языках;
- распознавание таблиц и контактов;
- создать многостраничный документ из изображений.
Преимущества:
- абсолютно бесплатно;
- есть различные пресеты и настройки документов (лист, фото, доска, визитка);
- отправлять файлы в облачное хранилище.
Минусы:
- для подключения к модулю OCR необходимо зарегистрировать аккаунт;
- неверные результаты при извлечении русских букв.
Abbyy FineReader
Платформа: Windows, iOS, Android, Интернет
Лицензия: пробный период, от 5388 в год
Распознает: JPG, TIF, BMP, PNG, PDF, сигнал сканера, изображения камеры
Сохраняет: DOC, DOCX, XLS, XLSX, ODT, TXT, RTF, PDF, PDF/A, PPTX, EPUB, FB2
Abbyy FineReader известен своим точным механизмом распознавания текста, который позволяет быстро распознавать текст на изображении. Приложение можно использовать в качестве дигитайзера бумаги, поскольку оно включает в себя инструмент для прямого захвата изображений со сканера. Их можно мгновенно сохранить в любом доступном формате, включая текстовые документы, файлы HTML или PDF. В бесплатной версии есть ограничение на количество страниц: не более 10.
Характеристики:
- большое количество доступных языков;
- оптимизировать размер изображений с минимальной потерей качества;
- автоматическая проверка орфографии и грамматики;
- работа с многостраничными документами;
- редактировать распознанный текст.
Преимущества:
- высокая точность результата даже при низком качестве изображения.
- умеет различать разные языки в документе;
- доступен для установки на все версии Windows с любой разрядностью.
Минусы:
- обновления продаются отдельно;
- необходимо зарегистрировать аккаунт на официальном сайте;
- исходное форматирование и стиль документа теряются.
Перевод текста на другие языки
Если вам нужны переводы большого количества обработанных текстов, свяжитесь с нами по электронной почте (contactistio@gmail.com), мы добавим эту возможность.
Яндекс OCR
Недавно открыл для себя этот сервис и мне понравилось качество и простота использования. На самом деле он предназначен для перевода загруженного изображения, но его также можно использовать для распознавания текста с изображения. Регистрация не требуется, ограничений на количество фотографий нет. В настоящее время он находится в стадии бета-тестирования.
Просто зайдите на https://translate.yandex.ru/ocr, загрузите изображение (можно перетащить) и нажмите «Открыть в переводчике». Открывается и текст с картинки, и перевод в правом поле.
Перетащите изображение
Результат распознавания
Convertio
Convertio hhttps://convertio.co/ru/ocr/ работает своеобразно, поэтому сравнивать его сложно. В общем мне не понравилось. Свидетельство ИНН, которое было загружено целиком, он не узнал, потому что плохо отличает текст от изображений. Ни одно слово не было распознано! Для проверки вырезал из ИНН кусок текста и узнал — у меня получилось.
Кроме того, он временами зависает, пытаясь что-то распознать.
Форматы ввода | pdf, jpg, bmp, gif, jp2, jpeg, pbm, pcx, pgm, png, ppm, tga, tiff, wbmp, webp |
Выходные форматы | Обычный текст, PDF, Word, Excel, Pptx, Djvu, Epub, Fb2, Csv |
Размер файла | ?, зависит от тарифа |
Ограничения | 10 страниц бесплатно, дополнительные цены от $7. |
Качество | Оценить сложно — файл с изображениями (ИНН) вообще не распознался, распознан отдельный обрезанный кусок текста.
Замечено, что сервис иногда зависает при распознавании, возможно ваши фотографии ставятся в большую очередь на бесплатном тарифе. |