Оптичне розпізнавання символів (optical character recognition, OCR). Програми для оптичного розпізнавання символів ABBYY FineReader, CuneiForm

Вибір програм для розпізнавання тексту

Рекомендується усвідомлено підійти до вибору програмного забезпечення для розпізнавання тексту. Краще провести власне тестування або врахувати думку просунутих користувачів.

Тестування проводять з урахуванням наступних факторів:

  • Точність – це те, що відрізняє хорошу OCR від поганої. Тим не менш нереально очікувати 100 % точності програми для розпізнавання рукописного тексту. Такі фактори, як якість оригінальних документів і дозвіл картинки істотно впливають на кінцевий результат. Хороші OCR досягають 98 % при використанні сучасного сканера і исходников в задовільному стані.
  • Багатомовність – сьогодні цим властивістю володіють більшість програм. OCR сканує окремий символ, щоб визначити його. Якщо вона розрахована для розпізнавання тільки англійських букв, то не зможе точно інтерпретувати спеціальні знаки, наприклад, такі, як букви з наголосом на “е”. Таке буде представляти ці символи з найближчим еквівалентом англійською мовою. При застосуванні додатку, який підтримує багатомовність, вказують мова документа, щоб забезпечити точність розпізнавання.
  • Підтримка рукописного введення. Текст, створений за допомогою клавіатури, легко розпізнається будь програмою. Однак рукописний – це зовсім інший метод сканування. У людей дуже різні почерки. Деякі пишуть акуратно, в той час як більшість почерків недостатньо розбірливі. Якісні OCR можуть розпізнавати будь почерк. Тому для архівації рукописного матеріалу, потрібні програми для рукописного тексту.
  • Рівень автоматизації. OCR може запускатися автоматично або в інтерактивному режимі. Якщо потрібно буде сканувати багато сторінок одночасно, краще розглянути автоматичні програми. За допомогою такої функції можна в кілька кліків здійснювати сканування документів, одночасно виконуючи інші завдання, і легко знайти отриманий файл PDF, txt або doc. Більшість безкоштовних програм для розпізнавання тексту мають обмежену автоматизацію.
  • Збереження макета. Основна мета цих програм – переклад тексту в електронний вигляд. Деякі не зберігають макет оригінального документа. Тому доводиться довго редагувати остаточний варіант. Хороша програма повинна зберігати початковий макет, тоді в остаточній копії потрібно незначне редагування. Такі програми зберігають стовпці таблиці і графічні зображення, як у вихідному варіанті.