Оптичне розпізнавання символів (optical character recognition, OCR). Програми для оптичного розпізнавання символів ABBYY FineReader, CuneiForm

Процес визначення точності тексту

Кожен крок процесу OCR важливий для визначення точності остаточного тексту. Він починається з перетворення друкованого документа. Якщо на ньому є сліди, плями і погана контрастність, програмне забезпечення при розпізнаванні буде робити помилки, а результат вийде некоректним. Щоб уникнути цих проблем, можна зробити поліпшену ксерокопію друку.

Перший етап роботи – сканування роздрукованого тексту. Програмне забезпечення OCR працює з файлами зображень. Сканер або хороша цифрова камера створюють чіткі фотокопії документів. Краще перетворити відскановані файли у чорно-білому форматі. Процес є двійковим. За допомогою чорного кольору на картинці відбувається розпізнавання тексту OCR, а білий, в свою чергу, виступає фоном.

Другим етапом є визначення символів. Швидкість цього процесу залежить від використовуваної програми OCR. Більшість з них аналізують кожен елемент один за іншим. Метою програми є визначення знаків, але хороші програми розпізнають не лише текст, але і таблиці, і інші елементи макета.

Процес не ідеальний, так як є багато факторів, які впливають на точність. Які програми призначені для оптичного розпізнавання символів, розглянемо нижче. А користувачу самостійно обирати, що краще. OCR мають вбудовані засоби перевірки правопису і виділяють слова з помилками. Деякі з них настільки складні, що відзначають невідповідність слів і граматичні помилки, користувачеві залишається лише виконати необхідну коригування.

Останній етап – збереження готового документа в потрібному форматі. Якщо додаток не видає необхідний, то можна скористатися численними безкоштовними конвекторами онлайн.