Technologia OCR (ang. Optical Character Recognition) faktycznie umożliwia rozpoznawanie znaków w plikach graficznych o postaci rastrowej, czyli takich jak pliki JPG, PNG, TIFF czy nawet zeskanowane dokumenty w formacie PDF. To jeden z najważniejszych wynalazków we współczesnej informatyce biurowej i automatyzacji przetwarzania dokumentów. W praktyce, OCR pozwala np. na zeskanowanie faktury lub innego papierowego dokumentu, a następnie zamianę go na edytowalny tekst. Bardzo często używa się tego w biurach rachunkowych, urzędach i wszędzie tam, gdzie trzeba archiwizować papierowe dokumenty w formie cyfrowej. Standardowe narzędzia OCR, jak Tesseract czy ABBYY FineReader, potrafią obsłużyć obrazy rastrowe o różnej jakości i rozdzielczości. Ciekawostką jest, że OCR jest używany też w aplikacjach mobilnych do rozpoznawania tekstu z wizytówek czy rachunków – wystarczy zrobić zdjęcie telefonem. Moim zdaniem warto umieć korzystać z takich narzędzi, bo naprawdę ułatwiają życie, zwłaszcza gdy mamy do czynienia z dużą liczbą dokumentów papierowych. Dobrą praktyką branżową jest jednak dbanie, by obrazy przekazywane do OCR były w miarę czytelne i miały odpowiednią rozdzielczość – wtedy skuteczność rozpoznawania jest znacznie wyższa. OCR radzi sobie najlepiej właśnie z grafiką rastrową, co jest podstawą tej technologii.
Pojawia się sporo nieporozumień co do zastosowań i ograniczeń technologii OCR. Przede wszystkim, sporo osób myśli, że OCR nie nadaje się do plików JPG lub że ma problemy z dokumentami PDF, ale tak naprawdę to właśnie są jedne z najczęstszych formatów, z jakimi OCR sobie radzi. Pliki JPG to popularny format grafiki rastrowej, z której OCR potrafi bez problemu wydzielić tekst, o ile obraz nie jest przesadnie rozmazany czy zaszumiony. PDF-y również bardzo często zawierają obrazy rastrowe i praktycznie każde profesjonalne oprogramowanie OCR, np. Adobe Acrobat czy ABBYY FineReader, daje sobie radę z rozpoznawaniem tekstu wyciągniętego z tych dokumentów. W niektórych przypadkach PDF zawiera już tekst, a nie obraz, i wtedy OCR nie jest potrzebny, ale jeśli jest to skan, to właśnie OCR jest najlepszym narzędziem. Błędne jest też przekonanie, że OCR umożliwia edycję plików tekstowych w sensie stricte – OCR sam w sobie służy do rozpoznawania tekstu z obrazu, a nie bezpośredniej edycji tekstu. Dopiero po przetworzeniu obrazu można uzyskany tekst edytować w innym programie, np. w Wordzie. Częstym błędem myślowym jest też utożsamianie OCR tylko z bardzo zaawansowanymi rozwiązaniami lub traktowanie go jako niepraktycznego w codziennej pracy. Tymczasem narzędzia tego typu są dostępne nawet w darmowych aplikacjach i coraz częściej korzysta się z nich na urządzeniach mobilnych. Z mojego doświadczenia wynika, że największym problemem jest raczej jakość obrazu, a nie sam format pliku czy typ dokumentu. Kluczową zasadą branżową jest więc właściwe przygotowanie obrazu wejściowego – wtedy OCR działa zaskakująco skutecznie. Warto pamiętać, że OCR nie ogranicza się do żadnego konkretnego typu pliku graficznego, a jego możliwości są dużo większe niż się powszechnie uważa.