Wybrałeś OCR, czyli technikę rozpoznawania znaków optycznych, i to właśnie jest rozwiązanie stosowane do odczytywania tekstu z plików rastrowych, takich jak skany dokumentów czy zdjęcia stron książek. OCR (Optical Character Recognition) to narzędzia i algorytmy, które analizują obraz zawierający tekst, „odnajdują” litery, cyfry czy nawet całe akapity i zamieniają je na edytowalny oraz przeszukiwalny tekst cyfrowy. Jest to powszechna praktyka w archiwizacji dokumentów papierowych, digitalizacji książek czy faktur. Wystarczy zeskanować dokument, wrzucić plik do programu OCR i po chwili otrzymujesz gotowy tekst, który można dalej kopiować czy edytować na komputerze. Najpopularniejsze programy OCR to ABBYY FineReader, Tesseract czy Adobe Acrobat (moduł OCR). W branży IT i biurowej, a także np. w bibliotekach cyfrowych, bez tej technologii automatyczne zarządzanie dużą ilością papierowych dokumentów byłoby praktycznie niemożliwe. Co ciekawe, dobry OCR rozpoznaje także różne czcionki i języki, a nowsze narzędzia radzą sobie nawet z niską jakością skanów. Moim zdaniem opanowanie podstaw pracy z OCR to taka trochę „must-have” umiejętność każdego, kto pracuje z dokumentami elektronicznymi – po prostu oszczędza mnóstwo czasu i nerwów.
Patrząc na wszystkie odpowiedzi poza OCR, widać, że są to technologie lub narzędzia, które nie mają bezpośredniego związku z rozpoznawaniem tekstu w plikach graficznych typu rastrowego. Interpreter PHP to środowisko uruchomieniowe dla języka programowania PHP, które służy głównie do przetwarzania kodu na serwerze internetowym, generowania stron WWW czy automatyzacji prostych zadań, ale nie do analizy grafiki. Często wśród osób uczących się pojawia się błędne założenie, że skoro PHP może obsługiwać różne biblioteki graficzne, to może też „czytać tekst” z obrazu – w praktyce jednak wymaga to zewnętrznych narzędzi typowo OCR, bo sam interpreter PHP nie ma takich możliwości. Edytor PDF to narzędzie do otwierania, edytowania lub komentowania plików PDF, ale standardowy edytor PDF nie analizuje zawartości graficznej w celu ekstrakcji tekstu – chyba że ma wbudowaną funkcję OCR, co jednak jest osobnym zagadnieniem. Niestety często spotykam się z myleniem edytora PDF z funkcją rozpoznawania tekstu, bo niektórzy producenci integrują oba rozwiązania w jednym programie. IRC to z kolei stary protokół komunikacji internetowej, wykorzystywany głównie do czatów tekstowych na kanałach tematycznych – nie ma on absolutnie żadnego zastosowania w analizie grafiki czy rozpoznawaniu znaków. W praktyce, żeby przekształcić zapisany w obrazie tekst na wersję cyfrową, konieczne jest użycie technologii OCR, bo tylko ona została opracowana specjalnie w tym celu, zgodnie ze światowymi standardami digitalizacji dokumentów. Wybierając inne narzędzia można się mocno rozczarować, bo po prostu nie uzyska się oczekiwanych efektów – to typowy błąd wynikający z mylenia funkcjonalności różnych programów lub skrótowego myślenia o digitalizacji.