OCR - optyczne rozpoznawanie znaków

Słownik kwalifikacji INF.02 - Administracja i eksploatacja systemów komputerowych, urządzeń peryferyjnych i lokalnych sieci komputerowych

Co to jest OCR?

OCR (Optical Character Recognition) to technika optycznego rozpoznawania znaków, czyli przekształcania obrazu zawierającego tekst na tekst możliwy do edycji i przeszukiwania.

OCR stosuje się np. wtedy, gdy użytkownik skanuje kartkę papieru, fakturę, książkę albo formularz i chce uzyskać plik tekstowy, dokument Word lub przeszukiwalny PDF.

Jak działa OCR?

Program OCR analizuje obraz i rozpoznaje kształty liter, cyfr oraz znaków interpunkcyjnych. Następnie zamienia je na znaki komputerowe, które można kopiować, edytować i wyszukiwać.

Typowy proces obejmuje:
- zeskanowanie dokumentu lub wykonanie zdjęcia,
- poprawę jakości obrazu, np. kontrastu i wyrównania,
- rozpoznanie znaków,
- zapis wyniku jako tekst, DOCX, TXT lub PDF z warstwą tekstową.

Przykłady zastosowań

  • digitalizacja dokumentów papierowych,
  • rozpoznawanie tekstu ze skanów książek,
  • przetwarzanie faktur i umów,
  • tworzenie przeszukiwalnych archiwów dokumentów,
  • odczyt tekstu ze zdjęć.

Ważne na egzaminie

Jeżeli pytanie dotyczy zamiany zeskanowanego obrazu na tekst, poprawnym pojęciem jest OCR. Nie należy mylić go z DPI, DTP ani OMR.