Odpowiedź jest trafiona, bo programy typu Text to Speech (TTS) są specjalnie zaprojektowane do zamiany treści tekstowej na mowę syntetyczną. To takie narzędzia, które analizują tekst napisany, zamieniają go na mowę, a potem generują dźwięk - najczęściej w popularnych formatach audio, jak WAV czy MP3. TTS jest dziś wykorzystywany na potęgę – od czytników ekranowych dla osób niewidomych, przez automatyczne sekretarki i boty telefoniczne, aż po pomocne funkcje w smartfonach (np. Siri, Asystent Google). W mojej opinii to jedno z tych rozwiązań, które bardzo ułatwiają codzienność nie tylko osobom z niepełnosprawnościami, ale też każdemu, kto chce zamienić tekst (np. artykuł, e-mail, instrukcję) w plik dźwiękowy i słuchać go w drodze do szkoły albo podczas ćwiczeń. Oprogramowanie TTS obsługuje wiele języków i akcentów, coraz częściej brzmi naturalnie i pozwala na dostosowanie tempa czy rodzaju głosu. Branżowo uznaje się, że automatyczna synteza mowy powinna być zgodna ze standardem SSML (Speech Synthesis Markup Language), co pozwala lepiej sterować intonacją, pauzami czy akcentowaniem. Z mojego doświadczenia wynika, że warto testować różne narzędzia – niektóre dają bardzo zaawansowane opcje, na przykład możliwość edycji wymowy konkretnych słów. Praktycznie każdy, kto musi szybko zamienić raport, instrukcję lub dowolny tekst na nagranie, korzysta właśnie z TTS. To standard branżowy i chyba najwygodniejsze możliwe rozwiązanie!
Wiele osób, zwłaszcza tych, które dopiero zaczynają przygodę z technologiami komputerowymi, może automatycznie kojarzyć skróty OBR i OCR z każdym rodzajem automatycznego przetwarzania plików. W rzeczywistości OBR (Optical Bar Recognition) dotyczy rozpoznawania kodów kreskowych, czyli jest to technologia wykorzystywana np. w magazynach, sklepach lub systemach śledzenia przesyłek, gdzie liczy się szybkie skanowanie i rejestracja kodów, a nie tekstu. OCR (Optical Character Recognition) natomiast to zupełnie inna bajka – tutaj mamy do czynienia z rozpoznawaniem znaków tekstowych z obrazu, np. zeskanowanego dokumentu albo zdjęcia. OCR zamienia tekst z obrazu na edytowalny, komputerowy tekst, ale na tym koniec – nie generuje ani nie odczytuje dźwięku. Sporo osób myli OCR z TTS, bo oba przekształcają dane, ale robią to na zupełnie różnych etapach (OCR – obraz w tekst, TTS – tekst w mowę). Edytor tekstu natomiast, jakkolwiek uniwersalny, służy do pisania i edytowania dokumentów, ale nie ma funkcji generowania dźwięku z tekstu – nawet jeśli jakiś edytor ma wtyczkę TTS, to wciąż nie jest jego podstawowa funkcja. Typowym błędem jest założenie, że każdy program obsługujący teksty „coś tam zamieni” (czy na dźwięk, czy na obraz), ale w praktyce potrzebujemy specjalistycznych narzędzi do konkretnych zadań. Przetworzenie tekstu na mowę to właśnie domena Text to Speech. Warto zapamiętać, że profesjonalne zastosowania (np. automatyczne powiadomienia telefoniczne, czytniki ekranowe, audiodeskrypcje) wymagają zgodności ze specjalistycznymi standardami TTS, a nie korzystania z uniwersalnych edytorów czy narzędzi do rozpoznawania tekstu z obrazu. To różne etapy i zupełnie inne technologie.