Ivona to jedna z najbardziej znanych aplikacji do syntezy mowy, czyli tzw. technologii TTS (Text-to-Speech). To właśnie dzięki niej możliwe jest zamienianie tekstu pisanego na mowę o bardzo naturalnym, ludzkim brzmieniu. Program wykorzystywany jest zarówno komercyjnie (np. w bankomatach, call center, systemach informacji pasażerskiej), jak i przez osoby z niepełnosprawnościami, które mają trudności z czytaniem tekstu lub komunikacją głosową. W branży IT często mówi się o rozwiązaniach TTS jako o wsparciu dostępności – w końcu zgodnie z dobrymi praktykami webowymi, każda aplikacja powinna umożliwiać korzystanie z treści również osobom niewidomym czy niedowidzącym, a Ivona świetnie się tu sprawdza. Z mojego doświadczenia wynika, że program ten radzi sobie całkiem nieźle z językiem polskim, co wcale nie jest oczywiste dla wielu narzędzi tego typu. Warto też zaznaczyć, że syntezatory mowy, takie jak Ivona, są stale rozwijane – obecnie wykorzystywane algorytmy uczenia maszynowego i sztucznej inteligencji jeszcze bardziej poprawiły jakość odwzorowania intonacji, akcentu oraz emocji w głosie. No i co ciekawe, niektóre firmy wykorzystują taką technologię do tworzenia audiobooków czy automatycznego generowania powiadomień głosowych w różnych urządzeniach IoT. Moim zdaniem znajomość takich narzędzi to już standard nie tylko w pracy programistycznej, ale też w projektowaniu użytecznych systemów informatycznych.
Wybór innej odpowiedzi niż Ivona świadczy o nie do końca prawidłowym zrozumieniu różnicy między technologiami rozpoznawania tekstu, syntezy mowy oraz programami biurowymi. Recognita i FineReader to narzędzia przeznaczone przede wszystkim do OCR (Optical Character Recognition), czyli rozpoznawania tekstu z obrazów, skanów lub plików PDF. Oba te programy umożliwiają przekształcenie zeskanowanego dokumentu na edytowalny tekst, ale nie mają za zadanie odczytywać tego tekstu na głos. Typowym błędem jest mylenie funkcji rozpoznawania tekstu (OCR) z syntezą mowy (TTS). Recognita była szczególnie popularna w latach 90., ale dziś jej funkcje przejęły bardziej zaawansowane narzędzia, takie jak ABBYY FineReader, który zdobył duże uznanie m.in. dzięki precyzyjnemu rozpoznawaniu polskich znaków. Z kolei PowerPoint to program prezentacyjny z pakietu Microsoft Office – jego głównym celem jest tworzenie i wyświetlanie prezentacji multimedialnych. Owszem, w nowszych wersjach PowerPointa pojawiły się funkcje wsparcia dostępności, na przykład możliwość odczytywania slajdów przez zintegrowane narzędzia systemowe Windows, ale sam program nie posiada własnej zaawansowanej technologii syntezy mowy. W praktyce, jeśli mówimy o profesjonalnej zamianie tekstu na mowę, zawsze należy korzystać z aplikacji wyspecjalizowanych w TTS, takich jak Ivona, Google Text-to-Speech czy Amazon Polly. Moim zdaniem często spotykanym problemem jest utożsamianie wszystkich funkcji „automatycznych” z jednym narzędziem, co prowadzi właśnie do takich wątpliwości. Dla uporządkowania – OCR to rozpoznawanie tekstu (np. FineReader), TTS to generowanie mowy (np. Ivona), a narzędzia biurowe (PowerPoint) mają zupełnie inne przeznaczenie.