Syntezator mowy to właśnie to narzędzie, które służy do przetwarzania tekstu pisanego na mowę, czyli dźwiękowy odpowiednik tego, co widzisz na ekranie. Takie rozwiązania określa się skrótem TTS (Text-to-Speech). W branży bardzo często korzysta się z syntezatorów mowy w aplikacjach asystentów głosowych, systemach wsparcia dla osób niewidomych albo podczas automatycznego generowania nagrań lektorskich do filmów instruktażowych lub infolinii. Syntezatory mowy korzystają z algorytmów przetwarzania języka naturalnego, żeby tekst zabrzmiał jak najbardziej naturalnie, czasem wręcz nie do odróżnienia od prawdziwego człowieka – no, jeszcze nie zawsze, ale postęp jest ogromny! Warto zauważyć, że obecnie na rynku spotyka się zarówno rozwiązania sprzętowe, jak i programowe – takie jak np. Microsoft Azure Speech, Google Text-to-Speech czy open source’owy eSpeak. Moim zdaniem, umiejętność wykorzystania syntezatora mowy to już w tej chwili nie tylko ciekawostka, ale konkretna kompetencja. Jeśli będziesz rozwijać się w IT, często spotkasz się z TTS, zwłaszcza tam, gdzie liczy się dostępność i automatyzacja.
Wiele osób myśli, że do zamiany tekstu na dźwięk wystarczy zwykły edytor audio albo nawet edytor tekstu, bo przecież w obu przypadkach obrabiamy jakieś pliki. Jednak to nie do końca tak działa. Edytor audio, jak sam nazwa wskazuje, służy do edycji plików dźwiękowych – można nim wyciąć fragmenty nagrania, dodać efekty, poprawić jakość, ale nie ma funkcji przekształcania tekstu pisanego na mowę. To trochę jakby próbować napisać wypracowanie w Photoshopie – narzędzie kompletnie nie do tego celu. Z kolei edytor tekstu, np. Word czy Notepad, pozwala tylko i wyłącznie pisać i formatować tekst, ale nie generuje żadnych dźwięków na podstawie tego, co napiszemy. Niektórzy mogą kojarzyć biblioteki systemowe z funkcjami dźwiękowymi i to pewnie stąd bierze się zamieszanie. Biblioteki systemowe faktycznie mogą udostępniać niskopoziomowe funkcje do obsługi dźwięku czy tekstu, ale same z siebie nie realizują konwersji tekstu na mowę – trzeba do tego specjalistycznych algorytmów, które potrafią zamienić ciąg znaków na płynny, brzmiący jak ludzki głos dźwięk. W praktyce, w profesjonalnych zastosowaniach, korzysta się właśnie z syntezatorów mowy, które często są dostępne w formie dodatków do systemów lub rozbudowanych API chmurowych. Największy błąd logiczny przy wyborze złej odpowiedzi to mylenie narzędzi służących do edycji i prezentowania danych tekstowych czy dźwiękowych z narzędziami, które te dane aktywnie przetwarzają i przekształcają z jednej formy w drugą. To jest fundamentalna różnica i warto ją sobie dobrze przyswoić, bo w pracy technika informatyk, projektanta czy programisty takie rozróżnienia pojawiają się nieustannie.