Poprawnie – do nagrania ścieżki dźwiękowej głosu lektora stosuje się rejestrator dźwięku. W praktyce może to być zarówno profesjonalny rejestrator przenośny (np. Zoom, Tascam), jak i interfejs audio z mikrofonem podłączony do komputera, na którym działa program typu DAW (np. Audacity, Reaper, Adobe Audition). Kluczowe jest to, że urządzenie lub system pełni funkcję rejestratora: zamienia analogowy sygnał z mikrofonu na cyfrowy plik audio w formacie WAV, AIFF lub innym bezstratnym, z odpowiednią częstotliwością próbkowania (najczęściej 44,1 kHz lub 48 kHz) i rozdzielczością 16/24 bit. W branży multimedialnej przy nagrywaniu lektora dba się o dobrą jakość wejściowego nagrania: cichy pokój, mikrofon pojemnościowy, filtr pop, stabilny poziom głośności, brak przesterów. Rejestrator pozwala kontrolować poziom sygnału, monitorować nagranie w słuchawkach i zapisywać materiał w wysokiej jakości, żeby później można było go obrabiać – czyścić z szumów, kompresować, normalizować, dodawać efekty. Moim zdaniem to jedna z podstawowych umiejętności w pracy z multimediami: rozróżniać narzędzia do nagrywania od narzędzi do generowania dźwięku. Głos lektora to zawsze nagranie rzeczywistej osoby, więc bez rejestratora dźwięku zwyczajnie nie mamy co umieścić w projekcie wideo, prezentacji czy animacji.
W tym pytaniu łatwo pomylić różne narzędzia audio, bo nazwy brzmią podobnie, ale ich funkcje są zupełnie inne. Do nagrania głosu lektora potrzebujemy urządzenia lub systemu, który potrafi zarejestrować rzeczywisty dźwięk z mikrofonu i zapisać go jako plik audio. Tym właśnie jest rejestrator dźwięku – może to być sprzętowy rekorder, interfejs audio z programem DAW albo nawet prostsza aplikacja nagrywająca, byle umożliwiała przechwycenie sygnału z mikrofonu w odpowiedniej jakości. Syntezator mowy to zupełnie inna kategoria. To oprogramowanie lub moduł, który generuje głos na podstawie tekstu. Mamy wtedy do czynienia z TTS (Text-To-Speech), gdzie głos jest sztucznie tworzony, a nie nagrywany od żywego lektora. W produkcjach profesjonalnych taki syntezowany głos czasem się wykorzystuje do szybkich podkładów, prototypów, komunikatów systemowych, ale jeśli w treści pytania jest mowa o „głosie lektora”, to chodzi o człowieka, a nie maszynowo generowaną mowę. Syntezator dźwięku także nie służy do nagrywania. Jego zadaniem jest tworzenie dźwięków, najczęściej muzycznych, efektów, brzmień elektronicznych, za pomocą generatorów, filtrów, obwiedni i innych modułów. Taki instrument może być sprzętowy lub programowy (VST), ale on produkuje dźwięk, nie przechwytuje go z zewnątrz. Typowym błędem myślowym jest założenie, że skoro coś jest „od dźwięku”, to nada się do wszystkiego związanego z audio. W praktyce narzędzia do syntezy i do rejestracji pełnią kompletnie różne role w łańcuchu produkcyjnym. Oprogramowanie OCR to już w ogóle inna bajka – służy do rozpoznawania tekstu z obrazu, np. skanu dokumentu, zdjęcia kartki papieru. Nie ma żadnego związku z nagrywaniem ani przetwarzaniem dźwięku. Można sobie wyobrazić workflow, w którym OCR zamienia tekst z zeskanowanego scenariusza na plik tekstowy, a potem lektor go czyta do mikrofonu, ale samo OCR nie dotyka warstwy audio. Moim zdaniem najważniejsza lekcja z tego pytania jest taka: w multimediach trzeba jasno rozróżniać pojęcia generowania, rejestrowania i rozpoznawania. Syntezatory generują, rejestratory nagrywają, a OCR rozpoznaje tekst z obrazu. Do ścieżki głosowej lektora zawsze wracamy do podstaw – mikrofon + rejestrator dźwięku, zgodnie z praktykami stosowanymi w studiach nagraniowych, produkcji wideo i e-learningu.