Sybilanty, czyli głoski takie jak „s”, „sz” czy „ś”, charakteryzują się bardzo wyraźnym, szumiącym brzmieniem, które łatwo wychwycić na spektrogramie właśnie w zakresie wysokich częstotliwości. Z mojego doświadczenia analizując nagrania mowy, sybilanty praktycznie zawsze wypadają powyżej 2 000 Hz, a często pikują nawet powyżej 5 000 Hz – szczególnie w języku polskim „s” potrafi sięgnąć do 8–10 kHz. Dlatego odpowiedź obejmująca przedział 2 000 Hz – 20 000 Hz jest tutaj absolutnie poprawna. To pasmo jest kluczowe przy detekcji i obróbce sybilantów, na przykład kiedy stosujemy de-essery podczas produkcji podcastów czy nagrań lektorskich. Standardy branżowe, np. przy masteringu muzyki czy postprodukcji dźwięku, jasno wskazują, że filtry oraz efekty usuwające sybilanty, takie jak de-esser, koncentrują się właśnie na tych wysokich pasmach. Często nawet w korektorach graficznych i parametrycznych można znaleźć fabryczne presety zaprojektowane specjalnie dla tego zakresu. W praktyce oznacza to, że chcąc poprawić czytelność nagrania, wygasić nieprzyjemne „syczenie” czy nawet podczas syntezy mowy, zawsze zwracamy uwagę na zakres 2 000 Hz i wyżej. Moim zdaniem, świadomość tej charakterystyki bardzo ułatwia skuteczną pracę z nagraniami mowy, bo pozwala szybko zlokalizować i wyeliminować problematyczne dźwięki bez niepotrzebnego naruszania pozostałych elementów sygnału.
Wiele osób zakłada, że kluczowe elementy mowy, w tym sybilanty, mogą znajdować się w niższych pasmach częstotliwości, jednak praktyka i analiza widmowa wyraźnie temu przeczy. Zakres od 20 Hz do 249 Hz obejmuje przede wszystkim dźwięki niskie – to tutaj osadzają się takie elementy jak podstawowa częstotliwość głosu (pitch) czy rezonanse związane z barwą, jednak sybilanty, które mają charakterystyczny, ostry szum, w ogóle się tam nie pojawiają. Podobnie w paśmie 250 Hz – 999 Hz spotkamy raczej formanty związane z samogłoskami oraz niektóre spółgłoski dźwięczne, ale nie sybilanty – one są praktycznie niesłyszalne w tym paśmie. Pasmo 1 000 Hz – 1 999 Hz bywa nieco mylące, bo tu rzeczywiście zaczynają się pojawiać wyższe formanty niektórych głosek, ale znów – to nie jest typowy zakres dla sybilantów, które są znacznie wyżej. Właściwy zakres to 2 000 Hz – 20 000 Hz, ponieważ to właśnie tutaj mieści się energia charakterystyczna dla sybilantów takich jak „s”, „sz” czy angielskie „sh” i „ch”. W praktyce, przy obróbce studyjnej, zawsze skupiamy się na wycinaniu lub korygowaniu tych szumów właśnie w tym zakresie, korzystając z filtrów dynamicznych lub de-esserów. Typowym błędem jest utożsamianie wszystkich formantów z dolnymi pasmami częstotliwości, podczas gdy w rzeczywistości rozkład energii głosek w nagraniu mowy jest dużo bardziej złożony. Najbardziej słyszalne, „syczące” elementy pojawiają się wysoko i jeśli ktoś chce poprawnie kształtować charakterystykę mowy, musi koniecznie pamiętać o tej specyfice sybilantów. Ignorowanie tego faktu prowadzi do nieefektywnej obróbki i nienaturalnie brzmiących nagrań, dlatego warto wyrobić sobie nawyk sprawdzania, gdzie dokładnie te dźwięki mają swoje maksimum energii.