Questo momento storico di pandemia, vede un largo uso della classica telefonata in tutti i network di comunicazione. Vi chiedo, avete fatto caso alla qualità di queste telefonate? Comprendere cosa ha da dire l’interlocutore di turno diviene spesso un’impresa titanica. Si deve intuire la conversazione, spesso si deve chiedere di ripetere una frase o un concetto. Eppure siamo la stessa civiltà tecnologica che viaggia verso il 5G, verso le videochiamate e le dirette video compulsive.
Tutti corrono verso la banda super ultra larga, in modo da essere sempre connessi con video in super alta definizione. Ma nessuno ha mai notato una cosa banale, che non c’entra nulla con la corsa alla banda larghissima. La voce umana si sente male, le conversazioni telefoniche suonano come un grammofono ammaccato.
Seguire un’intervista radiofonica è spesso un supplizio anche per le orecchie più remissive, perfino i quiz telefonici trasmessi in TV sono quasi esilaranti per la qualità pessima dei dialoghi tra concorrente e presentatore.
La verità è che lo spettro di frequenze audio destinate alla voce, viene fortemente limitato nelle telefonate, per risparmiare proprio sulla banda. Per la precisione vengono riprodotte le frequenze da 300 Hz a 3400 Hz, considerate sufficienti per rendere intellegibile il parlato. In realtà con una banda vocale così ristretta si ottiene una pessima intellegibilità, che poteva andar bene agli albori della telefonia, ma oggi appare decisamente scarsa.
Senza annoiarvi con lo studio acustico del parlato, si può osservare che la voce umana copre una gamma di frequenze che vanno da circa 100 Hz, fino a circa 15000 (quindicimila) Hz! Questa gamma di frequenze comprende il timbro maschile e femminile, le differenti tipologie del parlato, l’etnia di chi parla, le differenti età, ecc. ecc.
Ma non è finita, dobbiamo fare i conti anche con la gamma dinamica del parlato, cioè con il volume sonoro che siamo in grado di emettere e di sentire, dal sussurro alle grida. Anche in questo caso, lo spazio espressivo viene compresso dalla tecnologia, per risparmiare sui bit. Una compressione che limita ulteriormente le sfumature e restituisce una vocalità piatta e poco espressiva.
A ben vedere, la voce umana ha bisogno di una qualità quasi HiFi per essere riprodotta correttamente. Infatti se si registra una voce con un qualsiasi smartphone in alta qualità e si riascolta in cuffia, si prova il grande sollievo di riconoscere tutte le sfumature e le intonazioni di una voce umana.
Ecco dunque il paradosso. Andiamo verso l’uso sempre più spinto del video, delle immagini in movimento con alta definizione. Ma siamo ancora fermi agli albori della telefonia per quanto riguarda la voce. Come se la parte sonora fosse una componente accessoria rispetto all’invasione di immagini e colori che bombardano costantemente la comunicazione di massa.
Eppure le vibrazioni sonore ci avvolgono costantemente, anche quando abbiamo gli occhi chiusi, anche al buio. Siamo immersi nei suoni e abbiamo una percezione acustica estremamente sofisticata. Ricevere alle nostre orecchie un surrogato sbiadito e limitato di ciò che vuole dire un interlocutore, ci impedisce di comprenderlo e causa una fatica notevole, perché perdiamo tutto ciò che rende unica e irripetibile una voce.
Anche la comprensione di una lingua straniera è fortemente penalizzata dalla scarsa qualità audio. In questo caso avere a disposizione le sfumature della voce, aiuta molto a distinguere tra parole che suonano simili.
Mi faccio promotore di una richiesta rivolta a tutti i player dell’industria telefonica: dateci le telefonate in alta definizione! Togliete spazio alla banda riservata per la super alta definizione video e restituite la giusta dignità alla voce. Fateci comunicare con microfoni e sistemi di codifica che catturano tutto lo spettro di sfumature e intonazioni della nostra voce, dai sussurri alle urla di gioia. Perché sono quei sussurri e quelle urla che resituiscono la nostra umanità e ci rendono voci uniche e originali. Fuori dal coro.