Avrete quasi certamente già sentito parlare di Audio Zoom, una nuova tecnologia già a bordo di alcuni smartphone top di gamma. Ma che cos’é?
E soprattutto, come funziona in concreto?
L’effetto cocktail Party
Immaginate di essere ad una festa affollata: persone, chiacchiere, confusione. Poi all’improvviso alcune parole e il vostro nome nominato sottovoce in una conversazione lontana. Le persone che hanno parlato sono a pochi metri di distanza, ma quando focalizzate l’attenzione su di loro le parole sembrano diventare più comprensibili e nitide, mentre il resto del rumore svanisce lentamente. Questa capacità del nostro cervello, studiata in psicoacustica, è denominata: Effetto Cocktail Party.
Audio Zoom
La tecnologia Audio Zoom simula questa funzione, permettendo allo smartphone di zoomare su un oggetto o su una persona aumentando il volume relativo a un particolare che ci interessa mentre, al contempo, riduce i rumori di fondo. Oltre a Samsung che l’hai integrata sul Note 10 e sul nuovo S20, anche Apple ha dotato il suo ultimo dispositivo, l’iPhone 11 Pro, di questa tecnologia. Ma l’iPhone 11 Pro e il Galaxy Note 10 + / 20 Ultra non sono gli unici dispositivi dotati di Zoom audio: la prima prova risale al 2013, con l’LG G2, seguito dall’HTC H11 nel 2017. Inoltre, la tecnologia Audio Zoom è presente nel nuovissimo Oppo Find X2 e X2 Pro; e, più recentemente, anche la nuova serie Huawei P40 e OnePlus 8 Pro vantano anche lo zoom audio.
La tecnologia principale che si cela dietro lo Zoom Audio è denominata beamforming o filtro spaziale. Permette di cambiare la direttività di una registrazione audio (cioè la sensibilità in base alla direzione della sorgente sonora) e modellarla in qualsiasi modo necessario. In questo caso, la direttività ottimale è un “pattern ipercardioide” (vedere l’illustrazione seguente), che migliora i suoni provenienti dalla direzione anteriore, ovvero dalla direzione in cui è puntata la fotocamera, attenuando i suoni da tutte le altre direzioni (il rumore di fondo).
Il punto di partenza di questa tecnologia sono una serie di microfoni omnidirezionali: più sono i microfoni e più sono distanti, maggiori sono le possibilità di zoom. Quando il dispositivo è dotato di due microfoni, di solito sono posizionati in alto e in basso per massimizzare la distanza tra di loro. I segnali catturati dai microfoni vengono quindi combinati in modo ottimale in modo da produrre una direttività ipercardioide.
Audio Zoom negli smartphone
Questo risultato direzionale, ottenuto utilizzando ricevitori non direzionali (i microfoni a bordo degli smartphone non lo sono), si ottiene impostando guadagni diversi su ciascun microfono a seconda della sua posizione nel dispositivo, migliorando e amplificando le onde frontali (per migliorare il suono desiderato) e abbassando l’intensità delle onde laterali (per attenuare le interferenze fuori asse).
I MEMS: microelettromeccanici
Questa, almeno, è la teoria generale. Nella pratica, il beamforming negli smartphone presenta una serie di complicazioni. Per prima cosa, la tecnologia utilizzata sui dispositivi mobili non può fare affidamento su microfoni a condensatore di grandi dimensioni, ma piuttosto su trasduttori: piccoli microfoni classificati come MEMS (sistemi microelettromeccanici) che richiedono pochissima energia per funzionare. Al fine di ottimizzare l’intelligibilità i produttori di smartphone non devono solo considerare il posizionamento del microfono, ma anche fare affidamento sulle combinazioni uniche di effetti sonori come equalizzazione e rilevamento della voce.
A ognuno il suo beamforming
Quindi, nella logica (industriale), ogni produttore presenta la propria ricetta di beamforming, combinata con tecnologie proprietarie. Questo significa che esistono diverse tecniche di beamforming, ognuna con i suoi punti di forza, dalla dereverberazione del parlato alla riduzione del rumore. Proprio come la cancellazione del rumore e molte altre tecnologie popolari, il beamforming è stato originariamente sviluppato per scopi militari. Gli array di trasmettitori a fasi sono stati utilizzati come antenne radar nella seconda guerra mondiale e sono oggi utilizzati in applicazioni che vanno dall’imaging medico ai festival musicali.