Modelli linguistici di grandi dimensioni: potenziamento delle capacità con il codificatore audio

I Large Language Models (LLM) sono diventati sempre più popolari dall'introduzione del ChatGPT di OpenAI. Questi modelli eccellono in varie attività come rispondere a domande, riassumere testo, tradurre lingue e altro ancora. Gli LLM si basano su sottocampi dell'intelligenza artificiale, tra cui l'elaborazione del linguaggio naturale, la comprensione del linguaggio naturale, la visione artificiale e altri.

Gli LLM si allenano prevedendo la parola successiva in grandi quantità di dati di testo. Questa formazione consente loro di codificare una quantità significativa di conoscenza del mondo all’interno delle loro reti neurali. Di conseguenza, i LLM sono utili per una vasta gamma di attività.

Una recente ricerca ha portato le capacità LLM un ulteriore passo avanti incorporando un codificatore audio nel modello. Ciò consente al LLM di eseguire attività di riconoscimento vocale automatico (ASR) e di tradurre la comunicazione parlata in testo. Integrando direttamente le rappresentazioni dei dati audio negli incorporamenti di token di testo esistenti, LLM acquisisce capacità di riconoscimento vocale simili alla sua controparte basata su testo.

Il gruppo di ricerca ha dimostrato l'efficacia di questo approccio analizzando gli output del codificatore audio e confermando l'accurata corrispondenza degli incorporamenti audio con i corrispondenti token di testo. Il team ha utilizzato il set di dati Multilingual LibriSpeech (MLS) per la valutazione e ha scoperto che il LLM corretto, noto come LLaMA-7B, ha sovraperformato le linee di base monolingue del 18% nelle attività di riconoscimento vocale.

Oltre alla valutazione delle prestazioni, la ricerca ha esplorato anche altri aspetti del LLM aumentato. Le prove di ablazione hanno dimostrato che l'LLM può ancora funzionare bene nelle attività ASR multilingue anche se congelato durante l'allenamento, senza modificarne i parametri.

Il team ha inoltre studiato gli effetti dell'ingrandimento del codificatore audio e della regolazione dei parametri associati alla suddivisione dell'audio. Tali test miravano a migliorare l'efficienza e l'efficacia del sistema ASR. I risultati hanno mostrato che gli LLM possono elaborare input audio di lunga durata, anche con codificatori audio più grandi o passi più lunghi.

Nel complesso, la ricerca dimostra la promessa di utilizzare LLM con codificatori audio per migliorare le capacità ASR multilingue. Con i progressi nell'elaborazione audio, gli LLM hanno il potenziale per gestire un'ampia gamma di attività basate sull'audio in modo efficace ed efficiente.