Mistral lancia Voxtral e Voxtral TTS

Mistral AI ha appena arricchito il proprio portafoglio con il rilascio di due nuovi modelli audio avanzati: Voxtral e Voxtral TTS. Questa mossa espande significativamente le capacità dell'azienda nel campo dell'elaborazione vocale, offrendo alternative open-weight altamente competitive rispetto alle soluzioni proprietarie attualmente sul mercato.

I modelli Voxtral per la comprensione vocale

Voxtral si propone come un'alternativa all'avanguardia per l'Audio Speech Recognition (ASR) e la comprensione semantica dell'audio. Fino ad oggi, i team di sviluppo dovevano spesso scendere a compromessi: optare per soluzioni open-source con tassi di errore più alti o affidarsi a costose e restrittive API proprietarie.

Questo modello, basato su Mistral Small 3.1, colma questa lacuna introducendo una trascrizione di altissima precisione unita a una profonda comprensione del contesto testuale e sonoro.

Le principali caratteristiche tecniche includono:

Due dimensioni disponibili: Una versione da 24B per applicazioni enterprise su larga scala e una più snella da 3B (Voxtral Mini) per deployment locale o edge.
Finestra di contesto estesa: Con 32k token gestisce fino a 30 minuti di audio per la trascrizione e 40 minuti per compiti di comprensione.
Supporto multilingua nativo: Funziona con prestazioni state-of-the-art su oltre 9 lingue (incluso l'italiano), includendo moduli integrati per Q&A, riassunti di testo e traduzione vocale.
Function calling vocale: Ideale per creare agenti AI, permette di tradurre un comando vocale direttamente nell'invocazione di workflow o API di backend.

I benchmark riportati da Mistral indicano che Voxtral supera OpenAI Whisper e Gemini 2.5 Flash in numerosi task, mantenendo costi operativi più che dimezzati rispetto alla concorrenza.

Voxtral TTS: generazione vocale a bassa latenza

Insieme ai modelli di comprensione, Mistral ha presentato Voxtral TTS (Text-to-Speech), basato su Ministral 3B. La priorità in questo rilascio è stata la naturalità della generazione vocale unita all'espressione emotiva e alle prestazioni realtime.

Caratteristiche salienti di Voxtral TTS:

Architettura ibrida: Combina un transformer decoder da 3.4B per l'elaborazione semantica, un trasformer acustico "flow-matching" da 390M e un codec audio neurale da 300M, generando un frame rate audio di 12.5Hz.
Bassa latenza: Raggiunge un incredibile Time-to-First-Audio ritardato di circa 70ms per campioni base, aspetto fondamentale per gli agenti vocali interattivi in tempo reale.
Adattamento quasi istantaneo: Supporta il cloning vocale e l'adattamento cross-linguistico zero-shot avendo come referenza soli 3 secondi del parlato desiderato, mantenendo l'intenzione espressiva.

Licenze e opzioni di deployment

In linea con la sua filosofia, Mistral ai offre questi nuovi modelli su Hugging Face con licenze aperte. I modelli Voxtral (24B e 3B) sono rilasciati sotto la licenza permissiva Apache 2.0, mentre il modello Voxtral TTS è distribuito con licenza CC BY-NC 4.0 per usi non commerciali open-weights, pur essendo accessibile tramite API a fini di produzione commerciale.

L'ecosistema creato combinando assieme Voxtral e Voxtral TTS fornisce agli sviluppatori una pipeline end-to-end estremamente economica per la creazione di assistenti vocali di ultimissima generazione.

FAQ

Che licenza utilizza Voxtral? I modelli voce-trascrizione Voxtral sono distribuiti sotto licenza libera Apache 2.0, mentre Voxtral TTS è rilasciato come open-weights sotto licenza CC BY-NC 4.0.

Quanto costa utilizzare le API Voxtral? Le tariffe API sono fortemente competitive: il text-to-speech costa $0.016 per 1k di caratteri, mentre la trascrizione vocale parte dai $0.001 al minuto.

In quali lingue è testato Voxtral TTS? Attualmente supporta ottimamente inglese, francese, tedesco, spagnolo, olandese, portoghese, italiano, hindi e arabo.

Hai bisogno di una consulenza?

Aiuto aziende e startup a sviluppare software, automatizzare processi e integrare AI. Parliamone.

Scrivimi