Mistral AI ha appena arricchito il proprio portafoglio con il rilascio di due nuovi modelli audio avanzati: Voxtral e Voxtral TTS. Questa mossa espande significativamente le capacità dell'azienda nel campo dell'elaborazione vocale, offrendo alternative open-weight altamente competitive rispetto alle soluzioni proprietarie attualmente sul mercato.
I modelli Voxtral per la comprensione vocale
Voxtral si propone come un'alternativa all'avanguardia per l'Audio Speech Recognition (ASR) e la comprensione semantica dell'audio. Fino ad oggi, i team di sviluppo dovevano spesso scendere a compromessi: optare per soluzioni open-source con tassi di errore più alti o affidarsi a costose e restrittive API proprietarie.
Questo modello, basato su Mistral Small 3.1, colma questa lacuna introducendo una trascrizione di altissima precisione unita a una profonda comprensione del contesto testuale e sonoro.
Le principali caratteristiche tecniche includono:
- Due dimensioni disponibili: Una versione da 24B per applicazioni enterprise su larga scala e una più snella da 3B (Voxtral Mini) per deployment locale o edge.
- Finestra di contesto estesa: Con 32k token gestisce fino a 30 minuti di audio per la trascrizione e 40 minuti per compiti di comprensione.
- Supporto multilingua nativo: Funziona con prestazioni state-of-the-art su oltre 9 lingue (incluso l'italiano), includendo moduli integrati per Q&A, riassunti di testo e traduzione vocale.
- Function calling vocale: Ideale per creare agenti AI, permette di tradurre un comando vocale direttamente nell'invocazione di workflow o API di backend.
Voxtral TTS: generazione vocale a bassa latenza
Insieme ai modelli di comprensione, Mistral ha presentato Voxtral TTS (Text-to-Speech), basato su Ministral 3B. La priorità in questo rilascio è stata la naturalità della generazione vocale unita all'espressione emotiva e alle prestazioni realtime.
Caratteristiche salienti di Voxtral TTS:
- Architettura ibrida: Combina un transformer decoder da 3.4B per l'elaborazione semantica, un trasformer acustico "flow-matching" da 390M e un codec audio neurale da 300M, generando un frame rate audio di 12.5Hz.
- Bassa latenza: Raggiunge un incredibile Time-to-First-Audio ritardato di circa 70ms per campioni base, aspetto fondamentale per gli agenti vocali interattivi in tempo reale.
- Adattamento quasi istantaneo: Supporta il cloning vocale e l'adattamento cross-linguistico zero-shot avendo come referenza soli 3 secondi del parlato desiderato, mantenendo l'intenzione espressiva.
Licenze e opzioni di deployment
In linea con la sua filosofia, Mistral ai offre questi nuovi modelli su Hugging Face con licenze aperte. I modelli Voxtral (24B e 3B) sono rilasciati sotto la licenza permissiva Apache 2.0, mentre il modello Voxtral TTS è distribuito con licenza CC BY-NC 4.0 per usi non commerciali open-weights, pur essendo accessibile tramite API a fini di produzione commerciale.
L'ecosistema creato combinando assieme Voxtral e Voxtral TTS fornisce agli sviluppatori una pipeline end-to-end estremamente economica per la creazione di assistenti vocali di ultimissima generazione.
FAQ
Che licenza utilizza Voxtral? I modelli voce-trascrizione Voxtral sono distribuiti sotto licenza libera Apache 2.0, mentre Voxtral TTS è rilasciato come open-weights sotto licenza CC BY-NC 4.0.
Quanto costa utilizzare le API Voxtral? Le tariffe API sono fortemente competitive: il text-to-speech costa $0.016 per 1k di caratteri, mentre la trascrizione vocale parte dai $0.001 al minuto.
In quali lingue è testato Voxtral TTS? Attualmente supporta ottimamente inglese, francese, tedesco, spagnolo, olandese, portoghese, italiano, hindi e arabo.
Hai bisogno di una consulenza?
Aiuto aziende e startup a sviluppare software, automatizzare processi e integrare AI. Parliamone.
Scrivimi