La proposta di Rotary GPU
Un ricercatore ha presentato su arXiv un approccio chiamato Rotary GPU per eseguire modelli Mixture-of-Experts di grandi dimensioni su hardware consumer con VRAM ridotta. Il test è stato condotto su un modello Qwen3.6-35B-A3B su un laptop con RTX 4060 da 8 GB. Il sistema ha prodotto 2048 token mantenendo un consumo medio di 6.3 GB e una velocità di 21.06 token al secondo. L’obiettivo dichiarato è verificare se alcuni modelli grandi possano funzionare in ambienti senza accesso a cluster dedicati.
Meccanismo di esecuzione

Rotary GPU deriva da un concetto precedente di residency basato su rotazioni per tenere attivi solo i parametri necessari. Invece di caricare l’intero modello in memoria, il metodo sposta dinamicamente gli expert tra VRAM e RAM di sistema. Questa scelta riduce il footprint ma introduce latenza aggiuntiva nei trasferimenti. Nel caso del modello testato, la configurazione primaria ha evitato l’out-of-memory mantenendo attiva solo una frazione degli expert per ogni token generato.
Il paper specifica che l’approccio non sostituisce l’infrastruttura data-center. Serve piuttosto a esplorare scenari con vincoli di budget, sicurezza o reti chiuse. Non vengono forniti benchmark comparativi con tecniche come quantizzazione a 4 bit o offloading tramite llama.cpp, quindi rimane difficile collocare i risultati rispetto a soluzioni già usate.
Prestazioni e limiti pratici

I 21 token al secondo su hardware portatile rappresentano un dato concreto per un modello da 35 miliardi di parametri. Tuttavia il test si è limitato a 2048 token di output e non ha misurato la qualità delle risposte rispetto all’esecuzione completa. Il consumo di 6.3 GB lascia poco margine per contesti o batch multipli.
Chi sviluppa applicazioni con LLM deve considerare che la latenza dei trasferimenti tra memoria può peggiorare con sequenze più lunghe. Inoltre il metodo richiede modifiche al runtime di inferenza, non è una semplice modifica di configurazione. Per progetti che già usano vLLM o TensorRT-LLM, integrare Rotary GPU significherebbe aggiungere un layer di gestione della residency non ancora standardizzato.
Implicazioni per chi lavora su automazione AI
Per sviluppatori che distribuiscono modelli in ambienti con GPU consumer, Rotary GPU apre una strada aggiuntiva. Non elimina la necessità di valutare quantizzazione o distillazione, ma offre un’alternativa quando si vuole mantenere il modello originale. Il fatto che il test sia avvenuto su un laptop RTX 4060 indica che certi carichi di lavoro possono spostarsi dal cloud a macchine locali senza richiedere schede da 24 GB o più.
Resta da verificare la riproducibilità su altri modelli MoE e su hardware diversi. Il paper è esplicitamente esplorativo e non fornisce codice pubblico al momento della pubblicazione. Chi intende sperimentare dovrà attendere release o implementazioni indipendenti basate sulla descrizione.
---
📖 Leggi anche
- Agentic Coding: Una Trappola per lo Sviluppo Software?
- Lean-ctx: Ottimizzatore Ibrido Riduce Consumo Token LLM del 89-99%
- Rust rivoluziona Claude Code: Avvio 2.5x più rapido e volume ridotto del 97%
Hai bisogno di una consulenza?
Aiuto aziende e startup a sviluppare software, automatizzare processi e integrare AI. Parliamone.
Scrivimi