Il test su hardware obsoleto
Un articolo pubblicato su point.free il 1 giugno 2026 mostra come eseguire i drafter MTP quantizzati di Gemma 4 su un server ricondizionato del 2016. La macchina dispone di un Intel Xeon E5-2620 v4, 128 GB di RAM DDR3 e nessuna GPU. L'autore ha evitato ollama e llama-cli standard perché non espongono i parametri necessari per gestire il carico di memoria su questo hardware.
Larghezza di banda della memoria come collo di bottiglia

L'inferenza di modelli LLM su CPU è limitata dalla velocità con cui i pesi vengono trasferiti dalla RAM alle cache del processore. Su DDR3 la banda è circa cinque volte inferiore rispetto alla RAM attuale, quindi ogni token richiede più tempo per essere calcolato. Il Xeon E5-2620 v4 offre solo AVX2, senza AVX-512 né BF16, e la cache L3 è limitata a 20 MiB. Queste caratteristiche rendono l'esecuzione memory-bound: il processore resta in attesa dei dati più spesso di quanto non esegua calcoli.
Ottimizzazioni oltre gli strumenti standard
llama-cpp e ollama sono pensati per scenari con GPU e non permettono di regolare il prefetch dei pesi o la parallelizzazione dei layer MTP. L'autore ha dovuto modificare il codice per ridurre il traffico sulla memoria e sfruttare al massimo i 16 thread disponibili. Senza questi interventi il throughput resta troppo basso per un uso pratico. La quantizzazione dei drafter aiuta, ma da sola non basta se il backend non è adattato al profilo della macchina.
Rilevanza per chi sviluppa modelli

Il risultato dimostra che l'inferenza di modelli da 26 miliardi di parametri resta possibile su hardware datato, purché si controlli direttamente il flusso di dati tra RAM e CPU. Per chi lavora su automazione AI questo significa poter riutilizzare server esistenti senza attendere il supporto ufficiale nei framework più diffusi. Il limite principale resta la necessità di interventi manuali sul codice, che aumentano i tempi di messa a punto rispetto a un deploy su hardware recente.
FAQ
Quale modello è stato eseguito? Gemma 4 con drafter MTP quantizzati a 26B-A4B parametri.
Serve una GPU per ottenere risultati accettabili? No, ma senza ottimizzazioni specifiche il tempo per token diventa troppo alto per un uso interattivo.
Quali modifiche sono state necessarie? Adattamenti al backend di inferenza per ridurre il traffico di memoria e sfruttare meglio i thread della CPU.
---
📖 Leggi anche
- Agentic Coding: Una Trappola per lo Sviluppo Software?
- Lean-ctx: Ottimizzatore Ibrido Riduce Consumo Token LLM del 89-99%
- Rust rivoluziona Claude Code: Avvio 2.5x più rapido e volume ridotto del 97%
Hai bisogno di una consulenza?
Aiuto aziende e startup a sviluppare software, automatizzare processi e integrare AI. Parliamone.
Scrivimi