Guida LLM SOTA Locali | Stefano Salvucci

Il repository e il suo contenuto

Jamesob ha pubblicato su GitHub una guida pratica per eseguire modelli LLM allo stato dell'arte direttamente in locale. Il repository

local-llmjamesob

Vedi su GitHub →

raccoglie configurazioni hardware, parametri di sistema e file Docker pronti all'uso per modelli come GLM-5.2-594B. La documentazione copre anche un setup per la trascrizione vocale con whisper-large-v3. Il focus è su prestazioni elevate senza dipendere da servizi cloud.

Configurazione hardware e componenti

A close-up of a high-end server motherboard featuring multiple powerful GPUs and PCIe switches, illuminated by subtle cool-toned LED lights, modern tech aesthetic, highly detailed, no text or logos.

La macchina descritta si basa su una scheda madre con processore EPYC di generazione precedente, acquistata usata per contenere i costi. Quattro schede RTX PRO 6000 forniscono 384 GB di VRAM complessiva. Per far comunicare le GPU a velocità elevate senza passare dal root complex, Jamesob ha inserito switch PCIe4 prodotti da c-payne. Questo riduce la latenza durante le operazioni di tensor parallelism.

Il sistema gira su Debian con parametri kernel specifici: iommu disabilitato e ACS disattivato per evitare blocchi NCCL. Il consumo viene limitato via software per restare entro i limiti di una linea 110V. I test riportano velocità di interconnessione vicine a 27,5 GB/s in una direzione con latenza sotto il microsecondo.

Container e prestazioni ottenute

Il repository fornisce compose file già pronti per vLLM. Con il modello GLM-5.2-594B e quantizzazione DCP4+MTP5 si raggiungono circa 80 token al secondo su un contesto di 460k token. La stessa struttura supporta anche la pipeline di speech-to-text basata su whisper-large-v3. Gli script inclusi permettono di misurare banda e latenza tra le schede prima del deploy.

Per chi sviluppa automazioni AI, questi container riducono il tempo necessario a passare da un modello a un altro. Il setup richiede però una certa dimestichezza con la configurazione BIOS per la biforcazione PCIe e con la gestione termica delle quattro schede.

Quando conviene investire in un sistema simile

A sleek, modern server rack in a pristine, well-lit private data center, symbolizing local AI infrastructure and data security, futuristic tech style with blue and cyan lighting, no text or logos.

Con un budget intorno ai 2.000 euro si ottiene già un risultato utile per Qwen e trascrizione locale. Per avvicinarsi alle prestazioni di modelli come Claude Opus serve invece un investimento vicino ai 40.000 euro. Il vantaggio principale è il controllo completo dei dati e l'assenza di limiti di utilizzo imposti da terzi. Lo svantaggio resta il costo iniziale e la manutenzione hardware.

FAQ

Quale modello raggiunge le prestazioni più alte nel setup descritto? GLM-5.2-594B con la configurazione vLLM indicata arriva a 80 token al secondo su contesti molto ampi.

Serve per forza una scheda madre PCIe5? No. Gli switch PCIe4 di c-payne permettono comunicazioni dirette tra GPU senza richiedere piattaforma di ultima generazione.

Il repository include anche script per il monitoraggio? Sì, contiene measure-gpu-speed.sh per verificare banda e latenza tra le schede prima di avviare i container.

---

📖 Leggi anche

Hai bisogno di una consulenza?

Aiuto aziende e startup a sviluppare software, automatizzare processi e integrare AI. Parliamone.

Scrivimi