Il nuovo modo per avviare vLLM su Hugging Face
Hugging Face ha introdotto il supporto per eseguire server vLLM direttamente su HF Jobs. La funzionalità, descritta il 26 giugno 2026 da Quentin Gallouédec, permette di avviare un endpoint compatibile con le API OpenAI con un solo comando. Non serve configurare server, Kubernetes o gestire provisioning: il servizio gira su infrastruttura HF e viene fatturato al secondo in base all'hardware utilizzato.
Il comando per avviare il server

Il comando si basa su hf jobs run, l'equivalente di docker run per l'infrastruttura di Hugging Face. Si specifica l'immagine ufficiale vllm/vllm-openai, si richiede una GPU con --flavor e si espone la porta 8000 con --expose.
Un esempio pratico è:
hf jobs run --flavor a10g-large --expose 8000 --timeout 2h \
vllm/vllm-openai:latest \
vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000
Il sistema restituisce un ID del job e un URL pubblico. La porta esposta diventa raggiungibile tramite un proxy HF che richiede un token con permessi di lettura sul job. Il download dei pesi e l'avvio richiedono qualche minuto; quando i log indicano "Application startup complete" il server è pronto.
Come interrogare l'endpoint
Una volta attivo, vLLM espone le API compatibili OpenAI. Ogni richiesta deve includere il token HF come bearer token. Con curl si può testare subito:
curl https://--8000.hf.jobs/v1/chat/completions \
-H "Authorization: Bearer $(hf auth token)" \
-H "Content-Type: application/json" \
-d '{ "model": "Qwen/Qwen3-4B", "messages": [{"role": "user", "content": "Hello!"}] }'
In Python si usa il client OpenAI puntando all'URL del job e passando il token come chiave API. Il parametro chat_template_kwargs permette di controllare comportamenti specifici del modello, come la disattivazione del reasoning.
Quando conviene rispetto a Inference Endpoints

HF Jobs è utile per test rapidi, valutazioni o generazioni batch senza impegno fisso. Si paga solo per il tempo di esecuzione e non serve configurare nulla in anticipo. Inference Endpoints resta la scelta per carichi di produzione stabili, con SLA e gestione dedicata. Jobs non sostituisce quel servizio ma lo integra per scenari temporanei o sperimentali. Il requisito principale è avere un metodo di pagamento o credito prepagato attivo sull'account.
---
📖 Leggi anche
- Agentic Coding: Una Trappola per lo Sviluppo Software?
- File agents.md: utili per gli agenti di coding?
- Lean-ctx: Ottimizzatore Ibrido Riduce Consumo Token LLM del 89-99%
Hai bisogno di una consulenza?
Aiuto aziende e startup a sviluppare software, automatizzare processi e integrare AI. Parliamone.
Scrivimi