vLLM su HF Jobs: inference LLM con un solo comando

Hugging Face lancia hf jobs run per avviare server vLLM OpenAI-compatible su GPU in un comando, ideale per test e produzioni leggere senza Kubernetes.

vLLM su HF Jobs: inference LLM con un solo comando

Il nuovo modo per avviare vLLM su Hugging Face

Hugging Face ha introdotto il supporto per eseguire server vLLM direttamente su HF Jobs. La funzionalità, descritta il 26 giugno 2026 da Quentin Gallouédec, permette di avviare un endpoint compatibile con le API OpenAI con un solo comando. Non serve configurare server, Kubernetes o gestire provisioning: il servizio gira su infrastruttura HF e viene fatturato al secondo in base all'hardware utilizzato.

Il comando per avviare il server

A modern, abstract 3D illustration of a glowing terminal window floating in a dark tech environment, surrounded by subtle glowing data streams and server nodes, representing server initialization. No text or logos.

Il comando si basa su hf jobs run, l'equivalente di docker run per l'infrastruttura di Hugging Face. Si specifica l'immagine ufficiale vllm/vllm-openai, si richiede una GPU con --flavor e si espone la porta 8000 con --expose.

Un esempio pratico è:

hf jobs run --flavor a10g-large --expose 8000 --timeout 2h \
  vllm/vllm-openai:latest \
  vllm serve Qwen/Qwen3-4B --host 0.0.0.0 --port 8000

Il sistema restituisce un ID del job e un URL pubblico. La porta esposta diventa raggiungibile tramite un proxy HF che richiede un token con permessi di lettura sul job. Il download dei pesi e l'avvio richiedono qualche minuto; quando i log indicano "Application startup complete" il server è pronto.

Come interrogare l'endpoint

Una volta attivo, vLLM espone le API compatibili OpenAI. Ogni richiesta deve includere il token HF come bearer token. Con curl si può testare subito:

curl https://--8000.hf.jobs/v1/chat/completions \
  -H "Authorization: Bearer $(hf auth token)" \
  -H "Content-Type: application/json" \
  -d '{ "model": "Qwen/Qwen3-4B", "messages": [{"role": "user", "content": "Hello!"}] }'

In Python si usa il client OpenAI puntando all'URL del job e passando il token come chiave API. Il parametro chat_template_kwargs permette di controllare comportamenti specifici del modello, come la disattivazione del reasoning.

Quando conviene rispetto a Inference Endpoints

An abstract 3D tech illustration showing a comparison between two concepts: a fast, lightweight glowing energy pulse on one side representing agility, and a solid, structured glowing server rack on the other representing stability. Modern neon color palette, no text or logos.

HF Jobs è utile per test rapidi, valutazioni o generazioni batch senza impegno fisso. Si paga solo per il tempo di esecuzione e non serve configurare nulla in anticipo. Inference Endpoints resta la scelta per carichi di produzione stabili, con SLA e gestione dedicata. Jobs non sostituisce quel servizio ma lo integra per scenari temporanei o sperimentali. Il requisito principale è avere un metodo di pagamento o credito prepagato attivo sull'account.

---

📖 Leggi anche

Hai bisogno di una consulenza?

Aiuto aziende e startup a sviluppare software, automatizzare processi e integrare AI. Parliamone.

Scrivimi
← Torna al blog