Orthrus accelera l'inferenza LLM senza perdite

Orthrus unisce modelli autoregressivi e diffusion per generazione parallela di token, garantendo fedeltà completa e speedup fino a 5x su backbone Qwen3.

Orthrus accelera l'inferenza LLM senza perdite

Cos'è Orthrus

Orthrus è un framework open source su GitHub che unisce la generazione autoregressiva classica degli LLM con un approccio a diffusione a doppia vista. Il progetto permette di generare più token in parallelo senza introdurre perdite di qualità rispetto al modello base. Tutti i checkpoint rilasciati usano Qwen3 come backbone e dichiarano una generazione strettamente lossless. Lo speedup medio varia tra 4,25× e 5,36× a seconda della dimensione del modello, con picchi superiori a 7× in alcuni benchmark di generazione.

Come funziona la decodifica dual-view

Abstract 3D illustration showing a glowing data stream splitting into two parallel paths inside a futuristic processor, with one path moving sequentially and the other expanding in parallel, merging back together in a bright synchronization point. Modern tech style, dark mode with neon blue and purple accents, no text or logos.

Il metodo si basa su un consenso intra-modello tra due viste dello stesso transformer. Una vista procede in modo sequenziale come un normale LLM, mentre l'altra genera token futuri in parallelo sfruttando il processo di diffusione. Solo i token su cui entrambe le viste concordano vengono accettati. Questo meccanismo elimina la necessità di campionamento approssimato tipico di molti modelli diffusion e mantiene la distribuzione esatta del modello originale. Il codice è rilasciato con licenza aperta e include il supporto per Flash Attention 2.

Prestazioni e limiti pratici

Abstract visualization of high-speed data processing, featuring glowing light trails accelerating through a sleek, metallic GPU core to represent performance speedup. Modern tech style, dynamic motion blur, vibrant orange and cyan colors, no text or logos.

I test mostrano un'accelerazione costante su compiti di generazione lunga, ma il guadagno dipende dalla lunghezza del contesto e dal tipo di prompt. Modelli più grandi ottengono speedup maggiori perché il parallelismo compensa meglio il costo fisso della doppia valutazione. Al momento non esiste ancora l'integrazione nativa con vLLM o SGLang, quindi chi usa questi engine deve restare sul codice fornito dal repository. La dipendenza da flash-attn richiede una GPU recente e un'installazione attenta per evitare conflitti di build.

Come installarlo e provarlo

L'installazione consigliata usa uv:

uv pip install -e .
uv pip install ninja packaging
uv pip install flash-attn --no-build-isolation

Per eseguire una generazione basta caricare il modello con trust_remote_code=True e passare il flag use_diffusion_mode=True al metodo generate. Il repository fornisce anche un notebook Colab pronto all'uso per test rapidi senza configurazione locale.

FAQ

Orthrus funziona solo con modelli Qwen3? Al momento sì. Tutti i checkpoint rilasciati partono da backbone Qwen3 e il codice di adattamento è scritto per quella famiglia.

La generazione è davvero identica a quella autoregressiva standard? Il paper e i test dichiarano generazione lossless grazie al meccanismo di consenso. In pratica non si osservano deviazioni misurabili nella distribuzione dei token.

Posso usarlo in produzione oggi? Per carichi sperimentali o benchmark sì. Per deployment ad alto volume serve attendere l'integrazione annunciata con vLLM e SGLang.

---

📖 Leggi anche

Hai bisogno di una consulenza?

Aiuto aziende e startup a sviluppare software, automatizzare processi e integrare AI. Parliamone.

Scrivimi
← Torna al blog