La repository su GitHub Trending
La repository
Contenuti e organizzazione della lista

La struttura segue sezioni definite. La prima è un playbook in PATTERNS.md con esempi eseguibili per LLM-as-judge, metriche pass@k, analisi degli errori e grading di traiettorie. Seguono elenchi di paper canonici estratti da un crawl di citazioni su 11.600 lavori, fonti di practitioner e trascrizioni di 47 talk con timestamp. Ogni voce riporta una frase che spiega il motivo dell'inclusione.
La sezione sugli ambienti di esecuzione sottolinea il passaggio da dataset statici a reward verificabili e calibration della difficoltà. Un file SCAN.md documenta il processo di verifica adottato per evitare link morti o tool abbandonati.
Valutazione di agenti in pratica
Chi sviluppa automazioni con LLM incontra problemi di allineamento tra judge automatico e giudizio umano. Il playbook fornisce snippet per allineare i due e per implementare gating in CI. Si distinguono i casi in cui serve un verifier deterministico da quelli in cui basta un modello di giudizio, con indicazioni su bias noti.
La distinzione tra benchmark pubblici e eval interni viene trattata con esempi di contaminazione e saturazione. Per chi usa Python o Node.js, le note indicano come instrumentare tracing e collezionare output per scoring offline prima di passare a deployment.
Limitazioni e manutenzione

La lista è opinionated: le voci sono filtrate e non tutte le risorse esistenti compaiono. I contributi richiedono verifica secondo le regole in CONTRIBUTING.md. Gli aggiornamenti marcati 🆕 coprono il periodo 2025-2026, mentre le voci con ⚠️ segnalano caveat noti su dataset o tool.
Per un ingegnere che integra agenti in applicazioni web o backend, il valore sta nella riduzione del tempo di ricerca e nella presenza di codice runnable da adattare al proprio stack.
FAQ
Come si usa il playbook? Si legge PATTERNS.md e si eseguono gli esempi forniti per metriche di base come LLM-as-judge o pass@k.
La lista include solo risorse accademiche? No, combina paper con post di practitioner e talk, purché verificati e annotati.
Serve contribuire per usarla? No, la repository è pubblica e consultabile senza fork, anche se i contributi sono accettati.
---
📖 Leggi anche
- Meta e Google siglano accordo miliardario per chip AI
- Agentic Coding: Una Trappola per lo Sviluppo Software?
- AI Generativa e Fisica: Come Cambia il Design di Oggetti Reali
Hai bisogno di una consulenza?
Aiuto aziende e startup a sviluppare software, automatizzare processi e integrare AI. Parliamone.
Scrivimi