Riferimenti

Questo lavoro si basa sulla tesi di laurea magistrale di Alberto Bersano e Annalisa Dal Cero, supervisionata da Giovanni Zenezini e Filippo Maria Ottaviani.
Per i lavori completi si rimanda a Tesi Bersano e Tesi Dal Cero.

Introduzione

I benchmark sono essenziali per monitorare con quale rapidità i large language models (LLM) stanno diventando strumenti utilizzabili di supporto alle decisioni nelle operations e nel management. Tuttavia, la maggior parte delle valutazioni esistenti è solo debolmente collegata alle scelte concrete che i supply chain manager devono affrontare, rendendo difficile giudicare se un LLM sia sufficientemente accurato, veloce ed economicamente conveniente per i compiti di pianificazione nel mondo reale. In risposta a questa esigenza, il presente lavoro introduce un framework di benchmarking specifico per il dominio del supply chain management, costruito attorno a un dataset a “piramide di difficoltà” che va da domande concettuali a scelta singola a problemi numerici e compiti di ragionamento esplicito passo per passo. I cinque benchmark risultanti combinano formati di domanda eterogenei, strategie di prompting (inclusi role prompting e Chain-of-Thought implicita/esplicita) e metriche che catturano congiuntamente accuratezza, latenza, uso di token e costo economico. Sintetizzando queste dimensioni in un unico indice comparativo e analizzando in dettaglio i pattern di errore, il benchmark fornisce a ricercatori e professionisti uno strumento strutturato e riproducibile per confrontare i LLM e comprendere in quali condizioni possano supportare in modo affidabile il processo decisionale manageriale nei contesti di supply chain.

Dataset

Il dataset del benchmark raccoglie domande di supply chain organizzate secondo una “piramide di difficoltà” a tre livelli.
In pratica, comprende:

Domande a scelta singola (Q1) – 300 item in totale, di cui:
- 200 domande teoriche su concetti, definizioni e regole standard nel supply chain management;
- 100 domande numeriche che richiedono calcoli o applicazioni di formule (ad es. EOQ, scorta di sicurezza) prima di selezionare l’opzione corretta.
Domande a risposta numerica (Q4) – problemi numerici aperti in cui il modello deve calcolare un valore esatto a partire dai dati forniti, senza opzioni di risposta, mettendo alla prova la sua capacità di applicare formule e manipolare informazioni quantitative.
Domande a risposta numerica con ragionamento (Q4+) – un sottoinsieme di 50 item numerici più complessi in cui il modello deve fornire sia il valore finale sia una spiegazione strutturata di formule, assunzioni e passaggi intermedi, rispecchiando i reali compiti decisionali nei contesti di supply chain.

Metodologia

Per strutturare la valutazione, l’analisi empirica è organizzata in cinque benchmark che differiscono per tipologia di domanda, criteri di valutazione e strategia di prompting.

Benchmark	Tipologia di domanda	Valutazione	Prompting
Benchmark 1	Scelta singola	Accuratezza, Latenza, Costo	Zero-shot, role prompting
Benchmark 2	Scelta singola	Accuratezza, Latenza, Costo	Zero-shot, role prompting, CoT implicita
Benchmark 3	Risposta numerica	Accuratezza, Latenza, Costo	Zero-shot, role prompting
Benchmark 4	Risposta numerica	Accuratezza, Latenza, Costo	Zero-shot, role prompting, CoT implicita
Benchmark 5	Risposta numerica con ragionamento	Valutazione umana, Latenza, Costo	Zero-shot, role prompting, CoT esplicita

Risultati

Benchmark 1

Benchmark 1 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM	Accuratezza (%)	Costo ($)	Latenza (s)
GPT-5	83	2.810300	3981.26
GPT-5 mini	81	0.407900	3212.85
GPT-5 nano	78	0.085200	3252.23
Claude-Sonnet 4	75	0.256700	810.78
Claude-Haiku 3.5	66	0.045800	320.64
Gemini-2.5 Flash	87	0.035100	2796.14
Gemini-2.5 Flash-lite	69	0.004200	221.07
DeepSeek-v3.1	77	0.022000	1002.94

Benchmark 2

Benchmark 2 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM	Accuratezza (%)	Costo ($)	Latenza (s)
GPT-5	81	2.921800	4066.17
GPT-5 mini	81	0.454100	3496.77
GPT-5 nano	77	0.187200	3009.69
Claude-Sonnet 4	65	0.533700	828.97
Claude-Haiku 3.5	65	0.051700	313.55
Gemini-2.5 Flash	88	0.026400	2598.25
Gemini-2.5 Flash-lite	70	0.004700	178.63
DeepSeek-v3.1	76	0.023000	942.63

Benchmark 3

Benchmark 3 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM	Accuratezza (%)	Costo ($)	Latenza (s)
GPT-5	92	2.168300	2768.99
GPT-5 mini	79	0.243200	1809.67
GPT-5 nano	71	0.109000	1427.19
Claude-Sonnet 4	31	0.160800	257.05
Claude-Haiku 3.5	18	0.021000	96.13
Gemini-2.5 Flash	78	0.007741	960.01
Gemini-2.5 Flash-lite	22	0.002561	67.39
DeepSeek-v3.1	22	0.012414	344.89

Benchmark 4

Benchmark 4 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM	Accuratezza (%)	Costo ($)	Latenza (s)
GPT-5	90	2.158900	2713.86
GPT-5 mini	78	0.249600	1868.40
GPT-5 nano	69	0.115900	1804.93
Claude-Sonnet 4	27	0.294300	442.89
Claude-Haiku 3.5	19	0.022600	97.36
Gemini-2.5 Flash	77	0.007929	1150.67
Gemini-2.5 Flash-lite	21	0.002633	77.79
DeepSeek-v3.1	21	0.013357	347.72

Benchmark 5

Benchmark 5 – Punteggi di calcolo e ragionamento per LLM
LLM	Calcolo	Ragionamento
GPT-5	0.990	0.867
GPT-5 mini	1.000	0.875
GPT-5 nano	0.940	0.744
Claude-Sonnet 4	0.940	0.805
Claude-Haiku 3.5	0.810	0.515
Gemini-2.5 Flash	0.930	0.896
Gemini-2.5 Flash-lite	0.870	0.628
DeepSeek-v3.1	1.000	0.770

Benchmark 5 – Confronto delle prestazioni in termini di accuratezza, costo e latenza
LLM	Accuratezza (%)	Costo ($)	Latenza (s)
GPT-5	84	1.763500	2530.80
GPT-5 mini	86	0.262800	1786.95
GPT-5 nano	62	0.104300	1448.18
Claude-Sonnet 4	68	0.474500	509.87
Claude-Haiku 3.5	38	0.075500	272.56
Gemini-2.5 Flash	80	0.102135	947.36
Gemini-2.5 Flash-lite	54	0.038566	324.11
DeepSeek-v3.1	68	0.092539	2662.32