Riferimenti
Questo lavoro si basa sulla tesi di Alberto Bersano e Annalisa Dal Cero, supervisionata da Giovanni Zenezini e Filippo Maria Ottaviani.
Introduzione
I benchmark sono essenziali per monitorare con quale rapidità i large language models (LLM) stanno diventando strumenti utilizzabili di supporto alle decisioni nelle operations e nel management. Tuttavia, la maggior parte delle valutazioni esistenti – come le ampie suite generali MMLU o HELM – è solo debolmente collegata alle scelte concrete che i supply chain manager devono affrontare, rendendo difficile giudicare se un LLM sia sufficientemente preciso, veloce ed economicamente conveniente per i compiti di pianificazione nel mondo reale. In risposta a questa esigenza, il presente lavoro introduce un framework di benchmarking specifico per il dominio del supply chain management, costruito attorno a un dataset a “piramide di difficoltà” che va da domande concettuali a scelta singola a problemi numerici e compiti di ragionamento esplicito passo per passo. I cinque benchmark risultanti combinano formati di domanda eterogenei, strategie di prompting (inclusi role prompting e Chain-of-Thought implicita/esplicita) e metriche che catturano congiuntamente accuratezza, latenza, uso di token e costo economico. Sintetizzando queste dimensioni in un unico indice comparativo e analizzando in dettaglio i pattern di errore, il benchmark fornisce a ricercatori e professionisti uno strumento strutturato e riproducibile per confrontare i LLM e comprendere in quali condizioni possano supportare in modo affidabile il processo decisionale manageriale nei contesti di supply chain.
Dataset
Il dataset del benchmark raccoglie domande di supply chain organizzate secondo una “piramide di difficoltà” a tre livelli. In pratica, comprende:
- Domande a scelta singola (Q1) – 300 item in totale:
- 200 domande teoriche su concetti, definizioni e regole standard nel supply chain management;
- 100 domande numeriche che richiedono calcoli o applicazioni di formule
(ad es. EOQ, scorta di sicurezza) prima di selezionare l’opzione corretta.
- Domande a risposta numerica (Q4) – problemi numerici aperti in cui il modello deve calcolare un valore esatto a partire dai dati forniti, senza opzioni di risposta, mettendo alla prova la sua capacità di applicare formule e manipolare informazioni quantitative.
- Domande a risposta numerica con ragionamento (Q4+) – un sottoinsieme di 50 item numerici più complessi in cui il modello deve fornire sia il valore finale sia una spiegazione strutturata di formule, assunzioni e passaggi intermedi, rispecchiando i reali compiti decisionali nei contesti di supply chain.
Metodologia
Per strutturare la valutazione, l’analisi empirica è organizzata in cinque benchmark che differiscono per tipologia di domanda, criteri di valutazione e strategia di prompting.
| Benchmark | Tipologia di domanda | Valutazione | Prompting |
|---|---|---|---|
| Benchmark 1 | Scelta singola | Accuratezza, Latenza, Costo | Zero-shot, role prompting |
| Benchmark 2 | Scelta singola | Accuratezza, Latenza, Costo | Zero-shot, role prompting, CoT implicita |
| Benchmark 3 | Risposta numerica | Accuratezza, Latenza, Costo | Zero-shot, role prompting |
| Benchmark 4 | Risposta numerica | Accuratezza, Latenza, Costo | Zero-shot, role prompting, CoT implicita |
| Benchmark 5 | Risposta numerica con ragionamento | Valutazione umana, Latenza, Costo | Zero-shot, role prompting, CoT esplicita |
Risultati
Benchmark 1
| LLM | Accuratezza (%) | Costo ($) | Latenza (s) |
|---|---|---|---|
| GPT-5 | 83 | 2.8103 | 3981.26 |
| GPT-5 mini | 81 | 0.4079 | 3212.85 |
| GPT-5 nano | 78 | 0.0852 | 3252.23 |
| Claude-Sonnet 4 | 75 | 0.2567 | 810.78 |
| Claude-Haiku 3.5 | 66 | 0.0458 | 320.64 |
| Gemini-2.5 Flash | 87 | 0.0351 | 2796.14 |
| Gemini-2.5 Flash-lite | 69 | 0.0042 | 221.07 |
| DeepSeek-v3.1 | 77 | 0.022 | 1002.94 |
Benchmark 2
| LLM | Accuratezza (%) | Costo ($) | Latenza (s) |
|---|---|---|---|
| GPT-5 | 81 | 2.9218 | 4066.17 |
| GPT-5 mini | 81 | 0.4541 | 3496.77 |
| GPT-5 nano | 77 | 0.1872 | 3009.69 |
| Claude-Sonnet 4 | 65 | 0.5337 | 828.97 |
| Claude-Haiku 3.5 | 65 | 0.0517 | 313.55 |
| Gemini-2.5 Flash | 88 | 0.0264 | 2598.25 |
| Gemini-2.5 Flash-lite | 70 | 0.0047 | 178.63 |
| DeepSeek-v3.1 | 76 | 0.023 | 942.63 |
Benchmark 3
| LLM | Accuratezza (%) | Costo ($) | Latenza (s) |
|---|---|---|---|
| GPT-5 | 92 | 2.1683 | 2768.99 |
| GPT-5 mini | 79 | 0.2432 | 1809.67 |
| GPT-5 nano | 71 | 0.109 | 1427.19 |
| Claude-Sonnet 4 | 31 | 0.1608 | 257.05 |
| Claude-Haiku 3.5 | 18 | 0.021 | 96.13 |
| Gemini-2.5 Flash | 78 | 0.007741 | 960.01 |
| Gemini-2.5 Flash-lite | 22 | 0.002561 | 67.39 |
| DeepSeek-v3.1 | 22 | 0.012414 | 344.89 |
Benchmark 4
| LLM | Accuratezza (%) | Costo ($) | Latenza (s) |
|---|---|---|---|
| GPT-5 | 90 | 2.1589 | 2713.86 |
| GPT-5 mini | 78 | 0.2496 | 1868.4 |
| GPT-5 nano | 69 | 0.1159 | 1804.93 |
| Claude-Sonnet 4 | 27 | 0.2943 | 442.89 |
| Claude-Haiku 3.5 | 19 | 0.0226 | 97.36 |
| Gemini-2.5 Flash | 77 | 0.007929 | 1150.67 |
| Gemini-2.5 Flash-lite | 21 | 0.002633 | 77.79 |
| DeepSeek-v3.1 | 21 | 0.013357 | 347.72 |
Benchmark 5
| LLM | Calcolo | Ragionamento |
|---|---|---|
| GPT-5 | 0.99 | 0.867 |
| GPT-5 mini | 1 | 0.875 |
| GPT-5 nano | 0.94 | 0.744 |
| Claude-Sonnet 4 | 0.94 | 0.805 |
| Claude-Haiku 3.5 | 0.81 | 0.515 |
| Gemini-2.5 Flash | 0.93 | 0.896 |
| Gemini-2.5 Flash-lite | 0.87 | 0.628 |
| DeepSeek-v3.1 | 1 | 0.77 |
| LLM | Accuratezza (%) | Costo ($) | Latenza (s) |
|---|---|---|---|
| GPT-5 | 84 | 1.7635 | 2530.8 |
| GPT-5 mini | 86 | 0.2628 | 1786.95 |
| GPT-5 nano | 62 | 0.1043 | 1448.18 |
| Claude-Sonnet 4 | 68 | 0.4745 | 509.87 |
| Claude-Haiku 3.5 | 38 | 0.0755 | 272.56 |
| Gemini-2.5 Flash | 80 | 0.102135 | 947.36 |
| Gemini-2.5 Flash-lite | 54 | 0.038566 | 324.11 |
| DeepSeek-v3.1 | 68 | 0.092539 | 2662.32 |