Riferimenti

Questo lavoro si basa sulla tesi di laurea magistrale di Alberto Bersano e Annalisa Dal Cero, supervisionata da Giovanni Zenezini e Filippo Maria Ottaviani.
Per i lavori completi si rimanda a Tesi Bersano e Tesi Dal Cero.

Introduzione

I benchmark sono essenziali per monitorare con quale rapidità i large language models (LLM) stanno diventando strumenti utilizzabili di supporto alle decisioni nelle operations e nel management. Tuttavia, la maggior parte delle valutazioni esistenti è solo debolmente collegata alle scelte concrete che i supply chain manager devono affrontare, rendendo difficile giudicare se un LLM sia sufficientemente accurato, veloce ed economicamente conveniente per i compiti di pianificazione nel mondo reale. In risposta a questa esigenza, il presente lavoro introduce un framework di benchmarking specifico per il dominio del supply chain management, costruito attorno a un dataset a “piramide di difficoltà” che va da domande concettuali a scelta singola a problemi numerici e compiti di ragionamento esplicito passo per passo. I cinque benchmark risultanti combinano formati di domanda eterogenei, strategie di prompting (inclusi role prompting e Chain-of-Thought implicita/esplicita) e metriche che catturano congiuntamente accuratezza, latenza, uso di token e costo economico. Sintetizzando queste dimensioni in un unico indice comparativo e analizzando in dettaglio i pattern di errore, il benchmark fornisce a ricercatori e professionisti uno strumento strutturato e riproducibile per confrontare i LLM e comprendere in quali condizioni possano supportare in modo affidabile il processo decisionale manageriale nei contesti di supply chain.

Dataset

Il dataset del benchmark raccoglie domande di supply chain organizzate secondo una “piramide di difficoltà” a tre livelli.
In pratica, comprende:

  • Domande a scelta singola (Q1) – 300 item in totale, di cui:
    • 200 domande teoriche su concetti, definizioni e regole standard nel supply chain management;
    • 100 domande numeriche che richiedono calcoli o applicazioni di formule (ad es. EOQ, scorta di sicurezza) prima di selezionare l’opzione corretta.
  • Domande a risposta numerica (Q4) – problemi numerici aperti in cui il modello deve calcolare un valore esatto a partire dai dati forniti, senza opzioni di risposta, mettendo alla prova la sua capacità di applicare formule e manipolare informazioni quantitative.
  • Domande a risposta numerica con ragionamento (Q4+) – un sottoinsieme di 50 item numerici più complessi in cui il modello deve fornire sia il valore finale sia una spiegazione strutturata di formule, assunzioni e passaggi intermedi, rispecchiando i reali compiti decisionali nei contesti di supply chain.

Metodologia

Per strutturare la valutazione, l’analisi empirica è organizzata in cinque benchmark che differiscono per tipologia di domanda, criteri di valutazione e strategia di prompting.

Benchmark Tipologia di domanda Valutazione Prompting
Benchmark 1 Scelta singola Accuratezza, Latenza, Costo Zero-shot, role prompting
Benchmark 2 Scelta singola Accuratezza, Latenza, Costo Zero-shot, role prompting,
CoT implicita
Benchmark 3 Risposta numerica Accuratezza, Latenza, Costo Zero-shot, role prompting
Benchmark 4 Risposta numerica Accuratezza, Latenza, Costo Zero-shot, role prompting,
CoT implicita
Benchmark 5 Risposta numerica con ragionamento Valutazione umana, Latenza, Costo Zero-shot, role prompting,
CoT esplicita

Risultati

Benchmark 1

Benchmark 1 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 83 2.810300 3981.26
GPT-5 mini 81 0.407900 3212.85
GPT-5 nano 78 0.085200 3252.23
Claude-Sonnet 4 75 0.256700 810.78
Claude-Haiku 3.5 66 0.045800 320.64
Gemini-2.5 Flash 87 0.035100 2796.14
Gemini-2.5 Flash-lite 69 0.004200 221.07
DeepSeek-v3.1 77 0.022000 1002.94

Benchmark 2

Benchmark 2 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 81 2.921800 4066.17
GPT-5 mini 81 0.454100 3496.77
GPT-5 nano 77 0.187200 3009.69
Claude-Sonnet 4 65 0.533700 828.97
Claude-Haiku 3.5 65 0.051700 313.55
Gemini-2.5 Flash 88 0.026400 2598.25
Gemini-2.5 Flash-lite 70 0.004700 178.63
DeepSeek-v3.1 76 0.023000 942.63

Benchmark 3

Benchmark 3 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 92 2.168300 2768.99
GPT-5 mini 79 0.243200 1809.67
GPT-5 nano 71 0.109000 1427.19
Claude-Sonnet 4 31 0.160800 257.05
Claude-Haiku 3.5 18 0.021000 96.13
Gemini-2.5 Flash 78 0.007741 960.01
Gemini-2.5 Flash-lite 22 0.002561 67.39
DeepSeek-v3.1 22 0.012414 344.89

Benchmark 4

Benchmark 4 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 90 2.158900 2713.86
GPT-5 mini 78 0.249600 1868.40
GPT-5 nano 69 0.115900 1804.93
Claude-Sonnet 4 27 0.294300 442.89
Claude-Haiku 3.5 19 0.022600 97.36
Gemini-2.5 Flash 77 0.007929 1150.67
Gemini-2.5 Flash-lite 21 0.002633 77.79
DeepSeek-v3.1 21 0.013357 347.72

Benchmark 5

Benchmark 5 – Punteggi di calcolo e ragionamento per LLM
LLM Calcolo Ragionamento
GPT-5 0.990 0.867
GPT-5 mini 1.000 0.875
GPT-5 nano 0.940 0.744
Claude-Sonnet 4 0.940 0.805
Claude-Haiku 3.5 0.810 0.515
Gemini-2.5 Flash 0.930 0.896
Gemini-2.5 Flash-lite 0.870 0.628
DeepSeek-v3.1 1.000 0.770
Benchmark 5 – Confronto delle prestazioni in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 84 1.763500 2530.80
GPT-5 mini 86 0.262800 1786.95
GPT-5 nano 62 0.104300 1448.18
Claude-Sonnet 4 68 0.474500 509.87
Claude-Haiku 3.5 38 0.075500 272.56
Gemini-2.5 Flash 80 0.102135 947.36
Gemini-2.5 Flash-lite 54 0.038566 324.11
DeepSeek-v3.1 68 0.092539 2662.32