Riferimenti

Questo lavoro si basa sulla tesi di Alberto Bersano e Annalisa Dal Cero, supervisionata da Giovanni Zenezini e Filippo Maria Ottaviani.

Introduzione

I benchmark sono essenziali per monitorare con quale rapidità i large language models (LLM) stanno diventando strumenti utilizzabili di supporto alle decisioni nelle operations e nel management. Tuttavia, la maggior parte delle valutazioni esistenti – come le ampie suite generali MMLU o HELM – è solo debolmente collegata alle scelte concrete che i supply chain manager devono affrontare, rendendo difficile giudicare se un LLM sia sufficientemente preciso, veloce ed economicamente conveniente per i compiti di pianificazione nel mondo reale. In risposta a questa esigenza, il presente lavoro introduce un framework di benchmarking specifico per il dominio del supply chain management, costruito attorno a un dataset a “piramide di difficoltà” che va da domande concettuali a scelta singola a problemi numerici e compiti di ragionamento esplicito passo per passo. I cinque benchmark risultanti combinano formati di domanda eterogenei, strategie di prompting (inclusi role prompting e Chain-of-Thought implicita/esplicita) e metriche che catturano congiuntamente accuratezza, latenza, uso di token e costo economico. Sintetizzando queste dimensioni in un unico indice comparativo e analizzando in dettaglio i pattern di errore, il benchmark fornisce a ricercatori e professionisti uno strumento strutturato e riproducibile per confrontare i LLM e comprendere in quali condizioni possano supportare in modo affidabile il processo decisionale manageriale nei contesti di supply chain.

Dataset

Il dataset del benchmark raccoglie domande di supply chain organizzate secondo una “piramide di difficoltà” a tre livelli. In pratica, comprende:

  • Domande a scelta singola (Q1) – 300 item in totale:
    • 200 domande teoriche su concetti, definizioni e regole standard nel supply chain management;
    • 100 domande numeriche che richiedono calcoli o applicazioni di formule
      (ad es. EOQ, scorta di sicurezza) prima di selezionare l’opzione corretta.
  • Domande a risposta numerica (Q4) – problemi numerici aperti in cui il modello deve calcolare un valore esatto a partire dai dati forniti, senza opzioni di risposta, mettendo alla prova la sua capacità di applicare formule e manipolare informazioni quantitative.
  • Domande a risposta numerica con ragionamento (Q4+) – un sottoinsieme di 50 item numerici più complessi in cui il modello deve fornire sia il valore finale sia una spiegazione strutturata di formule, assunzioni e passaggi intermedi, rispecchiando i reali compiti decisionali nei contesti di supply chain.

Metodologia

Per strutturare la valutazione, l’analisi empirica è organizzata in cinque benchmark che differiscono per tipologia di domanda, criteri di valutazione e strategia di prompting.

Benchmark Tipologia di domanda Valutazione Prompting
Benchmark 1 Scelta singola Accuratezza, Latenza, Costo Zero-shot, role prompting
Benchmark 2 Scelta singola Accuratezza, Latenza, Costo Zero-shot, role prompting,
CoT implicita
Benchmark 3 Risposta numerica Accuratezza, Latenza, Costo Zero-shot, role prompting
Benchmark 4 Risposta numerica Accuratezza, Latenza, Costo Zero-shot, role prompting,
CoT implicita
Benchmark 5 Risposta numerica con ragionamento Valutazione umana, Latenza, Costo Zero-shot, role prompting,
CoT esplicita

Risultati

Benchmark 1

Benchmark 1 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 83 2.8103 3981.26
GPT-5 mini 81 0.4079 3212.85
GPT-5 nano 78 0.0852 3252.23
Claude-Sonnet 4 75 0.2567 810.78
Claude-Haiku 3.5 66 0.0458 320.64
Gemini-2.5 Flash 87 0.0351 2796.14
Gemini-2.5 Flash-lite 69 0.0042 221.07
DeepSeek-v3.1 77 0.022 1002.94

Benchmark 2

Benchmark 2 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 81 2.9218 4066.17
GPT-5 mini 81 0.4541 3496.77
GPT-5 nano 77 0.1872 3009.69
Claude-Sonnet 4 65 0.5337 828.97
Claude-Haiku 3.5 65 0.0517 313.55
Gemini-2.5 Flash 88 0.0264 2598.25
Gemini-2.5 Flash-lite 70 0.0047 178.63
DeepSeek-v3.1 76 0.023 942.63

Benchmark 3

Benchmark 3 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 92 2.1683 2768.99
GPT-5 mini 79 0.2432 1809.67
GPT-5 nano 71 0.109 1427.19
Claude-Sonnet 4 31 0.1608 257.05
Claude-Haiku 3.5 18 0.021 96.13
Gemini-2.5 Flash 78 0.007741 960.01
Gemini-2.5 Flash-lite 22 0.002561 67.39
DeepSeek-v3.1 22 0.012414 344.89

Benchmark 4

Benchmark 4 – Confronto delle prestazioni dei LLM in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 90 2.1589 2713.86
GPT-5 mini 78 0.2496 1868.4
GPT-5 nano 69 0.1159 1804.93
Claude-Sonnet 4 27 0.2943 442.89
Claude-Haiku 3.5 19 0.0226 97.36
Gemini-2.5 Flash 77 0.007929 1150.67
Gemini-2.5 Flash-lite 21 0.002633 77.79
DeepSeek-v3.1 21 0.013357 347.72

Benchmark 5

Benchmark 5 – Punteggi di calcolo e ragionamento per LLM
LLM Calcolo Ragionamento
GPT-5 0.99 0.867
GPT-5 mini 1 0.875
GPT-5 nano 0.94 0.744
Claude-Sonnet 4 0.94 0.805
Claude-Haiku 3.5 0.81 0.515
Gemini-2.5 Flash 0.93 0.896
Gemini-2.5 Flash-lite 0.87 0.628
DeepSeek-v3.1 1 0.77
Benchmark 5 – Confronto delle prestazioni in termini di accuratezza, costo e latenza
LLM Accuratezza (%) Costo ($) Latenza (s)
GPT-5 84 1.7635 2530.8
GPT-5 mini 86 0.2628 1786.95
GPT-5 nano 62 0.1043 1448.18
Claude-Sonnet 4 68 0.4745 509.87
Claude-Haiku 3.5 38 0.0755 272.56
Gemini-2.5 Flash 80 0.102135 947.36
Gemini-2.5 Flash-lite 54 0.038566 324.11
DeepSeek-v3.1 68 0.092539 2662.32