Empirisches Data Briefing: Der Non-Determinismus von LLMs in Einkaufsverhandlungen
Executive Summary: Das Risiko unkalibrierter KI im strategischen Einkauf
Der Markt unterliegt derzeit einer gefährlichen Illusion: der Annahme, dass Standard-Sprachmodelle durch einfaches Prompting präzises Cost-Engineering und belastbare Zielpreise liefern können. Die vorliegende empirische Varianzanalyse zeigt das Gegenteil.
Die Daten belegen einen systematischen positiven Bias und ausgeprägten Nicht-Determinismus. Mehrere gängige KI-Modelle überschätzen variable Stückkosten einer mechanischen Baugruppe deutlich und verfehlen damit einen bekannten Zielpreis teils massiv. Für den Einkauf ist das nicht nur ein methodisches Problem, sondern ein direktes Verhandlungsrisiko.
Forschungsdesign & Methodik
Dieses Exploratory Industry Benchmark analysiert Reproduzierbarkeit, systematischen Bias und Varianz LLM-basierter Kostenrechnung unter strikten Ceteris-Paribus-Bedingungen.
- Datensatz & Testdesign: n = 30 unabhängige Simulationen pro Modell (Black-Box Evaluation).
- Testobjekt: Gegenstand der Rechnung war eine mechanische Baugruppe mit bekanntem Should-Cost von 11,90 € je Stück auf Basis standardisierter technischer und produktionsbezogener Parameter.
- Deterministischer Zielwert: Should-Cost (Target Price) für eine mechanische Baugruppe von exakt 11,90 €.
- Modelleinstellungen: Temperatur T = 0.0 und Top-p = 1.0 zur Minimierung stochastischer Varianz.
- Prompt-Design: System Prompt in der Rolle eines Cost Engineers; User Prompt mit standardisierten technischen Parametern. Keine iterative Prompt-Optimierung.
- Evaluationslogik: Gemessen wurden Mittelwert, Standardabweichung, Konfidenzintervall und statistische Abweichung vom bekannten Zielpreis.
Visuelle Ergebnisübersicht
Die erste Abbildung zeigt die durchschnittliche Kostenabweichung der ge ten variablen Stückkosten für eine mechanische Baugruppe im Vergleich zum bekannten Zielpreis. Bereits auf einen Blick wird deutlich, dass sämtliche Standard-LLMs den Referenzwert systematisch überschreiten.
Die zweite Abbildung zeigt die Streuung der geschätzten variablen Stückkosten für dieselbe mechanische Baugruppe im Verhältnis zum Zielpreis. Auch hier wird sichtbar, dass die Modelle nicht nur streuen, sondern sich auf einem strukturell zu hohen Kostenniveau bewegen.
Datensatz: 95%-Konfidenzintervalle der Mittelwerte
Die Auswertung zeigt nicht nur hohe absolute Abweichungen, sondern auch robuste statistische Distanz zum Zielwert.
| Modell / Methode | n | Mittelwert (µ) | Std. Dev. (σ) | 95%-KI des Mittelwerts |
|---|---|---|---|---|
| Anthropic Sonnet 4.5 | 30 | 32,85 € | 13,44 € | 27,71 € – 37,99 € |
| ChatGPT 5.2 | 30 | 28,91 € | 12,52 € | 24,12 € – 33,70 € |
| Google Gemini 3 Pro | 30 | 20,68 € | 8,50 € | 17,43 € – 23,94 € |
| DeepSeek Chat | 30 | 20,51 € | 8,17 € | 17,38 € – 23,64 € |
| Grok 4 | 30 | 17,81 € | 7,94 € | 14,78 € – 20,85 € |
| Proprietäre Methodik (NeGo-iQ®) | 30 | 9,70 € | 3,88 € | 8,21 € – 11,18 € |
Statistische Signifikanz & t-Test-Auswertung
Für alle Standard-LLMs liegt der Mittelwert statistisch signifikant über dem Target Price von 11,90 €. Die beobachteten Abweichungen sind daher nicht plausibel durch Zufall allein erklärbar. Die proprietäre Methodik liegt dagegen signifikant unter dem Zielwert.
| Modell | t-Wert | p-Wert | Interpretation (vs. Target 11,90 €) |
|---|---|---|---|
| Anthropic Sonnet 4.5 | 8,34 | < 0,001 | Signifikant über Target |
| ChatGPT 5.2 | 7,26 | < 0,001 | Signifikant über Target |
| DeepSeek Chat | 5,63 | < 0,001 | Signifikant über Target |
| Google Gemini 3 Pro | 5,52 | < 0,001 | Signifikant über Target |
| Grok 4 | 3,98 | < 0,001 | Signifikant über Target |
| NeGo-iQ® | -3,04 | 0,005 | Signifikant unter Target |
“Across all general-purpose LLMs, one-sample t-tests against the known target cost of €11.90 showed statistically significant positive deviations (all p < .001). The proprietary structured methodology showed a statistically significant negative deviation (p = .005).”
“None of the 95% confidence intervals of the general-purpose LLMs included the target price, indicating a robust upward bias across repeated runs.”
Implikation für den Einkauf
Die Befunde sprechen nicht gegen den Einsatz von KI im Einkauf, wohl aber gegen einen unkalibrierten Einsatz. Wer KI-generierte Zielpreise ungeprüft in Verhandlungen übernimmt, riskiert fehlerhafte Kostenargumentationen und schwächt die eigene Verhandlungsposition.
Entscheidend ist daher die Verbindung aus methodischer Struktur, Kostenverständnis und taktischer Anwendung. Vertiefende Einblicke zu KI im Einkauf finden Sie auf unserer Seite zu KI im Einkauf. Wie Einkäufer Preisargumente, Cost-Engineering und taktische Gesprächsführung systematisch verknüpfen, zeigen wir im Verhandlungstraining für den Einkauf. Einen Überblick über weiterführende Analysen und Studien finden Sie zudem im Bereich Forschung.
Forschungstransparenz: Aus methodischen Gründen und zum Schutz proprietärer Bestandteile werden hier aggregierte Kennzahlen und Konfidenzintervalle dargestellt. Der vollständige Rohdatensatz inklusive Prompt-Protokollen kann für akademische Prüfung auf Anfrage bereitgestellt werden.
