Empirisches Data Briefing: Der Non-Determinismus von LLMs in Einkaufsverhandlungen

Executive Summary: Das Risiko unkalibrierter KI im strategischen Einkauf

Der Markt unterliegt derzeit einer gefährlichen Illusion: der Annahme, dass Standard-Sprachmodelle durch einfaches Prompting präzises Cost-Engineering und belastbare Zielpreise liefern können. Die vorliegende empirische Varianzanalyse zeigt das Gegenteil.

Die Daten belegen einen systematischen positiven Bias und ausgeprägten Nicht-Determinismus. Mehrere gängige KI-Modelle überschätzen variable Stückkosten einer mechanischen Baugruppe deutlich und verfehlen damit einen bekannten Zielpreis teils massiv. Für den Einkauf ist das nicht nur ein methodisches Problem, sondern ein direktes Verhandlungsrisiko.

Forschungsdesign & Methodik

Dieses Exploratory Industry Benchmark analysiert Reproduzierbarkeit, systematischen Bias und Varianz LLM-basierter Kostenrechnung unter strikten Ceteris-Paribus-Bedingungen.

  • Datensatz & Testdesign: n = 30 unabhängige Simulationen pro Modell (Black-Box Evaluation).
  • Testobjekt: Gegenstand der Rechnung war eine mechanische Baugruppe mit bekanntem Should-Cost von 11,90 € je Stück auf Basis standardisierter technischer und produktionsbezogener Parameter.
  • Deterministischer Zielwert: Should-Cost (Target Price) für eine mechanische Baugruppe von exakt 11,90 €.
  • Modelleinstellungen: Temperatur T = 0.0 und Top-p = 1.0 zur Minimierung stochastischer Varianz.
  • Prompt-Design: System Prompt in der Rolle eines Cost Engineers; User Prompt mit standardisierten technischen Parametern. Keine iterative Prompt-Optimierung.
  • Evaluationslogik: Gemessen wurden Mittelwert, Standardabweichung, Konfidenzintervall und statistische Abweichung vom bekannten Zielpreis.

Visuelle Ergebnisübersicht

Die erste Abbildung zeigt die durchschnittliche Kostenabweichung der ge ten variablen Stückkosten für eine mechanische Baugruppe im Vergleich zum bekannten Zielpreis. Bereits auf einen Blick wird deutlich, dass sämtliche Standard-LLMs den Referenzwert systematisch überschreiten.

Durchschnittliche Kostenabweichung im Vergleich zum Zielpreis einer mechanischen Baugruppe
Abbildung 1: Durchschnittliche Abweichung der modellbasierten Kostenrechnung vom validierten Zielpreis einer mechanischen Baugruppe. Dargestellt sind Mittelwerte je Modell auf Basis von 30 identischen Durchläufen.

Die zweite Abbildung zeigt die Streuung der geschätzten variablen Stückkosten für dieselbe mechanische Baugruppe im Verhältnis zum Zielpreis. Auch hier wird sichtbar, dass die Modelle nicht nur streuen, sondern sich auf einem strukturell zu hohen Kostenniveau bewegen.

Varianz von KI-Kosten en für eine mechanische Baugruppe im Vergleich zum Zielpreis von 11,90 Euro
Abbildung 2: Varianz der KI-basierten Kostenschätzungen für eine mechanische Baugruppe im Vergleich zum bekannten Zielpreis von 11,90 € pro Stück. Dargestellt sind 30 identische Durchläufe je Modell unter Ceteris-Paribus-Bedingungen.

Datensatz: 95%-Konfidenzintervalle der Mittelwerte

Die Auswertung zeigt nicht nur hohe absolute Abweichungen, sondern auch robuste statistische Distanz zum Zielwert.

Modell / Methode n Mittelwert (µ) Std. Dev. (σ) 95%-KI des Mittelwerts
Anthropic Sonnet 4.5 30 32,85 € 13,44 € 27,71 € – 37,99 €
ChatGPT 5.2 30 28,91 € 12,52 € 24,12 € – 33,70 €
Google Gemini 3 Pro 30 20,68 € 8,50 € 17,43 € – 23,94 €
DeepSeek Chat 30 20,51 € 8,17 € 17,38 € – 23,64 €
Grok 4 30 17,81 € 7,94 € 14,78 € – 20,85 €
Proprietäre Methodik (NeGo-iQ®) 30 9,70 € 3,88 € 8,21 € – 11,18 €

Statistische Signifikanz & t-Test-Auswertung

Für alle Standard-LLMs liegt der Mittelwert statistisch signifikant über dem Target Price von 11,90 €. Die beobachteten Abweichungen sind daher nicht plausibel durch Zufall allein erklärbar. Die proprietäre Methodik liegt dagegen signifikant unter dem Zielwert.

Modell t-Wert p-Wert Interpretation (vs. Target 11,90 €)
Anthropic Sonnet 4.5 8,34 < 0,001 Signifikant über Target
ChatGPT 5.2 7,26 < 0,001 Signifikant über Target
DeepSeek Chat 5,63 < 0,001 Signifikant über Target
Google Gemini 3 Pro 5,52 < 0,001 Signifikant über Target
Grok 4 3,98 < 0,001 Signifikant über Target
NeGo-iQ® -3,04 0,005 Signifikant unter Target

“Across all general-purpose LLMs, one-sample t-tests against the known target cost of €11.90 showed statistically significant positive deviations (all p < .001). The proprietary structured methodology showed a statistically significant negative deviation (p = .005).”

“None of the 95% confidence intervals of the general-purpose LLMs included the target price, indicating a robust upward bias across repeated runs.”

Implikation für den Einkauf

Die Befunde sprechen nicht gegen den Einsatz von KI im Einkauf, wohl aber gegen einen unkalibrierten Einsatz. Wer KI-generierte Zielpreise ungeprüft in Verhandlungen übernimmt, riskiert fehlerhafte Kostenargumentationen und schwächt die eigene Verhandlungsposition.

Entscheidend ist daher die Verbindung aus methodischer Struktur, Kostenverständnis und taktischer Anwendung. Vertiefende Einblicke zu KI im Einkauf finden Sie auf unserer Seite zu KI im Einkauf. Wie Einkäufer Preisargumente, Cost-Engineering und taktische Gesprächsführung systematisch verknüpfen, zeigen wir im Verhandlungstraining für den Einkauf. Einen Überblick über weiterführende Analysen und Studien finden Sie zudem im Bereich Forschung.

Forschungstransparenz: Aus methodischen Gründen und zum Schutz proprietärer Bestandteile werden hier aggregierte Kennzahlen und Konfidenzintervalle dargestellt. Der vollständige Rohdatensatz inklusive Prompt-Protokollen kann für akademische Prüfung auf Anfrage bereitgestellt werden.