Empirisches Data Briefing: Der Non-Determinismus von LLMs in Einkaufsverhandlungen
Executive Summary: Das Millionenrisiko ungesteuerter KI im strategischen Einkauf
Der Markt unterliegt aktuell einer gefährlichen Illusion: Die Annahme, dass Standard-Sprachmodelle (LLMs) durch einfaches Prompting in der Lage sind, präzises Cost-Engineering und Verhandlungsführung zu übernehmen. Unsere empirische Varianzanalyse (Stand: Q1 2026) widerlegt dies fundamental.
Die Daten belegen: Ungesteuerte LLMs leiden unter systematischem positiven Bias und Nicht-Determinismus. Sie überschätzen Herstellkosten massiv und verhandeln de facto gegen die eigene Marge. Während kommerzielle KIs in der absoluten Streuung Zielpreise um bis zu +218 % verfehlen, beweist die strukturierte, proprietäre Methodik (NeGo-iQ®), dass Bias-Umkehr und echte Einsparungen nur durch methodische und algorithmische Führung möglich sind.
Forschungsdesign & Methodik
Dieses Exploratory Industry Benchmark (nicht-hypothesengeleitet, deskriptiv und inferenznah) analysiert die Reproduzierbarkeit, den systematischen Bias und die Varianz von LLM-basierten Kostenabschätzungen unter strikten Ceteris-Paribus-Bedingungen.
- Datensatz & Testdesign: n = 30 unabhängige Simulationen pro Modell (Black-Box Evaluation).
- Deterministischer Zielwert: Should-Cost (Target Price) für eine mechanische Baugruppe exakt bei 11,90 €.
- Modelleinstellungen: Temperatur T = 0.0 (Minimierung stochastischer Varianz) und Top-p = 1.0 für maximale Reproduzierbarkeit unter Standardbedingungen.
- Prompt-Design: System Prompt als Cost Engineer. User Prompt mit standardisierten technischen Parametern. Keine iterative Prompt-Optimierung zur Vermeidung von Overfitting.
- Verhandlungssimulation: LLM agiert als Einkäufer zur Preisbestimmung. Verkäuferseite standardisiert. Output ist der numerische Zielpreis (variable Stückkosten).
Datensatz: 95%-Konfidenzintervalle der Mittelwerte
Die Auswertung zeigt die massive absolute Streuung der Modelle. (Baseline Target Price: 11,90 €)
| Modell / Methode | n | Mittelwert (µ) | Std. Dev. (σ) | 95%-KI des Mittelwerts |
|---|---|---|---|---|
| Anthropic Sonnet 4.5 | 30 | 32,85 € | 13,44 € | 27,71 € – 37,99 € |
| ChatGPT 5.2 | 30 | 28,91 € | 12,52 € | 24,12 € – 33,70 € |
| Google Gemini 3 Pro | 30 | 20,68 € | 8,50 € | 17,43 € – 23,94 € |
| DeepSeek Chat | 30 | 20,51 € | 8,17 € | 17,38 € – 23,64 € |
| Grok 4 | 30 | 17,81 € | 7,94 € | 14,78 € – 20,85 € |
| Proprietäre Methodik (NeGo-iQ®) | 30 | 9,70 € | 3,88 € | 8,21 € – 11,18 € |
Statistische Signifikanz & t-Test Auswertung
Für alle Standard-LLMs liegt der Mittelwert statistisch signifikant über dem Target Price von 11,90 €; die Abweichungen sind also nicht plausibel durch Zufall allein erklärbar. Bei der NeGo-iQ® Methodik liegt der Mittelwert dagegen statistisch signifikant unter dem Target Price.
| Modell | t-Wert | p-Wert | Interpretation (vs. Target 11,90 €) |
|---|---|---|---|
| Anthropic Sonnet 4.5 | 8,34 | < 0,001 | Signifikant über Target (Value Claiming Failure) |
| ChatGPT 5.2 | 7,26 | < 0,001 | Signifikant über Target (Value Claiming Failure) |
| DeepSeek Chat | 5,63 | < 0,001 | Signifikant über Target (Value Claiming Failure) |
| Google Gemini 3 Pro | 5,52 | < 0,001 | Signifikant über Target (Value Claiming Failure) |
| Grok 4 | 3,98 | < 0,001 | Signifikant über Target (Value Claiming Failure) |
| NeGo-iQ® | -3,04 | 0,005 | Signifikant unter Target (Bias-Umkehr / Einsparung) |
“Across all general-purpose LLMs, one-sample t-tests against the known target cost of €11.90 showed statistically significant positive deviations (all p < .001). The proprietary structured methodology showed a statistically significant negative deviation (p = .005).”
“None of the 95% confidence intervals of the general-purpose LLMs included the target price, indicating a robust upward bias across repeated runs.”
B2B-Implikation: Von der Theorie zur taktischen Exekution
Die Datenlage ist eindeutig: Wer Standard-KIs ungesichert im Einkaufsprozess einsetzt, übergibt seine Margen an den Lieferanten. Technologische Tools ersetzen keine strategische Verhandlungsarchitektur. Signifikanz in der Statistik schützt nicht vor Millionenverlusten in der Realität, wenn die algorithmische Führung fehlt.
Wir befähigen Ihre Beschaffungsteams durch unser methodisches Inhouse-Verhandlungstraining Einkauf, Informationsasymmetrien durch validiertes Cost-Engineering aufzubrechen und toxische Preisdiktate abzuwehren. Sichern Sie die methodische Überlegenheit Ihres gesamten Unternehmens durch unser Inhouse-Verhandlungstraining oder mandatieren Sie uns für hochkomplexe High-Stakes-Deals direkt über unsere Verhandlungsberatung (Ghost Negotiation).
Forschungstransparenz: Aus methodischen Gründen und zum Schutz der proprietären Algorithmen (NeGo-iQ®) publiziert das Schoen Verhandlungsinstitut hier aggregierte Mediane und Konfidenzintervalle (n=30). Der vollständige Rohdatensatz inkl. Prompt-Protokollen und Transkripten ist für akademische Peer-Reviews auf Anfrage (Request for Data) zugänglich.
