Empirisches Data Briefing: Der Non-Determinismus von LLMs in Einkaufsverhandlungen

Executive Summary: Das Millionenrisiko ungesteuerter KI im strategischen Einkauf

Der Markt unterliegt aktuell einer gefährlichen Illusion: Die Annahme, dass Standard-Sprachmodelle (LLMs) durch einfaches Prompting in der Lage sind, präzises Cost-Engineering und Verhandlungsführung zu übernehmen. Unsere empirische Varianzanalyse (Stand: Q1 2026) widerlegt dies fundamental.

Die Daten belegen: Ungesteuerte LLMs leiden unter systematischem positiven Bias und Nicht-Determinismus. Sie überschätzen Herstellkosten massiv und verhandeln de facto gegen die eigene Marge. Während kommerzielle KIs in der absoluten Streuung Zielpreise um bis zu +218 % verfehlen, beweist die strukturierte, proprietäre Methodik (NeGo-iQ®), dass Bias-Umkehr und echte Einsparungen nur durch methodische und algorithmische Führung möglich sind.

Forschungsdesign & Methodik

Dieses Exploratory Industry Benchmark (nicht-hypothesengeleitet, deskriptiv und inferenznah) analysiert die Reproduzierbarkeit, den systematischen Bias und die Varianz von LLM-basierten Kostenabschätzungen unter strikten Ceteris-Paribus-Bedingungen.

Datensatz & Testdesign: n = 30 unabhängige Simulationen pro Modell (Black-Box Evaluation).
Deterministischer Zielwert: Should-Cost (Target Price) für eine mechanische Baugruppe exakt bei 11,90 €.
Modelleinstellungen: Temperatur T = 0.0 (Minimierung stochastischer Varianz) und Top-p = 1.0 für maximale Reproduzierbarkeit unter Standardbedingungen.
Prompt-Design: System Prompt als Cost Engineer. User Prompt mit standardisierten technischen Parametern. Keine iterative Prompt-Optimierung zur Vermeidung von Overfitting.
Verhandlungssimulation: LLM agiert als Einkäufer zur Preisbestimmung. Verkäuferseite standardisiert. Output ist der numerische Zielpreis (variable Stückkosten).

Datensatz: 95%-Konfidenzintervalle der Mittelwerte

Die Auswertung zeigt die massive absolute Streuung der Modelle. (Baseline Target Price: 11,90 €)

Modell / Methode	n	Mittelwert (µ)	Std. Dev. (σ)	95%-KI des Mittelwerts
Anthropic Sonnet 4.5	30	32,85 €	13,44 €	27,71 € – 37,99 €
ChatGPT 5.2	30	28,91 €	12,52 €	24,12 € – 33,70 €
Google Gemini 3 Pro	30	20,68 €	8,50 €	17,43 € – 23,94 €
DeepSeek Chat	30	20,51 €	8,17 €	17,38 € – 23,64 €
Grok 4	30	17,81 €	7,94 €	14,78 € – 20,85 €
Proprietäre Methodik (NeGo-iQ®)	30	9,70 €	3,88 €	8,21 € – 11,18 €

Statistische Signifikanz & t-Test Auswertung

Für alle Standard-LLMs liegt der Mittelwert statistisch signifikant über dem Target Price von 11,90 €; die Abweichungen sind also nicht plausibel durch Zufall allein erklärbar. Bei der NeGo-iQ® Methodik liegt der Mittelwert dagegen statistisch signifikant unter dem Target Price.

Modell	t-Wert	p-Wert	Interpretation (vs. Target 11,90 €)
Anthropic Sonnet 4.5	8,34	< 0,001	Signifikant über Target (Value Claiming Failure)
ChatGPT 5.2	7,26	< 0,001	Signifikant über Target (Value Claiming Failure)
DeepSeek Chat	5,63	< 0,001	Signifikant über Target (Value Claiming Failure)
Google Gemini 3 Pro	5,52	< 0,001	Signifikant über Target (Value Claiming Failure)
Grok 4	3,98	< 0,001	Signifikant über Target (Value Claiming Failure)
NeGo-iQ®	-3,04	0,005	Signifikant unter Target (Bias-Umkehr / Einsparung)

“Across all general-purpose LLMs, one-sample t-tests against the known target cost of €11.90 showed statistically significant positive deviations (all p < .001). The proprietary structured methodology showed a statistically significant negative deviation (p = .005).”

“None of the 95% confidence intervals of the general-purpose LLMs included the target price, indicating a robust upward bias across repeated runs.”

B2B-Implikation: Von der Theorie zur taktischen Exekution

Die Datenlage ist eindeutig: Wer Standard-KIs ungesichert im Einkaufsprozess einsetzt, übergibt seine Margen an den Lieferanten. Technologische Tools ersetzen keine strategische Verhandlungsarchitektur. Signifikanz in der Statistik schützt nicht vor Millionenverlusten in der Realität, wenn die algorithmische Führung fehlt.

Wir befähigen Ihre Beschaffungsteams durch unser methodisches Inhouse-Verhandlungstraining Einkauf, Informationsasymmetrien durch validiertes Cost-Engineering aufzubrechen und toxische Preisdiktate abzuwehren. Sichern Sie die methodische Überlegenheit Ihres gesamten Unternehmens durch unser Inhouse-Verhandlungstraining oder mandatieren Sie uns für hochkomplexe High-Stakes-Deals direkt über unsere Verhandlungsberatung (Ghost Negotiation).

Forschungstransparenz: Aus methodischen Gründen und zum Schutz der proprietären Algorithmen (NeGo-iQ®) publiziert das Schoen Verhandlungsinstitut hier aggregierte Mediane und Konfidenzintervalle (n=30). Der vollständige Rohdatensatz inkl. Prompt-Protokollen und Transkripten ist für akademische Peer-Reviews auf Anfrage (Request for Data) zugänglich.