Chatbot-ROI ehrlich rechnen: Was bleibt, wenn man die Marketing-Mathematik abzieht

Die meisten ROI-Rechnungen aus Anbieter-Pitches halten keiner internen Prüfung stand. Dieser Beitrag zeigt, wie Sie eine belastbare Kalkulation für Ihren Chatbot aufsetzen — mit ehrlichen Hebeln, realistischen Risiken und einer Methodik, die im Controlling übersteht.

In einem Termin vor einigen Monaten saß mir die Geschäftsführerin eines Mittelständlers gegenüber. Auf dem Tisch lag das Angebot eines bekannten Chatbot-Anbieters mit einer ROI-Berechnung, die das eigene Marketing-Team mitgeliefert hatte. Auf Seite drei stand: „ROI im ersten Jahr: 4.812 %.“ Sie sagte nur einen Satz: „Wenn das stimmen würde, hätte das längst jeder. Tut es offenbar nicht. Also stimmt da was nicht — und ich will wissen, was.“

Sie hatte recht. Solche Zahlen sind keine Rechnungen, sondern Werbeprosa. Ein realistischer Business Case sieht anders aus — er ist im Zweifel langweiliger, aber er hält der Diskussion im Controlling stand. Dieser Beitrag zeigt, wie eine belastbare ROI-Kalkulation für einen KI-Chatbot in einem KMU oder Mittelständler tatsächlich aussieht: mit ehrlichen Hebeln, realistischen Annahmen, sauber benannten Risiken und einer Methodik, die nicht in sich zusammenfällt, sobald jemand kritisch nachfragt.

Warum die Standard-Rechnungen meist nicht stimmen

Die meisten Chatbot-ROI-Modelle, die in Vertriebsunterlagen auftauchen, haben dieselben drei Schwachstellen. Wer sie kennt, erkennt eine geschönte Rechnung sofort.

Erstens — die Automatisierungsrate ist zu hoch angesetzt. Anbieter rechnen häufig mit 60–80 % Deflection ab Tag 1. Realistisch sind im ersten Quartal eher 25–40 %, mit klarer Steigerung über sechs bis neun Monate auf 50–65 %, wenn die Wissensbasis sauber gepflegt wird. Die Marketing-Zahl ist nicht falsch — sie ist nur ein Endzustand nach langer Optimierung, kein Ausgangspunkt.

Zweitens — Lead-Generierung wird inkrementell gerechnet, ist es aber meist nicht. Anbieter unterstellen, dass jeder im Chat erfasste Kontakt ein zusätzlicher Lead ist. In Wirklichkeit hätten viele dieser Interessenten ohnehin das Kontaktformular ausgefüllt oder angerufen. Der tatsächliche Inkrement liegt eher bei 10–25 % der erfassten Leads, nicht bei 100 %.

Drittens — Customer Lifetime Value und Retention werden ohne Beleg behauptet. „2 verhinderte Kündigungen × 5.000 € CLV“ sieht in der Tabelle gut aus, aber kaum ein Unternehmen kann sauber zeigen, dass ein Chatbot die Kündigungsrate messbar gesenkt hat. Das ist möglich — aber nicht trivial nachweisbar, schon gar nicht im ersten Jahr.

Wenn eine ROI-Rechnung auf allen drei Punkten gleichzeitig optimistisch ist, kommt zwangsläufig eine vierstellige Prozentzahl raus. Das ist kein Beweis für ein gutes Produkt — es ist ein Beweis für eine schlechte Rechnung.

Die ehrlichen Werthebel eines Chatbots

Ein Chatbot kann Wert liefern. Aber jede der nachfolgenden Komponenten muss ehrlich modelliert werden, sonst trägt der Business Case keine echte Entscheidung.

Hebel 1 — Tatsächliche Entlastung im Support

Der einzige Hebel, der vergleichsweise robust messbar ist. Wichtig ist die saubere Trennung zwischen Brutto-Deflection und Netto-Entlastung.

Brutto-Deflection: Anteil der Chats, die ohne menschliche Übergabe enden
Netto-Entlastung: Anteil der Anfragen, die der Bot wirklich vom Team weggehalten hat — abzüglich derjenigen, die ohnehin nicht gestellt worden wären, weil zum Beispiel die FAQ-Seite die Antwort enthielt

Nur die Netto-Entlastung gehört in den Business Case. Empfehlung: konservativ mit 50–60 % der Brutto-Deflection rechnen.

Hebel 2 — Inkrementelle Leads

Hier zählt nur, was ohne den Chatbot nicht entstanden wäre. Ein A/B-Test über drei Monate (50 % der Besucher sehen den Bot, 50 % nicht) ist die ehrliche Methode. Wer den nicht macht, sollte konservativ mit 15–25 % Inkrement rechnen — das heißt, von 100 Chat-Leads sind 15–25 wirklich neu, der Rest wäre auch ohne Bot zustande gekommen.

Hebel 3 — Reaktionsgeschwindigkeit als Conversion-Hebel

Schnelle Antworten verbessern messbar die Abschlussrate. Studien zum B2B-Vertrieb zeigen, dass Reaktionen innerhalb von fünf Minuten die Lead-Konversion deutlich erhöhen — die genauen Zahlen schwanken zwischen Branchen. Hier ist ein moderater Uplift von 5–15 % auf bestehende Leads realistisch, nicht 50 %.

Hebel 4 — Erreichbarkeit außerhalb der Geschäftszeiten

Real, aber kleiner als oft behauptet. Außerhalb der Bürozeiten erreichen Unternehmen mit reinen Telefon-/Mailkanälen einen Anteil der Anfragen schlicht nicht. Wie viel davon wirtschaftlich relevant ist, hängt vom Geschäftsmodell ab. Für die meisten KMU ist ein Anteil von 10–20 % zusätzlicher abendlicher Leads realistisch — und davon konvertiert nicht alles, weil der Erstkontakt asynchron bleibt.

Hebel 5 — Qualitative Effekte

Wartezeitreduktion, geringere Frustration, höhere Wiederbesuchsraten, bessere Markenwahrnehmung. Diese Effekte sind real, aber im ersten Jahr selten sauber attribuierbar. Sie gehören in den Business Case als qualitative Anmerkung, nicht als Euro-Wert.

Die Kostenseite, die niemand gern aufschreibt

Lizenz- und Setup-Kosten sind der einfache Teil. Was in der Rechnung oft fehlt, ist der interne Aufwand — und genau der entscheidet darüber, ob ein Projekt sich lohnt oder im Sand verläuft.

Externe Kosten

Position	Bandbreite
Plattform-Lizenz / Managed Service	50–600 € pro Monat
Mittlere Plattform mit KI-Modul	600–2.500 € pro Monat
Enterprise-Setup mit Integration	10.000–60.000 € einmalig
Custom-Entwicklung	25.000–150.000 € einmalig
LLM-API-Kosten je nach Volumen	50–1.500 € pro Monat

Interne Kosten, die fast immer unterschätzt werden

Anforderungsaufnahme und Use-Case-Auswahl — 20–40 Stunden über Fachbereiche verteilt
Wissensbasis-Aufbau — der unsichtbare Kostentreiber, oft 40–120 Stunden allein im ersten Quartal
Pflege der Wissensbasis im Dauerbetrieb — 4–12 Stunden pro Monat, dauerhaft
Schulung der Servicemitarbeiter — Eskalationspfade, Tonalitäts-Reviews, Feedback-Schleifen
Monitoring und Reporting — wöchentliches Sichten der Konversationen, mindestens im ersten Halbjahr
Datenschutz und Audit — Verarbeitungsverzeichnis, gegebenenfalls Datenschutz-Folgenabschätzung
AI-Act-Konformität — Kennzeichnung, Risiko-Klassifikation, Audit-Logs

Eine ehrliche Rechnung kalkuliert mindestens 0,1–0,2 Vollzeitäquivalent intern für das erste Jahr ein. Bei einem Personalkostensatz von 60.000 € sind das 6.000–12.000 € pro Jahr, die im Anbieter-Sheet nirgends auftauchen.

Drei Szenarien — realistisch gerechnet

Statt drei „Beispiele mit Tag-1-Break-Even“ hier drei Szenarien für ein typisches mittelständisches B2B-Unternehmen mit ca. 60 Mitarbeitern und 12.000 Website-Besuchern pro Monat. Identische Kostenbasis, drei unterschiedliche Annahmen-Sets.

Pessimistisches Szenario

Annahme: 25 % Netto-Entlastung im ersten Halbjahr, 15 % inkrementelle Leads, kein nachweisbarer Retention-Effekt.

Position	Monatlich
Support-Entlastung (160 Anfragen × 6 Min. × 35 €/h)	560 €
Inkrementelle Leads (3 echte Neu-Leads × 18 % × 4.000 €)	216 €
Reaktionsgeschwindigkeit (Uplift ~5 % auf 20 bestehende Leads × 18 % × 4.000 €)	720 €
Abend-/Wochenend-Leads (2 zusätzlich × 12 % × 4.000 €)	96 €
Bruttowert	1.592 €
Externe Kosten (mittlere Plattform inkl. KI)	−900 €
Interner Aufwand (anteilig)	−600 €
Nettowert	92 €

Im pessimistischen Fall trägt sich das Projekt knapp. Kein Drama, kein Wunder.

Realistisches Szenario

Annahme: 45 % Netto-Entlastung nach drei Monaten, 20 % Inkrement, kleiner Retention-Effekt.

Position	Monatlich
Support-Entlastung (290 Anfragen × 6 Min. × 35 €/h)	1.015 €
Inkrementelle Leads (5 echte Neu-Leads × 20 % × 4.000 €)	400 €
Reaktionsgeschwindigkeit (Uplift ~10 %)	1.440 €
Abend-/Wochenend-Leads	192 €
Retention (1 verhinderte Kündigung × 6.000 € CLV, anteilig 12 Monate)	500 €
Bruttowert	3.547 €
Externe Kosten	−900 €
Interner Aufwand	−600 €
Nettowert	2.047 €

Das ist ein gesunder Business Case — kein Wundermärchen, aber klar positiv.

Optimistisches Szenario

Annahme: 60 % Netto-Entlastung nach sechs Monaten, 25 % Inkrement, sichtbarer Retention-Effekt.

Position	Monatlich
Support-Entlastung (390 Anfragen × 6 Min. × 35 €/h)	1.365 €
Inkrementelle Leads (7 × 22 % × 4.000 €)	616 €
Reaktionsgeschwindigkeit (Uplift ~15 %)	2.160 €
Abend-/Wochenend-Leads	288 €
Retention (2 verhinderte Kündigungen anteilig)	1.000 €
Bruttowert	5.429 €
Externe Kosten	−900 €
Interner Aufwand	−600 €
Nettowert	3.929 €

Was diese Rechnung wirklich aussagt

Die Bandbreite zwischen Pessimismus und Optimismus liegt zwischen ungefähr 1.100 € und 47.000 € jährlichem Nettowert. Das ist die ehrliche Spanne. Wer eine einzige Zahl mit Komma präsentiert bekommt, sollte zurückfragen, welches Szenario zugrunde liegt — und sich nicht mit „Mittelwert“ abspeisen lassen.

Was sich schwer rechnen lässt — und trotzdem zählt

Manche Effekte gehören in die Entscheidung, auch wenn sie sich nicht sauber in Euro übersetzen lassen.

Mitarbeiterzufriedenheit: Wer ständig dieselben fünf Fragen beantwortet, ermüdet. Ein Bot, der diese Last reduziert, hat einen Effekt auf Fluktuation, der sich kaum vorab beziffern lässt.
Wahrnehmung als modernes Unternehmen: Schwer messbar, aber bei B2B-Entscheidern oft genannter Faktor in Lieferantenbewertungen.
Datenpotenzial: Konversationen sind eine Goldgrube für Produktentwicklung, FAQ-Optimierung und Marketing — wenn sie systematisch ausgewertet werden.
Eskalations-Qualität: Wenn der Bot Kontext sauber übergibt, beginnen Servicegespräche an einem höheren Punkt. Das spart Bearbeitungszeit, ist aber kaum vorher modellierbar.

Diese Punkte gehören in die Entscheidungsvorlage als qualitative Argumente — getrennt vom finanziellen Modell, damit beides für sich überzeugt.

Die häufigsten Rechentricks im Anbieter-Pitch

Wenn Sie ein Angebot mit ROI-Sheet bekommen, sind das die Stellen, an denen man üblicherweise nachhakt.

Trick 1 — Endzustand wird als Startwert verkauft. „Sie sparen ab Tag 1 80 % der Anfragen.“ Falsch. Realistisch ist diese Quote frühestens nach sechs Monaten und nur bei sauberer Pflege.

Trick 2 — Brutto statt Netto. Alle erfassten Chat-Leads werden als zusätzlich gerechnet, ohne Inkrement-Abzug. Frage: Wie hoch ist der Inkrement-Faktor in Ihrer Berechnung?

Trick 3 — CLV ohne Quelle. „Customer Lifetime Value: 5.000 €.“ Wo kommt die Zahl her? Wenn sie aus dem Anbieter-Template stammt und nicht aus Ihrem CRM, ist sie wertlos für Ihre Rechnung.

Trick 4 — Interner Aufwand fehlt komplett. Reine Lizenzrechnung ohne den Aufwand der Wissensbasis. Frage: Welche internen Stunden setzen Sie für Aufbau und Pflege an?

Trick 5 — Nicht-attribuierte Umsatzeffekte. Pauschale „Umsatzsteigerung 0,3 %“ ohne Mess-Methodik. Frage: Wie ist das gemessen, mit welcher Vergleichsgruppe?

Trick 6 — Einmalige Setup-Kosten verschwinden. ROI wird auf 12 Monate gerechnet, Setup auf 36 Monate verteilt. Sieht besser aus, ist aber eine Verzerrung.

Trick 7 — Best-Case wird als Erwartungswert verkauft. Statt drei Szenarien gibt es nur eine Zahl, die natürlich das optimistische Modell ist.

Eine seriöse Rechnung verträgt diese Fragen ohne Ausweichmanöver. Wer auf jede Rückfrage „das ist Branchenstandard“ antwortet, hat keine Rechnung, sondern einen Verkaufstext.

Eine ehrliche ROI-Vorlage in 45 Minuten

Wenn Sie selbst rechnen wollen — ohne Anbieter-Template — reicht eine Stunde an einem ruhigen Vormittag.

Schritt 1 — Datenbasis sammeln (15 Minuten)

Aus CRM und Ticketsystem: Anfragevolumen pro Monat, durchschnittliche Bearbeitungszeit, Verteilung nach Themen (top 10), aktuelle Lead-Zahl, Conversion-Rate Lead-zu-Kunde, durchschnittlicher Auftragswert.

Schritt 2 — Annahmen explizit machen (10 Minuten)

Schreiben Sie für jeden Werthebel die Annahmen auf — Netto-Deflection, Inkrement, Uplift, Retention. Pro Annahme drei Werte: pessimistisch, realistisch, optimistisch.

Schritt 3 — Drei Szenarien rechnen (10 Minuten)

In Excel oder einem einfachen Sheet. Eine Spalte pro Szenario, eine Zeile pro Hebel, am Ende die Nettowert-Summe.

Schritt 4 — Kosten sauber gegenüberstellen (5 Minuten)

Externe Kosten plus interner Aufwand (in Euro umgerechnet). Beides auf Monatsbasis.

Schritt 5 — Entscheidungslogik festlegen (5 Minuten)

Definieren Sie vor dem Ergebnis: Welcher Nettowert pro Monat ist die Untergrenze, ab der Sie investieren? Diese Grenze schützt vor Wunschdenken nach dem Rechenvorgang.

Wer diese 45 Minuten investiert, hat eine Entscheidungsgrundlage, die im Vorstand oder mit dem Steuerberater diskutierbar ist — und kein Sales-Sheet, das in der Schublade liegt.

Risiken, die in keinem ROI-Modell stehen

Ein vollständiger Business Case kennt auch die Verlustrisiken — nicht weil sie sicher eintreten, sondern weil sie das Ergebnis materiell verschieben können.

Schlechte erste Wochen verbrennen Vertrauen. Ein Bot, der in den ersten zwei Wochen viele falsche Antworten gibt, verliert intern und extern Akzeptanz. Die Wiederherstellung ist teurer als ein sauberer Start.
Wissensbasis veraltet ohne Owner. Ohne fachliche Verantwortliche verschlechtert sich die Trefferquote in sechs Monaten messbar.
Plattform-Lock-in. Migration nach 18 Monaten kostet erfahrungsgemäß zwischen 8.000 € und 35.000 €. Wer langfristig denkt, sollte vor der Auswahl Export-Optionen und Datenportabilität klären.
Halluzinationen ohne Notfall-Schalter. Ein LLM, das selbstbewusst falsche Preise nennt, ist ein PR-Risiko. Ohne sofortige Deaktivierungs-Option steigt der Schaden mit jeder Minute.
AI-Act-Verstöße. Kennzeichnungspflicht und Risiko-Klassifikation sind nicht optional. Abmahnungen wegen fehlender KI-Kennzeichnung sind dokumentiert.

Diese Risiken gehören in die Bewertung — nicht als Argument gegen einen Chatbot, sondern als Argument für eine ordentliche Implementierung.

Was ich für Sie entwickle

Ich begleite KMU und mittelständische Unternehmen bei genau dieser Frage: Lohnt sich ein KI-Chatbot — und wenn ja, in welchem Zuschnitt? Der Fokus liegt darauf, dass die Entscheidungsgrundlage realistisch ist und nicht aus dem Sales-Deck eines Anbieters stammt.

ROI-Audit Ihres bestehenden oder geplanten Projekts — strukturierte Bewertung der Annahmen, Aufdeckung der typischen Rechentricks, Ergebnis: eine ehrliche Drei-Szenarien-Sicht statt einer Marketingzahl.

Anfragen-Analyse als Basis für die Kalkulation — Auswertung Ihrer realen Mail-, Telefon- und Ticketdaten, Klassifikation der Anliegen, daraus abgeleitet die echten Deflection-Potenziale Ihres Geschäfts.

Inkrement-Messung im laufenden Betrieb — A/B-Test-Design, das den tatsächlichen Effekt eines Bots auf Lead- und Conversion-Kennzahlen sauber misst — keine Brutto-Schätzung mehr.

Business Case für die Geschäftsführung — Entscheidungsvorlage in einem Dokument: drei Szenarien, klare Annahmen, sauber benannte Risiken, qualitative Effekte getrennt vom Finanzmodell.

Anbieter-Auswahl mit Total-Cost-of-Ownership — Vergleich realistischer Plattform-Optionen inklusive Implementierung, Pflege, AI-Act-Konformität und Exit-Kosten — keine versteckten Kostenfallen mehr.

Post-Launch-Monitoring der ROI-Realität — quartalsweises Soll-Ist-Reporting der tatsächlichen Werthebel, frühzeitige Erkennung von Abweichungen, Korrekturempfehlungen.

Ein erstes ROI-Audit braucht keine große Vorbereitung — meist reichen das Anbieter-Angebot und ein paar Kennzahlen aus dem Servicecenter, um die offensichtlichen Schwachstellen zu zeigen.

Fazit

Ein KI-Chatbot kann sich rechnen — aber selten in der Größenordnung, die Anbieter-Pitches versprechen. Realistische Modelle liegen für ein typisches mittelständisches Unternehmen im Bereich von 1.000–4.000 € Nettowert pro Monat im zweiten Jahr, nicht bei fünfstelligen Beträgen ab Tag 1. Das ist immer noch ein guter Business Case — er sieht nur weniger spektakulär aus.

Wer die ehrliche Rechnung scheut, kauft am Ende zu viel Versprechen und zu wenig Wirkung. Wer dagegen die richtigen Fragen stellt — zur Netto-Deflection, zum Inkrement, zum internen Aufwand, zu den Risiken — bekommt nach 45 Minuten Rechnen ein Bild, das eine Investitionsentscheidung trägt.

Wenn Sie vor einer Chatbot-Entscheidung stehen oder ein Angebot prüfen möchten, hilft ein neutraler Blick auf die zugrunde liegenden Annahmen oft mehr als ein zweites Sales-Gespräch. Genau dafür ist ein kurzes ROI-Audit der ehrlichere Einstieg als jede weitere Demo.