Eigener KI-Server: Die ehrliche Kostenrechnung jenseits der 999-Euro-Pitches

Der Markt verkauft KMU einen „eigenen KI-Server“ als Pauschallösung mit Break-even im ersten Monat. Aus CTO-Sicht ist die Realität differenzierter. Dieser Beitrag legt die echten Kostenpositionen offen, rechnet drei Szenarien über drei Jahre und zeigt, wann eine eigene Inferenz wirtschaftlich trägt und wann nicht.

In den letzten Monaten landen bei mir regelmäßig Angebote auf dem Tisch, die mit Sätzen wie „Ihr eigener KI-Server ab 999 Euro im Monat“ und „Break-even im ersten Monat“ werben. Begleitet werden sie von ROI-Tabellen mit dreistelligen Prozentzahlen und Vergleichen mit „der Einstellung eines neuen Mitarbeiters“. Als CTO eines mittelständischen Unternehmens kann man das überhören. Als jemand, der gefragt wird, ob er solche Angebote prüfen soll, bekommt man die Kehrseite mit.

Die ehrliche Bewertung beginnt nicht mit der Frage „lohnt sich das“, sondern mit der vorgelagerten: Was steckt eigentlich hinter dem Begriff „eigener KI-Server“ — und welche Kosten fehlen in der Pitch-Mathematik?

Dieser Beitrag legt beide Seiten offen. Aus der Perspektive von jemandem, der in den letzten zwei Jahren mit Verantwortlichen in Unternehmen jeder Größe genau diese Investitionsentscheidung durchgegangen ist.

Was unter „eigenem KI-Server“ tatsächlich angeboten wird

Der Begriff ist nicht geschützt. In der Praxis verbergen sich dahinter drei sehr unterschiedliche Realitäten, die im Angebot oft nicht sauber auseinandergehalten werden.

Variante A — Eine virtuelle Maschine in einem deutschen Rechenzentrum. Das Sprachmodell läuft entweder als Cloud-API im Hintergrund (mit deutschem Vertragspartner als Vermittler) oder als kleines Open-Source-Modell direkt auf der VM. Es gibt eine Weboberfläche, eine Wissensbasis-Komponente und einige Integrationen.

Variante B — Dedizierter Server mit GPU im deutschen Rechenzentrum. Hier läuft die Inferenz tatsächlich auf eigener oder gemieteter Hardware mit eigenem Modell-Stack. Die monatlichen Fixkosten liegen entsprechend höher.

Variante C — On-Prem-Installation im Unternehmen. Hardware, Modelle und Wissensbasis sind physisch im Haus des Kunden. Die mit Abstand komplexeste Variante, sowohl im Aufbau als auch im Betrieb.

Wenn ein Angebot „eigener KI-Server ab 999 Euro“ verspricht, ist es fast immer Variante A. Das ist nicht per se schlecht — es ist nur eben kein dedizierter Server mit eigener GPU-Inferenz nur für Ihr Unternehmen, wie der Begriff suggeriert. Wer Variante B oder C kauft, zahlt deutlich mehr und bekommt deutlich mehr Substanz.

Die wichtigste erste Frage in jedem Sales-Gespräch lautet deshalb: Wo läuft die eigentliche Inferenz, in welcher Größenordnung, und welche Daten verlassen den Server wann? Eine seriöse Antwort lässt sich in zwei Sätzen formulieren. Ausweich-Antworten sind ein erstes Warnsignal.

Die ehrliche Kostenstruktur

Eine TCO-Rechnung über drei Jahre umfasst sieben Positionen, von denen typische Anbieter-Sheets selten mehr als drei sauber abbilden.

Position 1 — Hardware oder Cloud-Infrastruktur

Für Variante A: in der Lizenz enthalten, oft als kleiner Posten im Hintergrund.

Für Variante B: GPU-Instanzen in einem deutschen Rechenzentrum, je nach Modellgröße und Verfügbarkeit zwischen 800 und 4.500 Euro pro Monat. Reservierte Kapazitäten sind günstiger, aber binden Sie für 12 bis 36 Monate.

Für Variante C: Anschaffung von GPU-Hardware (mittlere Konfiguration mit zwei H100 oder vier RTX 6000 Ada) zwischen 25.000 und 90.000 Euro einmalig, dazu Strom, Klimatisierung und Standort. Faustregel für den laufenden Betrieb: 5–12 Prozent der Anschaffung pro Jahr.

Position 2 — Modell-Lizenzen oder API-Kosten

Wer Open-Source-Modelle nutzt, hat hier keine Lizenzkosten — aber Aufwand für Auswahl, Test und Aktualisierung. Wer im Hintergrund eine Cloud-API aufruft, zahlt nutzungsabhängig: typische Geschäftskunden landen je nach Volumen bei 200–1.800 Euro pro Monat. Bei höherem Nutzungsvolumen oder Multi-Agenten-Setups schnell vierstellig.

Position 3 — Plattform-Software und Lizenzen

Web-Frontend, Authentifizierung, Audit-Logging, Mandanten-Trennung, Connector-Bibliothek. Hier liegen die größten Unterschiede zwischen den Anbietern. Manche legen einen monatlichen Pauschalpreis darauf, andere lizenzieren pro Nutzer, dritte rechnen nutzungsabhängig ab.

Position 4 — Setup und Onboarding (einmalig)

Beim seriösen Anbieter realistisch 5.000 bis 25.000 Euro für Variante A bis B, 25.000 bis 120.000 Euro für Variante C. Im Angebot oft unterveranschlagt, weil der Sales-Pitch von „inklusive“ lebt.

Position 5 — Pflege der Wissensbasis

Der heimliche Hauptkostentreiber. Eine produktive Wissensbasis verlangt fachliche Eigentümer, monatliche Reviews und kontinuierliche Bereinigung. Realistisch sind 0,1–0,3 Vollzeitäquivalent pro Themenbereich, je nach Wissensumfang und Aktualisierungsfrequenz. Bei einem Personalkostensatz von 70.000 Euro sind das 7.000–21.000 Euro pro Jahr — pro Themenbereich.

Position 6 — IT-Betrieb und Sicherheit

Patches, Monitoring, Backups, Security-Updates, Incident-Response. Bei Variante A überschaubar, bei Variante B mittel, bei Variante C der größte interne Posten. Realistisch sind 0,2–0,8 Vollzeitäquivalent.

Position 7 — Compliance, Audit und AI-Act-Konformität

DSGVO-Verarbeitungsverzeichnis, Datenschutz-Folgenabschätzung, AI-Act-Kennzeichnungspflicht, Audit-Logs, jährliche Reviews. Realistisch 5.000–15.000 Euro pro Jahr externe Begleitung plus interne Arbeitszeit.

Wer diese sieben Positionen sauber zusammenrechnet, kommt selten unter 25.000 Euro pro Jahr für Variante A, selten unter 60.000 Euro für Variante B, und selten unter 150.000 Euro für Variante C — die Hardware-Abschreibung nicht eingerechnet.

Drei realistische TCO-Szenarien über drei Jahre

Szenario klein — KMU mit 25 Nutzern, Variante A

Ein dienstleistungsorientiertes Unternehmen mit 25 Beschäftigten setzt eine VM-basierte Lösung mit Cloud-Inferenz im Hintergrund ein.

Position	Jahr 1	Jahr 2	Jahr 3
Setup einmalig	4.500 €	—	—
Plattform und VM	12.000 €	12.000 €	12.500 €
Cloud-API-Inferenz	3.000 €	4.500 €	6.000 €
Wissensbasis-Pflege intern (0,15 VZE)	10.500 €	10.500 €	10.500 €
IT-Betrieb intern (0,1 VZE)	7.000 €	7.000 €	7.000 €
Compliance / Audit	4.000 €	2.500 €	2.500 €
Summe	41.000 €	36.500 €	38.500 €

Über drei Jahre rund 116.000 Euro — etwa das Vierfache der reinen Lizenzangabe aus dem Pitch.

Szenario mittel — Mittelständler mit 120 Nutzern, Variante B

Industrieller Mittelständler mit dediziertem GPU-Setup in deutschem Rechenzentrum, eigene Open-Source-Modelle, klare Mandantenstruktur.

Position	Jahr 1	Jahr 2	Jahr 3
Setup einmalig	18.000 €	—	—
GPU-Instanzen	30.000 €	28.000 €	26.000 €
Plattform-Software	18.000 €	18.000 €	18.500 €
Wissensbasis-Pflege (0,4 VZE)	28.000 €	28.000 €	28.000 €
IT-Betrieb (0,3 VZE)	21.000 €	21.000 €	21.000 €
Compliance / Audit	9.000 €	6.000 €	6.500 €
Summe	124.000 €	101.000 €	100.000 €

Über drei Jahre rund 325.000 Euro. Eine vergleichbare EU-Hyperscaler-Lösung liegt für dasselbe Nutzungsvolumen typischerweise bei 180.000–230.000 Euro über drei Jahre — bei deutlich geringerem internem Betrieb.

Szenario groß — Konzern oder regulierte Branche, Variante C

Ein Unternehmen mit besonders hohem Datenschutzbedarf und 350 Nutzern setzt eine On-Prem-Installation mit eigener GPU-Hardware um.

Position	Jahr 1	Jahr 2	Jahr 3
Hardware (Anschaffung)	65.000 €	—	—
Setup einmalig	60.000 €	—	—
Strom, Klima, Standort	8.000 €	8.500 €	9.000 €
Hardware-Wartung	5.000 €	7.500 €	9.000 €
Plattform und Software	22.000 €	22.000 €	23.000 €
Wissensbasis-Pflege (0,8 VZE)	56.000 €	56.000 €	56.000 €
IT-Betrieb (0,8 VZE)	56.000 €	56.000 €	56.000 €
Compliance / Audit	14.000 €	10.000 €	11.000 €
Summe	286.000 €	160.000 €	164.000 €

Über drei Jahre rund 610.000 Euro, vor Berücksichtigung der Hardware-Abschreibung über fünf Jahre. Eine vergleichbare EU-Hyperscaler-Lösung läge in derselben Größenordnung bei 350.000–450.000 Euro über drei Jahre.

Diese Zahlen sind keine Argumente gegen On-Prem — sie sind das ehrliche Ausgangsmaterial, vor dem die Entscheidung gefällt werden muss. In den meisten Fällen ist die Cloud-Variante wirtschaftlicher. In bestimmten Fällen (hohe Datenklassifizierung, sehr stabiles Volumen, regulatorische Anforderung) ist On-Prem die richtige Antwort. Die Pauschal-Aussage „eigener Server lohnt sich“ ist sie selten.

Was die Pitch-Mathematik systematisch verschweigt

Eine kurze Sammlung der häufigsten Rechentricks, die in den 999-Euro-Sheets immer wieder auftauchen.

„Setup inklusive“ — Stimmt für kleine Konfigurationen. Sobald wirkliche Integration in CRM, E-Mail und Wissensbasis kommt, gibt es Auf- oder Nebenrechnungen.
„KI-Abo kostet nur 20–100 Euro“ — Stimmt bei sehr geringer Nutzung. Sobald mehrere Mitarbeiter intensiv arbeiten, liegt der Bereich eher bei 500–1.500 Euro pro Monat.
„Repair Agent inklusive, kein IT-Aufwand“ — Selbstheilung deckt Standardfälle ab. Major-Incidents, Datenkonflikte, Migrationen sind weiterhin Handarbeit.
„Break-even im ersten Monat“ — Setzt eine sofortige Zeitersparnis voraus, die in den ersten Wochen typischerweise noch nicht erreicht wird. Realistisch: erstes positives Quartal frühestens nach drei bis sechs Monaten.
„Vergleich mit der Einstellung eines Mitarbeiters“ — Mehrere KI-Werkzeuge ersetzen keinen Mitarbeiter im Sinne der Vollumfänglichkeit. Sie reduzieren Routineanteile. Die Rechnung 1:1 anzusetzen ist ein Apfel-Birnen-Vergleich.
„Interne Wissensbasis lernt automatisch dazu“ — Falsch. Wissensbasen lernen nichts automatisch. Sie werden gepflegt, von Menschen, mit klarer fachlicher Verantwortlichkeit.
„12 Monate Mindestlaufzeit zum Schutz beider Seiten“ — In Wahrheit Vertriebsschutz. Aus Kundensicht ist eine kürzere Frist mit Verlängerungsoption fast immer im Interesse.

Diese Punkte sind keine Verschwörungstheorie, sondern Sales-Standard. Wer sie kennt, kann das Gespräch auf Augenhöhe führen.

Wann ein eigener Server wirklich lohnt — und wann nicht

Aus den TCO-Rechnungen ergeben sich klare Konstellationen, in denen Variante B oder C die richtige Wahl sind.

Lohnt sich:

Sehr hohe Datenklassifizierung (Geheimschutz, sensible Wirtschaftsdaten, behördliche Auflagen jenseits der EU-Cloud-Regelung)
Sehr hohes konstantes Inferenz-Volumen — wenn die Cloud-API-Rechnung monatlich vierstellig wird, kann eigene Hardware nach 18–24 Monaten attraktiv werden
Sehr spezialisierte Modelle mit Fine-Tuning auf interne Daten in einer Tiefe, die kein API-Service liefert
Strikt netz-isolierte Umgebungen, etwa Produktionsanlagen, in denen externe Verbindungen ausgeschlossen sind
Forschungs- und Entwicklungssettings mit intensiver Modell-Arbeit

Lohnt sich nicht:

Kleine bis mittlere Organisation mit normalem Datenschutzbedarf — EU-Cloud löst die Anforderungen wirtschaftlicher
Schwankendes Volumen — Cloud-Setups skalieren ohne Vorabinvestition
Fehlende IT-Ressource für Betrieb — Variante B und C verlangen mindestens 0,3–0,8 VZE
Erwartung „Plug and Play“ — keine der drei Varianten ist wirklich werkzeuglos einsatzbereit
Vor abgeschlossener Datenklassifikation — wer nicht weiß, welche Daten überhaupt geschützt werden müssen, kauft Lösungen für ein nicht definiertes Problem

Eine pragmatische Investitionsentscheidung

Statt einer pauschalen Empfehlung eine Reihenfolge der Fragen, die in der Realität trägt.

Frage 1 — Datenklassifikation. Welche Klassen treten überhaupt auf? Schutzbedarf normal, hoch, sehr hoch? Ohne diese Antwort ist jede Architekturentscheidung Bauchgefühl.

Frage 2 — Nutzungs- und Volumenprognose. Wie viele Nutzer, welche Anwendungsfälle, welches Token-Volumen pro Monat im ersten und zweiten Jahr realistisch? Übertriebene Schätzungen treiben in Richtung Eigenbetrieb.

Frage 3 — IT-Ressourcen. Welche Vollzeitäquivalente stehen für Betrieb, Wissenspflege und Compliance zur Verfügung? Wer die nicht hat, sollte nicht in Variante B oder C einsteigen.

Frage 4 — Cloud-Strategie und bestehende Verträge. Hyperscaler-Verträge mit EU-Region in der Organisation? Ungenutzte Volumenkontingente? Vorhandene Cloud-Disziplinen?

Frage 5 — Pilotpfad statt Plattform-Großentscheidung. Ein klar abgegrenzter Pilot in einer EU-Cloud-Variante über zwei Quartale liefert das beste Wissen für die anschließende Investitionsentscheidung in Variante B oder C — falls überhaupt nötig.

Diese fünf Fragen ersetzen kein vollständiges Architekturkonzept. Sie reichen aber, um in einem ersten Gespräch sehr schnell zu erkennen, ob ein vorliegendes Angebot in das eigene Setup passt — oder weit daneben.

Was ich für Sie entwickle

Ich begleite IT-Entscheider bei genau diesem Investitionsentscheid — vor dem Vertragsabschluss, nicht danach.

Realistisches TCO-Modell — eine sauber strukturierte Drei-Jahres-Rechnung mit allen sieben Kostenpositionen, abgestimmt auf die Organisation. Vergleich der Varianten A bis C plus EU-Cloud-Alternative, mit explizit benannten Annahmen.

Angebots-Audit — strukturierte Prüfung vorhandener Anbieter-Pitches: Welche Posten fehlen, welche Annahmen sind unrealistisch, welche Vertragsklauseln sind ungewöhnlich. Ergebnis: ein Fragenkatalog für das nächste Sales-Gespräch und eine Empfehlung zur Weiterverhandlung.

Datenklassifikation als Vorarbeit — eine pragmatische Schutzbedarfsanalyse, die klärt, welche Daten überhaupt welcher Schutzstufe unterliegen. Damit fällt die spätere Architekturentscheidung mit Substanz, nicht mit Bauchgefühl.

Architektur-Empfehlung mit klarer Begründung — sechs Stufen von Consumer-Tool bis On-Prem-Inferenz, mit konkretem Vorschlag für die Organisation, einschließlich Identitäts-Layer, Hosting-Region und Mandantenstruktur.

Pilotbegleitung — ein klar abgegrenzter Drei-Monats-Pilot in der gewählten Stufe, mit harten KPIs für die anschließende Investitionsentscheidung.

Verhandlungsbegleitung — bei Bedarf an Anbieter-Verhandlungen, mit dem Ziel realistischer Vertragslaufzeiten, klarer Kündigungsoptionen und sauberer Exit-Bestimmungen für die Datenportabilität.

Der Einstieg ist kein Großprojekt. Eine erste strukturierte Bewertung eines vorliegenden Angebots oder einer geplanten Investition lässt sich in zwei bis drei Workshops aufsetzen — und schützt vor Investitionen, die in zwei Jahren teurer korrigiert werden müssen als sie im ersten Jahr gespart haben.

Fazit

Der „eigene KI-Server ab 999 Euro im Monat“ ist ein Marketing-Konstrukt mit einem realen Kern. Der reale Kern: dass es gute Gründe gibt, KI-Inferenz und Daten nicht beliebig in Cloud-Dienste zu schieben. Das Marketing-Konstrukt: dass eine einzelne Pauschale alle Kosten abdeckt und der Break-even im ersten Monat erreicht wird. Wer das ernst nimmt und sauber durchrechnet, kommt auf realistische TCO-Zahlen zwischen 116.000 Euro über drei Jahre für eine kleine Lösung und deutlich höheren Werten für ambitioniertere Setups.

Die wirtschaftlich attraktivste Variante für die meisten Mittelständler bleibt eine sauber konfigurierte EU-Cloud-Lösung mit klarem Auftragsverarbeitungsvertrag, eingebunden in die bestehende Cloud-Disziplin der Organisation. Variante B und C sind berechtigte Optionen für klar abgegrenzte Situationen — sehr hohe Datenklassifizierung, sehr stabiles Volumen, sehr spezialisierte Anforderungen. Der pauschale Verkauf an alle anderen ist eine Wette darauf, dass die TCO-Frage nicht ehrlich gestellt wird.

Wer vor einer Investitionsentscheidung steht, gewinnt mit einer nüchternen Stunde am Tisch mehr als mit dem nächsten Sales-Termin. Die fünf Fragen aus diesem Beitrag sind ein guter Anfang — und meistens reicht ein erstes ehrliches TCO-Modell, um die nächste Entscheidung um eine Größenordnung besser zu fundieren.