Voice AI im Mittelstand: Was 120.000 deutsche Unternehmen noch nicht wissen
Eine aktuelle Erhebung von goai.at beziffert den deutschen Markt für KI-Telefonie auf rund 120.000 Unternehmen, die Voice-Agenten produktiv einsetzen. Das ist keine Nische mehr. Für den Mittelstand heisst das zweierlei: Der Wettbewerbsdruck steigt, weil Erstkontakt, Terminierung und Reaktivierung zunehmend automatisiert ablaufen. Gleichzeitig verschiebt sich die Lernkurve nach vorn — wer jetzt einsteigt, hat bis August 2026 Zeit, die eigene Architektur sauber an den AI Act anzupassen, statt unter Zeitdruck nachzubessern.
Wenn Sie eine Voice-Lösung planen, sind aus meiner Mandatsarbeit drei Fragen die eigentlich relevanten — alles andere ist Detail.
Die drei echten Entscheidungsfragen:
- DSGVO-Architektur: Verarbeiten die Sprachdaten amerikanische Cloud-Anbieter, oder bleibt alles in einer lokalen Umgebung? Das entscheidet über Auftragsverarbeitungsverträge, Audit-Aufwand und Branchen-Eignung.
- Dialekterkennung im DACH-Raum: Wie verlässlich erkennt der Stack bayerischen, schwäbischen, österreichischen oder schweizerdeutschen Input? Cloud-Modelle sind hier oft besser, lokale Modelle holen aber auf.
- CRM-Integration mit Bestandssystemen: Lässt sich der Voice-Agent sauber an das vorhandene CRM anbinden — Lead-Status setzen, Termine schreiben, Anrufnotizen ablegen? Ohne diese Schleife bleibt jeder Voice-Agent ein Inseltool.
Zwei Stack-Entscheidungen aus der Mandats-Realität:
Powerplant Voice-KI — n8n und Ollama lokal: Bei Powerplant haben wir den gesamten Stack auf eigener Infrastruktur aufgesetzt. Energievertrieb mit sensiblen Kundendaten und ein eigener Konzern als Auftraggeber — die DSGVO-Anforderungen waren hart, jede Cloud-Variante hätte einen mehrmonatigen Audit-Prozess ausgelöst. Wir haben n8n als Orchestrator gewählt, Ollama für lokale LLM-Inferenz, dazu ein Open-Source-Telefonie-Layer. Ich habe das System über mehrere Monate iteriert, bis die Latenz unter eine Sekunde lag. Heute verarbeitet die Lösung rund 6.000 Leads pro Monat, die Quote qualifizierter Leads ist um etwa 30 Prozent gestiegen, und eine Vollzeitstelle in der Erstqualifizierung — etwa 65.000 Euro pro Jahr — ist nicht nachbesetzt worden.
Wesa Solar Voice-Outbound — RetellAI und OpenAI in der Cloud: Bei Wesa Solar war die Ausgangslage anders. Q4 2024 lagen 6.000 Leads im Bestand, die im Sommer-Hoch nicht abgearbeitet werden konnten. Die Aufgabe war Reaktivierung, der Zeitdruck hoch, und die Daten waren weniger sensibel als bei Powerplant — Solar-Interessenten, keine Energieverträge mit Bonitätsdaten. Wir haben uns für einen Cloud-Stack entschieden: RetellAI als Voice-Layer, OpenAI für die Konversations-Logik, n8n für die CRM-Anbindung. Setup-Zeit: rund zwei Wochen statt mehrerer Monate. Von 6.000 Leads wurden 3.400 erreicht — ein Reaktivierungsvolumen, das manuell schlicht nicht leistbar gewesen wäre.
Wann welcher Stack:
Lokal (n8n und Ollama oder vergleichbar): wenn Datensouveränität ein hartes Verkaufsargument für Ihre Endkunden ist, wenn Sie regulierte Branchen bedienen oder wenn ein DSGVO-Audit absehbar ist. Sie zahlen mit Setup-Zeit und Hardware-Investitionen, gewinnen aber Verhandlungssicherheit.
Cloud (RetellAI, OpenAI oder vergleichbar): wenn Time-to-Market entscheidend ist, wenn Sie keine Infrastruktur für lokales LLM-Hosting haben und wenn die Daten nicht streng schutzbedürftig sind. Sie zahlen pro Minute, sind dafür in Wochen statt Monaten produktiv.
Drei Kriterien zur Orientierung:
- Datenklasse: Bonitäts-, Gesundheits
- oder Vertragsdaten — eher lokal. Marketing-Leads ohne Sondermerkmale — Cloud meist tragbar.
- Volumen-Profil: Konstantes hohes Volumen amortisiert lokale Infrastruktur. Saisonale Spitzen oder Pilotprojekte sind in der Cloud günstiger.
- Team-Realität: Haben Sie DevOps-Kapazität für eigene Server? Wenn nein, ist ein lokaler Stack ohne externen Partner riskant.
AI-Act-Compliance ab August 2026:
Mit dem AI Act greift ab August 2026 eine Transparenzpflicht für KI-Systeme, die mit natürlichen Personen interagieren. Übersetzt auf Voice AI im Outbound: Der Anrufer muss erkennen können, dass er mit einer KI spricht — und zwar am Anfang des Gesprächs, nicht erst auf Nachfrage. Eine kurze Disclosure im Opening-Statement reicht aus, sie muss aber vorhanden und dokumentiert sein.
In den Mandaten haben wir die Disclosure schon vor der Verpflichtung aufgenommen, aus zwei Gründen. Erstens: Die Erreichungsquote sinkt dadurch nicht messbar — Empfänger reagieren auf Klarheit eher positiv. Zweitens: Wer die Disclosure jetzt einbaut, dokumentiert und im CRM mitschreibt, hat im August 2026 keinen Migrations-Stress, sondern einen funktionierenden Compliance-Prozess.
Mein Rat, wenn Sie heute starten: Nicht zuerst über das Modell entscheiden, sondern über die Datenklasse und den Compliance-Horizont. Der Stack folgt aus der Antwort — nicht umgekehrt.