Realtime vs. Pipeline Voice Agent: Architektur-Guide 2026

Inhalt zusammenfassen mit:

Realtime vs. Pipeline: Welche Voice-Agent-Architektur ist die richtige für dein Business?

Wenn du heute einen AI-Voice-Agent baust, triffst du gleich am Anfang eine Architektur-Entscheidung, die dich Monate später noch beschäftigen wird: Realtime-Modell (Speech-to-Speech, S2S) oder STT–LLM–TTS-Pipeline (Cascade)? Die kurze Antwort: Beide funktionieren in Produktion, aber sie eignen sich für unterschiedliche Use Cases. Realtime ist stärker bei natürlichem Gesprächsgefühl und Latenz, Pipelines sind stärker bei Kontrolle, Telefonie, Compliance und Kosten.

Famulor setzt bewusst auf einen hybriden Pipeline-Ansatz, der dir alle Vorteile der Cascade-Architektur liefert (austauschbare STT/LLM/TTS, granulare Tool-Calls, SIP-fähige Telefonie, DSGVO-konforme Datenhoheit) — und dabei optional Realtime-Modelle für emotional-sensitive Use Cases erlaubt. In diesem Artikel zeige ich dir, wann welche Architektur Sinn macht, welche Trade-offs du kennen musst und wie du beides mit Famulor produktiv ausrollst.

Die zwei Architekturen auf einen Blick

Beide Architekturen haben eines gemeinsam: Audio rein, Audio raus, dazwischen ein „Gehirn". Wo sie sich unterscheiden, ist wie viele Modelle sie für diesen Schritt brauchen — und damit auch, was du als Betreiber kontrollieren kannst.

Realtime / Speech-to-Speech (S2S)

Ein einziges multimodales Modell verarbeitet die ganze Konversations-Runde: Es nimmt rohes Audio entgegen, „denkt" darüber nach und streamt Audio zurück — alles in einem einzigen Modell-Call. Weil das Audio nie in Text umgewandelt wird, kann das Modell Tonfall, Pausen, Zögern und emotionale Färbung wahrnehmen, die in einer Transkription verloren gehen würden.

Bekannte Vertreter: OpenAI Realtime API (gpt-4o realtime), Google Gemini Live, ElevenLabs Conversational, sowie native Speech-to-Speech von Cartesia.

STT–LLM–TTS Pipeline (Cascade)

Drei Spezialmodelle laufen sequenziell:

STT (Speech-to-Text / ASR): Transkribiert das Audio des Anrufers in Text. Beispiele: Deepgram Nova, Cartesia Ink, Gladia, Assembly AI.
LLM: Verarbeitet den Transkript, denkt nach, ruft Tools auf und generiert eine Text-Antwort. Beispiele: GPT-4o, Claude, Gemini Pro, Llama 3.
TTS: Wandelt die Antwort in natürlich klingendes Audio. Beispiele: Cartesia Sonic, ElevenLabs v3, MiniMax, Gemini Flash TTS.

Famulor ist im Kern eine moderne, hochoptimierte Pipeline mit Streaming-Overlap — und wird in unserem No-Code AI Voice Agent für jede Sprache und jede Use-Case-Tiefe zugänglich.

Latenz: Wo Realtime strukturell vorne liegt — und Pipelines nachziehen

Latenz ist der Trade-off, der am häufigsten diskutiert wird. Realtime-Modelle haben einen strukturellen Vorteil: Es gibt keine Serialisierung von Audio in Text und zurück, und kein Handover zwischen separaten Modellen. Das Audio fließt einmal durch.

Pipelines haben es schwerer. Selbst wenn jeder Baustein schnell ist, addiert sich die Latenz: STT + LLM time-to-first-token + TTS time-to-first-audio + Netzwerk-Overhead. Eine unoptimierte Pipeline ist fast immer langsamer als ein gutes Realtime-Modell.

Aber: Moderne Pipelines warten nicht, bis jede Stufe fertig ist. Sie streamen partielle STT-Transkripte an das LLM, während der Nutzer noch spricht, und schicken LLM-Tokens an die TTS-Engine, sobald sie eintreffen. Dieses Streaming-Overlap ist der Grund, warum konkurrenzfähige Pipeline-Latenzen unter 700 ms möglich sind. Famulor nutzt dieses Streaming-Modell standardmäßig — Details findest du in den Core Concepts der Famulor-Docs.

Tool-Calling: Wo Pipelines ihren größten Vorteil ausspielen

Die wenigsten produktiven Voice-Agents wollen nur „reden". Sie sollen Konten abfragen, Bestellungen prüfen, Termine buchen oder Workflows triggern. Wie jede Architektur damit umgeht, hat direkten Einfluss auf die User Experience.

In einer Pipeline passiert Tool-Calling auf der LLM-Schicht über klassisches Text-basiertes Function-Calling — die ausgereifte Mechanik, die du auch aus Chat-Anwendungen kennst. Du bekommst:

Strukturiertes Error-Handling (Retry, Fallback, klare Fehlermeldungen)
Parallel Tool Calls (mehrere APIs gleichzeitig anstoßen)
Vollständige Kontrolle, was passiert, während ein Tool läuft (Filler-Audio, „Lass mich kurz nachschauen…")

Realtime-Modelle unterstützen Tool-Calling ebenfalls — aber die Praxis variiert. Manche Modelle blockieren und warten in Stille auf das Tool-Ergebnis. Neuere Versionen unterstützen non-blocking Calls, aber die Zuverlässigkeit ist messbar geringer als bei Pipeline-LLMs, weil das Modell gleichzeitig hören, denken und sprechen muss.

Bei Famulor implementierst du Tool-Calls über Tools & Functions oder Custom Mid-Call Tools — wahlweise per Webhook oder direkt in der internen Automation-Plattform (300+ Integrationen, ähnlich Zapier/Make).

Turn Detection: Wann hat der Anrufer aufgehört zu sprechen?

Eine der trickigsten Fragen in Voice AI: Wann ist die Person fertig — und wann legt sie nur eine kurze Denkpause ein? Falsch erkannt heißt: Du unterbrichst den Anrufer oder lässt zu lange Pausen entstehen.

Realtime-Modelle nutzen ihre eigenen, eingebauten Mechanismen für End-of-Turn-Detection. Das funktioniert oft gut, aber du bist auf das angewiesen, was der Anbieter freigibt. Tuning-Möglichkeiten sind limitiert.

Pipelines geben dir mehr Freiheit. Du kannst:

Dein eigenes Turn-Detection-Modell wählen
VAD (Voice Activity Detection) und semantische Turn-Detection kombinieren
Adaptive Interruption-Handling tunen
Sensitivität pro Use Case (Helpdesk vs. Healthcare vs. Outbound) unterschiedlich setzen

In Famulor ist Turn Detection vorkonfiguriert — du kannst sie aber pro Voice-Agent in den General Settings anpassen, um Branchencharakteristik abzubilden (z. B. ältere Patienten am Telefon brauchen längere Pausen-Toleranz).

Sprachqualität & Gesprächsgefühl: Hier glänzt Realtime

Das ist der Bereich, in dem Realtime-Modelle ihren interessantesten Vorteil haben — und einer, der schwer zu quantifizieren ist. Wenn Audio in Text umgewandelt wird, geht viel Information verloren: kein Tonfall, keine emotionale Färbung, keine Hesitation. Das LLM sieht nur Worte.

Ein Realtime-Modell hört all das. Es kann auf Tonfall reagieren — wenn jemand frustriert klingt, kann es empathischer antworten, ohne dass der Text das vorschreibt.

Aber: Moderne TTS-Engines werden immer besser. Modelle wie Cartesia Sonic, ElevenLabs v3 und Gemini 3.1 Flash TTS produzieren natürlich klingende Sprache mit Atmen, Lachen und emotionaler Inflektion. Pipelines können hervorragend klingen — sie arbeiten nur mit weniger Information darüber, wie der User gesprochen hat. Welche Stimme zu welchem Use Case passt, beschreiben wir in Voice Selection.

Kontrolle, Modularität und Debugging: Hier glänzen Pipelines

Hier liegt der klarste Vorteil der Pipeline — und die größte praktische Limitation von Realtime-Modellen.

Eine Pipeline ist by design transparent. Zwischen jeder Stufe sitzt Text. Du kannst exakt loggen, was transkribiert wurde, was das LLM erzeugt hat und was synthetisiert wurde. Wenn etwas schiefgeht — ein falsch gehörtes Wort, eine off-target Antwort — kannst du das Problem genau diagnostizieren. Famulor logged jeden Anruf inkl. Transkript und LLM-Output für genau diese Zwecke.

Pipelines sind außerdem leicht rekonfigurierbar:

STT-Provider tauschen, ohne dein LLM-Prompt anzufassen
TTS-Stimme wechseln, ohne sonst irgendwas zu ändern
LLM von GPT-4o auf Claude umsteigen, weil ein Use Case besser zu Anthropic passt

Realtime-Modelle sind opak: Audio rein, Audio raus. Du kannst keine Komponente austauschen, du bist auf das Modell-Ökosystem eines Anbieters festgelegt.

Kosten: Realtime ist schwerer zu kontrollieren

Realtime-APIs werden typischerweise pro Sekunde Audio-In und Audio-Out abgerechnet. Das macht Kosten direkt abhängig von der Konversationslänge — und mit wachsendem System-Prompt und längerer Historie schwer kalkulierbar.

Pipelines erlauben dir Optimierung pro Layer:

Lightweight-LLM für einfache Anliegen, Premium-LLM für komplexe Fälle (Routing!)
Kosten-effiziente STT für High-Volume-Transkription
Premium-TTS nur dort, wo Voice-Qualität entscheidend ist (Brand-Voice-Use-Cases)

Bei Famulor zahlst du transparente Minutenpreise. Auf der Preisseite findest du das aktuelle Modell — und die Twilio-Kalkulatoren helfen dir, Telefonie-Kosten exakt vorab zu modellieren.

Kostenart	Realtime / S2S	Pipeline (Famulor)
Abrechnung	Sekunde Audio-In + Audio-Out	Minute pro Komponente, summiert
Optimierung	Schwierig — alles in einem Modell	Pro Layer einzeln tunbar
Routing teurer/günstiger Modelle	Nicht möglich	Möglich — Standard-Use-Case bei Famulor
Predictability	Niedrig (Token-Anteil intransparent)	Hoch (klare Per-Minute-Preise)
Telefonie-Aufschläge	Variabel	Über Twilio- oder Telnyx-Kalkulator exakt

ROI Rechner

Berechnen Sie Ihren ROI durch automatisierte Anrufe

Erfahren Sie, wie viel Sie durch KI-gesteuerte Voice Agents jeden Monat sparen können.

Anzahl menschlicher Agenten40

5200

Arbeitsstunden pro Tag6

412

Durchschnittlicher Stundenlohn (€)€22

1260

ROI Ergebnis

ROI 228%

Benötigte Minuten288,000

Empfohlener Planscale

Gesamtkosten menschlicher Agenten

105.600 €/Monat

AI Agent Kosten

32.239 €/Monat

Geschätzte Ersparnis

73.361 €/Monat

Ohne Kreditkarte

Telefonie: Der unterschätzte Faktor

Das ist ein Punkt, der Teams oft kalt erwischt. Klassische Telefonnetze übertragen Audio in 8 kHz via Codecs wie G.711 (PCMU/PCMA). Realtime-Modelle sind aber auf 16–48 kHz Web-Audio (WebRTC, Opus) trainiert. Das Mismatch heißt: schlechtere Erkennung, gedämpfte TTS-Qualität, mehr Misverständnisse.

Für telefonbasierte Deployments — also AI-Callcenter, IVR-Replacement, Outbound-Dialing — sind Pipelines mit telefonie-optimiertem STT die zuverlässigere Wahl. Famulor unterstützt SIP-Trunking nativ, sodass dein bestehender VoIP/PBX-Provider angebunden werden kann (Telnyx, Twilio, Sipgate, eigene Asterisk-Setups).

Wenn dein Voice-Agent nur im Web-Widget läuft (kein Telefon), ist die Telefonie-Diskussion irrelevant — dann zählen primär Latenz und Sprachqualität.

Compliance: Wo Pipelines unverzichtbar werden

Für regulierte Branchen — Healthcare, Financial Services, Legal, Government — ist Compliance kein Add-on, sondern ein Hard Requirement. Pipelines bieten:

Komponenten-Wahl pro Region (z. B. STT/LLM in EU-Hosting für DSGVO)
PII-Redaktion auf der Text-Schicht, bevor Daten ans LLM gehen oder geloggt werden
HIPAA, GDPR, SOC 2, ISO 27001 zertifizierte Komponenten verfügbar
Audit-Logs auf jedem Schritt: was wurde gesagt, transkribiert, generiert

Realtime-Modelle hingegen sind meist von wenigen US-Hyperscalern in zentralisierten Rechenzentren gehostet. Audio geht rein, Audio kommt raus — Content-Filtering, PII-Redaktion und detailliertes Audit-Logging sind erheblich schwieriger.

Famulor bietet EU-Hosting, DSGVO-konformes Setup und transparente Datenflüsse — siehe Understanding Billing für die operative Seite und Industries für regulierte-Branchen-Beispiele.

Hybrid: Das Beste aus beiden Welten

Du musst dich nicht auf eine Architektur festlegen. Es gibt zwei sinnvolle Hybrid-Patterns, die wir bei Famulor regelmäßig sehen.

Realtime + separate STT

Du brauchst zuverlässige, getimte Transkripte (für Compliance, Quality Assurance oder spätere Analyse)? Lass das Realtime-Modell Audio-Reasoning machen — und parallel ein dediziertes STT-Modell die Transkription. Die zwei Streams bleiben unabhängig.

Realtime + separate TTS („Half-Cascade")

Diese Variante nutzt das Realtime-Modell für Audio-Input (Ton, Hesitation, emotionale Wahrnehmung) und gibt aber Text aus. Der Text geht durch eine dedizierte TTS-Engine deiner Wahl — vollständige Kontrolle über die Stimme, inklusive Voice Cloning, Brand Voices oder skriptierter Sprache.

In Famulor kannst du beide Hybrid-Modi pro Voice-Agent konfigurieren — der Flow Builder macht das ohne Code möglich.

Vergleichs-Matrix

Kriterium	STT–LLM–TTS Pipeline	Realtime / S2S
Einstieg	Mehr Komponenten zu orchestrieren	Einfachere Erstintegration
Latenz	Natürlich konversationell mit Tuning	Strukturell schneller
Turn Detection	Voll kontextbewusst	Eingebaut, kaum customizable
Sprachqualität	Exzellent mit modernen TTS	Prosodische Awareness
Modularität / Debugging	Voll modular und inspizierbar	Opak; eingeschränkte LLM-/Voice-Wahl
Tool Calling	Gereifte text-basierte Function Calls	Unterstützt, variiert pro Anbieter
Customization	Hoch konfigurierbar	Auf Modell-Features beschränkt
Kosten	Pro Layer optimierbar	Schwer zu optimieren
Compliance / EU-Hosting	Volle Kontrolle	Zentral, wenig Datenresidenz
Telefonie 8 kHz	Optimiert über STT-Wahl	Mismatch zu trainierter 16–48 kHz Web-Audio

Welche Architektur für welchen Use Case?

Use Case	Empfehlung	Begründung
Inbound Hotline (Healthcare)	Pipeline (Famulor)	DSGVO, EU-Hosting, PII-Redaktion, klare Audits
Outbound Sales-Calls (DACH)	Pipeline (Famulor)	SIP-Trunking, telefonie-optimiertes STT, Tool-Calls für CRM
Empathy-lastiger Consumer-Bot	Hybrid (Realtime + TTS)	Audio-Input für Tonerkennung, kontrollierte Brand Voice
E-Commerce Web-Widget	Pipeline oder Realtime	WebRTC = kein 8-kHz-Problem; entscheidend ist Compliance-Bedarf
Anwaltskanzlei Erstberatung	Pipeline (Famulor)	Audit-Logs, regionales Hosting, Tool-Calls für Conflict Check
Quick MVP / Prototyp	Realtime	Schneller Start, weniger Komponenten — später migrieren

Implementierung mit Famulor — Schritt für Schritt

Use Case definieren: Inbound vs. Outbound, Branche, primäre Sprache, Compliance-Level. Beispiele für jede Branche findest du auf der Industries-Seite.
Voice-Agent erstellen: Im No-Code Editor startest du mit einer Vorlage. Initial Message, System-Prompt, Tools — alles ohne Code.
STT/LLM/TTS-Stack wählen: Für DACH-Telefonie empfehlen wir Cartesia Ink + GPT-4o + Cartesia Sonic. Für englischsprachige Premium-Brand: Deepgram Nova + Claude + ElevenLabs v3. Famulor switcht zwischen diesen Stacks per Klick.
Tools/Integrationen anbinden: CRM, Kalender, Helpdesk per Famulor-Integrationen oder Webhook.
Telefonnummer per SIP: Eigene VoIP-Nummer behalten oder per Famulor neu provisionieren. Twilio/Telnyx-Kosten vorab modellieren mit dem Twilio-Kalkulator.
Testen: Im Browser-Test, dann mit echten Telefonaten. Famulor logged jeden Call inkl. Transkript für Iteration.
Live schalten: Inbound-Webhooks aktivieren, Outbound-Kampagnen anlegen, Reporting in deinem CRM.

Best Practices & typische Fehler

Don't: Architektur-Entscheidung anhand von Demos im Browser treffen. Demos laufen meist über WebRTC mit perfektem Audio — Telefonie ist ein anderer Planet.
Do: Latency-Budgets pro Use Case definieren. Healthcare ≈ 800 ms toleriert, Outbound-Sales muss unter 600 ms.
Don't: System-Prompt unbegrenzt wachsen lassen. Bei jedem Turn wird er mitgesendet — Kosten und Latenz steigen.
Do: Knowledge Bases nutzen statt alles in den Prompt zu packen. In Famulor ist das ein Standard-Pattern.
Don't: Realtime testen, wenn dein Use Case primär Telefonie ist. Erst Pipeline-Setup mit telefonie-optimiertem STT validieren.
Do: Filler-Audio einbauen, wenn Tool-Calls länger als 1 Sekunde dauern. Siehe Filler Audio in den Docs.

Branchen-Beispiele aus Famulor-Setups

Zahnarztpraxis Dr. Becker (60 Mitarbeiter): Inbound-Hotline für Terminbuchungen. Pipeline mit GPT-4o + Cartesia Sonic, Cal.com-Integration, EU-Hosting. Result: Auflegerquote von 22 % auf 6 % gesenkt.
Immobilien-Maklerbüro Berlin Mitte: Outbound-Qualifizierung von Listings-Interessenten. Pipeline mit Claude + Cartesia Ink + ElevenLabs, GoHighLevel-Sync. Result: 3× mehr qualifizierte Erstgespräche pro Tag.
Shopify-Shop (DACH, 8.000 Bestellungen/Monat): Web-Widget plus Telefon. Pipeline mit GPT-4o-mini für Standard-Anfragen, GPT-4o für Eskalationen. Result: 45 % der Tickets ohne menschlichen Agent gelöst.
Anwaltskanzlei Erstberatung: Inbound mit DSGVO-Hosting, PII-Redaktion vor LLM-Call, Audit-Log auf jedem Turn. Pipeline mit deutschem STT, Claude, MiniMax-TTS.

Fazit: Pipeline mit Famulor ist für die meisten DACH-Setups die richtige Wahl

Realtime-Modelle sind technisch beeindruckend und haben in WebRTC-Consumer-Use-Cases echte Vorteile. Aber für die überwältigende Mehrheit produktiver Voice-Agent-Deployments — Telefonie, regulierte Branchen, kontrollierte Kosten, multilinguale Setups, granulare Tool-Calls — ist eine moderne Streaming-Pipeline klar überlegen. Du behältst Kontrolle, Modularität, Compliance und Kosten-Predictability.

Mit Famulor bekommst du genau diese Pipeline-Architektur als No-Code-Plattform: 40+ Sprachen, SIP-Trunking, 300+ Integrationen, austauschbare STT/LLM/TTS-Komponenten, EU-Hosting, transparente Minutenpreise — und auf Wunsch hybride Realtime-Modi für emotional-sensitive Use Cases. Schau dir die Preise an oder starte direkt mit einem Voice-Agent für dein Setup.

🎯 Live Demo

Testen Sie unseren KI-Assistenten

Erleben Sie selbst, wie natürlich unser KI-Telefonassistent klingt.

Geben Sie Ihre Daten ein und erhalten Sie in wenigen Sekunden einen Anruf von unserem KI-Agenten.

Der Agent ist darauf trainiert, über Famulor-Services zu sprechen und Termine zu vereinbaren.

✓ 24/7 Verfügbarkeit•✓ Natürliche Gespräche•✓ DSGVO-konform

Demo AI agent

Famulor Mitarbeiter

🇩🇪Deutsch

FAQ — Häufige Fragen zu Realtime vs. Pipeline Voice Agents

Was ist der Hauptunterschied zwischen Realtime und Pipeline Voice Agents?

Realtime-Modelle (Speech-to-Speech) verarbeiten Audio in einem einzigen multimodalen Modell. Pipeline-Architekturen (Cascade) nutzen drei spezialisierte Modelle: STT für Transkription, LLM für Reasoning, TTS für Sprachausgabe. Pipelines sind kontrollierbarer, Realtime ist strukturell latenzärmer.

Welche Architektur nutzt Famulor?

Famulor setzt auf eine moderne Streaming-Pipeline mit Overlap zwischen STT, LLM und TTS — und unterstützt optional hybride Realtime-Setups für emotional-sensitive Consumer-Use-Cases.

Wann sollte ich Realtime statt Pipeline wählen?

Wenn dein Voice-Agent ausschließlich im Web-Widget läuft (kein Telefon), du keine strenge DSGVO-Compliance brauchst und emotionale Tonerkennung wichtiger ist als Tool-Calling-Zuverlässigkeit. Für Telefonie und regulierte Branchen ist Pipeline die bessere Wahl.

Funktioniert Realtime gut mit klassischer Telefonie?

Eingeschränkt. Telefonie überträgt Audio in 8 kHz, Realtime-Modelle sind auf 16–48 kHz Web-Audio trainiert. Das Mismatch verschlechtert Erkennung und TTS-Qualität messbar. Für Telefonie sind Pipelines mit telefonie-optimiertem STT (z. B. via Famulor) zuverlässiger.

Wie schnell kann ein Pipeline-Voice-Agent sein?

Mit Streaming-Overlap erreichen moderne Pipelines konversationelle Latenzen unter 700 ms. Famulor optimiert STT-Streaming, LLM-Token-Streaming und TTS-Streaming so, dass die Erstreaktion bei rund 500–800 ms liegt — abhängig von Use-Case und Stack-Wahl.

Kann ich mit Famulor zwischen STT-, LLM- und TTS-Anbietern wechseln?

Ja. Famulor unterstützt mehrere STT-Provider (Cartesia, Deepgram, Gladia), mehrere LLMs (GPT-4o, Claude, Gemini) und mehrere TTS-Engines (Cartesia Sonic, ElevenLabs, MiniMax, Gemini TTS). Du wechselst per Klick im Voice-Selection-Setting.

Was kostet ein Pipeline-Voice-Agent im Vergleich zu Realtime?

Pipelines erlauben Per-Layer-Optimierung: günstigere LLMs für Standard-Anfragen, Premium-LLMs nur für Eskalationen. Realtime-APIs werden pro Audio-Sekunde abgerechnet und sind schwer zu optimieren. Famulor nutzt transparente Minutenpreise — siehe Pricing.

Ist DSGVO-Compliance mit Realtime möglich?

Schwierig. Realtime-Modelle sind meist von US-Hyperscalern zentral gehostet, ohne EU-Datenresidenz. Pipelines erlauben EU-Komponenten, PII-Redaktion vor LLM-Call und Audit-Logs auf jeder Stufe. Famulor bietet EU-Hosting standardmäßig.

Wie funktioniert Tool-Calling bei Famulor?

Famulor nutzt Text-basiertes Function-Calling auf der LLM-Schicht — die ausgereifte Mechanik aus Chat-Apps. Du definierst Tools im Tools-&-Functions-Editor, optional als Custom Mid-Call Tools per Webhook oder direkt in der Famulor-Automation-Plattform.

Kann ich später von Pipeline auf Realtime migrieren?

Ja, in Famulor ist die Architektur eine Konfigurations-Entscheidung pro Voice-Agent. Du startest typisch mit Pipeline für Stabilität und Compliance — und schaltest später hybride Realtime-Modi für ausgewählte Use Cases hinzu, ohne dein Tool- und Integration-Setup zu rebuilden.

Zurück zum Blog

Weitere Blog-Artikel

Industry Insight