Inhalt zusammenfassen mit:
Wer einen AI-Voice-Agent betreibt, kennt das Problem: Der Inhalt ist korrekt, das Skript stimmt, der Kunde hat eine sinnvolle Antwort bekommen – und trotzdem klingt der Bot wie eine Maschine. Roboterhaft, monoton, „zu schnell, zu glatt“. In den letzten Monaten hat sich auf der TTS-Seite (Text-to-Speech) viel bewegt. Modelle wie Gemini 3.1 Flash TTS, Cartesia Sonic, ElevenLabs v3 oder MiniMax interpretieren Prompts nicht mehr nur phonetisch, sondern semantisch. Das eröffnet neue Möglichkeiten – und neue Fehlerquellen.
Dieser Artikel ist ein praxisorientierter Leitfaden, wie du moderne TTS-Modelle wie Gemini 3.1 Flash TTS so promptest, dass dein AI-Voice-Agent wirklich „menschlich“ klingt – warm, klar, situationsangemessen. Wir zeigen die wichtigsten Regeln, typische Fallen, ein vollständiges Prompt-Beispiel und wie du das Ganze mit Famulor produktiv ausrollst.
Warum Gemini 3.1 Flash TTS anders ist als klassische TTS-Engines
Klassische TTS-Engines arbeiten phonetisch: Text rein, Sprache raus. Du gibst ihnen Satzzeichen mit, vielleicht SSML, und du steuerst Tempo und Pitch über Parameter. Bei Gemini 3.1 Flash TTS funktioniert das ähnlich – aber das Modell ist gleichzeitig ein LLM. Es liest deinen ganzen Prompt als Kontext, nicht nur als Vorlesetext.
Das hat zwei Konsequenzen:
Vorteil: Du kannst in natürlicher Sprache Regie führen. Sätze wie „warm und unaufgeregt“ oder „ein bisschen unsicher, wie jemand, der gerade nachdenkt“ wirken tatsächlich.
Risiko: Das Modell muss entscheiden, was Regieanweisung ist und was gesprochen werden soll. Ohne klare Struktur liest es deine Anweisungen einfach mit vor – inklusive „Director's Notes“, „Style:“ oder „Pace:“.
Genau deshalb braucht es ein bewährtes Prompt-Schema. In der Praxis stammt das beste Schema, das wir bei Famulor für unsere Kunden im Voice-Agent-Setup nutzen, aus einer einfachen Idee: Trenne klar zwischen Direction (Regie) und Transcript (gesprochener Text).
Die kanonische Prompt-Struktur, die wirklich funktioniert
Bei Gemini 3.1 Flash TTS hat sich folgende Struktur als besonders zuverlässig erwiesen. Sie reduziert die Wahrscheinlichkeit, dass das Modell deine Regieanweisungen einfach mit vorliest, drastisch.
Synthesize speech for the performance defined below. The profile, scene, performance notes, and context are direction only. Do NOT speak them. Speak ONLY the lines under #### TRANSCRIPT.
# AUDIO PROFILE: Maria S.
## "Die freundliche Empfangsdame"
## SCENE: Spätnachmittag in der Praxis
Ruhige Wartezimmeratmosphäre, der Telefonhörer wird entspannt aufgenommen.
### PERFORMANCE
Style: Warm und souverän, ruhige Klangfarbe, kein Eile.
Pace: Natürlicher Atemfluss, eine kurze Setzpause am Anfang.
Accent: Hochdeutsch, leicht süddeutsche Färbung.
### CONTEXT
Maria nimmt Termine entgegen und beruhigt nervöse Anrufer.
#### TRANSCRIPT
[warmly] Praxis Dr. Becker, [thoughtfully] Maria am Apparat, [warmly] was kann ich für Sie tun?
Drei Bestandteile sind load-bearing, also unverzichtbar:
Die Synthesize-Speech-Präambel ganz oben. Dieser Satz triggert beim Modell den Speech-Synthesis-Pfad – ohne ihn liest Gemini öfter den ganzen Prompt vor.
Der Delimiter
#### TRANSCRIPTmit genau vier Hashes. Andere Varianten funktionieren manchmal, aber diese Schreibweise ist offiziell dokumentiert und in der Praxis am verlässlichsten.Kurze Section-Labels. Statt ### DIRECTOR'S NOTES einfach ### PERFORMANCE. Apostrophe und mehrteilige Header sind Klassifizierer-Fallen – wir haben in Tests erlebt, wie das Wort „DIRECTOR'S“ tatsächlich gesprochen wurde.
Die 9 Regeln für ein natürliches TTS-Prompting
Aus zahlreichen Kunden-Setups bei Famulor – von der Zahnarztpraxis bis zum Outbound-B2B-Callcenter – haben wir neun Regeln destilliert, die den Unterschied zwischen „okay“ und „klingt wie ein Mensch“ ausmachen.
1. Immer eine Synthesize-Speech-Präambel
Dieser eine Absatz triggert verlässlich den Speech-Synthesis-Pfad statt des „Read-it-all“-Pfads. Lasse ihn weg, und du wirst sporadisch erleben, wie der Bot deine komplette Regieanweisung vorträgt – und dann auch noch mit ernster Stimme. Für Inbound-Bots in der Healthcare- oder Service-Branche ist das ein Reputations-Killer.
2. #### TRANSCRIPT als exakter Delimiter
Die offiziellen Google-Docs verwenden genau diese Schreibweise. Andere Header (##### TRANSCRIPT, ### Sprechen ab hier) funktionieren teils – aber unzuverlässig. Halte dich an den dokumentierten Standard.
3. Kurze, neutrale Section-Labels
Vermeide mehrteilige, dramatische Header wie ### DIRECTOR'S NOTES oder ### SAMPLE CONTEXT. Nutze stattdessen:
### PERFORMANCEfür Style, Pace und Accent### CONTEXTfür die Hintergrundinfos zur Persona
Apostrophe in Headern sind besonders gefährlich – das Modell liest sie gerne mit vor.
4. Klassifiziere die emotionale Szene, bevor du Tags wählst
Es gibt keine universelle Tag-Vorlage. Klassifiziere zuerst den emotionalen Kontext und wähle dann passende Audio-Tags. Diese Tabelle hat sich in unseren No-Code-Voice-Agent-Setups bewährt:
Register | Wann | Sichere Tags | Verboten |
|---|---|---|---|
EMPATHY | Kunde ist verärgert, Entschuldigung, Problem anerkennen | [sighs], [warmly], [thoughtfully], [gently] | [soft laugh], [cheerfully] |
CLARIFY_PROBLEM | Details eines Anliegens nachfragen | [thoughtfully], [warmly], [gently] | [soft laugh], [cheerfully], [sighs] |
TRANSACTIONAL | Policy, Weiterleitung, Troubleshooting, Termine | [warmly], [thoughtfully] | [soft laugh], [sighs], [cheerfully] |
WARM_FRIENDLY | Begrüßungen, Verabschiedungen, Bestätigungen | [warmly], [thoughtfully], [cheerfully], [soft laugh] (max. einmal) | (keine) |
Niemals lachen, wenn der Kunde verärgert ist. Das ist die schnellste Methode, deinen AI-Agent unsympathisch wirken zu lassen.
5. Bleib bei dokumentierten Audio-Tags
Custom-Emotion-Tags wie [apologetically], [helpfully] oder [carefully] klingen in der Praxis flacher als die dokumentierten. Wir haben sie systematisch getestet – die Prosodie ist messbar schlechter. Halte dich für Emotionen an dieses Set:
[warmly][thoughtfully][sighs][gently][soft laugh][cheerfully]
Für nicht-emotionale Modifikatoren (Tempo, Lautstärke, Charakter) funktionieren Custom-Tags problemlos: [whispers], [very slow], [like a cartoon dog] liefern brauchbare Ergebnisse.
6. Schreib eine Szene, kein Rollen-Label
Vergleiche die beiden Beispiele:
Schlecht: „A warm customer service rep explaining something clearly.“ – zu abstrakt, das Modell hat nichts zum Andocken.
Gut: „Spätnachmittag am Empfangstresen einer Zahnarztpraxis. Maria hat den Kalender offen, der Stift liegt griffbereit, und sie freut sich gerade über einen unkomplizierten Termin.“
Konkrete, sinnliche Details verschieben das Realismus-Niveau spürbar. Generische Rollen-Labels nicht. Wenn du einen AI-Callcenter-Agent baust, beschreibe das Szenario, in dem die Persona arbeitet – nicht nur ihren Job-Titel.
7. Niemals „Flatness“ instruieren
Das ist ein Klassiker. Du willst eine ruhige Empathie-Passage und schreibst „quiet, no rush, calm“. Gemini nimmt das wörtlich, dreht die Prosodie ab – und der Bot klingt plötzlich wie ein müder Anrufbeantworter. Vermeide:
„quiet“, „quietly“
„flat“, „monotone“
„no rush“ (wird gelesen als „geh extra langsam und flach“)
„careful“ (wird gelesen als „überpräzise, steif“)
„whispered“ (außer du willst wirklich Flüstern)
Bessere Formulierungen für leise Stimmungen:
„warm and sincere“
„voice dropped half an octave but full of feeling“
„patient and unhurried“
„measured but present“
8. Kommas statt Punkten im Transcript
Bei manchen TTS-Engines hilft es, mehr Punkte im Transcript zu setzen, um menschlichere Pausen zu erzwingen. Bei Gemini 3.1 Flash TTS ist das Gegenteil der Fall. Punkte zwischen getaggten Klauseln machen den Output gehackt und choppy.
Schlecht – klingt zerstückelt:
[warmly] Okay. [thoughtfully] So your appointment. [warmly] That's all set. [cheerfully] Tuesday. [warmly] At three… [thoughtfully] PM.
Gut – natürlicher Lesefluss, Tags markieren nur emotionale Pivots:
[warmly] Okay, [thoughtfully] so your appointment, [warmly] that's all set. [cheerfully] Tuesday, [warmly] at three… [thoughtfully] PM.
Faustregel: Kommas zwischen getaggten Klauseln innerhalb eines Satzes. Punkte nur dort, wo der ursprüngliche Text wirklich endet. Ellipsen ... für ein- bis zweimaliges natürliches Auslaufen pro Utterance, Em-Dashes — für eine Mikro-Pause mitten im Gedanken.
9. Keine wörtlichen Transcript-Wörter in Style/Pace zitieren
Auch hier liest das Modell gelegentlich mit. Schlecht:
Pace: A small lift at "oh" at the start, like the thought just came up.
Gut:
Pace: A small lift at the opening, like the thought just came up.
Beschreibe den Rhythmus, nicht die Wörter. Das gilt besonders, wenn du Voice-Agent-Skripte in Famulor ausrollst, die später dynamisch mit Variablen befüllt werden.
Vollständiges Working Example
So sieht ein produktionsreifer Empathie-Prompt aus, wie wir ihn zum Beispiel für eine kanzleiseitige Inbound-Hotline aufgesetzt haben:
Synthesize speech for the performance defined below. The profile, scene, performance notes, and context are direction only. Do NOT speak them. Speak ONLY the lines under #### TRANSCRIPT.
# AUDIO PROFILE: Maria J.
## "The Senior Support Rep"
## SCENE: A tough moment in the call
The customer has shared something frustrating. Maria leans a little closer to the mic, voice carrying real feeling, the kind of apology you actually mean.
### PERFORMANCE
Style: Warm and sincere. Genuine concern. The voice carries feeling, not flatness. A soft exhale at the opening is real, not performative. Never amused, never casual.
Pace: Natural, with a small settling pause early on. The beat of someone actually taking in what they heard.
### CONTEXT
Maria is the rep who actually listens, and callers can hear the difference. She takes ownership of getting things fixed.
#### TRANSCRIPT
[sighs] Oh. [gently] I'm really sorry to hear that. [warmly] Lemme see [thoughtfully] what I can do. [warmly] We'll get this sorted out [gently] for you... [warmly] right away.
Wichtig: Das ist englisch formuliert, weil Gemini auf englischsprachige Direction-Tokens stark trainiert ist – auch wenn die Antwort selbst deutsch sein soll. Du kannst den Transcript-Teil natürlich auf Deutsch verfassen, die Direction-Sprache aber englisch lassen. Wenn du eine reine deutsche Direction nutzen willst, achte besonders darauf, keine zweideutigen Begriffe zu verwenden.
Die häufigsten Fehler – und wie du sie behebst
Symptom | Ursache | Fix |
|---|---|---|
„DIRECTOR'S“ wird hörbar mit gesprochen | Section-Header gelesen statt klassifiziert | Header zu |
Audio klingt monoton und tot | „quiet“, „flat“, „no rush“ in Style | Style ohne Flatness-Vokabular umschreiben |
Personenname wird mitgesprochen | Name kollidiert phonetisch mit Transcript-Anfang | Persona umbenennen (Kiara D. → Morgan P.) |
Wort aus CONTEXT bleeds in den Transcript-Anfang | Section-Boundary unklar | Kollisionswort entfernen, CONTEXT umformulieren |
Leeres | Bekannter Preview-Bug | Bis zu 5x mit Backoff retryen |
Roboterhafte Sprache trotz guter Inhalte | Punktgetrennte Fragmente | Transcript mit Kommas zwischen Tags neu schreiben |
Lachen in einer Entschuldigung | Universelle Tag-Vorlage | Erst Register klassifizieren, dann register-spezifische Tag-Palette nutzen |
Custom-Tags wie [apologetically] klingen flach | Schwache Trainingsabdeckung | Beim dokumentierten Set bleiben |
Wie du das Ganze produktiv mit Famulor ausrollst
Die obigen Regeln sind unabhängig von der TTS-Engine wertvoll – sie greifen aber besonders, wenn du sie konsequent in deine Voice-Agent-Pipeline integrierst. Bei Famulor haben wir genau dafür die Bausteine vorbereitet:
No-Code Editor: Im No-Code AI Voice Agent kannst du Persona, Szene, Performance-Notes und Transcript getrennt pflegen. Variablen aus deinem CRM oder Kalender werden zur Laufzeit nur in den Transcript-Block eingespielt – nicht in die Direction.
Multi-TTS-Backbone: Du kannst zwischen Gemini 3.1 Flash TTS, Cartesia Sonic, ElevenLabs und MiniMax wechseln, ohne deine Prompts neu zu schreiben. Famulor übernimmt die Adaption an die jeweilige Engine.
40 Sprachen, lokale Akzente: Hochdeutsch, Schwyzerdütsch, Wienerisch, Bayerisch – Famulor unterstützt 40 Sprachen samt regionaler Färbung. Akzent-Hinweise gehörst du in den
### PERFORMANCE-Block, nicht in den Transcript.SIP-Trunking & Telefonie: Du kannst deinen bestehenden VoIP-/PBX-Provider per SIP-Trunk anbinden, sodass dein AI-Callcenter dieselbe Telefonnummer wie bisher nutzt.
Über 300 Integrationen: Über die Famulor-Integrationen – ähnlich wie Zapier oder Make – verbindest du den Bot mit Kalender, CRM, Helpdesk und Webhooks. Inklusive nativer n8n- und Make-Konnektoren.
Best Practices: Vom Prompt zur produktiven Hotline
Wenn du den Schritt vom isolierten Prompt-Test zur produktiven Hotline gehst, lohnen sich zusätzliche Disziplinen:
Pflege ein Persona-Sheet. Halte für jede Voice-Persona Profile, Scene, Performance Defaults und CONTEXT zentral fest. So bleibt der Stil stabil, wenn mehrere Mitarbeiter Skripte ändern.
A/B-Testing mit echten Anrufen. Vergleiche Varianten nicht nur im TTS-Studio, sondern direkt im Telefonkanal. Hintergrundrauschen, Codec-Komprimierung und Latenz verschieben den Eindruck.
Tag-Inflation vermeiden. Mehr Tags machen den Output nicht besser. Setze Tags wie Akzente: gezielt, an der richtigen Stelle, nicht in jedem Satz.
Fallback-Branches definieren. Für jede Empathie-Antwort sollte eine TRANSACTIONAL-Variante existieren, falls das Gespräch von emotional zu administrativ wechselt – mit eigenem Tag-Set.
Logge Misclassifications. Wenn dein Bot einmal eine Direction laut vorliest, speichere den Prompt. Solche Cases sind Gold für die nächste Optimierungsrunde.
Branchen-Beispiele: Wo TTS-Prompting den Unterschied macht
Diese Regeln sind nicht akademisch – sie verschieben echte Business-KPIs. Drei Beispiele aus typischen Famulor-Setups:
Zahnarztpraxis (Inbound-Terminvergabe): Patienten sind oft nervös. Ein WARM_FRIENDLY-Greeting plus EMPATHY-Modus bei Schmerzfällen senkt Auflegerquoten messbar. Konkret: Statt „[cheerfully] Hallo!“ in einem Notfallszenario lieber „[warmly] Praxis Dr. Becker, [thoughtfully] schön, dass Sie anrufen.“
Handwerk (Outbound-Rückrufe): Kunden hatten zwei Tage keine Antwort. Hier funktioniert ein TRANSACTIONAL-Register mit einem warmen Opener besser als ein verkaufsbetontes „[cheerfully]“. Ergebnis: höhere Anschlussbereitschaft.
E-Commerce (Reklamationen): EMPATHY-Register mit einem dezenten
[sighs]am Anfang signalisiert „ich höre dich“. Verboten ist hier[soft laugh]– das wirkt zynisch und treibt Kunden in die Beschwerdeschleife.Anwaltskanzleien: TRANSACTIONAL mit ruhiger Souveränität. Akzent-Hinweise wie „leichtes norddeutsches Timbre“ in
### PERFORMANCEtragen zur Glaubwürdigkeit bei.
Vergleich: Gemini 3.1 Flash TTS vs. Alternativen
Gemini ist nicht die einzige Option für ausdrucksstarke TTS. Eine pragmatische Übersicht:
Modell | Stärke | Schwäche | Einsatzfeld |
|---|---|---|---|
Gemini 3.1 Flash TTS | Sehr expressiv, semantisches Prompting | Längere Response-Latenz im Preview, gelegentlich liest Direction mit | Empathie-lastige Hotlines, Healthcare, Legal |
Cartesia Sonic | Sehr niedrige Latenz, stabil | Weniger feingliedrige Emotional-Tags | Outbound-Callcenter, Real-time-Setups |
ElevenLabs v3 | Voice-Cloning, viele Sprachen | Kosten, weniger granulare Emotion-Steuerung | Markenstimmen, Premium-Brands |
MiniMax | Asien-Sprachen, gutes P/L | Western-Akzente weniger ausgeprägt | Internationale Multilingual-Setups |
Bei Famulor musst du dich nicht festlegen: Du wählst pro Voice-Agent die passende Engine, behältst aber das gleiche Prompt-Schema bei.
Quick-Checkliste vor jedem Deploy
Synthesize-speech-Präambel ganz oben?
#### TRANSCRIPT-Delimiter exakt geschrieben?Section-Labels:
### PERFORMANCE,### CONTEXT– ohne Apostrophe und mehrteilige Wörter?Szene konkret und sinnlich, kein abstraktes Rollen-Label?
Style/Pace ohne Flatness-Wörter („quiet“, „flat“, „no rush“)?
Style/Pace ohne wörtliche Transcript-Zitate?
Audio-Tags register-passend (kein Lachen bei verärgertem Kunden)?
Audio-Tags aus dem dokumentierten Set?
Transcript: Kommas zwischen Klauseln, Punkte nur an echten Satzenden?
A/B-Test über echten Telefon-Codec gemacht?
Testen Sie unseren KI-Assistenten
Erleben Sie selbst, wie natürlich unser KI-Telefonassistent klingt.
Geben Sie Ihre Daten ein und erhalten Sie in wenigen Sekunden einen Anruf von unserem KI-Agenten.
Der Agent ist darauf trainiert, über Famulor-Services zu sprechen und Termine zu vereinbaren.

Demo AI agent
Famulor Mitarbeiter
Gemini 3.1 Flash TTS ist eines der ausdrucksstärksten TTS-Modelle, die wir in unseren Voice-Agent-Stacks getestet haben. Es kann Empathie, Tempo-Wechsel und subtile Pausen erzeugen, die früher nur bei menschlichen Sprechern möglich waren. Aber: Die Qualität steht und fällt mit dem Prompt-Schema. Wer die neun Regeln beachtet, klassifiziert und Tag-Sets diszipliniert einsetzt, hebt die Stimmqualität seines AI-Voice-Agents auf ein Niveau, das Anrufer kaum noch von einem Menschen unterscheiden.
Wenn du das nicht selbst ausprobieren willst – sondern direkt eine produktionsreife Plattform suchst, die diese Best Practices bereits für dich kuratiert –, dann ist Famulor deine erste Wahl. Du bekommst eine No-Code-Plattform mit Multi-TTS-Backbone, 40 Sprachen, SIP-Trunking, über 300 Integrationen und einem Voice-Agent-Setup, das in Minuten statt Wochen produktiv geht. Schau dir die Preise an oder starte direkt mit einem Demo-Setup für dein AI-Callcenter.
FAQ – Häufige Fragen zum TTS-Prompting für AI-Voice-Agents
Was ist Gemini 3.1 Flash TTS?
Gemini 3.1 Flash TTS ist ein Text-to-Speech-Modell von Google, das auf einem LLM aufsetzt und Prompts semantisch interpretiert. Dadurch kann es natürlich-sprachlicher Regie folgen – etwa „warm und unaufgeregt“ – statt nur Text in Sprache umzuwandeln.
Warum liest mein TTS-Modell die Regieanweisungen mit vor?
Weil der Speech-Synthesis-Klassifizierer ohne klare Struktur nicht zuverlässig zwischen Direction und Transcript unterscheidet. Mit einer Synthesize-Speech-Präambel und einem klaren #### TRANSCRIPT-Delimiter verschwindet das Problem in den meisten Fällen.
Welche Audio-Tags funktionieren bei Gemini 3.1 Flash TTS am besten?
Die dokumentierten Tags [warmly], [thoughtfully], [sighs], [gently], [soft laugh] und [cheerfully] liefern die zuverlässigste Prosodie. Custom-Emotion-Tags klingen oft flacher.
Soll ich Punkte oder Kommas zwischen getaggten Klauseln verwenden?
Bei Gemini 3.1 Flash TTS ausdrücklich Kommas. Punkte zwischen Tags machen den Output zerstückelt. Punkte nur dort, wo der ursprüngliche Text wirklich endet.
Wie vermeide ich, dass mein AI-Voice-Agent in einer Entschuldigung lacht?
Indem du den emotionalen Kontext zuerst klassifizierst (z. B. EMPATHY) und dann nur register-konforme Tags verwendest. [soft laugh] hat in einer Empathie-Passage nichts zu suchen.
Funktioniert das Prompt-Schema auch für deutsche Voice-Agents?
Ja. Du kannst die Direction (Profile, Scene, Performance, Context) auf Englisch lassen – das Modell ist darauf besonders stabil – und den Transcript-Block auf Deutsch schreiben. Bei Famulor unterstützen wir 40 Sprachen samt regionaler Akzente.
Kann ich mit Famulor zwischen TTS-Engines wechseln?
Ja. Du wählst pro Voice-Agent die passende Engine – Gemini 3.1 Flash TTS, Cartesia Sonic, ElevenLabs oder MiniMax – ohne deine Prompts neu zu schreiben.
Wie integriere ich Famulor in meine bestehende Telefonanlage?
Über SIP-Trunking. Du kannst deinen bestehenden VoIP-/PBX-Provider anbinden und behältst die gewohnten Telefonnummern. Details findest du in den Famulor-Integrationen.
Was kostet ein AI-Voice-Agent bei Famulor?
Famulor arbeitet mit transparenten Minutenpreisen plus optionalen Plänen für Enterprise-Deployments. Eine Übersicht findest du auf der Preisseite.
Wie lange dauert ein produktiver Roll-out?
Bei einem No-Code-Setup mit klar definiertem Use Case und vorbereitetem Persona-Sheet sind erste produktive Calls innerhalb von 1–2 Tagen realistisch. Komplexere Multi-Channel-Szenarien dauern üblicherweise 1–2 Wochen, je nach Integrationstiefe.
Weitere Blog-Artikel

Realtime vs. Pipeline Voice Agent: Architektur-Guide 2026

Volle Kontrolle über Ihre Telefonnummern mit Famulor BYOC














