Mar 11, 2026

Die Geometrie der Skriptanalyse: Wie Theateruntertitel und Übertitel Dialoge erkennen

Machine-translated article. If any wording differs, English text prevails.

Moderne Theateruntertitelsysteme sind auf eine entscheidende Fähigkeit angewiesen: die genaue Cue-Erkennung aus Skripten.

Ob es sich um die Erstellung von Übertiteln für Opern, Untertiteln für Bühnenproduktionen oder Live-Untertiteln für Barrierefreiheit handelt, das System muss zuverlässig bestimmen:

Wer spricht
Wann eine Zeile beginnt
Wo Dialogblöcke im Skript erscheinen

Auf den ersten Blick klingt das nach einem Problem der natürlichen Sprachverarbeitung. In der Praxis ist es das aber nicht. Während der Entwicklung von SurtitleLive v2 haben wir fast 100 Skripte aus verschiedenen Sprachen und Theatertraditionen analysiert. Dieser Prozess führte uns zu einer überraschenden Schlussfolgerung: Ein Theaterskript ist in erster Linie keine linguistische Information. Es sind räumliche Daten.

1. Das Problem des westlichen Skripts: Struktur ohne Interpunktion

Ein typisches englisches Theaterskript stützt sich eher auf Layoutkonventionen als auf Interpunktion, um Rollen zu definieren.

Beispiel: Ein typisches Bühnenskript-Layout

HAMLET Sein oder Nichtsein, das ist hier die Frage.

OPHELIA Mein Prinz, ich hab' Euch Andenken gebracht.

Für einen menschlichen Leser ist die Interpretation offensichtlich:

Block	Interpretation
HAMLET	Name der Figur/des Charakters
Eingerückter Text	Dialog
OPHELIA	Name der Figur/des Charakters

Aber für einen Parser, der nur Klartext sieht, verschwindet die Struktur. Wir erkennen die Muster, weil die Namen der Figuren/Charaktere in GROSSBUCHSTABEN erscheinen, der Dialog eingerückt ist und die Blöcke durch vertikale Abstände getrennt sind. Die Grammatik westlicher Skripte ist typografisch, nicht linguistisch.

2. Von Skriptblöcken zu Untertitel-Cues

In einer Live-Performance-Umgebung zeigt die Untertitel-Software nicht einfach nur Text an. Sie muss ein Skript in eine Sequenz von Untertitel-Cues umwandeln.

Jeder erkannte Dialogblock wird zu einem Untertitel-Cue, der während einer Live-Performance ausgelöst werden kann. Wenn der Parser einen Dialogblock falsch identifiziert, löst das Untertitelsystem den falschen Cue aus – ein Fehler, der im Live-Theater inakzeptabel ist.

3. Interpunktion vs. Layout: Eine sprachübergreifende Entdeckung

Die Performance variiert stark, je nachdem, inwieweit sich die Sprache auf explizite oder implizite Marker stützt.

Chinesisch / Kantonesisch: Interpunktionsgesteuert

Chinesische Theaterskripte kodieren die Struktur oft explizit:

張三：今天下雨。 (Zhang San: Es regnet heute.) 李四：真的嗎？ (Li Si: Wirklich?) （他們望向窗外） ((Sie schauen aus dem Fenster.))

Muster	Klassifizierung
角色：台詞 (Figur/Charakter: Dialog)	Dialog
（...） (Klammern)	Regieanweisung

Diese interpunktionsgesteuerte Struktur macht die Analyse im Vergleich zu westlichen Formaten fast trivial.

Vergleichende Analysegenauigkeit (2026-03)

Sprache / Format	Geschätzte Genauigkeit	Wichtigstes strukturelles Signal	Engpass bei der Analyse
Chinesisch / Kantonesisch	~100%	Explizite Interpunktion (角色：台詞)	Keine
Japanisch	~98%	Stabile Anführungszeichen	Geringfügige Formatabweichungen
Englisch (US/UK)	~73%	Implizite Layoutstruktur	Einrückung & Großschreibung
Deutsch / Französisch	~71%	Komplexe Theaterformatierung	Mehrdeutige Blockgrenzen

4. Die versteckten Kosten der Konvertierung von Skripten in Klartext

Viele Untertitelsysteme verarbeiten Skripte, indem sie Dokumente zuerst in Klartext konvertieren und Layoutinformationen entfernen.

Original formatiertes Skript:

HAMLET Sein oder Nichtsein

Nach der Klartextkonvertierung: HAMLET Sein oder Nichtsein

Ohne Einrückung oder Blockgrenzen muss sich der Parser auf semantisches Raten verlassen, um zu bestimmen, ob "HAMLET" ein Figuren-/Charaktername oder ein Teil des Satzes ist.

5. Der architektonische Drehpunkt: Layout-First-Analyse

Anstatt zu fragen: "Was bedeutet dieser Satz?", fragt die Maschine: "Wie sieht dieser Textblock geometrisch aus?"

Durch die Verwendung von OOXML-Extraktion aus .docx-Dateien rufen wir präzise Layoutattribute wie Einrückung (gemessen in Twips), Großschreibungsflags und Absatzstile ab.

Beispiel: Layoutsignale, die aus einem Skript extrahiert wurden

Block A:

indent = 72pt, caps_ratio = 1.0, line_length = 8
→ Klassifiziert als Figur/Charakter

Block B:

indent = 36pt, caps_ratio = 0.2, line_length = 48
→ Klassifiziert als Dialog

6. Regieanweisungen: Wenn Typografie zur Struktur wird

In vielen Theaterskripten werden Regieanweisungen rein durch Typografie angegeben – oft durch Kursivschrift.

Beispiel: Typografie als Struktur

HAMLET         Sein oder Nichtsein.

        Er hält inne und blickt zum Publikum.

OPHELIA         Mein Prinz?

Block	Interpretation
HAMLET	Name der Figur/des Charakters
Eingerückter Satz	Dialog
Kursiver Text	Regieanweisung

Sobald die Formatierung verschwindet, kann der Parser nicht mehr zwischen Dialog und Erzählung unterscheiden. Einige Skripte verwenden noch minimalere kursive Notizen:

Pause wendet sich ab

Diese enthalten fast keine linguistischen Cues und stützen sich zu 100 % auf typografische Stilattribute wie italic=true.

7. Ein dreistufiges KI-Modell für zuverlässige Cue-Erkennung

Wir haben KI als Reviewer und nicht als Rater positioniert:

Stufe 1 – Deterministische Regeln: Verarbeitet explizite Formate mit 100 % Genauigkeit.
Stufe 2 – KI-Review: Fungiert als Korrekturleser, um unsichere Klassifizierungen zu validieren.
- Beispiel: HAMLET (leise). Das System bestimmt anhand des Dokumentkontexts, ob "(leise)" eine Regieanweisung oder ein Dialog ist.
Stufe 3 – KI-Klassifizierung: Vollständige Klassifizierung für stark mehrdeutige Bereiche, verankert durch Layoutmuster, die an anderer Stelle im selben Dokument gefunden wurden.

Fazit

Theaterskripte erscheinen einfach, aber ihre Bedeutung ergibt sich aus der räumlichen Organisation. Durch den Übergang vom semantischen Raten zur Layout-First-Analyse liefert SurtitleLive den richtigen Untertitel-Cue, im richtigen Moment.

FAQ

F: Was ist ein Untertitel-Cue im Theater? A: Ein Untertitel-Cue ist der Moment, in dem eine Dialogzeile auf der Untertitelanzeige erscheinen soll. Die Cue-Erkennung erfordert die Identifizierung von Dialogblöcken und Sprecherwechseln innerhalb des Skripts.

F: Wie geht das System mit inkonsistenter Formatierung um? A: Unser System gruppiert ähnliche Layouts. Wenn sich ein Dokumentprofil ändert, führt der Parser eine Layoutsegmentierung durch, um seine Strategie in Echtzeit anzupassen.

F: Warum ist das Layout wichtig, wenn Skripte für Untertitel analysiert werden? A: Viele Skripte verwenden Einrückungen und Abstände anstelle von Interpunktion, um die Struktur zu kodieren. Ein Layout-First-Parser erkennt Cues zuverlässiger als semantische Modelle allein.

Wichtigste Erkenntnisse

Theateruntertitelsoftware benötigt eine genaue Cue-Erkennung aus Skripten, um Dialoge korrekt darzustellen.
Die Skriptanalyse betrachtet Theaterskripte primär als räumliche Daten, nicht als rein linguistische Informationen.
Die Genauigkeit der Skriptanalyse hängt stark von der Sprache und den verwendeten Formatierungsstandards ab.
SurtitleLive verwendet eine Layout-First-Analyse, um Layoutattribute wie Einrückung und Großschreibung zu nutzen.

Häufig gestellte Fragen

Was ist ein Untertitel-Cue im Theater?

Ein Untertitel-Cue ist der Zeitpunkt, an dem eine Dialogzeile auf der Untertitelanzeige erscheinen soll. Die Cue-Erkennung erfordert die Identifizierung von Dialogblöcken und Sprecherwechseln innerhalb des Skripts.

Wie geht das System mit inkonsistenter Formatierung um?

Unser System gruppiert ähnliche Layouts. Wenn sich ein Dokumentprofil ändert, führt der Parser eine Layoutsegmentierung durch, um seine Strategie in Echtzeit anzupassen.

Warum ist das Layout wichtig, wenn Skripte für Untertitel analysiert werden?

Viele Skripte verwenden Einrückungen und Abstände anstelle von Interpunktion, um die Struktur zu kodieren. Ein Layout-First-Parser erkennt Cues zuverlässiger als semantische Modelle allein.

Wie verbessert SurtitleLive die Genauigkeit der Cue-Erkennung?

SurtitleLive verwendet ein dreistufiges KI-Modell, das deterministische Regeln, KI-Review und KI-Klassifizierung kombiniert, um eine zuverlässige Cue-Erkennung zu gewährleisten.

Glossar

Skript: Der Text eines Theaterstücks, der die Dialoge und Regieanweisungen enthält.
Cue: Ein spezifischer Moment im Skript, der einen Wechsel im Untertitel oder Übertitel auslöst.
Charakter: Eine dramatische Rolle, die von einem Schauspieler in einem Theaterstück dargestellt wird.
OOXML-Extraktion: Der Prozess des Abrufens präziser Layoutattribute aus .docx-Dateien, wie z.B. Einrückung und Absatzstile.
Layout-First-Analyse: Ein Ansatz zur Skriptanalyse, der sich auf die geometrische Anordnung von Textblöcken konzentriert, anstatt auf semantisches Raten.