Mar 11, 2026

スクリプト解析の幾何学：演劇字幕・スーパータイトルにおける対話の検出方法

Machine-translated article. If any wording differs, English text prevails.

現代の演劇字幕システムは、スクリプトからの正確なキュー検出という重要な機能に依存しています。

オペラ用のスーパータイトル、舞台作品用の字幕、アクセシビリティのためのライブキャプションの生成など、システムは以下を確実に判断する必要があります。

誰が話しているか
セリフがいつ始まるか
対話ブロックがスクリプトのどこにあるか

一見すると、これは自然言語処理の問題のように思えます。しかし実際にはそうではありません。SurtitleLive v2の開発中に、さまざまな言語や演劇の伝統からの約100のスクリプトを分析しました。その結果、驚くべき結論に達しました。演劇のスクリプトは、主に言語データではなく、空間データであるということです。

1. 西洋のスクリプトの問題：句読点のない構造

典型的な英語の演劇スクリプトは、役割を定義するために句読点ではなくレイアウトの慣習に依存しています。

例：典型的な舞台スクリプトのレイアウト

HAMLET To be, or not to be: that is the question.

OPHELIA My lord, I have remembrances of yours.

人間が読めば、解釈は明らかです。

Block	解釈
HAMLET	登場人物名（character）
インデントされたテキスト	セリフ（dialogue）
OPHELIA	登場人物名（character）

しかし、プレーンテキストしか認識しないパーサーにとっては、構造が失われます。登場人物名（character）がすべて大文字で表示され、セリフ（dialogue）がインデントされ、ブロックが垂直方向に間隔を空けて区切られているため、パターンを認識できます。西洋のスクリプトの文法は、言語的ではなく、タイポグラフィ的です。

2. スクリプトブロックから字幕キューへ

ライブパフォーマンス環境では、字幕ソフトウェアは単にテキストを表示するだけではありません。スクリプトを字幕キューのシーケンスに変換する必要があります。

検出された各対話ブロックは、ライブパフォーマンス中にトリガーできる字幕キューになります。パーサーが対話ブロックを誤って識別した場合、字幕システムは間違ったキューをトリガーします。これはライブシアターでは許容できない失敗です。

3. 句読点 vs. レイアウト：異言語間の発見

パフォーマンスは、言語が明示的なマーカーに依存するか、暗黙的なマーカーに依存するかによって大きく異なります。

中国語/広東語：句読点駆動

中国語の演劇スクリプトは、構造を明示的にエンコードすることがよくあります。

張三：今天下雨。 (Zhang San: It is raining today.) 李四：真的嗎？ (Li Si: Really?) （他們望向窗外） ((They look out the window.))

Pattern	分類
角色：台詞 (Character: Dialogue)	セリフ（dialogue）
（...） (Parentheses)	舞台指示（stage direction）

この句読点駆動の構造により、西洋の形式と比較して、解析がほぼ簡単になります。

比較解析精度 (2026-03)

Language / Format	推定精度	主要な構造信号	解析のボトルネック
中国語/広東語	~100%	明示的な句読点 (角色：台詞)	なし
日本語	~98%	安定した引用符	わずかな書式のバリエーション
英語 (US/UK)	~73%	暗黙的なレイアウト構造	インデントと大文字化
ドイツ語/フランス語	~71%	複雑な演劇の書式設定	あいまいなブロック境界

4. スクリプトをプレーンテキストに変換する隠れたコスト

多くの字幕システムは、最初にドキュメントをプレーンテキストに変換し、レイアウト情報を削除してスクリプトを処理します。

元の書式設定されたスクリプト：

HAMLET To be or not to be

プレーンテキスト変換後： HAMLET To be or not to be

インデントやブロック境界がない場合、パーサーは「HAMLET」が人物名（character）なのか、文の一部なのかを判断するために意味推測に頼る必要があります。

5. アーキテクチャのピボット：レイアウト優先解析

「この文はどういう意味ですか？」と尋ねる代わりに、マシンは**「このテキストブロックは幾何学的にどのように見えますか？」**と尋ねます。

.docxファイルからOOXML抽出を使用することにより、インデント（twipsで測定）、大文字化フラグ、段落スタイルなどの正確なレイアウト属性を取得します。

例：スクリプトから抽出されたレイアウト信号

Block A：

indent = 72pt, caps_ratio = 1.0, line_length = 8
→ 登場人物（Character）として分類

Block B：

indent = 36pt, caps_ratio = 0.2, line_length = 48
→ セリフ（Dialogue）として分類

6. 舞台指示：タイポグラフィが構造になるとき

多くの演劇スクリプトでは、舞台指示は純粋にタイポグラフィ（多くの場合イタリック体）によって示されます。

例：構造としてのタイポグラフィ

HAMLET         To be, or not to be.

        He pauses and looks toward the audience.

OPHELIA         My lord?

Block	解釈
HAMLET	登場人物名（character）
インデントされた文	セリフ（dialogue）
イタリック体のテキスト	舞台指示（stage direction）

書式設定が消えると、パーサーはセリフ（dialogue）とナレーションを区別できません。一部のスクリプトでは、さらに最小限のイタリック体のメモを使用します。

pause turns away

これらには言語的な手がかりがほとんど含まれておらず、italic=trueのようなタイポグラフィスタイルの属性に100％依存しています。

7. 信頼性の高いキュー検出のための3層AIモデル

AIを推測者ではなくレビュー担当者として再配置しました。

Tier 1 — 決定論的ルール： 明示的な形式を100％の精度で処理します。
Tier 2 — AIレビュー： 不確かな分類を検証するための校正者として機能します。
- 例： HAMLET (quietly). システムは、「(quietly)」が舞台指示（stage direction）であるか、セリフ（dialogue）であるかを、ドキュメントのコンテキストに基づいて判断します。
Tier 3 — AI分類： 同じドキュメント内の他の場所で見つかったレイアウトパターンによって固定された、非常にあいまいな領域の完全な分類。

結論

演劇スクリプトは単純に見えますが、その意味は空間的な構成から生まれます。意味推測からレイアウト優先解析に移行することで、SurtitleLiveは適切な字幕キューを、適切なタイミングで提供します。

FAQ

Q: 演劇における字幕キューとは何ですか？ A: 字幕キューとは、セリフ（dialogue）が字幕表示に表示されるべき瞬間です。キュー検出には、スクリプト内の対話ブロックと話者の切り替えを識別する必要があります。

Q: システムは一貫性のない書式設定をどのように処理しますか？ A: 当社のシステムは、同様のレイアウトをクラスタリングします。ドキュメントプロファイルが変更された場合、パーサーはレイアウトセグメンテーションを実行して、戦略をリアルタイムで適応させます。

Q: 字幕のスクリプトを解析する際にレイアウトが重要なのはなぜですか？ A: 多くのスクリプトでは、構造をエンコードするために句読点の代わりにインデントと間隔を使用します。レイアウト優先パーサーは、セマンティックモデルのみよりも確実にキューを検出します。

主なポイント

現代の演劇字幕システムは、スクリプトからの正確なキュー検出に依存しています。
演劇スクリプトは、言語データよりも空間データとして解析すると、より正確です。
レイアウト優先解析は、インデント、大文字、段落スタイルなどの幾何学的属性を使用します。
3層AIモデルは、決定論的ルール、AIレビュー、AI分類を組み合わせて、信頼性の高いキュー検出を実現します。

よくある質問

演劇における字幕キューとは何ですか？

字幕キューとは、セリフが字幕表示に表示されるべき瞬間です。キュー検出には、スクリプト内の対話ブロックと話者の切り替えを識別する必要があります。

システムは一貫性のない書式設定をどのように処理しますか？

当社のシステムは、同様のレイアウトをクラスタリングします。ドキュメントプロファイルが変更された場合、パーサーはレイアウトセグメンテーションを実行して、戦略をリアルタイムで適応させます。

字幕のスクリプトを解析する際にレイアウトが重要なのはなぜですか？

多くのスクリプトでは、構造をエンコードするために句読点の代わりにインデントと間隔を使用します。レイアウト優先パーサーは、セマンティックモデルのみよりも確実にキューを検出します。

プレーンテキスト変換が字幕キュー検出の精度に影響を与えるのはなぜですか？

プレーンテキスト変換は、インデントやイタリック体などの重要なレイアウト情報を削除し、人物名（character）とセリフ（dialogue）の区別を困難にします。

用語集

スクリプト (Script): 演劇作品のテキスト。登場人物（character）のセリフ（dialogue）と舞台指示が含まれます。
キュー (Cue): 字幕またはスーパータイトルが表示されるタイミングを示す、スクリプト内の特定の時点。
登場人物 (Character): 演劇作品における役割。スクリプト内で名前で識別されます。
セリフ (Dialogue): 登場人物（character）によって話される言葉。字幕キューの主要なコンテンツです。
舞台指示 (Stage direction): 登場人物（character）の行動、設定、またはその他の非対話的な要素を説明するスクリプト内の指示。