劇本解析的幾何學:劇場字幕和提詞字幕如何偵測對白


Machine-translated article. If any wording differs, English text prevails.

現代劇場字幕系統仰賴一項關鍵能力:從劇本中準確偵測提示。

無論是為歌劇產生提詞字幕、為舞台劇產生字幕,還是為方便使用而產生即時隱藏字幕,系統都必須可靠地判斷:

  • 誰在說話
  • 一句台詞何時開始
  • 對白區塊在劇本中的位置

乍看之下,這聽起來像是自然語言處理問題。但實際上並非如此。在開發 SurtitleLive v2 期間,我們分析了來自不同語言和戲劇傳統的近 100 個劇本。這個過程讓我們得出一個令人驚訝的結論:劇場劇本主要不是語言資料。它是空間資料。

1. 西方劇本問題:沒有標點符號的結構

典型的英文劇場劇本依靠版面配置慣例而不是標點符號來定義角色。

範例:典型的舞台劇劇本版面配置

哈姆雷特
        生存還是毀滅,這是個問題。

奧菲莉亞
        我的殿下,我這裡有您的一些紀念品。

對於人類讀者來說,解釋很明顯:

區塊 解釋
哈姆雷特 角色名稱
縮排文字 對白
奧菲莉亞 角色名稱

但對於只看到純文字的解析器來說,結構消失了。我們識別這些模式是因為角色名稱以 全部大寫 顯示,對白是 縮排 的,並且區塊之間用垂直間距分隔。西方劇本的文法是排版的,而不是語言的。

2. 從劇本區塊到字幕提示

在現場演出環境中,字幕軟體不只是顯示文字。它必須將劇本轉換為一系列的 字幕提示

每個偵測到的對白區塊都會變成一個字幕提示,可以在現場演出期間觸發。如果解析器錯誤地識別了對白區塊,字幕系統將觸發錯誤的提示——這是在現場劇場中不可接受的錯誤。

3. 標點符號 vs. 版面配置:跨語言的發現

演出效果會根據語言對顯式標記與隱式標記的依賴程度而有很大差異。

中文/粵語:標點符號驅動

中文劇場劇本通常明確地編碼結構:

張三:今天下雨。 (Zhang San: It is raining today.)
李四:真的嗎? (Li Si: Really?)
(他們望向窗外) ((They look out the window.))

模式 分類
角色:台詞 (Character: Dialogue) 對白
(...) (Parentheses) 舞台指示

與西方格式相比,這種標點符號驅動的結構使解析幾乎變得微不足道。

比較解析準確度 (2026-03)

語言/格式 估計準確度 關鍵結構訊號 解析瓶頸
中文/粵語 ~100% 顯式標點符號 (角色:台詞)
日語 ~98% 穩定的引號標記 輕微的格式變化
英語 (美國/英國) ~73% 隱式版面配置結構 縮排和大寫
德語/法語 ~71% 複雜的劇場格式 模糊的區塊邊界

4. 將劇本轉換為純文字的隱藏成本

許多字幕系統透過首先將文件轉換為純文字來處理劇本,從而剝離版面配置資訊。

原始格式化的劇本:

哈姆雷特
        生存還是毀滅

轉換為純文字後: 哈姆雷特 生存還是毀滅

如果沒有縮排或區塊邊界,解析器必須依靠 語義猜測 來判斷「哈姆雷特」是角色名稱還是句子的一部分。

5. 架構轉變:版面優先解析

機器不是問「這句話是什麼意思?」,而是問:「這個文字區塊在幾何上看起來像什麼?」

透過使用來自 .docx 檔案的 OOXML 提取,我們檢索精確的版面配置屬性,例如縮排(以緹為單位測量)、大寫標誌和段落樣式。

範例:從劇本中提取的版面配置訊號

區塊 A:

  • indent = 72pt, caps_ratio = 1.0, line_length = 8
  • → 分類為角色

區塊 B:

  • indent = 36pt, caps_ratio = 0.2, line_length = 48
  • → 分類為對白

6. 舞台指示:當排版變成結構

在許多劇場劇本中,舞台指示純粹透過排版來指示——通常是 斜體

範例:排版作為結構

哈姆雷特
        生存還是毀滅。

        他停頓了一下,望向觀眾。

奧菲莉亞
        我的殿下?

區塊 解釋
哈姆雷特 角色名稱
縮排句子 對白
斜體文字 舞台指示

一旦格式消失,解析器就無法區分對白和敘述。有些劇本使用更簡潔的斜體註釋:

        停頓
        轉身離開

這些幾乎不包含任何語言提示,100% 依賴於排版樣式屬性,例如 italic=true

7. 用於可靠提示偵測的三層人工智慧模型

我們將人工智慧重新定位為審閱者,而不是猜測者:

  • 第一層 — 確定性規則: 以 100% 的準確度處理顯式格式。
  • 第二層 — 人工智慧審閱: 充當校對員,以驗證不確定的分類。
    • 範例: 哈姆雷特 (悄聲地)。系統根據文件上下文判斷「(悄聲地)」是舞台指示還是對白。
  • 第三層 — 人工智慧分類: 對於高度模糊的區域進行完整分類,並以在同一文件中其他地方找到的版面配置模式為基礎。

結論

劇場劇本看起來很簡單,但它們的意義來自空間組織。透過從語義猜測轉向版面優先解析,SurtitleLive 可以在 正確的時刻,提供正確的字幕提示。


常見問題

問:劇場中的字幕提示是什麼?
答: 字幕提示是指一行對白應出現在字幕顯示器上的時刻。提示偵測需要識別劇本中的對白區塊和角色轉換。

問:系統如何處理不一致的格式?
答: 我們的系統會群集相似的版面配置。如果文件設定檔發生變更,解析器會執行版面配置分段,以即時調整其策略。

問:在解析字幕劇本時,版面配置為何重要?
答: 許多劇本使用縮排和間距而不是標點符號來編碼結構。與單獨的語義模型相比,版面優先解析器可以更可靠地偵測提示。

重點整理

  • 現代劇場字幕系統仰賴從劇本中準確偵測提示,以顯示正確的字幕。
  • 劇場劇本主要不是語言資料,而是空間資料,版面配置慣例定義角色和對白。
  • 中文劇本通常使用標點符號來編碼結構,而西方劇本則依賴版面配置。
  • SurtitleLive 使用版面優先解析,從劇本中提取版面配置屬性,以可靠地偵測提示。

常見問題

劇場中的字幕提示是什麼?

字幕提示是指一行對白應出現在字幕顯示器上的時刻。提示偵測需要識別劇本中的對白區塊和角色轉換。

系統如何處理不一致的格式?

我們的系統會群集相似的版面配置。如果文件設定檔發生變更,解析器會執行版面配置分段,以即時調整其策略。

在解析字幕劇本時,版面配置為何重要?

許多劇本使用縮排和間距而不是標點符號來編碼結構。與單獨的語義模型相比,版面優先解析器可以更可靠地偵測提示。

SurtitleLive 如何確保準確的提示偵測?

SurtitleLive 使用三層人工智慧模型:確定性規則、人工智慧審閱和人工智慧分類,以處理不同格式的劇本並驗證分類。

詞彙表

  • 劇本 (Script): 劇場演出的文字,包含對白、舞台指示和角色。
  • 提示 (Cue): 舞台或字幕提示,指示特定動作或字幕顯示的時刻。
  • 角色 (Character): 戲劇作品中的人物,由演員扮演。
  • 版面優先解析 (Layout-First Parsing): 一種解析方法,優先分析文字的版面配置屬性,例如縮排和大寫,以識別結構。
  • 舞台指示 (Stage Direction): 劇本中描述場景、動作或角色情感的指示,通常以斜體顯示。

相關資訊