대본 구문 분석의 기하학: 연극 자막 및 수퍼타이틀이 대사를 감지하는 방법


Machine-translated article. If any wording differs, English text prevails.

최신 연극 자막 시스템은 대본에서 정확한 큐를 감지하는 중요한 기능에 의존합니다.

오페라 수퍼타이틀, 연극 공연 자막 또는 접근성을 위한 실시간 캡션을 생성하든 시스템은 다음을 안정적으로 결정해야 합니다.

  • 누가 말하는가
  • 대사가 언제 시작되는가
  • 대본에서 대화 블록이 어디에 나타나는가

언뜻 보기에 이는 자연어 처리 문제처럼 들립니다. 실제로는 그렇지 않습니다. SurtitleLive v2를 개발하는 동안 다양한 언어와 연극 전통의 대본 100개 가까이를 분석했습니다. 그 과정에서 우리는 놀라운 결론에 도달했습니다. 연극 대본은 주로 언어 데이터가 아니라 공간 데이터입니다.

1. 서양 대본 문제: 구두점 없는 구조

일반적인 영어 연극 대본은 역할을 정의하기 위해 구두점보다 레이아웃 규칙에 의존합니다.

예시: 일반적인 무대 대본 레이아웃

햄릿         죽느냐 사느냐, 그것이 문제로다.

오필리아         저, 전하, 전하의 물건을 가지고 있사옵니다.

사람이 읽기에는 해석이 명확합니다.

블록 해석
햄릿 등장인물 이름
들여쓰기된 텍스트 대사
오필리아 등장인물 이름

그러나 일반 텍스트만 보는 구문 분석기의 경우 구조가 사라집니다. 등장인물 이름은 모두 대문자로 표시되고, 대사는 들여쓰기되어 있으며, 블록은 수직 간격으로 구분되기 때문에 패턴을 인식합니다. 서양 대본의 문법은 언어적이지 않고 활자적입니다.

2. 대본 블록에서 자막 큐로

실시간 공연 환경에서 자막 소프트웨어는 단순히 텍스트를 표시하지 않습니다. 대본을 자막 큐 시퀀스로 변환해야 합니다.

감지된 각 대화 블록은 실시간 공연 중에 트리거할 수 있는 자막 큐가 됩니다. 구문 분석기가 대화 블록을 잘못 식별하면 자막 시스템이 잘못된 큐를 트리거합니다. 이는 라이브 연극에서 용납할 수 없는 오류입니다.

3. 구두점 대 레이아웃: 언어 간 발견

공연은 명시적 마커와 암시적 마커에 대한 언어의 의존도에 따라 크게 달라집니다.

중국어/광둥어: 구두점 기반

중국 연극 대본은 종종 구조를 명시적으로 인코딩합니다.

張三:今天下雨。 (Zhang San: 오늘 비가 내립니다.) 李四:真的嗎? (Li Si: 정말입니까?) (他們望向窗外) ((그들은 창밖을 바라봅니다.))

패턴 분류
角色:台詞 (등장인물: 대사) 대사
(...) (괄호) 무대 지시

이러한 구두점 기반 구조는 서양 형식에 비해 구문 분석을 거의 간단하게 만듭니다.

비교 구문 분석 정확도 (2026-03)

언어/형식 예상 정확도 주요 구조적 신호 구문 분석 병목 현상
중국어/광둥어 ~100% 명시적 구두점 (角色:台詞) 없음
일본어 ~98% 안정적인 인용 부호 사소한 형식 변형
영어 (미국/영국) ~73% 암시적 레이아웃 구조 들여쓰기 및 대문자
독일어/프랑스어 ~71% 복잡한 연극 형식 모호한 블록 경계

4. 대본을 일반 텍스트로 변환하는 숨겨진 비용

많은 자막 시스템은 문서를 먼저 일반 텍스트로 변환하여 레이아웃 정보를 제거하여 대본을 처리합니다.

원본 형식 대본:

햄릿         죽느냐 사느냐

일반 텍스트로 변환 후: 햄릿 죽느냐 사느냐

들여쓰기나 블록 경계가 없으면 구문 분석기는 "햄릿"이 등장인물 이름인지 문장의 일부인지 확인하기 위해 의미론적 추측에 의존해야 합니다.

5. 아키텍처 피벗: 레이아웃 우선 구문 분석

"이 문장이 무슨 뜻인가?"라고 묻는 대신 기계는 **"이 텍스트 블록이 기하학적으로 어떻게 보이는가?"**라고 묻습니다.

.docx 파일에서 OOXML 추출을 사용하여 들여쓰기(twip 단위로 측정), 대문자 플래그 및 단락 스타일과 같은 정확한 레이아웃 속성을 검색합니다.

예시: 대본에서 추출한 레이아웃 신호

블록 A:

  • indent = 72pt, caps_ratio = 1.0, line_length = 8
  • → 등장인물로 분류

블록 B:

  • indent = 36pt, caps_ratio = 0.2, line_length = 48
  • → 대사로 분류

6. 무대 지시: 활자술이 구조가 될 때

많은 연극 대본에서 무대 지시는 순전히 활자술, 즉 이탤릭체를 통해 표시됩니다.

예시: 구조로서의 활자술

햄릿         죽느냐 사느냐.

        그는 잠시 멈춰 관객을 바라본다.

오필리아         저, 전하?

블록 해석
햄릿 등장인물 이름
들여쓰기된 문장 대사
이탤릭체 텍스트 무대 지시

서식이 사라지면 구문 분석기는 대사와 내레이션을 구별할 수 없습니다. 일부 대본은 훨씬 더 최소한의 이탤릭체 메모를 사용합니다.

        잠시 멈춤         돌아서다

여기에는 언어적 단서가 거의 없으며 italic=true와 같은 활자 스타일 속성에 100% 의존합니다.

7. 안정적인 큐 감지를 위한 3단계 AI 모델

우리는 AI를 추측가가 아닌 검토가로 재배치했습니다.

  • 1단계 — 결정적 규칙: 명시적 형식을 100% 정확도로 처리합니다.
  • 2단계 — AI 검토: 불확실한 분류를 검증하는 교정자 역할을 합니다.
    • 예시: 햄릿 (조용히). 시스템은 문서 컨텍스트를 기반으로 "(조용히)"가 무대 지시인지 대사인지 결정합니다.
  • 3단계 — AI 분류: 동일한 문서의 다른 곳에서 발견된 레이아웃 패턴을 기반으로 매우 모호한 영역에 대한 전체 분류입니다.

결론

연극 대본은 단순해 보이지만 그 의미는 공간적 구성에서 비롯됩니다. 의미론적 추측에서 레이아웃 우선 구문 분석으로 이동함으로써 SurtitleLive적절한 순간에 적절한 자막 큐를 제공합니다.


FAQ

Q: 연극에서 자막 큐란 무엇입니까? A: 자막 큐는 대사가 자막 표시에 나타나야 하는 순간입니다. 큐 감지에는 대본 내에서 대화 블록과 화자 전환을 식별해야 합니다.

Q: 시스템은 일관성 없는 서식을 어떻게 처리합니까? A: 당사 시스템은 유사한 레이아웃을 클러스터링합니다. 문서 프로필이 변경되면 구문 분석기는 레이아웃 분할을 수행하여 전략을 실시간으로 조정합니다.

Q: 자막용 대본을 구문 분석할 때 레이아웃이 중요한 이유는 무엇입니까? A: 많은 대본은 구조를 인코딩하기 위해 구두점 대신 들여쓰기와 간격을 사용합니다. 레이아웃 우선 구문 분석기는 의미론적 모델만 사용하는 것보다 더 안정적으로 큐를 감지합니다.

Related Articles