Step 2: トランスクリプション
トランスクリプションは録音した音声などの音声言語ソースをテキストに打ち込むプロセスです。
トランスクリプト音声(トランスクリプションをともなう録音音声)は
音声認識装置の音響モデルの学習に使用します。
また、トランスクリプション単体は音声認識装置の言語モデルの学習、
音声認識装置のグラマー開発、発話の理解に使用します。
トランスクリプションのツール
トランスクリプションのツールは録音した音声ファイルに注釈を加えるのに使います。
注釈はログファイルに保存します。
トランスクリプションの結果:
トランスクリプションの結果が、録音した音声をトランスクリプトした段階での
ユーザとウィザードとのインタラクションのコーパスとなります。
トランスクリプションはログファイルに保存します。
トランスクリプト後のログファイルには音声対話システムの開発に必要なデータがすべて含まれ、
これらは文法開発(step 3)、
ダイアログ開発(step 4)
およびユーザビリティテスト (step 5)
に必要な各ツールに利用されます。
トランスクリプションのサポートスタンダードとAPI:
-
EMMA
-
EMMA
(Extensible MultiModal Annotation markup language)は
データ収集(step 1)で収集した
ユーザからの入力イベントを表すのに使用します。
トランスクリプションツールは、
<emma:interpretation>タグ以下に
直接トランスクリプションを挿入します。
|