Step 1: データ収集
データ収集とは、システム開発、テスト、チューニングを目的に
自然音声言語データを収集するプロセスです。
データ収集は開発過程の当初のプロセスなので実行システムはありません。
よってユーザ(ダイアログシステムのユーザ)に知られずに
人的にダイアログシステムを擬態します
(ウィザートオブオズ The Wizard of Ozより、
これをウィザートオブオズシミュレーションと言います。
このウィザートとはカーテンの後ろにかくれた人物によるシステム擬態を指しますが、
以下、このシステム擬態をする人物をウィザードと表します)。
データ収集のツール
データ収集には二機のネットワークコンピュータが必要です。
音声発話を記録するコンピュータにアトム SDK内のデータ収集ソフトをインストールします。
ウィザードは、 記録されたユーザの音声発話を聴取、もしくは
テキストを音声に変換するシステムによる音声発話の聴取というかたちで
ユーザとインタラクションを確立します。
データ収集ソフトはウェブサーバの機能を果たし、
ウィザードからのインタラクションはすべてウェブブラウザを通して行います。
データ収集プロセスの結果:
ステップ1の結果が、ユーザとウィザードとのインタラクションのコーパスとなります。
インタラクションは保存し、そのタイムスタンプを記録します。
ログファイルはXMLフォーマットに保存し、スタンダードウェブブラウザで開けるようにします。
ユーザの音声発話は記録し、ログファイルに対応させて保存します。
記録した音声は音声認識装置の学習に、もしくはトランスクリプト後の文法開発に使用します。
ステップ1のアウトプットを参照ください。
データ収集のサポートスタンダードとAPI:
-
EMMA
-
EMMA
(Extensible MultiModal Annotation markup language)
はユーザからの入力イベントを表すのに使用します。
-
SAPI 4.0 および 5.1
-
SAPI 4.0 もしくは SAPI 5.1 対応音声合成エンジンは
ウィザードからのテキストを合成するのに使用します。
|