製品 アトム音声対話SDK 用語集
Join our mailing list

音声対話用語集

A
アクロニム Acronym
頭辞語。名称の頭文字(たとえばPersonal Computer を PC とする) もしくは一連の語の頭文字やその一部(radio detection and rangingをradar、 World Wide Web ConsortiumをW3Cとする)で形成するもの。
アクロニムの展開 Acronym expansion
アクロニウム(頭辞語)をその意味する一連の語に置き換えること。 一般に、アクロニウムを読み取るTTSもしくはアクロニウムを認識するASRを支援する際などに行われる。
アクティブ文法 active grammar
その時点でアクティブなスピーチもしくはDTMF文法。 その時点で実行中のエレメント、および その時点で定義されているグラマーのスコープエレメントに基づく。
アンカーポイント Anchor-point
入力インターバルをemma:time-ref-uriで参照する際に 参照アンカーがインターバルの開始か終了かをemma:time-ref-anchorで特定すること。
アノティション Annotation
注釈。解釈される入力に関しての情報。タイムスタンプ、信頼スコア、シグナルファイルなど。
ASR (Automatic Speech Recognition)
自動音声認識。 音声発話がいかなる語句、文章、意味であるかを分析する、自動計算アルゴリズムの使用プロセス。
拡張BNFシンタックス Augmented BNF syntax (ABNF)
従来のBNF文法、および音声認識フィールドで頻繁に使用されるJSpeech文法フォーマットなど 既存のBNFと近似の表記法と類似した、音声認識文法のプレインテキスト表記(XMLでないもの)。 この拡張BNF(ABNF)をEBNF(Extended BNF。これも日本語では拡張BNFと訳されることが多い。)と 混同しないように注意が必要である。 EBNFはXMLやSGMLのDTDに使用される。ABNFは[SRGS]で規定される。
C
キャッチエレメント Catch element
ブロックもしくはその短縮されたもの。 デフォルトキャッチエレメントにはVoiceXMLインタプリタが規定するものもある。
CCXML
Call Control eXtensible Markup Language。 電話での呼制御アプリケーションを規定するマークアップ言語。 W3CのVoice Browser Working Groupが開発(http://www.w3.org/TR/ccxml/)。
CFG
Context-free grammar。W3C SRGSなどの文脈自由文法。(以下を参照のこと)。
cHTML
小型情報機器対応のコンパクトHTML。 W3Cのサイト(http://www.w3.org/TR/1998/NOTE-compactHTML-19980209/)を参照のこと。
合成入力 Composite Input
複数の要素(しばしばモードも異なる)から成る入力。 たとえば音声とペンタッチなどで作動し、 地図上の一部を○で囲み”拡大”などと読みあげる入力。
信頼値 Confidence
特定のユーザインプットに対し、正確度を数値に表したもの。
管理項目 Control Item
手続きロジックのブロック()を含むこと、 もしくは初期プロンプトを 相互主導ダイアログ()に対応させることを目的としたフォーム項目。
D
データモデル Data model
EMMAにおいて、データモデルはユーザインプットの解釈に対する制約を規定する。
誘導 Derivation
ユーザ入力の解釈はその入力によって誘導され、 高レベル解釈は低レベル解釈によって誘導され得る。 EMMAではユーザ入力や誘導されて得た解釈のリファレンスをつけることができる。 意味的解釈(semantic interpretation)を参照のこと。
ダイアログ Dialogue
ユーザとアプリケーションとの一連のやり取り。 VoiceXMLを使用してダイアログを特定することができる。
DOM
ドキュメントオブジェクトファイル(Document Object Model)。 ウェブページの内容に対するスタンダードインターフェース。 http://www.w3.org/DOM/を参照のこと。
DTMF (Dual Tone Multi-Frequency)
タッチトーンもしくはプッシュボタン式のダイヤル方式。 電話の番号ボタンを押すと高周波と低周波の 二つのトーンを組み合わせた音を発生する。
E
ECMAコンパクトプロファイル ECMA Compact Profile
ECMAScript Compact Profile ([ECMA-327]を参照) は、 電池式埋め込み機器などのパワー供給に制約を持つ機器に対応した ECMAスクリプトサードエディション の一部。
ECMA-323
コンピュータ支援電気通信アプリケーション (Computer Supported Telecommunications Applications:CSTA) の第三フェーズに対応したXMLプロトコル。 ECMA(European Computer Manufacturers Association:欧州コンピュータ製造工業会)の サイト http://www.ecma.ch/ecma1/STAND/ecma-323.htm にて規定されている。 ECMA 269に記載のCSTAサービスに対するXMLプロトコルを規定する。
ECMAスクリプト ECMAScript
欧州コンピュータ製造工業会(ECMA)が支持するJavaスクリプトのスタンダードバージョン。 [ECMASCRIPT]を参照。
終点 End point
EMMAにおいて、これはEMMAドキュメントの発信点もしくは受信点 ネットワークロケーションを指す。 ここで言う「終点」とはスピーチプロセッシングにおいて使われる終点とは異なることを 言及する必要がある。 スピーチプロセッシングにおいての終点とはスピーチ入力の終わった点を指す。
イベントバブリング Event bubbling / イベント伝播Event propagation
あるイベントがある要素もしくは関係要素に影響を及ぼすこと。 影響を及ぼされる恐れのある要素はイベントをブロックしたり、 異なるものを代用したりできる(上方イベント伝播)。 イベントはノードの起点からその親ノードへと伝播する。
イベント Event
実行プラットフォーム、VoiceXML インタプリタ文脈、VoiceXML インタプリタ、 もしくはVoiceXMLコードから”投げ”られた通知。 イベントには例外的条件(意味的エラー)、 通常エラー(ユーザが認識可能な発話をしていない)、 通常イベント(ユーザが終了を希望)がある。
実行可能コンテンツ Executable content
<block>、 <filled>、およびイベントハンドラーで発生する手続きロジック。
F
FIA (Form Interpretation Algorithm)
ユーザとVoiceXMLもしくはユーザとメニュー間の インタラクションを誘導する、VoiceXMLインタプリタ内で実行されるアルゴリズム。 Section 2.1.6 および Appendix Cを参照のこと。
フォーム Form
ユーザとコンピュータが非常に柔軟にやり取りでき、 ユーザが主導権を一部持つことができるダイアログ。
フォームアイテム変数 Form item variable
明示的もしくは姫維持的に規定された変数で、フォーム内で各フォームと関連する。 フォームアイテム変数が規定されていない場合、 フォーム解釈アルゴリズムがフォームアイテムにアクセスしユーザとのやり取りに使用する。
G
ジェスチャー Gestures
マルチモデルアプリケーションにおいて、 ジェスチャーとはユーザもしくはアプリケーションによる情報伝達行為をさす。 たとえば地図上のある部分を囲み、そこが興味のある地点であることを示す行為など。
ユーザはペン、キーの打ち込み、手などの動作、音声などでジェスチャーを起こす。 ジェスチャーは複合的なインプットの一部をなすことが多い。
アプリケーションジェスチャーはアニメーションや音声が一般的である。
文法 Grammar
あるインプットに予想される一連のトークンを述べた、一連の法則、ルール。 認識の精度を高めるため、音声もしくは手書き認識装置に使用される。
文法ドキュメント Grammar Document
[SRGS]のセクション5.2 および5.5 で規定されているXML もしくは ABNFドキュメント文法。
文法フラグメント Grammar Fragment
[SRGS]のセクション5.1で規定されているXMLフラグメント。
書記素 Grapheme
ある語句を他と区別する、文字言語における最小単位。文字、漢字、記号など。 綴りの単構成要素。
H
手書き認識 Handwriting recognition
ペンでの入力をテキストに変換するプロセス。
同形異義語 Homograph
同じ綴りだが意味の異なる語句。発音は同じ場合も異なる場合もある。 たとえばBear という綴りは(熊)、(支える、耐える)をそれぞれ意味する二つの語を指し、 またLeadは(指導する、指揮する)という語と(鉛)を意味する語の二つを指す。 [DICT] フランス語の例にfils(息子)、(糸)がある。
異形同音異義語 Homophone
発音を同じくするが異なる意味、起源、綴りを持つ語句。 英語の例ではnightとknightなど。 color と colour は同じ意味と発音を持ち、綴りが変形した語なので異形同音異義語ではなく multiple orthographies であることに注意が必要である。
ホスティング環境 Hosting environment
意味解釈のプロセッサを内包する文法プロセッサ、VoiceXMLプロセッサもしくは 他のコンピュータプログラム。
I
実行プラットフォーム Implementation platform
必要なソフトウェア・ハードウェアを備えた、 VoiceXMLに規定されたインタラクションをサポートするコンピュータ。
インク認識 Ink recognition
手書きおよびペンジェスチャーの認識を指す。
入力コスト Input cost
EMMAにおいては、入力コストとはユーザのインプットもしくはその一部に関連する 重さ、または処理コストを指す数値のこと。
入力機器 Input device
入力に使用される機器のこと。 マイク、ペン、マウス、カメラ、キーボードなど。
入力機能 Input function
EMMAにおいては入力機能とは、録音・トランスクリプション、ダイアログ、 もしくはユーザ認識などの一部として特定の入力をつかさどること。
入力アイテム Input item
入力変数を入力するためのフォームアイテム。 入力アイテムには<field>、<record>、<object>、<subdialog>およびがある。
入力媒体 Input medium
音声、映像、蝕知性などのいずれでの入力であるかを指す。 発話は音声入力、カメラが認識するジェスチャーなどは映像入力、 ペンやマウスで指すことは蝕知性入力である。
入力モード Input mode
入力媒体による入力のなされた方法を識別するもの。 発話、DTMF、インク、キーストローク、ビデオ、写真など。
入力源 Input source
入力を実行した機器。 特定のマイク、カメラなど。 EMMAではURIでこれらを特定する。
入力トークン Input tokens
EMMAにおいては、これは一連の文字、語句または個々の入力の単位を指す。
インスタンスデータ Instance data
ユーザ入力の解釈のXML表示。
インタラクションマネジャー Interaction manager
アプリケーションがどのようにユーザとインタラクションするかを規定するプロセッサ。 アブストラクションは複数レベルでありえる。 たとえば詳細レベルにおいてはどのプロンプトがユーザに示されるか、 またユーザ入力に対してどのアクションがとられるかなどが規定され、 また目標達成に必要なタスクや目標達成自体に対してはより高度なレベルで規定する。 インタラクションマネジャーは一般に事象駆動(event-driven)の性質を持つ。
国際音表文字 International Phonetic Alphabet (IPA)
国際音表文字は(IPA)は、人間の発声器官が発生させる多様な音声(単音もしくは音素)を 言語学において正確かつ一意的に表す音表文字。 すべての言語の発音に対する表記的スタンダードとされる。
解釈 Interpretation
EMMAにおいて、ユーザインプットの解釈とは、ユーザインプットから得た情報で アプリケーションにとって有意なものを指す。
J
JAVA音声文法フォーマット JSGF:Java Speech Grammar Format
プラットフォームやベンダーに依存しない、音声認識に使用される文法のテキスト表記。
JTAPI
Java Telephony API。http://java.sun.comを参照。
J
キーストローク入力 Keystroke input
ユーザが一連のキー打ち操作(もしくはボタン押し操作)で行った入力。 コンピュータのキーボード入力もしくはキーパッド入力など。
L
言語識別子 Language identifier
言語識別子は情報量を特定の人的言語バリアントとして標識化する。 言語識別子のXMLスペック[XML]を受け、 RFC 3066 コード[RFC3066]が正当な識別子を識別する。 RFC 3066 コードは言語コードを要求する。 国コードもしくはその他のサブタグ識別子はRFC 3066 コードは任意とする。
格子(ラティス) Lattice
ある特定のアークに従属したアークに直接に相互連結している一連のノード。 アクセスしたノードに再度アクセスすることはできない (i.e.有向非巡回グラフ)。 アークが語彙や文字列を示すことに関して、 ラティスは音声・手書き認識結果を示す柔軟な手段である。 ユーザが発話したり書いたりした内容に応じて、 同一のノードからの異なるアークは異なるローカル仮説を示す。
語彙素 Lexeme
言語の最小単位。語彙や語幹など。 ここでは、語彙素は語彙や成句の書記素表現および音声表現を指定するものとする。
レキシコン Lexicon
一般にはレキシコンとは語彙やフレーズのリストを指し、 リスト内の項目に関係する情報を収めていることもある。 しかしここではレキシコンとは、 語句や短いフレーズ、その表記および ASRエンジン・TTSエンジンの使用に適切な発音のマップを意味する 発音レキシコンのみを指す。 しかし文脈により「レキシコン」という語句の 意味するところが決まることに留意のこと。
リンク Link
ユーザの発話もしくは入力に合致したときに 新しいダイアログやドキュメントに転換、もしくは 既存のフォームアイテムにそのイベントを投入する一連の文法のこと。
M
メタデータ Metadata
著者、タイトル、文献の所在などに関する情報を ともなうライブラリカタログカードなどの、一連のデータを表す情報のこと。 EMMAはユーザインプット解釈のメタデータを提供することで 入力プロセッサの支援を規定する。
相互主導 Mixed Initiative
ユーザがダイアログイニチアチブをシステムと共有できる ダイアログインタラクションモデルのフォーム。 e.g.プロンプトが要求する以上の回答を与えたり、 もしくはプロンプトが指示を出さないときにタスクを切り替えたりする (システムイニチシアチブを参照)。
マルチモーダル Multimodal
エンドユーザにひとつ以上の入力もしくは出力が与えられる際の アプリケーションやインタラクションの記述。 SALTにおいては、ビジュアルインタラクションに加え音声インタラクションが 対応できる場合に利用される。
マルチモーダル統合 Multimodal Integration
合成入力の解釈を作成するため、 異なるモードからの入力を統合するプロセス。 マルチモーダルフュージョンとも言う。
マルチモーダルインタラクション Multimodal Interaction
複数のインタラクションモードのアプリケーションと ユーザが相互作用する手段。 たとえば発話、タイピング、 もしくは複数のモードの使用による合成入力などから ユーザが選択することなどを可能とする。
N
N-ベストリスト N-best list
N-ベストリストとはNを任意の整数とする、 ユーザが実際に発話もしくは書き込みをした内容に もっとも高い可能性をもつ仮定のリストのこと。 N=5の場合はもっとも高い可能性を持つ5件の仮定。
N-グラムモデル N-Gram Model
W3C確率言語モデル(N-グラム)スペックなどの確率的言語モデル (http://www.w3.org/TR/ngram-spec/を参照)。
自然言語理解 Natural language understanding
アプリケーションに効果的なようにテキストを解釈するプロセス。
NLSML
自然言語意味的マークアップ言語 (Natural Language Semantic Markup Language)を指す。 自然言語発話とそれに関する情報を表す、初期のW3Cスペック。 現在ではEMMAが代替している。
O
オブジェクト Object
VoiceXMを通して利用可能なインターフェースに応ずる、 プラットフォームによって限定される機能。
正射影法(オーソグラフィ)Orthography
語句の書き込みまたは表示に関する注釈。 正射影方にはアラブ語、ペルシア語などの言語 およびフランス語などの言語のアクセントなどに含まれる 文字コード系、ホワイトスペース(画面上表示されない文字)、 大文字と小文字の区別、付加記号などがある。
P
解析リスト・パースリスト Parse List (Flat Parse List)
パースを準するルールの線形シーケンスとしたもの。
パース Parse
発話トークンのシーケンスに対する(可能な)文法規則アプリケーションを 構造的に規定したもの。
音素 Phoneme
語句を識別可能な最小の音声単位のひとつ。 たとえば英語には40の音素(19の母音、24の子音)がある。 米語の場合、/t/ と /p/ はtin とpin を識別する音素である。
音標文字 Phonetic alphabet
英語、中国語、ドイツ語などの音声言語の音を表記した一連の記号。 発音記号。 国際音標文字 IPA (International Phonetic Alphabet)を参照。
発音レキシコン Pronunciation Lexicon
発音レキシコンとは、語句(もしくは短いフレーズ)、 その表記およびその発音をASRエンジンもしくはTTSエンジンに 適するようにマップしたものを指す。
R
未処理信号 Raw Signal
マイクで拾った音声波形などの、未解釈の入力。
リクエスト Request
データ収集には データのURI規定ドキュメントサーバ、 処理されるべき一連のネームバリューペア(任意)、 および処理へ送られる方法(任意)が含まれる。
規定(文法規定) Rule (Grammar Rule)
規定とは、その他の規定やトークンに関する可能な発話の構成を 表記したもの。
S
音声アプリケーション言語タグ Speech Application Language Tags (SALT)
既存のウェブマークアップ言語を、マルチモーダル (音声プラスその他のモダリティ)および テレフォニー(音声のみ)方式でウェブにアクセス可能にした、 近年に確立したスタンダードのこと (www.saltform.orgを参照)。
音声評価方式音標文字 SAMPA
音声評価方式音標文字 (The Speech Assessment Methods Phonetic Alphabet [SAMPA])。 国際音標文字に使用される拡張文字集合でなく ASCII文字のみを使用した音標文字。
意味解釈 Semantic Interpretation
自然言語発話の意味を表する意味的結果を生成するプロセス。
音声認識のための意味解釈  Semantic Interpretation for Speech Recognition [SISR]
自然言語発話の意味を表する意味的結果を生成するプロセスを規定する、 W3Cスペック。
意味プロセッサ Semantic processor
EMMAにおいて、意味プロセッサとは ユーザ入力の解釈を抽出するシステムを指す。 たとえば、「サンフランシスコ」という発話を エアポートコード「SFO」にマップする。
意味結果もしくは意味価値 Semantic Result or Semantic Value
ユーザ入力に含まれる情報(意味)の、 コンピュータで処理可能な表記。 ここではユーザ入力は自然言語発話である。 意味結果はここでは、情報を処理するアプリケーションに適切な情報を表記する、 比較的狭い意味で使用される。 表記にはアドホックコンベンションを使用するのが標準的である。
セッション Session
ユーザと実行プラットフォームとの間の通信を言う。 電話通話から音声応答システムへの通信など。 ひとつのセッションがひとつ以上のVoiceXMLドキュメントの解釈を 含むこともある。
信号解釈 Signal interpretation
個々の、もしくは一連の信号をアプリケーションで使用可能な記号表記に マップするプロセス。 たとえば2005を意味してユーザが発声した音声波形を 数字の2005に変換すること。
同期化マルチメディア統合言語 SMIL
同期化マルチメディア統合言語 SMIL (Synchronized Multimedia Integration Language)。 W3Cが推奨するSMIL 2.0 (スマイル2.0)は 相互作用的視聴覚アプリケーションのシンプルオーサリングに対応する (http://www.w3.org/TR/smil20 を参照)。
音声認識 speech recognition
音声の一部のテキスト転換を規定するプロセス。 The process of determining the textual transcription of a piece of speech.
音声認識文法 Speech Recognition Grammar
音声認識機の使用のため、 語彙またはフレーズの候補を表記すること。 このスペックとともに使用する音声認識文法はSRGS (文脈自由文法のための標準フォーマット)に規定されている。
音声認識文法スペック  Speech Recognition Grammar Specification [SRGS]
ASRエンジンが認識できる文法(語彙やフレーズ)を記述するために 言語を規定するW3Cスペック。
音声認識機 Speech Recognizer
自動音声認識を行うプログラムまたは機器。
音声合成マークアップ言語  Speech Synthesis Markup Language [SSML]
TTSエンジンによるテキスト表示を規定する W3C XML言語。
音声合成 Speech Synthesis
データ入力から音声出力を自動生成するプロセス。 データ入力はプレインテキスト、マークアップテキスト または二進法オブジェクトなどを含むことがある。
音声認識文法スペック  SRGS (Speech Recognition Grammar Specification)
W3C音声ブラウザグループが文脈自由音声認識文法を開発する 標準フォーマット。 ABNFフォーマットおよび XMLフォーマット はSRGSに規定される。
音声合成マークアップ言語  SSML (Speech Synthesis Markup Language)
W3C音声ブラウザグループが音声合成を開発する 標準フォーマット。
サブダイアログ Subdialog
既存のダイアログから呼び出されるVoiceXMLダイアログ(もしくはドキュメント)。 関数呼び出しに類似。
合成プロセッサ Synthesis Processor
SMLドキュメントを入力とし音声出力として表示する、 テキスト音声合成システム。
システム主導 System Initiative
システムが主導的であるダイアログ対話モデルのフォーム。 単一の回答のみがあり得る単純な質問を出すことで システムがダイアログを進行させるのが一般的 (相互主導 Mixed Initiativeも参照のこと)。
T
テーパープロンプト Tapered Prompts
人間に与えたメッセージを変更するために使用する一連のプロンプトのこと。 使用の際により簡潔にするため(フィールドプロンプト)、 もしくはより明白にするため(ヘルププロンプト)に、 プロンプトは漸減(テーパー)され得る。
テキストの音声合成 Text to Speech
テキストをそれに合致する音声に返還するプロセス。
スロー Throw
イベントを発生させる要素。
タイムスタンプ Time stamp
特定の入力もしくは入力の一部が開始もしくは完了する時間。
トークン Token
トークン(終端記号とも言う)とは、 発話され得る語句もしくはその他の構成要素を規定する文法の一部。
テキストの音声合成 TTS, Text-To-Speech, Speech Synthesis
音声合成技術を使用してテキストを音声に変換すること。
U
URI: Uniform Resource Identifier
URIとはウェブ上で使用されるネットワークにおいて オブジェクトの名称やアドレスを表現する統一的シンタックスのこと。 このスペックでは、URIは要素に対する属性として与えられる。
ユーザ入力 User input
自動的に生成されるものに対し、ユーザによって与えられる入力を指す。
V
ボイスオンリー Voice-only
エンドユーザによって音声モダリティのみが唯一のインターフェースである アプリケーションもしくはインタラクションを指す。 電話での通話シナリオなど。
ボイスXML VoiceXML
ボイスXMLは、合成音声、デジタル化音声、発話もしくはDTMFキー入力、 音声入力の録音、電話通話、相互主導会話などを特徴付ける音声ダイアログを 生成するために考案されたマークアップ言語である。 ボイスXMLはW3C音声インターフェースフレームワークの一部である。 [VOICEXML20]を参照。
ボイスXMLドキュメント VoiceXML Document
ボイスXMLドキュメントはボイスXMLスペックを確認するものである。 An XML document conforming to the VoiceXML specification.
ボイスXML解釈プログラム VoiceXML Interpreter
ユーザとのインタラクションを実行する目的で 解釈プラットフォームを支配するよう ボイスXMLドキュメントを解釈するコンピュータプログラム。
ボイスXML解釈プログラム文脈  VoiceXML Interpreter Context
ボイスXML解釈プログラムを使用してボイスXMLドキュメントを解釈する コンピュータプログラム。 ボイスXML解釈プログラムの実行プラットフォームに独自に接触することもある。
X
Xパス XPath
XMLパス言語。 W3CがXMLドキュメントの一部へのアドレスに推奨している。 http://www.w3.org/TR/xpath を参照。
XSLT
拡張スタイルシート言語変換  (Extensible Stylesheet Language Transformations)。 XML文書の変換にW3Cが推奨している。 http://www.w3.org/TR/xslt を参照。