説明

音声認識応答方法、音声認識応答システム、及びそのプログラム

【課題】同音意義の単語、および読みが類似する単語に対しても、これを迅速に且つ有効に識別することを可能とした音声認識応答方法、システム等を提供すること。
【解決手段】入力された音声データを音声認識装置13が認識し対応する同一の又は近似した単語データとその識別用修飾語とを、記憶部から検索して抽出し、これに基づいて音声生成出力装置16が文章形式の確認用定型文を生成、音声再生出力装置18を介して外部出力する。これに対し、話者からその内容否定の応答が入ると前記音声認識装置13及び修飾語検索装置14が他の同一の又は近似した単語データとその修飾語とを記憶部から再抽出し、これに基づいて確認用定型文が生成され、外部出力する。これに対し外部からその内容肯定の応答が入ると、入力された前記音声が認識された旨を表示する確認用定型文を前記音声生成変換装置16が生成し音声再生出力装置18を介して外部出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識応答方法、音声認識応答システム等に係り、特に、誤認識し易い短い発声の単語についてその認識率の向上を図った音声認識応答方法、音声認識応答システム、及びそのプログラムに関する。
【背景技術】
【0002】
従来より、知られている自動化された音声応答システムにあっては、電話番号や会員番号のように数字や数字列を入力させることが多い。そして、数字の認識の場合には、認識辞書を数字に絞り、似た発声、例えば1と7を間違えないように、例えば7は「しち」ではなく「なな」と発声させることで比較的認識率を高めることができた。
【0003】
一方、任意の英字や英数となると、例えば、「9」と「Q」のようにほぼ同じ発声の文字も出てくるため、認識が非常に困難であった。英字に関しては間違え易いアルファベットを認識対象(辞書)から外すことで、認識率の向上を図っていた。この種の短い単語データを対象とした音声認識に関する関連技術として、特許文献1に記載のものがある。
この短い単語データを対象とした音声認識に関する特許文献1のものにあっては、同一又は類似した単語データが多いことから、その対話式の応答に多くの時間がかかることを勘案し、誤認識時の対話処理の回数を減少させるために、類似単語テーブルを簡素化した点に特徴と有する。
【0004】
これに対して、音声認識に関する認識率向上については、誤り修正に際しての負担軽減を図った関連技術として特許文献2のものがり、又音声認識に関する関連技術として特許文献3のものがある。
【0005】
この内、特許文献2のものは、複数単語の組合せ(文節や文そのもの)の入力を必要とし、これらの単語間の組合せから類似度を判定している。又、特許文献3のものは、病院でのカウンセリングに関するもので、入力された音声を分析して話者の心理情報を抽出する音声分析工程および変換された文字情報から課題を抽出して対策案および修正対策案を作成する工程を必須の要件としている。
そして、この特許文献2,3のものは、何れも話者との応答なしに音声文の文節や文そのものを対象としてその内容分析を試みるという手法のものとなっている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2004−233691
【特許文献2】特開2007−256836
【特許文献3】特開平9−114493
【発明の概要】
【発明が解決しようとする課題】
【0007】
上述したように、従来より、例えば、数字の「1(いち)」と「7(しち)」、英字の「C(しー)」と「E(いー)」のような短い単語は、似た発声が多く、誤認識し易いことで知られている。
この現象は人対人の会話でも起こりや易いため、認識エンジンを対象とした認識精度向上という解決策には限界がある。
【0008】
又、上述した関連技術で知られている前述した特許文献文献1の音声応答システムでは、誤認識した場合、同じ単語で繰り返し数回リトライさせるため何度やっても失敗することが多い。図10に、この場合の一例を示す。
【0009】
この図10の例では、話者から「一(いち)」が音声入力された場合(ステップS401〜S402)、システムには「みち」と誤認され易い(ステップS403)。
これに対して、システムは、話者の「いいえ」(ステップS404)に対して再発声を促し(ステップS405)、話者から再び「いち」が音声入力され(ステップS406)、システムはこれを又「みち」と誤認し(ステップS407)、話者に対する確認後の「いいえ」に対して(ステップS408)、システムは認識失敗を音声出力する(ステップS409)。
【0010】
一方、これとは別に、認識結果が複数あった場合、候補を順に復唱し、確認させる手法もある。しかしながら、復唱している音声合成が聞き取りにくい場合や、例えば、数字の9と英字のQのように同音の場合は、機器による認識若しくは確認が、事実上困難なものとなっている。図11に、この場合の例を示す。
【0011】
この図11の場合は、話者の音声入力「いち」に対して(ステップS501〜S502)、システムが「みち」と認識した場合を示す(ステップS503)。更に、話者の応答「いいえ」(ステップS504)に対して、システムが「いち」と認識したのに(ステップS505)、話者が「いいえ」と誤認した場合(聞き取れなかった)を示す(ステップS506)。この場合も、システムは認識失敗を音声出力して終了する(ステップS507)。
このように、前述した関連技術にあって短い単語の認識では、似た発声が多いことから、誤認識し易いという不都合があった。
【0012】
これに対して、前述した各特許文献2,3に開示された技術は、何れも、音声文の文節や文そのものを対象として、その内容分析を試みるという手法のものであり、上述した短い単語でしかも似た発声が多い音声データの認識および識別に対しては、何らの解決策も開示されておらず、何ら対処し得ないものとなっている。
【0013】
〔発明の目的〕
本発明は、上記関連技術の有する不都合を改善し、同音意義の単語、および読みが類似する単語に対しても、これを迅速に且つ有効に識別することを可能とした音声認識応答方法、音声認識応答システム、及びそのプログラムを提供することを、その目的とする。
【課題を解決するための手段】
【0014】
上記目的を達成するため、本発明にかかる音声認識応答方法では、
外部から送り込まれる単語の音声を音声入力装置が音声データに変換して入力し、
この入力された音声データを音声認識装置が認識すると共に当該音声データに対応する同一の又は近似した単語データとその識別用の修飾語とを、前記音声認識装置及びこれに併設された修飾語検索装置が予め設定された記憶部からそれぞれ別々に検索して抽出し、 次に、この抽出された単語およびその識別用の修飾語に基づいて音声生成出力装置が文章形式の確認用定型文を生成し音声再生装置を介して外部出力し、
この外部出力された確認用定型文に対して外部からその内容を否定する応答が入力された場合に機能して前記音声認識装置及び修飾語検索装置が他の同一の又は近似した単語データとその識別用の修飾語とを前記記憶部からそれぞれ再抽出すると共に、
この再抽出された前記各単語データとその識別用の修飾語とに基づいて前記音声生成出力装置が再び確認用定型文を生成した後、音声再生出力装置を介して外部出力し、
前記確認用定型文に対して外部からそれを肯定する応答が入力された場合に機能し、前記入力された前記音声が認識された旨を表示した確認用定型文を前記音声生成変換装置が生成し音声再生出力装置を介して外部出力するようにしたことを特徴とする。
【0015】
又、上記目的を達成するため、本発明にかかる音声認識応答システムでは、
外部から送り込まれる単語の音声を音声データに変換し入力する音声入力装置と、この入力された音声データと同一又は近似した一又は二以上の単語データを予め設置された記憶部としての認識単語辞書を検索して抽出する音声認識装置と、この音声認識装置で抽出された前記音声データに対応する単語データを予め記憶されている文章形式の定型文に当てはめる音声生成変換装置と、この音声生成変換装置で生成出力される文章形式の音声データを音声に変換し外部出力する音声再生出力装置とを備え、
前記音声再生出力装置から外部出力された文章形式の音声データに対する肯定又は否定の音声が前記音声入力装置に外部入力された場合に、前記音声認識装置がこれに対処して所定の音声データ処理を実行する音声認識応答システムであって、
前記音声認識装置と音声生成変換装置との間に、前記単語データに直接関係する関連度の高い修飾語データが予め格納された記憶部としての修飾関係辞書を検索して関連度の高い順に前記修飾語データを抽出する修飾語検索装置を介装し、
前記音声生成変換装置が、前記修飾語検索装置で抽出された関連度の高い修飾語データを対応する前記単語データと合成して修飾語付定型文を生成し外部の話者との応答用として出力する修飾語合成出力機能を備えていることを特徴とする。
【0016】
更に、上記目的を達成するため、本発明にかかる音声認識応答プログラムでは、
音声入力装置を介して外部から入力される音声データを認識すると共に当該音声データに対応する同一又は近似した単語データを予め装備された認識単語辞書を検索して抽出する単語データ抽出処理機能、 前記単語データに付される前記音声データ識別用の修飾語を予め設定された修飾関係辞書を検索して抽出する修飾語抽出処理機能、 この抽出された単語データおよびその識別用の修飾語に基づいて文章形式の確認用定型文を生成する確認用定型文生成処理機能、 及びこの生成された確認用定型文を音声再生出力装置を介して確認用として外部出力する定型文出力制御処理機能、を有し、
この外部出力された確認用の定型文に対して外部からその内容を否定する応答が前記音声入力装置を介して入力された場合に機能して、前記音声データに対応する他の同一又は近似した単語データとその識別用の修飾語とを前記単語データ抽出処理機能および修飾語抽出処理機能を稼働させて前記認識単語辞書および前記修飾関係辞書からそれぞれ再抽出すると共に当該再抽出された単語データとその識別用の修飾語とに基づいて再び前記確認用定型文を生成する再抽出生成機能、 この再抽出され生成された確認用の定型文を音声再生出力装置を介して外部へ再出力する定型文再出力制御処理機能、を備え、
前記確認用の定型文に対して外部からそれを肯定する応答が入力された場合に機能して前記入力された前記音声が認識された旨を表示した確認用定型文を生成し音声再生出力装置を介して外部出力する応答確認処理機能を設け、
これらの各処理機能を、コンピュータに実行させるようにしたことを特徴とする。
【発明の効果】
【0017】
本発明は、上述したように構成したので、これによると、「修飾語+単語」の限定した状態の組み合わせ文を復唱して外部出力することができるので、これに対する話者の応答もより明確なものとなり、これがため、同音意義の単語及び読みが類似する単語に対しても、修飾語が有効に機能して、これを効率よく識別することが可能となるという他に類をみない優れた音声認識応答方法、音声認識応答システム、及びそのプログラムを提供することができる。
【図面の簡単な説明】
【0018】
【図1】本発明の第1実施形態を示すブロック図である。
【図2】図1の第1実施形態に開示した記憶部としての辞書に格納された単語又は修飾語のサンプルを示す図で、図2(A)は認識単語辞書に格納された単語の辞書サンプルの例を示す図表、図2(B)は修飾関係辞書に格納された修飾語の辞書サンプルの例を示す図表である。
【図3】図1に開示した第1実施形態の動作時における話者との音声認識応答の流れを示す説明図である。
【図4】図1に開示した認識単語辞書中の国語辞書領域における単語データの抽出例とその修飾語として関連度の例を示す説明図である。
【図5】図1に開示した認識単語辞書中の国語辞書領域における単語データの記載例を示す説明図である。
【図6】図1に開示した修飾関係辞書の関連度の使用例を示す説明図である。
【図7】本発明の第2実施形態を示すブロック図である。
【図8】図7中に開示した音声認識装置の機能の例を示す説明図である。
【図9】図7中に開示した第2実施形態の動作時における話者との音声認識応答の流れを示す説明図である。
【図10】関連技術にて実行される音声認識に際しての話者との音声認識応答の流れ(リトライパターンの場合)を示す説明図である。
【図11】関連技術にて実行される音声認識に際しての話者との音声認識応答の流れ(単語パターンが複数の場合)を示す説明図である。
【発明を実施するための形態】
【0019】
〔第1の実施形態〕
以下、本発明にかかる音声認識応答システムの第1実施形態を、図1乃至図6に基づいて説明する。
【0020】
(構成)
本第1実施形態における音声認識応答システムでは、予め、短い単語とその単語を修飾する単語の関連付け情報を用意しておく。短い単語の認識候補が複数あった場合、外部に居る話者に対しては、「修飾語+短い単語」の組み合わせを復唱し、「はい」又は「いいえ」の何れかの確認を促す。そして、話者からの返事が「いいえ」の場合は、第二候補の「修飾語+短い単語」の組み合わせを復唱するように構成した点に特徴を有する。
【0021】
図1において、音声認識応答システム10は、外部から送り込まれる単語の音声を音声データに変換し入力する音声入力装置11と、この入力された音声データと同一又は近似した一又は二以上の単語データを予め設置された記憶部としての認識単語辞書13Aを検索して抽出する音声認識装置13と、この音声認識装置13で抽出された前記音声データに対応する単語データを、予め記憶されている文章形式の定型文に当てはめる音声生成変換装置16と、この音声生成変換装置16で生成出力される文章形式の音声データを音声に変換し外部出力する音声再生出力装置18とを備えている。
【0022】
そして、音声再生出力装置18から外部出力された文章形式の音声データに対してこれを認識した話者から、その内容の肯定(例えば「はい」)又は否定の音声(例えば「いいえ」)が音声入力装置11に入力された場合には、前述した音声認識装置13がこれに対処して所定の音声データ処理を実行するように構成されている。
【0023】
音声認識装置13と音声生成変換装置16との間には、前述した単語データに直接関係する関連度の高い修飾語データが予め格納された記憶部である修飾関係辞書14Aを検索して関連度の高い順に前記修飾語データを抽出する修飾語検索装置14が介装されている。
【0024】
又、前述した音声生成変換装置16は、修飾語検索装置14で抽出された関連度の高い修飾語データを対応する前述した単語データと合成して修飾語付定型文を生成し、これを外部に存在する話者との応答用として出力する修飾語合成出力機能を備えている。
【0025】
ここで、前述した音声生成変換装置16は、修飾語検索装置14で抽出された関連度の高い修飾語データとこれに対応する前記単語データとを合成して修飾語付定型文を生成する文章生成手段16Aと、この生成された修飾語付定型文を音声データに変換して出力する音声変換手段16Bとを備えて構成されている。
【0026】
又、前述した記憶部としての認識単語辞書13Aには、図2(A)に示すように、一つの単語に対して、その読みが同一となる複数の単語、及び前記一の単語とその読みが近似した複数の単語が、それぞれ予め検索可能に格納されている。この認識単語辞書13Aには、前記一つの単語に対して、後述するように、単語ID(単語識別子)と、単語の表記と、読み及び品詞とが一行となって関連づけられて格納されている。これにより、何れからでも確実に検索可能に格納されている。
【0027】
更に、上述した記憶部としての修飾関係辞書14Aには、図2(B)に示すように、各単語の読みに対応した関連度の高い複数の修飾語が、予め関連度が付されて検索可能に格納されている。
即ち、この修飾関係辞書14Aに格納された検索用の複数の各単語には、例えば、予めその識別記号である単語IDと、前述した認識単語辞書13Aに格納された関連する各単語の単語IDと、その関連度の度合いを表した数値とが付されており、これにより何れからでも検索可能に格納されている。ここで、関連度の数字は、大きい数字ほど関連性が近いことを意味している。
【0028】
前述した音声認識装置13は、音声再生出力装置18からの修飾語付定型文の音声データ出力後に、これを受けた話者からの応答として音声入力装置11に入力される音声データが、前述した修飾語付定型文の記述内容を肯定する内容か否定する内容かを判定する可否判定機能を備えている。
【0029】
又、前述した修飾語検索装置14は、音声認識装置13の可否判定機能の実行によって否定判定が出された場合に、これに基づいて作動し前述した音声データの修飾語付定型文の修飾語部分を前記関連度の値の次に高い値のものを選択して出力する機能を有している。
【0030】
この否定判定が出された場合に連動して、前述した音声生成変換装置16は、修飾語検索装置14で抽出された関連度が次に高い修飾語データと前述した否定判定にかかる単語データとを合成して修飾語付定型文を形成してこれを再出力する再合成出力機能を備えている。
【0031】
これに対して、音声認識装置13の可否判定機能の実行によって肯定判定が出された場合、これに連動して前述した音声生成変換装置16は、音声認識装置13による肯定判定に基づいて作動し前記音声データにかかる単語データが認識されたことを示す定型文として当該単語データを含む認識定型文を生成し変換出力する認識定型文出力機能を備えている。
【0032】
この場合、認識された単語データは音声認識装置13から後述するテキストデータ格納装置15を介して音声生成変換装置16へ送り込まれるようになっている。同時に、この認識された単語データは、前述した音声データ格納装置12に格納された後、認識単語データ出力制御部20Aによって必要とするデータ処理装置(図示せず)へ送出されるようになっている。
【0033】
前述した修飾語検索装置14には、音声識別装置13で選択抽出される単語データと修飾語検索装置14にて抽出された修飾語データとをテキストデータとして一時的に記憶するテキストデータ格納装置15が併設されている。
そして、前述した音声生成変換装置16では、このテキストデータ格納装置15に格納された単語データとこれに対応する修飾語データとを対象として、前述した修飾語合成出力機能を実行するように構成されている。
【0034】
又、前述した音声入力装置11と音声識別装置13との間には、前述した音声入力装置11で受信される音声情報を記憶する音声データ格納装置12が介装されている。
この音声データ格納装置12は、その一部が、前述した音声再生出力装置18と音声生成変換装置16との間にも介装され、前述した音声情報の記憶領域とは異なった記憶領域で、音声生成変換装置16から出力される音声データを記憶する機能を備えている。
【0035】
符号20は、上記各構成要件の各部がその機能を有効に且つ円滑に実行し得るように制御する主制御部を示す。又、前述した音声データ格納装置12には認識単語データ抽出制御部20Aが併設されており、この認識単語データ抽出制御部20Aを介して前記認識単語データは外部処理用としても外部出力されるようになっている。
【0036】
ここで、上述した本第1実施形態の各構成要素を、更に具体的に説明する。
音声を再生出力する音声再生出力装置18は、音声データ格納装置12から音声データを読み込み再生するためのもので、例えば増幅器を備えたスピーカで構成されている。
この音声を再生出力する音声再生出力装置18は、電話網経由で相手先電話機のスピーカに対して音声データを送出するように構成したものであってもよい。
【0037】
この音声再生出力装置18に送り込まれる再生可能な音声データは、予め音声データ格納装置12に格納した音声データか、テキストを音声データに変換する音声データ変換手段16Bで作成された音声データのどちらであってもよい。
【0038】
外部の話者から音声を入力する音声入力装置11は、マイクそのものか、或いは電話網経由で相手先電話機のマイクから受信した音声を音声データに変換する手段から成り、かかる状態で得られた音声データを音声データ格納装置12に送り込む機能を有する。
【0039】
音声認識装置13は、音声入力装置11が音声データ格納装置12に格納した音声データを解析し、近い発声の単語及び単語の属性を認識単語辞書13Aから取得する機能を備えている。この場合、似た発声が複数ある場合は、優先度(スコア)をつけた上で複数の単語についてその属性を認識単語辞書13Aから取得する機能を備えている。
【0040】
この認識単語辞書13Aは、前述したように、単語ID、表記、よみ、品詞にかかる各情報が予め記憶されている。この内、本実施形態では、単語IDは一位の番号、表記は単語の表記、よみは単語の読み、品詞は単語の品詞が、それそれ設定されている。
【0041】
前述した修飾関係辞書14Aから単語データに対応した修飾語を検索し取得する修飾語検索装置14は、音声認識装置13で取得された単語を優先度の高い順にならべ、それぞれの単語に対し、修飾関係辞書14Aから関連度の高い修飾語を取得し、テキストデータ格納装置15に「修飾語+短い単語」の形式で格納する機能を備えている。
【0042】
ここで、修飾関係辞書14Aは、単語ID、関連単語ID、関連度に関する三つの情報が予め記憶されている。この内、本実施形態では、単語IDは修飾語の単語ID、関連単語IDは被修飾語の単語ID、関連度は二つの単語が同義である程高い数値が、それぞれ設定されている。
【0043】
更に、話者に対して音声データを発信するための文章を生成する文章生成手段16Aは、予め設定された定型の文字列とテキストデータ格納装置15に格納された非定型の文字列を組み合わせて音声合成する。この文章生成手段16Aで生成された文章は、音声変換手段16Bを介して音声再生出力装置18へ送られ、この音声再生出力装置18から再生出力されるようになっている。
【0044】
(第1実施形態の動作)
次に、上記第1実施形態の動作について説明する。
先ず、外部の話者から送り込まれる認識用の単語の音声は、音声入力装置11を介して音声データに変換され入力される(音声データ入力工程)。
【0045】
次に、この入力された音声データは音声データ格納装置12に記憶され、続いて音声認識装置13によって認識される。同時に、この音声認識装置13は、この音声データに対応する同一の又は近似した単語データを、予め設定された記憶部である認識単語辞書13Aを検索して抽出し、この抽出された一又は2以上の単語データを優先度を決めて修飾語検索装置14へ送る(単語データ検索抽出工程)。
【0046】
修飾語検索装置14では、これを受けて直ちに作動し単語データに対応した識別用の修飾語を予め設定された記憶部である修飾関係辞書14Aを検索して抽出し(修飾語検索抽出工程)、この抽出された単語と共にその識別用の修飾語をテキストデータ格納装置15へ送り込んで格納する。
【0047】
続いて、このテキストデータ格納装置15に格納された単語およびその識別用の修飾語は、音声生成出力装置16に取得される。この音声生成出力装置16では、まず、文章生成手段16Aが作動し、送り込まれた単語データおよびその識別用の修飾語に基づいて文章形式の確認用定型文を生成する(確認用定型文生成工程)。
【0048】
続いて音声変換手段16Bが作動し、当該確認用定型文を音声データに変換して音声データ格納装置12へ格納し、続いて、音声再生出力装置18が作動して当該格納された確認用定型文は外部の話者に対して音声応答用として音声出力される(応答用音声出力工程)。
【0049】
次に、この外部出力された確認用定型文に対して外部の話者からその内容を否定する応答が音声入力装置11を介して入力された場合に機能し(否定応答入力工程)、前記音声認識装置13及び修飾語検索装置14が前記確認用定型文にかかる単語と同一の又は近似した単語データとその識別用の修飾語とを前記各記憶部からそれぞれ順次再抽出する。
そして、この再抽出された前記各単語データとその識別用の修飾語とに基づいて前記音声生成出力装置16が再び確認用定型文を生成した後、音声再生出力装置18を介して外部出力する(確認用定型文出力工程)。
【0050】
この外部出力に対して又は最初の確認用定型文の音声出力に対して、外部の話者からそれを肯定する応答が入力された場合に機能し(肯定応答入力工程)、前記入力された前記音声が認識された旨を表示した確認用定型文を、前記音声生成変換装置16が生成し音声再生出力装置18を介して肯定応答に対する音声応答用として外部出力される(確認用定型文出力工程)。
【0051】
ここで、前述した単語データとその識別用の修飾語とを記憶部から抽出するに際しては、上述したように、単語データが予め記憶された一方の記憶部(認識単語辞書13A)から先ず単語データを抽出し、これに基づいて他方の記憶部(修飾関係辞書14A)からその識別用の修飾語を検索し抽出する。
又、識別用修飾語の抽出に際しては、本実施形態では予め設定された関連度の大きい修飾語から順次選択し抽出するようにした。
【0052】
次に、上記動作内容を、図3に基づいて更に具体的に説明する。
ここで、音声入力装置11は、電話器のマイクロホンを介して通話する先方の通話相手(話者)を対象とするように構成されているものとする。
【0053】
最初に、音声データ格納装置12に予め格納されている対話開始の音声データを、話者(本システムに対して電話をかけてくる話者)に送信する。
例えば、話者に対して、音声再生出力装置18から「単語を発生して下さい」と発信し、通話相手に対して、音声による入力を促す(ステップS101)。
【0054】
これに対して、話者は「いち」という発声をしたとすると、その話者の「いち」なる発声音は音声入力装置11から取り込まれて音声データに変換され、音声データ格納装置12に格納される(ステップS102)。
【0055】
次に、音声認識装置13が音声データ格納装置12に格納された音声データを解析し、図2に示す認識単語辞書13A内のサンプルから候補となる同一の単語データ「一(単語IDの「1」、読みの「いち」)」と近似した単語データ「道(単語IDの「2」、読みの「みち」)」とを抽出する。この場合、優先度は「道」、「一」の順とする。
【0056】
続いて、修飾語検索装置14では、修飾関係辞書14Aを参照し、「道(単語ID:「2」)」と最も関連の高い「道路(単語IDの「5」)」と、「一(単語IDの「1」)」と最も関連の高い「一つ(単語単語IDの「4」)」を選択し取得する。
【0057】
それぞれの関連語が同じ単語だった場合は、次に、関連度の高い単語を取得する。
例えば、図6に示すように、認識単語の候補が「いち」と「しち」それぞれの関連語が「数字」で一致した場合、復唱しても「いち」と「しち」の判別ができない。このため、次に関連度の数値が高い関連語を、選択する。
【0058】
この場合、修飾語検索装置14は、「道(単語IDの「2」)」と最も関連の高い「道路(単語IDの「5」)」を選択し、テキストデータ格納装置15に格納する。
一方、「しち」については、関連度の高い「数字」が一致するため、次に関連度の高い「ひとつ」「なな」が選択されるように組み込まれている(図6参照)。
【0059】
ここで、効果的な修飾関係辞書の構築についてその一例を開示する。
例えば、意味のある単語の場合は、図4乃至図5に示すように、国語辞書や類義語辞書を利用して、予め準備された関連する単語を抽出するようにする。図4に、その場合の一例で、先ず、「いち」なる音声の入力に対して図5に示す国語辞書から複数の単語「数」「一つ」を抽出した場合を示す(図4:ステップS201)。この場合、抽出した単語「数」「一つ」について国語辞書で調べる(図4:ステップS202)。複数の単語が見いだされた場合、相互に同じ意味を有するか否かを特定し関連度を決める(図4:ステップS203)。
【0060】
一方、意味のない文字、例えば漢字の場合には、読み又は部首を修飾語として予め登録するとよい。例えば「ロウ」とういう漢字を認識した際に「郎」と「朗」の候補があった場合、「『ほがらか』の『ロウ』でよろしいですか?」「『おおざと』の『ロウ』でよろしいですか?」といった復唱が可能となる。又、ひらがな1文字の場合は、「『あいうえお』の『あ』でよろしいですか?」、「『カ行二段』の『い』でよろしいですか?」といった修飾語を登録するようにするとよい。
【0061】
説明を元に戻す。
次に、文章生成手段16Aは、テキストデータ格納装置15からテキストデータを定型文にあてはめて「『道路』の『みち』でよろしいですか?」という文章を生成する。
【0062】
次に、音声変換手段16Bが作動し、この文章生成手段16Aで生成された文章を音声データに変換し、音声データ格納装置12に格納する。
そして、最後に、音声再生出力装置18が作動して音声データ格納装置12に格納された音声データ「『道路』の『みち』でよろしいですか?」を出力し、受話器を介して話者に送信する(ステップS103)。
【0063】
このステップS103の処理に続いて、話者から「いいえ」という発声が送られてきた場合、音声入力装置11は話者の「いいえ」という発声を音声データに変換し、音声データ格納装置12に格納する(ステップS104)。
続いて、音声認識装置13が音声データ格納装置12に格納された音声データを解析し、この「いいえ」を認識する。
【0064】
次に、音声認識装置13の「いいえ」の認識に対応して修飾語検索装置14が作動し、「道」の次に優先度の高かった「一(単語IDの1)」と最も関連の高い「一つ(単語IDの4)」をテキストデータ格納装置15に格納する。
この修飾語検索装置14の格納動作に続いて、文章生成手段16Aが作動し、テキストデータ格納装置15からテキストデータを定型文にあてはめて、「『一つ』の『いち』でよろしいですか?」という文章を生成する。
【0065】
次に、音声変換手段16Bは、文章生成手段16Aで生成された文章を入力して音声データに変換し、音声データ格納装置12に格納する。
そして、最後に、音声再生出力装置18が音声データ格納装置12に格納された音声データ「『一つ』の『いち』でよろしいですか?」を出力し、受話器を介して話者に送信する(ステップS105)。
【0066】
このステップS105の処理に続いて、話者から「はい」という発声が送られてきた場合、音声入力装置11は話者の「はい」という発声を音声データに変換し、音声データ格納装置12に格納する(ステップS106)。
続いて、音声認識装置13が音声データ格納装置12に格納された音声データを解析し、この「はい」を認識し特定する。
【0067】
次に、修飾語検索装置14は、音声認識装置13の認識結果を受けて「一(単語IDの1)」を最終認識結果と判断し、このテキストをテキストデータ格納装置15に格納する。続いて、文章生成手段16Aが作動し、テキストデータ格納装置15からテキストデータを定型文に当てはめて、「『いち』を認識しました」という文章を生成する。
【0068】
次に、音声変換手段16Bは、上記文章生成手段16Aで生成された文章を音声データに変換し、音声データ格納装置12に格納する。
そして、最後に、音声再生出力装置18が作動して音声データ格納装置12に格納された音声データ「『いち』を認識しました」を出力し、受話器を介して話者に送信する(ステップS107)。
【0069】
尚、前述した音声データ格納装置12には認識単語データ抽出制御部20Aが併設されており、この認識単語データ抽出制御部20Aを介して前記認識単語データは外部処理用として外部出力されるようになっている。
【0070】
ここで、上記実施形態の各動作にあって、各処理工程で各構成要素が実行する実行内容をプログラム化しコンピュータに実行させるように構成してもよい。
【0071】
〔第1実施形態の効果〕
本第1実施形態は、上述したように構成され動作するので、これによると、単語の認識に際しては、外部に居る話者に対して「修飾語+単語」の組み合わせを復唱し、「はい」又は「いいえ」の何れかの確認を促すようにし、そして、話者からの返事が「いいえ」の場合は、他の候補(第二候補)の「修飾語+短い単語」の組み合わせを復唱するようにしたので、「修飾語+単語」の限定した状態の組み合わせ文が復唱されて外部出力されることから、これに対する話者の応答もより明確なものとなり、これがため、同音意義の単語及び読みが類似する単語に対しても、修飾語が有効に機能して、これを話者は効率よく識別することが可能となるという他に類をみない優れた効果を得ることができる。
【0072】
即ち、本第1実施形態によると、単語を誤認識する可能性を大幅に減らすことが可能となるり、復唱時に生じる話者側のミス、つまり音声応答システムが誤認識した結果を復唱しているにも係わらず話者が正しいと聞き間違える可能性、も同時に防ぐことができる。 この場合、本第1実施形態にあっては、修飾関係辞書に対して単語との関連性および一意性が高い修飾語を登録するほど、その認識効果を高め且つ処理時間を少なくすることが可能となっている。
【0073】
〔第2の実施形態〕
次に、本発明の第2実施形態を図7乃至図9に基づいて説明する。
ここで、前述した第1実施形態における音声認識応答システムと同一構成部材については同一の符号を用いることとする。
【0074】
この第2の実施形態では、図1に示す前述した第1の実施形態における音声認識装置13の音声データ入力段に構文解析手段を装備した点に特徴を有する。
具体的には、前述した図1に示す音声データ格納手段12と音声認識装置13との間に、前述した外部からの応答が修飾語を含む文章形式の応答であった場合に機能し当該応答内容の文章形式の構文を解析して特定の音声データとその修飾語データとこれらを連結する用語とに分ける構文解析手段23Aを装備した。
【0075】
更に、この第2実施形態では、図1に開示した音声認識装置13に代えて、前述した構文解析手段23Aに対応して動作し得る機能を備えた音声認識装置23を採用した点に特徴を有する。
【0076】
この音声認識装置23は、前述した図1に開示した音声認識装置13と同等の機能を有するほか、更に構文解析手段23Aから送られてくる特定の音声データとその修飾語データとを認識すると共に、当該認識され修飾語とこの修飾語で限定された特定の音声データに基づいて前記音声データに対応する単語データを検索し抽出する単語データ限定抽出機能を備えている。
その他の構成は前述した第1実施形態と同一となっている。
【0077】
次に、この第2実施形態の動作を説明する。
前述した第1実施形態にあって、音声再生出力装置18から出力された確認用定型文に対する外部(話者)からの応答が修飾語を含む文章形式の応答であった場合、音声入力装置11はこれを入力し音声データに変換して音声データ格納装置12に格納する。
【0078】
次に、この修飾語を含む文章形式の応答データが音声データ格納装置12に格納されると、直ちに構文解析手段23Aが機能して当該応答内容の文章形式の構文を解析し、特定の音声データとその修飾語データとこれらを連結する用語とに分ける動作を実行する。
【0079】
続いて、この解析され特定された音声データとその修飾語データとに基づいて前記音声認識装置23の単語データ限定抽出機能が機能して、当該特定の音声データに対応する単語データを記憶部(認識単語辞書13A)を検索し、特定の音声データを抽出する。
【0080】
これを図9に基づいて更に具体的に説明する。
この第2実施形態にあって、先ず、音声再生出力装置18から例えば「単語を発声して下さい」なる文章が出力されると(ステップS301)、これに応答して話者から、例えば「きゅう」が発声され入力されと場合を想定する(ステップS302)。この場合、音声再生出力装置18からは前述した第1実施形態の場合と同様に各部が機能して「『アルファベットのQ(きゅう)』でよろしいですか?」が出力される。即ち、「修飾語+単語」の組み合わせ文の復唱(出力)される(ステップS303)。
【0081】
これに対し、話者からの返事として、「はい」「いいえ」だけでなく例えば「数字」又は「数字のきゅー」なる「修飾語」又は「修飾語+単語」の組み合わせが入力されると(ステップS304)、上述したように直ちに構文解析手段23Aが機能して「単語(名詞)」+「の」+「単語」、「単語(形容詞、形容動詞)」+「単語」の構文解析、及び2つの単語認識が実行される。
【0082】
そして、修飾語検索装置14は、例えば音声認識装置23で認識された2つの単語が修飾関係(単語IDと関連単語ID)として登録されている単語を、認識結果として選択し、これを受けて音声生成変換手段1で生成された「『数字の9(きゅう)』でよろしいですか?」が音声再生出力装置から再び出力される(ステップS305)。即ち、「修飾語+単語」の組み合わせ文が復唱(出力)される。
【0083】
これに対して、話者から「はい」なる音声が入力されると(ステップS306)、前述した第1実施形態の場合と同様にシステム全体が対応して音声再生出力装置から「『きゅう』を認識しました」が出力され(ステップS307)、一連の単語認識動作が完了する。
【0084】
このようにすると、候補が複数あったとしても話者からの返事を1回受け付けるだけで認識結果を1つに絞ることが可能となる。
尚、ここで、音声認識装置23では、「修飾語+単語」の組み合わせが入力された場合に、「単語」だけを取り出して、以下前述した第1実施形態の場合と同様に当該単語データ処理(音声データ処理)を実行するように構成してもよい。
その他の構成およびその作用効果は、前述した第1実施形態と同様となっている。
【0085】
本発明にかかる第1実施形態は、上述したように、発声が似ている短い単語に対して対応する修飾語を図2(A)(B)のような形式の関係を予め登録しておき、単語認識の結果を復唱する際に、自動的に「修飾語」+「単語」の形式で情報を付加し、発話者に確認を求めるようにした。このため、単語の認識間違いを有効に軽減することができる。
【0086】
又、上記各実施形態では、図2(B)に示すように、記憶部としての修飾関係辞書14Aを設け、一つの単語(被修飾語)に対し複数の修飾語を用意し、関連度を設定した(数値が大きい程関連度は高い)。更に、単語の修飾語を修飾関係辞書14Aから取得する際には、関連度が最も高い単語を選択するようにした。同時に、単語認識結果の候補が複数あり、各候補の修飾語が一致する場合には、それぞれ、次に関連度の高い修飾語を修飾関連辞書14Aから取得する方式を採用した。このため、単語の認識間違いを更に有効に軽減することができる。
【0087】
そして、更に、第2実施形態では、話者に対する単語認識結果の復唱に対して、「はい」,「いいえ」だけでなく、「修飾語」又「修飾語+単語」の形式の発声を受け付けるように構成したので、音声認識装置13では構文解析手段23Aで構文解析された短い単語と修飾語の二つの単語を認識し、修飾語検索装置14では音声認識装置13で認識された二つの単語が修飾関係(単語IDと関連単語ID)として登録されている単語を選択するようにした。このため、単語の認識間違いを更に有効に軽減することができる。
【0088】
このように、上記各実施形態にあっては、入力される短い単語の音声データに対してその識別処理を有効に実施し得るようにし、特に「修飾語+単語」の限定した状態の組み合わせ文を復唱して外部出力するようにしたので、これに対する話者の応答がより明確なものとすることができ、これがため、同音意義の単語及び読みが類似する単語に対しても、修飾語が有効に機能してこれを効率よく識別することが可能となるという他に類をみない優れた音声認識応答方法、音声認識応答システム、及びそのプログラムを得ることができる。
【産業上の利用可能性】
【0089】
本発明にかかる音声認識応答システムは、短い単語の音声認識、例えば数字、英字、ひらがな、漢字1文字、同音異義の単語等で、その認識を必要とする多くの分野で、それを有効利用することができる。
【符号の説明】
【0090】
10 音声認識応答システム
11 音声入力装置
12 音声データ格納装置
13,23 音声認識装置
13A 記憶部としての認識単語辞書
14 修飾語検索装置
14A 記憶部としての修飾関係辞書
15 テキストデータ格納装置
16 音声生成変換装置
16A 文章生成手段
16B 音声変換手段(音声データ変換手段)
18 音声再生出力手段
20 主制御部
20A 認識単語データ出力制御部
23A 構文解析手段

【特許請求の範囲】
【請求項1】
外部から送り込まれる単語の音声を音声入力装置が音声データに変換して入力し、
この入力された音声データを音声認識装置が認識すると共に当該音声データに対応する同一の又は近似した単語データとその識別用の修飾語とを、前記音声認識装置及びこれに併設された修飾語検索装置が予め設定された記憶部からそれぞれ別々に検索して抽出し、
この抽出された単語およびその識別用の修飾語に基づいて音声生成出力装置が文章形式の確認用定型文を生成し音声再生装置を介して外部出力し、
この外部出力された確認用定型文に対して外部からその内容を否定する応答が入力された場合に機能して前記音声認識装置及び修飾語検索装置が他の同一の又は近似した単語データとその識別用の修飾語とを前記記憶部からそれぞれ再抽出し、
この再抽出された前記各単語データとその識別用の修飾語とに基づいて前記音声生成出力装置が再び確認用定型文を生成した後、音声再生出力装置を介して外部出力し、
前記確認用定型文に対して外部からそれを肯定する応答が入力された場合に機能して前記入力された前記音声が認識された旨を表示した確認用定型文を前記音声生成変換装置が生成し音声再生出力装置を介して外部出力するようにしたことを特徴とする音声認識応答方法。
【請求項2】
請求項1に記載の音声認識応答方法において、
前記単語データとその識別用の修飾語とを前記記憶部から抽出するに際しては、単語データが予め記憶された記憶部から単語データをまず抽出し、これに基づいて前記識別用の修飾語が記憶された記憶部から前記単語データに対応した識別用の修飾語を検索し抽出するようにしたことを特徴とする音声認識応答方法。
【請求項3】
請求項2に記載の音声認識応答方法において、
前記識別用修飾語の抽出に際しては、予め設定された関連度の大きい修飾語から順次選択し抽出するようにしたことを特徴とする音声認識応答方法。
【請求項4】
請求項1,2又は3に記載の音声認識応答方法において、
前記確認用定型文に対する外部からの応答が修飾語を含む文章形式の応答であった場合には、予め装備された構文解析手段が直ちに機能して前記応答内容の文章形式の構文を解析して特定の音声データとその修飾語データとこれらを連結する用語とに分ける動作を実行し、
続いて、この解析され特定された音声データとその修飾語データとに基づいて前記音声認識装置が前記特定の音声データに対応する単語データを前記記憶部を検索し抽出する単語データ限定抽出機能を実行するようにしたことを特徴とする音声認識応答方法。
【請求項5】
外部から送り込まれる単語の音声を音声データに変換し入力する音声入力装置と、この入力された音声データと同一又は近似した一又は二以上の単語データを予め設置された記憶部としての認識単語辞書を検索して抽出する音声認識装置と、この音声認識装置で抽出された前記音声データに対応する単語データを予め記憶されている文章形式の定型文に当てはめる音声生成変換装置と、この音声生成変換装置で生成出力される文章形式の音声データを音声に変換し外部出力する音声再生出力装置とを備え、
前記音声再生出力装置から外部出力された文章形式の音声データに対する肯定又は否定の音声が前記音声入力装置に外部入力された場合に、前記音声認識装置がこれに対処して所定の音声データ処理を実行する音声認識応答システムであって、
前記音声認識装置と音声生成変換装置との間に、前記単語データに直接関係する関連度の高い修飾語データが予め格納された記憶部としての修飾関係辞書を検索して関連度の高い順に前記修飾語データを抽出する修飾語検索装置を介装し、
前記音声生成変換装置が、前記修飾語検索装置で抽出された関連度の高い修飾語データを対応する前記単語データと合成して修飾語付定型文を生成し外部の話者との応答用として出力する修飾語合成出力機能を備えていることを特徴とした音声認識応答システム。
【請求項6】
請求項5に記載の音声認識応答システムにおいて、
前記音声生成変換装置は、前記修飾語検索装置で抽出された関連度の高い修飾語データとこれに対応する前記単語データとを合成して修飾語付定型文を生成する文章生成手段と、この生成された修飾語付定型文を音声データに変換して出力する音声変換手段とにより構成したことを特徴とする音声認識応答システム。
【請求項7】
請求項5に記載の認識応答システムにおいて、
前記認識単語辞書には、一の単語とその読みが同一となる複数の単語、及び前記一の単語とその読みが近似した複数の単語が、それぞれ予め検索可能に格納され、
前記修飾関係辞書には、前記各単語の読みに対応した関連度の高い複数の修飾語が、予め関連度が付されて検索可能に格納されていることを特徴とした音声認識応答システム。
【請求項8】
請求項5に記載の音声認識応答システムにおいて、
前記認識単語辞書に格納された検索用の複数の各単語には、予めその識別記号である単語IDと、その読みと、名詞,動詞等を示す品詞とが付されて何れからでも検索可能に格納されていることを特徴とした音声認識応答システム。
【請求項9】
請求項5に記載の音声認識応答システムにおいて、
前記修飾関係辞書に格納された検索用の複数の各単語には、予めその識別記号である単語IDと、前記認識単語辞書に格納された関連する各単語の単語IDと、その関連度の度合いを表した数値とが付されて、何れからでも検索可能に格納されていることを特徴とした音声認識応答システム。
【請求項10】
請求項7に記載の音声認識応答システムにおいて、
前記音声認識装置は、前記音声再生出力装置からの修飾語付定型文の音声データ出力後に前記音声入力装置に外部入力される音声データが、前記修飾語付定型文の記述を肯定する内容か否定する内容かを判定する可否判定機能を有すると共に、
前記修飾語検索装置は、前記音声認識装置の可否判定機能による否定判定に基づいて作動し前記音声データの修飾語付定型文の修飾語部分を前記関連度の値の次に高い値のものを選択して出力する機能を有し、
前記音声生成変換装置は、前記修飾語検索装置で抽出された関連度が次に高い修飾語データと前記抽出された単語データとを合成し修飾語付定型文として再出力する再合成出力機能を備えていることを特徴とした音声認識応答システム。
【請求項11】
請求項10に記載の音声認識応答システムにおいて、
前記音声生成変換装置は、前記音声認識装置による肯定判定に基づいて作動し前記音声データにかかる単語データが認識されたことを示す定型文として当該単語データを含む認識定型文を生成し変換出力する認識定型文出力機能を備えていることを特徴とした音声認識応答システム。
【請求項12】
請求項5又は10に記載の音声認識応答システムにおいて、
前記音声認識装置の音声データ入力段に、前記確認用定型文に対する外部からの応答が修飾語を含む文章形式の応答であった場合に機能し当該応答内容の文章形式の構文を解析し特定の音声データとその修飾語データとこれらを連結する用語とに分ける構文解析手段を装備すると共に、
前記音声認識装置が、この構文解析手段から送られてくる特定の音声データとその修飾語データとを認識すると共に当該認識された複数のデータに基づいて前記音声データに対応する単語データを検索し抽出する限定単語データ抽出機能を備えていることを特徴とした音声認識応答システム。
【請求項13】
請求項5又は10に記載の音声認識応答システムにおいて、
前記修飾語検索装置に、前記音声識別装置で選択抽出される単語データと前記修飾語検索装置にて抽出された修飾語データとをテキストデータとして記憶するテキストデータ格納装置を併設すると共に、
前記音声生成変換装置は、このテキストデータ格納装置に格納された単語データと前記修飾語データとを対象として前記修飾語合成機能を実行する構成としたこと特徴とする音声認識応答システム。
【請求項14】
請求項5又は10に記載の音声認識応答システムにおいて、
前記音声入力装置と前記音声識別装置との間に、前記音声入力装置で受信される音声情報を記憶する音声データ格納装置を介装すると共に、
前記音声再生出力装置と前記音声生成変換装置との間に、当該音声生成変換装置から出力される音声データを記憶する音声データ格納装置を介装したことを特徴とする音声認識応答システム。
【請求項15】
音声入力装置を介して外部から入力される音声データを認識すると共に当該音声データに対応する同一又は近似した単語データを予め装備された認識単語辞書を検索して抽出する単語データ抽出処理機能、 前記単語データに付される前記音声データ識別用の修飾語を予め設定された修飾関係辞書を検索して抽出する修飾語抽出処理機能、 この抽出された単語データおよびその識別用の修飾語に基づいて文章形式の確認用定型文を生成する確認用定型文生成処理機能、 及びこの生成された確認用定型文を音声再生出力装置を介して確認用として外部出力する定型文出力制御処理機能、を有し、
この外部出力された確認用の定型文に対して外部からその内容を否定する応答が前記音声入力装置を介して入力された場合に機能して、前記音声データに対応する他の同一又は近似した単語データとその識別用の修飾語とを、前記単語データ抽出処理機能および修飾語抽出処理機能を稼働させて前記認識単語辞書および前記修飾関係辞書からそれぞれ再抽出すると共に、当該再抽出された単語データとその識別用の修飾語とに基づいて再び前記確認用定型文を生成する再抽出生成機能、
この再抽出され生成された確認用の定型文を音声再生出力装置を介して外部へ再出力する定型文再出力制御処理機能、を備え、
前記確認用の定型文に対して外部からそれを肯定する応答が入力された場合に機能して前記入力された前記音声が認識された旨を表示した確認用定型文を生成し音声再生出力装置を介して外部出力する応答確認処理機能を設け、
これらの各処理機能を、コンピュータに実行させるようにしたことを特徴とする音声認識応答プログラム。
【請求項16】
請求項15に記載の音声認識応答プログラムにおいて、
前記単語データ抽出処理機能および修飾語抽出処理機能の実行に際しては、予め単語データとその識別用の修飾語とが記憶された記憶部からまず単語データを抽出すると共に、この抽出された単語データに基づいてその識別用の修飾語を検索し抽出するようにし、これを前記コンピュータに実行させるようにしたことを特徴とする音声認識応答プログラム。
【請求項17】
請求項16に記載の音声認識応答プログラムにおいて、
前記修飾語抽出処理機能の実行に際しては、予め設定された関連度の大きい修飾語から順次選択し抽出処理するようにし、これを前記コンピュータに実行させるようにしたことを特徴とする音声認識応答プログラム。
【請求項18】
請求項15,16又は17に記載の音声認識応答プログラムにおいて、
前記確認用定型文に対する外部から応答が修飾語を含む文章形式の単語応答であった場合には、当該応答内容の文章形式の構文を解析する構文解析処理機能、 当該構文解析により特定された修飾語を含む複数の単語データを認識処理する複数単語認識処理機能、
当該修飾語を含む複数の単語データに基づいて前記音声データに対応する単語データを検索し抽出する限定単語データ抽出処理機能、を備え、
これらの各処理機能を前記コンピュータに実行させるようにしたことを特徴とする音声認識応答プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2010−197709(P2010−197709A)
【公開日】平成22年9月9日(2010.9.9)
【国際特許分類】
【出願番号】特願2009−42395(P2009−42395)
【出願日】平成21年2月25日(2009.2.25)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】