説明

音声認識装置及び音声認識方法

【課題】ユーザが音声入力内容を複数に区切って発話した場合に、ユーザの発話内容を取りこぼすことがなく、且つ音声入力内容を区切る箇所に関係なくユーザの発話に沿った適切な応答音声を出力することができる「音声認識装置及び音声認識方法」を提供すること。
【解決手段】応答音声生成部から第1の発話に対する応答音声を出力する前にマイクで集音された音声から第2の発話を検出したときに(S20)、応答音声生成部に対し当該応答音声の生成及び出力を中止させる(S31)と共に、第1の発話に係る音声データの後端に第2の発話が終了するまでの音声データを結合させた結合音声データを生成して音声データ記録部に記録し(S36)、音声認識処理部に当該結合音声データの音声に対する音声認識処理を行わせて(S37)、応答音声生成部に音声認識処理部で音声認識された内容に基づいた応答音声を出力させる(S19及びS21)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力される音声に対応する文字列を特定し、その文字列に応じた応答を音声で行う音声認識装置及び音声認識方法に関する。
【背景技術】
【0002】
従来より、種々の操作指示を入力するための入力装置として、音声認識装置が採用されている。例えば、音声認識装置を組み込んだ車載用ナビゲーション装置においては、経路探索における目的地の住所や施設名称の設定等の操作指示を音声によって入力可能になっている。
【0003】
一般に、音声認識技術は、単語音声認識技術と連続語音声認識技術とに分類される。単語音声認識技術は、単語毎に区切って発声された音声を認識し、対応する単語の文字列を特定するものである。一方、連続語音声認識技術は、複数の単語等が連続して発声された音声を認識し、対応する複数の単語が連続してなるもの(以下、このようなものを「連続語」という)の文字列を特定するものである。
【0004】
連続語音声認識技術においては、例えば「福島県いわき市平愛谷町1丁目」という住所を音声入力する場合に、住所を一回ですべて発話する方法と、住所を区切って複数回に分けて発話する方法があり、どちらの発話方法においても音声認識することが可能となっている。このような利便性により、近年では連続語音声認識技術を採用した音声認識装置が普及している。
【0005】
連続語音声認識技術を採用した音声認識装置においては、ユーザの発話が終了して無発声状態となり、それから所定時間(以下、この時間のことを「無発声(ポーズ)時間」という)が経過するまでに次の発話がない場合に、当該発話に対する音声認識処理を行い、音声認識された結果に応じた応答音声を出力する。ここで、ユーザの発話に対し、ユーザの発声時間をUt、無発声時間をPt、音声認識装置において音声認識して応答音声を出力するまでの時間(以下、この時間のことを「装置応答時間」という)をStであると仮定すると、ユーザが発話を終了してから時間Pt+St後に、音声認識装置から応答音声が出力されることになる。
【0006】
ところで、音声認識装置において、ユーザの発話によっては音声認識が正常に機能しない場合がある。例えば、前述した「福島県いわき市平愛谷町1丁目」という住所を音声入力するにあたり、まず「福島県いわき市平」と発話し、一息入れてから残りの「愛谷町1丁目」と発話したとする。この「一息」が無発声時間Pt以上である場合には、音声認識装置においては、「福島県いわき市平」という発話に対する音声認識処理及び応答音声出力処理を行うので、無発声時間Pt以降の「愛谷町1丁目」という発話は音声認識されず、所謂「取りこぼし」が生じてしまう。
【0007】
このような取りこぼしを回避するための技術が特許文献1に記載されている。この特許文献1に記載の技術においては、第1の音声入力が行われ、ブランク(無音状態)が検出された後において、第1の音声入力に対する応答音声が出力される前に第2の音声入力が行われた場合に、第1の音声入力に対する応答音声出力処理を中断し、第2の音声入力に対する音声認識処理を再開させて、連続語として音声認識処理を行っている。
【特許文献1】特開2002−91489号公報
【発明の開示】
【発明が解決しようとする課題】
【0008】
しかしながら、上述した従来技術には以下に示すような問題がある。
【0009】
一般に、音声認識装置においては、記憶装置に住所や施設名称に係る音声認識用データ(以下、このような音声認識用データのことを「音声認識用辞書」、あるいは単に「辞書」という)を格納し、音声認識処理を行うときには、入力された音声を解析し、解析した内容を音声認識用辞書の文字パターンに照合させることにより、入力音声に対応する単語や連続語の文字列を特定している。そして、特定した文字列に対する応答音声出力処理を行っている。
【0010】
以下、従来の音声認識装置において行う音声認識処理及び応答音声出力処理(以下、これらの処理をまとめて「装置応答処理」という)の具体例について説明する。
【0011】
図1は、住所を音声入力したときに従来の音声認識装置において行う装置応答処理の一例の概要を模式的に示す図である。この図1においては、ユーザが、「福島県いわき市平愛谷町1丁目」という住所を、まず「福島県いわき市平」と発話し、一息入れてから「愛谷町1丁目」と発話することにより音声入力した場合の処理例を示している。
【0012】
この図1に示すように、ユーザがまず「福島県いわき市平」と発話したときには、音声認識装置においては、無発声時間Ptが経過するまでに入力された音声(「福島県いわき市平」という音声)に対する音声認識処理を行う。この音声認識処理においては、前述したように、入力音声を解析し、解析した内容を音声認識用辞書の文字パターンに照合させる。具体的には、解析した入力音声の内容に対し、辞書の文字パターンのうち、まず1番目の項目である都道府県名の文字パターンに照合させて、「福島県」という文字列を特定する。続いて2番目の項目である市区町村名(「福島県」の市区町村名)の文字パターンに照合させて、「いわき市」という文字列を特定する。続いて3番目の項目である大字名(「福島県いわき市」の大字名)の文字パターンに照合させて、「平」という文字を特定する。音声解析した内容にはこれ以上照合させる項目が含まれていないので、照合処理はここで終了する。このような音声解析及び辞書照合(つまり、音声認識)の結果、「福島県いわき市平」という文字列を特定(取得)する。そして、特定した文字列に対する応答音声出力処理を開始する。
【0013】
その後、特定した文字列(「福島県いわき市平」)に対する応答音声を出力する前に(装置応答時間St内に)、ユーザが続いて「愛谷町1丁目」と発話したときには、音声認識装置においては、この文字列に対する応答音声出力処理を中止すると共に、無発声時間Ptが経過するまでに入力された音声(「愛谷町1丁目」という音声)に対する音声認識処理を行う。この音声認識処理においては、解析した入力音声の内容に対し、音声認識用辞書の文字パターンのうち、既に特定済みの項目(すなわち、都道府県名、市区町村名及び大字名)の続きの項目である字名(「福島県いわき市平」の字名)の文字パターンに照合させて、「愛谷町1丁目」という文字列を特定する。音声解析した内容にはこれ以上照合させる項目が含まれていないので、照合処理はここで終了する。このような音声認識の結果、「愛谷町1丁目」という文字列を特定(取得)する。
【0014】
そして、音声認識装置においては、特定した文字列(「福島県いわき市平」及び「愛谷町1丁目」)に対する応答音声出力処理が終了すると(装置応答時間Stが経過すると)、「福島県いわき市平愛谷町1丁目」という応答音声を出力する。
【0015】
図2は、住所を音声入力したときに従来の音声認識装置において行う装置応答処理の他の例の概要を模式的に示す図である。この図2においては、ユーザが、「福島県いわき市平愛谷町1丁目」という住所を、まず「福島県いわき市平愛谷町」と発話し、一息入れてから「1丁目」と発話することにより音声入力した場合の処理例を示している。
【0016】
この図2に示すように、ユーザがまず「福島県いわき市平愛谷町」と発話したときには、音声認識装置においては、無発声時間Ptが経過するまでに入力された音声(「福島県いわき市平愛谷町」という音声)に対する音声認識処理を行う。この音声認識処理においては、解析した入力音声の内容に対し、辞書の文字パターンのうち、1〜3番目の項目(都道府県名、市区町村名及び大字名)の文字パターンの照合処理については、図1に示す処理と同じ内容であり、照合させた結果「福島県いわき市平」を特定する。続いて4番目の項目である字名(「福島県いわき市平」の字名)の文字パターンの照合処理については、辞書の字名の文字パターンに「愛谷町」が含まれていないので、文字列を特定することができない。また、音声解析した内容にはこれ以上照合させる項目が含まれていないので、照合処理はここで終了する。このような音声認識の結果、「福島県いわき市平」という文字列を特定(取得)する。
【0017】
その後、特定した文字列(「福島県いわき市平」)に対する応答音声を出力する前に、ユーザが続いて「1丁目」と発話したときには、音声認識装置においては、この文字列に対する応答音声出力処理を中止すると共に、無発声時間Ptが経過するまでに入力された音声(「1丁目」という音声)に対する音声認識処理を行う。この音声認識処理においては、解析した入力音声の内容に対し、音声認識用辞書の文字パターンのうち、既に特定済みの項目(すなわち、都道府県名、市区町村名及び大字名)の続きの項目である字名(「福島県いわき市平」の字名)の文字パターンに照合させて、「1丁目」という文字列を特定する。解析した内容にはこれ以上照合させる項目が含まれていないので、辞書照合処理はここで終了する。このような音声認識の結果、「1丁目」という文字列を特定(取得)する。
【0018】
そして、音声認識装置においては、特定した文字列(「福島県いわき市平」及び「1丁目」)に対する応答音声出力処理が終了すると、「福島県いわき市平1丁目」という応答音声を出力する。
【0019】
このように、従来の音声認識装置においては、ユーザが住所の内容を複数に区切って発話した場合、ユーザが住所の内容のどこで発話を区切るかによって、ユーザの発話に沿った適切な応答音声が出力されたり、ユーザの発話に沿わない不適切な応答音声が出力されたりすることがある。
【0020】
また、図3は、施設名を音声入力したときに従来の音声認識装置において行う装置応答処理の一例を模式的に示す図である。この図3においては、ユーザが、「小樽O堂アンティークミュージアム」という施設名を、まず「小樽O堂」と発話し、一息入れてから「アンティークミュージアム」と発話することにより音声入力した場合の処理例を示している。
【0021】
この図3に示すように、この施設名の音声認識用辞書の文字パターンは、図1及び図2に示す住所の音声認識用辞書の文字パターンと異なり、複数の項目に分割されたものではなく、単一の項目からなっている。ここで、ユーザがまず「小樽O堂」と発話したときには、音声認識装置においては、無発声時間Ptが経過するまでに入力された音声(「小樽O堂」という音声)に対する音声認識処理を行う。この音声認識処理においては、解析した入力音声の内容に対し、辞書の文字パターンに照合させるものの、辞書の文字パターンには「小樽O堂」は含まれていないので、「小樽O堂」に似たもの(例えば、「小樽O堂」の文字数に近い「小樽運河」)の文字列を特定(取得)する。そして、特定した文字列に対する応答音声出力処理を開始する。
【0022】
その後、特定した文字列(「小樽運河」)に対する応答音声を出力する前に、ユーザが続いて「アンティークミュージアム」と発話しても、音声認識装置においては、他に音声入力すべき項目がないので、当該発話に対する音声認識処理を行なわず、また特定した文字列に対する応答音声出力処理を中止せずにそのまま続ける。その結果、「小樽運河」という応答音声を出力する。
【0023】
このように、従来の音声認識装置においては、ユーザが施設名を複数に区切って発話した場合にも、ユーザの発話に沿った適切な応答音声が出力されないことがある。しかも、この場合においては、一息入れた後のユーザの発話内容(「アンティークミュージアム」)が取りこぼされている。
【0024】
以上説明したように、従来の音声認識装置においては、ユーザが音声入力内容を複数に区切って発話するときに、音声認識用辞書の文字パターンの構成(文字パターンが単一の項目からなるものなのか、それとも複数の項目により構成されているものなのか:文字パターンが複数の項目により構成されているものの場合には各項目がどのように区切られているのか)に合うように区切らないと、ユーザの発話に沿った適切な応答音声を出力することができないことがある。
【0025】
本発明は、かかる従来技術における課題に鑑み創作されたもので、ユーザが音声入力内容を複数に区切って発話した場合に、ユーザの発話内容を取りこぼすことがなく、且つ音声入力内容を区切る箇所に関係なくユーザの発話に沿った適切な応答音声を出力することができる音声認識装置及び音声認識方法を提供することを目的とする。
【課題を解決するための手段】
【0026】
上記の従来技術の課題を解決するために、本発明の一形態に係る音声認識装置は、音声を集音する集音手段と、前記集音手段で集音された音声の音声データを記録する音声記録手段と、前記音声データに対する認識処理を行う音声認識処理手段と、前記音声認識処理手段で認識された内容に基づいて応答音声を生成して出力する応答音声出力手段と、前記集音手段で集音された音声から第1の発話を検出したときに、当該発話の開始から終了まで前記音声記録手段に当該音声の音声データを記録すると共に、前記音声認識処理手段に当該音声データに対する音声認識処理を行わせ、前記応答音声出力手段に前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力させる制御手段とを有し、前記制御手段は、前記応答音声出力手段から前記第1の発話に対する応答音声を出力する前に前記集音手段で集音された音声から第2の発話を検出したときに、前記応答音声出力手段に対し当該応答音声の生成及び出力を中止させると共に、前記第1の発話に係る音声データの後端に前記第2の発話が終了するまでの音声データを結合させた結合音声データを生成して前記音声記録手段に記録し、前記音声認識処理手段に当該結合音声データの音声に対する音声認識処理を行わせて、前記応答音声出力手段に前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力させることを特徴とする。
【0027】
本発明に係る音声認識装置においては、集音手段で集音された音声から第1の発話が開始したことを検出したときに、当該音声のデータを音声記録手段に記録すると共に、集音手段で集音されている当該第1の発話に係る音声に対する音声認識処理を行う。その後、第1の発話が終了したことを検出したときに、第1の発話に係る音声データの記録を終了すると共に、音声認識された内容に基づいた応答音声を出力するようにする。
【0028】
但し、本発明に係る音声認識装置においては、第1の発話に対する応答音声を出力する前に集音手段で集音された音声から第2の発話が開始したことを検出したときに、当該応答音声の生成及び出力を中止すると共に、当該音声のデータを音声記録手段に記録する。その後、第2の発話が終了したことを検出したときに、第2の発話に係る音声データの記録を終了して、音声記録手段において第1の発話に係る音声データの後端に第2の発話に係る音声データを結合させた結合音声データを生成して記録する。そして、結合音声データの音声に対する音声認識処理を行い、音声認識された内容に基づいた応答音声を出力する。
【0029】
このように、本発明においては、第1の発話に対する応答音声を出力する前に第2の発話が開始したときには、第1の発話の内容と第2の発話の内容とは連続しているものとみなして、第1の発話に対する応答音声の生成及び出力を中止する。そして、第1の発話に係る音声データの後端に第2の発話に係る音声データを結合させた結合音声データを生成し、当該結合音声データの音声に対する音声認識処理及び応答音声出力処理を行っている。つまり、第1の発話の内容と第2の発話の内容からなる連続語の音声に対する音声認識処理及び応答音声出力処理を行っている。
【0030】
このため、ユーザが音声入力内容を複数に区切って発話した場合でも、応答音声を出力する前であれば、ユーザの発話内容の取りこぼしがなく、音声入力内容の区切る箇所に関係なくユーザの発話に沿った適切な応答音声を出力することができる。
【0031】
なお、本発明においては、音声記録手段において結合音声データを生成する際に、第1の発話に係る音声データのうち所定の時間の後端部を削除した音声データを生成し、当該後端部を削除した第1の発話に係る音声データの後端に前記第2の発話に係る音声データを結合させた結合音声データを生成することが好ましい。これにより、第1の発話の内容と第2の発話の内容からなる連続語の音声に対する音声認識処理の精度を向上させることができる。
【0032】
また、本発明の他の形態によれば、音声を集音する集音手段と、前記集音手段で集音された音声の音声データを記録する音声記録手段と、前記音声データに対する認識処理を行う音声認識処理手段と、前記音声認識処理手段で認識された内容に基づいて応答音声を生成して出力する応答音声出力手段とを備えた音声認識装置において、前記集音手段で集音された音声から第1の発話を検出したときに、当該発話の開始から終了まで前記音声記録手段に当該音声の音声データを記録すると共に、前記音声認識処理手段に当該音声データに対する音声認識処理を行うステップと、前記応答音声出力手段から前記第1の発話に係る応答音声を出力する前に前記集音手段で集音された音声から第2の発話を検出したときに、前記応答音声出力手段における当該応答音声の生成及び出力を中止するステップと、前記第1の発話に係る音声データの後端に前記第2の発話が終了するまでの音声データを結合させた結合音声データを生成するステップと前記音声記録手段に記録するステップと、前記音声認識処理手段において当該結合音声データの音声に対する音声認識処理を行うステップと、前記応答音声出力手段において前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力するステップとを有することを特徴とする音声認識方法が提供される。
【発明を実施するための最良の形態】
【0033】
以下、本発明の実施の形態について、添付の図面を参照しながら説明する。
【0034】
図4は、本発明の実施形態に係る音声認識装置の構成を模式的に示すブロック図である。
【0035】
本実施形態に係る音声認識装置100は、図示するようにマイクロホン10、入力音声処理部20、音声認識装置本体30、トークスイッチ40、出力音声処理部50及びスピーカ60により構成されている。また、音声認識装置100はナビゲーション装置200に接続されていて、ナビゲーション装置200に操作指示するための入力装置として機能している。
【0036】
音声認識装置100においてマイクロホン10は、ユーザが発声した音声を集音し、これを電気信号(音声信号)に変換して出力するものである。入力音声処理部20は、マイクロホン10から出力された音声信号に適宜処理を施して、デジタルの音声データに変換するためのものであり、アンプ、アナログフィルタ、A/Dコンバータ及びDSP(Digital Signal Processer)等(いずれも図示せず)により構成されている。
【0037】
音声認識装置本体30は、入力音声処理部20から出力された音声データに対して音声認識処理を施して、入力された音声に対応する文字列を特定し、さらに音声認識された内容に対して応答音声出力処理を施して、特定した文字列に応じた応答音声を出力するためのものである。この音声認識装置本体30は、音声データ記録部31、音声認識処理部32、音声認識用データ記憶部32a、応答音声生成部33、応答音声用データ記憶部33a及び制御部34を備えている。
【0038】
音声認識装置本体30において音声データ記録部31はストレージメディア等により構成され、制御部34からの制御に基づき、入力音声処理部20から出力された音声データを記録するためのものである。
【0039】
音声認識処理部32は、制御部34からの制御に基づき、入力音声処理部20から出力された音声データ又は音声データ記録部に記録した音声データを解析し、解析した内容を音声認識用データ(音声認識用辞書)の文字パターンに照合させることにより、音声データに対応する単語や連続語の文字列を特定するためのものである。音声認識用データ記憶部32aには、音声認識処理部32が照合処理を行う際に使用する、図1及び図2に示す住所の音声認識用辞書及び図3に示す施設名の音声認識用辞書等が格納されている。
【0040】
応答音声生成部33は、制御部34からの制御に基づき、音声認識処理部32で音声認識された結果に応じた応答音声(デジタルの音声データ)を生成して出力するためのものである。応答音声用データ記憶部33aには、応答音声生成部33が応答音声を生成する際に使用する各種音声データが格納されている。
【0041】
制御部34はマイクロコンピュータにより構成され、音声認識装置本体30の全体の動作を制御するためのものである。例えば、制御部34は、音声認識処理及び応答音声出力処理(装置応答処理)を制御する。また、制御部34は、入力音声処理部20から出力された音声データの内容(音声の振幅や周波数)に基づいてユーザが発話しているか否かを検出する。更に、制御部34は、入力音声処理部20から出力された音声データを音声データ記録部31に記録したり、音声認識処理部32に出力したりする。更にまた、制御部34は、音声データ記録部31に記録した音声データの一部又は全体を削除したり、当該音声データを結合したりする。制御部34はメモリ(図示せず)を含んでいて、このメモリに音声認識処理部32から取得した音声認識結果を格納する。
【0042】
音声認識装置100においてトークスイッチ40は、ユーザが音声入力を行う際に使用するものであり、操作に応じた信号を音声認識装置本体30に出力する。出力音声処理部50は、音声認識装置本体30から出力された応答音声の音声データに適宜処理を施してアナログの音声信号に変換し、スピーカ60に出力するためのものであり、D/Aコンバータ及びアンプ等(いずれも図示せず)により構成されている。
【0043】
以上のように構成された音声認識装置100において、マイクロホン10は「集音手段」に、音声データ記録部31は「音声記録手段」に、音声認識処理部32は「音声認識手段」に、応答音声生成部33は「応答音声出力手段」に、制御部34は「制御手段」にそれぞれ対応する。
【0044】
以下、本実施形態に係る音声認識装置100の制御部34において行う音声入力に対する装置応答処理について、その一例を示す図5を参照しながら説明する。併せて、図6に示す装置応答処理の概要、図7及び図8に示すサブルーチンに係る処理フロー、図9に示す音声データ結合処理の概要を参照しながら補足説明する。
【0045】
ここでは、「福島県いわき市平愛谷町1丁目」という住所に対し、まず「福島県いわき市平愛谷町」と発話し、一息入れてから続いて「1丁目」と発話することにより音声入力する場合を例にとって説明する。
【0046】
最初のステップS11では、トークスイッチ40から出力される信号に基づいてトークスイッチ40がオンされた(YES)か否(NO)かを判定する。判定結果がYESの場合には、次のステップS12に進む。このステップS12では、制御部34において音声認識処理部32をオンにする。
【0047】
次のステップS13では、入力音声処理部20から出力された音声データの内容に基づいてユーザの発話が開始した(YES)か否(NO)かを判定する。判定結果がYESの場合には、次のステップS14に進む。
【0048】
次のステップS14では、入力音声処理部20から出力された音声データを音声データ記録部31に出力し、制御部34からの制御に基づき音声データ記録部31において、ユーザの発話に係る音声データを記録する。
【0049】
次のステップS15では、入力音声処理部20から出力された音声データを音声認識処理部32にも出力し、制御部34からの制御に基づき音声認識処理部32において、当該ユーザの発話に係る音声データに対する音声認識処理を行う。つまり、このステップS15では、発話が終了するまでのマイクロホン10で集音されている音声に対する音声認識処理を行っている。
【0050】
このステップS15においては、図7に示すサブルーチンが行われている。図7に示すように、ステップS41では、制御部34において、メモリ(図示せず)に音声認識処理部32から取得した音声認識結果を格納している(YES)か否(NO)かを判定する。判定結果がNOの場合にはステップS42に進み、判定結果がYESの場合にはステップS46に進む。
【0051】
ステップS41において判定結果がNOの場合には、ステップS42では、制御部34の制御に基づき音声認識処理部32において、照合処理開始位置を音声認識用辞書の最初の項目にセットする。例えば、図6に示す住所の音声認識用辞書においては、照合処理開始位置を「都道府県名」にセットする。その後、次のステップS43に進む。
【0052】
一方、ステップS41において判定結果がYESの場合、ステップS46では、制御部34の制御に基づき音声認識処理部32において、照合処理開始位置を音声認識用辞書の取得済みの音声認識結果に対応する項目の続きとなる項目にセットする。例えば、「福島県いわき市平」という音声認識結果、すなわち図6に示す住所の音声認識用辞書においては「都道府県名」、「市区町村名」及び「大字名」の項目までの音声認識結果が取得済みである場合、照合開始位置を「大字名」の続きとなる「字名」にセットする。その後、次のステップS43に進む。
【0053】
次のステップS43では、制御部34の制御に基づき音声認識処理部32において、入力音声処理部20から出力された音声データを解析する。次のステップS44では、制御部34の制御に基づき音声認識処理部32において、解析した内容を音声認識用辞書の文字パターンに照合させて、音声データに対応する単語や連続語の文字列を特定する。そして、このようにして音声認識された結果を制御部34に出力する。この後、本サブルーチンの処理フローは「終了」となる。
【0054】
図5に示すように、次のステップS16では、入力音声処理部20から出力された音声データの内容に基づいてユーザの発話が終了した(YES)か否(NO)かを判定する。このステップS16では、制御部34は、図6に示すように、ユーザの発声が終了し、所定の無発声時間が経過したときに、ユーザの発話が終了したと判定する。判定結果がYESの場合には、次のステップS17に進む。
【0055】
ステップS17では、制御部34からの制御に基づき音声データ記録部31において、ユーザの発話に係る音声データの記録を終了する。これにより、音声データ記録部31において音声データのファイル(例えば、図6に示す「Rec1」)が生成される。このとき、前述した音声入力例の場合においては「福島県いわき市平愛谷町」という発話に係る音声データのファイルが生成される。
【0056】
次のステップS18では、制御部34において、ステップS15において音声認識された結果を取得し、メモリ(図示せず)に格納する。このとき、前述した音声入力例の場合においては、音声認識用辞書のデータ構成に基づき「福島県いわき市平」という音声認識結果が取得される(図2及びその説明箇所を参照)。その後、ステップS19に進む。
【0057】
次のステップS19では、制御部34の制御に基づき応答音声生成部33において、音声認識処理部32で音声認識された結果に対する応答音声出力処理を行う。このとき、前述した音声入力例においては、「福島県いわき市平」という音声認識結果に対する応答音声出力処理を行う。
【0058】
次のステップS20では、応答音声生成部33の処理状況を検出すると共に、入力音声処理部20から出力された音声データの内容に基づいてユーザの次の発話の有無を監視することにより、応答音声出力前にユーザの次の発話が開始した(YES)か否(NO)かを判定する。判定結果がYESの場合にはステップS31に進み、判定結果がNOの場合にはステップS21に進む。ここでは、判定結果がYESであり、ステップS31に進んだものとする。
【0059】
ステップS31では、制御部34の制御に基づき応答生成部33において、応答音声出力処理を中止する。つまり、前述した音声入力例においては、「福島県いわき市平」という音声認識結果に対する応答音声出力処理を中止する。
【0060】
次のステップS32では、音声認識処理部32から取得した音声認識結果をメモリ(図示せず)から削除する。つまり、前述した音声入力例の場合においては、「福島県いわき市平」という音声認識結果が削除される。
【0061】
次のステップS33では、入力音声処理部20から出力された音声データを音声データ記録部31に出力し、制御部34からの制御に基づき音声データ記録部31において、ユーザの次の発話に係る音声データを記録する。その後、ステップS34に進む。
【0062】
次のステップS34では、入力音声処理部20から出力された音声データの内容に基づいてユーザの発話が終了した(YES)か否(NO)かを判定する。判定結果がYESの場合には、次のステップS35に進む。
【0063】
次のステップS35では、制御部34からの制御に基づき音声データ記録部31において、ユーザの次の発話に係る音声データの記録を終了する。これにより、音声データ記録部31において音声データのファイル(例えば、図6に示す「Rec2」)が生成される。このとき、前述した音声入力例の場合においては「1丁目」という発話に係る音声データのファイルが生成される。すなわち、「福島県いわき市平愛谷町」という発話を「第1の発話」とし、「1丁目」という発話を「第2の発話」とした場合、このときに、音声データ記録部31においては第1及び第2の発話に係る音声データ(例えば、図6に示す「Rec1」及び「Rec2」)が記録されている。その後、ステップS36に進む。
【0064】
次のステップS36では、制御部34の制御に基づき音声データ記録部31において、音声データ結合処理を行う。
【0065】
このステップS36においては、図8に示すサブルーチンが行われている。図8に示すように、ステップS51では、制御部34において、音声データ記録部31に記録された音声データのファイルを確認し、結合音声データがある(YES)か否(NO)かを判定する。判定結果がNOの場合にはステップS52に進み、判定結果がYESの場合にはステップS56に進む。この結合音声データについては以下に説明する。
【0066】
ステップS51において判定結果がNOの場合、ステップS52では、制御部34の制御に基づき音声データ記録部31において、前回記録した音声データ(ステップS14からステップS17までの間に記録した音声データ)の後端部を削除した音声データを生成する。例えば、前回記録した音声データが図6に示す「Rec1」である場合、図6に示すように、前回記録した音声データは、ユーザが発声しているときのデータと、それに続く無発声のときのデータにより構成されている。無発声のデータの時間は無発声時間Ptとほぼ同じである。このステップS52では、制御部34により、前回記録した音声データのうち無発声のデータに相当する後端部を削除した音声データを生成する。具体的には、制御部34により、前回記録した音声データの後端からα(但し、0<α<Pt:例えば、α=0.8×Pt)秒分を削除した音声データ(例えば、図6に示す「Rec1−α」)を生成する。
【0067】
次のステップS53では、制御部34の制御に基づき音声データ記録部31において、後端部を削除した前回記録した音声データの後端に、今回記録した音声データ(ステップS33からステップS35までの間に記録した音声データ)を結合させた結合音声データを生成する。例えば、今回記録した音声データが図6に示す「Rec2」である場合、このステップS53では、制御部34により、「Rec1−α」の後端に「Rec2」を結合させた結合音声データ(例えば、図6に示す「Rec Coupling」)を生成する。
【0068】
そして、次のステップS54では、制御部34の制御に基づき音声データ記録部31において、今回生成した結合音声データ以外の音声データを削除する。図6に示す例では、ステップS53が終了した時点で、音声データ記録部31には、「Rec1」、「Rec2」、「Rec1−α」及び「Rec Coupling」の音声データが記録されている。このステップS54では、今回生成した結合音声データである「Rec Coupling」以外の音声データ(「Rec1」、「Rec2」及び「Rec1−α」の音声データ)を削除する。この後、本サブルーチンの処理フローは「終了」となる。
【0069】
一方、ステップS51において判定結果がYESの場合には、ステップS56からステップS58までの処理を行う。これらの処理については、基本的にステップS52からステップS54までの処理と同じである。
【0070】
すなわち、ステップS56では、制御部34の制御に基づき音声データ記録部31において、前回生成した結合音声データ(例えば、図9に示す「Rec Coupling Old」)の後端部を削除した音声データ(例えば、図9に示す「Rec Coupling Old−α」)を生成する。
【0071】
次のステップS57では、制御部34の制御に基づき音声データ記録部31において、後端部を削除した前回生成した結合音声データの後端に、今回記録した音声データ(例えば、図9に示す「Rec New」)を結合させた結合音声データ(例えば、図9に示す「Rec Coupling New」)を生成する。
【0072】
そして、次のステップS58では、制御部34の制御に基づき音声データ記録部31において、今回生成した結合音声データ以外の音声データ(「Rec Coupling Old」、「Rec Coupling Old−α」及び「Rec New」)を削除する。この後、本サブルーチンの処理フローは「終了」となる。
【0073】
次に図5のステップS37では、制御部34の制御に基づき音声データ記録部31から結合音声データを出力し、制御部34からの制御に基づき音声認識処理部32において、結合音声データに対する音声認識処理を行う。例えば、ステップS36において、図8に示すステップS52からステップS54までの処理を行った場合には、「Rec Coupling」の結合音声データに対する音声認識処理を行う。この音声認識処理では、結合音声データの先頭から末端までを対象としている。
【0074】
前述したように、「Rec Coupling」は基本的に「Rec1」及び「Rec2」により構成されているものであり、また「Rec1」が「第1の発話(福島県いわき市平愛谷町)」に対応し、「Rec2」が「第2の発話(1丁目)」に対応するので、「Rec Coupling」は「第1の発話」及び「第2の発話」を組み合わせた発話(「福島県いわき市平愛谷町1丁目」)に対応する。このため、このステップS37においては、音声認識用辞書のデータ構成に基づくと、音声認識結果として「福島県いわき市平愛谷町1丁目」という文字列が特定される。その後、ステップS18に進む。
【0075】
ステップS37の後のステップS18及びステップS19では、ステップS37において音声認識された結果を取得し、メモリ(図示せず)に格納し、応答音声生成部33において、音声認識処理部32で音声認識された結果に対する応答音声出力処理を行う。この場合は、「福島県いわき市平愛谷町1丁目」という音声認識結果に対する応答音声出力処理を行う。
【0076】
次のステップS20では、応答音声出力前にユーザの次の発話が開始した(YES)か否(NO)かを判定する。判定結果がYESの場合にはステップS31に進み、判定結果がNOの場合にはステップS21に進む。ここでは、判定結果がNOであり、ステップS21に進んだものとする。
【0077】
次のステップS21では、応答音声生成部33で生成した応答音声の音声データを出力音声処理部50に出力する。これにより、スピーカ60から応答音声が出力される。
【0078】
次のステップS22では、制御部34の制御に基づき音声データ記録部31において、記録した音声データを全て削除する。
【0079】
次のステップS23では、他に音声入力すべき項目がある(YES)か否(NO)を判定する。判定結果がYESの場合にはステップS13に進み、判定結果がNOの場合にはステップS24に進む。例えば、音声認識の結果出力された応答音声が「福島県いわき市平」である場合には、音声認識用辞書のデータ構成によれば音声入力すべき項目として「字名」があるので、ステップS23での判定結果はYESとなる。また、音声認識の結果出力された応答音声が「福島県いわき市平愛谷町1丁目」である場合には、音声入力すべき項目がないので、ステップS23での判定結果はNOとなる。ここでは、判定結果がNOであり、ステップS24に進んだものとする。
【0080】
ステップS24では、制御部34において音声認識処理部32をオフにして、本処理フローは「終了」となる。
【0081】
以上説明したように、本実施形態に係る音声認識装置100によれば、第1の発話に対する応答音声を出力する前に第2の発話が開始したときには、第1の発話の内容と第2の発話の内容とは連続しているものとみなして、第1の発話に対する応答音声の出力を中止する。そして、第1の発話に係る音声データの後端に第2の発話に係る音声データを結合させた結合音声データを生成し、当該結合音声データの音声に対する音声認識処理及び応答音声出力処理を行っている。つまり、第1の発話の内容と第2の発話の内容とを組み合わせた内容の音声に対する音声認識処理及び応答音声出力処理を行っている。
【0082】
このため、ユーザが音声入力内容を複数に区切って発話した場合でも、応答音声を出力する前であれば、ユーザの発話内容の取りこぼしがなく、音声入力内容の区切る箇所に関係なくユーザの発話に沿った適切な応答音声を出力することができる。
【0083】
また、上述した実施形態においては、図3に示す施設名の音声入力をした場合に、「アンティークミュージアム」という発話を取りこぼすことなく、「小樽O堂アンティークミュージアム」に対する音声認識処理及び応答音声出力処理を行うので、ユーザの発話に沿った適切な応答音声を出力することができる。
【0084】
なお、上述した実施形態においては、結合音声データを生成する際に、前回記録した音声データ(又は前回生成した結合音声データ)の後端部を削除した音声データを生成し、この後端部を削除した音声データの後端に今回記録した音声データを結合させているが、前回記録した音声データの後端部を削除した音声データを生成せずに、前回記録した音声データの後端に今回記録した音声データを結合させてもよい。
【図面の簡単な説明】
【0085】
【図1】住所を音声入力したときに従来の音声認識装置において行う装置応答処理の一例の内容を模式的に示す図である。
【図2】住所を音声入力したときに従来の音声認識装置において行う装置応答処理の他の例の内容を模式的に示す図である。
【図3】施設名を音声入力したときに従来の音声認識装置において行う装置応答処理の一例の内容を模式的に示す図である。
【図4】本発明の実施形態に係る音声認識装置の構成を模式的に示すブロック図である。
【図5】本実施形態に係る音声認識装置の制御部において行う音声入力に対する装置応答処理の一例を示す処理フローである。
【図6】住所を音声入力したときに本実施形態に係る音声認識装置において行う装置応答処理の一例の内容を模式的に示す図である。
【図7】音声認識処理のサブルーチンの一例を示す処理フローである。
【図8】音声データ結合処理のサブルーチンの一例を示す処理フローである。
【図9】音声データ結合処理の一例の内容を模式的に示す図である。
【符号の説明】
【0086】
10…マイクロホン(集音手段)、
31…音声データ記録部(音声データ記録手段)、
32…音声認識処理部(音声認識手段)、
33…応答音声生成部(応答音声出力手段)、
34…制御部(制御手段)。

【特許請求の範囲】
【請求項1】
音声を集音する集音手段と、
前記集音手段で集音された音声の音声データを記録する音声記録手段と、
前記音声データに対する認識処理を行う音声認識処理手段と、
前記音声認識処理手段で認識された内容に基づいて応答音声を生成して出力する応答音声出力手段と、
前記集音手段で集音された音声から第1の発話を検出したときに、当該発話の開始から終了まで前記音声記録手段に当該音声の音声データを記録すると共に、前記音声認識処理手段に当該音声データに対する音声認識処理を行わせ、前記応答音声出力手段に前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力させる制御手段とを有し、
前記制御手段は、前記応答音声出力手段から前記第1の発話に対する応答音声を出力する前に前記集音手段で集音された音声から第2の発話を検出したときに、前記応答音声出力手段に対し当該応答音声の生成及び出力を中止させると共に、前記第1の発話に係る音声データの後端に前記第2の発話が終了するまでの音声データを結合させた結合音声データを生成して前記音声記録手段に記録し、前記音声認識処理手段に当該結合音声データの音声に対する音声認識処理を行わせて、前記応答音声出力手段に前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力させることを特徴とする音声認識装置。
【請求項2】
前記制御手段は、前記第1の発話に係る音声データのうち所定の時間の後端部を削除した音声データを生成し、当該後端部を削除した前記第1の発話に係る音声データの後端に前記第2の発話に係る音声データを結合させた結合音声データを生成することを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記制御手段は、前記結合音声データに対する応答音声を出力する前に前記集音手段で集音された音声から新たな発話を検出したときに、前記応答音声手段に対し当該応答音声の生成及び出力を中止させると共に、前記結合音声データの後端に前記新たな発話の開始から終了までの音声データを結合させた新たな結合音声データを生成することを特徴とする請求項1又は請求項2に記載の音声認識装置。
【請求項4】
音声を集音する集音手段と、前記集音手段で集音された音声の音声データを記録する音声記録手段と、前記音声データに対する認識処理を行う音声認識処理手段と、前記音声認識処理手段で認識された内容に基づいて応答音声を生成して出力する応答音声出力手段とを備えた音声認識装置において、
前記集音手段で集音された音声から第1の発話を検出したときに、当該発話の開始から終了まで前記音声記録手段に当該音声の音声データを記録すると共に、前記音声認識処理手段に当該音声データに対する音声認識処理を行うステップと、
前記応答音声出力手段から前記第1の発話に係る応答音声を出力する前に前記集音手段で集音された音声から第2の発話を検出したときに、前記応答音声出力手段における当該応答音声の生成及び出力を中止するステップと、
前記第1の発話に係る音声データの後端に前記第2の発話が終了するまでの音声データを結合させた結合音声データを生成するステップと前記音声記録手段に記録するステップと、
前記音声認識処理手段において当該結合音声データの音声に対する音声認識処理を行うステップと、
前記応答音声出力手段において前記音声認識処理手段で音声認識された内容に基づいた応答音声を出力するステップとを有することを特徴とする音声認識方法。
【請求項5】
前記結合音声データを生成するステップは、前記第1の発話に係る音声データのうち所定の時間の後端部を削除した音声データを生成するステップと、当該後端部を削除した前記第1の発話に係る音声データの後端に前記第2の発話に係る音声データを結合させた結合音声データを生成するステップとを有することを特徴とする請求項4に記載の音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate