音声認識装置および音声認識方法

【課題】非定常騒音の混入に対して頑健な音声認識を行う。
【解決手段】体内に密閉装着され音声を収音する第１気導音マイク１１と、体外に装着され音声を収音する第２気導音マイク２１と、第１気導音マイク１１が収音した音声から第１単語列を認識する第１デコーダ部１６と、第１単語列を構成する各単語に対応する発話区間を抽出する第１単語区間抽出部１９と、第１単語区間抽出部１９が抽出した発話区間について第２気導音マイク２１が収音した音声から第２単語列を認識する第２デコーダ部２６と、第１単語列のうち騒音レベルが所定値以下の単語列を第２単語列に置き換える単語列置換部２８とを備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、騒音環境下においても、精度の高い音声認識を実行する音声認識装置および音声認識方法に関するものである。
【背景技術】
【０００２】
近年、ユーザが発声する音声を計算機が認識し、認識データを入力する装置が提案されている。特許文献１に示すように、特に点検や保守作業などで手がふさがっている場面や、目が離せないなどの場面で、ハンズフリー、アイズフリーに音声でシステムにデータ入力できることから、作業を支援するための装置として音声認識のニーズが高い。しかし、点検や保守現場では、対象機器や、周囲の大きな騒音が多く、これらの騒音が音声に混合して入力されてしまうため、認識精度が低下するという課題があった。
【０００３】
この課題を解決するため、騒音環境下における音声認識装置が提案されている。比較的効果のある従来の方法として、例えば以下の方法がある。
（ア）指向性の強いマイクを用いて発話者の音声のみを抽出する方法
（イ）発話者音声を収音するマイクと、騒音を収音するマイクの２つのマイクを備えて、発話者音声成分から騒音成分を差し引く手法により発話者音声を強調する方法
（ウ）骨に伝わる振動を、加速度センサーで構成された特殊なマイクである骨伝導マイクで取得する方法
【０００４】
しかし、（ア）の方式では、作業者が装着できるような指向性の高い小型のマイクを形成することが難しいとともに、高騒音下では、マイクに騒音が回り込んでしまう、（イ）の方法でも、高騒音下では、発話者音声が騒音成分に埋もれてしまうため、高い効果が得られない、（ウ）の方法では、高いＳＮＲ（ＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ）が得られるが、骨伝導マイクでは高周波成分が得られないため音声認識では精度が得られないという課題があった。
【０００５】
方式（ア）から方式（ウ）の課題を解決するように構成された特許文献２について図を参照しながら説明を行う。図１６は従来の音声認識装置の構成を示すブロック図である。図１７は従来の音声認識装置による認識結果を示す図であり、図１７（ａ）は収音スペクトラム、図１７（ｂ）は収音音声波形を示している。
図１６に示すように、従来の音声認識装置は骨伝導マイク９１、気導音マイク９２、Ａ／Ｄ変換部９３、パワー算出部９４、音声区間検出部９５、音声認識を行うデコーダ部９６、音響モデル記憶部９７、言語モデル記憶部９８および表示部９９で構成されている。
【０００６】
まず、骨伝導マイク９１と気導音マイク９２は、収音した音声を電気信号に変換し、アナログデータとして信号入力する。Ａ／Ｄ変換部９３は、骨伝導マイク９１および気導音マイク９２から取り込んだアナログデータをＡ／Ｄ変換し、量子化した後、ＲＡＭなど（図示せず）に記憶する。パワー算出部９４は、ＲＡＭに記憶された量子化データから、既知の音声信号の短時間フーリエ分析手法やＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）分析手法（後述する参考文献参照）を用いて、パワースペクトルを抽出する。音声区間検出部９５は、骨伝導マイク９１および気導音マイク９２のそれぞれのパワースペクトルを用いて音声区間を決定する。デコーダ部９６は、パワースペクトルの情報から、対応した音響特徴量の系列を抽出し、音響モデル記憶部９７に記憶された音響モデルと言語モデル記憶部９８に記憶された言語モデルとを照合することにより、音声に最も近い単語列を探索する。表示部９９は、デコーダ部９６の探索結果である単語列を表示する。これらの処理により音声を認識することができる。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開平１１−２２８０４７号公報
【特許文献２】特開平４−２７６７９９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
しかしながら、上述した特許文献２に開示された技術では、次のような課題を有している。骨伝導マイク９１を用いているため、気導音マイク９２に比べて高周波成分を取得することができない。図１７（ａ）に、骨伝導マイクと体内密閉マイク（気導音マイク）を用いて、同時に同じ音声を収録したスペクトラムを示す。図１７（ａ）に示すように骨伝導マイクでは、１ＫＨｚ以上の周波数が得られないため、認識精度が低下する課題がある。また、骨伝導マイクを用いた場合、人体と機器の接触音を収音してしまうという課題がある。
【０００９】
図１７（ｂ）に、骨伝導マイクと体内密閉マイク（気導音マイク）で、同時に同じ音声と機器操作音（テスターによる電圧測定）を収録した音声波形を示す。骨伝導マイクでは、音声波形と同じ程度の大きさで機器操作音が収音されてしまっているが、体内密閉マイクでは、機器操作音の影響は小さかった。点検作業では、作業者が機器を扱うときの機器との接触音が起こるため、これを振動として大きく拾ってしまうという課題があった。さらに、最も大きな課題として、非定常騒音に対する頑健性が低いことが挙げられる。従来の音声認識装置では、音声区間検出に問題がなくても、区間内に短時間でも大きな騒音があると、単語認識結果が連鎖して影響を受けて誤認識しまうという課題があった。
【００１０】
この発明は、上記のような課題を解決するためになされたもので、非定常騒音の混入に対して頑健な音声認識を行うことを目的とする。
【課題を解決するための手段】
【００１１】
この発明に係る音声認識装置は、体内に密閉装着され、音声を収音する第１気導音マイクと、体外に装着され、音声を収音する第２気導音マイクと、第１気導音マイクが収音した音声から第１単語列を認識する第１単語列認識部と、第１単語列を構成する各単語に対応する発話区間を抽出する第１単語区間抽出部と、第１単語区間抽出部が抽出した発話区間について、第２気導音マイクが収音した音声から第２単語列を認識する第２単語列認識部と、第１単語列のうち騒音レベルが所定値以下の単語列を、第２単語列に置き換える単語列置換部とを備えるものである。
【発明の効果】
【００１２】
この発明によれば、第１気導音マイクが収音した音声から認識した第１単語列のうち騒音レベルが所定値以下の単語列を、第２気導音マイクが収音した音声から認識した第２単語列に置き換えるように構成したので、非定常音声の混入に対して頑健に単語列を認識することができる。
【図面の簡単な説明】
【００１３】
【図１】実施の形態１による音声認識装置の構成を示すブロック図である。
【図２】実施の形態１による第１および第２気導音マイクの構成を示す説明図である。
【図３】実施の形態１による音声認識装置の動作を示すフローチャートである。
【図４】実施の形態１による音声認識装置の第１および第２気導音マイクの音声波形を示す図である。
【図５】実施の形態１による音声認識装置の第１気導音のパワーを示す図である。
【図６】実施の形態１による音声認識装置の音声区間検出部の音声区間の検出を示す図である。
【図７】実施の形態１による音声認識装置の始端および終端フレームと対応する単語情報を示す説明図である。
【図８】実施の形態１による音声認識装置の第２気導音マイクに対する第１気導音マイクのコヒーレンスを示す図である。
【図９】実施の形態１による音声認識装置の第１および第２気導音パワーを示す図である。
【図１０】実施の形態１による音声認識装置の差分パワーを示す図である。
【図１１】実施の形態１による音声認識装置の最大差分パワーと判定結果を示す図である。
【図１２】実施の形態１による音声認識装置の第２デコーダ部の探索結果を示す図である。
【図１３】実施の形態１による音声認識装置の言語モデルの一例を示す図である。
【図１４】実施の形態２による音声認識装置の構成を示すブロック図である。
【図１５】実施の形態２による音声認識装置の動作を示すフローチャートである。
【図１６】従来の音声認識装置の構成を示すブロック図である。
【図１７】従来の音声認識装置の収音スペクトラムおよび収音音声波形を示す図である。
【発明を実施するための形態】
【００１４】
以下、説明に用いる専門用語は以下の参考文献１から参考文献３に示される用語を用いるものとし、また既知の分析手法の詳細については参考文献１から参考文献３を参照するものとする。
［参考文献１］
鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」株式会社オーム社、平成１３年５月１５日
［参考文献２］
北研二著、「確率的言語モデル」財団法人東京大学出版会、１９９９年１１月２５日
［参考文献３］
中川聖一著、「確率モデルによる音声認識」社団法人電子情報通信学会、昭和６３年７月１日
【００１５】
実施の形態１．
図１は、この発明の実施の形態１による音声認識装置の構成を示すブロック図である。
音声認識装置は、第１および第２気導音マイク１１，２１、Ａ／Ｄ変換部１２，２２、第１および第２発話データ記憶部１３，２３、第１および第２パワー算出部１４，２４、音声区間検出部１５、第１および第２デコーダ部（第１および第２単語列認識部）１６，２６、第１音響モデル記憶部（音響モデル記憶部）１７、言語モデル記憶部１８、第１単語区間抽出部１９、単語区間判定部２５、第２音響モデル記憶部２７、単語列置換部２８および表示部２９で構成されている。
【００１６】
第１気導音マイク１１は、発話者の音声を収音するマイクであり、体内に挿入する気導音マイクである。第２気導音マイク２１は、発話者の口元で収音する接話マイクである。
図２は、実施の形態１による音声認識装置の第１および第２気導音マイクの構成および構造を示す図である。図２（ａ）は第１および第２気導音マイクの構成および装着例を示し、図２（ｂ）は第１気導音マイクの構造を示す図である。
図２（ａ）に示すように、第１気導音マイク１１と第２気導音マイク２１はブーム２１´により接続され、第１気導音マイク１１はユーザの耳孔に挿入され、第２気導音マイク２１はユーザの口元に位置する。さらに第１気導音マイク１１は、図２（ｂ）に示すように小型のマイク部１１ａが、耳孔に挿入可能な形状を有しており、挿入口は防音部材１１ｂで包まれ、マイク部１１ａの挿入により耳孔を密閉して外部からの音を遮断すると共に、鼓膜から伝わる気導音を収音する。
【００１７】
次に、Ａ／Ｄ変換部１２，２２は、第１および第２気導音マイク１１，２１から入力されるアナログデータをＡ／Ｄ変換して量子化する。第１および第２発話データ記憶部１３，２３は、それぞれＡ／Ｄ変換部１２，２２において変換された量子化データを記憶する。第１パワー算出部１４は、第１発話データ記憶部１３から第１気導音マイク１１の量子化データを取得し、音声信号の短時間フーリエ分析手法やＬＰＣ分析手法（参考文献参照）を用いて当該量子化データからパワースペクトルを抽出する。
【００１８】
音声区間検出部１５は、第１気導音マイク１１のパワースペクトルを用いて音声区間を検出する。音声区間検出の手法は公知であるため、説明は省略する。第１デコーダ部１６は、音声区間検出部１５において検出された音声区間のパワースペクトルの情報から、対応した音響特徴量の系列を抽出し、第１音響モデル記憶部１７に記憶された音響モデルと言語モデル記憶部１８に記憶された言語モデルとを照合することにより、第１気導音マイク１１が収音した音声に最も近い単語列を探索し、各単語に対応する音声区間と共に出力する。
【００１９】
第１音響モデル記憶部１７は、第１気導音マイク１１で収音した音声を認識するのに適した音響モデルを記憶している。言語モデル記憶部１８は、言語モデルを記憶している。第１単語区間抽出部１９は、第１デコーダ部１６が探索した単語列を構成する各単語に対応する発話区間を抽出する。
【００２０】
第２パワー算出部２４は、第１単語区間抽出部１９が抽出した発話区間に対応する区間の音声について、第２発話データ記憶部２３から第２気導音マイク２１の量子化データを取得し、当該量子化データからパワースペクトルを抽出する。単語区間判定部２５は、第１単語区間抽出部１９から入力される第１気導音マイク１１のパワースペクトル、および第２パワー算出部２４から入力される第２気導音マイク２１のパワースペクトルを参照して、第１気導音マイク１１の発話区間を用いるか、あるいは第２気導音マイク２１の発話区間を用いるか判定を行う。
【００２１】
第２デコーダ部２６は、単語区間判定部２５において第２気導音マイク２１の発話区間を用いると判定された部分発話の範囲について、第２気導音マイク２１のパワースペクトルの情報から対応した音響特徴量の系列を抽出し、第２音響モデル記憶部２７に記憶された音響モデルと言語モデル記憶部１８に記憶された言語モデルとを照合し、第２気導音マイク２１の音声に最も近い単語列を探索する。単語列置換部２８は、第１デコーダ部１６における認識結果である単語列のうち、対応する第２デコーダ部２６において探索された単語列を置き換える。表示部２９は、単語列置換部２８において置換された結果である単語列を表示する。
【００２２】
次に、実施の形態１の音声認識装置において、音声を認識して単語列を出力表示する処理の詳細について図３のフローチャートを参照しながら説明を行う。また、ここでは「てーぶあんぜんきょりかくほすいっち」（底部安全距離確保スイッチ）の発声に、機械動作音が騒音として混入した場合を例に挙げ、当該具体例と共に動作の説明を行う。
【００２３】
第１および第２気導音マイク１１，２１は、音声を収音して電気信号に変換し、アナログデータとして信号を入力する（ステップＳＴ１）。Ａ／Ｄ変換部１２は、ステップＳＴ１において第１気導音マイク１１から入力されたアナログデータをＡ／Ｄ変換して量子化した後、デジタルデータとして第１発話データ記憶部１３に記憶させる。同様に、Ａ／Ｄ変換部２２は、ステップＳＴ１において第２気導音マイク２１から入力されたアナログデータをＡ／Ｄ変換して量子化した後、デジタルデータとして第２発話データ記憶部２３に記憶させる（ステップＳＴ２）。
図４に、第１気導音マイク１１の音声と第２気導音マイク２１の音声の時間軸を揃えた音声波形を示している。図４では、１．４３秒から２．０２秒の間に機械動作音が重畳している。また、第１気導音マイク１１の収音と第２気導音マイク２１の収音では、機械動作音の重畳部分において大きな違いがあるのが図４の音声波形からもわかる。
【００２４】
第１パワー算出部１４は、第１発話データ記憶部１３に記憶された第１発話データの量子化データを、音声信号のＬＰＣ分析手法を用いて短時間フーリエスペクトル分析を行う（各分析方法の詳細は参考文献参照）。この実施の形態１におけるフレーム化処理はフレーム長２０ｍｓフレーム間隔１０ｍｓで行うものとする。第１パワー算出部１４は得られたパワーの平均をフレーム毎に記憶する（ステップＳＴ３）。当該フレーム毎に記憶された第１気導音のパワーを図５に示している。
【００２５】
音声区間検出部１５は、第１パワー算出部１４において算出されたパワースペクトルを参照し、第１気導音マイク１１が収音した音声のみを用いて音声区間を検出する（ステップＳＴ４）。具体例である「てーぶあんぜんきょりかくほすいっち」の音声から検出した音声区間を図６に示している。
【００２６】
第１デコーダ部１６は、音声区間検出部１５から入力されるパワースペクトルの情報から、対応した音響特徴量の系列を抽出し、第１音響モデル記憶部１７に記憶された第１音響モデルと言語モデル記憶部１８に記憶された言語モデルとを照合することにより、第１気導音マイク１１で収音された音声に最も近い単語列を探索する（ステップＳＴ５）。詳細には、参考文献に記載されたフレーム同期の単語列の探索処理を行う。これにより、認識した単語と、当該単語の始端および終端のフレーム番号を記憶する。
なお、ステップＳＴ５の探索処理により具体例で示した音声から単語列「せぶんあんぜんきょりかくほすいっち」（セブン安全距離確保スイッチ）が得られたものとする。探索結果の音声波形との単語列の対応を図６に、得られた始端フレーム番号、および終端フレーム番号に対応する認識単語の情報を図７に示している。
【００２７】
ここで、ステップＳＴ５の探索で用いる第１音響モデルは、第１気導音マイク１１の収音音声を事前にＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）で学習した音響モデルである。第１気導音マイク１１の収音音声は、外部の騒音に対して頑健であるが、第２気導音マイク２１のような従来のマイクとは大きく特性が異なる。その特性の違いを示すために、図８に第２気導音マイク２１に対する第１気導音マイク１１のコヒーレンスを示している。図８のグラフは、第１気導音マイク１１と第２気導音マイク２１で同一の話者のバランス文の音声を収録し、５名の話者ごとにコヒーレンスを算出したものである。
【００２８】
図８に示す通り、第２気導音マイク２１に対する第１気導音マイク１１の音は相関が非常に低く、さらに話者間のバラツキが大きい。このため、従来の第２気導音マイク２１の収音音声で学習した音響モデル（第２音響モデル）では、第１気導音マイク１１の音声認識が不可能なため、第２気導音マイク２１とは別に第１気導音の収音音声を学習した音響モデル（第１音響モデル）が必要となる。なお、言語モデル記憶部１８に記憶された言語モデルは単語Ｎグラムモデル（参考文献参照）と同様である。
【００２９】
第１単語区間抽出部１９は、ステップＳＴ５において第１デコーダ部１６が探索した各単語に対応して、単語の発話区間を抽出する（ステップＳＴ６）。なお、単語の発話区間は、始端フレーム番号および終端フレーム番号で得られる。第２パワー算出部２４は、ステップＳＴ６において第１単語区間抽出部１９が抽出した単語の発話区間に対応する区間の音声を、第２発話データ記憶部２３に記憶された第２発話データから抽出し、パワースペクトルを抽出する（ステップＳＴ７）。図９に、抽出された発話区間に対応する第１および第２気導音マイク１１，２１のパワースペクトルを示している。なお、第１気導音マイク１１のパワースペクトルは実線で示し、第２気導音マイク２１のパワースペクトルは破線で示している。
【００３０】
単語区間判定部２５は、以下の式（１）により、第２気導音パワーＸ２と第１気導音パワーＸ１の差分パワーを算出し、単語区間における最大差分パワーＮ_ｗを算出する。最大差分パワーＮ_ｗは、相当する単語区間での騒音レベルの最大値となる。

式（１）において、ｗは単語番号、ｗｓは単語の始端フレーム番号、ｗｅは単語の終端フレーム番号を示す。
【００３１】
式（１）に基づき算出した最大差分パワーＮ_ｗが所定の閾値を越えている場合（判定０）には第１気導音マイク１１の発話区間を音声認識対象として用い、所定の閾値以内である（判定１）場合には第２気導音マイク２１の発話区間を音声認識対象として用いるように判定処理を行う（ステップＳＴ８）。
図１０は、各フレーム番号に対する差分パワーの値を示している。また図１１は、各単語の発話区間（始端フレーム番号と終端フレーム番号）における最大差分パワーＮｗおよび単語区間判定部２５による判定結果、単語番号、第１デコーダ部１６による探索結果である認識単語を示している。図１１に示した例では、所定の閾値を「１２」と設定し、単語番号１〜２の範囲（フレーム５６７〜１４３４）および単語番号５の範囲（フレーム２１６４〜２７２２）の判定は「１」であり第２気導音マイク２１の発話区間を音声認識対象として用いる。一方、単語番号３〜４の範囲（フレーム１４３４〜２１６４）の判定は「０」であり、第１気導音マイク１１の発話区間を音声認識対象として用いる。
【００３２】
続いて第２デコーダ部２６は、ステップＳＴ８における発話区間の判定処理結果を参照し、第２気導音マイク２１の発話区間を用いる単語番号の範囲（上述した単語番号１〜２，５）について、第２パワー算出部２４が算出したパワースペクトルの情報から対応した音響特徴量の系列を抽出し、第２音響モデル記憶部２７に記憶された第２音響モデルと言語モデル１８に記憶された言語モデルとを照合することにより、第２気導音マイク２１の音声に最も近い単語列の探索を行う（ステップＳＴ９）。なお、第２デコーダ部２６の単語列の探索処理の詳細については後述する。
【００３３】
ステップＳＴ９の第２デコーダ部２６の単語列の探索処理結果として、単語番号１〜２の範囲（フレーム５６７〜１４３４）として「てーぶあんぜん」（底部、安全）、単語番号５の範囲（フレーム２１６４〜２７２２）として「すいっち」（スイッチ）が得られる。音声波形との対応を図１２に示している。
単語列置換部２８は、第２デコーダ部２６の認識結果を、第１デコーダ部１６の認識結果の対応する単語列と置換する。つまり、図１１において示したフレーム５６７〜１４３４を「てーぶあんぜん」（底部安全）に置き換え、フレーム２１６４〜２７２２を「すいっち」（スイッチ）に置き換える（ステップＳＴ１０）。
【００３４】
表示部２９は、ステップＳＴ１０において置き換え処理が行われた単語列「てーぶあんぜんきょりかくほすいっち」（底部安全距離確保スイッチ）を表示し（ステップＳＴ１１）、処理を終了する。
【００３５】
次に、第２デコーダ部２６における単語列探索処理の詳細について説明する。
第２デコーダ部２６は、例えばＢａｕｍ−Ｗｅｌｔｃｈのアルゴリズムなど（参考文献参照）を用いて予め学習された音素ＨＭＭの第２音響モデルと、言語モデル記憶部１８に記憶された言語モデル（図１３参照）のデータを用いてツリー構造の辞書による単語のモデル化（参考文献参照）を行う。
【００３６】
また、同じく言語モデルに記録されたＮグラム文法を用いて、以下の式（２）により単語間遷移確率を近似し、言語モデルの出力確率Ｐ(Ｗ)を計算する。

なお、Ｗは単語列ｗ_１, ｗ_２，・・・，ｗ_ｎ、ＮはＮグラムの次数、ｎは単語数を示している。
ここで、Ｗを、単語区間判定部２５で判定「０」となった部分の単語列Ｗ１、および単語区間判定部２５で判定「１」となった部分の単語列Ｗ２に分解し、対数尤度で計算する。つまり、本実施例では、図１３の１グラム対数確率を用いて、以下のように計算される。

本実施例では、説明の簡単のため１グラムを用いたが、以下に示すように２グラム以上の単語連接確率を利用し、単語列Ｗ１と単語列Ｗ２の接続を考慮しても良い。このとき「＃」は、文頭、および文末の記号である。

【００３７】
また、前述した音響特徴量の系列と単語間遷移確率を用いて探索アルゴリズム（参考文献参照）により連続音声認識を行う。音素単位の音響特徴量を表現したＨＭＭで入力音声の一部分ｙとｍ_ｊとの照合を以下の式（３）により行う。

なお、Ｙは音素列ｍ_１，ｍ_２，・・・，ｍ_ｊを示している。
【００３８】
これにより、第１デコーダ部１６によって抽出され、単語区間判定部２５で判定「０」となった部分の音響特徴量の系列Ｙ１と単語列Ｗ１、および単語区間判定部２５で判定「１」となった部分の音響特徴量の系列Ｙ２と単語列Ｗ２を以下の式（４）により求める。

なお、Ｗ１、Ｗ２は単語列ｗ_１，ｗ_２，・・・，ｗ_ｎの部分単語列を示している。
【００３９】
以上のように、この実施の形態１によれば、体内に密閉装着した第１気導音マイク１１を耐騒音の入力マイクとして用いるとともに、第２気導音マイク２１を通常マイクとして用いることで、音声区間の中で騒音レベルが小さい発話区間は、第２気導音マイク２１を優先し、騒音レベルが大きい発音区間では、第１気導音マイク１１の発話区間を用いるように構成し、さらに当該発話区間の判定を、言語モデルの単語情報を用いるように構成したので、非定常騒音に頑健に単語列を認識することができる。
【００４０】
また、この実施の形態１によれば、第１単語区間抽出部１９の抽出した単語の発話区間に対応する区間の音声を、第２発話データから抽出してパワースペクトルを抽出するように構成したので、第２パワー算出部２４におけるパワー算出区間を限定することができる。
【００４１】
また、この実施の形態１によれば、第２デコーダ部２６は単語区間判定部２５の判定結果に対応する単語列について探索処理を行い、単語列置換部２８が第１デコーダ部１６の認識結果を第２デコーダ部２６の認識結果の対応する単語列に置き換えるように構成したので、第２デコーダ部２６は必要最小限の発話区間を認識すればよく、効率よく騒音レベルの高い部分を除くことができる。また、音声区間の一部分に局所的な非定常騒音が重畳した場合でも音声を精度よく認識することができる。
【００４２】
実施の形態２．
この実施の形態２では、第２気導音マイク２１における騒音の小さい区間を用いて、第１音響モデルを自動学習する構成を示す。図１４は、実施の形態２による音声認識装置の構成を示すブロック図である。実施の形態１の音声認識装置に操作入力部３１および第１音響モデル学習部３２を追加して設けている。なお以下では、実施の形態１による音声認識装置の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。
【００４３】
操作入力部３１は、ユーザが表示部２９に表示された音声認識結果を確認した後、当該音声認識結果を「受理する」あるいは「棄却する」かの指定を入力する操作ボタンなどで構成される入力手段である。第１音響モデル学習部３２は、単語列置換部２８が置き換えを行った単語区間のうち、第１デコーダ部１６と第２デコーダ部２６の認識結果が異なった区間を学習区間として記憶する。さらに、得られた学習区間の第１気導音マイク１１による音声と、受理された認識結果を用いて単語の連結学習を行う。学習結果を第１気導音マイク１１の収音音声に対する音響モデルとして第１音響モデル記憶部１７に記憶させる。
【００４４】
次に、実施の形態２の音声認識装置の動作について説明する。図１５は、実施の形態２による音声認識装置の動作を示すフローチャートである。ステップＳＴ１１までの処理は、実施の形態１で示した音声認識装置の動作と同一であるため、説明を省略する。
ステップＳＴ１１において音声認識結果が表示部２９に表示されると、ユーザは当該音声認識結果を受理するかあるいは却下するか操作入力部３１を介して入力する。操作入力部３１は、音声認識結果を受理する旨が入力されたか否か判定を行う（ステップＳＴ２１）。
【００４５】
ステップＳＴ２１において、受理する旨が入力されると第１音響モデル学習部３２は、単語列置換部２８から単語の置き換えに関する情報を取得し、置き換えを行った単語区間のうち第１デコーダ部１６と第２デコーダ部２６とで認識結果が異なった単語区間を学習区間として抽出する処理を行い（ステップＳＴ２２）、当該学習区間が存在するか否か判定を行う（ステップＳＴ２３）。ステップＳＴ２３において学習区間が存在すると判定された場合には、抽出した学習区間の第１気導音マイク１１が収音した音声と置き換えられた認識結果とを用いて単語の連結学習（参考文献参照）を行う（ステップＳＴ２４）。ステップＳＴ２４において学習した音響モデルを第１音響モデルとして第１音響モデル記憶部１７に記憶させ（ステップＳＴ２５）、処理を終了する。
一方、ステップＳＴ２１において棄却する旨が入力される、あるいはステップＳＴ２３において学習区間が存在しないと判定された場合には、音響モデルの学習は行わずに処理を終了する。
【００４６】
さらに実施の形態１で用いた例（図７参照）を用いて説明を行うと、フレーム５６７〜９２２の「せぶん」（セブン）と第２デコーダ部２６の認識結果の「てーぶ」（底部）が同一区間で認識結果が異なる。そのため、ステップＳＴ２２として当該フレーム５６７〜９２２を学習区間として抽出し、ステップＳＴ２３として学習区間が存在すると判定を行う。次にステップＳＴ２４として、フレーム５６７〜９２２に対応する第１発話データの音響特徴系列と、第２デコーダ部２６の認識結果単語「てーぶ」（底部）の単語連結学習を行う。その後、ステップＳＴ２５において、連結学習結果を第１気導音マイク１１に入力された音声「てーぶ」に対する音響モデルとして第１音響モデル記憶部１７に記憶させる。
【００４７】
以上のように、この実施の形態２によれば、表示部２９に表示した音声認識結果が受理された場合に、単語列置換部２８において置き換えた単語区間のうち、第１デコーダ部１６と第２デコーダ部２６とで認識結果が異なった単語区間を学習区間として連結学習を行い、連結学習の結果を第１音響モデルとして記憶させるように構成したので、話者依存性の高い第１気導音マイク１１の第１音響モデルを学習させ、音声認識精度を向上させることができる。また、当該音声認識装置の使用により音響モデルを学習することができ、高騒音下での音声認識精度を向上させることが可能となる。
【００４８】
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
【符号の説明】
【００４９】
１１第１気導音マイク、１１ａマイク部、１１ｂ防音部材、１２，２２Ａ／Ｄ変換部、１３第１発話データ記憶部、１４第１パワー算出部、１５音声区間検出部、１６第１デコーダ部、１７第１音響モデル記憶部、１８言語モデル記憶部、１９第１単語区間抽出部、２１第２気導音マイク、２１´ ブーム、２３第２発話データ記憶部、２４第２パワー算出部、２５単語区間判定部、２６第２デコーダ部、２７第２音響モデル記憶部、２８単語列置換部、２９表示部、３１操作入力部、３２第１音響モデル学習部。

【特許請求の範囲】
【請求項１】
体内に密閉装着され、音声を収音する第１気導音マイクと、
体外に装着され、音声を収音する第２気導音マイクと、
前記第１気導音マイクが収音した音声から第１単語列を認識する第１単語列認識部と、
前記第１単語列を構成する各単語に対応する発話区間を抽出する第１単語区間抽出部と、
前記第１単語区間抽出部が抽出した発話区間について、前記第２気導音マイクが収音した音声から第２単語列を認識する第２単語列認識部と、
前記第１単語列のうち騒音レベルが所定値以下の単語列を、前記第２単語列に置き換える単語列置換部とを備えた音声認識装置。
【請求項２】
前記第１気導音マイクが収音した音声のパワー値を算出する第１パワー算出部と、
前記第２気導音マイクが収音した音声のパワー値を算出する第２パワー算出部と、
前記第１単語区間抽出部が抽出した発話区間において、前記第１パワー算出部が算出したパワー値と前記第２パワー算出部が算出したパワー値との差分最大値を算出し、当該差分最大値が前記所定値以下か判定する単語区間判定部とを備え、
前記単語列置換部は、前記単語区間判定部において差分最大値が所定値以下であると判定された発話区間の第１単語列を第２単語列に置き換えることを特徴とする請求項１記載の音声認識装置。
【請求項３】
前記第１単語列認識部が前記第１気導音マイクの収音する音声を認識する際に参照する音響モデルを記憶する音響モデル記憶部と、
前記単語列置換部において第１単語列が第２単語列に置き換えられた発話区間について、前記第１気導音マイクが収音した音声と前記第２単語列とを参照して前記音響モデル記憶部に記憶された音響モデルを学習する音響モデル学習部とを備えたことを特徴とする請求項１または請求項２記載の音声認識装置。
【請求項４】
前記単語列置換部が置き換えた単語列を受理するか否かの入力を受け付ける操作入力部を備え、
前記音響モデル学習部は、前記操作入力部が単語列の受理を示す入力を受け付けると前記音響モデルの学習を開始することを特徴とする請求項３記載の音声認識装置。
【請求項５】
体内に密閉装着された第１気導音マイクが収音した音声から第１単語列を認識する第１単語認識ステップと、
前記第１単語列を構成する各単語に対応する発話区間を抽出する第１単語区間抽出ステップと、
前記発話区間について、体外に装着された第２気導音マイクが収音した音声から第２単語列を認識する第２単語列認識ステップと、
前記第１単語列のうち騒音レベルが所定値以下の単語列を、前記第２単語列に置き換える単語列置換ステップとを備えた音声認識方法。
【請求項６】
前記単語列置換ステップでは、前記第１気導音マイクが収音した音声のパワー値と前記第２パワー算出ステップにおいて算出したパワー値との差分最大値が所定値以下であると判定された発話区間の第１単語列を第２単語列に置き換えることを特徴とする請求項５記載の音声認識方法。

【図１】