音声認識装置および音声認識方法
【課題】非定常騒音の混入に対して頑健な音声認識を行う。
【解決手段】体内に密閉装着され音声を収音する第1気導音マイク11と、体外に装着され音声を収音する第2気導音マイク21と、第1気導音マイク11が収音した音声から第1単語列を認識する第1デコーダ部16と、第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出部19と、第1単語区間抽出部19が抽出した発話区間について第2気導音マイク21が収音した音声から第2単語列を認識する第2デコーダ部26と、第1単語列のうち騒音レベルが所定値以下の単語列を第2単語列に置き換える単語列置換部28とを備えた。
【解決手段】体内に密閉装着され音声を収音する第1気導音マイク11と、体外に装着され音声を収音する第2気導音マイク21と、第1気導音マイク11が収音した音声から第1単語列を認識する第1デコーダ部16と、第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出部19と、第1単語区間抽出部19が抽出した発話区間について第2気導音マイク21が収音した音声から第2単語列を認識する第2デコーダ部26と、第1単語列のうち騒音レベルが所定値以下の単語列を第2単語列に置き換える単語列置換部28とを備えた。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、騒音環境下においても、精度の高い音声認識を実行する音声認識装置および音声認識方法に関するものである。
【背景技術】
【0002】
近年、ユーザが発声する音声を計算機が認識し、認識データを入力する装置が提案されている。特許文献1に示すように、特に点検や保守作業などで手がふさがっている場面や、目が離せないなどの場面で、ハンズフリー、アイズフリーに音声でシステムにデータ入力できることから、作業を支援するための装置として音声認識のニーズが高い。しかし、点検や保守現場では、対象機器や、周囲の大きな騒音が多く、これらの騒音が音声に混合して入力されてしまうため、認識精度が低下するという課題があった。
【0003】
この課題を解決するため、騒音環境下における音声認識装置が提案されている。比較的効果のある従来の方法として、例えば以下の方法がある。
(ア)指向性の強いマイクを用いて発話者の音声のみを抽出する方法
(イ)発話者音声を収音するマイクと、騒音を収音するマイクの2つのマイクを備えて、発話者音声成分から騒音成分を差し引く手法により発話者音声を強調する方法
(ウ)骨に伝わる振動を、加速度センサーで構成された特殊なマイクである骨伝導マイクで取得する方法
【0004】
しかし、(ア)の方式では、作業者が装着できるような指向性の高い小型のマイクを形成することが難しいとともに、高騒音下では、マイクに騒音が回り込んでしまう、(イ)の方法でも、高騒音下では、発話者音声が騒音成分に埋もれてしまうため、高い効果が得られない、(ウ)の方法では、高いSNR(Signal to Noise Ratio)が得られるが、骨伝導マイクでは高周波成分が得られないため音声認識では精度が得られないという課題があった。
【0005】
方式(ア)から方式(ウ)の課題を解決するように構成された特許文献2について図を参照しながら説明を行う。図16は従来の音声認識装置の構成を示すブロック図である。図17は従来の音声認識装置による認識結果を示す図であり、図17(a)は収音スペクトラム、図17(b)は収音音声波形を示している。
図16に示すように、従来の音声認識装置は骨伝導マイク91、気導音マイク92、A/D変換部93、パワー算出部94、音声区間検出部95、音声認識を行うデコーダ部96、音響モデル記憶部97、言語モデル記憶部98および表示部99で構成されている。
【0006】
まず、骨伝導マイク91と気導音マイク92は、収音した音声を電気信号に変換し、アナログデータとして信号入力する。A/D変換部93は、骨伝導マイク91および気導音マイク92から取り込んだアナログデータをA/D変換し、量子化した後、RAMなど(図示せず)に記憶する。パワー算出部94は、RAMに記憶された量子化データから、既知の音声信号の短時間フーリエ分析手法やLPC(Linear Predictive Coding)分析手法(後述する参考文献参照)を用いて、パワースペクトルを抽出する。音声区間検出部95は、骨伝導マイク91および気導音マイク92のそれぞれのパワースペクトルを用いて音声区間を決定する。デコーダ部96は、パワースペクトルの情報から、対応した音響特徴量の系列を抽出し、音響モデル記憶部97に記憶された音響モデルと言語モデル記憶部98に記憶された言語モデルとを照合することにより、音声に最も近い単語列を探索する。表示部99は、デコーダ部96の探索結果である単語列を表示する。これらの処理により音声を認識することができる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平11−228047号公報
【特許文献2】特開平4−276799号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上述した特許文献2に開示された技術では、次のような課題を有している。骨伝導マイク91を用いているため、気導音マイク92に比べて高周波成分を取得することができない。図17(a)に、骨伝導マイクと体内密閉マイク(気導音マイク)を用いて、同時に同じ音声を収録したスペクトラムを示す。図17(a)に示すように骨伝導マイクでは、1KHz以上の周波数が得られないため、認識精度が低下する課題がある。また、骨伝導マイクを用いた場合、人体と機器の接触音を収音してしまうという課題がある。
【0009】
図17(b)に、骨伝導マイクと体内密閉マイク(気導音マイク)で、同時に同じ音声と機器操作音(テスターによる電圧測定)を収録した音声波形を示す。骨伝導マイクでは、音声波形と同じ程度の大きさで機器操作音が収音されてしまっているが、体内密閉マイクでは、機器操作音の影響は小さかった。点検作業では、作業者が機器を扱うときの機器との接触音が起こるため、これを振動として大きく拾ってしまうという課題があった。さらに、最も大きな課題として、非定常騒音に対する頑健性が低いことが挙げられる。従来の音声認識装置では、音声区間検出に問題がなくても、区間内に短時間でも大きな騒音があると、単語認識結果が連鎖して影響を受けて誤認識しまうという課題があった。
【0010】
この発明は、上記のような課題を解決するためになされたもので、非定常騒音の混入に対して頑健な音声認識を行うことを目的とする。
【課題を解決するための手段】
【0011】
この発明に係る音声認識装置は、体内に密閉装着され、音声を収音する第1気導音マイクと、体外に装着され、音声を収音する第2気導音マイクと、第1気導音マイクが収音した音声から第1単語列を認識する第1単語列認識部と、第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出部と、第1単語区間抽出部が抽出した発話区間について、第2気導音マイクが収音した音声から第2単語列を認識する第2単語列認識部と、第1単語列のうち騒音レベルが所定値以下の単語列を、第2単語列に置き換える単語列置換部とを備えるものである。
【発明の効果】
【0012】
この発明によれば、第1気導音マイクが収音した音声から認識した第1単語列のうち騒音レベルが所定値以下の単語列を、第2気導音マイクが収音した音声から認識した第2単語列に置き換えるように構成したので、非定常音声の混入に対して頑健に単語列を認識することができる。
【図面の簡単な説明】
【0013】
【図1】実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】実施の形態1による第1および第2気導音マイクの構成を示す説明図である。
【図3】実施の形態1による音声認識装置の動作を示すフローチャートである。
【図4】実施の形態1による音声認識装置の第1および第2気導音マイクの音声波形を示す図である。
【図5】実施の形態1による音声認識装置の第1気導音のパワーを示す図である。
【図6】実施の形態1による音声認識装置の音声区間検出部の音声区間の検出を示す図である。
【図7】実施の形態1による音声認識装置の始端および終端フレームと対応する単語情報を示す説明図である。
【図8】実施の形態1による音声認識装置の第2気導音マイクに対する第1気導音マイクのコヒーレンスを示す図である。
【図9】実施の形態1による音声認識装置の第1および第2気導音パワーを示す図である。
【図10】実施の形態1による音声認識装置の差分パワーを示す図である。
【図11】実施の形態1による音声認識装置の最大差分パワーと判定結果を示す図である。
【図12】実施の形態1による音声認識装置の第2デコーダ部の探索結果を示す図である。
【図13】実施の形態1による音声認識装置の言語モデルの一例を示す図である。
【図14】実施の形態2による音声認識装置の構成を示すブロック図である。
【図15】実施の形態2による音声認識装置の動作を示すフローチャートである。
【図16】従来の音声認識装置の構成を示すブロック図である。
【図17】従来の音声認識装置の収音スペクトラムおよび収音音声波形を示す図である。
【発明を実施するための形態】
【0014】
以下、説明に用いる専門用語は以下の参考文献1から参考文献3に示される用語を用いるものとし、また既知の分析手法の詳細については参考文献1から参考文献3を参照するものとする。
[参考文献1]
鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」株式会社オーム社、平成13年5月15日
[参考文献2]
北研二著、「確率的言語モデル」財団法人東京大学出版会、1999年11月25日
[参考文献3]
中川聖一著、「確率モデルによる音声認識」社団法人電子情報通信学会、昭和63年7月1日
【0015】
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
音声認識装置は、第1および第2気導音マイク11,21、A/D変換部12,22、第1および第2発話データ記憶部13,23、第1および第2パワー算出部14,24、音声区間検出部15、第1および第2デコーダ部(第1および第2単語列認識部)16,26、第1音響モデル記憶部(音響モデル記憶部)17、言語モデル記憶部18、第1単語区間抽出部19、単語区間判定部25、第2音響モデル記憶部27、単語列置換部28および表示部29で構成されている。
【0016】
第1気導音マイク11は、発話者の音声を収音するマイクであり、体内に挿入する気導音マイクである。第2気導音マイク21は、発話者の口元で収音する接話マイクである。
図2は、実施の形態1による音声認識装置の第1および第2気導音マイクの構成および構造を示す図である。図2(a)は第1および第2気導音マイクの構成および装着例を示し、図2(b)は第1気導音マイクの構造を示す図である。
図2(a)に示すように、第1気導音マイク11と第2気導音マイク21はブーム21´により接続され、第1気導音マイク11はユーザの耳孔に挿入され、第2気導音マイク21はユーザの口元に位置する。さらに第1気導音マイク11は、図2(b)に示すように小型のマイク部11aが、耳孔に挿入可能な形状を有しており、挿入口は防音部材11bで包まれ、マイク部11aの挿入により耳孔を密閉して外部からの音を遮断すると共に、鼓膜から伝わる気導音を収音する。
【0017】
次に、A/D変換部12,22は、第1および第2気導音マイク11,21から入力されるアナログデータをA/D変換して量子化する。第1および第2発話データ記憶部13,23は、それぞれA/D変換部12,22において変換された量子化データを記憶する。第1パワー算出部14は、第1発話データ記憶部13から第1気導音マイク11の量子化データを取得し、音声信号の短時間フーリエ分析手法やLPC分析手法(参考文献参照)を用いて当該量子化データからパワースペクトルを抽出する。
【0018】
音声区間検出部15は、第1気導音マイク11のパワースペクトルを用いて音声区間を検出する。音声区間検出の手法は公知であるため、説明は省略する。第1デコーダ部16は、音声区間検出部15において検出された音声区間のパワースペクトルの情報から、対応した音響特徴量の系列を抽出し、第1音響モデル記憶部17に記憶された音響モデルと言語モデル記憶部18に記憶された言語モデルとを照合することにより、第1気導音マイク11が収音した音声に最も近い単語列を探索し、各単語に対応する音声区間と共に出力する。
【0019】
第1音響モデル記憶部17は、第1気導音マイク11で収音した音声を認識するのに適した音響モデルを記憶している。言語モデル記憶部18は、言語モデルを記憶している。第1単語区間抽出部19は、第1デコーダ部16が探索した単語列を構成する各単語に対応する発話区間を抽出する。
【0020】
第2パワー算出部24は、第1単語区間抽出部19が抽出した発話区間に対応する区間の音声について、第2発話データ記憶部23から第2気導音マイク21の量子化データを取得し、当該量子化データからパワースペクトルを抽出する。単語区間判定部25は、第1単語区間抽出部19から入力される第1気導音マイク11のパワースペクトル、および第2パワー算出部24から入力される第2気導音マイク21のパワースペクトルを参照して、第1気導音マイク11の発話区間を用いるか、あるいは第2気導音マイク21の発話区間を用いるか判定を行う。
【0021】
第2デコーダ部26は、単語区間判定部25において第2気導音マイク21の発話区間を用いると判定された部分発話の範囲について、第2気導音マイク21のパワースペクトルの情報から対応した音響特徴量の系列を抽出し、第2音響モデル記憶部27に記憶された音響モデルと言語モデル記憶部18に記憶された言語モデルとを照合し、第2気導音マイク21の音声に最も近い単語列を探索する。単語列置換部28は、第1デコーダ部16における認識結果である単語列のうち、対応する第2デコーダ部26において探索された単語列を置き換える。表示部29は、単語列置換部28において置換された結果である単語列を表示する。
【0022】
次に、実施の形態1の音声認識装置において、音声を認識して単語列を出力表示する処理の詳細について図3のフローチャートを参照しながら説明を行う。また、ここでは「てーぶ あんぜん きょり かくほ すいっち」(底部 安全 距離 確保 スイッチ)の発声に、機械動作音が騒音として混入した場合を例に挙げ、当該具体例と共に動作の説明を行う。
【0023】
第1および第2気導音マイク11,21は、音声を収音して電気信号に変換し、アナログデータとして信号を入力する(ステップST1)。A/D変換部12は、ステップST1において第1気導音マイク11から入力されたアナログデータをA/D変換して量子化した後、デジタルデータとして第1発話データ記憶部13に記憶させる。同様に、A/D変換部22は、ステップST1において第2気導音マイク21から入力されたアナログデータをA/D変換して量子化した後、デジタルデータとして第2発話データ記憶部23に記憶させる(ステップST2)。
図4に、第1気導音マイク11の音声と第2気導音マイク21の音声の時間軸を揃えた音声波形を示している。図4では、1.43秒から2.02秒の間に機械動作音が重畳している。また、第1気導音マイク11の収音と第2気導音マイク21の収音では、機械動作音の重畳部分において大きな違いがあるのが図4の音声波形からもわかる。
【0024】
第1パワー算出部14は、第1発話データ記憶部13に記憶された第1発話データの量子化データを、音声信号のLPC分析手法を用いて短時間フーリエスペクトル分析を行う(各分析方法の詳細は参考文献参照)。この実施の形態1におけるフレーム化処理はフレーム長20msフレーム間隔10msで行うものとする。第1パワー算出部14は得られたパワーの平均をフレーム毎に記憶する(ステップST3)。当該フレーム毎に記憶された第1気導音のパワーを図5に示している。
【0025】
音声区間検出部15は、第1パワー算出部14において算出されたパワースペクトルを参照し、第1気導音マイク11が収音した音声のみを用いて音声区間を検出する(ステップST4)。具体例である「てーぶ あんぜん きょり かくほ すいっち」の音声から検出した音声区間を図6に示している。
【0026】
第1デコーダ部16は、音声区間検出部15から入力されるパワースペクトルの情報から、対応した音響特徴量の系列を抽出し、第1音響モデル記憶部17に記憶された第1音響モデルと言語モデル記憶部18に記憶された言語モデルとを照合することにより、第1気導音マイク11で収音された音声に最も近い単語列を探索する(ステップST5)。詳細には、参考文献に記載されたフレーム同期の単語列の探索処理を行う。これにより、認識した単語と、当該単語の始端および終端のフレーム番号を記憶する。
なお、ステップST5の探索処理により具体例で示した音声から単語列「せぶん あんぜん きょり かくほ すいっち」(セブン 安全 距離 確保 スイッチ)が得られたものとする。探索結果の音声波形との単語列の対応を図6に、得られた始端フレーム番号、および終端フレーム番号に対応する認識単語の情報を図7に示している。
【0027】
ここで、ステップST5の探索で用いる第1音響モデルは、第1気導音マイク11の収音音声を事前にHMM(Hidden Markov Model)で学習した音響モデルである。第1気導音マイク11の収音音声は、外部の騒音に対して頑健であるが、第2気導音マイク21のような従来のマイクとは大きく特性が異なる。その特性の違いを示すために、図8に第2気導音マイク21に対する第1気導音マイク11のコヒーレンスを示している。図8のグラフは、第1気導音マイク11と第2気導音マイク21で同一の話者のバランス文の音声を収録し、5名の話者ごとにコヒーレンスを算出したものである。
【0028】
図8に示す通り、第2気導音マイク21に対する第1気導音マイク11の音は相関が非常に低く、さらに話者間のバラツキが大きい。このため、従来の第2気導音マイク21の収音音声で学習した音響モデル(第2音響モデル)では、第1気導音マイク11の音声認識が不可能なため、第2気導音マイク21とは別に第1気導音の収音音声を学習した音響モデル(第1音響モデル)が必要となる。なお、言語モデル記憶部18に記憶された言語モデルは単語Nグラムモデル(参考文献参照)と同様である。
【0029】
第1単語区間抽出部19は、ステップST5において第1デコーダ部16が探索した各単語に対応して、単語の発話区間を抽出する(ステップST6)。なお、単語の発話区間は、始端フレーム番号および終端フレーム番号で得られる。第2パワー算出部24は、ステップST6において第1単語区間抽出部19が抽出した単語の発話区間に対応する区間の音声を、第2発話データ記憶部23に記憶された第2発話データから抽出し、パワースペクトルを抽出する(ステップST7)。図9に、抽出された発話区間に対応する第1および第2気導音マイク11,21のパワースペクトルを示している。なお、第1気導音マイク11のパワースペクトルは実線で示し、第2気導音マイク21のパワースペクトルは破線で示している。
【0030】
単語区間判定部25は、以下の式(1)により、第2気導音パワーX2と第1気導音パワーX1の差分パワーを算出し、単語区間における最大差分パワーNwを算出する。最大差分パワーNwは、相当する単語区間での騒音レベルの最大値となる。
式(1)において、wは単語番号、wsは単語の始端フレーム番号、weは単語の終端フレーム番号を示す。
【0031】
式(1)に基づき算出した最大差分パワーNwが所定の閾値を越えている場合(判定0)には第1気導音マイク11の発話区間を音声認識対象として用い、所定の閾値以内である(判定1)場合には第2気導音マイク21の発話区間を音声認識対象として用いるように判定処理を行う(ステップST8)。
図10は、各フレーム番号に対する差分パワーの値を示している。また図11は、各単語の発話区間(始端フレーム番号と終端フレーム番号)における最大差分パワーNwおよび単語区間判定部25による判定結果、単語番号、第1デコーダ部16による探索結果である認識単語を示している。図11に示した例では、所定の閾値を「12」と設定し、単語番号1〜2の範囲(フレーム567〜1434)および単語番号5の範囲(フレーム2164〜2722)の判定は「1」であり第2気導音マイク21の発話区間を音声認識対象として用いる。一方、単語番号3〜4の範囲(フレーム1434〜2164)の判定は「0」であり、第1気導音マイク11の発話区間を音声認識対象として用いる。
【0032】
続いて第2デコーダ部26は、ステップST8における発話区間の判定処理結果を参照し、第2気導音マイク21の発話区間を用いる単語番号の範囲(上述した単語番号1〜2,5)について、第2パワー算出部24が算出したパワースペクトルの情報から対応した音響特徴量の系列を抽出し、第2音響モデル記憶部27に記憶された第2音響モデルと言語モデル18に記憶された言語モデルとを照合することにより、第2気導音マイク21の音声に最も近い単語列の探索を行う(ステップST9)。なお、第2デコーダ部26の単語列の探索処理の詳細については後述する。
【0033】
ステップST9の第2デコーダ部26の単語列の探索処理結果として、単語番号1〜2の範囲(フレーム567〜1434)として「てーぶ あんぜん」(底部、安全)、単語番号5の範囲(フレーム2164〜2722)として「すいっち」(スイッチ)が得られる。音声波形との対応を図12に示している。
単語列置換部28は、第2デコーダ部26の認識結果を、第1デコーダ部16の認識結果の対応する単語列と置換する。つまり、図11において示したフレーム567〜1434を「てーぶ あんぜん」(底部 安全)に置き換え、フレーム2164〜2722を「すいっち」(スイッチ)に置き換える(ステップST10)。
【0034】
表示部29は、ステップST10において置き換え処理が行われた単語列「てーぶ あんぜん きょり かくほ すいっち」(底部 安全 距離 確保 スイッチ)を表示し(ステップST11)、処理を終了する。
【0035】
次に、第2デコーダ部26における単語列探索処理の詳細について説明する。
第2デコーダ部26は、例えばBaum−Weltchのアルゴリズムなど(参考文献参照)を用いて予め学習された音素HMMの第2音響モデルと、言語モデル記憶部18に記憶された言語モデル(図13参照)のデータを用いてツリー構造の辞書による単語のモデル化(参考文献参照)を行う。
【0036】
また、同じく言語モデルに記録されたNグラム文法を用いて、以下の式(2)により単語間遷移確率を近似し、言語モデルの出力確率P(W)を計算する。
なお、Wは単語列w1, w2, ・・・, wn、NはNグラムの次数、nは単語数を示している。
ここで、Wを、単語区間判定部25で判定「0」となった部分の単語列W1、および単語区間判定部25で判定「1」となった部分の単語列W2に分解し、対数尤度で計算する。つまり、本実施例では、図13の1グラム対数確率を用いて、以下のように計算される。
本実施例では、説明の簡単のため1グラムを用いたが、以下に示すように2グラム以上の単語連接確率を利用し、単語列W1と単語列W2の接続を考慮しても良い。このとき「#」は、文頭、および文末の記号である。
【0037】
また、前述した音響特徴量の系列と単語間遷移確率を用いて探索アルゴリズム(参考文献参照)により連続音声認識を行う。音素単位の音響特徴量を表現したHMMで入力音声の一部分yとmjとの照合を以下の式(3)により行う。
なお、Yは音素列m1, m2, ・・・, mjを示している。
【0038】
これにより、第1デコーダ部16によって抽出され、単語区間判定部25で判定「0」となった部分の音響特徴量の系列Y1と単語列W1、および単語区間判定部25で判定「1」となった部分の音響特徴量の系列Y2と単語列W2を以下の式(4)により求める。
なお、W1、W2は単語列w1, w2, ・・・, wnの部分単語列を示している。
【0039】
以上のように、この実施の形態1によれば、体内に密閉装着した第1気導音マイク11を耐騒音の入力マイクとして用いるとともに、第2気導音マイク21を通常マイクとして用いることで、音声区間の中で騒音レベルが小さい発話区間は、第2気導音マイク21を優先し、騒音レベルが大きい発音区間では、第1気導音マイク11の発話区間を用いるように構成し、さらに当該発話区間の判定を、言語モデルの単語情報を用いるように構成したので、非定常騒音に頑健に単語列を認識することができる。
【0040】
また、この実施の形態1によれば、第1単語区間抽出部19の抽出した単語の発話区間に対応する区間の音声を、第2発話データから抽出してパワースペクトルを抽出するように構成したので、第2パワー算出部24におけるパワー算出区間を限定することができる。
【0041】
また、この実施の形態1によれば、第2デコーダ部26は単語区間判定部25の判定結果に対応する単語列について探索処理を行い、単語列置換部28が第1デコーダ部16の認識結果を第2デコーダ部26の認識結果の対応する単語列に置き換えるように構成したので、第2デコーダ部26は必要最小限の発話区間を認識すればよく、効率よく騒音レベルの高い部分を除くことができる。また、音声区間の一部分に局所的な非定常騒音が重畳した場合でも音声を精度よく認識することができる。
【0042】
実施の形態2.
この実施の形態2では、第2気導音マイク21における騒音の小さい区間を用いて、第1音響モデルを自動学習する構成を示す。図14は、実施の形態2による音声認識装置の構成を示すブロック図である。実施の形態1の音声認識装置に操作入力部31および第1音響モデル学習部32を追加して設けている。なお以下では、実施の形態1による音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
【0043】
操作入力部31は、ユーザが表示部29に表示された音声認識結果を確認した後、当該音声認識結果を「受理する」あるいは「棄却する」かの指定を入力する操作ボタンなどで構成される入力手段である。第1音響モデル学習部32は、単語列置換部28が置き換えを行った単語区間のうち、第1デコーダ部16と第2デコーダ部26の認識結果が異なった区間を学習区間として記憶する。さらに、得られた学習区間の第1気導音マイク11による音声と、受理された認識結果を用いて単語の連結学習を行う。学習結果を第1気導音マイク11の収音音声に対する音響モデルとして第1音響モデル記憶部17に記憶させる。
【0044】
次に、実施の形態2の音声認識装置の動作について説明する。図15は、実施の形態2による音声認識装置の動作を示すフローチャートである。ステップST11までの処理は、実施の形態1で示した音声認識装置の動作と同一であるため、説明を省略する。
ステップST11において音声認識結果が表示部29に表示されると、ユーザは当該音声認識結果を受理するかあるいは却下するか操作入力部31を介して入力する。操作入力部31は、音声認識結果を受理する旨が入力されたか否か判定を行う(ステップST21)。
【0045】
ステップST21において、受理する旨が入力されると第1音響モデル学習部32は、単語列置換部28から単語の置き換えに関する情報を取得し、置き換えを行った単語区間のうち第1デコーダ部16と第2デコーダ部26とで認識結果が異なった単語区間を学習区間として抽出する処理を行い(ステップST22)、当該学習区間が存在するか否か判定を行う(ステップST23)。ステップST23において学習区間が存在すると判定された場合には、抽出した学習区間の第1気導音マイク11が収音した音声と置き換えられた認識結果とを用いて単語の連結学習(参考文献参照)を行う(ステップST24)。ステップST24において学習した音響モデルを第1音響モデルとして第1音響モデル記憶部17に記憶させ(ステップST25)、処理を終了する。
一方、ステップST21において棄却する旨が入力される、あるいはステップST23において学習区間が存在しないと判定された場合には、音響モデルの学習は行わずに処理を終了する。
【0046】
さらに実施の形態1で用いた例(図7参照)を用いて説明を行うと、フレーム567〜922の「せぶん」(セブン)と第2デコーダ部26の認識結果の「てーぶ」(底部)が同一区間で認識結果が異なる。そのため、ステップST22として当該フレーム567〜922を学習区間として抽出し、ステップST23として学習区間が存在すると判定を行う。次にステップST24として、フレーム567〜922に対応する第1発話データの音響特徴系列と、第2デコーダ部26の認識結果単語「てーぶ」(底部)の単語連結学習を行う。その後、ステップST25において、連結学習結果を第1気導音マイク11に入力された音声「てーぶ」に対する音響モデルとして第1音響モデル記憶部17に記憶させる。
【0047】
以上のように、この実施の形態2によれば、表示部29に表示した音声認識結果が受理された場合に、単語列置換部28において置き換えた単語区間のうち、第1デコーダ部16と第2デコーダ部26とで認識結果が異なった単語区間を学習区間として連結学習を行い、連結学習の結果を第1音響モデルとして記憶させるように構成したので、話者依存性の高い第1気導音マイク11の第1音響モデルを学習させ、音声認識精度を向上させることができる。また、当該音声認識装置の使用により音響モデルを学習することができ、高騒音下での音声認識精度を向上させることが可能となる。
【0048】
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
【符号の説明】
【0049】
11 第1気導音マイク、11a マイク部、11b 防音部材、12,22 A/D変換部、13 第1発話データ記憶部、14 第1パワー算出部、15 音声区間検出部、16 第1デコーダ部、17 第1音響モデル記憶部、18 言語モデル記憶部、19 第1単語区間抽出部、21 第2気導音マイク、21´ ブーム、23 第2発話データ記憶部、24 第2パワー算出部、25 単語区間判定部、26 第2デコーダ部、27 第2音響モデル記憶部、28 単語列置換部、29 表示部、31 操作入力部、32 第1音響モデル学習部。
【技術分野】
【0001】
この発明は、騒音環境下においても、精度の高い音声認識を実行する音声認識装置および音声認識方法に関するものである。
【背景技術】
【0002】
近年、ユーザが発声する音声を計算機が認識し、認識データを入力する装置が提案されている。特許文献1に示すように、特に点検や保守作業などで手がふさがっている場面や、目が離せないなどの場面で、ハンズフリー、アイズフリーに音声でシステムにデータ入力できることから、作業を支援するための装置として音声認識のニーズが高い。しかし、点検や保守現場では、対象機器や、周囲の大きな騒音が多く、これらの騒音が音声に混合して入力されてしまうため、認識精度が低下するという課題があった。
【0003】
この課題を解決するため、騒音環境下における音声認識装置が提案されている。比較的効果のある従来の方法として、例えば以下の方法がある。
(ア)指向性の強いマイクを用いて発話者の音声のみを抽出する方法
(イ)発話者音声を収音するマイクと、騒音を収音するマイクの2つのマイクを備えて、発話者音声成分から騒音成分を差し引く手法により発話者音声を強調する方法
(ウ)骨に伝わる振動を、加速度センサーで構成された特殊なマイクである骨伝導マイクで取得する方法
【0004】
しかし、(ア)の方式では、作業者が装着できるような指向性の高い小型のマイクを形成することが難しいとともに、高騒音下では、マイクに騒音が回り込んでしまう、(イ)の方法でも、高騒音下では、発話者音声が騒音成分に埋もれてしまうため、高い効果が得られない、(ウ)の方法では、高いSNR(Signal to Noise Ratio)が得られるが、骨伝導マイクでは高周波成分が得られないため音声認識では精度が得られないという課題があった。
【0005】
方式(ア)から方式(ウ)の課題を解決するように構成された特許文献2について図を参照しながら説明を行う。図16は従来の音声認識装置の構成を示すブロック図である。図17は従来の音声認識装置による認識結果を示す図であり、図17(a)は収音スペクトラム、図17(b)は収音音声波形を示している。
図16に示すように、従来の音声認識装置は骨伝導マイク91、気導音マイク92、A/D変換部93、パワー算出部94、音声区間検出部95、音声認識を行うデコーダ部96、音響モデル記憶部97、言語モデル記憶部98および表示部99で構成されている。
【0006】
まず、骨伝導マイク91と気導音マイク92は、収音した音声を電気信号に変換し、アナログデータとして信号入力する。A/D変換部93は、骨伝導マイク91および気導音マイク92から取り込んだアナログデータをA/D変換し、量子化した後、RAMなど(図示せず)に記憶する。パワー算出部94は、RAMに記憶された量子化データから、既知の音声信号の短時間フーリエ分析手法やLPC(Linear Predictive Coding)分析手法(後述する参考文献参照)を用いて、パワースペクトルを抽出する。音声区間検出部95は、骨伝導マイク91および気導音マイク92のそれぞれのパワースペクトルを用いて音声区間を決定する。デコーダ部96は、パワースペクトルの情報から、対応した音響特徴量の系列を抽出し、音響モデル記憶部97に記憶された音響モデルと言語モデル記憶部98に記憶された言語モデルとを照合することにより、音声に最も近い単語列を探索する。表示部99は、デコーダ部96の探索結果である単語列を表示する。これらの処理により音声を認識することができる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平11−228047号公報
【特許文献2】特開平4−276799号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上述した特許文献2に開示された技術では、次のような課題を有している。骨伝導マイク91を用いているため、気導音マイク92に比べて高周波成分を取得することができない。図17(a)に、骨伝導マイクと体内密閉マイク(気導音マイク)を用いて、同時に同じ音声を収録したスペクトラムを示す。図17(a)に示すように骨伝導マイクでは、1KHz以上の周波数が得られないため、認識精度が低下する課題がある。また、骨伝導マイクを用いた場合、人体と機器の接触音を収音してしまうという課題がある。
【0009】
図17(b)に、骨伝導マイクと体内密閉マイク(気導音マイク)で、同時に同じ音声と機器操作音(テスターによる電圧測定)を収録した音声波形を示す。骨伝導マイクでは、音声波形と同じ程度の大きさで機器操作音が収音されてしまっているが、体内密閉マイクでは、機器操作音の影響は小さかった。点検作業では、作業者が機器を扱うときの機器との接触音が起こるため、これを振動として大きく拾ってしまうという課題があった。さらに、最も大きな課題として、非定常騒音に対する頑健性が低いことが挙げられる。従来の音声認識装置では、音声区間検出に問題がなくても、区間内に短時間でも大きな騒音があると、単語認識結果が連鎖して影響を受けて誤認識しまうという課題があった。
【0010】
この発明は、上記のような課題を解決するためになされたもので、非定常騒音の混入に対して頑健な音声認識を行うことを目的とする。
【課題を解決するための手段】
【0011】
この発明に係る音声認識装置は、体内に密閉装着され、音声を収音する第1気導音マイクと、体外に装着され、音声を収音する第2気導音マイクと、第1気導音マイクが収音した音声から第1単語列を認識する第1単語列認識部と、第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出部と、第1単語区間抽出部が抽出した発話区間について、第2気導音マイクが収音した音声から第2単語列を認識する第2単語列認識部と、第1単語列のうち騒音レベルが所定値以下の単語列を、第2単語列に置き換える単語列置換部とを備えるものである。
【発明の効果】
【0012】
この発明によれば、第1気導音マイクが収音した音声から認識した第1単語列のうち騒音レベルが所定値以下の単語列を、第2気導音マイクが収音した音声から認識した第2単語列に置き換えるように構成したので、非定常音声の混入に対して頑健に単語列を認識することができる。
【図面の簡単な説明】
【0013】
【図1】実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】実施の形態1による第1および第2気導音マイクの構成を示す説明図である。
【図3】実施の形態1による音声認識装置の動作を示すフローチャートである。
【図4】実施の形態1による音声認識装置の第1および第2気導音マイクの音声波形を示す図である。
【図5】実施の形態1による音声認識装置の第1気導音のパワーを示す図である。
【図6】実施の形態1による音声認識装置の音声区間検出部の音声区間の検出を示す図である。
【図7】実施の形態1による音声認識装置の始端および終端フレームと対応する単語情報を示す説明図である。
【図8】実施の形態1による音声認識装置の第2気導音マイクに対する第1気導音マイクのコヒーレンスを示す図である。
【図9】実施の形態1による音声認識装置の第1および第2気導音パワーを示す図である。
【図10】実施の形態1による音声認識装置の差分パワーを示す図である。
【図11】実施の形態1による音声認識装置の最大差分パワーと判定結果を示す図である。
【図12】実施の形態1による音声認識装置の第2デコーダ部の探索結果を示す図である。
【図13】実施の形態1による音声認識装置の言語モデルの一例を示す図である。
【図14】実施の形態2による音声認識装置の構成を示すブロック図である。
【図15】実施の形態2による音声認識装置の動作を示すフローチャートである。
【図16】従来の音声認識装置の構成を示すブロック図である。
【図17】従来の音声認識装置の収音スペクトラムおよび収音音声波形を示す図である。
【発明を実施するための形態】
【0014】
以下、説明に用いる専門用語は以下の参考文献1から参考文献3に示される用語を用いるものとし、また既知の分析手法の詳細については参考文献1から参考文献3を参照するものとする。
[参考文献1]
鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」株式会社オーム社、平成13年5月15日
[参考文献2]
北研二著、「確率的言語モデル」財団法人東京大学出版会、1999年11月25日
[参考文献3]
中川聖一著、「確率モデルによる音声認識」社団法人電子情報通信学会、昭和63年7月1日
【0015】
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
音声認識装置は、第1および第2気導音マイク11,21、A/D変換部12,22、第1および第2発話データ記憶部13,23、第1および第2パワー算出部14,24、音声区間検出部15、第1および第2デコーダ部(第1および第2単語列認識部)16,26、第1音響モデル記憶部(音響モデル記憶部)17、言語モデル記憶部18、第1単語区間抽出部19、単語区間判定部25、第2音響モデル記憶部27、単語列置換部28および表示部29で構成されている。
【0016】
第1気導音マイク11は、発話者の音声を収音するマイクであり、体内に挿入する気導音マイクである。第2気導音マイク21は、発話者の口元で収音する接話マイクである。
図2は、実施の形態1による音声認識装置の第1および第2気導音マイクの構成および構造を示す図である。図2(a)は第1および第2気導音マイクの構成および装着例を示し、図2(b)は第1気導音マイクの構造を示す図である。
図2(a)に示すように、第1気導音マイク11と第2気導音マイク21はブーム21´により接続され、第1気導音マイク11はユーザの耳孔に挿入され、第2気導音マイク21はユーザの口元に位置する。さらに第1気導音マイク11は、図2(b)に示すように小型のマイク部11aが、耳孔に挿入可能な形状を有しており、挿入口は防音部材11bで包まれ、マイク部11aの挿入により耳孔を密閉して外部からの音を遮断すると共に、鼓膜から伝わる気導音を収音する。
【0017】
次に、A/D変換部12,22は、第1および第2気導音マイク11,21から入力されるアナログデータをA/D変換して量子化する。第1および第2発話データ記憶部13,23は、それぞれA/D変換部12,22において変換された量子化データを記憶する。第1パワー算出部14は、第1発話データ記憶部13から第1気導音マイク11の量子化データを取得し、音声信号の短時間フーリエ分析手法やLPC分析手法(参考文献参照)を用いて当該量子化データからパワースペクトルを抽出する。
【0018】
音声区間検出部15は、第1気導音マイク11のパワースペクトルを用いて音声区間を検出する。音声区間検出の手法は公知であるため、説明は省略する。第1デコーダ部16は、音声区間検出部15において検出された音声区間のパワースペクトルの情報から、対応した音響特徴量の系列を抽出し、第1音響モデル記憶部17に記憶された音響モデルと言語モデル記憶部18に記憶された言語モデルとを照合することにより、第1気導音マイク11が収音した音声に最も近い単語列を探索し、各単語に対応する音声区間と共に出力する。
【0019】
第1音響モデル記憶部17は、第1気導音マイク11で収音した音声を認識するのに適した音響モデルを記憶している。言語モデル記憶部18は、言語モデルを記憶している。第1単語区間抽出部19は、第1デコーダ部16が探索した単語列を構成する各単語に対応する発話区間を抽出する。
【0020】
第2パワー算出部24は、第1単語区間抽出部19が抽出した発話区間に対応する区間の音声について、第2発話データ記憶部23から第2気導音マイク21の量子化データを取得し、当該量子化データからパワースペクトルを抽出する。単語区間判定部25は、第1単語区間抽出部19から入力される第1気導音マイク11のパワースペクトル、および第2パワー算出部24から入力される第2気導音マイク21のパワースペクトルを参照して、第1気導音マイク11の発話区間を用いるか、あるいは第2気導音マイク21の発話区間を用いるか判定を行う。
【0021】
第2デコーダ部26は、単語区間判定部25において第2気導音マイク21の発話区間を用いると判定された部分発話の範囲について、第2気導音マイク21のパワースペクトルの情報から対応した音響特徴量の系列を抽出し、第2音響モデル記憶部27に記憶された音響モデルと言語モデル記憶部18に記憶された言語モデルとを照合し、第2気導音マイク21の音声に最も近い単語列を探索する。単語列置換部28は、第1デコーダ部16における認識結果である単語列のうち、対応する第2デコーダ部26において探索された単語列を置き換える。表示部29は、単語列置換部28において置換された結果である単語列を表示する。
【0022】
次に、実施の形態1の音声認識装置において、音声を認識して単語列を出力表示する処理の詳細について図3のフローチャートを参照しながら説明を行う。また、ここでは「てーぶ あんぜん きょり かくほ すいっち」(底部 安全 距離 確保 スイッチ)の発声に、機械動作音が騒音として混入した場合を例に挙げ、当該具体例と共に動作の説明を行う。
【0023】
第1および第2気導音マイク11,21は、音声を収音して電気信号に変換し、アナログデータとして信号を入力する(ステップST1)。A/D変換部12は、ステップST1において第1気導音マイク11から入力されたアナログデータをA/D変換して量子化した後、デジタルデータとして第1発話データ記憶部13に記憶させる。同様に、A/D変換部22は、ステップST1において第2気導音マイク21から入力されたアナログデータをA/D変換して量子化した後、デジタルデータとして第2発話データ記憶部23に記憶させる(ステップST2)。
図4に、第1気導音マイク11の音声と第2気導音マイク21の音声の時間軸を揃えた音声波形を示している。図4では、1.43秒から2.02秒の間に機械動作音が重畳している。また、第1気導音マイク11の収音と第2気導音マイク21の収音では、機械動作音の重畳部分において大きな違いがあるのが図4の音声波形からもわかる。
【0024】
第1パワー算出部14は、第1発話データ記憶部13に記憶された第1発話データの量子化データを、音声信号のLPC分析手法を用いて短時間フーリエスペクトル分析を行う(各分析方法の詳細は参考文献参照)。この実施の形態1におけるフレーム化処理はフレーム長20msフレーム間隔10msで行うものとする。第1パワー算出部14は得られたパワーの平均をフレーム毎に記憶する(ステップST3)。当該フレーム毎に記憶された第1気導音のパワーを図5に示している。
【0025】
音声区間検出部15は、第1パワー算出部14において算出されたパワースペクトルを参照し、第1気導音マイク11が収音した音声のみを用いて音声区間を検出する(ステップST4)。具体例である「てーぶ あんぜん きょり かくほ すいっち」の音声から検出した音声区間を図6に示している。
【0026】
第1デコーダ部16は、音声区間検出部15から入力されるパワースペクトルの情報から、対応した音響特徴量の系列を抽出し、第1音響モデル記憶部17に記憶された第1音響モデルと言語モデル記憶部18に記憶された言語モデルとを照合することにより、第1気導音マイク11で収音された音声に最も近い単語列を探索する(ステップST5)。詳細には、参考文献に記載されたフレーム同期の単語列の探索処理を行う。これにより、認識した単語と、当該単語の始端および終端のフレーム番号を記憶する。
なお、ステップST5の探索処理により具体例で示した音声から単語列「せぶん あんぜん きょり かくほ すいっち」(セブン 安全 距離 確保 スイッチ)が得られたものとする。探索結果の音声波形との単語列の対応を図6に、得られた始端フレーム番号、および終端フレーム番号に対応する認識単語の情報を図7に示している。
【0027】
ここで、ステップST5の探索で用いる第1音響モデルは、第1気導音マイク11の収音音声を事前にHMM(Hidden Markov Model)で学習した音響モデルである。第1気導音マイク11の収音音声は、外部の騒音に対して頑健であるが、第2気導音マイク21のような従来のマイクとは大きく特性が異なる。その特性の違いを示すために、図8に第2気導音マイク21に対する第1気導音マイク11のコヒーレンスを示している。図8のグラフは、第1気導音マイク11と第2気導音マイク21で同一の話者のバランス文の音声を収録し、5名の話者ごとにコヒーレンスを算出したものである。
【0028】
図8に示す通り、第2気導音マイク21に対する第1気導音マイク11の音は相関が非常に低く、さらに話者間のバラツキが大きい。このため、従来の第2気導音マイク21の収音音声で学習した音響モデル(第2音響モデル)では、第1気導音マイク11の音声認識が不可能なため、第2気導音マイク21とは別に第1気導音の収音音声を学習した音響モデル(第1音響モデル)が必要となる。なお、言語モデル記憶部18に記憶された言語モデルは単語Nグラムモデル(参考文献参照)と同様である。
【0029】
第1単語区間抽出部19は、ステップST5において第1デコーダ部16が探索した各単語に対応して、単語の発話区間を抽出する(ステップST6)。なお、単語の発話区間は、始端フレーム番号および終端フレーム番号で得られる。第2パワー算出部24は、ステップST6において第1単語区間抽出部19が抽出した単語の発話区間に対応する区間の音声を、第2発話データ記憶部23に記憶された第2発話データから抽出し、パワースペクトルを抽出する(ステップST7)。図9に、抽出された発話区間に対応する第1および第2気導音マイク11,21のパワースペクトルを示している。なお、第1気導音マイク11のパワースペクトルは実線で示し、第2気導音マイク21のパワースペクトルは破線で示している。
【0030】
単語区間判定部25は、以下の式(1)により、第2気導音パワーX2と第1気導音パワーX1の差分パワーを算出し、単語区間における最大差分パワーNwを算出する。最大差分パワーNwは、相当する単語区間での騒音レベルの最大値となる。
式(1)において、wは単語番号、wsは単語の始端フレーム番号、weは単語の終端フレーム番号を示す。
【0031】
式(1)に基づき算出した最大差分パワーNwが所定の閾値を越えている場合(判定0)には第1気導音マイク11の発話区間を音声認識対象として用い、所定の閾値以内である(判定1)場合には第2気導音マイク21の発話区間を音声認識対象として用いるように判定処理を行う(ステップST8)。
図10は、各フレーム番号に対する差分パワーの値を示している。また図11は、各単語の発話区間(始端フレーム番号と終端フレーム番号)における最大差分パワーNwおよび単語区間判定部25による判定結果、単語番号、第1デコーダ部16による探索結果である認識単語を示している。図11に示した例では、所定の閾値を「12」と設定し、単語番号1〜2の範囲(フレーム567〜1434)および単語番号5の範囲(フレーム2164〜2722)の判定は「1」であり第2気導音マイク21の発話区間を音声認識対象として用いる。一方、単語番号3〜4の範囲(フレーム1434〜2164)の判定は「0」であり、第1気導音マイク11の発話区間を音声認識対象として用いる。
【0032】
続いて第2デコーダ部26は、ステップST8における発話区間の判定処理結果を参照し、第2気導音マイク21の発話区間を用いる単語番号の範囲(上述した単語番号1〜2,5)について、第2パワー算出部24が算出したパワースペクトルの情報から対応した音響特徴量の系列を抽出し、第2音響モデル記憶部27に記憶された第2音響モデルと言語モデル18に記憶された言語モデルとを照合することにより、第2気導音マイク21の音声に最も近い単語列の探索を行う(ステップST9)。なお、第2デコーダ部26の単語列の探索処理の詳細については後述する。
【0033】
ステップST9の第2デコーダ部26の単語列の探索処理結果として、単語番号1〜2の範囲(フレーム567〜1434)として「てーぶ あんぜん」(底部、安全)、単語番号5の範囲(フレーム2164〜2722)として「すいっち」(スイッチ)が得られる。音声波形との対応を図12に示している。
単語列置換部28は、第2デコーダ部26の認識結果を、第1デコーダ部16の認識結果の対応する単語列と置換する。つまり、図11において示したフレーム567〜1434を「てーぶ あんぜん」(底部 安全)に置き換え、フレーム2164〜2722を「すいっち」(スイッチ)に置き換える(ステップST10)。
【0034】
表示部29は、ステップST10において置き換え処理が行われた単語列「てーぶ あんぜん きょり かくほ すいっち」(底部 安全 距離 確保 スイッチ)を表示し(ステップST11)、処理を終了する。
【0035】
次に、第2デコーダ部26における単語列探索処理の詳細について説明する。
第2デコーダ部26は、例えばBaum−Weltchのアルゴリズムなど(参考文献参照)を用いて予め学習された音素HMMの第2音響モデルと、言語モデル記憶部18に記憶された言語モデル(図13参照)のデータを用いてツリー構造の辞書による単語のモデル化(参考文献参照)を行う。
【0036】
また、同じく言語モデルに記録されたNグラム文法を用いて、以下の式(2)により単語間遷移確率を近似し、言語モデルの出力確率P(W)を計算する。
なお、Wは単語列w1, w2, ・・・, wn、NはNグラムの次数、nは単語数を示している。
ここで、Wを、単語区間判定部25で判定「0」となった部分の単語列W1、および単語区間判定部25で判定「1」となった部分の単語列W2に分解し、対数尤度で計算する。つまり、本実施例では、図13の1グラム対数確率を用いて、以下のように計算される。
本実施例では、説明の簡単のため1グラムを用いたが、以下に示すように2グラム以上の単語連接確率を利用し、単語列W1と単語列W2の接続を考慮しても良い。このとき「#」は、文頭、および文末の記号である。
【0037】
また、前述した音響特徴量の系列と単語間遷移確率を用いて探索アルゴリズム(参考文献参照)により連続音声認識を行う。音素単位の音響特徴量を表現したHMMで入力音声の一部分yとmjとの照合を以下の式(3)により行う。
なお、Yは音素列m1, m2, ・・・, mjを示している。
【0038】
これにより、第1デコーダ部16によって抽出され、単語区間判定部25で判定「0」となった部分の音響特徴量の系列Y1と単語列W1、および単語区間判定部25で判定「1」となった部分の音響特徴量の系列Y2と単語列W2を以下の式(4)により求める。
なお、W1、W2は単語列w1, w2, ・・・, wnの部分単語列を示している。
【0039】
以上のように、この実施の形態1によれば、体内に密閉装着した第1気導音マイク11を耐騒音の入力マイクとして用いるとともに、第2気導音マイク21を通常マイクとして用いることで、音声区間の中で騒音レベルが小さい発話区間は、第2気導音マイク21を優先し、騒音レベルが大きい発音区間では、第1気導音マイク11の発話区間を用いるように構成し、さらに当該発話区間の判定を、言語モデルの単語情報を用いるように構成したので、非定常騒音に頑健に単語列を認識することができる。
【0040】
また、この実施の形態1によれば、第1単語区間抽出部19の抽出した単語の発話区間に対応する区間の音声を、第2発話データから抽出してパワースペクトルを抽出するように構成したので、第2パワー算出部24におけるパワー算出区間を限定することができる。
【0041】
また、この実施の形態1によれば、第2デコーダ部26は単語区間判定部25の判定結果に対応する単語列について探索処理を行い、単語列置換部28が第1デコーダ部16の認識結果を第2デコーダ部26の認識結果の対応する単語列に置き換えるように構成したので、第2デコーダ部26は必要最小限の発話区間を認識すればよく、効率よく騒音レベルの高い部分を除くことができる。また、音声区間の一部分に局所的な非定常騒音が重畳した場合でも音声を精度よく認識することができる。
【0042】
実施の形態2.
この実施の形態2では、第2気導音マイク21における騒音の小さい区間を用いて、第1音響モデルを自動学習する構成を示す。図14は、実施の形態2による音声認識装置の構成を示すブロック図である。実施の形態1の音声認識装置に操作入力部31および第1音響モデル学習部32を追加して設けている。なお以下では、実施の形態1による音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
【0043】
操作入力部31は、ユーザが表示部29に表示された音声認識結果を確認した後、当該音声認識結果を「受理する」あるいは「棄却する」かの指定を入力する操作ボタンなどで構成される入力手段である。第1音響モデル学習部32は、単語列置換部28が置き換えを行った単語区間のうち、第1デコーダ部16と第2デコーダ部26の認識結果が異なった区間を学習区間として記憶する。さらに、得られた学習区間の第1気導音マイク11による音声と、受理された認識結果を用いて単語の連結学習を行う。学習結果を第1気導音マイク11の収音音声に対する音響モデルとして第1音響モデル記憶部17に記憶させる。
【0044】
次に、実施の形態2の音声認識装置の動作について説明する。図15は、実施の形態2による音声認識装置の動作を示すフローチャートである。ステップST11までの処理は、実施の形態1で示した音声認識装置の動作と同一であるため、説明を省略する。
ステップST11において音声認識結果が表示部29に表示されると、ユーザは当該音声認識結果を受理するかあるいは却下するか操作入力部31を介して入力する。操作入力部31は、音声認識結果を受理する旨が入力されたか否か判定を行う(ステップST21)。
【0045】
ステップST21において、受理する旨が入力されると第1音響モデル学習部32は、単語列置換部28から単語の置き換えに関する情報を取得し、置き換えを行った単語区間のうち第1デコーダ部16と第2デコーダ部26とで認識結果が異なった単語区間を学習区間として抽出する処理を行い(ステップST22)、当該学習区間が存在するか否か判定を行う(ステップST23)。ステップST23において学習区間が存在すると判定された場合には、抽出した学習区間の第1気導音マイク11が収音した音声と置き換えられた認識結果とを用いて単語の連結学習(参考文献参照)を行う(ステップST24)。ステップST24において学習した音響モデルを第1音響モデルとして第1音響モデル記憶部17に記憶させ(ステップST25)、処理を終了する。
一方、ステップST21において棄却する旨が入力される、あるいはステップST23において学習区間が存在しないと判定された場合には、音響モデルの学習は行わずに処理を終了する。
【0046】
さらに実施の形態1で用いた例(図7参照)を用いて説明を行うと、フレーム567〜922の「せぶん」(セブン)と第2デコーダ部26の認識結果の「てーぶ」(底部)が同一区間で認識結果が異なる。そのため、ステップST22として当該フレーム567〜922を学習区間として抽出し、ステップST23として学習区間が存在すると判定を行う。次にステップST24として、フレーム567〜922に対応する第1発話データの音響特徴系列と、第2デコーダ部26の認識結果単語「てーぶ」(底部)の単語連結学習を行う。その後、ステップST25において、連結学習結果を第1気導音マイク11に入力された音声「てーぶ」に対する音響モデルとして第1音響モデル記憶部17に記憶させる。
【0047】
以上のように、この実施の形態2によれば、表示部29に表示した音声認識結果が受理された場合に、単語列置換部28において置き換えた単語区間のうち、第1デコーダ部16と第2デコーダ部26とで認識結果が異なった単語区間を学習区間として連結学習を行い、連結学習の結果を第1音響モデルとして記憶させるように構成したので、話者依存性の高い第1気導音マイク11の第1音響モデルを学習させ、音声認識精度を向上させることができる。また、当該音声認識装置の使用により音響モデルを学習することができ、高騒音下での音声認識精度を向上させることが可能となる。
【0048】
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
【符号の説明】
【0049】
11 第1気導音マイク、11a マイク部、11b 防音部材、12,22 A/D変換部、13 第1発話データ記憶部、14 第1パワー算出部、15 音声区間検出部、16 第1デコーダ部、17 第1音響モデル記憶部、18 言語モデル記憶部、19 第1単語区間抽出部、21 第2気導音マイク、21´ ブーム、23 第2発話データ記憶部、24 第2パワー算出部、25 単語区間判定部、26 第2デコーダ部、27 第2音響モデル記憶部、28 単語列置換部、29 表示部、31 操作入力部、32 第1音響モデル学習部。
【特許請求の範囲】
【請求項1】
体内に密閉装着され、音声を収音する第1気導音マイクと、
体外に装着され、音声を収音する第2気導音マイクと、
前記第1気導音マイクが収音した音声から第1単語列を認識する第1単語列認識部と、
前記第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出部と、
前記第1単語区間抽出部が抽出した発話区間について、前記第2気導音マイクが収音した音声から第2単語列を認識する第2単語列認識部と、
前記第1単語列のうち騒音レベルが所定値以下の単語列を、前記第2単語列に置き換える単語列置換部とを備えた音声認識装置。
【請求項2】
前記第1気導音マイクが収音した音声のパワー値を算出する第1パワー算出部と、
前記第2気導音マイクが収音した音声のパワー値を算出する第2パワー算出部と、
前記第1単語区間抽出部が抽出した発話区間において、前記第1パワー算出部が算出したパワー値と前記第2パワー算出部が算出したパワー値との差分最大値を算出し、当該差分最大値が前記所定値以下か判定する単語区間判定部とを備え、
前記単語列置換部は、前記単語区間判定部において差分最大値が所定値以下であると判定された発話区間の第1単語列を第2単語列に置き換えることを特徴とする請求項1記載の音声認識装置。
【請求項3】
前記第1単語列認識部が前記第1気導音マイクの収音する音声を認識する際に参照する音響モデルを記憶する音響モデル記憶部と、
前記単語列置換部において第1単語列が第2単語列に置き換えられた発話区間について、前記第1気導音マイクが収音した音声と前記第2単語列とを参照して前記音響モデル記憶部に記憶された音響モデルを学習する音響モデル学習部とを備えたことを特徴とする請求項1または請求項2記載の音声認識装置。
【請求項4】
前記単語列置換部が置き換えた単語列を受理するか否かの入力を受け付ける操作入力部を備え、
前記音響モデル学習部は、前記操作入力部が単語列の受理を示す入力を受け付けると前記音響モデルの学習を開始することを特徴とする請求項3記載の音声認識装置。
【請求項5】
体内に密閉装着された第1気導音マイクが収音した音声から第1単語列を認識する第1単語認識ステップと、
前記第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出ステップと、
前記発話区間について、体外に装着された第2気導音マイクが収音した音声から第2単語列を認識する第2単語列認識ステップと、
前記第1単語列のうち騒音レベルが所定値以下の単語列を、前記第2単語列に置き換える単語列置換ステップとを備えた音声認識方法。
【請求項6】
前記単語列置換ステップでは、前記第1気導音マイクが収音した音声のパワー値と前記第2パワー算出ステップにおいて算出したパワー値との差分最大値が所定値以下であると判定された発話区間の第1単語列を第2単語列に置き換えることを特徴とする請求項5記載の音声認識方法。
【請求項1】
体内に密閉装着され、音声を収音する第1気導音マイクと、
体外に装着され、音声を収音する第2気導音マイクと、
前記第1気導音マイクが収音した音声から第1単語列を認識する第1単語列認識部と、
前記第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出部と、
前記第1単語区間抽出部が抽出した発話区間について、前記第2気導音マイクが収音した音声から第2単語列を認識する第2単語列認識部と、
前記第1単語列のうち騒音レベルが所定値以下の単語列を、前記第2単語列に置き換える単語列置換部とを備えた音声認識装置。
【請求項2】
前記第1気導音マイクが収音した音声のパワー値を算出する第1パワー算出部と、
前記第2気導音マイクが収音した音声のパワー値を算出する第2パワー算出部と、
前記第1単語区間抽出部が抽出した発話区間において、前記第1パワー算出部が算出したパワー値と前記第2パワー算出部が算出したパワー値との差分最大値を算出し、当該差分最大値が前記所定値以下か判定する単語区間判定部とを備え、
前記単語列置換部は、前記単語区間判定部において差分最大値が所定値以下であると判定された発話区間の第1単語列を第2単語列に置き換えることを特徴とする請求項1記載の音声認識装置。
【請求項3】
前記第1単語列認識部が前記第1気導音マイクの収音する音声を認識する際に参照する音響モデルを記憶する音響モデル記憶部と、
前記単語列置換部において第1単語列が第2単語列に置き換えられた発話区間について、前記第1気導音マイクが収音した音声と前記第2単語列とを参照して前記音響モデル記憶部に記憶された音響モデルを学習する音響モデル学習部とを備えたことを特徴とする請求項1または請求項2記載の音声認識装置。
【請求項4】
前記単語列置換部が置き換えた単語列を受理するか否かの入力を受け付ける操作入力部を備え、
前記音響モデル学習部は、前記操作入力部が単語列の受理を示す入力を受け付けると前記音響モデルの学習を開始することを特徴とする請求項3記載の音声認識装置。
【請求項5】
体内に密閉装着された第1気導音マイクが収音した音声から第1単語列を認識する第1単語認識ステップと、
前記第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出ステップと、
前記発話区間について、体外に装着された第2気導音マイクが収音した音声から第2単語列を認識する第2単語列認識ステップと、
前記第1単語列のうち騒音レベルが所定値以下の単語列を、前記第2単語列に置き換える単語列置換ステップとを備えた音声認識方法。
【請求項6】
前記単語列置換ステップでは、前記第1気導音マイクが収音した音声のパワー値と前記第2パワー算出ステップにおいて算出したパワー値との差分最大値が所定値以下であると判定された発話区間の第1単語列を第2単語列に置き換えることを特徴とする請求項5記載の音声認識方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2012−145636(P2012−145636A)
【公開日】平成24年8月2日(2012.8.2)
【国際特許分類】
【出願番号】特願2011−2027(P2011−2027)
【出願日】平成23年1月7日(2011.1.7)
【出願人】(000006013)三菱電機株式会社 (33,312)
【出願人】(000236056)三菱電機ビルテクノサービス株式会社 (1,792)
【Fターム(参考)】
【公開日】平成24年8月2日(2012.8.2)
【国際特許分類】
【出願日】平成23年1月7日(2011.1.7)
【出願人】(000006013)三菱電機株式会社 (33,312)
【出願人】(000236056)三菱電機ビルテクノサービス株式会社 (1,792)
【Fターム(参考)】
[ Back to top ]