音声認識装置、音声認識システムおよび音声認識方法

【解決手段】音声認識システムはサーバを含み、サーバでのデータベースには、複数の動作の各々に対応して作成された複数の動作雑音モデルと、複数の場所の各々に対応して作成された複数の環境雑音モデルとが記憶される。また、サーバには、複数の中継器が接続され、通信可能に携帯端末が接続される。携帯端末は、入力音声を取得するとともに、被験者の動作を検出し、入力音声に関する音声データおよび動作に関する加速度データを中継器に送信する。中継器は、音声データおよび加速度データに自身の中継器ＩＤを付してサーバに送信する。サーバは、被験者の動作を特定し、また、中継器の設置場所を被験者の現在位置として推定する。そして、動作に応じた動作雑音モデルと被験者の現在位置に応じた環境雑音モデルとを用いて、入力音声に含まれる被験者の音声を認識する。
【効果】入力音声に含まれる雑音を適切に抑圧して、正確に音声認識することができる。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は音声認識装置、音声認識システムおよび音声認識方法に関し、特にたとえば、雑音を含む入力音声から被験者の音声を認識する、音声認識装置、音声認識システムおよび音声認識方法に関する。
【背景技術】
【０００２】
従来のこの種の音声認識装置の一例が特許文献１に示されている。特許文献１の技術では、入力音声信号中の音声区間の信号と雑音区間の信号とを判別し、観測した雑音区間の信号から雑音モデルを学習する。そして、予め用意した雑音のない音声モデルと雑音モデルとを合成し、雑音重畳音声モデルを生成する。また、雑音区間の信号を予め用意した基準信号に重畳し、特徴パラメータの長時間平均を求めておく。これらの動作は、音声区間の信号が入力される前に実行される。音声区間の信号が入力されると、この信号の特徴パラメータの長時間平均を求め、雑音区間の信号を重畳した基準信号の特徴パラメータの長時間平均との差分を求める。この差分を雑音重畳音声モデルに加算して、ＣＭＮ済雑音重畳音声モデルとする。そして、ＣＭＮ済雑音重畳音声モデルと音声区間の信号の特徴パラメータとのモデル照合尤度を計算し、認識結果を出力する。
【特許文献１】特開２００６−１４５６９４号
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかし、特許文献１の技術では、入力音声信号中の雑音区間から雑音モデルを学習しているが、音声区間と雑音区間との正確な判別は困難であるため、雑音モデルが適切に作成されない恐れがある。また、雑音区間が短い場合には、雑音モデルの推定に用いるデータが少なくなり、雑音モデルの信頼度は低くなる。したがって、特許文献１の技術では、音声認識を適切に実行できない恐れがある。
【０００４】
それゆえに、この発明の主たる目的は、新規な、音声認識装置、音声認識システムおよび音声認識方法を提供することである。
【０００５】
この発明の他の目的は、雑音を含んだ入力音声であっても正確に音声認識できる、音声認識装置、音声認識システムおよび音声認識方法を提供することである。
【課題を解決するための手段】
【０００６】
本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。
【０００７】
請求項１の発明は、複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段、被験者の音声を含む入力音声を検出する入力音声検出手段、被験者の動作を特定する動作特定手段、動作特定手段によって特定された動作に対応する動作雑音モデルを動作雑音モデル記憶手段から読み出す動作雑音モデル読出手段、および動作雑音モデル読出手段によって読み出された動作雑音モデルを用いて、音声検出手段によって検出される入力音声に含まれる被験者の音声を認識する認識手段を備える、音声認識装置である。
【０００８】
請求項１の発明では、音声認識装置（１２，１８）は、動作雑音モデル記憶手段（４８）、入力音声検出手段（３８，Ｓ１）、動作特定手段（Ｓ５）、動作雑音モデル読出手段（Ｓ９）、および認識手段（Ｓ１３）を備える。動作雑音モデル記憶手段は、複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する。たとえば、動作雑音モデルは、被験者が所定の動作を行うときに、衣類が擦れる音や所定の動作で使用する器具の音のような動作に起因する雑音についての雑音モデルである。入力音声検出手段は、被験者の音声を含む入力音声を検出し、動作特定手段は、被験者の動作を特定する。動作雑音モデル読出手段は、被験者の動作に応じた動作雑音モデルを動作雑音モデル記憶手段から読み出す。認識手段は、読み出された動作雑音モデルを用いて雑音抑圧処理を行い、入力音声に含まれる被験者の音声を認識する。雑音モデルを用いた雑音抑圧処理としては、たとえば、ＰＭＣ（Parallel Model Combination）法やＧＭＭ（Gaussian Mixture Model）による雑音抑圧処理を用いることができる。
【０００９】
請求項１の発明によれば、予め複数の動作に対応した動作雑音モデルを用意し、被験者の動作に応じた動作雑音モデルを選択して音声認識を実行するので、入力音声に含まれる動作に起因する雑音を適切に抑圧でき、正確に音声認識することができる。
【００１０】
請求項２の発明は、請求項１の発明に従属し、複数の場所の各々に対応して作成された複数の場所雑音モデルを当該複数の場所の各々に対応付けて記憶する場所雑音モデル記憶手段、被験者の存在する場所と特定する場所特定手段、および場所特定手段によって特定された場所に対応する場所雑音モデルを場所雑音モデル記憶手段から読み出す場所雑音モデル読出手段をさらに備え、認識手段は、動作雑音モデル読出手段によって読み出された動作雑音モデルと、場所雑音モデル読出手段によって読み出された場所雑音モデルとを用いて、音声検出手段によって検出される入力音声に含まれる被験者の音声を認識する。
【００１１】
請求項２の発明では、音声認識装置は、場所雑音モデル記憶手段（４８）、場所特定手段（Ｓ７）および場所雑音モデル読出手段（Ｓ９）をさらに備える。場所雑音モデル記憶手段は、複数の場所の各々で収集された雑音に対応する雑音データを用いて作成された複数の雑音モデルを、当該複数の場所の各々に対応付けて記憶する。たとえば、人がたくさん集まる場所（部屋）では話し声のような雑音が発生し、電子機器が置かれた部屋ではその動作音が発生する。このような周囲ないし環境の雑音についての雑音モデルが記憶されるのである。場所特定手段は、被験者の存在する場所すなわち現在位置を特定する。場所雑音モデル読出手段は、特定された現在位置に対応する場所雑音モデルを場所雑音モデル記憶手段から読み出す。したがって、認識手段は、動作雑音モデルと場所雑音モデルとを用いて、雑音を抑圧し、入力音声に含まれる被験者の音声を認識する。
【００１２】
請求項２の発明によれば、動作雑音のみならず、環境雑音も抑圧するので、より正確に音声認識することができる。
【００１３】
請求項３の発明は、請求項１または２の発明に従属し、入力音声検出手段によって検出された入力音声に対応する音声信号の信号対雑音比を推定する推定手段、および推定手段によって推定された信号対雑音比に応じて雑音モデルの合成比率を調整する調整手段をさらに備える。
【００１４】
請求項３の発明では、推定手段（Ｓ３）および調整手段（Ｓ１１）をさらに備える。推定手段は、入力音声の信号対雑音比（ＳＮＲ）、すなわち音声および雑音の相対的な大きさの比を推定する。調整手段は、信号対雑音比に応じて雑音モデル（動作雑音モデルのみ，動作雑音モデルおよび環境雑音モデルの両方）の合成比率を調整する。たとえば、音声モデルと雑音モデルとを合成して雑音重畳モデルを作成するときには、推定したＳＮＲに応じて合成比率が調整される。
【００１５】
請求項３の発明によれば、入力音声のＳＮＲを考慮してモデル合成を行うので、より正確に音声認識することができる。
【００１６】
請求項４の発明は、請求項２または３の発明に従属し、場所特定手段は環境に設置された中継器が発する識別情報を検出し、当該識別情報を発した中継器の設置場所を被験者の存在する場所として特定する。
【００１７】
請求項４の発明では、周囲ないし環境すなわち複数の場所に中継器（１６）が設置されており、場所特定手段（Ｓ５）は、通信可能範囲に存在する中継器が発する識別情報（中継器ＩＤ）を検出する。そして、中継器ＩＤに基づいてその中継器が設置されている場所を特定し、その特定した場所を被験者の存在する場所（現在位置）として推定（特定）する。
【００１８】
請求項４の発明によれば、被験者の現在位置を簡単に特定することができ、特定した場所に応じた場所雑音モデルを用いて正確に音声認識することができる。
【００１９】
請求項５の発明は、携帯端末と音声認識装置とを備える音声認識システムであって、携帯端末は、被験者の音声を含む入力音声を検出する入力音声検出手段、および入力音声検出手段によって検出された入力音声についての音声信号を音声認識装置に送信する送信手段を備え、音声認識装置は、送信手段によって送信された音声信号を受信する受信手段、複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段、被験者の動作を特定する動作特定手段、動作特定手段によって特定された動作に対応する動作雑音モデルを動作雑音モデル記憶手段から読み出す動作雑音モデル読出手段、および動作雑音モデル読出手段によって読み出された動作雑音モデルを用いて、音声検出手段によって検出される入力音声に含まれる被験者の音声を認識する認識手段を備える、音声認識システムである。
【００２０】
請求項５の発明では、音声認識システム（１０）は、携帯端末（１８）と音声認識装置（１２）と備える。たとえば、音声認識装置は、看護師などの被験者が作業中に発話する発話内容（実施例では業務内容）を音声認識して記録する。携帯端末は、被験者によって所持ないし装着され、入力音声検出手段（３８）によって検出された被験者の音声を含む入力音声についての音声信号を、送信手段（２８）によって音声認識装置に送信する。音声認識装置は、受信手段（Ｓ１）、動作雑音モデル記憶手段（４８）、動作特定手段（Ｓ５）、動作雑音モデル読出手段（Ｓ９）、および認識手段（Ｓ１３）を備える。受信手段は、携帯端末から送信される音声信号を受信する。動作雑音モデル記憶手段は、看護業務についての動作に起因する雑音（衣類の擦れる音など）を動作毎に記憶する。動作特定手段は、被験者の動作を特定する。動作雑音モデル読出手段は、被験者の動作に応じた動作雑音モデルを動作雑音モデル記憶手段から読み出す。認識手段は、被験者の動作に応じた動作雑音モデルを用いて雑音抑圧処理を行い、受信手段によって受信された音声信号（入力音声の音声信号）に含まれる被験者の音声を認識する。
【００２１】
請求項５の発明によれば、請求項１の発明と同様に、複数の場所に対応した雑音モデルを予め用意し、被験者の存在する場所に応じた雑音モデルを選択して音声認識を実行するので、雑音を適切に抑圧でき、正確に音声認識することができる。
【００２２】
請求項６の発明は、請求項５の発明に従属し、音声認識装置は、複数の場所の各々に対応して作成された複数の場所雑音モデルを当該複数の場所の各々に対応付けて記憶する場所雑音モデル記憶手段、被験者の存在する場所と特定する場所特定手段、および場所特定手段によって特定された場所に対応する場所雑音モデルを場所雑音モデル記憶手段から読み出す場所雑音モデル読出手段をさらに備え、認識手段は、動作雑音モデル読出手段によって読み出された動作雑音モデルと、場所雑音モデル読出手段によって読み出された場所雑音モデルとを用いて、音声検出手段によって検出される入力音声に含まれる被験者の音声を認識する。
【００２３】
請求項６の発明では、音声認識装置は、場所雑音モデル記憶手段（４８）、場所特定手段（Ｓ７）および場所雑音モデル読出手段（Ｓ９）をさらに備える。場所雑音モデル記憶手段は、複数の場所の各々で収集された雑音に対応する雑音データを用いて作成された複数の雑音モデルを、当該複数の場所の各々に対応付けて記憶する。場所特定手段は、被験者の存在する場所すなわち現在位置を特定する。場所雑音モデル読出手段は、特定された現在位置に対応する場所雑音モデルを場所雑音モデル記憶手段から読み出す。したがって、認識手段は、動作雑音モデルと場所雑音モデルとを用いて、雑音を抑圧し、入力音声に含まれる被験者の音声を認識する。
【００２４】
請求項６の発明によれば、動作雑音のみならず、環境雑音も抑圧するので、より正確に音声認識することができる。
【００２５】
請求項７の発明は、請求項６の発明に従属し、複数の場所の各々に対応して配置され、携帯端末とサーバとの通信を中継する複数の中継器をさらに備え、中継器は、携帯端末から送信された音声信号を受信して、受信した音声信号に自己の識別情報を付加してサーバに送信し、場所特定手段は、受信手段によって受信された音声信号に付加された識別情報に基づいて、当該音声信号を送信した中継器の設置場所を被験者の存在する場所として特定する。
【００２６】
請求項７の発明では、複数の場所の各々に対応して配置される複数の中継器（１６）をさらに備える。中継器は、通信可能な範囲に存在する携帯端末（１８）から送信される被験者の音声を含む入力音声についての音声信号を受信し、受信した音声信号に自身の識別情報（中継器ＩＤ）を付加して音声認識装置（１２）に送信する。場所特定手段（Ｓ７）は、中継器ＩＤに基づいて当該中継器の設置場所を特定し、その設置場所を携帯端末の存在する場所、すなわち被験者の現在位置として特定する。
【００２７】
請求項７の発明によれば、被験者の現在位置を容易に特定でき、被験者の現在位置に応じた場所雑音モデルを選択して、正確に音声認識することができる。
【００２８】
請求項８の発明は、複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段を備えるコンピュータの音声認識方法であって、(a)被験者の音声を含む入力音声を検出し、(b)被験者の動作を特定し、(c)ステップ(b)によって特定された動作に対応する動作雑音モデルを動作雑音モデル記憶手段から読み出し、そして(d)ステップ(c)によって読み出された動作雑音モデルを用いて、ステップ(a)によって検出される入力音声に含まれる被験者の音声を認識する、音声認識方法である。
【００２９】
請求項８の発明の発明においても、請求項１の音声認識装置の発明と同様に、正確に音声認識することができる。
【発明の効果】
【００３０】
この発明によれば、予め複数の動作に対応した動作雑音モデルを用意し、被験者の動作に応じた動作雑音モデルを用いて音声認識を実行するので、入力音声に含まれる動作に起因する雑音を適切に抑圧でき、雑音を含んだ入力音声であっても正確に音声認識することができる。
【００３１】
この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【発明を実施するための最良の形態】
【００３２】
図１を参照して、この発明の一実施例である音声認識システム１０は、音声認識装置としても機能するサーバ１２を含み、たとえば、病院のような組織に適用され、看護師などの被験者が作業中に発話する内容（たとえば業務内容）を音声認識して記録する。
【００３３】
サーバ１２は、有線或いは無線による通信回線（ネットワーク）１４を介して複数の中継器１６に接続される。複数の中継器１６のそれぞれは、看護師が作業ないし業務を行う場所、たとえば、病室の入り口、病室内のベッド或いはその近傍、廊下およびナースステーションなどの所定位置に配置される。また、複数の中継器１６のそれぞれには、無線通信可能に携帯端末１８が接続される。携帯端末１８は、看護師によって所持され（装着され）、携帯端末１８から送信されるデータは、無線通信可能な範囲（たとえば、半径１〜３メートル）に存在する中継器１６を介して、サーバ１２に送信される。
【００３４】
なお、図１には１つの携帯端末１８を示してあるが、音声認識システム１０は、複数の携帯端末１８を備えてよく、複数の携帯端末１８のそれぞれは、複数の看護師のそれぞれに割り当てられる。また、携帯端末１８は、無線ＬＡＮ等によってネットワーク１４に直接接続される場合もある。
【００３５】
図２は携帯端末１８の具体的な構成を示すブロック図であり、携帯端末１８はＣＰＵ２０を含む。ＣＰＵ２０には、メモリ２２，エンコーダ２４，非接触センサ２６，インターフェイス２８，タイマ３０、ＤＩＰスイッチ３２，無線送信機３４、無線受信機３６および複数の加速度センサ４０ａ，４０ｂ，４０ｃ，４０ｄ，４０ｅ，４０ｆ（以下、これらをまとめて、「加速度センサ４０」という場合がある）などが接続される。
【００３６】
メモリ２２は、ワークメモリないしバッファメモリとして働き、ＣＰＵ２０によって使用される。エンコーダ２４にはヘッドセットマイク３８が接続され、エンコーダ２４は、ヘッドセットマイク３８から入力される入力音声についての音声信号をＭＰ３のような圧縮音声データに変調する。圧縮音声データは、ＣＰＵ２０の指示に従ってメモリ２２に記憶される。メモリ２２に記憶された圧縮音声データは、ＣＰＵ２０の指示に従って、一定時間（たとえば、１０秒〜３０秒）毎に、中継器１６およびネットワーク１４を介してサーバ１２に送信される。
【００３７】
なお、音声信号を圧縮変調するのは、メモリ２２の容量を比較的少なくするためであり、また、サーバ１２に送信するデータのデータ量を低減するためである。
【００３８】
また、この実施例で用いるヘッドセットマイク３８は指向性を有するものである。これは、予め周囲の雑音（看護師の動作に起因する雑音や環境による雑音）をできるだけ除いた入力音声を検出し、音声認識の精度を高めるためである。また、ヘッドセットマイク３８を用いるのは、看護師が作業を行うときには看護師の両手が塞がっていることが多いためであり、さらには、作業に用いる道具以外のものを看護師が手に持つことをできるだけ少なくするためである。ただし、ヘッドセットマイク３８に代えて、指向性を有するピンマイクを、たとえば襟元に装着するようにしてもよい。
【００３９】
非接触センサ２６としては、焦電センサを用いることができ、ＣＰＵ２０は非接触センサ２６からの入力に応じてヘッドセットマイク３８をオン／オフする。この実施例では、非接触センサ２６すなわち焦電センサの前で、看護師が手を２回上下させると、その検出信号がＣＰＵ２０に入力され、これに応じて、ＣＰＵ２０はヘッドセットマイク３８をオンし、その後、看護師が焦電センサの前で、手を２回上下させると、ヘッドセットマイク３８をオフする。このように、ヘッドセットマイク３８をオン／オフ可能にしてあるのは、看護師のプライバシを守るためである。つまり、業務内容を音声認識して記録する必要が生じたときに、ヘッドセットマイク３８はオンされ、休憩時間など業務内容を記録する必要がないときには、ヘッドセットマイク３８はオフされる。
【００４０】
インターフェイス２８は、ＬＡＮ（無線ＬＡＮ）アダプタのようなインターフェイスであり、これにより、携帯端末１８はネットワーク１４に接続される。したがって、携帯端末１８は、ネットワーク１４を介して、サーバ１２との間で通信可能になる。
【００４１】
タイマ３０は、日付および時刻を計時する回路であり、ＣＰＵ２０は、タイマ３０から時間データを取得する。ＤＩＰスイッチ３２は、たとえば８ビットで構成され、各ビットのオン／オフを切り替えることにより、０〜２５５の間で数値を設定することができる。この数値が看護師の識別情報（看護師ＩＤ）であり、各携帯端末１８で異なる値が設定される。ＣＰＵ２０は、送信する音声データに、時間データや看護師ＩＤをラベルとして付して、中継器１６に送信する。つまり、音声データ、時間データ、および看護師ＩＤについてのデータ（数値データ）が携帯端末１８から中継器１６に対して送信される。
【００４２】
なお、この実施例では、ＤＩＰスイッチ３２を用いて看護師ＩＤを設定するようにしてあるが、これに限定されるべきではない。たとえば、ＤＩＰスイッチ３２に代えて、看護師ＩＤを記憶したＲＯＭなどを設けておくようにすることもできる。
【００４３】
無線送信機３４は、ＣＰＵ２０の指示に従って、上述の音声データ、時間データおよび看護師ＩＤについてのデータ（以下、これらを送信データと呼ぶことがある。）を中継器１６に送信する。無線受信機３６は、無線通信可能な範囲に存在する中継器１６が発する微弱電波を受信し、中継器ＩＤを復調し、復調した中継器ＩＤについてのデータをＣＰＵ２０で処理する。
【００４４】
加速度センサ４０の各々は、たとえば多軸（３軸）加速度センサであり、この携帯端末１８を所持ないし装着する看護師の動作を検出するために用いられる。この実施例では、頭部、両手、腰部（または腹部）および両足の各部位についての加速度が検出され、検出された加速度データと後述する動作ＤＢ４６（図５参照）に予め記憶されている動作毎の加速度データとが対比され、１の動作が特定（同定）される。たとえば、周知のＤＰマッチングを実行することにより、検出された加速度データと、動作ＤＢ４６に記憶される加速データとの近似度（類似度）を容易に求めることができる。
【００４５】
上述したような構成の携帯端末１８は、看護師などの被験者によって所持ないし装着される。たとえば、図３に示すように、非接触センサ２６、ヘッドセットマイク３８および加速度センサ４０以外の回路コンポーネントはボックス（筐体）６０に収容され、ボックス６０は看護師の白衣の前ポケット等に収納される。また、非接触センサ２６は、ペン型のケースに収容され、看護師の白衣の胸ポケットに挿すように収納される。なお、図面では、分かり易く示すために、ボックス６０および非接触センサ２６を各ポケットの外部に記載してある。また、ヘッドセットマイク３８は看護師の頭部に装着される。
【００４６】
また、上述したように、加速度センサ４０が看護師の所定の部位に装着ないし固定される。たとえば、図３に示すように、加速度センサ４０ａは看護師の頭部に装着され、加速度センサ４０ｂは看護師の右手首に装着され、加速度センサ４０ｃは看護師の左手首に装着され、加速度センサ４０ｄは看護師の腰部（または腹部）に装着され、加速度４０ｅは看護師の右足首に装着され、そして、加速度４０ｆは看護師の左足首に装着される。
【００４７】
なお、図３においては省略するが、非接触センサ２６は接続線を用いてボックス６０内のＣＰＵ２０に接続され、ヘッドセットマイク３８は接続線を用いてボックス６０内のエンコーダ２４に電気的に接続され、加速度センサ４０は接続線を用いてボックス６０内のＣＰＵ２０に接続される。ただし、接続線を用いずに、ブルートゥース（登録商標）のような近距離無線によって接続するようにしてもよい。つまり、電気的に接続されればよいのである。
【００４８】
上述したように、この音声認識システム１０では、看護師などが作業中に発話する内容を音声認識して記録する。また、音声認識を行う際には、雑音抑圧処理を適宜行う。
【００４９】
雑音抑圧処理としては、たとえば、ＰＭＣ（Parallel Model Combination）法を用いることができる。ＰＭＣ法では、音声モデルと雑音モデルとを合成することにより、雑音重畳音声モデルが推定（作成）され、この雑音重畳音声モデルと入力音声とが照合される。これによって、雑音を含む入力音声であっても精度良く認識することができる。このＰＭＣ法では、実際の雑音重畳雑音モデルを必要とすることなく、雑音を含む入力音声に対応することができる。よく用いられるＬｏｇ−Ａｄｄ近似と呼ばれる推定法では、数１に示すように、雑音重畳音声モデルの平均ベクトルμ_ｘを推定することができる。
【００５０】
【数１】

【００５１】
ここで、μ_sおよびμ_nのそれぞれは、音声モデルおよび雑音モデルの対数スペクトルエネルギーの平均ベクトルを示す。また、「＾」は推定値を意味する。以下、同じ。
【００５２】
なお、ＰＭＣ法については、「M.J.F.Gales,“Model-Based Techniques for Noise Robust Speech Recognition,”Ph.D Thesis,Cambridge University,1995.」および「M.J.F.Gales,S J Young,“A fast and flexible implementation of parallel model combination,”Proc. of ICASSP,pp.133-136,1995.」において詳細に開示されているので参照されたい。
【００５３】
また、ＧＭＭ（Gaussian Mixture Model）による雑音抑圧処理を用いることもできる。音声と雑音とに相関が無いと仮定し、フレームｉにおける雑音重畳音声（入力音声）、クリーン音声および雑音のメルフィルタバンク出力の対数値ベクトルのそれぞれを、Ｘ(i)、Ｓ(i)およびＮ(i)とすると、数２のように表すことができる。
【００５４】
【数２】

【００５５】
ここで、ｇ(Ｓ(i),Ｎ(i))は、ミスマッチ関数である。また、フィルタバンクの第ｂバンクに対する補助関数ｆ_ｂは数３で定義される。
【００５６】
【数３】

【００５７】
ここで、ｓ_ｂおよびｎ_ｂは、クリーン音声および雑音のメルフィルタバンク出力である。数２に対し、１次テイラー展開を適用することで、平均および分散を推定することができる。クリーン音声を数４のようなＫ混合ガウス分布モデルで表し、雑音信号を単一ガウス分布Ｎ(μ_n,Σ_n)で表すと、平均および分散のそれぞれは、数５および数６のように近似的に推定することができる。
【００５８】
【数４】

【００５９】
【数５】

【００６０】
【数６】

【００６１】
実際には、雑音の分散を推定するときにはデータが少ない場合が多い。また、分散推定による音声認識の精度の向上は、平均推定による音声認識の精度の向上と比較して小さいため、音声モデルの分散を、Σ_x,k(b,b)≒Σ_s,k(b,b)とする。すると、クリーン音声は、数７のように表すことができる。
【００６２】
【数７】

【００６３】
このように、ＧＭＭによる雑音抑圧処理では、雑音モデルと音声モデルとを用いて、分析フレームごとに入力音声から音声のみを推定する。そして、推定された音声と音声モデルとを照合する。これによって、雑音を含む入力音声であっても精度良く認識することができる。
【００６４】
なお、ＧＭＭによる雑音抑圧処理については、「J.C.Segura,A.de la Torre, M.C.Benitez, A.M.Peinado,“Model-based compensation of the additive noise for continuous speech recognition. Experiments using AURORA II database and tasks,”Proc. of Eurospeech’01,vol.I,pp.221-224,2001」において詳細に開示されているので参照されたい。
【００６５】
上述のような雑音抑圧処理では、使用する雑音モデルによってその音声認識の精度に大きな違いが出るため、どのような雑音モデルを用いるかが問題となる。ここで、上述したように、サーバ１２は、看護師のような被験者の音声を認識するのであるが、看護師が業務（看護業務）を行っている場合には、衣服が擦れる音や器具（血圧計や点滴注射器）を使用したり、設定ないし設置したりする音が発生する。このような看護業務の動作に伴う（起因する）雑音（動作雑音）は、看護師の音声とともに、ヘッドセットマイク３８から入力される。
【００６６】
また、このような動作雑音のみならず、周囲（環境）からの雑音もヘッドセットマイク３８から入力される。たとえば、院内の待合室では、患者等の話し声やテレビ（またはラジオ）の音が発生し、また、看護師の詰所（ナースステーション）では、他の看護師の話し声、ナースコールの音または他の看護師の動作に伴う雑音が発生する。このような環境に起因する雑音（環境雑音）もまた、看護師の音声とともに、ヘッドセットマイク３８から入力される。
【００６７】
ここで、病院内の複数の場所で収録された環境雑音の平均スペクトルの具体例を図４に示す。環境雑音は、「洗濯室横」、「病室横の廊下」、「エレベータホール」、「ナースステーション内」、および「階段」において、それぞれ１０分程度収録したものである。使用したマイクロホンはＤＰＡ製小型コンデンサマイクロホン４０６０であり、収録機器にはＭ−ＡＵＤＩＯ製のＭＩＣＲＯＴＲＡＣＫ２４／９６を用いた。各場所における環境雑音の平均パワースペクトルは、環境雑音を４８ｋＨｚのサンプリング周波数、１６ビットで収録後、１６ｋＨｚにダウンサンプリングし、分析窓長２０ｍｓで短時間フーリエ変換を行い、収録されたデータの全フレームで平均することによって求めた。
【００６８】
図４に示すように、「洗濯機横」の環境雑音には、洗濯機の動作音が主に含まれていた。また、「病室横の廊下」、「エレベータホール」および「階段」では、会話音声が時折発生する以外は基本的に静かであり、環境雑音は小さかった。また、「ナースステーション内」の環境雑音には、時折発生する会話音声以外に、機器が発する動作音が含まれ、５００Ｈｚ付近にピークが見られた。
【００６９】
なお、図示は省略するが、動作雑音については、実際に看護師が看護業務を行うときに発生する雑音が、看護業務毎に収録される。
【００７０】
図４からも分かるように、場所によって周囲の環境雑音は異なるので、音声認識用に雑音抑圧処理などを行う場合には、その場所に特化した雑音モデルを用いれば、より精度良く雑音抑圧処理を行うことが可能となる。このことは、動作雑音についても同様であり、看護業務に特化した雑音モデルを用いることが考えられる。
【００７１】
そこで、この実施例では、予め複数の看護業務ごとに検出される動作雑音のモデル化を図るとともに、予め複数の場所ごとに観測される環境雑音のモデル化を図って、動作雑音のモデルと環境雑音のモデルとをメモリ（この実施例では、データベース）に記憶しておき、それらを用いて雑音抑圧処理を実行するようにしてある。
【００７２】
具体的には、図５のブロック図に示すように、サーバ１２には、複数のデータベース（ＤＢ）、すなわち看護師ＤＢ４２、中継器ＤＢ４４、動作ＤＢ４６、雑音モデルＤＢ４８および音声モデルＤＢ５０が接続される。これらのＤＢ４２−５０は、看護師の発話（音声）が含まれる入力音声に対して、雑音抑圧処理を実行して音声認識するために使用される。
【００７３】
看護師ＤＢ４２には、看護師の識別情報（看護師ＩＤ）に対応付けて、看護師名などの看護師を特定するための情報が記憶される。中継器ＤＢ４４には、中継器１６の識別情報（中継器ＩＤ）に対応付けて、中継器１６の設置されている場所が記憶される。したがって、サーバ１２は、看護師ＩＤから看護師または看護師名を特定することができ、中継器ＩＤから中継器１６の設置されている場所を特定することができる。
【００７４】
ここで、図１を参照して、中継器１６は、上述したように、無線通信可能な範囲に存在する携帯端末１８から送信される送信データを受信する。そして、受信した送信データに自身の中継器ＩＤを付して、ネットワーク１４を介してサーバ１２に送信する。つまり、サーバ１２で受信される音声データには、看護師ＩＤおよび中継器ＩＤが付加されている。したがって、サーバ１２は、受信した音声データに対応する音声を入力した看護師および入力した場所（現在位置）を推定（特定）することができる。
【００７５】
なお、中継器１６と携帯端末１８とは互いに通信可能であるため、携帯端末１８は、無線通信可能な範囲に存在する中継器１６の識別情報（中継器ＩＤ）を検出することもできる。したがって、中継器１６からサーバ１２に対して中継器ＩＤが付加された送信データを送信するのではなく、携帯端末１８からサーバ１２に対して中継器ＩＤが付加された送信データを送信することもできる。つまり、携帯端末１８が通信可能な範囲にある中継器１６から中継器ＩＤを取得し、送信データに中継器ＩＤについてのデータを付して、携帯端末１８から、インターフェイス２８およびネットワーク１４を介して、サーバ１２に送信することもできる。
【００７６】
図５に戻って、動作ＤＢ４６は、看護師の動作（看護業務）の名称ないし識別情報に対応して、該当看護業務を実行する場合の加速度センサ４０の加速度データが記憶される。たとえば、動作ＤＢ４６に記憶される加速度データは、複数（多数）の看護師が看護業務（動作）を行った場合に検出される複数の加速度データを平均することにより得られる。ただし、看護業務のように、人間が行う動作ないし行動では、個人差があるため、看護師毎に加速度データを取得して、動作ＤＢ４６に収録しておくようにしてもよい。このようにすれば、看護師の動作（看護業務）の特定の精度が上がると考えられる。
【００７７】
雑音モデルＤＢ４８には、動作雑音モデルと環境雑音モデルとが記憶される。具体的には、動作雑音モデルは、複数の看護業務を実行している場合に発生する動作雑音を収録した動作雑音のデータ（動作雑音データ）に基づいて作成（推定）され、各看護業務に対応付けて記憶される。また、環境雑音モデルは、複数の場所毎に収録した環境雑音のデータ（環境雑音データ）に基づいて作成（推定）され、各場所に対応づけて記憶される。
【００７８】
なお、この実施例では、後述するように、中継器１６の設置位置に基づいて看護師の現在位置を推定するので、中継器１６が設置される場所毎の環境雑音モデルを雑音モデルＤＢ４８に記憶しているものとする。
【００７９】
音声モデルＤＢ５０には、雑音を含まない音声のみに基づいて作成された音声モデル（音声データ）が記憶される。たとえば、この音声認識システム１０を利用する看護師が、雑音の無い場所で入力した音声データが記憶（収録）される。また、複数の看護師がこの音声認識システム１０を利用する場合には、看護師毎に音声モデルを記憶し、音声認識を行うときに、各看護師に対応する音声モデルを利用するようにすれば、より適切に音声認識を実行できる。
【００８０】
このような音声認識システム１０を利用して、看護師が作業中に発話した業務内容を記録する一例を示す。たとえば、ナースステーションに居る看護師が、患者Ａの点滴に向かう場合には、看護師はヘッドセットマイク３８をオンにし、「患者Ａさんの点滴に行ってきます」と発話し、その後、ヘッドセットマイク３８をオフする。すると、看護師の発話（音声）を含む入力音声についての音声信号には、携帯端末１８において、デジタル変換および圧縮（変調）処理が施され、入力音声についての音声信号に対応する圧縮音声データが生成される。また、ヘッドセットマイク３８がオンされてからオフされるまでに、加速度センサ４０からの加速度データが検出される。たとえば、点滴に必要な器具や薬を準備する動作についての加速度データが検出される。
【００８１】
圧縮音声データおよび加速度データに、時間データおよび看護師ＩＤが付加された送信データが、通信可能な範囲に在る中継器１６に送信される。この場合には、ナースステーションに配置された中継器１６に送信される。そして、中継器１６においてその中継器１６の中継器ＩＤが付加された送信データは、ネットワーク１４を介してサーバ１２に送信される。
【００８２】
サーバ１２では、中継器ＩＤが付加された送信データが受信されると、時間データに基づいて音声データに対応する音声が入力された時間が特定され、看護師ＤＢ４８が参照されて、看護師ＩＤから音声データに対応する音声を入力した看護師が特定される。また、サーバ１２では、動作ＤＢ４６が参照されて、送信データに含まれる加速度データに基づいて、看護師の動作（看護業務）が特定される。たとえば、「点滴に必要な器具や薬を準備する動作」が特定される。さらに、サーバ１２では、中継器ＤＢ５０が参照されて、中継器ＩＤから送信データを送信（中継）した中継器１６が特定され、その中継器１６の設置された場所（ここではナースステーション）が看護師の現在位置として特定される。さらにまた、サーバ１２では、音声データの信号対雑音比（ＳＮＲ）が推定される。
【００８３】
看護師の動作が特定されると、サーバ１２では、当該動作に対応する動作雑音モデルが雑音モデルＤＢ４８から読み出される。また、看護師の現在位置が特定されると、サーバ１２では、看護師の現在位置に対応する環境雑音モデルが雑音モデルＤＢ４８から読み出される。そして、サーバ１２では、読み出された動作雑音モデルおよび環境雑音モデルを用いて、音声データに対応する音声信号（入力音声の音声信号）に対して残響抑圧処理が施され、入力音声に含まれる看護師の音声が認識される。
【００８４】
音声認識を行う際には、上述のＰＭＣ法やＧＭＭなどの雑音モデルを用いた雑音抑圧処理が行われる。このとき、入力音声のＳＮＲを考慮してモデル合成を行えば、より精度良く音声認識を実行することが可能となる。
【００８５】
このようにして、看護師の音声、すなわち「患者Ａさんの点滴に行ってきます」という音声は、その音声が発せられたときの動作および場所に起因する雑音の雑音モデルを用いて音声認識される。そして、その認識結果はテキスト文として出力され、たとえばサーバ１２内のメモリに記憶される。また、サーバ１２は、その音声が発せられた時刻およびその音声を発した看護師（看護師名）を特定できるので、音声の認識結果は、その音声が発せられた時刻およびその音声を発した看護師名と共に記憶される。
【００８６】
なお、サーバ１２に記憶した看護師の発話内容（すなわち看護師の業務内容）などのテキストデータは、たとえば、看護師に割り当てられるパーソナルコンピュータのようなコンピュータからサーバ１２にアクセスすることによって、適宜確認および取得が可能である。
【００８７】
詳細な説明は省略するが、たとえば、看護師が病室内に移動し、病室内で発話する内容を音声認識して記録する場合には、上述の例と同様に、その移動した場所（この場合は病室内）での動作に対応して動作雑音モデルおよび当該場所に対応した環境雑音モデルが選択され（読み出され）、それらを用いて正確に音声認識が行われる。
【００８８】
以下に、音声認識システム１０が雑音を含む入力音声から看護師の音声を認識する処理について、フロー図を用いて説明する。具体的には、サーバ１２が図６に示すフロー図に従って全体処理を実行する。なお、ここでは、ＰＭＣ法を用いて雑音抑圧処理を実行する場合について説明するが、ＧＭＭによって雑音抑圧処理を実行することもできる。
【００８９】
図６に示すように、サーバ１２は全体処理を開始すると、ステップＳ１で、入力音声を取得する。すなわち、看護師が装着する操作端末１８から中継器１６を介して送信される入力音声についての音声データを取得する。具体的には、サーバ１２は、中継器ＩＤが付された送信データを受信する。この送信データには、音声データ、加速度データ、看護師ＩＤ、および時間データが含まれている。続くステップＳ３では、取得した入力音声のＳＮＲを推定する。つまり、音声および雑音の相対的な大きさの比を推定する。
【００９０】
続くステップＳ５では、看護師の動作を特定する。具体的には、サーバ１２は、送信データに含まれる加速度データと、動作ＤＢ４６に記憶される動作毎の加速データとを比較し、最も近似（類似）する加速度データに対応する動作を、看護師の動作として特定する。
【００９１】
なお、図示は省略するが、送信データに含まる加速度データと、動作ＤＢ４６に記憶される加速度データとの近似度がすべて一定の閾値未満である場合には、該当する動作が無いと判断するようにしてある。これは、音声を入力する際に、必ずしも動作が伴っているとは限らないからである。
【００９２】
続いて、ステップＳ７では、看護師の現在位置を特定する。具体的には、サーバ１２は、中継器ＤＢ４４を参照して、ステップＳ１で取得した中継器ＩＤに対応して記述される中継器１６が配置されている場所を看護師の現在位置として特定する。
【００９３】
次に、ステップＳ９では、特定した看護師の動作と現在位置とから雑音モデルを決定する。すなわち、サーバ１２は、雑音モデルＤＢ４８から、看護師の動作に対応する動作雑音モデルおよび看護師の現在位置に対応する環境雑音モデルを読み出す。さらに、ステップＳ１１では、雑音重畳音声モデルを作成する。すなわち、サーバ１２は、ステップＳ９で決定した雑音モデルと音声モデルＤＢ５０に記憶された音声モデルとを合成し、雑音重畳音声モデルを作成する。雑音重畳音声モデルを作成する際には、ステップＳ３で推定した入力音声のＳＮＲに基づいて、その合成比率を調整する。
【００９４】
続くステップＳ１３では、音声認識を実行する。すなわち、雑音重畳モデルと入力音声とを照合し、入力音声から看護師の音声を認識する。そして、ステップＳ１５では、認識結果を出力する。たとえば、サーバ１２は、認識結果を内部メモリに出力し、テキストデータとして記録して、当該全体処理を終了する。
【００９５】
この実施例によれば、複数の動作のそれぞれに対応する動作雑音モデルと、複数の場所のそれぞれに対応する環境雑音モデルとを予め記憶しておき、被験者の動作および存在する場所に応じた雑音モデルを用いて音声認識を実行するので、入力音声に含まれる雑音を適切に抑圧でき、雑音を含んだ入力音声であっても正確に音声認識することができる。
【００９６】
また、上述の実施例によれば、携帯端末１８からの送信データを中継した中継器１６の設置位置を被験者の存在する場所として特定するので、容易に被験者の現在位置を特定することができる。
【００９７】
ただし、看護師（被験者）の現在位置の特定方法はこれに限定されず、適宜な方法を用いて被験者の現在位置を特定してよい。たとえば、音声認識システム１０を屋外に存在する被験者に対して適用する場合には、公知のＧＰＳを利用して被験者の現在位置を検出することができる。
【００９８】
また、上述の実施例で説明したように、屋内に被験者が存在する場合には、通過センサ等によって被験者の現在位置を特定することもできる。たとえば、被験者に自身の識別情報を送信するタグ（無線タグや赤外線ＬＥＤタグ等）を取り付け、病室の出入口や廊下の天井などの適宜な場所にタグからの識別情報を受信するタグ読取装置を設けるようにする。かかる場合には、サーバ１２は、被験者の病室の出入りなどを管理することによって各被験者の現在位置を検出し、被験者の識別情報に対応付けて現在位置の情報を管理しておく。そして、被験者によって音声が入力されたときに、その被験者の現在位置を取得するとよい。
【００９９】
さらに、被験者の現在位置に基づいて被験者の動作を推定することもできる。たとえば、看護師が行う看護業務（作業）毎に場所（部屋）を固定的に決定しておけば、看護師の現在位置からその看護業務（動作）を特定することができる。したがって、かかる場合には、上述の実施例で示した加速度センサ４０は省略することができる。このため、送信データの容量も軽減することができる。
【０１００】
かかる場合には、図７に示すように、サーバ１２には、場所ＤＢ５２がさらに接続される。この場所ＤＢ５２には、複数の場所の名称ないし識別情報に対応付けて、対応する看護師の動作（看護業務）の名称ないし識別情報が記憶される。
【０１０１】
具体的には、サーバ１２が図８に示すフロー図に従って全体処理を実行する。ただし、上述の実施例で図６を用いて説明した処理と略同じであるため、異なる内容について説明し、重複した説明は省略することにする。また、上述したように、看護師の現在位置から看護師の動作を特定するため、図６に示したステップＳ５の処理が省略される。
【０１０２】
図８に示すように、サーバ１２は、ステップＳ７で看護師の現在位置を特定すると、ステップＳ２１で、場所ＤＢ５２を参照して、特定した現在位置に対応して記憶される看護師の動作ないし看護業務を特定する。
【０１０３】
図示は省略するが、場所ＤＢ５２を設けた場合には、上記とは逆に、看護師の動作から場所を特定することも可能である。かかる場合には、中継器１６は携帯端末１８からの送信データを単に中継するだけでよい。つまり、中継器１６はその中継器ＩＤを付加する必要がない。また、中継器ＩＤに基づいて看護師の現在位置を推定（特定）しないため、中継器ＤＢ４４を削除することができる。動作としては、サーバ１２は、図６に示したステップＳ５において、看護師の動作を特定すると、ステップＳ７の処理に変えて、場所ＤＢを参照して、動作から看護師の場所すなわち現在位置を特定する。つまり、ステップＳ７の処理が異なる以外は、サーバ１２の処理は図６に示した処理と同じである。
【０１０４】
また、上述の実施例では、サーバ１２が音声認識処理を実行するようにしたが、これに限定されず、携帯端末１８のＣＰＵ２０が音声認識処理を実行することもできる。つまり、携帯端末１８が音声認識装置として機能することもできる。この場合には、上述の実施例で示したデータベース（４２−５０）を携帯端末１８が持つようにしてもよい。また、携帯端末１８が音声認識処理を実行するときに、ネットワーク１４や外部コンピュータ（たとえばサーバ１２）に接続されるデータベースを適宜参照するようにしてもよい。
【０１０５】
さらに、上述の実施例では、動作雑音と環境雑音との両方を抑圧する場合についてのみ説明したが、いずれか一方を抑圧するようにしても、両方を抑圧しない場合に比べて、音声認識の精度を向上させることができる。たとえば、動作雑音のみを抑圧する場合には、図６のステップＳ７の処理を削除し、ステップＳ９では、動作雑音モデルのみを決定すればよい。かかる場合には、環境雑音モデルを雑音モデルＤＢ４８に構築する必要はない。また、環境雑音のみを抑圧する場合には、図６のステップＳ５の処理を削除し、ステップＳ９では、環境雑音モデルのみを決定すればよい。かかる場合には、動作雑音モデルを雑音モデルＤＢ４８に構築する必要はない。
【０１０６】
さらにまた、上述の実施例では、音声認識システム１０が病院のような組織に適用され、看護師のような被験者の音声を認識する場合についてのみ説明したが、用途はこれに限定される必要はない。たとえば、医師の音声を認識するようにしてもよいし、工場に適用して、当該工場における作業員の音声を認識するようにしてもよい。
【図面の簡単な説明】
【０１０７】
【図１】図１はこの発明の音声認識システムの一例を示す図解図である。
【図２】図２は図１の携帯端末の電気的な構成を示す図解図である。
【図３】図３は図１の携帯端末を被験者（看護師）が装着した様子を示す図解図である。
【図４】図４は複数の場所の各々において観測された環境雑音の平均パワースペクトルを示すグラフである。
【図５】図５は図１のサーバに接続されるデータベースを示すブロック図である。
【図６】図６は図１のサーバの全体処理を示すフロー図である。
【図７】図７は他の実施例のサーバに接続されるデータベースを示すブロック図である。
【図８】図８は他の実施例のサーバの全体処理を示すフロー図である。
【符号の説明】
【０１０８】
１０ …音声認識装置
１２ …サーバ
１４ …ネットワーク
１６ …中継器
１８ …携帯端末
３８ …ヘッドセットマイク
４０（４０ａ，４０ｂ，４０ｃ，４０ｄ，４０ｅ，４０ｆ） …加速度センサ

【特許請求の範囲】
【請求項１】
複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段、
被験者の音声を含む入力音声を検出する入力音声検出手段、
前記被験者の動作を特定する動作特定手段、
前記動作特定手段によって特定された動作に対応する動作雑音モデルを前記動作雑音モデル記憶手段から読み出す動作雑音モデル読出手段、および
前記動作雑音モデル読出手段によって読み出された動作雑音モデルを用いて、前記音声検出手段によって検出される入力音声に含まれる前記被験者の音声を認識する認識手段を備える、音声認識装置。
【請求項２】
複数の場所の各々に対応して作成された複数の場所雑音モデルを当該複数の場所の各々に対応付けて記憶する場所雑音モデル記憶手段、
前記被験者の存在する場所と特定する場所特定手段、および
前記場所特定手段によって特定された場所に対応する場所雑音モデルを前記場所雑音モデル記憶手段から読み出す場所雑音モデル読出手段をさらに備え、
前記認識手段は、前記動作雑音モデル読出手段によって読み出された動作雑音モデルと、前記場所雑音モデル読出手段によって読み出された場所雑音モデルとを用いて、前記音声検出手段によって検出される入力音声に含まれる前記被験者の音声を認識する、請求項１記載の音声認識装置。
【請求項３】
前記入力音声検出手段によって検出された入力音声に対する音声信号の信号対雑音比を推定する推定手段、および
前記推定手段によって推定された信号対雑音比に応じて雑音モデルの合成比率を調整する調整手段をさらに備える、請求項１または２記載の音声認識装置。
【請求項４】
前記場所特定手段は、環境に設置された中継器が発する識別情報を検出し、当該識別情報を発した中継器の設置場所を前記被験者の存在する場所として特定する、請求項２または３記載の音声認識装置。
【請求項５】
携帯端末と音声認識装置とを備える音声認識システムであって、
前記携帯端末は、
被験者の音声を含む入力音声を検出する入力音声検出手段、および
前記入力音声検出手段によって検出された入力音声についての音声信号を前記音声認識装置に送信する送信手段を備え、
前記音声認識装置は、
前記送信手段によって送信された音声信号を受信する受信手段、
複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段、
前記被験者の動作を特定する動作特定手段、
前記動作特定手段によって特定された動作に対応する動作雑音モデルを前記動作雑音モデル記憶手段から読み出す動作雑音モデル読出手段、および
前記動作雑音モデル読出手段によって読み出された動作雑音モデルを用いて、前記音声検出手段によって検出される入力音声に含まれる前記被験者の音声を認識する認識手段を備える、音声認識システム。
【請求項６】
前記音声認識装置は、
複数の場所の各々に対応して作成された複数の場所雑音モデルを当該複数の場所の各々に対応付けて記憶する場所雑音モデル記憶手段、
前記被験者の存在する場所と特定する場所特定手段、および
前記場所特定手段によって特定された場所に対応する場所雑音モデルを前記場所雑音モデル記憶手段から読み出す場所雑音モデル読出手段をさらに備え、
前記認識手段は、前記動作雑音モデル読出手段によって読み出された動作雑音モデルと、前記場所雑音モデル読出手段によって読み出された場所雑音モデルとを用いて、前記音声検出手段によって検出される入力音声に含まれる前記被験者の音声を認識する、請求項５記載の音声認識システム。
【請求項７】
前記複数の場所の各々に対応して配置され、前記携帯端末と前記音声認識装置との通信を中継する複数の中継器をさらに備え、
前記中継器は、前記携帯端末から送信された音声信号を受信して、受信した音声信号に自己の識別情報を付加して前記音声認識装置に送信し、
前記場所特定手段は、前記受信手段によって受信された音声信号に付加された識別情報に基づいて、当該音声信号を送信した中継器の設置場所を前記被験者の存在する場所として特定する、請求項６記載の音声認識システム。
【請求項８】
複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段を備えるコンピュータの音声認識方法であって、
(a)被験者の音声を含む入力音声を検出し、
(b)前記被験者の動作を特定し、
(c)前記ステップ(b)によって特定された動作に対応する動作雑音モデルを前記動作雑音モデル記憶手段から読み出し、そして
(d)前記ステップ(c)によって読み出された動作雑音モデルを用いて、前記ステップ(a)によって検出される入力音声に含まれる前記被験者の音声を認識する、音声認識方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【公開番号】特開２００８−２５００５９（Ｐ２００８−２５００５９Ａ）
【公開日】平成２０年１０月１６日（２００８．１０．１６）
【国際特許分類】

物理学 (1,541,580)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
      - 標準パタンの作成；音声認識システムの学習，例．話者適応 (725)
      - 音声の識別または探索 (1,500)
        
        自然言語モデルを用いるもの (322)

【出願番号】特願２００７−９２４１４（Ｐ２００７−９２４１４）
【出願日】平成１９年３月３０日（２００７．３．３０）
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成１８年度独立行政法人情報通信研究機構「民間基盤技術研究促進制度／日常行動・状況理解に基づく知識共有システムの研究開発」、産業活力再生特別措置法第３０条の適用を受ける特許出願
【出願人】（３９３０３１５８６）株式会社国際電気通信基礎技術研究所 (905)
【Ｆターム（参考）】

音声認識 (5,191)
- 目的、機能 (1,020)
  - 話者の識別、照合 (293)
- 前処理 (287)
  - 不要成分の除去 (225)
    - 雑音除去 (172)

[ Back to top ]

音声認識装置、音声認識システムおよび音声認識方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

音声認識装置、音声認識システムおよび音声認識方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク