説明

音声認識装置、音声認識システムおよび音声認識方法

【解決手段】音声認識システムはサーバを含み、サーバでのデータベースには、複数の動作の各々に対応して作成された複数の動作雑音モデルと、複数の場所の各々に対応して作成された複数の環境雑音モデルとが記憶される。また、サーバには、複数の中継器が接続され、通信可能に携帯端末が接続される。携帯端末は、入力音声を取得するとともに、被験者の動作を検出し、入力音声に関する音声データおよび動作に関する加速度データを中継器に送信する。中継器は、音声データおよび加速度データに自身の中継器IDを付してサーバに送信する。サーバは、被験者の動作を特定し、また、中継器の設置場所を被験者の現在位置として推定する。そして、動作に応じた動作雑音モデルと被験者の現在位置に応じた環境雑音モデルとを用いて、入力音声に含まれる被験者の音声を認識する。
【効果】入力音声に含まれる雑音を適切に抑圧して、正確に音声認識することができる。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は音声認識装置、音声認識システムおよび音声認識方法に関し、特にたとえば、雑音を含む入力音声から被験者の音声を認識する、音声認識装置、音声認識システムおよび音声認識方法に関する。
【背景技術】
【0002】
従来のこの種の音声認識装置の一例が特許文献1に示されている。特許文献1の技術では、入力音声信号中の音声区間の信号と雑音区間の信号とを判別し、観測した雑音区間の信号から雑音モデルを学習する。そして、予め用意した雑音のない音声モデルと雑音モデルとを合成し、雑音重畳音声モデルを生成する。また、雑音区間の信号を予め用意した基準信号に重畳し、特徴パラメータの長時間平均を求めておく。これらの動作は、音声区間の信号が入力される前に実行される。音声区間の信号が入力されると、この信号の特徴パラメータの長時間平均を求め、雑音区間の信号を重畳した基準信号の特徴パラメータの長時間平均との差分を求める。この差分を雑音重畳音声モデルに加算して、CMN済雑音重畳音声モデルとする。そして、CMN済雑音重畳音声モデルと音声区間の信号の特徴パラメータとのモデル照合尤度を計算し、認識結果を出力する。
【特許文献1】特開2006−145694号
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかし、特許文献1の技術では、入力音声信号中の雑音区間から雑音モデルを学習しているが、音声区間と雑音区間との正確な判別は困難であるため、雑音モデルが適切に作成されない恐れがある。また、雑音区間が短い場合には、雑音モデルの推定に用いるデータが少なくなり、雑音モデルの信頼度は低くなる。したがって、特許文献1の技術では、音声認識を適切に実行できない恐れがある。
【0004】
それゆえに、この発明の主たる目的は、新規な、音声認識装置、音声認識システムおよび音声認識方法を提供することである。
【0005】
この発明の他の目的は、雑音を含んだ入力音声であっても正確に音声認識できる、音声認識装置、音声認識システムおよび音声認識方法を提供することである。
【課題を解決するための手段】
【0006】
本発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。
【0007】
請求項1の発明は、複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段、被験者の音声を含む入力音声を検出する入力音声検出手段、被験者の動作を特定する動作特定手段、動作特定手段によって特定された動作に対応する動作雑音モデルを動作雑音モデル記憶手段から読み出す動作雑音モデル読出手段、および動作雑音モデル読出手段によって読み出された動作雑音モデルを用いて、音声検出手段によって検出される入力音声に含まれる被験者の音声を認識する認識手段を備える、音声認識装置である。
【0008】
請求項1の発明では、音声認識装置(12,18)は、動作雑音モデル記憶手段(48)、入力音声検出手段(38,S1)、動作特定手段(S5)、動作雑音モデル読出手段(S9)、および認識手段(S13)を備える。動作雑音モデル記憶手段は、複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する。たとえば、動作雑音モデルは、被験者が所定の動作を行うときに、衣類が擦れる音や所定の動作で使用する器具の音のような動作に起因する雑音についての雑音モデルである。入力音声検出手段は、被験者の音声を含む入力音声を検出し、動作特定手段は、被験者の動作を特定する。動作雑音モデル読出手段は、被験者の動作に応じた動作雑音モデルを動作雑音モデル記憶手段から読み出す。認識手段は、読み出された動作雑音モデルを用いて雑音抑圧処理を行い、入力音声に含まれる被験者の音声を認識する。雑音モデルを用いた雑音抑圧処理としては、たとえば、PMC(Parallel Model Combination)法やGMM(Gaussian Mixture Model)による雑音抑圧処理を用いることができる。
【0009】
請求項1の発明によれば、予め複数の動作に対応した動作雑音モデルを用意し、被験者の動作に応じた動作雑音モデルを選択して音声認識を実行するので、入力音声に含まれる動作に起因する雑音を適切に抑圧でき、正確に音声認識することができる。
【0010】
請求項2の発明は、請求項1の発明に従属し、複数の場所の各々に対応して作成された複数の場所雑音モデルを当該複数の場所の各々に対応付けて記憶する場所雑音モデル記憶手段、被験者の存在する場所と特定する場所特定手段、および場所特定手段によって特定された場所に対応する場所雑音モデルを場所雑音モデル記憶手段から読み出す場所雑音モデル読出手段をさらに備え、認識手段は、動作雑音モデル読出手段によって読み出された動作雑音モデルと、場所雑音モデル読出手段によって読み出された場所雑音モデルとを用いて、音声検出手段によって検出される入力音声に含まれる被験者の音声を認識する。
【0011】
請求項2の発明では、音声認識装置は、場所雑音モデル記憶手段(48)、場所特定手段(S7)および場所雑音モデル読出手段(S9)をさらに備える。場所雑音モデル記憶手段は、複数の場所の各々で収集された雑音に対応する雑音データを用いて作成された複数の雑音モデルを、当該複数の場所の各々に対応付けて記憶する。たとえば、人がたくさん集まる場所(部屋)では話し声のような雑音が発生し、電子機器が置かれた部屋ではその動作音が発生する。このような周囲ないし環境の雑音についての雑音モデルが記憶されるのである。場所特定手段は、被験者の存在する場所すなわち現在位置を特定する。場所雑音モデル読出手段は、特定された現在位置に対応する場所雑音モデルを場所雑音モデル記憶手段から読み出す。したがって、認識手段は、動作雑音モデルと場所雑音モデルとを用いて、雑音を抑圧し、入力音声に含まれる被験者の音声を認識する。
【0012】
請求項2の発明によれば、動作雑音のみならず、環境雑音も抑圧するので、より正確に音声認識することができる。
【0013】
請求項3の発明は、請求項1または2の発明に従属し、入力音声検出手段によって検出された入力音声に対応する音声信号の信号対雑音比を推定する推定手段、および推定手段によって推定された信号対雑音比に応じて雑音モデルの合成比率を調整する調整手段をさらに備える。
【0014】
請求項3の発明では、推定手段(S3)および調整手段(S11)をさらに備える。推定手段は、入力音声の信号対雑音比(SNR)、すなわち音声および雑音の相対的な大きさの比を推定する。調整手段は、信号対雑音比に応じて雑音モデル(動作雑音モデルのみ,動作雑音モデルおよび環境雑音モデルの両方)の合成比率を調整する。たとえば、音声モデルと雑音モデルとを合成して雑音重畳モデルを作成するときには、推定したSNRに応じて合成比率が調整される。
【0015】
請求項3の発明によれば、入力音声のSNRを考慮してモデル合成を行うので、より正確に音声認識することができる。
【0016】
請求項4の発明は、請求項2または3の発明に従属し、場所特定手段は環境に設置された中継器が発する識別情報を検出し、当該識別情報を発した中継器の設置場所を被験者の存在する場所として特定する。
【0017】
請求項4の発明では、周囲ないし環境すなわち複数の場所に中継器(16)が設置されており、場所特定手段(S5)は、通信可能範囲に存在する中継器が発する識別情報(中継器ID)を検出する。そして、中継器IDに基づいてその中継器が設置されている場所を特定し、その特定した場所を被験者の存在する場所(現在位置)として推定(特定)する。
【0018】
請求項4の発明によれば、被験者の現在位置を簡単に特定することができ、特定した場所に応じた場所雑音モデルを用いて正確に音声認識することができる。
【0019】
請求項5の発明は、携帯端末と音声認識装置とを備える音声認識システムであって、携帯端末は、被験者の音声を含む入力音声を検出する入力音声検出手段、および入力音声検出手段によって検出された入力音声についての音声信号を音声認識装置に送信する送信手段を備え、音声認識装置は、送信手段によって送信された音声信号を受信する受信手段、複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段、被験者の動作を特定する動作特定手段、動作特定手段によって特定された動作に対応する動作雑音モデルを動作雑音モデル記憶手段から読み出す動作雑音モデル読出手段、および動作雑音モデル読出手段によって読み出された動作雑音モデルを用いて、音声検出手段によって検出される入力音声に含まれる被験者の音声を認識する認識手段を備える、音声認識システムである。
【0020】
請求項5の発明では、音声認識システム(10)は、携帯端末(18)と音声認識装置(12)と備える。たとえば、音声認識装置は、看護師などの被験者が作業中に発話する発話内容(実施例では業務内容)を音声認識して記録する。携帯端末は、被験者によって所持ないし装着され、入力音声検出手段(38)によって検出された被験者の音声を含む入力音声についての音声信号を、送信手段(28)によって音声認識装置に送信する。音声認識装置は、受信手段(S1)、動作雑音モデル記憶手段(48)、動作特定手段(S5)、動作雑音モデル読出手段(S9)、および認識手段(S13)を備える。受信手段は、携帯端末から送信される音声信号を受信する。動作雑音モデル記憶手段は、看護業務についての動作に起因する雑音(衣類の擦れる音など)を動作毎に記憶する。動作特定手段は、被験者の動作を特定する。動作雑音モデル読出手段は、被験者の動作に応じた動作雑音モデルを動作雑音モデル記憶手段から読み出す。認識手段は、被験者の動作に応じた動作雑音モデルを用いて雑音抑圧処理を行い、受信手段によって受信された音声信号(入力音声の音声信号)に含まれる被験者の音声を認識する。
【0021】
請求項5の発明によれば、請求項1の発明と同様に、複数の場所に対応した雑音モデルを予め用意し、被験者の存在する場所に応じた雑音モデルを選択して音声認識を実行するので、雑音を適切に抑圧でき、正確に音声認識することができる。
【0022】
請求項6の発明は、請求項5の発明に従属し、音声認識装置は、複数の場所の各々に対応して作成された複数の場所雑音モデルを当該複数の場所の各々に対応付けて記憶する場所雑音モデル記憶手段、被験者の存在する場所と特定する場所特定手段、および場所特定手段によって特定された場所に対応する場所雑音モデルを場所雑音モデル記憶手段から読み出す場所雑音モデル読出手段をさらに備え、認識手段は、動作雑音モデル読出手段によって読み出された動作雑音モデルと、場所雑音モデル読出手段によって読み出された場所雑音モデルとを用いて、音声検出手段によって検出される入力音声に含まれる被験者の音声を認識する。
【0023】
請求項6の発明では、音声認識装置は、場所雑音モデル記憶手段(48)、場所特定手段(S7)および場所雑音モデル読出手段(S9)をさらに備える。場所雑音モデル記憶手段は、複数の場所の各々で収集された雑音に対応する雑音データを用いて作成された複数の雑音モデルを、当該複数の場所の各々に対応付けて記憶する。場所特定手段は、被験者の存在する場所すなわち現在位置を特定する。場所雑音モデル読出手段は、特定された現在位置に対応する場所雑音モデルを場所雑音モデル記憶手段から読み出す。したがって、認識手段は、動作雑音モデルと場所雑音モデルとを用いて、雑音を抑圧し、入力音声に含まれる被験者の音声を認識する。
【0024】
請求項6の発明によれば、動作雑音のみならず、環境雑音も抑圧するので、より正確に音声認識することができる。
【0025】
請求項7の発明は、請求項6の発明に従属し、複数の場所の各々に対応して配置され、携帯端末とサーバとの通信を中継する複数の中継器をさらに備え、中継器は、携帯端末から送信された音声信号を受信して、受信した音声信号に自己の識別情報を付加してサーバに送信し、場所特定手段は、受信手段によって受信された音声信号に付加された識別情報に基づいて、当該音声信号を送信した中継器の設置場所を被験者の存在する場所として特定する。
【0026】
請求項7の発明では、複数の場所の各々に対応して配置される複数の中継器(16)をさらに備える。中継器は、通信可能な範囲に存在する携帯端末(18)から送信される被験者の音声を含む入力音声についての音声信号を受信し、受信した音声信号に自身の識別情報(中継器ID)を付加して音声認識装置(12)に送信する。場所特定手段(S7)は、中継器IDに基づいて当該中継器の設置場所を特定し、その設置場所を携帯端末の存在する場所、すなわち被験者の現在位置として特定する。
【0027】
請求項7の発明によれば、被験者の現在位置を容易に特定でき、被験者の現在位置に応じた場所雑音モデルを選択して、正確に音声認識することができる。
【0028】
請求項8の発明は、複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段を備えるコンピュータの音声認識方法であって、(a)被験者の音声を含む入力音声を検出し、(b)被験者の動作を特定し、(c)ステップ(b)によって特定された動作に対応する動作雑音モデルを動作雑音モデル記憶手段から読み出し、そして(d)ステップ(c)によって読み出された動作雑音モデルを用いて、ステップ(a)によって検出される入力音声に含まれる被験者の音声を認識する、音声認識方法である。
【0029】
請求項8の発明の発明においても、請求項1の音声認識装置の発明と同様に、正確に音声認識することができる。
【発明の効果】
【0030】
この発明によれば、予め複数の動作に対応した動作雑音モデルを用意し、被験者の動作に応じた動作雑音モデルを用いて音声認識を実行するので、入力音声に含まれる動作に起因する雑音を適切に抑圧でき、雑音を含んだ入力音声であっても正確に音声認識することができる。
【0031】
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
【発明を実施するための最良の形態】
【0032】
図1を参照して、この発明の一実施例である音声認識システム10は、音声認識装置としても機能するサーバ12を含み、たとえば、病院のような組織に適用され、看護師などの被験者が作業中に発話する内容(たとえば業務内容)を音声認識して記録する。
【0033】
サーバ12は、有線或いは無線による通信回線(ネットワーク)14を介して複数の中継器16に接続される。複数の中継器16のそれぞれは、看護師が作業ないし業務を行う場所、たとえば、病室の入り口、病室内のベッド或いはその近傍、廊下およびナースステーションなどの所定位置に配置される。また、複数の中継器16のそれぞれには、無線通信可能に携帯端末18が接続される。携帯端末18は、看護師によって所持され(装着され)、携帯端末18から送信されるデータは、無線通信可能な範囲(たとえば、半径1〜3メートル)に存在する中継器16を介して、サーバ12に送信される。
【0034】
なお、図1には1つの携帯端末18を示してあるが、音声認識システム10は、複数の携帯端末18を備えてよく、複数の携帯端末18のそれぞれは、複数の看護師のそれぞれに割り当てられる。また、携帯端末18は、無線LAN等によってネットワーク14に直接接続される場合もある。
【0035】
図2は携帯端末18の具体的な構成を示すブロック図であり、携帯端末18はCPU20を含む。CPU20には、メモリ22,エンコーダ24,非接触センサ26,インターフェイス28,タイマ30、DIPスイッチ32,無線送信機34、無線受信機36および複数の加速度センサ40a,40b,40c,40d,40e,40f(以下、これらをまとめて、「加速度センサ40」という場合がある)などが接続される。
【0036】
メモリ22は、ワークメモリないしバッファメモリとして働き、CPU20によって使用される。エンコーダ24にはヘッドセットマイク38が接続され、エンコーダ24は、ヘッドセットマイク38から入力される入力音声についての音声信号をMP3のような圧縮音声データに変調する。圧縮音声データは、CPU20の指示に従ってメモリ22に記憶される。メモリ22に記憶された圧縮音声データは、CPU20の指示に従って、一定時間(たとえば、10秒〜30秒)毎に、中継器16およびネットワーク14を介してサーバ12に送信される。
【0037】
なお、音声信号を圧縮変調するのは、メモリ22の容量を比較的少なくするためであり、また、サーバ12に送信するデータのデータ量を低減するためである。
【0038】
また、この実施例で用いるヘッドセットマイク38は指向性を有するものである。これは、予め周囲の雑音(看護師の動作に起因する雑音や環境による雑音)をできるだけ除いた入力音声を検出し、音声認識の精度を高めるためである。また、ヘッドセットマイク38を用いるのは、看護師が作業を行うときには看護師の両手が塞がっていることが多いためであり、さらには、作業に用いる道具以外のものを看護師が手に持つことをできるだけ少なくするためである。ただし、ヘッドセットマイク38に代えて、指向性を有するピンマイクを、たとえば襟元に装着するようにしてもよい。
【0039】
非接触センサ26としては、焦電センサを用いることができ、CPU20は非接触センサ26からの入力に応じてヘッドセットマイク38をオン/オフする。この実施例では、非接触センサ26すなわち焦電センサの前で、看護師が手を2回上下させると、その検出信号がCPU20に入力され、これに応じて、CPU20はヘッドセットマイク38をオンし、その後、看護師が焦電センサの前で、手を2回上下させると、ヘッドセットマイク38をオフする。このように、ヘッドセットマイク38をオン/オフ可能にしてあるのは、看護師のプライバシを守るためである。つまり、業務内容を音声認識して記録する必要が生じたときに、ヘッドセットマイク38はオンされ、休憩時間など業務内容を記録する必要がないときには、ヘッドセットマイク38はオフされる。
【0040】
インターフェイス28は、LAN(無線LAN)アダプタのようなインターフェイスであり、これにより、携帯端末18はネットワーク14に接続される。したがって、携帯端末18は、ネットワーク14を介して、サーバ12との間で通信可能になる。
【0041】
タイマ30は、日付および時刻を計時する回路であり、CPU20は、タイマ30から時間データを取得する。DIPスイッチ32は、たとえば8ビットで構成され、各ビットのオン/オフを切り替えることにより、0〜255の間で数値を設定することができる。この数値が看護師の識別情報(看護師ID)であり、各携帯端末18で異なる値が設定される。CPU20は、送信する音声データに、時間データや看護師IDをラベルとして付して、中継器16に送信する。つまり、音声データ、時間データ、および看護師IDについてのデータ(数値データ)が携帯端末18から中継器16に対して送信される。
【0042】
なお、この実施例では、DIPスイッチ32を用いて看護師IDを設定するようにしてあるが、これに限定されるべきではない。たとえば、DIPスイッチ32に代えて、看護師IDを記憶したROMなどを設けておくようにすることもできる。
【0043】
無線送信機34は、CPU20の指示に従って、上述の音声データ、時間データおよび看護師IDについてのデータ(以下、これらを送信データと呼ぶことがある。)を中継器16に送信する。無線受信機36は、無線通信可能な範囲に存在する中継器16が発する微弱電波を受信し、中継器IDを復調し、復調した中継器IDについてのデータをCPU20で処理する。
【0044】
加速度センサ40の各々は、たとえば多軸(3軸)加速度センサであり、この携帯端末18を所持ないし装着する看護師の動作を検出するために用いられる。この実施例では、頭部、両手、腰部(または腹部)および両足の各部位についての加速度が検出され、検出された加速度データと後述する動作DB46(図5参照)に予め記憶されている動作毎の加速度データとが対比され、1の動作が特定(同定)される。たとえば、周知のDPマッチングを実行することにより、検出された加速度データと、動作DB46に記憶される加速データとの近似度(類似度)を容易に求めることができる。
【0045】
上述したような構成の携帯端末18は、看護師などの被験者によって所持ないし装着される。たとえば、図3に示すように、非接触センサ26、ヘッドセットマイク38および加速度センサ40以外の回路コンポーネントはボックス(筐体)60に収容され、ボックス60は看護師の白衣の前ポケット等に収納される。また、非接触センサ26は、ペン型のケースに収容され、看護師の白衣の胸ポケットに挿すように収納される。なお、図面では、分かり易く示すために、ボックス60および非接触センサ26を各ポケットの外部に記載してある。また、ヘッドセットマイク38は看護師の頭部に装着される。
【0046】
また、上述したように、加速度センサ40が看護師の所定の部位に装着ないし固定される。たとえば、図3に示すように、加速度センサ40aは看護師の頭部に装着され、加速度センサ40bは看護師の右手首に装着され、加速度センサ40cは看護師の左手首に装着され、加速度センサ40dは看護師の腰部(または腹部)に装着され、加速度40eは看護師の右足首に装着され、そして、加速度40fは看護師の左足首に装着される。
【0047】
なお、図3においては省略するが、非接触センサ26は接続線を用いてボックス60内のCPU20に接続され、ヘッドセットマイク38は接続線を用いてボックス60内のエンコーダ24に電気的に接続され、加速度センサ40は接続線を用いてボックス60内のCPU20に接続される。ただし、接続線を用いずに、ブルートゥース(登録商標)のような近距離無線によって接続するようにしてもよい。つまり、電気的に接続されればよいのである。
【0048】
上述したように、この音声認識システム10では、看護師などが作業中に発話する内容を音声認識して記録する。また、音声認識を行う際には、雑音抑圧処理を適宜行う。
【0049】
雑音抑圧処理としては、たとえば、PMC(Parallel Model Combination)法を用いることができる。PMC法では、音声モデルと雑音モデルとを合成することにより、雑音重畳音声モデルが推定(作成)され、この雑音重畳音声モデルと入力音声とが照合される。これによって、雑音を含む入力音声であっても精度良く認識することができる。このPMC法では、実際の雑音重畳雑音モデルを必要とすることなく、雑音を含む入力音声に対応することができる。よく用いられるLog−Add近似と呼ばれる推定法では、数1に示すように、雑音重畳音声モデルの平均ベクトルμを推定することができる。
【0050】
【数1】

【0051】
ここで、μsおよびμnのそれぞれは、音声モデルおよび雑音モデルの対数スペクトルエネルギーの平均ベクトルを示す。また、「^」は推定値を意味する。以下、同じ。
【0052】
なお、PMC法については、「M.J.F.Gales,“Model-Based Techniques for Noise Robust Speech Recognition,”Ph.D Thesis,Cambridge University,1995.」および「M.J.F.Gales,S J Young,“A fast and flexible implementation of parallel model combination,”Proc. of ICASSP,pp.133-136,1995.」において詳細に開示されているので参照されたい。
【0053】
また、GMM(Gaussian Mixture Model)による雑音抑圧処理を用いることもできる。音声と雑音とに相関が無いと仮定し、フレームiにおける雑音重畳音声(入力音声)、クリーン音声および雑音のメルフィルタバンク出力の対数値ベクトルのそれぞれを、X(i)、S(i)およびN(i)とすると、数2のように表すことができる。
【0054】
【数2】

【0055】
ここで、g(S(i),N(i))は、ミスマッチ関数である。また、フィルタバンクの第bバンクに対する補助関数fは数3で定義される。
【0056】
【数3】

【0057】
ここで、sおよびnは、クリーン音声および雑音のメルフィルタバンク出力である。数2に対し、1次テイラー展開を適用することで、平均および分散を推定することができる。クリーン音声を数4のようなK混合ガウス分布モデルで表し、雑音信号を単一ガウス分布N(μnn)で表すと、平均および分散のそれぞれは、数5および数6のように近似的に推定することができる。
【0058】
【数4】

【0059】
【数5】

【0060】
【数6】

【0061】
実際には、雑音の分散を推定するときにはデータが少ない場合が多い。また、分散推定による音声認識の精度の向上は、平均推定による音声認識の精度の向上と比較して小さいため、音声モデルの分散を、Σx,k(b,b)≒Σs,k(b,b)とする。すると、クリーン音声は、数7のように表すことができる。
【0062】
【数7】

【0063】
このように、GMMによる雑音抑圧処理では、雑音モデルと音声モデルとを用いて、分析フレームごとに入力音声から音声のみを推定する。そして、推定された音声と音声モデルとを照合する。これによって、雑音を含む入力音声であっても精度良く認識することができる。
【0064】
なお、GMMによる雑音抑圧処理については、「J.C.Segura,A.de la Torre, M.C.Benitez, A.M.Peinado,“Model-based compensation of the additive noise for continuous speech recognition. Experiments using AURORA II database and tasks,”Proc. of Eurospeech’01,vol.I,pp.221-224,2001」において詳細に開示されているので参照されたい。
【0065】
上述のような雑音抑圧処理では、使用する雑音モデルによってその音声認識の精度に大きな違いが出るため、どのような雑音モデルを用いるかが問題となる。ここで、上述したように、サーバ12は、看護師のような被験者の音声を認識するのであるが、看護師が業務(看護業務)を行っている場合には、衣服が擦れる音や器具(血圧計や点滴注射器)を使用したり、設定ないし設置したりする音が発生する。このような看護業務の動作に伴う(起因する)雑音(動作雑音)は、看護師の音声とともに、ヘッドセットマイク38から入力される。
【0066】
また、このような動作雑音のみならず、周囲(環境)からの雑音もヘッドセットマイク38から入力される。たとえば、院内の待合室では、患者等の話し声やテレビ(またはラジオ)の音が発生し、また、看護師の詰所(ナースステーション)では、他の看護師の話し声、ナースコールの音または他の看護師の動作に伴う雑音が発生する。このような環境に起因する雑音(環境雑音)もまた、看護師の音声とともに、ヘッドセットマイク38から入力される。
【0067】
ここで、病院内の複数の場所で収録された環境雑音の平均スペクトルの具体例を図4に示す。環境雑音は、「洗濯室横」、「病室横の廊下」、「エレベータホール」、「ナースステーション内」、および「階段」において、それぞれ10分程度収録したものである。使用したマイクロホンはDPA製小型コンデンサマイクロホン4060であり、収録機器にはM−AUDIO製のMICROTRACK24/96を用いた。各場所における環境雑音の平均パワースペクトルは、環境雑音を48kHzのサンプリング周波数、16ビットで収録後、16kHzにダウンサンプリングし、分析窓長20msで短時間フーリエ変換を行い、収録されたデータの全フレームで平均することによって求めた。
【0068】
図4に示すように、「洗濯機横」の環境雑音には、洗濯機の動作音が主に含まれていた。また、「病室横の廊下」、「エレベータホール」および「階段」では、会話音声が時折発生する以外は基本的に静かであり、環境雑音は小さかった。また、「ナースステーション内」の環境雑音には、時折発生する会話音声以外に、機器が発する動作音が含まれ、500Hz付近にピークが見られた。
【0069】
なお、図示は省略するが、動作雑音については、実際に看護師が看護業務を行うときに発生する雑音が、看護業務毎に収録される。
【0070】
図4からも分かるように、場所によって周囲の環境雑音は異なるので、音声認識用に雑音抑圧処理などを行う場合には、その場所に特化した雑音モデルを用いれば、より精度良く雑音抑圧処理を行うことが可能となる。このことは、動作雑音についても同様であり、看護業務に特化した雑音モデルを用いることが考えられる。
【0071】
そこで、この実施例では、予め複数の看護業務ごとに検出される動作雑音のモデル化を図るとともに、予め複数の場所ごとに観測される環境雑音のモデル化を図って、動作雑音のモデルと環境雑音のモデルとをメモリ(この実施例では、データベース)に記憶しておき、それらを用いて雑音抑圧処理を実行するようにしてある。
【0072】
具体的には、図5のブロック図に示すように、サーバ12には、複数のデータベース(DB)、すなわち看護師DB42、中継器DB44、動作DB46、雑音モデルDB48および音声モデルDB50が接続される。これらのDB42−50は、看護師の発話(音声)が含まれる入力音声に対して、雑音抑圧処理を実行して音声認識するために使用される。
【0073】
看護師DB42には、看護師の識別情報(看護師ID)に対応付けて、看護師名などの看護師を特定するための情報が記憶される。中継器DB44には、中継器16の識別情報(中継器ID)に対応付けて、中継器16の設置されている場所が記憶される。したがって、サーバ12は、看護師IDから看護師または看護師名を特定することができ、中継器IDから中継器16の設置されている場所を特定することができる。
【0074】
ここで、図1を参照して、中継器16は、上述したように、無線通信可能な範囲に存在する携帯端末18から送信される送信データを受信する。そして、受信した送信データに自身の中継器IDを付して、ネットワーク14を介してサーバ12に送信する。つまり、サーバ12で受信される音声データには、看護師IDおよび中継器IDが付加されている。したがって、サーバ12は、受信した音声データに対応する音声を入力した看護師および入力した場所(現在位置)を推定(特定)することができる。
【0075】
なお、中継器16と携帯端末18とは互いに通信可能であるため、携帯端末18は、無線通信可能な範囲に存在する中継器16の識別情報(中継器ID)を検出することもできる。したがって、中継器16からサーバ12に対して中継器IDが付加された送信データを送信するのではなく、携帯端末18からサーバ12に対して中継器IDが付加された送信データを送信することもできる。つまり、携帯端末18が通信可能な範囲にある中継器16から中継器IDを取得し、送信データに中継器IDについてのデータを付して、携帯端末18から、インターフェイス28およびネットワーク14を介して、サーバ12に送信することもできる。
【0076】
図5に戻って、動作DB46は、看護師の動作(看護業務)の名称ないし識別情報に対応して、該当看護業務を実行する場合の加速度センサ40の加速度データが記憶される。たとえば、動作DB46に記憶される加速度データは、複数(多数)の看護師が看護業務(動作)を行った場合に検出される複数の加速度データを平均することにより得られる。ただし、看護業務のように、人間が行う動作ないし行動では、個人差があるため、看護師毎に加速度データを取得して、動作DB46に収録しておくようにしてもよい。このようにすれば、看護師の動作(看護業務)の特定の精度が上がると考えられる。
【0077】
雑音モデルDB48には、動作雑音モデルと環境雑音モデルとが記憶される。具体的には、動作雑音モデルは、複数の看護業務を実行している場合に発生する動作雑音を収録した動作雑音のデータ(動作雑音データ)に基づいて作成(推定)され、各看護業務に対応付けて記憶される。また、環境雑音モデルは、複数の場所毎に収録した環境雑音のデータ(環境雑音データ)に基づいて作成(推定)され、各場所に対応づけて記憶される。
【0078】
なお、この実施例では、後述するように、中継器16の設置位置に基づいて看護師の現在位置を推定するので、中継器16が設置される場所毎の環境雑音モデルを雑音モデルDB48に記憶しているものとする。
【0079】
音声モデルDB50には、雑音を含まない音声のみに基づいて作成された音声モデル(音声データ)が記憶される。たとえば、この音声認識システム10を利用する看護師が、雑音の無い場所で入力した音声データが記憶(収録)される。また、複数の看護師がこの音声認識システム10を利用する場合には、看護師毎に音声モデルを記憶し、音声認識を行うときに、各看護師に対応する音声モデルを利用するようにすれば、より適切に音声認識を実行できる。
【0080】
このような音声認識システム10を利用して、看護師が作業中に発話した業務内容を記録する一例を示す。たとえば、ナースステーションに居る看護師が、患者Aの点滴に向かう場合には、看護師はヘッドセットマイク38をオンにし、「患者Aさんの点滴に行ってきます」と発話し、その後、ヘッドセットマイク38をオフする。すると、看護師の発話(音声)を含む入力音声についての音声信号には、携帯端末18において、デジタル変換および圧縮(変調)処理が施され、入力音声についての音声信号に対応する圧縮音声データが生成される。また、ヘッドセットマイク38がオンされてからオフされるまでに、加速度センサ40からの加速度データが検出される。たとえば、点滴に必要な器具や薬を準備する動作についての加速度データが検出される。
【0081】
圧縮音声データおよび加速度データに、時間データおよび看護師IDが付加された送信データが、通信可能な範囲に在る中継器16に送信される。この場合には、ナースステーションに配置された中継器16に送信される。そして、中継器16においてその中継器16の中継器IDが付加された送信データは、ネットワーク14を介してサーバ12に送信される。
【0082】
サーバ12では、中継器IDが付加された送信データが受信されると、時間データに基づいて音声データに対応する音声が入力された時間が特定され、看護師DB48が参照されて、看護師IDから音声データに対応する音声を入力した看護師が特定される。また、サーバ12では、動作DB46が参照されて、送信データに含まれる加速度データに基づいて、看護師の動作(看護業務)が特定される。たとえば、「点滴に必要な器具や薬を準備する動作」が特定される。さらに、サーバ12では、中継器DB50が参照されて、中継器IDから送信データを送信(中継)した中継器16が特定され、その中継器16の設置された場所(ここではナースステーション)が看護師の現在位置として特定される。さらにまた、サーバ12では、音声データの信号対雑音比(SNR)が推定される。
【0083】
看護師の動作が特定されると、サーバ12では、当該動作に対応する動作雑音モデルが雑音モデルDB48から読み出される。また、看護師の現在位置が特定されると、サーバ12では、看護師の現在位置に対応する環境雑音モデルが雑音モデルDB48から読み出される。そして、サーバ12では、読み出された動作雑音モデルおよび環境雑音モデルを用いて、音声データに対応する音声信号(入力音声の音声信号)に対して残響抑圧処理が施され、入力音声に含まれる看護師の音声が認識される。
【0084】
音声認識を行う際には、上述のPMC法やGMMなどの雑音モデルを用いた雑音抑圧処理が行われる。このとき、入力音声のSNRを考慮してモデル合成を行えば、より精度良く音声認識を実行することが可能となる。
【0085】
このようにして、看護師の音声、すなわち「患者Aさんの点滴に行ってきます」という音声は、その音声が発せられたときの動作および場所に起因する雑音の雑音モデルを用いて音声認識される。そして、その認識結果はテキスト文として出力され、たとえばサーバ12内のメモリに記憶される。また、サーバ12は、その音声が発せられた時刻およびその音声を発した看護師(看護師名)を特定できるので、音声の認識結果は、その音声が発せられた時刻およびその音声を発した看護師名と共に記憶される。
【0086】
なお、サーバ12に記憶した看護師の発話内容(すなわち看護師の業務内容)などのテキストデータは、たとえば、看護師に割り当てられるパーソナルコンピュータのようなコンピュータからサーバ12にアクセスすることによって、適宜確認および取得が可能である。
【0087】
詳細な説明は省略するが、たとえば、看護師が病室内に移動し、病室内で発話する内容を音声認識して記録する場合には、上述の例と同様に、その移動した場所(この場合は病室内)での動作に対応して動作雑音モデルおよび当該場所に対応した環境雑音モデルが選択され(読み出され)、それらを用いて正確に音声認識が行われる。
【0088】
以下に、音声認識システム10が雑音を含む入力音声から看護師の音声を認識する処理について、フロー図を用いて説明する。具体的には、サーバ12が図6に示すフロー図に従って全体処理を実行する。なお、ここでは、PMC法を用いて雑音抑圧処理を実行する場合について説明するが、GMMによって雑音抑圧処理を実行することもできる。
【0089】
図6に示すように、サーバ12は全体処理を開始すると、ステップS1で、入力音声を取得する。すなわち、看護師が装着する操作端末18から中継器16を介して送信される入力音声についての音声データを取得する。具体的には、サーバ12は、中継器IDが付された送信データを受信する。この送信データには、音声データ、加速度データ、看護師ID、および時間データが含まれている。続くステップS3では、取得した入力音声のSNRを推定する。つまり、音声および雑音の相対的な大きさの比を推定する。
【0090】
続くステップS5では、看護師の動作を特定する。具体的には、サーバ12は、送信データに含まれる加速度データと、動作DB46に記憶される動作毎の加速データとを比較し、最も近似(類似)する加速度データに対応する動作を、看護師の動作として特定する。
【0091】
なお、図示は省略するが、送信データに含まる加速度データと、動作DB46に記憶される加速度データとの近似度がすべて一定の閾値未満である場合には、該当する動作が無いと判断するようにしてある。これは、音声を入力する際に、必ずしも動作が伴っているとは限らないからである。
【0092】
続いて、ステップS7では、看護師の現在位置を特定する。具体的には、サーバ12は、中継器DB44を参照して、ステップS1で取得した中継器IDに対応して記述される中継器16が配置されている場所を看護師の現在位置として特定する。
【0093】
次に、ステップS9では、特定した看護師の動作と現在位置とから雑音モデルを決定する。すなわち、サーバ12は、雑音モデルDB48から、看護師の動作に対応する動作雑音モデルおよび看護師の現在位置に対応する環境雑音モデルを読み出す。さらに、ステップS11では、雑音重畳音声モデルを作成する。すなわち、サーバ12は、ステップS9で決定した雑音モデルと音声モデルDB50に記憶された音声モデルとを合成し、雑音重畳音声モデルを作成する。雑音重畳音声モデルを作成する際には、ステップS3で推定した入力音声のSNRに基づいて、その合成比率を調整する。
【0094】
続くステップS13では、音声認識を実行する。すなわち、雑音重畳モデルと入力音声とを照合し、入力音声から看護師の音声を認識する。そして、ステップS15では、認識結果を出力する。たとえば、サーバ12は、認識結果を内部メモリに出力し、テキストデータとして記録して、当該全体処理を終了する。
【0095】
この実施例によれば、複数の動作のそれぞれに対応する動作雑音モデルと、複数の場所のそれぞれに対応する環境雑音モデルとを予め記憶しておき、被験者の動作および存在する場所に応じた雑音モデルを用いて音声認識を実行するので、入力音声に含まれる雑音を適切に抑圧でき、雑音を含んだ入力音声であっても正確に音声認識することができる。
【0096】
また、上述の実施例によれば、携帯端末18からの送信データを中継した中継器16の設置位置を被験者の存在する場所として特定するので、容易に被験者の現在位置を特定することができる。
【0097】
ただし、看護師(被験者)の現在位置の特定方法はこれに限定されず、適宜な方法を用いて被験者の現在位置を特定してよい。たとえば、音声認識システム10を屋外に存在する被験者に対して適用する場合には、公知のGPSを利用して被験者の現在位置を検出することができる。
【0098】
また、上述の実施例で説明したように、屋内に被験者が存在する場合には、通過センサ等によって被験者の現在位置を特定することもできる。たとえば、被験者に自身の識別情報を送信するタグ(無線タグや赤外線LEDタグ等)を取り付け、病室の出入口や廊下の天井などの適宜な場所にタグからの識別情報を受信するタグ読取装置を設けるようにする。かかる場合には、サーバ12は、被験者の病室の出入りなどを管理することによって各被験者の現在位置を検出し、被験者の識別情報に対応付けて現在位置の情報を管理しておく。そして、被験者によって音声が入力されたときに、その被験者の現在位置を取得するとよい。
【0099】
さらに、被験者の現在位置に基づいて被験者の動作を推定することもできる。たとえば、看護師が行う看護業務(作業)毎に場所(部屋)を固定的に決定しておけば、看護師の現在位置からその看護業務(動作)を特定することができる。したがって、かかる場合には、上述の実施例で示した加速度センサ40は省略することができる。このため、送信データの容量も軽減することができる。
【0100】
かかる場合には、図7に示すように、サーバ12には、場所DB52がさらに接続される。この場所DB52には、複数の場所の名称ないし識別情報に対応付けて、対応する看護師の動作(看護業務)の名称ないし識別情報が記憶される。
【0101】
具体的には、サーバ12が図8に示すフロー図に従って全体処理を実行する。ただし、上述の実施例で図6を用いて説明した処理と略同じであるため、異なる内容について説明し、重複した説明は省略することにする。また、上述したように、看護師の現在位置から看護師の動作を特定するため、図6に示したステップS5の処理が省略される。
【0102】
図8に示すように、サーバ12は、ステップS7で看護師の現在位置を特定すると、ステップS21で、場所DB52を参照して、特定した現在位置に対応して記憶される看護師の動作ないし看護業務を特定する。
【0103】
図示は省略するが、場所DB52を設けた場合には、上記とは逆に、看護師の動作から場所を特定することも可能である。かかる場合には、中継器16は携帯端末18からの送信データを単に中継するだけでよい。つまり、中継器16はその中継器IDを付加する必要がない。また、中継器IDに基づいて看護師の現在位置を推定(特定)しないため、中継器DB44を削除することができる。動作としては、サーバ12は、図6に示したステップS5において、看護師の動作を特定すると、ステップS7の処理に変えて、場所DBを参照して、動作から看護師の場所すなわち現在位置を特定する。つまり、ステップS7の処理が異なる以外は、サーバ12の処理は図6に示した処理と同じである。
【0104】
また、上述の実施例では、サーバ12が音声認識処理を実行するようにしたが、これに限定されず、携帯端末18のCPU20が音声認識処理を実行することもできる。つまり、携帯端末18が音声認識装置として機能することもできる。この場合には、上述の実施例で示したデータベース(42−50)を携帯端末18が持つようにしてもよい。また、携帯端末18が音声認識処理を実行するときに、ネットワーク14や外部コンピュータ(たとえばサーバ12)に接続されるデータベースを適宜参照するようにしてもよい。
【0105】
さらに、上述の実施例では、動作雑音と環境雑音との両方を抑圧する場合についてのみ説明したが、いずれか一方を抑圧するようにしても、両方を抑圧しない場合に比べて、音声認識の精度を向上させることができる。たとえば、動作雑音のみを抑圧する場合には、図6のステップS7の処理を削除し、ステップS9では、動作雑音モデルのみを決定すればよい。かかる場合には、環境雑音モデルを雑音モデルDB48に構築する必要はない。また、環境雑音のみを抑圧する場合には、図6のステップS5の処理を削除し、ステップS9では、環境雑音モデルのみを決定すればよい。かかる場合には、動作雑音モデルを雑音モデルDB48に構築する必要はない。
【0106】
さらにまた、上述の実施例では、音声認識システム10が病院のような組織に適用され、看護師のような被験者の音声を認識する場合についてのみ説明したが、用途はこれに限定される必要はない。たとえば、医師の音声を認識するようにしてもよいし、工場に適用して、当該工場における作業員の音声を認識するようにしてもよい。
【図面の簡単な説明】
【0107】
【図1】図1はこの発明の音声認識システムの一例を示す図解図である。
【図2】図2は図1の携帯端末の電気的な構成を示す図解図である。
【図3】図3は図1の携帯端末を被験者(看護師)が装着した様子を示す図解図である。
【図4】図4は複数の場所の各々において観測された環境雑音の平均パワースペクトルを示すグラフである。
【図5】図5は図1のサーバに接続されるデータベースを示すブロック図である。
【図6】図6は図1のサーバの全体処理を示すフロー図である。
【図7】図7は他の実施例のサーバに接続されるデータベースを示すブロック図である。
【図8】図8は他の実施例のサーバの全体処理を示すフロー図である。
【符号の説明】
【0108】
10 …音声認識装置
12 …サーバ
14 …ネットワーク
16 …中継器
18 …携帯端末
38 …ヘッドセットマイク
40(40a,40b,40c,40d,40e,40f) …加速度センサ

【特許請求の範囲】
【請求項1】
複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段、
被験者の音声を含む入力音声を検出する入力音声検出手段、
前記被験者の動作を特定する動作特定手段、
前記動作特定手段によって特定された動作に対応する動作雑音モデルを前記動作雑音モデル記憶手段から読み出す動作雑音モデル読出手段、および
前記動作雑音モデル読出手段によって読み出された動作雑音モデルを用いて、前記音声検出手段によって検出される入力音声に含まれる前記被験者の音声を認識する認識手段を備える、音声認識装置。
【請求項2】
複数の場所の各々に対応して作成された複数の場所雑音モデルを当該複数の場所の各々に対応付けて記憶する場所雑音モデル記憶手段、
前記被験者の存在する場所と特定する場所特定手段、および
前記場所特定手段によって特定された場所に対応する場所雑音モデルを前記場所雑音モデル記憶手段から読み出す場所雑音モデル読出手段をさらに備え、
前記認識手段は、前記動作雑音モデル読出手段によって読み出された動作雑音モデルと、前記場所雑音モデル読出手段によって読み出された場所雑音モデルとを用いて、前記音声検出手段によって検出される入力音声に含まれる前記被験者の音声を認識する、請求項1記載の音声認識装置。
【請求項3】
前記入力音声検出手段によって検出された入力音声に対する音声信号の信号対雑音比を推定する推定手段、および
前記推定手段によって推定された信号対雑音比に応じて雑音モデルの合成比率を調整する調整手段をさらに備える、請求項1または2記載の音声認識装置。
【請求項4】
前記場所特定手段は、環境に設置された中継器が発する識別情報を検出し、当該識別情報を発した中継器の設置場所を前記被験者の存在する場所として特定する、請求項2または3記載の音声認識装置。
【請求項5】
携帯端末と音声認識装置とを備える音声認識システムであって、
前記携帯端末は、
被験者の音声を含む入力音声を検出する入力音声検出手段、および
前記入力音声検出手段によって検出された入力音声についての音声信号を前記音声認識装置に送信する送信手段を備え、
前記音声認識装置は、
前記送信手段によって送信された音声信号を受信する受信手段、
複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段、
前記被験者の動作を特定する動作特定手段、
前記動作特定手段によって特定された動作に対応する動作雑音モデルを前記動作雑音モデル記憶手段から読み出す動作雑音モデル読出手段、および
前記動作雑音モデル読出手段によって読み出された動作雑音モデルを用いて、前記音声検出手段によって検出される入力音声に含まれる前記被験者の音声を認識する認識手段を備える、音声認識システム。
【請求項6】
前記音声認識装置は、
複数の場所の各々に対応して作成された複数の場所雑音モデルを当該複数の場所の各々に対応付けて記憶する場所雑音モデル記憶手段、
前記被験者の存在する場所と特定する場所特定手段、および
前記場所特定手段によって特定された場所に対応する場所雑音モデルを前記場所雑音モデル記憶手段から読み出す場所雑音モデル読出手段をさらに備え、
前記認識手段は、前記動作雑音モデル読出手段によって読み出された動作雑音モデルと、前記場所雑音モデル読出手段によって読み出された場所雑音モデルとを用いて、前記音声検出手段によって検出される入力音声に含まれる前記被験者の音声を認識する、請求項5記載の音声認識システム。
【請求項7】
前記複数の場所の各々に対応して配置され、前記携帯端末と前記音声認識装置との通信を中継する複数の中継器をさらに備え、
前記中継器は、前記携帯端末から送信された音声信号を受信して、受信した音声信号に自己の識別情報を付加して前記音声認識装置に送信し、
前記場所特定手段は、前記受信手段によって受信された音声信号に付加された識別情報に基づいて、当該音声信号を送信した中継器の設置場所を前記被験者の存在する場所として特定する、請求項6記載の音声認識システム。
【請求項8】
複数の動作の各々に対応して作成された複数の動作雑音モデルを当該複数の動作の各々に対応付けて記憶する動作雑音モデル記憶手段を備えるコンピュータの音声認識方法であって、
(a)被験者の音声を含む入力音声を検出し、
(b)前記被験者の動作を特定し、
(c)前記ステップ(b)によって特定された動作に対応する動作雑音モデルを前記動作雑音モデル記憶手段から読み出し、そして
(d)前記ステップ(c)によって読み出された動作雑音モデルを用いて、前記ステップ(a)によって検出される入力音声に含まれる前記被験者の音声を認識する、音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2008−250059(P2008−250059A)
【公開日】平成20年10月16日(2008.10.16)
【国際特許分類】
【出願番号】特願2007−92414(P2007−92414)
【出願日】平成19年3月30日(2007.3.30)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成18年度独立行政法人情報通信研究機構「民間基盤技術研究促進制度/日常行動・状況理解に基づく知識共有システムの研究開発」、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】