説明

音声認識装置、方法及びプログラム

【課題】音声認識精度を向上することにある。
【解決手段】一実施形態に係る音声認識装置は、業務推定部、音声認識部及び特徴量抽出部を含む。業務推定部は、利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する。音声認識部は、前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成する。特徴量抽出部は、前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する。前記業務推定部は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記音声認識部は、再推定の結果得られる業務情報に基づいて音声認識を行う。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声認識装置、方法及びプログラムに関する。
【背景技術】
【0002】
入力された音声情報に対して音声認識を行うことにより、この音声情報に対応するテキストデータを音声認識結果として生成する音声認識装置がある。近年、音声認識装置における音声認識精度は向上しているが、音声認識結果には少なからず誤りが存在する。音声認識装置においては、十分な音声認識精度を確保するためには、利用者が様々な業務を行い、業務ごとに発声する内容が異なる場面で音声認識装置を利用する場合、利用者が行っている業務の内容に対応した音声認識手法に従って音声認識を行うのも有効な手段である。
【0003】
従来から、GPS(global positioning system)を利用して取得された位置情報に基づいて国又は地域を推定し、推定した国又は地域に対応する言語データを参照して音声認識を行う音声認識装置がある。位置情報のみに基づいて利用者が行っている業務を推定する音声認識装置では、業務が瞬間的に切り替わる場合などに、利用者が行っている業務を正しく推定できることができず、十分な音声認識精度が得られない問題がある。さらに、音声情報に基づいて利用者の国を推定し、推定した国の言語で情報提示を行う音声認識装置がある。音声情報のみに基づいて利用者が行っている業務を推定する音声認識装置では、音声情報が入力されない限り業務を推定するための有用な情報が得られないため、業務を詳細に推定することができず、十分な音声認識精度が得られない問題がある。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2000−194698号公報
【特許文献2】特開2001−83991号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したように、利用者が様々な業務を行い、業務ごとに発声する内容が異なる場面で音声認識装置を利用する場合、音声認識精度を向上するためには、利用者が行っている業務の内容に対応した音声認識手法に従って音声認識を行うことが有効である。
【0006】
本発明が解決しようとする課題は、音声認識精度を向上することができる音声認識装置、方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
一実施形態に係る音声認識装置は、業務推定部、音声認識部及び特徴量抽出部を含む。業務推定部は、利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する。音声認識部は、前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成する。特徴量抽出部は、前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する。前記業務推定部は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記音声認識部は、再推定の結果得られる業務情報に基づいて音声認識を行う。
【図面の簡単な説明】
【0008】
【図1】第1の実施形態に係る音声認識装置を概略的に示すブロック図。
【図2】図1の音声認識装置を備える携帯端末を概略的に示すブロック図。
【図3】病院業務のスケジュールの一例を示す模式図。
【図4】図1に示した音声認識装置の動作を概略的に示すフローチャート。
【図5】第1の実施形態の比較例1に係る音声認識装置の動作を説明する図。
【図6】図1に示した音声認識装置の動作の一例を説明する図。
【図7】図1に示した音声認識装置の動作の他の例を説明する図。
【図8】第1の実施形態の比較例2に係る音声認識装置の動作を説明する図。
【図9】図1に示した音声認識装置の動作のさらに他の例を説明する図。
【図10】第1の実施形態の変形例1に係る音声認識装置を概略的に示すブロック図。
【図11】図10に示した音声認識装置の動作を概略的に示すフローチャート。
【図12】第1の実施形態の変形例2に係る音声認識装置を概略的に示すブロック図。
【図13】図12に示した音声認識装置の動作を概略的に示すフローチャート。
【図14】第1の実施形態の変形例3に係る音声認識装置を概略的に示すブロック図。
【図15】図14に示した音声認識装置の動作を概略的に示すフローチャート。
【図16】第2の実施形態に係る音声認識装置を概略的に示すブロック図。
【図17】第2の実施形態に係る業務と言語モデルとの関係の一例を示す図。
【図18】図16に示した音声認識装置の動作を概略的に示すフローチャート。
【図19】第3の実施形態に係る音声認識装置を概略的に示すブロック図。
【図20】図19に示した音声認識装置の動作を概略的に示すフローチャート。
【図21】第4の実施形態に係る音声認識装置を概略的に示すブロック図。
【図22】図21に示した音声認識装置の動作を概略的に示すフローチャート。
【図23】第5の実施形態に係る音声認識装置を概略的に示すブロック図。
【図24】図23に示した音声認識装置の動作を概略的に示すフローチャート。
【発明を実施するための形態】
【0009】
以下、必要に応じて図面を参照しながら、実施形態に係る音声認識装置、方法及びプログラムを説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
【0010】
(第1の実施形態)
図1は、第1の実施形態に係る音声認識装置100を概略的に示している。この音声認識装置100は、利用者が発した音声を示す音声情報に対して音声認識を行い、この音声情報に対応するテキストデータを音声認識結果として出力若しくは記録するものである。音声認識装置100は、独立した装置として実施されてもよく、或いは、携帯端末などの他の装置に組み込まれて実施されてもよい。本実施形態では、音声認識装置100が携帯端末に組み込まれており、利用者がこの携帯端末を携帯しながら使用するとして説明する。さらに、具体的な説明を行う際には、音声認識装置100が病院内で使用される場合を例に挙げる。音声認識装置100が病院で使用される場合、利用者は、例えば看護師であり、「手術」、「配膳」などの種々の業務(作業)を行う。利用者が看護師である場合、音声認識装置100は、例えば、入院患者の看護記録及びメモを取るために利用される。
【0011】
まず、音声認識装置100を備える携帯端末について説明する。
図2は、本実施形態に係る音声認識装置100を備える携帯端末200を概略的に示している。この携帯端末200は、図2に示されるように、入力部201、マイクロホン202、表示部203、無線通信部204、GPS(global positioning system)受信機205、記憶部206及び制御部207を備える。入力部201、マイクロホン202、表示部203、無線通信部204、GPS受信機205、記憶部206及び制御部207は、バス210を介して互いに通信可能に接続されている。以下では、携帯端末を単に端末と呼ぶ。
【0012】
入力部201は、例えば操作ボタンやタッチパネルなどの入力装置であり、利用者からの指示を受け付ける。マイクロホン202は、利用者が発する音声を受音し、これを音声信号に変換する。表示部203は、制御部206の制御もとで、テキストデータ及び画像データなどを表示する。
【0013】
無線通信部204は、無線LAN通信部、Bluetooth(登録商標)通信部、非接触通信部などを含むことができる。無線LAN通信部は、周辺のアクセスポイントを経由して他の装置と通信する。Bluetooth通信部は、Bluetoothを搭載した他の装置と近距離無線通信を行う。非接触通信部は、無線タグ、例えば、RFID(radio frequency identification)タグから情報を非接触で読み取る。GPS受信機205は、GPS衛星からGPS情報を受信し、受信したGPS情報から経度及び緯度を算出する。
【0014】
記憶部206は、制御部207により実行されるプログラム、各種処理を行う上で必要なデータなどの種々のデータを記憶する。制御部207は、携帯端末200内の各部を制御する。さらに、制御部207は、記憶部206に記憶されているプログラムを実行することにより様々な機能を提供することができる。例えば、制御部207は、スケジュール機能を提供する。スケジュール機能は、入力部201又は無線通信部204を通じて、利用者が行う業務の内容、日時、場所などの登録を受け付けること、登録内容を出力することなどを含む。登録内容(スケジュール情報ともいう)は、記憶部206に記憶される。さらに、制御部207は、時刻を通知する時計機能なども提供する。
【0015】
なお、図2に示される端末200は、音声認識装置100が適用される装置の一例であり、音声認識装置100が適用される装置は、この例に限定されない。また、音声認識装置100が独立した装置として実施される場合、音声認識装置100は、図2に示される要素の全部又は一部を含むことができる。
【0016】
次に、図1に示される音声認識装置100について説明する。
音声認識装置100は、業務推定部101、音声認識部102、特徴量抽出部103、非音声情報取得部104及び音声情報取得部105を備えている。
【0017】
非音声情報取得部104は、利用者の業務に関連する非音声情報を取得する。非音声情報としては、例えば、利用者の位置を示す情報(位置情報)、利用者情報、周囲の人に関する情報、周囲の物に関する情報、時刻に関する情報(時間情報)などが挙げられる。利用者情報は、利用者自身に関する情報であり、例えば、職種(例えば、医師、看護師、薬剤師)を示す情報、スケジュール情報などを含む。非音声情報は、業務推定部101へ送られる。
【0018】
音声情報取得部105は、利用者が発した音声を示す音声情報を取得する。具体的には、音声情報取得部105は、マイクロホン202を含み、マイクロホン202によって受音された音声を音声情報として取得する。なお、音声情報取得部105は、外部装置から、例えば通信ネットワークを介して、音声情報を受け取ってもよい。音声情報は、音声認識部102へ送られる。
【0019】
業務推定部101は、非音声情報取得部104により取得された非音声情報と特徴量抽出部103により抽出された特徴量(後述する)との少なくとも一方に基づいて、利用者が行っている業務を推定する。本実施形態では、利用者が行う可能性のある業務は予め定められており、業務推定部101は、後述する方法に従って、予め定められている業務の中から1又は複数の業務を、利用者が行っている業務として選定する。業務推定部101は、推定した業務を示す業務情報を生成する。この業務情報は、音声認識部102へ送られる。
【0020】
音声認識部102は、業務推定部101からの業務情報に対応する音声認識手法に従って、音声情報取得部105からの音声情報に対して音声認識を行う。音声認識結果は、外部装置(例えば、記憶部206)へ出力されるとともに、特徴量抽出部103へ送られる。
【0021】
特徴量抽出部103は、音声認識部102で得られた音声認識結果から、利用者が行っている業務に関連する特徴量を抽出する。この特徴量は、利用者が行っている業務を再度推定するために使用される。特徴量抽出部103は、抽出した特徴量を業務推定部101に供給することで、業務の推定を再度行うように促す。特徴量抽出部103が抽出する特徴量については後述する。
【0022】
上述した構成を備える音声認識装置100は、非音声情報に基づいて利用者が行っている業務を推定し、業務情報に対応する音声認識手法に従って音声認識を行い、音声認識結果から得られる情報(特徴量)を用いて利用者が行っている業務を再推定する。これにより、利用者が行っている業務を正しく推定することが可能となる。その結果、音声認識装置100は、利用者が行っている業務に対応した音声認識手法に従って音声認識を行うことができるので、音声認識精度が向上する。
【0023】
次に、音声認識装置100内の各部をより詳細に説明する。
まず、非音声情報取得部104について説明する。前述したように、非音声情報としては、例えば、位置情報、スケジュール情報などの利用者情報、周囲の人に関する情報、周囲の物に関する情報、時間情報などがある。非音声情報取得部104は、ここに例示される情報を全て取得する必要はなく、例示した情報及び他の情報のうちの少なくとも1つを取得すればよい。
【0024】
非音声情報取得部104が位置情報を取得する方法を具体的に説明する。一例では、非音声情報取得部104は、GPS受信機205から出力される緯度及び経度の情報を位置情報として取得する。他の例では、無線LAN向けアクセスポイント及びBluetooth搭載機器が各所に設置され、無線通信部204が、受信信号強度(RSSI:received signal strange indication)に基づいて端末200の最も近くに設置されている無線LAN向けアクセスポイント又はBluetooth搭載機器を検出する。非音声情報取得部104は、検出された無線LAN向けアクセスポイント又はBluetooth搭載機器の設置場所を位置情報として取得する。
さらに他の例では、非音声情報取得部104は、RFIDを利用して位置情報を取得することができる。この場合、位置情報を格納したRFIDタグを器具及び部屋の入口などに取り付けておき、非接触通信部によりRFIDタグから位置情報を読み出す。さらにまた他の例では、特定の場所に設置されているパーソナルコンピュータ(PC)へログインするといった、利用者の位置を特定することを可能にする行動を利用者が実行した場合に、位置情報が外部装置から非音声情報取得部104に通知される。
【0025】
さらに、周囲の人に関する情報及び周囲の物に関する情報もまたBluetooth及びRFIDなどを利用して取得することができる。スケジュール情報及び時間情報は、それぞれ端末200のスケジュール機能及び時計機能を利用して取得することができる。
【0026】
なお、上述した非音声情報の取得方法は例示であり、非音声情報取得部104は、任意の他の方法で非音声情報を取得してもよい。さらに、非音声情報は、端末200で取得される情報であってもよく、外部装置で取得されて外部装置から端末200へ伝達される情報であってもよい。
【0027】
次に、音声情報取得部105が音声情報を取得する方法を具体的に説明する。
前述したように、音声情報取得部105は、マイクロホン202を含む。一例では、入力部201内の所定の操作ボタンが押下されている期間中に、マイクロホン202で受音された利用者からの音声が音声情報として取得される。他の例では、利用者が所定の操作ボタンを押下することで入力開始を指示し、無音区間を検出することで音声情報取得部105が入力終了を認識し、音声情報取得部105は、入力開始から入力終了までの間にマイクロホン202で受音された利用者からの音声を音声情報として取得する。
【0028】
次に、業務推定部101が利用者の業務を推定する方法を具体的に説明する。
業務推定部101は、統計的処理に基づく方法を利用して利用者の業務を推定することができる。統計的処理に基づく方法は、例えば、ある情報(非音声情報及び特徴量の少なくとも一方)が入力されたときに何の業務であるかを学習させたモデルを予め作成しておき、実際に得られた情報(非音声情報及び特徴量の少なくとも一方)からそのモデルを用いた確率計算によって業務を推定する。利用するモデルとしては、SVM(Support Vector Machine)、対数線形モデル(Log Linear Model)などの既存の確率モデルがある。
【0029】
さらに、利用者のスケジュールは、図3に示す病院業務のスケジュールのように、業務を行う順番はある程度決まっているが実行する時間が明確には決まっていない場合がある。この場合、業務推定部101は、スケジュール情報、位置情報、時間情報などを組み合わせて用いてルールベースで業務を推定することができる。或いは、時間帯ごとに各業務の確率が予め定義されていて、業務推定部101は、時間情報から各業務の確率を取得し、この確率を位置情報又は音声情報などに基づいて補正し、最終的な確率値の大きさに応じて利用者が行っている業務を推定してもよい。例えば、確率値が最も大きい業務が、利用者が行っている業務として選定され、或いは、確率値が閾値以上である1以上の業務が、利用者が行っている業務として選定される。確率計算の際は、多値ロジスティック回帰モデル、ベイジアンネット、隠れマルコフモデルなどを利用することができる。
【0030】
なお、業務推定部101は、上記方法に従って利用者が行っている業務を推定する例に限らず、他の方法に従って利用者が行っている業務を推定してもよい。
【0031】
次に、音声認識部102が音声認識を行う方法を具体的に説明する。
本実施形態では、音声認識部102は業務情報に対応する音声認識手法に従って音声認識を行う。このため、音声認識結果は業務情報に応じて変化する。音声認識方法としては、次に例示する3つの方法がある。
【0032】
第1の方法は、N−bestアルゴリズムを利用する。具体的には、第1の方法は、まず、通常の音声認識を行って信頼度つき音声認識結果候補を複数生成する。続いて、業務ごとに予め定められている各単語の出現頻度などを用いて、音声認識結果候補それぞれと業務情報に示される業務とがマッチしている度合を示すスコアを算出する。そして、算出したスコアを音声認識結果候補の信頼度に反映させる。それにより、業務情報に対応する音声認識結果候補の信頼度が高くなる。最終的に、最も信頼度の高い音声認識結果候補を音声認識結果として選定する。
第2の方法は、音声認識に用いられる言語モデルに各業務での単語のつながりを記述しておき、業務情報に応じて単語のつながりを変化させた言語モデルを用いて音声認識を行う。第3の方法は、予め定められる複数の業務それぞれに対応付けて複数の言語モデルを保持しておき、業務情報によって示される業務に対応する言語モデルを選択し、選択した言語モデルを用いて音声認識を行う。ここでいう言語モデルとは、文法形式で記述されているもの、単語や単語列の出現確率を記述しているものなどのように、音声認識の際に言語的情報として用いられるものを指す。
ここで、業務情報に対応する音声認識手法に従って音声認識を行うとは、業務情報に従って音声認識方法(例えば、上記第1の方法)を実行することを意味し、業務情報に従って音声認識方法(例えば、上述した第1、第2及び第3の方法)を切り替えて音声認識を行うことを意味するものではない。
【0033】
なお、音声認識部102は、上記の3つの方法のうちのいずれかに従って音声認識を行う例に限らず、他の方法に従って音声認識を行ってもよい。
【0034】
次に、特徴量抽出部103が抽出する特徴量について説明する。
利用者が行っている業務に関連する特徴量として、音声認識部102が前述したN−bestアルゴリズムに従って音声認識を行う場合は、業務情報によって示される業務での音声認識結果に含まれる各単語の出現頻度などを用いることができる。業務情報によって示される業務での音声認識結果に含まれる各単語の出現頻度は、音声認識結果に含まれる各単語が業務情報によって示される業務において使用される頻度に対応し、音声認識結果が業務情報によって示される業務とどれだけマッチしているかを表す。この場合、予め定められる複数の業務ごとに収集されたテキストデータを解析することにより、業務ごとに複数の単語を出現頻度と対応付けて保持する参照テーブルが予め作成される。特徴量抽出部103は、業務情報によって示される業務と音声認識結果に含まれる各単語とを用いて参照テーブルを参照することで、その業務での各単語の出現頻度を得る。
【0035】
また、前述したような言語モデルを用いて音声認識を行う場合は、特徴量として、音声認識結果の言語部分の尤度、言語モデルの作成に用いた学習データには存在しない単語の並びが音声認識結果の単語列内に存在する回数又は割合などを用いることができる。ここで、音声認識結果の言語部分の尤度は、音声認識結果の言語的確からしさを示す。より詳細には、音声認識結果の言語部分の尤度は、音声認識における確率計算で得られた音声認識結果の尤度のうち、言語モデルによって得られた尤度を示す。音声認識結果の言語部分の尤度、言語モデル作成に用いた学習データには存在しない単語の並びが音声認識結果の単語列内に存在する回数又は割合は、音声認識結果に含まれる単語列が、音声認識に用いた言語モデルとどれだけマッチしているかを表す。この場合、音声認識に用いた言語モデルの情報を特徴量抽出部103に送る必要がある。
【0036】
さらに、特徴量として、特定の業務でしか使用されない単語が音声認識結果に出現する回数又は割合などを用いることができる。音声認識結果に特定の業務でしか使用されない単語が含まれている場合、利用者が行っている業務が該特定の業務であると特定することが可能である。従って、特定の業務でしか使用されない単語が音声認識結果に出現する回数又は割合を特徴量として用いることにより、利用者が行っている業務を正しく推定することができる。
【0037】
次に、図1及び図4を参照して、音声認識装置100の動作について説明する。
図4は、音声認識装置100が実行する音声認識処理の一例を示している。まず、利用者によって音声認識装置100が起動されると、非音声情報取得部104は、非音声情報を取得する(ステップS401)。業務推定部101は、非音声情報取得部104によって取得された非音声情報に基づいて利用者が現在行っている業務を推定し、該業務の内容を示す業務情報を生成する(ステップS402)。
【0038】
次に、音声認識部102は、音声情報の入力待ちを行う(ステップS403)。音声認識部102が音声情報を受け取ると、ステップS404に進む。音声認識部102は、業務情報に対応する音声認識手法に従って、受け取った音声情報に対して音声認識を行う(ステップS404)。
【0039】
ステップS403において音声情報が入力されない場合、ステップS401に戻る。即ち、音声情報が入力されるまで、非音声情報取得部104によって取得された非音声情報に基づく業務の推定が繰り返し実行される。この際、音声認識装置100の起動後に業務の推定が1回でも実行されていれば、音声情報は、ステップS401とステップS403との間のいずれのタイミングで入力されてもよい。即ち、ステップS404の音声認識が実行される前に、ステップS402の業務の推定が1回でも実行されていればよい。
【0040】
なお、特徴量を用いずに非音声情報取得部104で取得される非音声情報に基づいて業務を推定する処理は、音声認識時以外に常に実行させておく必要はなく、一定期間ごとに実行され、或いは、非音声情報が大きく変化したときに実行されればよい。或いは、音声認識装置100は、音声情報が入力されたときに業務の推定を実行し、その後に、入力された音声情報に対し音声認識を行うようにしてもよい。
【0041】
ステップS404の音声認識が完了すると、音声認識部102は、音声認識結果を出力する(ステップS405)。一例では、音声認識結果は、記憶部206に記憶されるとともに、表示部203に表示される。音声認識結果を表示することにより、利用者は、発した音声が正しく認識されたかどうかを確認することができる。記憶部206、音声認識結果を時間情報などの他の情報とともに記憶することができる。
【0042】
次に、特徴量抽出部103は、音声認識結果から、利用者が行っている業務に関連する特徴量を抽出する(ステップS406)。ステップS405の処理及びステップS406の処理は、逆の順序で実行されてもよく、或いは、同時に実行されてもよい。ステップS406で特徴量が抽出されると、ステップS401に戻る。音声認識が実行された後のステップS402では、業務推定部101は、非音声情報取得部104によって取得された非音声情報と、特徴量抽出部103によって抽出された特徴量とを用いて、利用者が行っている業務を再推定する。
【0043】
なお、ステップS406の処理の実行後には、ステップS401ではなく、ステップS402に戻るようにしてもよい。この場合、業務推定部101は、非音声情報取得部104によって取得された非音声情報を用いずに、特徴量抽出部103によって抽出された特徴量を用いて業務を再推定する。
【0044】
上述したように、音声認識装置100は、非音声情報取得部104によって取得された非音声情報に基づいて利用者が行っている業務を推定し、業務情報に対応する音声認識手法に従って音声認識を行い、音声認識結果から抽出される特徴量を使用して業務を再推定している。このように、非音声情報取得部104によって取得された非音声情報と音声認識結果から得られる情報(特徴量)とを用いて業務を推定することにより、利用者が行っている業務を正しく推定することができるようになる。その結果、音声認識装置100は、利用者が行っている業務に対応する音声認識手法に従って音声認識を行うことができるので、音声認識精度が向上する。
【0045】
次に、図5から図9を参照して、比較例1に係る音声認識装置及び比較例2に係る音声認識装置と比較して、本実施形態の音声認識装置100がどのような場面で利点を有するかを具体的に説明する。ここで、比較例1に係る音声認識装置は、非音声情報のみに基づいて業務を推定するものである。また、比較例2に係る音声認識装置は、音声情報(音声認識結果)のみに基づいて業務を推定するものである。図5から図9の各々に示す事例では、音声認識装置は、各看護師が病院内で携帯する端末であって、内部的には看護師が行っている業務を推定する機能を持つ。音声認識装置は、看護記録及びメモを取るために看護師によって使用され、看護師が音声を入力すると、その音声に対して現在行っている業務に特化した音声認識を行う。
【0046】
図5は、比較例1に係る音声認識装置(端末)500の動作例を示す。図5に示す事例は、正しく音声認識を行うことができない例である。図5に示されるように、非音声情報として、看護師Aのスケジュール情報、看護師Aの位置情報、及び時刻情報が取得されている。そして、看護師Aが行っている業務は、取得された非音声情報に基づいて「バイタル」、「ケア」及び「配膳」に絞り込まれている。即ち、業務情報には、「バイタル」、「ケア」及び「配膳」が含まれている。ここで、「バイタル」は患者の体温や血圧などを測定し記録する業務であり、「ケア」は患者の体の洗浄などを行う業務である。さらに、「配膳」は患者に食事を配る業務である。しかしながら、必ずしも看護師Aがこれら業務のいずれかを行うとは限らない。例えば、看護師Aは、患者Dに投与する薬の変更を行うように医師Bから指示されることがある。このように、投与する薬の変更を行う「投薬変更」という業務が割り込みで発生することがある。このような割り込み業務に関する記録を音声で行う場合、「投薬変更」が業務情報に含まれていないので、音声認識装置500は、看護師Aが発した音声を誤認識する可能性が高い。誤認識を回避するためには、利用者が行っている業務を再度推定する必要がある。しかしながら、位置情報などの非音声情報はそれほど変化しないため、音声認識装置500は、「投薬変更」を含むように業務情報を変更することができない。
【0047】
図6は、本実施形態に係る音声認識装置(端末)100の動作例を示す。より具体的には、図6は、図5の事例と同じ状況での音声認識装置100の動作例を示す。図5の事例と同様に、看護師Aが行っている業務が「バイタル」、「ケア」及び「配膳」に絞り込まれている。この時点では、看護師Aが「投薬変更」業務に関連する音声を入力したとしても、業務情報に「投薬変更」が含まれていないので、図5の事例と同様に正しく認識されない可能性がある。図6に示されるように、本実施形態の音声認識装置100では、音声認識部102が「投薬変更」に関連する音声情報を受けて音声認識を行い、特徴量抽出部103が音声認識結果から特徴量を抽出し、業務推定部101が抽出された特徴量を用いて業務を再推定する。再推定の結果、看護師Aが行うと考えられる全ての業務が業務情報に含まれることになる。例えば、業務情報には、「バイタル」、「ケア」、「配膳」及び「投薬変更」が含まれるようになる。この状態で看護師Aが「投薬変更」に関連する音声情報を再び入力すると、業務情報に「投薬変更」業務が含まれているので、音声認識部102は、「投薬変更」に関連する音声情報を正しく認識することができる。図6の例のように利用者の業務が瞬間的に変化する場合にも、本実施形態の音声認識装置100は、利用者の業務に応じた音声認識を行うことができる。
【0048】
図7は、本実施形態に係る音声認識装置100の動作の他の例を示す。より具体的には、図7は、音声情報から得られる特徴量を用いて業務を詳細に推定する動作を示す。図7の事例においても、図5の事例と同様に、看護師Aが行っている業務が「バイタル」、「ケア」及び「配膳」に絞り込まれている。この時点で、看護師Aが、体温を測る「バイタル」業務に関連する音声情報を入力したとする。音声認識装置100は、この音声情報に対し音声認識を行って音声認識結果を生成する。さらに、音声認識装置100は、その後の「バイタル」業務に関連する発声の音声認識精度をより高めるために、音声認識結果から「バイタル」業務であることを示す特徴量を抽出する。そして、音声認識装置100は、抽出した特徴量を用いて業務を再推定する。それにより、音声認識装置100は、直前の推定結果である「バイタル」、「ケア」及び「配膳」のなかから、看護師Aが行っている業務が「バイタル」であると絞り込む。その後、看護師Aが「バイタル」業務に属する体温測定結果に関連する音声情報を入力すると、音声認識装置100は、看護師Aが発した音声を正しく認識することができる。
【0049】
図8は、比較例2に係る音声認識装置(端末)800の動作例を示す。この事例は、正しく音声認識を行うことができない例である。前述したように、比較例2の音声認識装置800は、音声認識結果のみを用いて業務を推定する。まず、看護師Aは、「手術」業務を開始することを記録するために、「手術を開始します」と音声認識装置800に向けて発声する。音声認識装置800は、看護師Aからの音声情報を受けて、看護師Aが行っている業務が「手術」であると絞り込む。即ち、業務情報が「手術」のみを含む。この状態で、医師Bにより指定された薬を手術対象患者に投与したことを記録するために、看護師Aが「△△を投薬しました」と発声したとする。この場合、薬剤名には大量の候補があるため、音声認識装置800は、音声情報を誤認識する可能性が高い。薬剤名は、手術対象患者が特定されれば絞り込むことも可能であるが、看護師Aが患者名を発声しない限り絞り込むことはできない。
【0050】
図9は、本実施形態に係る音声認識装置100の動作のさらに他の例を示す。より詳細には、図9は、図8の事例と同様の状況での音声認識装置100の動作を示す。この事例では、音声認識装置100は、音声認識結果を用いて看護師Aの業務を「手術」に絞り込んでいる。さらに、図9に示されるように、音声認識装置100は、患者ごとに付与されている無線タグからタグ情報を取得し、タグ情報から手術対象患者が患者Cであると特定している。手術対象患者が患者Cであると特定されているので、薬剤名は、患者Cに投与される可能性のある薬に絞り込まれている。そのため、次に看護師Aが薬剤名を発声したときには、音声認識装置100は、看護師Aが発声した薬剤名を正しく認識することができる。
【0051】
なお、音声認識装置100は、図9に示されるようなタグ情報から手術対象患者を特定する例に限らず、看護師Aのスケジュール情報などから手術対象患者を特定してもよい。
【0052】
以上のように、第1の実施形態に係る音声認識装置によれば、非音声情報を用いて利用者が行っている業務を推定し、業務情報に対応する音声認識手法に従って音声認識を行い、音声認識結果から得られる情報を用いて業務を再び推定することにより、利用者が行っている業務を正しく推定することができる。従って、利用者が行っている業務に対応した音声認識手法に従って音声認識を行うことができるので、入力された音声を正しく認識することができる。即ち、音声認識精度が向上する。
【0053】
[第1の実施形態の変形例1]
図1に示される音声認識装置100は、1回の音声情報の入力に対して業務の再推定を1回だけ行っている。これに対し、第1の実施形態の変形例1に係る音声認識装置は、1回の音声情報の入力に対して業務の再推定を複数回行う。
【0054】
図10は、第1の実施形態の変形例1に係る音声認識装置1000を概略的に示している。この音声認識装置1000は、図1の音声認識装置100の構成に加えて、業務推定遂行判断部1001及び音声情報記憶部1002を備えている。業務推定遂行判断部1001は、業務の推定を遂行するか否かを判断する。音声情報記憶部1002は、入力された音声情報を記憶する。
【0055】
次に、図10及び図11を参照して、音声認識装置1000の動作について説明する。
図11は、音声認識装置1000が実行する音声認識処理の一例を示している。図11のステップS1101、S1102、S1104、S1106、S1107、S1108はそれぞれ図4のステップS401、S402、S403、S404、S405、S406と同様の処理であるので、その説明を適宜省略する。
【0056】
利用者によって音声認識装置1000が起動されると、非音声取得部104は、非音声情報を取得する(ステップS1101)。業務推定部101は、非音声情報に基づいて利用者が現在行っている業務を推定する(ステップS1102)。次に、音声情報記憶部1002に音声情報が記憶されているか否かが判断される(ステップS1103)。音声情報記憶部1002に音声情報が保持されていない場合、ステップS1104に進む。
【0057】
音声認識部102は、音声情報の入力待ちを行う(ステップS1104)。音声情報が入力されない場合、ステップS1101に戻る。音声認識部102が音声情報を受け取ると、ステップS1105に進む。音声認識部102は、受け取った音声情報に対して複数回音声認識を行う場合に備えて、この音声情報を音声情報記憶部1002に格納する(ステップS1105)。ステップS1105の処理は、次のステップS1106の後に実行されてもよい。
【0058】
次に、音声認識部102は、業務情報に対応する音声認識手法に従って、受け取った音声情報に対して音声認識を行い(ステップS1106)、音声認識結果を出力する(ステップS1107)。特徴量抽出部103は、音声認識結果から、利用者が行っている業務に関連する特徴量を抽出する(ステップS1108)。特徴量が抽出されると、ステップS1101に戻る。
【0059】
ステップS1108で特徴量が抽出された後のステップS1102では、業務推定部102は、非音声情報と特徴量とに基づいて利用者が行っている業務を再推定する。続いて、音声情報記憶部1002に音声情報が記憶されているか否かが判断される(ステップS1103)。音声情報記憶部1002に音声情報が保持されている場合、ステップS1109に進む。業務推定遂行判断部1001は、業務情報に基づいて、業務の再推定を再度行うか否かを判断する(ステップS1109)。業務の再推定を行うか否かの判断基準としては、例えば、音声情報取得部106に保持されている音声情報に対して再推定を行った回数、直前に得られた業務情報と今回得られた業務情報とが同一であるかどうか、直前に得られた業務情報と今回得られた業務情報との変化が詳細な絞り込みを行った程度の変化でしかないかなどといった業務情報の変化の程度などが挙げられる。
【0060】
業務推定遂行判断部1001が業務推定を行うと判断した場合、ステップS1106に進む。ステップS1106では、音声認識部102は、音声記憶部1002に保持されている音声情報に対して音声認識を行う。ステップS1107以降の処理は前述した通りである。
【0061】
ステップS1103において業務推定遂行判断部1001が業務推定を行わないと判断した場合、ステップS1110に進む。ステップS1110では、音声認識部102は、音声記憶部1002に保持されている音声情報を破棄する。その後、ステップS1104では、音声認識部102は、音声情報の入力待ちを行う。
【0062】
このようにして、音声認識装置1000は、1回の音声情報の入力に対して業務の再推定を複数回行う。これにより、1回の音声情報の入力で利用者の業務を詳細に推定することができる。
【0063】
次に、第1の実施形態の変形例1に係る音声認識装置1000の動作例を簡単に説明する。
音声認識装置1000は、図7の例のように、非音声情報に基づいて「バイタル」、「ケア」及び「配膳」の3つの業務に利用者の業務を絞り込んでおり、この時点で、「投薬変更」に関連する音声情報が入力されたとする。音声認識装置1000は、入力された音声情報に対して音声認識を行い、音声認識結果から特徴量を抽出し、抽出された特徴量を用いて利用者が行っている業務を再推定する。再推定の結果、利用者の業務は、利用者が行っている可能性がある業務に拡大される。例えば、業務情報には、「バイタル」、「ケア」、「配膳」及び「投薬変更」が含まれる。さらに、音声認識装置1000は、記憶されている「投薬変更」に関連する音声情報に対して再度音声認識を行い、音声認識結果から特徴量を抽出し、抽出された特徴量を利用者が行っている業務を再推定する。その結果、利用者が行っている業務は「投薬変更」であると推定される。この後に、利用者が「投薬変更」に関連する音声情報を入力すると、音声認識装置1000は、入力された音声情報を正しく認識することができる。
【0064】
以上のように、第1の実施形態の変形例1に係る音声認識装置によれば、1回の音声情報の入力を用いて業務の再推定を複数回行うことにより、1回の音声情報の入力で利用者の業務を詳細に推定することができる。
【0065】
[第1の実施形態の変形例2]
図1に示される音声認識装置100は、音声情報の入力に対して、非音声情報に基づいて生成された業務情報に対応する音声認識手法に従って音声認識を行っている。しかしながら、図6の事例のように、音声認識結果を用いずに非音声情報を用いて利用者が行っている業務を推定し、推定の結果得られる業務情報に対応する音声認識手法に従って音声認識を行う場合、入力された音声情報を誤認識する可能性がある。第1の実施形態の変形例2に係る音声認識装置は、正しく音声認識が行われたか否かを判断し、正しく音声認識が行われたと判断した場合に音声認識結果を出力する。
【0066】
図12は、第1の実施形態の変形例2に係る音声認識装置1200を概略的に示している。図12に示される音声認識装置1200は、図1に示される音声認識装置100の構成に加えて、出力判断部1201を備えている。この出力判断部1201は、業務情報及び音声認識結果に基づいて、音声認識結果を出力するか否かを判断する。音声認識結果の出力を行うかどうかの判断基準としては、1回の音声情報の入力に対して業務の再推定を行った回数、直前に得られた業務情報と比べて今回得られた業務情報が変化したかどうか、業務情報の変化が詳細な絞り込みを行った程度の変化でしかないかなどの業務情報の変化の程度、音声認識結果の信頼度がある閾値以上であるかどうかなどが挙げられる。
【0067】
次に、図12及び図13を参照して、音声認識装置1200の動作について説明する。
図13は、音声認識装置1200が実行する音声認識処理の一例を示している。図13のステップS1301、S1302、S1304、S1305、S1306、S1307はそれぞれ図4のステップS401、S402、S405、S403、S404、S406と同じ処理であるので、その説明を適宜省略する。
【0068】
まず、利用者によって音声認識装置1200が起動されると、非音声情報取得部104は、非音声情報を取得する(ステップS1301)。業務推定部101は、取得された非音声情報に基づいて利用者が現在行っている業務を推定し、業務情報を生成する(ステップS1302)。音声情報が入力される前では、ステップS1303及びステップS1304は省略される。
【0069】
次に、音声認識部102は、音声情報の入力待ちを行う(ステップS1305)。音声認識部102は、音声情報を受け取ると、業務情報に対応する音声認識手法に従って、音声情報に対して音声認識を行う(ステップS1306)。続いて、特徴量抽出部103は、音声認識結果から、利用者が行っている業務に関連する特徴量を抽出する(ステップS1307)。ステップS1307で特徴量が抽出されると、ステップS1301に戻る。
【0070】
音声認識が実行された後のステップS1302では、業務推定部101は、ステップS1301で得られた非音声情報と、ステップS1307で得られた特徴量とに基づいて、利用者が現在行っている業務を再推定し、業務情報を新たに生成する。次に、出力判断部1201は、新たな業務情報及び音声認識結果に基づいて、音声認識結果を出力するか否かを判断する(ステップS1303)。音声認識結果を出力すると出力判断部1201が判断した場合、音声認識部102は、音声認識結果を出力する(ステップS1304)。
【0071】
一方、ステップS1303において出力判断部1201が音声認識結果を出力しないと判断した場合、音声認識部102は、音声認識結果を出力せずに、音声情報の入力待ちを行う。
【0072】
なお、ステップS1303とステップS1304の組は、ステップS1302の後からステップS1306の前までであれば任意のタイミングで実行されてもよい。また、出力判断部1201は、業務情報を用いずに、音声認識結果を出力するか否かを判断してもよい。例えば、出力判断部1201は、音声認識結果の信頼度の大きさに応じて音声認識結果を出力するか否かを判断する。具体的には、出力判断部1201は、音声認識結果の信頼度が閾値より大きければ音声認識結果を出力すると判断し、音声認識結果の信頼度が閾値以下であれば音声認識結果を出力しないと判断する。業務情報を用いない場合、ステップS1303とステップS1304の組は、ステップS1306の音声認識を実行した直後に実行されてもよく、或いは、次にステップS1306か実行される前までの任意のタイミングで実行されてもよい。
【0073】
上述したように、音声認識装置1200は、音声認識結果に基づいて、或いは、業務情報と音声認識結果との組に基づいて、音声認識結果を出力するか否かを判断している。音声認識装置1200は、入力された音声情報を誤認識した可能性が高い場合には、音声認識結果を出力せずに、音声認識結果を用いて業務の再推定を行う。
【0074】
次に、音声認識装置1200の動作例を簡単に説明する。
図7を再び参照すると、看護師Aが行っている業務が「バイタル」、「ケア」及び「配膳」に絞り込まれている。この時点では、看護師Aが「投薬変更」業務に関連する音声を入力したとしても、業務情報に「投薬変更」が含まれていないので、図6の事例と同様に正しく認識されない可能性がある。音声認識装置1200は、入力された音声情報を誤認識した可能性があると判断し、音声認識結果を出力しない。その後、音声認識装置1200が業務の再推定を行い、その結果、業務情報に「投薬変更」業務が含まれるようになる。業務情報に「投薬変更」業務が含まれている状態で、「投薬変更」業務に関連する音声情報が入力されると、音声認識装置1200は、音声認識結果を正しく得られたと判断し、音声認識結果を出力する。それにより、看護師が言い直しをすることなく精度のよい音声認識結果を出力することができる。
【0075】
以上のように、第1の実施形態の変形例2に係る音声認識装置は、少なくとも音声認識結果に基づいて音声認識結果を出力するか否かを判断する。それにより、入力された音声情報が正しく認識された場合に音声認識結果を出力するようにすることが可能になる。
【0076】
[第1の実施形態の変形例3]
図1に示される音声認識装置100は、特徴量抽出部103で得られた特徴量を業務推定部101に送ることにより、業務の再推定を行うように促している。第1の実施形態の変形例3に係る音声認識装置は、特徴量抽出部103で得られた特徴量に基づいて、業務の再推定を行う必要があるか否かを判断し、必要ありと判断した場合に業務の再推定を行う。
【0077】
図14は、第1の実施形態の変形例3に係る音声認識装置1400を概略的に示す。この音声認識装置1400は、図1に示される音声認識装置100の構成に加えて、再推定判断部1401を備えている。この再推定判断部1401は、業務の再推定に用いる特徴量に基づいて、業務推定を行うか否かを判断する。
【0078】
次に、図14及び図15を参照して、音声認識装置1400の動作について説明する。
図15は、音声認識装置1400が実行する音声認識処理の一例を示している。図15のステップS1501〜S1506は図4のステップS401〜S406と同じ処理であるので、その説明を省略する。
【0079】
ステップS1506では、特徴量抽出部103は、ステップS1504で得られた音声認識結果から業務の再推定に用いる特徴量を抽出する。ステップS1507では、再推定判断部1401は、ステップS1506で得られた特徴量に基づいて、業務の再推定を行うか否かを判断する。判断方法としては、業務推定部101で非音声情報を用いて業務を推定する方法と同じ様に、確率モデル及びスケジュール情報を用いて、業務情報が誤っている確率を計算し、その確率が所定値以上である場合に再推定を行うと判定する方法が挙げられる。再推定判断部1401が再推定を行うと判断した場合、ステップS1501に戻り、業務推定部101は、非音声情報と特徴量とに基づいて業務の再推定を行う。
【0080】
再推定判断部1401が再推定を行わないと判断した場合、ステップS1503に戻る。即ち、業務の再推定を行うことなく、音声認識部102が音声情報の入力待ちを行う。
【0081】
なお、業務の推定が不要であると再推定判断部1401が判断した場合は、業務の再推定を行わないと説明したが、業務推定部101は、特徴量抽出部103で得られた特徴量を用いずに、非音声情報取得部104により取得された非音声情報に基づいて業務の推定を行ってもよい。
【0082】
以上のように、音声認識装置1400は、特徴量抽出部103で得られた特徴量に基づいて再推定を行う必要があるか否かを判断し、必要が無い場合は業務の推定を行わない。これにより、不要な処理を省略することができる。
【0083】
(第2の実施形態)
第2の実施形態では、業務の構造を階層構造で記述できる場合について説明する。
図16は、第2の実施形態に係る音声認識装置1600を概略的に示している。図16に示される音声認識装置1600は、図1に示される音声認識装置100の構成に加えて、言語モデル選択部1601を備えている。言語モデル選択部1601は、予め用意される複数の言語モデルから、業務推定部101から受け取る業務情報に従って言語モデルを選択する。本実施形態では、音声認識部102は、言語モデル選択部1601で選択された言語モデルを用いて音声認識を行う。
【0084】
本実施形態では、図17に示すように、利用者が行う業務は、その詳細度に応じて階層化されている。図17に示される階層構造は、職種、業務大分類、及び詳細業務を有する。職種は、「看護師」、「医師」、「薬剤師」などである。業務大分類には、「外科」、「内科」、「リハビリ科」などの業務が含まれる。詳細業務には、「手術」、「バイタル」、「ケア」、「注射・点滴」、並びに、「配膳」などの業務が含まれる。言語モデルは、最下層(末端)である詳細業務に含まれる業務それぞれに対応付けられている。推定された業務が詳細業務のいずれかである場合、言語モデル選択部1601は、業務情報により示される業務に対応する言語モデルを選択する。例えば、業務推定部101によって推定された業務が「手術」である場合、「手術」に対応付けられている言語モデルが選択される。
【0085】
また、推定された業務が業務大分類に含まれる業務のいずれかである場合、言語モデル選択部1601は、推定された業務からたどることができる複数の業務それぞれに対応付けられている複数の言語モデルを選択する。例えば、推定結果が「外科」である場合、「外科」から分岐する「手術」、「バイタル」、「ケア」、「注射・点滴」、「配膳」のそれぞれに対応付けられている言語モデルが選択される。言語モデル選択部1601は、選択した複数の言語モデルを組み合わせて音声認識に利用する言語モデルを生成する。言語モデルを組み合わせる方法としては、各言語モデルに含まれる各単語の出現確率を選択された全ての言語モデルについて平均化する方法、各言語モデルでの音声認識結果から信頼度の高い結果を採用する方法、又は既存の他の方法を利用することができる。
【0086】
一方、業務情報に複数の業務が含まれる場合、言語モデル選択部1601は、複数の業務それぞれに対応する言語モデルを選択し、これらを組み合わせて言語モデルを生成する。言語モデル選択部1601は、選択或いは生成した言語モデルを音声認識部102に送る。
【0087】
次に、図16及び図18を参照して、音声認識装置1600の動作について説明する。
図18は、音声認識装置1600が実行する音声認識処理の一例を示している。図18のステップS1801、S1802、S1804、S1806、S1807はそれぞれ図4のステップS401、402、403、405、406と同じ処理であるので、その説明を適宜省略する。
【0088】
まず、利用者によって音声認識装置100が起動されると、非音声情報取得部101は、非音声情報を取得する(ステップS1801)。業務推定部101は、取得された非音声情報に基づいて、利用者が現在行っている業務を推定する(ステップS1802)。次に、言語モデル選択部1601は、業務推定部101からの業務情報に従って、言語モデルを選択する(ステップS1803)。
【0089】
言語モデルが選択されると、音声認識部102は、音声情報の入力待ちを行う(ステップS1804)。音声認識部102が音声情報を受け取ると、ステップS1805に進む。音声認識部102は、言語モデル選択部1601によって選択された言語モデルを用いて、音声情報に対して音声認識を行う(ステップS1805)。
【0090】
ステップS1804おいて音声情報が入力されない場合、ステップS1801に戻る。即ち、音声情報が入力されるまで、ステップS1801〜S1804が繰り返される。一旦言語モデルが選択された後であれば、音声情報は、ステップS1801とステップS1804との間のどのタイミングで入力されてもよい。即ち、ステップS1805の音声認識が行われる前に、ステップS1803の言語モデルの選択が行われていればよい。
【0091】
ステップS1805の音声認識が終了すると、音声認識部102は、音声認識結果を出力する(ステップS1806)。さらに、特徴量抽出部103は、音声認識結果から、業務推定に用いる特徴量を抽出する(ステップS1807)。特徴量が抽出されると、ステップS1801に戻る。
【0092】
このようにして、音声認識装置1600は、非音声情報に基づいて業務を推定し、業務情報に従って言語モデルを選択し、選択した言語モデルを用いて音声認識を行った結果を、業務を再度推定する際に使用している。
【0093】
業務の再推定を行う際は、既に推定されている業務を抽象化して得られる業務と既に推定されている業務を具体化して得られる業務に業務候補の範囲を限定する。それにより、効果的に業務の再推定を行うことができる。図17の例では、推定されている業務が「外科」である場合、利用者が行っている業務の候補は「全体」、「看護師」、「手術」、「バイタル」、「ケア」、「注射・点滴」、「配膳」となる。この例では、「外科」を抽象化して得られる業務は、「全体」及び「看護師」であり、「外科」を具体化して得られる業務は、「手術」、「バイタル」、「ケア」、「注射・点滴」、「配膳」である。また、利用者の業務の候補を限定する際は、詳細度を用いて限定する範囲を設定してもよい。図17の例では、推定されている業務が「看護師」である場合、詳細度の違いを1つまでに限定すると、利用者の業務の候補は「全体」及び「外科」となる。
【0094】
以上のように、第2の実施形態に係る音声認識装置によれば、非音声情報に基づいて業務を推定し、業務情報に従って言語モデルを選択し、選択した言語モデルを用いて音声認識を行った結果を業務の再推定に用いることにより、利用者が行っている業務を正しく推定することができる。第2の実施形態に係る音声認識装置は、利用者が行っている業務に対応する音声認識手法に従って音声認識を行うことができるので、音声認識精度を向上することができる。
【0095】
(第3の実施形態)
第1の実施形態では、業務情報に対応する音声認識手法に従って音声認識を行って得られた結果から、業務の再推定に用いる特徴量を抽出している。業務情報により示される業務とは異なる業務に対応する音声認識手法に従って音声認識を行い、音声認識結果から特徴量を抽出し、この特徴量を併用して業務の再推定を行うことにより、より高精度な業務の再推定が可能となる。
【0096】
図19は、第3の実施形態に係る音声認識装置1900を概略的に示している。この音声認識装置1900は、図19に示されるように、業務推定部101、音声認識部(第1音声認識部ともいう)102、特徴量抽出部103、非音声情報入力部104、音声情報取得部105、関連業務選択部1901、及び第2音声認識部1902を備えている。本実施形態の業務推定部101は、業務情報を第1音声認識部102とともに関連業務選択部1901に送る。
【0097】
関連業務選択部1901は、業務推定部101で得られた業務に基づいて、予め定められる複数の業務の中から、業務の再推定に利用する業務(以下、関連業務と呼ぶ)を選択する。一例では、関連業務選択部1901は、業務情報により示される業務とは異なる業務を関連業務として選択する。なお、関連業務選択部1901は、業務推定部101により推定された業務に基づいて関連業務を選択する例に限らず、常に同じ業務を関連業務として選択してもよい。さらに、選択される関連業務の数は1に限らず、複数の業務が関連業務として選択されてもよい。例えば、関連業務は、予め定められる複数の業務の全てを組み合わせたものとすることができる。或いは、絶対に間違いのない非音声情報、例えば利用者情報が取得されている場合は、関連業務は、その非音声情報に基づいて特定される若しくは絞り込まれる業務とすることができる。また、第2の実施形態のように、予め定められる業務が階層構造で記述されている場合、業務推定部101で推定された業務を抽象化して得られる業務を関連業務としてもよい。関連業務を示す関連業務情報は、第2音声認識部1902へ送られる。
【0098】
第2音声認識部1902は、関連業務情報に対応する音声認識手法に従って音声認識を行う。第2音声認識部1902は、第1音声認識部102と同じ方法で音声認識を行うことができる。第2音声認識部1902で得られた音声認識結果は、特徴量抽出部103へ送られる。
【0099】
本実施形態の特徴量抽出部103は、第1音声認識部102で得られた音声認識結果と第2音声認識部1902で得られた音声認識結果とを用いて、利用者が行っている業務に関連する特徴量を抽出する。抽出した特徴量は、業務推定部101へ送られる。どのような特徴量を抽出するかについては後述する。
【0100】
次に、図19及び図20を参照して、音声認識装置1900の動作について説明する。
図20は、音声認識装置1900が実行する音声認識処理の一例を示している。図20のステップS2001〜S2005は、図4のステップS401〜S405と同じ処理であるので、その説明を省略する。
【0101】
ステップS2006では、関連業務選択部1901は、業務推定部101により生成された業務情報に基づいて、業務の再推定に利用する関連業務を選択し、選択した関連業務を示す関連業務情報を生成する。ステップS2007では、第2音声認識部1902は、関連業務情報に対応する音声認識手法に従って音声認識を行う。これらのステップS2006及びステップS2007の組とステップS2004及びステップS2005の組とは逆の順序で実行されてもよく、或いは、同時に実行されてもよい。また、常に同じ業務を関連業務とする場合などのように、業務情報に応じて関連業務が変わらない場合、ステップS2001の処理は任意のタイミングで実行することができる。
【0102】
一例では、特徴量抽出部103は、第1音声認識部102で得られた音声認識結果の言語部分の尤度及び第2音声認識部1902で得られた音声認識結果の言語部分の尤度を特徴量として抽出する。なお、特徴量抽出部103は、これらの尤度の差を特徴量として生成してもよい。第2音声認識部1902で得られた音声認識結果の言語部分の尤度が第1音声認識部102で得られた音声認識結果の言語部分の尤度より高い場合、業務情報に示される業務とは異なる業務で音声認識した方が音声認識結果の言語部分の尤度が高くなると考えられるので、業務の再推定を行う必要がある。第1音声認識部102で得られた音声認識結果の言語部分の尤度及び第2音声認識部1902で得られた音声認識結果の言語部分の尤度を特徴量として抽出する場合、関連業務は、予め定められる複数の業務の全てを組み合わせたものであってもよく、或いは、利用者情報などの特定の非音声情報により特定される業務であってもよい。なお、上述した特徴量は適宜併用して再推定に用いてもよい。
【0103】
さらに、音声認識装置1900では、予め定められる複数の業務それぞれに対応付けられている言語モデルを用いて音声認識を行い、複数得られた音声認識結果のそれぞれの尤度を比較することにより、業務を詳細に推定することができる。また、他の文献に開示される他の方法を利用して利用者の業務が推定されてもよい。
【0104】
以上のように、第3の実施形態に係る音声認識装置によれば、業務情報に対応する音声認識手法に従って音声認識を行った結果と関連業務情報に対応する音声認識手法に従って音声認識を行った結果とから得られる情報(特徴量)を業務の再推定に用いることで、第1の実施形態に係る音声認識装置よりも精度の高い業務の推定が可能となる。これにより、利用者が行っている業務に応じた音声認識を行うことができるので、音声認識精度を向上することができる。
【0105】
(第4の実施形態)
第1の実施形態では、音声認識結果から利用者が行っている業務に関連する特徴量を抽出している。これに対し、第4の実施形態では、音素認識結果から利用者が行っている業務に関連する特徴量をさらに抽出する。音声認識結果から得られる特徴量と音素認識結果から得られる特徴量とを用いて業務の再推定を行うことにより、より高精度な業務の推定が可能となる。
【0106】
図21は、第4の実施形態に係る音声認識装置2100を概略的に示している。この音声認識装置2100は、業務推定部101、音声認識部102、特徴量抽出部103、非音声情報取得部104、音声情報取得部105、音素認識部2101を備えている。音素認識部2101は、入力された音声情報に対して音素認識を行う。音素認識部2101は、音素認識結果を特徴量抽出部103に送る。本実施形態の特徴量抽出部103は、音声認識部102で得られた音声認識結果及び音素認識部2101で得られた音素認識結果から、業務の再推定に用いる特徴量を抽出する。特徴量抽出部103は、抽出した特徴量を業務推定部101に送る。どのような特徴量を抽出するかについては後述する。
【0107】
次に、図21及び図22を参照して、音声認識装置2100の動作について説明する。
図22は、音声認識装置2100が実行する音声認識処理の一例を示している。図22のステップS2201〜S2205は、それぞれ図4のステップS401〜S405と同じ処理であるので、その説明を省略する。
【0108】
ステップS2206では、音素認識部2101は、入力された音声情報に対して音素認識を行う。ステップS2206とステップS2204及びS2205の組とは逆の順序で実行されてもよく、或いは、同時に実行されてもよい。
【0109】
ステップS2207では、特徴量抽出部103は、音声認識部102から受け取った音声認識結果及び音素認識部2101から受け取った音素認識結果から、業務の再推定に用いる特徴量を抽出する。一例では、特徴量抽出部103は、音素認識結果の尤度及び音声認識結果の音響部分の尤度を特徴量として抽出する。音声認識結果の音響部分の尤度は、音声認識結果の音響的確からしさを示す。より詳細には、音声認識結果の音響部分の尤度は、音声認識における確率計算で得られた音声認識結果の尤度のうち、音響モデルによって得られた尤度を示す。他の例では、特徴量は、音素認識結果の尤度と音声認識結果の音響部分の尤度との差とすることができる。音素認識結果の尤度と音声認識結果の音響部分の尤度との差が小さい場合、言語モデルで表現できる単語列に似た発声を行っていると考えられ、即ち、利用者の業務が正しく推定されていると考えられる。そのため、この特徴量を用いることで誤った業務の再推定を防ぐことができる。
【0110】
以上のように、第4の実施形態に係る音声認識装置によれば、音声認識結果及び音素認識結果を用いて業務を再推定することにより、利用者が行っている業務をより高い精度で推定することが可能となる。利用者が行っている業務に応じた音声認識を行うことができるので、音声認識精度を向上することができる。
【0111】
(第5の実施形態)
第1の実施形態では、音声認識結果から利用者が行っている業務に関連する特徴量を抽出している。これに対し、第5の実施形態では、音声認識結果から利用者が行っている業務に関連する特徴量を抽出するとともに、入力された音声情報そのものから、利用者が行っている業務に関連する特徴量を抽出する。これらを併用することにより、より高精度な業務の推定が可能となる。
【0112】
図23は、第5の実施形態に係る音声認識装置2300を概略的に示している。図23に示される音声認識装置2300は、図1に示される音声認識装置100の構成に加えて、音声詳細情報取得部2201を備えている。
【0113】
音声情報詳細取得部2201は、音声情報から音声詳細情報を取得し、特徴量抽出部2201に送る。音声詳細情報としては、音声の長さ、音声の各時間での音量又は波形などが挙げられる。
【0114】
本実施形態の特徴量抽出部103は、音声認識部102から受け取る音声認識結果と音声詳細情報取得部2202から受け取る音声詳細情報とから、業務の再推定に用いる特徴量を抽出する。どのような特徴量を抽出するかについては後述する。
【0115】
次に、図23及び図24を参照して、音声認識装置2300の動作について説明する。
【0116】
図24は、音声認識装置2300が実行する音声認識処理の一例を示している。図24のステップS2401〜S2405は、図1のステップS401〜S405と同じ処理であるので、その説明を省略する。
【0117】
ステップS2406では、音声詳細情報取得部2201は、入力された音声情報から、業務の再推定に利用可能な音声詳細情報を抽出する。なお、ステップS2404及びステップS2405の組とステップS2406とは、逆の順序で実行されてもよく、或いは、同時に実行されてもよい。
【0118】
ステップS2407では、特徴量抽出部103は、音声認識部102で得られた音声認識結果から、利用者が行っている業務に関連する特徴量を抽出するとともに、音声詳細情報取得部2202で得られた音声詳細情報から、利用者が行っている業務に関連する特徴量をさらに抽出する。
【0119】
音声詳細情報から抽出される特徴量は、例えば、入力された音声情報の長さ、音声情報に含まれる周囲雑音の大きさなどである。音声情報の長さが極端に短い場合、端末の操作ミスなどで間違って入力された音声情報である可能性が高い。音声情報の長さを特徴量として用いることで、間違って入力された音声情報を基に業務の再推定を行うことを防ぐことができる。また、周囲雑音が大きい場合、利用者の業務が正しく推定されていたとしても、音声認識結果に誤りが生じることがある。従って、周囲雑音が大きい場合には、業務の再推定を行わないようにする。このように、周囲雑音の大きさを用いることで、誤っている可能性がある音声認識結果を用いて業務の再推定を行うことを防ぐことができる。周囲雑音の大きさを検出する方法としては、音声情報の初めの部分は利用者の音声がないと仮定して、その部分の音の大きさを周囲雑音の大きさとする方法がある。
【0120】
以上のように、第4の実施形態に係る音声認識装置によれば、入力される音声情報そのものに含まれる情報を業務の再推定に用いることで、より精度よく業務を再推定することが可能となる。利用者が行っている業務に応じた音声認識を行うことができるので、音声認識精度を向上することができる。
【0121】
上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の音声認識装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、又はこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の無線通信装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合又は読み込む場合はネットワークを通じて取得又は読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
【0122】
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
【0123】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0124】
100…音声認識装置、101…業務推定部、102…音声認識部、103…特徴量抽出部、104…非音声情報取得部、105…音声情報取得部、200…携帯端末、201…入力部、202…マイクロホン、203…表示部、204…無線通信部、205…GPS受信機、206…記憶部、207…制御部、1000…音声認識装置、1001…業務推定遂行判断部、1002…音声情報記憶部、1200…音声認識装置、1201…出力判断部、1400…音声認識装置、1401…再推定判断部、1600…音声認識装置、1601…言語モデル選択部、1900…音声認識装置、1901…関連業務選択部、1902…音声認識部、2100…音声認識装置、2101…音素認識部、2300…音声認識装置、2301…音声詳細情報取得部。

【特許請求の範囲】
【請求項1】
利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する業務推定部と、
前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、第1音声認識結果を生成する第1音声認識部と、
前記第1音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する特徴量抽出部と、
を具備し、
前記業務推定部は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記第1音声認識部は、再推定の結果得られる業務情報に基づいて音声認識を行うことを特徴とする音声認識装置。
【請求項2】
前記特徴量抽出部は、前記業務情報により示される業務の内容での前記第1音声認識結果に含まれる各単語の出現頻度と、前記第1音声認識結果の言語部分の尤度と、前記第1音声認識部で用いられる言語モデルを作成するための学習データに存在しない単語の並びが前記第1音声認識結果の単語列内に存在する回数又は割合と、の少なくとも1つを、前記特徴量として抽出することを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記業務情報に従って、予め用意される複数の言語モデルの中から言語モデルを選択する言語モデル選択部をさらに具備し、
前記第1音声認識部は、前記選択された言語モデルを用いて音声認識を行うことを特徴とする請求項1に記載の音声認識装置。
【請求項4】
予め定められる複数の業務が階層構造で記述され、前記複数の言語モデルがそれぞれ前記階層構造の末端に位置する複数の業務に対応付けられており、
前記言語モデル選択部は、前記業務情報により示される業務の内容に対応する言語モデルを選択することを特徴とする請求項3に記載の音声認識装置。
【請求項5】
予め定められる複数の業務の中から業務の再推定に利用する関連業務を選択し、該選択した関連業務を示す関連業務情報を生成する関連業務選択部と、
前記関連業務情報に対応する音声認識手法に従って前記音声情報に対して音声認識を行い、第2音声認識結果を生成する第2音声認識部と、をさらに具備し、
前記特徴量抽出部は、前記第1音声認識結果及び前記第2音声認識結果から、前記特徴量を抽出することを特徴とする請求項1に記載の音声認識装置。
【請求項6】
前記関連業務選択部は、前記複数の業務の全てを組み合わせたものと前記入力された非音声情報により特定される業務とのいずれか一方を前記関連業務として選択し、
前記特徴量抽出部は、前記第1音声認識結果の言語部分の尤度と前記第2音声認識結果の言語部分の尤度とを前記特徴量として抽出することを特徴とする請求項5に記載の音声認識装置。
【請求項7】
前記音声情報に対して音素認識を行い、音素認識結果を生成する音素認識部をさらに具備し、
前記特徴量抽出部は、前記第1音声認識結果と前記音素認識結果とから前記特徴量を抽出することを特徴とする請求項1に記載の音声認識装置。
【請求項8】
前記特徴量抽出部は、前記第1音声認識結果の音響部分の尤度と前記音素認識結果の尤度とを前記特徴量として抽出することを特徴とする請求項7に記載の音声認識装置。
【請求項9】
前記特徴量抽出部は、前記第1音声認識結果と前記音声情報とから前記特徴量を抽出することを特徴とする請求項1に記載の音声認識装置。
【請求項10】
前記特徴量抽出部は、
前記業務情報により示される業務での前記第1音声認識結果に含まれる各単語の出現頻度、前記第1音声認識結果の言語部分の尤度、及び前記第1音声認識部で用いられる言語モデルを作成するための学習データに存在しない単語の並びが前記第1音声認識結果の単語列内に存在する回数又は割合のうちの少なくとも1つと、
前記音声情報の長さ、及び前記音声情報に含まれる周囲雑音の大きさのうちの少なくとも1つと、を前記特徴量として抽出することを特徴とする請求項9に記載の音声認識装置。
【請求項11】
利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成することと、
前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成することと、
前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出することと、
少なくとも前記特徴量を用いて前記利用者の業務を再推定することと、
再推定の結果得られる業務情報に基づいて音声認識を行うことと、
を具備することを特徴とする音声認識方法。
【請求項12】
コンピュータを、
利用者の業務に関連する非音声情報を用いて利用者が行っている業務を推定し、該業務の内容を示す業務情報を生成する業務推定手段と、
前記業務情報に対応する音声認識手法に従って前記利用者が発した音声情報に対して音声認識を行い、音声認識結果を生成する音声認識手段と、
前記音声認識結果から、前記利用者が行っている業務に関連する特徴量を抽出する特徴量抽出手段として機能させ、前記業務推定手段は、少なくとも前記特徴量を用いて前記利用者の業務を再推定し、前記音声認識手段は、再推定の結果得られる業務情報に基づいて音声認識を行う、音声認識プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2013−72974(P2013−72974A)
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願番号】特願2011−211469(P2011−211469)
【出願日】平成23年9月27日(2011.9.27)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成22年度 独立行政法人科学技術振興機構「音声つぶやきによる医療・介護サービス空間のコミュニケーション革新」委託研究、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】