説明

話者特定装置および話者特定プログラム

【課題】
音声信号から話者の特定を行う話者特定装置において、話者特定のための精度向上を図る。
【解決手段】
音響モデルに個人名称を対応付けた個人別話者認識情報26aを記憶する記憶部26と、入力される音声信号と音響モデルを比較して、類似度が高い音響モデルを有する話者を抽出する話者認識部25と、入力される音声信号を音声認識する音声認識部22と、音声認識部22での認識結果から個人名称を抽出する解析部23と、話者認識部22での抽出結果、及び、解析部23で抽出した個人名称に基づいて話者を特定する話者特定部24を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、マイクから取得した会話などの音声信号に基づいて、話者を特定する話者特定装置および話者特定プログラムに関する。
【背景技術】
【0002】
車両に装備されるナビゲーション装置では、個人の嗜好や個人の利用履歴などに応じて、各個人に対応したお奨め情報を提示することが行われている。
【0003】
特許文献1には、乗員の発する音声より所定の語句を認識し、認識した語句から乗員が希望する行先を推定して音声で提案し、提案された行先に乗員が同意した場合、当該行先をナビゲーション制御部に目的地として入力するナビゲーション装置が開示されている。
【0004】
このナビゲーション装置では、乗員の嗜好に応じて行先を推定することが可能であって、その第15段落には、乗員を特定するため、会話で交わされる音声の特徴から現在乗車している乗員を特定する処理について開示がみられる。
【0005】
また、車両内における個人の特定は、個人の嗜好に応じた各種サービスのみならず音声認識処理にて認識率を向上させる場合にも役立つ。現在、目的地の指定などを音声入力にて行うナビゲーション装置は一般的となっている。このようなナビゲーション装置における音声認識処理では、各個人に対応した音響モデルを用いることで認識率の向上を図ることができる。また、音声認識処理を行いながら、この音響モデルを学習させることで個人への適応度を向上させ、認識率を向上させることもできる。
【0006】
以上のように、車両内における個人の特定は、乗員の嗜好情報に応じた行き先の提案、音声認識処理における認識率の向上に役立つものとなるが、今後、インターネットによる各種情報の提供など車両内での各種サービスが拡充するにつれて、"誰が車に乗っている
か"を自動的に識別する技術は重要となることが予想される。
【0007】
特許文献2には、入力音声から話者を照合する話者照合装置において、複数の登録パターンのそれぞれについて正規化類似度を求め、類似度の高い正規化類似度で本人判定を行うとともに、判定された登録パターンを初期パターンとして更新を行うことについて開示されている。
【0008】
図1は、このような話者照合装置において使用され登録パターンとしての話者認識用音響モデルの例を示したものである。音響モデルは、不特定話者音響モデルを最上位に持つ木構造にて構成されている。その下位の階層には、男声話者音響モデルM、女性話者音響モデルFが分類され、それぞれの下位の階層にはさらに分類された音響モデルが設けられている。
【0009】
話者認識を行う際、各話者には、予め音響モデルが対応付けられており、入力音声と類似度が高い音響モデルを検索することで話者を認識することが可能となる。木構造の階層が深いほど話者の特性をより忠実に表した音響モデルとなっており、木構造の末端に各話者固有の音響モデルを設けることで精度の高い話者認識が実現できる。各話者毎の音響モデルは、1つ上の階層の音響モデルからを作成できる。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2001−289661号公報
【特許文献2】特許第3444241号公報
【発明の概要】
【発明が解決しようとする課題】
【0011】
今後、個人に適応したサービスを提供する機会が増えるにつれ、正確に個人を特定することは非常に重要である。しかしながら、特許文献1、特許文献2では個人を特定するため、音声の特徴を用いたいわゆる話者認識処理によって個人の特定を行うものであって、話者認識処理という1つの技術に依存して個人を特定することとなるため、個人特定率をさらに向上させるには限界がある。
【課題を解決するための手段】
【0012】
本発明では、話者認識処理に加え、会話中に登場する個人名称を利用して話者の特定を行う話者特定装置、話者特定プログラムを提供することを目的とするものであって、そのため下記の各種構成を採用することとしている。
【0013】
本発明の話者特定装置は、音響モデルに個人名称を対応付けた個人別話者認識情報を記憶する記憶部と、入力される音声信号と音響モデルを比較して、類似度が高い音響モデルを有する話者を抽出する話者認識部と、入力される音声信号を音声認識する音声認識部と、音声認識部での認識結果から個人名称を抽出する解析部と、話者認識部での抽出結果、及び、解析部で抽出した個人名称に基づいて話者を特定する話者特定部を備えたことを特徴とするものである。
【0014】
さらに、本発明の話者特定装置において、話者特定部は、話者認識部での検索結果で話者が特定できない場合、個人名称に基づいて話者の特定を行うこととしている。
【0015】
さらに、本発明の話者特定装置において、話者認識部は、話者特定部で特定された話者の音響モデルを、入力される当該話者の音声信号によって更新することとしている。
【0016】
さらに、本発明の話者特定装置において、話者特定部は、話者が特定できない場合、入力される音声信号と類似度が高い音響モデルを抽出し、個人名称と対応付けることで個人別音声認識情報を作成することとしている。
【0017】
さらに、本発明の話者特定装置において、解析部は、音声認識部の認識結果で抽出された個人名称の近傍に所定の語句が含まれている場合、当該個人名称を抽出対象外とすることとしている。
【0018】
さらに、本発明の話者特定装置は、センサからの信号により乗車を検知する乗車検知部をさらに備え、話者特定部は、乗車検知部にて乗車を検知した場合に話者の特定を開始することとしている。
【0019】
また、本発明の話者特定プログラムは、入力される音声信号と音響モデルを比較して、類似度が高い音響モデルを有する話者を抽出する話者認識処理と、入力される音声信号を音声認識する音声認識処理と、音声認識処理での認識結果から個人名称を抽出する解析処理と、話者認識処理での抽出結果、及び、解析処理で抽出した個人名称に基づいて話者を特定する話者特定処理を行うことを特徴とするものである。
【図面の簡単な説明】
【0020】
【図1】木構造化された音響モデルデータの例を示す図。
【図2】本発明の実施形態に係る話者特定装置を示す図。
【図3】本発明の実施形態に係る話者特定処理を示すフロー図。
【図4】本発明の実施形態に係る第三者判定の例を示す図。
【発明を実施するための形態】
【0021】
図2は、本発明の実施形態に係る話者特定装置の機能ブロックを示した図である。本実施形態の話者特定装置は、CPUなどの制御手段、メモリ、ハードディスクなどの記憶手段、各種インタフェースを備えたコンピュータにて構成される。各ブロックはコンピュータの処理機能を表したものとなっており、各ブロックが必ずしも部品に対応するものではない。また、パーソナルコンピュータなどの汎用ハードウェア上で動作するプログラムとして提供されるものであってもよい。
【0022】
本実施形態において、話者特定装置20は、乗車検知部21、音声認識部22、言語解析部23、個人ID決定部24、話者認識部25、データベース26、通信部27を備えて構成される。また、話者特定装置20の外部には、周辺機器として、センサ11、マイク12、入力手段13、外部装置30が配置され、話者特定装置20と各種信号のやりとりを行う。
【0023】
乗車検知部21は、センサ11から入力される信号に基づき、車両に人が乗車したことを検知する。このセンサ11、乗車検知部21には各種の実施形態を採用することが考えられる。
【0024】
例えば、座席への荷重を検出する荷重センサを用いることで、乗車検知部21にて着座を検出し人が乗車したことを検出することが考えられる。また、着座の検出としては、シートベルトの装着を検出するセンサとしてもよい。
【0025】
このような着座の検出に限らず、例えばセンサ11にマイクロフォンを用い、乗車検知部21が音声信号から会話を検出することで乗車を検出することとしてもよい。また、センサ11にカメラを用いた場合には、車内の様子を撮影し、乗車検知部21が画像信号の変化を検出することで乗車の検知を行ってもよい。さらには、これらの手法を組み合わせることで精度の高い乗車検知を行うこととしてもよい。
【0026】
音声認識部22は、マイク12から入力される音声信号を音声認識し、認識結果としての文字情報を出力する。
【0027】
言語解析部23(本発明における「解析部」)は、各種データベースを参照することで、音声認識部22の認識結果としての文字情報の解析を行う。本実施形態では、後段に配置された個人ID決定部24と必要とされる個人名称を抽出する。
【0028】
話者認識部25は、マイク11から入力される音声信号から話者を特定、または、絞り込むために設けられており、データベース26に記憶されている個人別話者認識情報26aに基づいて話者の検索を行う。
【0029】
データベース26に記憶されている個人別話者認識情報26aは、話者識別情報との個人IDに、名前、呼び名などの個人名称と、話者の声の音響的特性を示す話者認識用音響モデルが対応付けられた情報である。話者認識部25は、マイク11から取得した音声信号から音響特性を抽出し、データベース26内の話者認識用音響モデルと比較し、閾値以上の類似度の話者認識用音響モデルに対応する個人IDを抽出することで話者の検索を行う。また、データベース26には、話者認識用音響モデルからなる汎用話者認識情報26bが記憶されており、話者が特定できない場合に利用される。
【0030】
個人ID決定部24(本発明における「話者特定部」)は、話者認識部22での抽出結果、及び、言語解析部25で抽出された個人名称による個人別話者認識情報26aの検索結果に基づいて話者の特定を行う。本実施形態では車両中で使用される話者特定装置に配慮した構成となっており、乗車検知部21にてが乗車したことを検知することで特定処理を開始することとしている。
【0031】
通信部27は、Bluetooth(登録商標)、無線LAN、赤外線、携帯電話用回線などの
手法にて車内、あるいは、車外にある携帯電話、外部サーバなどの外部装置と通信を行う。外部装置30には、電話帳、住所録などに登録された個人名称30aが記憶されており、個人別話者認識情報26aを新規に登録する際に利用される。
【0032】
図3は、図2の話者特定装置20を用いて行われる音声認識処理の流れを示したフロー図である。S100にて話者特定装置20が起動すると、S101にて乗車検知部21による乗車の検知が開始される。
【0033】
人が車に乗ったことを検知すると、S102において話者の特定を行うため、マイク11から音声信号を取得する。取得する音声信号の時間長は、話者認識部25での話者認識を行うのみであれば数秒程度のごく短時間で足りるが、個人名称での検索にも利用する場合には、単語、または、文章単位で取得することが望ましい。
【0034】
S103では、話者認識部25において取得した音声信号による話者認識処理が実行される。ここでは、データベース23の個人別話者認識情報26aを参照し、入力音声信号と閾値以上の類似度を有する1乃至複数の話者認識用音響モデルを有するものが抽出される。なお、閾値は経験的に決められた固定値としてもよいが、各種状況に応じて可変する値としてもよい。
【0035】
例えば、入力音声と汎用話者認識情報26bの話者認識用音響モデルに対する類似度の計算を併せて行い、汎用話者認識情報26bの話者認識用音響モデルについて最も高い類似度を閾値に設定することなどが考えられる。なお、この類似度に適宜定数を加算、減算したものを閾値に設定することとしてもよい。このようにすれば、最適な閾値を求めるための予備実験が不要となる。
【0036】
S104は、個人ID決定部24で行われる処理であり、ここではS103の話者認識処理で話者が特定できたか、すなわち、抽出された話者認識用音響モデルが1つに特定できたか否かが判定される。話者が特定できた場合には、S105にて特定した話者の個人IDを出力を行い、S106にて話者認識用音響モデルを、入力される音声信号で学習するように設定して処理を終了する。
【0037】
話者認識部25は、以後入力される音声信号にて、設定された話者認識用音響モデルを学習させ、更新することで、今後実行される話者認識の正解率を向上させることが可能となる。なお、本実施形態では、話者特定の結果として話者特定装置20が出力する情報を話者IDとしているが、個人名称を使用することとしても構わない。
【0038】
一方、この話者認識処理にて複数の候補から絞り込めない、もしくは話者が全く特定できない場合には、S107以降の個人名称による検索が実行される。S107では、S102にて取得した音声信号に対し、音声認識部24にて音声認識処理を行うことで文字情報に変換する。なお、S102で取得した音声信号を用いることに代え、新たに音声信号を取得した上で、この音声認識処理を実行することとしてもよい。
【0039】
S108では、音声認識した結果から辞書などを参照することで個人名称が抽出され、
会話中、1ないし複数の個人名称が抽出できた場合にはS109に進む。S109では、抽出した個人名称中、実際には会話に参加していない人(第三者という)の個人名称の有無が判断され、第三者の個人名称が除去される。
【0040】
図4は、この第三者の個人名称除去の例を示した図である。ここでは、抽出した個人名称の近傍に「らしい」、「そうだ」、「みたい」など所定の語句があった場合に、当該個人名称を第三者の個人名称として除去することとしている。所定の語句(単語)には、このような伝聞形式や推量形式が使用される。また、個人名称の近傍とは、個人名称の前、または後の所定語句数内、あるいは、個人名称を含んだ文章中、あるいは、その後の文章中など、適宜に決定することが可能である。
【0041】
このように、第三者の個人名称の除去処理を行った実施形態では、会話に参加していない人の個人名称が検出された場合においても誤認識を避けることが可能となる。
【0042】
S110では、S109において第三者の個人名称が除去された後に、個人名称が残っているか否かが判定される。個人名称が残っている場合にはS111に進み、当該個人名称を用いた個人別話者認識情報26aの検索が実行される。ここでは、S103にて絞り込まれた音声認識用音響モデル26aに対応付けられた個人名称を検索対象としてもよいし、個人別話者認識情報26a内の全ての個人名称を検索対象としてもよい。
【0043】
S112では、S111の個人名称による検索により話者が特定できたか、すなわち、個人名称が個人別話者認識情報26aとして登録されているか否かが判定される。話者が特定できた場合には、S105にて話者を特定する個人IDを出力するとともに、S106にて当該話者に対応する話者認識用音響モデルを設定して処理を終了する。
【0044】
一方、S108にて会話の中に個人名称がなかった場合や、S110、S112にて個人名称が検索出来なかった場合にはS113に進み、特定できなかった回数が判定される。n回以上特定できなかった場合には、S114に進んで新たに個人別話者認識情報を作成する登録処理が実行される。n回未満である場合には、S102に戻って話者認識からの処理を再度実行する。
【0045】
S114では、入力された音声信号に対し、類似度が最も高い話者認識用音響モデルが選択される。ここでは、S103で抽出した話者認識用音響モデルから選択することとしてもよいし、汎用話者認識情報26bとして設けられた話者認識用音響モデルから選択することとしてもよい。
【0046】
S115では、選択した話者認識用音響モデルを入力音声に基づいて適応させる話者適応処理が実行される。この話者適応処理は、S114で選択した話者認識用音響モデルを話者の入力音声を利用して話者に適応させる処理であって、この処理を行うことで話者認識精度の向上を図ることが可能となる。
【0047】
S116では、適応させた話者認識用音響モデルに対して個人名称を付与する処理が実行される。また、個人IDが必要とされる場合には、個人IDも併せて付与される。個人名称は、キーボードなどの入力部13から手動によって入力することとしてもよいし、携帯電話などの外部装置30に記録されている電話帳、住所録などに含まれる個人名称を利用することで入力を簡略化することとしてもよい。
【0048】
外部装置30内の個人名称を利用する場合、まず、通信部27は外部装置30と通信可能か否かを判断し、通信可能である場合には、外部装置30に記憶されている個人名称を表示部などで操作者に提示して選択を促す。操作者により選択された個人名称を、S11
4にて選択した話者認識用音響モデルと対応付け、個人別話者認識情報26aとして記録することで登録処理が終了する。登録処理が終了すると、S106にて登録された話者認識用音響モデルを設定して全体の処理が終了する。
【0049】
以上、本発明によれば、話者認識用音響モデルを利用した話者特定を行う際、話者の個人名称を利用した検索を併せて行うことで、話者特定の精度向上を図ることが可能となる。
【0050】
なお、本発明はこれらの実施形態のみに限られるものではなく、それぞれの実施形態の構成を適宜組み合わせて構成した実施形態も本発明の範疇となるものである。
【符号の説明】
【0051】
11…センサ、12…マイク、13…入力手段、20…話者特定装置、21…乗車検知部、22…音声認識部、23…言語解析部、24…個人ID決定部、25…話者認識部、26…データベース、27…通信部、30…外部装置

【特許請求の範囲】
【請求項1】
音響モデルに個人名称を対応付けた個人別話者認識情報を記憶する記憶部と、
入力される音声信号と音響モデルを比較して、類似度が高い音響モデルを有する話者を抽出する話者認識部と、
入力される音声信号を音声認識する音声認識部と、
音声認識部での認識結果から個人名称を抽出する解析部と、
話者認識部での抽出結果、及び、解析部で抽出した個人名称に基づいて話者を特定する話者特定部を備えたことを特徴とする
話者特定装置。
【請求項2】
話者特定部は、話者認識部での検索結果で話者が特定できない場合、個人名称に基づいて話者の特定を行う
請求項1に記載の話者特定装置。
【請求項3】
話者認識部は、話者特定部で特定された話者の音響モデルを、入力される当該話者の音声信号によって更新する
請求項1または請求項2に記載の話者特定装置。
【請求項4】
話者特定部は、話者が特定できない場合、入力される音声信号と類似度が高い音響モデルを抽出し、個人名称と対応付けることで個人別音声認識情報を作成する
請求項1乃至請求項3に記載の話者特定装置。
【請求項5】
解析部は、音声認識部の認識結果で抽出された個人名称の近傍に所定の語句が含まれている場合、当該個人名称を抽出対象外とする
請求項1乃至請求項4のいずれか1項に記載の話者特定装置。
【請求項6】
センサからの信号により乗車を検知する乗車検知部をさらに備え、
話者特定部は、乗車検知部にて乗車を検知した場合に話者の特定を開始する
請求項1乃至請求項5のいずれか1項に記載の話者特定装置。
【請求項7】
入力される音声信号と音響モデルを比較して、類似度が高い音響モデルを有する話者を抽出する話者認識処理と、
入力される音声信号を音声認識する音声認識処理と、
音声認識処理での認識結果から個人名称を抽出する解析処理と、
話者認識処理での抽出結果、及び、解析処理で抽出した個人名称に基づいて話者を特定する話者特定処理を行うことを特徴とする
話者特定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2010−217319(P2010−217319A)
【公開日】平成22年9月30日(2010.9.30)
【国際特許分類】
【出願番号】特願2009−61592(P2009−61592)
【出願日】平成21年3月13日(2009.3.13)
【出願人】(591261509)株式会社エクォス・リサーチ (1,360)
【Fターム(参考)】