辞書学習装置及びその方法

【課題】シーンを精度よく識別するための辞書を更新できる辞書学習装置を提供する。
【解決手段】音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出部１１と、前記音響信号以外の情報を関連情報として取得する関連情報取得部２１と、前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理部６１と、前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出部４１と、前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第１の閾値より大きいときは前記辞書の更新を行うように制御する学習制御部３１と、前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新部５１とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、シーンの識別に用いる辞書を適応的に学習する辞書学習装置及びその方法に関する。
【背景技術】
【０００２】
近年の各種センサ技術及び半導体技術の進展により、様々なセンサが搭載された小型機器が普及している。例えば、最近の携帯電話にはＧＰＳ（Global Positioning System）が搭載されており、携帯電話を保持する利用者の位置を把握できる。この位置情報を活用した目的地までの道順を案内するサービスが実現されている。また、加速度センサが搭載された機器では、停止している／走っている／乗り物に乗っているといった利用者の移動状況を把握することができる。例えば、音楽プレーヤに加速度センサが搭載することで、走っている場合には楽曲を再生するが、乗り物に乗っている場合には音量を小さくするといった制御が可能である。
【０００３】
このように利用者の状況が把握できれば、状況にあった情報提供や機能の切り替えが可能となるが、単独のセンサだけで利用者の状況を幅広く把握するのには限界がある。例えば、ＧＰＳを使うことで位置が把握できるが、ＧＰＳは郊外に比べて屋内の精度は低下することが知られており、屋内の位置によって機能やサービスを切り替えるアプリケーションには適用できない。また、加速度センサを使うことで、乗り物にのっている状態を把握することは可能であるが、バスや電車といった乗り物の種類を把握するのは容易ではない。
【０００４】
これらの問題点に対しては、屋内の位置が把握できるようＲＦＩＤ（Radio Frequency IDentification）などのタグを設置するといった解決策や、位置をキーに詳細な状況を把握するための情報を整備して検索するといった解決策が考えられる。これらはインフラの整備による解決であるが、インフラ整備にかけるコストと提供される機能とのバランスが悪いと、現実的な解とはならない。
【０００５】
一方、インフラの整備ではなく複数のセンサを協働させることで把握できる状況の幅を広げるアプローチもある。例えば、上述したバスと電車といった乗り物を例に考えるとバスと電車では発せられる走行音が異なっており、マイクから音響信号を取得することで、加速度だけでは把握が難しい状況を識別できる。特許文献１や非特許文献１では、バスや電車を含む複数の状況で収集した音声データから識別のための辞書を学習し、辞書との照合によって、最も類似度の高い辞書から状況を把握する方法が公開されている。このように、加速度とマイクを協調させることで、単独のセンサでは難しい「バスに乗って移動している」といった状況を把握することができる。
【０００６】
また、工場内に設置された複数の機械が正常に動作しているかを点検する工場巡回を支援する端末がある。この端末について、ユーザの目の前にある機械毎に確認すべき項目を切り替えて提供する機能をもったアプリケーションを想定すると、ＧＰＳでは屋内の細かな位置は把握できないが、マイクを使うことで駆動音の異なる機械の違いを把握することができる。
【０００７】
このように状況把握のために従来使われていたセンサとマイクを協調させることで、把握できる状況は広がる。加えてマイクは、携帯電話など多くの小型機器に搭載されておりインフラ整備などと比較すると導入コストが低いため、有効な手段と考えることができる。
【０００８】
しかしながら、特許文献１や非特許文献１の方法では、シーンを適切に判断するために参照する辞書を、大量の音響信号から学習する必要があるという問題点がある。例えば、高精度にシーンを識別するためには、少なくとも数十分から数時間の学習データを集める必要がある。また、マイクを連続稼働させると、バスと電車の例のように、識別が容易な単独の音源から混入された音響信号だけでなく、複数の音源が混在している場合や、機器自体を移動させることによる雑音などが入力されるために、音響信号だけでは十分にシーンを識別できない場合があるという問題点がある。
【０００９】
大量の学習データが準備できずに十分な性能が出ない辞書を強化する方法として、シーン識別の際に入力されたデータを使って辞書を更新するオンライン適応が考えられる。例えば、音声による話者照合では、声質の経年変化や環境の変化に対応する方法としてオンライン適応の方法がとられる（特許文献２参照）。しかしこれらの方法では、話者毎に準備された照合のための辞書群のうち、どの辞書に対して更新を行うかは、IDなどの話者を指定するための情報から判断することが前提となっている。ＩＤの入力は、更新したい状況が何であるか、対応する辞書を利用者に指定することに相当するため、利用者に手間を強いるという問題点があった。全ての辞書から適応すべき辞書を選定すれば、利用者への手間を強いることはなくなるが、辞書選定に失敗すると誤った適応をするという問題点がある。特に上記の例にあげた乗り物の種類の違いや機械の種類の違いを判断する状況を考えると、異なる場所で類似する環境音がなっていて、初期段階では類似する辞書が構築される可能性は高く、結果として誤った適応が頻発するという問題点がある。
【特許文献１】特開２００２−３２３３７１公報
【特許文献２】特許第３８４９８４１号公報
【非特許文献１】Peltonen,V. et.al 「Computational auditory scene recognition」 ICASSP2002
【発明の開示】
【発明が解決しようとする課題】
【００１０】
このように従来は、他のセンサだけでは把握できないシーンを、音響情報を分析することで得られる情報を使って補完しようとしても、シーンを識別するために必要となる辞書が環境に合わずに十分な識別性能が出ないという問題があった。さらに環境に合わない辞書を適応する場合に、対象となる辞書を指定しなければ、類似するシーンに対応する辞書を誤って更新してしまうという問題点がある。
【００１１】
また、音響情報のみを使ってシーンを識別する、又は、辞書を適応する場合には、識別や適応には適さない信頼性の低い音響信号が混在することので、十分な性能が出ないという問題点がある。
【００１２】
そこで本発明は、上記問題点に鑑みてなされたもので、シーンを精度よく識別するための辞書を更新できる辞書学習装置及びその方法を提供することにある。
【課題を解決するための手段】
【００１３】
本発明は、音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出部と、前記音響信号以外の情報を関連情報として取得する関連情報取得部と、前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理部と、前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出部と、前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第１の閾値より大きいときは前記辞書の更新を行うように制御する学習制御部と、前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新部と、を備えたことを特徴とする辞書学習装置である。
【発明の効果】
【００１４】
本発明によれば、シーンの識別精度を高めるための辞書に更新することができる。
【発明を実施するための最良の形態】
【００１５】
本発明の一実施例の辞書学習装置について、図面に基づいて説明する。
【００１６】
（第１の実施例）
本発明の第１の実施例の辞書学習装置について、図１〜図６に基づいて説明する。
【００１７】
（１）辞書学習装置の構成
まず、辞書学習装置の構成について図１に基づいて説明する。図１は、本実施例の辞書学習装置の概略構成図である。
【００１８】
図１に示すように、辞書学習装置は、音響特徴抽出部１１、関連情報取得部２１、学習制御部３１、類似度算出部４１、辞書更新部５１、辞書管理部６１を有している。
【００１９】
なお、この辞書学習装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音響特徴抽出部１１、関連情報取得部２１、学習制御部３１、類似度算出部４１、辞書更新部５１、辞書管理部６１は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、辞書学習装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
【００２０】
（１−１）音響特徴抽出部１１
音響特徴抽出部１１は、入力される音響信号を分析して、シーン識別のために音響信号からシーンの違いを強調する音響特徴量を抽出して、抽出した音響特徴量を学習制御部３１に出力する。シーン識別のために音響信号から音響特徴量を抽出する方法の詳細については後述する。
【００２１】
なお、「シーン」とは、場所又は状況を意味する。状況とは例えば時間、場所、周辺環境の変化に伴う変化等である。また、分析対象となる音響信号の入力方法に特に制約はなく、例えばマイク、アンプ及びＡＤコンバーターなどを備えた音声入力部からリアリタイムに取得できる構成にしてもよい。また、デジタル信号として記憶装置に格納された音響信号を読み込むことで取得できる構成にしてもよい。
【００２２】
（１−２）関連情報取得部２１
関連情報取得部２１は、加速度センサやＧＰＳなどの音響信号以外のセンサの情報を取得して、取得した関連情報を学習制御部３１に出力する。
【００２３】
出力する関連情報は、センサから得られた生データ系列を分析して取得する音響特徴量や音響特徴量から推定したシーン推定結果でもよい。
【００２４】
例えば、３軸の加速度を取得できる加速度センサであると、動作周期毎に得られるＸＹＺ軸の加速度データを分析すれば、絶対移動量（Ｇ値）などの音響特徴量が抽出できる。また、動作周期毎に得られるＸＹＺ軸の加速度データや絶対移動量から、静止、歩く、走るといった状況を把握することも可能である。
【００２５】
よって上述の音響特徴量や判定結果を関連情報として出力することも可能である。関連情報取得部２１の詳細については後述する。
【００２６】
（１−３）辞書管理部６１
辞書管理部６１は、音響特徴量からシーンを識別するために照合する複数の判定用辞書（以下、単に「辞書」という）を、上述した関連情報と関連付けて管理する。
【００２７】
辞書としては、識別したいシーンで観測される音響信号の出現パターンを統計的に表現した混合正規分布（Gaussian Mixture Model、ＧＭＭ）などが一例として考えられる。識別したいシーンに対応する複数の辞書を、関連情報取得部２１から得られる関連情報毎に分類して管理する。詳細については後述する。
【００２８】
（１−４）類似度算出部４１
類似度算出部４１は、音響特徴量と事前に準備した辞書とを照合して、類似度を表す「類似度スコア」を算出する。辞書が上述したＧＭＭである場合、音響信号の出現パタンを表現するためにＧＭＭが保有する、音響特徴量の平均ベクトル、分散ベクトル、さらには複数のベクトルの重みなどの音響信号パラメータを用いることで、下記の（１）式で計算できる尤度を類似度スコアとすることができる。類似度算出部４１は、尤度を事後確率化したものを前記類似度として算出する。類似度スコアの詳細については後述する。
【数１】

【００２９】
（１−５）学習制御部３１
学習制御部３１は、音響特徴抽出部１１から得られる音響特徴量を、辞書管理部６１に管理される辞書の更新に用いるか否かを判断し、制御する。学習制御部３１は、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部５１に通知する。
【００３０】
学習制御部３１は、更新の必要性を判断するため、関連情報取得部２１から得られた関連情報に基づいて、辞書管理部６１にある辞書のうち候補となる辞書を絞り込む。絞り込まれた辞書に対する音響特徴量との類似度は、類似度算出部４１に問い合わせて取得する。取得した類似度を比較することで、更新対象となる辞書の有無を判断し、対象となる辞書が見つかった場合は、辞書を学習するよう辞書更新部５１を制御する。更新の必要性を判断する方法の詳細については、後述する。
【００３１】
（１−６）辞書更新部５１
辞書更新部５１は、学習制御部３１から入力された更新対象の辞書を、同じく学習制御部３１から入力された音響特徴量を使って更新する。より具体的には類似度を求めるために音響特徴量との照合に用いる音響信号を更新する。辞書が上述したＧＭＭである場合、例えばＥＭアルゴリズムによって音響信号パラメータである平均ベクトルや分散ベクトル、さらには重みベクトルを変更することで、辞書を更新できる。
【００３２】
（１−７）効果
このように本実施例では、シーン識別に用いる辞書を更新する場合に、更新対象とする辞書を関連情報から絞り込むように動作する。これにより本来別の状況に存在する類似の音響信号を発するシーンの辞書を誤って更新することがなくなり、シーンの識別性能を高めることができる。
【００３３】
（２）具体例
次に、本実施例の辞書学習装置の動作を情報提供装置に適用した具体例を説明する。辞書学習装置は、加速度センサとＧＰＳとマイクを備え、工場の敷地をパトロールする警備員を支援して巡回場所毎にシーンを識別して、識別したシーン（巡回場所）毎に確認すべき内容を提供する情報提供装置に適用した場合を考える。
【００３４】
すなわち、情報提供装置は、本実施例の辞書学習装置とシーン識別装置とを有している。シーン識別装置は、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。そして、情報提供装置は、この識別したシーンに基づいて情報を提供する。図２に、本実施例で警備員がこの情報提供装置を持って巡回する工場の敷地の模式図を示す。図３は、情報提供装置の正面図と、シーンの識別結果に応じて表示される情報の一例を示す。
【００３５】
図２の模式図では、ＧＰＳで正確な位置の把握が難しい工場の敷地内において、複数の機械が設置されている。警備員が、この敷地内を加速度センサとＧＰＳとマイクを備えた情報提供装置を持って敷地内を移動すると、シーン識別装置の識別部が、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。そして、その識別したシーンに対応して、警備員がパトロールしている場所の目の前にある機械に関して、警備員が確認すべき情報を情報提供装置の提供部が提供する。確認する内容としては、図３に示すように、敷地Ａの機械３の前では、例えば、動作の確認、油漏れの確認である。
【００３６】
（２−１）辞書管理部６１
辞書管理部６１の具体例について説明する。
【００３７】
本実施例における工場パトロールでは、本番前に警備員が、工場を事前巡回して、現場の音を収録するといった機械の調整が可能である。警備員の長時間の事前巡回は現実的ではないため、高い性能の辞書を構築することは難しい。しかし、辞書学習装置が、種となる辞書を場所や状況といった関連情報とリンクして保持することは可能である。
【００３８】
そこで、機械毎の辞書が、事前巡回によって場所及び加速度から得られる移動情報を関連付けられている。但し、機械毎の辞書は、高い精度は示さないが構築されていて準備されている。
【００３９】
図４に事前巡回の段階で構築した辞書の具体例を示す。図４に示すように、辞書は巡回対象となる機械毎に準備されており、関連情報から取得できる場所及び移動状況毎に分類して保持されている。
【００４０】
（２−２）音響特徴抽出部１１の説明
音響特徴抽出部１１の具体例について説明する。
【００４１】
音響特徴抽出部１１は、入力される音響信号から音響特徴量を抽出する。音響信号から状況を判断するための音響特徴量としては、（１）パワー変動、又は、（２）零交差数変動を用いる場合を考える。
【００４２】
「パワー変動」とは、エネルギーの短期的な変動に着目した音響特徴量で、下記に示す（２）式のＬＳＴＥＲｂとして求めることができる。
【数２】

【００４３】
（２）式が示すように、音響信号ｘ（ｔ）を、ハミング窓ｗ（ｔ）と呼ばれる窓関数によって一定時間長Ｎによって切り出してから、フレーム単位のエネルギーＳＴＥを算出する。このエネルギーＳＴＥをＢ個のフレームで平均した平均エネルギーＡｖｅＳＴＥと比較して、０．５倍よりも小さなエネルギーの値を持つフレームが含まれる割合として算出することができる。
【００４４】
また、「零交差変動」とは、零交差数の短期的な変動に着目した音響特徴量で、下記に示す（３）式のＨＺＣＲＲｂとして求めることができる。
【数３】

【００４５】
（３）式が示すように、音響信号ｘ（ｔ）を一定時間長Ｎによって切り出してから、フレーム中で信号の符号が変化する割合を零交差率ＺＣＲとして算出する。この零交差率をＢ個のフレームで平均した平均零交差変化率ＡｖｅＺＣＲと比較して、１．５倍よりも大きな値を持つフレームが含まれる割合として算出できる。
【００４６】
なお、上述した２つの音響特徴量は、シーンを識別するために用いられる音響特徴量の一例であり、他の公知の音響特徴量を用いても構わない。
【００４７】
（２−３）関連情報取得部２１の説明
関連情報取得部２１の具体例について図６に基づいて説明する。図６は、関連情報取得部２１の詳細な動作を説明するフローチャートを示す。
【００４８】
関連情報取得部２１では、ＧＰＳ及び加速度センサから位置及び移動状況を把握して、関連情報として出力する。
【００４９】
まず、ステップＳ２１０１において、関連情報取得部２１は、３軸の加速度データが取得できる加速度センサから、Ｘ軸、Ｙ軸、Ｚ軸の加速度値（Ｇｘ，Ｇｙ，Ｇｚ）を取得する。加速度データはセンサの動作周期毎に取得でき、例えば１０ｍｓ毎に加速度のデータが取得できる。
【００５０】
次に、ステップＳ２１０２において、関連情報取得部２１は、動作周期毎に取得した加速度値（Ｇｘ，Ｇｙ，Ｇｚ）から加速度に関連する音響特徴量を取得する。音響特徴量としては、例えば下記の（４）式で表現されるＧ値や各軸の移動量などを計算する。
【数４】

【００５１】
次に、ステップＳ２１０３において、関連情報取得部２１は、各軸の移動量やＧ値の音響特徴量から移動状況を判定する。本実施例では、移動しているか静止しているかの２状況を判断する例を考える。ここでは各軸の移動量やＧ値に閾値を設定して、閾値との比較により、静止しているのか、移動しているのかという移動状況を判断する。なお、静止か移動かの２つの状況だけでなく、「歩行」「ジョギング」「走行」「乗り物」など多様な状況を考える場合には、単純な閾値処理ではなく、状況に対応する統計的な辞書を準備して、辞書との照合によりスコアの高い状況を判定結果とすればよい。この場合には、上述したＧＭＭやＨＭＭなどの統計的なモデルを辞書として用いることができる。
【００５２】
次に、ステップＳ２１０４において、関連情報取得部２１は、推定した移動状況が変化するか、又は、一定量移動すると、ＧＰＳを使って位置情報を取得するためにステップＳ２１０５に進む。一方。変化が無ければステップＳ２１０１に戻る。
【００５３】
次に、ステップＳ２１０５において、関連情報取得部２１は、取得する位置情報を敷地といった意味のある粒度にクラスタリングすることで、敷地Ａや敷地Ｃなどの位置情報に変換される。なお、本実施例のように、屋内などＧＰＳが届かない場所では、以前と同じ状況にいると判断して、直前の状況から位置情報を補完すればよい。
【００５４】
次に、ステップＳ２１０６において、関連情報取得部２１は、ステップＳ２１０３で判定した移動状況と位置情報を関連情報として学習制御部３１に出力する。
【００５５】
そして、全てのデータを処理するまで、同じ処理を繰り返す。
【００５６】
（３）辞書更新の流れ
辞書学習装置が、辞書管理部６１に機械毎の辞書が管理されている状態で、実際に工場巡回を行いながら辞書を更新する流れを図５のフローチャートを使って説明する。
【００５７】
まず、ステップＳ０１０１において、音響特徴抽出部１１は、入力される音響信号から音響特徴量を抽出する。
【００５８】
次に、ステップＳ０１０２において、関連情報取得部２１は、ＧＰＳ及び加速度センサから関連情報を取得する。
【００５９】
次に、ステップＳ０１０３において、学習制御部３１は、音響特徴量と関連情報を取得すると、辞書管理部６１で管理された機械毎の辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば現在敷地Ａで停止している状況で、関連情報からその状況が分かっている場合を以下では考える。そして、学習制御部３１は、辞書管理部６１にある同じラベルが付与された機械１、機械２及び機械３に対応する辞書を、更新すべき辞書と判断して、ステップＳ０１０４に進む。なお、図５のフローチャートにおける枠で囲んだ部分が、学習制御部３１の動作に対応している。
【００６０】
次に、ステップＳ０１０４において、学習制御部３１は、絞り込まれた３つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアは、類似度算出部４１に問い合わせることにより取得する。類似度スコアの計算は、例えば辞書が混合正規分布によって構築されている場合には、以下に示す（５）式で算出できる。
【数５】

【００６１】
ここで、機械１、機械２、機械３に対応する類似度スコアがそれぞれ、ｓｃｏｒｅ１、ｓｃｏｒｅ２、ｓｃｏｒｅ３で、ｓｃｏｒｅ１＞ｓｃｏｒｅ２、ｓｃｏｒｅ３であったとする。
【００６２】
次に、ステップＳ０１０５において、学習制御部３１は、求めた類似度スコアに基づいて適応すべき辞書の有無について判断する。例えば類似度スコアの閾値をα、βと設定して、以下のように判断する方法が考えられる。
【００６３】
ｓｃｏｒｅ１≧α ・・・学習済と判断する、
α＞ｓｃｏｒｅ１≧β ・・・辞書１を適応する、
ｓｃｏｒｅ１＜β ・・・未知状況と判断する。
【００６４】
すなわち、学習制御部３１は、上述の判断基準に従い、ｓｃｏｒｅ１が閾値αを超える場合には、辞書管理部６１に管理された辞書が十分に学習されていて適応の必要がないと判断して処理を終える。
【００６５】
また、学習制御部３１は、ｓｃｏｒｅ１が閾値β未満である場合には、機械１、機械２、機械３のどの音とも合致しない未知の状況であると判断して処理を終える。
【００６６】
さらに、学習制御部３１は、α＞ｓｃｏｒｅ１≧βである場合に、適応対象が見つかったと判断して、ステップＳ０１０６に進む。
【００６７】
このように学習制御部３１では、適応対象となる辞書の候補を絞り込んだ上で、類似度スコアに基づいて適応対象とすべき辞書を判断するように動作する。
【００６８】
次に、ステップＳ０１０６において、辞書更新部５１は、学習制御部３１から入力された更新対象の辞書を、同じく学習制御部３１から入力された音響特徴量を使って更新した上で、既存の辞書管理部６１の辞書と置き換えるように動作する。辞書が上述したＧＭＭである場合、ＥＭアルゴリズムなどの既存のアルゴリズムを用いることで辞書を更新することができる。この操作により、機械１に対応する辞書は、従来よりも多くの音響信号から学習されることとなるため、シーンの識別性能が高くなる。
【００６９】
（４）効果
このように本実施例によれば、シーン識別に用いる辞書を更新する場合に、更新対象とする辞書を関連情報から絞り込むように動作する。
【００７０】
例えば、本実施例における、機械１と機械４が非常に似た音をする場合を考えると、関連情報による絞込みを行わない場合では、機械１から発生される音響信号を使って機械４の辞書を誤って適応する危険がある。しかし、本実施例では、このような誤適応を回避することができるため、シーンの識別性能を高めることができ、他のセンサでは識別が難しいシーンを、マイクを協働することで高精度に識別することができる。
【００７１】
（第２の実施例）
本発明の第２の実施例の辞書学習装置について、図７〜図１２に基づいて説明する。
【００７２】
本実施例では、辞書管理部６１に新しく辞書を追加するための辞書構築部７１が追加されている。本実施例では、学習制御部３２が辞書管理部６１にある既存の辞書を更新するのか、新しく新規辞書を追加するのかを判断する点が、第１の実施例と異なっている。
【００７３】
以下の説明では、第１の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【００７４】
（１）辞書学習装置の構成
まず、辞書学習装置の構成について図７に基づいて説明する。図７は、本実施例の辞書学習装置の概略構成図である。
【００７５】
図７に示すように辞書学習装置は、音響特徴抽出部１１、関連情報取得部２１、学習制御部３２、類似度算出部４１、辞書更新部５１、辞書管理部６２、辞書構築部７１を有する。
【００７６】
（１−１）学習制御部３２
学習制御部３２は、音響特徴抽出部１１から得られる音響特徴量を、辞書管理部６１に管理される辞書の更新に用いるか否かを判断し、制御する。更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部５１に通知する。
【００７７】
また、本実施例では、学習制御部３２は、更新すべき辞書がない場合に、新しく新規辞書を構築すべきか否かを判断する。学習制御部３２は、新規辞書を構築すると判断した場合には、新規辞書を新しく構築するように辞書構築部７１に通知をして、必要があれば得られた音響特徴量を辞書構築部７１に通知する。
【００７８】
更新の必要性を判断する方法、及び、新規辞書を追加すべきかの否かの判断方法の詳細については、後述する。
【００７９】
（１−２）辞書構築部７１
辞書構築部７１は、学習制御部３１から入力された音響特徴量を使って新規辞書を構築する。辞書構築部７１は、新規辞書が上述したＧＭＭである場合、例えばＥＭアルゴリズムによって新規辞書を構築できる。
【００８０】
このように新しく構築した新規辞書は、学習に用いた音響特徴量と同期して得られた関連情報と関連付けて、辞書管理部６２で追加管理される。
【００８１】
このように本実施例では、未知の状況に遭遇した場合に、得られた音響特徴量から新しく新規辞書を学習するように動作するため、未知の状況に対してもシーンを識別することができる。
【００８２】
（２）具体例
本実施例の辞書学習装置の動作を具体的に説明する。辞書学習装置は、加速度センサとＧＰＳとマイクを備え、日常生活において利用者の置かれた状況を把握した上で、必要な情報を提供する情報提供装置に適用した場合を考える。図８に本実施例で行動する日常生活の状況を、図９に把握した状況に応じて表示される生活支援情報の情報提供装置の一例を示す。
【００８３】
図８の模式図では、自宅から会社までの通勤経路を表示しており、複数の経路（同じ場所をバスで移動する場合と、車で移動する場合がある）や、異なる場所で類似の乗り物（バス）に乗るという状況を想定している。
【００８４】
利用者が、加速度センサとＧＰＳとマイクを備えた情報提供装置を持って通勤をする。この情報提供装置は、本実施例の辞書学習装置とシーン識別装置とを有している。そして、シーン識別装置がそのシーンを判断して、その状況にあった情報を情報提供装置の画面上に提供する場合を想定する。例えば、利用者が、図９に示すように、会社に近づくと当日のスケジュールを表示し、バスを待っているならばバスの接近情報を表示するなどである。
【００８５】
上述の例では、会社に向かって移動していることは、既存のセンサ、すなわちＧＰＳや加速度センサを使って把握できるが、同じ経路を通り、異なる乗り物（バス／車）を把握することは難しく、マイクとの協働が必要となる。
【００８６】
（３）新規構築の流れ
次に、日常生活支援を行いながら、シーン識別のための辞書を更新し、必要に応じて新しく新規辞書を更新する際の、辞書学習装置の処理の流れを図１１のフローチャートを使って説明する。処理の簡略化のため、辞書を管理する辞書管理部６１は図１０に示す状態になっている状態から説明を始める。
【００８７】
まず、ステップＳ０２０１において、音響特徴抽出部１１は、入力される音響信号から音響特徴量を抽出する。この処理については、第１の実施例と同様のため説明を省略する。
【００８８】
次に、ステップＳ０２０２において、関連情報取得部２１は、ＧＰＳ及び加速度センサから関連情報を取得する。この処理については、第１の実施例と同様のため説明を省略する。
【００８９】
次に、ステップＳ０２０３において、学習制御部３２は、音響特徴量と関連情報を取得すると、辞書管理部６２で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Ｃから場所Ｄに移動中である」ことが分かっている場合、学習制御部３２は、辞書管理部６２にある同じラベルが付与された電車に対応する辞書ＣＤを、更新する対象の辞書と判断して、ステップＳ０２０４に進む。なお、図１１のフローチャートにおける枠で囲った部分は学習制御部３２の動作に対応している。
【００９０】
次に、ステップＳ０２０４において、学習制御部３２は、絞り込まれた１つの辞書ＣＤと入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアの算出方法は、第１の実施例と同様のため説明を省略する。ここで電車に対応する類似度スコアがｓｃｏｒｅＣＤ（＞α）であったとする。
【００９１】
次に、ステップＳ０２０５において、学習制御部３２は、まず求めた類似度スコアに基づいて適応すべき辞書の有無、及び、新規辞書を構築する必要性の有無を判断する。例えば、類似度スコアの閾値をα、βと設定して以下のように判断する方法が考えられる。
【００９２】
ｓｃｏｒｅＣＤ≧α ・・・学習済と判断する、
α＞ｓｃｏｒｅＣＤ≧β ・・・辞書を適応する、
ｓｃｏｒｅＣＤ＜β ・・・未知状況と判断して、新規辞書を構築する。
【００９３】
すなわち、学習制御部３２は、ｓｃｏｒｅＣＤが閾値αよりも大きかった場合には、辞書管理部６２に管理された辞書ＣＤが十分に学習されていて適応の必要がないと判断して処理を終える。
【００９４】
また、学習制御部３２は、ｓｃｏｒｅＣＤが閾値β未満である場合には、既存の辞書ＣＤと合致しない未知の状況であると判断して新規辞書を構築すると判断して、ステップＳ２１０７に進む。
【００９５】
また、学習制御部３２は、閾値α＞ｓｃｏｒｅＣＤ≧閾値βである場合に、適応対象が見つかったと判断して、ステップＳ２１０６に進む。この場合、ｓｃｏｒｅＣＤから電車の辞書ＣＤが既に十分学習されていると判断されるため、処理を終える。
【００９６】
ここで、例えば鉄道駅Ｂから会社Ａまで時間がなかったため通常使うバスではなく、タクシーで移動した状況を考える。
【００９７】
ステップＳ０２０３において、学習制御部３２は、関連情報から現在「場所Ｂから場所Ａに移動中である」ことが分かっており、学習制御部３２は、辞書管理部６２にある同じラベルが付与されたバスに対応する辞書ＢＡを、更新する対象の辞書と判断して、ステップＳ０２０４に進む。
【００９８】
ステップＳ０２０４において、学習制御部３２は、絞り込まれた１つの辞書ＢＡと入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアの算出方法は、第１の実施例と同様のため説明を省略する。ここで電車に対応する類似度スコアがｓｃｏｒｅＡＢ（＜β）であったとする。上述の判断基準に従って判断すると、現在の状況は、既存の辞書ＢＡとは異なる未知の状況であると判断できる。この場合は、ステップＳ０２０７へと進み、新規辞書の構築を行うように動作する。
【００９９】
ステップＳ０２０７において、辞書構築部７１は、学習制御部３１から入力された音響特徴量を使って、新規辞書を構築して、辞書管理部６２に辞書を追加するよう動作する。
【０１００】
新規辞書が上述したＧＭＭである場合、ＥＭアルゴリズムなどの既存のアルゴリズムを用いれば新規辞書を構築でき、新しいシーンを識別することができる。
【０１０１】
（４）効果
このように本実施例では、未知の状況に遭遇した場合に、得られた音響特徴量に基づいて新しく辞書を学習するように動作するため、未知の状況に対してもシーンを識別することができる。
【０１０２】
（５）変更例
なお、上記実施例では、辞書構築部７１が、未知の状況を検知した際に収録した音響信号だけから新規辞書を構築する。しかし、本実施例は、これに限定されるものではない。
【０１０３】
例えば、辞書構築部７１が新規辞書を構築する場合には、種となる汎用辞書を予め準備しておき、未知の状況から取得された音響信号と類似度スコアの高い汎用辞書を初期辞書として採用することも可能である。
【０１０４】
具体的には、日常生活で起こりうる状況に（バス、電車、車、雑沓、構内など・・・）対応する汎用辞書を準備しておく。そして、辞書構築部７１は、初期辞書としてこの種となる汎用辞書の中から選択するように動作する。このような汎用辞書は、実際の環境に完全に合致することはないが、少ない音響信号から構築するよりは高い精度の辞書となることや、種となる初期辞書に付与されるラベルを利用することができるといった利点がある。
【０１０５】
なお、種となる汎用辞書から初期辞書を選択する方法としては、適応する辞書を選択するステップＳ０２０４と同様に類似度スコアを算出し、類似度スコアが最大となる辞書を選択すればよい。
【０１０６】
（第３の実施例）
本発明の第３の実施例の辞書学習装置について、図１３〜図１６に基づいて説明する。
【０１０７】
本実施例では、辞書の学習や適応に用いることができる、すなわち、シーンを識別するために信頼できる区間を推定する信頼区間推定部８１が追加されている。すなわち、本実施例は、学習制御部３３が信頼区間推定部８１の結果に基づいて、辞書を更新する場合に用いる音響特徴量の区間を絞り込む構成が、第１の実施例と異なっている。
【０１０８】
以下の説明では、第１の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【０１０９】
（１）辞書学習装置の構成
まず、辞書学習装置の構成について図１３に基づいて説明する。図１３は、本実施例の辞書学習装置の概略構成図である。
【０１１０】
図１３に示すように、辞書学習装置は、音響特徴抽出部１２、関連情報取得部２１、学習制御部３３、類似度算出部４１、辞書更新部５１、辞書管理部６２、信頼区間推定部８１を有する。
【０１１１】
（１−１）信頼区間推定部８１
信頼区間推定部８１は、音響特徴抽出部１１から得られる音響特徴量に基づいて、音響信号の中から辞書の学習や適応に用いることができる信頼できる区間を推定して、信頼できる区間を学習制御部３３に通知する。信頼できる区間の推定方法の詳細は、後述する。
【０１１２】
（１−２）学習制御部３３
学習制御部３３は、音響特徴抽出部１１から得られる音響特徴量を、辞書管理部６２に管理される辞書の更新に用いるか否かを判断し、制御する。学習制御部３３は、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部５１に通知する。この際に本実施例では、信頼区間推定部８１から得られる信頼区間の情報に基づいて、全ての音響特徴量を辞書更新部５１に通知するのではなく、信頼できる区間のみを通知する点が、第１の実施例とは異なる。
【０１１３】
このように本実施例では、辞書を更新する場合に全ての音響信号を更新に用いるのではなく、性能向上に寄与する学習区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【０１１４】
（２）具体例
辞書学習装置の動作を、具体的に説明する。すなわち、辞書学習装置が、加速度センサとＧＰＳとマイクを備え、日常生活において利用者の置かれた状況を把握した上で、必要な情報を提供する情報提供装置に適用した場合を考える。
【０１１５】
想定する状況は、第２の実施例と同様に、利用者が、加速度センサとＧＰＳとマイクを備えた情報提供装置を持って通勤をすると、場所や状況をシーン識別装置が判断して、その状況にあった情報を情報提供装置の画面上に提供してくれると場合を想定する。
【０１１６】
ここで、「場所Ａから場所Ｂに（バスで）移動している」場合に、図１５に示すような音響信号が得られる例を考える。図１５に示すように、同じバスに乗って移動している場合でも、信号などでバスが停止する場合や、アナウンス音や扉の開閉音といったバスの走行音とは異なる音響信号が混合する状況が考えられる。
【０１１７】
このような混合音が含まれる全ての音響信号を対象に、シーンの識別や辞書の更新を行えば、誤った識別や適応を行う危険性が高い。そこで本実施例では、このような状況でも、頑健に辞書を構築できるように信頼区間推定を行う。
【０１１８】
（３）全体の流れ
辞書学習装置の処理の流れを図１４のフローチャートを使って説明する。辞書学習装置は、日常生活支援を行いながら、性能向上に寄与すると推定される信頼できる区間を推定して、該当する区間に含まれる音響信号のみを使って辞書を更新する。
【０１１９】
また、説明の簡略化のため、辞書を管理する辞書管理部６２は図１２に示す状態になっている状態から説明を始める。
【０１２０】
まず、ステップＳ０３０１において、音響特徴抽出部１２は、入力される音響信号から音響特徴量を抽出する。この処理については、第１の実施例と同様のため説明を省略する。
【０１２１】
次に、ステップＳ０３０２において、関連情報取得部２１は、ＧＰＳ及び加速度センサから関連情報を取得する。この処理については、第１の実施例と同様のため説明を省略する。
【０１２２】
次に、ステップＳ０３０３において、信頼区間推定部８１は、複数フレームの音響特徴量を比較して音響特徴量の変化量を求め、音響特徴量の変化の少ない区間を信頼できる区間として推定する。図１６は、音響特徴量の変化量に基づいて、信頼区間を推定するアルゴリズムの概略を示す。図１６に示すように、フレーム単位で抽出した音響特徴量を、複数フレーム間で比較することで音響変化量を算出する。変化量の算出方法としては、例えば、特徴ベクトルの差分の絶対値であるノルムを用いることができる。この変化量に対して、変化が大きくて信頼できないと判断する閾値を設定することで、閾値を越えない音響特徴量の区間が信頼できる区間と判断できる。
【０１２３】
そして、学習制御部３３は、音響特徴量と関連情報及び信頼区間の情報を取得すると、現在処理を行う音響特徴量が信頼区間から生成されたものであるかの判断を行う。信頼区間に含まれていなければ適応処理は行わない。例えば、バスの停止区間で扉の開閉音が混入された区間は、音響変化量の小さな区間が短く信頼できないと判断されるため、適応の必要性を判断することなく処理が終わる。信頼区間推定部８１によって信頼できる区間と判断された場合には、ステップＳ０３０４に進む。なお、図１４のフローチャートにおいて枠で囲まれた部分は学習制御部３３の動作に対応している。
【０１２４】
次に、ステップＳ０３０４において、学習制御部３３は、辞書管理部６２で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Ｂから場所Ａに移動中である」ことが分かっている場合、学習制御部３３は、辞書管理部６２にある同じラベルが付与されたバス及び車に対応する辞書を、更新する対象の辞書と判断して、ステップＳ０３０５に進む。
【０１２５】
次に、ステップＳ０３０５において、学習制御部３３は、絞り込まれた２つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。
【０１２６】
次に、ステップＳ０３０６において、学習制御部３３は、さらに求めた類似度スコアに基づき、適応すべき辞書の有無を判定する。類似度スコアの算出方法及び適応の必要性の判断方法は第１の実施例と同様のため省略するが、適応の必要がある場合には、ステップＳ０３０７にて辞書の適応を行うよう動作する。
【０１２７】
（４）効果
本実施例によれは、マイクから取得する音響信号のうち、学習に適した信頼できる区間とそうでない区間とを判断して、信頼できる区間のみを学習に用いるように制御している。
【０１２８】
したがって、本実施例によれば、性能向上に寄与する学習区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【０１２９】
（５）変更例
上記実施例では。最も単純な信頼区間の推定方法を説明した。しかし、これに限らず、２つの特徴ベクトルのノルムではなく、例えば複数の特徴ベクトル群同士のノルムの累積値を音響変化量とすることや、信頼できる区間が一定時間以下の場合は除去するなど、音響信号から信頼できる区間を推定する方法としては、様々な変形が考えられる。
【０１３０】
また、入力される音響特徴量の比較だけではなく、事前に信頼できない音響信号の特徴を学習して辞書（以下、不適用辞書という）として保持しておき、不適用辞書との類似度スコアが高い場合は信頼区間としないといった変形も考えられる。例えば、日常生活の中には周辺にいる人の声が環境音に混入されることが頻発するため、人の声から学習した音声辞書を準備しておき、音声辞書との類似度スコアが閾値以上の区間には、人の声が混入されていると判断して、辞書構築には用いない方法が考えられる。
【０１３１】
（第４の実施例）
本発明の第４の実施例の辞書学習装置について、図１７〜図１８に基づいて説明する。
【０１３２】
本実施例では、辞書の学習や適応に用いることができる信頼できる区間を推定する信頼区間推定部８２が追加されている。本実施例では、学習制御部３３が信頼区間推定部８２の結果に基づいて、辞書を更新する場合に用いる音響特徴量の区間を絞り込む構成が、第１の実施例と異なっている。
【０１３３】
以下の説明では、第１の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【０１３４】
（１）辞書学習装置の構成
まず、辞書学習装置の構成について図１７に基づいて説明する。図１７は、本実施例の辞書学習装置の概略構成図である。
【０１３５】
図１７に示すように、辞書学習装置は、音響特徴抽出部１１、関連情報取得部２２、学習制御部３３、類似度算出部４１、辞書更新部５１、辞書管理部６２、信頼区間推定部８２を有している。
【０１３６】
（１−１）信頼区間推定部８２
信頼区間推定部８２は、関連情報取得部２１から得られる関連情報に基づいて、音響信号の中から辞書の学習や適応に用いることができる信頼できる区間を推定して、信頼できる区間を学習制御部３３に通知する。信頼できる区間の推定方法の詳細は、後述する。
【０１３７】
（１−２）学習制御部３３
学習制御部３３は、音響特徴抽出部１１から得られる音響特徴量を、辞書管理部６２に管理される辞書の更新に用いるか否かを判断する。学習制御部３３は、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部５１に通知する。この際に本実施例では、信頼区間推定部８２から得られる信頼区間の情報に基づいて、全ての音響特徴量を辞書更新部５１に通知するのではなく、信頼できる区間のみを通知する構成が、第１の実施例とは異なる。
【０１３８】
このように本実施例では、辞書を更新する場合に全ての音響信号を更新に用いるのではなく、性能向上に寄与する学習区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【０１３９】
（２）具体例
本実施例の辞書学習装置の動作を、具体的に説明する。
【０１４０】
辞書学習装置は、加速度センサとＧＰＳとマイクを備え、日常生活において利用者の置かれた状況を把握した上で、必要な情報を提供する情報提供装置に適用した場合を考える。
【０１４１】
想定する状況は、第２の実施例と同様に、利用者が、加速度センサとＧＰＳとマイクを備えた情報提供装置を持って通勤をすると、場所や状況をシーン識別装置が判断して、その状況にあった情報を情報提供装置の画面上に提供してくれる場合を想定する。
【０１４２】
ここで、「場所Ａから場所Ｂに（バスで）移動している」場合に、図１５に示すような音響信号が得られる例を考える。
【０１４３】
図１５に示すように、同じバスに乗って移動している場合でも、信号などでバスが停止する場合や、アナウンス音や扉の開閉音といったバスの走行音とは異なる音響信号が混合する状況が考えられる。このような異なる音響信号の混入は、移動状況などに連動して発生することもある。例えば、乗り物の種類を音響信号から判断する場合には、静止している状態よりも安定的に移動している状態で収録した音響信号が有用である。このことを踏まえ、本実施例では関連情報の変化に基づいて信頼区間を推定する。
【０１４４】
（３）全体の流れ
辞書学習装置の処理の流れを図１８のフローチャートを使って説明する。
【０１４５】
辞書学習装置は、日常生活支援を行いながら、性能向上に寄与すると推定される信頼できる区間を推定して、該当する区間に含まれる音響信号のみを使って辞書を更新する。また、説明の簡略化のため、辞書を管理する辞書管理部６２は図１２に示す状態になっている状態から説明を始める。
【０１４６】
まず、ステップＳ０４０１において、音響特徴抽出部１１は、入力される音響信号から音響特徴量を抽出する。この処理については、第１の実施例と同様のため説明を省略する。
【０１４７】
次に、ステップＳ０４０２において、関連情報取得部２２は、ＧＰＳ及び加速度センサから関連情報を取得する。この処理については、第１の実施例と同様のため説明を省略する。
【０１４８】
次に、ステップＳ０４０３において、信頼区間推定部８２は、関連情報に基づいて信頼区間の推定を行う。図１８の例で考えると、例えば同じ移動状態が一定時間以上継続した区間を信頼区間とすることで、継続時間の短いバスの停止時間などは信頼区間とならず、移動時間のみを学習制御部３１で処理することができる。信頼区間推定部８２によって信頼できる区間と判断された場合には、ステップＳ０４０４に進む。
【０１４９】
次に、ステップＳ０４０４において、学習制御部３３は、辞書管理部６２で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Ｂから場所Ａに移動中である」ことが分かっている場合、学習制御部３３は、辞書管理部６２にある同じラベルが付与されたバス及び車に対応する辞書を、更新する対象の辞書と判断して、ステップＳ０４０５に進む。
【０１５０】
次に、ステップＳ０４０５において、学習制御部３３は、絞り込まれた２つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。
【０１５１】
次に、ステップＳ０４０６において、学習制御部３３は、さらに求めた類似度スコアに基づき、適応すべき辞書の有無を判定する。類似度スコアの算出方法及び適応の必要性の判断方法は第１の実施例と同様のため省略する。
【０１５２】
次に、ステップＳ０４０７において、辞書更新部５１は、適応した辞書を更新する。
【０１５３】
（４）効果
本実施例によれは、マイクから取得する音響信号のうち、学習に適した信頼できる区間とそうでない区間とを判断して、信頼できる区間のみを学習に用いる。
【０１５４】
したがって、本実施例によれは、性能向上に寄与する信頼区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【０１５５】
（第５の実施例）
本発明の第５の実施例の辞書学習装置について、図２〜図４、図１９、図２０に基づいて説明する。
【０１５６】
本実施例では、未知の状態を検知した際に、異常状態として通知する異常通知部９１が追加されている。本実施例では、学習制御部３４が、辞書管理部６２にある既存の辞書を更新するのか、異常状態と判断する構成が、第１の実施例とは異なっている。
【０１５７】
以下の説明では、第１の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【０１５８】
（１）辞書学習装置の構成
まず、辞書学習装置の構成について図１９に基づいて説明する。図１９は、本実施例の辞書学習装置の概略構成図である。
【０１５９】
図１９に示すように、辞書学習装置は、音響特徴抽出部１１、関連情報取得部２１、学習制御部３４、類似度算出部４１、辞書更新部５１、辞書管理部６２、異常通知部９１を有している。
【０１６０】
（１−１）学習制御部３４
学習制御部３４は、音響特徴抽出部１１から得られる音響特徴量を、辞書管理部６２に管理される辞書の更新に用いるか否かを判断して、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部５１に通知する。
【０１６１】
また、本実施例では、学習制御部３４は、更新すべき辞書がない場合に、未知の状態であるか否かを判断する。未知の状態であると判断した場合には、異常状態であることを異常通知部９１に通知をする。更新の必要性を判断する方法、及び、異常状態の判断方法の詳細については、後述する。
【０１６２】
（１−２）異常状態通知部９１
異常状態通知部９１は、学習制御部３１の判断結果を元に現在が異常状態であることを通知する。通知の方法としては、例えば情報提供装置の画面に警告として表示する方法や、警告音を鳴らすなど様々な方法が考えられる。
【０１６３】
このように本実施例によれば、未知の状況に遭遇した場合に、利用者に対して未知の状態であることを通知するよう動作するため、利用者が異常状態を把握しやすくなる。
【０１６４】
（２）具体例
辞書学習装置の動作を、第１の実施例を参考にして説明する。
【０１６５】
すなわち、この具体例においても、情報提供装置は、本実施例の辞書学習装置とシーン識別装置とを有している。シーン識別装置は、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。
【０１６６】
警備員が、この敷地内を加速度センサとＧＰＳとマイクを備えた情報提供装置を持って敷地内を移動すると、シーン識別装置の識別部が、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。そして、その識別したシーンに対応して、警備員がパトロールしている場所の目の前にある機械に関して、警備員が確認すべき情報を情報提供装置の提供部が提供する。
【０１６７】
（３）異常検知の流れ
辞書学習装置の処理の流れを図２０のフローチャートを使って説明する。
【０１６８】
辞書学習装置は、工場巡回を行いながら、シーン識別のための辞書を更新し、未知の状態に遭遇した場合には異常通知を行う。なお、図４に示すように辞書管理部６２には、巡回対象となる機械毎に辞書が準備されており、この辞書が関連情報から取得できる場所及び移動状況毎分類して保持されている。
【０１６９】
まず、ステップＳ０５０１において、音響特徴抽出部１１は、入力される音響信号から音響特徴量を抽出する。この処理については、第１の実施例と同様のため説明を省略する。
【０１７０】
次に、ステップＳ０５０２において、関連情報取得部２１は、ＧＰＳ及び加速度センサから関連情報を取得する。この処理については、第１の実施例と同様のため説明を省略する。
【０１７１】
次に、ステップＳ０５０３において、学習制御部３４は、音響特徴量と関連情報を取得すると、辞書管理部６２で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Ａで静止している」ことが分かっている場合、学習制御部３４は、辞書管理部６２にある同じラベルが付与された機械１、機械２、機械３に対応する辞書を、更新する対象の辞書と判断して、ステップＳ０５０４に進む。図２０のフローチャートにおける枠で囲まれた部分は学習制御部３４の動作に対応している。
【０１７２】
次に、ステップＳ０５０４において、学習制御部３４は、絞り込まれた３つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアの算出方法は、第１の実施例と同様のため説明を省略する。ここで最も大きな値を持った機械１の類似度スコアがｓｃｏｒｅ１（＜β）であったとする。
【０１７３】
次に、ステップＳ０５０５において、学習制御部３４は、まず求めた類似度スコアに基づいて適応すべき辞書の有無、及び、異常の有無を判断する。例えば類似度スコアの閾値をα、βと設定して以下のように判断する方法が考えられる。
【０１７４】
ｓｃｏｒｅ１≧α ・・・学習済と判断する、
α＞ｓｃｏｒｅ１≧β ・・・辞書を適応する、
ｓｃｏｒｅ１＜β ・・・未知状況と判断（異常状態）する。
【０１７５】
すなわち、学習制御部３４は、ｓｃｏｒｅ１が閾値αよりも大きかった場合には、辞書管理部６２に管理された辞書が十分に学習されていて適応の必要がないと判断して処理を終える。
【０１７６】
また、学習制御部３４は、ｓｃｏｒｅ１が、閾値β未満である場合には、既存の辞書１と合致しない未知の状況であると判断して、ステップＳ５１０７に進む。
【０１７７】
さらに、学習制御部３４は、閾値α＞ｓｃｏｒｅ１≧閾値βである場合に、適応対象が見つかったと判断して、ステップＳ５１０６に進む。
【０１７８】
次に、ステップＳ０２０６において、辞書更新部５１は、適応した辞書を更新する。
【０１７９】
次に、ステップＳ０２０７において、現在の状況は、既存の辞書とは異なる未知の状況であると判断できるので、異常状態通知部９１は、異常状態を通知する。
【０１８０】
（４）効果
このように本実施例によれは、利用者に対して未知の状態であることを通知するよう動作するため、利用者が異常状態を把握しやすくなる。
【０１８１】
（変更例）
本発明は上記各実施例に限らず、その主旨を逸脱しない限り種々に変更することができる。
【０１８２】
例えば、上記各実施例では、効率的に関連情報を生成するために、ＧＰＳと加速度センサを連動させて取得する例を示した。しかし、関連情報取得部２１は、これに限定されるものではなく、複数のセンサを並列に動作させても構わない。
【０１８３】
また、ＧＰＳと加速度センサ以外に、時計、照度計、静電センサ、温度センサ、湿度センサから関連情報を取得してもよい。
【図面の簡単な説明】
【０１８４】
【図１】本発明の第１の実施例の辞書学習装置の概略構成例を表す図である。
【図２】第１の実施例の工場巡回支援アプリケーションでの巡回場所の一例を表す図である。
【図３】第１の実施例の工場巡回支援アプリケーションで提供される情報の一例を示す図である。
【図４】第１の実施例の辞書管理部が管理する辞書の一例を表す図である。
【図５】第１の実施例の辞書学習の流れを示すフローチャートである。
【図６】第１の実施例の関連情報取得部の動作を示すフローチャートである。
【図７】第２の実施例の辞書学習装置の概略構成例を表す図である。
【図８】第２の実施例の日常生活支援アプリケーションで把握したい状況の一例を表す図である。
【図９】第２の実施例の日常生活支援アプリケーションで提供される情報の一例を示す図である。
【図１０】第２の実施例の辞書管理部が管理する更新前の辞書の一例を表す図である。
【図１１】第２の実施例の辞書学習の流れを示すフローチャートである。
【図１２】第２の実施例の辞書管理部が管理する、更新後の辞書の一例を表す図である。
【図１３】第３の実施例の辞書学習装置の概略構成例を表す図である。
【図１４】第３の実施例の辞書学習の流れを示すフローチャートである。
【図１５】第３の実施例の信頼推定が必要な音響信号の一例を示す図である。
【図１６】第３の実施例の信頼区間推定部のアルゴリズムの概要を示した図である。
【図１７】第４の実施例の辞書学習装置の概略構成例を表す図である。
【図１８】第４の実施例の辞書学習の流れを示すフローチャートである。
【図１９】第５の実施例の辞書学習装置の概略構成例を表す図である。
【図２０】第５の実施例の辞書学習の流れを示すフローチャートである。
【符号の説明】
【０１８５】
１１・・・音響特徴抽出部
２１・・・関連情報取得部
３１・・・学習制御部
４１・・・類似度算出部
５１・・・辞書更新部
６１・・・辞書管理部

【特許請求の範囲】
【請求項１】
音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出部と、
前記音響信号以外の情報を関連情報として取得する関連情報取得部と、
前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理部と、
前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出部と、
前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第１の閾値より大きいときは前記辞書の更新を行うように制御する学習制御部と、
前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新部と、
を備えたことを特徴とする辞書学習装置。
【請求項２】
前記音響特徴量、又は、前記関連情報を用いて、前記シーンを識別するために信頼できる区間を推定する信頼区間推定部をさらに備え、
前記学習制御部は、推定された前記信頼区間に含まれる前記音響特徴量のみを用いて制御する、
ことを特徴とする請求項１に記載の辞書学習装置。
【請求項３】
前記辞書は、前記音響特徴量の混合正規分布として構築され、
前記類似度算出部は、前記混合正規分布からの尤度を事後確率化したものを前記類似度として算出する、
ことを特徴とする請求項１に記載の辞書学習装置。
【請求項４】
前記学習制御部は、前記類似度が第２の閾値よりも大きいときは前記辞書を更新しないように制御する、
ことを特徴とする請求項１に記載の辞書学習装置。
【請求項５】
前記辞書管理部が管理する前記辞書に追加して、新規辞書を構築する辞書構築部をさらに備え、
前記学習制御部は、前記類似度を用いて、前記新規辞書の構築を行うか、又は、前記辞書の更新を行う、
ことを特徴とする請求項１に記載の辞書学習装置。
【請求項６】
前記辞書構築部は、
前記新規辞書の初期辞書として選択するための複数の汎用辞書を予め保持し、
前記音響特徴量との前記類似度が最も高い前記汎用辞書を、前記新規辞書の初期辞書とする、
ことを特徴とする請求項５に記載の辞書学習装置。
【請求項７】
異常状態を通知する異常通知部をさらに備え、
前記学習制御部は、前記類似度に基づいて、前記辞書の更新を行うか、又は、前記異常状態の通知を行うかを制御する、
ことを特徴とする請求項１に記載の辞書学習装置。
【請求項８】
前記関連情報取得部は、ＧＰＳ、加速度センサ、静電センサ、温度センサ、湿度センサ、又は、時計のいずれかから前記関連情報を取得する、
ことを特徴とする請求項１に記載の辞書学習装置。
【請求項９】
前記信頼区間推定部は、
前記音響特徴量から前記音響信号の局所的な変動を表す音響変動スコアを算出し、
前記音響変動スコアが一定値以下の区間を前記信頼区間として判定する、
ことを特徴とする請求項２に記載の辞書学習装置。
【請求項１０】
前記信頼区間推定部は、
前記判断に適さない前記音響信号の区間を検出するための不適用辞書とを有し、
前記音響特徴量と前記不適用辞書との類似度を算出し、
前記類似度が、第３の閾値よりも小さな区間のみを前記信頼区間として算出する、
ことを特徴とする請求項２に記載の辞書学習装置。
【請求項１１】
前記信頼区間推定部は、
前記関連情報が変化しない区間を前記信頼区間として算出する、
ことを特徴とする請求項２に記載の辞書学習装置。
【請求項１２】
請求項１記載の前記辞書学習装置と、
前記辞書学習装置の前記辞書を用いて前記シーンを識別する識別部と、
を備えたことを特徴とするシーン識別装置。
【請求項１３】
請求項１記載の前記辞書学習装置と、
前記辞書学習装置の前記辞書を用いて前記シーンを識別する識別部と、
前記識別したシーンに対応した情報を提供する提供部と、
を備えたことを特徴とする情報提供装置。
【請求項１４】
音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出ステップと、
前記音響信号以外の情報を関連情報として取得する関連情報取得ステップと、
前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理ステップと、
前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出ステップと、
前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第１の閾値より大きいときは前記辞書の更新を行うように制御する学習制御ステップと、
前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新ステップと、
を備えたことを特徴とする辞書学習方法。
【請求項１５】
コンピュータに、
音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出機能と、
前記音響信号以外の情報を関連情報として取得する関連情報取得機能と、
前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理機能と、
前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出機能と、
前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第１の閾値より大きいときは前記辞書の更新を行うように制御する学習制御機能と、
前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新機能と、
を実現させるための辞書学習プログラム。

【図３】