辞書学習装置及びその方法
【課題】シーンを精度よく識別するための辞書を更新できる辞書学習装置を提供する。
【解決手段】音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出部11と、前記音響信号以外の情報を関連情報として取得する関連情報取得部21と、前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理部61と、前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出部41と、前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御部31と、前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新部51とを備える。
【解決手段】音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出部11と、前記音響信号以外の情報を関連情報として取得する関連情報取得部21と、前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理部61と、前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出部41と、前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御部31と、前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新部51とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、シーンの識別に用いる辞書を適応的に学習する辞書学習装置及びその方法に関する。
【背景技術】
【0002】
近年の各種センサ技術及び半導体技術の進展により、様々なセンサが搭載された小型機器が普及している。例えば、最近の携帯電話にはGPS(Global Positioning System)が搭載されており、携帯電話を保持する利用者の位置を把握できる。この位置情報を活用した目的地までの道順を案内するサービスが実現されている。また、加速度センサが搭載された機器では、停止している/走っている/乗り物に乗っているといった利用者の移動状況を把握することができる。例えば、音楽プレーヤに加速度センサが搭載することで、走っている場合には楽曲を再生するが、乗り物に乗っている場合には音量を小さくするといった制御が可能である。
【0003】
このように利用者の状況が把握できれば、状況にあった情報提供や機能の切り替えが可能となるが、単独のセンサだけで利用者の状況を幅広く把握するのには限界がある。例えば、GPSを使うことで位置が把握できるが、GPSは郊外に比べて屋内の精度は低下することが知られており、屋内の位置によって機能やサービスを切り替えるアプリケーションには適用できない。また、加速度センサを使うことで、乗り物にのっている状態を把握することは可能であるが、バスや電車といった乗り物の種類を把握するのは容易ではない。
【0004】
これらの問題点に対しては、屋内の位置が把握できるようRFID(Radio Frequency IDentification)などのタグを設置するといった解決策や、位置をキーに詳細な状況を把握するための情報を整備して検索するといった解決策が考えられる。これらはインフラの整備による解決であるが、インフラ整備にかけるコストと提供される機能とのバランスが悪いと、現実的な解とはならない。
【0005】
一方、インフラの整備ではなく複数のセンサを協働させることで把握できる状況の幅を広げるアプローチもある。例えば、上述したバスと電車といった乗り物を例に考えるとバスと電車では発せられる走行音が異なっており、マイクから音響信号を取得することで、加速度だけでは把握が難しい状況を識別できる。特許文献1や非特許文献1では、バスや電車を含む複数の状況で収集した音声データから識別のための辞書を学習し、辞書との照合によって、最も類似度の高い辞書から状況を把握する方法が公開されている。このように、加速度とマイクを協調させることで、単独のセンサでは難しい「バスに乗って移動している」といった状況を把握することができる。
【0006】
また、工場内に設置された複数の機械が正常に動作しているかを点検する工場巡回を支援する端末がある。この端末について、ユーザの目の前にある機械毎に確認すべき項目を切り替えて提供する機能をもったアプリケーションを想定すると、GPSでは屋内の細かな位置は把握できないが、マイクを使うことで駆動音の異なる機械の違いを把握することができる。
【0007】
このように状況把握のために従来使われていたセンサとマイクを協調させることで、把握できる状況は広がる。加えてマイクは、携帯電話など多くの小型機器に搭載されておりインフラ整備などと比較すると導入コストが低いため、有効な手段と考えることができる。
【0008】
しかしながら、特許文献1や非特許文献1の方法では、シーンを適切に判断するために参照する辞書を、大量の音響信号から学習する必要があるという問題点がある。例えば、高精度にシーンを識別するためには、少なくとも数十分から数時間の学習データを集める必要がある。また、マイクを連続稼働させると、バスと電車の例のように、識別が容易な単独の音源から混入された音響信号だけでなく、複数の音源が混在している場合や、機器自体を移動させることによる雑音などが入力されるために、音響信号だけでは十分にシーンを識別できない場合があるという問題点がある。
【0009】
大量の学習データが準備できずに十分な性能が出ない辞書を強化する方法として、シーン識別の際に入力されたデータを使って辞書を更新するオンライン適応が考えられる。例えば、音声による話者照合では、声質の経年変化や環境の変化に対応する方法としてオンライン適応の方法がとられる(特許文献2参照)。しかしこれらの方法では、話者毎に準備された照合のための辞書群のうち、どの辞書に対して更新を行うかは、IDなどの話者を指定するための情報から判断することが前提となっている。IDの入力は、更新したい状況が何であるか、対応する辞書を利用者に指定することに相当するため、利用者に手間を強いるという問題点があった。全ての辞書から適応すべき辞書を選定すれば、利用者への手間を強いることはなくなるが、辞書選定に失敗すると誤った適応をするという問題点がある。特に上記の例にあげた乗り物の種類の違いや機械の種類の違いを判断する状況を考えると、異なる場所で類似する環境音がなっていて、初期段階では類似する辞書が構築される可能性は高く、結果として誤った適応が頻発するという問題点がある。
【特許文献1】特開2002−323371公報
【特許文献2】特許第3849841号公報
【非特許文献1】Peltonen,V. et.al 「Computational auditory scene recognition」 ICASSP2002
【発明の開示】
【発明が解決しようとする課題】
【0010】
このように従来は、他のセンサだけでは把握できないシーンを、音響情報を分析することで得られる情報を使って補完しようとしても、シーンを識別するために必要となる辞書が環境に合わずに十分な識別性能が出ないという問題があった。さらに環境に合わない辞書を適応する場合に、対象となる辞書を指定しなければ、類似するシーンに対応する辞書を誤って更新してしまうという問題点がある。
【0011】
また、音響情報のみを使ってシーンを識別する、又は、辞書を適応する場合には、識別や適応には適さない信頼性の低い音響信号が混在することので、十分な性能が出ないという問題点がある。
【0012】
そこで本発明は、上記問題点に鑑みてなされたもので、シーンを精度よく識別するための辞書を更新できる辞書学習装置及びその方法を提供することにある。
【課題を解決するための手段】
【0013】
本発明は、音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出部と、前記音響信号以外の情報を関連情報として取得する関連情報取得部と、前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理部と、前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出部と、前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御部と、前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新部と、を備えたことを特徴とする辞書学習装置である。
【発明の効果】
【0014】
本発明によれば、シーンの識別精度を高めるための辞書に更新することができる。
【発明を実施するための最良の形態】
【0015】
本発明の一実施例の辞書学習装置について、図面に基づいて説明する。
【0016】
(第1の実施例)
本発明の第1の実施例の辞書学習装置について、図1〜図6に基づいて説明する。
【0017】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図1に基づいて説明する。図1は、本実施例の辞書学習装置の概略構成図である。
【0018】
図1に示すように、辞書学習装置は、音響特徴抽出部11、関連情報取得部21、学習制御部31、類似度算出部41、辞書更新部51、辞書管理部61を有している。
【0019】
なお、この辞書学習装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音響特徴抽出部11、関連情報取得部21、学習制御部31、類似度算出部41、辞書更新部51、辞書管理部61は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、辞書学習装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
【0020】
(1−1)音響特徴抽出部11
音響特徴抽出部11は、入力される音響信号を分析して、シーン識別のために音響信号からシーンの違いを強調する音響特徴量を抽出して、抽出した音響特徴量を学習制御部31に出力する。シーン識別のために音響信号から音響特徴量を抽出する方法の詳細については後述する。
【0021】
なお、「シーン」とは、場所又は状況を意味する。状況とは例えば時間、場所、周辺環境の変化に伴う変化等である。また、分析対象となる音響信号の入力方法に特に制約はなく、例えばマイク、アンプ及びADコンバーターなどを備えた音声入力部からリアリタイムに取得できる構成にしてもよい。また、デジタル信号として記憶装置に格納された音響信号を読み込むことで取得できる構成にしてもよい。
【0022】
(1−2)関連情報取得部21
関連情報取得部21は、加速度センサやGPSなどの音響信号以外のセンサの情報を取得して、取得した関連情報を学習制御部31に出力する。
【0023】
出力する関連情報は、センサから得られた生データ系列を分析して取得する音響特徴量や音響特徴量から推定したシーン推定結果でもよい。
【0024】
例えば、3軸の加速度を取得できる加速度センサであると、動作周期毎に得られるXYZ軸の加速度データを分析すれば、絶対移動量(G値)などの音響特徴量が抽出できる。また、動作周期毎に得られるXYZ軸の加速度データや絶対移動量から、静止、歩く、走るといった状況を把握することも可能である。
【0025】
よって上述の音響特徴量や判定結果を関連情報として出力することも可能である。関連情報取得部21の詳細については後述する。
【0026】
(1−3)辞書管理部61
辞書管理部61は、音響特徴量からシーンを識別するために照合する複数の判定用辞書(以下、単に「辞書」という)を、上述した関連情報と関連付けて管理する。
【0027】
辞書としては、識別したいシーンで観測される音響信号の出現パターンを統計的に表現した混合正規分布(Gaussian Mixture Model、GMM)などが一例として考えられる。識別したいシーンに対応する複数の辞書を、関連情報取得部21から得られる関連情報毎に分類して管理する。詳細については後述する。
【0028】
(1−4)類似度算出部41
類似度算出部41は、音響特徴量と事前に準備した辞書とを照合して、類似度を表す「類似度スコア」を算出する。辞書が上述したGMMである場合、音響信号の出現パタンを表現するためにGMMが保有する、音響特徴量の平均ベクトル、分散ベクトル、さらには複数のベクトルの重みなどの音響信号パラメータを用いることで、下記の(1)式で計算できる尤度を類似度スコアとすることができる。類似度算出部41は、尤度を事後確率化したものを前記類似度として算出する。類似度スコアの詳細については後述する。
【数1】
【0029】
(1−5)学習制御部31
学習制御部31は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部61に管理される辞書の更新に用いるか否かを判断し、制御する。学習制御部31は、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。
【0030】
学習制御部31は、更新の必要性を判断するため、関連情報取得部21から得られた関連情報に基づいて、辞書管理部61にある辞書のうち候補となる辞書を絞り込む。絞り込まれた辞書に対する音響特徴量との類似度は、類似度算出部41に問い合わせて取得する。取得した類似度を比較することで、更新対象となる辞書の有無を判断し、対象となる辞書が見つかった場合は、辞書を学習するよう辞書更新部51を制御する。更新の必要性を判断する方法の詳細については、後述する。
【0031】
(1−6)辞書更新部51
辞書更新部51は、学習制御部31から入力された更新対象の辞書を、同じく学習制御部31から入力された音響特徴量を使って更新する。より具体的には類似度を求めるために音響特徴量との照合に用いる音響信号を更新する。辞書が上述したGMMである場合、例えばEMアルゴリズムによって音響信号パラメータである平均ベクトルや分散ベクトル、さらには重みベクトルを変更することで、辞書を更新できる。
【0032】
(1−7)効果
このように本実施例では、シーン識別に用いる辞書を更新する場合に、更新対象とする辞書を関連情報から絞り込むように動作する。これにより本来別の状況に存在する類似の音響信号を発するシーンの辞書を誤って更新することがなくなり、シーンの識別性能を高めることができる。
【0033】
(2)具体例
次に、本実施例の辞書学習装置の動作を情報提供装置に適用した具体例を説明する。辞書学習装置は、加速度センサとGPSとマイクを備え、工場の敷地をパトロールする警備員を支援して巡回場所毎にシーンを識別して、識別したシーン(巡回場所)毎に確認すべき内容を提供する情報提供装置に適用した場合を考える。
【0034】
すなわち、情報提供装置は、本実施例の辞書学習装置とシーン識別装置とを有している。シーン識別装置は、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。そして、情報提供装置は、この識別したシーンに基づいて情報を提供する。図2に、本実施例で警備員がこの情報提供装置を持って巡回する工場の敷地の模式図を示す。図3は、情報提供装置の正面図と、シーンの識別結果に応じて表示される情報の一例を示す。
【0035】
図2の模式図では、GPSで正確な位置の把握が難しい工場の敷地内において、複数の機械が設置されている。警備員が、この敷地内を加速度センサとGPSとマイクを備えた情報提供装置を持って敷地内を移動すると、シーン識別装置の識別部が、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。そして、その識別したシーンに対応して、警備員がパトロールしている場所の目の前にある機械に関して、警備員が確認すべき情報を情報提供装置の提供部が提供する。確認する内容としては、図3に示すように、敷地Aの機械3の前では、例えば、動作の確認、油漏れの確認である。
【0036】
(2−1)辞書管理部61
辞書管理部61の具体例について説明する。
【0037】
本実施例における工場パトロールでは、本番前に警備員が、工場を事前巡回して、現場の音を収録するといった機械の調整が可能である。警備員の長時間の事前巡回は現実的ではないため、高い性能の辞書を構築することは難しい。しかし、辞書学習装置が、種となる辞書を場所や状況といった関連情報とリンクして保持することは可能である。
【0038】
そこで、機械毎の辞書が、事前巡回によって場所及び加速度から得られる移動情報を関連付けられている。但し、機械毎の辞書は、高い精度は示さないが構築されていて準備されている。
【0039】
図4に事前巡回の段階で構築した辞書の具体例を示す。図4に示すように、辞書は巡回対象となる機械毎に準備されており、関連情報から取得できる場所及び移動状況毎に分類して保持されている。
【0040】
(2−2)音響特徴抽出部11の説明
音響特徴抽出部11の具体例について説明する。
【0041】
音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。音響信号から状況を判断するための音響特徴量としては、(1)パワー変動、又は、(2)零交差数変動を用いる場合を考える。
【0042】
「パワー変動」とは、エネルギーの短期的な変動に着目した音響特徴量で、下記に示す(2)式のLSTERbとして求めることができる。
【数2】
【0043】
(2)式が示すように、音響信号x(t)を、ハミング窓w(t)と呼ばれる窓関数によって一定時間長Nによって切り出してから、フレーム単位のエネルギーSTEを算出する。このエネルギーSTEをB個のフレームで平均した平均エネルギーAveSTEと比較して、0.5倍よりも小さなエネルギーの値を持つフレームが含まれる割合として算出することができる。
【0044】
また、「零交差変動」とは、零交差数の短期的な変動に着目した音響特徴量で、下記に示す(3)式のHZCRRbとして求めることができる。
【数3】
【0045】
(3)式が示すように、音響信号x(t)を一定時間長Nによって切り出してから、フレーム中で信号の符号が変化する割合を零交差率ZCRとして算出する。この零交差率をB個のフレームで平均した平均零交差変化率AveZCRと比較して、1.5倍よりも大きな値を持つフレームが含まれる割合として算出できる。
【0046】
なお、上述した2つの音響特徴量は、シーンを識別するために用いられる音響特徴量の一例であり、他の公知の音響特徴量を用いても構わない。
【0047】
(2−3)関連情報取得部21の説明
関連情報取得部21の具体例について図6に基づいて説明する。図6は、関連情報取得部21の詳細な動作を説明するフローチャートを示す。
【0048】
関連情報取得部21では、GPS及び加速度センサから位置及び移動状況を把握して、関連情報として出力する。
【0049】
まず、ステップS2101において、関連情報取得部21は、3軸の加速度データが取得できる加速度センサから、X軸、Y軸、Z軸の加速度値(Gx,Gy,Gz)を取得する。加速度データはセンサの動作周期毎に取得でき、例えば10ms毎に加速度のデータが取得できる。
【0050】
次に、ステップS2102において、関連情報取得部21は、動作周期毎に取得した加速度値(Gx,Gy,Gz)から加速度に関連する音響特徴量を取得する。音響特徴量としては、例えば下記の(4)式で表現されるG値や各軸の移動量などを計算する。
【数4】
【0051】
次に、ステップS2103において、関連情報取得部21は、各軸の移動量やG値の音響特徴量から移動状況を判定する。本実施例では、移動しているか静止しているかの2状況を判断する例を考える。ここでは各軸の移動量やG値に閾値を設定して、閾値との比較により、静止しているのか、移動しているのかという移動状況を判断する。なお、静止か移動かの2つの状況だけでなく、「歩行」「ジョギング」「走行」「乗り物」など多様な状況を考える場合には、単純な閾値処理ではなく、状況に対応する統計的な辞書を準備して、辞書との照合によりスコアの高い状況を判定結果とすればよい。この場合には、上述したGMMやHMMなどの統計的なモデルを辞書として用いることができる。
【0052】
次に、ステップS2104において、関連情報取得部21は、推定した移動状況が変化するか、又は、一定量移動すると、GPSを使って位置情報を取得するためにステップS2105に進む。一方。変化が無ければステップS2101に戻る。
【0053】
次に、ステップS2105において、関連情報取得部21は、取得する位置情報を敷地といった意味のある粒度にクラスタリングすることで、敷地Aや敷地Cなどの位置情報に変換される。なお、本実施例のように、屋内などGPSが届かない場所では、以前と同じ状況にいると判断して、直前の状況から位置情報を補完すればよい。
【0054】
次に、ステップS2106において、関連情報取得部21は、ステップS2103で判定した移動状況と位置情報を関連情報として学習制御部31に出力する。
【0055】
そして、全てのデータを処理するまで、同じ処理を繰り返す。
【0056】
(3)辞書更新の流れ
辞書学習装置が、辞書管理部61に機械毎の辞書が管理されている状態で、実際に工場巡回を行いながら辞書を更新する流れを図5のフローチャートを使って説明する。
【0057】
まず、ステップS0101において、音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。
【0058】
次に、ステップS0102において、関連情報取得部21は、GPS及び加速度センサから関連情報を取得する。
【0059】
次に、ステップS0103において、学習制御部31は、音響特徴量と関連情報を取得すると、辞書管理部61で管理された機械毎の辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば現在敷地Aで停止している状況で、関連情報からその状況が分かっている場合を以下では考える。そして、学習制御部31は、辞書管理部61にある同じラベルが付与された機械1、機械2及び機械3に対応する辞書を、更新すべき辞書と判断して、ステップS0104に進む。なお、図5のフローチャートにおける枠で囲んだ部分が、学習制御部31の動作に対応している。
【0060】
次に、ステップS0104において、学習制御部31は、絞り込まれた3つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアは、類似度算出部41に問い合わせることにより取得する。類似度スコアの計算は、例えば辞書が混合正規分布によって構築されている場合には、以下に示す(5)式で算出できる。
【数5】
【0061】
ここで、機械1、機械2、機械3に対応する類似度スコアがそれぞれ、score1、score2、score3で、score1>score2、score3であったとする。
【0062】
次に、ステップS0105において、学習制御部31は、求めた類似度スコアに基づいて適応すべき辞書の有無について判断する。例えば類似度スコアの閾値をα、βと設定して、以下のように判断する方法が考えられる。
【0063】
score1≧α ・・・学習済と判断する、
α>score1≧β ・・・辞書1を適応する、
score1<β ・・・未知状況と判断する。
【0064】
すなわち、学習制御部31は、上述の判断基準に従い、score1が閾値αを超える場合には、辞書管理部61に管理された辞書が十分に学習されていて適応の必要がないと判断して処理を終える。
【0065】
また、学習制御部31は、score1が閾値β未満である場合には、機械1、機械2、機械3のどの音とも合致しない未知の状況であると判断して処理を終える。
【0066】
さらに、学習制御部31は、α>score1≧βである場合に、適応対象が見つかったと判断して、ステップS0106に進む。
【0067】
このように学習制御部31では、適応対象となる辞書の候補を絞り込んだ上で、類似度スコアに基づいて適応対象とすべき辞書を判断するように動作する。
【0068】
次に、ステップS0106において、辞書更新部51は、学習制御部31から入力された更新対象の辞書を、同じく学習制御部31から入力された音響特徴量を使って更新した上で、既存の辞書管理部61の辞書と置き換えるように動作する。辞書が上述したGMMである場合、EMアルゴリズムなどの既存のアルゴリズムを用いることで辞書を更新することができる。この操作により、機械1に対応する辞書は、従来よりも多くの音響信号から学習されることとなるため、シーンの識別性能が高くなる。
【0069】
(4)効果
このように本実施例によれば、シーン識別に用いる辞書を更新する場合に、更新対象とする辞書を関連情報から絞り込むように動作する。
【0070】
例えば、本実施例における、機械1と機械4が非常に似た音をする場合を考えると、関連情報による絞込みを行わない場合では、機械1から発生される音響信号を使って機械4の辞書を誤って適応する危険がある。しかし、本実施例では、このような誤適応を回避することができるため、シーンの識別性能を高めることができ、他のセンサでは識別が難しいシーンを、マイクを協働することで高精度に識別することができる。
【0071】
(第2の実施例)
本発明の第2の実施例の辞書学習装置について、図7〜図12に基づいて説明する。
【0072】
本実施例では、辞書管理部61に新しく辞書を追加するための辞書構築部71が追加されている。本実施例では、学習制御部32が辞書管理部61にある既存の辞書を更新するのか、新しく新規辞書を追加するのかを判断する点が、第1の実施例と異なっている。
【0073】
以下の説明では、第1の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【0074】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図7に基づいて説明する。図7は、本実施例の辞書学習装置の概略構成図である。
【0075】
図7に示すように辞書学習装置は、音響特徴抽出部11、関連情報取得部21、学習制御部32、類似度算出部41、辞書更新部51、辞書管理部62、辞書構築部71を有する。
【0076】
(1−1)学習制御部32
学習制御部32は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部61に管理される辞書の更新に用いるか否かを判断し、制御する。更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。
【0077】
また、本実施例では、学習制御部32は、更新すべき辞書がない場合に、新しく新規辞書を構築すべきか否かを判断する。学習制御部32は、新規辞書を構築すると判断した場合には、新規辞書を新しく構築するように辞書構築部71に通知をして、必要があれば得られた音響特徴量を辞書構築部71に通知する。
【0078】
更新の必要性を判断する方法、及び、新規辞書を追加すべきかの否かの判断方法の詳細については、後述する。
【0079】
(1−2)辞書構築部71
辞書構築部71は、学習制御部31から入力された音響特徴量を使って新規辞書を構築する。辞書構築部71は、新規辞書が上述したGMMである場合、例えばEMアルゴリズムによって新規辞書を構築できる。
【0080】
このように新しく構築した新規辞書は、学習に用いた音響特徴量と同期して得られた関連情報と関連付けて、辞書管理部62で追加管理される。
【0081】
このように本実施例では、未知の状況に遭遇した場合に、得られた音響特徴量から新しく新規辞書を学習するように動作するため、未知の状況に対してもシーンを識別することができる。
【0082】
(2)具体例
本実施例の辞書学習装置の動作を具体的に説明する。辞書学習装置は、加速度センサとGPSとマイクを備え、日常生活において利用者の置かれた状況を把握した上で、必要な情報を提供する情報提供装置に適用した場合を考える。図8に本実施例で行動する日常生活の状況を、図9に把握した状況に応じて表示される生活支援情報の情報提供装置の一例を示す。
【0083】
図8の模式図では、自宅から会社までの通勤経路を表示しており、複数の経路(同じ場所をバスで移動する場合と、車で移動する場合がある)や、異なる場所で類似の乗り物(バス)に乗るという状況を想定している。
【0084】
利用者が、加速度センサとGPSとマイクを備えた情報提供装置を持って通勤をする。この情報提供装置は、本実施例の辞書学習装置とシーン識別装置とを有している。そして、シーン識別装置がそのシーンを判断して、その状況にあった情報を情報提供装置の画面上に提供する場合を想定する。例えば、利用者が、図9に示すように、会社に近づくと当日のスケジュールを表示し、バスを待っているならばバスの接近情報を表示するなどである。
【0085】
上述の例では、会社に向かって移動していることは、既存のセンサ、すなわちGPSや加速度センサを使って把握できるが、同じ経路を通り、異なる乗り物(バス/車)を把握することは難しく、マイクとの協働が必要となる。
【0086】
(3)新規構築の流れ
次に、日常生活支援を行いながら、シーン識別のための辞書を更新し、必要に応じて新しく新規辞書を更新する際の、辞書学習装置の処理の流れを図11のフローチャートを使って説明する。処理の簡略化のため、辞書を管理する辞書管理部61は図10に示す状態になっている状態から説明を始める。
【0087】
まず、ステップS0201において、音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。この処理については、第1の実施例と同様のため説明を省略する。
【0088】
次に、ステップS0202において、関連情報取得部21は、GPS及び加速度センサから関連情報を取得する。この処理については、第1の実施例と同様のため説明を省略する。
【0089】
次に、ステップS0203において、学習制御部32は、音響特徴量と関連情報を取得すると、辞書管理部62で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Cから場所Dに移動中である」ことが分かっている場合、学習制御部32は、辞書管理部62にある同じラベルが付与された電車に対応する辞書CDを、更新する対象の辞書と判断して、ステップS0204に進む。なお、図11のフローチャートにおける枠で囲った部分は学習制御部32の動作に対応している。
【0090】
次に、ステップS0204において、学習制御部32は、絞り込まれた1つの辞書CDと入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアの算出方法は、第1の実施例と同様のため説明を省略する。ここで電車に対応する類似度スコアがscoreCD(>α)であったとする。
【0091】
次に、ステップS0205において、学習制御部32は、まず求めた類似度スコアに基づいて適応すべき辞書の有無、及び、新規辞書を構築する必要性の有無を判断する。例えば、類似度スコアの閾値をα、βと設定して以下のように判断する方法が考えられる。
【0092】
scoreCD≧α ・・・学習済と判断する、
α>scoreCD≧β ・・・辞書を適応する、
scoreCD<β ・・・未知状況と判断して、新規辞書を構築する。
【0093】
すなわち、学習制御部32は、scoreCDが閾値αよりも大きかった場合には、辞書管理部62に管理された辞書CDが十分に学習されていて適応の必要がないと判断して処理を終える。
【0094】
また、学習制御部32は、scoreCDが閾値β未満である場合には、既存の辞書CDと合致しない未知の状況であると判断して新規辞書を構築すると判断して、ステップS2107に進む。
【0095】
また、学習制御部32は、閾値α>scoreCD≧閾値βである場合に、適応対象が見つかったと判断して、ステップS2106に進む。この場合、scoreCDから電車の辞書CDが既に十分学習されていると判断されるため、処理を終える。
【0096】
ここで、例えば鉄道駅Bから会社Aまで時間がなかったため通常使うバスではなく、タクシーで移動した状況を考える。
【0097】
ステップS0203において、学習制御部32は、関連情報から現在「場所Bから場所Aに移動中である」ことが分かっており、学習制御部32は、辞書管理部62にある同じラベルが付与されたバスに対応する辞書BAを、更新する対象の辞書と判断して、ステップS0204に進む。
【0098】
ステップS0204において、学習制御部32は、絞り込まれた1つの辞書BAと入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアの算出方法は、第1の実施例と同様のため説明を省略する。ここで電車に対応する類似度スコアがscoreAB(<β)であったとする。上述の判断基準に従って判断すると、現在の状況は、既存の辞書BAとは異なる未知の状況であると判断できる。この場合は、ステップS0207へと進み、新規辞書の構築を行うように動作する。
【0099】
ステップS0207において、辞書構築部71は、学習制御部31から入力された音響特徴量を使って、新規辞書を構築して、辞書管理部62に辞書を追加するよう動作する。
【0100】
新規辞書が上述したGMMである場合、EMアルゴリズムなどの既存のアルゴリズムを用いれば新規辞書を構築でき、新しいシーンを識別することができる。
【0101】
(4)効果
このように本実施例では、未知の状況に遭遇した場合に、得られた音響特徴量に基づいて新しく辞書を学習するように動作するため、未知の状況に対してもシーンを識別することができる。
【0102】
(5)変更例
なお、上記実施例では、辞書構築部71が、未知の状況を検知した際に収録した音響信号だけから新規辞書を構築する。しかし、本実施例は、これに限定されるものではない。
【0103】
例えば、辞書構築部71が新規辞書を構築する場合には、種となる汎用辞書を予め準備しておき、未知の状況から取得された音響信号と類似度スコアの高い汎用辞書を初期辞書として採用することも可能である。
【0104】
具体的には、日常生活で起こりうる状況に(バス、電車、車、雑沓、構内など・・・)対応する汎用辞書を準備しておく。そして、辞書構築部71は、初期辞書としてこの種となる汎用辞書の中から選択するように動作する。このような汎用辞書は、実際の環境に完全に合致することはないが、少ない音響信号から構築するよりは高い精度の辞書となることや、種となる初期辞書に付与されるラベルを利用することができるといった利点がある。
【0105】
なお、種となる汎用辞書から初期辞書を選択する方法としては、適応する辞書を選択するステップS0204と同様に類似度スコアを算出し、類似度スコアが最大となる辞書を選択すればよい。
【0106】
(第3の実施例)
本発明の第3の実施例の辞書学習装置について、図13〜図16に基づいて説明する。
【0107】
本実施例では、辞書の学習や適応に用いることができる、すなわち、シーンを識別するために信頼できる区間を推定する信頼区間推定部81が追加されている。すなわち、本実施例は、学習制御部33が信頼区間推定部81の結果に基づいて、辞書を更新する場合に用いる音響特徴量の区間を絞り込む構成が、第1の実施例と異なっている。
【0108】
以下の説明では、第1の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【0109】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図13に基づいて説明する。図13は、本実施例の辞書学習装置の概略構成図である。
【0110】
図13に示すように、辞書学習装置は、音響特徴抽出部12、関連情報取得部21、学習制御部33、類似度算出部41、辞書更新部51、辞書管理部62、信頼区間推定部81を有する。
【0111】
(1−1)信頼区間推定部81
信頼区間推定部81は、音響特徴抽出部11から得られる音響特徴量に基づいて、音響信号の中から辞書の学習や適応に用いることができる信頼できる区間を推定して、信頼できる区間を学習制御部33に通知する。信頼できる区間の推定方法の詳細は、後述する。
【0112】
(1−2)学習制御部33
学習制御部33は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部62に管理される辞書の更新に用いるか否かを判断し、制御する。学習制御部33は、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。この際に本実施例では、信頼区間推定部81から得られる信頼区間の情報に基づいて、全ての音響特徴量を辞書更新部51に通知するのではなく、信頼できる区間のみを通知する点が、第1の実施例とは異なる。
【0113】
このように本実施例では、辞書を更新する場合に全ての音響信号を更新に用いるのではなく、性能向上に寄与する学習区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【0114】
(2)具体例
辞書学習装置の動作を、具体的に説明する。すなわち、辞書学習装置が、加速度センサとGPSとマイクを備え、日常生活において利用者の置かれた状況を把握した上で、必要な情報を提供する情報提供装置に適用した場合を考える。
【0115】
想定する状況は、第2の実施例と同様に、利用者が、加速度センサとGPSとマイクを備えた情報提供装置を持って通勤をすると、場所や状況をシーン識別装置が判断して、その状況にあった情報を情報提供装置の画面上に提供してくれると場合を想定する。
【0116】
ここで、「場所Aから場所Bに(バスで)移動している」場合に、図15に示すような音響信号が得られる例を考える。図15に示すように、同じバスに乗って移動している場合でも、信号などでバスが停止する場合や、アナウンス音や扉の開閉音といったバスの走行音とは異なる音響信号が混合する状況が考えられる。
【0117】
このような混合音が含まれる全ての音響信号を対象に、シーンの識別や辞書の更新を行えば、誤った識別や適応を行う危険性が高い。そこで本実施例では、このような状況でも、頑健に辞書を構築できるように信頼区間推定を行う。
【0118】
(3)全体の流れ
辞書学習装置の処理の流れを図14のフローチャートを使って説明する。辞書学習装置は、日常生活支援を行いながら、性能向上に寄与すると推定される信頼できる区間を推定して、該当する区間に含まれる音響信号のみを使って辞書を更新する。
【0119】
また、説明の簡略化のため、辞書を管理する辞書管理部62は図12に示す状態になっている状態から説明を始める。
【0120】
まず、ステップS0301において、音響特徴抽出部12は、入力される音響信号から音響特徴量を抽出する。この処理については、第1の実施例と同様のため説明を省略する。
【0121】
次に、ステップS0302において、関連情報取得部21は、GPS及び加速度センサから関連情報を取得する。この処理については、第1の実施例と同様のため説明を省略する。
【0122】
次に、ステップS0303において、信頼区間推定部81は、複数フレームの音響特徴量を比較して音響特徴量の変化量を求め、音響特徴量の変化の少ない区間を信頼できる区間として推定する。図16は、音響特徴量の変化量に基づいて、信頼区間を推定するアルゴリズムの概略を示す。図16に示すように、フレーム単位で抽出した音響特徴量を、複数フレーム間で比較することで音響変化量を算出する。変化量の算出方法としては、例えば、特徴ベクトルの差分の絶対値であるノルムを用いることができる。この変化量に対して、変化が大きくて信頼できないと判断する閾値を設定することで、閾値を越えない音響特徴量の区間が信頼できる区間と判断できる。
【0123】
そして、学習制御部33は、音響特徴量と関連情報及び信頼区間の情報を取得すると、現在処理を行う音響特徴量が信頼区間から生成されたものであるかの判断を行う。信頼区間に含まれていなければ適応処理は行わない。例えば、バスの停止区間で扉の開閉音が混入された区間は、音響変化量の小さな区間が短く信頼できないと判断されるため、適応の必要性を判断することなく処理が終わる。信頼区間推定部81によって信頼できる区間と判断された場合には、ステップS0304に進む。なお、図14のフローチャートにおいて枠で囲まれた部分は学習制御部33の動作に対応している。
【0124】
次に、ステップS0304において、学習制御部33は、辞書管理部62で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Bから場所Aに移動中である」ことが分かっている場合、学習制御部33は、辞書管理部62にある同じラベルが付与されたバス及び車に対応する辞書を、更新する対象の辞書と判断して、ステップS0305に進む。
【0125】
次に、ステップS0305において、学習制御部33は、絞り込まれた2つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。
【0126】
次に、ステップS0306において、学習制御部33は、さらに求めた類似度スコアに基づき、適応すべき辞書の有無を判定する。類似度スコアの算出方法及び適応の必要性の判断方法は第1の実施例と同様のため省略するが、適応の必要がある場合には、ステップS0307にて辞書の適応を行うよう動作する。
【0127】
(4)効果
本実施例によれは、マイクから取得する音響信号のうち、学習に適した信頼できる区間とそうでない区間とを判断して、信頼できる区間のみを学習に用いるように制御している。
【0128】
したがって、本実施例によれば、性能向上に寄与する学習区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【0129】
(5)変更例
上記実施例では。最も単純な信頼区間の推定方法を説明した。しかし、これに限らず、2つの特徴ベクトルのノルムではなく、例えば複数の特徴ベクトル群同士のノルムの累積値を音響変化量とすることや、信頼できる区間が一定時間以下の場合は除去するなど、音響信号から信頼できる区間を推定する方法としては、様々な変形が考えられる。
【0130】
また、入力される音響特徴量の比較だけではなく、事前に信頼できない音響信号の特徴を学習して辞書(以下、不適用辞書という)として保持しておき、不適用辞書との類似度スコアが高い場合は信頼区間としないといった変形も考えられる。例えば、日常生活の中には周辺にいる人の声が環境音に混入されることが頻発するため、人の声から学習した音声辞書を準備しておき、音声辞書との類似度スコアが閾値以上の区間には、人の声が混入されていると判断して、辞書構築には用いない方法が考えられる。
【0131】
(第4の実施例)
本発明の第4の実施例の辞書学習装置について、図17〜図18に基づいて説明する。
【0132】
本実施例では、辞書の学習や適応に用いることができる信頼できる区間を推定する信頼区間推定部82が追加されている。本実施例では、学習制御部33が信頼区間推定部82の結果に基づいて、辞書を更新する場合に用いる音響特徴量の区間を絞り込む構成が、第1の実施例と異なっている。
【0133】
以下の説明では、第1の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【0134】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図17に基づいて説明する。図17は、本実施例の辞書学習装置の概略構成図である。
【0135】
図17に示すように、辞書学習装置は、音響特徴抽出部11、関連情報取得部22、学習制御部33、類似度算出部41、辞書更新部51、辞書管理部62、信頼区間推定部82を有している。
【0136】
(1−1)信頼区間推定部82
信頼区間推定部82は、関連情報取得部21から得られる関連情報に基づいて、音響信号の中から辞書の学習や適応に用いることができる信頼できる区間を推定して、信頼できる区間を学習制御部33に通知する。信頼できる区間の推定方法の詳細は、後述する。
【0137】
(1−2)学習制御部33
学習制御部33は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部62に管理される辞書の更新に用いるか否かを判断する。学習制御部33は、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。この際に本実施例では、信頼区間推定部82から得られる信頼区間の情報に基づいて、全ての音響特徴量を辞書更新部51に通知するのではなく、信頼できる区間のみを通知する構成が、第1の実施例とは異なる。
【0138】
このように本実施例では、辞書を更新する場合に全ての音響信号を更新に用いるのではなく、性能向上に寄与する学習区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【0139】
(2)具体例
本実施例の辞書学習装置の動作を、具体的に説明する。
【0140】
辞書学習装置は、加速度センサとGPSとマイクを備え、日常生活において利用者の置かれた状況を把握した上で、必要な情報を提供する情報提供装置に適用した場合を考える。
【0141】
想定する状況は、第2の実施例と同様に、利用者が、加速度センサとGPSとマイクを備えた情報提供装置を持って通勤をすると、場所や状況をシーン識別装置が判断して、その状況にあった情報を情報提供装置の画面上に提供してくれる場合を想定する。
【0142】
ここで、「場所Aから場所Bに(バスで)移動している」場合に、図15に示すような音響信号が得られる例を考える。
【0143】
図15に示すように、同じバスに乗って移動している場合でも、信号などでバスが停止する場合や、アナウンス音や扉の開閉音といったバスの走行音とは異なる音響信号が混合する状況が考えられる。このような異なる音響信号の混入は、移動状況などに連動して発生することもある。例えば、乗り物の種類を音響信号から判断する場合には、静止している状態よりも安定的に移動している状態で収録した音響信号が有用である。このことを踏まえ、本実施例では関連情報の変化に基づいて信頼区間を推定する。
【0144】
(3)全体の流れ
辞書学習装置の処理の流れを図18のフローチャートを使って説明する。
【0145】
辞書学習装置は、日常生活支援を行いながら、性能向上に寄与すると推定される信頼できる区間を推定して、該当する区間に含まれる音響信号のみを使って辞書を更新する。また、説明の簡略化のため、辞書を管理する辞書管理部62は図12に示す状態になっている状態から説明を始める。
【0146】
まず、ステップS0401において、音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。この処理については、第1の実施例と同様のため説明を省略する。
【0147】
次に、ステップS0402において、関連情報取得部22は、GPS及び加速度センサから関連情報を取得する。この処理については、第1の実施例と同様のため説明を省略する。
【0148】
次に、ステップS0403において、信頼区間推定部82は、関連情報に基づいて信頼区間の推定を行う。図18の例で考えると、例えば同じ移動状態が一定時間以上継続した区間を信頼区間とすることで、継続時間の短いバスの停止時間などは信頼区間とならず、移動時間のみを学習制御部31で処理することができる。信頼区間推定部82によって信頼できる区間と判断された場合には、ステップS0404に進む。
【0149】
次に、ステップS0404において、学習制御部33は、辞書管理部62で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Bから場所Aに移動中である」ことが分かっている場合、学習制御部33は、辞書管理部62にある同じラベルが付与されたバス及び車に対応する辞書を、更新する対象の辞書と判断して、ステップS0405に進む。
【0150】
次に、ステップS0405において、学習制御部33は、絞り込まれた2つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。
【0151】
次に、ステップS0406において、学習制御部33は、さらに求めた類似度スコアに基づき、適応すべき辞書の有無を判定する。類似度スコアの算出方法及び適応の必要性の判断方法は第1の実施例と同様のため省略する。
【0152】
次に、ステップS0407において、辞書更新部51は、適応した辞書を更新する。
【0153】
(4)効果
本実施例によれは、マイクから取得する音響信号のうち、学習に適した信頼できる区間とそうでない区間とを判断して、信頼できる区間のみを学習に用いる。
【0154】
したがって、本実施例によれは、性能向上に寄与する信頼区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【0155】
(第5の実施例)
本発明の第5の実施例の辞書学習装置について、図2〜図4、図19、図20に基づいて説明する。
【0156】
本実施例では、未知の状態を検知した際に、異常状態として通知する異常通知部91が追加されている。本実施例では、学習制御部34が、辞書管理部62にある既存の辞書を更新するのか、異常状態と判断する構成が、第1の実施例とは異なっている。
【0157】
以下の説明では、第1の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【0158】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図19に基づいて説明する。図19は、本実施例の辞書学習装置の概略構成図である。
【0159】
図19に示すように、辞書学習装置は、音響特徴抽出部11、関連情報取得部21、学習制御部34、類似度算出部41、辞書更新部51、辞書管理部62、異常通知部91を有している。
【0160】
(1−1)学習制御部34
学習制御部34は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部62に管理される辞書の更新に用いるか否かを判断して、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。
【0161】
また、本実施例では、学習制御部34は、更新すべき辞書がない場合に、未知の状態であるか否かを判断する。未知の状態であると判断した場合には、異常状態であることを異常通知部91に通知をする。更新の必要性を判断する方法、及び、異常状態の判断方法の詳細については、後述する。
【0162】
(1−2)異常状態通知部91
異常状態通知部91は、学習制御部31の判断結果を元に現在が異常状態であることを通知する。通知の方法としては、例えば情報提供装置の画面に警告として表示する方法や、警告音を鳴らすなど様々な方法が考えられる。
【0163】
このように本実施例によれば、未知の状況に遭遇した場合に、利用者に対して未知の状態であることを通知するよう動作するため、利用者が異常状態を把握しやすくなる。
【0164】
(2)具体例
辞書学習装置の動作を、第1の実施例を参考にして説明する。
【0165】
すなわち、この具体例においても、情報提供装置は、本実施例の辞書学習装置とシーン識別装置とを有している。シーン識別装置は、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。
【0166】
警備員が、この敷地内を加速度センサとGPSとマイクを備えた情報提供装置を持って敷地内を移動すると、シーン識別装置の識別部が、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。そして、その識別したシーンに対応して、警備員がパトロールしている場所の目の前にある機械に関して、警備員が確認すべき情報を情報提供装置の提供部が提供する。
【0167】
(3)異常検知の流れ
辞書学習装置の処理の流れを図20のフローチャートを使って説明する。
【0168】
辞書学習装置は、工場巡回を行いながら、シーン識別のための辞書を更新し、未知の状態に遭遇した場合には異常通知を行う。なお、図4に示すように辞書管理部62には、巡回対象となる機械毎に辞書が準備されており、この辞書が関連情報から取得できる場所及び移動状況毎分類して保持されている。
【0169】
まず、ステップS0501において、音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。この処理については、第1の実施例と同様のため説明を省略する。
【0170】
次に、ステップS0502において、関連情報取得部21は、GPS及び加速度センサから関連情報を取得する。この処理については、第1の実施例と同様のため説明を省略する。
【0171】
次に、ステップS0503において、学習制御部34は、音響特徴量と関連情報を取得すると、辞書管理部62で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Aで静止している」ことが分かっている場合、学習制御部34は、辞書管理部62にある同じラベルが付与された機械1、機械2、機械3に対応する辞書を、更新する対象の辞書と判断して、ステップS0504に進む。図20のフローチャートにおける枠で囲まれた部分は学習制御部34の動作に対応している。
【0172】
次に、ステップS0504において、学習制御部34は、絞り込まれた3つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアの算出方法は、第1の実施例と同様のため説明を省略する。ここで最も大きな値を持った機械1の類似度スコアがscore1(<β)であったとする。
【0173】
次に、ステップS0505において、学習制御部34は、まず求めた類似度スコアに基づいて適応すべき辞書の有無、及び、異常の有無を判断する。例えば類似度スコアの閾値をα、βと設定して以下のように判断する方法が考えられる。
【0174】
score1≧α ・・・学習済と判断する、
α>score1≧β ・・・辞書を適応する、
score1<β ・・・未知状況と判断(異常状態)する。
【0175】
すなわち、学習制御部34は、score1が閾値αよりも大きかった場合には、辞書管理部62に管理された辞書が十分に学習されていて適応の必要がないと判断して処理を終える。
【0176】
また、学習制御部34は、score1が、閾値β未満である場合には、既存の辞書1と合致しない未知の状況であると判断して、ステップS5107に進む。
【0177】
さらに、学習制御部34は、閾値α>score1≧閾値βである場合に、適応対象が見つかったと判断して、ステップS5106に進む。
【0178】
次に、ステップS0206において、辞書更新部51は、適応した辞書を更新する。
【0179】
次に、ステップS0207において、現在の状況は、既存の辞書とは異なる未知の状況であると判断できるので、異常状態通知部91は、異常状態を通知する。
【0180】
(4)効果
このように本実施例によれは、利用者に対して未知の状態であることを通知するよう動作するため、利用者が異常状態を把握しやすくなる。
【0181】
(変更例)
本発明は上記各実施例に限らず、その主旨を逸脱しない限り種々に変更することができる。
【0182】
例えば、上記各実施例では、効率的に関連情報を生成するために、GPSと加速度センサを連動させて取得する例を示した。しかし、関連情報取得部21は、これに限定されるものではなく、複数のセンサを並列に動作させても構わない。
【0183】
また、GPSと加速度センサ以外に、時計、照度計、静電センサ、温度センサ、湿度センサから関連情報を取得してもよい。
【図面の簡単な説明】
【0184】
【図1】本発明の第1の実施例の辞書学習装置の概略構成例を表す図である。
【図2】第1の実施例の工場巡回支援アプリケーションでの巡回場所の一例を表す図である。
【図3】第1の実施例の工場巡回支援アプリケーションで提供される情報の一例を示す図である。
【図4】第1の実施例の辞書管理部が管理する辞書の一例を表す図である。
【図5】第1の実施例の辞書学習の流れを示すフローチャートである。
【図6】第1の実施例の関連情報取得部の動作を示すフローチャートである。
【図7】第2の実施例の辞書学習装置の概略構成例を表す図である。
【図8】第2の実施例の日常生活支援アプリケーションで把握したい状況の一例を表す図である。
【図9】第2の実施例の日常生活支援アプリケーションで提供される情報の一例を示す図である。
【図10】第2の実施例の辞書管理部が管理する更新前の辞書の一例を表す図である。
【図11】第2の実施例の辞書学習の流れを示すフローチャートである。
【図12】第2の実施例の辞書管理部が管理する、更新後の辞書の一例を表す図である。
【図13】第3の実施例の辞書学習装置の概略構成例を表す図である。
【図14】第3の実施例の辞書学習の流れを示すフローチャートである。
【図15】第3の実施例の信頼推定が必要な音響信号の一例を示す図である。
【図16】第3の実施例の信頼区間推定部のアルゴリズムの概要を示した図である。
【図17】第4の実施例の辞書学習装置の概略構成例を表す図である。
【図18】第4の実施例の辞書学習の流れを示すフローチャートである。
【図19】第5の実施例の辞書学習装置の概略構成例を表す図である。
【図20】第5の実施例の辞書学習の流れを示すフローチャートである。
【符号の説明】
【0185】
11・・・音響特徴抽出部
21・・・関連情報取得部
31・・・学習制御部
41・・・類似度算出部
51・・・辞書更新部
61・・・辞書管理部
【技術分野】
【0001】
本発明は、シーンの識別に用いる辞書を適応的に学習する辞書学習装置及びその方法に関する。
【背景技術】
【0002】
近年の各種センサ技術及び半導体技術の進展により、様々なセンサが搭載された小型機器が普及している。例えば、最近の携帯電話にはGPS(Global Positioning System)が搭載されており、携帯電話を保持する利用者の位置を把握できる。この位置情報を活用した目的地までの道順を案内するサービスが実現されている。また、加速度センサが搭載された機器では、停止している/走っている/乗り物に乗っているといった利用者の移動状況を把握することができる。例えば、音楽プレーヤに加速度センサが搭載することで、走っている場合には楽曲を再生するが、乗り物に乗っている場合には音量を小さくするといった制御が可能である。
【0003】
このように利用者の状況が把握できれば、状況にあった情報提供や機能の切り替えが可能となるが、単独のセンサだけで利用者の状況を幅広く把握するのには限界がある。例えば、GPSを使うことで位置が把握できるが、GPSは郊外に比べて屋内の精度は低下することが知られており、屋内の位置によって機能やサービスを切り替えるアプリケーションには適用できない。また、加速度センサを使うことで、乗り物にのっている状態を把握することは可能であるが、バスや電車といった乗り物の種類を把握するのは容易ではない。
【0004】
これらの問題点に対しては、屋内の位置が把握できるようRFID(Radio Frequency IDentification)などのタグを設置するといった解決策や、位置をキーに詳細な状況を把握するための情報を整備して検索するといった解決策が考えられる。これらはインフラの整備による解決であるが、インフラ整備にかけるコストと提供される機能とのバランスが悪いと、現実的な解とはならない。
【0005】
一方、インフラの整備ではなく複数のセンサを協働させることで把握できる状況の幅を広げるアプローチもある。例えば、上述したバスと電車といった乗り物を例に考えるとバスと電車では発せられる走行音が異なっており、マイクから音響信号を取得することで、加速度だけでは把握が難しい状況を識別できる。特許文献1や非特許文献1では、バスや電車を含む複数の状況で収集した音声データから識別のための辞書を学習し、辞書との照合によって、最も類似度の高い辞書から状況を把握する方法が公開されている。このように、加速度とマイクを協調させることで、単独のセンサでは難しい「バスに乗って移動している」といった状況を把握することができる。
【0006】
また、工場内に設置された複数の機械が正常に動作しているかを点検する工場巡回を支援する端末がある。この端末について、ユーザの目の前にある機械毎に確認すべき項目を切り替えて提供する機能をもったアプリケーションを想定すると、GPSでは屋内の細かな位置は把握できないが、マイクを使うことで駆動音の異なる機械の違いを把握することができる。
【0007】
このように状況把握のために従来使われていたセンサとマイクを協調させることで、把握できる状況は広がる。加えてマイクは、携帯電話など多くの小型機器に搭載されておりインフラ整備などと比較すると導入コストが低いため、有効な手段と考えることができる。
【0008】
しかしながら、特許文献1や非特許文献1の方法では、シーンを適切に判断するために参照する辞書を、大量の音響信号から学習する必要があるという問題点がある。例えば、高精度にシーンを識別するためには、少なくとも数十分から数時間の学習データを集める必要がある。また、マイクを連続稼働させると、バスと電車の例のように、識別が容易な単独の音源から混入された音響信号だけでなく、複数の音源が混在している場合や、機器自体を移動させることによる雑音などが入力されるために、音響信号だけでは十分にシーンを識別できない場合があるという問題点がある。
【0009】
大量の学習データが準備できずに十分な性能が出ない辞書を強化する方法として、シーン識別の際に入力されたデータを使って辞書を更新するオンライン適応が考えられる。例えば、音声による話者照合では、声質の経年変化や環境の変化に対応する方法としてオンライン適応の方法がとられる(特許文献2参照)。しかしこれらの方法では、話者毎に準備された照合のための辞書群のうち、どの辞書に対して更新を行うかは、IDなどの話者を指定するための情報から判断することが前提となっている。IDの入力は、更新したい状況が何であるか、対応する辞書を利用者に指定することに相当するため、利用者に手間を強いるという問題点があった。全ての辞書から適応すべき辞書を選定すれば、利用者への手間を強いることはなくなるが、辞書選定に失敗すると誤った適応をするという問題点がある。特に上記の例にあげた乗り物の種類の違いや機械の種類の違いを判断する状況を考えると、異なる場所で類似する環境音がなっていて、初期段階では類似する辞書が構築される可能性は高く、結果として誤った適応が頻発するという問題点がある。
【特許文献1】特開2002−323371公報
【特許文献2】特許第3849841号公報
【非特許文献1】Peltonen,V. et.al 「Computational auditory scene recognition」 ICASSP2002
【発明の開示】
【発明が解決しようとする課題】
【0010】
このように従来は、他のセンサだけでは把握できないシーンを、音響情報を分析することで得られる情報を使って補完しようとしても、シーンを識別するために必要となる辞書が環境に合わずに十分な識別性能が出ないという問題があった。さらに環境に合わない辞書を適応する場合に、対象となる辞書を指定しなければ、類似するシーンに対応する辞書を誤って更新してしまうという問題点がある。
【0011】
また、音響情報のみを使ってシーンを識別する、又は、辞書を適応する場合には、識別や適応には適さない信頼性の低い音響信号が混在することので、十分な性能が出ないという問題点がある。
【0012】
そこで本発明は、上記問題点に鑑みてなされたもので、シーンを精度よく識別するための辞書を更新できる辞書学習装置及びその方法を提供することにある。
【課題を解決するための手段】
【0013】
本発明は、音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出部と、前記音響信号以外の情報を関連情報として取得する関連情報取得部と、前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理部と、前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出部と、前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御部と、前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新部と、を備えたことを特徴とする辞書学習装置である。
【発明の効果】
【0014】
本発明によれば、シーンの識別精度を高めるための辞書に更新することができる。
【発明を実施するための最良の形態】
【0015】
本発明の一実施例の辞書学習装置について、図面に基づいて説明する。
【0016】
(第1の実施例)
本発明の第1の実施例の辞書学習装置について、図1〜図6に基づいて説明する。
【0017】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図1に基づいて説明する。図1は、本実施例の辞書学習装置の概略構成図である。
【0018】
図1に示すように、辞書学習装置は、音響特徴抽出部11、関連情報取得部21、学習制御部31、類似度算出部41、辞書更新部51、辞書管理部61を有している。
【0019】
なお、この辞書学習装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音響特徴抽出部11、関連情報取得部21、学習制御部31、類似度算出部41、辞書更新部51、辞書管理部61は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、辞書学習装置は、上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
【0020】
(1−1)音響特徴抽出部11
音響特徴抽出部11は、入力される音響信号を分析して、シーン識別のために音響信号からシーンの違いを強調する音響特徴量を抽出して、抽出した音響特徴量を学習制御部31に出力する。シーン識別のために音響信号から音響特徴量を抽出する方法の詳細については後述する。
【0021】
なお、「シーン」とは、場所又は状況を意味する。状況とは例えば時間、場所、周辺環境の変化に伴う変化等である。また、分析対象となる音響信号の入力方法に特に制約はなく、例えばマイク、アンプ及びADコンバーターなどを備えた音声入力部からリアリタイムに取得できる構成にしてもよい。また、デジタル信号として記憶装置に格納された音響信号を読み込むことで取得できる構成にしてもよい。
【0022】
(1−2)関連情報取得部21
関連情報取得部21は、加速度センサやGPSなどの音響信号以外のセンサの情報を取得して、取得した関連情報を学習制御部31に出力する。
【0023】
出力する関連情報は、センサから得られた生データ系列を分析して取得する音響特徴量や音響特徴量から推定したシーン推定結果でもよい。
【0024】
例えば、3軸の加速度を取得できる加速度センサであると、動作周期毎に得られるXYZ軸の加速度データを分析すれば、絶対移動量(G値)などの音響特徴量が抽出できる。また、動作周期毎に得られるXYZ軸の加速度データや絶対移動量から、静止、歩く、走るといった状況を把握することも可能である。
【0025】
よって上述の音響特徴量や判定結果を関連情報として出力することも可能である。関連情報取得部21の詳細については後述する。
【0026】
(1−3)辞書管理部61
辞書管理部61は、音響特徴量からシーンを識別するために照合する複数の判定用辞書(以下、単に「辞書」という)を、上述した関連情報と関連付けて管理する。
【0027】
辞書としては、識別したいシーンで観測される音響信号の出現パターンを統計的に表現した混合正規分布(Gaussian Mixture Model、GMM)などが一例として考えられる。識別したいシーンに対応する複数の辞書を、関連情報取得部21から得られる関連情報毎に分類して管理する。詳細については後述する。
【0028】
(1−4)類似度算出部41
類似度算出部41は、音響特徴量と事前に準備した辞書とを照合して、類似度を表す「類似度スコア」を算出する。辞書が上述したGMMである場合、音響信号の出現パタンを表現するためにGMMが保有する、音響特徴量の平均ベクトル、分散ベクトル、さらには複数のベクトルの重みなどの音響信号パラメータを用いることで、下記の(1)式で計算できる尤度を類似度スコアとすることができる。類似度算出部41は、尤度を事後確率化したものを前記類似度として算出する。類似度スコアの詳細については後述する。
【数1】
【0029】
(1−5)学習制御部31
学習制御部31は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部61に管理される辞書の更新に用いるか否かを判断し、制御する。学習制御部31は、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。
【0030】
学習制御部31は、更新の必要性を判断するため、関連情報取得部21から得られた関連情報に基づいて、辞書管理部61にある辞書のうち候補となる辞書を絞り込む。絞り込まれた辞書に対する音響特徴量との類似度は、類似度算出部41に問い合わせて取得する。取得した類似度を比較することで、更新対象となる辞書の有無を判断し、対象となる辞書が見つかった場合は、辞書を学習するよう辞書更新部51を制御する。更新の必要性を判断する方法の詳細については、後述する。
【0031】
(1−6)辞書更新部51
辞書更新部51は、学習制御部31から入力された更新対象の辞書を、同じく学習制御部31から入力された音響特徴量を使って更新する。より具体的には類似度を求めるために音響特徴量との照合に用いる音響信号を更新する。辞書が上述したGMMである場合、例えばEMアルゴリズムによって音響信号パラメータである平均ベクトルや分散ベクトル、さらには重みベクトルを変更することで、辞書を更新できる。
【0032】
(1−7)効果
このように本実施例では、シーン識別に用いる辞書を更新する場合に、更新対象とする辞書を関連情報から絞り込むように動作する。これにより本来別の状況に存在する類似の音響信号を発するシーンの辞書を誤って更新することがなくなり、シーンの識別性能を高めることができる。
【0033】
(2)具体例
次に、本実施例の辞書学習装置の動作を情報提供装置に適用した具体例を説明する。辞書学習装置は、加速度センサとGPSとマイクを備え、工場の敷地をパトロールする警備員を支援して巡回場所毎にシーンを識別して、識別したシーン(巡回場所)毎に確認すべき内容を提供する情報提供装置に適用した場合を考える。
【0034】
すなわち、情報提供装置は、本実施例の辞書学習装置とシーン識別装置とを有している。シーン識別装置は、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。そして、情報提供装置は、この識別したシーンに基づいて情報を提供する。図2に、本実施例で警備員がこの情報提供装置を持って巡回する工場の敷地の模式図を示す。図3は、情報提供装置の正面図と、シーンの識別結果に応じて表示される情報の一例を示す。
【0035】
図2の模式図では、GPSで正確な位置の把握が難しい工場の敷地内において、複数の機械が設置されている。警備員が、この敷地内を加速度センサとGPSとマイクを備えた情報提供装置を持って敷地内を移動すると、シーン識別装置の識別部が、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。そして、その識別したシーンに対応して、警備員がパトロールしている場所の目の前にある機械に関して、警備員が確認すべき情報を情報提供装置の提供部が提供する。確認する内容としては、図3に示すように、敷地Aの機械3の前では、例えば、動作の確認、油漏れの確認である。
【0036】
(2−1)辞書管理部61
辞書管理部61の具体例について説明する。
【0037】
本実施例における工場パトロールでは、本番前に警備員が、工場を事前巡回して、現場の音を収録するといった機械の調整が可能である。警備員の長時間の事前巡回は現実的ではないため、高い性能の辞書を構築することは難しい。しかし、辞書学習装置が、種となる辞書を場所や状況といった関連情報とリンクして保持することは可能である。
【0038】
そこで、機械毎の辞書が、事前巡回によって場所及び加速度から得られる移動情報を関連付けられている。但し、機械毎の辞書は、高い精度は示さないが構築されていて準備されている。
【0039】
図4に事前巡回の段階で構築した辞書の具体例を示す。図4に示すように、辞書は巡回対象となる機械毎に準備されており、関連情報から取得できる場所及び移動状況毎に分類して保持されている。
【0040】
(2−2)音響特徴抽出部11の説明
音響特徴抽出部11の具体例について説明する。
【0041】
音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。音響信号から状況を判断するための音響特徴量としては、(1)パワー変動、又は、(2)零交差数変動を用いる場合を考える。
【0042】
「パワー変動」とは、エネルギーの短期的な変動に着目した音響特徴量で、下記に示す(2)式のLSTERbとして求めることができる。
【数2】
【0043】
(2)式が示すように、音響信号x(t)を、ハミング窓w(t)と呼ばれる窓関数によって一定時間長Nによって切り出してから、フレーム単位のエネルギーSTEを算出する。このエネルギーSTEをB個のフレームで平均した平均エネルギーAveSTEと比較して、0.5倍よりも小さなエネルギーの値を持つフレームが含まれる割合として算出することができる。
【0044】
また、「零交差変動」とは、零交差数の短期的な変動に着目した音響特徴量で、下記に示す(3)式のHZCRRbとして求めることができる。
【数3】
【0045】
(3)式が示すように、音響信号x(t)を一定時間長Nによって切り出してから、フレーム中で信号の符号が変化する割合を零交差率ZCRとして算出する。この零交差率をB個のフレームで平均した平均零交差変化率AveZCRと比較して、1.5倍よりも大きな値を持つフレームが含まれる割合として算出できる。
【0046】
なお、上述した2つの音響特徴量は、シーンを識別するために用いられる音響特徴量の一例であり、他の公知の音響特徴量を用いても構わない。
【0047】
(2−3)関連情報取得部21の説明
関連情報取得部21の具体例について図6に基づいて説明する。図6は、関連情報取得部21の詳細な動作を説明するフローチャートを示す。
【0048】
関連情報取得部21では、GPS及び加速度センサから位置及び移動状況を把握して、関連情報として出力する。
【0049】
まず、ステップS2101において、関連情報取得部21は、3軸の加速度データが取得できる加速度センサから、X軸、Y軸、Z軸の加速度値(Gx,Gy,Gz)を取得する。加速度データはセンサの動作周期毎に取得でき、例えば10ms毎に加速度のデータが取得できる。
【0050】
次に、ステップS2102において、関連情報取得部21は、動作周期毎に取得した加速度値(Gx,Gy,Gz)から加速度に関連する音響特徴量を取得する。音響特徴量としては、例えば下記の(4)式で表現されるG値や各軸の移動量などを計算する。
【数4】
【0051】
次に、ステップS2103において、関連情報取得部21は、各軸の移動量やG値の音響特徴量から移動状況を判定する。本実施例では、移動しているか静止しているかの2状況を判断する例を考える。ここでは各軸の移動量やG値に閾値を設定して、閾値との比較により、静止しているのか、移動しているのかという移動状況を判断する。なお、静止か移動かの2つの状況だけでなく、「歩行」「ジョギング」「走行」「乗り物」など多様な状況を考える場合には、単純な閾値処理ではなく、状況に対応する統計的な辞書を準備して、辞書との照合によりスコアの高い状況を判定結果とすればよい。この場合には、上述したGMMやHMMなどの統計的なモデルを辞書として用いることができる。
【0052】
次に、ステップS2104において、関連情報取得部21は、推定した移動状況が変化するか、又は、一定量移動すると、GPSを使って位置情報を取得するためにステップS2105に進む。一方。変化が無ければステップS2101に戻る。
【0053】
次に、ステップS2105において、関連情報取得部21は、取得する位置情報を敷地といった意味のある粒度にクラスタリングすることで、敷地Aや敷地Cなどの位置情報に変換される。なお、本実施例のように、屋内などGPSが届かない場所では、以前と同じ状況にいると判断して、直前の状況から位置情報を補完すればよい。
【0054】
次に、ステップS2106において、関連情報取得部21は、ステップS2103で判定した移動状況と位置情報を関連情報として学習制御部31に出力する。
【0055】
そして、全てのデータを処理するまで、同じ処理を繰り返す。
【0056】
(3)辞書更新の流れ
辞書学習装置が、辞書管理部61に機械毎の辞書が管理されている状態で、実際に工場巡回を行いながら辞書を更新する流れを図5のフローチャートを使って説明する。
【0057】
まず、ステップS0101において、音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。
【0058】
次に、ステップS0102において、関連情報取得部21は、GPS及び加速度センサから関連情報を取得する。
【0059】
次に、ステップS0103において、学習制御部31は、音響特徴量と関連情報を取得すると、辞書管理部61で管理された機械毎の辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば現在敷地Aで停止している状況で、関連情報からその状況が分かっている場合を以下では考える。そして、学習制御部31は、辞書管理部61にある同じラベルが付与された機械1、機械2及び機械3に対応する辞書を、更新すべき辞書と判断して、ステップS0104に進む。なお、図5のフローチャートにおける枠で囲んだ部分が、学習制御部31の動作に対応している。
【0060】
次に、ステップS0104において、学習制御部31は、絞り込まれた3つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアは、類似度算出部41に問い合わせることにより取得する。類似度スコアの計算は、例えば辞書が混合正規分布によって構築されている場合には、以下に示す(5)式で算出できる。
【数5】
【0061】
ここで、機械1、機械2、機械3に対応する類似度スコアがそれぞれ、score1、score2、score3で、score1>score2、score3であったとする。
【0062】
次に、ステップS0105において、学習制御部31は、求めた類似度スコアに基づいて適応すべき辞書の有無について判断する。例えば類似度スコアの閾値をα、βと設定して、以下のように判断する方法が考えられる。
【0063】
score1≧α ・・・学習済と判断する、
α>score1≧β ・・・辞書1を適応する、
score1<β ・・・未知状況と判断する。
【0064】
すなわち、学習制御部31は、上述の判断基準に従い、score1が閾値αを超える場合には、辞書管理部61に管理された辞書が十分に学習されていて適応の必要がないと判断して処理を終える。
【0065】
また、学習制御部31は、score1が閾値β未満である場合には、機械1、機械2、機械3のどの音とも合致しない未知の状況であると判断して処理を終える。
【0066】
さらに、学習制御部31は、α>score1≧βである場合に、適応対象が見つかったと判断して、ステップS0106に進む。
【0067】
このように学習制御部31では、適応対象となる辞書の候補を絞り込んだ上で、類似度スコアに基づいて適応対象とすべき辞書を判断するように動作する。
【0068】
次に、ステップS0106において、辞書更新部51は、学習制御部31から入力された更新対象の辞書を、同じく学習制御部31から入力された音響特徴量を使って更新した上で、既存の辞書管理部61の辞書と置き換えるように動作する。辞書が上述したGMMである場合、EMアルゴリズムなどの既存のアルゴリズムを用いることで辞書を更新することができる。この操作により、機械1に対応する辞書は、従来よりも多くの音響信号から学習されることとなるため、シーンの識別性能が高くなる。
【0069】
(4)効果
このように本実施例によれば、シーン識別に用いる辞書を更新する場合に、更新対象とする辞書を関連情報から絞り込むように動作する。
【0070】
例えば、本実施例における、機械1と機械4が非常に似た音をする場合を考えると、関連情報による絞込みを行わない場合では、機械1から発生される音響信号を使って機械4の辞書を誤って適応する危険がある。しかし、本実施例では、このような誤適応を回避することができるため、シーンの識別性能を高めることができ、他のセンサでは識別が難しいシーンを、マイクを協働することで高精度に識別することができる。
【0071】
(第2の実施例)
本発明の第2の実施例の辞書学習装置について、図7〜図12に基づいて説明する。
【0072】
本実施例では、辞書管理部61に新しく辞書を追加するための辞書構築部71が追加されている。本実施例では、学習制御部32が辞書管理部61にある既存の辞書を更新するのか、新しく新規辞書を追加するのかを判断する点が、第1の実施例と異なっている。
【0073】
以下の説明では、第1の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【0074】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図7に基づいて説明する。図7は、本実施例の辞書学習装置の概略構成図である。
【0075】
図7に示すように辞書学習装置は、音響特徴抽出部11、関連情報取得部21、学習制御部32、類似度算出部41、辞書更新部51、辞書管理部62、辞書構築部71を有する。
【0076】
(1−1)学習制御部32
学習制御部32は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部61に管理される辞書の更新に用いるか否かを判断し、制御する。更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。
【0077】
また、本実施例では、学習制御部32は、更新すべき辞書がない場合に、新しく新規辞書を構築すべきか否かを判断する。学習制御部32は、新規辞書を構築すると判断した場合には、新規辞書を新しく構築するように辞書構築部71に通知をして、必要があれば得られた音響特徴量を辞書構築部71に通知する。
【0078】
更新の必要性を判断する方法、及び、新規辞書を追加すべきかの否かの判断方法の詳細については、後述する。
【0079】
(1−2)辞書構築部71
辞書構築部71は、学習制御部31から入力された音響特徴量を使って新規辞書を構築する。辞書構築部71は、新規辞書が上述したGMMである場合、例えばEMアルゴリズムによって新規辞書を構築できる。
【0080】
このように新しく構築した新規辞書は、学習に用いた音響特徴量と同期して得られた関連情報と関連付けて、辞書管理部62で追加管理される。
【0081】
このように本実施例では、未知の状況に遭遇した場合に、得られた音響特徴量から新しく新規辞書を学習するように動作するため、未知の状況に対してもシーンを識別することができる。
【0082】
(2)具体例
本実施例の辞書学習装置の動作を具体的に説明する。辞書学習装置は、加速度センサとGPSとマイクを備え、日常生活において利用者の置かれた状況を把握した上で、必要な情報を提供する情報提供装置に適用した場合を考える。図8に本実施例で行動する日常生活の状況を、図9に把握した状況に応じて表示される生活支援情報の情報提供装置の一例を示す。
【0083】
図8の模式図では、自宅から会社までの通勤経路を表示しており、複数の経路(同じ場所をバスで移動する場合と、車で移動する場合がある)や、異なる場所で類似の乗り物(バス)に乗るという状況を想定している。
【0084】
利用者が、加速度センサとGPSとマイクを備えた情報提供装置を持って通勤をする。この情報提供装置は、本実施例の辞書学習装置とシーン識別装置とを有している。そして、シーン識別装置がそのシーンを判断して、その状況にあった情報を情報提供装置の画面上に提供する場合を想定する。例えば、利用者が、図9に示すように、会社に近づくと当日のスケジュールを表示し、バスを待っているならばバスの接近情報を表示するなどである。
【0085】
上述の例では、会社に向かって移動していることは、既存のセンサ、すなわちGPSや加速度センサを使って把握できるが、同じ経路を通り、異なる乗り物(バス/車)を把握することは難しく、マイクとの協働が必要となる。
【0086】
(3)新規構築の流れ
次に、日常生活支援を行いながら、シーン識別のための辞書を更新し、必要に応じて新しく新規辞書を更新する際の、辞書学習装置の処理の流れを図11のフローチャートを使って説明する。処理の簡略化のため、辞書を管理する辞書管理部61は図10に示す状態になっている状態から説明を始める。
【0087】
まず、ステップS0201において、音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。この処理については、第1の実施例と同様のため説明を省略する。
【0088】
次に、ステップS0202において、関連情報取得部21は、GPS及び加速度センサから関連情報を取得する。この処理については、第1の実施例と同様のため説明を省略する。
【0089】
次に、ステップS0203において、学習制御部32は、音響特徴量と関連情報を取得すると、辞書管理部62で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Cから場所Dに移動中である」ことが分かっている場合、学習制御部32は、辞書管理部62にある同じラベルが付与された電車に対応する辞書CDを、更新する対象の辞書と判断して、ステップS0204に進む。なお、図11のフローチャートにおける枠で囲った部分は学習制御部32の動作に対応している。
【0090】
次に、ステップS0204において、学習制御部32は、絞り込まれた1つの辞書CDと入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアの算出方法は、第1の実施例と同様のため説明を省略する。ここで電車に対応する類似度スコアがscoreCD(>α)であったとする。
【0091】
次に、ステップS0205において、学習制御部32は、まず求めた類似度スコアに基づいて適応すべき辞書の有無、及び、新規辞書を構築する必要性の有無を判断する。例えば、類似度スコアの閾値をα、βと設定して以下のように判断する方法が考えられる。
【0092】
scoreCD≧α ・・・学習済と判断する、
α>scoreCD≧β ・・・辞書を適応する、
scoreCD<β ・・・未知状況と判断して、新規辞書を構築する。
【0093】
すなわち、学習制御部32は、scoreCDが閾値αよりも大きかった場合には、辞書管理部62に管理された辞書CDが十分に学習されていて適応の必要がないと判断して処理を終える。
【0094】
また、学習制御部32は、scoreCDが閾値β未満である場合には、既存の辞書CDと合致しない未知の状況であると判断して新規辞書を構築すると判断して、ステップS2107に進む。
【0095】
また、学習制御部32は、閾値α>scoreCD≧閾値βである場合に、適応対象が見つかったと判断して、ステップS2106に進む。この場合、scoreCDから電車の辞書CDが既に十分学習されていると判断されるため、処理を終える。
【0096】
ここで、例えば鉄道駅Bから会社Aまで時間がなかったため通常使うバスではなく、タクシーで移動した状況を考える。
【0097】
ステップS0203において、学習制御部32は、関連情報から現在「場所Bから場所Aに移動中である」ことが分かっており、学習制御部32は、辞書管理部62にある同じラベルが付与されたバスに対応する辞書BAを、更新する対象の辞書と判断して、ステップS0204に進む。
【0098】
ステップS0204において、学習制御部32は、絞り込まれた1つの辞書BAと入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアの算出方法は、第1の実施例と同様のため説明を省略する。ここで電車に対応する類似度スコアがscoreAB(<β)であったとする。上述の判断基準に従って判断すると、現在の状況は、既存の辞書BAとは異なる未知の状況であると判断できる。この場合は、ステップS0207へと進み、新規辞書の構築を行うように動作する。
【0099】
ステップS0207において、辞書構築部71は、学習制御部31から入力された音響特徴量を使って、新規辞書を構築して、辞書管理部62に辞書を追加するよう動作する。
【0100】
新規辞書が上述したGMMである場合、EMアルゴリズムなどの既存のアルゴリズムを用いれば新規辞書を構築でき、新しいシーンを識別することができる。
【0101】
(4)効果
このように本実施例では、未知の状況に遭遇した場合に、得られた音響特徴量に基づいて新しく辞書を学習するように動作するため、未知の状況に対してもシーンを識別することができる。
【0102】
(5)変更例
なお、上記実施例では、辞書構築部71が、未知の状況を検知した際に収録した音響信号だけから新規辞書を構築する。しかし、本実施例は、これに限定されるものではない。
【0103】
例えば、辞書構築部71が新規辞書を構築する場合には、種となる汎用辞書を予め準備しておき、未知の状況から取得された音響信号と類似度スコアの高い汎用辞書を初期辞書として採用することも可能である。
【0104】
具体的には、日常生活で起こりうる状況に(バス、電車、車、雑沓、構内など・・・)対応する汎用辞書を準備しておく。そして、辞書構築部71は、初期辞書としてこの種となる汎用辞書の中から選択するように動作する。このような汎用辞書は、実際の環境に完全に合致することはないが、少ない音響信号から構築するよりは高い精度の辞書となることや、種となる初期辞書に付与されるラベルを利用することができるといった利点がある。
【0105】
なお、種となる汎用辞書から初期辞書を選択する方法としては、適応する辞書を選択するステップS0204と同様に類似度スコアを算出し、類似度スコアが最大となる辞書を選択すればよい。
【0106】
(第3の実施例)
本発明の第3の実施例の辞書学習装置について、図13〜図16に基づいて説明する。
【0107】
本実施例では、辞書の学習や適応に用いることができる、すなわち、シーンを識別するために信頼できる区間を推定する信頼区間推定部81が追加されている。すなわち、本実施例は、学習制御部33が信頼区間推定部81の結果に基づいて、辞書を更新する場合に用いる音響特徴量の区間を絞り込む構成が、第1の実施例と異なっている。
【0108】
以下の説明では、第1の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【0109】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図13に基づいて説明する。図13は、本実施例の辞書学習装置の概略構成図である。
【0110】
図13に示すように、辞書学習装置は、音響特徴抽出部12、関連情報取得部21、学習制御部33、類似度算出部41、辞書更新部51、辞書管理部62、信頼区間推定部81を有する。
【0111】
(1−1)信頼区間推定部81
信頼区間推定部81は、音響特徴抽出部11から得られる音響特徴量に基づいて、音響信号の中から辞書の学習や適応に用いることができる信頼できる区間を推定して、信頼できる区間を学習制御部33に通知する。信頼できる区間の推定方法の詳細は、後述する。
【0112】
(1−2)学習制御部33
学習制御部33は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部62に管理される辞書の更新に用いるか否かを判断し、制御する。学習制御部33は、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。この際に本実施例では、信頼区間推定部81から得られる信頼区間の情報に基づいて、全ての音響特徴量を辞書更新部51に通知するのではなく、信頼できる区間のみを通知する点が、第1の実施例とは異なる。
【0113】
このように本実施例では、辞書を更新する場合に全ての音響信号を更新に用いるのではなく、性能向上に寄与する学習区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【0114】
(2)具体例
辞書学習装置の動作を、具体的に説明する。すなわち、辞書学習装置が、加速度センサとGPSとマイクを備え、日常生活において利用者の置かれた状況を把握した上で、必要な情報を提供する情報提供装置に適用した場合を考える。
【0115】
想定する状況は、第2の実施例と同様に、利用者が、加速度センサとGPSとマイクを備えた情報提供装置を持って通勤をすると、場所や状況をシーン識別装置が判断して、その状況にあった情報を情報提供装置の画面上に提供してくれると場合を想定する。
【0116】
ここで、「場所Aから場所Bに(バスで)移動している」場合に、図15に示すような音響信号が得られる例を考える。図15に示すように、同じバスに乗って移動している場合でも、信号などでバスが停止する場合や、アナウンス音や扉の開閉音といったバスの走行音とは異なる音響信号が混合する状況が考えられる。
【0117】
このような混合音が含まれる全ての音響信号を対象に、シーンの識別や辞書の更新を行えば、誤った識別や適応を行う危険性が高い。そこで本実施例では、このような状況でも、頑健に辞書を構築できるように信頼区間推定を行う。
【0118】
(3)全体の流れ
辞書学習装置の処理の流れを図14のフローチャートを使って説明する。辞書学習装置は、日常生活支援を行いながら、性能向上に寄与すると推定される信頼できる区間を推定して、該当する区間に含まれる音響信号のみを使って辞書を更新する。
【0119】
また、説明の簡略化のため、辞書を管理する辞書管理部62は図12に示す状態になっている状態から説明を始める。
【0120】
まず、ステップS0301において、音響特徴抽出部12は、入力される音響信号から音響特徴量を抽出する。この処理については、第1の実施例と同様のため説明を省略する。
【0121】
次に、ステップS0302において、関連情報取得部21は、GPS及び加速度センサから関連情報を取得する。この処理については、第1の実施例と同様のため説明を省略する。
【0122】
次に、ステップS0303において、信頼区間推定部81は、複数フレームの音響特徴量を比較して音響特徴量の変化量を求め、音響特徴量の変化の少ない区間を信頼できる区間として推定する。図16は、音響特徴量の変化量に基づいて、信頼区間を推定するアルゴリズムの概略を示す。図16に示すように、フレーム単位で抽出した音響特徴量を、複数フレーム間で比較することで音響変化量を算出する。変化量の算出方法としては、例えば、特徴ベクトルの差分の絶対値であるノルムを用いることができる。この変化量に対して、変化が大きくて信頼できないと判断する閾値を設定することで、閾値を越えない音響特徴量の区間が信頼できる区間と判断できる。
【0123】
そして、学習制御部33は、音響特徴量と関連情報及び信頼区間の情報を取得すると、現在処理を行う音響特徴量が信頼区間から生成されたものであるかの判断を行う。信頼区間に含まれていなければ適応処理は行わない。例えば、バスの停止区間で扉の開閉音が混入された区間は、音響変化量の小さな区間が短く信頼できないと判断されるため、適応の必要性を判断することなく処理が終わる。信頼区間推定部81によって信頼できる区間と判断された場合には、ステップS0304に進む。なお、図14のフローチャートにおいて枠で囲まれた部分は学習制御部33の動作に対応している。
【0124】
次に、ステップS0304において、学習制御部33は、辞書管理部62で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Bから場所Aに移動中である」ことが分かっている場合、学習制御部33は、辞書管理部62にある同じラベルが付与されたバス及び車に対応する辞書を、更新する対象の辞書と判断して、ステップS0305に進む。
【0125】
次に、ステップS0305において、学習制御部33は、絞り込まれた2つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。
【0126】
次に、ステップS0306において、学習制御部33は、さらに求めた類似度スコアに基づき、適応すべき辞書の有無を判定する。類似度スコアの算出方法及び適応の必要性の判断方法は第1の実施例と同様のため省略するが、適応の必要がある場合には、ステップS0307にて辞書の適応を行うよう動作する。
【0127】
(4)効果
本実施例によれは、マイクから取得する音響信号のうち、学習に適した信頼できる区間とそうでない区間とを判断して、信頼できる区間のみを学習に用いるように制御している。
【0128】
したがって、本実施例によれば、性能向上に寄与する学習区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【0129】
(5)変更例
上記実施例では。最も単純な信頼区間の推定方法を説明した。しかし、これに限らず、2つの特徴ベクトルのノルムではなく、例えば複数の特徴ベクトル群同士のノルムの累積値を音響変化量とすることや、信頼できる区間が一定時間以下の場合は除去するなど、音響信号から信頼できる区間を推定する方法としては、様々な変形が考えられる。
【0130】
また、入力される音響特徴量の比較だけではなく、事前に信頼できない音響信号の特徴を学習して辞書(以下、不適用辞書という)として保持しておき、不適用辞書との類似度スコアが高い場合は信頼区間としないといった変形も考えられる。例えば、日常生活の中には周辺にいる人の声が環境音に混入されることが頻発するため、人の声から学習した音声辞書を準備しておき、音声辞書との類似度スコアが閾値以上の区間には、人の声が混入されていると判断して、辞書構築には用いない方法が考えられる。
【0131】
(第4の実施例)
本発明の第4の実施例の辞書学習装置について、図17〜図18に基づいて説明する。
【0132】
本実施例では、辞書の学習や適応に用いることができる信頼できる区間を推定する信頼区間推定部82が追加されている。本実施例では、学習制御部33が信頼区間推定部82の結果に基づいて、辞書を更新する場合に用いる音響特徴量の区間を絞り込む構成が、第1の実施例と異なっている。
【0133】
以下の説明では、第1の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【0134】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図17に基づいて説明する。図17は、本実施例の辞書学習装置の概略構成図である。
【0135】
図17に示すように、辞書学習装置は、音響特徴抽出部11、関連情報取得部22、学習制御部33、類似度算出部41、辞書更新部51、辞書管理部62、信頼区間推定部82を有している。
【0136】
(1−1)信頼区間推定部82
信頼区間推定部82は、関連情報取得部21から得られる関連情報に基づいて、音響信号の中から辞書の学習や適応に用いることができる信頼できる区間を推定して、信頼できる区間を学習制御部33に通知する。信頼できる区間の推定方法の詳細は、後述する。
【0137】
(1−2)学習制御部33
学習制御部33は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部62に管理される辞書の更新に用いるか否かを判断する。学習制御部33は、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。この際に本実施例では、信頼区間推定部82から得られる信頼区間の情報に基づいて、全ての音響特徴量を辞書更新部51に通知するのではなく、信頼できる区間のみを通知する構成が、第1の実施例とは異なる。
【0138】
このように本実施例では、辞書を更新する場合に全ての音響信号を更新に用いるのではなく、性能向上に寄与する学習区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【0139】
(2)具体例
本実施例の辞書学習装置の動作を、具体的に説明する。
【0140】
辞書学習装置は、加速度センサとGPSとマイクを備え、日常生活において利用者の置かれた状況を把握した上で、必要な情報を提供する情報提供装置に適用した場合を考える。
【0141】
想定する状況は、第2の実施例と同様に、利用者が、加速度センサとGPSとマイクを備えた情報提供装置を持って通勤をすると、場所や状況をシーン識別装置が判断して、その状況にあった情報を情報提供装置の画面上に提供してくれる場合を想定する。
【0142】
ここで、「場所Aから場所Bに(バスで)移動している」場合に、図15に示すような音響信号が得られる例を考える。
【0143】
図15に示すように、同じバスに乗って移動している場合でも、信号などでバスが停止する場合や、アナウンス音や扉の開閉音といったバスの走行音とは異なる音響信号が混合する状況が考えられる。このような異なる音響信号の混入は、移動状況などに連動して発生することもある。例えば、乗り物の種類を音響信号から判断する場合には、静止している状態よりも安定的に移動している状態で収録した音響信号が有用である。このことを踏まえ、本実施例では関連情報の変化に基づいて信頼区間を推定する。
【0144】
(3)全体の流れ
辞書学習装置の処理の流れを図18のフローチャートを使って説明する。
【0145】
辞書学習装置は、日常生活支援を行いながら、性能向上に寄与すると推定される信頼できる区間を推定して、該当する区間に含まれる音響信号のみを使って辞書を更新する。また、説明の簡略化のため、辞書を管理する辞書管理部62は図12に示す状態になっている状態から説明を始める。
【0146】
まず、ステップS0401において、音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。この処理については、第1の実施例と同様のため説明を省略する。
【0147】
次に、ステップS0402において、関連情報取得部22は、GPS及び加速度センサから関連情報を取得する。この処理については、第1の実施例と同様のため説明を省略する。
【0148】
次に、ステップS0403において、信頼区間推定部82は、関連情報に基づいて信頼区間の推定を行う。図18の例で考えると、例えば同じ移動状態が一定時間以上継続した区間を信頼区間とすることで、継続時間の短いバスの停止時間などは信頼区間とならず、移動時間のみを学習制御部31で処理することができる。信頼区間推定部82によって信頼できる区間と判断された場合には、ステップS0404に進む。
【0149】
次に、ステップS0404において、学習制御部33は、辞書管理部62で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Bから場所Aに移動中である」ことが分かっている場合、学習制御部33は、辞書管理部62にある同じラベルが付与されたバス及び車に対応する辞書を、更新する対象の辞書と判断して、ステップS0405に進む。
【0150】
次に、ステップS0405において、学習制御部33は、絞り込まれた2つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。
【0151】
次に、ステップS0406において、学習制御部33は、さらに求めた類似度スコアに基づき、適応すべき辞書の有無を判定する。類似度スコアの算出方法及び適応の必要性の判断方法は第1の実施例と同様のため省略する。
【0152】
次に、ステップS0407において、辞書更新部51は、適応した辞書を更新する。
【0153】
(4)効果
本実施例によれは、マイクから取得する音響信号のうち、学習に適した信頼できる区間とそうでない区間とを判断して、信頼できる区間のみを学習に用いる。
【0154】
したがって、本実施例によれは、性能向上に寄与する信頼区間のみを辞書の適応に用いることができ、シーンの識別性能を高めることができる。
【0155】
(第5の実施例)
本発明の第5の実施例の辞書学習装置について、図2〜図4、図19、図20に基づいて説明する。
【0156】
本実施例では、未知の状態を検知した際に、異常状態として通知する異常通知部91が追加されている。本実施例では、学習制御部34が、辞書管理部62にある既存の辞書を更新するのか、異常状態と判断する構成が、第1の実施例とは異なっている。
【0157】
以下の説明では、第1の実施例における構成と同じ番号が付与されたものは、同じ動作をするために説明を省略する。
【0158】
(1)辞書学習装置の構成
まず、辞書学習装置の構成について図19に基づいて説明する。図19は、本実施例の辞書学習装置の概略構成図である。
【0159】
図19に示すように、辞書学習装置は、音響特徴抽出部11、関連情報取得部21、学習制御部34、類似度算出部41、辞書更新部51、辞書管理部62、異常通知部91を有している。
【0160】
(1−1)学習制御部34
学習制御部34は、音響特徴抽出部11から得られる音響特徴量を、辞書管理部62に管理される辞書の更新に用いるか否かを判断して、更新すべき辞書がある場合には、更新対象となる辞書と、得られた音響特徴量を辞書更新部51に通知する。
【0161】
また、本実施例では、学習制御部34は、更新すべき辞書がない場合に、未知の状態であるか否かを判断する。未知の状態であると判断した場合には、異常状態であることを異常通知部91に通知をする。更新の必要性を判断する方法、及び、異常状態の判断方法の詳細については、後述する。
【0162】
(1−2)異常状態通知部91
異常状態通知部91は、学習制御部31の判断結果を元に現在が異常状態であることを通知する。通知の方法としては、例えば情報提供装置の画面に警告として表示する方法や、警告音を鳴らすなど様々な方法が考えられる。
【0163】
このように本実施例によれば、未知の状況に遭遇した場合に、利用者に対して未知の状態であることを通知するよう動作するため、利用者が異常状態を把握しやすくなる。
【0164】
(2)具体例
辞書学習装置の動作を、第1の実施例を参考にして説明する。
【0165】
すなわち、この具体例においても、情報提供装置は、本実施例の辞書学習装置とシーン識別装置とを有している。シーン識別装置は、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。
【0166】
警備員が、この敷地内を加速度センサとGPSとマイクを備えた情報提供装置を持って敷地内を移動すると、シーン識別装置の識別部が、本実施例の辞書学習装置によって更新された辞書に基づいて工場内のシーンを識別する。そして、その識別したシーンに対応して、警備員がパトロールしている場所の目の前にある機械に関して、警備員が確認すべき情報を情報提供装置の提供部が提供する。
【0167】
(3)異常検知の流れ
辞書学習装置の処理の流れを図20のフローチャートを使って説明する。
【0168】
辞書学習装置は、工場巡回を行いながら、シーン識別のための辞書を更新し、未知の状態に遭遇した場合には異常通知を行う。なお、図4に示すように辞書管理部62には、巡回対象となる機械毎に辞書が準備されており、この辞書が関連情報から取得できる場所及び移動状況毎分類して保持されている。
【0169】
まず、ステップS0501において、音響特徴抽出部11は、入力される音響信号から音響特徴量を抽出する。この処理については、第1の実施例と同様のため説明を省略する。
【0170】
次に、ステップS0502において、関連情報取得部21は、GPS及び加速度センサから関連情報を取得する。この処理については、第1の実施例と同様のため説明を省略する。
【0171】
次に、ステップS0503において、学習制御部34は、音響特徴量と関連情報を取得すると、辞書管理部62で管理された辞書の中から、関連情報を使って更新する候補となる辞書を絞り込む。例えば、関連情報から現在「場所Aで静止している」ことが分かっている場合、学習制御部34は、辞書管理部62にある同じラベルが付与された機械1、機械2、機械3に対応する辞書を、更新する対象の辞書と判断して、ステップS0504に進む。図20のフローチャートにおける枠で囲まれた部分は学習制御部34の動作に対応している。
【0172】
次に、ステップS0504において、学習制御部34は、絞り込まれた3つの辞書と入力される音響特徴量との照合を行い、類似度スコアを算出する。類似度スコアの算出方法は、第1の実施例と同様のため説明を省略する。ここで最も大きな値を持った機械1の類似度スコアがscore1(<β)であったとする。
【0173】
次に、ステップS0505において、学習制御部34は、まず求めた類似度スコアに基づいて適応すべき辞書の有無、及び、異常の有無を判断する。例えば類似度スコアの閾値をα、βと設定して以下のように判断する方法が考えられる。
【0174】
score1≧α ・・・学習済と判断する、
α>score1≧β ・・・辞書を適応する、
score1<β ・・・未知状況と判断(異常状態)する。
【0175】
すなわち、学習制御部34は、score1が閾値αよりも大きかった場合には、辞書管理部62に管理された辞書が十分に学習されていて適応の必要がないと判断して処理を終える。
【0176】
また、学習制御部34は、score1が、閾値β未満である場合には、既存の辞書1と合致しない未知の状況であると判断して、ステップS5107に進む。
【0177】
さらに、学習制御部34は、閾値α>score1≧閾値βである場合に、適応対象が見つかったと判断して、ステップS5106に進む。
【0178】
次に、ステップS0206において、辞書更新部51は、適応した辞書を更新する。
【0179】
次に、ステップS0207において、現在の状況は、既存の辞書とは異なる未知の状況であると判断できるので、異常状態通知部91は、異常状態を通知する。
【0180】
(4)効果
このように本実施例によれは、利用者に対して未知の状態であることを通知するよう動作するため、利用者が異常状態を把握しやすくなる。
【0181】
(変更例)
本発明は上記各実施例に限らず、その主旨を逸脱しない限り種々に変更することができる。
【0182】
例えば、上記各実施例では、効率的に関連情報を生成するために、GPSと加速度センサを連動させて取得する例を示した。しかし、関連情報取得部21は、これに限定されるものではなく、複数のセンサを並列に動作させても構わない。
【0183】
また、GPSと加速度センサ以外に、時計、照度計、静電センサ、温度センサ、湿度センサから関連情報を取得してもよい。
【図面の簡単な説明】
【0184】
【図1】本発明の第1の実施例の辞書学習装置の概略構成例を表す図である。
【図2】第1の実施例の工場巡回支援アプリケーションでの巡回場所の一例を表す図である。
【図3】第1の実施例の工場巡回支援アプリケーションで提供される情報の一例を示す図である。
【図4】第1の実施例の辞書管理部が管理する辞書の一例を表す図である。
【図5】第1の実施例の辞書学習の流れを示すフローチャートである。
【図6】第1の実施例の関連情報取得部の動作を示すフローチャートである。
【図7】第2の実施例の辞書学習装置の概略構成例を表す図である。
【図8】第2の実施例の日常生活支援アプリケーションで把握したい状況の一例を表す図である。
【図9】第2の実施例の日常生活支援アプリケーションで提供される情報の一例を示す図である。
【図10】第2の実施例の辞書管理部が管理する更新前の辞書の一例を表す図である。
【図11】第2の実施例の辞書学習の流れを示すフローチャートである。
【図12】第2の実施例の辞書管理部が管理する、更新後の辞書の一例を表す図である。
【図13】第3の実施例の辞書学習装置の概略構成例を表す図である。
【図14】第3の実施例の辞書学習の流れを示すフローチャートである。
【図15】第3の実施例の信頼推定が必要な音響信号の一例を示す図である。
【図16】第3の実施例の信頼区間推定部のアルゴリズムの概要を示した図である。
【図17】第4の実施例の辞書学習装置の概略構成例を表す図である。
【図18】第4の実施例の辞書学習の流れを示すフローチャートである。
【図19】第5の実施例の辞書学習装置の概略構成例を表す図である。
【図20】第5の実施例の辞書学習の流れを示すフローチャートである。
【符号の説明】
【0185】
11・・・音響特徴抽出部
21・・・関連情報取得部
31・・・学習制御部
41・・・類似度算出部
51・・・辞書更新部
61・・・辞書管理部
【特許請求の範囲】
【請求項1】
音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出部と、
前記音響信号以外の情報を関連情報として取得する関連情報取得部と、
前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理部と、
前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出部と、
前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御部と、
前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新部と、
を備えたことを特徴とする辞書学習装置。
【請求項2】
前記音響特徴量、又は、前記関連情報を用いて、前記シーンを識別するために信頼できる区間を推定する信頼区間推定部をさらに備え、
前記学習制御部は、推定された前記信頼区間に含まれる前記音響特徴量のみを用いて制御する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項3】
前記辞書は、前記音響特徴量の混合正規分布として構築され、
前記類似度算出部は、前記混合正規分布からの尤度を事後確率化したものを前記類似度として算出する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項4】
前記学習制御部は、前記類似度が第2の閾値よりも大きいときは前記辞書を更新しないように制御する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項5】
前記辞書管理部が管理する前記辞書に追加して、新規辞書を構築する辞書構築部をさらに備え、
前記学習制御部は、前記類似度を用いて、前記新規辞書の構築を行うか、又は、前記辞書の更新を行う、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項6】
前記辞書構築部は、
前記新規辞書の初期辞書として選択するための複数の汎用辞書を予め保持し、
前記音響特徴量との前記類似度が最も高い前記汎用辞書を、前記新規辞書の初期辞書とする、
ことを特徴とする請求項5に記載の辞書学習装置。
【請求項7】
異常状態を通知する異常通知部をさらに備え、
前記学習制御部は、前記類似度に基づいて、前記辞書の更新を行うか、又は、前記異常状態の通知を行うかを制御する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項8】
前記関連情報取得部は、GPS、加速度センサ、静電センサ、温度センサ、湿度センサ、又は、時計のいずれかから前記関連情報を取得する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項9】
前記信頼区間推定部は、
前記音響特徴量から前記音響信号の局所的な変動を表す音響変動スコアを算出し、
前記音響変動スコアが一定値以下の区間を前記信頼区間として判定する、
ことを特徴とする請求項2に記載の辞書学習装置。
【請求項10】
前記信頼区間推定部は、
前記判断に適さない前記音響信号の区間を検出するための不適用辞書とを有し、
前記音響特徴量と前記不適用辞書との類似度を算出し、
前記類似度が、第3の閾値よりも小さな区間のみを前記信頼区間として算出する、
ことを特徴とする請求項2に記載の辞書学習装置。
【請求項11】
前記信頼区間推定部は、
前記関連情報が変化しない区間を前記信頼区間として算出する、
ことを特徴とする請求項2に記載の辞書学習装置。
【請求項12】
請求項1記載の前記辞書学習装置と、
前記辞書学習装置の前記辞書を用いて前記シーンを識別する識別部と、
を備えたことを特徴とするシーン識別装置。
【請求項13】
請求項1記載の前記辞書学習装置と、
前記辞書学習装置の前記辞書を用いて前記シーンを識別する識別部と、
前記識別したシーンに対応した情報を提供する提供部と、
を備えたことを特徴とする情報提供装置。
【請求項14】
音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出ステップと、
前記音響信号以外の情報を関連情報として取得する関連情報取得ステップと、
前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理ステップと、
前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出ステップと、
前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御ステップと、
前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新ステップと、
を備えたことを特徴とする辞書学習方法。
【請求項15】
コンピュータに、
音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出機能と、
前記音響信号以外の情報を関連情報として取得する関連情報取得機能と、
前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理機能と、
前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出機能と、
前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御機能と、
前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新機能と、
を実現させるための辞書学習プログラム。
【請求項1】
音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出部と、
前記音響信号以外の情報を関連情報として取得する関連情報取得部と、
前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理部と、
前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出部と、
前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御部と、
前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新部と、
を備えたことを特徴とする辞書学習装置。
【請求項2】
前記音響特徴量、又は、前記関連情報を用いて、前記シーンを識別するために信頼できる区間を推定する信頼区間推定部をさらに備え、
前記学習制御部は、推定された前記信頼区間に含まれる前記音響特徴量のみを用いて制御する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項3】
前記辞書は、前記音響特徴量の混合正規分布として構築され、
前記類似度算出部は、前記混合正規分布からの尤度を事後確率化したものを前記類似度として算出する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項4】
前記学習制御部は、前記類似度が第2の閾値よりも大きいときは前記辞書を更新しないように制御する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項5】
前記辞書管理部が管理する前記辞書に追加して、新規辞書を構築する辞書構築部をさらに備え、
前記学習制御部は、前記類似度を用いて、前記新規辞書の構築を行うか、又は、前記辞書の更新を行う、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項6】
前記辞書構築部は、
前記新規辞書の初期辞書として選択するための複数の汎用辞書を予め保持し、
前記音響特徴量との前記類似度が最も高い前記汎用辞書を、前記新規辞書の初期辞書とする、
ことを特徴とする請求項5に記載の辞書学習装置。
【請求項7】
異常状態を通知する異常通知部をさらに備え、
前記学習制御部は、前記類似度に基づいて、前記辞書の更新を行うか、又は、前記異常状態の通知を行うかを制御する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項8】
前記関連情報取得部は、GPS、加速度センサ、静電センサ、温度センサ、湿度センサ、又は、時計のいずれかから前記関連情報を取得する、
ことを特徴とする請求項1に記載の辞書学習装置。
【請求項9】
前記信頼区間推定部は、
前記音響特徴量から前記音響信号の局所的な変動を表す音響変動スコアを算出し、
前記音響変動スコアが一定値以下の区間を前記信頼区間として判定する、
ことを特徴とする請求項2に記載の辞書学習装置。
【請求項10】
前記信頼区間推定部は、
前記判断に適さない前記音響信号の区間を検出するための不適用辞書とを有し、
前記音響特徴量と前記不適用辞書との類似度を算出し、
前記類似度が、第3の閾値よりも小さな区間のみを前記信頼区間として算出する、
ことを特徴とする請求項2に記載の辞書学習装置。
【請求項11】
前記信頼区間推定部は、
前記関連情報が変化しない区間を前記信頼区間として算出する、
ことを特徴とする請求項2に記載の辞書学習装置。
【請求項12】
請求項1記載の前記辞書学習装置と、
前記辞書学習装置の前記辞書を用いて前記シーンを識別する識別部と、
を備えたことを特徴とするシーン識別装置。
【請求項13】
請求項1記載の前記辞書学習装置と、
前記辞書学習装置の前記辞書を用いて前記シーンを識別する識別部と、
前記識別したシーンに対応した情報を提供する提供部と、
を備えたことを特徴とする情報提供装置。
【請求項14】
音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出ステップと、
前記音響信号以外の情報を関連情報として取得する関連情報取得ステップと、
前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理ステップと、
前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出ステップと、
前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御ステップと、
前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新ステップと、
を備えたことを特徴とする辞書学習方法。
【請求項15】
コンピュータに、
音響信号を分析してシーンを識別するための音響特徴量を抽出する音響特徴抽出機能と、
前記音響信号以外の情報を関連情報として取得する関連情報取得機能と、
前記音響特徴量の辞書を、前記関連情報と対応付けて管理する辞書管理機能と、
前記音響特徴量と前記辞書とを照合して類似度を算出する類似度算出機能と、
前記辞書から前記関連情報が共通のものを対象に前記類似度を算出し、前記類似度が第1の閾値より大きいときは前記辞書の更新を行うように制御する学習制御機能と、
前記辞書の更新を行う場合に、前記類似度を求めるために音響特徴量との照合に用いる音響信号パラメータを更新する辞書更新機能と、
を実現させるための辞書学習プログラム。
【図3】
【図8】
【図9】
【図1】
【図2】
【図4】
【図5】
【図6】
【図7】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図8】
【図9】
【図1】
【図2】
【図4】
【図5】
【図6】
【図7】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【公開番号】特開2010−145715(P2010−145715A)
【公開日】平成22年7月1日(2010.7.1)
【国際特許分類】
【出願番号】特願2008−322446(P2008−322446)
【出願日】平成20年12月18日(2008.12.18)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成22年7月1日(2010.7.1)
【国際特許分類】
【出願日】平成20年12月18日(2008.12.18)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]