説明

音判定システム、音判定方法および音判定プログラム

【課題】音によるコンテキストの理解の妨げとなる類似音を認識対象音と区別して、正しいコンテキストの理解を可能とする。
【解決手段】1つ以上の集音手段によって収集された音のデータを用いて、集音手段が配された空間内の特性であって音源からの音に基づく音特性を計測する音特性計測手段101と、音特性計測手段101によって計測された音特性が認識対象音の音特性と合致するか否かを判定して、収集された音が認識対象音であるか類似音であるかを判別する類似音判別手段102とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音を利用してコンテキストを理解するシステムにおいて、収集された音が認識対象音であるか否かを判定する音判定システム、音判定方法および音判定プログラムに関し、特に、認識対象音と該認識対象音に類似する類似音とを区別して、収集された音が認識対象音であるか否かを判定する音判定システム、音判定方法および音判定プログラムに関する。
【背景技術】
【0002】
人の発話や、機械の動作状況など、さまざまなコンテキストを理解するシステムが知られている。コンテキストを理解するシステムの1つとして、音を活用してコンテキストを理解する音認識システムがある。音認識システムの構成の一例を図17に示す。類似の音認識システムは、例えば、非特許文献1に記載されている。
【0003】
図17に示す音認識システムは、マイクロフォン901と、前処理部902と、特徴抽出部903と、識別部904と、識別辞書905とを備えている。図17に示す音認識システムでは、マイクロフォン901で収集された音はアナログ信号に変換され、前処理部902に入力される。前処理部902は、収集されたアナログ信号をデジタル信号に変換し、さらにノイズを抑制する処理を行う。次いで特徴抽出部903が、ノイズが抑制されたデジタル信号から特徴を抽出する。そして、識別部904が、抽出された特徴と識別辞書905を基に、収集された音を識別する。なお、識別辞書905には、音の特徴とラベルとが対応付けられて保存されている。
【0004】
図17に示す音認識システムには、ノイズを抑制するノイズ抑制システムと、音の特徴を抽出し、その音の特徴に基づいて入力音を識別する音識別システムとが含まれていると言える。
【0005】
ノイズ抑制システムの一例として、例えば、特許文献1には、エンジン音、エアコン音等の定常雑音が発生する環境下でも、電子音、サイレン音等の非定常雑音を抑制するノイズ抑制システムが記載されている。特許文献1に記載されているノイズ抑制システムでは、取得した音データからフレームが生成され、フレーム単位の音信号がスペクトルに変換される。次いで、変換されたスペクトルに基づいてスペクトル包絡が算出され、算出されたスペクトル包絡がそのスペクトルから差し引かれる。そして、スペクトル包絡を差し引いた後のスペクトルを用いてスペクトルピークが検出され、検出されたスペクトルピークがノイズとして抑制される。このようにすることで、エンジン音、エアコン音等の帯域幅の広い緩やかなピークの定常雑音が発生する環境下でも、電子音、サイレン音等の非定常雑音の帯域幅の狭い鋭いピークを検出して抑制できるとしている。
【0006】
また、特許文献2には、音識別システムの一例が記載されている。特許文献2に記載されている音識別システムでは、被判別信号から音種に関係するさまざまな特徴量を抽出し、抽出された特徴量と予め収録してある学習データとを基に音種毎の尤度を求めて、被判別信号の音種を識別している。なお、特許文献2に記載されている音識別システムでは、被判別信号から、定常性と非定常性とを判別する第1特徴量、ピッチ成分を表す第2特徴量、ノイズ性の尺度となる第3特徴量、第3特徴量であるノイズ性の尺度となる相関係数の概形を規定する減衰の傾斜を表す第4特徴量、スペクトルのパワーを表す第5特徴量を抽出している。
【0007】
また、特許文献3には、ドアチャイムや電話のベル等の現実の報知音とテレビやラジオ等の音声とを区別した上で、現実の報知の発生をユーザに告知する音識別システムの例が記載されている。特許文献3に記載されている音識別システムでは、予め現実の報知音が収録され音響データにして記憶される。また、常時周囲の環境音がマイクロフォンを介してモニター手段によってモニターされる。また、テレビやラジオ等の特定の機器の音響出力も別途モニターされる。そして、特定の機器の音響出力のモニターにより、その機器からの音響出力に報知音の音響データと類似する類似音が含まれていることが検知されると、モニター手段に入力される周囲の環境音の音響データに対して、特定の機器からの類似音の音響成分を加工または消音する処理が施される。このようにして、モニター手段に入力される周囲の環境音に特定機器からの類似音がそのままの音響成分で入り込むことを防いでいる。
【0008】
また、収集した音の情報だけでなく音以外の情報も利用してコンテキストを理解するシステムの一例が特許文献4に記載されている。特許文献4に記載されている音振動認識システムは、複数のマイクロフォンを用いて音の音圧レベルを測定し、測定された音圧レベルを基に音源方向の水平角θを特定する。その一方で、複数の振動センサを用いて振動レベルを測定し、測定された振動レベルを基に振動源方向の水平角θ’を特定する。そして、特定した音源方向の水平角θと振動源方向の水平角θ’とを比較することによって、観測された音が音の発生を伴う振動源からの音であるか、振動を伴わない音源からの音であるかの判定や、振動源が音を伴わない振動源であるかどうかを判定する。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2008−76676号公報
【特許文献2】特開2004−240214号公報
【特許文献3】特開平9−26354号公報
【特許文献4】特開2010−236944号公報
【非特許文献】
【0010】
【非特許文献1】荒木雅弘、「フリーソフトでつくる音声認識システム」、森北出版、2007年10月、p.12−52(特に、p.12,19,35)
【発明の概要】
【発明が解決しようとする課題】
【0011】
音を利用してコンテキストを理解するシステムにおいて問題となるのは「類似音」の存在である。例えば、ある家の居間に設置されているインターホンの呼び出し音を認識して、外部からその家へ来訪者があったというコンテキストを理解するシステムを考える。
【0012】
このようなシステムにおいては、例えば、家の居間で掃除機が大きな音を出していたり、置き時計が定時毎に時報音を出していたりすると、このような周囲の音が雑音となってシステムの動作を妨げる課題となり得る。そこで、例えば、一般に掃除機の音とインターホンの呼び出し音では周波数の高さが違うことを利用して上述のノイズ抑制システムを適用すれば、このような周囲の雑音(ここでは掃除機の音)を除外することができる可能性がある。また、例えば、上述の音識別システムを適用すれば、時報音といった認識対象音(インターホンの呼び出し音)との間に使用周波数帯域の違いがあまりない音であっても、メロディなどの特徴が異なれば雑音として除去できる。
【0013】
しかし、周波数の高さやメロディといった認識対象音そのものの音に関する特徴によって認識対象音と周囲の雑音とを区別しようという上述の方法では、例えば、家の居間に設置されているテレビからその家のインターホンと同一機種のインターホンの呼び出し音が鳴った場合に、その音と認識対象音とを区別することは困難である。すると、誤って外部からその家へ来訪者があったと解釈してしまうおそれがある。実際、我々人間でも、テレビから鳴るインターホンの呼び出し音や電話の着信音に対して、実際の音と誤認識して、反応してしまうことが良くある。
【0014】
このように、イベントによって切り出された個々の音の特徴(周波数など)を比較、分析することによってその音がどのような音であるかを識別する音識別システムでは、認識対象音と同じ特徴をもつ音を、認識対象音とは異なるものとして識別することが極めて困難である。そのため、コンテキストの理解を誤ってしまうという問題があった。
【0015】
なお、本発明では、音を活用してコンテキストを理解するために認識の対象となる音を「認識対象音」と呼び、認識の対象ではないにもかかわらず、認識対象音と同一もしくは類似の音を「類似音」と呼ぶ。例えば、鳥の鳴き声を電話の着信音とし、コンテキストの認識の対象の1つとして電話の着信を着信音から認識したい場合、この電話の着信音は認識対象音であり、実際の鳥の鳴き声は類似音である。
【0016】
例えば、特許文献2に記載されたような音識別システムが、認識対象音と類似音の相違を十分に学習すれば、これらを識別できるように構成することもできる可能性がある。しかし、テレビから発せられる音のように、本発明が判別対象とする類似音の多くは実際に十分な数の学習データを集めることが困難である。従って、学習手段を利用して、認識対象音と類似音を識別するのは現実的ではない。
【0017】
なお、例えば特許文献3に記載されている技術を適用することによって、ある特定のテレビから発せられる類似音については、テレビから発せられる音の特性を利用して、認識対象の音とは異なるものとして識別することは可能である。しかし、特許文献3に記載された技術は、類似音を発する可能性のある全ての音源を常時モニター入力端子と接続しなければ、認識対象音と類似音とを正しく区別することはできない。現実には、予め類似音の発生源となりうる全ての音源を予測して、かつそれら全てを常時モニター入力端子と接続させるのは困難である。
【0018】
なお、特許文献3には、登録されている報知音の発生源とされる位置情報と、検出した類似する音の発生源とされる位置情報との相関性の高さを求め、求めた結果から検出した音が複数あるうちのどの報知音であるかを特定したり、報知音の発生源が移動したものとして報知音の種類とその発生位置とをユーザに提示することが記載されている。しかし、これはあくまでテレビからの類似音を除去した後で、複数登録されている報知音との間で発生位置による相関性による判別をしているのであって、音源の位置関係から認識対象音と類似音とを区別しようというものではない。なお、特許文献3に記載されているような音の発生源の位置情報を比較して音を識別する技術を、認識対象音と類似音との判別に利用すれば、モニター入力端子に類似音を発する可能性のある全ての音源を常時接続しなくても、これらの音の発生位置の違いから認識対象音と類似音とを区別することができる可能性がある。しかし、音の発生源の違いから認識対象音と類似音とを区別するためには、少なくとも認識対象音の発生位置が予めわかっていることを要する。このため、例えば、認識対象音の発生位置が未知の場合や認識対象音の発生位置が定まらないような場合には適用できない。また、認識対象音の発生源と類似音の発生源との間の位置関係によっては、音の発生位置を高精度に推定できなければならず、そのための機構が複雑化するという問題がある。
【0019】
また、例えば特許文献4に記載されている音振動認識システムを利用すれば、音の情報だけで認識対象音と類似音を識別できなくても、振動の情報から、振動を伴うコンテキストを正しく理解できる可能性がある。しかし、マイクロフォン以外に振動センサが使用されるため、部品が増え、電源線や信号線の配線が必要になるという問題がある。また、そもそも振動が殆ど無い事象に対しては、特許文献4に記載されている音振動システムを適用することは困難である。
【0020】
本発明は、これらの問題点に鑑み、音によるコンテキストの理解の妨げとなる類似音を容易に認識対象音と区別して、正しいコンテキストの理解を可能とする音判定システム、音判定方法および音判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0021】
本発明による音判定システムは、1つ以上の集音手段によって収集された音のデータを用いて、集音手段が配された空間内の特性であって音源からの音に基づく音特性を計測する音特性計測手段と、音特性計測手段によって計測された音特性が認識対象音の音特性と合致するか否かを判定して、収集された音が認識対象音であるか類似音であるかを判別する類似音判別手段とを備えたことを特徴とする。
【0022】
また、本発明による音判定方法は、1つ以上の集音手段によって収集された音のデータを用いて、集音手段が配された空間内の特性であって音源からの音に基づく音特性を計測し、計測された音特性が認識対象音の音特性と合致するか否かを判定して、収集された音が認識対象音であるか類似音であるかを判別することを特徴とする。
【0023】
また、本発明による音判定プログラムは、コンピュータに、1つ以上の集音手段によって収集された音のデータを用いて、集音手段が配された空間内の特性であって音源からの音に基づく音特性を計測する音特性計測処理、および音特性計測処理で計測された音特性が認識対象音の音特性と合致するか否かを判定して、収集された音が認識対象音であるか類似音であるかを判別する類似音判別処理を実行させる。
【発明の効果】
【0024】
本発明によれば、音によるコンテキストの理解の妨げとなる類似音と認識対象音とを容易に区別することができる。また、本発明によれば、理解の妨げとなる類似音と認識対象音とを区別した正しいコンテキスト認識結果を提供することができる。
【図面の簡単な説明】
【0025】
【図1】第1の実施形態の音判別システムの構成例を示すブロック図である。
【図2】第1の実施形態の音判別システムの動作の一例を示すフローチャートである。
【図3】第1の実施形態と音認識システムを組み合わせた音判定システムの構成例を示すブロック図である。
【図4】第1の実施形態と音検出システムを組み合わせた音判定システムの構成例を示すブロック図である。
【図5】マイクロフォン11の設置位置の例および発生した音の広がり方の例を示す説明図である。
【図6】マイクロフォン11の設置位置の例および発生した音の広がり方の例を示す説明図である。
【図7】マイクロフォン11の設置位置の他の例および発生した音の広がり方の例を示す説明図である。
【図8】マイクロフォン11の設置位置の他の例および発生した音の広がり方の例を示す説明図である。
【図9】第2の実施形態の音判別システムの構成例を示すブロック図である。
【図10】第2の実施形態によるイベント音蓄積動作の一例を示すフローチャートである。
【図11】第2の実施形態による類似音判別動作の一例を示すフローチャートである。
【図12】マイクロフォン11の設置位置の例および音源となる物の位置例を示す説明図である。
【図13】第3の実施形態の音判別システムの構成例を示すブロック図である。
【図14】第3の実施形態の音判別システムの動作の一例を示すフローチャートである。。
【図15】周波数分布の解析結果の例を示す説明図である。
【図16】本発明の概要を示すブロック図である。
【図17】音認識システムの一例の構成例を示すブロック図である。
【発明を実施するための形態】
【0026】
以下、本発明の実施形態を図面を参照して説明する。
【0027】
実施形態1.
図1は、本発明の第1の実施形態の音判別システムの構成例を示すブロック図である。図1に示す音判別システムは、複数のマイクロフォン11(マイクロフォン11−1〜11−n)と、音圧比較部21と、マイクロフォン位置データベース22と、類似音判別部23とを備えている。
【0028】
マイクロフォン11−1〜11−nは、それぞれ周囲の音を収集する。例えば、当該マイクロフォンが設置された空間内の人、物、機器などが発生する音を収集する。
【0029】
音圧比較部21は、各マイクロフォン11から収集した音の音圧を比較し、マイクロフォン11−1〜11−nが配された空間内における音圧の分布を示す音圧分布情報を作成する。音圧比較部21は、音圧分布情報を作成するとき、後述するマイクロフォン位置データベース22から各マイクロフォン11の位置を示す位置情報を取得し、取得した各マイクロフォンの位置情報と、各マイクロフォンで収集された音とに基づいて、音圧分布情報を作成する。
【0030】
マイクロフォン位置データベース22は、各マイクロフォン11が、空間のどこに設置されたかを示す位置情報を記憶している。なお、マイクロフォンの位置情報は、複数のマイクロフォンの相対的な位置関係がわかるような情報であればよい。すなわち、経度緯度などの絶対的な座標や、ある点を原点としたXY座標などの距離や方向に厳密なものに限定されない。例えば、部屋の名前といった距離や方向に無関係な情報であっても、他のマイクロフォンと異なる位置にあることを示す情報であれば、本実施形態におけるマイクロフォンの位置情報に含まれる。
【0031】
類似音判別部23は、音圧比較部21により作成された音圧分布情報に基づいて、各マイクロフォン11により収集された音が、認識対象音であるか類似音であるかを判定する。なお、本実施形態では、予め認識対象音が当該空間内で発生した場合にどのような音圧の分布となるかデータとして保持されているとする。類似音判別部23は、例えば、音圧比較部21により作成された音圧分布情報と、予め登録されている認識対象音の音圧分布情報とを比較して、音の発生位置の相違や、発生位置からの広がり方の相違などに基づいて、収集した音が認識対象音であるか否かを判定してもよい。
【0032】
なお、本実施形態において、音圧比較部21、類似音判別部23は、例えば、プログラムに従って動作するCPUによって実現される。また、マイクロフォン位置データベース22は、例えば、データベースシステムや記憶装置によって実現される。
【0033】
次に、本実施形態の動作について説明する。図2は、本実施形態の音判別システムの動作の一例を示すフローチャートである。図2に示す例では、各マイクロフォン11が音を収集する(ステップS01)。各マイクロフォン11の少なくともいずれかで音が収集されると、音比較部21は、各マイクロフォン11で収集された音とマイクロフォン位置データベースに保存された各マイクロフォン11の位置とに基づいて、音圧分布情報を作成する(ステップS02)。そして、類似音判別部23が、音圧分布情報を基にして、各マイクロフォン11により収集された音が認識対象音であるか類似音であるかを判定する(ステップS03)。
【0034】
なお、ステップS01からステップS03までは、パイプライン方式を用いて並列的に実行されてもよい。これらの実装以外でも、本発明の構成と原理を用いて目的の効果を得られれば、どのような情報処理機構を用いてもよい。
【0035】
以上のように、本実施形態によれば、予め認識対象音を発する音源と類似音を発する音源との位置関係が不明な場合であっても、類似音と認識対象音とを区別して正しいコンテキストを理解できる。これは、それぞれが異なる位置に配された複数のマイクロフォンで音を収集し、収集された音と各マイクロフォンの位置とを用いて音圧分布情報を作成し、作成された音圧分布情報を基に、その音が認識対象音であるかまたは類似音であるかを判別するからである。
【0036】
例えば、ドアの開閉音とテレビから発せられる類似音とを区別したい場合、音の発生位置が異なるという相違だけでは区別が困難な場合であっても、ドアの開閉音はドアの位置から空間上をほぼ同心円状に広がるのに対し、一般的なテレビの音はスピーカから正面方向にある程度の指向性をもって広がるという音の広がり方の相違を基に判断することによって、容易に区別することができる。
【0037】
さらに、図3に示すように、音認識システムと組み合わせて音判定システムとして実装することも可能である。図3に示す音判定システムは、図1に示す構成に加えて、さらに前処理部31と、特徴抽出部32と、識別部33と、識別辞書34と、判定部35とを備えている。
【0038】
前処理部31、特徴抽出部32、識別部33、識別辞書34は、一般的な音認識システムの構成要素と同様でよい。
【0039】
判定部35は、識別部33による識別結果を、類似音判別部23による判定結果に応じて変更する。
【0040】
このような構成により、例えば、識別部33の識別結果が、「モータの始動音」であったとしても、類似音判別部23が、「類似音」と判定した場合、判定部35は、「モータの始動音」とではなく「類似音」と判定し、結果出力を変更できるため、コンテキストの認識精度がより高まる。
【0041】
また、例えば図4に示すように、音検出システムと組み合わせて音判定システムとして実装することも可能である。図4に示す音判定システムは、図1に示す構成に加えて、さらにイベント音検出部41と、判定部42とを備えている。
【0042】
イベント音検出部41は、例えば音圧の変化を基に、イベントによって発生した音を検出する。
【0043】
判定部42は、類似音判別部23による判定結果に応じて、イベント音検出部41による検出結果を変更する。
【0044】
このような構成により、例えば、イベント音検出部41が、イベントによって発生した音を検出し、「イベントが発生した」と結果を出力したとする。そのイベントによって発声した音に対して、類似音判別部23が「類似音」(すなわち「認識対象音」でない)と判定したとする。そのような場合に、判定部35は、イベント音検出部41による検出結果を「イベントが発生していない」と変更して出力できるため、イベントを検出する精度がより高まる。
【0045】
次に、具体的な例を用いて本実施形態の動作を説明する。図5および図6は、マイクロフォン11の設置位置の例および発生した音の広がり方の例を示す説明図である。図5および図6に示すように、部屋に複数のマイクロフォン11a−1〜11a−9が格子状に配置されている。なお、部屋は、音の反射を無視または音の到達時間により除去できるほどに広いとする。また、音の発生源からマイクロフォンまでは遮蔽物がないとする。これは、各マイクロフォン11aを天井に設置することで容易に実現可能である。マイクロフォンを設置する密度は、後述するスピーカ122の音圧分布に指向性を示すムラが現れる程度が好ましい。
【0046】
この部屋で一般的な花瓶121を落下させた場合、図5に示すように、花瓶121を落下させたことで発生する音はほぼ同心円状に広がる。このため、図5の例であれば、マイクロフォン11a−2、11a−3、11a−5、11a−6では、ほぼ同じ音圧の音を収集できるのに対して、マイクロフォン11a−7では、上述のマイクロフォン11a−2、11a−3、11a−5、11a−6で収集された音の音圧に対して低い音圧の音が収集される。
【0047】
一方、図6に示すように、同一の部屋で一般的なスピーカ122から音を発生させた場合、スピーカ122によって発生する音はスピーカ122の前方に広がる。このため、図6の例であれば、マイクロフォン11a−4、11a−5、11a−7、11a−8では、他のマイクロフォンに対して高い音圧の音が収集される。
【0048】
これらの音圧のデータと、マイクロフォン11a−1〜11a−9が部屋のどこに設置されているかを示すマイクロフォンの位置とを組み合わせて、図5および図6に示される部屋の内部の音圧分布情報を作成する。そして、作成した音圧分布情報を基に、音源からの音が同心円状に広がっている場合には、実際に部屋で発生した音(認識対象音)であると判定し、音源からの音が同心円状に広がっていない場合には、スピーカによって再現された音(類似音)と判定する。
【0049】
なお、部屋は、音の反射を無視できるほどに広いと仮定したが、実際には部屋は有限の大きさの部屋であり、また壁以外に物があれば、それらによって生じる反射もある。このため、音圧分布情報に基づく音の広がり方の判断に関し、厳密に同心円か否かで判断することは難しく、ある程度の余裕が必要である。ただし、どの程度の余裕とするかは適用先の部屋による。
【0050】
また、図7および図8は、マイクロフォン11の設置位置の他の例および発生した音の広がり方の例を示す説明図である。図7および図8に示すように、複数のマイクロフォンを異なる空間に設置している。具体的には、部屋と廊下に1つずつ、マイクロフォン11b−1、11b−2を設置している。本例では、ドアのように空間を仕切る物体の発する音を認識対象音としている。
【0051】
部屋と廊下を仕切る扉を閉じた場合、図7に示すように、扉を閉じたことで発生する音は、部屋のマイクロフォン11b−1でも廊下のマイクロフォン11b−2でも収集される。
【0052】
一方、図8に示すように、部屋に設置したスピーカから扉の開閉音を発生させた場合、この音はマイクロフォン11b−2では収集されるが、マイクロフォン11b−1では収集されない、または実際に部屋の扉を閉じたときに発生する音やマイクロフォン11b−2で収集される音よりも低い音圧の音が収集される。
【0053】
これらの音圧データと、マイクロフォン11b−1〜11b−2がどの空間に設置されているかを示すマイクロフォンの位置とを組み合わせて、部屋と廊下の音圧分布情報を作成する。そして、作成した音圧分布情報を基に、複数の空間で音が所定の音圧差以内で収集された場合には、実際の扉の開閉によって発生した音(認識対象音)と判断し、音が所定の音圧差より大きく収集された場合には、スピーカによって再現された音(類似音)と判断する。
【0054】
本例は、認識対象音が複数の空間を仕切る物によって発せられる音に限定されるが、音の広がりの形状までを判定の材料としないため、音の反射を考慮しなくてはならない部屋の場合であっても対応できる。また、マイクロフォンの位置についても、どの部屋であるか程度がわかればよく、正確な座標まで考慮する必要がない。なお、判断の際の閾値とする所定の音圧差は、本発明を実施した空間に応じて定めればよい。
【0055】
実施形態2.
次に、本発明の第2の実施形態について説明する。図9は、本発明の第2の実施形態の音判別システムの構成例を示すブロック図である。図9に示す音判別システムは、図1に示す第1の実施形態に、イベント音記録部52、イベント音データベース53、音類似判定部54が加わっている。また、図1の音圧比較部21に代わり、音源位置推定部51が構成要素となっている。また、図1の類似音判別部23に代わり、類似音判別部55が構成要素となっている。なお、類似音判別部55は、入力される情報と判断手法が、第1の実施形態における類似音判別部23と異なる。
【0056】
音源位置推定部51は、各マイクロフォン11(マイクロフォン11−1〜11−n)から収集された音のデータに基づいて音源の位置を推定し、推定音源位置を決定する。音源位置の推定方法は、例えば、各マイクロフォン11から収集された音の音圧データを基に、各マイクロフォン11の中で最も高い音圧を検出したマイクロフォン11の位置を、近似的に音源の位置とする方法を用いてもよい。この方法の場合、空間内にマイクロフォン11を多数設置する必要があるが、第1の実施形態の音圧比較部21とほぼ同様の構成を活用できる。音源位置の推定方法としては、この他にもさまざまな手法があり、例えば以下の方法を用いてもよい。
【0057】
例えば、各マイクロフォンでの音の到着時間差を活用して推定する方法を用いてもよい。また、例えば指向性の高いマイクロフォンを使用し、各マイクロフォンの向きを変えて走査することで音源位置を推定する方法を用いることも可能である。
【0058】
イベント音記録部52は、各マイクロフォン11から収集された音のデータから、イベントにより発生した音を切り出し、切り出した音のデータとその音に対して音源位置推定部51から出力される音源位置(推定音源位置)と組にして、イベント音データベース53に記録する。これらのイベントは、例えば、音圧が一定レベル以上に変化したときをイベントの発生として判断できる。また、イベント音データベース53には、例えば、イベントが発生したときから所定の時間分の音を記録する。なお、イベントの検知のために所定時間音を一時的に記録している場合などには、イベントが発生した前後の所定の時間分の音を記録してもよい。
【0059】
イベントは、イベント音記録部52が検知可能な事象であればよく、例えば、機械の始動、人の発話、扉の開閉などがある。なお、どのような事象をイベントとして検知するかは予め定められた条件による。例えば、上記以外にも、特定のパターンの波形が検出されたとき、一定レベル以上の急峻の変化を検出したとき、特定の変化率で変化したときなどが挙げられる。また、イベントの検知は、音以外のもの(照度、温度、振動など)を利用して行うことも可能である。例えば、空間が明るくなる、振動が発生するなどであってもよい。音以外のものを利用する場合には、例えば、イベント音記録部52がそのようなイベントを検知するためのデバイスを備え、そのデバイスのセンシング結果を基に、イベントによって発生した音(イベント前後の音を含む)を録音するようにすればよい。
【0060】
イベント音データベース53は、イベント音記録部51により切り出された音のデータと、音源位置推定部によって推定されたその音の推定音源位置を示す推定音源位置情報とを組にして、履歴情報として保持する。
【0061】
音類似判定部54は、各マイクロフォンにより収集された音と、これまでに各マイクロフォンで収集されてイベント音データベース53に記録されている推定音源位置が同一の過去のイベント音とを比較して、それらの類似性の有無を判定する。判定にあたって、例えば、推定音源位置をキーに、イベント音データベース53を検索して、検索された過去のイベント音と、今回収集された音とで、音の類似性の有無を判定する方法がある。さらに、音の類似性の判定方法に関して、例えば、パターンマッチングの手法を活用することで音の類似性の有無を判定する方法を実現できるが、これらの方法に限定されない。また、音類似判定部54は、判定の結果、類似性ありと判定されたイベント音の発生回数や発生頻度等の統計を算出して出力してもよい。
【0062】
類似音判別部55は、音類似判定部54の結果の統計を基に、発生した音が、認識対象音であるか、類似音であるかを判定する。例えば、類似性のある音が所定の期間に所定の回数以上収集された場合、認識対象音と判定し、一方、同じ位置で、これまでに複数のマイクロフォンで収集されていない音が収集された場合または所定の期間で所定の回数未満収集された場合、類似音と判定してもよい。
【0063】
式を用いて説明すると、例えば、所定の期間を観測して以下の式(1)が成立する場合には認識対象音と判定し、成立しない場合には類似音と判定してもよい。なお、式(1)において「同一の音」とは、音類似判定部54によって入力音と類似すると判定されたイベント音データベース53内にある過去の同一発生源の音(今回の入力音を含んでもよい)をいう。
【0064】
[同一の音]が発生した回数>[所定の回数] ・・・式(1)
【0065】
また、所定の期間に収集された特定のイベントの音の回数のみでは、イベントの発生回数が少ないという場合に対応できない。その場合、例えば、イベントの音の種類(どのような音か)を基準に特定のイベント音の発生頻度を考えることで解決できる。特定の音が他の音も含めた合計に対して所定の割合以上の回数で発生する場合、認識対象音と判定し、特定の音が他の音も含めた合計に対して所定の割合未満の回数で発生する場合、類似音と判定する。この場合、観測期間を指定しなくてもよい。なお、特定の音は、評価の対象となる音である。より具体的には、音自体の特徴から認識対象の音とその他の音とを区別しようとした場合に、認識対象の音として区分けされる音をいう。なお、実際の処理では、[同一の音]と同様に、音類似判定部54によって入力音と類似すると判定されたイベント音データベース53内にある過去の同一発生源の音(今回の入力音を含んでもよい)を用いればよい。なお、本例の場合は、音類似判定部54での類似性の判定において、もっと大まかな分類の音の区分けによって入力音と同じ種類の音に属するものを類似性ありとしてもよい。
【0066】
特定の音の具体例として、例えば「扉の開閉音」を考えた場合、認識対象音となる扉の開閉音(実際の扉の開閉によって発生する音)は、扉が設置されている場所で発生する。このため、その場所(扉が設置されている位置)からは扉の開閉音が最も多く発生すると考えられる。一方、テレビから発生する扉の開閉音(実際には、スタジオや収録現場などで発生した扉の開閉音やその疑似音)は、テレビが設置されている場所で発生する。テレビは、扉の開閉音以外にも多くの種類の音を発生させる。すなわち、テレビが置いてある位置からは、多くの種類の音(例えば、扉の開閉以外にも、人の発話、車の走行音など)が認識される。このことから、本実施形態では、多くの種類の音が認識される位置から発生する音は、すべて類似音と判定する。
【0067】
式を用いて説明すると、例えば、所定の期間を観測して以下の式(2)が成立する場合には認識対象音と判定し、成立しない場合には類似音と判定してもよい。
【0068】
[特定の音]が発生した回数/([特定の音]が発生した回数+[その他の音]が発生した回数)>[所定の割合] ・・・式(2)
【0069】
なお、式(2)において「特定の音」とは、音の特徴から認識対象音と認識される音をいう。より具体的には、音類似判定部54によって入力音と類似すると判定されたイベント音データベース53内にある過去の同一発生源の音(今回の入力音を含んでもよい)をいう。
【0070】
この他にも、上述の式(1)と式(2)の2つの基準を組み合わせてもよいし、これらの方法以外にもさまざまな統計の方法を採ることができる。
【0071】
なお、本実施形態において、音源位置推定部51、イベント音記録部52、類似音判定部54、類似音判別部55は、例えば、プログラムに従って動作するCPUによって実現される。また、マイクロフォン位置データベース22、イベント音データベース53は、例えば、データベースシステムや記憶装置によって実現される。
【0072】
次に、本実施形態の動作について説明する。本実施形態の動作は、大別して2つの動作に分けられる。1つは、イベントの音を収集し、イベント音データベース53に蓄積する動作(以下、イベント音蓄積動作という。)である。もう1つは、イベント音データベース53に保存された音データを活用して、発生した音が認識対象音か類似音かを判定する動作(以下、類似音判別動作という。)である。
【0073】
まず、イベント音蓄積動作について説明する。図10は、本実施形態によるイベント音蓄積動作の一例を示すフローチャートである。図10に示す例では、まず各マイクロフォンが音を収集すると(ステップS11)、音源位置推定部51が、各マイクロフォンで収集された音のデータと、マイクロフォン位置データベース22に保存されたマイクロフォンの位置情報とを基に、その音の音源の位置を推定し、推定音源位置を決定する(ステップS12)。
【0074】
また、イベント音記録部52は、各マイクロフォンで収集された音からイベントの音を切り出す(ステップS13)。イベントの音が切り出されると、切り出したイベントの音のデータと、音源位置推定部51により推定されたその音の推定音源位置を示す推定音源位置情報とを対応づけて、イベント音データベース53に記録する(ステップS14)。
【0075】
なお、ステップS11からステップS14までは、パイプライン方式を用いて並列的に実行されてもよい。さらに、ステップS12とステップS13とを別のハードウェアで実装し、並列的に実行してもよい。
【0076】
次に、本実施形態の類似音判別動作について説明する。図11は、本実施形態による類似音判別動作の一例を示すフローチャートである。図11に示す例では、各マイクロフォン11が音を収集する(ステップS21)。次いで、音源位置推定部51が、各マイクロフォン11で収集された音のデータと、マイクロフォン位置データベース22に保存された各マイクロフォン11の位置情報とを基にして、音源の位置を推定し、推定音源位置を決定する(ステップS22)。
【0077】
次いで、音類似判定部54が、各マイクロフォン11で収集された音のデータと推定音源位置情報との組みと、イベント音データベース53に保存された過去のイベントの音のデータと推定音源位置情報との組みとを基に、収集された音の推定音源位置における音の類似性の有無を判定する(ステップS23)。そして、類似音判別部55が、判定された音の類似性の有無から、ステップS21で各マイクロフォン11により収集された音が認識対象音か類似音かを判定する(ステップ24)。
【0078】
なお、ステップS21からステップS24までは、パイプライン方式を用いて並列的に実行されてもよい。
【0079】
以上のように、本実施形態によれば、異なる位置に配置された複数のマイクロフォンで音を収集し、それにより収集された音と各マイクロフォンの位置から音源の位置を推定し、さらに推定された音源の位置と収集された音の組を基に、過去に収集されたイベントの音の中から類似の組の有無を検索し、そして、その有無の確率を基にした同一位置での音の類似性を基に、その音が認識対象音か類似音かを判定するので、各マイクロフォン11で収集された音が、認識対象音であるか類似音であるかを判定できる。
【0080】
また、本実施形態によれば、予め認識対象音を発する音源と類似音を発する音源の位置関係が不明な場合であっても、いずれかの音源の位置が変化しない場合には、同一の推定音源位置から過去に発せられたイベント音の履歴と照合することにより、認識対象音と類似音とを区別することができる。
【0081】
例えば、テレビの音が認識対象音もしくは類似音である場合に、テレビの位置からは様々なイベント音が発せられるため、予め認識対象音を発する音源と類似音を発する音源の位置関係が不明な場合であっても、同一の推定音源位置から過去に発せられたイベント音の履歴を照合すれば、多様な音がその音源から発せられているか否かで、どちらがテレビの音であるかを判別することができる。
【0082】
なお、本実施形態においても、図3および図4に示すような音認識システムや音検出システムを組み合わせて音判定システムとして実装することが可能である。そのような場合には、判定部35は、識別部33による識別結果を、類似音判別部55による判定結果に応じて変更すればよい。なお、本実施形態では、収集した音がどのような種類の音かを識別するための処理部が、イベント音記録部52にも含まれていてもよい。
【0083】
次に、具体的な例を用いて本実施形態の動作を説明する。図12は、マイクロフォン11の設置位置の例および音源となる物の位置例を示す説明図である。図12に示すように、同一の空間にマイクロフォン11c−1〜11c−9が配置されている。また、マイクロフォン11c−3の近くには扉321があり、マイクロフォン11c−6の近くにはTVのスピーカ322がある。
【0084】
このような部屋で扉321を閉めると、マイクロフォン11c−3が扉に最も近いため、扉の音は、マイクロフォン11c−3で最も大きな音圧で収集される。この場合には、音源位置推定部51は、収集した音(扉の音)の音源をマイクロフォン11c−3の近傍と推定する。
【0085】
このとき、マイクロフォン11c−3を推定音源位置とする扉の開閉音は、過去24時間に10回収集されており、さらに推定音源位置をマイクロフォン11−c−3とするイベント音の中で扉321の開閉音が収集される割合が80%以上である状態であったとする。この状態でマイクロフォン11c−3を推定音源位置とする扉の音を収集した場合、類似音判別部55は、音類似判定部54の上述のような類似性の判定結果の統計に基づき、この扉の音は認識対象音であると判断する。
【0086】
一方、この部屋でスピーカ322を鳴らすと、マイクロフォン11c−6が最も近いため、スピーカ322からの音はマイクロフォン11c−6で最も大きな音圧で収集される。この場合には、音源位置推定部51は、収集した音(スピーカから発せられる音)の音源をマイクロフォン11c−6の近傍と推定する。
【0087】
このとき、マイクロフォン11c−6を推定音源位置とする扉の開閉音は、過去24時間で1回も収集されていない状態であったとする。この状態でマイクロフォン11c−6を推定音源位置とする扉の音を収集した場合、類似音判別部55は、この扉の音は類似音であると判断する。
【0088】
または、マイクロフォン11c−6を推定音源位置とする扉の音はこれまでにも数回収集されているが、マイクロフォン11c−6では扉の音以外にも爆発音やサイレンの音を収集しており、同一の推定音源位置からのイベント音の中では、扉の音が収集される割合は80%未満であったとする。この状態でマイクロフォン11c−6を推定音源位置とする扉の音を収集した場合、類似音判別部55は、この扉の音は類似音であると判定する。
【0089】
実施形態3.
次に、本発明の第3の実施形態について説明する。図13は、本発明の第3の実施形態の音判別システムの構成例を示すブロック図である。図13に示す音判別システムは、マイクロフォン11と、周波数解析部61と、類似音判別部62とを備えている。
【0090】
マイクロフォン11は、周囲の音を収集する。例えば、当該マイクロフォン11が設置された空間内の物体、人などが発生する音を収集する。なお、マイクロフォン11は1つであっても複数であってもよい。
【0091】
周波数解析部61は、マイクロフォン11から収集された音の周波数の分布を解析する。周波数解析部61は、例えば、音圧が一定以上の周波数成分をピックアップし、それらをマイクロフォン11の有効範囲内の空間において発現する周波数成分であるとして所定の空間上にマッピングすることにより、所定の空間内における周波数分布を作成してもよい。なお、マイクロフォンが1つである場合には、ピックアップした周波数成分のみで表される当該マイクロフォンの有効範囲内の空間における音の周波数分布を作成すればよい。または、単純に、検出した周波数成分を示す情報を周波数分布としてもよい。
【0092】
類似音判別部62は、周波数解析部61による解析結果である音の周波数分布を基にして、マイクロフォン11で収集された音が認識対象音であるか類似音であるかを判定する。
【0093】
なお、本実施形態において、周波数解析部61、類似音判別部62は、例えば、プログラムに従って動作するCPUによって実現される。
【0094】
次に、本実施形態の動作について説明する。図14は、本実施形態の音判別システムの動作の一例を示すフローチャートである。図14に示す例では、まずマイクロフォン11が音を収集する(ステップS31)。次いで、周波数解析部61が、マイクロフォン11によって収集された音の周波数の分布を解析する(ステップS32)。そして、類似音判別部62が、周波数の分布の解析結果を基にして、マイクロフォン11で収集された音が認識対象音であるか類似音であるかを判定する(ステップS33)。
【0095】
以上のように、本実施形態によれば、音の発生位置関係が区別できない場合であっても、認識対象音と類似音とを区別できる。
【0096】
例えば、一般的なテレビのスピーカは、さほど周波数特性が優れておらず、特に周波数が低い低音域では音圧が低くなる傾向があることに加え、テレビ放送の規格により伝送できる最高周波数にも制約があるため、テレビから発せられる音には周波数の分布に一定の限界が現れる。従って、そのような音源からの音の周波数分布の特性に基づいて収集された音が認識対象音であるか類似音であるかを判定すれば、音の発生位置関係だけでは認識対象音と類似音とを区別できない場合であっても認識対象音と類似音とを区別できる。
【0097】
なお、本実施形態においても、図3および図4に示すような音認識システムや音検出システムを組み合わせて音判定システムとして実施することが可能である。そのような場合には、判定部35は、識別部33による識別結果を、類似音判別部62による判定結果に応じて変更すればよい。
【0098】
次に、具体的な例を用いて本実施形態の動作を説明する。図15は、周波数分布の解析結果の例を示す説明図である。例えば、図15(a)に示されるように、収集された音に対して周波数の分布を解析した結果、マイクロフォン11が設置された空間内におけるその音の周波数の分布に、50Hz以下と18,000Hz以上にもパワーがある場合には、その音は認識対象音であると判定する。一方、図15(b)に示されるように、マイクロフォン11が設置された空間内におけるその音の周波数の分布に、50Hz以下、かつ、18,000Hz以上にパワーがない場合には、その音は類似音であると判定する。
【0099】
なお、上記各実施形態では、1つ以上のマイクロフォン11が配された所定の空間内において発現する音特性として、特に、その音の音源によって特徴づけられる音特性に着目した結果、音の音圧分布、同一音源位置における音の類似性の有無、周波数の分布のいずれかを用いる例を説明したが、これらの音特性を1つ以上組み合わせて使用することも可能である。そのような場合には、1つ以上の類似音判別部からの判別結果を入力とし、それらを総合して最終的な判別結果を出力する手段を備えればよい。
【0100】
次に、本発明の概要について説明する。図16は、本発明の概要を示すブロック図である。図16に示すように、本発明による音判定システムは、音特性計測手段101と、類似音判別手段102とを備えたことを特徴とする。
【0101】
音特性計測手段101は、1つ以上の集音手段によって収集された音のデータを用いて、集音手段が配された空間内の特性であって音源からの音に基づく音特性を計測する。
【0102】
類似音判別手段102は、音特性計測手段101によって計測された音特性が認識対象音の音特性と合致するか否かを判定して、収集された音が認識対象音であるか類似音であるかを判別する。
【0103】
上述の音特性は、音圧の分布、同一音源位置における音の類似性の有無、および周波数の分布のうちの少なくとも1つであってもよい。
【0104】
例えば、上述の第1の実施形態では、音特性として、音圧の分布を用いる例が示されている。具体的には、複数の集音手段を配することで得られる当該集音手段が配されている所定の空間における音圧の分布を示す音圧分布情報を基に、認識対象音と類似音とで発生位置の相違や、発生位置からの広がり方の相違を判定することにより、収集された音が認識対象音か類似音かを判別する例が示されている。すなわち、第1の実施形態においては、音特性計測手段101は、音圧比較部21により実現されている。
【0105】
また、例えば、上述の第2の実施形態では、音特性として、同一音源位置における音の類似性の有無を用いる例が示されている。なお、「同一音源位置における音の類似性の有無」をより具体的にいうと、同一音源位置において発生する音の間にある、音の特徴の類似性の有無である。上述の第2の実施形態では、複数の集音手段を配しかつ過去に発生したイベント音を履歴として蓄積することで得られる音源位置と音の種類ごとの発生回数や発生確率を基に、多様な音がその音源から発せられているか否かを判定することにより、収集された音が認識対象音か類似音かを判別する例が示されている。すなわち、第2の実施形態においては、音特性計測手段101は、音源位置推定部51、イベント音記録部52、類似音判定部54により実現されている。
【0106】
また、例えば、上述の第3の実施形態では、音特性として、周波数の分布を用いる例が示されている。具体的には、集音手段から得られた音のデータが有する周波数の分布を示す情報を基に、認識対象音または類似音にのみ現れる特性の有無を判定することにより、収集された音が認識対象音か類似音かを判別する例が示されている。すなわち、第3の実施形態においては、音特性計測手段101は、周波数解析部61により実現されている。
【0107】
また、本発明による音判定システムは、複数の集音手段(例えば、マイクロフォン11〜1−11〜n)の各々の位置を示す集音位置情報を記憶する集音位置情報記憶手段(例えば、マイクロフォン位置データベース22)と、複数の集音手段により収集された音のデータと集音位置情報とに基づいて、集音手段が配された所定の空間内における音圧の分布を示す音圧分布情報を作成する音圧分布情報作成手段(例えば、音圧比較部21)と、音圧分布情報作成手段によって作成された音圧分布情報に基づいて、収集された音が認識対象音であるか類似音であるかを判定する類似音判別手段(例えば、類似音判別部23)とを備えていてもよい。
【0108】
そのような構成によれば、音そのものの周波数帯域や特徴からは認識対象音と類似音とを区別できない場合であっても、音の発生位置の相違や発生位置からの音の広がり方の相違を利用して、認識対象音と類似音とを区別することができる。
【0109】
また、本発明による音判定システムは、複数の集音手段(例えば、マイクロフォン11−1〜11−n)の各々の位置を示す集音位置情報を記憶する集音位置情報記憶手段(例えば、マイクロフォン位置データベース22)と、複数の集音手段により収集された音のデータと集音位置情報とに基づいて、収集された音の音源の位置を推定する音源位置推定手段(例えば、音源位置推定部51)と、予め定められたイベントにより発生した音のデータと、その音について推定された音源の位置を示す推定音源位置情報とを対応づけて、履歴情報として保持するイベント音履歴記憶手段(例えば、イベント音データベース53)と、予め定められたイベントの発生を検知すると、複数の集音手段によって収集された音からイベントにより発生した音を切り出し、切り出した音のデータとその音について音源位置推定手段により推定された音源の位置を示す推定音源位置情報とを対応づけてイベント音履歴記憶手段に記憶させるイベント音記録手段(例えば、イベント音記録部52)と、複数の集音手段によって新たに収集された音のデータと推定音源位置情報の組と、イベント音履歴記憶手段に保持されている過去に収集された音のデータと推定音源位置情報の組みとに基づいて、今回収集した音と、音と同じ推定音源位置を有する過去のイベント音との間にある音の類似性の有無またはその度合いを判定する音類似判定手段(たとえば、音類似判定部54)と、音類似判定手段による判定結果に基づいて、収集された音が認識対象音であるか類似音であるかを判定する類似音判別手段(例えば、類似音判別部55)とを備えていてもよい。
【0110】
このような構成によれば、予め認識対象音を発する音源と類似音を発する音源の位置関係が不明な場合であっても、いずれかの音源の位置が変化しない場合には、認識対象音と類似音を区別することが可能である。
【0111】
また、本発明による音判定システムは、1つ以上の集音手段(例えば、マイクロフォン11)により収集された音のデータに基づいて、集音手段が配された所定の空間内における音の周波数の分布を解析する周波数解析手段(例えば、周波数解析部61)と、周波数解析手段による解析結果に基づいて、収集された音が認識対象音であるか類似音であるかを判定する類似音判別手段(例えば、類似音判別部62)とを備えていてもよい。
【0112】
このような構成によれば、音の発生位置関係だけでは認識対象音と類似音とを区別できない場合であっても、一方の音源からの音の周波数分布に現れる一定の限界等を利用して、認識対象音と類似音とを区別することが可能である。
【0113】
また、本発明による音判定システムは、上記の各音判定システムで示した音特性に基づく判別方法を組み合わせて構成することも可能である。
【0114】
また、本発明による音判定システムは、さらに、収集された音のデータから得られる音そのものの特徴量に基づいて、収集された音が認識対象音か否かを識別する音識別手段(例えば、図3に示す音認識システムや図4に示す音検出システム)と、音識別手段による識別結果と、類似音判別手段による判定結果とに基づいて、収集された音が認識対象音であるか否かを判定する判定手段(例えば、判定部35,43)とを備えていてもよい。
【0115】
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は、上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【産業上の利用可能性】
【0116】
本発明によれば、認識対象音と類似音とを容易に区別できるため、例えば、ラジオやテレビが動作している時であっても音声を認識しなくてはならないカーナビゲーションシステムや、ラジオやテレビが動作している時であっても機械の動作状況を確認しなくてはならない工場、事務所での異常検出システム等にも好適に適用可能である。
【符号の説明】
【0117】
11、11a、11b、11c マイクロフォン
21 音圧比較部
22 マイクロフォン位置データベース
23、55、62 類似音判別部
31 前処理部
32 特徴抽出部
33 識別部
34 識別辞書
35 判定部
41 イベント音検出部
51 音源位置推定部
52 イベント音記録部
53 イベント音データベース
54 音類似判定部
61 周波数解析部
121 花瓶
122、221、322 スピーカ
222、321 扉
101 音特性計測手段
102 類似音判別手段

【特許請求の範囲】
【請求項1】
1つ以上の集音手段によって収集された音のデータを用いて、前記集音手段が配された空間内の特性であって音源からの音に基づく音特性を計測する音特性計測手段と、
前記音特性計測手段によって計測された音特性が認識対象音の音特性と合致するか否かを判定して、収集された音が認識対象音であるか類似音であるかを判別する類似音判別手段とを備えた
ことを特徴とする音判定システム。
【請求項2】
音特性は、音圧の分布、同一音源位置における音の類似性の有無、および周波数の分布のうちの少なくとも1つである
請求項1に記載の音判定システム。
【請求項3】
複数の集音手段の各々の位置を示す集音位置情報を記憶する集音位置情報記憶手段と、
前記複数の集音手段により収集された音のデータと前記集音位置情報とに基づいて、前記集音手段が配された所定の空間内における音圧の分布を示す音圧分布情報を作成する音圧分布情報作成手段と、
前記音圧分布情報作成手段によって作成された音圧分布情報に基づいて、収集された音が認識対象音であるか類似音であるかを判定する類似音判別手段とを備えた
請求項1または請求項2に記載の音判定システム。
【請求項4】
複数の集音手段の各々の位置を示す集音位置情報を記憶する集音位置情報記憶手段と、
前記複数の集音手段により収集された音のデータと前記集音位置情報とに基づいて、収集された音の音源の位置を推定する音源位置推定手段と、
予め定められたイベントにより発生した音のデータと、その音について推定された音源の位置を示す推定音源位置情報とを対応づけて、履歴情報として保持するイベント音履歴記憶手段と、
予め定められたイベントの発生を検知すると、前記複数の集音手段によって収集された音から前記イベントにより発生した音を切り出し、切り出した音のデータとその音について前記音源位置推定手段により推定された音源の位置を示す推定音源位置情報とを対応づけて前記イベント音履歴記憶手段に記憶させるイベント音記録手段と、
前記複数の集音手段によって新たに収集された音のデータと推定音源位置情報の組と、前記イベント音履歴記憶手段に保持されている過去に収集された音のデータと推定音源位置情報の組みとに基づいて、今回収集した音と、前記音と同じ推定音源位置を有する過去のイベント音との間にある音の類似性の有無またはその度合いを判定する音類似判定手段と、
前記音類似判定手段による判定結果に基づいて、収集された音が認識対象音であるか類似音であるかを判定する類似音判別手段とを備えた
請求項1または請求項2に記載の音判定システム。
【請求項5】
1つ以上の集音手段により収集された音のデータに基づいて、前記集音手段が配された所定の空間内における音の周波数の分布を解析する周波数解析手段と、
前記周波数解析手段による解析結果に基づいて、収集された音が認識対象音であるか類似音であるかを判定する類似音判別手段とを備えた
請求項1または請求項2に記載の音判定システム。
【請求項6】
収集された音のデータから得られる音そのものの特徴量に基づいて、収集された音が認識対象音か否かを識別する音識別手段と、
前記音識別手段による識別結果と、類似音判別手段による判定結果とに基づいて、収集された音が認識対象音であるか否かを判定する判定手段とを備えた
請求項1から請求項5のうちのいずれか1項に記載の音判定システム。
【請求項7】
1つ以上の集音手段によって収集された音のデータを用いて、前記集音手段が配された空間内の特性であって音源からの音に基づく音特性を計測し、
計測された前記音特性が認識対象音の音特性と合致するか否かを判定して、収集された音が認識対象音であるか類似音であるかを判別する
ことを特徴とする音判定方法。
【請求項8】
音特性は、音圧の分布、同一音源位置における音の類似性の有無、および周波数の分布のうちの少なくとも1つである
請求項7に記載の音判定方法。
【請求項9】
コンピュータに、
1つ以上の集音手段によって収集された音のデータを用いて、前記集音手段が配された空間内の特性であって音源からの音に基づく音特性を計測する音特性計測処理、および
前記音特性計測処理で計測された音特性が認識対象音の音特性と合致するか否かを判定して、収集された音が認識対象音であるか類似音であるかを判別する類似音判別処理
を実行させるための音判定プログラム。
【請求項10】
コンピュータに、
音特性計測処理で、集音手段が配された所定の空間内における音圧の分布、該所定の空間内の同一音源位置における音の類似性の有無、および、該所定の空間内における音の周波数の分布のうちの少なくとも1つの音特性を計測させる
請求項9に記載の音判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2013−72919(P2013−72919A)
【公開日】平成25年4月22日(2013.4.22)
【国際特許分類】
【出願番号】特願2011−210203(P2011−210203)
【出願日】平成23年9月27日(2011.9.27)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】