説明

音声情報表示システム、音声情報表示方法、及び音声情報表示装置

【課題】カメラの死角及び映像では把握しにくい異常を効率的に提示する。
【解決手段】カメラと、音声が入力されるマイクと、マイクに入力された音声を処理する音声処理装置と、カメラによって撮影された映像を処理する映像処理装置と、映像を表示する表示装置を含む映像表示システムで、音声処理装置は、マイクに入力された音声を解析することによって音声認識結果を含む音声情報を生成し、生成された音声情報を映像処理装置に送信し、映像処理装置は、音声処理装置から受信した音声情報をカメラによって撮影された映像に合成し、音声情報が合成された映像を表示装置に表示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のカメラ及び複数のマイクを備える映像表示システムに関する。
【背景技術】
【0002】
WebカメラなどのIP接続可能な撮像装置が普及することにより、IPネットワークを利用した広域・大規模監視システムを構築することが可能となった。このような監視システムでは、大量の監視画像を取得することが可能となり、多角的なモニタリングが可能となる。最近では、監視モニタ端末の画面に、100台以上のカメラの映像を並べて表示し、監視業務を行うといった用途も存在する。
【0003】
しかし、広域エリアに死角無くカメラを設置しようとすると、多大なコストを必要とする上に、大量のモニタ装置が必要となり、効率的な監視システムを構成することが困難である。そこで、監視の必要性が高い箇所に撮影方向を制御可能なカメラを設置し、監視対象領域内で異常音が発生した方向にカメラを向けることによってカメラの死角を最小限に抑えて監視する技術が提案されている(特許文献1参照)。
【特許文献1】特開2006−254277号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかし、特許文献1に開示された技術では、不審者にカメラの動作を知られている場合には、物を投げて音を立てることによってカメラを不審者の行動範囲以外に向けることによって、不審者の位置が撮影範囲外となってしまうという問題がある。
【0005】
また、複数の方向で異常音が生じた場合には、カメラの方向を一意に決定することができないといった問題がある。その他、異常音が生じた方向にカメラを向けてしまうと、他の重要な場所が撮影できなくなってしまう危険性がある。通常、カメラの設置位置は重要な方向に向けられており、その方向の映像を撮影しつつ、周囲の情報を把握できることが好ましい。
【0006】
例えば、カメラの死角の情報を把握するために、マイクを設置することが考えられる。しかし、収集された音声をそのまま監視者に聴かせてしまうと、複数のマイクで同時に音声が発生した場合に状況把握が困難といった問題が生じたり、会話の内容を把握されてしまうことでプライバシーの侵害になってしまう可能性がある。
【0007】
本発明は、音声情報を活用しながら、プライバシーを侵害しないように配慮し、監視効率を低下させずにカメラの死角の情報を把握することを目的とする。
【課題を解決するための手段】
【0008】
本発明の代表的な一形態によれば、カメラと、音声が入力されるマイクと、前記カメラによって撮影された映像を表示する表示装置を含む音声情報表示システムであって、前記マイクに入力された音声に基づいて音声情報を生成する音声処理装置と、前記カメラによって撮影された映像を処理する映像処理装置と、を備え、前記音声処理装置は、前記マイクに入力された音声を解析することによって、前記表示装置に表示可能な音声認識結果を含む音声情報を生成し、前記生成された音声情報を前記映像処理装置に送信し、前記映像処理装置は、前記音声処理装置から受信した音声情報を前記カメラによって撮影された映像に合成し、前記音声情報が合成された映像を前記表示装置に表示する。
【発明の効果】
【0009】
本発明の一形態によれば、音声情報を合成(重畳)した映像を表示することによって、映像だけでは把握しにくいカメラの死角の状況を把握することができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明の実施の形態について図面を参照しながら説明する。
【0011】
図1は、本発明の実施の形態の音声情報表示監視システムの一例を示す構成図である。
【0012】
音声情報表示監視システムは、建造物内などに設置された複数のカメラ110及び複数のマイク111によって収集された映像情報及び音声情報を、監視センタ2の管理者又は監視員に提供する。
【0013】
本発明の実施の形態の音声情報表示監視システムは、複数のカメラ110と複数のマイク111を含む入力装置群(1A、1B)と、入力装置群を制御し、監視映像を表示する監視センタ2とを含む。
【0014】
監視センタ2には、音声処理PC3、カメラ制御PC4、表示PC5及び映像蓄積PC6を備える。
【0015】
音声処理PC3は、マイク111から音声を取得して音声情報を生成する。カメラ制御PC4は、カメラ110によって撮影された映像を取得し、表示PC5に取得された映像を送信する。
【0016】
表示PC5は、カメラ制御PC4から送信された映像に音声処理PC3によって生成された音声情報を合成(重畳)した監視映像を生成する。音声処理PC3から映像に対応する音声情報が送信されていない場合には、カメラ制御PC4から送信された映像を監視映像とする。なお、生成された音声情報には、取得された音声を解析することによって推定されたイベントに関する情報などが含まれる。
【0017】
表示PC5には、監視映像を表示するモニタ装置50が接続される。モニタ装置50は、複数のカメラ110に対応する監視映像をカメラ別に並べて表示することができる。管理者又は監視員は、モニタ装置50に表示される映像を監視する。映像蓄積PC6は、監視映像を記憶装置に蓄積する。
【0018】
表示PC5では、前述したように、音声処理PC3から音声情報を受信すると、当該音声情報に対応するイベントが発生したマイク付近のカメラ110の映像に当該イベントの情報を重畳した監視映像をモニタ装置50に表示する。マイク111は所定の位置に固定され、かつ、所定のカメラ110に対応づけられている。マイク111によって取得された音声を処理することによって得られる音声情報(イベント情報)を、対応するカメラ110によって撮影された映像に合成してモニタ装置50に表示させることによって、カメラの死角で発生した出来事及び映像では気づきにくい変化などを監視することができる。また、表示PC5では、管理者によって指定されたカメラ110の映像を高精細度で表示することができる。
【0019】
以下、各構成の詳細について説明する。
【0020】
<入力装置群の構成>
入力装置群(1A、1B)は、監視センタ2によって管理される。各入力装置群は建造物などの所定の領域(例えば、各フロア)ごと、あるいは、カメラ又はマイクの台数ごとに設定される。入力装置群には、複数のカメラ110及び複数のマイク111が含まれる。なお、以下の説明では、各入力装置群の構成は同様であるので、同一の要素に同一の符号を付して重複した説明を省略する。
【0021】
カメラ110の台数とマイク111の台数とは、同じである必要はなく、相違していてもよい。さらに、カメラ110とマイク111とを同じ位置に設置してもよいし、別の位置に設置してもよい。カメラ110とマイク111とは、一体型の構成となっていてもよいし、別の筐体であってもよい。
【0022】
所定の位置に設置されたカメラ110は、所定のフレームレートで所定の解像度の動画を撮影する。撮影された動画(映像)は、通信網100を介して送信される。通信網100は、ネットワークケーブル又は専用ケーブルなどによって構成される。
【0023】
カメラ110は、通信網100を介してカメラ制御PC4に接続される。カメラ110は、例えば、ネットワークに接続可能なIPカメラなどである。カメラ110は、外部からの要求に応じて映像を出力するカメラであっても、カメラ側から一方的に映像を出力するカメラであってもよい。
【0024】
所定の位置に設置されたマイク111は、通信網100を介して、音声処理PC3に接続される。なお、マイク111から音声処理PC3に音声を送信可能であれば、他の通信手段であってもよい。マイク111は、マイクロホンアレイなど、装置単独で音源方向の特定が可能なマイクであってもよい。
【0025】
カメラ110及びマイク111は、拠点ごとに複数設置されている。カメラ110の位置情報は、カメラ制御PC4によって管理される。マイク111の位置情報は、音声処理PC3によって管理される。
【0026】
<監視センタの構成>
次に、監視センタ2の構成要素(音声処理PC3、カメラ制御PC4、表示PC5及び映像蓄積PC6)について、図1から図5を参照しながら説明する。
【0027】
図2は、本発明の実施の形態の音声処理PC3の構成の一例を示す図である。
【0028】
音声処理PC3は、前述のように、マイク111から取得した音声を解析することによってイベント情報を含む音声情報を生成し、生成された音声情報を表示PC5に送信する。音声処理PC3は、CPU201、メモリ202、入力部203、通信部204及び記憶部210を含む計算機である。
【0029】
CPU201は、メモリ202に記憶されたプログラムを処理することによって、各種処理を実行する。メモリ202は、CPU201によって実行されるプログラム及び当該プログラムを実行するために必要なデータを記憶する。
【0030】
入力部203は、利用者などからの情報の入力を受け付けるためのインタフェースである。具体的には、キーボード又はマウスなどの入力機器である。通信部204は、外部の機器と通信するためのインタフェースである。例えば、ネットワークインタフェースカードである。音声処理PC3は、通信部204を介して通信網100に接続されたマイク111から音声情報の入力を受け付ける。
【0031】
記憶部210は、音声の処理に必要なプログラム及びデータを格納する。具体的には、記憶部210には、OS211、マイク管理情報212、異常音声データ213、異常会話データ214、音声取得プログラム215、音声有無判定プログラム216、音源方向推定プログラム217、音声種別判定プログラム218、音声認識プログラム219及びイベント通知プログラム220が格納される。
【0032】
OS211は、各種プログラムを実行するために必要なオペレーティングシステムである。
【0033】
マイク管理情報212は、設置されたマイク111の識別情報及び設置情報などが格納される。マイク管理情報212の詳細については、図8にて説明する。
【0034】
異常音声データ213は、マイク111に入力された音声の種別を特定するための情報である。例えば、マイク111に入力された音声が足音であることを識別したり、破壊音などの異常音であることを識別したりするための情報である。異常音声データ213の詳細については、図10にて説明する。
【0035】
異常会話データ214は、マイク111に入力された音声が会話である場合に、会話に不審な言葉が含まれているか否かを判定するための情報が格納される。不審者の会話及び緊急時の会話などに含まれる単語又は言葉が会話に含まれているか否かを判定することによって発生したイベントに問題があるか否かを判定する。異常会話データ214の詳細については、図11にて説明する。
【0036】
音声取得プログラム215は、マイク111から音声を取得する。音声有無判定プログラム216は、マイク111に音声が入力されたか否かを判定する。
【0037】
音源方向推定プログラム217は、マイク111に入力された音声及びマイク管理情報212に基づいて、当該音声の音源の方向を推定する。
【0038】
音声種別判定プログラム218は、マイク111に入力された音声及び異常音声データ213に基づいて、音声の種別を判定する。音声の種別は、当該音声が発せられた原因となったイベントに対応する。
【0039】
音声認識プログラム219は、マイク111に入力された音声の種別が会話である場合に、会話の内容及び異常会話データ214に基づいて、会話に異常の可能性が高い単語が含まれているか否かを判定する。
【0040】
イベント通知プログラム220は、音声取得プログラム215、音源方向推定プログラム217、音声種別判定プログラム218及び音声認識プログラム219によって生成されたイベント情報を含む音声情報を表示PC5に送信する。
【0041】
図3は、本発明の実施の形態のカメラ制御PC4の構成の一例を示す図である。
【0042】
カメラ制御PC4は、前述のように、カメラ110から映像を取得し、映像を表示PC5に送信する。カメラ制御PC4は、CPU301、メモリ302、入力部303、通信部304及び記憶部310を含む計算機である。
【0043】
CPU301は、メモリ302に記憶されたプログラムを処理することによって、各種処理を実行する。メモリ302は、CPU301によって実行されるプログラム及び当該プログラムを実行するために必要なデータを記憶する。
【0044】
入力部303は、管理者又は監視員などによる入力を受け付けるためのインタフェースである。具体的には、キーボード又はマウスなどの入力機器である。通信部304は、外部の機器と通信するためのインタフェースである。例えば、ネットワークインタフェースカードである。カメラ制御PC4は、通信部304を介して通信網100に接続されたカメラ110から映像の入力を受け付ける。
【0045】
記憶部310は、映像を取得又は送信するために必要なプログラム及びデータを格納する。具体的には、記憶部310には、OS311、カメラ管理情報312、カメラ映像取得プログラム313及びカメラ映像送信プログラム314が格納される。
【0046】
OS311は、各種プログラムを実行するために必要なオペレーティングシステムである。
【0047】
カメラ管理情報312は、設置されたカメラ110の識別情報及び設置情報などが格納される。カメラ管理情報312の詳細については、図9にて説明する。
【0048】
カメラ映像取得プログラム313は、指定されたカメラ110によって撮影された映像を取得する。カメラ映像送信プログラム314は、表示PC5に映像を送信する。
【0049】
図4は、本発明の実施の形態の表示PC5の構成の一例を示す図である。
【0050】
表示PC5は、音声処理PC3から送信された音声情報を、カメラ110によって撮影された映像に重畳して表示する。表示PC5は、CPU401、メモリ402、入力部403、表示部404、通信部405及び記憶部410を含む計算機である。
【0051】
CPU401は、メモリ402に記憶されたプログラムを処理することによって、各種処理を実行する。メモリ402は、CPU401によって実行されるプログラム及び当該プログラムを実行するために必要なデータを記憶する。
【0052】
入力部403は、利用者などからの情報の入力を受け付けるためのインタフェースである。具体的には、キーボード又はマウスなどの入力機器である。例えば、映像を表示するカメラ110の指定を受け付ける。
【0053】
表示部404は、音声処理PC3から送信された音声情報を、カメラ制御PC4から受信した映像に重畳した映像信号を出力し、モニタ装置50に表示させる。
【0054】
通信部405は、外部の機器と通信するためのインタフェースである。例えば、ネットワークインタフェースカードである。表示PC5は、通信部405を介して通信網100に接続された音声処理PC3及びカメラ制御PC4から送信された音声情報及び映像の入力を受け付ける。
【0055】
記憶部410は、映像を表示するために必要なプログラム及びデータを格納する。具体的には、記憶部410には、OS411、イベント取得プログラム412、映像処理プログラム413、表示制御プログラム414、映像蓄積プログラム415及び蓄積映像取得プログラム416が格納される。
【0056】
OS411は、各種プログラムを実行するために必要なオペレーティングシステムである。
【0057】
イベント取得プログラム412は、音声処理PC3によって送信されたイベント情報を含む音声情報を取得する。映像処理プログラム413は、カメラ制御PC4から受信した映像情報に音声情報を重畳した映像を生成する。
【0058】
表示制御プログラム414は、映像情報の表示を制御する。例えば、複数のカメラ110によって撮影された映像を同時に表示したり、指定されたカメラ110によって撮影された映像を拡大して表示したりする。
【0059】
映像蓄積プログラム415は、表示PC5で受信した映像及び音声情報を映像蓄積PC6に送信する。蓄積映像取得プログラム416は、映像蓄積PC6に蓄積された映像及び音声情報を取得する。
【0060】
図5は、本発明の実施の形態の映像蓄積PC6の構成の一例を示す図である。
【0061】
映像蓄積PC6は、CPU501、メモリ502、入力部503、通信部504及び記憶部510を含む計算機である。映像蓄積PC6は、表示PC5で表示された映像を格納する。さらに、取得した映像に音声情報が重畳されている場合には、映像に対応する音声及び音声情報を格納する。表示PC5は、映像蓄積PC6に格納された映像データ及び音声データを随時取得し、閲覧することができる。
【0062】
CPU501は、メモリ502に記憶されたプログラムを処理することによって、各種処理を実行する。メモリ502は、CPU501によって実行されるプログラム及び当該プログラムを実行するために必要なデータを記憶する。
【0063】
入力部503は、管理者又は監視員などによる入力を受け付けるためのインタフェースである。具体的には、キーボード又はマウスなどの入力機器である。通信部504は、外部の機器と通信するためのインタフェースである。例えば、ネットワークインタフェースカードである。映像蓄積PC6は、通信部504を介して通信網100に接続された表示PC5から映像データ及び音声情報データを受信する。
【0064】
記憶部510は、映像データ512及び音声情報データ513を格納する。さらに、映像及び音声情報を蓄積及び管理するために必要なプログラム及びデータを格納する。具体的には、記憶部510には、OS511、映像蓄積プログラム514、映像検索プログラム515及びデータ管理プログラム516が格納される。
【0065】
OS511は、各種プログラムを実行するために必要なオペレーティングシステムである。
【0066】
映像データ512は、カメラ110によって撮影された映像であって、カメラ制御PC4及び表示PC5を経由して映像蓄積PC6に送信される。
【0067】
音声情報データ513は、マイク111に入力された音声及び当該音声を基に生成された情報であって、音声処理PC3から表示PC5を経由して映像蓄積PC6に送信される。
【0068】
映像蓄積プログラム514は、表示PC5から送信された映像及び音声情報を受信し、記憶部510に格納する。映像検索プログラム515は、指定された映像を検索し、映像データ512及び音声情報データ513を取得し、表示PC5に送信する。
【0069】
データ管理プログラム516は、映像データ512及び音声情報データ513を管理するためのプログラムである。データ管理プログラム516は、汎用プログラムであってもよいし、映像データ512及び音声情報データ513の管理に特化した専用プログラムであってもよい。
【0070】
なお、音声処理PC3、カメラ制御PC4、表示PC5、及び映像蓄積PC6を、1台又は複数台のPCに集約して音声情報表示監視システムを構成してもよい。
【0071】
図8は、本発明の実施の形態のマイク管理情報212の一例を示す図である。
【0072】
マイク管理情報212には、マイクID801、アドレス802、拠点ID803、設置位置804、及び周辺カメラID805が含まれる。
【0073】
マイクID801は、マイク111の識別子である。アドレス802は、マイク111のアクセス先情報である。本発明の実施の形態では、アクセス先情報としてIPアドレスを利用している。
【0074】
拠点ID803は、マイク111が設置された拠点の識別子である。設置拠点は、例えば、入力装置群が設置されている建物又は部屋などに対応する。設置位置804は、設置拠点内の設置位置を示す情報である。具体的には、マイク111の設置された座標などで表される。本発明の実施の形態では、さらに、マイク111の設置角度が含まれる。周辺カメラID805は、マイクID801によって識別されるマイク111の周辺に設置されたカメラ110の識別子である。
【0075】
図9は、本発明の実施の形態のカメラ管理情報312の一例を示す図である。
【0076】
カメラ管理情報312には、カメラID901、アドレス902、拠点ID903、設置位置904、及び周辺マイクID905が含まれる。
【0077】
カメラID901は、カメラ110の識別子である。アドレス902は、カメラ110のアクセス先情報である。本発明の実施の形態では、マイク111と同様に、アクセス先情報としてIPアドレスを利用している。
【0078】
拠点ID903は、カメラ110が設置された拠点の識別子である。設置拠点は、マイク111と同様に、入力装置群が設置されている建物又は部屋などに対応する。設置位置904は、設置拠点内の設置位置を示す情報である。設置位置904は、マイク111の設置位置804と同様に、座標及び設置角度によって構成される。周辺マイクID905は、カメラID901によって識別されるカメラ110の周辺に設置されたマイク111の識別子である。
【0079】
図10は、本発明の実施の形態の異常音声データ213の一例を示す図である。
【0080】
異常音声データ213には、音声ID1001、音声種別1002及び重要度1003が含まれる。
【0081】
音声ID1001は、音声種別の識別子である。音声種別1002は、マイク111に入力された音声の種類である。例えば、会話又は足音などの平常時に発せられる音声であったり、悲鳴又は打撃音などの異常が発生した場合に発せられる可能性が高い音声であったりする。
【0082】
重要度1003は、音声種別1002の重要度であって、異常の可能性が高い種類の音声ほど、高い重要度が設定される。本発明の実施の形態では、1から5までの値が設定されるが、さらに細分化して設定してもよい。
【0083】
図11は、本発明の実施の形態の異常会話データ214の一例を示す図である。
【0084】
異常会話データ214には、会話ID1101、テキスト1102、読み1103及び重要度1104が含まれる。
【0085】
会話ID1101は、会話に含まれる単語又は言葉を識別する識別子である。テキスト1102は、会話に含まれる単語又は言葉である。テキスト1102には、主に不審な行為に想起させる言葉(異常音声)が登録される。
【0086】
読み1103は、テキスト1102の読みを示す情報である。異常音声は、マイク111から収集された音声種別が「会話」である場合に、会話の内容から読み1103に一致する単語又は言葉を取得することによって抽出される。
【0087】
重要度1104は、会話内容の重要度であって、異常の可能性が高い音声情報ほど、高い重要度が設定される。本発明の実施の形態では、異常音声データ213と同様に、1から5までの値が設定されている。
【0088】
<処理手順>
続いて、本発明の実施の形態の音声情報表示監視システムの各処理の手順について説明する。まず、音声処理PC3によって、マイク111から入力された音声を処理する手順について説明する。
【0089】
図6は、本発明の実施の形態のマイク111に入力された音声から音声情報を生成する手順を示すフローチャートである。
【0090】
音声処理PC3のCPU201は、まず、音声取得プログラム215を実行することによって、マイク管理情報212に基づいて各マイク111から音声データを取得する(S601)。なお、ステップS601における音声取得処理は、マイク111から一方的に送信される音声を受信する方式であってもよいし、音声処理PC3からの音声取得要求に応じてマイク111から音声を受信する方式であってもよい。
【0091】
音声処理PC3のCPU201は、次に、音声有無判定プログラム216を実行することによって、ステップS601の処理で取得された音声データに音声が含まれているか否かを判定する(S602)。
【0092】
音声処理PC3のCPU201は、ステップS602の判定結果に基づいて、音声データに音声が含まれているか否かを判定する(S603)。音声有無の判定は、事前に定めた時間の音声を取得し、取得された時間の音声データに事前に定めた音圧レベル以上の音声が含まれているか否かを判定する。また、マイク111ごとに異なる音圧レベルの閾値を設けてもよい。
【0093】
音声処理PC3のCPU201は、取得された音声データが無音区間である場合には(S603の結果が「N」)、音声取得のステップS601の処理に戻る。
【0094】
一方、音声処理PC3のCPU201は、取得された音声データに音声が含まれている場合には(S603の結果が「Y」)、音源方向推定プログラム217を実行することによって、マイク111で取得された音声の音源方向を推定する(S604)。音源方向の推定は、特開2008−92512号公報に開示されているように、複数のマイクによって得られた情報に基づいて方向を推定してもよい。
【0095】
また、音源の方向を取得する別の方法としては、音圧が最大となるマイクを取得し、図8に示したマイク管理情報212及び図9に示したカメラ管理情報312に基づいて、音源の方向を推定するようにしてもよい。
【0096】
カメラ110及びマイク111の位置情報を用いて音源の方向を推定する方法では、事前にカメラとマイクを同じ場所として扱うか否かを判定するための閾値距離Xを設定しておく。そして、音圧が一定以上のマイク111がカメラ110から距離X以上離れている場合には、音源の位置を特定することが困難なため、マイクの位置を音源位置とする。図12を参照しながらさらに詳しく説明する。
【0097】
図12は、本発明の実施の形態のカメラ110及びマイク111の設置レイアウトの一例を示す図である。
【0098】
図12に示すレイアウトでは、3台のカメラ110(C01〜C03)及び4台のマイク111(M01〜M04)が設置されている。
【0099】
ここで、マイクM04の音圧が高い場合には、まず、図8に示したマイク管理情報212に基づいてカメラC03を周辺カメラと特定する。さらに、マイクM04の設置位置804及びカメラC03の設置位置904に基づいて、マイクM04とカメラC03との間の距離を算出する。算出された距離がX以上離れていた場合には、カメラC03に対する音源の方向は、真下方向、つまり270°とする。
【0100】
また、マイクM03の音圧が高い場合には、同様に、カメラC03が周辺カメラと特定する。そして、マイクM03とカメラC03との間の距離がX以下であれば、カメラC03に対する音源の方向はマイクM03で推定される音源の方向となる。
【0101】
なお、同じ位置に設置されていても、カメラ110とマイク111の方向が異なっている場合は、マイク管理情報212及びカメラ管理情報312に登録されている設置位置の情報に基づいて角度を補正する。
【0102】
ここで、図6の音声情報を取得する手順を示すフローチャートの説明に戻る。
【0103】
音声処理PC3のCPU201は、音源方向の推定が完了すると、音声種別判定プログラム218を実行することによって、異常音声データ213に基づいて、破壊音又は足音などの音声の種別を推定する(S605)。ステップS605の音声種別を推定する処理は、公知技術を利用することができる。例えば、特開2001−312292公報には、音声のスペクトル情報を利用することによって、音声の種別を取得する技術が開示されている。
【0104】
さらに、音声処理PC3のCPU201は、音声の種別が会話か否かを判定する(S606)。音声の種別が会話と判定された場合には(S606の結果が「Y」)、音声認識プログラム219を実行することによって、会話内容の所定のテキストが含まれているかを判定することによって会話内容を認識する(S607)。所定のテキストとは、図11に示した異常会話データ214に含まれるテキスト1102である。
【0105】
音声認識には、音声認識の分野で広く知られているHMM(Hidden Markov Model)に基づいた方式などを利用することができる。例えば、特開2008―58503には、音声認識の対象となる発話者と他者との会話が常時存在し得る環境下で、発話者の発話部分のみある程度の信頼性で音声認識が可能な方法が開示されている。
【0106】
また、一般に公開されているオープンソースの音声認識ソフトウェアJulius(http://julius.sourceforge.jp)などを利用することも可能である。なお、音声の内容を示す情報であれば、抑揚情報などの音響情報に基づいて会話の危険度を取得するなど言葉以外の情報を取得してもよい。
【0107】
音声処理PC3のCPU201は、次に、イベント通知プログラム220を実行することによって、ステップS604からS607の処理で取得された音声情報を、表示PC5に送信する(S608)。なお、音声情報を送信することによってイベントを通知する際には、マイク111を識別するための識別子及び対応するカメラ110の識別子も併せて送信する。
【0108】
音声処理PC3のCPU201は、次に、終了指示を受け付けたか否かを判定する(S609)。終了指示を受け付けた場合には(S609の結果が「Y」)、本処理を終了する。終了指示を受け付けていない場合には(S609の結果が「N」)、ステップS601の処理に戻り、本処理を継続して実行する。
【0109】
続いて、音声情報が付与された監視映像をモニタ装置50に表示する手順について説明する。
【0110】
図7は、本発明の実施の形態の音声情報が付与された監視映像を生成及び表示する手順を示すフローチャートである。
【0111】
まず、カメラ制御PC4のCPU301は、カメラ映像取得プログラム313を実行することによって、カメラ管理情報312を参照し、カメラ110から映像を取得する(S701)。さらに、カメラ映像送信プログラム314を実行し、表示PC5に映像を送信する。なお、映像を取得する方式は、カメラ制御PC4からカメラ110に映像取得要求を送信して映像を取得する方式であってもよいし、カメラ110からカメラ制御PC4に一方的に送信される映像を取得する方式であってもよい。
【0112】
次に、表示PC5のCPU401は、イベント取得プログラム412を実行することによって、音声処理PC3によって送信された音声情報を取得する(S702)。さらに、音声情報を受信したか否かに基づいて、イベントの有無を判定する(S703、S704)。
【0113】
本発明の実施の形態では、表示PC5のCPU401は、カメラ110によって撮影された監視映像をカメラ制御PC4から受信し、当該監視映像を撮影したカメラ110の識別情報などとともに表示する。表示PC5のCPU401は、イベントがあったと判定された場合には(S704の結果が「Y」)、映像処理プログラム413を実行し、音声処理PC3から受信した音声情報を映像データにさらに重畳する(S705)。
【0114】
映像情報に重畳される音声情報は、例えば、矢印など音源の方向を示す記号、及び音声の種別を示す情報である。さらに、会話から異常会話データ214で指定された言葉が抽出された場合には、音声種別情報とともに抽出された言葉を監視映像に重畳させる。
【0115】
なお、監視映像に音声情報を重畳させる期間は、イベント発生時から事前に設定された時間内とする。また、重要度に応じて、文字の大きさ又は色などを変更して音声情報を表示するようにしてもよい。また、音圧の大きさ又は周波数成分ごとの音の分布など、音声の性質を示す情報を表示してもよい。さらに、複数の映像が表示され、重要度が大きいイベントが発生した場合には、当該イベントが発生している映像が表示されている領域の枠を強調するなどして、管理者の注意を引くように表示してもよい。以下、図13を参照しながら表示PC5によって表示される監視映像の一例について説明する。
【0116】
図13は、本発明の実施の形態の表示PC5によって表示される監視映像を表示した画面の一例を示す図である。
【0117】
図13に示す画面の一例では、表示制御プログラム414によって、表示対象のカメラの映像を並べた複数の映像を表示している。表示される映像の数は、設置されたカメラ110の数としてもよい。設置されたカメラ110の数が画面に表示可能な映像の数Mを超えている場合には、管理者が選択した画面、又は音声入力イベントを直前に受信したM個の映像を並べて表示してもよい。
【0118】
各画像には、「拠点A」「拠点B」などの撮影の拠点を示す情報が表示されている。さらに、撮影しているカメラ110の詳細な設置位置を表示してもよいし、カメラ110の識別情報を表示するようにしてもよい。
【0119】
また、映像132などには、音声処理PC3から受信した音声情報が表示されている。映像132には、マイク111によって通行人の足音を検知し、音声処理PC3が表示PC5に通知した結果、音声情報として、音声種別「足音」と、通行人の方向を指す矢印が表示されている。
【0120】
また、映像133では、拠点Aにおいて、画面との相対位置で右方向に「危ない」という会話が検知されている。また、映像136及び映像137では、拠点Bにおいて、カメラ110の死角で衝撃音が発生し、異常が発生していることを確認することができる。
【0121】
特に、衝撃音などの重要度の高い異常音声を検知した場合には、図13の映像136及び映像137に示すように、映像を表示した枠を強調して表示するなどして管理者の注意を引くようにしている。
【0122】
ここで、図7の監視映像を生成及び表示する手順を示すフローチャートの説明に戻る。
【0123】
表示PC5のCPU401は、表示制御プログラム414を実行することによって、図13に示したように、カメラ110によって撮影された映像を並べた表示用映像を生成する(S706)。さらに、表示部404(モニタ装置50)に生成された表示用映像を出力する(S707)。
【0124】
次に、表示PC5のCPU401は、映像蓄積プログラム415を実行することによって、表示PC5から映像蓄積PC6に映像及び音声情報を送信する。映像蓄積PC6のCPU501は、映像蓄積プログラム514を実行することによって、表示PC5から送信された映像及び音声情報を映像データ512及び音声情報データ513に蓄積する(S708)。
【0125】
また、表示PC5のCPU401は、蓄積映像取得プログラム416を実行することによって、映像蓄積PC6に蓄積された過去の監視映像を表示することができる。表示PC5のCPU401は、過去の監視映像の指定を表示するために入力された撮影日時などの条件を映像蓄積PC6に送信する。
【0126】
映像蓄積PC6のCPU501は、映像検索プログラム515を実行することによって、指定された条件を満たす映像データ512及び音声情報データ513を検索し、表示PC5に送信する。表示PC5のCPU401は、受信した映像データ及び音声データに基づいて要求された映像を表示する。
【0127】
なお、映像蓄積PC6のCPU501は、記憶部510の空き容量が事前に定めた閾値よりも少なくなった場合には、古い映像及び音声情報を消去することによって、空き容量が閾値以上になるようにする。
【0128】
最後に、表示PC5のCPU401は、管理者から終了指示を受け付けたか否かを判定する(S709)。管理者から終了指示を受け付けた場合には(S710の結果が「Y」)、本処理を終了する。管理者から終了指示を受け付けていない場合には(S710の結果が「N」)、ステップS701の処理に戻り、映像データを取得する処理から継続して本処理を実行する。
【0129】
本発明の実施の形態によれば、多数のカメラによって撮影された映像に音声情報を重畳して表示することができる。したがって、カメラ110の死角で発生した異常及び映像では把握しにくい異常を視覚的に表示することができるため、効率よく監視対象を監視することができる。
【0130】
また、本発明の実施の形態によれば、音声の種別及び異常会話の認識結果を表示することによって、会話の具体的な内容を表示してプライバシーを侵害する可能性を少なくすることができる。
【図面の簡単な説明】
【0131】
【図1】本発明の実施の形態の音声情報表示監視システムの一例を示す構成図である。
【図2】本発明の実施の形態の音声処理PCの構成の一例を示す図である。
【図3】本発明の実施の形態のカメラ制御PCの構成の一例を示す図である。
【図4】本発明の実施の形態の表示PCの構成の一例を示す図である。
【図5】本発明の実施の形態の映像蓄積PCの構成の一例を示す図である。
【図6】本発明の実施の形態のマイクに入力された音声から音声情報を生成する手順を示すフローチャートである。
【図7】本発明の実施の形態の音声情報が付与された監視映像を生成及び表示する手順を示すフローチャートである。
【図8】本発明の実施の形態のマイク管理情報の一例を示す図である。
【図9】本発明の実施の形態のカメラ管理情報の一例を示す図である。
【図10】本発明の実施の形態の異常音声データの一例を示す図である。
【図11】本発明の実施の形態の異常会話データの一例を示す図である。
【図12】本発明の実施の形態のカメラ及びマイクの設置レイアウトの一例を示す図である。
【図13】本発明の実施の形態の表示PCによって表示される監視映像を表示した画面の一例を示す図である。
【符号の説明】
【0132】
1 入力装置群
2 監視センタ
3 音声処理PC
4 カメラ制御PC
5 表示PC
6 映像蓄積PC
50 モニタ
100 通信網
110 カメラ
111 マイク
201 CPU
202 メモリ
203 入力部
204 通信部
210 記憶部
211 OS
212 マイク管理情報
213 異常音声データ
214 異常会話データ
215 音声取得プログラム
216 音声有無判定プログラム
217 音源方向推定プログラム
218 音声種別判定プログラム
219 音声認識プログラム
220 イベント通知プログラム
301 CPU
302 メモリ
303 入力部
304 通信部
310 記憶部
311 OS
312 カメラ管理情報
313 カメラ映像取得プログラム
314 カメラ映像送信プログラム
401 CPU
402 メモリ
403 入力部
404 表示部
405 通信部
410 記憶部
411 OS
412 イベント取得プログラム
413 映像処理プログラム
414 表示制御プログラム
415 映像蓄積プログラム
416 蓄積映像取得プログラム
501 CPU
502 メモリ
503 入力部
504 通信部
510 記憶部
511 OS
512 映像データ
513 音声情報データ
514 映像蓄積プログラム
515 映像検索プログラム
516 データ管理プログラム

【特許請求の範囲】
【請求項1】
カメラと、音声が入力されるマイクと、前記カメラによって撮影された映像を表示する表示装置を含む音声情報表示システムであって、
前記マイクに入力された音声に基づいて音声情報を生成する音声処理装置と、
前記カメラによって撮影された映像を処理する映像処理装置と、を備え、
前記音声処理装置は、
前記マイクに入力された音声を解析することによって、前記表示装置に表示可能な音声認識結果を含む音声情報を生成し、
前記生成された音声情報を前記映像処理装置に送信し、
前記映像処理装置は、
前記音声処理装置から受信した音声情報を前記カメラによって撮影された映像に合成し、
前記音声情報が合成された映像を前記表示装置に表示することを特徴とする音声情報表示システム。
【請求項2】
前記音声情報表示システムは、前記音声の種類を含む音声種別情報を含み、
前記音声処理装置は、
前記音声種別情報に基づいて、前記マイクに入力された音声の種類を推定し、
前記推定された音声の種類を含む音声情報を生成することを特徴とする請求項1に記載の音声情報表示システム。
【請求項3】
前記音声種別情報には、前記音声の種類ごとに重要度が設定され、
前記映像処理装置は、前記重要度に基づいて、前記音声情報を表示することを特徴とする請求項2に記載の音声情報表示システム。
【請求項4】
前記音声情報表示システムは、あらかじめ指定された単語を含む異常会話情報を含み、
前記音声処理装置は、
前記推定された音声の種類が会話である場合には、前記マイクに入力された音声を認識することによって、会話の内容を示す情報を生成し、
前記異常会話情報に含まれる単語が前記会話の内容を示す情報に含まれている場合には、前記異常会話情報に基づいて、前記音声情報を生成することを特徴とする請求項2に記載の音声情報表示システム。
【請求項5】
前記異常会話情報には、前記単語ごとに重要度が設定され、
前記映像処理装置は、前記重要度に基づいて、前記音声情報を表示することを特徴とする請求項4に記載の音声情報表示システム。
【請求項6】
前記音声情報表示システムは、前記マイクが設置された位置を含むマイク管理情報を含み、
前記音声処理装置は、
前記マイク管理情報に基づいて、前記マイクに入力された音声の音源の位置を推定し、
前記マイクに入力された音声の音源の位置を示す情報を含む音声情報を生成することを特徴とする請求項1に記載の音声情報表示システム。
【請求項7】
前記音声情報表示システムは、さらに、前記カメラが設置された位置を含むカメラ管理情報を含み、
前記音声処理装置は、前記音声が入力されたマイクと前記音声情報が合成される映像を撮影したカメラとの距離が所定の閾値よりも大きい場合には、前記音声が入力されたマイクが設置された方向を前記音源の位置を示す情報とすることを特徴とする請求項6に記載の音声情報表示システム。
【請求項8】
前記音声情報には、前記マイクに入力された音声の音圧を示す情報が含まれることを特徴とする請求項1に記載の音声情報表示システム。
【請求項9】
前記映像処理装置は、前記カメラによって撮影された映像を複数表示する場合には、前記音声情報が合成された映像を優先して表示することを特徴とする請求項1に記載の音声情報表示システム。
【請求項10】
前記音声情報表示システムは、前記カメラによって撮影された映像を格納する記憶部を備えた映像蓄積装置をさらに含み、
前記映像処理装置は、前記表示装置に表示する映像を前記映像蓄積装置に送信し、
前記映像蓄積装置は、
前記映像処理装置から送信された映像を前記記憶部に格納し、
前記記憶部に格納された映像の取得要求を受け付けた場合には、前記要求された映像を提供することを特徴とする請求項1に記載の音声情報表示システム。
【請求項11】
カメラと、音声が入力されるマイクと、前記マイクに入力された音声に基づいて音声情報を生成する音声処理装置と、前記カメラによって撮影された映像を処理する映像処理装置と、前記映像処理装置によって処理された映像を表示する表示装置を含む映像表示システムにおける音声情報表示方法であって、
前記音声処理装置は、
前記マイクに入力された音声を解析することによって、前記表示装置に表示可能な音声認識結果を含む音声情報を生成し、
前記生成された音声情報を前記映像処理装置に送信し、
前記映像処理装置は、
前記音声処理装置から受信した音声情報を前記カメラによって撮影された映像に合成し、
前記音声情報が合成された映像を前記表示装置に表示することを特徴とする音声情報表示方法。
【請求項12】
前記映像表示システムは、前記音声の種類を含む音声種別情報を含み、
前記音声処理装置は、
前記音声種別情報に基づいて、前記マイクに入力された音声の種類を推定し、
前記推定された音声の種類を含む音声情報を生成することを特徴とする請求項11に記載の音声情報表示方法。
【請求項13】
前記音声種別情報には、前記音声の種類ごとに重要度が設定され、
前記映像処理装置は、前記重要度に基づいて、前記音声情報を表示することを特徴とする請求項12に記載の音声情報表示方法。
【請求項14】
前記映像表示システムは、あらかじめ指定された単語を含む異常会話情報を含み、
前記音声処理装置は、
前記推定された音声の種類が会話である場合には、前記マイクに入力された音声を認識することによって、会話の内容を示す情報を生成し、
前記異常会話情報に含まれる単語が前記会話の内容を示す情報に含まれている場合には、前記異常会話情報に基づいて、前記音声情報を生成することを特徴とする請求項12に記載の音声情報表示方法。
【請求項15】
前記異常会話情報には、前記単語ごとに重要度が設定され、
前記映像処理装置は、前記重要度に基づいて、前記音声情報を表示することを特徴とする請求項14に記載の音声情報表示方法。
【請求項16】
前記映像表示システムは、前記マイクが設置された位置を含むマイク管理情報を含み、
前記音声処理装置は、
前記マイク管理情報に基づいて、前記マイクに入力された音声の音源の位置を推定し、
前記マイクに入力された音声の音源の位置を示す情報を含む音声情報を生成することを特徴とする請求項11に記載の音声情報表示方法。
【請求項17】
前記映像表示システムは、前記カメラが設置された位置を含むカメラ管理情報を含み、
前記音声処理装置は、前記音声が入力されたマイクと前記音声情報が合成される映像を撮影したカメラとの距離が所定の閾値よりも大きい場合には、前記音声が入力されたマイクが設置された方向を前記音源の位置を示す情報とすることを特徴とする請求項16に記載の音声情報表示方法。
【請求項18】
前記音声情報には、前記マイクに入力された音声の音圧を示す情報が含まれることを特徴とする請求項11に記載の音声情報表示方法。
【請求項19】
前記映像処理装置は、前記カメラによって撮影された映像を複数表示する場合には、前記音声情報が合成された映像を優先して表示することを特徴とする請求項11に記載の音声情報表示方法。
【請求項20】
カメラ及び音声が入力されるマイクに接続された音声情報表示装置であって、
前記マイクに入力された音声に基づいて音声情報を生成する音声処理部と、
前記カメラによって撮影された映像を処理する映像処理部と、
前記カメラによって撮影された映像を表示する表示部と、を備え、
前記音声処理部は、
前記マイクに入力された音声を解析することによって、前記表示装置に表示可能な音声認識結果を含む音声情報を生成し、
前記生成された音声情報を前記映像処理部に送信し、
前記映像処理部は、
前記音声処理部から受信した音声情報を前記カメラによって撮影された映像に合成し、
前記音声情報が合成された映像を前記表示部に表示することを特徴とする音声情報表示装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2010−183417(P2010−183417A)
【公開日】平成22年8月19日(2010.8.19)
【国際特許分類】
【出願番号】特願2009−26090(P2009−26090)
【出願日】平成21年2月6日(2009.2.6)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】