情報処理システム

【課題】サーバーの処理負荷をより軽減させた情報処理システムを提供する。
【解決手段】被写体を撮像して画像データを取得する撮像部１１を備えた端末１０と、撮像部１１による撮像により取得された画像データに基づいて被写体を識別するサーバー１１０とを備える情報処理システム１であって、端末１０は、画像データに対して所定のフィルター処理を施すフィルター処理部１４と、所定のフィルター処理が施された画像データをサーバー１１０に送信する通信部１５と、を備え、サーバー１１０は、送信された画像データを受信する通信部１１１と、受信された画像データと被写体の識別のための照合用データとの照合の結果に基づいて被写体を識別する制御部１１２と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報処理システム、特に、カメラ付携帯等の撮像手段を有する端末と、クラウドコンピューティング等のサーバーとを有する情報処理システムに関する。
【背景技術】
【０００２】
従来、顔や声等、個人に特有の特徴を示す画像データや音声データを用いて人物を識別する情報処理システムがある。かかる情報処理システムは、画像データや音声データを取得してサーバーへ送信する端末と、端末から送信された各種のデータに基づいて人物を識別する処理を行うサーバーとを備える（例えば、特許文献１）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００５−２３００１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来の情報処理システムでは、端末は画像データや音声データを単に送るのみであり、画像データや音声データに基づく全ての処理をサーバーが行っていたので、サーバーに大きな処理負荷がかかる問題点があった。
【０００５】
本発明の課題は、サーバーの処理負荷をより軽減させた情報処理システムを提供することである。
【課題を解決するための手段】
【０００６】
請求項１に記載の発明は、被写体を撮像して画像データを取得する撮像手段を備えた端末と、この端末の前記撮像手段により取得された画像データに基づいて被写体を識別するサーバーとを備える情報処理システムであって、前記端末は、前記撮像手段により取得された画像データに対して所定のフィルター処理を施す処理手段と、この処理手段により前記所定のフィルター処理が施された画像データを前記サーバーに送信する送信手段と、を備え、前記サーバーは、前記送信手段により送信された前記所定のフィルター処理が施された画像データを受信する受信手段と、前記受信手段により受信された前記所定のフィルター処理が施された画像データと前記被写体の識別のための照合用データとの照合の結果に基づいて前記被写体を識別する識別手段と、を備えることを特徴とする。
【０００７】
請求項２に記載の発明は、請求項１に記載の情報処理システムであって、前記端末は、前記被写体の３Ｄ画像を撮像するための複数の撮像手段を備え、前記識別手段は、前記被写体の３Ｄ画像データに基づいて前記被写体を識別する３Ｄ認識処理を行うことを特徴とする。
【０００８】
請求項３に記載の発明は、請求項２に記載の情報処理システムであって、前記処理手段は、３Ｄ画像データを用いた位相限定相関法による照合を行うためのフーリエ変換処理を前記被写体の３Ｄ画像データに施し、前記識別手段は、３Ｄ画像データを用いた位相限定相関法による照合を行うことを特徴とする。
【０００９】
請求項４に記載の発明は、請求項１から３のいずれか一項に記載の情報処理システムであって、前記端末は、音声を取得して音声データを生成する生成手段を備え、前記送信手段は、前記生成手段により生成された前記音声データを送信し、前記受信手段は、前記送信手段により送信された前記音声データを受信し、前記識別手段は、前記受信手段により受信された前記音声データに基づいて前記被写体を識別することを特徴とする。
【００１０】
請求項５に記載の発明は、請求項１から４のいずれか一項に記載の情報処理システムであって、前記端末は、カード型であることを特徴とする。
【発明の効果】
【００１１】
本発明によれば、サーバーの処理負荷をより軽減させることができる。
【図面の簡単な説明】
【００１２】
【図１】本発明の一実施形態である情報処理システムの主要構成を示す図である。
【図２】端末１０の一例を示す図である。図２（ａ）は、端末１０の主要構成を示すブロック図である。図２（ｂ）は、端末１０の外観を示す図である。
【図３】通信中継サーバーの主要構成を示すブロック図である。
【図４】クラウドに含まれるサーバーの主要構成を示すブロック図である。
【図５】基準画像と参照画像との間において対応点探索を行う際に、基準画像および参照画像に対して設定されるウィンドウの設定態様を例示する図である。
【図６】基準画像および参照画像上でのスキャンの態様を例示する図である。
【図７】ＰＯＣ処理を説明するための図である。
【図８】ＰＯＣ値により示される相関の高低を三次元グラフにより示した場合を例示する図である。
【図９】複数の端末による画像データ及び音声データの取得パターンの一例を示す図である。図９（ａ）は、人物Ａが声を発する前の人物Ａ、Ｂ、Ｃ、Ｄ、Ｅの関係の一例を示す図である。図９（ｂ）は、人物Ａが声を発した後の人物Ａ、Ｂ、Ｃ、Ｄ、Ｅの関係の一例を示す図である。
【図１０】一つの端末による処理の流れの一例を示すフローチャートである。
【図１１】サーバーによる処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【００１３】
以下、本発明の一実施形態である情報処理システム１について、図面を用いて詳細に説明する。なお、実施形態は本発明の一例であり、これに限定されるものではない。
【００１４】
図１は、本発明の一実施形態である情報処理システム１の主要構成を示す図である。
情報処理システム１は、複数の端末１０と、通信中継サーバー５０と、クラウド１００と、を備える。
情報処理システム１は、クラウド１００を構成する一又は複数のサーバー１１０が、通信中継サーバー５０を介して複数の端末１０から送信された画像データ及び音声データに基づいて人物を識別する処理を含む各種の処理を行う情報処理システムである。
【００１５】
図２は、端末１０の一例を示す図である。図２（ａ）は、端末１０の主要構成を示すブロック図である。図２（ｂ）は、端末１０の外観を示す図である。
端末１０は、撮像部１１、音声取得部１２、制御部１３、フィルター処理部１４、通信部１５及び電源部１６等を備える。
本実施形態において、複数の端末１０は夫々異なる複数のユーザー（例えば、図９（ａ）、（ｂ）に示す人物Ａ、Ｂ、Ｃ、Ｄ、Ｅ等）に一つずつ割り当てられたカード型の形状を有する端末である。
【００１６】
撮像部１１は、二つのカメラモジュール１１ａ、１１ｂ等を有し、二つのカメラモジュール１１ａ、１１ｂの夫々により画像を撮像して二つの画像データを生成する。
二つのカメラモジュール１１ａ、１１ｂのレンズ（図示略）は、カード型の端末の同一平面上において所定の間隔をあけて設けられる。即ち、二つのカメラモジュール１１ａ、１１ｂは夫々、端末１０に対して同一の方向に位置する被写体を撮像する。
かかる撮像により得られた二つの画像データにより、被写体の３Ｄ画像が得られる。また、撮像部１１は、二つのカメラモジュール１１ａ、１１ｂのレンズが被写体の顔に向けられることにより被写体の顔を撮像する。被写体の顔が撮像された二つの画像データによる３Ｄ画像認識に係る処理については、後述する。
ここで、撮像部１１は、被写体の顔を撮像して画像データを取得する撮像手段として機能する。
本実施形態の撮像部１１は、所定の秒間フレーム数の動画像データを出力する。
【００１７】
音声取得部１２は、マイクやマイクにより得られた音声の電気信号に基づいて音声データを生成する音声データ生成部（いずれも図示略）等を有し、端末１０の周囲で生じた音声を取得して音声データを出力する。
ここで、音声取得部１２は、被写体の声を含む音声を取得して音声データを生成する生成手段として機能する。
【００１８】
制御部１３は、ＣＰＵ、ＲＡＭ、ＲＯＭ、不揮発メモリ（例えば、Flash Solid State Drive：ＦｌａｓｈＳＳＤ）等（いずれも図示略）を有し、端末１０の動作を制御するための各種の処理を行う。
また、制御部１３は、撮像部１１により得られた二つの画像データの歪み補完処理やノイズの除去等の各種の加工処理を行う。歪み補完処理とは、二つの画像データどうしにずれが生じた場合、当該ずれを減少させるための処理である。
【００１９】
フィルター処理部１４は、撮像により得られた画像データに対して所定のフィルター処理を施す処理手段として機能し、撮像部１１により得られた画像データや音声取得部１２により得られた音声データの夫々に異なるフィルター処理を施すための専用の回路を有する。
フィルター処理の例としては例えば一つ又は二つの画像データの夫々に対して所定のフィルター関数によるぼかし処理や、二つの画像データの夫々の位相特性情報を取得するための高速フーリエ変換（Fast Fourier Transform：ＦＦＴ）を行う処理等がある。なお前述したぼかし処理後、当該フィルター関数の係数に応じて、画像データを圧縮してデータサイズを小さくすると共に画像データが擬似的に暗号化された状態としても良い。
つまり、画像データを端末からサーバー１１０に送信する際に、画像データをぼかし処理する事により元データをわからない状態、つまり擬似的に暗号化した状態とすると共に、画像データ量を送信の際に小さくする意味で圧縮処理を施す構成としても良い。
なおここで、ＦＦＴは、２次元のフーリエ変換処理である。
【００２０】
また、フィルター処理部１４は、音声データを圧縮してデータサイズを小さくするための符号化処理を施すものであっても良い。当該符号化処理により、音声データは符号化処理前の５分の１から１０分の１のサイズになる。
【００２１】
通信部１５は、フィルター処理部１４によるフィルター処理が施された画像データ及び音声データを通信中継サーバー５０に送信する。
具体的には、通信部１５は、例えば、所定の規格に基づく無線通信を行うためのアンテナや演算処理装置、データ等を有し、通信中継サーバー５０との間で無線通信を行う。所定の規格に基づく無線通信とは、例えば、ＬＴＥ（Long Term Evolution）や第３世代移動通信システム（3rd Generation：３Ｇ）、Ｂｌｕｅｔｏｏｔｈ、近距離無線通信（Near Field Communication：ＮＦＣ）等のいずれか又は複数による無線通信であるが、一例であり、これに限られるものではなく、現在又は将来採用される他の通信規格を用いることを妨げない。
ここで、通信部１５は、所定のフィルター処理が施された画像データをサーバー１１０に送信する送信手段として機能する。
【００２２】
電源部１６は、例えば、端末１０に内蔵されたボタン電池やリチウムイオンバッテリ等であり、端末１０の各部の動作に必要な電力を供給する。
【００２３】
また、端末１０は、端末１０の各部の動作のＯＮ／ＯＦＦを切り替えるためのスイッチ（図示略）等を備える。制御部１３は、スイッチがＯＮである場合、撮像部１１に動画の撮像をさせると共に音声取得部１２に音声の取得及び音声データの生成を行わせる。そして、制御部１３は、得られた画像データや音声データに対してフィルター処理部１４によるフィルター処理等の各種の処理を施し、通信部１５を介して通信中継サーバー５０に送信する。
スイッチは、他の構成に置き換えてもよい。例えば、制御部１３は、音声取得部１２のみを動作させて他の構成をスタンバイ状態とさせておき、音声取得部１２により所定以上の強さの音が取得された場合に撮像部１１を含む端末１０の各構成を動作させるようにしてもよい。
【００２４】
図３は、通信中継サーバー５０の主要構成を示すブロック図である。
通信中継サーバー５０は、第１通信部５１、第２通信部５２、制御部５３、記憶部５４等を備える。
通信中継サーバー５０は、端末１０から送信された画像データや音声データ等の各種のデータを受信し、クラウド１００のサーバー１１０に転送する。
【００２５】
第１通信部５１は、例えば、所定の規格に基づく無線通信を行うためのアンテナや演算処理装置、データ等を有し、複数の端末１０との間で無線通信を行う。
【００２６】
第２通信部５２は、例えば、所定の規格に基づく有線通信を行うためのネットワークインタフェースカード（Network Interface Card：ＮＩＣ）等を有し、サーバー１１０との間で有線通信を行う。所定の規格に基づく有線通信とは、例えば、イーサネット（登録商標）等であるが、一例であり、これに限られるものではなく、現在又は将来採用される他の通信規格を用いることを妨げない。
【００２７】
制御部５３は、ＣＰＵ、ＲＡＭ、ＲＯＭ等（いずれも図示略）を有し、通信中継サーバー５０の動作を制御するための各種の処理を行う。制御部５３は、例えば、第１通信部５１により受信した端末１０からの画像データや音声データ等を、第２通信部５２を介してクラウド１００に送信する。
なお、制御部５３のＣＰＵ、ＲＡＭ等を含む通信中継サーバー５０の各構成は、複数の端末１０からのデータの送信に対応する処理を並行して行うのに十分な演算能力を有する。
【００２８】
記憶部５４は、例えば、複数のハードディスクドライブ等を有し、通信中継サーバー５０が取り扱う各種のプログラムやデータ等を記憶する。
【００２９】
図４は、クラウド１００に含まれるサーバー１１０の主要構成を示すブロック図である。
クラウド１００は、ネットワークにより相互に通信可能に接続された複数のコンピューターを有し、これらの複数のコンピューターのいずれか又は複数により各種の処理を行い、様々な入出力を行う。
【００３０】
以下、クラウド１００が有する複数のコンピューターの一つとしてのサーバー１１０について説明する。サーバー１１０は、端末１０により取得された画像データに基づいて被写体を識別する処理を行う。
サーバー１１０は、通信部１１１、制御部１１２、記憶部１１３等を備える。
【００３１】
通信部１１１は、例えば、所定の規格に基づく有線通信を行うためのネットワークインタフェースカード（Network Interface Card：ＮＩＣ）等を有し、通信中継サーバー５０等との間で有線通信を行う。
ここで、通信部１１１は、所定のフィルター処理が施された画像データを受信する受信手段として機能する。
【００３２】
制御部１１２は、ＣＰＵ、ＲＡＭ、ＲＯＭ等（いずれも図示略）を有し、各種の処理を行う。制御部１１２は、処理の内容に応じてＣＰＵがＲＯＭや記憶部１１３に記憶されたプログラムを読み出して実行することにより、各種の処理を行う。
【００３３】
記憶部１１３は、例えば、複数のハードディスクドライブ等を有し、サーバー１１０が取り扱う各種のプログラムやデータ等を記憶する。記憶部１１３は、例えば、端末１０の撮像部１１により撮像された被写体の顔に基づいて被写体を識別するための照合用データを記憶している。
なお記憶部１１３をサーバー側に配置する事により、端末側に分散して記憶しておくよりも従来の形式より集中管理でき、セキュリティ管理の観点で効果がある。
【００３４】
サーバー１１０の制御部１１２は、端末１０から送信されて通信部１１１により受信された画像データに基づいて被写体を識別する。
具体的には、制御部１１２は、例えば、一つの端末１０の二つのカメラモジュール１１ａ、１１ｂにより撮像された二つの画像データによる３Ｄ画像認識を行う。
【００３５】
本実施形態では、制御部１１２は、３Ｄ画像認識の処理として、位相限定相関法（Phase-Only Correlation：ＰＯＣ）を用いた対応点探索のための処理（以下「ＰＯＣ処理」と記載）を行う。
【００３６】
ここで、ＰＯＣ処理の基本原理について説明する。
撮像部１１のカメラモジュール１１ａ、１１ｂにより同期して取得された第１および第２撮像画像Ｇ１，Ｇ２（図５、図６参照）のうち、第１撮像画像Ｇ１を基準画像として設定し、第２撮像画像Ｇ２を参照画像として設定する。以下、基準画像Ｇ１および参照画像Ｇ２とも称する。
【００３７】
なお、ここでは、基準画像Ｇ１および参照画像Ｇ２は、それぞれ相互に直交するＸ方向およびＹ方向に沿って多数の画素がマトリックス状に配置されて形成されているものとする。また、基準画像Ｇ１および参照画像Ｇ２では、Ｘ方向に沿って所定数（Ｎ個）の画素が配列されることで長辺が形成され、Ｘ方向とは異なるＹ方向に沿って所定数（Ｍ個）の画素が配列されることで短辺が形成されているものとする。
【００３８】
図５は、基準画像Ｇ１と参照画像Ｇ２との間において対応点探索を行う際に、基準画像Ｇ１および参照画像Ｇ２に対して設定されるウィンドウの設定態様を例示する図である。なお、図５および図５以降の図では、基準画像Ｇ１および参照画像Ｇ２の長辺に沿ったＸ方向と、短辺に沿ったＹ方向とを明示するために、ＸＹの直交する２軸が付されている。なお、基準画像Ｇ１および参照画像Ｇ２では、左下の画素が基準（例えば原点）とされ、各画素の位置がＸＹの座標（Ｘ，Ｙ）で示されるものとし、例えば、Ｘ方向に１画素ずれるとＸ座標の値が１増加し、Ｙ方向に１画素ずれるとＹ座標の値が１増加するものとする。
【００３９】
まず、図５（ａ）で示すように、基準画像Ｇ１上で指定される点（以下「指定点」と称する）Ｐを中心点として内包するウィンドウ（基準領域）Ｗ１が基準画像Ｇ１上に設定される。その一方で、図５（ｂ）で示すように、ウィンドウＷ１のサイズと同じサイズを有するウィンドウ（比較領域）Ｗ２が参照画像Ｇ２における複数の位置に設定される。
【００４０】
なお、基準領域Ｗ１および比較領域Ｗ２では、それぞれＸ方向およびＹ方向に沿って複数の画素がマトリックス状に配列されている。具体的には、Ｘ方向に沿って所定数Ｎ_１の画素が配列され、Ｙ方向に沿って所定数Ｎ_２の画素が配列されている。
【００４１】
次に、基準領域Ｗ１および各比較領域Ｗ２が演算処理の対象となる領域（処理対象領域）とされて、基準領域Ｗ１と各比較領域Ｗ２との相関を示す値（以下「相関値」と称する）が算出される。そして、各比較領域Ｗ２に係る相関値（ここでは、後述するＰＯＣ値）に基づき、参照画像Ｇ２上で指定点Ｐに対応する点（対応点）が検出される。
【００４２】
更に、基準画像Ｇ１に対して、図６（ａ）の矢印で示すように、指定点Ｐを中心として内包する基準領域Ｗ１が、上方向（＋Ｙ方向）から順に、左から右方向（Ｘ方向）に沿って１画素ずつずらされながら時間順次に設定され、各指定点Ｐに対応する対応点が、参照画像Ｇ２上で検出される。
【００４３】
つまり、基準画像Ｇ１については、＋Ｙ方向から−Ｙ方向に向けて並んだＸ方向に平行な各画素列に沿って、指定点Ｐが時間順次に設定される。そして、Ｘ方向に平行な１つの画素列に沿った指定点Ｐの設定が完了すると、１画素だけ−Ｙ方向に位置するＸ方向に平行な次の画素列に沿って指定点Ｐが時間順次に設定される。すなわち、指定点を内包する基準領域Ｗ１によって基準画像Ｇ１の走査（スキャン）が行われる。このスキャンの方向（スキャン方向）は、Ｘ方向に沿った方向、すなわちＸ方向に平行な方向となる。
【００４４】
なお、各対応点が検出される際には、図６（ｂ）で示すように、参照画像Ｇ２に対して、比較領域Ｗ２が、上方向（＋Ｙ方向）から順に、左から右方向（Ｘ方向）に沿って１画素ずつずらされながら時間順次に設定される。
【００４５】
つまり、参照画像Ｇ２については、Ｘ方向に沿って、比較領域Ｗ２が時間順次に設定され、Ｘ方向に平行な１つの画素列に沿った比較領域Ｗ２の設定が完了すると、１画素だけ−Ｙ方向にずれた位置に、Ｘ方向に沿って比較領域Ｗ２が時間順次に設定される。すなわち、参照画像Ｇ２が比較領域Ｗ２によって走査（スキャン）される。このスキャン方向は、Ｘ方向に沿った方向、すなわちＸ方向に平行な方向となる。
【００４６】
なお、指定点Ｐに対応する対応点が中心点となり得る領域が比較領域Ｗ２が設定される対象となる領域（設定対象領域）とされ、その限定された領域に比較領域Ｗ２が設定されるようにスキャンが行われることが、効率良く対応点が検出される上で好ましい。この設定対象領域については、カメラモジュール１１ａ、１１ｂの配置、カメラモジュール１１ａ、１１ｂの撮影方向（具体的には光軸の設定）、およびカメラモジュール１１ａ、１１ｂの撮影範囲（具体的には画角）などといったカメラモジュール１１ａ、１１ｂに係る各種設定に従って適宜設定可能である。この設定対象領域の具体例については後述するが、例えば、図６（ｂ）で示したように、参照画像Ｇ２のほぼ全体がスキャンされるように、比較領域Ｗ２が設定される態様などが挙げられる。
【００４７】
図７は、ＰＯＣ処理を説明するための図である。
ＰＯＣ処理では、まず、基準画像Ｇ１に対するウィンドウＷ１の設定Ｔ０ａと、参照画像Ｇ２に対するウィンドウＷ２の設定Ｔ０ｂとが行われる。このとき、基準画像Ｇ１上のウィンドウＷ１内の画像領域（基準領域）と、参照画像Ｇ２上のウィンドウ内の画像領域（比較領域）とがそれぞれ抽出される。これらの画像領域については、次の数１のように表されるものとする。
【００４８】
【数１】

【００４９】
ここで、上記の数１におけるｆ（ｎ_１，ｎ_２）およびｇ（ｎ_１，ｎ_２）は、基準画像Ｇ１上のウィンドウＷ１内の基準領域および参照画像Ｇ２上のウィンドウＷ２内の比較領域を示している。また、Ｎ_１およびＮ_２は、例えばＮ_１＝２Ｍ_１＋１、Ｎ_２＝２Ｍ_２＋１と設定されている。
【００５０】
次に、基準画像Ｇ１および参照画像Ｇ２のウィンドウＷ１，Ｗ２内の各画像領域に対し、次の数２で示す演算式を用いた２次元のフーリエ変換処理Ｔ１ａ、Ｔ１ｂが行われる。
【００５１】
【数２】

【００５２】
なお、上記の数２のただし書におけるＷの添字Ｐには、Ｎ_１、Ｎ_２が代入され、またｋの添字ｓには、１、２が代入される。
【００５３】
このようなフーリエ変換処理Ｔ１ａ、Ｔ１ｂが施された各画像領域に対しては、次の数３で示す演算式を用いて、画像の振幅成分を除去するための規格化処理Ｔ２ａ、Ｔ２ｂが行われる。
【００５４】
【数３】

【００５５】
規格化処理Ｔ２ａ、Ｔ２ｂが完了すると、次の数４で示す演算式を用いた合成処理Ｔ３が行われるとともに、数５で示す演算式を用いた２次元の逆フーリエ変換処理Ｔ４が行われる。これにより、各画像間の相関演算が実施されることとなり、その結果（ＰＯＣ値）が出力される。
【００５６】
【数４】

【００５７】
【数５】

【００５８】
以上の処理により、基準領域Ｗ１と比較領域Ｗ２との相関を示す演算結果（ＰＯＣ値）が得られ、例えば、図８で示すような結果（ＰＯＣ値）が得られる。
【００５９】
図８においては、ウィンドウ（Ｎ_１×Ｎ_２）内で相関が高い箇所のＰＯＣ値が大きくなっており、ＰＯＣ値のピークＪｃに対応する参照画像Ｇ２上のウィンドウＷ２内の位置が、基準画像Ｇ１上の基準領域Ｗ１の中心点（指定点）Ｐに対応した参照画像Ｇ２上の対応点に相当することとなる。
【００６０】
ここでは、１つの基準領域Ｗ１と、参照画像Ｇ２上に設定された複数の比較領域Ｗ２との間で相関演算が行われ、ＰＯＣ値のピークＪｃが検出される。その結果、基準画像Ｇ１上の指定点Ｐに対応した参照画像Ｇ２上の対応点が検出される。
【００６１】
更に、同様な手法により、基準画像Ｇ１に対して、指定点Ｐを中心点として内包する複数の基準領域Ｗ１が設定され、各指定点Ｐに対応した参照画像Ｇ２上の各対応点が検出される。
【００６２】
以上のようなＰＯＣ処理によれば、画像の振幅成分が除去され、画像の位相成分のみで相関演算が行われるため、輝度変動やノイズの影響が抑制されて対応点が精度良く検出される。
【００６３】
なお、ＰＯＣ値は、離散的に求められるため、隣接画素間で補間演算を行い、ピークＪｃの位置を１画素のサイズよりも細かいサブピクセルのサイズで推定することで、更に細かく対応点の検出を行うこともできる。補間演算の手法としては、離散的に求められたＰＯＣ値の分布から放物線の関数を求める手法などが考えられる。
【００６４】
制御部１１２は、ＰＯＣ処理により、一つの端末１０の二つのカメラモジュール１１ａ、１１ｂにより撮像された二つの画像データの画像の対応点どうしを対応付けて、二つの画像データの画像による３Ｄ画像認識を行う。本実施形態では、図７に示す２次元のフーリエ変換処理Ｔ１ａ、Ｔ１ｂまでが端末１０により行われ、規格化処理Ｔ２ａ、Ｔ２ｂ以降の処理がサーバー１１０により行われる。
【００６５】
また、制御部１１２は、３Ｄ画像として認識された端末１０からの画像データと、記憶部１１３に記憶された照合用データとの間で対応点として認識される点の有無および対応の度合い（精度）を判定する。制御部１１２は、当該判定にもＰＯＣ処理を用いる。つまり、制御部１１２は、３Ｄ画像として認識された端末１０からの画像データによる画像を基準画像Ｇ１とし、照合用データの画像を参照画像Ｇ２として対応点を探索する。そして、制御部１１２は、端末１０からの画像データと所定以上の精度で対応する照合用データがある場合、その照合用データと対応付けられた個人情報の人物であると判定する。
即ち、制御部１１２は、端末１０のフィルター処理部１４によりフィルター処理が施された画像データと被写体の識別のための照合用データとの照合の結果に基づいて被写体を識別する。
【００６６】
なお、本実施形態の照合用データとして、例えば、３Ｄ画像として認識された端末１０からの画像データと照合するための３Ｄ画像データ又はＰＯＣ処理により３Ｄ画像として認識された端末１０からの画像データとの対応点を探索するための位相情報データを用いることができる。
また、照合用データは、複数の３Ｄ画像データ又は位相情報と、３Ｄ画像データ又は位相情報の各々が示す被写体の顔と当該被写体の個人情報とを対応付けたデータとして記憶部１１３に記憶されている。
ここで、制御部１１２は、所定のフィルター処理が施された画像データと被写体の識別のための照合用データとの照合の結果に基づいて被写体を識別する識別手段として機能する。
【００６７】
また、制御部１１２は、端末１０から送信されて通信部１１１により受信された音声データに基づいて被写体を識別する。
具体的には、制御部１１２は、例えば、音声データに含まれる音声の周波数に基づいて音声データに含まれる声を発した人物を識別する。
【００６８】
制御部１１２は、音声データに含まれる音声の周波数と予め設けられた複数の人物の夫々の声の周波数を示す周波数データが示す周波数とを照合して音声データに含まれる声を発した人物を識別する。ここで、周波数データは、例えば、予め複数の個人情報の夫々と対応付けられた複数の周波数パターンを示すデータである。複数の周波数パターンの夫々は、対応付けられた個人情報が示す人物の声の周波数パターンである。周波数データは、例えば、記憶部１１３に予め記憶されている。
【００６９】
また、制御部１１２は、端末１０の撮像部１１により撮像された被写体の口の動作の有無に基づいて音声データの識別を行う。
具体的には、制御部１１２は、ある一つの端末１０から送信された画像データが、被写体の口が動いていることを示す動画像データである場合、その端末１０から送信された音声データに含まれる声が当該被写体の声であるものと判定する。
【００７０】
制御部１１２は、音声データの識別において、周波数に基づく人物の判定結果と、画像データにおける被写体の口の動きの有無に基づく人物の判定結果との両方を用いた複合的な判定を行う。
具体的には、例えば、制御部１１２は、周波数データとの照合に基づく声の識別結果と、被写体の口の動きに基づく声の識別結果とが一致した場合、当該一致した識別結果を採用する。また、制御部１１２は、周波数データとの照合に基づく声の識別結果又は被写体の口の動きに基づく声の識別結果のいずれか一方による識別結果が得られ、他方による識別結果が何らかの理由により得られなかった場合、一方の得られた識別結果を採用する。また、制御部１１２は、周波数データとの照合に基づく声の識別結果と、被写体の口の動きに基づく声の識別結果とが一致しなかった場合、識別結果の確からしさを示す数値（例えば、識別の精度を示すパーセント［％］値）と予め設定された所定の係数との積に基づいていずれの識別結果を採用するかを決定する。一例として、例えば、周波数データとの照合による声の識別結果の確からしさが８０［％］であり、被写体の口の動きに基づく声の識別結果の確からしさが６０［％］であり、周波数データとの照合による声の識別結果の係数がα、被写体の口の動きに基づく声の識別結果の係数がβであるとする。この場合、制御部１１２は、８０（又は、０．８）にαを乗じたの値と、６０（又は、０．６）にβを乗じた値とを比較してより大きい値であった方の識別結果を採用する。即ち、所定の係数α、βの大小関係により、周波数データとの照合に基づく声の識別結果と被写体の口の動きに基づく声の識別結果のいずれの識別結果をより優先的に採用するかを調整することができる。なお、確からしさは、例えば、周波数の一致の度合いや、口の動くタイミングと声が取得されたタイミングとの一致の度合い等に基づいて算出される。
【００７１】
また、音声による識別結果と、被写体の口の動き等の画像に基づく識別結果とを識別結果の確からしさの冗長性の確保に用いることもできる。
例えば、上記の周波数データとの照合による声の識別結果の確からしさの値と周波数データとの照合による声の識別結果の係数αとを乗じて得られた値をα１、被写体の口の動きに基づく声の識別結果の確からしさの値と被写体の口の動きに基づく声の識別結果の係数とを乗じて得られた値をβ２とした場合、α１とβ２とを乗じた値が第１の設定値を超えた場合に声の識別結果が正しいものと判定する所謂ＡＮＤ型冗長を行うようにしてもよい。また、α１又はβ２のいずれか一方が所定の第２の設定値を超えた場合に声の識別結果が正しいものと判定する所謂ＯＲ型冗長を行うようにしてもよい。なお、第１の所定値及び第２の所定値は共に、声の識別結果の正当性を判定するための所定の設定値である。
また、α１、β２に限らず、夫々の識別結果の確からしさを示す値や当該確からしさを補正する所定の係数等に基づいて算出された複数の値と、夫々の値に基づいて声の識別結果の正当性を判定するための所定の設定値とを用いて声の識別結果を判定する多次元冗長を行ってもよい。
【００７２】
また、制御部１１２は、複数の端末１０から送信されて通信部１１１により受信された複数の画像データ及び音声データに基づいて被写体を識別する。
具体的には、制御部１１２は、複数の端末１０の夫々から同時に送信されて通信部１１１により受信された複数の画像データ及び音声データについて、夫々の端末１０の画像データ及び音声データに基づく被写体の識別を個別に行い、夫々の端末１０からの画像データ及び音声データに基づく被写体の識別結果どうしを比較する。例えば、全ての端末１０の画像データ及び音声データに基づく識別結果が一致した場合、制御部１１２は、一致した識別結果を採用する。また、複数の端末１０の夫々から同時に送信された音声データの夫々の識別における判定結果の間で相違が生じた場合、制御部１１２は、例えば、夫々の音声データの判定結果のうち同一の判定結果がより多く示された判定結果を正しい判定結果として扱う。また、制御部１１２は、上記の周波数データとの照合に基づく声の識別結果と被写体の口の動きに基づく声の識別結果のいずれを優先するかを決定するための確からしさと係数による判定と同様の処理により、いずれのデータによる識別結果を採用するのかを決定するようにしてもよい。
【００７３】
また、制御部１１２は、複数の端末１０から送信された複数の画像データ及び音声データが同一の被写体のものであると判定された場合、同一の被写体のものであると判定された画像データ及び音声データどうしを対応付ける等、同一の識別結果が得られたデータどうしを統合して管理する。
【００７４】
また、画像データの画像に含まれる被写体の識別のために、画像データと同時に取得された音声データに基づく人物の識別の結果を用いてもよい。この場合、例えば、音声の周波数の照合に基づく識別結果と、画像データの画像に含まれる被写体の識別結果とを照合して一致を確認することにより被写体の識別結果の精度向上に用いることができる。また、何らかの理由により画像データに基づいた被写体の識別ができなかった場合、同時に取得された音声データに基づく識別結果に基づいて被写体の識別結果としてもよい。
【００７５】
以下、複数の端末１０による画像データ及び音声データの取得パターンと、取得された画像データ及び音声データの識別パターンの一例として、複数の端末を用いた会議システムの典型例について、図９（ａ）、（ｂ）を用いて説明する。
例えば、図９（ａ）に示すように、一つの部屋等、互いの声が聞こえる所定の空間内にいる複数の人物Ａ、Ｂ、Ｃ、Ｄ、Ｅは、夫々胸元に端末１０を装着されるような構成である。ここで、夫々の端末１０に設けられた撮像部１１の二つのカメラモジュール１１ａ、１１ｂのレンズの物体側はは、端末１０を装着している装着者の正面を向くため、夫々の端末１０を装着した人物Ａ、Ｂ、Ｃ、Ｄ、Ｅの夫々のほぼ正面に向けられている形となっている。
【００７６】
複数の人物Ａ、Ｂ、Ｃ、Ｄ、Ｅのうち一人（例えば、人物Ａ）が声を発すると、通常、図９（ｂ）に示すように、他の人物（例えば、人物Ｂ、Ｃ、Ｄ、Ｅ）は、声を発した人物（人物Ａ）の方を向く傾向にあるため、他の人物が装着した端末１０の撮像部１１により撮像された画像データは、声を発した人物が撮像された画像データとなる。また、複数の人物Ａ、Ｂ、Ｃ、Ｄ、Ｅが夫々装着した端末１０の全てが、声を発した人物の声を含む音声データを生成する。
【００７７】
制御部１１２は、複数の人物Ａ、Ｂ、Ｃ、Ｄ、Ｅの夫々が装着した端末１０の夫々から送信された画像データ及び音声データに基づいて、被写体及び音声データに含まれる声を発した人物の識別を行う。ここで、声を発した人物Ａ以外の人物Ｂ、Ｃ、Ｄ、Ｅが夫々装着した計４つの端末１０から送信された画像データ及び音声データに基づく識別の判定結果は、高い確率で「被写体及び音声データに含まれる声を発した人物は、共に人物Ａである」という判定結果となる。また、声を発した人物Ａが装着した端末１０の撮像部１１は、声を発した人物である人物Ａを撮像しないが、音声取得部１２は他の人物Ｂ、Ｃ、Ｄ、Ｅが夫々装着した端末１０の音声取得部１２と同様に、人物Ａの声を含む音声データを生成する。よって、声を発した人物Ａが装着した端末１０から送信された音声データに含まれる声は、周波数に基づいて「声を発した人物は、人物Ａである」と判定されることとなる。
図９（ａ）、（ｂ）を用いた説明のように、制御部１１２は、複数の人物Ａ、Ｂ、Ｃ、Ｄ、Ｅの夫々が装着した端末１０から同時に送信されて通信部１１１により受信された複数の画像データ及び音声データに基づいて、被写体及び音声データに含まれる声を発した人物の識別を行う。
【００７８】
また、制御部１１２は、音声データが複数の人物の声を含む場合、音声データに含まれる複数の人物の声の夫々を識別する。この場合の声の識別方法は、上記の説明と同様、周波数データとの照合や画像データにおける口の動きの有無、これらの組み合わせ等による。
【００７９】
また、制御部１１２は、端末１０から受信した画像データ及び音声データの夫々と、識別処理により識別された被写体の個人情報とを対応付けて記憶部１１３に記憶させる。
【００８０】
ここで、制御部１１２は、識別された音声データに含まれる声を発した人物の夫々について個別に音声データを分割して記憶部１１３に記憶させてもよい。
具体的には、制御部１１２は、例えば、音声データのうち識別された人物の夫々の声を含む時間帯に対応する部分を抽出して個別の音声データとし、識別された人物の夫々について個別に分類して記憶部１１３に記憶させる。本実施形態では、制御部１１２は、音声データのうち識別された人物の夫々の声を含む時間帯に対応する部分を抽出して生成した個別の音声データと、その声を発した人物を示す個人情報のデータとを対応付けて記憶部１１３に記憶させる。
【００８１】
また、制御部１１２は、音声データに含まれる声に対応する文字列を取得する音声認識処理を行う。また、制御部１１２は、被写体に限らず、音声データに含まれる声により発せられた話の内容を文字列として取得する音声認識処理を行う。
具体的には、制御部１１２は、例えば、音声データに含まれる声の音響的な特徴の抽出のために隠れマルコフモデルに基づくパターン抽出を行い、言語的な特徴の抽出のために文脈自由文法に基づく文字列の抽出を行う。そして、制御部１１２は、抽出された音響的な特徴及び言語的な特徴の双方に基づいて音声データに含まれる話の内容を取得する。ここで説明した音声認識処理の方法は、あくまで一例であり、これに限られるものでなく、現在又は将来採用される他の処理方法により音声認識処理を行ってもよい。
【００８２】
また、制御部１１２は、音声認識処理により取得された話の内容を示す文書データを作成する。
具体的には、制御部１１２は、音声データに録音された人物の声による話の内容を示す文書データとして、声を発した人物を示す情報（例えば、氏名等）と当該人物により発せられた声による話の内容を示す文字列とを対応付けたセンテンス（行）を時系列に沿って記録した議事録データを生成する。
【００８３】
なお、制御部１１２のＣＰＵ、ＲＡＭ等を含むサーバー１１０の各構成は、複数の端末１０から送信された各種のデータに係る処理を並行して行うのに十分な演算能力を有する。ここで、複数の端末１０から送信された各種のデータに係る処理を並行して行うためのサーバー１１０の演算能力は、一台のサーバー１１０が有していてもよいし、上記の処理を含む各種の処理を行うための複数のサーバー１１０を組み合わせ、複数の端末１０から送信された画像データ及び音声データに係る処理を複数のサーバー１１０に分散させてもよい。
【００８４】
次に、一又は複数の端末１０から送信された画像データ及び音声データに係る処理の流れについて、図１０及び図１１のフローチャートを用いて説明する。
図１０は、一つの端末１０による処理の流れの一例を示すフローチャートである。
まず、撮像部１１が二つのカメラモジュール１１ａ、１１ｂの夫々により被写体を撮像して二つの画像データを生成する（ステップＳ１）。また、音声取得部１２が周囲で発せられた人物の声を含む音声を取得して音声データを生成する（ステップＳ２）。ステップＳ１、ステップＳ２の処理は順不同である。
【００８５】
次に、制御部１３が二つの画像データの夫々に対して歪み補完処理やノイズの除去等の各種の加工処理を施す（ステップＳ３）。また、フィルター処理部１４が、二つの画像データの夫々に対して、所定のフィルター関数によるぼかし処理やＦＦＴ処理を施す（ステップＳ４）。また、フィルター処理部１４は、音声データに対して符号化処理を施す（ステップＳ５）。
次に、制御部１３は、通信部１５を介して、フィルター処理部１４による処理が施された画像データ及び音声データを送信する（ステップＳ６）。
【００８６】
図１１は、サーバー１１０による処理の流れの一例を示すフローチャートである。
制御部１１２は、端末１０から送信される画像データ及び音声データを受信するまで待機する（ステップＳ１１：ＮＯ）。
【００８７】
端末１０から送信された画像データ及び音声データを受信すると（ステップＳ１１：ＹＥＳ）、制御部１１２は、一つの端末１０から送信された二つの画像データに対してＰＯＣ処理を施し、二つの画像データを３Ｄ画像として認識する処理を行う（ステップＳ１２）。次に、制御部１１２は、３Ｄ画像として認識された画像データと、記憶部１１３に記憶された照合用データとを照合するためにＰＯＣ処理を行い、照合の結果に基づいて被写体を識別する（ステップＳ１３）。
また、制御部１１２は、音声データに含まれる音声の周波数と周波数データに含まれる周波数パターンとの照合の結果や、画像データにおける被写体の口の動きの有無等に基づいて、音声データに含まれる声を発した人物を識別する（ステップＳ１４）。
【００８８】
なお、複数の端末１０から同時に画像データ及び音声データが送信された場合、制御部１１２は、夫々の端末１０から送信された画像データ及び音声データについてステップＳ１２からステップＳ１４の処理を並行して行う。
【００８９】
次に、制御部１１２は、音声データに基づいて被写体を含む人物が声として発した話の内容を取得する音声認識処理を行う（ステップＳ１５）。
また、制御部１１２は、音声認識処理により取得された話の内容を示す文書データとして、議事録データを作成する（ステップＳ１６）。
また、制御部１１２は、識別された音声データに含まれる声を発した人物の夫々について個別に音声データを分割し（ステップＳ１７）、分割後の音声データを記憶部１１３に記憶させる（ステップＳ１８）。
【００９０】
なお、複数の端末１０から同時に画像データ及び音声データが送信された場合、制御部１１２は、夫々の端末１０から送信された画像データ及び音声データのいずれか一つに基づいてステップＳ１５からステップＳ１８の処理を行ってもよいし、夫々の端末１０から送信された画像データ及び音声データについて個別にステップＳ１５からステップＳ１８の処理を行ってもよい。
【００９１】
以上、本実施形態の情報処理システム１によれば、画像データに基づく被写体の識別に係り、端末１０がフィルター処理部１４によりフィルター処理を施すので、サーバー１１０がフィルター処理を行う必要がなく、サーバー１１０の処理負荷をより軽減させた情報処理システムを提供することができる。特に、本実施形態のように、複数の端末１０から送信された画像データに基づく識別処理を並行して行うサーバー１１０の場合、端末１０により予めフィルター処理が施されていることで、フィルター処理に係る処理負荷を夫々の端末１０に分散させることができるので、サーバー１１０の処理負荷の軽減の効果はより大きくなる。
また、端末１０がフィルター処理部１４によりフィルター処理を施すので、画像データの送信前に画像データのサイズを小さくすることができ、データの転送に必要なネットワークリソースの消費をより低減させることができる。
【００９２】
また、端末１０が３Ｄ画像として認識される二つの画像データを撮像するための二つの撮像手段としてのカメラモジュール１１ａ、１１ｂを備え、サーバー１１０の制御部１１２が当該二つの画像データにより得られた３Ｄ画像データに基づいて被写体を識別する３Ｄ認識処理を行うので、例えば、被写体が撮像された角度や画像における被写体の大きさ等、撮像条件により変化する被写体の画像による識別結果の精度の変化を最小限とすることができ、より高い精度で被写体の識別を行うことができる。
【００９３】
また、端末１０のフィルター処理部１４が、３Ｄ画像データを用いた位相限定相関法による照合を行うためのＦＦＴ処理を施し、サーバー１１０の制御部１１２が３Ｄ画像データを用いた位相限定相関法による照合を行うので、カメラモジュール１１ａ、１１ｂにより撮像された二つの画像データに基づく３Ｄ画像データと照合用画像データとの対応点を高い精度で探索することができ、より高い精度で被写体の識別を行うことができる。
【００９４】
また、端末１０が、音声データを生成して通信部１５を介して送信し、サーバー１１０が音声データを受信して被写体の識別処理に用いるので、画像データに基づく被写体の識別結果と、音声データに基づく識別結果との組み合わせに基づいてより高い精度で被写体の識別を行うことができる。例えば、画像データに基づく識別結果と音声データに基づく識別結果が同一であれば、識別結果の確度がより向上する。また、画像データに被写体が映っていない等、何らかの理由により画像データによる識別が困難な場合であっても、音声データに基づく識別により、被写体の識別を行うことができる。
【００９５】
また、端末１０はカード型であるので、人が容易に携行することができ、端末１０のユーザーと言葉を交わした他人の画像データや、当該他人やユーザー自身の音声データをより容易に得ることができる。
【００９６】
また、サーバー１１０が、フィルター処理が施された画像データを受信し、受信した画像データと照合用データとの照合の結果に基づいて被写体を識別するので、複数の端末１０から送信された画像データに基づく識別を最低一台のサーバー１１０により行うことができることから、処理のための構成を効率的に集約することができ、また、低コストで画像データに基づく人物の識別を行うことができる。
【００９７】
また、複数の端末１０が夫々、被写体の画像データ及び被写体の声を含む音声データを送信し、サーバー１１０が複数の端末１０から送信された画像データ及び音声データを受信し、受信された複数の画像データ、音声データのうち少なくとも複数の画像データに基づいて被写体を識別することができる。即ち、声が雑音と共に録音された場合等においても、複数の画像データに基づいて被写体を識別することにより、声を発している被写体の識別を高い精度で行うことができ、複数の人物のうち声を発した人物の識別の精度をより高めることができる。
また、画像データは動画像データであり、制御部１１２は、端末１０の撮像部１１により撮像された被写体の口の動作の有無に基づいて声を発した人物の識別を行う。口が動いているということは、話をしている、即ち、声を発している可能性が極めて高いので、より高い精度で声を発した人物の識別を行うことができる。
【００９８】
また、制御部１１２は、識別された音声データに含まれる声を発した人物の夫々について個別に音声データを分割して記憶部に記憶させるので、夫々の人物が発した話の内容に応じた音声を人物別に取り扱うことができる。
【００９９】
また、制御部１１２は、受信された音声データに基づいて被写体が声として発した話の内容を文字列として取得し、識別された被写体の個人情報と取得された話の内容とを対応付けるので、画像データに基づいて声を発した人物を識別して音声データに含まれる声による話の内容と対応付けることができる。
また、制御部１１２は、被写体を示す情報と対応付けられた文字列を含む文書データを作成するので、自動的に声に対応する文字列を文書データ化することができる。また、音声データに含まれる声による話の内容を文字情報で確認することができることとなり、話の内容をより広範に活用することができる。また、文書データは音声データに比して大幅に小さいので、より小さなデータにより話の内容を記録することができる。
【０１００】
なお、本発明の実施の形態は、今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
例えば、本発明の構成は、複数の端末１０と、通信中継サーバー５０と、クラウド１００と、を備える情報処理システムに限らず、撮像手段を有する端末とサーバーとを有する情報処理システムであれば適用することができる。
【０１０１】
また、上記の実施形態では、記憶部１１３が予め周波数データを記憶しているが、制御部１１２が、音声データに含まれる音声の周波数に基づいて人物の声の周波数を示す周波数データを取得するようにしてもよい。
この場合、制御部１１２は、画像データにおける口の動き等により、声を発した人物が誰であるかを識別することができた声の周波数パターンを取得してリアルタイムで周波数パターンを生成し、記憶部１１３に記憶させる。また、制御部１１２は、同一の人物により発せられた声の周波数パターンを複数回取得した場合、取得された複数の周波数パターンに基づいて周波数パターンを生成する。
【０１０２】
また、複数の人物が夫々所有する端末１０とその所有者の個人情報とをあらかじめ対応付けておき、端末１０の夫々から取得された音声データの傾向等に基づいて音声データに含まれる声を発した人物を特定するようにしてもよい。
具体的には、制御部１１２は、例えば、声を発した人物を識別することができた声の周波数パターンのうち、所定の音量以上の音量で入力される回数が最も多かった声と、所定の音量以上の音量で入力される回数が最も多かった声が最も大きな音量で入力された端末１０の個人情報とを対応付けて声を発した人物を特定するようにしてもよい。
また、制御部１１２は、所定の開始信号（例えば、端末１０のスイッチＯＮ等）から所定の音量以上の声が最も早く入力された端末１０の個人情報と当該所定の音量以上の声を発した人物とを対応付けて声を発した人物を特定するようにしてもよい。
【０１０３】
また、制御部１１２は、音声認識により得られた話の内容に基づいて、声を発した人物を識別するようにしてもよい。
具体的には、例えば、所定の開始信号（例えば、端末１０のスイッチＯＮ等）後、声を発した人物が声により、自己の氏名等、個人情報を特定可能な発言をした場合に、当該発言の内容に応じた個人情報とその声の周波数パターンとを対応付けて声を発した人物を特定するようにしてもよい。また、このとき、自己の氏名等、個人情報を特定可能な発言が最も速く録音された端末１０の個人情報とその声を発した人物との対応付けによってもよいし、これらの対応付けの両方を行い、それぞれの判定の重要度に係数により重み付けを行う等することにより、複合的な識別の判定を行ってもよい。
【０１０４】
また、制御部１１２は、複数の端末１０の所有者の個人情報や音声認識により得られた話の内容に基づいて特定された声を発した人物と、その声により得られる周波数パターンとを対応付けて周波数パターンをリアルタイムに生成してもよい。
また、制御部１１２は、リアルタイムに生成された周波数パターンにより予め記憶部１１３に記憶された周波数データを更新するようにしてもよい。
【０１０５】
制御部１１２が、音声データに含まれる音声の周波数に基づいて人物の声の周波数を示す周波数データを取得することにより、予め周波数データが用意されていない人物の声についても、その後に行う声の識別に用いるための周波数データを得ることができる。また、音声データに含まれる声の周波数により周波数データをリアルタイムに取得することで、音声データにより最近得られた声に基づく周波数データを常に得ることができる。
【０１０６】
また、上記の実施形態では、ＰＯＣ処理により３Ｄ画像としての認識処理や画像データに基づく人物の識別のための照合を行っているが、一例であり、これに限られるものでなく、他の方法により二つの画像データから３Ｄ画像としての認識処理や画像データの照合を行ってもよい。
また、上記の実施形態では、端末１０の撮像部１１が二つのカメラモジュール１１ａ、１１ｂを有し、二つの画像データを撮像して３Ｄ画像として認識する処理を行っているが、一例であり、これに限られるものではない。例えば、一つのカメラモジュールにより得られた画像データに基づく人物の識別（照合）を行うようにしてもよい。この場合、照合用データは、例えば、２次元の画像データの画像に含まれる顔画像との照合のための顔画像データや、顔画像の特徴を示す特徴点データ等となる。
【０１０７】
また、動画像データにより被写体の口の動きが撮像されている場合、口の形及び口の形の変化パターンに基づいて音声認識処理を行ってもよい。また、上記の実施形態における音声認識処理による処理結果と口の形及び口の形の変化パターンに基づいた音声認識処理による処理結果とを用いた複合的な音声認識処理を行うことにより音声認識処理の精度をさらに高めるようにしてもよい。
【０１０８】
また、一つの端末が備える撮像手段（例えば、撮像部１１のカメラモジュール等）の数は３つ以上でもよい。この場合、サーバー１１０の制御部は、例えば、３つ以上の撮像手段により撮像された画像データのそれぞれにより識別処理を行い、夫々の識別結果のうち最も精度が高い識別結果を用いるようにしてもよい。また、制御部１１２は、３Ｄ認識において、３つ以上の撮像手段により撮像された複数の画像データのうち、３Ｄ画像としての認識の精度が最も高い二つの画像データの組み合わせに基づいて３Ｄ画像認識を行うようにしてもよい。
【０１０９】
また、上記の実施形態では、クラウド１００のサーバー１１０が識別処理等の画像データ及び音声データに基づく各種の処理を行っているが、一例であり、これに限られるものでなく、クラウド１００以外の構成によってもよい。例えば、一又は複数の端末と直接通信を行うサーバーが、画像データ及び音声データに基づく被写体の識別処理や音声認識処理、音声認識処理の結果に基づく文書データの作成処理、識別された人物ごとの音声の分割処理等を行ってもよい。
【０１１０】
また、上記の実施形態では、端末１０はカード型の形状を有し、人物の胸元に装着可能な大きさであるが、一例であり、これに限られるものではない。例えば、複数の端末の夫々が、会議場等の所定のスペースに設けられた複数の座席の夫々に対面する位置で固定されて設けられ、端末に対面する座席に座した人物を撮像するようにしてもよい。この場合、複数の端末の各々により、座席の各々に座した被写体の顔をより確実に撮像できるよう予め端末を設けることができる。また、座席に座る人物の個人情報と撮像された人物の口の動きの有無との照合により、音声データに含まれる人物の声の識別の精度をより向上させることができる。
【符号の説明】
【０１１１】
１情報処理システム
１０端末
１１撮像部
１１ａ、１１ｂカメラモジュール
１２音声取得部
１３制御部
１４フィルター処理部
１５通信部
１６電源部
１００クラウド
１１０サーバー
１１１通信部
１１２制御部
１１３記憶部

【特許請求の範囲】
【請求項１】
被写体を撮像して画像データを取得する撮像手段を備えた端末と、この端末の前記撮像手段により取得された画像データに基づいて被写体を識別するサーバーとを備える情報処理システムであって、
前記端末は、
前記撮像手段により取得された画像データに対して所定のフィルター処理を施す処理手段と、
この処理手段により前記所定のフィルター処理が施された画像データを前記サーバーに送信する送信手段と、を備え、
前記サーバーは、
前記送信手段により送信された前記所定のフィルター処理が施された画像データを受信する受信手段と、
前記受信手段により受信された前記所定のフィルター処理が施された画像データと前記被写体の識別のための照合用データとの照合の結果に基づいて前記被写体を識別する識別手段と、を備えることを特徴とする情報処理システム。
【請求項２】
前記端末は、前記被写体の３Ｄ画像を撮像するための複数の撮像手段を備え、
前記識別手段は、前記被写体の３Ｄ画像データに基づいて前記被写体を識別する３Ｄ認識処理を行うことを特徴とする請求項１に記載の情報処理システム。
【請求項３】
前記処理手段は、３Ｄ画像データを用いた位相限定相関法による照合を行うためのフーリエ変換処理を前記被写体の３Ｄ画像データに施し、
前記識別手段は、３Ｄ画像データを用いた位相限定相関法による照合を行うことを特徴とする請求項２に記載の情報処理システム。
【請求項４】
前記端末は、
音声を取得して音声データを生成する生成手段をさらに備え、
前記送信手段は、前記生成手段により生成された前記音声データを送信し、
前記受信手段は、前記送信手段により送信された前記音声データを受信し、
前記識別手段は、前記受信手段により受信された前記音声データに基づいて前記被写体を識別することを特徴とする請求項１から３のいずれか一項に記載の情報処理システム。
【請求項５】
前記端末は、カード型であることを特徴とする請求項１から４のいずれか一項に記載の情報処理システム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【公開番号】特開２０１３−３８０７（Ｐ２０１３−３８０７Ａ）
【公開日】平成２５年１月７日（２０１３．１．７）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - イメージデータ処理または発生一般 (58,387)
    - イメージ分析，例．ビットマップから非ビットマップへ (10,245)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)
    - 話者の同定または識別 (337)

【出願番号】特願２０１１−１３３７７０（Ｐ２０１１−１３３７７０）
【出願日】平成２３年６月１６日（２０１１．６．１６）
【公序良俗違反の表示】
（特許庁注：以下のものは登録商標）
１．Ｂｌｕｅｔｏｏｔｈ
【出願人】（０００００１２７０）コニカミノルタホールディングス株式会社 (4,463)
【Ｆターム（参考）】

[ Back to top ]

情報処理システム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

情報処理システム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク