説明

画像処理システム、及び画像処理プログラム

【課題】カメラの位置や演奏者とカメラとの距離、及び演奏者の立ち位置の制約を低減した画像処理システム、及び画像処理プログラムを提供する。
【解決手段】被写体を撮影することで、被写体を示す動画像データを取得する取得手段と、取得手段により取得された動画像データが示す画像内に予め定められた音を発生させるための1つ以上の演奏領域を特定する領域特定手段と、取得手段により取得された動画像データが示す画像内に存在する特定の被写体を示す特定画像を検出する検出手段と、領域特定手段により特定された演奏領域毎に、検出手段により検出された特定画像が演奏領域に重なった場合に出力する音を割り当てる割当手段と、特定画像が演奏領域と重なった場合に、割当手段により演奏領域に割り当てられた音を示す信号を出力する信号出力手段と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理システム、及び画像処理プログラムに係り、特に、画像を用いて音を出力する画像処理システム、及び画像処理プログラムに関する。
【背景技術】
【0002】
従来より、画像を用いて音を出力する装置が開示されている。例えば、特許文献1には、複数のクロマキー像によるポインティング操作を行うことができる画像制御装置が開示されている。特許文献1に開示された装置では、目立つ色に着色された手袋、靴下の色を抽出、記憶し、その抽出色が、モニタ画面上に映るビデオ画像の背景に表示された選択楽器の割り当て領域に入った場合、その選択楽器の音が鳴り、かつ、その割り当て領域に入った抽出色ピクセル群の重心と、割り当て領域に入った抽出色ピクセル群の重心との距離により音の強さをコントロールするようになっている。
【0003】
また、特許文献2には、画面上に示された楽器を鳴らすための記号パターンを示す絵が前もって複数示されていて、それらのひとつを選択した場合、例えば、指の形のパターンを選択した場合、指の形をした映像が楽器を鳴らすための領域である追跡エリアと呼んでいる領域に入った場合に、所定の楽器音が鳴るようにした技術が開示されている。
【0004】
特許文献2の技術では、表示画面上に設定された複数の入力エリアに、予め選択するための画像パターンが表示されており、前記複数の入力エリアのいずれかを選択することにより、選択された入力エリアに表示されている前記画像パターンが所定のパターンとして指定される。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平6−92980号公報
【特許文献2】特開2003−202833号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に開示された技術では、パターン検出領域を予め画面上に割り当ててあるため、例えば、パターン検出領域が画面上の両側にあるような場合、動画画像は、必ず(操作の都合で)画面中央に映るようにする必要があり、かつ、人物も左右のパターン検出領域を操作し易い大きさに映らなければならない。すなわち、カメラの方向、カメラからの距離、演奏者の立ち位置は、一義的に決まってしまい、それ以外の位置に楽器演奏者が存在するようにカメラが配置された場合は演奏ができないか支障が生ずるという欠点がある。
【0007】
また、特許文献2に開示された技術では、入力エリア、及び追跡エリアが、予め画面上に割り当ててあるため、動画画像は、必ず(操作の都合を考えて)画面の入力エリア、及び追跡エリアを避けるような位置に映るようにする必要があり、かつ、人物もそれら入力エリア、及び追跡エリアを操作しやすい大きさに映らなければならない。すなわち、カメラの方向、カメラからの距離、演奏者の立ち位置は、あらかじめ描画された表示が存在するため、一義的に決まってしまい、それ以外の位置に楽器演奏者がいるようにカメラが配置された場合は演奏ができないか支障が生ずるという欠点がある。
【0008】
また、特許文献2に開示された技術では、入力エリアに所定の入力パターンに相当する絵を表示装置上に描かなければ、この発明を実現できないという欠点があり、その描画装置上の描画領域が演奏領域として使えないという欠点があった。
【0009】
さらに、特許文献2に開示された技術では、例えば、指の形の映像パターンが検出パターンと同じ形状(或いは色)をしていなければ楽器が鳴らないという、撮影時の環境に対するロバストネスが低いという欠点がある。具体的に、例えば、実際のカメラでは、カメラの方向などによって、指を二本出していても一本にしかカメラには見えないことがあるので、指が一本でも二本でも、指らしいと装置が判断して音を鳴らしたり、或いは照明の明るさ、色に対する使っているカメラでどういう色、形で実際は写るのかがかなり異なるので、どのような光線環境、写り方によっても必ず、指定の認識ができるとは言えないという欠点があった。
【0010】
このように、従来の技術では、楽器を演奏するために必要な操作子を認識するためのパターンの選択メニューや、演奏定義領域を画面上にあらかじめ固定して描画する必要があった。また、実際に動画として画面に映る映像は全く独立したものであり、画面に固定された表示にかからないようにカメラを設定したり、メニューを操作しやすい位置に人物が来るようにカメラ位置を調整しなければならないという問題があった。
【0011】
すなわち、カメラの位置や演奏者とカメラとの距離、及び演奏者の立ち位置が制約されるという問題点があった。
【0012】
本発明は上記問題点に鑑み、カメラの位置や演奏者とカメラとの距離、及び演奏者の立ち位置の制約を低減した画像処理システム、及び画像処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
上記目的を達成するために、請求項1の発明は、被写体を撮影することで、該被写体を示す動画像データを取得する取得手段と、前記取得手段により取得された動画像データが示す画像内に予め定められた音を発生させるための1つ以上の演奏領域を特定する領域特定手段と、前記取得手段により取得された動画像データが示す画像内に存在する特定の被写体を示す特定画像を検出する検出手段と、前記領域特定手段により特定された演奏領域毎に、前記検出手段により検出された特定画像が該演奏領域に重なった場合に出力する音を割り当てる割当手段と、前記特定画像が前記演奏領域と重なった場合に、前記割当手段により該演奏領域に割り当てられた音を示す信号を出力する信号出力手段と、を有する。
【0014】
請求項1の発明によれば、取得手段により、被写体を撮影することで、該被写体を示す動画像データを取得し、領域特定手段により、前記取得手段により取得された動画像データが示す画像内に予め定められた音を発生させるための1つ以上の演奏領域を特定し、検出手段により、前記取得手段により取得された動画像データが示す画像内に存在する特定の被写体を示す特定画像を検出し、割当手段により、前記領域特定手段により特定された演奏領域毎に、前記検出手段により検出された特定画像が該演奏領域に重なった場合に出力する音を割り当て、信号出力手段により、前記特定画像が前記演奏領域と重なった場合に、前記割当手段により該演奏領域に割り当てられた音を示す信号を出力する。このように、請求項1の発明は、カメラの位置や演奏者とカメラとの距離及び演奏者の立ち位置には関係なく、被写体を示す画像内の領域に音を割り当てるので、カメラの位置や演奏者とカメラとの距離、及び演奏者の立ち位置の制約を低減することができる。
【0015】
また、請求項2の発明は、請求項1の発明において、前記取得手段により取得された動画像データが示す画像を複数の領域に分割する分割手段をさらに有し、前記領域特定手段は、前記分割手段により分割された領域の中から、前記予め定められた音を発生させるための1つ以上の演奏領域を特定する。
【0016】
請求項2の発明によれば、自動的に演奏領域を分割することができるので、より簡単に演奏することが可能となる。
【0017】
また、請求項3の発明は、請求項1又は請求項2に記載の発明において、前記割当手段は、複数の前記演奏領域に音を割り当てる場合に、複数の演奏領域の各々に周波数が異なる音の各々を順に割り当てる。
【0018】
請求項3の発明によれば、複数の演奏領域の各々に周波数が異なる音の各々を順に割り当てることにより、異なる音の各々を示す信号を出力することができる。
【0019】
また、請求項4の発明は、請求項1〜請求項3のいずれか1項に記載の発明において、前記取得手段により取得された動画像データが示す画像を表示する表示手段をさらに有する。
【0020】
請求項4の発明によれば、演奏者が表示手段を視認しながら演奏可能となるので、より演奏者が演奏をしやすくすることができる。
【0021】
また、請求項5の発明は、請求項1〜請求項4のいずれか1項に記載の発明において、前記表示手段は、前記演奏領域の境界線をさらに表示する。
【0022】
請求項5の発明によれば、表示手段に境界線をさらに表示することにより、演奏者が境界線を視認することが可能となるので、より演奏をしやすくすることができる。
【0023】
また、請求項6の発明は、請求項1〜請求項5のいずれか1項に記載の発明において、前記被写体には、前記領域特定手段により特定される演奏領域が予め示されており、前記領域特定手段は、該被写体に示される領域の中から、前記予め定められた音を発生させるための1つ以上の演奏領域を特定する。
【0024】
請求項6の発明によれば、演奏者が演奏しやすい領域を被写体として予め示しておくことで、より演奏者が演奏しやすくすることが可能となる。
【0025】
請求項7の発明は、請求項1〜請求項6のいずれか1項に記載の発明において、前記特定の被写体は、予め定められた色の被写体、及び予め定められた物体の被写体のうちの少なくとも一方の被写体である。
【0026】
請求項7の発明によれば、予め定められた色の被写体、及び予め定められた物体のうちの少なくとも一方の被写体を特定の被写体とすることができる。
【0027】
請求項8の発明は、請求項1〜請求項7のいずれか1項に記載の発明において、前記特定の被写体の動作を、前記検出手段により検出された特定画像により検知する動作検知手段と、前記動作検知手段により検知された前記特定の被写体の動作を示す動作情報を記録する記録手段と、をさらに有し、前記信号出力手段は、前記特定画像が前記割当手段により音が割り当てられた領域に重なり、かつ前記動作検知手段により検知された前記特定の被写体の動きが、前記記録手段により記録された動作情報が示す動作の場合に、音を示す信号を出力する。
【0028】
請求項8の発明によれば、特定画像が演奏領域に重なり、かつ前記動作検知手段により検知された前記特定の被写体の動きが、前記記録手段により記録された動作情報が示す動作の場合に、音を示す信号を出力することで、誤認識による信号の発生を抑制することができる。
【0029】
請求項9の発明は、請求項1〜請求項8のいずれか1項に記載の発明において、前記信号出力手段により出力された信号に応じて音を出力する音出力手段をさらに有する。
【0030】
請求項9の発明によれば、演奏者は実際の音を聞くことが可能となる。
【0031】
上記目的を達成するために、請求項10に記載の発明は、コンピュータを、コンピュータを、被写体を撮影することで、該被写体を示す動画像データを取得する取得手段により取得された動画像データが示す画像内に予め定められた音を発生させるための1つ以上の演奏領域を特定する領域特定手段と、前記取得手段により取得された動画像データが示す画像内に存在する特定の被写体を示す特定画像を検出する検出手段と、前記領域特定手段により特定された演奏領域毎に、前記検出手段により検出された特定画像が該演奏領域に重なった場合に出力する音を割り当てる割当手段と、前記特定画像が前記演奏領域と重なった場合に、前記割当手段により該演奏領域に割り当てられた音を示す信号を出力する信号出力手段と、して機能させるための画像処理プログラムである。
【0032】
請求項10の発明は、請求項1の発明と同様に作用するので、請求項1の発明と同様の効果が得られる。
【発明の効果】
【0033】
本発明によれば、カメラの位置や演奏者とカメラとの距離、及び演奏者の立ち位置の制約を低減した画像処理システム、及び画像処理プログラムを提供することができる、という効果が得られる。
【図面の簡単な説明】
【0034】
【図1】本実施の形態に係る画像処理システムを示す図である。
【図2】画像処理装置のハードウェア構成例を示す図である(その1)。
【図3】画像処理装置のハードウェア構成例を示す図である(その2)。
【図4】画像処理システムの機能ブロック図である。
【図5】特定の被写体の動作例を示す図である。
【図6】検出部の詳細を示す図である。
【図7】分割部により画像を複数の領域に分割し、物体検出部により物体を検出する場合の一例を示す図である。
【図8】分割部による分割をせずに、領域特定部により演奏領域を特定する場合の一例を示す図である。
【図9】プロジェクタ等の被写体に領域を描くことが可能な装置を用いた場合の例を示す図である。
【図10】領域特定部により演奏領域を特定し、物体検出部により色を示す画像を検出する場合の一例を示す図である。
【図11】色つきの物体を置く位置を机上に代えて、演奏者の服とした場合の例を示す図である。
【図12】画像処理全体の流れを示すフローチャートである。
【図13】分割割当処理の詳細を示すフローチャートである。
【図14】検出処理の詳細を示すフローチャートである。
【図15】信号出力処理の詳細を示すフローチャートである(その1)。
【図16】信号出力処理の詳細を示すフローチャートである(その2)。
【発明を実施するための形態】
【0035】
以下、図面を参照して、本発明を実施するための最良の形態について詳細に説明する。
【0036】
図1は、本実施の形態に係る画像処理システム1を示す図である。図1には、画像処理装置10、動画を撮影するカメラ20、表示部30、及びスピーカ40が示されている。
【0037】
画像処理装置10は、画像処理システム1全体を制御するもので、カメラ20と接続するための端子(USB端子等)、スピーカ40と接続するための音声出力端子、及び表示部30と接続するための端子(DVI端子等)が設けられている。
【0038】
カメラ20は、被写体を撮影することで、該被写体を示す動画像データを取得するもので、ビデオカメラ、或いは動画撮影可能なデジタルカメラなどのカメラである。表示部30は、カメラ20により取得された動画像データが示す画像を表示する液晶ディスプレイなどの表示部である。スピーカ40は、画像処理装置10から出力された信号に応じて音を出力する。
【0039】
なお、図1において本発明に係る画像処理システム1としての最小構成は画像処理装置10とカメラ20からなる構成である。
【0040】
次に、上記画像処理装置10の2種類のハードウェア構成について説明する。図2は、画像処理装置10のハードウェア構成例(その1:ハードウェアアクセラレータタイプ)を示す図である。画像処理装置10は、システムコントローラ200、音制御ロジック210、画像処理ロジック220、画素情報変換ロジック230、画像認識部240、表示制御ロジック260、RAM(Random Access Memory)270、ROM(Read Only Memory)280、及びそれらを接続するバスを含んで構成される。
【0041】
このうち、RAM270は、画像処理装置10の各回路で用いられる一時的な情報が記憶される。また、ROM280は、システムコントローラ200を動作させるためのプログラム、音や音楽等の種類、所定の物体の形や特徴等を示す情報が記憶される。
【0042】
また、上記システムコントローラ200は、CPU(Central Processing Unit)201、RAM202、ROM203を含んで構成される。このシステムコントローラ200は、ROM280からRAM202に転送されたプログラムに従って画像処理装置10の全体を制御する。RAM202には、上記プログラム、及び各回路ブロックの制御に関わる一時的な情報が記憶される。ROM203には、画像を認識するための認識アルリズムを外部からハッキングされないためのID情報が記憶される。なお、システムコントローラ200を動作させるためのプログラムを、上述したROM280に記憶せずに、ROM203に記憶しておくようにしても良い。
【0043】
また、システムコントローラ200は、音制御ロジック210に対して、領域に割り当てられた音や音楽、楽器等の種類などを示すコードや、音や音楽を発生させるためのタイミング情報を出力する。
【0044】
音制御ロジック210は、ROM280に記憶された音に関する情報(MIDI情報や音声波形情報)をシステムコントローラ200から入力されたコードに従って、スピーカ40により発生させるための信号を作成する。このとき、音制御ロジック260による処理で用いられる一時的な情報の記憶にRAM270が用いられる。
【0045】
画像処理ロジック220は、カメラ20から出力されたビデオ信号が示す画像に対して、ノイズを除去したり、エッジを強調してよりはっきりとした認識しやすい画面にするようにビデオ信号を補正し、補正されたビデオ信号を画素情報変換ロジック230に出力する。このとき、画像処理ロジック220による処理で用いられる一時的な情報の記憶にRAM270が用いられる。
【0046】
画素情報変換ロジック230は、画像処理ロジック220から出力されたビデオ信号から、画像認識部240で扱うための素材情報を抽出する。この素材情報は、各画素の様々なパラメータ情報や、その画素の画面上の位置情報である。パラメータ情報の具体例として、明度情報、彩度情報、色相情報、輝度情報など色に関する情報や、画面間の差(遅延)を利用して得られる画素の動き成分(ベクトル情報)が挙げられる。
【0047】
画像認識部240では、高速画像認識演算専用ロジック241により、ROM280に記憶されたプログラムに従って画像認識が行なわれる。高速画像認識演算専用ロジック241による画像認識の例として、入力された輝度情報を二値化することでビデオ信号が示す画像における境界線、線成分を抽出する処理が挙げられる。
【0048】
また、高速画像認識演算専用ロジック241は、抽出した線成分で囲われる同じ色の物体に番号をつけて物体を提起したり(グルーピング)、その物体の位置が過去と比較してどのように変わっていったのか、或いはどの方向に動いているのかを認識したりする。
【0049】
さらに、高速画像認識演算専用ロジック241は、上記ROM280に記憶された所定の物体の形や特徴等を示す情報を用いて、現在注目している物体の形や特徴がどの程度似ているかなどを演算する。
【0050】
画像認識部240は、上述した高速画像認識演算専用ロジック241による処理の認識結果を示す情報が重畳されたビデオ信号を表示制御ロジック260に出力する。例えば、注目する動作に四角や丸などのマークが描かれた画像を示すビデオ信号が出力される。
【0051】
また、画像認識部240のRAM242は、高速画像認識演算専用ロジック241による処理で用いられる一時的な情報が記憶される。
【0052】
表示制御ロジック260は、入力されたビデオ信号が示す画像に、文字や枠、メニュー等の説明を重畳し、その画像を示すビデオ信号を表示装置に出力する。
【0053】
以上説明した図2に示されるハードウェアアクセラレータタイプに代えて、図3に示されるハードウェア構成を用いても良い。図3は、画像処理装置10のハードウェア構成例(その2:多数DSP(Digital Signal Processor)の並列演算タイプ)を示す図である。図3に示されるハードウェア構成は、図2で説明した画素情報変換ロジック230及び画像認識部240に代えて、並列画像処理演算ユニット290を設けた点が異なる。この図3において、図2で説明されたブロックと同じブロックには同じ符号が付与されており、処理内容も同一であるので説明を省略する。
【0054】
画像処理演算ユニット290は、DSP291とRAM292で一組のDSPユニットが多数設けられたユニットであり、RAM292は、DSP291による処理で用いられる一時的な情報が記憶される。
【0055】
図3に示されるように、画像処理ロジック220から出力されたビデオ信号は、並列画像処理演算ユニット290に入力され、並列画像処理演算ユニット290において、図2で説明した画素情報変換ロジック230及び画像認識部240による処理がビデオ信号に対して行なわれ、その信号が表示制御ロジック260に出力される。
【0056】
以上説明した2種類の構成のうち、図2に示されるハードウェアアクセラレータタイプのメリットとして、画像処理を専用カスタムロジックで行うので、より高速、低消費電力の装置(LSI(Large Scale Integration))が実現でき、また専用ロジックであるため、回路が最適化されているため小チップ面積(ローコスト)のLSIが実現できることが挙げられ、デメリットとしては、専用カスタムロジックであるため、汎用性に欠けるということが挙げられる。
【0057】
一方の図3に示される多数DSPの並列演算タイプのメリットとして、汎用性が高く、様々な画像認識に対応可能であることが挙げられ、デメリットとして汎用性を高めるため、多くのDSPを使うので、LSIのチップ面積が大きくなり(コストが高くなる)、また専用ロジックでできていないため、無駄に動作する部分が発生し、専用ロジックほどの高速化実現には大消費電力必要となることが挙げられる。
【0058】
次の図4は、画像処理システム1の画像認識部240又は並列画像処理演算ユニット290による画像処理を機能ブロックで表した場合のブロック図である。同図には、カメラ20、動画像データ取得部50、分割部60、領域特定部65、検出部70、割当部80、動作検知部90、信号出力部100、表示部30、及びスピーカ40が示されている。
【0059】
このうち、動画像データ取得部50は、カメラ20が撮影した被写体を示す動画像データをカメラ20より取得して、分割部60及び検出部70に動画像データを提供する。分割部60は、カメラ20により取得された動画像データが示す画像を複数の領域に分割する。具体的に、分割部60は、動画像データが示す画像を、予め定められたアルゴリズムに従って複数の領域に分割する。予め定められたアルゴリズムとは、例えば画像の左端から右端までをn(nは自然数)等分、例えば3等分に分割する、等のアルゴリズムである。
【0060】
領域特定部65は、動画像データ取得部50により動画像データが示す画像内に予め定められた音を発生させるための1つ以上の演奏領域を特定する。また、分割部60により複数の領域に分割された画像が出力された場合には、分割部60により分割された領域の中から、予め定められた音を発生させるための1つ以上の演奏領域を特定する。
【0061】
検出部70は、カメラ20により取得された動画像データが示す画像内に存在する特定の被写体を示す特定画像を検出する。この特定画像の検出には、予め定められた色、予め定められた物体が用いられるが、色の場合は画素値により特定でき、物体の場合は例えばパターンマッチングにより該当する物体を特定することができる。
【0062】
割当部80は、領域特定部65により特定された演奏領域毎に、検出部70により検出された特定画像が該演奏領域に重なった場合に出力する音を割り当てる。さらに、割当部80は、複数の領域に音を割り当てる場合に、該複数の領域の各々に周波数が異なる音の各々を順に割り当てる。例えば、n(nは2以上の整数)個の領域に分割された場合には、1個目の領域には音を割り当てず、2個目の領域から順に異なる音の各々を順に割り当てるようにしても良い。
【0063】
信号出力部100は、特定画像が演奏領域と重なった場合に、割当部80により該演奏領域に割り当てられた音を示す信号をスピーカ40に出力する。本実施の形態に係る音は、メロディ、曲、音声なども含まれる。音声は、例えば後述するように色で領域を分割した場合に、その色の名前を音とすることができる(赤色であれば「あか」、或いは「RED」等)。この場合、本実施の形態に係る画像処理装置を知育玩具や学習機器として提供することができる。
【0064】
動作検知部90は、特定の被写体の特殊な動作を、検出部70により検出された特定画像により検知する。ここでの特殊な動作について、図5を用いて説明する。図5は、特定の被写体の特殊な動作例を示す図である。同図に示されるように、矩形で示されるある領域内で、動作のパターン(特定の被写体(例えば、手や、撥などの演奏道具)を横に小刻みに高速で振る、小さく上下に振る、右、或いは左に振る、或いは小さく円を書く、等動作)を、例えば設定された時間内などにカメラ20に向かって演奏者が動作する。このような動作を示す動作情報は、動作検知部90により図2又は図3で説明した例えばROM280に記録される。動作情報の具体例として、特定の被写体のある時間内での変位などが挙げられる。
【0065】
この動作情報を演奏前に記録しておくようにする。これにより、その環境(光、形等)に応じて特殊な動作を記録することができ、その結果、誤認識を抑制することができる。この特定の被写体が、記録された動作情報に示される特殊な動作をした場合には、特殊な動作がされたことを示す情報を、信号出力部100に出力する。この場合、信号出力部100は、特定画像と割当部80により音が割り当てられた領域とが重なり、かつ特殊な動作がされた場合に、該音を示す信号をスピーカ40に出力することとなる。
【0066】
以上説明したブロック図において、画像処理システム1としての最小構成は表示部30及び動作検知部90を除いた構成である。
【0067】
次に、上述した検出部70の詳細について、図6を用いて説明する。検出部70は、色検出部72、及び物体検出部74で構成されている。色検出部72は、特定の被写体として、動画像データ取得部50から提供された画像から、予め定められた色の被写体を示す画像を検出する。例えば、予め定められた色が赤色の場合は、画像内の赤色の領域を検出する。なお、予め定められた色は複数でも良く、この場合は複数の領域が検出される。
【0068】
一方、物体検出部74は、動画像データ取得部50から提供された画像から、予め定められた物体の被写体を示す画像を検出する。例えば、予め定められた物体として、演奏者の手、撥等が挙げられる。
【0069】
なお、図6では、色検出部72と物体検出部74とが示されているが、いずれか一方のみを備えるようにしても良い。
【0070】
上述した構成により実行される画像処理の概要を以下に説明する。図7は、上述した分割部60により画像を複数の領域に分割し、物体検出部74により物体を検出する場合の一例を示す図である。この例は、机の上にカメラ20を置いた場合の例を示している。
【0071】
同図に示されるように、まずカメラ20を机の上に置くことで、机の縁を含む画像が得られる。その画像において、まず机の縁を水平線として認識する。この画像認識処理は、例えばエッジ検出等の一般的な画像認識技術を用いることで容易に実行できる処理である。なお、図中に示されるROIは、"Region Of Interest"を示している。
【0072】
次に、分割部60は、水平線を基準に画像を水平線に沿った方向に隣接した複数の領域(例えば3つの領域)に分割する。そして、領域特定部65は、領域1〜3を演奏領域として特定する。割当部80は、3つの領域に分割した場合には、領域1〜3の各々に、周波数が異なる音を順に割り当てる。図では、高音、中音、低音等の音階に応じた周波数の音が順に割り当てられている。これにより机上楽器が作成されたこととなる。なお、どの領域に対してどの音を割り当てるかを示す情報を予めROM280に記憶しておき、それを用いて割当部80が音を割り当てるようにしても良い。
【0073】
検出部70は特定の被写体として楽器演奏時に動作する、例えば指を示す特定画像を検出する。そして、信号出力部100が、特定の被写体と音が割り当てられた領域とが重なった場合に、該音を示す信号をスピーカ40に出力することで、音が鳴ることとなる。
【0074】
図7に示すように、分割部60により画像を複数の領域に分割し、かつ表示部30が設けられている場合には、分割された領域の境界線をさらに表示するようにしても良い。
【0075】
図8は、分割部60による分割をせずに、領域特定部65により演奏領域を特定する場合の一例を示す図である。この例は、机の上にカメラ20を置き、さらに分割される領域が予め示されているシートを用いた場合の例を示している。
【0076】
同図に示されるように、まずカメラ20を机の上に置くことで、机の縁が含まれる画像が得られる。その画像において、まず机の縁を水平線として認識する。
【0077】
次に、領域特定部65は、シートに印刷等によって記録された領域の境界線を認識し、その境界線に沿って囲まれる複数の領域(図では3つ)を演奏領域として特定する。そして、割当部80は、複数の分割領域の各々、例えば領域1〜3の各々に、周波数が異なる音を順に割り当てる。これにより机上楽器が作成されたこととなる。
【0078】
検出部70は特定の被写体として、上記と同様に指を示す特定画像を検出する。そして、信号出力部100が、特定の被写体と音が割り当てられた領域とが重なった場合に、該音を示す信号をスピーカ40に出力することで、音が鳴ることとなる。
【0079】
次の図9は、図8におけるシートに代えて、プロジェクタ等の被写体に領域を描くことが可能な装置を用いた場合の例を示す図である。
【0080】
この場合、カメラ20により得られる画像は、シートを用いた場合であってもプロジェクタを用いた場合であっても同様なので、図9で実行される処理は図8で実行される処理と同じものとなる。
【0081】
図10は、領域特定部65により演奏領域を特定し、物体検出部74により色を示す画像を検出する場合の一例を示す図である。この例は、机の上にカメラ20を置き、さらに色がついた物体を置いた場合の例を示している。
【0082】
同図に示されるように、まずカメラ20を机の上に置くことで、机の縁を含む画像が得られる。その画像において、まず机の縁を水平線として認識する。
【0083】
次に、領域特定部65は、色がついた物体及びその近傍を認識し、色がついた物体が存在する領域を演奏領域として特定する。割当部80は、領域の各々に、周波数が異なる音を順に割り当てる。
【0084】
検出部70は特定の被写体として例えば手を示す特定画像を検出する。そして、信号出力部100が、特定の被写体と音が割り当てられた領域とが重なった場合に、該音を示す信号をスピーカ40に出力することで、音が鳴ることとなる。
【0085】
次の図11は、色つきの物体を置く位置を、図10における机上に代えて、演奏者の服とした場合の例を示す図である。もっとも、演奏者の服に色つきの物体を置く(貼る)ようにしても良いが、同図に示されるように、予め着色された服を用いるようにしても良い。
【0086】
この場合、カメラ20により得られる画像は、机上に置いた場合であっても着色された服を用いた場合であっても同様なので、図11で実行される処理は図10で実行される処理と同じものとなる。
【0087】
上述した処理概要では、机を用いたものとなっているが、上述した処理概要から分かるように、机に限らず、例えばカーテン等を用いても本実施の形態を実行可能なことは言うまでもない。
【0088】
以上説明した画像処理の流れを画像処理装置10によって実行されるプログラムを示すフローチャートを用いて説明する。以下に示されるフローチャートは、図2、図3で説明したシステムコントローラ200又は並列画像処理演算ユニット290、及び各ロジックにより実行されるプログラムによる処理の流れを示している。図12は、画像処理全体の流れを示すフローチャートである。
【0089】
まず、ステップ101で、分割部60、領域特定部65、及び割当部80により、動画像データにより表される画像を複数の領域に分割し、領域特定部65により、その領域の中から演奏領域を特定し、演奏領域に音を割り当てる分割割当処理が実行される。この分割割当処理では、後述するように分割部60により分割しない場合の処理も含まれる。
【0090】
次のステップ102で、検出部70により、カメラ20により取得された動画像データが示す画像内に存在する特定の被写体を示す特定画像を検出する検出処理が実行される。そして、ステップ103で、信号出力部100により、特定画像が演奏領域と重なった場合に、該音を示す信号をスピーカ40に出力する信号出力処理が実行され、処理が終了する。
【0091】
なお、このフローチャートでは、便宜的に分割割当処理の次に検出処理を行なうようになっているが、並行して実行した方が効率的である。すなわち、ソフトウェアで実行する場合は、この2つの処理の各々を別スレッドで起動して並行して処理を実行させるようにしても良い。
【0092】
上述した各処理の詳細について説明する。図13は、分割割当処理の詳細を示すフローチャートである。
【0093】
まずステップ201で、動画像データ取得部50からカメラ20により取得された画像を取得する。次のステップ202で、領域の境界を示す複数の境界線が撮影されているかを判断することにより、被写体に予め示されている領域が存在するか否かを判定する。
【0094】
ステップ203で、肯定判定した場合には、ステップ204に進み、否定判定した場合には、上述した所定のアルゴリズムに従って画像を水平線等の基準線に沿って隣接する複数の領域に例えば等間隔で分割して、ステップ204の処理に進む。
【0095】
ステップ204で分割された領域、又は被写体に予め示されている領域の中から演奏領域を特定する。そして、ステップ205で、音階が構成されるように周波数が異なる音を各々の演奏領域に対して割り当てて、分割割当処理を終了する。
【0096】
図14は、検出処理の詳細を示すフローチャートである。この検出処理は特定画像を検出する処理であるが、特定画像の検出には、予め定められた色の被写体を用いた検出と、予め定められた物体の被写体を用いた検出がある。具体的に、例えば手を用いて演奏する場合、手の色(肌色)の被写体を用いて検出する場合と、手の形の被写体を用いて検出する場合とがある。
【0097】
まずステップ301で、動画像データ取得部50からカメラ20により取得された画像を取得する。次のステップ302で、特定の被写体として、予め定められた色の被写体、及び予め定められた物体の被写体のいずれか一方、又は両方を用いて処理をするかにより分岐する。例えば、手を用いて演奏する場合には、肌色の被写体を検出するか、或いは手の形をした被写体を検出するか、或いは肌色で手の形をした被写体を検出するかのいずれかの検出を行なうこととなる。
【0098】
まず、特定の被写体として、予め定められた色の被写体を用いて処理をする場合には、ステップ303で、予め定められた色と同じ色を持つ画像を特定画像として検出して処理を終了する。一方、特定の被写体として、予め定められた物体の被写体を用いて処理をする場合には、ステップ306で、予め定められた物体と同じ物体を示す画像を特定画像として検出して処理を終了する。
【0099】
そして、両方を用いて処理をする場合には、ステップ304で、まず予め定められた色と同じ色を持つ画像を検出し、次のステップ305で、検出した画像のうち、予め定められた物体と同じ物体を示す画像を特定画像として検出して処理を終了する。この検出処理は、カメラ20により取得される画像(フレーム)毎に行なっても良いし、数フレーム毎に行なうようにしても良い。
【0100】
図15は、信号出力処理の詳細を示すフローチャートである。まず、ステップ401で、検出処理により検出された特定画像、及び分割割当処理により特定された特定領域を取得する。具体的には、特定画像の領域を示す情報と、特定された各々の演奏領域を示す情報を取得する。例えば画像全体をXY座標とした場合、領域を示す情報はXY座標の座標値を用いた情報となる。
【0101】
次のステップ402で、特定画像が演奏領域に重なったか否か判定し、肯定判定した場合には、ステップ403で領域に割り当てられている音を示す信号をスピーカ40に出力して再びステップ402の処理に戻る。音が割り当てられていない領域の場合には、当然に信号は出力されない。一方、ステップ402で否定判定した場合も再びステップ402の処理に戻る。
【0102】
なお、この信号出力処理において、例えば演奏者がある操作をした場合、或いは画像処理装置10にユーザインタフェースを設けて、ある入力がされた場合に処理を終了するようにしても良い。
【0103】
図16は、上述した知育玩具として本実施の形態に係る画像処理システムを提供する場合の信号出力処理を示すフローチャートである。
【0104】
ステップ501は、上述したステップ401の処理において取得した特定画像、及び分割割当処理により分割された領域に加え、領域の色を取得する。これにより各々の領域と色が関連づけられる。次のステップ502で、特定画像が領域に重なったか否か判定し、肯定判定した場合には、ステップ503で領域の色に対応する音声を示す信号をスピーカ40に出力して再びステップ502の処理に戻る。一方、ステップ502で否定判定した場合も再びステップ402の処理に戻る。
【0105】
以上説明した実施の形態において、まず被写体には、分割される領域が予め示されている場合と、そうではない場合の2通りの実施形態が存在する。また、表示部30が設けられている場合と、そうではない場合の2通りの実施形態が存在する。
【0106】
さらに、特定の被写体として、予め定められた色の被写体、及び予め定められた物体の被写体のうちの少なくとも一方を用いることで、3通り(色、物体、両方)の実施形態が存在する。また、上述した動作検知部90が設けられている場合と、そうではない場合の2通りの実施形態が存在する。
【0107】
従って、本実施の形態では、2×2×3×2=24通りの実施形態が存在することとなる。
【0108】
そして、被写体に、分割される領域が予め示されている実施形態では、演奏者が演奏しやすい領域を上述したシートなどにより予め示しておくことで、より演奏しやすくすることが可能となる。一方、被写体に、分割される領域が予め示さない実施形態では、そのような被写体を用意することなく演奏することができる。
【0109】
表示部30が設けられている実施形態では、演奏者が表示部30を視認しながら演奏可能となるので、より演奏をしやすくすることができる。一方、表示部30が設けられていない実施形態では、表示部30を用意することなく演奏することができる。
【0110】
特定の被写体として、予め定められた色の被写体を用いる実施形態では、例えば手を用いて演奏する場合、色を肌色としておくことで、より確実に特定画像を検出することができる。特に手を使った音やメロディの演奏においては、予め定められた物体を用いた場合よりもロバスト性が確保される。
【0111】
また、特定の被写体として、予め定められた物体の被写体を用いる実施形態では、例えば撥など種々の物体を用いて演奏することが可能となる。さらに、予め定められた色の被写体、及び予め定められた物体の両方を用いた実施形態では、いずれか一方のみでは誤認識の可能性があるが(例えば、色だけだと動きが殆どないものに対する誤動作の可能性もある)、両方を用いることで、操作に対してロバスト性が確保された画像処理システムを提供できる。
【0112】
また、動作検知部90について、特許文献2の技術では、入力エリアに所定の入力パターンに相当する絵を表示装置上に描かなければ実現できないという欠点があり、その描画装置上の描画領域が演奏領域として使えないという欠点があった。また、例えば、指の形の画像が検出するパターンと同じ形状(或いは色)をしていなければ楽器が鳴らないという、撮影時の環境に対するロバスト性が低いという欠点があった。
【0113】
これに対し、動作検知部90により、手や演奏をする道具の色や動きを演奏直前の特定時間内に画像処理システム1に記憶させることが可能となるため、特許文献2に記載の技術のように入力エリアに所定の入力パターンに相当する絵を表示装置上に描く必要が無く、演奏するための領域の自由度が増し、かつ、演奏直前に、手や演奏をする道具の色、動き、或いは両方の検知をする基準をその場の照明環境やカメラに対する手や演奏をする道具のその時々のコンディションに対する固有の写りかたに設定できるため、特許文献2に開示された技術の欠点であった、指の形の映像パターンが検出パターンと同じ形状(或いは色)をしていなければ楽器が鳴らないという、撮影時の環境に対するロバストネスを解消することができる。
【0114】
例えば、その場の照明の色や明るさ、外光の入り方で、そのときのカメラで写る実際の映像(色、形)がかなり異なるが、どのような光線環境、写り方になるようになっていたとしても演奏直前に検出する動作の検知が可能となる。
【0115】
また、本実施の形態によれば、実際のカメラでは、カメラの方向などによって、指を二本出していても一本にしかカメラは見えないことがあるが、画像処理システム1では、指が一本でも二本でも、指らしいと判断して音やメロディを鳴らすことが可能となる。
【0116】
このように、本実施の形態に係る画像処理システム1は、演奏者が演奏をしやすいシステムであり、また利便性、汎用性が高く、高度な楽器演奏が可能となるシステムである。さらに、本実施の形態に係る画像処理システム1は、上述したように、ロバスト性が確保された優れたシステムである。
【0117】
なお、上述した実施の形態で示した各フローチャートの処理の流れ(図12〜図16)は一例であり、本発明の主旨を逸脱しない範囲内で適宜変更することができることも言うまでもない。
【符号の説明】
【0118】
1 画像処理システム
10 画像処理装置
20 カメラ
30 表示部
50 動画像データ取得部
60 分割部
65 領域特定部
70 検出部
72 色検出部
74 物体検出部
200 システムコントローラ
201 CPU
202、242、270、292 RAM
203、280 ROM
210 音制御ロジック
220 画像処理ロジック
230 画素情報変換ロジック
240 認識部
241 高速画像認識演算専用ロジック
260 表示制御ロジック
290 並列画像処理演算ユニット
291 DSP

【特許請求の範囲】
【請求項1】
被写体を撮影することで、該被写体を示す動画像データを取得する取得手段と、
前記取得手段により取得された動画像データが示す画像内に予め定められた音を発生させるための1つ以上の演奏領域を特定する領域特定手段と、
前記取得手段により取得された動画像データが示す画像内に存在する特定の被写体を示す特定画像を検出する検出手段と、
前記領域特定手段により特定された演奏領域毎に、前記検出手段により検出された特定画像が該演奏領域に重なった場合に出力する音を割り当てる割当手段と、
前記特定画像が前記演奏領域と重なった場合に、前記割当手段により該演奏領域に割り当てられた音を示す信号を出力する信号出力手段と、
を有する画像処理システム。
【請求項2】
前記取得手段により取得された動画像データが示す画像を複数の領域に分割する分割手段をさらに有し、
前記領域特定手段は、前記分割手段により分割された領域の中から、前記予め定められた音を発生させるための1つ以上の演奏領域を特定する請求項1に記載の画像処理システム。
【請求項3】
前記割当手段は、複数の前記演奏領域に音を割り当てる場合に、複数の演奏領域の各々に周波数が異なる音の各々を順に割り当てる請求項1又は請求項2に記載の画像処理システム。
【請求項4】
前記取得手段により取得された動画像データが示す画像を表示する表示手段をさらに有する請求項1〜請求項3のいずれか1項に記載の画像処理システム。
【請求項5】
前記表示手段は、前記演奏領域の境界線をさらに表示する請求項1〜請求項4のいずれか1項に記載の画像処理システム。
【請求項6】
前記被写体には、前記領域特定手段により特定される演奏領域が予め示されており、
前記領域特定手段は、該被写体に示される領域の中から、前記予め定められた音を発生させるための1つ以上の演奏領域を特定する請求項1〜請求項5のいずれか1項に記載の画像処理システム。
【請求項7】
前記特定の被写体は、予め定められた色の被写体、及び予め定められた物体の被写体のうちの少なくとも一方の被写体である請求項1〜請求項6のいずれか1項に記載の画像処理システム。
【請求項8】
前記特定の被写体の動作を、前記検出手段により検出された特定画像により検知する動作検知手段と、
前記動作検知手段により検知された前記特定の被写体の動作を示す動作情報を記録する記録手段と、
をさらに有し、
前記信号出力手段は、前記特定画像が前記割当手段により音が割り当てられた領域に重なり、かつ前記動作検知手段により検知された前記特定の被写体の動きが、前記記録手段により記録された動作情報が示す動作の場合に、音を示す信号を出力する請求項1〜請求項7のいずれか1項に記載の画像処理システム。
【請求項9】
前記信号出力手段により出力された信号に応じて音を出力する音出力手段をさらに有する請求項1〜請求項8のいずれか1項に記載の画像処理システム。
【請求項10】
コンピュータを、
被写体を撮影することで、該被写体を示す動画像データを取得する取得手段により取得された動画像データが示す画像内に予め定められた音を発生させるための1つ以上の演奏領域を特定する領域特定手段と、
前記取得手段により取得された動画像データが示す画像内に存在する特定の被写体を示す特定画像を検出する検出手段と、
前記領域特定手段により特定された演奏領域毎に、前記検出手段により検出された特定画像が該演奏領域に重なった場合に出力する音を割り当てる割当手段と、
前記特定画像が前記演奏領域と重なった場合に、前記割当手段により該演奏領域に割り当てられた音を示す信号を出力する信号出力手段と、
して機能させるための画像処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate