音情報生成装置およびプログラム

【課題】指定された画像領域の画像情報に適した音を提供すること。
【解決手段】音情報生成装置は、画像内の画像領域の指定を受け付ける受付部と、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成部とを備える。プログラムは、画像内の画像領域の指定を受け付ける受付ステップと、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成ステップとをコンピュータに実行させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音情報生成装置およびプログラムに関する。
【背景技術】
【０００２】
周囲の風景を音信号で表現する技術が知られている（例えば、特許文献１参照）。
［先行技術文献］
［特許文献］
［特許文献１］特開２００４−２０８６９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００３】
画像領域の指定に応じて、指定された画像領域の画像情報に適した音を提供することができないという課題があった。
【課題を解決するための手段】
【０００４】
本発明の第１の態様においては、音情報生成装置は、画像内の画像領域の指定を受け付ける受付部と、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成部とを備える。
【０００５】
本発明の第２の態様においては、プログラムは、画像内の画像領域の指定を受け付ける受付ステップと、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成ステップとをコンピュータに実行させる。
【０００６】
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
【図面の簡単な説明】
【０００７】
【図１】本実施形態に係る撮像装置１００の利用場面の一例を示す。
【図２】撮像装置１００のシステム構成を示す。
【図３】画像ブロックの分割例を示す。
【図４】輝度値に対する音の割り当て例を示す。
【図５】音の割り当て方法の他の一例を示す。
【図６】ステレオの音声チャネルへの割り当て例を示す。
【図７】サラウンドの音声チャネルへの割り当て例を示す。
【図８】撮像装置１００における一連の処理フローを示す。
【図９】音を再生する操作がなされた場合の処理フローを示す。
【発明を実施するための形態】
【０００８】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【０００９】
図１は、本実施形態に係る撮像装置１００の利用場面の一例を示す。撮像装置１００は、画像情報から再生音を生成する音再生モードを、動作モードの一部として持つ。音再生モードにおいて、撮像装置１００は、例えばタッチパネルの一部として組み込まれた表示部２０１に画像を表示して、タッチパネルの入力面を操作するよう音声等によってユーザに促す。撮像装置１００は、タッチパネルの入力面がユーザによって操作されたことを検出すると、操作された位置に対応する画像領域の画素値を解析して音データを生成する。撮像装置１００は、生成した音データを内蔵のスピーカ部２４６から再生音として出力する。
【００１０】
例えば、撮像装置１００は、画像領域が明るいほど、より高い音階の音を使って、音データを生成する。撮像装置１００によれば、ユーザにより指定された画像領域の画素値を音に変換して出力することができるので、例えば視覚障害を持つユーザでも、画像を音として楽しむことができる。また、ユーザは、表示部２０１を見なくとも、画像を音として楽しむことができる。
【００１１】
なお、撮像装置１００は、生成した音データを、外部のスピーカに出力して再生させてもよい。例えば、撮像装置１００は、外部のオーディシステムに音データを送信して、再生させてもよい。例えば、撮像装置１００は、外部のオーディシステムが有するオーディオコントローラ２０に、音データを無線信号として送信してよい。撮像装置１００は、オーディオコントローラ２０と伝送ケーブル等の伝送媒体で接続され、音データを光信号または電気信号としてオーディオコントローラ２０に送信してよい。オーディオコントローラ２０は、受信した音データを、外部のオーディオシステムが有する複数のスピーカ２２から再生音として出力する。撮像装置１００およびオーディオシステムは、音再生システムとして機能する。
【００１２】
撮像装置１００は、複数のスピーカ２２のうち画像領域の位置に対応するスピーカから、音データを再生音として出力させてよい。例えば撮像装置１００は、中央の画像領域から生成した音データを、センタスピーカ２２ａから再生音として出力させてよい。また、中央の画像領域よりも左方の画像領域から生成した音データを、左フロントスピーカ２２ｂから再生音として出力させ、右方の画像領域から生成した音データを、右フロントスピーカ２２ｃから再生音として出力させてよい。撮像装置１００は、画像領域の位置に応じた音声チャネルの音データとして生成して、オーディオコントローラ２０に送信してよい。このように、撮像装置１００によれば、画像領域の位置情報を、いわば音源位置に変換することができる。このため、ユーザは、画像内のどの位置に、どのような明るさの画像があるかを、比較的容易に理解することができる。
【００１３】
図２は、撮像装置１００のシステム構成を示す。撮像装置１００は、主にズームレンズ２２１等が含まれる光学系を備える。被写体像は、光軸２１９に沿ってズームレンズ２２１に入射して撮像素子２３１の結像面に結像する。ズームレンズ２２１および撮像素子２３１の機能ブロックは、撮像部として機能する。
【００１４】
撮像素子２３１は、ズームレンズ２２１を透過して入射する被写体像である光学像を光電変換して被写体を撮像する素子である。撮像素子２３１としては、例えば、ＣＣＤ、ＣＭＯＳセンサを用いることができる。撮像素子２３１で光電変換された被写体像は、Ａ／Ｄ変換器２３２でアナログ信号からデジタル信号に変換される。撮像素子２３１の電荷読み出し制御およびＡ／Ｄ変換器２３２の変換制御は、メモリ制御部２３３の同期制御を受けたタイミング発生部２３４が供給するクロック信号により同期が計られる。
【００１５】
デジタル信号に変換された被写体像は、画像データとして順次処理される。Ａ／Ｄ変換器２３２によりデジタル信号に変換された画像データは、メモリ制御部２３３の制御に従い、一旦内部メモリ２３５に記憶される。内部メモリ２３５は、高速で読み書きのできるランダムアクセスメモリであり、例えばＤＲＡＭ、ＳＲＡＭなどが用いられる。内部メモリ２３５は、連写撮像、動画撮像において高速に連続して画像データが生成される場合に、画像処理の順番を待つバッファメモリとしての役割を担う。
【００１６】
また、内部メモリ２３５は、画像処理部２３７が行う画像処理、圧縮処理において、ワークメモリとしての役割も担う。特に本実施形態においては、内部メモリ２３５は、音を生成するための画像解析処理においても、ワークメモリとしての役割も担う。したがって、内部メモリ２３５は、これらの役割を担うに相当する十分なメモリ容量を備える。
【００１７】
システムメモリ２３６は、電気的に消去・記録可能な不揮発性メモリであり、例えばＥＥＰＲＯＭ（登録商標）等により構成される。システムメモリ２３６は、撮像装置１００の動作時に必要な定数、変数、プログラム等を、撮像装置１００の非動作時にも失われないように記録している。システム制御部２５０は、撮像装置１００の全体を直接的または間接的に制御する。システム制御部２５０は、定数、変数、プログラム等を適宜に内部メモリ２３５に展開して、撮像装置１００の制御に利用する。システム制御部２５０は、ＭＰＵにより実装されてよい。システムメモリ２３６は、画像情報を音に変換するための情報を記録している。例えば、システムメモリ２３６は、輝度等の特性値を音階の音に割り当てるためのテーブルを記録している。
【００１８】
画像処理部２３７は、設定されている撮像モード、ユーザからの指示に則して、画像データを所定の画像フォーマットに変換する。例えば、静止画像データとしてＪＰＥＧファイルを生成する場合、色変換処理、ガンマ処理、ホワイトバランス処理等の画像処理を行った後に適応離散コサイン変換等を施して圧縮処理をする。
【００１９】
また、動画像データとしてＭＰＥＧファイルを生成する場合、所定の画素数に縮小されて生成された連続する静止画データとしてのフレーム画像データに対して、フレーム内符号化、フレーム間符号化を施して圧縮処理をする。画像処理部２３７によって処理された静止画像データ、動画像データ等の画像データは、内部メモリ２３５から記録媒体ＩＦ２４０を介して、記録媒体２０９に記録される。
【００２０】
画像処理部２３７は、記録媒体２０９等に記録された画像データ、または、撮影により内部メモリ２３５に記憶された画像データから、表示用の画像データを生成する。撮影により内部メモリ２３５に記憶された画像データから表示用の画像データを生成する場合、画像処理部２３７は、記録用に処理される画像データに並行して、表示用の画像データを生成してよい。生成された表示用の画像データは、表示制御部２３８の制御に従って、Ｄ／Ａ変換器２３９でアナログ信号に変換され、表示部２０１に表示される。画像の記録の有無にかかわらず、表示用の画像データを逐次生成して表示部２０１に表示すれば、ライブビュー機能を実現することができる。また、システム制御部２５０は、画像の表示と共に、もしくは画像を表示することなく、撮像装置１００の各種設定に関する様々なメニュー項目も、表示部２０１に表示することができる。
【００２１】
本実施形態において、画像処理部２３７は、音を生成するための画像解析処理を行う。音声処理部２４４は、画像処理部２３７による画像の解析結果を取得して、解析結果に基づきデジタルの音信号を生成する。再生処理部２４５は、デジタルの音信号に基づき、スピーカ部２４６を駆動して、スピーカ部２４６から再生音として出力させる。
【００２２】
撮像装置１００は、ユーザからの操作を受け付ける操作部材２０２を複数備えているが、システム制御部２５０は、これら操作部材２０２が操作されたことを検知して、操作に応じた動作を実行する。本実施形態において、操作部材２０２は、音を生成する対象となる画像ブロックの指定をユーザから受け付ける。例えば、操作部材２０２の一部および表示部２０１の一部は、タッチパネルとして組み込まれる。タッチパネルの入力面がユーザの指やスタイラス等の指示部材で操作された場合、操作位置を示す情報がシステム制御部２５０に供給される。システム制御部２５０は、操作位置に基づいて、操作位置に対応する画像ブロックの指定を受け付ける。タッチパネルとしては、抵抗膜方式、静電容量方式、電磁誘導方式、光センサ方式等の種々のタッチパネルを例示することができる。光センサ方式のタッチパネルとしては、表示部２０１の一部としての表示画素が形成された基板上に光センサを形成したタッチパネルを例示することができる。本実施形態では、投影型静電容量方式のタッチパネルを適用する。
【００２３】
加速度センサ２４８は、撮像装置１００の加速度を検出して、加速度に応じた加速度情報を出力する。システム制御部２５０は、加速度センサ２４８からの加速度情報を取得する。システム制御部２５０は、加速度情報に応じたユーザ操作を受け付けてよい。例えば、システム制御部２５０は、ユーザ操作に対応して予め定められた条件を満たす加速度情報を取得した場合に、当該ユーザ操作を受け付ける。予め定められた条件としては、加速度の向きおよび大きさの少なくとも一方に関する条件を例示することができる。
【００２４】
システム制御部２５０は、撮像装置１００の動作モードが撮像モードに設定されている場合、レリーズスイッチ２０７の押下げを検知すると、撮像素子２３１による被写体像の取得動作を実行する。一方、撮像装置１００の動作モードが音再生モードに設定されている場合、押下げ検知により音再生モードを解除して、撮像装置１００の動作モードを撮像モードに切り換える。撮像装置１００は、撮像して得た画像データを表示部２０１に表示すると、動作モードを音再生モードに切り替えてよい。
【００２５】
ズームレンズ２２１は、システム制御部２５０の統括制御のもと、ズーム制御部２４３によって制御される。ズーム制御部２４３は、ユーザの指示に応じてズームレンズ２２１を駆動して、被写体像の画角を変更する。システム制御部２５０は、ズーム制御部２４３によって検出されるズームレンズ２２１の位置を取得して撮像装置１００の画角情報を取得する。
【００２６】
電源制御部２４７は、バッテリ２０８と通信して残電力を検出し、バッテリ２０８からの電力供給を監視する。また、バッテリ２０８の充電に応じて、接続されるＡＣ電源からの電力供給を制御する。記録媒体２０９は、バッテリ２０８またはＡＣ電源からの電力供給がない場合でも、記録されたデータを保持することができる。
【００２７】
図３は、画像ブロックの分割例を示す。本図は、全画像領域３００を長手方向に１２分割し、短手方向に８分割した例を示す。画像処理部２３７は、システム制御部２５０を介して、タッチパネルの入力面内におけるタッチされた位置および面積を取得する。静電容量方式のタッチパネルを適用する場合、タッチされた面積は、検出された容量の大きさに基づき算出することができる。
【００２８】
まず、タッチされた面積が予め定められた値より小さい場合について説明する。画像処理部２３７は、タッチされた位置に対応する画像上の位置を指定位置として算出する。画像処理部２３７は、複数の画像ブロックの中から、指定位置を含む画像ブロックを少なくとも一つ選択して画像を解析する。音声処理部２４４は、画像の解析結果に基づき、デジタルの音信号を生成する。
【００２９】
例えば、画像処理部２３７は、指定位置が画像ブロック３１０に含まれる場合、画像ブロック３１０の全画素値から、輝度値の平均値を算出する。画像処理部２３７は、画像ブロック３１０内の各画素に対して、指定位置からの距離に応じて重みづけ加算することにより、輝度値の平均値を算出してよい。画像処理部２３７は、指定位置に近いほど、より大きい重みづけ係数を適用して重みづけ加算してよい。
【００３０】
音声処理部２４４は、輝度値の平均値に基づいて、音階を構成する複数の音のうちの対応する音を示す情報を生成する。例えば、輝度値の複数の範囲に、音階を構成する複数の音が一つずつ割り当てられており、音声処理部２４４は、輝度値の平均値を含む範囲に割り当てられた音を選択する。輝度値の各範囲に対する各音の割り当てについては、図４に関連して説明する。音声処理部２４４は、選択した音に対応するデジタルの音信号を生成する。例えば、音声処理部２４４は、ＰＣＭオーディオ信号を生成する。生成した音信号は、再生処理部２４５での処理を介して、スピーカ部２４６から再生音として出力される。
【００３１】
次に、タッチされた面積が予め定められた値以上である場合について説明する。ユーザがタッチパネルの入力面を指の腹部分でタッチした場合、ユーザの指の先端部でタッチした場合と比較して、入力面と指との接触面が大きくなる場合がある。タッチされた面積が予め定められた値より大きい場合、画像処理部２３７は、解析対象の画像ブロックをより大きく設定する。具体的には、画像処理部２３７は、タッチされた面積が大きいほど、より多くの画像ブロックを選択する。例えば、指定位置が画像ブロック３１０に含まれる場合、画像処理部２３７は、画像ブロック３１０と、画像ブロック３２０等の隣接する画像ブロックとを含む複数の画像ブロックの全体を、解析対象の画像ブロックとして設定する。画像処理部２３７は、設定した画像ブロックから、音を示す情報を生成する。具体的には、画像処理部２３７は、設定した複数の画像ブロックから輝度値の平均値を算出して、上述したように音階を構成する複数の音の中から対応する音を選択する。
【００３２】
ユーザが次に異なる画像ブロックに対応する位置をタッチした場合も同様に、当該画像ブロックの輝度値の平均値から音を生成する。したがって、ユーザがタッチパネルの入力面内の異なる位置を次々に触れていくと、その位置の輝度値に応じた音が再生される。このため、ユーザは、撮像装置１００を用いて、画像内容に応じた音を楽しむことができる。なお、音声処理部２４４は、異なる音が選択されるまで、直前に選択された音と同じ音の音信号を生成し続けてよい。また、音声処理部２４４は、異なる音が選択されなくとも、予め定められた時間長さだけ継続する音信号を生成してよい。
【００３３】
ところで、本例の画像ブロック３９０内には、人物の顔の像が含まれる。画像ブロック３９０内のいずれかの画像ブロックに指定位置が含まれる場合、画像処理部２３７は、上述した音の選択に替えて、人物に関連する音信号を生成すべき旨を決定する。
【００３４】
具体的には、画像処理部２３７は、指定位置を含む画像ブロックを解析して、人物の顔の少なくとも一部を含むか否かを判断する。画像処理部２３７は、指定位置を含む画像ブロックに隣接する周囲の画像ブロックの全体を解析して、人物の顔の検出を試みることにより、指定位置を含む画像ブロックが人物の顔の少なくとも一部を含むか否かを判断してよい。画像処理部２３７は、解析対象の画像ブロックからパターンマッチング、特徴量検出等の手法を用いて人物の顔を検出することにより、指定位置を含む画像ブロックが人物の顔の少なくとも一部を含むか否かを判断してよい。
【００３５】
画像処理部２３７は、指定位置を含む画像ブロックに人物の顔の少なくとも一部が含まれる場合、人物に関連する音声を生成すべき旨の情報を音声処理部２４４に供給する。音声処理部２４４は、人物に関連する音声として記録されている音データを、再生処理部２４５に供給する。当該音データは、記録媒体２０９等に記録されていてよい。また、記録媒体２０９には、複数の人物をそれぞれ識別する識別情報に対応付けて、個々の人物の声の音データが記録されていてよい。画像処理部２３７は、人物の顔画像に対して顔認識処理を適用して個々の人物を認識して、認識した人物を識別する識別情報を、音声処理部２４４に供給してよい。音声処理部２４４は、供給された識別情報に対応づけて記録されているデータを、再生処理部２４５に供給してよい。これにより、人物の顔が写っている画像ブロックが指定したときには人物の声が再生され、人物の顔が写っていない画像ブロックを指定したときには輝度値に応じた音階の音が再生される。したがって、ユーザは、画像のどのあたりに人物の顔が写り込んでいるかを比較的に容易に判断することができる。また、ユーザは、画像内の人物の顔の位置をタッチすることで、その人物の音声を楽しむことができる。
【００３６】
なお、指定位置は、撮像装置１００自身が定めてもよい。例えば、システム制御部２５０は、予め定められた順番で処理すべき画像ブロックを選択して、選択した画像ブロックの輝度値の平均値を画像処理部２３７に算出させて、輝度値に平均値に基づき音声処理部２４４に音を選択させてよい。一例として、システム制御部２５０は、左上の画像ブロックから右下の画像ブロックまで、画像ブロックを順に選択する。例えば、本図の画像ブロック３１０から画像ブロック３１２までの複数の画像ブロックの中から、処理すべき画像ブロックを左から順に選択してよい。画像ブロック３１０から画像ブロック３１２までの画像ブロックが属する第１ラインの次に、第１ラインの直下の第２ラインを選択して、第２ラインに属する画像ブロック３２０から画像ブロック３２２までの複数の画像ブロックの中から、処理すべき画像ブロックを左から順に選択する。そして、画像ブロック３８０から画像ブロック３８２が属する最終ラインまで、ラインを上から順に選択していく。音声処理部２４４は、各ラインの再生が完了する毎に、１ラインの再生が完了した旨を示す予め定められた音を再生させてもよい。音声処理部２４４は、音の再生間隔または音の再生時間の長さを変化させて、リズムのある再生音を再生させてもよい。このように、画像ブロックを左から右へ、上から下へスキャンしていき、輝度値の平均値に基づく音を自動再生することで、ユーザはタッチすることなく画像の全体を音で一気に楽しむことができる。
【００３７】
また、撮像装置１００は、第１ラインの複数の画像ブロックからそれぞれ決定された音を、同時に再生してもよい。続いて、第２ラインから最終ラインまで上から順にラインを選択していき、選択したラインの複数の画像ブロックからそれぞれ決定された音を同時に再生してもよい。本図の分割例では、画像全体が８回の再生音に変換される。
【００３８】
ここでは長手方向のラインを上から下へと順に選択するとしたが、短手方向のラインを左から右へと順に選択してもよい。また、長手方向、短手方向のラインの他、斜め方向のラインを順に選択してもよい。斜め方向のラインを例えば角の画像ブロックから順に選択する場合、最初のラインには１つの画像ブロックが含まれ、次のラインは２つの画像ブロックが含まれることとなる。すなわち、１ラインの画像ブロックの数は、隣接するライン間で異なる。また、画像ブロックをランダムに選択してもよい。以上の説明では、画像ブロックを順に選択するとしたが、画素を順に選択してもよい。この場合、画像処理部２３７は、選択された画素の輝度値を算出し、音声処理部２４４は、輝度値に基づき音を選択すればよい。
【００３９】
図４は、輝度値に対する音の割り当て例を示す。ここでは輝度値の頻度分布に応じて音を割り当てるとする。具体的には、画像処理部２３７は、画像データから画像全体での輝度値の頻度分布を算出して、算出した頻度分布の全体の範囲を、７つの輝度値の範囲に分割する。例えば、音声処理部２４４は、分割した複数の範囲に、音階のうちのドからシの音を一つずつ割り当てる。すなわち、画像処理部２３７は、対象となる画像データが選択されると、当該画像データが持つ輝度値の分布範囲内で、輝度値の範囲を７個設定する。そして、指定位置が定まると、画像処理部２３７は、指定位置を含む画像ブロックの輝度値の平均値を含む範囲を、設定した７個の範囲の中から選択して、選択した範囲を識別する識別情報を音声処理部２４４に供給する。音声処理部２４４は、当該識別情報に基づいて、各範囲に割り当てた音を選択する。
【００４０】
なお、画像処理部２３７は、頻度が高いところほど、輝度値の範囲を狭く設定してよい。本図に例示するように、頻度分布においてピークに近い領域では輝度値の範囲Ｌを狭く設定し、頻度分布の裾野の領域では輝度値の範囲を広く設定してよい。これにより、頻度分布においてピークに近い領域では細やかに音を割り当てることができる。以上に説明したように、画像データが持つ輝度の分布の範囲内で、音に対応する７個の範囲を設定する。特に、頻度がより高い領域に、より狭い範囲を設定する。このため、例えば全体に暗い画像に対して、低輝度の領域に多くの音を割り当てることができる。したがって、低輝度領域における輝度値のわずかな違いを、音程で表現することができる。
【００４１】
本図の例では、輝度値の複数の範囲に音階を構成する複数の音を割り当てる場合の例を説明した。同様に、彩度の複数の範囲に、複数のオクターブを１つずつ割り当ててもよい。この場合、画像ブロックの輝度値の平均値および彩度から、再生音の周波数を定めることができる。
【００４２】
図５は、音の割り当て方法の他の一例を示す。図３、図４において、指定位置を含む画像ブロックの輝度値の平均値に基づき、音を選択するとした。ここでは、指定位置の画像のエッジ量に基づいて、音を選択する方法の一例を説明する。
【００４３】
指定位置が画素５１０の位置に対応する場合、画像処理部２３７は、画素５１０の輝度値と、周囲の画素５１１、５１２、５１３、５１４のそれぞれの輝度値とを用いて、輝度値に関するエッジ量を算出する。例えば、画素５１０の輝度値から、画素５１１〜５１４の輝度値の平均値を減じた値を、エッジ量として算出してよい。音声処理部２４４は、算出されたエッジ量に対応する音を選択する。エッジ量に対する音の割り当ては、図４に例示した方法と同様の方法を適用することができる。すなわち、エッジ量の頻度分布に応じて音を割り当てることができる。絶対値がより大きいエッジ量の範囲に、より高い音階の音を割り当ててよい。
【００４４】
本図の画素５１１は、人物の顔と背景との境界に位置する。指定位置が画素５１０の位置に対応する場合、顔の中の画素と背景の画素とによりエッジ量が算出されるので、絶対値が比較的に大きいエッジ量が算出される。一方、指定位置が本図の画素５２０の位置に対応する場合、画像処理部２３７は、画素５２０の輝度値と、周囲の画素５２１、５２２、５２３、５２４のそれぞれの輝度値とを用いて、輝度値に関するエッジ量を算出する。指定位置が画素５２０の位置に対応する場合、全て背景の画素に基づきエッジ量が算出される。このため、比較的に絶対値が小さいエッジ量が算出される。
【００４５】
したがって、ユーザが顔等の輪郭位置を指定した場合は、比較的に大きいエッジ量に対応する音が再生される可能性が高く、指定位置が輪郭位置からずれると、比較的に小さいエッジ量に対応する音が再生される可能性が高い。システム制御部２５０は、タッチパネルの入力面がスライド操作された場合に、エッジ量に基づき画像解析するよう画像処理部２３７に指示し、タッチパネルの入力面がポイント操作された場合に、輝度値に基づき画像解析するよう画像処理部２３７に指示する。したがって、ユーザがタッチパネルの入力面をなぞるようにスライド操作した場合、顔の輪郭位置付近が触れられている間は、比較的に大きいエッジ量に対応する音が再生され、顔の輪郭位置からずれると、比較的に小さいエッジ量に対応する音が再生される。したがって、ユーザは輪郭位置からずれたことを音の違いで判断することができる。
【００４６】
本図の例において、エッジ量に応じて音を選択するとした。特に、対象画素の画素値から周辺画素の画素値を減算することによって、画素値の微分値に対応するエッジ量を算出するとした。しかし、エッジ量の算出方法は上記に限られない。また、エッジ量に応じて音を選択することに替えて、指定位置を含む画像ブロックの空間周波数の大きさに応じて音を選択してもよい。
【００４７】
図６は、ステレオの音声チャネルへの割り当て例を示す。ステレオの音声チャネルの一例として、ＬチャネルおよびＲチャネルの音声チャネルを例示する。本例では、全画像領域６００を、部分領域６１０ａ〜ｅの５個の部分領域に分割する。
【００４８】
部分領域６１０ａに指定位置が含まれる場合、音声処理部２４４は、Ｌチャネルの音信号を生成する。一方、部分領域６１０ｅに指定位置が含まれる場合、音声処理部２４４は、Ｒチャネルの音信号を生成する。したがって、再生音が左だけから聞こえる場合、ユーザは、左端に位置する画像ブロックを指定したことを容易に理解することができる。また、再生音が右だけから聞こえる場合、ユーザは、右端に位置する画像ブロックを指定したことを容易に理解することができる。
【００４９】
部分領域６１０ｂ、６１０ｃ、６１０ｄのいずれかに指定位置が含まれる場合、部分領域に応じて各チャネルに異なる重みづけをして音信号を生成する。例えば、音声処理部２４４は、部分領域６１０ｂに指定位置が含まれる場合、音量の重みづけとして、Ｌチャネルに０．７５、Ｒチャネルに０．２５を与えて音信号を生成する。また、音声処理部２４４は、部分領域６１０ｄに指定位置が含まれる場合、音量の重みづけとして、Ｌチャネルに０．２５、Ｒチャネルに０．７５を与えて音信号を生成する。
【００５０】
したがって、部分領域６１０ｂに指定位置が含まれる場合、全音声出力のうちの３／４がＬチャネルから出力され、音声出力のうちの１／４がＲチャネルから出力される。一方、部分領域６１０ｄに指定位置が含まれる場合、全音声出力のうちの３／４がＲチャネルから出力され、全音声出力のうちの１／４がＬチャネルから出力される。したがって、再生音が右よりも左の方から聞こえる場合、ユーザは、やや左寄りに位置する画像ブロックを指定したことを容易に理解することができる。また、再生音が左よりも右の方から聞こえる場合、ユーザは、やや右寄りに位置する画像ブロックを指定したことを容易に理解することができる。
【００５１】
また、音声処理部２４４は、部分領域６１０ｃに指定位置が含まれる場合、音量の重みづけとしてＬチャネルおよびＲチャネルにそれぞれ０．５を与えて音信号を生成する。したがって、再生音が中央から聞こえるように感じられる場合、ユーザは、中央に位置する画像ブロックを指定したことを容易に理解することができる。
【００５２】
内部処理としては、システム制御部２５０は、指定位置を示す情報を音声処理部２４４に供給する。音声処理部２４４は、指定位置を含む部分領域に応じて各音声チャネルへの音量の重みづけを決定して、決定した重み付けで各音声チャネルに音量を配分する。撮像装置１００によれば、画像内の指定した位置の輝度情報を音に変換するとともに、画像内の指定した位置を音源位置に変換した音信号を生成することができる。このため、ユーザは、画像内どの位置にどれくらいの輝度の被写体像があるかを比較的に容易にイメージすることができる。なお、本図の例では、画像の長手方向に５つの部分領域に分割したが、長手方向に２つの部分領域に分割してもよい。長手方向に２つの部分領域に分割する場合、画像の長手方向の中央位置の左右に部分領域を設定してよい。
【００５３】
図７は、サラウンドステレオの音声チャネルへの割り当て例を示す。サラウンドステレオの音声チャネルとは、５．１チャネルの音声チャネルとする。本例では、全画像領域７００を、部分領域７１０ａ〜ｅの５個の部分領域に分割する。そして、指向性が他よりも小さいサブウーファーの音声チャネルを除く５つのチャネルに、音を割り当てる。
【００５４】
部分領域７１０ａに指定位置が含まれる場合、音声処理部２４４は、フロントＬチャネルの音信号を生成する。例えば、フロントＬチャネルに対する音量の重みづけを１とし、他のチャネルに対する音量の重みづけを０とする。一方、部分領域７１０ｃに指定位置が含まれる場合、音声処理部２４４は、フロントＲチャネルの音信号を生成する。例えば、フロントＲチャネルに対する音量の重みづけを１とし、他のチャネルに対する音量の重みづけを０とする。また、部分領域７１０ｂに指定位置が含まれる場合、音声処理部２４４は、フロントセンタチャネルの音信号を生成する。例えば、フロントセンタチャネルに対する音量の重みづけを１とし、他のチャネルに対する音量の重みづけを０とする。
【００５５】
また、部分領域７１０ｄに指定位置が含まれる場合、音声処理部２４４は、リアＬチャネルの音信号を生成する。例えば、リアＬチャネルに対する音量の重みづけを１とし、他のチャネルに対する音量の重みづけを０とする。一方、部分領域７１０ｅに指定位置が含まれる場合、音声処理部２４４は、リアＲチャネルの音信号を生成する。例えば、リアＲチャネルに対する音量の重みづけを１とし、他のチャネルに対する音量の重みづけを０とする。
【００５６】
したがって、左フロントスピーカ２２ｂだけから再生音が聞こえる場合、ユーザは、左端かつ比較的に上方に位置する画像ブロックを指定したことを容易に理解することができる。また、右フロントスピーカ２２ｃだけから再生音が聞こえる場合、ユーザは、右端かつ比較的に上方に位置する画像ブロックを指定したということを容易に理解することができる。また、センタスピーカ２２ａだけから再生音が聞こえる場合、ユーザは、中央かつ比較的に上方に位置する画像ブロックを指定したということを容易に理解することができる。また、左リアスピーカ２２ｄだけから再生音が聞こえる場合、ユーザは、左方かつ比較的に下方に位置する画像ブロックを指定したということを容易に理解することができる。また、右フロントスピーカ２２ｅだけから再生音が聞こえる場合、ユーザは、右方かつ比較的に下方に位置する画像ブロックを指定したということを容易に理解することができる。
【００５７】
本図の例では、重みづけを０か１のいずれかに設定するとした。しかし、図６に例示したように、左右または上下の少なくとも一方に部分領域をさらに分割して、位置に応じて、各音声チャネルに０より大きく１より小さい重みづけを与えてもよい。また、例えばパノラマ撮影等で得られた画像データのように、複数枚の被写体画像をつなぎ合わせて生成された画像データに対しては、撮影時における撮影者と被写体の位置関係を考慮して、各音声チャンネルを割り当ててもよい。例えば、横長に連なる被写体画像に対して、中央の部分領域をセンタスピーカ２２ａに割り当ててよい。左中の部分領域を左フロントスピーカ２２ｂに、左端の部分領域を左リアスピーカ２２ｄに割り当ててよい。右中の部分領域を右フロントスピーカ２２ｃに、右端の部分領域を右リアスピーカ２２ｅに割り当ててよい。
【００５８】
図８は、撮像装置１００における一連の処理フローを示す。本フローは、画像情報から音を再生する旨の指示をシステム制御部２５０が受け付けた場合に、開始される。例えば、タッチパネルの入力面に対して、音を再生する指示として予め定められた操作がなされた場合に、本処理フローが開始される。以下の処理フローは、システム制御部２５０、画像処理部２３７、音声処理部２４４が主体として動作する。ステップＳ８００において、処理対象の画像データを読み出す。例えば、画像処理部２３７は、記録媒体２０９から処理対象の画像データを読み出す。
【００５９】
ステップＳ８１０において、画像データに基づき、色空間に音要素を割り当てる。色空間を表すパラメータとしては、輝度値および彩度を例示することができる。音要素を表すパラメータとしては、上述した音階中の音およびオクターブを例示することができる。すなわち、図４に関連して説明したように、輝度値の範囲に音階中の音を割り当てるとともに、彩度の範囲にオクターブを割り当てることにより、色空間に音要素を割り当てる。
【００６０】
ステップＳ８２０において、画像処理部２３７は、画像中に複数のブロックを設定する。具体的には、図３に関連して説明した画像ブロックと、図６または７に関連して説明した部分領域とを設定する。ブロックの大きさは、画像データが表示される表示部２０１の表示領域に対応して設定される。撮像装置１００のスピーカ部２４６から再生する場合、図６に関連して説明したように左右に２以上に分割した部分領域を設定する。外部スピーカ２２から再生する場合、図７に関連して説明したように左右方向に３以上の部分領域に分割し、上下方向に２以上の部分領域に分割した部分領域を設定する。このように、再生する音声チャネルの数に応じて、複数の部分領域を設定する。
【００６１】
ステップＳ８３０において、読み出した画像データに基づく表示画像を表示部２０１に表示して、ステップＳ８４０において代表音を再生する。例えば、全画像ブロックの輝度値の平均値に基づく音と、全画像ブロックの彩度の平均値に基づくオクターブとにより定められる代表音を生成してよい。代表音は、図３に関連して説明した第１ラインに属する複数の画像ブロックに基づく音であってもよい。例えば、第１ラインに属する複数の画像ブロックのそれぞれから定まる音を順に再生したものを代表音としてもよい。また、第１ラインに属する複数の画像ブロックのそれぞれから定まる音を同時に再生したものを代表音としてもよい。
【００６２】
ステップＳ８５０において、次の画像データに進むか否かを判断する。例えば、タッチパネルの入力面に対して、次の画像データを処理対象とするべき旨の操作として予め定められた操作がなされた場合に、次の画像データに進むと判断する。例えば、加速度センサ２４８からの加速度情報等に基づき、撮像装置１００を大きく動かす操作等の予め定められた操作が検出された場合に、次の画像データに進むと判断する。予め定められた操作としては、撮像装置１００を傾ける操作、撮像装置１００を振る操作等を例示することができる。次の画像データを処理対象とするべき旨の操作として、操作部材２０２の一部としての切り替えキーやスライドスイッチ等に対するキー操作を例示することができる。次の画像データに進むと判断された場合、ステップＳ８００に処理を移行する。
【００６３】
次の画像に進むと判断されなかった場合、ステップＳ８６０において、操作の種別を判断する。例えば、操作の種別として、画像から音を再生する旨を指示する操作、および、音再生の動作を終了する旨を指示する操作が予め定められている。画像から音を再生する操作としては、タッチパネルの入力面内の画像が表示された領域に対する、ポイント操作、スライド操作、長押し操作、ダブルタップ操作等の操作を例示することができる。動作を終了する旨を指示する操作としては、タッチパネル以外の操作部材２０２に対する操作を例示することができる。画像から音を再生する操作がなされた場合、ステップＳ８７０において、音を再生する処理を実行する。ステップＳ８７０の処理については、図９に関連して説明する。音再生の動作を終了する旨の操作がなされた場合、本動作フローを終了する。
【００６４】
図９は、音を再生する操作がなされた場合の処理フローを示す。すなわち、ステップＳ８７０の詳細な処理フローを示す。本図では、分かり易く説明するために、特に画像ブロック内の色または輝度値の微分値に応じて音を決定する処理を説明する。本フローが開始すると、ステップＳ９００において、タッチ操作の種類を判断する。タッチ操作の種類として、位置を局所的に指定する操作、位置をライン状に指定する操作、および、音を自動再生させるための操作が予め定められているとする。
【００６５】
ここでは、一例として、位置を局所的に指定する操作としてポイント操作が定められているとする。ポイント操作とは、一例として、入力面にタッチされた状態が予め定められた値より長く継続し、タッチ位置の時間あたりの変化量が予め定められた値よりも小さい操作とする。また、位置をライン状に指定する操作としてスライド操作が定められているとする。スライド操作とは、一例として、タッチ位置の時間あたりの変化量が予め定められた値以上の操作とする。また、音を自動再生させるための操作として、タッチされた状態が予め定められた値より短い時間だけ継続する操作であるとする。例えば、音を自動再生させるための操作として、タップ操作を例示することができる。これらの操作は、異なる種類のタッチ操作としての一例の操作であり、これらの操作に限られず、任意の区別可能な操作を適用してよい。
【００６６】
ステップＳ９００において、ポイント操作であると判断された場合、画像処理部２３７は、ステップＳ９１０において、タッチ位置に対応する画像ブロックを選択する。すなわち、指定位置を含む画像ブロックを選択する。ステップＳ９１２において、画像処理部２３７は、画像ブロック内の平均色を算出する。具体的には、輝度値の平均値と、彩度の平均値とを算出する。そして、ステップＳ９１４において、音声処理部２４４は、平均色に対応する音要素を選択する。具体的には、輝度値の平均値に対応する音を、音階を構成する複数の音の中から選択するとともに、彩度の平均値に対応するオクターブを選択する。輝度値に対応する音と、彩度に対応するオクターブは、図８のステップＳ８１０に関連して説明したように、画像全体から算出された輝度値の頻度分布、および、彩度の頻度分布に基づき予め割り当てられている。
【００６７】
ステップＳ９１６において、再生する音声チャネルを選択する。具体的には、図８のステップＳ８２０において設定された部分領域のうち、指定位置を含む部分領域に対応する音声チャネルを選択する。ステップＳ９１８において、音声処理部２４４は、ステップＳ９１４で選択した音およびオクターブに基づく音信号を、ステップＳ９１６において選択した音声チャネルの音信号として生成して、再生音を再生させる。スピーカ部２４６で再生する場合、再生処理部２４５は、音声処理部２４４で生成された音信号に基づき、スピーカ部２４６を駆動して再生音を出力させる。再生処理が完了すると本フローを終了する。
【００６８】
ステップＳ９００において、スライド操作であると判断された場合、画像処理部２３７は、ステップＳ９４０において、スライド経路内の各タッチ位置での輝度値の微分値を算出し、ステップＳ９４２において微分値に対応する音要素を選択する。具体的には、画像処理部２３７は、スライド経路内に対応する各画素について、上述した輝度値のエッジ量を算出して、音声処理部２４４がエッジ量に対応する音を選択する。本ステップでは、予め定められたオクターブを選択してよい。しかし、ステップＳ９１４に関連して説明したように、現在の指定位置を含む画像ブロックの彩度の平均値に対応するオクターブを選択してもよい。そして、ステップＳ９１６に処理を進め、続くステップＳ９１８において再生音が出力される。
【００６９】
ステップＳ９００において、自動再生の操作であると判断された場合、システム制御部２５０は、再生するブロックの順番を決定する。具体的には、システム制御部２５０は、例えばタップ操作された位置を画像処理部２３７に供給する。画像処理部２３７は、タップ操作された位置を含む画像ブロックを、自動再生を開始する最初の画像ブロックとして選択する。そして、選択した画像ブロックから、当該画像ブロックと同じラインに属する右端の画像ブロックまで、左から順に選択すべき旨を決定する。例えば、図３の分割例において、第１ラインに属する画像ブロックが最初の画像ブロックとして選択された場合、当該画像ブロックから画像ブロック３１２まで左から順に選択してよい。
【００７０】
なお、自動再生する場合、同ラインの右端の画像ブロックを最後の画像ブロックとしてもよいが、更に下方にラインが存在する場合は、直下のラインを順次に選択して、各ラインでは左から順に画像ブロックを選択すべき旨を決定してよい。例えば、図３の分割例において、画像ブロック３８２を最後の画像ブロックとして、直下のラインを順次に選択してよい。
【００７１】
ステップＳ９２２において、ステップＳ９２２で決定した順番に従って、画像ブロックを１つ選択して、ステップＳ９２４に処理を進める。ステップＳ９２４、ステップＳ９２６、ステップＳ９２８およびステップＳ９３０では、ステップＳ９２２で選択した画像ブロックに対して処理する点を除き、それぞれステップＳ９１２、ステップＳ９１４、ステップＳ９１６およびステップＳ９１８の処理と同様の処理を行う。ステップＳ９３２において、次の画像ブロックが存在するか否かを判断する。ステップＳ９２２で選択した画像ブロックが最後の画像ブロックでない場合、ステップＳ９２２に処理を移行して、次の画像を選択する。ステップＳ９２２で最後の画像ブロックを選択した場合、次の画像ブロックは存在しないので、本処理フローを終了する。次の画像ブロックが存在しない場合、音声処理部２４４は、自動再生が終了した旨の予め定められた再生音の音信号を生成してもよい。これにより、ユーザは自動再生が終了した旨をすぐに理解することができる。
【００７２】
以上に説明した撮像装置１００によれば、画像情報を聴覚情報に変換することができるので、視覚障害を持つユーザが画像を耳で聴いて楽しむことができる。また、視覚障害を持たないユーザでも、画像を見なくとも画像を耳で聴いて楽しむことができる。
【００７３】
本実施形態に係る撮像装置１００は、音情報生成置の一例である。すなわち、システム制御部２５０が、画像内の画像領域の指定を受け付ける受付部として機能し、画像処理部２３７および音声処理部２４４が、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成部として機能する。具体的には、画像処理部２３７が、指定された画像領域から画像情報を抽出し、抽出した画像情報から、音声処理部２４４が、音階を構成する音、オクターブおよび人物の音声データ等の音情報を生成する。撮像装置１００によれば、画像情報を音情報に変換することができる。
【００７４】
以上の説明において、画像情報として、輝度値および彩度を例示した。しかし、画像情報として、輝度値および彩度の他、色相等、種々の特性値を例示することができる。本実施形態で説明した輝度値に替えて明度を特性値として用いてもよい。すなわち、画像処理部２３７および音声処理部２４４の機能ブロックにおいて、指定された画像領域の明るさ、色相および彩度のうちの少なくとも一つの特性値に基づいて、音情報を生成してよい。
【００７５】
また、音情報として、音階を構成する音およびオクターブ等の音の特性値、ならびに、人物の音声データを例示した。音情報としては、それらの他にも、和音等の音の組み合わせ、音色などを例示することができる。音色を表すパラメータとしては、音のスペクトルを例示することができる。例えば、音色を表すパラメータとして、基音の周波数成分および上音の周波数成分を適用することができる。
【００７６】
また、画像処理部２３７および音声処理部２４４の機能ブロックは、音階を構成する音およびオクターブを、それぞれ輝度の範囲および彩度の範囲に割り当てるとした。そして、指定された画像領域の輝度値を含む範囲に割り当てられている音を選択するとした。すなわち、画像処理部２３７および音声処理部２４４の機能ブロックは、音を定める１以上の音パラメータの複数の値を、複数の特性値の範囲にそれぞれ割り当てる割当部として機能する。そして、同機能ブロックは、指定された画像領域の特性値を含む範囲に割り当てられている音パラメータを、音情報として選択する。
【００７７】
また、音階を構成する複数の音を、輝度値の複数の範囲にそれぞれ割り当てるとした。また、複数のオクターブを、彩度の複数の範囲にそれぞれ割り当てるとした。音階を構成する音およびオクターブに対応させる画像情報の特性値として、輝度値および彩度以外の任意の組み合わせを適用してよい。例えば、色相を音階に割り当てることができる。また、彩度を音階に割り当ててもよい。すなわち、画像処理部２３７および音声処理部２４４の機能ブロックは、音階を構成する複数の音を、第１の特性値の複数の範囲にそれぞれ割り当て、指定された画像領域の第１の特性値を含む範囲に割り当てられている音を、音情報として選択してよい。そして、画像処理部２３７および音声処理部２４４の機能ブロックは、複数のオクターブを、第２の特性値の複数の範囲にそれぞれ割り当て、指定された画像領域の第２の特性値を含む範囲に割り当てられているオクターブを、音情報として選択してよい。
【００７８】
図４に関連して説明したように、画像処理部２３７および音声処理部２４４の機能ブロックは、画像から抽出された特性値の頻度分布の広がりがより大きい場合に、音パラメータの複数の値を、より狭い特性値の範囲にそれぞれ割り当てることができる。このため、全体として暗い画像であっても、輝度値の細かな違いを音程として再生音に反映することができる。
【００７９】
処理対象の画像データがＪＰＥＧ方式で圧縮された画像データである場合、画像データには、離散コサイン変換により算出された周波数成分がデータとして含まれる。画像データに周波数成分がデータとして含まれる場合、画像データに含まれる周波数成分を特性値として用いてよい。また、画像データに含まれる周波数成分から特性値を算出してもよい。例えば、指定位置を含む画像ブロックに含まれる１以上のマクロブロックの輝度信号のＤＣ成分を用いて、輝度値の平均値を算出してよい。また、１以上のマクロブロックの輝度信号のＡＣ成分を、空間周波数を表す特性値としてもよい。また、処理対象の画像データがコントラスト検出方式で焦点調節されて撮像された画像データである場合、コントラストの評価値を特性値として用いてもよい。コントラストの評価値は、画像データに付帯情報として付帯されて記録媒体２０９に記録されていてよい。
【００８０】
また、画像ブロックから抽出したテクスチャの指標値を、特性値として用いてもよい。テクスチャを示す指標値として、テクスチャの乱雑さを示す指標値を例示することができる。例えば、隣接画素との輝度値の差分の総和を、テクスチャの指標値として算出する。当該総和が大きいほど、比較的に乱雑なテクスチャであるとみなすことができる。また、画像ブロックに対して２次元フーリエ変換して得た周波数成分の分布から、テクスチャを示す指標値を算出してもよい。例えば、周波数成分の分布の広がり幅を、テクスチャを示す指標値として算出してよい。当該広がり幅が大きいほど、低周波から高周波まで広い周波数範囲にわたる周波数成分が含まれていることを示す。したがって、当該広がり幅が大きいほど、比較的に乱雑なテクスチャであるとみなすことができる。テクスチャの指標値を画像の特性値として適用した場合、音声処理部２４４は、算出したテクスチャの指標値が予め定められた値以下であるときは、協和音の音情報を生成し、テクスチャの指標値が予め定められた値より大きいときは、不協和音の音情報を生成してよい。協和音としては、構成音の音程が完全協音程または不完全協和音程である和音を適用し、協和音以外の和音を不協和音として適用してよい。また、フーリエ変換によって得られた周波数成分を、可聴域の周波数領域にマッピングする等して、フーリエ変換によって得られた周波数情報を音信号の周波数情報に適用してもよい。
【００８１】
また、音声処理部２４４は、音情報に対応する再生音の音信号を音情報から生成する出力部として機能する。音声処理部２４４が再生処理部２４５およびスピーカ部２４６と協働して動作する場合、音波としての音信号を出力することができる。他にも、音声処理部２４４は、音情報に対応するデジタルの音信号を出力してよい。デジタルの音信号としては、ＰＣＭ信号等の非圧縮の音声フォーマットの他、ドルビーサラウンド等、種々の圧縮方式で圧縮された音声フォーマットの音信号を例示することができる。すなわち、出力部の機能として、音信号を音波として出力する機能だけでなく、記録媒体２０９等にデータとして記録する機能を含むことができる。また、出力部の機能として、音信号をオーディオコントローラ２０等にデータとして送信する機能を含むことができる。
【００８２】
なお、以上の説明において、輝度値から定まる音と、彩度から定まるオクターブとから、１つの再生音に対応する音信号を生成するとした。この場合、１つの画像領域から１つの音が生成される。しかし、１つの画像領域の画像情報から、２つの音を生成してもよい。例えば、輝度値に対応する再生音と、彩度に対応する再生音とが、異なるタイミングで出力される音信号を生成してもよい。すなわち、画像処理部２３７および音声処理部２４４において、指定された画像領域の第１の特性値に対応する第１音情報と、指定された画像領域の第２の特性値に対応する第２音情報とを生成した場合、音声処理部２４４は、第１音情報に対応する再生音と、第２音情報に対応する再生音とが、時分割で出力される音信号を生成してもよい。音声処理部２４４が再生処理部２４５およびスピーカ部２４６と協働して動作する場合、時分割で２つの再生音として再生することができる。
【００８３】
また、以上の説明において、指定位置を含む画像ブロックの画像情報から、音情報を生成するとした。すなわち、システム制御部２５０が、画像内の位置の指定を受け付けた場合、画像処理部２３７および音声処理部２４４は、指定された位置を含む予め定められた大きさの画像領域から、音情報を生成するとした。また、タッチされた面積が大きいほど、より多い画像ブロックで構成される画像ブロックの画像情報から、音情報を生成するとした。しかし、画像ブロックの大きさを、タッチされた面積に応じて１画素以上の単位で調整してもよい。すなわち、システム制御部２５０および操作部材２０２は、ユーザによる入力面内に対する操作を検出することにより、画像内の位置の指定を受け付ける入力部として機能し、画像処理部２３７および音声処理部２４４は、入力面内に対する操作面積がより大きい場合に、より大きい画像領域から音情報を生成してよい。
【００８４】
また、図９等に関連して説明したように、画像処理部２３７および音声処理部２４４は、入力面に対してスライド操作された旨が検出された場合に、操作位置に対応する画像領域内のエッジ量から音情報を生成し、入力面に対してポイント操作された旨が検出された場合に、操作位置に対応する画像領域内の画素値の大きさから音情報を生成する。このため、ユーザが操作方法を変えることで、音の生成方法を変えることができる。したがって、ユーザは、一つの画像から多様な方法で音を楽しむことができる。
【００８５】
なお、ユーザの操作を、ユーザの指やスタイラス等による入力面の押下を検知することで検出してよいが、押下だけでなく入力面との接触を検知することでユーザの操作を検出してよい。検出方式によっては、ユーザの操作を検出するために、ユーザの指やスタイラス等と入力面とが接触することも要しない。例えば、静電容量方式、電磁誘導方式、光センサ方式等で検出するタッチパネルによると、ユーザの指やスタイラス等が入力面に近接することで、入力面に接触しなくても操作位置を検出できる場合がある。
【００８６】
また、以上の説明において、画像処理部２３７が、人物の顔を検出するとした。しかし、画像処理部２３７は、人物の顔の他に、自動車、電車および飛行機等の乗物、楽器ならびに動物等、予め定められたオブジェクトを画像から検出してよい。そして、音声処理部２４４は、検出したオブジェクトに関連する音の信号を生成してもよい。例えば、オブジェクトが自動車や飛行機であればエンジン音の音信号を生成してよい。オブジェクトが電車であれば、モータ音またはレール上の走行音の音信号を生成してよい。オブジェクトが楽器であれば、その楽器が発生する音の音信号を生成してよい。予め定められたオブジェクトに関連する音の信号は、記録媒体２０９に予めデータとして記録されて、記録媒体２０９から読み出して使用されてよい。また、システムメモリ２３６に予めデータとして記録されており、撮像装置１００の起動時に内部メモリ２３５に展開されて使用されてよい。すなわち、画像処理部２３７は、指定された画像領域に予め定められたオブジェクトの少なくとも一部が含まれるか否かを判断するオブジェクト判断部として機能する。内部メモリ２３５、記録媒体２０９等が、予め定められたオブジェクトに対応づけて、予め定められたオブジェクトに関連する音データを格納する音データ格納部として機能する。画像処理部２３７および音声処理部２４４は、指定された画像領域に予め定められたオブジェクトの少なくとも一部が含まれる旨が判断された場合には、予め定められたオブジェクトに対応づけて格納している音データを、音情報として生成してよい。
【００８７】
また、以上の説明において、ステレオ信号としての音信号を生成する場合、音声処理部２４４は、指定された画像領域が画像内の予め定められた位置の左方に位置する場合に、生成した音情報に基づいて、左チャネルの音信号を生成し、指定された画像領域が画像内の予め定められた位置より右方に位置する場合に、生成した音情報に基づいて、右チャネルの音信号を生成するとした。また、５．１チャネルの音信号を生成する場合、例えば上方の画像領域が指定されるとフロントの音声チャネルの音信号を生成し、下方の画像領域が指定されるとリアの音声チャネルの音信号を生成するとした。音声処理部２４４が画像情報に基づき生成する音信号のチャネル数は、２または５に限られない。例えば、音声処理部２４４は、２チャネル以上の音信号を画像情報に基づき生成してよい。すなわち、音声処理部２４４は、生成した音情報に基づいて、複数の音声チャネルのうちの少なくとも一つの音声チャネルの音信号を生成する音信号生成部として機能する。特に、音声処理部２４４は、生成された音情報から、指定された画像領域の画像内の位置に対応する音声チャネルの音信号を生成してよい。
【００８８】
以上の説明において、指定された画像領域の画像内の位置に応じて、音声チャネルを決定するとした。一方、タッチパネルの入力面内の離れた２つの位置が同時に操作された場合、画像処理部２３７および音声処理部２４４は、それぞれの位置の画像ブロックの画像情報から音情報を生成してよい。そして、音声処理部２４４は、左方の画像ブロックの画像情報から生成した音情報に基づき、Ｌチャネルの音声信号を生成し、右方の画像ブロックの画像情報から生成した音情報に基づき、Ｒチャネルの音声信号を生成してよい。すなわち、画像内の複数の位置が指定された場合に、音声処理部２４４は、複数の位置の画像情報から生成された複数の音情報に基づき、指定された複数の位置にそれぞれ対応する音声チャネルの音声信号をそれぞれ生成してよい。
【００８９】
また、以上の説明において、操作部材２０２の一部および表示部２０１の一部がタッチパネルとして組み込まれるとした。そして、表示部２０１に画像を表示して、ユーザにタッチパネルの入力面を操作させるとした。しかし、表示部２０１に画像を表示せずに、タッチパネルの入力面を操作させてもよい。例えば、システム制御部２５０は、電力状態に基づいて、表示部２０１に画像を表示させるか否かを決定する。例えば、システム制御部２５０は、電源制御部２４７からバッテリ２０８の残電力を検出して、残電力が予め定められた値未満であり、ＡＣ電源からの電力供給がない場合に、表示部２０１に画像を表示させないとしてよい。
【００９０】
また、本実施形態では、タッチパネルの入力面に対して操作されるとした。しかし、操作部材２０２は、タッチパッド等のように、画像を表示しない入力面を有して良い。例えば操作部材２０２は矩形の入力面を有する。矩形の入力面の中心が画像の中心に対応し、操作面の矩形の四隅が、画像の四隅に対応するとしてよい。また、上記の説明では、指定位置を含む画像ブロックから画像情報を生成するとしたが、複数の位置に対してポイント操作がされた場合、対応する複数の位置を含む１以上の画像ブロックから画像情報を生成してもよい。また、入力面に対する操作位置が予め定められた軌跡を描く場合、軌跡に基づいて１以上の画像ブロックを選択して、選択した画像ブロックの画像情報から音情報を生成してもよい。例えば、操作位置が円形や矩形等の閉じた軌跡を描く場合、軌跡内の１以上の画像ブロックの画像情報から音情報を生成してもよい。
【００９１】
本実施形態において、撮像装置１００を取り上げて音情報生成装置の一例を説明した。撮像装置１００としては、レンズ交換式の一眼レフカメラ、コンパクトデジタルカメラ、ミラーレス一眼カメラ、ビデオカメラ、撮像機能付きの携帯電話機、撮像機能付きの携帯情報端末、撮像機能付きのゲーム機器等の娯楽装置等、撮像機能を有する機器を適用の対象とすることができる。また、音情報生成装置は、撮像機能を有さなくてよく、パーソナルコンピュータ、テレビ、デジタルフォトフレーム、カーナビゲーション装置、携帯電話機、携帯情報端末、ゲーム機器等の娯楽装置、視覚障害者用の音声装置等の機器として実現されてよい。撮像機能を有する機器に適用する場合、当該機器が撮像した撮像画像を、音情報を生成する処理対象の画像としてよい。処理対象の画像は、静止画や動画を含む撮像画像に限られない。例えば、カーナビゲーション装置においては、地図の画像を処理対象の画像とすることができる。
【００９２】
本実施携帯の撮像装置１００に関連して説明した処理は、撮像装置１００の各部、例えばシステム制御部２５０等が、プログラムに従って内部メモリ２３５、システムメモリ２３６等のメモリと協働して動作することにより、実現することができる。すなわち、当該処理を、いわゆるコンピュータ装置によって実現することができる。コンピュータ装置は、上述した処理の実行を制御するプログラムをロードして、読み込んだプログラムに従って動作して、当該処理を実行してよい。コンピュータ装置は、当該プログラムを記憶しているコンピュータ読取可能な記録媒体を読み込むことによって、当該プログラムをロードすることができる。
【００９３】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【００９４】
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
【符号の説明】
【００９５】
２０オーディオコントローラ、２２スピーカ、１００撮像装置、２０１表示部、２０２操作部材、２０７レリーズスイッチ、２０８バッテリ、２０９記録媒体、２１９光軸、２２１ズームレンズ、２３１撮像素子、２３２Ａ／Ｄ変換器、２３３メモリ制御部、２３４タイミング発生部、２３５内部メモリ、２３６システムメモリ、２３７画像処理部、２３８表示制御部、２３９Ｄ／Ａ変換器、２４０記録媒体ＩＦ、２４３ズーム制御部、２４４音声処理部、２４５再生処理部、２４６スピーカ部、２４７電源制御部、２４８加速度センサ、２５０システム制御部、３００、６００、７００全画像領域、３１０、３１２、３２０、３２２、３８０、３８２、３９０画像ブロック、６１０、７１０部分領域、５１０、５１１、５１２、５１３、５１４、５２０、５２１、５２２、５２３、５２４画素

【特許請求の範囲】
【請求項１】
画像内の画像領域の指定を受け付ける受付部と、
前記指定された画像領域の画像情報から、前記画像情報に対応する音情報を生成する音情報生成部と
を備える音情報生成装置。
【請求項２】
前記音情報生成部は、前記指定された画像領域の明るさ、色相および彩度のうちの少なくとも一つの特性値に基づいて、前記音情報を生成する
請求項１に記載の音情報生成装置。
【請求項３】
音を定める１以上の音パラメータの複数の値を、複数の特性値の範囲にそれぞれ割り当てる割当部
をさらに備え、
前記音情報生成部は、前記指定された画像領域の特性値を含む範囲に割り当てられている音パラメータを、前記音情報として選択する
請求項２に記載の音情報生成装置。
【請求項４】
前記割当部は、音階を構成する複数の音を、第１の特性値の複数の範囲にそれぞれ割り当て、
前記音情報生成部は、前記指定された画像領域の第１の特性値を含む範囲に割り当てられている音を、前記音情報として選択する
請求項３に記載の音情報生成装置。
【請求項５】
前記割当部は、複数のオクターブを、第２の特性値の複数の範囲にそれぞれ割り当て、
前記音情報生成部は、前記指定された画像領域の第２の特性値を含む範囲に割り当てられているオクターブを、前記音情報として選択する
請求項４に記載の音情報生成装置。
【請求項６】
前記割当部は、前記画像から抽出された前記特性値の頻度分布の広がりがより大きい場合に、音パラメータの複数の値を、より狭い特性値の範囲にそれぞれ割り当てる
請求項３から５のいずれか一項に記載の音情報生成装置。
【請求項７】
前記音情報生成部が生成した前記音情報から、前記音情報に対応する再生音の音信号を生成する出力部
をさらに備える請求項２から６のいずれか一項に記載の音情報生成装置。
【請求項８】
前記音情報生成部は、前記指定された画像領域の第１の特性値に対応する第１音情報と、前記指定された画像領域の第２の特性値に対応する第２音情報とを生成し、
前記出力部は、前記第１音情報に対応する再生音と、前記第２音情報に対応する再生音とが、時分割で出力される音信号を生成する
請求項７に記載の音情報生成装置。
【請求項９】
前記受付部は、画像内の位置の指定を受け付け、
前記音情報生成部は、前記指定された位置を含む予め定められた大きさの画像領域から、前記音情報を生成する
請求項１から８のいずれか一項に記載の音情報生成装置。
【請求項１０】
前記受付部は、ユーザによる入力面内に対する操作を検出することにより、前記画像内の位置の指定を受け付ける入力部を有し、
前記音情報生成部は、前記入力面内に対する操作面積がより大きい場合に、より大きい画像領域から前記音情報を生成する
請求項９に記載の音情報生成装置。
【請求項１１】
前記受付部は、ユーザによる入力面内に対する操作を検出することにより、前記画像内の位置の指定を受け付ける入力部を有し、
前記音情報生成部は、前記入力面に対してスライド操作された旨が検出された場合に、操作位置に対応する前記画像領域内のエッジ量から前記音情報を生成し、前記入力面に対してポイント操作された旨が検出された場合に、操作位置に対応する前記画像領域内の画素値の大きさから前記音情報を生成する
請求項１から９のいずれか一項に記載の音情報生成装置。
【請求項１２】
前記指定された画像領域に予め定められたオブジェクトの少なくとも一部が含まれるか否かを判断するオブジェクト判断部と、
前記予め定められたオブジェクトに対応づけて、前記予め定められたオブジェクトに関連する音データを格納する音データ格納部と
をさらに備え、
前記音情報生成部は、前記指定された画像領域に前記予め定められたオブジェクトの少なくとも一部が含まれる旨が判断された場合には、前記音データ格納部が前記予め定められたオブジェクトに対応づけて格納している音データを、前記音情報として生成する
請求項１から１１のいずれか一項に記載の音情報生成装置。
【請求項１３】
前記音情報生成部により生成された音情報に基づいて、複数の音声チャネルのうちの少なくとも一つの音声チャネルの音信号を生成する音信号生成部
をさらに備え、
前記音信号生成部は、生成された音情報から、前記指定された画像領域の前記画像内の位置に対応する音声チャネルの音信号を生成する
請求項１から１２のいずれか一項に記載の音情報生成装置。
【請求項１４】
前記音信号生成部は、前記指定された画像領域が画像内の予め定められた位置の左方に位置する場合に、前記生成された音情報に基づいて、左チャネルの音信号を生成し、前記指定された画像領域が画像内の前記予め定められた位置より右方に位置する場合に、前記生成された音情報に基づいて、右チャネルの音信号を生成する
請求項１３に記載の音情報生成装置。
【請求項１５】
画像内の画像領域の指定を受け付ける受付ステップと、
前記指定された画像領域の画像情報から、前記画像情報に対応する音情報を生成する音情報生成ステップと
をコンピュータに実行させるプログラム。

【図１】