音情報生成装置およびプログラム
【課題】指定された画像領域の画像情報に適した音を提供すること。
【解決手段】音情報生成装置は、画像内の画像領域の指定を受け付ける受付部と、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成部とを備える。プログラムは、画像内の画像領域の指定を受け付ける受付ステップと、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成ステップとをコンピュータに実行させる。
【解決手段】音情報生成装置は、画像内の画像領域の指定を受け付ける受付部と、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成部とを備える。プログラムは、画像内の画像領域の指定を受け付ける受付ステップと、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成ステップとをコンピュータに実行させる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音情報生成装置およびプログラムに関する。
【背景技術】
【0002】
周囲の風景を音信号で表現する技術が知られている(例えば、特許文献1参照)。
[先行技術文献]
[特許文献]
[特許文献1]特開2004−20869号公報
【発明の概要】
【発明が解決しようとする課題】
【0003】
画像領域の指定に応じて、指定された画像領域の画像情報に適した音を提供することができないという課題があった。
【課題を解決するための手段】
【0004】
本発明の第1の態様においては、音情報生成装置は、画像内の画像領域の指定を受け付ける受付部と、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成部とを備える。
【0005】
本発明の第2の態様においては、プログラムは、画像内の画像領域の指定を受け付ける受付ステップと、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成ステップとをコンピュータに実行させる。
【0006】
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
【図面の簡単な説明】
【0007】
【図1】本実施形態に係る撮像装置100の利用場面の一例を示す。
【図2】撮像装置100のシステム構成を示す。
【図3】画像ブロックの分割例を示す。
【図4】輝度値に対する音の割り当て例を示す。
【図5】音の割り当て方法の他の一例を示す。
【図6】ステレオの音声チャネルへの割り当て例を示す。
【図7】サラウンドの音声チャネルへの割り当て例を示す。
【図8】撮像装置100における一連の処理フローを示す。
【図9】音を再生する操作がなされた場合の処理フローを示す。
【発明を実施するための形態】
【0008】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0009】
図1は、本実施形態に係る撮像装置100の利用場面の一例を示す。撮像装置100は、画像情報から再生音を生成する音再生モードを、動作モードの一部として持つ。音再生モードにおいて、撮像装置100は、例えばタッチパネルの一部として組み込まれた表示部201に画像を表示して、タッチパネルの入力面を操作するよう音声等によってユーザに促す。撮像装置100は、タッチパネルの入力面がユーザによって操作されたことを検出すると、操作された位置に対応する画像領域の画素値を解析して音データを生成する。撮像装置100は、生成した音データを内蔵のスピーカ部246から再生音として出力する。
【0010】
例えば、撮像装置100は、画像領域が明るいほど、より高い音階の音を使って、音データを生成する。撮像装置100によれば、ユーザにより指定された画像領域の画素値を音に変換して出力することができるので、例えば視覚障害を持つユーザでも、画像を音として楽しむことができる。また、ユーザは、表示部201を見なくとも、画像を音として楽しむことができる。
【0011】
なお、撮像装置100は、生成した音データを、外部のスピーカに出力して再生させてもよい。例えば、撮像装置100は、外部のオーディシステムに音データを送信して、再生させてもよい。例えば、撮像装置100は、外部のオーディシステムが有するオーディオコントローラ20に、音データを無線信号として送信してよい。撮像装置100は、オーディオコントローラ20と伝送ケーブル等の伝送媒体で接続され、音データを光信号または電気信号としてオーディオコントローラ20に送信してよい。オーディオコントローラ20は、受信した音データを、外部のオーディオシステムが有する複数のスピーカ22から再生音として出力する。撮像装置100およびオーディオシステムは、音再生システムとして機能する。
【0012】
撮像装置100は、複数のスピーカ22のうち画像領域の位置に対応するスピーカから、音データを再生音として出力させてよい。例えば撮像装置100は、中央の画像領域から生成した音データを、センタスピーカ22aから再生音として出力させてよい。また、中央の画像領域よりも左方の画像領域から生成した音データを、左フロントスピーカ22bから再生音として出力させ、右方の画像領域から生成した音データを、右フロントスピーカ22cから再生音として出力させてよい。撮像装置100は、画像領域の位置に応じた音声チャネルの音データとして生成して、オーディオコントローラ20に送信してよい。このように、撮像装置100によれば、画像領域の位置情報を、いわば音源位置に変換することができる。このため、ユーザは、画像内のどの位置に、どのような明るさの画像があるかを、比較的容易に理解することができる。
【0013】
図2は、撮像装置100のシステム構成を示す。撮像装置100は、主にズームレンズ221等が含まれる光学系を備える。被写体像は、光軸219に沿ってズームレンズ221に入射して撮像素子231の結像面に結像する。ズームレンズ221および撮像素子231の機能ブロックは、撮像部として機能する。
【0014】
撮像素子231は、ズームレンズ221を透過して入射する被写体像である光学像を光電変換して被写体を撮像する素子である。撮像素子231としては、例えば、CCD、CMOSセンサを用いることができる。撮像素子231で光電変換された被写体像は、A/D変換器232でアナログ信号からデジタル信号に変換される。撮像素子231の電荷読み出し制御およびA/D変換器232の変換制御は、メモリ制御部233の同期制御を受けたタイミング発生部234が供給するクロック信号により同期が計られる。
【0015】
デジタル信号に変換された被写体像は、画像データとして順次処理される。A/D変換器232によりデジタル信号に変換された画像データは、メモリ制御部233の制御に従い、一旦内部メモリ235に記憶される。内部メモリ235は、高速で読み書きのできるランダムアクセスメモリであり、例えばDRAM、SRAMなどが用いられる。内部メモリ235は、連写撮像、動画撮像において高速に連続して画像データが生成される場合に、画像処理の順番を待つバッファメモリとしての役割を担う。
【0016】
また、内部メモリ235は、画像処理部237が行う画像処理、圧縮処理において、ワークメモリとしての役割も担う。特に本実施形態においては、内部メモリ235は、音を生成するための画像解析処理においても、ワークメモリとしての役割も担う。したがって、内部メモリ235は、これらの役割を担うに相当する十分なメモリ容量を備える。
【0017】
システムメモリ236は、電気的に消去・記録可能な不揮発性メモリであり、例えばEEPROM(登録商標)等により構成される。システムメモリ236は、撮像装置100の動作時に必要な定数、変数、プログラム等を、撮像装置100の非動作時にも失われないように記録している。システム制御部250は、撮像装置100の全体を直接的または間接的に制御する。システム制御部250は、定数、変数、プログラム等を適宜に内部メモリ235に展開して、撮像装置100の制御に利用する。システム制御部250は、MPUにより実装されてよい。システムメモリ236は、画像情報を音に変換するための情報を記録している。例えば、システムメモリ236は、輝度等の特性値を音階の音に割り当てるためのテーブルを記録している。
【0018】
画像処理部237は、設定されている撮像モード、ユーザからの指示に則して、画像データを所定の画像フォーマットに変換する。例えば、静止画像データとしてJPEGファイルを生成する場合、色変換処理、ガンマ処理、ホワイトバランス処理等の画像処理を行った後に適応離散コサイン変換等を施して圧縮処理をする。
【0019】
また、動画像データとしてMPEGファイルを生成する場合、所定の画素数に縮小されて生成された連続する静止画データとしてのフレーム画像データに対して、フレーム内符号化、フレーム間符号化を施して圧縮処理をする。画像処理部237によって処理された静止画像データ、動画像データ等の画像データは、内部メモリ235から記録媒体IF240を介して、記録媒体209に記録される。
【0020】
画像処理部237は、記録媒体209等に記録された画像データ、または、撮影により内部メモリ235に記憶された画像データから、表示用の画像データを生成する。撮影により内部メモリ235に記憶された画像データから表示用の画像データを生成する場合、画像処理部237は、記録用に処理される画像データに並行して、表示用の画像データを生成してよい。生成された表示用の画像データは、表示制御部238の制御に従って、D/A変換器239でアナログ信号に変換され、表示部201に表示される。画像の記録の有無にかかわらず、表示用の画像データを逐次生成して表示部201に表示すれば、ライブビュー機能を実現することができる。また、システム制御部250は、画像の表示と共に、もしくは画像を表示することなく、撮像装置100の各種設定に関する様々なメニュー項目も、表示部201に表示することができる。
【0021】
本実施形態において、画像処理部237は、音を生成するための画像解析処理を行う。音声処理部244は、画像処理部237による画像の解析結果を取得して、解析結果に基づきデジタルの音信号を生成する。再生処理部245は、デジタルの音信号に基づき、スピーカ部246を駆動して、スピーカ部246から再生音として出力させる。
【0022】
撮像装置100は、ユーザからの操作を受け付ける操作部材202を複数備えているが、システム制御部250は、これら操作部材202が操作されたことを検知して、操作に応じた動作を実行する。本実施形態において、操作部材202は、音を生成する対象となる画像ブロックの指定をユーザから受け付ける。例えば、操作部材202の一部および表示部201の一部は、タッチパネルとして組み込まれる。タッチパネルの入力面がユーザの指やスタイラス等の指示部材で操作された場合、操作位置を示す情報がシステム制御部250に供給される。システム制御部250は、操作位置に基づいて、操作位置に対応する画像ブロックの指定を受け付ける。タッチパネルとしては、抵抗膜方式、静電容量方式、電磁誘導方式、光センサ方式等の種々のタッチパネルを例示することができる。光センサ方式のタッチパネルとしては、表示部201の一部としての表示画素が形成された基板上に光センサを形成したタッチパネルを例示することができる。本実施形態では、投影型静電容量方式のタッチパネルを適用する。
【0023】
加速度センサ248は、撮像装置100の加速度を検出して、加速度に応じた加速度情報を出力する。システム制御部250は、加速度センサ248からの加速度情報を取得する。システム制御部250は、加速度情報に応じたユーザ操作を受け付けてよい。例えば、システム制御部250は、ユーザ操作に対応して予め定められた条件を満たす加速度情報を取得した場合に、当該ユーザ操作を受け付ける。予め定められた条件としては、加速度の向きおよび大きさの少なくとも一方に関する条件を例示することができる。
【0024】
システム制御部250は、撮像装置100の動作モードが撮像モードに設定されている場合、レリーズスイッチ207の押下げを検知すると、撮像素子231による被写体像の取得動作を実行する。一方、撮像装置100の動作モードが音再生モードに設定されている場合、押下げ検知により音再生モードを解除して、撮像装置100の動作モードを撮像モードに切り換える。撮像装置100は、撮像して得た画像データを表示部201に表示すると、動作モードを音再生モードに切り替えてよい。
【0025】
ズームレンズ221は、システム制御部250の統括制御のもと、ズーム制御部243によって制御される。ズーム制御部243は、ユーザの指示に応じてズームレンズ221を駆動して、被写体像の画角を変更する。システム制御部250は、ズーム制御部243によって検出されるズームレンズ221の位置を取得して撮像装置100の画角情報を取得する。
【0026】
電源制御部247は、バッテリ208と通信して残電力を検出し、バッテリ208からの電力供給を監視する。また、バッテリ208の充電に応じて、接続されるAC電源からの電力供給を制御する。記録媒体209は、バッテリ208またはAC電源からの電力供給がない場合でも、記録されたデータを保持することができる。
【0027】
図3は、画像ブロックの分割例を示す。本図は、全画像領域300を長手方向に12分割し、短手方向に8分割した例を示す。画像処理部237は、システム制御部250を介して、タッチパネルの入力面内におけるタッチされた位置および面積を取得する。静電容量方式のタッチパネルを適用する場合、タッチされた面積は、検出された容量の大きさに基づき算出することができる。
【0028】
まず、タッチされた面積が予め定められた値より小さい場合について説明する。画像処理部237は、タッチされた位置に対応する画像上の位置を指定位置として算出する。画像処理部237は、複数の画像ブロックの中から、指定位置を含む画像ブロックを少なくとも一つ選択して画像を解析する。音声処理部244は、画像の解析結果に基づき、デジタルの音信号を生成する。
【0029】
例えば、画像処理部237は、指定位置が画像ブロック310に含まれる場合、画像ブロック310の全画素値から、輝度値の平均値を算出する。画像処理部237は、画像ブロック310内の各画素に対して、指定位置からの距離に応じて重みづけ加算することにより、輝度値の平均値を算出してよい。画像処理部237は、指定位置に近いほど、より大きい重みづけ係数を適用して重みづけ加算してよい。
【0030】
音声処理部244は、輝度値の平均値に基づいて、音階を構成する複数の音のうちの対応する音を示す情報を生成する。例えば、輝度値の複数の範囲に、音階を構成する複数の音が一つずつ割り当てられており、音声処理部244は、輝度値の平均値を含む範囲に割り当てられた音を選択する。輝度値の各範囲に対する各音の割り当てについては、図4に関連して説明する。音声処理部244は、選択した音に対応するデジタルの音信号を生成する。例えば、音声処理部244は、PCMオーディオ信号を生成する。生成した音信号は、再生処理部245での処理を介して、スピーカ部246から再生音として出力される。
【0031】
次に、タッチされた面積が予め定められた値以上である場合について説明する。ユーザがタッチパネルの入力面を指の腹部分でタッチした場合、ユーザの指の先端部でタッチした場合と比較して、入力面と指との接触面が大きくなる場合がある。タッチされた面積が予め定められた値より大きい場合、画像処理部237は、解析対象の画像ブロックをより大きく設定する。具体的には、画像処理部237は、タッチされた面積が大きいほど、より多くの画像ブロックを選択する。例えば、指定位置が画像ブロック310に含まれる場合、画像処理部237は、画像ブロック310と、画像ブロック320等の隣接する画像ブロックとを含む複数の画像ブロックの全体を、解析対象の画像ブロックとして設定する。画像処理部237は、設定した画像ブロックから、音を示す情報を生成する。具体的には、画像処理部237は、設定した複数の画像ブロックから輝度値の平均値を算出して、上述したように音階を構成する複数の音の中から対応する音を選択する。
【0032】
ユーザが次に異なる画像ブロックに対応する位置をタッチした場合も同様に、当該画像ブロックの輝度値の平均値から音を生成する。したがって、ユーザがタッチパネルの入力面内の異なる位置を次々に触れていくと、その位置の輝度値に応じた音が再生される。このため、ユーザは、撮像装置100を用いて、画像内容に応じた音を楽しむことができる。なお、音声処理部244は、異なる音が選択されるまで、直前に選択された音と同じ音の音信号を生成し続けてよい。また、音声処理部244は、異なる音が選択されなくとも、予め定められた時間長さだけ継続する音信号を生成してよい。
【0033】
ところで、本例の画像ブロック390内には、人物の顔の像が含まれる。画像ブロック390内のいずれかの画像ブロックに指定位置が含まれる場合、画像処理部237は、上述した音の選択に替えて、人物に関連する音信号を生成すべき旨を決定する。
【0034】
具体的には、画像処理部237は、指定位置を含む画像ブロックを解析して、人物の顔の少なくとも一部を含むか否かを判断する。画像処理部237は、指定位置を含む画像ブロックに隣接する周囲の画像ブロックの全体を解析して、人物の顔の検出を試みることにより、指定位置を含む画像ブロックが人物の顔の少なくとも一部を含むか否かを判断してよい。画像処理部237は、解析対象の画像ブロックからパターンマッチング、特徴量検出等の手法を用いて人物の顔を検出することにより、指定位置を含む画像ブロックが人物の顔の少なくとも一部を含むか否かを判断してよい。
【0035】
画像処理部237は、指定位置を含む画像ブロックに人物の顔の少なくとも一部が含まれる場合、人物に関連する音声を生成すべき旨の情報を音声処理部244に供給する。音声処理部244は、人物に関連する音声として記録されている音データを、再生処理部245に供給する。当該音データは、記録媒体209等に記録されていてよい。また、記録媒体209には、複数の人物をそれぞれ識別する識別情報に対応付けて、個々の人物の声の音データが記録されていてよい。画像処理部237は、人物の顔画像に対して顔認識処理を適用して個々の人物を認識して、認識した人物を識別する識別情報を、音声処理部244に供給してよい。音声処理部244は、供給された識別情報に対応づけて記録されているデータを、再生処理部245に供給してよい。これにより、人物の顔が写っている画像ブロックが指定したときには人物の声が再生され、人物の顔が写っていない画像ブロックを指定したときには輝度値に応じた音階の音が再生される。したがって、ユーザは、画像のどのあたりに人物の顔が写り込んでいるかを比較的に容易に判断することができる。また、ユーザは、画像内の人物の顔の位置をタッチすることで、その人物の音声を楽しむことができる。
【0036】
なお、指定位置は、撮像装置100自身が定めてもよい。例えば、システム制御部250は、予め定められた順番で処理すべき画像ブロックを選択して、選択した画像ブロックの輝度値の平均値を画像処理部237に算出させて、輝度値に平均値に基づき音声処理部244に音を選択させてよい。一例として、システム制御部250は、左上の画像ブロックから右下の画像ブロックまで、画像ブロックを順に選択する。例えば、本図の画像ブロック310から画像ブロック312までの複数の画像ブロックの中から、処理すべき画像ブロックを左から順に選択してよい。画像ブロック310から画像ブロック312までの画像ブロックが属する第1ラインの次に、第1ラインの直下の第2ラインを選択して、第2ラインに属する画像ブロック320から画像ブロック322までの複数の画像ブロックの中から、処理すべき画像ブロックを左から順に選択する。そして、画像ブロック380から画像ブロック382が属する最終ラインまで、ラインを上から順に選択していく。音声処理部244は、各ラインの再生が完了する毎に、1ラインの再生が完了した旨を示す予め定められた音を再生させてもよい。音声処理部244は、音の再生間隔または音の再生時間の長さを変化させて、リズムのある再生音を再生させてもよい。このように、画像ブロックを左から右へ、上から下へスキャンしていき、輝度値の平均値に基づく音を自動再生することで、ユーザはタッチすることなく画像の全体を音で一気に楽しむことができる。
【0037】
また、撮像装置100は、第1ラインの複数の画像ブロックからそれぞれ決定された音を、同時に再生してもよい。続いて、第2ラインから最終ラインまで上から順にラインを選択していき、選択したラインの複数の画像ブロックからそれぞれ決定された音を同時に再生してもよい。本図の分割例では、画像全体が8回の再生音に変換される。
【0038】
ここでは長手方向のラインを上から下へと順に選択するとしたが、短手方向のラインを左から右へと順に選択してもよい。また、長手方向、短手方向のラインの他、斜め方向のラインを順に選択してもよい。斜め方向のラインを例えば角の画像ブロックから順に選択する場合、最初のラインには1つの画像ブロックが含まれ、次のラインは2つの画像ブロックが含まれることとなる。すなわち、1ラインの画像ブロックの数は、隣接するライン間で異なる。また、画像ブロックをランダムに選択してもよい。以上の説明では、画像ブロックを順に選択するとしたが、画素を順に選択してもよい。この場合、画像処理部237は、選択された画素の輝度値を算出し、音声処理部244は、輝度値に基づき音を選択すればよい。
【0039】
図4は、輝度値に対する音の割り当て例を示す。ここでは輝度値の頻度分布に応じて音を割り当てるとする。具体的には、画像処理部237は、画像データから画像全体での輝度値の頻度分布を算出して、算出した頻度分布の全体の範囲を、7つの輝度値の範囲に分割する。例えば、音声処理部244は、分割した複数の範囲に、音階のうちのドからシの音を一つずつ割り当てる。すなわち、画像処理部237は、対象となる画像データが選択されると、当該画像データが持つ輝度値の分布範囲内で、輝度値の範囲を7個設定する。そして、指定位置が定まると、画像処理部237は、指定位置を含む画像ブロックの輝度値の平均値を含む範囲を、設定した7個の範囲の中から選択して、選択した範囲を識別する識別情報を音声処理部244に供給する。音声処理部244は、当該識別情報に基づいて、各範囲に割り当てた音を選択する。
【0040】
なお、画像処理部237は、頻度が高いところほど、輝度値の範囲を狭く設定してよい。本図に例示するように、頻度分布においてピークに近い領域では輝度値の範囲Lを狭く設定し、頻度分布の裾野の領域では輝度値の範囲を広く設定してよい。これにより、頻度分布においてピークに近い領域では細やかに音を割り当てることができる。以上に説明したように、画像データが持つ輝度の分布の範囲内で、音に対応する7個の範囲を設定する。特に、頻度がより高い領域に、より狭い範囲を設定する。このため、例えば全体に暗い画像に対して、低輝度の領域に多くの音を割り当てることができる。したがって、低輝度領域における輝度値のわずかな違いを、音程で表現することができる。
【0041】
本図の例では、輝度値の複数の範囲に音階を構成する複数の音を割り当てる場合の例を説明した。同様に、彩度の複数の範囲に、複数のオクターブを1つずつ割り当ててもよい。この場合、画像ブロックの輝度値の平均値および彩度から、再生音の周波数を定めることができる。
【0042】
図5は、音の割り当て方法の他の一例を示す。図3、図4において、指定位置を含む画像ブロックの輝度値の平均値に基づき、音を選択するとした。ここでは、指定位置の画像のエッジ量に基づいて、音を選択する方法の一例を説明する。
【0043】
指定位置が画素510の位置に対応する場合、画像処理部237は、画素510の輝度値と、周囲の画素511、512、513、514のそれぞれの輝度値とを用いて、輝度値に関するエッジ量を算出する。例えば、画素510の輝度値から、画素511〜514の輝度値の平均値を減じた値を、エッジ量として算出してよい。音声処理部244は、算出されたエッジ量に対応する音を選択する。エッジ量に対する音の割り当ては、図4に例示した方法と同様の方法を適用することができる。すなわち、エッジ量の頻度分布に応じて音を割り当てることができる。絶対値がより大きいエッジ量の範囲に、より高い音階の音を割り当ててよい。
【0044】
本図の画素511は、人物の顔と背景との境界に位置する。指定位置が画素510の位置に対応する場合、顔の中の画素と背景の画素とによりエッジ量が算出されるので、絶対値が比較的に大きいエッジ量が算出される。一方、指定位置が本図の画素520の位置に対応する場合、画像処理部237は、画素520の輝度値と、周囲の画素521、522、523、524のそれぞれの輝度値とを用いて、輝度値に関するエッジ量を算出する。指定位置が画素520の位置に対応する場合、全て背景の画素に基づきエッジ量が算出される。このため、比較的に絶対値が小さいエッジ量が算出される。
【0045】
したがって、ユーザが顔等の輪郭位置を指定した場合は、比較的に大きいエッジ量に対応する音が再生される可能性が高く、指定位置が輪郭位置からずれると、比較的に小さいエッジ量に対応する音が再生される可能性が高い。システム制御部250は、タッチパネルの入力面がスライド操作された場合に、エッジ量に基づき画像解析するよう画像処理部237に指示し、タッチパネルの入力面がポイント操作された場合に、輝度値に基づき画像解析するよう画像処理部237に指示する。したがって、ユーザがタッチパネルの入力面をなぞるようにスライド操作した場合、顔の輪郭位置付近が触れられている間は、比較的に大きいエッジ量に対応する音が再生され、顔の輪郭位置からずれると、比較的に小さいエッジ量に対応する音が再生される。したがって、ユーザは輪郭位置からずれたことを音の違いで判断することができる。
【0046】
本図の例において、エッジ量に応じて音を選択するとした。特に、対象画素の画素値から周辺画素の画素値を減算することによって、画素値の微分値に対応するエッジ量を算出するとした。しかし、エッジ量の算出方法は上記に限られない。また、エッジ量に応じて音を選択することに替えて、指定位置を含む画像ブロックの空間周波数の大きさに応じて音を選択してもよい。
【0047】
図6は、ステレオの音声チャネルへの割り当て例を示す。ステレオの音声チャネルの一例として、LチャネルおよびRチャネルの音声チャネルを例示する。本例では、全画像領域600を、部分領域610a〜eの5個の部分領域に分割する。
【0048】
部分領域610aに指定位置が含まれる場合、音声処理部244は、Lチャネルの音信号を生成する。一方、部分領域610eに指定位置が含まれる場合、音声処理部244は、Rチャネルの音信号を生成する。したがって、再生音が左だけから聞こえる場合、ユーザは、左端に位置する画像ブロックを指定したことを容易に理解することができる。また、再生音が右だけから聞こえる場合、ユーザは、右端に位置する画像ブロックを指定したことを容易に理解することができる。
【0049】
部分領域610b、610c、610dのいずれかに指定位置が含まれる場合、部分領域に応じて各チャネルに異なる重みづけをして音信号を生成する。例えば、音声処理部244は、部分領域610bに指定位置が含まれる場合、音量の重みづけとして、Lチャネルに0.75、Rチャネルに0.25を与えて音信号を生成する。また、音声処理部244は、部分領域610dに指定位置が含まれる場合、音量の重みづけとして、Lチャネルに0.25、Rチャネルに0.75を与えて音信号を生成する。
【0050】
したがって、部分領域610bに指定位置が含まれる場合、全音声出力のうちの3/4がLチャネルから出力され、音声出力のうちの1/4がRチャネルから出力される。一方、部分領域610dに指定位置が含まれる場合、全音声出力のうちの3/4がRチャネルから出力され、全音声出力のうちの1/4がLチャネルから出力される。したがって、再生音が右よりも左の方から聞こえる場合、ユーザは、やや左寄りに位置する画像ブロックを指定したことを容易に理解することができる。また、再生音が左よりも右の方から聞こえる場合、ユーザは、やや右寄りに位置する画像ブロックを指定したことを容易に理解することができる。
【0051】
また、音声処理部244は、部分領域610cに指定位置が含まれる場合、音量の重みづけとしてLチャネルおよびRチャネルにそれぞれ0.5を与えて音信号を生成する。したがって、再生音が中央から聞こえるように感じられる場合、ユーザは、中央に位置する画像ブロックを指定したことを容易に理解することができる。
【0052】
内部処理としては、システム制御部250は、指定位置を示す情報を音声処理部244に供給する。音声処理部244は、指定位置を含む部分領域に応じて各音声チャネルへの音量の重みづけを決定して、決定した重み付けで各音声チャネルに音量を配分する。撮像装置100によれば、画像内の指定した位置の輝度情報を音に変換するとともに、画像内の指定した位置を音源位置に変換した音信号を生成することができる。このため、ユーザは、画像内どの位置にどれくらいの輝度の被写体像があるかを比較的に容易にイメージすることができる。なお、本図の例では、画像の長手方向に5つの部分領域に分割したが、長手方向に2つの部分領域に分割してもよい。長手方向に2つの部分領域に分割する場合、画像の長手方向の中央位置の左右に部分領域を設定してよい。
【0053】
図7は、サラウンドステレオの音声チャネルへの割り当て例を示す。サラウンドステレオの音声チャネルとは、5.1チャネルの音声チャネルとする。本例では、全画像領域700を、部分領域710a〜eの5個の部分領域に分割する。そして、指向性が他よりも小さいサブウーファーの音声チャネルを除く5つのチャネルに、音を割り当てる。
【0054】
部分領域710aに指定位置が含まれる場合、音声処理部244は、フロントLチャネルの音信号を生成する。例えば、フロントLチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。一方、部分領域710cに指定位置が含まれる場合、音声処理部244は、フロントRチャネルの音信号を生成する。例えば、フロントRチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。また、部分領域710bに指定位置が含まれる場合、音声処理部244は、フロントセンタチャネルの音信号を生成する。例えば、フロントセンタチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。
【0055】
また、部分領域710dに指定位置が含まれる場合、音声処理部244は、リアLチャネルの音信号を生成する。例えば、リアLチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。一方、部分領域710eに指定位置が含まれる場合、音声処理部244は、リアRチャネルの音信号を生成する。例えば、リアRチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。
【0056】
したがって、左フロントスピーカ22bだけから再生音が聞こえる場合、ユーザは、左端かつ比較的に上方に位置する画像ブロックを指定したことを容易に理解することができる。また、右フロントスピーカ22cだけから再生音が聞こえる場合、ユーザは、右端かつ比較的に上方に位置する画像ブロックを指定したということを容易に理解することができる。また、センタスピーカ22aだけから再生音が聞こえる場合、ユーザは、中央かつ比較的に上方に位置する画像ブロックを指定したということを容易に理解することができる。また、左リアスピーカ22dだけから再生音が聞こえる場合、ユーザは、左方かつ比較的に下方に位置する画像ブロックを指定したということを容易に理解することができる。また、右フロントスピーカ22eだけから再生音が聞こえる場合、ユーザは、右方かつ比較的に下方に位置する画像ブロックを指定したということを容易に理解することができる。
【0057】
本図の例では、重みづけを0か1のいずれかに設定するとした。しかし、図6に例示したように、左右または上下の少なくとも一方に部分領域をさらに分割して、位置に応じて、各音声チャネルに0より大きく1より小さい重みづけを与えてもよい。また、例えばパノラマ撮影等で得られた画像データのように、複数枚の被写体画像をつなぎ合わせて生成された画像データに対しては、撮影時における撮影者と被写体の位置関係を考慮して、各音声チャンネルを割り当ててもよい。例えば、横長に連なる被写体画像に対して、中央の部分領域をセンタスピーカ22aに割り当ててよい。左中の部分領域を左フロントスピーカ22bに、左端の部分領域を左リアスピーカ22dに割り当ててよい。右中の部分領域を右フロントスピーカ22cに、右端の部分領域を右リアスピーカ22eに割り当ててよい。
【0058】
図8は、撮像装置100における一連の処理フローを示す。本フローは、画像情報から音を再生する旨の指示をシステム制御部250が受け付けた場合に、開始される。例えば、タッチパネルの入力面に対して、音を再生する指示として予め定められた操作がなされた場合に、本処理フローが開始される。以下の処理フローは、システム制御部250、画像処理部237、音声処理部244が主体として動作する。ステップS800において、処理対象の画像データを読み出す。例えば、画像処理部237は、記録媒体209から処理対象の画像データを読み出す。
【0059】
ステップS810において、画像データに基づき、色空間に音要素を割り当てる。色空間を表すパラメータとしては、輝度値および彩度を例示することができる。音要素を表すパラメータとしては、上述した音階中の音およびオクターブを例示することができる。すなわち、図4に関連して説明したように、輝度値の範囲に音階中の音を割り当てるとともに、彩度の範囲にオクターブを割り当てることにより、色空間に音要素を割り当てる。
【0060】
ステップS820において、画像処理部237は、画像中に複数のブロックを設定する。具体的には、図3に関連して説明した画像ブロックと、図6または7に関連して説明した部分領域とを設定する。ブロックの大きさは、画像データが表示される表示部201の表示領域に対応して設定される。撮像装置100のスピーカ部246から再生する場合、図6に関連して説明したように左右に2以上に分割した部分領域を設定する。外部スピーカ22から再生する場合、図7に関連して説明したように左右方向に3以上の部分領域に分割し、上下方向に2以上の部分領域に分割した部分領域を設定する。このように、再生する音声チャネルの数に応じて、複数の部分領域を設定する。
【0061】
ステップS830において、読み出した画像データに基づく表示画像を表示部201に表示して、ステップS840において代表音を再生する。例えば、全画像ブロックの輝度値の平均値に基づく音と、全画像ブロックの彩度の平均値に基づくオクターブとにより定められる代表音を生成してよい。代表音は、図3に関連して説明した第1ラインに属する複数の画像ブロックに基づく音であってもよい。例えば、第1ラインに属する複数の画像ブロックのそれぞれから定まる音を順に再生したものを代表音としてもよい。また、第1ラインに属する複数の画像ブロックのそれぞれから定まる音を同時に再生したものを代表音としてもよい。
【0062】
ステップS850において、次の画像データに進むか否かを判断する。例えば、タッチパネルの入力面に対して、次の画像データを処理対象とするべき旨の操作として予め定められた操作がなされた場合に、次の画像データに進むと判断する。例えば、加速度センサ248からの加速度情報等に基づき、撮像装置100を大きく動かす操作等の予め定められた操作が検出された場合に、次の画像データに進むと判断する。予め定められた操作としては、撮像装置100を傾ける操作、撮像装置100を振る操作等を例示することができる。次の画像データを処理対象とするべき旨の操作として、操作部材202の一部としての切り替えキーやスライドスイッチ等に対するキー操作を例示することができる。次の画像データに進むと判断された場合、ステップS800に処理を移行する。
【0063】
次の画像に進むと判断されなかった場合、ステップS860において、操作の種別を判断する。例えば、操作の種別として、画像から音を再生する旨を指示する操作、および、音再生の動作を終了する旨を指示する操作が予め定められている。画像から音を再生する操作としては、タッチパネルの入力面内の画像が表示された領域に対する、ポイント操作、スライド操作、長押し操作、ダブルタップ操作等の操作を例示することができる。動作を終了する旨を指示する操作としては、タッチパネル以外の操作部材202に対する操作を例示することができる。画像から音を再生する操作がなされた場合、ステップS870において、音を再生する処理を実行する。ステップS870の処理については、図9に関連して説明する。音再生の動作を終了する旨の操作がなされた場合、本動作フローを終了する。
【0064】
図9は、音を再生する操作がなされた場合の処理フローを示す。すなわち、ステップS870の詳細な処理フローを示す。本図では、分かり易く説明するために、特に画像ブロック内の色または輝度値の微分値に応じて音を決定する処理を説明する。本フローが開始すると、ステップS900において、タッチ操作の種類を判断する。タッチ操作の種類として、位置を局所的に指定する操作、位置をライン状に指定する操作、および、音を自動再生させるための操作が予め定められているとする。
【0065】
ここでは、一例として、位置を局所的に指定する操作としてポイント操作が定められているとする。ポイント操作とは、一例として、入力面にタッチされた状態が予め定められた値より長く継続し、タッチ位置の時間あたりの変化量が予め定められた値よりも小さい操作とする。また、位置をライン状に指定する操作としてスライド操作が定められているとする。スライド操作とは、一例として、タッチ位置の時間あたりの変化量が予め定められた値以上の操作とする。また、音を自動再生させるための操作として、タッチされた状態が予め定められた値より短い時間だけ継続する操作であるとする。例えば、音を自動再生させるための操作として、タップ操作を例示することができる。これらの操作は、異なる種類のタッチ操作としての一例の操作であり、これらの操作に限られず、任意の区別可能な操作を適用してよい。
【0066】
ステップS900において、ポイント操作であると判断された場合、画像処理部237は、ステップS910において、タッチ位置に対応する画像ブロックを選択する。すなわち、指定位置を含む画像ブロックを選択する。ステップS912において、画像処理部237は、画像ブロック内の平均色を算出する。具体的には、輝度値の平均値と、彩度の平均値とを算出する。そして、ステップS914において、音声処理部244は、平均色に対応する音要素を選択する。具体的には、輝度値の平均値に対応する音を、音階を構成する複数の音の中から選択するとともに、彩度の平均値に対応するオクターブを選択する。輝度値に対応する音と、彩度に対応するオクターブは、図8のステップS810に関連して説明したように、画像全体から算出された輝度値の頻度分布、および、彩度の頻度分布に基づき予め割り当てられている。
【0067】
ステップS916において、再生する音声チャネルを選択する。具体的には、図8のステップS820において設定された部分領域のうち、指定位置を含む部分領域に対応する音声チャネルを選択する。ステップS918において、音声処理部244は、ステップS914で選択した音およびオクターブに基づく音信号を、ステップS916において選択した音声チャネルの音信号として生成して、再生音を再生させる。スピーカ部246で再生する場合、再生処理部245は、音声処理部244で生成された音信号に基づき、スピーカ部246を駆動して再生音を出力させる。再生処理が完了すると本フローを終了する。
【0068】
ステップS900において、スライド操作であると判断された場合、画像処理部237は、ステップS940において、スライド経路内の各タッチ位置での輝度値の微分値を算出し、ステップS942において微分値に対応する音要素を選択する。具体的には、画像処理部237は、スライド経路内に対応する各画素について、上述した輝度値のエッジ量を算出して、音声処理部244がエッジ量に対応する音を選択する。本ステップでは、予め定められたオクターブを選択してよい。しかし、ステップS914に関連して説明したように、現在の指定位置を含む画像ブロックの彩度の平均値に対応するオクターブを選択してもよい。そして、ステップS916に処理を進め、続くステップS918において再生音が出力される。
【0069】
ステップS900において、自動再生の操作であると判断された場合、システム制御部250は、再生するブロックの順番を決定する。具体的には、システム制御部250は、例えばタップ操作された位置を画像処理部237に供給する。画像処理部237は、タップ操作された位置を含む画像ブロックを、自動再生を開始する最初の画像ブロックとして選択する。そして、選択した画像ブロックから、当該画像ブロックと同じラインに属する右端の画像ブロックまで、左から順に選択すべき旨を決定する。例えば、図3の分割例において、第1ラインに属する画像ブロックが最初の画像ブロックとして選択された場合、当該画像ブロックから画像ブロック312まで左から順に選択してよい。
【0070】
なお、自動再生する場合、同ラインの右端の画像ブロックを最後の画像ブロックとしてもよいが、更に下方にラインが存在する場合は、直下のラインを順次に選択して、各ラインでは左から順に画像ブロックを選択すべき旨を決定してよい。例えば、図3の分割例において、画像ブロック382を最後の画像ブロックとして、直下のラインを順次に選択してよい。
【0071】
ステップS922において、ステップS922で決定した順番に従って、画像ブロックを1つ選択して、ステップS924に処理を進める。ステップS924、ステップS926、ステップS928およびステップS930では、ステップS922で選択した画像ブロックに対して処理する点を除き、それぞれステップS912、ステップS914、ステップS916およびステップS918の処理と同様の処理を行う。ステップS932において、次の画像ブロックが存在するか否かを判断する。ステップS922で選択した画像ブロックが最後の画像ブロックでない場合、ステップS922に処理を移行して、次の画像を選択する。ステップS922で最後の画像ブロックを選択した場合、次の画像ブロックは存在しないので、本処理フローを終了する。次の画像ブロックが存在しない場合、音声処理部244は、自動再生が終了した旨の予め定められた再生音の音信号を生成してもよい。これにより、ユーザは自動再生が終了した旨をすぐに理解することができる。
【0072】
以上に説明した撮像装置100によれば、画像情報を聴覚情報に変換することができるので、視覚障害を持つユーザが画像を耳で聴いて楽しむことができる。また、視覚障害を持たないユーザでも、画像を見なくとも画像を耳で聴いて楽しむことができる。
【0073】
本実施形態に係る撮像装置100は、音情報生成置の一例である。すなわち、システム制御部250が、画像内の画像領域の指定を受け付ける受付部として機能し、画像処理部237および音声処理部244が、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成部として機能する。具体的には、画像処理部237が、指定された画像領域から画像情報を抽出し、抽出した画像情報から、音声処理部244が、音階を構成する音、オクターブおよび人物の音声データ等の音情報を生成する。撮像装置100によれば、画像情報を音情報に変換することができる。
【0074】
以上の説明において、画像情報として、輝度値および彩度を例示した。しかし、画像情報として、輝度値および彩度の他、色相等、種々の特性値を例示することができる。本実施形態で説明した輝度値に替えて明度を特性値として用いてもよい。すなわち、画像処理部237および音声処理部244の機能ブロックにおいて、指定された画像領域の明るさ、色相および彩度のうちの少なくとも一つの特性値に基づいて、音情報を生成してよい。
【0075】
また、音情報として、音階を構成する音およびオクターブ等の音の特性値、ならびに、人物の音声データを例示した。音情報としては、それらの他にも、和音等の音の組み合わせ、音色などを例示することができる。音色を表すパラメータとしては、音のスペクトルを例示することができる。例えば、音色を表すパラメータとして、基音の周波数成分および上音の周波数成分を適用することができる。
【0076】
また、画像処理部237および音声処理部244の機能ブロックは、音階を構成する音およびオクターブを、それぞれ輝度の範囲および彩度の範囲に割り当てるとした。そして、指定された画像領域の輝度値を含む範囲に割り当てられている音を選択するとした。すなわち、画像処理部237および音声処理部244の機能ブロックは、音を定める1以上の音パラメータの複数の値を、複数の特性値の範囲にそれぞれ割り当てる割当部として機能する。そして、同機能ブロックは、指定された画像領域の特性値を含む範囲に割り当てられている音パラメータを、音情報として選択する。
【0077】
また、音階を構成する複数の音を、輝度値の複数の範囲にそれぞれ割り当てるとした。また、複数のオクターブを、彩度の複数の範囲にそれぞれ割り当てるとした。音階を構成する音およびオクターブに対応させる画像情報の特性値として、輝度値および彩度以外の任意の組み合わせを適用してよい。例えば、色相を音階に割り当てることができる。また、彩度を音階に割り当ててもよい。すなわち、画像処理部237および音声処理部244の機能ブロックは、音階を構成する複数の音を、第1の特性値の複数の範囲にそれぞれ割り当て、指定された画像領域の第1の特性値を含む範囲に割り当てられている音を、音情報として選択してよい。そして、画像処理部237および音声処理部244の機能ブロックは、複数のオクターブを、第2の特性値の複数の範囲にそれぞれ割り当て、指定された画像領域の第2の特性値を含む範囲に割り当てられているオクターブを、音情報として選択してよい。
【0078】
図4に関連して説明したように、画像処理部237および音声処理部244の機能ブロックは、画像から抽出された特性値の頻度分布の広がりがより大きい場合に、音パラメータの複数の値を、より狭い特性値の範囲にそれぞれ割り当てることができる。このため、全体として暗い画像であっても、輝度値の細かな違いを音程として再生音に反映することができる。
【0079】
処理対象の画像データがJPEG方式で圧縮された画像データである場合、画像データには、離散コサイン変換により算出された周波数成分がデータとして含まれる。画像データに周波数成分がデータとして含まれる場合、画像データに含まれる周波数成分を特性値として用いてよい。また、画像データに含まれる周波数成分から特性値を算出してもよい。例えば、指定位置を含む画像ブロックに含まれる1以上のマクロブロックの輝度信号のDC成分を用いて、輝度値の平均値を算出してよい。また、1以上のマクロブロックの輝度信号のAC成分を、空間周波数を表す特性値としてもよい。また、処理対象の画像データがコントラスト検出方式で焦点調節されて撮像された画像データである場合、コントラストの評価値を特性値として用いてもよい。コントラストの評価値は、画像データに付帯情報として付帯されて記録媒体209に記録されていてよい。
【0080】
また、画像ブロックから抽出したテクスチャの指標値を、特性値として用いてもよい。テクスチャを示す指標値として、テクスチャの乱雑さを示す指標値を例示することができる。例えば、隣接画素との輝度値の差分の総和を、テクスチャの指標値として算出する。当該総和が大きいほど、比較的に乱雑なテクスチャであるとみなすことができる。また、画像ブロックに対して2次元フーリエ変換して得た周波数成分の分布から、テクスチャを示す指標値を算出してもよい。例えば、周波数成分の分布の広がり幅を、テクスチャを示す指標値として算出してよい。当該広がり幅が大きいほど、低周波から高周波まで広い周波数範囲にわたる周波数成分が含まれていることを示す。したがって、当該広がり幅が大きいほど、比較的に乱雑なテクスチャであるとみなすことができる。テクスチャの指標値を画像の特性値として適用した場合、音声処理部244は、算出したテクスチャの指標値が予め定められた値以下であるときは、協和音の音情報を生成し、テクスチャの指標値が予め定められた値より大きいときは、不協和音の音情報を生成してよい。協和音としては、構成音の音程が完全協音程または不完全協和音程である和音を適用し、協和音以外の和音を不協和音として適用してよい。また、フーリエ変換によって得られた周波数成分を、可聴域の周波数領域にマッピングする等して、フーリエ変換によって得られた周波数情報を音信号の周波数情報に適用してもよい。
【0081】
また、音声処理部244は、音情報に対応する再生音の音信号を音情報から生成する出力部として機能する。音声処理部244が再生処理部245およびスピーカ部246と協働して動作する場合、音波としての音信号を出力することができる。他にも、音声処理部244は、音情報に対応するデジタルの音信号を出力してよい。デジタルの音信号としては、PCM信号等の非圧縮の音声フォーマットの他、ドルビーサラウンド等、種々の圧縮方式で圧縮された音声フォーマットの音信号を例示することができる。すなわち、出力部の機能として、音信号を音波として出力する機能だけでなく、記録媒体209等にデータとして記録する機能を含むことができる。また、出力部の機能として、音信号をオーディオコントローラ20等にデータとして送信する機能を含むことができる。
【0082】
なお、以上の説明において、輝度値から定まる音と、彩度から定まるオクターブとから、1つの再生音に対応する音信号を生成するとした。この場合、1つの画像領域から1つの音が生成される。しかし、1つの画像領域の画像情報から、2つの音を生成してもよい。例えば、輝度値に対応する再生音と、彩度に対応する再生音とが、異なるタイミングで出力される音信号を生成してもよい。すなわち、画像処理部237および音声処理部244において、指定された画像領域の第1の特性値に対応する第1音情報と、指定された画像領域の第2の特性値に対応する第2音情報とを生成した場合、音声処理部244は、第1音情報に対応する再生音と、第2音情報に対応する再生音とが、時分割で出力される音信号を生成してもよい。音声処理部244が再生処理部245およびスピーカ部246と協働して動作する場合、時分割で2つの再生音として再生することができる。
【0083】
また、以上の説明において、指定位置を含む画像ブロックの画像情報から、音情報を生成するとした。すなわち、システム制御部250が、画像内の位置の指定を受け付けた場合、画像処理部237および音声処理部244は、指定された位置を含む予め定められた大きさの画像領域から、音情報を生成するとした。また、タッチされた面積が大きいほど、より多い画像ブロックで構成される画像ブロックの画像情報から、音情報を生成するとした。しかし、画像ブロックの大きさを、タッチされた面積に応じて1画素以上の単位で調整してもよい。すなわち、システム制御部250および操作部材202は、ユーザによる入力面内に対する操作を検出することにより、画像内の位置の指定を受け付ける入力部として機能し、画像処理部237および音声処理部244は、入力面内に対する操作面積がより大きい場合に、より大きい画像領域から音情報を生成してよい。
【0084】
また、図9等に関連して説明したように、画像処理部237および音声処理部244は、入力面に対してスライド操作された旨が検出された場合に、操作位置に対応する画像領域内のエッジ量から音情報を生成し、入力面に対してポイント操作された旨が検出された場合に、操作位置に対応する画像領域内の画素値の大きさから音情報を生成する。このため、ユーザが操作方法を変えることで、音の生成方法を変えることができる。したがって、ユーザは、一つの画像から多様な方法で音を楽しむことができる。
【0085】
なお、ユーザの操作を、ユーザの指やスタイラス等による入力面の押下を検知することで検出してよいが、押下だけでなく入力面との接触を検知することでユーザの操作を検出してよい。検出方式によっては、ユーザの操作を検出するために、ユーザの指やスタイラス等と入力面とが接触することも要しない。例えば、静電容量方式、電磁誘導方式、光センサ方式等で検出するタッチパネルによると、ユーザの指やスタイラス等が入力面に近接することで、入力面に接触しなくても操作位置を検出できる場合がある。
【0086】
また、以上の説明において、画像処理部237が、人物の顔を検出するとした。しかし、画像処理部237は、人物の顔の他に、自動車、電車および飛行機等の乗物、楽器ならびに動物等、予め定められたオブジェクトを画像から検出してよい。そして、音声処理部244は、検出したオブジェクトに関連する音の信号を生成してもよい。例えば、オブジェクトが自動車や飛行機であればエンジン音の音信号を生成してよい。オブジェクトが電車であれば、モータ音またはレール上の走行音の音信号を生成してよい。オブジェクトが楽器であれば、その楽器が発生する音の音信号を生成してよい。予め定められたオブジェクトに関連する音の信号は、記録媒体209に予めデータとして記録されて、記録媒体209から読み出して使用されてよい。また、システムメモリ236に予めデータとして記録されており、撮像装置100の起動時に内部メモリ235に展開されて使用されてよい。すなわち、画像処理部237は、指定された画像領域に予め定められたオブジェクトの少なくとも一部が含まれるか否かを判断するオブジェクト判断部として機能する。内部メモリ235、記録媒体209等が、予め定められたオブジェクトに対応づけて、予め定められたオブジェクトに関連する音データを格納する音データ格納部として機能する。画像処理部237および音声処理部244は、指定された画像領域に予め定められたオブジェクトの少なくとも一部が含まれる旨が判断された場合には、予め定められたオブジェクトに対応づけて格納している音データを、音情報として生成してよい。
【0087】
また、以上の説明において、ステレオ信号としての音信号を生成する場合、音声処理部244は、指定された画像領域が画像内の予め定められた位置の左方に位置する場合に、生成した音情報に基づいて、左チャネルの音信号を生成し、指定された画像領域が画像内の予め定められた位置より右方に位置する場合に、生成した音情報に基づいて、右チャネルの音信号を生成するとした。また、5.1チャネルの音信号を生成する場合、例えば上方の画像領域が指定されるとフロントの音声チャネルの音信号を生成し、下方の画像領域が指定されるとリアの音声チャネルの音信号を生成するとした。音声処理部244が画像情報に基づき生成する音信号のチャネル数は、2または5に限られない。例えば、音声処理部244は、2チャネル以上の音信号を画像情報に基づき生成してよい。すなわち、音声処理部244は、生成した音情報に基づいて、複数の音声チャネルのうちの少なくとも一つの音声チャネルの音信号を生成する音信号生成部として機能する。特に、音声処理部244は、生成された音情報から、指定された画像領域の画像内の位置に対応する音声チャネルの音信号を生成してよい。
【0088】
以上の説明において、指定された画像領域の画像内の位置に応じて、音声チャネルを決定するとした。一方、タッチパネルの入力面内の離れた2つの位置が同時に操作された場合、画像処理部237および音声処理部244は、それぞれの位置の画像ブロックの画像情報から音情報を生成してよい。そして、音声処理部244は、左方の画像ブロックの画像情報から生成した音情報に基づき、Lチャネルの音声信号を生成し、右方の画像ブロックの画像情報から生成した音情報に基づき、Rチャネルの音声信号を生成してよい。すなわち、画像内の複数の位置が指定された場合に、音声処理部244は、複数の位置の画像情報から生成された複数の音情報に基づき、指定された複数の位置にそれぞれ対応する音声チャネルの音声信号をそれぞれ生成してよい。
【0089】
また、以上の説明において、操作部材202の一部および表示部201の一部がタッチパネルとして組み込まれるとした。そして、表示部201に画像を表示して、ユーザにタッチパネルの入力面を操作させるとした。しかし、表示部201に画像を表示せずに、タッチパネルの入力面を操作させてもよい。例えば、システム制御部250は、電力状態に基づいて、表示部201に画像を表示させるか否かを決定する。例えば、システム制御部250は、電源制御部247からバッテリ208の残電力を検出して、残電力が予め定められた値未満であり、AC電源からの電力供給がない場合に、表示部201に画像を表示させないとしてよい。
【0090】
また、本実施形態では、タッチパネルの入力面に対して操作されるとした。しかし、操作部材202は、タッチパッド等のように、画像を表示しない入力面を有して良い。例えば操作部材202は矩形の入力面を有する。矩形の入力面の中心が画像の中心に対応し、操作面の矩形の四隅が、画像の四隅に対応するとしてよい。また、上記の説明では、指定位置を含む画像ブロックから画像情報を生成するとしたが、複数の位置に対してポイント操作がされた場合、対応する複数の位置を含む1以上の画像ブロックから画像情報を生成してもよい。また、入力面に対する操作位置が予め定められた軌跡を描く場合、軌跡に基づいて1以上の画像ブロックを選択して、選択した画像ブロックの画像情報から音情報を生成してもよい。例えば、操作位置が円形や矩形等の閉じた軌跡を描く場合、軌跡内の1以上の画像ブロックの画像情報から音情報を生成してもよい。
【0091】
本実施形態において、撮像装置100を取り上げて音情報生成装置の一例を説明した。撮像装置100としては、レンズ交換式の一眼レフカメラ、コンパクトデジタルカメラ、ミラーレス一眼カメラ、ビデオカメラ、撮像機能付きの携帯電話機、撮像機能付きの携帯情報端末、撮像機能付きのゲーム機器等の娯楽装置等、撮像機能を有する機器を適用の対象とすることができる。また、音情報生成装置は、撮像機能を有さなくてよく、パーソナルコンピュータ、テレビ、デジタルフォトフレーム、カーナビゲーション装置、携帯電話機、携帯情報端末、ゲーム機器等の娯楽装置、視覚障害者用の音声装置等の機器として実現されてよい。撮像機能を有する機器に適用する場合、当該機器が撮像した撮像画像を、音情報を生成する処理対象の画像としてよい。処理対象の画像は、静止画や動画を含む撮像画像に限られない。例えば、カーナビゲーション装置においては、地図の画像を処理対象の画像とすることができる。
【0092】
本実施携帯の撮像装置100に関連して説明した処理は、撮像装置100の各部、例えばシステム制御部250等が、プログラムに従って内部メモリ235、システムメモリ236等のメモリと協働して動作することにより、実現することができる。すなわち、当該処理を、いわゆるコンピュータ装置によって実現することができる。コンピュータ装置は、上述した処理の実行を制御するプログラムをロードして、読み込んだプログラムに従って動作して、当該処理を実行してよい。コンピュータ装置は、当該プログラムを記憶しているコンピュータ読取可能な記録媒体を読み込むことによって、当該プログラムをロードすることができる。
【0093】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0094】
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
【符号の説明】
【0095】
20 オーディオコントローラ、22 スピーカ、100 撮像装置、201 表示部、202 操作部材、207 レリーズスイッチ、208 バッテリ、209 記録媒体、219 光軸、221 ズームレンズ、231 撮像素子、232 A/D変換器、233 メモリ制御部、234 タイミング発生部、235 内部メモリ、236 システムメモリ、237 画像処理部、238 表示制御部、239 D/A変換器、240 記録媒体IF、243 ズーム制御部、244 音声処理部、245 再生処理部、246 スピーカ部、247 電源制御部、248 加速度センサ、250 システム制御部、300、600、700 全画像領域、310、312、320、322、380、382、390 画像ブロック、610、710 部分領域、510、511、512、513、514、520、521、522、523、524 画素
【技術分野】
【0001】
本発明は、音情報生成装置およびプログラムに関する。
【背景技術】
【0002】
周囲の風景を音信号で表現する技術が知られている(例えば、特許文献1参照)。
[先行技術文献]
[特許文献]
[特許文献1]特開2004−20869号公報
【発明の概要】
【発明が解決しようとする課題】
【0003】
画像領域の指定に応じて、指定された画像領域の画像情報に適した音を提供することができないという課題があった。
【課題を解決するための手段】
【0004】
本発明の第1の態様においては、音情報生成装置は、画像内の画像領域の指定を受け付ける受付部と、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成部とを備える。
【0005】
本発明の第2の態様においては、プログラムは、画像内の画像領域の指定を受け付ける受付ステップと、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成ステップとをコンピュータに実行させる。
【0006】
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
【図面の簡単な説明】
【0007】
【図1】本実施形態に係る撮像装置100の利用場面の一例を示す。
【図2】撮像装置100のシステム構成を示す。
【図3】画像ブロックの分割例を示す。
【図4】輝度値に対する音の割り当て例を示す。
【図5】音の割り当て方法の他の一例を示す。
【図6】ステレオの音声チャネルへの割り当て例を示す。
【図7】サラウンドの音声チャネルへの割り当て例を示す。
【図8】撮像装置100における一連の処理フローを示す。
【図9】音を再生する操作がなされた場合の処理フローを示す。
【発明を実施するための形態】
【0008】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0009】
図1は、本実施形態に係る撮像装置100の利用場面の一例を示す。撮像装置100は、画像情報から再生音を生成する音再生モードを、動作モードの一部として持つ。音再生モードにおいて、撮像装置100は、例えばタッチパネルの一部として組み込まれた表示部201に画像を表示して、タッチパネルの入力面を操作するよう音声等によってユーザに促す。撮像装置100は、タッチパネルの入力面がユーザによって操作されたことを検出すると、操作された位置に対応する画像領域の画素値を解析して音データを生成する。撮像装置100は、生成した音データを内蔵のスピーカ部246から再生音として出力する。
【0010】
例えば、撮像装置100は、画像領域が明るいほど、より高い音階の音を使って、音データを生成する。撮像装置100によれば、ユーザにより指定された画像領域の画素値を音に変換して出力することができるので、例えば視覚障害を持つユーザでも、画像を音として楽しむことができる。また、ユーザは、表示部201を見なくとも、画像を音として楽しむことができる。
【0011】
なお、撮像装置100は、生成した音データを、外部のスピーカに出力して再生させてもよい。例えば、撮像装置100は、外部のオーディシステムに音データを送信して、再生させてもよい。例えば、撮像装置100は、外部のオーディシステムが有するオーディオコントローラ20に、音データを無線信号として送信してよい。撮像装置100は、オーディオコントローラ20と伝送ケーブル等の伝送媒体で接続され、音データを光信号または電気信号としてオーディオコントローラ20に送信してよい。オーディオコントローラ20は、受信した音データを、外部のオーディオシステムが有する複数のスピーカ22から再生音として出力する。撮像装置100およびオーディオシステムは、音再生システムとして機能する。
【0012】
撮像装置100は、複数のスピーカ22のうち画像領域の位置に対応するスピーカから、音データを再生音として出力させてよい。例えば撮像装置100は、中央の画像領域から生成した音データを、センタスピーカ22aから再生音として出力させてよい。また、中央の画像領域よりも左方の画像領域から生成した音データを、左フロントスピーカ22bから再生音として出力させ、右方の画像領域から生成した音データを、右フロントスピーカ22cから再生音として出力させてよい。撮像装置100は、画像領域の位置に応じた音声チャネルの音データとして生成して、オーディオコントローラ20に送信してよい。このように、撮像装置100によれば、画像領域の位置情報を、いわば音源位置に変換することができる。このため、ユーザは、画像内のどの位置に、どのような明るさの画像があるかを、比較的容易に理解することができる。
【0013】
図2は、撮像装置100のシステム構成を示す。撮像装置100は、主にズームレンズ221等が含まれる光学系を備える。被写体像は、光軸219に沿ってズームレンズ221に入射して撮像素子231の結像面に結像する。ズームレンズ221および撮像素子231の機能ブロックは、撮像部として機能する。
【0014】
撮像素子231は、ズームレンズ221を透過して入射する被写体像である光学像を光電変換して被写体を撮像する素子である。撮像素子231としては、例えば、CCD、CMOSセンサを用いることができる。撮像素子231で光電変換された被写体像は、A/D変換器232でアナログ信号からデジタル信号に変換される。撮像素子231の電荷読み出し制御およびA/D変換器232の変換制御は、メモリ制御部233の同期制御を受けたタイミング発生部234が供給するクロック信号により同期が計られる。
【0015】
デジタル信号に変換された被写体像は、画像データとして順次処理される。A/D変換器232によりデジタル信号に変換された画像データは、メモリ制御部233の制御に従い、一旦内部メモリ235に記憶される。内部メモリ235は、高速で読み書きのできるランダムアクセスメモリであり、例えばDRAM、SRAMなどが用いられる。内部メモリ235は、連写撮像、動画撮像において高速に連続して画像データが生成される場合に、画像処理の順番を待つバッファメモリとしての役割を担う。
【0016】
また、内部メモリ235は、画像処理部237が行う画像処理、圧縮処理において、ワークメモリとしての役割も担う。特に本実施形態においては、内部メモリ235は、音を生成するための画像解析処理においても、ワークメモリとしての役割も担う。したがって、内部メモリ235は、これらの役割を担うに相当する十分なメモリ容量を備える。
【0017】
システムメモリ236は、電気的に消去・記録可能な不揮発性メモリであり、例えばEEPROM(登録商標)等により構成される。システムメモリ236は、撮像装置100の動作時に必要な定数、変数、プログラム等を、撮像装置100の非動作時にも失われないように記録している。システム制御部250は、撮像装置100の全体を直接的または間接的に制御する。システム制御部250は、定数、変数、プログラム等を適宜に内部メモリ235に展開して、撮像装置100の制御に利用する。システム制御部250は、MPUにより実装されてよい。システムメモリ236は、画像情報を音に変換するための情報を記録している。例えば、システムメモリ236は、輝度等の特性値を音階の音に割り当てるためのテーブルを記録している。
【0018】
画像処理部237は、設定されている撮像モード、ユーザからの指示に則して、画像データを所定の画像フォーマットに変換する。例えば、静止画像データとしてJPEGファイルを生成する場合、色変換処理、ガンマ処理、ホワイトバランス処理等の画像処理を行った後に適応離散コサイン変換等を施して圧縮処理をする。
【0019】
また、動画像データとしてMPEGファイルを生成する場合、所定の画素数に縮小されて生成された連続する静止画データとしてのフレーム画像データに対して、フレーム内符号化、フレーム間符号化を施して圧縮処理をする。画像処理部237によって処理された静止画像データ、動画像データ等の画像データは、内部メモリ235から記録媒体IF240を介して、記録媒体209に記録される。
【0020】
画像処理部237は、記録媒体209等に記録された画像データ、または、撮影により内部メモリ235に記憶された画像データから、表示用の画像データを生成する。撮影により内部メモリ235に記憶された画像データから表示用の画像データを生成する場合、画像処理部237は、記録用に処理される画像データに並行して、表示用の画像データを生成してよい。生成された表示用の画像データは、表示制御部238の制御に従って、D/A変換器239でアナログ信号に変換され、表示部201に表示される。画像の記録の有無にかかわらず、表示用の画像データを逐次生成して表示部201に表示すれば、ライブビュー機能を実現することができる。また、システム制御部250は、画像の表示と共に、もしくは画像を表示することなく、撮像装置100の各種設定に関する様々なメニュー項目も、表示部201に表示することができる。
【0021】
本実施形態において、画像処理部237は、音を生成するための画像解析処理を行う。音声処理部244は、画像処理部237による画像の解析結果を取得して、解析結果に基づきデジタルの音信号を生成する。再生処理部245は、デジタルの音信号に基づき、スピーカ部246を駆動して、スピーカ部246から再生音として出力させる。
【0022】
撮像装置100は、ユーザからの操作を受け付ける操作部材202を複数備えているが、システム制御部250は、これら操作部材202が操作されたことを検知して、操作に応じた動作を実行する。本実施形態において、操作部材202は、音を生成する対象となる画像ブロックの指定をユーザから受け付ける。例えば、操作部材202の一部および表示部201の一部は、タッチパネルとして組み込まれる。タッチパネルの入力面がユーザの指やスタイラス等の指示部材で操作された場合、操作位置を示す情報がシステム制御部250に供給される。システム制御部250は、操作位置に基づいて、操作位置に対応する画像ブロックの指定を受け付ける。タッチパネルとしては、抵抗膜方式、静電容量方式、電磁誘導方式、光センサ方式等の種々のタッチパネルを例示することができる。光センサ方式のタッチパネルとしては、表示部201の一部としての表示画素が形成された基板上に光センサを形成したタッチパネルを例示することができる。本実施形態では、投影型静電容量方式のタッチパネルを適用する。
【0023】
加速度センサ248は、撮像装置100の加速度を検出して、加速度に応じた加速度情報を出力する。システム制御部250は、加速度センサ248からの加速度情報を取得する。システム制御部250は、加速度情報に応じたユーザ操作を受け付けてよい。例えば、システム制御部250は、ユーザ操作に対応して予め定められた条件を満たす加速度情報を取得した場合に、当該ユーザ操作を受け付ける。予め定められた条件としては、加速度の向きおよび大きさの少なくとも一方に関する条件を例示することができる。
【0024】
システム制御部250は、撮像装置100の動作モードが撮像モードに設定されている場合、レリーズスイッチ207の押下げを検知すると、撮像素子231による被写体像の取得動作を実行する。一方、撮像装置100の動作モードが音再生モードに設定されている場合、押下げ検知により音再生モードを解除して、撮像装置100の動作モードを撮像モードに切り換える。撮像装置100は、撮像して得た画像データを表示部201に表示すると、動作モードを音再生モードに切り替えてよい。
【0025】
ズームレンズ221は、システム制御部250の統括制御のもと、ズーム制御部243によって制御される。ズーム制御部243は、ユーザの指示に応じてズームレンズ221を駆動して、被写体像の画角を変更する。システム制御部250は、ズーム制御部243によって検出されるズームレンズ221の位置を取得して撮像装置100の画角情報を取得する。
【0026】
電源制御部247は、バッテリ208と通信して残電力を検出し、バッテリ208からの電力供給を監視する。また、バッテリ208の充電に応じて、接続されるAC電源からの電力供給を制御する。記録媒体209は、バッテリ208またはAC電源からの電力供給がない場合でも、記録されたデータを保持することができる。
【0027】
図3は、画像ブロックの分割例を示す。本図は、全画像領域300を長手方向に12分割し、短手方向に8分割した例を示す。画像処理部237は、システム制御部250を介して、タッチパネルの入力面内におけるタッチされた位置および面積を取得する。静電容量方式のタッチパネルを適用する場合、タッチされた面積は、検出された容量の大きさに基づき算出することができる。
【0028】
まず、タッチされた面積が予め定められた値より小さい場合について説明する。画像処理部237は、タッチされた位置に対応する画像上の位置を指定位置として算出する。画像処理部237は、複数の画像ブロックの中から、指定位置を含む画像ブロックを少なくとも一つ選択して画像を解析する。音声処理部244は、画像の解析結果に基づき、デジタルの音信号を生成する。
【0029】
例えば、画像処理部237は、指定位置が画像ブロック310に含まれる場合、画像ブロック310の全画素値から、輝度値の平均値を算出する。画像処理部237は、画像ブロック310内の各画素に対して、指定位置からの距離に応じて重みづけ加算することにより、輝度値の平均値を算出してよい。画像処理部237は、指定位置に近いほど、より大きい重みづけ係数を適用して重みづけ加算してよい。
【0030】
音声処理部244は、輝度値の平均値に基づいて、音階を構成する複数の音のうちの対応する音を示す情報を生成する。例えば、輝度値の複数の範囲に、音階を構成する複数の音が一つずつ割り当てられており、音声処理部244は、輝度値の平均値を含む範囲に割り当てられた音を選択する。輝度値の各範囲に対する各音の割り当てについては、図4に関連して説明する。音声処理部244は、選択した音に対応するデジタルの音信号を生成する。例えば、音声処理部244は、PCMオーディオ信号を生成する。生成した音信号は、再生処理部245での処理を介して、スピーカ部246から再生音として出力される。
【0031】
次に、タッチされた面積が予め定められた値以上である場合について説明する。ユーザがタッチパネルの入力面を指の腹部分でタッチした場合、ユーザの指の先端部でタッチした場合と比較して、入力面と指との接触面が大きくなる場合がある。タッチされた面積が予め定められた値より大きい場合、画像処理部237は、解析対象の画像ブロックをより大きく設定する。具体的には、画像処理部237は、タッチされた面積が大きいほど、より多くの画像ブロックを選択する。例えば、指定位置が画像ブロック310に含まれる場合、画像処理部237は、画像ブロック310と、画像ブロック320等の隣接する画像ブロックとを含む複数の画像ブロックの全体を、解析対象の画像ブロックとして設定する。画像処理部237は、設定した画像ブロックから、音を示す情報を生成する。具体的には、画像処理部237は、設定した複数の画像ブロックから輝度値の平均値を算出して、上述したように音階を構成する複数の音の中から対応する音を選択する。
【0032】
ユーザが次に異なる画像ブロックに対応する位置をタッチした場合も同様に、当該画像ブロックの輝度値の平均値から音を生成する。したがって、ユーザがタッチパネルの入力面内の異なる位置を次々に触れていくと、その位置の輝度値に応じた音が再生される。このため、ユーザは、撮像装置100を用いて、画像内容に応じた音を楽しむことができる。なお、音声処理部244は、異なる音が選択されるまで、直前に選択された音と同じ音の音信号を生成し続けてよい。また、音声処理部244は、異なる音が選択されなくとも、予め定められた時間長さだけ継続する音信号を生成してよい。
【0033】
ところで、本例の画像ブロック390内には、人物の顔の像が含まれる。画像ブロック390内のいずれかの画像ブロックに指定位置が含まれる場合、画像処理部237は、上述した音の選択に替えて、人物に関連する音信号を生成すべき旨を決定する。
【0034】
具体的には、画像処理部237は、指定位置を含む画像ブロックを解析して、人物の顔の少なくとも一部を含むか否かを判断する。画像処理部237は、指定位置を含む画像ブロックに隣接する周囲の画像ブロックの全体を解析して、人物の顔の検出を試みることにより、指定位置を含む画像ブロックが人物の顔の少なくとも一部を含むか否かを判断してよい。画像処理部237は、解析対象の画像ブロックからパターンマッチング、特徴量検出等の手法を用いて人物の顔を検出することにより、指定位置を含む画像ブロックが人物の顔の少なくとも一部を含むか否かを判断してよい。
【0035】
画像処理部237は、指定位置を含む画像ブロックに人物の顔の少なくとも一部が含まれる場合、人物に関連する音声を生成すべき旨の情報を音声処理部244に供給する。音声処理部244は、人物に関連する音声として記録されている音データを、再生処理部245に供給する。当該音データは、記録媒体209等に記録されていてよい。また、記録媒体209には、複数の人物をそれぞれ識別する識別情報に対応付けて、個々の人物の声の音データが記録されていてよい。画像処理部237は、人物の顔画像に対して顔認識処理を適用して個々の人物を認識して、認識した人物を識別する識別情報を、音声処理部244に供給してよい。音声処理部244は、供給された識別情報に対応づけて記録されているデータを、再生処理部245に供給してよい。これにより、人物の顔が写っている画像ブロックが指定したときには人物の声が再生され、人物の顔が写っていない画像ブロックを指定したときには輝度値に応じた音階の音が再生される。したがって、ユーザは、画像のどのあたりに人物の顔が写り込んでいるかを比較的に容易に判断することができる。また、ユーザは、画像内の人物の顔の位置をタッチすることで、その人物の音声を楽しむことができる。
【0036】
なお、指定位置は、撮像装置100自身が定めてもよい。例えば、システム制御部250は、予め定められた順番で処理すべき画像ブロックを選択して、選択した画像ブロックの輝度値の平均値を画像処理部237に算出させて、輝度値に平均値に基づき音声処理部244に音を選択させてよい。一例として、システム制御部250は、左上の画像ブロックから右下の画像ブロックまで、画像ブロックを順に選択する。例えば、本図の画像ブロック310から画像ブロック312までの複数の画像ブロックの中から、処理すべき画像ブロックを左から順に選択してよい。画像ブロック310から画像ブロック312までの画像ブロックが属する第1ラインの次に、第1ラインの直下の第2ラインを選択して、第2ラインに属する画像ブロック320から画像ブロック322までの複数の画像ブロックの中から、処理すべき画像ブロックを左から順に選択する。そして、画像ブロック380から画像ブロック382が属する最終ラインまで、ラインを上から順に選択していく。音声処理部244は、各ラインの再生が完了する毎に、1ラインの再生が完了した旨を示す予め定められた音を再生させてもよい。音声処理部244は、音の再生間隔または音の再生時間の長さを変化させて、リズムのある再生音を再生させてもよい。このように、画像ブロックを左から右へ、上から下へスキャンしていき、輝度値の平均値に基づく音を自動再生することで、ユーザはタッチすることなく画像の全体を音で一気に楽しむことができる。
【0037】
また、撮像装置100は、第1ラインの複数の画像ブロックからそれぞれ決定された音を、同時に再生してもよい。続いて、第2ラインから最終ラインまで上から順にラインを選択していき、選択したラインの複数の画像ブロックからそれぞれ決定された音を同時に再生してもよい。本図の分割例では、画像全体が8回の再生音に変換される。
【0038】
ここでは長手方向のラインを上から下へと順に選択するとしたが、短手方向のラインを左から右へと順に選択してもよい。また、長手方向、短手方向のラインの他、斜め方向のラインを順に選択してもよい。斜め方向のラインを例えば角の画像ブロックから順に選択する場合、最初のラインには1つの画像ブロックが含まれ、次のラインは2つの画像ブロックが含まれることとなる。すなわち、1ラインの画像ブロックの数は、隣接するライン間で異なる。また、画像ブロックをランダムに選択してもよい。以上の説明では、画像ブロックを順に選択するとしたが、画素を順に選択してもよい。この場合、画像処理部237は、選択された画素の輝度値を算出し、音声処理部244は、輝度値に基づき音を選択すればよい。
【0039】
図4は、輝度値に対する音の割り当て例を示す。ここでは輝度値の頻度分布に応じて音を割り当てるとする。具体的には、画像処理部237は、画像データから画像全体での輝度値の頻度分布を算出して、算出した頻度分布の全体の範囲を、7つの輝度値の範囲に分割する。例えば、音声処理部244は、分割した複数の範囲に、音階のうちのドからシの音を一つずつ割り当てる。すなわち、画像処理部237は、対象となる画像データが選択されると、当該画像データが持つ輝度値の分布範囲内で、輝度値の範囲を7個設定する。そして、指定位置が定まると、画像処理部237は、指定位置を含む画像ブロックの輝度値の平均値を含む範囲を、設定した7個の範囲の中から選択して、選択した範囲を識別する識別情報を音声処理部244に供給する。音声処理部244は、当該識別情報に基づいて、各範囲に割り当てた音を選択する。
【0040】
なお、画像処理部237は、頻度が高いところほど、輝度値の範囲を狭く設定してよい。本図に例示するように、頻度分布においてピークに近い領域では輝度値の範囲Lを狭く設定し、頻度分布の裾野の領域では輝度値の範囲を広く設定してよい。これにより、頻度分布においてピークに近い領域では細やかに音を割り当てることができる。以上に説明したように、画像データが持つ輝度の分布の範囲内で、音に対応する7個の範囲を設定する。特に、頻度がより高い領域に、より狭い範囲を設定する。このため、例えば全体に暗い画像に対して、低輝度の領域に多くの音を割り当てることができる。したがって、低輝度領域における輝度値のわずかな違いを、音程で表現することができる。
【0041】
本図の例では、輝度値の複数の範囲に音階を構成する複数の音を割り当てる場合の例を説明した。同様に、彩度の複数の範囲に、複数のオクターブを1つずつ割り当ててもよい。この場合、画像ブロックの輝度値の平均値および彩度から、再生音の周波数を定めることができる。
【0042】
図5は、音の割り当て方法の他の一例を示す。図3、図4において、指定位置を含む画像ブロックの輝度値の平均値に基づき、音を選択するとした。ここでは、指定位置の画像のエッジ量に基づいて、音を選択する方法の一例を説明する。
【0043】
指定位置が画素510の位置に対応する場合、画像処理部237は、画素510の輝度値と、周囲の画素511、512、513、514のそれぞれの輝度値とを用いて、輝度値に関するエッジ量を算出する。例えば、画素510の輝度値から、画素511〜514の輝度値の平均値を減じた値を、エッジ量として算出してよい。音声処理部244は、算出されたエッジ量に対応する音を選択する。エッジ量に対する音の割り当ては、図4に例示した方法と同様の方法を適用することができる。すなわち、エッジ量の頻度分布に応じて音を割り当てることができる。絶対値がより大きいエッジ量の範囲に、より高い音階の音を割り当ててよい。
【0044】
本図の画素511は、人物の顔と背景との境界に位置する。指定位置が画素510の位置に対応する場合、顔の中の画素と背景の画素とによりエッジ量が算出されるので、絶対値が比較的に大きいエッジ量が算出される。一方、指定位置が本図の画素520の位置に対応する場合、画像処理部237は、画素520の輝度値と、周囲の画素521、522、523、524のそれぞれの輝度値とを用いて、輝度値に関するエッジ量を算出する。指定位置が画素520の位置に対応する場合、全て背景の画素に基づきエッジ量が算出される。このため、比較的に絶対値が小さいエッジ量が算出される。
【0045】
したがって、ユーザが顔等の輪郭位置を指定した場合は、比較的に大きいエッジ量に対応する音が再生される可能性が高く、指定位置が輪郭位置からずれると、比較的に小さいエッジ量に対応する音が再生される可能性が高い。システム制御部250は、タッチパネルの入力面がスライド操作された場合に、エッジ量に基づき画像解析するよう画像処理部237に指示し、タッチパネルの入力面がポイント操作された場合に、輝度値に基づき画像解析するよう画像処理部237に指示する。したがって、ユーザがタッチパネルの入力面をなぞるようにスライド操作した場合、顔の輪郭位置付近が触れられている間は、比較的に大きいエッジ量に対応する音が再生され、顔の輪郭位置からずれると、比較的に小さいエッジ量に対応する音が再生される。したがって、ユーザは輪郭位置からずれたことを音の違いで判断することができる。
【0046】
本図の例において、エッジ量に応じて音を選択するとした。特に、対象画素の画素値から周辺画素の画素値を減算することによって、画素値の微分値に対応するエッジ量を算出するとした。しかし、エッジ量の算出方法は上記に限られない。また、エッジ量に応じて音を選択することに替えて、指定位置を含む画像ブロックの空間周波数の大きさに応じて音を選択してもよい。
【0047】
図6は、ステレオの音声チャネルへの割り当て例を示す。ステレオの音声チャネルの一例として、LチャネルおよびRチャネルの音声チャネルを例示する。本例では、全画像領域600を、部分領域610a〜eの5個の部分領域に分割する。
【0048】
部分領域610aに指定位置が含まれる場合、音声処理部244は、Lチャネルの音信号を生成する。一方、部分領域610eに指定位置が含まれる場合、音声処理部244は、Rチャネルの音信号を生成する。したがって、再生音が左だけから聞こえる場合、ユーザは、左端に位置する画像ブロックを指定したことを容易に理解することができる。また、再生音が右だけから聞こえる場合、ユーザは、右端に位置する画像ブロックを指定したことを容易に理解することができる。
【0049】
部分領域610b、610c、610dのいずれかに指定位置が含まれる場合、部分領域に応じて各チャネルに異なる重みづけをして音信号を生成する。例えば、音声処理部244は、部分領域610bに指定位置が含まれる場合、音量の重みづけとして、Lチャネルに0.75、Rチャネルに0.25を与えて音信号を生成する。また、音声処理部244は、部分領域610dに指定位置が含まれる場合、音量の重みづけとして、Lチャネルに0.25、Rチャネルに0.75を与えて音信号を生成する。
【0050】
したがって、部分領域610bに指定位置が含まれる場合、全音声出力のうちの3/4がLチャネルから出力され、音声出力のうちの1/4がRチャネルから出力される。一方、部分領域610dに指定位置が含まれる場合、全音声出力のうちの3/4がRチャネルから出力され、全音声出力のうちの1/4がLチャネルから出力される。したがって、再生音が右よりも左の方から聞こえる場合、ユーザは、やや左寄りに位置する画像ブロックを指定したことを容易に理解することができる。また、再生音が左よりも右の方から聞こえる場合、ユーザは、やや右寄りに位置する画像ブロックを指定したことを容易に理解することができる。
【0051】
また、音声処理部244は、部分領域610cに指定位置が含まれる場合、音量の重みづけとしてLチャネルおよびRチャネルにそれぞれ0.5を与えて音信号を生成する。したがって、再生音が中央から聞こえるように感じられる場合、ユーザは、中央に位置する画像ブロックを指定したことを容易に理解することができる。
【0052】
内部処理としては、システム制御部250は、指定位置を示す情報を音声処理部244に供給する。音声処理部244は、指定位置を含む部分領域に応じて各音声チャネルへの音量の重みづけを決定して、決定した重み付けで各音声チャネルに音量を配分する。撮像装置100によれば、画像内の指定した位置の輝度情報を音に変換するとともに、画像内の指定した位置を音源位置に変換した音信号を生成することができる。このため、ユーザは、画像内どの位置にどれくらいの輝度の被写体像があるかを比較的に容易にイメージすることができる。なお、本図の例では、画像の長手方向に5つの部分領域に分割したが、長手方向に2つの部分領域に分割してもよい。長手方向に2つの部分領域に分割する場合、画像の長手方向の中央位置の左右に部分領域を設定してよい。
【0053】
図7は、サラウンドステレオの音声チャネルへの割り当て例を示す。サラウンドステレオの音声チャネルとは、5.1チャネルの音声チャネルとする。本例では、全画像領域700を、部分領域710a〜eの5個の部分領域に分割する。そして、指向性が他よりも小さいサブウーファーの音声チャネルを除く5つのチャネルに、音を割り当てる。
【0054】
部分領域710aに指定位置が含まれる場合、音声処理部244は、フロントLチャネルの音信号を生成する。例えば、フロントLチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。一方、部分領域710cに指定位置が含まれる場合、音声処理部244は、フロントRチャネルの音信号を生成する。例えば、フロントRチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。また、部分領域710bに指定位置が含まれる場合、音声処理部244は、フロントセンタチャネルの音信号を生成する。例えば、フロントセンタチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。
【0055】
また、部分領域710dに指定位置が含まれる場合、音声処理部244は、リアLチャネルの音信号を生成する。例えば、リアLチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。一方、部分領域710eに指定位置が含まれる場合、音声処理部244は、リアRチャネルの音信号を生成する。例えば、リアRチャネルに対する音量の重みづけを1とし、他のチャネルに対する音量の重みづけを0とする。
【0056】
したがって、左フロントスピーカ22bだけから再生音が聞こえる場合、ユーザは、左端かつ比較的に上方に位置する画像ブロックを指定したことを容易に理解することができる。また、右フロントスピーカ22cだけから再生音が聞こえる場合、ユーザは、右端かつ比較的に上方に位置する画像ブロックを指定したということを容易に理解することができる。また、センタスピーカ22aだけから再生音が聞こえる場合、ユーザは、中央かつ比較的に上方に位置する画像ブロックを指定したということを容易に理解することができる。また、左リアスピーカ22dだけから再生音が聞こえる場合、ユーザは、左方かつ比較的に下方に位置する画像ブロックを指定したということを容易に理解することができる。また、右フロントスピーカ22eだけから再生音が聞こえる場合、ユーザは、右方かつ比較的に下方に位置する画像ブロックを指定したということを容易に理解することができる。
【0057】
本図の例では、重みづけを0か1のいずれかに設定するとした。しかし、図6に例示したように、左右または上下の少なくとも一方に部分領域をさらに分割して、位置に応じて、各音声チャネルに0より大きく1より小さい重みづけを与えてもよい。また、例えばパノラマ撮影等で得られた画像データのように、複数枚の被写体画像をつなぎ合わせて生成された画像データに対しては、撮影時における撮影者と被写体の位置関係を考慮して、各音声チャンネルを割り当ててもよい。例えば、横長に連なる被写体画像に対して、中央の部分領域をセンタスピーカ22aに割り当ててよい。左中の部分領域を左フロントスピーカ22bに、左端の部分領域を左リアスピーカ22dに割り当ててよい。右中の部分領域を右フロントスピーカ22cに、右端の部分領域を右リアスピーカ22eに割り当ててよい。
【0058】
図8は、撮像装置100における一連の処理フローを示す。本フローは、画像情報から音を再生する旨の指示をシステム制御部250が受け付けた場合に、開始される。例えば、タッチパネルの入力面に対して、音を再生する指示として予め定められた操作がなされた場合に、本処理フローが開始される。以下の処理フローは、システム制御部250、画像処理部237、音声処理部244が主体として動作する。ステップS800において、処理対象の画像データを読み出す。例えば、画像処理部237は、記録媒体209から処理対象の画像データを読み出す。
【0059】
ステップS810において、画像データに基づき、色空間に音要素を割り当てる。色空間を表すパラメータとしては、輝度値および彩度を例示することができる。音要素を表すパラメータとしては、上述した音階中の音およびオクターブを例示することができる。すなわち、図4に関連して説明したように、輝度値の範囲に音階中の音を割り当てるとともに、彩度の範囲にオクターブを割り当てることにより、色空間に音要素を割り当てる。
【0060】
ステップS820において、画像処理部237は、画像中に複数のブロックを設定する。具体的には、図3に関連して説明した画像ブロックと、図6または7に関連して説明した部分領域とを設定する。ブロックの大きさは、画像データが表示される表示部201の表示領域に対応して設定される。撮像装置100のスピーカ部246から再生する場合、図6に関連して説明したように左右に2以上に分割した部分領域を設定する。外部スピーカ22から再生する場合、図7に関連して説明したように左右方向に3以上の部分領域に分割し、上下方向に2以上の部分領域に分割した部分領域を設定する。このように、再生する音声チャネルの数に応じて、複数の部分領域を設定する。
【0061】
ステップS830において、読み出した画像データに基づく表示画像を表示部201に表示して、ステップS840において代表音を再生する。例えば、全画像ブロックの輝度値の平均値に基づく音と、全画像ブロックの彩度の平均値に基づくオクターブとにより定められる代表音を生成してよい。代表音は、図3に関連して説明した第1ラインに属する複数の画像ブロックに基づく音であってもよい。例えば、第1ラインに属する複数の画像ブロックのそれぞれから定まる音を順に再生したものを代表音としてもよい。また、第1ラインに属する複数の画像ブロックのそれぞれから定まる音を同時に再生したものを代表音としてもよい。
【0062】
ステップS850において、次の画像データに進むか否かを判断する。例えば、タッチパネルの入力面に対して、次の画像データを処理対象とするべき旨の操作として予め定められた操作がなされた場合に、次の画像データに進むと判断する。例えば、加速度センサ248からの加速度情報等に基づき、撮像装置100を大きく動かす操作等の予め定められた操作が検出された場合に、次の画像データに進むと判断する。予め定められた操作としては、撮像装置100を傾ける操作、撮像装置100を振る操作等を例示することができる。次の画像データを処理対象とするべき旨の操作として、操作部材202の一部としての切り替えキーやスライドスイッチ等に対するキー操作を例示することができる。次の画像データに進むと判断された場合、ステップS800に処理を移行する。
【0063】
次の画像に進むと判断されなかった場合、ステップS860において、操作の種別を判断する。例えば、操作の種別として、画像から音を再生する旨を指示する操作、および、音再生の動作を終了する旨を指示する操作が予め定められている。画像から音を再生する操作としては、タッチパネルの入力面内の画像が表示された領域に対する、ポイント操作、スライド操作、長押し操作、ダブルタップ操作等の操作を例示することができる。動作を終了する旨を指示する操作としては、タッチパネル以外の操作部材202に対する操作を例示することができる。画像から音を再生する操作がなされた場合、ステップS870において、音を再生する処理を実行する。ステップS870の処理については、図9に関連して説明する。音再生の動作を終了する旨の操作がなされた場合、本動作フローを終了する。
【0064】
図9は、音を再生する操作がなされた場合の処理フローを示す。すなわち、ステップS870の詳細な処理フローを示す。本図では、分かり易く説明するために、特に画像ブロック内の色または輝度値の微分値に応じて音を決定する処理を説明する。本フローが開始すると、ステップS900において、タッチ操作の種類を判断する。タッチ操作の種類として、位置を局所的に指定する操作、位置をライン状に指定する操作、および、音を自動再生させるための操作が予め定められているとする。
【0065】
ここでは、一例として、位置を局所的に指定する操作としてポイント操作が定められているとする。ポイント操作とは、一例として、入力面にタッチされた状態が予め定められた値より長く継続し、タッチ位置の時間あたりの変化量が予め定められた値よりも小さい操作とする。また、位置をライン状に指定する操作としてスライド操作が定められているとする。スライド操作とは、一例として、タッチ位置の時間あたりの変化量が予め定められた値以上の操作とする。また、音を自動再生させるための操作として、タッチされた状態が予め定められた値より短い時間だけ継続する操作であるとする。例えば、音を自動再生させるための操作として、タップ操作を例示することができる。これらの操作は、異なる種類のタッチ操作としての一例の操作であり、これらの操作に限られず、任意の区別可能な操作を適用してよい。
【0066】
ステップS900において、ポイント操作であると判断された場合、画像処理部237は、ステップS910において、タッチ位置に対応する画像ブロックを選択する。すなわち、指定位置を含む画像ブロックを選択する。ステップS912において、画像処理部237は、画像ブロック内の平均色を算出する。具体的には、輝度値の平均値と、彩度の平均値とを算出する。そして、ステップS914において、音声処理部244は、平均色に対応する音要素を選択する。具体的には、輝度値の平均値に対応する音を、音階を構成する複数の音の中から選択するとともに、彩度の平均値に対応するオクターブを選択する。輝度値に対応する音と、彩度に対応するオクターブは、図8のステップS810に関連して説明したように、画像全体から算出された輝度値の頻度分布、および、彩度の頻度分布に基づき予め割り当てられている。
【0067】
ステップS916において、再生する音声チャネルを選択する。具体的には、図8のステップS820において設定された部分領域のうち、指定位置を含む部分領域に対応する音声チャネルを選択する。ステップS918において、音声処理部244は、ステップS914で選択した音およびオクターブに基づく音信号を、ステップS916において選択した音声チャネルの音信号として生成して、再生音を再生させる。スピーカ部246で再生する場合、再生処理部245は、音声処理部244で生成された音信号に基づき、スピーカ部246を駆動して再生音を出力させる。再生処理が完了すると本フローを終了する。
【0068】
ステップS900において、スライド操作であると判断された場合、画像処理部237は、ステップS940において、スライド経路内の各タッチ位置での輝度値の微分値を算出し、ステップS942において微分値に対応する音要素を選択する。具体的には、画像処理部237は、スライド経路内に対応する各画素について、上述した輝度値のエッジ量を算出して、音声処理部244がエッジ量に対応する音を選択する。本ステップでは、予め定められたオクターブを選択してよい。しかし、ステップS914に関連して説明したように、現在の指定位置を含む画像ブロックの彩度の平均値に対応するオクターブを選択してもよい。そして、ステップS916に処理を進め、続くステップS918において再生音が出力される。
【0069】
ステップS900において、自動再生の操作であると判断された場合、システム制御部250は、再生するブロックの順番を決定する。具体的には、システム制御部250は、例えばタップ操作された位置を画像処理部237に供給する。画像処理部237は、タップ操作された位置を含む画像ブロックを、自動再生を開始する最初の画像ブロックとして選択する。そして、選択した画像ブロックから、当該画像ブロックと同じラインに属する右端の画像ブロックまで、左から順に選択すべき旨を決定する。例えば、図3の分割例において、第1ラインに属する画像ブロックが最初の画像ブロックとして選択された場合、当該画像ブロックから画像ブロック312まで左から順に選択してよい。
【0070】
なお、自動再生する場合、同ラインの右端の画像ブロックを最後の画像ブロックとしてもよいが、更に下方にラインが存在する場合は、直下のラインを順次に選択して、各ラインでは左から順に画像ブロックを選択すべき旨を決定してよい。例えば、図3の分割例において、画像ブロック382を最後の画像ブロックとして、直下のラインを順次に選択してよい。
【0071】
ステップS922において、ステップS922で決定した順番に従って、画像ブロックを1つ選択して、ステップS924に処理を進める。ステップS924、ステップS926、ステップS928およびステップS930では、ステップS922で選択した画像ブロックに対して処理する点を除き、それぞれステップS912、ステップS914、ステップS916およびステップS918の処理と同様の処理を行う。ステップS932において、次の画像ブロックが存在するか否かを判断する。ステップS922で選択した画像ブロックが最後の画像ブロックでない場合、ステップS922に処理を移行して、次の画像を選択する。ステップS922で最後の画像ブロックを選択した場合、次の画像ブロックは存在しないので、本処理フローを終了する。次の画像ブロックが存在しない場合、音声処理部244は、自動再生が終了した旨の予め定められた再生音の音信号を生成してもよい。これにより、ユーザは自動再生が終了した旨をすぐに理解することができる。
【0072】
以上に説明した撮像装置100によれば、画像情報を聴覚情報に変換することができるので、視覚障害を持つユーザが画像を耳で聴いて楽しむことができる。また、視覚障害を持たないユーザでも、画像を見なくとも画像を耳で聴いて楽しむことができる。
【0073】
本実施形態に係る撮像装置100は、音情報生成置の一例である。すなわち、システム制御部250が、画像内の画像領域の指定を受け付ける受付部として機能し、画像処理部237および音声処理部244が、指定された画像領域の画像情報から、画像情報に対応する音情報を生成する音情報生成部として機能する。具体的には、画像処理部237が、指定された画像領域から画像情報を抽出し、抽出した画像情報から、音声処理部244が、音階を構成する音、オクターブおよび人物の音声データ等の音情報を生成する。撮像装置100によれば、画像情報を音情報に変換することができる。
【0074】
以上の説明において、画像情報として、輝度値および彩度を例示した。しかし、画像情報として、輝度値および彩度の他、色相等、種々の特性値を例示することができる。本実施形態で説明した輝度値に替えて明度を特性値として用いてもよい。すなわち、画像処理部237および音声処理部244の機能ブロックにおいて、指定された画像領域の明るさ、色相および彩度のうちの少なくとも一つの特性値に基づいて、音情報を生成してよい。
【0075】
また、音情報として、音階を構成する音およびオクターブ等の音の特性値、ならびに、人物の音声データを例示した。音情報としては、それらの他にも、和音等の音の組み合わせ、音色などを例示することができる。音色を表すパラメータとしては、音のスペクトルを例示することができる。例えば、音色を表すパラメータとして、基音の周波数成分および上音の周波数成分を適用することができる。
【0076】
また、画像処理部237および音声処理部244の機能ブロックは、音階を構成する音およびオクターブを、それぞれ輝度の範囲および彩度の範囲に割り当てるとした。そして、指定された画像領域の輝度値を含む範囲に割り当てられている音を選択するとした。すなわち、画像処理部237および音声処理部244の機能ブロックは、音を定める1以上の音パラメータの複数の値を、複数の特性値の範囲にそれぞれ割り当てる割当部として機能する。そして、同機能ブロックは、指定された画像領域の特性値を含む範囲に割り当てられている音パラメータを、音情報として選択する。
【0077】
また、音階を構成する複数の音を、輝度値の複数の範囲にそれぞれ割り当てるとした。また、複数のオクターブを、彩度の複数の範囲にそれぞれ割り当てるとした。音階を構成する音およびオクターブに対応させる画像情報の特性値として、輝度値および彩度以外の任意の組み合わせを適用してよい。例えば、色相を音階に割り当てることができる。また、彩度を音階に割り当ててもよい。すなわち、画像処理部237および音声処理部244の機能ブロックは、音階を構成する複数の音を、第1の特性値の複数の範囲にそれぞれ割り当て、指定された画像領域の第1の特性値を含む範囲に割り当てられている音を、音情報として選択してよい。そして、画像処理部237および音声処理部244の機能ブロックは、複数のオクターブを、第2の特性値の複数の範囲にそれぞれ割り当て、指定された画像領域の第2の特性値を含む範囲に割り当てられているオクターブを、音情報として選択してよい。
【0078】
図4に関連して説明したように、画像処理部237および音声処理部244の機能ブロックは、画像から抽出された特性値の頻度分布の広がりがより大きい場合に、音パラメータの複数の値を、より狭い特性値の範囲にそれぞれ割り当てることができる。このため、全体として暗い画像であっても、輝度値の細かな違いを音程として再生音に反映することができる。
【0079】
処理対象の画像データがJPEG方式で圧縮された画像データである場合、画像データには、離散コサイン変換により算出された周波数成分がデータとして含まれる。画像データに周波数成分がデータとして含まれる場合、画像データに含まれる周波数成分を特性値として用いてよい。また、画像データに含まれる周波数成分から特性値を算出してもよい。例えば、指定位置を含む画像ブロックに含まれる1以上のマクロブロックの輝度信号のDC成分を用いて、輝度値の平均値を算出してよい。また、1以上のマクロブロックの輝度信号のAC成分を、空間周波数を表す特性値としてもよい。また、処理対象の画像データがコントラスト検出方式で焦点調節されて撮像された画像データである場合、コントラストの評価値を特性値として用いてもよい。コントラストの評価値は、画像データに付帯情報として付帯されて記録媒体209に記録されていてよい。
【0080】
また、画像ブロックから抽出したテクスチャの指標値を、特性値として用いてもよい。テクスチャを示す指標値として、テクスチャの乱雑さを示す指標値を例示することができる。例えば、隣接画素との輝度値の差分の総和を、テクスチャの指標値として算出する。当該総和が大きいほど、比較的に乱雑なテクスチャであるとみなすことができる。また、画像ブロックに対して2次元フーリエ変換して得た周波数成分の分布から、テクスチャを示す指標値を算出してもよい。例えば、周波数成分の分布の広がり幅を、テクスチャを示す指標値として算出してよい。当該広がり幅が大きいほど、低周波から高周波まで広い周波数範囲にわたる周波数成分が含まれていることを示す。したがって、当該広がり幅が大きいほど、比較的に乱雑なテクスチャであるとみなすことができる。テクスチャの指標値を画像の特性値として適用した場合、音声処理部244は、算出したテクスチャの指標値が予め定められた値以下であるときは、協和音の音情報を生成し、テクスチャの指標値が予め定められた値より大きいときは、不協和音の音情報を生成してよい。協和音としては、構成音の音程が完全協音程または不完全協和音程である和音を適用し、協和音以外の和音を不協和音として適用してよい。また、フーリエ変換によって得られた周波数成分を、可聴域の周波数領域にマッピングする等して、フーリエ変換によって得られた周波数情報を音信号の周波数情報に適用してもよい。
【0081】
また、音声処理部244は、音情報に対応する再生音の音信号を音情報から生成する出力部として機能する。音声処理部244が再生処理部245およびスピーカ部246と協働して動作する場合、音波としての音信号を出力することができる。他にも、音声処理部244は、音情報に対応するデジタルの音信号を出力してよい。デジタルの音信号としては、PCM信号等の非圧縮の音声フォーマットの他、ドルビーサラウンド等、種々の圧縮方式で圧縮された音声フォーマットの音信号を例示することができる。すなわち、出力部の機能として、音信号を音波として出力する機能だけでなく、記録媒体209等にデータとして記録する機能を含むことができる。また、出力部の機能として、音信号をオーディオコントローラ20等にデータとして送信する機能を含むことができる。
【0082】
なお、以上の説明において、輝度値から定まる音と、彩度から定まるオクターブとから、1つの再生音に対応する音信号を生成するとした。この場合、1つの画像領域から1つの音が生成される。しかし、1つの画像領域の画像情報から、2つの音を生成してもよい。例えば、輝度値に対応する再生音と、彩度に対応する再生音とが、異なるタイミングで出力される音信号を生成してもよい。すなわち、画像処理部237および音声処理部244において、指定された画像領域の第1の特性値に対応する第1音情報と、指定された画像領域の第2の特性値に対応する第2音情報とを生成した場合、音声処理部244は、第1音情報に対応する再生音と、第2音情報に対応する再生音とが、時分割で出力される音信号を生成してもよい。音声処理部244が再生処理部245およびスピーカ部246と協働して動作する場合、時分割で2つの再生音として再生することができる。
【0083】
また、以上の説明において、指定位置を含む画像ブロックの画像情報から、音情報を生成するとした。すなわち、システム制御部250が、画像内の位置の指定を受け付けた場合、画像処理部237および音声処理部244は、指定された位置を含む予め定められた大きさの画像領域から、音情報を生成するとした。また、タッチされた面積が大きいほど、より多い画像ブロックで構成される画像ブロックの画像情報から、音情報を生成するとした。しかし、画像ブロックの大きさを、タッチされた面積に応じて1画素以上の単位で調整してもよい。すなわち、システム制御部250および操作部材202は、ユーザによる入力面内に対する操作を検出することにより、画像内の位置の指定を受け付ける入力部として機能し、画像処理部237および音声処理部244は、入力面内に対する操作面積がより大きい場合に、より大きい画像領域から音情報を生成してよい。
【0084】
また、図9等に関連して説明したように、画像処理部237および音声処理部244は、入力面に対してスライド操作された旨が検出された場合に、操作位置に対応する画像領域内のエッジ量から音情報を生成し、入力面に対してポイント操作された旨が検出された場合に、操作位置に対応する画像領域内の画素値の大きさから音情報を生成する。このため、ユーザが操作方法を変えることで、音の生成方法を変えることができる。したがって、ユーザは、一つの画像から多様な方法で音を楽しむことができる。
【0085】
なお、ユーザの操作を、ユーザの指やスタイラス等による入力面の押下を検知することで検出してよいが、押下だけでなく入力面との接触を検知することでユーザの操作を検出してよい。検出方式によっては、ユーザの操作を検出するために、ユーザの指やスタイラス等と入力面とが接触することも要しない。例えば、静電容量方式、電磁誘導方式、光センサ方式等で検出するタッチパネルによると、ユーザの指やスタイラス等が入力面に近接することで、入力面に接触しなくても操作位置を検出できる場合がある。
【0086】
また、以上の説明において、画像処理部237が、人物の顔を検出するとした。しかし、画像処理部237は、人物の顔の他に、自動車、電車および飛行機等の乗物、楽器ならびに動物等、予め定められたオブジェクトを画像から検出してよい。そして、音声処理部244は、検出したオブジェクトに関連する音の信号を生成してもよい。例えば、オブジェクトが自動車や飛行機であればエンジン音の音信号を生成してよい。オブジェクトが電車であれば、モータ音またはレール上の走行音の音信号を生成してよい。オブジェクトが楽器であれば、その楽器が発生する音の音信号を生成してよい。予め定められたオブジェクトに関連する音の信号は、記録媒体209に予めデータとして記録されて、記録媒体209から読み出して使用されてよい。また、システムメモリ236に予めデータとして記録されており、撮像装置100の起動時に内部メモリ235に展開されて使用されてよい。すなわち、画像処理部237は、指定された画像領域に予め定められたオブジェクトの少なくとも一部が含まれるか否かを判断するオブジェクト判断部として機能する。内部メモリ235、記録媒体209等が、予め定められたオブジェクトに対応づけて、予め定められたオブジェクトに関連する音データを格納する音データ格納部として機能する。画像処理部237および音声処理部244は、指定された画像領域に予め定められたオブジェクトの少なくとも一部が含まれる旨が判断された場合には、予め定められたオブジェクトに対応づけて格納している音データを、音情報として生成してよい。
【0087】
また、以上の説明において、ステレオ信号としての音信号を生成する場合、音声処理部244は、指定された画像領域が画像内の予め定められた位置の左方に位置する場合に、生成した音情報に基づいて、左チャネルの音信号を生成し、指定された画像領域が画像内の予め定められた位置より右方に位置する場合に、生成した音情報に基づいて、右チャネルの音信号を生成するとした。また、5.1チャネルの音信号を生成する場合、例えば上方の画像領域が指定されるとフロントの音声チャネルの音信号を生成し、下方の画像領域が指定されるとリアの音声チャネルの音信号を生成するとした。音声処理部244が画像情報に基づき生成する音信号のチャネル数は、2または5に限られない。例えば、音声処理部244は、2チャネル以上の音信号を画像情報に基づき生成してよい。すなわち、音声処理部244は、生成した音情報に基づいて、複数の音声チャネルのうちの少なくとも一つの音声チャネルの音信号を生成する音信号生成部として機能する。特に、音声処理部244は、生成された音情報から、指定された画像領域の画像内の位置に対応する音声チャネルの音信号を生成してよい。
【0088】
以上の説明において、指定された画像領域の画像内の位置に応じて、音声チャネルを決定するとした。一方、タッチパネルの入力面内の離れた2つの位置が同時に操作された場合、画像処理部237および音声処理部244は、それぞれの位置の画像ブロックの画像情報から音情報を生成してよい。そして、音声処理部244は、左方の画像ブロックの画像情報から生成した音情報に基づき、Lチャネルの音声信号を生成し、右方の画像ブロックの画像情報から生成した音情報に基づき、Rチャネルの音声信号を生成してよい。すなわち、画像内の複数の位置が指定された場合に、音声処理部244は、複数の位置の画像情報から生成された複数の音情報に基づき、指定された複数の位置にそれぞれ対応する音声チャネルの音声信号をそれぞれ生成してよい。
【0089】
また、以上の説明において、操作部材202の一部および表示部201の一部がタッチパネルとして組み込まれるとした。そして、表示部201に画像を表示して、ユーザにタッチパネルの入力面を操作させるとした。しかし、表示部201に画像を表示せずに、タッチパネルの入力面を操作させてもよい。例えば、システム制御部250は、電力状態に基づいて、表示部201に画像を表示させるか否かを決定する。例えば、システム制御部250は、電源制御部247からバッテリ208の残電力を検出して、残電力が予め定められた値未満であり、AC電源からの電力供給がない場合に、表示部201に画像を表示させないとしてよい。
【0090】
また、本実施形態では、タッチパネルの入力面に対して操作されるとした。しかし、操作部材202は、タッチパッド等のように、画像を表示しない入力面を有して良い。例えば操作部材202は矩形の入力面を有する。矩形の入力面の中心が画像の中心に対応し、操作面の矩形の四隅が、画像の四隅に対応するとしてよい。また、上記の説明では、指定位置を含む画像ブロックから画像情報を生成するとしたが、複数の位置に対してポイント操作がされた場合、対応する複数の位置を含む1以上の画像ブロックから画像情報を生成してもよい。また、入力面に対する操作位置が予め定められた軌跡を描く場合、軌跡に基づいて1以上の画像ブロックを選択して、選択した画像ブロックの画像情報から音情報を生成してもよい。例えば、操作位置が円形や矩形等の閉じた軌跡を描く場合、軌跡内の1以上の画像ブロックの画像情報から音情報を生成してもよい。
【0091】
本実施形態において、撮像装置100を取り上げて音情報生成装置の一例を説明した。撮像装置100としては、レンズ交換式の一眼レフカメラ、コンパクトデジタルカメラ、ミラーレス一眼カメラ、ビデオカメラ、撮像機能付きの携帯電話機、撮像機能付きの携帯情報端末、撮像機能付きのゲーム機器等の娯楽装置等、撮像機能を有する機器を適用の対象とすることができる。また、音情報生成装置は、撮像機能を有さなくてよく、パーソナルコンピュータ、テレビ、デジタルフォトフレーム、カーナビゲーション装置、携帯電話機、携帯情報端末、ゲーム機器等の娯楽装置、視覚障害者用の音声装置等の機器として実現されてよい。撮像機能を有する機器に適用する場合、当該機器が撮像した撮像画像を、音情報を生成する処理対象の画像としてよい。処理対象の画像は、静止画や動画を含む撮像画像に限られない。例えば、カーナビゲーション装置においては、地図の画像を処理対象の画像とすることができる。
【0092】
本実施携帯の撮像装置100に関連して説明した処理は、撮像装置100の各部、例えばシステム制御部250等が、プログラムに従って内部メモリ235、システムメモリ236等のメモリと協働して動作することにより、実現することができる。すなわち、当該処理を、いわゆるコンピュータ装置によって実現することができる。コンピュータ装置は、上述した処理の実行を制御するプログラムをロードして、読み込んだプログラムに従って動作して、当該処理を実行してよい。コンピュータ装置は、当該プログラムを記憶しているコンピュータ読取可能な記録媒体を読み込むことによって、当該プログラムをロードすることができる。
【0093】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0094】
特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
【符号の説明】
【0095】
20 オーディオコントローラ、22 スピーカ、100 撮像装置、201 表示部、202 操作部材、207 レリーズスイッチ、208 バッテリ、209 記録媒体、219 光軸、221 ズームレンズ、231 撮像素子、232 A/D変換器、233 メモリ制御部、234 タイミング発生部、235 内部メモリ、236 システムメモリ、237 画像処理部、238 表示制御部、239 D/A変換器、240 記録媒体IF、243 ズーム制御部、244 音声処理部、245 再生処理部、246 スピーカ部、247 電源制御部、248 加速度センサ、250 システム制御部、300、600、700 全画像領域、310、312、320、322、380、382、390 画像ブロック、610、710 部分領域、510、511、512、513、514、520、521、522、523、524 画素
【特許請求の範囲】
【請求項1】
画像内の画像領域の指定を受け付ける受付部と、
前記指定された画像領域の画像情報から、前記画像情報に対応する音情報を生成する音情報生成部と
を備える音情報生成装置。
【請求項2】
前記音情報生成部は、前記指定された画像領域の明るさ、色相および彩度のうちの少なくとも一つの特性値に基づいて、前記音情報を生成する
請求項1に記載の音情報生成装置。
【請求項3】
音を定める1以上の音パラメータの複数の値を、複数の特性値の範囲にそれぞれ割り当てる割当部
をさらに備え、
前記音情報生成部は、前記指定された画像領域の特性値を含む範囲に割り当てられている音パラメータを、前記音情報として選択する
請求項2に記載の音情報生成装置。
【請求項4】
前記割当部は、音階を構成する複数の音を、第1の特性値の複数の範囲にそれぞれ割り当て、
前記音情報生成部は、前記指定された画像領域の第1の特性値を含む範囲に割り当てられている音を、前記音情報として選択する
請求項3に記載の音情報生成装置。
【請求項5】
前記割当部は、複数のオクターブを、第2の特性値の複数の範囲にそれぞれ割り当て、
前記音情報生成部は、前記指定された画像領域の第2の特性値を含む範囲に割り当てられているオクターブを、前記音情報として選択する
請求項4に記載の音情報生成装置。
【請求項6】
前記割当部は、前記画像から抽出された前記特性値の頻度分布の広がりがより大きい場合に、音パラメータの複数の値を、より狭い特性値の範囲にそれぞれ割り当てる
請求項3から5のいずれか一項に記載の音情報生成装置。
【請求項7】
前記音情報生成部が生成した前記音情報から、前記音情報に対応する再生音の音信号を生成する出力部
をさらに備える請求項2から6のいずれか一項に記載の音情報生成装置。
【請求項8】
前記音情報生成部は、前記指定された画像領域の第1の特性値に対応する第1音情報と、前記指定された画像領域の第2の特性値に対応する第2音情報とを生成し、
前記出力部は、前記第1音情報に対応する再生音と、前記第2音情報に対応する再生音とが、時分割で出力される音信号を生成する
請求項7に記載の音情報生成装置。
【請求項9】
前記受付部は、画像内の位置の指定を受け付け、
前記音情報生成部は、前記指定された位置を含む予め定められた大きさの画像領域から、前記音情報を生成する
請求項1から8のいずれか一項に記載の音情報生成装置。
【請求項10】
前記受付部は、ユーザによる入力面内に対する操作を検出することにより、前記画像内の位置の指定を受け付ける入力部を有し、
前記音情報生成部は、前記入力面内に対する操作面積がより大きい場合に、より大きい画像領域から前記音情報を生成する
請求項9に記載の音情報生成装置。
【請求項11】
前記受付部は、ユーザによる入力面内に対する操作を検出することにより、前記画像内の位置の指定を受け付ける入力部を有し、
前記音情報生成部は、前記入力面に対してスライド操作された旨が検出された場合に、操作位置に対応する前記画像領域内のエッジ量から前記音情報を生成し、前記入力面に対してポイント操作された旨が検出された場合に、操作位置に対応する前記画像領域内の画素値の大きさから前記音情報を生成する
請求項1から9のいずれか一項に記載の音情報生成装置。
【請求項12】
前記指定された画像領域に予め定められたオブジェクトの少なくとも一部が含まれるか否かを判断するオブジェクト判断部と、
前記予め定められたオブジェクトに対応づけて、前記予め定められたオブジェクトに関連する音データを格納する音データ格納部と
をさらに備え、
前記音情報生成部は、前記指定された画像領域に前記予め定められたオブジェクトの少なくとも一部が含まれる旨が判断された場合には、前記音データ格納部が前記予め定められたオブジェクトに対応づけて格納している音データを、前記音情報として生成する
請求項1から11のいずれか一項に記載の音情報生成装置。
【請求項13】
前記音情報生成部により生成された音情報に基づいて、複数の音声チャネルのうちの少なくとも一つの音声チャネルの音信号を生成する音信号生成部
をさらに備え、
前記音信号生成部は、生成された音情報から、前記指定された画像領域の前記画像内の位置に対応する音声チャネルの音信号を生成する
請求項1から12のいずれか一項に記載の音情報生成装置。
【請求項14】
前記音信号生成部は、前記指定された画像領域が画像内の予め定められた位置の左方に位置する場合に、前記生成された音情報に基づいて、左チャネルの音信号を生成し、前記指定された画像領域が画像内の前記予め定められた位置より右方に位置する場合に、前記生成された音情報に基づいて、右チャネルの音信号を生成する
請求項13に記載の音情報生成装置。
【請求項15】
画像内の画像領域の指定を受け付ける受付ステップと、
前記指定された画像領域の画像情報から、前記画像情報に対応する音情報を生成する音情報生成ステップと
をコンピュータに実行させるプログラム。
【請求項1】
画像内の画像領域の指定を受け付ける受付部と、
前記指定された画像領域の画像情報から、前記画像情報に対応する音情報を生成する音情報生成部と
を備える音情報生成装置。
【請求項2】
前記音情報生成部は、前記指定された画像領域の明るさ、色相および彩度のうちの少なくとも一つの特性値に基づいて、前記音情報を生成する
請求項1に記載の音情報生成装置。
【請求項3】
音を定める1以上の音パラメータの複数の値を、複数の特性値の範囲にそれぞれ割り当てる割当部
をさらに備え、
前記音情報生成部は、前記指定された画像領域の特性値を含む範囲に割り当てられている音パラメータを、前記音情報として選択する
請求項2に記載の音情報生成装置。
【請求項4】
前記割当部は、音階を構成する複数の音を、第1の特性値の複数の範囲にそれぞれ割り当て、
前記音情報生成部は、前記指定された画像領域の第1の特性値を含む範囲に割り当てられている音を、前記音情報として選択する
請求項3に記載の音情報生成装置。
【請求項5】
前記割当部は、複数のオクターブを、第2の特性値の複数の範囲にそれぞれ割り当て、
前記音情報生成部は、前記指定された画像領域の第2の特性値を含む範囲に割り当てられているオクターブを、前記音情報として選択する
請求項4に記載の音情報生成装置。
【請求項6】
前記割当部は、前記画像から抽出された前記特性値の頻度分布の広がりがより大きい場合に、音パラメータの複数の値を、より狭い特性値の範囲にそれぞれ割り当てる
請求項3から5のいずれか一項に記載の音情報生成装置。
【請求項7】
前記音情報生成部が生成した前記音情報から、前記音情報に対応する再生音の音信号を生成する出力部
をさらに備える請求項2から6のいずれか一項に記載の音情報生成装置。
【請求項8】
前記音情報生成部は、前記指定された画像領域の第1の特性値に対応する第1音情報と、前記指定された画像領域の第2の特性値に対応する第2音情報とを生成し、
前記出力部は、前記第1音情報に対応する再生音と、前記第2音情報に対応する再生音とが、時分割で出力される音信号を生成する
請求項7に記載の音情報生成装置。
【請求項9】
前記受付部は、画像内の位置の指定を受け付け、
前記音情報生成部は、前記指定された位置を含む予め定められた大きさの画像領域から、前記音情報を生成する
請求項1から8のいずれか一項に記載の音情報生成装置。
【請求項10】
前記受付部は、ユーザによる入力面内に対する操作を検出することにより、前記画像内の位置の指定を受け付ける入力部を有し、
前記音情報生成部は、前記入力面内に対する操作面積がより大きい場合に、より大きい画像領域から前記音情報を生成する
請求項9に記載の音情報生成装置。
【請求項11】
前記受付部は、ユーザによる入力面内に対する操作を検出することにより、前記画像内の位置の指定を受け付ける入力部を有し、
前記音情報生成部は、前記入力面に対してスライド操作された旨が検出された場合に、操作位置に対応する前記画像領域内のエッジ量から前記音情報を生成し、前記入力面に対してポイント操作された旨が検出された場合に、操作位置に対応する前記画像領域内の画素値の大きさから前記音情報を生成する
請求項1から9のいずれか一項に記載の音情報生成装置。
【請求項12】
前記指定された画像領域に予め定められたオブジェクトの少なくとも一部が含まれるか否かを判断するオブジェクト判断部と、
前記予め定められたオブジェクトに対応づけて、前記予め定められたオブジェクトに関連する音データを格納する音データ格納部と
をさらに備え、
前記音情報生成部は、前記指定された画像領域に前記予め定められたオブジェクトの少なくとも一部が含まれる旨が判断された場合には、前記音データ格納部が前記予め定められたオブジェクトに対応づけて格納している音データを、前記音情報として生成する
請求項1から11のいずれか一項に記載の音情報生成装置。
【請求項13】
前記音情報生成部により生成された音情報に基づいて、複数の音声チャネルのうちの少なくとも一つの音声チャネルの音信号を生成する音信号生成部
をさらに備え、
前記音信号生成部は、生成された音情報から、前記指定された画像領域の前記画像内の位置に対応する音声チャネルの音信号を生成する
請求項1から12のいずれか一項に記載の音情報生成装置。
【請求項14】
前記音信号生成部は、前記指定された画像領域が画像内の予め定められた位置の左方に位置する場合に、前記生成された音情報に基づいて、左チャネルの音信号を生成し、前記指定された画像領域が画像内の前記予め定められた位置より右方に位置する場合に、前記生成された音情報に基づいて、右チャネルの音信号を生成する
請求項13に記載の音情報生成装置。
【請求項15】
画像内の画像領域の指定を受け付ける受付ステップと、
前記指定された画像領域の画像情報から、前記画像情報に対応する音情報を生成する音情報生成ステップと
をコンピュータに実行させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【公開番号】特開2012−194336(P2012−194336A)
【公開日】平成24年10月11日(2012.10.11)
【国際特許分類】
【出願番号】特願2011−57833(P2011−57833)
【出願日】平成23年3月16日(2011.3.16)
【出願人】(000004112)株式会社ニコン (12,601)
【公開日】平成24年10月11日(2012.10.11)
【国際特許分類】
【出願日】平成23年3月16日(2011.3.16)
【出願人】(000004112)株式会社ニコン (12,601)
[ Back to top ]