画像処理装置および画像処理方法

【課題】本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる画像処理装置および画像処理方法を提供する。
【解決手段】予め複数のコメントデータをＨＤＤ１１７に記憶する。画像処理アプリケーション２０１は、画像データに含まれる人物の表情を解析し、解析された人物情報の表情の解析結果に基づいて、ＨＤＤ１１７に記憶されている複数のコメントデータから該当するコメントデータを読み出して音声データを作成し、作成された音声データを再生すると共に、元の画像データの表示を行うための再生データを出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像データに音声コメントデータを付して出力することができる画像処理装置および画像処理方法に関する。
【背景技術】
【０００２】
一般に、デジタルカメラの普及にともなって、撮影した画像データ等をアルバム編集するためのアルバム編集支援ソフトウェア等が提供されている。例えば、パーソナルコンピュータにインストールされたアルバム編集支援ソフトウェアは、ユーザが、デジタルカメラ本体やメモリカード、その他ＭＯドライブやフォトＣＤ等の記憶媒体からスチル画像データを取り込んで、簡単にアルバム作製を行うことができる機能を提供する。
【０００３】
このようなアルバム編集支援ソフトウェアでは、画像データがリアルなアルバムのようにインデックスを付けて管理されるので、ユーザはマウスを用いて操作することによって簡単にバーチャルなアルバムを開くことができる。また、ユーザは、例えば予め用意されたフォーマットを用いて、あるいはフリーなスタイルで画像データのレイアウトを行うことができる。
【０００４】
さらに画像データに対して音声ファイルや音楽ファイルを関連付けることにより、音声や音楽付きのアルバムとして作製し、このようなアルバムの画像を用いて、ＢＧＭ付きのスライドショーを実演する機能を有するアルバム編集支援ソフトウェアもある。
【０００５】
例えば特許文献１には、画像データ近傍に表示される吹き出し内に表示されているコメントが音声出力される技術が開示されている。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００３−３１７０７４号公報（図２、段落００３８）
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかしながら、特許文献１に記載された技術は、吹き出し内に表示されているコメントを単に音声出力するのみであり、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができない。
【０００８】
そこで、本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる画像処理装置および画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【０００９】
上記目的を達成するために、本発明の一態様によれば、複数のコメントデータを記憶する記憶手段と、画像データに含まれる人物の表情を解析する解析手段と、前記解析手段によって解析された前記人物の表情に基づいて、前記記憶手段に記憶されている複数のコメントデータから特定のコメントデータを読み出し、当該コメントデータに基づいて音声データを作成する作成手段と、前記作成手段によって作成された音声データの再生と共に、前記画像データの表示を行うための再生データを出力する出力手段と、を具備することを特徴とする画像処理装置が提供される。
【００１０】
また、本発明の一態様によれば、画像データに音声データを付して再生を行う情報処理装置で用いられる画像処理方法であって、前記情報処理装置は、複数のコメントデータを記憶し、画像データに含まれる人物の表情を解析し、前記解析によって解析された前記人物の表情に基づいて、記憶されている複数のコメントデータから特定のコメントデータを読み出し当該コメントデータに基づいて音声データを作成し、前記作成された音声データを再生すると共に、前記画像データの再生と共に、前記画像データの表示を行うための再生データを出力することを特徴とする画像処理方法が提供される。
【発明の効果】
【００１１】
本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる。
【図面の簡単な説明】
【００１２】
【図１】本発明の一実施形態に係る画像処理装置の構成を示す図。
【図２】同実施形態に係る画像処理装置の構成の概略を示すブロック図。
【図３】同実施形態に係る画像処理装置の画像処理アプリケーション他の機能構成を示すブロック図。
【図４】同実施形態に係る画像処理装置を適用した画像処理方法を示したフローチャート。
【図５】同実施形態に係る画像処理装置の画像処理アプリケーションが読み込む画像データの一例を模式的に示した図。
【図６】同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベルの設定方法について模式的に示した図。
【図７】同実施形態に係る画像処理装置によって検出された特徴量に基づいて、人物の表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てた場合の一例を模式的に示す図。
【図８】同実施形態に係る画像処理装置で用いられる同じコメントデータを利用するか否かの近似度の閾値を示すテーブルデータを示す図。
【図９】同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベル、セリフ優先度、近似度他の設定方法について模式的に示した図。
【図１０】同実施形態に係る画像処理装置のＨＤＤに予め記憶されているデータベースの一例を示す図。
【図１１】同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベル、セリフ優先度、近似度、選択されたコメント他の設定方法について模式的に示した図。
【図１２】同実施形態に係る画像処理装置によって、再生データをＬＣＤ及びスピーカを用いて再生処理を行う状態を模式的に示す図。
【発明を実施するための形態】
【００１３】
以下、本発明の一実施形態について図面を参照しながら説明する。
【００１４】
まず、図１を参照して、本発明の一実施形態に係る画像処理装置の構成を説明する。本実施形態の画像処理装置は、例えば、ノートブック型のパーソナルコンピュータ１０として実現されている。なお、本実施形態では、ノートブック型のパーソナルコンピュータ１０として説明しているが、これに限定されるものではない。例えば、ＰＤＡ（Personal Digital Assistant）、ホームサーバ等の機器であってもよい。
【００１５】
このコンピュータ１０は、撮像装置としてカメラ１２７を備えている。カメラ１２７は、ＣＣＤ（Charge Coupled Device）等の撮像素子を備えており、対象物を撮影して画像データとして記憶する。本実施形態では、カメラ１２７によって撮影された画像データを用いる例を説明する。なお、画像データは、外部からメモリカード、ケーブル、光ディスク、ネットワーク等を介して取り込んだものでもよく、限定されるものではない。また、カメラ１２７は、コンピュータ１０に内蔵される形態以外にも外部機器としてコンピュータ１０と接続する形態とすることもできる。
【００１６】
コンピュータ１０は、コンピュータ本体１１と、ディスプレイユニット１２とから構成されている。ディスプレイユニット１２には、タッチパネル機能が内蔵されたＬＣＤ（Liquid Crystal Display）１２１から構成される表示装置が組み込まれており、そのＬＣＤ１２１の表示画面は、ディスプレイユニット１２のほぼ中央に位置されている。
【００１７】
ディスプレイユニット１２は、コンピュータ本体１１に対して開放位置と閉塞位置との間を回動自在に取り付けられている。また、ディスプレイユニット１２の上部には、上述したカメラ１２７が内蔵されている。コンピュータ本体１１は薄い箱形の筐体を有しており、その上面にはキーボード１２５、本コンピュータ１０を電源オン／オフするための電源ボタン２１、および入力ボタン１２４ａ、１２４ｂを近傍に備えたタッチパッド１２４などが配置されている。
【００１８】
次に、図２を参照して、本コンピュータ１０のシステム構成について説明する。
【００１９】
本コンピュータ１０は、図２に示されているように、ＣＰＵ１１１、ノースブリッジ１１３、グラフィクスコントローラ１１４、主メモリ１１２、ＬＣＤ１２１、サウスブリッジ１１６、ハードディスクドライブ（以下、ＨＤＤとも称する）１１７、光ディスクドライブ（以下、ＯＤＤとも称する）１１８、ＢＩＯＳ−ＲＯＭ１１９、カメラ１２７、スピーカ１２８、エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１２０、タッチパッド１２４、キーボード１２５、電源回路１３０、バッテリ１２２およびＡＣアダプタ１２３等を備えている。
【００２０】
ＣＰＵ１１１は本コンピュータ１０の動作を制御するプロセッサであり、ＨＤＤ１１７から主メモリ１１２にロードされる、オペレーティングシステム（ＯＳ）２０２、および画像処理アプリケーションプログラム２０１（以下、画像処理アプリケーションとも称する）のような各種アプリケーションプログラムを実行する。画像処理アプリケーションプログラム２０１は、画像データに写っている人物を解析し、解析した人物の表情や人数等に基づいて、予め用意されているコメントデータから該当するコメントデータを選択し、選択されたコメントデータから合成音声のデータを作成する処理を実行し、さらにその後、元の画像データを表示すると共に作成した音声データを再生する処理を実行するソフトウェアである。
【００２１】
ノースブリッジ１１３はＣＰＵ１１１のローカルバスとサウスブリッジ１１６との間を接続するブリッジデバイスである。ノースブリッジ１１３には、主メモリ１１２をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ１１３は、グラフィックスコントローラ１１４を内蔵している。
【００２２】
グラフィックスコントローラ１１４は、本コンピュータ１０のディスプレイモニタとして使用されるＬＣＤ（ディスプレイ）１２１を制御する表示コントローラである。このグラフィックスコントローラ１１４によって生成される表示信号はディスプレイユニット１２のＬＣＤ１２１に送られる。
【００２３】
サウスブリッジ１１６は、ＬＰＣ（Low Pin Count）バス上の各デバイス等を制御する。また、サウスブリッジ１１６は、ＨＤＤ１１７およびＯＤＤ１１８を制御するためのＩＤＥ（Integrated Drive Electronics）コントローラを内蔵している。さらに、サウスブリッジ１１６は、サウンドコントローラとの通信を実行する機能も有している。
【００２４】
エンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１２０は、電力管理のためのエンベデッドコントローラと、キーボード（ＫＢ）１２５およびタッチパッド１２４を制御するためのキーボードコントローラとが集積された１チップマイクロコンピュータである。このエンベデッドコントローラ／キーボードコントローラＩＣ（ＥＣ／ＫＢＣ）１２０は、ユーザによる電源ボタン２１の操作に応じて本コンピュータ１０をパワーオン／パワーオフする機能を有している。
【００２５】
ＬＣＤ１２１は、画像処理アプリケーション２０１によって作成された再生データ（画像データに音声データが付加されたデータ）をスピーカ１２８と共に再生するための表示部である。
【００２６】
次に、図３は、画像処理アプリケーション２０１の機能構成他を示したブロック図である。
【００２７】
画像処理アプリケーション２０１は、画像解析部３００、音声合成部３０１、再生データ作成部３０２を備えている。また、画像解析部３００は、顔認識部３００ａ、特徴量検出部３００ｂ、近似度演算部３００ｃを備えている。さらに、ＨＤＤ１１７は、画像データ記憶領域１１７ａ、表情解析用データ記憶領域１１７ｂ、合成音声データ記憶領域１１７ｃ、コメントデータ記憶領域１１７ｄ、再生データ記憶領域１１７ｅ、閾値記憶領域１１７ｆを備えている。
【００２８】
画像データ記憶領域１１７ａは、カメラ１２７で撮影された画像データを記憶する記憶領域である。
【００２９】
表情解析用データ記憶領域１１７ｂは、人物の表情の解析を行うためのデータベースであり、予め例えば、喜怒哀楽の各表情に対応する表情解析用データ（特徴量）の情報を記憶する記憶領域である。
【００３０】
合成音声データ記憶領域１１７ｃは、合成音声を作成するための合成音声データを記憶する記憶領域である。
【００３１】
コメントデータ記憶領域１１７ｄは、人物の喜怒レベル、哀楽レベルに対応するコメントデータを予め記憶する記憶領域である。
【００３２】
再生データ記憶領域１１７ｅは、後述する再生データ作成部３０２によって作成された再生データを記憶する記憶領域である。
【００３３】
閾値記憶領域１１７ｆは、検出された人物が複数人数である場合の同一のセリフを与える近似度の閾値を記憶する記憶領域である。
【００３４】
顔認識部３００ａは、カメラ１２７で撮影された画像データが記憶されている画像データ記憶領域１１７ａから画像データを読み出して、画像データ内に写っている人物の顔領域を検出する顔認識処理を行う。すなわち、顔認識処理とは、画像データ内に写っている人物の顔領域を検出し、人物の顔として認識する処理のことである。また、顔認識部３００ａは、顔認識処理において、画像データ内に写っている人物の人数の検出も行う。検出された顔領域及び人数の情報は、特徴量検出部３００ｂに送られる。
【００３５】
特徴量検出部３００ｂは、顔認識部３００ａで検出された人物の顔領域の情報を用いて、顔領域の特徴量（表情等）を検出する。顔領域の特徴量の検出を行う技術としては、例えば、特開2005-31566号公報に開示されているように、画像データ内の顔の特徴点を検出し、検出された特徴点から人物の笑顔度を推定する技術が挙げられる。特徴量検出部３００ｂは、顔領域の特徴量の検出においては、予め表情解析用データを表情解析用データ記憶領域１１７ｂに記憶しておき、この表情解析用データを読み出して参照することによって、人物の喜怒レベル、哀楽レベル等を検出する。特徴量検出部３００ｂによって、検出された人物の喜怒レベル、哀楽レベルの情報は、近似度演算部３００ｃ及び合成音声部３０１に送られる。また、特徴量検出部３００ｂによって、顔認識部３００ａから送られた人物の人数の情報が近似度演算部３００ｃに送られる。
【００３６】
近似度演算部３００ｃは、特徴量検出部３００ｂを介して送られた人数の情報によって、人物が複数人数である場合に閾値記憶領域１１７ｆに記憶された近似度の閾値に基づいて、人物のそれぞれの近似度を演算する。近似度演算部３００ｃは、例えば、顔認識部３００ａによって検出された複数人物のそれぞれの喜怒レベル、哀楽レベル等の数値の近いもの同士を検出し、数値が近い程に値が大きくなる近似度を付する処理を行う。喜怒レベル、哀楽レベル等の数値の算出方法は後述する。近似度演算部３００ｃによって演算された近似度の情報は、音声合成部３０１に送られる。
【００３７】
音声合成部３０１は、特徴量検出部３００ｂによって検出された人物の喜怒レベル、哀楽レベルに基づいて、優先度（以下、セリフ優先度とも称する）を決定する。セリフ優先度とは、音声データを作成した場合に、再生する順序を示す情報であり、喜怒レベル及び哀楽レベルの数値の大小によって決定される。また、音声合成部３０１は、特徴量検出部３００ｂによって検出された人物の喜怒レベル、哀楽レベルに対応するコメントデータをコメントデータ記憶領域１１７ｄから読み出す。さらに、音声合成部３０１は、合成音声データ記憶領域１１７ｃから合成音声データを読み出して、音声データを作成する。なお、顔認識部３００ａによって検出された人物が複数人数である場合は、音声合成部３０１は、人物が複数人数であることがわかるように、それぞれの人物に対して異なる声色を用いた、個別の音声データを作成する。
【００３８】
また、音声合成部３０１は、近似度演算部３００ｃによって閾値以上の近似度であると判別された場合は、同じコメントデータを用いて音声データを作成する。この場合も同様に、音声合成部３０１は、人物が複数人数であることがわかるように、それぞれの人物に対して異なる声色を用いて音声データを作成する。作成した音声データ及び優先度の情報は、音声合成部３０１によって再生データ作成部３０２に送られる。なお、近似度の算出方法については、後述する。
【００３９】
再生データ作成部３０２は、音声合成部３０１から送られた音声データに基づいて、この音声データを音声として再生するための再生データを作成する。再生データは、この作成した音声データの基となった画像データの表示と同期して、音声データに基づいた音声として再生される。なお、再生データ作成部３０２は、複数人数の音声データを再生する場合は、音声合成部３０１から送られた優先度の情報に基づいて、順に音声データが再生されるように再生データを作成する。そして、作成された再生データは、再生データ作成部３０２によって、ＨＤＤ１７７に出力され、再生データ記憶領域１１７ｅに記憶される。また、画像処理アプリケーション２０１は、再生データの再生要求に基づいて、再生データ記憶領域１１７ｅに記憶された再生データを読み出して、ＬＣＤ１２１及びスピーカ１２８によってこの読み出した再生データの再生を実行する。なお、再生データ作成部３０２によって作成された再生データをＨＤＤ１１７に記憶せずに、ＬＣＤ１２１及びスピーカ１２８によって再生データの再生を実行することも可能である。
【００４０】
次に図４は、本発明の一実施形態に係る画像処理装置を適用した画像処理方法の手順を示すフローチャートである。
【００４１】
コンピュータ１０のＣＰＵ１１１は、ＨＤＤ１１７等に記憶された画像処理アプリケーション２０１を起動して主メモリ１１２にロードする。ＣＰＵ１１１は、画像処理アプリケーション２０１と共に、ＨＤＤ１１７の画像データ記憶領域１１７ａから画像データの読み込みを実行する（ステップＳ１０１）。続いて、ＣＰＵ１１１は、読み込んだ画像データの解析処理（人物及び人数の検出）を行う（ステップＳ１０２）。ＣＰＵ１１１は、画像データの解析処理で人物が検出されたか否かを判別する（ステップＳ１０３）。ステップＳ１０３で、ＣＰＵ１１１によって、画像データの解析処理において人物が検出されたと判別された場合（ステップＳ１０３のＹＥＳ）、ＣＰＵ１１１は、各人物ごとに顔領域の特徴量（表情）の検出処理を行う（ステップＳ１０４）。顔領域の特徴量の検出は、表情解析用データを読み出して参照することによって、人物の喜怒レベル、哀楽レベル等を検出する。さらに、ステップＳ１０４における特徴量の検出処理では、検出された人物の喜怒レベル、哀楽レベルに基づいて上述したセリフ優先度を設定する。一方、ステップＳ１０３で、ＣＰＵ１１１によって、画像データの解析処理において人物が検出されないと判別された場合（ステップＳ１０３のＮＯ）、処理を終了する。
【００４２】
続いて、ＣＰＵ１１１は、人物の人数の情報に基づいて検出された人物が複数人数であるかを判別する（ステップＳ１０５）。ステップＳ１０５で、ＣＰＵ１１１によって、検出された人物が複数人数であると判別された場合（ステップＳ１０５のＹＥＳ）、ＣＰＵ１１１は、検出された人物の喜怒レベル、哀楽レベルに基づいて、それぞれの人物の近似度を検出する（ステップＳ１０６）。一方、ステップＳ１０５で、ＣＰＵ１１１によって、検出された人物が複数人数でないと判別された場合（ステップＳ１０５のＮＯ）、ステップＳ１０７に遷移する。
【００４３】
そして、ＣＰＵ１１１は、音声データの作成処理を行う（ステップＳ１０７）。音声データの作成処理は、上述した、検出された人物の喜怒レベル及び哀楽レベルの情報、セリフ優先度、近似度に基づいて、該当するコメントデータが選択され、選択されたコメントデータに基づいて行われる（後述）。
【００４４】
さらに、ＣＰＵ１１１は、再生データの作成処理を行う（ステップＳ１０８）。再生データは、この作成した音声データの基となった画像データ、この画像データが表示されているときに再生する音声データ、そして音声データが複数ある場合は、音声データを再生する優先順位であるセリフ優先度の情報、テンポ情報、音の大きさの情報を関連付けて、再生を行うことが可能な状態としたデータである。作成された再生データは、ＣＰＵ１０１によって、例えばＨＤＤ１１７の再生データ記憶領域１１７ｅに記憶される。
【００４５】
次に、以上説明したフローチャートを具体例を用いて説明する。
【００４６】
具体的には、ＣＰＵ１１１は、画像処理アプリケーション２０１と共に、ＨＤＤ１１７の画像データ記憶領域１１７ａから画像データの読み込みを実行する場合、例えば、図５に示されるように、画像データの読み込みを行う。続いて、ＣＰＵ１１１は、読み込んだ画像データの解析処理（人物及び人数の検出）を行う。この場合、ＣＰＵ１１１は、図５に示されるように、画像データ内の人物及び人数の検出を行う。例えば、画像データ内の人物として４人の人物が検出された場合は、人物１、２、Ｍ、Ｎと番号（以下、表情番号とも称する）が付される。ＣＰＵ１１１によって、人物が検出されたと判別された場合、ＣＰＵ１１１は、各人物１、２、Ｍ、Ｎ毎に特徴量の検出処理を行う。
【００４７】
図６は、喜怒レベル及び哀楽レベルの設定方法について模式的に示した図である。例えば、同図に示されるように、喜怒レベル及び哀楽レベルを、例えば、−１０．０〜１０．０の範囲の数値で割り当てる。この場合、最も喜怒レベル及び哀楽レベルが高い状態として設定する表情に対して、それぞれ喜怒レベル及び哀楽レベル１０．０を割り当てる。同様に、最も喜怒レベル及び哀楽レベルが低い状態として設定する表情に対して、それぞれ喜怒レベル及び哀楽レベル−１０．０を割り当てる。そして、最も喜怒レベル及び哀楽レベルが低い状態と最も喜怒レベル及び哀楽レベルが高い状態との間を例えば、１００等分することで、各喜怒レベル及び哀楽レベルを１００段階である−１０．０〜１０．０の範囲の数値で割り当てる。なお、同図を数値化したデータは、ＨＤＤ１１７の表情解析用データ記憶領域１１７ｂに記憶される。
【００４８】
図７は、検出された特徴量に基づいて、人物１、２、Ｍ、Ｎの表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てた場合の一例を模式的に示す図である。例えば、同図に示されるように、検出された人物の特徴量に基づいて、人物１、２、Ｍ、Ｎの表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てる。例えば、表情番号１の喜怒レベルは８．１、哀楽レベルは９．４として割り当てる。
【００４９】
上述したように、各表情番号に対して、喜怒レベル及び哀楽レベルの割り当てが完了した後に、特徴量の検出処理において、セリフ優先度を設定する。このセリフ優先度は、例えば、図７に示されるように、喜怒レベル及び哀楽レベルの数値の大きい表情番号のものから順に１、２、・・・と番号を付する。例えば、喜怒レベル及び哀楽レベルの数値の大きい表情番号１の人物に対してセリフ優先度を１として設定する。
【００５０】
また、ＣＰＵ１１１によって、検出された人物が複数人数であると判別された場合、ＣＰＵ１１１は、人物の近似度を検出する。この場合、近似度は、「１」に近づくほど表情が似ていることを示す。近似度を検出する場合は、上述した喜怒レベル及び哀楽レベルの数値を参照する。喜怒レベル及び哀楽レベルの数値が最も近い表情番号同士を比較することで、０．０〜１．０までの値を付する。例えば、表情番号２と表情番号Ｎとを比較する場合、喜怒レベル及び哀楽レベルの小さい数値を大きい数値で除算し、平均値を取る。
【００５１】
喜怒レベル -4.2/-4.3=0.98、哀楽レベル 6.2/6.3=0.98、平均値＝0.98
となり、近似度は、０．９８と求められる。求められた近似度に基づいて、ＣＰＵ１１１は、最も近い表情番号を決定する。
【００５２】
図８は、検出された人物が複数人数である場合の同一のセリフを与える近似度の閾値を示すテーブルデータを示す図である。同図のデータは、ＨＤＤ１１７の閾値記憶領域１１７ｆに記憶されている。例えば、同図に示されるように、ＣＰＵ１１１によって検出された人数が２人であり、そのときの近似度が０．９８の場合、閾値は０．９８であるので、ＣＰＵ１１１は、検出された２人の人物の音声データを作成するために用いるコメントデータに同一のコメントデータを用いる。
【００５３】
図９は、表情番号毎に喜怒レベル、哀楽レベル、セリフ優先度、最も近い表情番号、及び近似度を対応づけたテーブルデータを示す図である。例えば、表情番号２及び表情番号Ｎは、ＣＰＵ１１１によって、喜怒レベル及び哀楽レベルから上述したように近似度が０．９８と求められる。同様にして、ＣＰＵ１１１によって、すべての表情番号同士の組み合わせについて近似度を求める。このようにすることで、ＣＰＵ１１１によって、近似度の一番高い（１に近い）表情番号２及び表情番号Ｎが互いに最も近い表情番号であると判別することができる。
【００５４】
図１０は、コメントデータ等が予め記憶されているデータベースの一例を示す図である。同図のデータは、ＨＤＤ１１７のコメントデータ記憶領域１１７ｄに記憶されている。ＣＰＵ１１１は、上述した喜怒レベル及び哀楽レベルに基づいて、コメントデータを選択するには、例えば、表情番号１は、喜怒レベル８．１及び哀楽レベル９．４であるので（図９参照）、図１０中のテーブルデータの上から２番目の範囲に該当する。即ち、該当するコメントデータは、「コメント１：これでどうだー！！」及び「コメント２：最高！」となる。コメントデータがこのように複数ある場合には、例えば、ＣＰＵ１１１によってランダムで選択を行う。例えば、ＣＰＵ１１１によって「コメント１：これでどうだー！！」が選択される。
【００５５】
図１１は、表情番号毎に選択されたコメントデータ、喜怒レベル及び哀楽レベル、セリフ優先度、最も近い表情番号、近似度をテーブルデータとして示す図である。同様に、表情番号２は、喜怒レベル−４．３及び哀楽レベル６．２であるので、図１０中のテーブルデータの一番下の範囲に該当する。即ち、該当するコメントデータは、「コメント１：何だかすごい自信だ」及び「コメント２：納得できないな」となる。例えば、ＣＰＵ１１１によってランダムで選択を行い、「コメント１：何だかすごい自信だ」が選択される（図１１参照）。また、表情番号Ｎは、近似度が上述した閾値以上であるので（図８参照）、同一のコメント与えるため、ＣＰＵ１１１によって、表情番号２と同じコメントデータが選択される（図１１参照）。また、表情番号２及び表情番号Ｎは、ＣＰＵ１１１によって、同じセリフ優先度である例えば２が選択される。
【００５６】
次に、音声データの作成処理は、ＣＰＵ１１１によって上述したコメントデータに基づいて行われる。例えば、表情番号２及び表情番号Ｎは、同じコメントデータが選択されているので、「コメント１：何だかすごい自信だ」に基づいて、ＣＰＵ１１１は、異なる声色で音声データを２つ作成する。また、図１０に示されるようにテンポ４が該当するので、ＣＰＵ１１１は、予め設定されている早さの１０段階中の４段段階目の早さで音声データの再生を行うように音声データを作成する。また、音の大きさは６が該当するので、ＣＰＵ１１１は、予め設定されている大きさの１０段階中の６段段階目の大きさで再生を行うように音声データを作成する。ＣＰＵ１１１は、表情番号１について、例えば「コメント１：これでどうだー！！」を用いて音声データを合成し、音声データを作成する。また、図１０に示されるように、表情番号１はテンポ８が該当するので、ＣＰＵ１１１は、予め設定されている早さの１０段階中の８段段階目の早さで音声データの再生を行うように音声データを作成する。また、音の大きさは８が該当するので、ＣＰＵ１１１は、予め設定されている大きさの１０段階中の８段段階目の大きさで再生を行うように音声データを作成する。
【００５７】
再生データは、この作成した音声データの基となった画像データ、この画像データが表示されているときに再生する音声データ、そして音声データが複数ある場合は、音声データを再生する優先順位であるセリフ優先度の情報、テンポ情報、音の大きさの情報を関連付けて再生を行うことが可能なデータである。例えば、表情番号２及び表情番号Ｎは、元画像データが表示されている間に、セリフ優先度は２であるので、２番目に異なる声色で音声データが出力されるように設定された再生データを作成する
図１２は、作成された再生データをＬＣＤ１２１及びスピーカ１２８を用いて再生処理を行う状態を模式的に示す図である。ＣＰＵ１１１は、再生データの再生要求を受信すると、ＬＣＤ１２１に元の画像データを表示すると共に、スピーカ１２８からセリフ優先度に従って音声データを順次出力する。例えば、まず、セリフ優先度１である表情番号１の音声データである「これでどうだー！！」が再生される（テンポ８、音の大きさ８）。続いて、セリフ優先度２である表情番号２及び表情番号Ｎの音声データである「何だかすごい自信だ」が２つの声色で同時に再生される（テンポ４、音の大きさ６）。例えば、嬉しいときには、大きな音で比較的早いテンポで再生し、悲しいときには小さな音でゆっくりしたテンポで再生する等を行うことができる。
【００５８】
なお、上述したような再生データをＣＰＵ１１１により順次再生することにより、複数の画像に対して音声データを付して再生することができ、ユーザはスライドショーとしても閲覧することができる。さらに、本発明は、デジタルフォトフレーム、オートコラージュとして利用することもできる。デジタルフォトフレームは、画像データを記憶しておき、記憶した画像データを内蔵する表示モニタ上に表示させる機能を備えた写真立て形状の装置である。また、デジタルフォトフレームは、スピーカを備えており、本実施形態の再生データの作成や再生データの再生処理を行うことができる。また、オートコラージュとは、複数の画像を組み合わせて表示した画像であるフォトモンタージュや画像を順次表示するスライドショーといった画像提示手法である。即ち、表示する画像データは１つに限定されることはなく、複数の画像データを同時に表示するようにしてもよい。
【００５９】
さらに、上述した実施形態では、予め用意しておいたコメントデータから音声データを作成しているが、これに限定されることはない。即ち、画像データを撮影した場合に、録音した音声データを用いることも可能である。また、音声データを音声で出力するだけでなく、吹き出しを表示して吹き出しの中にテキストとして表示するようにしてもよい。
【００６０】
以上、上述した実施形態によれば、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる。このため、閲覧者は、臨場感溢れる画像データを閲覧することができる。
【００６１】
また、本実施形態の画像処理装置はコンピュータ１０によって実現するのみならず、例えば、ＰＤＡ（Personal Digital Assistant）のような様々なコンシューマ画像処理装置によって実現することもできる。さらに、入力制御アプリケーションの機能は、ＤＳＰ、マイクロコンピュータのようなハードウェアによっても実現可能である。
【００６２】
また、本発明は、前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
【符号の説明】
【００６３】
１０…コンピュータ、１１…コンピュータ本体、１２…ディスプレイユニット、２１…電源ボタン、１１１…ＣＰＵ、１２１…ＬＣＤ、１２４…タッチパッド、１２７…カメラ、１２８…スピーカ、２０１…画像処理アプリケーション、２０２…ＯＳ、３００…画像解析部、３０１…音声合成部、３０２…再生データ作成部

【特許請求の範囲】
【請求項１】
複数のコメントデータを記憶する記憶手段と、
画像データに含まれる人物の表情を解析する解析手段と、
前記解析手段によって解析された前記人物の表情に基づいて、前記記憶手段に記憶されている複数のコメントデータから特定のコメントデータを読み出し、当該コメントデータに基づいて音声データを作成する作成手段と、
前記作成手段によって作成された音声データの再生と共に、前記画像データの表示を行うための再生データを出力する出力手段と、
を具備することを特徴とする画像処理装置。
【請求項２】
前記記憶手段には、前記音声データを再生するテンポを示すテンポ情報及び前記音声データを再生する音量を示す音量情報が記憶されており、前記作成手段は、前記人物の表情基づいて、前記記憶手段から該当するテンポ情報及び音量情報を読み出して、読み出したテンポ情報及び音量情報に従って前記コメントデータから音声データを作成することを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記解析手段は、前記人物の人数及び表情の近似度の解析を行い、前記作成手段は、前記人物が複数で且つ前記近似度が閾値以上である場合は、前記記憶手段に記憶されている複数のコメントデータから同じコメントデータを選択して、選択されたコメントデータから前記人物それぞれの声色が異なる音声データを作成することを特徴とする請求項１に記載の画像処理装置。
【請求項４】
前記作成手段は、前記人物が複数である場合、前記人物の表情に基づいて前記人物ごとのコメントデータに優先度を決定し、当該優先度に基づいて、前記音声データを作成することを特徴とする請求項３に記載の画像処理装置。
【請求項５】
前記出力手段は、複数の画送データに関する再生データを連続して出力することによりスライドショーとして出力することを特徴とする請求項１に記載の画像処理装置。
【請求項６】
画像データに音声データを付して再生を行う情報処理装置で用いられる画像処理方法であって、
前記情報処理装置は、複数のコメントデータを記憶し、
画像データに含まれる人物の表情を解析し、
前記解析によって解析された前記人物の表情に基づいて、記憶されている複数のコメントデータから特定のコメントデータを読み出し当該コメントデータに基づいて音声データを作成し、
前記作成された音声データを再生すると共に、前記画像データの再生と共に、前記画像データの表示を行うための再生データを出力することを特徴とする画像処理方法。

【図１】