画像処理装置および画像処理方法
【課題】本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる画像処理装置および画像処理方法を提供する。
【解決手段】予め複数のコメントデータをHDD117に記憶する。画像処理アプリケーション201は、画像データに含まれる人物の表情を解析し、解析された人物情報の表情の解析結果に基づいて、HDD117に記憶されている複数のコメントデータから該当するコメントデータを読み出して音声データを作成し、作成された音声データを再生すると共に、元の画像データの表示を行うための再生データを出力する。
【解決手段】予め複数のコメントデータをHDD117に記憶する。画像処理アプリケーション201は、画像データに含まれる人物の表情を解析し、解析された人物情報の表情の解析結果に基づいて、HDD117に記憶されている複数のコメントデータから該当するコメントデータを読み出して音声データを作成し、作成された音声データを再生すると共に、元の画像データの表示を行うための再生データを出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データに音声コメントデータを付して出力することができる画像処理装置および画像処理方法に関する。
【背景技術】
【0002】
一般に、デジタルカメラの普及にともなって、撮影した画像データ等をアルバム編集するためのアルバム編集支援ソフトウェア等が提供されている。例えば、パーソナルコンピュータにインストールされたアルバム編集支援ソフトウェアは、ユーザが、デジタルカメラ本体やメモリカード、その他MOドライブやフォトCD等の記憶媒体からスチル画像データを取り込んで、簡単にアルバム作製を行うことができる機能を提供する。
【0003】
このようなアルバム編集支援ソフトウェアでは、画像データがリアルなアルバムのようにインデックスを付けて管理されるので、ユーザはマウスを用いて操作することによって簡単にバーチャルなアルバムを開くことができる。また、ユーザは、例えば予め用意されたフォーマットを用いて、あるいはフリーなスタイルで画像データのレイアウトを行うことができる。
【0004】
さらに画像データに対して音声ファイルや音楽ファイルを関連付けることにより、音声や音楽付きのアルバムとして作製し、このようなアルバムの画像を用いて、BGM付きのスライドショーを実演する機能を有するアルバム編集支援ソフトウェアもある。
【0005】
例えば特許文献1には、画像データ近傍に表示される吹き出し内に表示されているコメントが音声出力される技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2003−317074号公報 (図2、段落0038)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1に記載された技術は、吹き出し内に表示されているコメントを単に音声出力するのみであり、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができない。
【0008】
そこで、本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる画像処理装置および画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本発明の一態様によれば、複数のコメントデータを記憶する記憶手段と、画像データに含まれる人物の表情を解析する解析手段と、前記解析手段によって解析された前記人物の表情に基づいて、前記記憶手段に記憶されている複数のコメントデータから特定のコメントデータを読み出し、当該コメントデータに基づいて音声データを作成する作成手段と、前記作成手段によって作成された音声データの再生と共に、前記画像データの表示を行うための再生データを出力する出力手段と、を具備することを特徴とする画像処理装置が提供される。
【0010】
また、本発明の一態様によれば、画像データに音声データを付して再生を行う情報処理装置で用いられる画像処理方法であって、前記情報処理装置は、複数のコメントデータを記憶し、画像データに含まれる人物の表情を解析し、前記解析によって解析された前記人物の表情に基づいて、記憶されている複数のコメントデータから特定のコメントデータを読み出し当該コメントデータに基づいて音声データを作成し、前記作成された音声データを再生すると共に、前記画像データの再生と共に、前記画像データの表示を行うための再生データを出力することを特徴とする画像処理方法が提供される。
【発明の効果】
【0011】
本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施形態に係る画像処理装置の構成を示す図。
【図2】同実施形態に係る画像処理装置の構成の概略を示すブロック図。
【図3】同実施形態に係る画像処理装置の画像処理アプリケーション他の機能構成を示すブロック図。
【図4】同実施形態に係る画像処理装置を適用した画像処理方法を示したフローチャート。
【図5】同実施形態に係る画像処理装置の画像処理アプリケーションが読み込む画像データの一例を模式的に示した図。
【図6】同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベルの設定方法について模式的に示した図。
【図7】同実施形態に係る画像処理装置によって検出された特徴量に基づいて、人物の表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てた場合の一例を模式的に示す図。
【図8】同実施形態に係る画像処理装置で用いられる同じコメントデータを利用するか否かの近似度の閾値を示すテーブルデータを示す図。
【図9】同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベル、セリフ優先度、近似度他の設定方法について模式的に示した図。
【図10】同実施形態に係る画像処理装置のHDDに予め記憶されているデータベースの一例を示す図。
【図11】同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベル、セリフ優先度、近似度、選択されたコメント他の設定方法について模式的に示した図。
【図12】同実施形態に係る画像処理装置によって、再生データをLCD及びスピーカを用いて再生処理を行う状態を模式的に示す図。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態について図面を参照しながら説明する。
【0014】
まず、図1を参照して、本発明の一実施形態に係る画像処理装置の構成を説明する。本実施形態の画像処理装置は、例えば、ノートブック型のパーソナルコンピュータ10として実現されている。なお、本実施形態では、ノートブック型のパーソナルコンピュータ10として説明しているが、これに限定されるものではない。例えば、PDA(Personal Digital Assistant)、ホームサーバ等の機器であってもよい。
【0015】
このコンピュータ10は、撮像装置としてカメラ127を備えている。カメラ127は、CCD(Charge Coupled Device)等の撮像素子を備えており、対象物を撮影して画像データとして記憶する。本実施形態では、カメラ127によって撮影された画像データを用いる例を説明する。なお、画像データは、外部からメモリカード、ケーブル、光ディスク、ネットワーク等を介して取り込んだものでもよく、限定されるものではない。また、カメラ127は、コンピュータ10に内蔵される形態以外にも外部機器としてコンピュータ10と接続する形態とすることもできる。
【0016】
コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12には、タッチパネル機能が内蔵されたLCD(Liquid Crystal Display)121から構成される表示装置が組み込まれており、そのLCD121の表示画面は、ディスプレイユニット12のほぼ中央に位置されている。
【0017】
ディスプレイユニット12は、コンピュータ本体11に対して開放位置と閉塞位置との間を回動自在に取り付けられている。また、ディスプレイユニット12の上部には、上述したカメラ127が内蔵されている。コンピュータ本体11は薄い箱形の筐体を有しており、その上面にはキーボード125、本コンピュータ10を電源オン/オフするための電源ボタン21、および入力ボタン124a、124bを近傍に備えたタッチパッド124などが配置されている。
【0018】
次に、図2を参照して、本コンピュータ10のシステム構成について説明する。
【0019】
本コンピュータ10は、図2に示されているように、CPU111、ノースブリッジ113、グラフィクスコントローラ114、主メモリ112、LCD121、サウスブリッジ116、ハードディスクドライブ(以下、HDDとも称する)117、光ディスクドライブ(以下、ODDとも称する)118、BIOS−ROM119、カメラ127、スピーカ128、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)120、タッチパッド124、キーボード125、電源回路130、バッテリ122およびACアダプタ123等を備えている。
【0020】
CPU111は本コンピュータ10の動作を制御するプロセッサであり、HDD117から主メモリ112にロードされる、オペレーティングシステム(OS)202、および画像処理アプリケーションプログラム201(以下、画像処理アプリケーションとも称する)のような各種アプリケーションプログラムを実行する。画像処理アプリケーションプログラム201は、画像データに写っている人物を解析し、解析した人物の表情や人数等に基づいて、予め用意されているコメントデータから該当するコメントデータを選択し、選択されたコメントデータから合成音声のデータを作成する処理を実行し、さらにその後、元の画像データを表示すると共に作成した音声データを再生する処理を実行するソフトウェアである。
【0021】
ノースブリッジ113はCPU111のローカルバスとサウスブリッジ116との間を接続するブリッジデバイスである。ノースブリッジ113には、主メモリ112をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ113は、グラフィックスコントローラ114を内蔵している。
【0022】
グラフィックスコントローラ114は、本コンピュータ10のディスプレイモニタとして使用されるLCD(ディスプレイ)121を制御する表示コントローラである。このグラフィックスコントローラ114によって生成される表示信号はディスプレイユニット12のLCD121に送られる。
【0023】
サウスブリッジ116は、LPC(Low Pin Count)バス上の各デバイス等を制御する。また、サウスブリッジ116は、HDD117およびODD118を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ116は、サウンドコントローラとの通信を実行する機能も有している。
【0024】
エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)120は、電力管理のためのエンベデッドコントローラと、キーボード(KB)125およびタッチパッド124を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。このエンベデッドコントローラ/キーボードコントローラIC(EC/KBC)120は、ユーザによる電源ボタン21の操作に応じて本コンピュータ10をパワーオン/パワーオフする機能を有している。
【0025】
LCD121は、画像処理アプリケーション201によって作成された再生データ(画像データに音声データが付加されたデータ)をスピーカ128と共に再生するための表示部である。
【0026】
次に、図3は、画像処理アプリケーション201の機能構成他を示したブロック図である。
【0027】
画像処理アプリケーション201は、画像解析部300、音声合成部301、再生データ作成部302を備えている。また、画像解析部300は、顔認識部300a、特徴量検出部300b、近似度演算部300cを備えている。さらに、HDD117は、画像データ記憶領域117a、表情解析用データ記憶領域117b、合成音声データ記憶領域117c、コメントデータ記憶領域117d、再生データ記憶領域117e、閾値記憶領域117fを備えている。
【0028】
画像データ記憶領域117aは、カメラ127で撮影された画像データを記憶する記憶領域である。
【0029】
表情解析用データ記憶領域117bは、人物の表情の解析を行うためのデータベースであり、予め例えば、喜怒哀楽の各表情に対応する表情解析用データ(特徴量)の情報を記憶する記憶領域である。
【0030】
合成音声データ記憶領域117cは、合成音声を作成するための合成音声データを記憶する記憶領域である。
【0031】
コメントデータ記憶領域117dは、人物の喜怒レベル、哀楽レベルに対応するコメントデータを予め記憶する記憶領域である。
【0032】
再生データ記憶領域117eは、後述する再生データ作成部302によって作成された再生データを記憶する記憶領域である。
【0033】
閾値記憶領域117fは、検出された人物が複数人数である場合の同一のセリフを与える近似度の閾値を記憶する記憶領域である。
【0034】
顔認識部300aは、カメラ127で撮影された画像データが記憶されている画像データ記憶領域117aから画像データを読み出して、画像データ内に写っている人物の顔領域を検出する顔認識処理を行う。すなわち、顔認識処理とは、画像データ内に写っている人物の顔領域を検出し、人物の顔として認識する処理のことである。また、顔認識部300aは、顔認識処理において、画像データ内に写っている人物の人数の検出も行う。検出された顔領域及び人数の情報は、特徴量検出部300bに送られる。
【0035】
特徴量検出部300bは、顔認識部300aで検出された人物の顔領域の情報を用いて、顔領域の特徴量(表情等)を検出する。顔領域の特徴量の検出を行う技術としては、例えば、特開2005-31566号公報に開示されているように、画像データ内の顔の特徴点を検出し、検出された特徴点から人物の笑顔度を推定する技術が挙げられる。特徴量検出部300bは、顔領域の特徴量の検出においては、予め表情解析用データを表情解析用データ記憶領域117bに記憶しておき、この表情解析用データを読み出して参照することによって、人物の喜怒レベル、哀楽レベル等を検出する。特徴量検出部300bによって、検出された人物の喜怒レベル、哀楽レベルの情報は、近似度演算部300c及び合成音声部301に送られる。また、特徴量検出部300bによって、顔認識部300aから送られた人物の人数の情報が近似度演算部300cに送られる。
【0036】
近似度演算部300cは、特徴量検出部300bを介して送られた人数の情報によって、人物が複数人数である場合に閾値記憶領域117fに記憶された近似度の閾値に基づいて、人物のそれぞれの近似度を演算する。近似度演算部300cは、例えば、顔認識部300aによって検出された複数人物のそれぞれの喜怒レベル、哀楽レベル等の数値の近いもの同士を検出し、数値が近い程に値が大きくなる近似度を付する処理を行う。喜怒レベル、哀楽レベル等の数値の算出方法は後述する。近似度演算部300cによって演算された近似度の情報は、音声合成部301に送られる。
【0037】
音声合成部301は、特徴量検出部300bによって検出された人物の喜怒レベル、哀楽レベルに基づいて、優先度(以下、セリフ優先度とも称する)を決定する。セリフ優先度とは、音声データを作成した場合に、再生する順序を示す情報であり、喜怒レベル及び哀楽レベルの数値の大小によって決定される。また、音声合成部301は、特徴量検出部300bによって検出された人物の喜怒レベル、哀楽レベルに対応するコメントデータをコメントデータ記憶領域117dから読み出す。さらに、音声合成部301は、合成音声データ記憶領域117cから合成音声データを読み出して、音声データを作成する。なお、顔認識部300aによって検出された人物が複数人数である場合は、音声合成部301は、人物が複数人数であることがわかるように、それぞれの人物に対して異なる声色を用いた、個別の音声データを作成する。
【0038】
また、音声合成部301は、近似度演算部300cによって閾値以上の近似度であると判別された場合は、同じコメントデータを用いて音声データを作成する。この場合も同様に、音声合成部301は、人物が複数人数であることがわかるように、それぞれの人物に対して異なる声色を用いて音声データを作成する。作成した音声データ及び優先度の情報は、音声合成部301によって再生データ作成部302に送られる。なお、近似度の算出方法については、後述する。
【0039】
再生データ作成部302は、音声合成部301から送られた音声データに基づいて、この音声データを音声として再生するための再生データを作成する。再生データは、この作成した音声データの基となった画像データの表示と同期して、音声データに基づいた音声として再生される。なお、再生データ作成部302は、複数人数の音声データを再生する場合は、音声合成部301から送られた優先度の情報に基づいて、順に音声データが再生されるように再生データを作成する。そして、作成された再生データは、再生データ作成部302によって、HDD177に出力され、再生データ記憶領域117eに記憶される。また、画像処理アプリケーション201は、再生データの再生要求に基づいて、再生データ記憶領域117eに記憶された再生データを読み出して、LCD121及びスピーカ128によってこの読み出した再生データの再生を実行する。なお、再生データ作成部302によって作成された再生データをHDD117に記憶せずに、LCD121及びスピーカ128によって再生データの再生を実行することも可能である。
【0040】
次に図4は、本発明の一実施形態に係る画像処理装置を適用した画像処理方法の手順を示すフローチャートである。
【0041】
コンピュータ10のCPU111は、HDD117等に記憶された画像処理アプリケーション201を起動して主メモリ112にロードする。CPU111は、画像処理アプリケーション201と共に、HDD117の画像データ記憶領域117aから画像データの読み込みを実行する(ステップS101)。続いて、CPU111は、読み込んだ画像データの解析処理(人物及び人数の検出)を行う(ステップS102)。CPU111は、画像データの解析処理で人物が検出されたか否かを判別する(ステップS103)。ステップS103で、CPU111によって、画像データの解析処理において人物が検出されたと判別された場合(ステップS103のYES)、CPU111は、各人物ごとに顔領域の特徴量(表情)の検出処理を行う(ステップS104)。顔領域の特徴量の検出は、表情解析用データを読み出して参照することによって、人物の喜怒レベル、哀楽レベル等を検出する。さらに、ステップS104における特徴量の検出処理では、検出された人物の喜怒レベル、哀楽レベルに基づいて上述したセリフ優先度を設定する。一方、ステップS103で、CPU111によって、画像データの解析処理において人物が検出されないと判別された場合(ステップS103のNO)、処理を終了する。
【0042】
続いて、CPU111は、人物の人数の情報に基づいて検出された人物が複数人数であるかを判別する(ステップS105)。ステップS105で、CPU111によって、検出された人物が複数人数であると判別された場合(ステップS105のYES)、CPU111は、検出された人物の喜怒レベル、哀楽レベルに基づいて、それぞれの人物の近似度を検出する(ステップS106)。一方、ステップS105で、CPU111によって、検出された人物が複数人数でないと判別された場合(ステップS105のNO)、ステップS107に遷移する。
【0043】
そして、CPU111は、音声データの作成処理を行う(ステップS107)。音声データの作成処理は、上述した、検出された人物の喜怒レベル及び哀楽レベルの情報、セリフ優先度、近似度に基づいて、該当するコメントデータが選択され、選択されたコメントデータに基づいて行われる(後述)。
【0044】
さらに、CPU111は、再生データの作成処理を行う(ステップS108)。再生データは、この作成した音声データの基となった画像データ、この画像データが表示されているときに再生する音声データ、そして音声データが複数ある場合は、音声データを再生する優先順位であるセリフ優先度の情報、テンポ情報、音の大きさの情報を関連付けて、再生を行うことが可能な状態としたデータである。作成された再生データは、CPU101によって、例えばHDD117の再生データ記憶領域117eに記憶される。
【0045】
次に、以上説明したフローチャートを具体例を用いて説明する。
【0046】
具体的には、CPU111は、画像処理アプリケーション201と共に、HDD117の画像データ記憶領域117aから画像データの読み込みを実行する場合、例えば、図5に示されるように、画像データの読み込みを行う。続いて、CPU111は、読み込んだ画像データの解析処理(人物及び人数の検出)を行う。この場合、CPU111は、図5に示されるように、画像データ内の人物及び人数の検出を行う。例えば、画像データ内の人物として4人の人物が検出された場合は、人物1、2、M、Nと番号(以下、表情番号とも称する)が付される。CPU111によって、人物が検出されたと判別された場合、CPU111は、各人物1、2、M、N毎に特徴量の検出処理を行う。
【0047】
図6は、喜怒レベル及び哀楽レベルの設定方法について模式的に示した図である。例えば、同図に示されるように、喜怒レベル及び哀楽レベルを、例えば、−10.0〜10.0の範囲の数値で割り当てる。この場合、最も喜怒レベル及び哀楽レベルが高い状態として設定する表情に対して、それぞれ喜怒レベル及び哀楽レベル10.0を割り当てる。同様に、最も喜怒レベル及び哀楽レベルが低い状態として設定する表情に対して、それぞれ喜怒レベル及び哀楽レベル−10.0を割り当てる。そして、最も喜怒レベル及び哀楽レベルが低い状態と最も喜怒レベル及び哀楽レベルが高い状態との間を例えば、100等分することで、各喜怒レベル及び哀楽レベルを100段階である−10.0〜10.0の範囲の数値で割り当てる。なお、同図を数値化したデータは、HDD117の表情解析用データ記憶領域117bに記憶される。
【0048】
図7は、検出された特徴量に基づいて、人物1、2、M、Nの表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てた場合の一例を模式的に示す図である。例えば、同図に示されるように、検出された人物の特徴量に基づいて、人物1、2、M、Nの表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てる。例えば、表情番号1の喜怒レベルは8.1、哀楽レベルは9.4として割り当てる。
【0049】
上述したように、各表情番号に対して、喜怒レベル及び哀楽レベルの割り当てが完了した後に、特徴量の検出処理において、セリフ優先度を設定する。このセリフ優先度は、例えば、図7に示されるように、喜怒レベル及び哀楽レベルの数値の大きい表情番号のものから順に1、2、・・・と番号を付する。例えば、喜怒レベル及び哀楽レベルの数値の大きい表情番号1の人物に対してセリフ優先度を1として設定する。
【0050】
また、CPU111によって、検出された人物が複数人数であると判別された場合、CPU111は、人物の近似度を検出する。この場合、近似度は、「1」に近づくほど表情が似ていることを示す。近似度を検出する場合は、上述した喜怒レベル及び哀楽レベルの数値を参照する。喜怒レベル及び哀楽レベルの数値が最も近い表情番号同士を比較することで、0.0〜1.0までの値を付する。例えば、表情番号2と表情番号Nとを比較する場合、喜怒レベル及び哀楽レベルの小さい数値を大きい数値で除算し、平均値を取る。
【0051】
喜怒レベル -4.2/-4.3=0.98、哀楽レベル 6.2/6.3=0.98、平均値=0.98
となり、近似度は、0.98と求められる。求められた近似度に基づいて、CPU111は、最も近い表情番号を決定する。
【0052】
図8は、検出された人物が複数人数である場合の同一のセリフを与える近似度の閾値を示すテーブルデータを示す図である。同図のデータは、HDD117の閾値記憶領域117fに記憶されている。例えば、同図に示されるように、CPU111によって検出された人数が2人であり、そのときの近似度が0.98の場合、閾値は0.98であるので、CPU111は、検出された2人の人物の音声データを作成するために用いるコメントデータに同一のコメントデータを用いる。
【0053】
図9は、表情番号毎に喜怒レベル、哀楽レベル、セリフ優先度、最も近い表情番号、及び近似度を対応づけたテーブルデータを示す図である。例えば、表情番号2及び表情番号Nは、CPU111によって、喜怒レベル及び哀楽レベルから上述したように近似度が0.98と求められる。同様にして、CPU111によって、すべての表情番号同士の組み合わせについて近似度を求める。このようにすることで、CPU111によって、近似度の一番高い(1に近い)表情番号2及び表情番号Nが互いに最も近い表情番号であると判別することができる。
【0054】
図10は、コメントデータ等が予め記憶されているデータベースの一例を示す図である。同図のデータは、HDD117のコメントデータ記憶領域117dに記憶されている。CPU111は、上述した喜怒レベル及び哀楽レベルに基づいて、コメントデータを選択するには、例えば、表情番号1は、喜怒レベル8.1及び哀楽レベル9.4であるので(図9参照)、図10中のテーブルデータの上から2番目の範囲に該当する。即ち、該当するコメントデータは、「コメント1:これでどうだー!!」及び「コメント2:最高!」となる。コメントデータがこのように複数ある場合には、例えば、CPU111によってランダムで選択を行う。例えば、CPU111によって「コメント1:これでどうだー!!」が選択される。
【0055】
図11は、表情番号毎に選択されたコメントデータ、喜怒レベル及び哀楽レベル、セリフ優先度、最も近い表情番号、近似度をテーブルデータとして示す図である。同様に、表情番号2は、喜怒レベル−4.3及び哀楽レベル6.2であるので、図10中のテーブルデータの一番下の範囲に該当する。即ち、該当するコメントデータは、「コメント1:何だかすごい自信だ」及び「コメント2:納得できないな」となる。例えば、CPU111によってランダムで選択を行い、「コメント1:何だかすごい自信だ」が選択される(図11参照)。また、表情番号Nは、近似度が上述した閾値以上であるので(図8参照)、同一のコメント与えるため、CPU111によって、表情番号2と同じコメントデータが選択される(図11参照)。また、表情番号2及び表情番号Nは、CPU111によって、同じセリフ優先度である例えば2が選択される。
【0056】
次に、音声データの作成処理は、CPU111によって上述したコメントデータに基づいて行われる。例えば、表情番号2及び表情番号Nは、同じコメントデータが選択されているので、「コメント1:何だかすごい自信だ」に基づいて、CPU111は、異なる声色で音声データを2つ作成する。また、図10に示されるようにテンポ4が該当するので、CPU111は、予め設定されている早さの10段階中の4段段階目の早さで音声データの再生を行うように音声データを作成する。また、音の大きさは6が該当するので、CPU111は、予め設定されている大きさの10段階中の6段段階目の大きさで再生を行うように音声データを作成する。CPU111は、表情番号1について、例えば「コメント1:これでどうだー!!」を用いて音声データを合成し、音声データを作成する。また、図10に示されるように、表情番号1はテンポ8が該当するので、CPU111は、予め設定されている早さの10段階中の8段段階目の早さで音声データの再生を行うように音声データを作成する。また、音の大きさは8が該当するので、CPU111は、予め設定されている大きさの10段階中の8段段階目の大きさで再生を行うように音声データを作成する。
【0057】
再生データは、この作成した音声データの基となった画像データ、この画像データが表示されているときに再生する音声データ、そして音声データが複数ある場合は、音声データを再生する優先順位であるセリフ優先度の情報、テンポ情報、音の大きさの情報を関連付けて再生を行うことが可能なデータである。例えば、表情番号2及び表情番号Nは、元画像データが表示されている間に、セリフ優先度は2であるので、2番目に異なる声色で音声データが出力されるように設定された再生データを作成する
図12は、作成された再生データをLCD121及びスピーカ128を用いて再生処理を行う状態を模式的に示す図である。CPU111は、再生データの再生要求を受信すると、LCD121に元の画像データを表示すると共に、スピーカ128からセリフ優先度に従って音声データを順次出力する。例えば、まず、セリフ優先度1である表情番号1の音声データである「これでどうだー!!」が再生される(テンポ8、音の大きさ8)。続いて、セリフ優先度2である表情番号2及び表情番号Nの音声データである「何だかすごい自信だ」が2つの声色で同時に再生される(テンポ4、音の大きさ6)。例えば、嬉しいときには、大きな音で比較的早いテンポで再生し、悲しいときには小さな音でゆっくりしたテンポで再生する等を行うことができる。
【0058】
なお、上述したような再生データをCPU111により順次再生することにより、複数の画像に対して音声データを付して再生することができ、ユーザはスライドショーとしても閲覧することができる。さらに、本発明は、デジタルフォトフレーム、オートコラージュとして利用することもできる。デジタルフォトフレームは、画像データを記憶しておき、記憶した画像データを内蔵する表示モニタ上に表示させる機能を備えた写真立て形状の装置である。また、デジタルフォトフレームは、スピーカを備えており、本実施形態の再生データの作成や再生データの再生処理を行うことができる。また、オートコラージュとは、複数の画像を組み合わせて表示した画像であるフォトモンタージュや画像を順次表示するスライドショーといった画像提示手法である。即ち、表示する画像データは1つに限定されることはなく、複数の画像データを同時に表示するようにしてもよい。
【0059】
さらに、上述した実施形態では、予め用意しておいたコメントデータから音声データを作成しているが、これに限定されることはない。即ち、画像データを撮影した場合に、録音した音声データを用いることも可能である。また、音声データを音声で出力するだけでなく、吹き出しを表示して吹き出しの中にテキストとして表示するようにしてもよい。
【0060】
以上、上述した実施形態によれば、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる。このため、閲覧者は、臨場感溢れる画像データを閲覧することができる。
【0061】
また、本実施形態の画像処理装置はコンピュータ10によって実現するのみならず、例えば、PDA(Personal Digital Assistant)のような様々なコンシューマ画像処理装置によって実現することもできる。さらに、入力制御アプリケーションの機能は、DSP、マイクロコンピュータのようなハードウェアによっても実現可能である。
【0062】
また、本発明は、前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
【符号の説明】
【0063】
10…コンピュータ、11…コンピュータ本体、12…ディスプレイユニット、21…電源ボタン、111…CPU、121…LCD、124…タッチパッド、127…カメラ、128…スピーカ、201…画像処理アプリケーション、202…OS、300…画像解析部、301…音声合成部、302…再生データ作成部
【技術分野】
【0001】
本発明は、画像データに音声コメントデータを付して出力することができる画像処理装置および画像処理方法に関する。
【背景技術】
【0002】
一般に、デジタルカメラの普及にともなって、撮影した画像データ等をアルバム編集するためのアルバム編集支援ソフトウェア等が提供されている。例えば、パーソナルコンピュータにインストールされたアルバム編集支援ソフトウェアは、ユーザが、デジタルカメラ本体やメモリカード、その他MOドライブやフォトCD等の記憶媒体からスチル画像データを取り込んで、簡単にアルバム作製を行うことができる機能を提供する。
【0003】
このようなアルバム編集支援ソフトウェアでは、画像データがリアルなアルバムのようにインデックスを付けて管理されるので、ユーザはマウスを用いて操作することによって簡単にバーチャルなアルバムを開くことができる。また、ユーザは、例えば予め用意されたフォーマットを用いて、あるいはフリーなスタイルで画像データのレイアウトを行うことができる。
【0004】
さらに画像データに対して音声ファイルや音楽ファイルを関連付けることにより、音声や音楽付きのアルバムとして作製し、このようなアルバムの画像を用いて、BGM付きのスライドショーを実演する機能を有するアルバム編集支援ソフトウェアもある。
【0005】
例えば特許文献1には、画像データ近傍に表示される吹き出し内に表示されているコメントが音声出力される技術が開示されている。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2003−317074号公報 (図2、段落0038)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1に記載された技術は、吹き出し内に表示されているコメントを単に音声出力するのみであり、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができない。
【0008】
そこで、本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる画像処理装置および画像処理方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するために、本発明の一態様によれば、複数のコメントデータを記憶する記憶手段と、画像データに含まれる人物の表情を解析する解析手段と、前記解析手段によって解析された前記人物の表情に基づいて、前記記憶手段に記憶されている複数のコメントデータから特定のコメントデータを読み出し、当該コメントデータに基づいて音声データを作成する作成手段と、前記作成手段によって作成された音声データの再生と共に、前記画像データの表示を行うための再生データを出力する出力手段と、を具備することを特徴とする画像処理装置が提供される。
【0010】
また、本発明の一態様によれば、画像データに音声データを付して再生を行う情報処理装置で用いられる画像処理方法であって、前記情報処理装置は、複数のコメントデータを記憶し、画像データに含まれる人物の表情を解析し、前記解析によって解析された前記人物の表情に基づいて、記憶されている複数のコメントデータから特定のコメントデータを読み出し当該コメントデータに基づいて音声データを作成し、前記作成された音声データを再生すると共に、前記画像データの再生と共に、前記画像データの表示を行うための再生データを出力することを特徴とする画像処理方法が提供される。
【発明の効果】
【0011】
本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる。
【図面の簡単な説明】
【0012】
【図1】本発明の一実施形態に係る画像処理装置の構成を示す図。
【図2】同実施形態に係る画像処理装置の構成の概略を示すブロック図。
【図3】同実施形態に係る画像処理装置の画像処理アプリケーション他の機能構成を示すブロック図。
【図4】同実施形態に係る画像処理装置を適用した画像処理方法を示したフローチャート。
【図5】同実施形態に係る画像処理装置の画像処理アプリケーションが読み込む画像データの一例を模式的に示した図。
【図6】同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベルの設定方法について模式的に示した図。
【図7】同実施形態に係る画像処理装置によって検出された特徴量に基づいて、人物の表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てた場合の一例を模式的に示す図。
【図8】同実施形態に係る画像処理装置で用いられる同じコメントデータを利用するか否かの近似度の閾値を示すテーブルデータを示す図。
【図9】同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベル、セリフ優先度、近似度他の設定方法について模式的に示した図。
【図10】同実施形態に係る画像処理装置のHDDに予め記憶されているデータベースの一例を示す図。
【図11】同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベル、セリフ優先度、近似度、選択されたコメント他の設定方法について模式的に示した図。
【図12】同実施形態に係る画像処理装置によって、再生データをLCD及びスピーカを用いて再生処理を行う状態を模式的に示す図。
【発明を実施するための形態】
【0013】
以下、本発明の一実施形態について図面を参照しながら説明する。
【0014】
まず、図1を参照して、本発明の一実施形態に係る画像処理装置の構成を説明する。本実施形態の画像処理装置は、例えば、ノートブック型のパーソナルコンピュータ10として実現されている。なお、本実施形態では、ノートブック型のパーソナルコンピュータ10として説明しているが、これに限定されるものではない。例えば、PDA(Personal Digital Assistant)、ホームサーバ等の機器であってもよい。
【0015】
このコンピュータ10は、撮像装置としてカメラ127を備えている。カメラ127は、CCD(Charge Coupled Device)等の撮像素子を備えており、対象物を撮影して画像データとして記憶する。本実施形態では、カメラ127によって撮影された画像データを用いる例を説明する。なお、画像データは、外部からメモリカード、ケーブル、光ディスク、ネットワーク等を介して取り込んだものでもよく、限定されるものではない。また、カメラ127は、コンピュータ10に内蔵される形態以外にも外部機器としてコンピュータ10と接続する形態とすることもできる。
【0016】
コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12には、タッチパネル機能が内蔵されたLCD(Liquid Crystal Display)121から構成される表示装置が組み込まれており、そのLCD121の表示画面は、ディスプレイユニット12のほぼ中央に位置されている。
【0017】
ディスプレイユニット12は、コンピュータ本体11に対して開放位置と閉塞位置との間を回動自在に取り付けられている。また、ディスプレイユニット12の上部には、上述したカメラ127が内蔵されている。コンピュータ本体11は薄い箱形の筐体を有しており、その上面にはキーボード125、本コンピュータ10を電源オン/オフするための電源ボタン21、および入力ボタン124a、124bを近傍に備えたタッチパッド124などが配置されている。
【0018】
次に、図2を参照して、本コンピュータ10のシステム構成について説明する。
【0019】
本コンピュータ10は、図2に示されているように、CPU111、ノースブリッジ113、グラフィクスコントローラ114、主メモリ112、LCD121、サウスブリッジ116、ハードディスクドライブ(以下、HDDとも称する)117、光ディスクドライブ(以下、ODDとも称する)118、BIOS−ROM119、カメラ127、スピーカ128、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)120、タッチパッド124、キーボード125、電源回路130、バッテリ122およびACアダプタ123等を備えている。
【0020】
CPU111は本コンピュータ10の動作を制御するプロセッサであり、HDD117から主メモリ112にロードされる、オペレーティングシステム(OS)202、および画像処理アプリケーションプログラム201(以下、画像処理アプリケーションとも称する)のような各種アプリケーションプログラムを実行する。画像処理アプリケーションプログラム201は、画像データに写っている人物を解析し、解析した人物の表情や人数等に基づいて、予め用意されているコメントデータから該当するコメントデータを選択し、選択されたコメントデータから合成音声のデータを作成する処理を実行し、さらにその後、元の画像データを表示すると共に作成した音声データを再生する処理を実行するソフトウェアである。
【0021】
ノースブリッジ113はCPU111のローカルバスとサウスブリッジ116との間を接続するブリッジデバイスである。ノースブリッジ113には、主メモリ112をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ113は、グラフィックスコントローラ114を内蔵している。
【0022】
グラフィックスコントローラ114は、本コンピュータ10のディスプレイモニタとして使用されるLCD(ディスプレイ)121を制御する表示コントローラである。このグラフィックスコントローラ114によって生成される表示信号はディスプレイユニット12のLCD121に送られる。
【0023】
サウスブリッジ116は、LPC(Low Pin Count)バス上の各デバイス等を制御する。また、サウスブリッジ116は、HDD117およびODD118を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ116は、サウンドコントローラとの通信を実行する機能も有している。
【0024】
エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)120は、電力管理のためのエンベデッドコントローラと、キーボード(KB)125およびタッチパッド124を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。このエンベデッドコントローラ/キーボードコントローラIC(EC/KBC)120は、ユーザによる電源ボタン21の操作に応じて本コンピュータ10をパワーオン/パワーオフする機能を有している。
【0025】
LCD121は、画像処理アプリケーション201によって作成された再生データ(画像データに音声データが付加されたデータ)をスピーカ128と共に再生するための表示部である。
【0026】
次に、図3は、画像処理アプリケーション201の機能構成他を示したブロック図である。
【0027】
画像処理アプリケーション201は、画像解析部300、音声合成部301、再生データ作成部302を備えている。また、画像解析部300は、顔認識部300a、特徴量検出部300b、近似度演算部300cを備えている。さらに、HDD117は、画像データ記憶領域117a、表情解析用データ記憶領域117b、合成音声データ記憶領域117c、コメントデータ記憶領域117d、再生データ記憶領域117e、閾値記憶領域117fを備えている。
【0028】
画像データ記憶領域117aは、カメラ127で撮影された画像データを記憶する記憶領域である。
【0029】
表情解析用データ記憶領域117bは、人物の表情の解析を行うためのデータベースであり、予め例えば、喜怒哀楽の各表情に対応する表情解析用データ(特徴量)の情報を記憶する記憶領域である。
【0030】
合成音声データ記憶領域117cは、合成音声を作成するための合成音声データを記憶する記憶領域である。
【0031】
コメントデータ記憶領域117dは、人物の喜怒レベル、哀楽レベルに対応するコメントデータを予め記憶する記憶領域である。
【0032】
再生データ記憶領域117eは、後述する再生データ作成部302によって作成された再生データを記憶する記憶領域である。
【0033】
閾値記憶領域117fは、検出された人物が複数人数である場合の同一のセリフを与える近似度の閾値を記憶する記憶領域である。
【0034】
顔認識部300aは、カメラ127で撮影された画像データが記憶されている画像データ記憶領域117aから画像データを読み出して、画像データ内に写っている人物の顔領域を検出する顔認識処理を行う。すなわち、顔認識処理とは、画像データ内に写っている人物の顔領域を検出し、人物の顔として認識する処理のことである。また、顔認識部300aは、顔認識処理において、画像データ内に写っている人物の人数の検出も行う。検出された顔領域及び人数の情報は、特徴量検出部300bに送られる。
【0035】
特徴量検出部300bは、顔認識部300aで検出された人物の顔領域の情報を用いて、顔領域の特徴量(表情等)を検出する。顔領域の特徴量の検出を行う技術としては、例えば、特開2005-31566号公報に開示されているように、画像データ内の顔の特徴点を検出し、検出された特徴点から人物の笑顔度を推定する技術が挙げられる。特徴量検出部300bは、顔領域の特徴量の検出においては、予め表情解析用データを表情解析用データ記憶領域117bに記憶しておき、この表情解析用データを読み出して参照することによって、人物の喜怒レベル、哀楽レベル等を検出する。特徴量検出部300bによって、検出された人物の喜怒レベル、哀楽レベルの情報は、近似度演算部300c及び合成音声部301に送られる。また、特徴量検出部300bによって、顔認識部300aから送られた人物の人数の情報が近似度演算部300cに送られる。
【0036】
近似度演算部300cは、特徴量検出部300bを介して送られた人数の情報によって、人物が複数人数である場合に閾値記憶領域117fに記憶された近似度の閾値に基づいて、人物のそれぞれの近似度を演算する。近似度演算部300cは、例えば、顔認識部300aによって検出された複数人物のそれぞれの喜怒レベル、哀楽レベル等の数値の近いもの同士を検出し、数値が近い程に値が大きくなる近似度を付する処理を行う。喜怒レベル、哀楽レベル等の数値の算出方法は後述する。近似度演算部300cによって演算された近似度の情報は、音声合成部301に送られる。
【0037】
音声合成部301は、特徴量検出部300bによって検出された人物の喜怒レベル、哀楽レベルに基づいて、優先度(以下、セリフ優先度とも称する)を決定する。セリフ優先度とは、音声データを作成した場合に、再生する順序を示す情報であり、喜怒レベル及び哀楽レベルの数値の大小によって決定される。また、音声合成部301は、特徴量検出部300bによって検出された人物の喜怒レベル、哀楽レベルに対応するコメントデータをコメントデータ記憶領域117dから読み出す。さらに、音声合成部301は、合成音声データ記憶領域117cから合成音声データを読み出して、音声データを作成する。なお、顔認識部300aによって検出された人物が複数人数である場合は、音声合成部301は、人物が複数人数であることがわかるように、それぞれの人物に対して異なる声色を用いた、個別の音声データを作成する。
【0038】
また、音声合成部301は、近似度演算部300cによって閾値以上の近似度であると判別された場合は、同じコメントデータを用いて音声データを作成する。この場合も同様に、音声合成部301は、人物が複数人数であることがわかるように、それぞれの人物に対して異なる声色を用いて音声データを作成する。作成した音声データ及び優先度の情報は、音声合成部301によって再生データ作成部302に送られる。なお、近似度の算出方法については、後述する。
【0039】
再生データ作成部302は、音声合成部301から送られた音声データに基づいて、この音声データを音声として再生するための再生データを作成する。再生データは、この作成した音声データの基となった画像データの表示と同期して、音声データに基づいた音声として再生される。なお、再生データ作成部302は、複数人数の音声データを再生する場合は、音声合成部301から送られた優先度の情報に基づいて、順に音声データが再生されるように再生データを作成する。そして、作成された再生データは、再生データ作成部302によって、HDD177に出力され、再生データ記憶領域117eに記憶される。また、画像処理アプリケーション201は、再生データの再生要求に基づいて、再生データ記憶領域117eに記憶された再生データを読み出して、LCD121及びスピーカ128によってこの読み出した再生データの再生を実行する。なお、再生データ作成部302によって作成された再生データをHDD117に記憶せずに、LCD121及びスピーカ128によって再生データの再生を実行することも可能である。
【0040】
次に図4は、本発明の一実施形態に係る画像処理装置を適用した画像処理方法の手順を示すフローチャートである。
【0041】
コンピュータ10のCPU111は、HDD117等に記憶された画像処理アプリケーション201を起動して主メモリ112にロードする。CPU111は、画像処理アプリケーション201と共に、HDD117の画像データ記憶領域117aから画像データの読み込みを実行する(ステップS101)。続いて、CPU111は、読み込んだ画像データの解析処理(人物及び人数の検出)を行う(ステップS102)。CPU111は、画像データの解析処理で人物が検出されたか否かを判別する(ステップS103)。ステップS103で、CPU111によって、画像データの解析処理において人物が検出されたと判別された場合(ステップS103のYES)、CPU111は、各人物ごとに顔領域の特徴量(表情)の検出処理を行う(ステップS104)。顔領域の特徴量の検出は、表情解析用データを読み出して参照することによって、人物の喜怒レベル、哀楽レベル等を検出する。さらに、ステップS104における特徴量の検出処理では、検出された人物の喜怒レベル、哀楽レベルに基づいて上述したセリフ優先度を設定する。一方、ステップS103で、CPU111によって、画像データの解析処理において人物が検出されないと判別された場合(ステップS103のNO)、処理を終了する。
【0042】
続いて、CPU111は、人物の人数の情報に基づいて検出された人物が複数人数であるかを判別する(ステップS105)。ステップS105で、CPU111によって、検出された人物が複数人数であると判別された場合(ステップS105のYES)、CPU111は、検出された人物の喜怒レベル、哀楽レベルに基づいて、それぞれの人物の近似度を検出する(ステップS106)。一方、ステップS105で、CPU111によって、検出された人物が複数人数でないと判別された場合(ステップS105のNO)、ステップS107に遷移する。
【0043】
そして、CPU111は、音声データの作成処理を行う(ステップS107)。音声データの作成処理は、上述した、検出された人物の喜怒レベル及び哀楽レベルの情報、セリフ優先度、近似度に基づいて、該当するコメントデータが選択され、選択されたコメントデータに基づいて行われる(後述)。
【0044】
さらに、CPU111は、再生データの作成処理を行う(ステップS108)。再生データは、この作成した音声データの基となった画像データ、この画像データが表示されているときに再生する音声データ、そして音声データが複数ある場合は、音声データを再生する優先順位であるセリフ優先度の情報、テンポ情報、音の大きさの情報を関連付けて、再生を行うことが可能な状態としたデータである。作成された再生データは、CPU101によって、例えばHDD117の再生データ記憶領域117eに記憶される。
【0045】
次に、以上説明したフローチャートを具体例を用いて説明する。
【0046】
具体的には、CPU111は、画像処理アプリケーション201と共に、HDD117の画像データ記憶領域117aから画像データの読み込みを実行する場合、例えば、図5に示されるように、画像データの読み込みを行う。続いて、CPU111は、読み込んだ画像データの解析処理(人物及び人数の検出)を行う。この場合、CPU111は、図5に示されるように、画像データ内の人物及び人数の検出を行う。例えば、画像データ内の人物として4人の人物が検出された場合は、人物1、2、M、Nと番号(以下、表情番号とも称する)が付される。CPU111によって、人物が検出されたと判別された場合、CPU111は、各人物1、2、M、N毎に特徴量の検出処理を行う。
【0047】
図6は、喜怒レベル及び哀楽レベルの設定方法について模式的に示した図である。例えば、同図に示されるように、喜怒レベル及び哀楽レベルを、例えば、−10.0〜10.0の範囲の数値で割り当てる。この場合、最も喜怒レベル及び哀楽レベルが高い状態として設定する表情に対して、それぞれ喜怒レベル及び哀楽レベル10.0を割り当てる。同様に、最も喜怒レベル及び哀楽レベルが低い状態として設定する表情に対して、それぞれ喜怒レベル及び哀楽レベル−10.0を割り当てる。そして、最も喜怒レベル及び哀楽レベルが低い状態と最も喜怒レベル及び哀楽レベルが高い状態との間を例えば、100等分することで、各喜怒レベル及び哀楽レベルを100段階である−10.0〜10.0の範囲の数値で割り当てる。なお、同図を数値化したデータは、HDD117の表情解析用データ記憶領域117bに記憶される。
【0048】
図7は、検出された特徴量に基づいて、人物1、2、M、Nの表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てた場合の一例を模式的に示す図である。例えば、同図に示されるように、検出された人物の特徴量に基づいて、人物1、2、M、Nの表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てる。例えば、表情番号1の喜怒レベルは8.1、哀楽レベルは9.4として割り当てる。
【0049】
上述したように、各表情番号に対して、喜怒レベル及び哀楽レベルの割り当てが完了した後に、特徴量の検出処理において、セリフ優先度を設定する。このセリフ優先度は、例えば、図7に示されるように、喜怒レベル及び哀楽レベルの数値の大きい表情番号のものから順に1、2、・・・と番号を付する。例えば、喜怒レベル及び哀楽レベルの数値の大きい表情番号1の人物に対してセリフ優先度を1として設定する。
【0050】
また、CPU111によって、検出された人物が複数人数であると判別された場合、CPU111は、人物の近似度を検出する。この場合、近似度は、「1」に近づくほど表情が似ていることを示す。近似度を検出する場合は、上述した喜怒レベル及び哀楽レベルの数値を参照する。喜怒レベル及び哀楽レベルの数値が最も近い表情番号同士を比較することで、0.0〜1.0までの値を付する。例えば、表情番号2と表情番号Nとを比較する場合、喜怒レベル及び哀楽レベルの小さい数値を大きい数値で除算し、平均値を取る。
【0051】
喜怒レベル -4.2/-4.3=0.98、哀楽レベル 6.2/6.3=0.98、平均値=0.98
となり、近似度は、0.98と求められる。求められた近似度に基づいて、CPU111は、最も近い表情番号を決定する。
【0052】
図8は、検出された人物が複数人数である場合の同一のセリフを与える近似度の閾値を示すテーブルデータを示す図である。同図のデータは、HDD117の閾値記憶領域117fに記憶されている。例えば、同図に示されるように、CPU111によって検出された人数が2人であり、そのときの近似度が0.98の場合、閾値は0.98であるので、CPU111は、検出された2人の人物の音声データを作成するために用いるコメントデータに同一のコメントデータを用いる。
【0053】
図9は、表情番号毎に喜怒レベル、哀楽レベル、セリフ優先度、最も近い表情番号、及び近似度を対応づけたテーブルデータを示す図である。例えば、表情番号2及び表情番号Nは、CPU111によって、喜怒レベル及び哀楽レベルから上述したように近似度が0.98と求められる。同様にして、CPU111によって、すべての表情番号同士の組み合わせについて近似度を求める。このようにすることで、CPU111によって、近似度の一番高い(1に近い)表情番号2及び表情番号Nが互いに最も近い表情番号であると判別することができる。
【0054】
図10は、コメントデータ等が予め記憶されているデータベースの一例を示す図である。同図のデータは、HDD117のコメントデータ記憶領域117dに記憶されている。CPU111は、上述した喜怒レベル及び哀楽レベルに基づいて、コメントデータを選択するには、例えば、表情番号1は、喜怒レベル8.1及び哀楽レベル9.4であるので(図9参照)、図10中のテーブルデータの上から2番目の範囲に該当する。即ち、該当するコメントデータは、「コメント1:これでどうだー!!」及び「コメント2:最高!」となる。コメントデータがこのように複数ある場合には、例えば、CPU111によってランダムで選択を行う。例えば、CPU111によって「コメント1:これでどうだー!!」が選択される。
【0055】
図11は、表情番号毎に選択されたコメントデータ、喜怒レベル及び哀楽レベル、セリフ優先度、最も近い表情番号、近似度をテーブルデータとして示す図である。同様に、表情番号2は、喜怒レベル−4.3及び哀楽レベル6.2であるので、図10中のテーブルデータの一番下の範囲に該当する。即ち、該当するコメントデータは、「コメント1:何だかすごい自信だ」及び「コメント2:納得できないな」となる。例えば、CPU111によってランダムで選択を行い、「コメント1:何だかすごい自信だ」が選択される(図11参照)。また、表情番号Nは、近似度が上述した閾値以上であるので(図8参照)、同一のコメント与えるため、CPU111によって、表情番号2と同じコメントデータが選択される(図11参照)。また、表情番号2及び表情番号Nは、CPU111によって、同じセリフ優先度である例えば2が選択される。
【0056】
次に、音声データの作成処理は、CPU111によって上述したコメントデータに基づいて行われる。例えば、表情番号2及び表情番号Nは、同じコメントデータが選択されているので、「コメント1:何だかすごい自信だ」に基づいて、CPU111は、異なる声色で音声データを2つ作成する。また、図10に示されるようにテンポ4が該当するので、CPU111は、予め設定されている早さの10段階中の4段段階目の早さで音声データの再生を行うように音声データを作成する。また、音の大きさは6が該当するので、CPU111は、予め設定されている大きさの10段階中の6段段階目の大きさで再生を行うように音声データを作成する。CPU111は、表情番号1について、例えば「コメント1:これでどうだー!!」を用いて音声データを合成し、音声データを作成する。また、図10に示されるように、表情番号1はテンポ8が該当するので、CPU111は、予め設定されている早さの10段階中の8段段階目の早さで音声データの再生を行うように音声データを作成する。また、音の大きさは8が該当するので、CPU111は、予め設定されている大きさの10段階中の8段段階目の大きさで再生を行うように音声データを作成する。
【0057】
再生データは、この作成した音声データの基となった画像データ、この画像データが表示されているときに再生する音声データ、そして音声データが複数ある場合は、音声データを再生する優先順位であるセリフ優先度の情報、テンポ情報、音の大きさの情報を関連付けて再生を行うことが可能なデータである。例えば、表情番号2及び表情番号Nは、元画像データが表示されている間に、セリフ優先度は2であるので、2番目に異なる声色で音声データが出力されるように設定された再生データを作成する
図12は、作成された再生データをLCD121及びスピーカ128を用いて再生処理を行う状態を模式的に示す図である。CPU111は、再生データの再生要求を受信すると、LCD121に元の画像データを表示すると共に、スピーカ128からセリフ優先度に従って音声データを順次出力する。例えば、まず、セリフ優先度1である表情番号1の音声データである「これでどうだー!!」が再生される(テンポ8、音の大きさ8)。続いて、セリフ優先度2である表情番号2及び表情番号Nの音声データである「何だかすごい自信だ」が2つの声色で同時に再生される(テンポ4、音の大きさ6)。例えば、嬉しいときには、大きな音で比較的早いテンポで再生し、悲しいときには小さな音でゆっくりしたテンポで再生する等を行うことができる。
【0058】
なお、上述したような再生データをCPU111により順次再生することにより、複数の画像に対して音声データを付して再生することができ、ユーザはスライドショーとしても閲覧することができる。さらに、本発明は、デジタルフォトフレーム、オートコラージュとして利用することもできる。デジタルフォトフレームは、画像データを記憶しておき、記憶した画像データを内蔵する表示モニタ上に表示させる機能を備えた写真立て形状の装置である。また、デジタルフォトフレームは、スピーカを備えており、本実施形態の再生データの作成や再生データの再生処理を行うことができる。また、オートコラージュとは、複数の画像を組み合わせて表示した画像であるフォトモンタージュや画像を順次表示するスライドショーといった画像提示手法である。即ち、表示する画像データは1つに限定されることはなく、複数の画像データを同時に表示するようにしてもよい。
【0059】
さらに、上述した実施形態では、予め用意しておいたコメントデータから音声データを作成しているが、これに限定されることはない。即ち、画像データを撮影した場合に、録音した音声データを用いることも可能である。また、音声データを音声で出力するだけでなく、吹き出しを表示して吹き出しの中にテキストとして表示するようにしてもよい。
【0060】
以上、上述した実施形態によれば、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる。このため、閲覧者は、臨場感溢れる画像データを閲覧することができる。
【0061】
また、本実施形態の画像処理装置はコンピュータ10によって実現するのみならず、例えば、PDA(Personal Digital Assistant)のような様々なコンシューマ画像処理装置によって実現することもできる。さらに、入力制御アプリケーションの機能は、DSP、マイクロコンピュータのようなハードウェアによっても実現可能である。
【0062】
また、本発明は、前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
【符号の説明】
【0063】
10…コンピュータ、11…コンピュータ本体、12…ディスプレイユニット、21…電源ボタン、111…CPU、121…LCD、124…タッチパッド、127…カメラ、128…スピーカ、201…画像処理アプリケーション、202…OS、300…画像解析部、301…音声合成部、302…再生データ作成部
【特許請求の範囲】
【請求項1】
複数のコメントデータを記憶する記憶手段と、
画像データに含まれる人物の表情を解析する解析手段と、
前記解析手段によって解析された前記人物の表情に基づいて、前記記憶手段に記憶されている複数のコメントデータから特定のコメントデータを読み出し、当該コメントデータに基づいて音声データを作成する作成手段と、
前記作成手段によって作成された音声データの再生と共に、前記画像データの表示を行うための再生データを出力する出力手段と、
を具備することを特徴とする画像処理装置。
【請求項2】
前記記憶手段には、前記音声データを再生するテンポを示すテンポ情報及び前記音声データを再生する音量を示す音量情報が記憶されており、前記作成手段は、前記人物の表情基づいて、前記記憶手段から該当するテンポ情報及び音量情報を読み出して、読み出したテンポ情報及び音量情報に従って前記コメントデータから音声データを作成することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記解析手段は、前記人物の人数及び表情の近似度の解析を行い、前記作成手段は、前記人物が複数で且つ前記近似度が閾値以上である場合は、前記記憶手段に記憶されている複数のコメントデータから同じコメントデータを選択して、選択されたコメントデータから前記人物それぞれの声色が異なる音声データを作成することを特徴とする請求項1に記載の画像処理装置。
【請求項4】
前記作成手段は、前記人物が複数である場合、前記人物の表情に基づいて前記人物ごとのコメントデータに優先度を決定し、当該優先度に基づいて、前記音声データを作成することを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記出力手段は、複数の画送データに関する再生データを連続して出力することによりスライドショーとして出力することを特徴とする請求項1に記載の画像処理装置。
【請求項6】
画像データに音声データを付して再生を行う情報処理装置で用いられる画像処理方法であって、
前記情報処理装置は、複数のコメントデータを記憶し、
画像データに含まれる人物の表情を解析し、
前記解析によって解析された前記人物の表情に基づいて、記憶されている複数のコメントデータから特定のコメントデータを読み出し当該コメントデータに基づいて音声データを作成し、
前記作成された音声データを再生すると共に、前記画像データの再生と共に、前記画像データの表示を行うための再生データを出力することを特徴とする画像処理方法。
【請求項1】
複数のコメントデータを記憶する記憶手段と、
画像データに含まれる人物の表情を解析する解析手段と、
前記解析手段によって解析された前記人物の表情に基づいて、前記記憶手段に記憶されている複数のコメントデータから特定のコメントデータを読み出し、当該コメントデータに基づいて音声データを作成する作成手段と、
前記作成手段によって作成された音声データの再生と共に、前記画像データの表示を行うための再生データを出力する出力手段と、
を具備することを特徴とする画像処理装置。
【請求項2】
前記記憶手段には、前記音声データを再生するテンポを示すテンポ情報及び前記音声データを再生する音量を示す音量情報が記憶されており、前記作成手段は、前記人物の表情基づいて、前記記憶手段から該当するテンポ情報及び音量情報を読み出して、読み出したテンポ情報及び音量情報に従って前記コメントデータから音声データを作成することを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記解析手段は、前記人物の人数及び表情の近似度の解析を行い、前記作成手段は、前記人物が複数で且つ前記近似度が閾値以上である場合は、前記記憶手段に記憶されている複数のコメントデータから同じコメントデータを選択して、選択されたコメントデータから前記人物それぞれの声色が異なる音声データを作成することを特徴とする請求項1に記載の画像処理装置。
【請求項4】
前記作成手段は、前記人物が複数である場合、前記人物の表情に基づいて前記人物ごとのコメントデータに優先度を決定し、当該優先度に基づいて、前記音声データを作成することを特徴とする請求項3に記載の画像処理装置。
【請求項5】
前記出力手段は、複数の画送データに関する再生データを連続して出力することによりスライドショーとして出力することを特徴とする請求項1に記載の画像処理装置。
【請求項6】
画像データに音声データを付して再生を行う情報処理装置で用いられる画像処理方法であって、
前記情報処理装置は、複数のコメントデータを記憶し、
画像データに含まれる人物の表情を解析し、
前記解析によって解析された前記人物の表情に基づいて、記憶されている複数のコメントデータから特定のコメントデータを読み出し当該コメントデータに基づいて音声データを作成し、
前記作成された音声データを再生すると共に、前記画像データの再生と共に、前記画像データの表示を行うための再生データを出力することを特徴とする画像処理方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2011−13384(P2011−13384A)
【公開日】平成23年1月20日(2011.1.20)
【国際特許分類】
【出願番号】特願2009−156273(P2009−156273)
【出願日】平成21年6月30日(2009.6.30)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成23年1月20日(2011.1.20)
【国際特許分類】
【出願日】平成21年6月30日(2009.6.30)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]