画像表示システム、画像表示装置、画像表示方法及びプログラム

【課題】スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させること。
【解決手段】送信元のデジタルフォトフレーム１０に入力された音声に基づいて、発話側情報特定処理が実行され、その結果である発話側情報が、送信先のデジタルフォトフレーム１０に送信される。例えば、送信元のデジタルフォトフレーム１０−２に孫Ａが話しかけると、デジタルフォトフレーム１０−２において、発話側情報特定処理が実行され、孫Ａが認識される。そして、デジタルフォトフレーム１０−２から、送信先であるデジタルフォトフレーム１０−１に孫Ａの話者ＩＤが送信される。デジタルフォトフレーム１０−１では、受信した話者ＩＤに基づいて、画像表示処理が実行され、孫Ａの画像データが表示される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像表示システム、画像表示装置、画像表示方法及びプログラムに関する。
【背景技術】
【０００２】
近年、メモリに記憶されている画像ファイルを順次切り替えて読み出して、対応する画像を表示するスライドショー表示機能を備えたデジタルフォトフレーム（Ｄｉｇｉｔａｌ
ＰｈｏｔｏＦｒａｍｅ）が登場してきている（例えば、特許文献１参照）。
【０００３】
このようなデジタルフォトフレームにおいては、スライドショーにおける画像の表示形態等に種々の機能が付加され、利便性の向上が図られている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２０１０−２４３７２３号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、特許文献１に記載の技術を含め、従来のデジタルフォトフレーム等の画像表示装置におけるスライドショー表示では、画像表示装置単体の機能について向上が図られているものの、複数の画像表示装置が連携した場合に提供できる機能については、十分な検討がなされていなかった。例えば、離れた場所に位置するユーザがコミュニケーションを図る上で、デジタルフォトフレームが提供できる機能は十分なものでなかった。
【０００６】
本発明は、このような状況に鑑みてなされたものであり、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることを目的とする。
【課題を解決するための手段】
【０００７】
上記目的を達成するため、本発明の一態様の画像表示システムは、
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する第１の画像表示装置及び第２の画像表示装置を含む画像表示システムであって、
前記第１の画像表示装置は、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を前記第２の画像表示装置に送信する発話側情報送信手段と、
を備え、
前記第２の画像表示装置は、
前記発話側情報を受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする。
【発明の効果】
【０００８】
本発明によれば、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることが可能となる。
【図面の簡単な説明】
【０００９】
【図１】本発明の画像表示システムに係る一実施形態としてのデジタルフォトフレームシステムの構成を示す図である。
【図２】本発明の第１実施形態に係るデジタルフォトフレームのハードウェアの構成を示すブロック図である。
【図３】第１実施形態のデジタルフォトフレームにおいて、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
【図４】発話側情報データベースのデータ構造を示す図である。
【図５】画像データベースのデータ構造を示す図である。
【図６】図３の機能的構成を有する図２のデジタルフォトフレームが実行する発話側情報特定処理の流れを説明するフローチャートである。
【図７】図３の機能的構成のデジタルフォトフレームが実行する画像表示処理の流れを説明するフローチャートである。
【図８】図３の機能的構成のデジタルフォトフレームが実行する音声送信処理の流れを説明するフローチャートである。
【図９】第２実施形態のデジタルフォトフレームにおいて、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
【図１０】発話側情報データベースのデータ構造を示す図である。
【図１１】画像データベースのデータ構造を示す図である。
【図１２】図９の機能的構成を有する図２のデジタルフォトフレームが実行する発話側情報特定処理の流れを示すフローチャートである。
【図１３】図３の機能的構成のデジタルフォトフレームが実行する画像表示処理の流れを説明するフローチャートである。
【図１４】図３あるいは図９の機能的構成を有する図２のデジタルフォトフレームが実行する情報特定表示処理の流れを説明するフローチャートである。
【発明を実施するための形態】
【００１０】
以下、図面に基づいて、本発明の画像表示システムの第１実施形態及び第２実施形態について説明する。
［第１実施形態］
［画像表示システムの構成］
【００１１】
本実施形態に係る画像表示システムでは、第１の画像表示装置において、発話側情報（ここでは話者）が特定され、特定された発話側情報は、第２の画像表示装置に送信される。発話側情報を受信した第２の画像表示装置では、受信した発話側情報に基づいて、スライドショー表示において、発話側情報において特定されている情報（ここでは話者）に対応する画像を表示する。そして、第２の画像表示装置において、表示されている画像に話しかけることにより、第２の画像表示装置から第１の画像表示装置に音声が送信される。これにより、離れた場所に位置するユーザが、あたかも同じ場所にいるかのように、画像と音声とを介してコミュニケーションを図ることができる。
【００１２】
図１は、本発明の画像表示システムに係る一実施形態としてのデジタルフォトフレームシステム１の構成を示している。図１では、本発明の画像表示装置の一例として、デジタルフォトフレーム１０−１〜１０−３が示されている。
デジタルフォトフレームシステム１は、図１の例では３つのデジタルフォトフレーム１０−１〜１０−３がネットワーク（図示せず）を介して接続されることにより構成されている。各デジタルフォトフレーム１０−１〜１０−３は、それぞれ遠隔に位置する家族をユーザとしている。
【００１３】
具体的には、デジタルフォトフレーム１０−１は祖父母Ｇの家、デジタルフォトフレーム１０−２は祖父母Ｇの孫Ａの家、デジタルフォトフレーム１０−３は祖父母Ｇの孫Ｂの家に設置されている。なお、孫Ａの家と孫Ｂの家とは異なるものとする。
以下、デジタルフォトフレーム１０−１〜１０−３を個々に区別する必要がない場合、これらをまとめて、「デジタルフォトフレーム１０」と単に呼ぶ。また、デジタルフォトフレーム１０と呼んでいる場合には、その構成要素の符号についても、１〜３を省略して説明する。
なお、デジタルフォトフレーム１０の台数は、図１の例では３台とされているが、図１の例に特に限定されず、任意の台数で良い。
【００１４】
図２は、本発明の第１実施形態に係るデジタルフォトフレーム１０のハードウェアの構成を示すブロック図である。
図２において、デジタルフォトフレーム１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、バス１４と、入出力インターフェース１５と、撮像部１６と、入力部１７と、出力部１８と、記憶部１９と、通信部２０と、ドライブ２１と、を備えている。
【００１５】
ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、または、記憶部１９からＲＡＭ１３にロードされたプログラムに従って各種の処理を実行する。
【００１６】
ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。
【００１７】
ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３は、バス１４を介して相互に接続されている。このバス１４にはまた、入出力インターフェース１５も接続されている。入出力インターフェース１５には、撮像部１６、入力部１７、出力部１８、記憶部１９、通信部２０及びドライブ２１が接続されている。
撮像部１６は、図示はしないが、光学レンズ部と、イメージセンサと、を備えている。
【００１８】
光学レンズ部は、被写体を撮影するために、光を集光するレンズ、例えばフォーカスレンズやズームレンズ等で構成される。
フォーカスレンズは、イメージセンサの受光面に被写体像を結像させるレンズである。ズームレンズは、焦点距離を一定の範囲で自在に変化させるレンズである。
光学レンズ部にはまた、必要に応じて、焦点、露出、ホワイトバランス等の設定パラメータを調整する周辺回路が設けられる。
【００１９】
イメージセンサは、光電変換素子や、ＡＦＥ（ＡｎａｌｏｇＦｒｏｎｔＥｎｄ）等から構成される。
光電変換素子は、例えばＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）型の光電変換素子等から構成される。光電変換素子には、光学レンズ部から被写体像が入射される。そこで、光電変換素子は、被写体像を光電変換（撮像）して画像信号を一定時間蓄積し、蓄積した画像信号をアナログ信号としてＡＦＥに順次供給する。
ＡＦＥは、このアナログの画像信号に対して、Ａ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換処理等の各種信号処理を実行する。各種信号処理によって、ディジタル信号が生成され、撮像部１６の出力信号として出力される。
このような撮像部１６の出力信号を、以下、「撮像画像のデータ」と呼ぶ。撮像画像のデータは、ＣＰＵ１１等に適宜供給される。
【００２０】
入力部１７は、各種釦等で構成され、ユーザの指示操作に応じて各種情報を入力する。また、入力部１７は、マイク及びＡ／Ｄ変換回路等を有しており、マイクを介して入力した音声のデータをＣＰＵ１１あるいは記憶部１９に出力する。
出力部１８は、ディスプレイや、スピーカ及びＤ／Ａ変換回路等を有しており、画像や音声を出力する。
記憶部１９は、ハードディスクあるいはＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成され、各種画像のデータを格納したデータベースや入力された音声に基づく認識処理のためのデータベース等を記憶する。
通信部２０は、インターネットを含むネットワークを介して、他の装置（デジタルフォトフレームあるいは適宜設置されるデータベースサーバ等）との間で行う通信を制御する。
【００２１】
ドライブ２１には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア３１が適宜装着される。ドライブ２１によってリムーバブルメディア３１から読み出されたプログラムは、必要に応じて記憶部１９にインストールされる。また、リムーバブルメディア３１は、記憶部１９に記憶されている画像のデータ等の各種データも、記憶部１９と同様に記憶することができる。
【００２２】
図３は、デジタルフォトフレーム１０において、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
発話側情報特定処理とは、デジタルフォトフレーム１０に入力された音声に基づいて、その音声に関して認識の対象としている発話側情報（ここでは音声を発した話者）を特定する一連の処理をいう。
また、画像表示処理とは、発話側情報特定処理によって特定された発話側の情報に基づいて、話者の画像を表示する一連の処理をいう。
また、音声送信処理とは、画像表示処理によって話者の画像を表示している一のデジタルフォトフレーム１０に入力された音声を、表示されている話者の下に設置されている他のデジタルフォトフレーム１０に送信する一連の処理をいう。
入力部１７は、周囲の音声が入力される音声入力部４１を備えている。
【００２３】
ＣＰＵ１１は、第１実施形態に係る発話側情報特定処理を実行する発話側情報特定部４２と、第１実施形態に係る画像表示処理を実行する画像選択部４６と、第１実施形態に係る音声送信処理を実行する音声送信処理部５０と、を備えている。
記憶部１９の一領域には、発話側情報（ここでは話者）を特定するための情報を記憶する発話側情報データベース４３と、デジタルフォトフレーム１０で表示する画像データ（例えば孫Ａ，Ｂの画像等）を記憶する画像データベース４７と、が設けられている。
【００２４】
図４は、発話側情報データベース４３のデータ構造を示す図である。
図４において、発話側情報データベース４３には、話者を識別する話者ＩＤと、話者の氏名または名称と、話者の属性（例えば続柄）と、話者ＩＤによって識別される話者の特徴データ（例えば話者の特徴が定義されたテンプレート）とが対応付けて記憶されている。
発話側情報データベース４３の所定の行は、１人の話者に対応している。例えば、１行目の記憶内容によれば、話者ＩＤが「ｈ００１」である話者は、氏名または名称が「○○」であり、属性が「孫Ａ」であり、特徴データが「テンプレートｔ００１」であることがわかる。
発話側情報特定処理においては、デジタルフォトフレーム１０に入力された音声のデータが、発話側情報データベース４３に記憶されているいずれの特徴データ（テンプレート）に合致するかに基づいて、話者が特定される。
【００２５】
図５は、画像データベース４７のデータ構造を示す図である。
図５において、画像データベース４７には、画像データを識別する画像ＩＤと、その画像データが対応する話者ＩＤと、画像データが関係する話者の氏名または名称と、その話者の属性と、画像データのファイル名とが対応付けて記憶されている。
画像データベース４７の所定の行は、１つの画像に対応している。例えば、１行目の記憶内容によれば、画像ＩＤが「ｐ００１」である画像データは、話者ＩＤ「ｈ００１」、氏名または名称「○○」に対応し、属性が「孫Ａ」、画像データが「ｐ００１．ｊｐｇ」であることがわかる。
画像表示処理においては、他のデジタルフォトフレーム１０から送信された話者ＩＤに基づいて、画像データベース４７が検索され、話者ＩＤに対応する画像データが表示される。
このとき、話者ＩＤに対応する画像データが複数記憶されている場合には、その話者ＩＤに対応する画像データがスライドショー形式で順次表示される。
【００２６】
ＲＡＭ１３の一領域には、画像選択部４６が受信した発話側情報において、発話側の情報として話者が特定されている場合に、発話側情報の送信元を示す送信元情報を記憶する領域と、送信元情報が記憶されているか否かを示すフラグを記憶する領域とを有する送信元情報記憶部４８が設けられている。
出力部１８は、画像選択部４６が画像表示処理において選択した画像を表示する表示部４９と、他のデジタルフォトフレーム１０が音声送信処理を実行することにより受信部４５で受信された音声データを音声として出力する音声出力部５１と、を備えている。
通信部２０は、発話側情報特定部４２が特定した発話側情報及び音声送信処理部５０が送信する音声のデータを送信する送信部４４と、他のデジタルフォトフレーム１０が送信した発話側情報及び音声データを受信する受信部４５と、を備えている。
【００２７】
このように、本実施形態では、送信元のデジタルフォトフレーム１０に入力された音声に基づいて、発話側情報特定処理が実行され、その結果である発話側情報（ここでは話者ＩＤ）が、送信先のデジタルフォトフレーム１０に送信される。例えば、送信元のデジタルフォトフレーム１０−２に孫Ａが話しかけると、デジタルフォトフレーム１０−２において、発話側情報特定処理が実行され、孫Ａが認識される。そして、デジタルフォトフレーム１０−２から、送信先であるデジタルフォトフレーム１０−１に孫Ａの話者ＩＤが送信される。デジタルフォトフレーム１０−１では、受信した話者ＩＤに基づいて、画像表示処理が実行され、孫Ａの画像が表示される。このとき、孫Ａの画像データが複数記憶されている場合、これらの画像データの各々により表される孫Ａの各種画像がスライドショー形式で順次表示される。さらに、孫Ａの画像が表示されているデジタルフォトフレーム１０−１に対し、祖父母が話しかけると、その音声データが、デジタルフォトフレーム１０−１から、話者ＩＤの送信元であったデジタルフォトフレーム１０−２に送信される。そして、孫Ａの話者ＩＤを送信したデジタルフォトフレーム１０−２では、受信した祖父母の音声を出力する。即ち、離れた場所に位置するユーザ（ここでは祖父母と孫Ａ，Ｂ）がコミュニケーションを図る上で、利便性を向上させることができる。
【００２８】
［動作］
次に、デジタルフォトフレーム１０の動作を説明する。
まず、図６を参照して、図３の機能的構成のデジタルフォトフレーム１０が実行する処理のうち、発話側情報特定処理について説明する。
図６は、図３の機能的構成を有する図２のデジタルフォトフレーム１０が実行する発話側情報特定処理の流れを説明するフローチャートである。
発話側情報特定処理は、本実施形態では、デジタルフォトフレーム１０の電源がオン状態になった後、所定の時間間隔毎に実行される。
【００２９】
ステップＳ１１において、発話側情報特定部４２は、音声入力部４１から入力する音声をサンプリング処理し、その結果得られるサンプリングした音声データに基づいて、話者認識を行う。即ち、発話側情報特定部４２は、発話側情報データベース４３に記憶された複数の特徴データ（テンプレート）のうち、サンプリングした音声データと合致した特徴データ（テンプレート）により特定される者を、話者として認識する。ステップＳ１１では、例えば、居間に設置したデジタルフォトフレーム１０に入力される家族団欒の会話に対して話者認識が行われる。
【００３０】
ステップＳ１２において、発話側情報特定部４２は、送信部４４を介して、ステップＳ１１の処理で認識した話者の話者ＩＤ（発話側情報）を、ネットワークに接続されている他のデジタルフォトフレーム１０に送信する。このとき、話者認識を行えなかった場合、発話側情報として、話者を特定できなかったことを示す所定の話者ＩＤ（無効話者ＩＤ）が送信される。
このようなステップＳ１２の処理が終了すると、発話側情報特定処理は終了となる。
【００３１】
次に、図７を参照して、図３の機能的構成のデジタルフォトフレーム１０が実行する処理のうち、画像表示処理について説明する。
図７は、図３の機能的構成のデジタルフォトフレーム１０が実行する画像表示処理の流れを説明するフローチャートである。
画像表示処理は、本実施形態では、デジタルフォトフレーム１０の電源がオン状態になった後、所定の時間間隔毎に実行される。
ステップＳ２１において、画像選択部４６は、受信部４５を介して発話側情報を受信したか否かの判定を行う。
【００３２】
発話側情報が受信されていない場合、ステップＳ２１においてＮＯであると判定されて、ステップＳ２１の処理が繰り返される。
これに対して、発話側情報が受信された場合、ステップＳ２１においてＹＥＳであると判定されて、処理はステップＳ２２に進む。
ステップＳ２２において、画像選択部４６は、送信元情報記憶部４８に記憶されている送信元情報及びフラグの記憶領域をクリアする。
ステップＳ２３において、画像選択部４６は、受信した発話側情報が話者を特定しているか否か（即ち、話者ＩＤが無効話者ＩＤであるか否か）の判定を行う。
受信した発話側情報が話者を特定していない（即ち、話者ＩＤが無効話者ＩＤである）場合、ステップＳ２３においてＮＯであると判定されて、処理はステップＳ２４に進む。
【００３３】
ステップＳ２４において、画像選択部４６は、画像データベース４７から人物が写っていない画像（例えば風景写真や美術品の写真の画像等）を選択する。このとき、例えば、人物以外が属性として設定されている画像データを選択する。
これに対して、受信した発話側情報が話者を特定している（即ち、話者ＩＤが無効話者ＩＤでない）場合、ステップＳ２３においてＹＥＳであると判定されて、処理はステップＳ２５に進む。
ステップＳ２５において、画像選択部４６は、話者ＩＤに対応する画像データが画像データベース４７に記憶されているか否かの判定を行う。
話者ＩＤに対応する画像データが画像データベース４７に記憶されていない場合、ステップＳ２５においてＮＯと判定されて、処理はステップＳ２６に進む。
【００３４】
ステップＳ２６において、画像選択部４６は、画像データベース４７から任意の人物の画像を選択する。
これに対して、話者ＩＤに対応する画像データが画像データベース４７に記憶されている場合、ステップＳ２５においてＹＥＳと判定されて、処理はステップＳ２７に進む。
ステップＳ２７において、画像選択部４６は、送信元情報記憶部４８に送信元情報を記憶し、送信元情報が記憶されていることを示すフラグ（有効フラグ）をセットする。
ステップＳ２８において、画像選択部４６は、画像データベース４７から話者ＩＤに対応する画像データを選択する。このとき、話者ＩＤに対応する画像データが複数記憶されている場合、これらの画像データが順に選択される。
ステップＳ２９において、画像選択部４６は、表示部４９に選択した画像を表示する。
ステップＳ２９では、例えば、孫Ａの家の家族団欒における話者の画像が表示部４９で表示される。
このようなステップＳ２９の処理が終了すると、画像表示処理は終了となる。
【００３５】
次に、図８を参照して、図３の機能的構成のデジタルフォトフレーム１０が実行する処理のうち、音声送信処理について説明する。
図８は、図３の機能的構成のデジタルフォトフレーム１０が実行する音声送信処理の流れを説明するフローチャートである。
【００３６】
音声送信処理は、本実施形態では、デジタルフォトフレーム１０の電源がオン状態になった後、所定の時間間隔毎に実行される。
ステップＳ３１において、音声送信処理部５０は、デジタルフォトフレーム１０の周辺から音声が入力されているか否か（即ち、デジタルフォトフレーム１０に声がかけられているか否か）の判定を行う。
デジタルフォトフレーム１０の周辺から音声が入力されていない（即ち、デジタルフォトフレーム１０に声がかけられていない）場合、ステップＳ３１においてＮＯと判定されて、ステップＳ３１の処理が繰り返される。
【００３７】
これに対して、デジタルフォトフレーム１０の周辺から音声が入力されている（即ち、デジタルフォトフレーム１０に声がかけられている）場合、ステップＳ３１においてＹＥＳと判定されて、処理はステップＳ３２に進む。
ステップＳ３２において、音声送信処理部５０は、送信元情報記憶部４８のフラグが送信元情報が記憶されていることを示している（有効フラグである）か否かの判定を行う。
送信元情報記憶部４８のフラグが送信元情報が記憶されていることを示していない（有効フラグでない）場合、ステップＳ３２においてＮＯと判定されて、処理はステップＳ３１に進む。
【００３８】
これに対し、送信元情報記憶部４８のフラグが、送信元情報が記憶されていることを示している（有効フラグである）場合、ステップＳ３２においてＹＥＳと判定されて、処理はステップＳ３３に進む。
ステップＳ３３において、音声送信処理部５０は、送信元情報記憶部４８に記憶されている送信元情報を読み出し、その送信元を送信先として、入力された音声を送信する。
このようなステップＳ３３の処理が終了すると、音声送信処理は終了となる。
【００３９】
以上説明したように、第１実施形態のデジタルフォトフレームシステム１では、複数のデジタルフォトフレーム１０がネットワークを介して接続されており、各デジタルフォトフレーム１０は、発話側情報特定部４２と、画像選択部４６と、音声送信処理部５０とを備えている。
送信側となるデジタルフォトフレーム１０−２，１０−３における発話側情報特定部４２は、音声入力部４１から入力する音声に対して話者認識を行い、発話側情報（話者ＩＤ）を特定する。
そして、送信側のデジタルフォトフレーム１０−２，１０−３における発話側情報特定部４２は、特定した発話側情報を受信側のデジタルフォトフレーム１０−１に送信する。
【００４０】
受信側となるデジタルフォトフレーム１０−１における画像選択部４６は、発話側情報を受信すると、発話側情報が話者を特定するものであるとき、その話者の画像データを画像データベース４７から選択して表示部４９に表示する。
このような処理により、例えば、デジタルフォトフレーム１０−１の遠隔に位置するデジタルフォトフレーム１０−２に、話者として孫Ａが話しかけると、孫Ａの発話側情報（話者ＩＤ）がデジタルフォトフレーム１０−１に送信され、孫Ａの画像が表示される。同様に、デジタルフォトフレーム１０−１の遠隔に位置するデジタルフォトフレーム１０−３に話者として孫Ｂが話しかけると、孫Ｂの発話側情報（話者ＩＤ）がデジタルフォトフレーム１０−１に送信され、孫Ｂの画像が表示される。
【００４１】
そして、孫Ａあるいは孫Ｂの画像が表示されている際に、デジタルフォトフレーム１０−１に祖父母が話しかけると、孫Ａあるいは孫Ｂの発話側情報（話者ＩＤ）を送信したデジタルフォトフレーム１０−２，１０−３に祖父母の音声が送信される。
このとき、デジタルフォトフレーム１０−１で発話側情報特定処理を実行していると、祖父母の話者ＩＤがデジタルフォトフレーム１０−２，１０−３に送信される。そして、デジタルフォトフレーム１０−２，１０−３において画像選択処理及び音声送信処理を実行していると、双方向に話者の画像を表示することができ、話者の画像を見ながら会話を行うことができる。これにより、擬似的な家族団欒の雰囲気を創出することができる。
【００４２】
したがって、本実施形態に係るデジタルフォトフレームシステム１によれば、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることが可能となる。
以上、本発明の第１実施形態に係るデジタルフォトフレームシステム１について説明した。
次に、本発明の第２実施形態に係るデジタルフォトフレームシステム１について説明する。
【００４３】
［第２実施形態］
第１実施形態では、発話側情報特定部４２は、発話側情報特定処理において、話者認識を行い、発話側情報として、認識結果である話者ＩＤを送信するものとした。
これに対し、第２実施形態では、発話側情報特定部は、発話側情報特定処理において、発話側情報データベースを参照して、入力された音声に対する単語認識を行い、発話側情報として、認識された単語データを送信する。また、画像データベースには、単語データと画像データとが対応付けて記憶されている。そして、画像選択部は、受信した発話側情報としての単語データに対応する画像を画像データベースから選択して表示する。
【００４４】
図９は、デジタルフォトフレーム１０において、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
図９において、第２実施形態に係るデジタルフォトフレームシステム１のデジタルフォトフレーム１０は、発話側情報データベース１４３、画像データベース１４７、発話側情報特定部１４２及び画像選択部１４６の構成が、図３に示す第１実施形態の機能的構成と異なっている。
【００４５】
したがって、異なる部分である発話側情報データベース１４３、画像データベース１４７、発話側情報特定部１４２及び画像選択部１４６について主に説明し、他の機能的構成については、図３に示す機能的構成と同一の符号を付して、第１実施形態の説明を参照する。
なお、本発明の第２実施形態に係るデジタルフォトフレームシステム１において、デジタルフォトフレーム１０のハードウェアの構成は、第１実施形態に係るデジタルフォトフレーム１０の図２のハードウェア構成と基本的に同様の構成で実現することができる。
第２実施形態に係る発話側情報特定処理とは、デジタルフォトフレーム１０に入力された音声に基づいて、その音声に関して認識の対象としている発話側情報（ここでは音声に含まれる単語）を特定する一連の処理をいう。
【００４６】
また、画像表示処理とは、発話側情報特定処理によって特定された発話側の情報に基づいて、単語に関連する画像を表示する一連の処理をいう。
なお、音声送信処理は、第１実施形態における場合と同様である。
ＣＰＵ１１は、第２実施形態に係る発話側情報特定処理を実行する発話側情報特定部１４２と、第２実施形態に係る画像表示処理を実行する画像選択部１４６と、第１実施形態と同様の音声送信処理を実行する音声送信処理部５０と、を備えている。
記憶部１９の一領域には、発話側情報（ここでは単語）を特定するための情報を記憶する発話側情報データベース１４３と、デジタルフォトフレーム１０で表示する画像（例えば孫Ａ，Ｂの画像等）の画像データを記憶する画像データベース１４７と、が設けられている。
【００４７】
図１０は、発話側情報データベース１４３のデータ構造を示す図である。
図１０において、発話側情報データベース１４３には、単語を識別する単語ＩＤと、単語の発音データと、テキストデータからなる単語データとが対応付けて記憶されている。
発話側情報データベース１４３の所定の行は、１つの単語に対応している。例えば、１行目の記憶内容によれば、単語ＩＤが「ｗ００１」である単語は、発音が「ｔａｒｏ」であり、単語データが「太郎」であることがわかる。
発話側情報特定処理においては、デジタルフォトフレーム１０に入力された音声のデータが、発話側情報データベース１４３に記憶されているいずれの音声データに合致するかに基づいて、単語が特定される。
【００４８】
図１１は、画像データベース１４７のデータ構造を示す図である。
図１１において、画像データベース１４７には、画像データを識別する画像ＩＤと、その画像データが対応する単語ＩＤと、画像データのファイル名とが対応付けて記憶されている。
画像データベース１４７の所定の行は、１つの画像に対応している。例えば、１行目の記憶内容によれば、画像ＩＤが「ｐ００１」である画像データは、単語ＩＤ「ｗ００１」、に対応し、画像データが「ｐ００１．ｊｐｇ」であることがわかる。
画像表示処理においては、他のデジタルフォトフレーム１０から送信された単語ＩＤに基づいて、画像データベース１４７が検索され、単語ＩＤに対応する画像データが表示される。
【００４９】
このとき、単語ＩＤに対応する画像データが複数記憶されている場合には、その単語ＩＤに対応する画像データがスライドショー形式で順次表示される。また、１つの画像データに複数の単語ＩＤを対応付けることが可能であり、複数の人物が写っている画像や、人と犬とが写っている画像には、画像に写っている複数の人や犬を表す単語ＩＤが対応付けられる。例えば、図１１において、画像ＩＤ００２の画像には、孫Ａと犬とが写っている。孫Ａ（ここでは名前を「太郎」とする）の単語ＩＤは「ｗ００１」、犬の単語ＩＤは「ｗ００４」であり、画像ＩＤ００２には、「ｗ００１／ｗ００４」（即ち、「太郎」と「犬」）が対応付けられている。
【００５０】
なお、「僕」（単語ＩＤ：ｗ００５）のような１人称の単語については、各デジタルフォトフレーム１０と特定の人物名とを対応させておき、１人称の単語をその特定の人物名に変換する。例えば、孫Ａの家に設置されたデジタルフォトフレーム１０−２から「僕」の単語ＩＤ「ｗ００５」が送信された場合、受信側のデジタルフォトフレーム１０では、予め設定してある対応関係に応じて、「僕」（ｗ００５）を「太郎」（ｗ００１）に変換する。これにより、「僕」等の１人称の単語が特定された場合にも、その単語に対応する人物の画像を選択できるものとなる。
【００５１】
このように、本実施形態では、送信元のデジタルフォトフレーム１０に入力された音声に基づいて、発話側情報特定処理が実行され、その結果である発話側情報（ここでは単語ＩＤ）が、送信先のデジタルフォトフレーム１０に送信される。例えば、送信元のデジタルフォトフレーム１０−２に孫Ａが「僕と犬の写真を見て」と話しかけると、デジタルフォトフレーム１０−２において、発話側情報特定処理が実行され、「僕」、「犬」という単語が認識される。そして、デジタルフォトフレーム１０−２から、送信先であるデジタルフォトフレーム１０−１に「僕」と「犬」の単語ＩＤ（ｗ００４，ｗ００５）が送信される。デジタルフォトフレーム１０−１では、受信した単語ＩＤに基づいて、画像表示処理が実行され、孫Ａ（太郎）と犬とが写った画像が表示される。なお、デジタルフォトフレーム１０−１では、デジタルフォトフレーム１０−２から受信した「僕」（ｗ００５）を予め設定してある対応関係に応じて、孫Ａを表す「太郎」（ｗ００１）に変換した上で、画像表示処理を実行する。
【００５２】
また、孫Ａの画像が表示されているデジタルフォトフレーム１０−１に対し、祖父母が話しかけると、その音声データが、デジタルフォトフレーム１０−１から、単語ＩＤの送信元であったデジタルフォトフレーム１０−２に送信される。そして、単語ＩＤを送信したデジタルフォトフレーム１０−２では、受信した祖父母の音声を出力する。即ち、離れた場所に位置するユーザ（ここでは祖父母と孫Ａ，Ｂ）がコミュニケーションを図る上で、利便性を向上させることができる。
【００５３】
［動作］
次に、デジタルフォトフレーム１０の動作を説明する。
まず、図１２を参照して、図９の機能的構成のデジタルフォトフレーム１０が実行する処理のうち、発話側情報特定処理について説明する。
図１２は、図９の機能的構成を有する図２のデジタルフォトフレーム１０が実行する発話側情報特定処理の流れを示すフローチャートである。
発話側情報特定処理は、本実施形態では、デジタルフォトフレーム１０の電源がオン状態になった後、所定の時間間隔毎に実行される。
【００５４】
ステップＳ４１において、発話側情報特定部１４２は、音声入力部４１から入力する音声をサンプリング処理し、その結果得られるサンプリングした音声データに基づいて、単語認識を行う。即ち、発話側情報特定部１４２は、発話側情報データベース１４３に記憶された複数の発音データのうち、サンプリングした音声データと合致した単語の発音データにより特定される単語を認識する。ステップＳ４１では、例えば、居間に設置したデジタルフォトフレーム１０に入力される家族団欒の会話に対して単語認識が行われる。
ステップＳ４２において、発話側情報特定部１４２は、送信部４４を介して、ステップＳ４１の処理で認識した単語ＩＤ（発話側情報）を、ネットワークに接続されている他のデジタルフォトフレーム１０に送信する。このとき、単語認識を行えなかった場合、発話側情報として、単語を特定できなかったことを示す所定の単語ＩＤ（無効単語ＩＤ）が送信される。
このようなステップＳ４２の処理が終了すると、発話側情報特定処理は終了となる。
【００５５】
次に、図１３を参照して、図９の機能的構成のデジタルフォトフレーム１０が実行する処理のうち、画像表示処理について説明する。
図１３は、図３の機能的構成のデジタルフォトフレーム１０が実行する画像表示処理の流れを説明するフローチャートである。
画像表示処理は、本実施形態では、デジタルフォトフレーム１０の電源がオン状態になった後、所定の時間間隔毎に実行される。
【００５６】
ステップＳ５１において、画像選択部１４６は、受信部４５を介して発話側情報を受信したか否かの判定を行う。
発話側情報が受信されていない場合、ステップＳ５１においてＮＯであると判定されて、ステップＳ５１の処理が繰り返される。
これに対して、発話側情報が受信された場合、ステップＳ５１においてＹＥＳであると判定されて、処理はステップＳ５２に進む。
ステップＳ５２において、画像選択部１４６は、送信元情報記憶部４８に記憶されている送信元情報及びフラグの記憶領域をクリアする。
ステップＳ５３において、画像選択部１４６は、受信した発話側情報が単語を特定しているか否か（即ち、単語ＩＤが無効単語ＩＤであるか否か）の判定を行う。
【００５７】
受信した発話側情報が単語を特定していない（即ち、単語ＩＤが無効単語ＩＤである）場合、ステップＳ５３においてＮＯであると判定されて、処理はステップＳ５４に進む。
ステップＳ５４において、画像選択部１４６は、画像データベース４７から任意の人物の画像を選択する。なお、ステップＳ５４において、画像データベース４７から人物が写っていない画像（例えば風景写真や美術品の写真等）を選択することもできる。
これに対して、受信した発話側情報が単語を特定している（即ち、単語ＩＤが無効単語ＩＤでない）場合、ステップＳ５３においてＹＥＳであると判定されて、処理はステップＳ５５に進む。
【００５８】
ステップＳ５５において、画像選択部１４６は、単語ＩＤに対応する画像データが画像データベース４７に記憶されているか否かの判定を行う。
単語ＩＤに対応する画像データが画像データベース１４７に記憶されていない場合、ステップＳ５５においてＮＯと判定されて、処理はステップＳ５４に進む。
これに対して、単語ＩＤに対応する画像データが画像データベース１４７に記憶されている場合、ステップＳ５５においてＹＥＳと判定されて、処理はステップＳ５６に進む。
ステップＳ５６において、画像選択部１４６は、送信元情報記憶部４８に送信元情報を記憶し、送信元情報が記憶されていることを示すフラグ（有効フラグ）をセットする。
ステップＳ５７において、画像選択部１４６は、画像データベース１４７から単語ＩＤに対応する画像データを選択する。このとき、画像ＩＤに対応する画像データが複数記憶されている場合、これらの画像データが順に選択される。また、複数の単語ＩＤが受信された場合、その複数の単語ＩＤの組み合わせに対応している画像データが選択される。
【００５９】
ステップＳ５８において、画像選択部１４６は、表示部４９に選択した画像を表示する。
ステップＳ５８では、例えば、孫Ａの家の家族団欒における話題に関係する画像が表示部４９で表示される。
このようなステップＳ５８の処理が終了すると、画像表示処理は終了となる。
以上説明したように、第２実施形態のデジタルフォトフレームシステム１では、複数のデジタルフォトフレーム１０がネットワークを介して接続されており、各デジタルフォトフレーム１０は、発話側情報特定部１４２と、画像選択部１４６と、音声送信処理部５０とを備えている。
【００６０】
送信側となるデジタルフォトフレーム１０−２，１０−３における発話側情報特定部１４２は、音声入力部４１から入力する音声に対して単語認識を行い、発話側情報（単語ＩＤ）を特定する。
そして、送信側のデジタルフォトフレーム１０−２，１０−３における発話側情報特定部１４２は、特定した発話側情報を受信側のデジタルフォトフレーム１０−１に送信する。
受信側となるデジタルフォトフレーム１０−１における画像選択部１４６は、発話側情報を受信すると、発話側情報が単語を特定するものであるとき、その単語に関連する画像データを画像データベース１４７から選択して表示部４９に表示する。
【００６１】
このような処理により、例えば、デジタルフォトフレーム１０−１の遠隔に位置するデジタルフォトフレーム１０−２に、孫Ａが「犬と遊んだよ」と話しかけると、「犬」の発話側情報（単語ＩＤ：ｗ００４）がデジタルフォトフレーム１０−１に送信され、犬の画像が表示される。同様に、デジタルフォトフレーム１０の遠隔に位置するデジタルフォトフレーム１０−３に、孫Ｂが「野球をしたよ」と話しかけると、「野球」の発話側情報（単語ＩＤ：ｗ００６）がデジタルフォトフレーム１０−１に送信され、野球の画像が表示される。
また、例えば、デジタルフォトフレーム１０−２に孫Ａが「僕と犬の写真を見て」と話しかけると、「僕」と「犬」の発話側情報（単語ＩＤ：ｗ００４／ｗ００５）がデジタルフォトフレーム１０−１に送信される。デジタルフォトフレーム１０−１では、１人称である「僕」をデジタルフォトフレーム１０−２と対応付けられている「太郎」に変換する。そして、デジタルフォトフレーム１０−１では、「太郎」（孫Ａ）と「犬」とが写った画像が表示される。
【００６２】
そして、「犬」の画像、「太郎と犬」の画像あるいは「野球の画像」が表示されている際に、デジタルフォトフレーム１０−１に祖父母が話しかけると、「犬」、「太郎」と「犬」あるいは「野球」の発話側情報（単語ＩＤ）を送信したデジタルフォトフレーム１０−２，１０−３に祖父母の音声が送信される。
このとき、デジタルフォトフレーム１０−１で発話側情報特定処理を実行していると、祖父母の話者ＩＤがデジタルフォトフレーム１０−２，１０−３に送信される。そして、デジタルフォトフレーム１０−２，１０−３において画像選択処理及び音声送信処理を実行していると、双方向に会話に関する画像を表示することができ、話題の画像を見ながら会話を行うことができる。これにより、擬似的な家族団欒の雰囲気を創出することができる。
したがって、本実施形態に係るデジタルフォトフレームシステム１によれば、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることが可能となる。
【００６３】
［応用例１］
第１実施形態及び第２実施形態では、送信側のデジタルフォトフレーム１０において発話側情報特定処理を実行し、話者認識あるいは単語認識の結果である発話側情報（話者ＩＤあるいは単語ＩＤ）を受信側のデジタルフォトフレーム１０に送信した。そして、受信側のデジタルフォトフレーム１０において、受信した発話側情報に基づいて画像表示処理を実行した。
これに対し、発話側情報特定処理を実行するデジタルフォトフレーム１０において、画像表示処理を実行することができる。この場合、発話側情報特定処理及び画像表示処理が一体となった情報特定表示処理が実行される。情報特定表示処理は、デジタルフォトフレーム１０に入力された音声に対して発話側情報の特定を行い、特定された発話側情報に対応する画像を表示するものである。
【００６４】
以下、第２実施形態において説明した機能的構成の下、発話側情報として単語を特定し、その結果である単語ＩＤに対応する画像を表示する処理を１つのデジタルフォトフレーム１０において実行する例について説明する。
図１４は、図３あるいは図９の機能的構成を有する図２のデジタルフォトフレーム１０が実行する情報特定表示処理の流れを説明するフローチャートである。
情報特定表示処理は、本応用例では、デジタルフォトフレーム１０の電源がオン状態になった後、所定の時間間隔毎に実行される。
ステップＳ６１において、発話側情報特定部１４２は、音声入力部４１から入力する音声をサンプリング処理し、サンプリングした音声データに基づいて、単語認識を行う。このとき、発話側情報特定部１４２は、サンプリングした音声データと、発話側情報データベース１４３の単語の発音データとが合致するか否かに応じて、単語認識を行う。ステップＳ６１では、例えば、ラジオの周辺に設置されたデジタルフォトフレーム１０に入力されるラジオの音声に対して単語認識が行われる。
【００６５】
ステップＳ６２において、画像選択部１４６は、受信した発話側情報が単語を特定しているか否か（即ち、単語ＩＤが無効単語ＩＤであるか否か）の判定を行う。
受信した発話側情報が単語を特定していない（即ち、単語ＩＤが無効単語ＩＤである）場合、ステップＳ６２においてＮＯであると判定されて、処理はステップＳ６３に進む。
ステップＳ６３において、画像選択部１４６は、画像データベース４７から任意の人物の画像を選択する。なお、ステップＳ６３において、画像データベース４７から人物が写っていない画像（例えば風景写真や美術品の写真の画像等）を選択することもできる。
これに対して、受信した発話側情報が単語を特定している（即ち、単語ＩＤが無効単語ＩＤでない）場合、ステップＳ６２においてＹＥＳであると判定されて、処理はステップＳ６４に進む。
【００６６】
ステップＳ６４において、画像選択部１４６は、単語ＩＤに対応する画像データが画像データベース４７に記憶されているか否かの判定を行う。
単語ＩＤに対応する画像データが画像データベース１４７に記憶されていない場合、ステップＳ６４においてＮＯと判定されて、処理はステップＳ６３に進む。
これに対して、単語ＩＤに対応する画像データが画像データベース１４７に記憶されている場合、ステップＳ６４においてＹＥＳと判定されて、処理はステップＳ６５に進む。
ステップＳ６５において、画像選択部１４６は、画像データベース１４７から単語ＩＤに対応する画像データを選択する。このとき、画像ＩＤに対応する画像データが複数記憶されている場合、これらの画像データが順に選択される。また、複数の単語ＩＤが受信された場合、その複数の単語ＩＤの組み合わせに対応している画像データが選択される。
【００６７】
ステップＳ６６において、画像選択部１４６は、表示部４９に選択した画像を表示する。
ステップＳ６６では、例えば、ラジオのパーソナリティが話した話題に関係する画像が表示部４９で表示される。例えば、ラジオのパーソナリティが「富士山」という単語を話した場合、表示部４９に富士山の画像が表示される。
このようなステップＳ６６の処理が終了すると、情報特定表示処理は終了となる。
なお、第１実施形態において説明した機能構成の下、情報特定表示処理を実行することとした場合、デジタルフォトフレーム１０において話者認識が行われ、その話者の画像が表示される。例えば、ラジオの音声がデジタルフォトフレーム１０に入力されると、話しているパーソナリティが話者認識され、そのパーソナリティの画像が表示される。
このような場合、デジタルフォトフレーム１０が、ネットワークによって他のデジタルフォトフレーム１０と接続されていない場合であっても、スライドショー表示における利便性を向上させることができる。
【００６８】
［応用例２］
第１実施形態及び第２実施形態では、発話側情報特定処理において、話者ＩＤあるいは単語データを発話側情報として送信することとした。
これに対し、発話側情報特定処理において、デジタルフォトフレーム１０に入力された音声のサンプリングデータ（音声データ）を発話側情報に含めることができる。
この場合、発話側情報を受信したデジタルフォトフレーム１０では、話者ＩＤに対応する画像を表示する際に、受信した音声データをスピーカから出力する。
例えば、デジタルフォトフレーム１０−２，１０−３からデジタルフォトフレーム１０−１に、話者である孫Ａ，Ｂの話者ＩＤと共に、孫Ａ，Ｂの音声データを送信することができる。そして、デジタルフォトフレーム１０−１では、孫Ａ，Ｂの画像を表示する際に、受信した孫Ａ，Ｂの声を出力する。
これにより、祖父母Ｇは、孫Ａあるいは孫Ｂの家での家族団欒の雰囲気をより現実的に感じることができる。
したがって、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性をさらに向上させることが可能となる。
【００６９】
［応用例３］
第１実施形態及び第２実施形態では、音声送信処理において、デジタルフォトフレーム１０に表示されている画像に話しかけた音声を、話者ＩＤの送信元であったデジタルフォトフレーム１０に送信することとした。
これに対し、音声送信処理において、デジタルフォトフレーム１０に音声が入力されている場合に、話しかけている話者の画像を撮像部１６で撮影し、その撮像画像のデータを音声と共に送信することができる。
例えば、デジタルフォトフレーム１０−１からデジタルフォトフレーム１０−２，１０−３に祖父母Ｇ（具体的には、祖母あるいは祖父の一方）の音声と共に、撮像部１６で撮影した祖父母Ｇの画像を送信することができる。そして、デジタルフォトフレーム１０−２，１０−３では、祖父母Ｇの音声を出力すると共に、祖父母Ｇの写真を表示する。
これにより、孫Ａ，Ｂの家では、家族団欒の最中に、祖父母Ｇの声と共に、祖父母Ｇの画像がデジタルフォトフレーム１０−２，１０−３から出力されることとなり、祖父母Ｇを交えた家族団欒の雰囲気を感じることができる。
【００７０】
［応用例４］
第１実施形態及び第２実施形態では、発話側情報特定処理において、話者ＩＤあるいは単語データを発話側情報として送信することとした。
これに対し、発話側情報特定処理において、デジタルフォトフレーム１０に入力された音声の大きさを発話側情報に含めることができる。
この場合、発話側情報を受信したデジタルフォトフレーム１０では、話者ＩＤに対応する画像を表示する際に、受信した音声データの大きさに基づいて、画像の表示方法を変更する。
例えば、デジタルフォトフレーム１０−２からデジタルフォトフレーム１０−１に、話者である孫Ａの話者ＩＤと共に、孫Ａの音声の大きさを送信することができる。そして、デジタルフォトフレーム１０−１では、孫Ａの画像を表示する際に、受信した孫Ａの音声の大きさが小さい場合には、表示する画像のコントラストを低下させて表示する。他には、画像の表示サイズを小さくして表示しても良い。
これにより、孫Ａとの距離感を感じることができ、祖父母Ｇは、孫Ａの家での家族団欒の雰囲気をより現実的に感じることができる。
【００７１】
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
上述の実施形態では、孫Ａ，Ｂの家に設置されたデジタルフォトフレーム１０−２，１０−３において発話側情報特定処理を実行する場合を例として説明した。これに対し、祖父母Ｇの家に設置されたデジタルフォトフレーム１０−１において発話側情報特定処理を常時実行しておくと、デジタルフォトフレーム１０−２，１０−３のスライドショー表示を確認することにより、祖父母Ｇが無事に日常生活を営んでいるか否かを見守ることができる。
【００７２】
上述の実施形態では、画像提供媒体としてリムーバブルメディア３１を用いているがこれに限定されない。例えば、ネットワーク上の他の装置（サーバ等）内の記憶部（ハードディスク等）でも良い。
【００７３】
また、上述の実施形態では、本発明が適用される画像表示システムは、複数のデジタルフォトフレームがネットワークを介して接続されたデジタルフォトフレームシステムを例として説明したが、特にこれに限定されない。
例えば、本発明は、画像表示機能を有する電子機器一般に適用することができる。具体的には、例えば、本発明は、ノート型のパーソナルコンピュータ、プリンタ、テレビジョン受像機、ビデオカメラ、携帯型ナビゲーション装置、携帯電話機、ポータブルゲーム機等に適用可能である。
【００７４】
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図３及び図９の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が画像表示装置に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図３及び図９の例に限定されない。
また、１つの機能ブロックは、ハードウェア単体で構成しても良いし、ソフトウェア単体で構成しても良いし、それらの組み合わせで構成しても良い。
【００７５】
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであっても良い。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであっても良い。
【００７６】
このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図２のリムーバブルメディア３１により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア３１は、例えば、磁気ディスク（フロッピディスクを含む）、光ディスク、または光磁気ディスク等により構成される。光ディスクは、例えば、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ），ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等により構成される。光磁気ディスクは、ＭＤ（Ｍｉｎｉ−Ｄｉｓｋ）等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図２のＲＯＭ１２や、図２の記憶部１９に含まれるハードディスク等で構成される。
【００７７】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
【００７８】
以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【００７９】
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
［付記１］
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する第１の画像表示装置及び第２の画像表示装置を含む画像表示システムであって、
前記第１の画像表示装置は、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を前記第２の画像表示装置に送信する発話側情報送信手段と、
を備え、
前記第２の画像表示装置は、
前記発話側情報を受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示システム。
［付記２］
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信手段と、
を備えることを特徴とする画像表示装置。
［付記３］
前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、話者認識を行うことにより、前記発話側情報として話者を特定することを特徴とする付記２に記載の画像表示装置。
［付記４］
前記発話側情報送信手段によって前記発話側情報を送信した他の前記画像表示装置から受信した音声データに基づいて、音声を出力する音声出力手段をさらに備えることを特徴とする付記２または３に記載の画像表示装置。
［付記５］
前記第１の画像表示装置における前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、単語認識を行うことにより、前記発話側情報として単語を特定することを特徴とする付記２に記載の画像表示装置。
［付記６］
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
音声が入力される音声入力ステップと、
前記音声入力ステップで入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定ステップと、
前記発話側情報特定ステップで特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信ステップと、
を含むことを特徴とする画像表示方法。
［付記７］
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
音声が入力される音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定機能と、
前記発話側情報特定機能によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信機能と、
を実現させることを特徴とするプログラム。
［付記８］
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示装置。
［付記９］
音声が入力される音声入力手段と、
前記画像選択手段が選択した前記画像データを前記表示手段が表示している場合に、前記音声入力手段に音声が入力されると、前記音声を他の前記画像表示装置に送信する音声送信処理手段と、
をさらに備えることを特徴とする付記８に記載の画像表示装置。
［付記１０］
前記画像データ記憶手段に記憶されている前記画像データには、複数の前記発話側情報としての前記単語が対応付けられており、
前記発話側情報受信手段が他の前記画像表示装置から複数の前記単語を特定した前記発話側情報を受信した場合、前記画像選択手段は、前記発話側情報としての複数の前記単語の組み合わせに対応する前記画像データを、前記画像データ記憶手段に記憶されている前記画像データから選択することを特徴とする付記８または９に記載の画像表示装置。
［付記１１］
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信ステップと、
前記発話側情報受信ステップで受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択ステップと、
前記画像選択ステップで選択された画像を表示する表示ステップと、
を含むことを特徴とする画像表示方法。
［付記１２］
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信機能と、
前記発話側情報受信機能によって受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択機能と、
前記画像選択機能によって選択された画像を表示する表示機能と、
を実現させることを特徴とするプログラム。
【符号の説明】
【００８０】
１・・・デジタルフォトフレームシステム、１０，１０−１〜１０−３・・・デジタルフォトフレーム、１１・・・ＣＰＵ、１２・・・ＲＯＭ、１３・・・ＲＡＭ、１４・・・バス、１５・・・入出力インターフェース、１６・・・撮像部、１７・・・入力部、１８・・・出力部、１９・・・記憶部、２０・・・通信部、２１・・・ドライブ、３１・・・リムーバブルメディア、４１・・・音声入力部、４２，１４２・・・発話側情報特定部、４３，１４３・・・発話側情報データベース、４４・・・送信部、４５・・・受信部、４６，１４６・・・画像選択部、４７，１４７・・・画像データベース、４８・・・送信元情報記憶部、４９・・・表示部、５０・・・音声送信処理部、５１・・・音声出力部

【特許請求の範囲】
【請求項１】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する第１の画像表示装置及び第２の画像表示装置を含む画像表示システムであって、
前記第１の画像表示装置は、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を前記第２の画像表示装置に送信する発話側情報送信手段と、
を備え、
前記第２の画像表示装置は、
前記発話側情報を受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示システム。
【請求項２】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信手段と、
を備えることを特徴とする画像表示装置。
【請求項３】
前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、話者認識を行うことにより、前記発話側情報として話者を特定することを特徴とする請求項２に記載の画像表示装置。
【請求項４】
前記発話側情報送信手段によって前記発話側情報を送信した他の前記画像表示装置から受信した音声データに基づいて、音声を出力する音声出力手段をさらに備えることを特徴とする請求項２または３に記載の画像表示装置。
【請求項５】
前記第１の画像表示装置における前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、単語認識を行うことにより、前記発話側情報として単語を特定することを特徴とする請求項２に記載の画像表示装置。
【請求項６】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
音声が入力される音声入力ステップと、
前記音声入力ステップで入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定ステップと、
前記発話側情報特定ステップで特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信ステップと、
を含むことを特徴とする画像表示方法。
【請求項７】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
音声が入力される音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定機能と、
前記発話側情報特定機能によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信機能と、
を実現させることを特徴とするプログラム。
【請求項８】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示装置。
【請求項９】
音声が入力される音声入力手段と、
前記画像選択手段が選択した前記画像データを前記表示手段が表示している場合に、前記音声入力手段に音声が入力されると、前記音声を他の前記画像表示装置に送信する音声送信処理手段と、
をさらに備えることを特徴とする請求項８に記載の画像表示装置。
【請求項１０】
前記画像データ記憶手段に記憶されている前記画像データには、複数の前記発話側情報としての前記単語が対応付けられており、
前記発話側情報受信手段が他の前記画像表示装置から複数の前記単語を特定した前記発話側情報を受信した場合、前記画像選択手段は、前記発話側情報としての複数の前記単語の組み合わせに対応する前記画像データを、前記画像データ記憶手段に記憶されている前記画像データから選択することを特徴とする請求項８または９に記載の画像表示装置。
【請求項１１】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信ステップと、
前記発話側情報受信ステップで受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択ステップと、
前記画像選択ステップで選択された画像を表示する表示ステップと、
を含むことを特徴とする画像表示方法。
【請求項１２】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信機能と、
前記発話側情報受信機能によって受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択機能と、
前記画像選択機能によって選択された画像を表示する表示機能と、
を実現させることを特徴とするプログラム。

【図１】