画像表示システム、画像表示装置、画像表示方法及びプログラム
【課題】スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させること。
【解決手段】送信元のデジタルフォトフレーム10に入力された音声に基づいて、発話側情報特定処理が実行され、その結果である発話側情報が、送信先のデジタルフォトフレーム10に送信される。例えば、送信元のデジタルフォトフレーム10−2に孫Aが話しかけると、デジタルフォトフレーム10−2において、発話側情報特定処理が実行され、孫Aが認識される。そして、デジタルフォトフレーム10−2から、送信先であるデジタルフォトフレーム10−1に孫Aの話者IDが送信される。デジタルフォトフレーム10−1では、受信した話者IDに基づいて、画像表示処理が実行され、孫Aの画像データが表示される。
【解決手段】送信元のデジタルフォトフレーム10に入力された音声に基づいて、発話側情報特定処理が実行され、その結果である発話側情報が、送信先のデジタルフォトフレーム10に送信される。例えば、送信元のデジタルフォトフレーム10−2に孫Aが話しかけると、デジタルフォトフレーム10−2において、発話側情報特定処理が実行され、孫Aが認識される。そして、デジタルフォトフレーム10−2から、送信先であるデジタルフォトフレーム10−1に孫Aの話者IDが送信される。デジタルフォトフレーム10−1では、受信した話者IDに基づいて、画像表示処理が実行され、孫Aの画像データが表示される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像表示システム、画像表示装置、画像表示方法及びプログラムに関する。
【背景技術】
【0002】
近年、メモリに記憶されている画像ファイルを順次切り替えて読み出して、対応する画像を表示するスライドショー表示機能を備えたデジタルフォトフレーム(Digital
Photo Frame)が登場してきている(例えば、特許文献1参照)。
【0003】
このようなデジタルフォトフレームにおいては、スライドショーにおける画像の表示形態等に種々の機能が付加され、利便性の向上が図られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010−243723号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の技術を含め、従来のデジタルフォトフレーム等の画像表示装置におけるスライドショー表示では、画像表示装置単体の機能について向上が図られているものの、複数の画像表示装置が連携した場合に提供できる機能については、十分な検討がなされていなかった。例えば、離れた場所に位置するユーザがコミュニケーションを図る上で、デジタルフォトフレームが提供できる機能は十分なものでなかった。
【0006】
本発明は、このような状況に鑑みてなされたものであり、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明の一態様の画像表示システムは、
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する第1の画像表示装置及び第2の画像表示装置を含む画像表示システムであって、
前記第1の画像表示装置は、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を前記第2の画像表示装置に送信する発話側情報送信手段と、
を備え、
前記第2の画像表示装置は、
前記発話側情報を受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする。
【発明の効果】
【0008】
本発明によれば、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることが可能となる。
【図面の簡単な説明】
【0009】
【図1】本発明の画像表示システムに係る一実施形態としてのデジタルフォトフレームシステムの構成を示す図である。
【図2】本発明の第1実施形態に係るデジタルフォトフレームのハードウェアの構成を示すブロック図である。
【図3】第1実施形態のデジタルフォトフレームにおいて、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
【図4】発話側情報データベースのデータ構造を示す図である。
【図5】画像データベースのデータ構造を示す図である。
【図6】図3の機能的構成を有する図2のデジタルフォトフレームが実行する発話側情報特定処理の流れを説明するフローチャートである。
【図7】図3の機能的構成のデジタルフォトフレームが実行する画像表示処理の流れを説明するフローチャートである。
【図8】図3の機能的構成のデジタルフォトフレームが実行する音声送信処理の流れを説明するフローチャートである。
【図9】第2実施形態のデジタルフォトフレームにおいて、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
【図10】発話側情報データベースのデータ構造を示す図である。
【図11】画像データベースのデータ構造を示す図である。
【図12】図9の機能的構成を有する図2のデジタルフォトフレームが実行する発話側情報特定処理の流れを示すフローチャートである。
【図13】図3の機能的構成のデジタルフォトフレームが実行する画像表示処理の流れを説明するフローチャートである。
【図14】図3あるいは図9の機能的構成を有する図2のデジタルフォトフレームが実行する情報特定表示処理の流れを説明するフローチャートである。
【発明を実施するための形態】
【0010】
以下、図面に基づいて、本発明の画像表示システムの第1実施形態及び第2実施形態について説明する。
[第1実施形態]
[画像表示システムの構成]
【0011】
本実施形態に係る画像表示システムでは、第1の画像表示装置において、発話側情報(ここでは話者)が特定され、特定された発話側情報は、第2の画像表示装置に送信される。発話側情報を受信した第2の画像表示装置では、受信した発話側情報に基づいて、スライドショー表示において、発話側情報において特定されている情報(ここでは話者)に対応する画像を表示する。そして、第2の画像表示装置において、表示されている画像に話しかけることにより、第2の画像表示装置から第1の画像表示装置に音声が送信される。これにより、離れた場所に位置するユーザが、あたかも同じ場所にいるかのように、画像と音声とを介してコミュニケーションを図ることができる。
【0012】
図1は、本発明の画像表示システムに係る一実施形態としてのデジタルフォトフレームシステム1の構成を示している。図1では、本発明の画像表示装置の一例として、デジタルフォトフレーム10−1〜10−3が示されている。
デジタルフォトフレームシステム1は、図1の例では3つのデジタルフォトフレーム10−1〜10−3がネットワーク(図示せず)を介して接続されることにより構成されている。各デジタルフォトフレーム10−1〜10−3は、それぞれ遠隔に位置する家族をユーザとしている。
【0013】
具体的には、デジタルフォトフレーム10−1は祖父母Gの家、デジタルフォトフレーム10−2は祖父母Gの孫Aの家、デジタルフォトフレーム10−3は祖父母Gの孫Bの家に設置されている。なお、孫Aの家と孫Bの家とは異なるものとする。
以下、デジタルフォトフレーム10−1〜10−3を個々に区別する必要がない場合、これらをまとめて、「デジタルフォトフレーム10」と単に呼ぶ。また、デジタルフォトフレーム10と呼んでいる場合には、その構成要素の符号についても、1〜3を省略して説明する。
なお、デジタルフォトフレーム10の台数は、図1の例では3台とされているが、図1の例に特に限定されず、任意の台数で良い。
【0014】
図2は、本発明の第1実施形態に係るデジタルフォトフレーム10のハードウェアの構成を示すブロック図である。
図2において、デジタルフォトフレーム10は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、撮像部16と、入力部17と、出力部18と、記憶部19と、通信部20と、ドライブ21と、を備えている。
【0015】
CPU11は、ROM12に記録されているプログラム、または、記憶部19からRAM13にロードされたプログラムに従って各種の処理を実行する。
【0016】
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
【0017】
CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、撮像部16、入力部17、出力部18、記憶部19、通信部20及びドライブ21が接続されている。
撮像部16は、図示はしないが、光学レンズ部と、イメージセンサと、を備えている。
【0018】
光学レンズ部は、被写体を撮影するために、光を集光するレンズ、例えばフォーカスレンズやズームレンズ等で構成される。
フォーカスレンズは、イメージセンサの受光面に被写体像を結像させるレンズである。ズームレンズは、焦点距離を一定の範囲で自在に変化させるレンズである。
光学レンズ部にはまた、必要に応じて、焦点、露出、ホワイトバランス等の設定パラメータを調整する周辺回路が設けられる。
【0019】
イメージセンサは、光電変換素子や、AFE(Analog Front End)等から構成される。
光電変換素子は、例えばCMOS(Complementary Metal Oxide Semiconductor)型の光電変換素子等から構成される。光電変換素子には、光学レンズ部から被写体像が入射される。そこで、光電変換素子は、被写体像を光電変換(撮像)して画像信号を一定時間蓄積し、蓄積した画像信号をアナログ信号としてAFEに順次供給する。
AFEは、このアナログの画像信号に対して、A/D(Analog/Digital)変換処理等の各種信号処理を実行する。各種信号処理によって、ディジタル信号が生成され、撮像部16の出力信号として出力される。
このような撮像部16の出力信号を、以下、「撮像画像のデータ」と呼ぶ。撮像画像のデータは、CPU11等に適宜供給される。
【0020】
入力部17は、各種釦等で構成され、ユーザの指示操作に応じて各種情報を入力する。また、入力部17は、マイク及びA/D変換回路等を有しており、マイクを介して入力した音声のデータをCPU11あるいは記憶部19に出力する。
出力部18は、ディスプレイや、スピーカ及びD/A変換回路等を有しており、画像や音声を出力する。
記憶部19は、ハードディスクあるいはDRAM(Dynamic Random Access Memory)等で構成され、各種画像のデータを格納したデータベースや入力された音声に基づく認識処理のためのデータベース等を記憶する。
通信部20は、インターネットを含むネットワークを介して、他の装置(デジタルフォトフレームあるいは適宜設置されるデータベースサーバ等)との間で行う通信を制御する。
【0021】
ドライブ21には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ21によってリムーバブルメディア31から読み出されたプログラムは、必要に応じて記憶部19にインストールされる。また、リムーバブルメディア31は、記憶部19に記憶されている画像のデータ等の各種データも、記憶部19と同様に記憶することができる。
【0022】
図3は、デジタルフォトフレーム10において、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
発話側情報特定処理とは、デジタルフォトフレーム10に入力された音声に基づいて、その音声に関して認識の対象としている発話側情報(ここでは音声を発した話者)を特定する一連の処理をいう。
また、画像表示処理とは、発話側情報特定処理によって特定された発話側の情報に基づいて、話者の画像を表示する一連の処理をいう。
また、音声送信処理とは、画像表示処理によって話者の画像を表示している一のデジタルフォトフレーム10に入力された音声を、表示されている話者の下に設置されている他のデジタルフォトフレーム10に送信する一連の処理をいう。
入力部17は、周囲の音声が入力される音声入力部41を備えている。
【0023】
CPU11は、第1実施形態に係る発話側情報特定処理を実行する発話側情報特定部42と、第1実施形態に係る画像表示処理を実行する画像選択部46と、第1実施形態に係る音声送信処理を実行する音声送信処理部50と、を備えている。
記憶部19の一領域には、発話側情報(ここでは話者)を特定するための情報を記憶する発話側情報データベース43と、デジタルフォトフレーム10で表示する画像データ(例えば孫A,Bの画像等)を記憶する画像データベース47と、が設けられている。
【0024】
図4は、発話側情報データベース43のデータ構造を示す図である。
図4において、発話側情報データベース43には、話者を識別する話者IDと、話者の氏名または名称と、話者の属性(例えば続柄)と、話者IDによって識別される話者の特徴データ(例えば話者の特徴が定義されたテンプレート)とが対応付けて記憶されている。
発話側情報データベース43の所定の行は、1人の話者に対応している。例えば、1行目の記憶内容によれば、話者IDが「h001」である話者は、氏名または名称が「○○」であり、属性が「孫A」であり、特徴データが「テンプレートt001」であることがわかる。
発話側情報特定処理においては、デジタルフォトフレーム10に入力された音声のデータが、発話側情報データベース43に記憶されているいずれの特徴データ(テンプレート)に合致するかに基づいて、話者が特定される。
【0025】
図5は、画像データベース47のデータ構造を示す図である。
図5において、画像データベース47には、画像データを識別する画像IDと、その画像データが対応する話者IDと、画像データが関係する話者の氏名または名称と、その話者の属性と、画像データのファイル名とが対応付けて記憶されている。
画像データベース47の所定の行は、1つの画像に対応している。例えば、1行目の記憶内容によれば、画像IDが「p001」である画像データは、話者ID「h001」、氏名または名称「○○」に対応し、属性が「孫A」、画像データが「p001.jpg」であることがわかる。
画像表示処理においては、他のデジタルフォトフレーム10から送信された話者IDに基づいて、画像データベース47が検索され、話者IDに対応する画像データが表示される。
このとき、話者IDに対応する画像データが複数記憶されている場合には、その話者IDに対応する画像データがスライドショー形式で順次表示される。
【0026】
RAM13の一領域には、画像選択部46が受信した発話側情報において、発話側の情報として話者が特定されている場合に、発話側情報の送信元を示す送信元情報を記憶する領域と、送信元情報が記憶されているか否かを示すフラグを記憶する領域とを有する送信元情報記憶部48が設けられている。
出力部18は、画像選択部46が画像表示処理において選択した画像を表示する表示部49と、他のデジタルフォトフレーム10が音声送信処理を実行することにより受信部45で受信された音声データを音声として出力する音声出力部51と、を備えている。
通信部20は、発話側情報特定部42が特定した発話側情報及び音声送信処理部50が送信する音声のデータを送信する送信部44と、他のデジタルフォトフレーム10が送信した発話側情報及び音声データを受信する受信部45と、を備えている。
【0027】
このように、本実施形態では、送信元のデジタルフォトフレーム10に入力された音声に基づいて、発話側情報特定処理が実行され、その結果である発話側情報(ここでは話者ID)が、送信先のデジタルフォトフレーム10に送信される。例えば、送信元のデジタルフォトフレーム10−2に孫Aが話しかけると、デジタルフォトフレーム10−2において、発話側情報特定処理が実行され、孫Aが認識される。そして、デジタルフォトフレーム10−2から、送信先であるデジタルフォトフレーム10−1に孫Aの話者IDが送信される。デジタルフォトフレーム10−1では、受信した話者IDに基づいて、画像表示処理が実行され、孫Aの画像が表示される。このとき、孫Aの画像データが複数記憶されている場合、これらの画像データの各々により表される孫Aの各種画像がスライドショー形式で順次表示される。さらに、孫Aの画像が表示されているデジタルフォトフレーム10−1に対し、祖父母が話しかけると、その音声データが、デジタルフォトフレーム10−1から、話者IDの送信元であったデジタルフォトフレーム10−2に送信される。そして、孫Aの話者IDを送信したデジタルフォトフレーム10−2では、受信した祖父母の音声を出力する。即ち、離れた場所に位置するユーザ(ここでは祖父母と孫A,B)がコミュニケーションを図る上で、利便性を向上させることができる。
【0028】
[動作]
次に、デジタルフォトフレーム10の動作を説明する。
まず、図6を参照して、図3の機能的構成のデジタルフォトフレーム10が実行する処理のうち、発話側情報特定処理について説明する。
図6は、図3の機能的構成を有する図2のデジタルフォトフレーム10が実行する発話側情報特定処理の流れを説明するフローチャートである。
発話側情報特定処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
【0029】
ステップS11において、発話側情報特定部42は、音声入力部41から入力する音声をサンプリング処理し、その結果得られるサンプリングした音声データに基づいて、話者認識を行う。即ち、発話側情報特定部42は、発話側情報データベース43に記憶された複数の特徴データ(テンプレート)のうち、サンプリングした音声データと合致した特徴データ(テンプレート)により特定される者を、話者として認識する。ステップS11では、例えば、居間に設置したデジタルフォトフレーム10に入力される家族団欒の会話に対して話者認識が行われる。
【0030】
ステップS12において、発話側情報特定部42は、送信部44を介して、ステップS11の処理で認識した話者の話者ID(発話側情報)を、ネットワークに接続されている他のデジタルフォトフレーム10に送信する。このとき、話者認識を行えなかった場合、発話側情報として、話者を特定できなかったことを示す所定の話者ID(無効話者ID)が送信される。
このようなステップS12の処理が終了すると、発話側情報特定処理は終了となる。
【0031】
次に、図7を参照して、図3の機能的構成のデジタルフォトフレーム10が実行する処理のうち、画像表示処理について説明する。
図7は、図3の機能的構成のデジタルフォトフレーム10が実行する画像表示処理の流れを説明するフローチャートである。
画像表示処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
ステップS21において、画像選択部46は、受信部45を介して発話側情報を受信したか否かの判定を行う。
【0032】
発話側情報が受信されていない場合、ステップS21においてNOであると判定されて、ステップS21の処理が繰り返される。
これに対して、発話側情報が受信された場合、ステップS21においてYESであると判定されて、処理はステップS22に進む。
ステップS22において、画像選択部46は、送信元情報記憶部48に記憶されている送信元情報及びフラグの記憶領域をクリアする。
ステップS23において、画像選択部46は、受信した発話側情報が話者を特定しているか否か(即ち、話者IDが無効話者IDであるか否か)の判定を行う。
受信した発話側情報が話者を特定していない(即ち、話者IDが無効話者IDである)場合、ステップS23においてNOであると判定されて、処理はステップS24に進む。
【0033】
ステップS24において、画像選択部46は、画像データベース47から人物が写っていない画像(例えば風景写真や美術品の写真の画像等)を選択する。このとき、例えば、人物以外が属性として設定されている画像データを選択する。
これに対して、受信した発話側情報が話者を特定している(即ち、話者IDが無効話者IDでない)場合、ステップS23においてYESであると判定されて、処理はステップS25に進む。
ステップS25において、画像選択部46は、話者IDに対応する画像データが画像データベース47に記憶されているか否かの判定を行う。
話者IDに対応する画像データが画像データベース47に記憶されていない場合、ステップS25においてNOと判定されて、処理はステップS26に進む。
【0034】
ステップS26において、画像選択部46は、画像データベース47から任意の人物の画像を選択する。
これに対して、話者IDに対応する画像データが画像データベース47に記憶されている場合、ステップS25においてYESと判定されて、処理はステップS27に進む。
ステップS27において、画像選択部46は、送信元情報記憶部48に送信元情報を記憶し、送信元情報が記憶されていることを示すフラグ(有効フラグ)をセットする。
ステップS28において、画像選択部46は、画像データベース47から話者IDに対応する画像データを選択する。このとき、話者IDに対応する画像データが複数記憶されている場合、これらの画像データが順に選択される。
ステップS29において、画像選択部46は、表示部49に選択した画像を表示する。
ステップS29では、例えば、孫Aの家の家族団欒における話者の画像が表示部49で表示される。
このようなステップS29の処理が終了すると、画像表示処理は終了となる。
【0035】
次に、図8を参照して、図3の機能的構成のデジタルフォトフレーム10が実行する処理のうち、音声送信処理について説明する。
図8は、図3の機能的構成のデジタルフォトフレーム10が実行する音声送信処理の流れを説明するフローチャートである。
【0036】
音声送信処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
ステップS31において、音声送信処理部50は、デジタルフォトフレーム10の周辺から音声が入力されているか否か(即ち、デジタルフォトフレーム10に声がかけられているか否か)の判定を行う。
デジタルフォトフレーム10の周辺から音声が入力されていない(即ち、デジタルフォトフレーム10に声がかけられていない)場合、ステップS31においてNOと判定されて、ステップS31の処理が繰り返される。
【0037】
これに対して、デジタルフォトフレーム10の周辺から音声が入力されている(即ち、デジタルフォトフレーム10に声がかけられている)場合、ステップS31においてYESと判定されて、処理はステップS32に進む。
ステップS32において、音声送信処理部50は、送信元情報記憶部48のフラグが送信元情報が記憶されていることを示している(有効フラグである)か否かの判定を行う。
送信元情報記憶部48のフラグが送信元情報が記憶されていることを示していない(有効フラグでない)場合、ステップS32においてNOと判定されて、処理はステップS31に進む。
【0038】
これに対し、送信元情報記憶部48のフラグが、送信元情報が記憶されていることを示している(有効フラグである)場合、ステップS32においてYESと判定されて、処理はステップS33に進む。
ステップS33において、音声送信処理部50は、送信元情報記憶部48に記憶されている送信元情報を読み出し、その送信元を送信先として、入力された音声を送信する。
このようなステップS33の処理が終了すると、音声送信処理は終了となる。
【0039】
以上説明したように、第1実施形態のデジタルフォトフレームシステム1では、複数のデジタルフォトフレーム10がネットワークを介して接続されており、各デジタルフォトフレーム10は、発話側情報特定部42と、画像選択部46と、音声送信処理部50とを備えている。
送信側となるデジタルフォトフレーム10−2,10−3における発話側情報特定部42は、音声入力部41から入力する音声に対して話者認識を行い、発話側情報(話者ID)を特定する。
そして、送信側のデジタルフォトフレーム10−2,10−3における発話側情報特定部42は、特定した発話側情報を受信側のデジタルフォトフレーム10−1に送信する。
【0040】
受信側となるデジタルフォトフレーム10−1における画像選択部46は、発話側情報を受信すると、発話側情報が話者を特定するものであるとき、その話者の画像データを画像データベース47から選択して表示部49に表示する。
このような処理により、例えば、デジタルフォトフレーム10−1の遠隔に位置するデジタルフォトフレーム10−2に、話者として孫Aが話しかけると、孫Aの発話側情報(話者ID)がデジタルフォトフレーム10−1に送信され、孫Aの画像が表示される。同様に、デジタルフォトフレーム10−1の遠隔に位置するデジタルフォトフレーム10−3に話者として孫Bが話しかけると、孫Bの発話側情報(話者ID)がデジタルフォトフレーム10−1に送信され、孫Bの画像が表示される。
【0041】
そして、孫Aあるいは孫Bの画像が表示されている際に、デジタルフォトフレーム10−1に祖父母が話しかけると、孫Aあるいは孫Bの発話側情報(話者ID)を送信したデジタルフォトフレーム10−2,10−3に祖父母の音声が送信される。
このとき、デジタルフォトフレーム10−1で発話側情報特定処理を実行していると、祖父母の話者IDがデジタルフォトフレーム10−2,10−3に送信される。そして、デジタルフォトフレーム10−2,10−3において画像選択処理及び音声送信処理を実行していると、双方向に話者の画像を表示することができ、話者の画像を見ながら会話を行うことができる。これにより、擬似的な家族団欒の雰囲気を創出することができる。
【0042】
したがって、本実施形態に係るデジタルフォトフレームシステム1によれば、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることが可能となる。
以上、本発明の第1実施形態に係るデジタルフォトフレームシステム1について説明した。
次に、本発明の第2実施形態に係るデジタルフォトフレームシステム1について説明する。
【0043】
[第2実施形態]
第1実施形態では、発話側情報特定部42は、発話側情報特定処理において、話者認識を行い、発話側情報として、認識結果である話者IDを送信するものとした。
これに対し、第2実施形態では、発話側情報特定部は、発話側情報特定処理において、発話側情報データベースを参照して、入力された音声に対する単語認識を行い、発話側情報として、認識された単語データを送信する。また、画像データベースには、単語データと画像データとが対応付けて記憶されている。そして、画像選択部は、受信した発話側情報としての単語データに対応する画像を画像データベースから選択して表示する。
【0044】
図9は、デジタルフォトフレーム10において、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
図9において、第2実施形態に係るデジタルフォトフレームシステム1のデジタルフォトフレーム10は、発話側情報データベース143、画像データベース147、発話側情報特定部142及び画像選択部146の構成が、図3に示す第1実施形態の機能的構成と異なっている。
【0045】
したがって、異なる部分である発話側情報データベース143、画像データベース147、発話側情報特定部142及び画像選択部146について主に説明し、他の機能的構成については、図3に示す機能的構成と同一の符号を付して、第1実施形態の説明を参照する。
なお、本発明の第2実施形態に係るデジタルフォトフレームシステム1において、デジタルフォトフレーム10のハードウェアの構成は、第1実施形態に係るデジタルフォトフレーム10の図2のハードウェア構成と基本的に同様の構成で実現することができる。
第2実施形態に係る発話側情報特定処理とは、デジタルフォトフレーム10に入力された音声に基づいて、その音声に関して認識の対象としている発話側情報(ここでは音声に含まれる単語)を特定する一連の処理をいう。
【0046】
また、画像表示処理とは、発話側情報特定処理によって特定された発話側の情報に基づいて、単語に関連する画像を表示する一連の処理をいう。
なお、音声送信処理は、第1実施形態における場合と同様である。
CPU11は、第2実施形態に係る発話側情報特定処理を実行する発話側情報特定部142と、第2実施形態に係る画像表示処理を実行する画像選択部146と、第1実施形態と同様の音声送信処理を実行する音声送信処理部50と、を備えている。
記憶部19の一領域には、発話側情報(ここでは単語)を特定するための情報を記憶する発話側情報データベース143と、デジタルフォトフレーム10で表示する画像(例えば孫A,Bの画像等)の画像データを記憶する画像データベース147と、が設けられている。
【0047】
図10は、発話側情報データベース143のデータ構造を示す図である。
図10において、発話側情報データベース143には、単語を識別する単語IDと、単語の発音データと、テキストデータからなる単語データとが対応付けて記憶されている。
発話側情報データベース143の所定の行は、1つの単語に対応している。例えば、1行目の記憶内容によれば、単語IDが「w001」である単語は、発音が「taro」であり、単語データが「太郎」であることがわかる。
発話側情報特定処理においては、デジタルフォトフレーム10に入力された音声のデータが、発話側情報データベース143に記憶されているいずれの音声データに合致するかに基づいて、単語が特定される。
【0048】
図11は、画像データベース147のデータ構造を示す図である。
図11において、画像データベース147には、画像データを識別する画像IDと、その画像データが対応する単語IDと、画像データのファイル名とが対応付けて記憶されている。
画像データベース147の所定の行は、1つの画像に対応している。例えば、1行目の記憶内容によれば、画像IDが「p001」である画像データは、単語ID「w001」、に対応し、画像データが「p001.jpg」であることがわかる。
画像表示処理においては、他のデジタルフォトフレーム10から送信された単語IDに基づいて、画像データベース147が検索され、単語IDに対応する画像データが表示される。
【0049】
このとき、単語IDに対応する画像データが複数記憶されている場合には、その単語IDに対応する画像データがスライドショー形式で順次表示される。また、1つの画像データに複数の単語IDを対応付けることが可能であり、複数の人物が写っている画像や、人と犬とが写っている画像には、画像に写っている複数の人や犬を表す単語IDが対応付けられる。例えば、図11において、画像ID002の画像には、孫Aと犬とが写っている。孫A(ここでは名前を「太郎」とする)の単語IDは「w001」、犬の単語IDは「w004」であり、画像ID002には、「w001/w004」(即ち、「太郎」と「犬」)が対応付けられている。
【0050】
なお、「僕」(単語ID:w005)のような1人称の単語については、各デジタルフォトフレーム10と特定の人物名とを対応させておき、1人称の単語をその特定の人物名に変換する。例えば、孫Aの家に設置されたデジタルフォトフレーム10−2から「僕」の単語ID「w005」が送信された場合、受信側のデジタルフォトフレーム10では、予め設定してある対応関係に応じて、「僕」(w005)を「太郎」(w001)に変換する。これにより、「僕」等の1人称の単語が特定された場合にも、その単語に対応する人物の画像を選択できるものとなる。
【0051】
このように、本実施形態では、送信元のデジタルフォトフレーム10に入力された音声に基づいて、発話側情報特定処理が実行され、その結果である発話側情報(ここでは単語ID)が、送信先のデジタルフォトフレーム10に送信される。例えば、送信元のデジタルフォトフレーム10−2に孫Aが「僕と犬の写真を見て」と話しかけると、デジタルフォトフレーム10−2において、発話側情報特定処理が実行され、「僕」、「犬」という単語が認識される。そして、デジタルフォトフレーム10−2から、送信先であるデジタルフォトフレーム10−1に「僕」と「犬」の単語ID(w004,w005)が送信される。デジタルフォトフレーム10−1では、受信した単語IDに基づいて、画像表示処理が実行され、孫A(太郎)と犬とが写った画像が表示される。なお、デジタルフォトフレーム10−1では、デジタルフォトフレーム10−2から受信した「僕」(w005)を予め設定してある対応関係に応じて、孫Aを表す「太郎」(w001)に変換した上で、画像表示処理を実行する。
【0052】
また、孫Aの画像が表示されているデジタルフォトフレーム10−1に対し、祖父母が話しかけると、その音声データが、デジタルフォトフレーム10−1から、単語IDの送信元であったデジタルフォトフレーム10−2に送信される。そして、単語IDを送信したデジタルフォトフレーム10−2では、受信した祖父母の音声を出力する。即ち、離れた場所に位置するユーザ(ここでは祖父母と孫A,B)がコミュニケーションを図る上で、利便性を向上させることができる。
【0053】
[動作]
次に、デジタルフォトフレーム10の動作を説明する。
まず、図12を参照して、図9の機能的構成のデジタルフォトフレーム10が実行する処理のうち、発話側情報特定処理について説明する。
図12は、図9の機能的構成を有する図2のデジタルフォトフレーム10が実行する発話側情報特定処理の流れを示すフローチャートである。
発話側情報特定処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
【0054】
ステップS41において、発話側情報特定部142は、音声入力部41から入力する音声をサンプリング処理し、その結果得られるサンプリングした音声データに基づいて、単語認識を行う。即ち、発話側情報特定部142は、発話側情報データベース143に記憶された複数の発音データのうち、サンプリングした音声データと合致した単語の発音データにより特定される単語を認識する。ステップS41では、例えば、居間に設置したデジタルフォトフレーム10に入力される家族団欒の会話に対して単語認識が行われる。
ステップS42において、発話側情報特定部142は、送信部44を介して、ステップS41の処理で認識した単語ID(発話側情報)を、ネットワークに接続されている他のデジタルフォトフレーム10に送信する。このとき、単語認識を行えなかった場合、発話側情報として、単語を特定できなかったことを示す所定の単語ID(無効単語ID)が送信される。
このようなステップS42の処理が終了すると、発話側情報特定処理は終了となる。
【0055】
次に、図13を参照して、図9の機能的構成のデジタルフォトフレーム10が実行する処理のうち、画像表示処理について説明する。
図13は、図3の機能的構成のデジタルフォトフレーム10が実行する画像表示処理の流れを説明するフローチャートである。
画像表示処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
【0056】
ステップS51において、画像選択部146は、受信部45を介して発話側情報を受信したか否かの判定を行う。
発話側情報が受信されていない場合、ステップS51においてNOであると判定されて、ステップS51の処理が繰り返される。
これに対して、発話側情報が受信された場合、ステップS51においてYESであると判定されて、処理はステップS52に進む。
ステップS52において、画像選択部146は、送信元情報記憶部48に記憶されている送信元情報及びフラグの記憶領域をクリアする。
ステップS53において、画像選択部146は、受信した発話側情報が単語を特定しているか否か(即ち、単語IDが無効単語IDであるか否か)の判定を行う。
【0057】
受信した発話側情報が単語を特定していない(即ち、単語IDが無効単語IDである)場合、ステップS53においてNOであると判定されて、処理はステップS54に進む。
ステップS54において、画像選択部146は、画像データベース47から任意の人物の画像を選択する。なお、ステップS54において、画像データベース47から人物が写っていない画像(例えば風景写真や美術品の写真等)を選択することもできる。
これに対して、受信した発話側情報が単語を特定している(即ち、単語IDが無効単語IDでない)場合、ステップS53においてYESであると判定されて、処理はステップS55に進む。
【0058】
ステップS55において、画像選択部146は、単語IDに対応する画像データが画像データベース47に記憶されているか否かの判定を行う。
単語IDに対応する画像データが画像データベース147に記憶されていない場合、ステップS55においてNOと判定されて、処理はステップS54に進む。
これに対して、単語IDに対応する画像データが画像データベース147に記憶されている場合、ステップS55においてYESと判定されて、処理はステップS56に進む。
ステップS56において、画像選択部146は、送信元情報記憶部48に送信元情報を記憶し、送信元情報が記憶されていることを示すフラグ(有効フラグ)をセットする。
ステップS57において、画像選択部146は、画像データベース147から単語IDに対応する画像データを選択する。このとき、画像IDに対応する画像データが複数記憶されている場合、これらの画像データが順に選択される。また、複数の単語IDが受信された場合、その複数の単語IDの組み合わせに対応している画像データが選択される。
【0059】
ステップS58において、画像選択部146は、表示部49に選択した画像を表示する。
ステップS58では、例えば、孫Aの家の家族団欒における話題に関係する画像が表示部49で表示される。
このようなステップS58の処理が終了すると、画像表示処理は終了となる。
以上説明したように、第2実施形態のデジタルフォトフレームシステム1では、複数のデジタルフォトフレーム10がネットワークを介して接続されており、各デジタルフォトフレーム10は、発話側情報特定部142と、画像選択部146と、音声送信処理部50とを備えている。
【0060】
送信側となるデジタルフォトフレーム10−2,10−3における発話側情報特定部142は、音声入力部41から入力する音声に対して単語認識を行い、発話側情報(単語ID)を特定する。
そして、送信側のデジタルフォトフレーム10−2,10−3における発話側情報特定部142は、特定した発話側情報を受信側のデジタルフォトフレーム10−1に送信する。
受信側となるデジタルフォトフレーム10−1における画像選択部146は、発話側情報を受信すると、発話側情報が単語を特定するものであるとき、その単語に関連する画像データを画像データベース147から選択して表示部49に表示する。
【0061】
このような処理により、例えば、デジタルフォトフレーム10−1の遠隔に位置するデジタルフォトフレーム10−2に、孫Aが「犬と遊んだよ」と話しかけると、「犬」の発話側情報(単語ID:w004)がデジタルフォトフレーム10−1に送信され、犬の画像が表示される。同様に、デジタルフォトフレーム10の遠隔に位置するデジタルフォトフレーム10−3に、孫Bが「野球をしたよ」と話しかけると、「野球」の発話側情報(単語ID:w006)がデジタルフォトフレーム10−1に送信され、野球の画像が表示される。
また、例えば、デジタルフォトフレーム10−2に孫Aが「僕と犬の写真を見て」と話しかけると、「僕」と「犬」の発話側情報(単語ID:w004/w005)がデジタルフォトフレーム10−1に送信される。デジタルフォトフレーム10−1では、1人称である「僕」をデジタルフォトフレーム10−2と対応付けられている「太郎」に変換する。そして、デジタルフォトフレーム10−1では、「太郎」(孫A)と「犬」とが写った画像が表示される。
【0062】
そして、「犬」の画像、「太郎と犬」の画像あるいは「野球の画像」が表示されている際に、デジタルフォトフレーム10−1に祖父母が話しかけると、「犬」、「太郎」と「犬」あるいは「野球」の発話側情報(単語ID)を送信したデジタルフォトフレーム10−2,10−3に祖父母の音声が送信される。
このとき、デジタルフォトフレーム10−1で発話側情報特定処理を実行していると、祖父母の話者IDがデジタルフォトフレーム10−2,10−3に送信される。そして、デジタルフォトフレーム10−2,10−3において画像選択処理及び音声送信処理を実行していると、双方向に会話に関する画像を表示することができ、話題の画像を見ながら会話を行うことができる。これにより、擬似的な家族団欒の雰囲気を創出することができる。
したがって、本実施形態に係るデジタルフォトフレームシステム1によれば、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることが可能となる。
【0063】
[応用例1]
第1実施形態及び第2実施形態では、送信側のデジタルフォトフレーム10において発話側情報特定処理を実行し、話者認識あるいは単語認識の結果である発話側情報(話者IDあるいは単語ID)を受信側のデジタルフォトフレーム10に送信した。そして、受信側のデジタルフォトフレーム10において、受信した発話側情報に基づいて画像表示処理を実行した。
これに対し、発話側情報特定処理を実行するデジタルフォトフレーム10において、画像表示処理を実行することができる。この場合、発話側情報特定処理及び画像表示処理が一体となった情報特定表示処理が実行される。情報特定表示処理は、デジタルフォトフレーム10に入力された音声に対して発話側情報の特定を行い、特定された発話側情報に対応する画像を表示するものである。
【0064】
以下、第2実施形態において説明した機能的構成の下、発話側情報として単語を特定し、その結果である単語IDに対応する画像を表示する処理を1つのデジタルフォトフレーム10において実行する例について説明する。
図14は、図3あるいは図9の機能的構成を有する図2のデジタルフォトフレーム10が実行する情報特定表示処理の流れを説明するフローチャートである。
情報特定表示処理は、本応用例では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
ステップS61において、発話側情報特定部142は、音声入力部41から入力する音声をサンプリング処理し、サンプリングした音声データに基づいて、単語認識を行う。このとき、発話側情報特定部142は、サンプリングした音声データと、発話側情報データベース143の単語の発音データとが合致するか否かに応じて、単語認識を行う。ステップS61では、例えば、ラジオの周辺に設置されたデジタルフォトフレーム10に入力されるラジオの音声に対して単語認識が行われる。
【0065】
ステップS62において、画像選択部146は、受信した発話側情報が単語を特定しているか否か(即ち、単語IDが無効単語IDであるか否か)の判定を行う。
受信した発話側情報が単語を特定していない(即ち、単語IDが無効単語IDである)場合、ステップS62においてNOであると判定されて、処理はステップS63に進む。
ステップS63において、画像選択部146は、画像データベース47から任意の人物の画像を選択する。なお、ステップS63において、画像データベース47から人物が写っていない画像(例えば風景写真や美術品の写真の画像等)を選択することもできる。
これに対して、受信した発話側情報が単語を特定している(即ち、単語IDが無効単語IDでない)場合、ステップS62においてYESであると判定されて、処理はステップS64に進む。
【0066】
ステップS64において、画像選択部146は、単語IDに対応する画像データが画像データベース47に記憶されているか否かの判定を行う。
単語IDに対応する画像データが画像データベース147に記憶されていない場合、ステップS64においてNOと判定されて、処理はステップS63に進む。
これに対して、単語IDに対応する画像データが画像データベース147に記憶されている場合、ステップS64においてYESと判定されて、処理はステップS65に進む。
ステップS65において、画像選択部146は、画像データベース147から単語IDに対応する画像データを選択する。このとき、画像IDに対応する画像データが複数記憶されている場合、これらの画像データが順に選択される。また、複数の単語IDが受信された場合、その複数の単語IDの組み合わせに対応している画像データが選択される。
【0067】
ステップS66において、画像選択部146は、表示部49に選択した画像を表示する。
ステップS66では、例えば、ラジオのパーソナリティが話した話題に関係する画像が表示部49で表示される。例えば、ラジオのパーソナリティが「富士山」という単語を話した場合、表示部49に富士山の画像が表示される。
このようなステップS66の処理が終了すると、情報特定表示処理は終了となる。
なお、第1実施形態において説明した機能構成の下、情報特定表示処理を実行することとした場合、デジタルフォトフレーム10において話者認識が行われ、その話者の画像が表示される。例えば、ラジオの音声がデジタルフォトフレーム10に入力されると、話しているパーソナリティが話者認識され、そのパーソナリティの画像が表示される。
このような場合、デジタルフォトフレーム10が、ネットワークによって他のデジタルフォトフレーム10と接続されていない場合であっても、スライドショー表示における利便性を向上させることができる。
【0068】
[応用例2]
第1実施形態及び第2実施形態では、発話側情報特定処理において、話者IDあるいは単語データを発話側情報として送信することとした。
これに対し、発話側情報特定処理において、デジタルフォトフレーム10に入力された音声のサンプリングデータ(音声データ)を発話側情報に含めることができる。
この場合、発話側情報を受信したデジタルフォトフレーム10では、話者IDに対応する画像を表示する際に、受信した音声データをスピーカから出力する。
例えば、デジタルフォトフレーム10−2,10−3からデジタルフォトフレーム10−1に、話者である孫A,Bの話者IDと共に、孫A,Bの音声データを送信することができる。そして、デジタルフォトフレーム10−1では、孫A,Bの画像を表示する際に、受信した孫A,Bの声を出力する。
これにより、祖父母Gは、孫Aあるいは孫Bの家での家族団欒の雰囲気をより現実的に感じることができる。
したがって、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性をさらに向上させることが可能となる。
【0069】
[応用例3]
第1実施形態及び第2実施形態では、音声送信処理において、デジタルフォトフレーム10に表示されている画像に話しかけた音声を、話者IDの送信元であったデジタルフォトフレーム10に送信することとした。
これに対し、音声送信処理において、デジタルフォトフレーム10に音声が入力されている場合に、話しかけている話者の画像を撮像部16で撮影し、その撮像画像のデータを音声と共に送信することができる。
例えば、デジタルフォトフレーム10−1からデジタルフォトフレーム10−2,10−3に祖父母G(具体的には、祖母あるいは祖父の一方)の音声と共に、撮像部16で撮影した祖父母Gの画像を送信することができる。そして、デジタルフォトフレーム10−2,10−3では、祖父母Gの音声を出力すると共に、祖父母Gの写真を表示する。
これにより、孫A,Bの家では、家族団欒の最中に、祖父母Gの声と共に、祖父母Gの画像がデジタルフォトフレーム10−2,10−3から出力されることとなり、祖父母Gを交えた家族団欒の雰囲気を感じることができる。
【0070】
[応用例4]
第1実施形態及び第2実施形態では、発話側情報特定処理において、話者IDあるいは単語データを発話側情報として送信することとした。
これに対し、発話側情報特定処理において、デジタルフォトフレーム10に入力された音声の大きさを発話側情報に含めることができる。
この場合、発話側情報を受信したデジタルフォトフレーム10では、話者IDに対応する画像を表示する際に、受信した音声データの大きさに基づいて、画像の表示方法を変更する。
例えば、デジタルフォトフレーム10−2からデジタルフォトフレーム10−1に、話者である孫Aの話者IDと共に、孫Aの音声の大きさを送信することができる。そして、デジタルフォトフレーム10−1では、孫Aの画像を表示する際に、受信した孫Aの音声の大きさが小さい場合には、表示する画像のコントラストを低下させて表示する。他には、画像の表示サイズを小さくして表示しても良い。
これにより、孫Aとの距離感を感じることができ、祖父母Gは、孫Aの家での家族団欒の雰囲気をより現実的に感じることができる。
【0071】
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
上述の実施形態では、孫A,Bの家に設置されたデジタルフォトフレーム10−2,10−3において発話側情報特定処理を実行する場合を例として説明した。これに対し、祖父母Gの家に設置されたデジタルフォトフレーム10−1において発話側情報特定処理を常時実行しておくと、デジタルフォトフレーム10−2,10−3のスライドショー表示を確認することにより、祖父母Gが無事に日常生活を営んでいるか否かを見守ることができる。
【0072】
上述の実施形態では、画像提供媒体としてリムーバブルメディア31を用いているがこれに限定されない。例えば、ネットワーク上の他の装置(サーバ等)内の記憶部(ハードディスク等)でも良い。
【0073】
また、上述の実施形態では、本発明が適用される画像表示システムは、複数のデジタルフォトフレームがネットワークを介して接続されたデジタルフォトフレームシステムを例として説明したが、特にこれに限定されない。
例えば、本発明は、画像表示機能を有する電子機器一般に適用することができる。具体的には、例えば、本発明は、ノート型のパーソナルコンピュータ、プリンタ、テレビジョン受像機、ビデオカメラ、携帯型ナビゲーション装置、携帯電話機、ポータブルゲーム機等に適用可能である。
【0074】
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図3及び図9の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が画像表示装置に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図3及び図9の例に限定されない。
また、1つの機能ブロックは、ハードウェア単体で構成しても良いし、ソフトウェア単体で構成しても良いし、それらの組み合わせで構成しても良い。
【0075】
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであっても良い。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであっても良い。
【0076】
このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図2のリムーバブルメディア31により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア31は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、または光磁気ディスク等により構成される。光ディスクは、例えば、CD−ROM(Compact Disk−Read Only Memory),DVD(Digital Versatile Disk)等により構成される。光磁気ディスクは、MD(Mini−Disk)等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図2のROM12や、図2の記憶部19に含まれるハードディスク等で構成される。
【0077】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
【0078】
以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0079】
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[付記1]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する第1の画像表示装置及び第2の画像表示装置を含む画像表示システムであって、
前記第1の画像表示装置は、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を前記第2の画像表示装置に送信する発話側情報送信手段と、
を備え、
前記第2の画像表示装置は、
前記発話側情報を受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示システム。
[付記2]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信手段と、
を備えることを特徴とする画像表示装置。
[付記3]
前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、話者認識を行うことにより、前記発話側情報として話者を特定することを特徴とする付記2に記載の画像表示装置。
[付記4]
前記発話側情報送信手段によって前記発話側情報を送信した他の前記画像表示装置から受信した音声データに基づいて、音声を出力する音声出力手段をさらに備えることを特徴とする付記2または3に記載の画像表示装置。
[付記5]
前記第1の画像表示装置における前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、単語認識を行うことにより、前記発話側情報として単語を特定することを特徴とする付記2に記載の画像表示装置。
[付記6]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
音声が入力される音声入力ステップと、
前記音声入力ステップで入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定ステップと、
前記発話側情報特定ステップで特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信ステップと、
を含むことを特徴とする画像表示方法。
[付記7]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
音声が入力される音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定機能と、
前記発話側情報特定機能によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信機能と、
を実現させることを特徴とするプログラム。
[付記8]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示装置。
[付記9]
音声が入力される音声入力手段と、
前記画像選択手段が選択した前記画像データを前記表示手段が表示している場合に、前記音声入力手段に音声が入力されると、前記音声を他の前記画像表示装置に送信する音声送信処理手段と、
をさらに備えることを特徴とする付記8に記載の画像表示装置。
[付記10]
前記画像データ記憶手段に記憶されている前記画像データには、複数の前記発話側情報としての前記単語が対応付けられており、
前記発話側情報受信手段が他の前記画像表示装置から複数の前記単語を特定した前記発話側情報を受信した場合、前記画像選択手段は、前記発話側情報としての複数の前記単語の組み合わせに対応する前記画像データを、前記画像データ記憶手段に記憶されている前記画像データから選択することを特徴とする付記8または9に記載の画像表示装置。
[付記11]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信ステップと、
前記発話側情報受信ステップで受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択ステップと、
前記画像選択ステップで選択された画像を表示する表示ステップと、
を含むことを特徴とする画像表示方法。
[付記12]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信機能と、
前記発話側情報受信機能によって受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択機能と、
前記画像選択機能によって選択された画像を表示する表示機能と、
を実現させることを特徴とするプログラム。
【符号の説明】
【0080】
1・・・デジタルフォトフレームシステム、10,10−1〜10−3・・・デジタルフォトフレーム、11・・・CPU、12・・・ROM、13・・・RAM、14・・・バス、15・・・入出力インターフェース、16・・・撮像部、17・・・入力部、18・・・出力部、19・・・記憶部、20・・・通信部、21・・・ドライブ、31・・・リムーバブルメディア、41・・・音声入力部、42,142・・・発話側情報特定部、43,143・・・発話側情報データベース、44・・・送信部、45・・・受信部、46,146・・・画像選択部、47,147・・・画像データベース、48・・・送信元情報記憶部、49・・・表示部、50・・・音声送信処理部、51・・・音声出力部
【技術分野】
【0001】
本発明は、画像表示システム、画像表示装置、画像表示方法及びプログラムに関する。
【背景技術】
【0002】
近年、メモリに記憶されている画像ファイルを順次切り替えて読み出して、対応する画像を表示するスライドショー表示機能を備えたデジタルフォトフレーム(Digital
Photo Frame)が登場してきている(例えば、特許文献1参照)。
【0003】
このようなデジタルフォトフレームにおいては、スライドショーにおける画像の表示形態等に種々の機能が付加され、利便性の向上が図られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010−243723号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の技術を含め、従来のデジタルフォトフレーム等の画像表示装置におけるスライドショー表示では、画像表示装置単体の機能について向上が図られているものの、複数の画像表示装置が連携した場合に提供できる機能については、十分な検討がなされていなかった。例えば、離れた場所に位置するユーザがコミュニケーションを図る上で、デジタルフォトフレームが提供できる機能は十分なものでなかった。
【0006】
本発明は、このような状況に鑑みてなされたものであり、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明の一態様の画像表示システムは、
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する第1の画像表示装置及び第2の画像表示装置を含む画像表示システムであって、
前記第1の画像表示装置は、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を前記第2の画像表示装置に送信する発話側情報送信手段と、
を備え、
前記第2の画像表示装置は、
前記発話側情報を受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする。
【発明の効果】
【0008】
本発明によれば、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることが可能となる。
【図面の簡単な説明】
【0009】
【図1】本発明の画像表示システムに係る一実施形態としてのデジタルフォトフレームシステムの構成を示す図である。
【図2】本発明の第1実施形態に係るデジタルフォトフレームのハードウェアの構成を示すブロック図である。
【図3】第1実施形態のデジタルフォトフレームにおいて、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
【図4】発話側情報データベースのデータ構造を示す図である。
【図5】画像データベースのデータ構造を示す図である。
【図6】図3の機能的構成を有する図2のデジタルフォトフレームが実行する発話側情報特定処理の流れを説明するフローチャートである。
【図7】図3の機能的構成のデジタルフォトフレームが実行する画像表示処理の流れを説明するフローチャートである。
【図8】図3の機能的構成のデジタルフォトフレームが実行する音声送信処理の流れを説明するフローチャートである。
【図9】第2実施形態のデジタルフォトフレームにおいて、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
【図10】発話側情報データベースのデータ構造を示す図である。
【図11】画像データベースのデータ構造を示す図である。
【図12】図9の機能的構成を有する図2のデジタルフォトフレームが実行する発話側情報特定処理の流れを示すフローチャートである。
【図13】図3の機能的構成のデジタルフォトフレームが実行する画像表示処理の流れを説明するフローチャートである。
【図14】図3あるいは図9の機能的構成を有する図2のデジタルフォトフレームが実行する情報特定表示処理の流れを説明するフローチャートである。
【発明を実施するための形態】
【0010】
以下、図面に基づいて、本発明の画像表示システムの第1実施形態及び第2実施形態について説明する。
[第1実施形態]
[画像表示システムの構成]
【0011】
本実施形態に係る画像表示システムでは、第1の画像表示装置において、発話側情報(ここでは話者)が特定され、特定された発話側情報は、第2の画像表示装置に送信される。発話側情報を受信した第2の画像表示装置では、受信した発話側情報に基づいて、スライドショー表示において、発話側情報において特定されている情報(ここでは話者)に対応する画像を表示する。そして、第2の画像表示装置において、表示されている画像に話しかけることにより、第2の画像表示装置から第1の画像表示装置に音声が送信される。これにより、離れた場所に位置するユーザが、あたかも同じ場所にいるかのように、画像と音声とを介してコミュニケーションを図ることができる。
【0012】
図1は、本発明の画像表示システムに係る一実施形態としてのデジタルフォトフレームシステム1の構成を示している。図1では、本発明の画像表示装置の一例として、デジタルフォトフレーム10−1〜10−3が示されている。
デジタルフォトフレームシステム1は、図1の例では3つのデジタルフォトフレーム10−1〜10−3がネットワーク(図示せず)を介して接続されることにより構成されている。各デジタルフォトフレーム10−1〜10−3は、それぞれ遠隔に位置する家族をユーザとしている。
【0013】
具体的には、デジタルフォトフレーム10−1は祖父母Gの家、デジタルフォトフレーム10−2は祖父母Gの孫Aの家、デジタルフォトフレーム10−3は祖父母Gの孫Bの家に設置されている。なお、孫Aの家と孫Bの家とは異なるものとする。
以下、デジタルフォトフレーム10−1〜10−3を個々に区別する必要がない場合、これらをまとめて、「デジタルフォトフレーム10」と単に呼ぶ。また、デジタルフォトフレーム10と呼んでいる場合には、その構成要素の符号についても、1〜3を省略して説明する。
なお、デジタルフォトフレーム10の台数は、図1の例では3台とされているが、図1の例に特に限定されず、任意の台数で良い。
【0014】
図2は、本発明の第1実施形態に係るデジタルフォトフレーム10のハードウェアの構成を示すブロック図である。
図2において、デジタルフォトフレーム10は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、撮像部16と、入力部17と、出力部18と、記憶部19と、通信部20と、ドライブ21と、を備えている。
【0015】
CPU11は、ROM12に記録されているプログラム、または、記憶部19からRAM13にロードされたプログラムに従って各種の処理を実行する。
【0016】
RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
【0017】
CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、撮像部16、入力部17、出力部18、記憶部19、通信部20及びドライブ21が接続されている。
撮像部16は、図示はしないが、光学レンズ部と、イメージセンサと、を備えている。
【0018】
光学レンズ部は、被写体を撮影するために、光を集光するレンズ、例えばフォーカスレンズやズームレンズ等で構成される。
フォーカスレンズは、イメージセンサの受光面に被写体像を結像させるレンズである。ズームレンズは、焦点距離を一定の範囲で自在に変化させるレンズである。
光学レンズ部にはまた、必要に応じて、焦点、露出、ホワイトバランス等の設定パラメータを調整する周辺回路が設けられる。
【0019】
イメージセンサは、光電変換素子や、AFE(Analog Front End)等から構成される。
光電変換素子は、例えばCMOS(Complementary Metal Oxide Semiconductor)型の光電変換素子等から構成される。光電変換素子には、光学レンズ部から被写体像が入射される。そこで、光電変換素子は、被写体像を光電変換(撮像)して画像信号を一定時間蓄積し、蓄積した画像信号をアナログ信号としてAFEに順次供給する。
AFEは、このアナログの画像信号に対して、A/D(Analog/Digital)変換処理等の各種信号処理を実行する。各種信号処理によって、ディジタル信号が生成され、撮像部16の出力信号として出力される。
このような撮像部16の出力信号を、以下、「撮像画像のデータ」と呼ぶ。撮像画像のデータは、CPU11等に適宜供給される。
【0020】
入力部17は、各種釦等で構成され、ユーザの指示操作に応じて各種情報を入力する。また、入力部17は、マイク及びA/D変換回路等を有しており、マイクを介して入力した音声のデータをCPU11あるいは記憶部19に出力する。
出力部18は、ディスプレイや、スピーカ及びD/A変換回路等を有しており、画像や音声を出力する。
記憶部19は、ハードディスクあるいはDRAM(Dynamic Random Access Memory)等で構成され、各種画像のデータを格納したデータベースや入力された音声に基づく認識処理のためのデータベース等を記憶する。
通信部20は、インターネットを含むネットワークを介して、他の装置(デジタルフォトフレームあるいは適宜設置されるデータベースサーバ等)との間で行う通信を制御する。
【0021】
ドライブ21には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ21によってリムーバブルメディア31から読み出されたプログラムは、必要に応じて記憶部19にインストールされる。また、リムーバブルメディア31は、記憶部19に記憶されている画像のデータ等の各種データも、記憶部19と同様に記憶することができる。
【0022】
図3は、デジタルフォトフレーム10において、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
発話側情報特定処理とは、デジタルフォトフレーム10に入力された音声に基づいて、その音声に関して認識の対象としている発話側情報(ここでは音声を発した話者)を特定する一連の処理をいう。
また、画像表示処理とは、発話側情報特定処理によって特定された発話側の情報に基づいて、話者の画像を表示する一連の処理をいう。
また、音声送信処理とは、画像表示処理によって話者の画像を表示している一のデジタルフォトフレーム10に入力された音声を、表示されている話者の下に設置されている他のデジタルフォトフレーム10に送信する一連の処理をいう。
入力部17は、周囲の音声が入力される音声入力部41を備えている。
【0023】
CPU11は、第1実施形態に係る発話側情報特定処理を実行する発話側情報特定部42と、第1実施形態に係る画像表示処理を実行する画像選択部46と、第1実施形態に係る音声送信処理を実行する音声送信処理部50と、を備えている。
記憶部19の一領域には、発話側情報(ここでは話者)を特定するための情報を記憶する発話側情報データベース43と、デジタルフォトフレーム10で表示する画像データ(例えば孫A,Bの画像等)を記憶する画像データベース47と、が設けられている。
【0024】
図4は、発話側情報データベース43のデータ構造を示す図である。
図4において、発話側情報データベース43には、話者を識別する話者IDと、話者の氏名または名称と、話者の属性(例えば続柄)と、話者IDによって識別される話者の特徴データ(例えば話者の特徴が定義されたテンプレート)とが対応付けて記憶されている。
発話側情報データベース43の所定の行は、1人の話者に対応している。例えば、1行目の記憶内容によれば、話者IDが「h001」である話者は、氏名または名称が「○○」であり、属性が「孫A」であり、特徴データが「テンプレートt001」であることがわかる。
発話側情報特定処理においては、デジタルフォトフレーム10に入力された音声のデータが、発話側情報データベース43に記憶されているいずれの特徴データ(テンプレート)に合致するかに基づいて、話者が特定される。
【0025】
図5は、画像データベース47のデータ構造を示す図である。
図5において、画像データベース47には、画像データを識別する画像IDと、その画像データが対応する話者IDと、画像データが関係する話者の氏名または名称と、その話者の属性と、画像データのファイル名とが対応付けて記憶されている。
画像データベース47の所定の行は、1つの画像に対応している。例えば、1行目の記憶内容によれば、画像IDが「p001」である画像データは、話者ID「h001」、氏名または名称「○○」に対応し、属性が「孫A」、画像データが「p001.jpg」であることがわかる。
画像表示処理においては、他のデジタルフォトフレーム10から送信された話者IDに基づいて、画像データベース47が検索され、話者IDに対応する画像データが表示される。
このとき、話者IDに対応する画像データが複数記憶されている場合には、その話者IDに対応する画像データがスライドショー形式で順次表示される。
【0026】
RAM13の一領域には、画像選択部46が受信した発話側情報において、発話側の情報として話者が特定されている場合に、発話側情報の送信元を示す送信元情報を記憶する領域と、送信元情報が記憶されているか否かを示すフラグを記憶する領域とを有する送信元情報記憶部48が設けられている。
出力部18は、画像選択部46が画像表示処理において選択した画像を表示する表示部49と、他のデジタルフォトフレーム10が音声送信処理を実行することにより受信部45で受信された音声データを音声として出力する音声出力部51と、を備えている。
通信部20は、発話側情報特定部42が特定した発話側情報及び音声送信処理部50が送信する音声のデータを送信する送信部44と、他のデジタルフォトフレーム10が送信した発話側情報及び音声データを受信する受信部45と、を備えている。
【0027】
このように、本実施形態では、送信元のデジタルフォトフレーム10に入力された音声に基づいて、発話側情報特定処理が実行され、その結果である発話側情報(ここでは話者ID)が、送信先のデジタルフォトフレーム10に送信される。例えば、送信元のデジタルフォトフレーム10−2に孫Aが話しかけると、デジタルフォトフレーム10−2において、発話側情報特定処理が実行され、孫Aが認識される。そして、デジタルフォトフレーム10−2から、送信先であるデジタルフォトフレーム10−1に孫Aの話者IDが送信される。デジタルフォトフレーム10−1では、受信した話者IDに基づいて、画像表示処理が実行され、孫Aの画像が表示される。このとき、孫Aの画像データが複数記憶されている場合、これらの画像データの各々により表される孫Aの各種画像がスライドショー形式で順次表示される。さらに、孫Aの画像が表示されているデジタルフォトフレーム10−1に対し、祖父母が話しかけると、その音声データが、デジタルフォトフレーム10−1から、話者IDの送信元であったデジタルフォトフレーム10−2に送信される。そして、孫Aの話者IDを送信したデジタルフォトフレーム10−2では、受信した祖父母の音声を出力する。即ち、離れた場所に位置するユーザ(ここでは祖父母と孫A,B)がコミュニケーションを図る上で、利便性を向上させることができる。
【0028】
[動作]
次に、デジタルフォトフレーム10の動作を説明する。
まず、図6を参照して、図3の機能的構成のデジタルフォトフレーム10が実行する処理のうち、発話側情報特定処理について説明する。
図6は、図3の機能的構成を有する図2のデジタルフォトフレーム10が実行する発話側情報特定処理の流れを説明するフローチャートである。
発話側情報特定処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
【0029】
ステップS11において、発話側情報特定部42は、音声入力部41から入力する音声をサンプリング処理し、その結果得られるサンプリングした音声データに基づいて、話者認識を行う。即ち、発話側情報特定部42は、発話側情報データベース43に記憶された複数の特徴データ(テンプレート)のうち、サンプリングした音声データと合致した特徴データ(テンプレート)により特定される者を、話者として認識する。ステップS11では、例えば、居間に設置したデジタルフォトフレーム10に入力される家族団欒の会話に対して話者認識が行われる。
【0030】
ステップS12において、発話側情報特定部42は、送信部44を介して、ステップS11の処理で認識した話者の話者ID(発話側情報)を、ネットワークに接続されている他のデジタルフォトフレーム10に送信する。このとき、話者認識を行えなかった場合、発話側情報として、話者を特定できなかったことを示す所定の話者ID(無効話者ID)が送信される。
このようなステップS12の処理が終了すると、発話側情報特定処理は終了となる。
【0031】
次に、図7を参照して、図3の機能的構成のデジタルフォトフレーム10が実行する処理のうち、画像表示処理について説明する。
図7は、図3の機能的構成のデジタルフォトフレーム10が実行する画像表示処理の流れを説明するフローチャートである。
画像表示処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
ステップS21において、画像選択部46は、受信部45を介して発話側情報を受信したか否かの判定を行う。
【0032】
発話側情報が受信されていない場合、ステップS21においてNOであると判定されて、ステップS21の処理が繰り返される。
これに対して、発話側情報が受信された場合、ステップS21においてYESであると判定されて、処理はステップS22に進む。
ステップS22において、画像選択部46は、送信元情報記憶部48に記憶されている送信元情報及びフラグの記憶領域をクリアする。
ステップS23において、画像選択部46は、受信した発話側情報が話者を特定しているか否か(即ち、話者IDが無効話者IDであるか否か)の判定を行う。
受信した発話側情報が話者を特定していない(即ち、話者IDが無効話者IDである)場合、ステップS23においてNOであると判定されて、処理はステップS24に進む。
【0033】
ステップS24において、画像選択部46は、画像データベース47から人物が写っていない画像(例えば風景写真や美術品の写真の画像等)を選択する。このとき、例えば、人物以外が属性として設定されている画像データを選択する。
これに対して、受信した発話側情報が話者を特定している(即ち、話者IDが無効話者IDでない)場合、ステップS23においてYESであると判定されて、処理はステップS25に進む。
ステップS25において、画像選択部46は、話者IDに対応する画像データが画像データベース47に記憶されているか否かの判定を行う。
話者IDに対応する画像データが画像データベース47に記憶されていない場合、ステップS25においてNOと判定されて、処理はステップS26に進む。
【0034】
ステップS26において、画像選択部46は、画像データベース47から任意の人物の画像を選択する。
これに対して、話者IDに対応する画像データが画像データベース47に記憶されている場合、ステップS25においてYESと判定されて、処理はステップS27に進む。
ステップS27において、画像選択部46は、送信元情報記憶部48に送信元情報を記憶し、送信元情報が記憶されていることを示すフラグ(有効フラグ)をセットする。
ステップS28において、画像選択部46は、画像データベース47から話者IDに対応する画像データを選択する。このとき、話者IDに対応する画像データが複数記憶されている場合、これらの画像データが順に選択される。
ステップS29において、画像選択部46は、表示部49に選択した画像を表示する。
ステップS29では、例えば、孫Aの家の家族団欒における話者の画像が表示部49で表示される。
このようなステップS29の処理が終了すると、画像表示処理は終了となる。
【0035】
次に、図8を参照して、図3の機能的構成のデジタルフォトフレーム10が実行する処理のうち、音声送信処理について説明する。
図8は、図3の機能的構成のデジタルフォトフレーム10が実行する音声送信処理の流れを説明するフローチャートである。
【0036】
音声送信処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
ステップS31において、音声送信処理部50は、デジタルフォトフレーム10の周辺から音声が入力されているか否か(即ち、デジタルフォトフレーム10に声がかけられているか否か)の判定を行う。
デジタルフォトフレーム10の周辺から音声が入力されていない(即ち、デジタルフォトフレーム10に声がかけられていない)場合、ステップS31においてNOと判定されて、ステップS31の処理が繰り返される。
【0037】
これに対して、デジタルフォトフレーム10の周辺から音声が入力されている(即ち、デジタルフォトフレーム10に声がかけられている)場合、ステップS31においてYESと判定されて、処理はステップS32に進む。
ステップS32において、音声送信処理部50は、送信元情報記憶部48のフラグが送信元情報が記憶されていることを示している(有効フラグである)か否かの判定を行う。
送信元情報記憶部48のフラグが送信元情報が記憶されていることを示していない(有効フラグでない)場合、ステップS32においてNOと判定されて、処理はステップS31に進む。
【0038】
これに対し、送信元情報記憶部48のフラグが、送信元情報が記憶されていることを示している(有効フラグである)場合、ステップS32においてYESと判定されて、処理はステップS33に進む。
ステップS33において、音声送信処理部50は、送信元情報記憶部48に記憶されている送信元情報を読み出し、その送信元を送信先として、入力された音声を送信する。
このようなステップS33の処理が終了すると、音声送信処理は終了となる。
【0039】
以上説明したように、第1実施形態のデジタルフォトフレームシステム1では、複数のデジタルフォトフレーム10がネットワークを介して接続されており、各デジタルフォトフレーム10は、発話側情報特定部42と、画像選択部46と、音声送信処理部50とを備えている。
送信側となるデジタルフォトフレーム10−2,10−3における発話側情報特定部42は、音声入力部41から入力する音声に対して話者認識を行い、発話側情報(話者ID)を特定する。
そして、送信側のデジタルフォトフレーム10−2,10−3における発話側情報特定部42は、特定した発話側情報を受信側のデジタルフォトフレーム10−1に送信する。
【0040】
受信側となるデジタルフォトフレーム10−1における画像選択部46は、発話側情報を受信すると、発話側情報が話者を特定するものであるとき、その話者の画像データを画像データベース47から選択して表示部49に表示する。
このような処理により、例えば、デジタルフォトフレーム10−1の遠隔に位置するデジタルフォトフレーム10−2に、話者として孫Aが話しかけると、孫Aの発話側情報(話者ID)がデジタルフォトフレーム10−1に送信され、孫Aの画像が表示される。同様に、デジタルフォトフレーム10−1の遠隔に位置するデジタルフォトフレーム10−3に話者として孫Bが話しかけると、孫Bの発話側情報(話者ID)がデジタルフォトフレーム10−1に送信され、孫Bの画像が表示される。
【0041】
そして、孫Aあるいは孫Bの画像が表示されている際に、デジタルフォトフレーム10−1に祖父母が話しかけると、孫Aあるいは孫Bの発話側情報(話者ID)を送信したデジタルフォトフレーム10−2,10−3に祖父母の音声が送信される。
このとき、デジタルフォトフレーム10−1で発話側情報特定処理を実行していると、祖父母の話者IDがデジタルフォトフレーム10−2,10−3に送信される。そして、デジタルフォトフレーム10−2,10−3において画像選択処理及び音声送信処理を実行していると、双方向に話者の画像を表示することができ、話者の画像を見ながら会話を行うことができる。これにより、擬似的な家族団欒の雰囲気を創出することができる。
【0042】
したがって、本実施形態に係るデジタルフォトフレームシステム1によれば、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることが可能となる。
以上、本発明の第1実施形態に係るデジタルフォトフレームシステム1について説明した。
次に、本発明の第2実施形態に係るデジタルフォトフレームシステム1について説明する。
【0043】
[第2実施形態]
第1実施形態では、発話側情報特定部42は、発話側情報特定処理において、話者認識を行い、発話側情報として、認識結果である話者IDを送信するものとした。
これに対し、第2実施形態では、発話側情報特定部は、発話側情報特定処理において、発話側情報データベースを参照して、入力された音声に対する単語認識を行い、発話側情報として、認識された単語データを送信する。また、画像データベースには、単語データと画像データとが対応付けて記憶されている。そして、画像選択部は、受信した発話側情報としての単語データに対応する画像を画像データベースから選択して表示する。
【0044】
図9は、デジタルフォトフレーム10において、発話側情報特定処理、画像表示処理及び音声送信処理を実行するための機能的構成を示す機能ブロック図である。
図9において、第2実施形態に係るデジタルフォトフレームシステム1のデジタルフォトフレーム10は、発話側情報データベース143、画像データベース147、発話側情報特定部142及び画像選択部146の構成が、図3に示す第1実施形態の機能的構成と異なっている。
【0045】
したがって、異なる部分である発話側情報データベース143、画像データベース147、発話側情報特定部142及び画像選択部146について主に説明し、他の機能的構成については、図3に示す機能的構成と同一の符号を付して、第1実施形態の説明を参照する。
なお、本発明の第2実施形態に係るデジタルフォトフレームシステム1において、デジタルフォトフレーム10のハードウェアの構成は、第1実施形態に係るデジタルフォトフレーム10の図2のハードウェア構成と基本的に同様の構成で実現することができる。
第2実施形態に係る発話側情報特定処理とは、デジタルフォトフレーム10に入力された音声に基づいて、その音声に関して認識の対象としている発話側情報(ここでは音声に含まれる単語)を特定する一連の処理をいう。
【0046】
また、画像表示処理とは、発話側情報特定処理によって特定された発話側の情報に基づいて、単語に関連する画像を表示する一連の処理をいう。
なお、音声送信処理は、第1実施形態における場合と同様である。
CPU11は、第2実施形態に係る発話側情報特定処理を実行する発話側情報特定部142と、第2実施形態に係る画像表示処理を実行する画像選択部146と、第1実施形態と同様の音声送信処理を実行する音声送信処理部50と、を備えている。
記憶部19の一領域には、発話側情報(ここでは単語)を特定するための情報を記憶する発話側情報データベース143と、デジタルフォトフレーム10で表示する画像(例えば孫A,Bの画像等)の画像データを記憶する画像データベース147と、が設けられている。
【0047】
図10は、発話側情報データベース143のデータ構造を示す図である。
図10において、発話側情報データベース143には、単語を識別する単語IDと、単語の発音データと、テキストデータからなる単語データとが対応付けて記憶されている。
発話側情報データベース143の所定の行は、1つの単語に対応している。例えば、1行目の記憶内容によれば、単語IDが「w001」である単語は、発音が「taro」であり、単語データが「太郎」であることがわかる。
発話側情報特定処理においては、デジタルフォトフレーム10に入力された音声のデータが、発話側情報データベース143に記憶されているいずれの音声データに合致するかに基づいて、単語が特定される。
【0048】
図11は、画像データベース147のデータ構造を示す図である。
図11において、画像データベース147には、画像データを識別する画像IDと、その画像データが対応する単語IDと、画像データのファイル名とが対応付けて記憶されている。
画像データベース147の所定の行は、1つの画像に対応している。例えば、1行目の記憶内容によれば、画像IDが「p001」である画像データは、単語ID「w001」、に対応し、画像データが「p001.jpg」であることがわかる。
画像表示処理においては、他のデジタルフォトフレーム10から送信された単語IDに基づいて、画像データベース147が検索され、単語IDに対応する画像データが表示される。
【0049】
このとき、単語IDに対応する画像データが複数記憶されている場合には、その単語IDに対応する画像データがスライドショー形式で順次表示される。また、1つの画像データに複数の単語IDを対応付けることが可能であり、複数の人物が写っている画像や、人と犬とが写っている画像には、画像に写っている複数の人や犬を表す単語IDが対応付けられる。例えば、図11において、画像ID002の画像には、孫Aと犬とが写っている。孫A(ここでは名前を「太郎」とする)の単語IDは「w001」、犬の単語IDは「w004」であり、画像ID002には、「w001/w004」(即ち、「太郎」と「犬」)が対応付けられている。
【0050】
なお、「僕」(単語ID:w005)のような1人称の単語については、各デジタルフォトフレーム10と特定の人物名とを対応させておき、1人称の単語をその特定の人物名に変換する。例えば、孫Aの家に設置されたデジタルフォトフレーム10−2から「僕」の単語ID「w005」が送信された場合、受信側のデジタルフォトフレーム10では、予め設定してある対応関係に応じて、「僕」(w005)を「太郎」(w001)に変換する。これにより、「僕」等の1人称の単語が特定された場合にも、その単語に対応する人物の画像を選択できるものとなる。
【0051】
このように、本実施形態では、送信元のデジタルフォトフレーム10に入力された音声に基づいて、発話側情報特定処理が実行され、その結果である発話側情報(ここでは単語ID)が、送信先のデジタルフォトフレーム10に送信される。例えば、送信元のデジタルフォトフレーム10−2に孫Aが「僕と犬の写真を見て」と話しかけると、デジタルフォトフレーム10−2において、発話側情報特定処理が実行され、「僕」、「犬」という単語が認識される。そして、デジタルフォトフレーム10−2から、送信先であるデジタルフォトフレーム10−1に「僕」と「犬」の単語ID(w004,w005)が送信される。デジタルフォトフレーム10−1では、受信した単語IDに基づいて、画像表示処理が実行され、孫A(太郎)と犬とが写った画像が表示される。なお、デジタルフォトフレーム10−1では、デジタルフォトフレーム10−2から受信した「僕」(w005)を予め設定してある対応関係に応じて、孫Aを表す「太郎」(w001)に変換した上で、画像表示処理を実行する。
【0052】
また、孫Aの画像が表示されているデジタルフォトフレーム10−1に対し、祖父母が話しかけると、その音声データが、デジタルフォトフレーム10−1から、単語IDの送信元であったデジタルフォトフレーム10−2に送信される。そして、単語IDを送信したデジタルフォトフレーム10−2では、受信した祖父母の音声を出力する。即ち、離れた場所に位置するユーザ(ここでは祖父母と孫A,B)がコミュニケーションを図る上で、利便性を向上させることができる。
【0053】
[動作]
次に、デジタルフォトフレーム10の動作を説明する。
まず、図12を参照して、図9の機能的構成のデジタルフォトフレーム10が実行する処理のうち、発話側情報特定処理について説明する。
図12は、図9の機能的構成を有する図2のデジタルフォトフレーム10が実行する発話側情報特定処理の流れを示すフローチャートである。
発話側情報特定処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
【0054】
ステップS41において、発話側情報特定部142は、音声入力部41から入力する音声をサンプリング処理し、その結果得られるサンプリングした音声データに基づいて、単語認識を行う。即ち、発話側情報特定部142は、発話側情報データベース143に記憶された複数の発音データのうち、サンプリングした音声データと合致した単語の発音データにより特定される単語を認識する。ステップS41では、例えば、居間に設置したデジタルフォトフレーム10に入力される家族団欒の会話に対して単語認識が行われる。
ステップS42において、発話側情報特定部142は、送信部44を介して、ステップS41の処理で認識した単語ID(発話側情報)を、ネットワークに接続されている他のデジタルフォトフレーム10に送信する。このとき、単語認識を行えなかった場合、発話側情報として、単語を特定できなかったことを示す所定の単語ID(無効単語ID)が送信される。
このようなステップS42の処理が終了すると、発話側情報特定処理は終了となる。
【0055】
次に、図13を参照して、図9の機能的構成のデジタルフォトフレーム10が実行する処理のうち、画像表示処理について説明する。
図13は、図3の機能的構成のデジタルフォトフレーム10が実行する画像表示処理の流れを説明するフローチャートである。
画像表示処理は、本実施形態では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
【0056】
ステップS51において、画像選択部146は、受信部45を介して発話側情報を受信したか否かの判定を行う。
発話側情報が受信されていない場合、ステップS51においてNOであると判定されて、ステップS51の処理が繰り返される。
これに対して、発話側情報が受信された場合、ステップS51においてYESであると判定されて、処理はステップS52に進む。
ステップS52において、画像選択部146は、送信元情報記憶部48に記憶されている送信元情報及びフラグの記憶領域をクリアする。
ステップS53において、画像選択部146は、受信した発話側情報が単語を特定しているか否か(即ち、単語IDが無効単語IDであるか否か)の判定を行う。
【0057】
受信した発話側情報が単語を特定していない(即ち、単語IDが無効単語IDである)場合、ステップS53においてNOであると判定されて、処理はステップS54に進む。
ステップS54において、画像選択部146は、画像データベース47から任意の人物の画像を選択する。なお、ステップS54において、画像データベース47から人物が写っていない画像(例えば風景写真や美術品の写真等)を選択することもできる。
これに対して、受信した発話側情報が単語を特定している(即ち、単語IDが無効単語IDでない)場合、ステップS53においてYESであると判定されて、処理はステップS55に進む。
【0058】
ステップS55において、画像選択部146は、単語IDに対応する画像データが画像データベース47に記憶されているか否かの判定を行う。
単語IDに対応する画像データが画像データベース147に記憶されていない場合、ステップS55においてNOと判定されて、処理はステップS54に進む。
これに対して、単語IDに対応する画像データが画像データベース147に記憶されている場合、ステップS55においてYESと判定されて、処理はステップS56に進む。
ステップS56において、画像選択部146は、送信元情報記憶部48に送信元情報を記憶し、送信元情報が記憶されていることを示すフラグ(有効フラグ)をセットする。
ステップS57において、画像選択部146は、画像データベース147から単語IDに対応する画像データを選択する。このとき、画像IDに対応する画像データが複数記憶されている場合、これらの画像データが順に選択される。また、複数の単語IDが受信された場合、その複数の単語IDの組み合わせに対応している画像データが選択される。
【0059】
ステップS58において、画像選択部146は、表示部49に選択した画像を表示する。
ステップS58では、例えば、孫Aの家の家族団欒における話題に関係する画像が表示部49で表示される。
このようなステップS58の処理が終了すると、画像表示処理は終了となる。
以上説明したように、第2実施形態のデジタルフォトフレームシステム1では、複数のデジタルフォトフレーム10がネットワークを介して接続されており、各デジタルフォトフレーム10は、発話側情報特定部142と、画像選択部146と、音声送信処理部50とを備えている。
【0060】
送信側となるデジタルフォトフレーム10−2,10−3における発話側情報特定部142は、音声入力部41から入力する音声に対して単語認識を行い、発話側情報(単語ID)を特定する。
そして、送信側のデジタルフォトフレーム10−2,10−3における発話側情報特定部142は、特定した発話側情報を受信側のデジタルフォトフレーム10−1に送信する。
受信側となるデジタルフォトフレーム10−1における画像選択部146は、発話側情報を受信すると、発話側情報が単語を特定するものであるとき、その単語に関連する画像データを画像データベース147から選択して表示部49に表示する。
【0061】
このような処理により、例えば、デジタルフォトフレーム10−1の遠隔に位置するデジタルフォトフレーム10−2に、孫Aが「犬と遊んだよ」と話しかけると、「犬」の発話側情報(単語ID:w004)がデジタルフォトフレーム10−1に送信され、犬の画像が表示される。同様に、デジタルフォトフレーム10の遠隔に位置するデジタルフォトフレーム10−3に、孫Bが「野球をしたよ」と話しかけると、「野球」の発話側情報(単語ID:w006)がデジタルフォトフレーム10−1に送信され、野球の画像が表示される。
また、例えば、デジタルフォトフレーム10−2に孫Aが「僕と犬の写真を見て」と話しかけると、「僕」と「犬」の発話側情報(単語ID:w004/w005)がデジタルフォトフレーム10−1に送信される。デジタルフォトフレーム10−1では、1人称である「僕」をデジタルフォトフレーム10−2と対応付けられている「太郎」に変換する。そして、デジタルフォトフレーム10−1では、「太郎」(孫A)と「犬」とが写った画像が表示される。
【0062】
そして、「犬」の画像、「太郎と犬」の画像あるいは「野球の画像」が表示されている際に、デジタルフォトフレーム10−1に祖父母が話しかけると、「犬」、「太郎」と「犬」あるいは「野球」の発話側情報(単語ID)を送信したデジタルフォトフレーム10−2,10−3に祖父母の音声が送信される。
このとき、デジタルフォトフレーム10−1で発話側情報特定処理を実行していると、祖父母の話者IDがデジタルフォトフレーム10−2,10−3に送信される。そして、デジタルフォトフレーム10−2,10−3において画像選択処理及び音声送信処理を実行していると、双方向に会話に関する画像を表示することができ、話題の画像を見ながら会話を行うことができる。これにより、擬似的な家族団欒の雰囲気を創出することができる。
したがって、本実施形態に係るデジタルフォトフレームシステム1によれば、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性を向上させることが可能となる。
【0063】
[応用例1]
第1実施形態及び第2実施形態では、送信側のデジタルフォトフレーム10において発話側情報特定処理を実行し、話者認識あるいは単語認識の結果である発話側情報(話者IDあるいは単語ID)を受信側のデジタルフォトフレーム10に送信した。そして、受信側のデジタルフォトフレーム10において、受信した発話側情報に基づいて画像表示処理を実行した。
これに対し、発話側情報特定処理を実行するデジタルフォトフレーム10において、画像表示処理を実行することができる。この場合、発話側情報特定処理及び画像表示処理が一体となった情報特定表示処理が実行される。情報特定表示処理は、デジタルフォトフレーム10に入力された音声に対して発話側情報の特定を行い、特定された発話側情報に対応する画像を表示するものである。
【0064】
以下、第2実施形態において説明した機能的構成の下、発話側情報として単語を特定し、その結果である単語IDに対応する画像を表示する処理を1つのデジタルフォトフレーム10において実行する例について説明する。
図14は、図3あるいは図9の機能的構成を有する図2のデジタルフォトフレーム10が実行する情報特定表示処理の流れを説明するフローチャートである。
情報特定表示処理は、本応用例では、デジタルフォトフレーム10の電源がオン状態になった後、所定の時間間隔毎に実行される。
ステップS61において、発話側情報特定部142は、音声入力部41から入力する音声をサンプリング処理し、サンプリングした音声データに基づいて、単語認識を行う。このとき、発話側情報特定部142は、サンプリングした音声データと、発話側情報データベース143の単語の発音データとが合致するか否かに応じて、単語認識を行う。ステップS61では、例えば、ラジオの周辺に設置されたデジタルフォトフレーム10に入力されるラジオの音声に対して単語認識が行われる。
【0065】
ステップS62において、画像選択部146は、受信した発話側情報が単語を特定しているか否か(即ち、単語IDが無効単語IDであるか否か)の判定を行う。
受信した発話側情報が単語を特定していない(即ち、単語IDが無効単語IDである)場合、ステップS62においてNOであると判定されて、処理はステップS63に進む。
ステップS63において、画像選択部146は、画像データベース47から任意の人物の画像を選択する。なお、ステップS63において、画像データベース47から人物が写っていない画像(例えば風景写真や美術品の写真の画像等)を選択することもできる。
これに対して、受信した発話側情報が単語を特定している(即ち、単語IDが無効単語IDでない)場合、ステップS62においてYESであると判定されて、処理はステップS64に進む。
【0066】
ステップS64において、画像選択部146は、単語IDに対応する画像データが画像データベース47に記憶されているか否かの判定を行う。
単語IDに対応する画像データが画像データベース147に記憶されていない場合、ステップS64においてNOと判定されて、処理はステップS63に進む。
これに対して、単語IDに対応する画像データが画像データベース147に記憶されている場合、ステップS64においてYESと判定されて、処理はステップS65に進む。
ステップS65において、画像選択部146は、画像データベース147から単語IDに対応する画像データを選択する。このとき、画像IDに対応する画像データが複数記憶されている場合、これらの画像データが順に選択される。また、複数の単語IDが受信された場合、その複数の単語IDの組み合わせに対応している画像データが選択される。
【0067】
ステップS66において、画像選択部146は、表示部49に選択した画像を表示する。
ステップS66では、例えば、ラジオのパーソナリティが話した話題に関係する画像が表示部49で表示される。例えば、ラジオのパーソナリティが「富士山」という単語を話した場合、表示部49に富士山の画像が表示される。
このようなステップS66の処理が終了すると、情報特定表示処理は終了となる。
なお、第1実施形態において説明した機能構成の下、情報特定表示処理を実行することとした場合、デジタルフォトフレーム10において話者認識が行われ、その話者の画像が表示される。例えば、ラジオの音声がデジタルフォトフレーム10に入力されると、話しているパーソナリティが話者認識され、そのパーソナリティの画像が表示される。
このような場合、デジタルフォトフレーム10が、ネットワークによって他のデジタルフォトフレーム10と接続されていない場合であっても、スライドショー表示における利便性を向上させることができる。
【0068】
[応用例2]
第1実施形態及び第2実施形態では、発話側情報特定処理において、話者IDあるいは単語データを発話側情報として送信することとした。
これに対し、発話側情報特定処理において、デジタルフォトフレーム10に入力された音声のサンプリングデータ(音声データ)を発話側情報に含めることができる。
この場合、発話側情報を受信したデジタルフォトフレーム10では、話者IDに対応する画像を表示する際に、受信した音声データをスピーカから出力する。
例えば、デジタルフォトフレーム10−2,10−3からデジタルフォトフレーム10−1に、話者である孫A,Bの話者IDと共に、孫A,Bの音声データを送信することができる。そして、デジタルフォトフレーム10−1では、孫A,Bの画像を表示する際に、受信した孫A,Bの声を出力する。
これにより、祖父母Gは、孫Aあるいは孫Bの家での家族団欒の雰囲気をより現実的に感じることができる。
したがって、スライドショー表示において、離れた場所に位置するユーザがコミュニケーションを図る際の利便性をさらに向上させることが可能となる。
【0069】
[応用例3]
第1実施形態及び第2実施形態では、音声送信処理において、デジタルフォトフレーム10に表示されている画像に話しかけた音声を、話者IDの送信元であったデジタルフォトフレーム10に送信することとした。
これに対し、音声送信処理において、デジタルフォトフレーム10に音声が入力されている場合に、話しかけている話者の画像を撮像部16で撮影し、その撮像画像のデータを音声と共に送信することができる。
例えば、デジタルフォトフレーム10−1からデジタルフォトフレーム10−2,10−3に祖父母G(具体的には、祖母あるいは祖父の一方)の音声と共に、撮像部16で撮影した祖父母Gの画像を送信することができる。そして、デジタルフォトフレーム10−2,10−3では、祖父母Gの音声を出力すると共に、祖父母Gの写真を表示する。
これにより、孫A,Bの家では、家族団欒の最中に、祖父母Gの声と共に、祖父母Gの画像がデジタルフォトフレーム10−2,10−3から出力されることとなり、祖父母Gを交えた家族団欒の雰囲気を感じることができる。
【0070】
[応用例4]
第1実施形態及び第2実施形態では、発話側情報特定処理において、話者IDあるいは単語データを発話側情報として送信することとした。
これに対し、発話側情報特定処理において、デジタルフォトフレーム10に入力された音声の大きさを発話側情報に含めることができる。
この場合、発話側情報を受信したデジタルフォトフレーム10では、話者IDに対応する画像を表示する際に、受信した音声データの大きさに基づいて、画像の表示方法を変更する。
例えば、デジタルフォトフレーム10−2からデジタルフォトフレーム10−1に、話者である孫Aの話者IDと共に、孫Aの音声の大きさを送信することができる。そして、デジタルフォトフレーム10−1では、孫Aの画像を表示する際に、受信した孫Aの音声の大きさが小さい場合には、表示する画像のコントラストを低下させて表示する。他には、画像の表示サイズを小さくして表示しても良い。
これにより、孫Aとの距離感を感じることができ、祖父母Gは、孫Aの家での家族団欒の雰囲気をより現実的に感じることができる。
【0071】
なお、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものである。
上述の実施形態では、孫A,Bの家に設置されたデジタルフォトフレーム10−2,10−3において発話側情報特定処理を実行する場合を例として説明した。これに対し、祖父母Gの家に設置されたデジタルフォトフレーム10−1において発話側情報特定処理を常時実行しておくと、デジタルフォトフレーム10−2,10−3のスライドショー表示を確認することにより、祖父母Gが無事に日常生活を営んでいるか否かを見守ることができる。
【0072】
上述の実施形態では、画像提供媒体としてリムーバブルメディア31を用いているがこれに限定されない。例えば、ネットワーク上の他の装置(サーバ等)内の記憶部(ハードディスク等)でも良い。
【0073】
また、上述の実施形態では、本発明が適用される画像表示システムは、複数のデジタルフォトフレームがネットワークを介して接続されたデジタルフォトフレームシステムを例として説明したが、特にこれに限定されない。
例えば、本発明は、画像表示機能を有する電子機器一般に適用することができる。具体的には、例えば、本発明は、ノート型のパーソナルコンピュータ、プリンタ、テレビジョン受像機、ビデオカメラ、携帯型ナビゲーション装置、携帯電話機、ポータブルゲーム機等に適用可能である。
【0074】
上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
換言すると、図3及び図9の機能的構成は例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が画像表示装置に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは特に図3及び図9の例に限定されない。
また、1つの機能ブロックは、ハードウェア単体で構成しても良いし、ソフトウェア単体で構成しても良いし、それらの組み合わせで構成しても良い。
【0075】
一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
コンピュータは、専用のハードウェアに組み込まれているコンピュータであっても良い。また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えば汎用のパーソナルコンピュータであっても良い。
【0076】
このようなプログラムを含む記録媒体は、ユーザにプログラムを提供するために装置本体とは別に配布される図2のリムーバブルメディア31により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される記録媒体等で構成される。リムーバブルメディア31は、例えば、磁気ディスク(フロッピディスクを含む)、光ディスク、または光磁気ディスク等により構成される。光ディスクは、例えば、CD−ROM(Compact Disk−Read Only Memory),DVD(Digital Versatile Disk)等により構成される。光磁気ディスクは、MD(Mini−Disk)等により構成される。また、装置本体に予め組み込まれた状態でユーザに提供される記録媒体は、例えば、プログラムが記録されている図2のROM12や、図2の記憶部19に含まれるハードディスク等で構成される。
【0077】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
【0078】
以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0079】
以下に、本願の出願当初の特許請求の範囲に記載された発明を付記する。
[付記1]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する第1の画像表示装置及び第2の画像表示装置を含む画像表示システムであって、
前記第1の画像表示装置は、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を前記第2の画像表示装置に送信する発話側情報送信手段と、
を備え、
前記第2の画像表示装置は、
前記発話側情報を受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示システム。
[付記2]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信手段と、
を備えることを特徴とする画像表示装置。
[付記3]
前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、話者認識を行うことにより、前記発話側情報として話者を特定することを特徴とする付記2に記載の画像表示装置。
[付記4]
前記発話側情報送信手段によって前記発話側情報を送信した他の前記画像表示装置から受信した音声データに基づいて、音声を出力する音声出力手段をさらに備えることを特徴とする付記2または3に記載の画像表示装置。
[付記5]
前記第1の画像表示装置における前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、単語認識を行うことにより、前記発話側情報として単語を特定することを特徴とする付記2に記載の画像表示装置。
[付記6]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
音声が入力される音声入力ステップと、
前記音声入力ステップで入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定ステップと、
前記発話側情報特定ステップで特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信ステップと、
を含むことを特徴とする画像表示方法。
[付記7]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
音声が入力される音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定機能と、
前記発話側情報特定機能によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信機能と、
を実現させることを特徴とするプログラム。
[付記8]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示装置。
[付記9]
音声が入力される音声入力手段と、
前記画像選択手段が選択した前記画像データを前記表示手段が表示している場合に、前記音声入力手段に音声が入力されると、前記音声を他の前記画像表示装置に送信する音声送信処理手段と、
をさらに備えることを特徴とする付記8に記載の画像表示装置。
[付記10]
前記画像データ記憶手段に記憶されている前記画像データには、複数の前記発話側情報としての前記単語が対応付けられており、
前記発話側情報受信手段が他の前記画像表示装置から複数の前記単語を特定した前記発話側情報を受信した場合、前記画像選択手段は、前記発話側情報としての複数の前記単語の組み合わせに対応する前記画像データを、前記画像データ記憶手段に記憶されている前記画像データから選択することを特徴とする付記8または9に記載の画像表示装置。
[付記11]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信ステップと、
前記発話側情報受信ステップで受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択ステップと、
前記画像選択ステップで選択された画像を表示する表示ステップと、
を含むことを特徴とする画像表示方法。
[付記12]
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信機能と、
前記発話側情報受信機能によって受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択機能と、
前記画像選択機能によって選択された画像を表示する表示機能と、
を実現させることを特徴とするプログラム。
【符号の説明】
【0080】
1・・・デジタルフォトフレームシステム、10,10−1〜10−3・・・デジタルフォトフレーム、11・・・CPU、12・・・ROM、13・・・RAM、14・・・バス、15・・・入出力インターフェース、16・・・撮像部、17・・・入力部、18・・・出力部、19・・・記憶部、20・・・通信部、21・・・ドライブ、31・・・リムーバブルメディア、41・・・音声入力部、42,142・・・発話側情報特定部、43,143・・・発話側情報データベース、44・・・送信部、45・・・受信部、46,146・・・画像選択部、47,147・・・画像データベース、48・・・送信元情報記憶部、49・・・表示部、50・・・音声送信処理部、51・・・音声出力部
【特許請求の範囲】
【請求項1】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する第1の画像表示装置及び第2の画像表示装置を含む画像表示システムであって、
前記第1の画像表示装置は、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を前記第2の画像表示装置に送信する発話側情報送信手段と、
を備え、
前記第2の画像表示装置は、
前記発話側情報を受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示システム。
【請求項2】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信手段と、
を備えることを特徴とする画像表示装置。
【請求項3】
前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、話者認識を行うことにより、前記発話側情報として話者を特定することを特徴とする請求項2に記載の画像表示装置。
【請求項4】
前記発話側情報送信手段によって前記発話側情報を送信した他の前記画像表示装置から受信した音声データに基づいて、音声を出力する音声出力手段をさらに備えることを特徴とする請求項2または3に記載の画像表示装置。
【請求項5】
前記第1の画像表示装置における前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、単語認識を行うことにより、前記発話側情報として単語を特定することを特徴とする請求項2に記載の画像表示装置。
【請求項6】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
音声が入力される音声入力ステップと、
前記音声入力ステップで入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定ステップと、
前記発話側情報特定ステップで特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信ステップと、
を含むことを特徴とする画像表示方法。
【請求項7】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
音声が入力される音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定機能と、
前記発話側情報特定機能によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信機能と、
を実現させることを特徴とするプログラム。
【請求項8】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示装置。
【請求項9】
音声が入力される音声入力手段と、
前記画像選択手段が選択した前記画像データを前記表示手段が表示している場合に、前記音声入力手段に音声が入力されると、前記音声を他の前記画像表示装置に送信する音声送信処理手段と、
をさらに備えることを特徴とする請求項8に記載の画像表示装置。
【請求項10】
前記画像データ記憶手段に記憶されている前記画像データには、複数の前記発話側情報としての前記単語が対応付けられており、
前記発話側情報受信手段が他の前記画像表示装置から複数の前記単語を特定した前記発話側情報を受信した場合、前記画像選択手段は、前記発話側情報としての複数の前記単語の組み合わせに対応する前記画像データを、前記画像データ記憶手段に記憶されている前記画像データから選択することを特徴とする請求項8または9に記載の画像表示装置。
【請求項11】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信ステップと、
前記発話側情報受信ステップで受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択ステップと、
前記画像選択ステップで選択された画像を表示する表示ステップと、
を含むことを特徴とする画像表示方法。
【請求項12】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信機能と、
前記発話側情報受信機能によって受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択機能と、
前記画像選択機能によって選択された画像を表示する表示機能と、
を実現させることを特徴とするプログラム。
【請求項1】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する第1の画像表示装置及び第2の画像表示装置を含む画像表示システムであって、
前記第1の画像表示装置は、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を前記第2の画像表示装置に送信する発話側情報送信手段と、
を備え、
前記第2の画像表示装置は、
前記発話側情報を受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示システム。
【請求項2】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
音声が入力される音声入力手段と、
前記音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定手段と、
前記発話側情報特定手段によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信手段と、
を備えることを特徴とする画像表示装置。
【請求項3】
前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、話者認識を行うことにより、前記発話側情報として話者を特定することを特徴とする請求項2に記載の画像表示装置。
【請求項4】
前記発話側情報送信手段によって前記発話側情報を送信した他の前記画像表示装置から受信した音声データに基づいて、音声を出力する音声出力手段をさらに備えることを特徴とする請求項2または3に記載の画像表示装置。
【請求項5】
前記第1の画像表示装置における前記発話側情報特定手段は、前記音声入力手段に入力された前記音声に対して、単語認識を行うことにより、前記発話側情報として単語を特定することを特徴とする請求項2に記載の画像表示装置。
【請求項6】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
音声が入力される音声入力ステップと、
前記音声入力ステップで入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定ステップと、
前記発話側情報特定ステップで特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信ステップと、
を含むことを特徴とする画像表示方法。
【請求項7】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
音声が入力される音声入力手段に入力された前記音声に基づいて、前記音声に関する発話側情報を特定する発話側情報特定機能と、
前記発話側情報特定機能によって特定された前記発話側情報を他の前記画像表示装置に送信する発話側情報送信機能と、
を実現させることを特徴とするプログラム。
【請求項8】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信手段と、
前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段と、
前記発話側情報受信手段によって受信された前記発話側情報に基づいて、前記画像データ記憶手段に記憶されている前記画像データを選択する画像選択手段と、
前記画像選択手段によって選択された画像を表示する表示手段と、
を備えることを特徴とする画像表示装置。
【請求項9】
音声が入力される音声入力手段と、
前記画像選択手段が選択した前記画像データを前記表示手段が表示している場合に、前記音声入力手段に音声が入力されると、前記音声を他の前記画像表示装置に送信する音声送信処理手段と、
をさらに備えることを特徴とする請求項8に記載の画像表示装置。
【請求項10】
前記画像データ記憶手段に記憶されている前記画像データには、複数の前記発話側情報としての前記単語が対応付けられており、
前記発話側情報受信手段が他の前記画像表示装置から複数の前記単語を特定した前記発話側情報を受信した場合、前記画像選択手段は、前記発話側情報としての複数の前記単語の組み合わせに対応する前記画像データを、前記画像データ記憶手段に記憶されている前記画像データから選択することを特徴とする請求項8または9に記載の画像表示装置。
【請求項11】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムを構成する画像表示装置における画像表示方法であって、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信ステップと、
前記発話側情報受信ステップで受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択ステップと、
前記画像選択ステップで選択された画像を表示する表示ステップと、
を含むことを特徴とする画像表示方法。
【請求項12】
ネットワークを介して互いに接続され、画像のスライドショー表示を制御する複数の画像表示装置を含む画像表示システムにおける画像表示装置を制御するためのプログラムであって、コンピュータに、
他の前記画像表示装置に入力された音声に基づいて特定された前記音声に関する発話側情報を、他の前記画像表示装置から受信する発話側情報受信機能と、
前記発話側情報受信機能によって受信された前記発話側情報に基づいて、前記発話側情報と対応付けられた画像データを記憶する画像データ記憶手段に記憶されている前記画像データを選択する画像選択機能と、
前記画像選択機能によって選択された画像を表示する表示機能と、
を実現させることを特徴とするプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2013−77137(P2013−77137A)
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願番号】特願2011−216259(P2011−216259)
【出願日】平成23年9月30日(2011.9.30)
【出願人】(000001443)カシオ計算機株式会社 (8,748)
【Fターム(参考)】
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願日】平成23年9月30日(2011.9.30)
【出願人】(000001443)カシオ計算機株式会社 (8,748)
【Fターム(参考)】
[ Back to top ]