説明

ネットワーク電話発呼支援装置およびネットワーク電話発呼支援プログラム

【課題】本発明は、画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることを実現する新たな技術の提供を目的とする。
【解決手段】画像提供元のユーザから、画像提供先のユーザ端末のアドレス情報と提供画像とを入力すると、その提供画像に割り付ける発呼先ユーザ端末のアドレス情報を設定する。続いて、提供画像に対して識別子を付与して、その識別子と設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録してから、提供画像をそれに付与した識別子とともに画像提供先ユーザに送信する。この送信に応答して、提供画像の識別子を指定してネットワーク電話の発呼要求があると、その発呼要求で指定される識別子をキーにして記憶手段の記憶情報を参照することで、発呼先ユーザ端末のアドレス情報を取得して、その取得したアドレス情報の指すユーザ端末に対してネットワーク電話を発呼する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電話音声をパケットに変換してネットワークに投入することで電話コミュニケーションを実行するネットワーク電話の発呼を支援するネットワーク電話発呼支援装置と、そのネットワーク電話発呼支援装置の実現に用いられるネットワーク電話発呼支援プログラムとに関し、特に、画像からネットワーク電話を発呼できるようにするネットワーク電話発呼支援装置と、そのネットワーク電話発呼支援装置の実現に用いられるネットワーク電話発呼支援プログラムとに関する。
【背景技術】
【0002】
最近では、VoIP(Voice over IP:電話音声をIPパケットに変換する技術)を利用したIP電話やIPを経由したテレビ電話により、ユーザは電話コミュニケーションを享受することが可能となっている(例えば、非特許文献1参照)。
【0003】
一方、デジタルカメラの普及に伴って、これまでに用いられている写真立てに換わるものとして、電子的な写真を表示する電子写真立てが用いられるようになりつつある(例えば、非特許文献2参照)。
【0004】
この電子写真立ては、デジタルカメラなどにより撮影された電子的な写真を表示するものであり、今後、広く普及することが予想される商品の1つである。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】福田浩司, 安藤大, 林泰仁, 小谷野浩, “国際標準に準拠したインターネットテレビ電話構成法の検討”, 情報処理学会研究報告, オーディオビジュアル複合情報処理, vol.98, num.111, pp.9-14, 1998.
【非特許文献2】新井浩一, 安藤進夫, “教育に使用できるデジタルフォトフレームの開発”, 第49回日本歯科理工学会学術講演会, vol.26, num.2, p.118, 2007.
【発明の概要】
【発明が解決しようとする課題】
【0006】
このように、最近では、IP電話が普及しつつあるとともに、電子写真立てが普及しつつある。
【0007】
しかるに、この2つの技術には、技術的にみて接点がないばかりか、利用の観点からみても共通性がなく、これから、従来技術では、電子写真立てから電話コミュニケーションを実現するという技術は提案されていないというのが実情である。
【0008】
しかしながら、電子写真立てに表示されている写真を見るときに、その写真に写っている人物に電話をかけたいと思うことがあることは誰しもが経験することである。
【0009】
このような場合、従来技術に従っていると、結局のところ、電話をかけたいと思う人は、携帯電話や固定電話などを使って、写真に写っている人物に対して電話をかけることになる。
【0010】
しかし、これでは手間もかかるし、思い立ったときに電話コミュニケーションが実現できないという問題もある。
【0011】
本発明はかかる事情に鑑みてなされたものであって、電子写真立てなどに表示される画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることを実現する新たなネットワーク電話発呼支援技術を提供することを目的とする。
【課題を解決するための手段】
【0012】
この目的を達成するために、本発明のネットワーク電話発呼支援装置は、電話音声をパケットに変換してネットワークに投入することで電話コミュニケーションを実行するという処理を行うネットワーク電話の発呼を支援するために、(1)画像提供元のユーザから、画像提供先のユーザの操作する端末のアドレス情報と、その画像提供先ユーザに提供する1枚または複数枚数の提供画像とを入力する入力手段と、(2)入力手段の入力した提供画像に割り付ける発呼先ユーザ端末のアドレス情報を設定する設定手段と、(3)入力手段の入力した提供画像に対して識別子を付与して、その識別子と設定手段の設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録する登録手段と、(4)入力手段の入力した画像提供先ユーザ端末のアドレス情報に従って、入力手段の入力した提供画像をそれに付与した識別子とともに画像提供先ユーザに送信する送信手段と、(5)送信手段の実行する提供画像の送信に応答して、提供画像の識別子を指定してネットワーク電話の発呼要求があるときに、その発呼要求を受信する受信手段と、(6)受信手段の受信した発呼要求で指定される識別子をキーにして記憶手段の記憶情報を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得する取得手段と、(7)取得手段の取得したアドレス情報の指すユーザ端末に対して発呼する発呼手段とを備えるように構成する。
【0013】
このように構成されるときにあって、提供画像として映像が入力された場合に、その映像を1枚または複数枚数の静止画に再構成することで画像提供先ユーザに提供する最終的な提供画像を生成する生成手段を備えることがある。
【0014】
また、各端末がネットワーク電話で発生するエコーをキャンセルするためのエコーキャンセラを備えるようにしなくても済むようにするために、ネットワーク電話で発生するエコーをキャンセルするエコーキャンセラ手段を備えることがある。
【0015】
また、設定手段は、提供画像から切り出される複数の画像領域に対して、それぞれ異なる発呼先ユーザ端末のアドレス情報を設定することがあり、この場合には、登録手段は、提供画像の識別子およびそれらの画像領域の領域情報とそれらの画像領域に対して設定された発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録し、受信手段は、提供画像の識別子および画像領域の領域情報を指定するネットワーク電話の発呼要求を受信し、取得手段は、受信手段の受信した発呼要求で指定される提供画像の識別子および画像領域の領域情報をキーにして記憶手段の記憶情報を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得することになる。
【0016】
以上の各処理手段はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてCPUなどの制御手段上で動作することにより本発明を実現することになる。
【0017】
このように構成される本発明のネットワーク電話発呼支援装置では、画像提供元のユーザから、画像提供先のユーザの操作する端末のアドレス情報と、その画像提供先ユーザに提供する1枚または複数枚数の提供画像とを入力すると、その提供画像に割り付ける発呼先ユーザ端末のアドレス情報を設定する。
【0018】
この設定処理は、例えば、(i)画像提供元のユーザから、発呼先ユーザ端末のアドレス情報を入力して、それを提供画像に割り付ける発呼先ユーザ端末のアドレス情報として設定することで行ったり、(ii)画像の持つ特徴量(例えば顔の特徴量)とその特徴量に割り付けられた発呼先ユーザ端末のアドレス情報との対応関係を記憶する第2の記憶手段を備える場合には、提供画像の持つ特徴量(例えば顔の特徴量)を抽出して、その抽出した特徴量をキーにして第2の記憶手段の記憶情報を参照したりすることで、提供画像に割り付ける発呼先ユーザ端末のアドレス情報を特定して、それを提供画像に割り付ける発呼先ユーザ端末のアドレス情報として設定することで行う。
【0019】
続いて、提供画像に対して識別子を付与して、その識別子と設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録してから、入力した画像提供先ユーザ端末のアドレス情報に従って、提供画像をそれに付与した識別子とともに画像提供先ユーザに送信する。
【0020】
この提供画像の送信を受けて、画像提供先のユーザは、自分の操作する端末に提供画像が表示されることになるので、その提供画像に写っている人物に電話をかけたいと思う場合には、例えば、その提供画像をクリックすることなどにより選択してネットワーク電話の発呼を要求し、これを受けて、画像提供先のユーザの操作する端末は、本発明のネットワーク電話発呼支援装置に対して、その提供画像の識別子を指定してネットワーク電話の発呼を要求する。
【0021】
本発明のネットワーク電話発呼支援装置は、この発呼要求を受信すると、その受信した発呼要求で指定される識別子をキーにして記憶手段の記憶情報を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得して、その取得したアドレス情報の指すユーザ端末に対してネットワーク電話を発呼する。
【0022】
このようにして、本発明のネットワーク電話発呼支援装置によれば、画像提供先のユーザは、自分の操作する端末に表示される提供画像を選択してネットワーク電話の発呼を要求するだけで、その提供画像に写っている人物に対してネットワーク電話をかけることができるようになる。
【0023】
この構成を採るときに、提供画像に複数の人物が写っている場合には、それぞれの人物に対して別々の発呼先ユーザ端末のアドレス情報を設定するようにすれば、画像提供先のユーザは、1枚の提供画像から、Aさんにネットワーク電話をかけたり、Bさんにネットワーク電話をかけたりというようなことを実行できることになる。
【0024】
そこで、本発明のネットワーク電話発呼支援装置は、提供画像から切り出される複数の画像領域に対して、それぞれ異なる発呼先ユーザ端末のアドレス情報を設定するようにして、提供画像の識別子およびそれらの画像領域の領域情報とそれらの画像領域に対して設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録するようにする。
【0025】
この構成を採る場合には、画像提供先のユーザは、提供画像に写っているある人物に電話をかけたいと思う場合には、例えば、その人物をクリックすることなどにより選択してネットワーク電話の発呼を要求し、これを受けて、画像提供先のユーザの操作する端末は、本発明のネットワーク電話発呼支援装置に対して、その提供画像の識別子およびその人物の写っている画像領域の領域情報を指定してネットワーク電話の発呼を要求する。
【0026】
本発明のネットワーク電話発呼支援装置は、この発呼要求を受信すると、その受信した発呼要求で指定される提供画像の識別子および画像領域の領域情報をキーにして記憶手段の記憶情報を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得して、その取得したアドレス情報の指すユーザ端末に対してネットワーク電話を発呼する。
【0027】
このようにして、本発明のネットワーク電話発呼支援装置によれば、画像提供先のユーザは、自分の操作する端末に表示される提供画像に写っている人物の中から電話をかけたいと思う人物を選択してネットワーク電話の発呼を要求するだけで、その人物に対してネットワーク電話をかけることができるようになる。
【発明の効果】
【0028】
以上に説明したように、本発明によれば、ユーザは、自分の操作する端末に表示される画像を選択してネットワーク電話の発呼を要求するだけで、その画像に写っている人物に対してネットワーク電話をかけることができるようになる。そして、ユーザは、自分の操作する端末に表示される画像に写っている電話をかけたいと思う人物を選択してネットワーク電話の発呼を要求するだけで、その人物に対してネットワーク電話をかけることができるようになる。
【0029】
このようにして、本発明によれば、電子写真立てなどに表示される画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。
【図面の簡単な説明】
【0030】
【図1】本発明の適用されるIP電話システムのシステム構成図である。
【図2】本発明のIP電話発呼支援装置の装置構成図である。
【図3】本発明のIP電話発呼支援装置のハードウェア構成図である。
【図4】識別子・発呼先アドレス対応関係記憶部のデータ構造の説明図である。
【図5】本発明のIP電話発呼支援装置の実行するフローチャートである。
【図6】本発明のIP電話発呼支援装置の実行するフローチャートである。
【図7】ユーザ端末の表示する提供画像の説明図である。
【図8】ユーザ端末の説明図である。
【図9】本発明のIP電話発呼支援装置の装置構成図である。
【図10】発呼先端末のアドレス情報の設定処理の説明図である。
【図11】識別子・発呼先アドレス対応関係記憶部のデータ構造の説明図である。
【図12】本発明のIP電話発呼支援装置の装置構成図である。
【図13】特徴量・発呼先アドレス対応関係記憶部のデータ構造の説明図である。
【図14】映像処理部の装置構成図である。
【図15】画像・音響特徴量記憶部のデータ構造の説明図である。
【図16】優先グループ種別判定部の判定する暫定優先グループの説明図である。
【図17】強調状態確率値や感性状態確率値に対しての重み付けの説明図である。
【図18】第2の素材データ記憶部のデータ構造の説明図である。
【図19】再構成静止画の説明図である。
【図20】再構成静止画の説明図である。
【図21】再構成静止画の説明図である。
【図22】再構成静止画の説明図である。
【図23】映像処理部の実行するフローチャートである。
【図24】ユーザ端末の装置構成図である。
【発明を実施するための形態】
【0031】
以下、実施の形態に従って本発明を詳細に説明する。
【0032】
図1に、本発明の適用されるIP電話システムのシステム構成を図示する。
【0033】
この図に示すように、本発明の適用されるIP電話システムは、本発明を具備するIP電話発呼支援装置1とIP電話機能および画像表示機能を持つ複数のユーザ端末2-i(i=1〜n)とがIPネットワーク3を介して接続されることで構成される。
【0034】
〔1〕第1の実施形態例
図2に、第1の実施形態例で構成される本発明のIP電話発呼支援装置1の装置構成を図示する。
【0035】
本発明のIP電話発呼支援装置1は、本実施形態例に従ってIP電話の発呼を支援する処理を実行する場合には、図2に示すように、メディア入力部100と、映像記憶部101と、映像処理部102と、識別子付与部103と、送信メディア記憶部104と、メディア送信部105と、発呼先アドレス入力部106と、識別子・発呼先アドレス対応関係記憶部107と、対応関係登録部108と、IP電話受信部109と、発呼先決定部110と、IP電話送信部111とを備える。
【0036】
ここで、図3に示すように、本発明のIP電話発呼支援装置1は、ハードウェア構成的には、CPU1000と、バス2000と、バス2000を介してCPU1000に接続されるプログラムメモリ3000と、バス2000を介してCPU1000に接続されるデータメモリ4000と、バス2000を介してCPU1000に接続される通信インタフェース5000とから構成される。
【0037】
この構成を採るときに、図2に示すメディア入力部100、映像処理部102、識別子付与部103、メディア送信部105、発呼先アドレス入力部106、対応関係登録部108、IP電話受信部109、発呼先決定部110およびIP電話送信部111についてはプログラムメモリ3000に記憶される。また、図2に示す映像記憶部101、送信メディア記憶部104および識別子・発呼先アドレス対応関係記憶部107についてはデータメモリ4000に記憶される。
【0038】
また、通信インタフェース5000は、CPU1000の制御の下、インターネット上のサーバおよびインターネットサイトとの間で、通信ネットワークにより規定される通信プロトコルに従い通信を行う。通信プロトコルとしては、例えば、TCP/IP(Transmission Control Protocol/Internet Protocol) が使用される。
【0039】
次に、本発明のIP電話発呼支援装置1の備える各処理部について説明する。
【0040】
メディア入力部100は、画像提供元のユーザから送信されてくる画像提供先のユーザに提供するメディア情報(静止画や映像で構成され、音響データを含むこともある)を入力するとともに、そのメディア情報に対応付けて送信されてくる画像提供先端末のアドレス情報を入力する。
【0041】
映像記憶部101は、メディア入力部100がメディア情報として映像を入力する場合に、メディア入力部100から、その映像および画像提供先端末のアドレス情報を受け取って記憶する。
【0042】
映像処理部102は、映像記憶部101に記憶される映像を1枚または複数枚数の静止画に再構成する。なお、このときに映像処理部102が実行することになる処理については後述する。
【0043】
識別子付与部103は、メディア入力部100がメディア情報として静止画を入力した場合には、メディア入力部100から、その静止画とその静止画に対応付けて入力されてきた画像提供先端末のアドレス情報とを受け取り、その静止画に対して、例えば整数値を1つずつインクリメントする形で識別子を付与する。一方、メディア入力部100がメディア情報として映像を入力した場合には、映像処理部102から、その映像から生成された静止画とその映像に対応付けて入力されてきた画像提供先端末のアドレス情報とを受け取り、その静止画に対して、例えば整数値を1つずつインクリメントする形で識別子を付与する。
【0044】
送信メディア記憶部104は、識別子付与部103の付与した識別子に対応付けて、その識別子の付与された静止画(ユーザ端末2-iへの提供画像となるもの)と、その静止画に対応付けて入力されてきた画像提供先端末のアドレス情報とを記憶する。
【0045】
メディア送信部105は、送信メディア記憶部104に記憶される提供画像となる静止画を、その静止画に付与された識別子とともに、その静止画に対応付けて入力されてきた画像提供先端末アドレス情報の指すユーザ端末2-iに送信する。
【0046】
発呼先アドレス入力部106は、画像提供元のユーザから送信されてくる、メディア入力部100が入力したメディア情報(メディア送信部105が送信することになる静止画)に対応付けて定義される発呼先端末のアドレス情報を入力する。
【0047】
識別子・発呼先アドレス対応関係記憶部107は、図4に示すようなデータ構造を有して、識別子付与部103が付与した識別子と、その識別子の付与された静止画(ユーザ端末2-iへの提供画像となるもの)に対応付けて定義される発呼先端末のアドレス情報との対応関係を記憶する。
【0048】
対応関係登録部108は、識別子付与部103が付与した識別子と、発呼先アドレス入力部106が入力した発呼先端末のアドレス情報との対応関係を、図4に示すようなデータ構造を持つ識別子・発呼先アドレス対応関係記憶部107に登録する。
【0049】
IP電話受信部109は、メディア送信部105による静止画の送信に応答して、いずれかのユーザ端末2-iから、識別子付与部103の付与した識別子を指定してIP電話の発呼要求があると、それを受信する。
【0050】
発呼先決定部110は、IP電話受信部109の受信したIP電話の発呼要求で指定される識別子をキーにして、識別子・発呼先アドレス対応関係記憶部107の記憶情報を参照することで、その識別子の指す発呼先端末のアドレス情報を特定して、その特定したアドレス情報の指すユーザ端末2-iをIP電話の発呼先として決定する。
【0051】
IP電話送信部111は、発呼先決定部110の決定したユーザ端末2-iに対してIP電話を発呼することで、IP電話の発呼要求を行ったユーザ端末2-iと、そのIP電話の発呼先端末となるユーザ端末2-iとの間でIP電話を成立させる。
【0052】
図5および図6に、このように構成される本発明のIP電話発呼支援装置1の実行するフローチャートの一例を図示する。
【0053】
次に、このフローチャートに従って、本発明のIP電話発呼支援装置1の実行する処理について説明する。
【0054】
本発明のIP電話発呼支援装置1は、ユーザ端末2-iを操作する画像提供元のユーザから、画像提供先端末のアドレス情報を指定して画像の提供要求があると、図5のフローチャートに示すように、まず最初に、ステップS100で、画像提供元のユーザから、提供画像と画像提供先端末のアドレス情報とを入力する。
【0055】
例えば、画像提供元のユーザとなる東京に住むA男が、横浜に住む妹のB子の家族が写っている写真を九州に住む父親のC男に見せたいと思うときには、その写真とC男の操作するユーザ端末2-iのアドレス情報とを送信してくるので、提供画像となるその写真と、画像提供先端末のアドレス情報となるC男の操作するユーザ端末2-iのアドレス情報とを入力するのである。
【0056】
続いて、ステップS101で、入力した提供画像が映像であるのか静止画であるのかを判断して、入力した提供画像が映像であることを判断するときには、ステップS102に進んで、後述する処理を実行することで、入力した映像を静止画に再構成して、それを提供画像として設定する。一方、ステップS101の判断処理で、入力した提供画像が静止画であることを判断するときには、このステップS102の処理を省略する。
【0057】
続いて、ステップS103で、提供画像に対して、例えば整数値を1つずつインクリメントする形で識別子を付与する。
【0058】
例えば、上記のようなB子の家族が写っている写真に対して、例えば“0100”というような識別子を付与するのである。
【0059】
続いて、ステップS104で、画像提供元のユーザから、提供画像に対応付けて定義される発呼先端末のアドレス情報を入力する。
【0060】
例えば、画像提供元のユーザとなるA男は、上記のような写真を父親のC男に送信する場合にあって、C男がその写真をクリックしてIP電話の発呼要求をするときに、その発呼先をB子としようと考える場合には、B子の操作するユーザ端末2-iのアドレス情報を発呼先端末のアドレス情報として入力してくるので、そのアドレス情報を入力するのである。
【0061】
続いて、ステップS105で、ステップS103で付与した識別子とステップS104で入力した発呼先端末のアドレス情報との対応関係を、図4に示すようなデータ構造を持つ識別子・発呼先アドレス対応関係記憶部107に登録する。
【0062】
例えば、上記のような写真に対して、ステップS103において、“0100”という識別子を付与するとともに、ステップS104において、発呼先端末のアドレス情報としてB子の操作するユーザ端末2-iのアドレス情報を入力する場合には、この2つの対応関係を識別子・発呼先アドレス対応関係記憶部107に登録するのである。
【0063】
続いて、ステップS106で、ステップS100で入力した画像提供先端末のアドレス情報の指すユーザ端末2-iに対して、提供画像とそれに付与した識別子とを送信して、処理を終了する。
【0064】
例えば、ステップS100において、A男が妹のB子の家族が写っている写真を提供画像として入力するとともに、画像提供先端末のアドレス情報として父親のC男の操作するユーザ端末2-iのアドレス情報を入力する場合には、そのアドレス情報の指すC男の操作するユーザ端末2-iに対して、その写真とその写真に付与した識別子(上記の例で説明するならば“0100”)とを送信するのである。
【0065】
この提供画像の送信を受けて、この提供画像を受け取るユーザ端末2-iは、図7に示すように、送信されてきた提供画像を表示エリア20に表示するように処理する。
【0066】
このとき、ユーザ端末2-iは、本発明のIP電話発呼支援装置1から複数枚数の提供画像を受け取るときには、例えば、それらの提供画像を順番に選択して表示エリア20に表示するなどの処理を行うことになる。
【0067】
また、例えば、新着の提供画像である場合には、図中の21に示すように、「New!」というような新着を知らせるテキストを表示するようにしたり、図中の22に示すように、提供画像を際立たせるような強調表示を施すようにしてもよい。
【0068】
なお、図7では、父親のC男に、息子のA男から、娘のB子の子供のD子が運動会で演技するときに撮影された写真が送られてきたことを想定している。
【0069】
この提供画像の表示を受けて、ユーザ端末2-iを操作するユーザは、その表示される提供画像を指先でタッチすることなどにより、IP電話の発呼を要求する。
【0070】
このとき、図8に示すように、ユーザ端末2-iにカメラ23やマイク24が装着されている場合には、画像や音声をトリガーにしてIP電話の発呼を実施するようにしてもよい。例えば、カメラ23に手を広げた状態を向けると発呼要求と判断して発呼するようにしてもよく、また、マイク24に“電話”と発声することにより発呼と判断して発呼するようにしてもよい。
【0071】
このIP電話の発呼要求を受けて、ユーザ端末2-iは、本発明のIP電話発呼支援装置1に対して、その発呼要求の起点となった提供画像の識別子を指定して、IP電話の発呼要求を送信する。
【0072】
上記の例で説明するならば、識別子“0100”を指定して、IP電話の発呼要求を送信するのである。
【0073】
このIP電話の発呼要求があると、本発明のIP電話発呼支援装置1は、図6のフローチャートに示すように、まず最初に、ステップS200で、このIP電話の発呼要求を受信する。
【0074】
続いて、ステップS201で、受信したIP電話の発呼要求で指定される提供画像の識別子を抽出する。
【0075】
続いて、ステップS202で、抽出した識別子をキーにして識別子・発呼先アドレス対応関係記憶部107の記憶情報を参照することで、その識別子の指す発呼先端末のアドレス情報を読み出す。
【0076】
例えば、“0100”という識別子に対応付けて、発呼先端末のアドレス情報としてB子の操作するユーザ端末2-iのアドレス情報が記憶されている場合には、B子の操作するユーザ端末2-iのアドレス情報を読み出すのである。
【0077】
続いて、ステップS203で、読み出したアドレス情報の指すユーザ端末2-iをIP電話の発呼先端末として、IP電話を発呼する。
【0078】
このようにして、父親のC男の操作するユーザ端末2-iに、図7に示すように、娘のB子の子供のD子が運動会で演技するときに撮影された写真が表示されているときに、C男がその写真からIP電話の発呼を要求すると、B子に対してIP電話が発呼されることになる。
【0079】
このようにして、本発明のIP電話発呼支援装置1によれば、電子写真立てなどに表示される画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。
【0080】
〔2〕第2の実施形態例
図9に、第2の実施形態例で構成される本発明のIP電話発呼支援装置1の装置構成を図示する。
【0081】
第2の実施形態例では、第1の実施形態例で備える発呼先アドレス入力部106に代えて、発呼先アドレス設定部120を備えるという構成を採っている。
【0082】
この発呼先アドレス設定部120は、メディア入力部100の入力した静止画や映像処理部102の生成した静止画を画像提供元ユーザに提示し、それを使って画像提供元ユーザと対話することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域を設定するとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定するという処理を実行する。
【0083】
例えば、図10に示すように、二人の人物が写っている写真が提供画像となるときにあって、画像提供元ユーザは、左側の人物と右側の人物とに対して別々の発呼先端末のアドレス情報を設定したいと思うことがあるので、このような要求に応えるべく、発呼先アドレス設定部120は、画像提供元ユーザと対話することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域(例えば、左上位置の座標と、縦横の大きさの情報)を設定するとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定するという処理を実行するのである。
【0084】
これを受けて、対応関係登録部108は、識別子付与部103の付与した識別子と、発呼先アドレス設定部120の設定した画像領域の領域情報と、発呼先アドレス設定部120の設定した発呼先端末のアドレス情報との対応関係を、識別子・発呼先アドレス対応関係記憶部107に登録する。
【0085】
これにより、識別子・発呼先アドレス対応関係記憶部107は、図11に示すように、識別子付与部103の付与した識別子と、その識別子の付与された静止画から切り出された画像領域の領域情報と、その識別子およびその領域情報に対応付けて定義される発呼先端末のアドレス情報との対応関係を記憶することになる。
【0086】
第2の実施形態例の場合、ユーザ端末2-iは、IP電話の発呼を要求する場合、提供画像の識別子を指定することに加えて、ユーザからの指示に従って提供画像の中から切り出した画像領域の領域情報を指定して(単に1点を指定することで画像領域を指定することもある)、本発明のIP電話発呼支援装置1に対して、IP電話の発呼要求を送信するように処理する。
【0087】
このIP電話の発呼要求を受けて、発呼先決定部110は、IP電話受信部109の受信したIP電話の発呼要求で指定される識別子および領域情報をキーにして、識別子・発呼先アドレス対応関係記憶部107の記憶情報を参照することで、その識別子およびその領域情報の指す発呼先端末のアドレス情報を特定して、その特定したアドレス情報の指す端末をIP電話の発呼先として決定する。
【0088】
そして、IP電話送信部111は、発呼先決定部110の決定したユーザ端末2-iに対してIP電話を発呼することで、IP電話の発呼要求を行ったユーザ端末2-iと、そのIP電話の発呼先端末となるユーザ端末2-iとの間でIP電話を成立させる。
【0089】
このようにして、第2の実施形態例に従うと、例えば、画像提供元のユーザとなる東京に住むA男が、自分の家族と横浜に住む妹のB子の家族とが写っている写真を九州に住む父親のC男に送信する場合にあって、A男の家族の画像部分に対してA男の操作するユーザ端末2-iのアドレス情報を発呼先端末のアドレス情報として設定するとともに、B子の家族の画像部分に対してB子の操作するユーザ端末2-iのアドレス情報を発呼先端末のアドレス情報として設定することで、C男がその写真に写っているA男の家族をクリックしてIP電話の発呼要求をするときにはA男に発呼され、一方、C男がその写真に写っているB子の家族をクリックしてIP電話の発呼要求をするときにはB子に発呼されることになる、ということを実現することができるようになる。
【0090】
〔3〕第3の実施形態例
図12に、第3の実施形態例で構成される本発明のIP電話発呼支援装置1の装置構成を図示する。
【0091】
第2の実施形態例に従う場合には、発呼先アドレス設定部120が画像提供元ユーザと対話することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける画像領域を設定するとともに、その画像領域に対して発呼先端末のアドレス情報を設定するという処理を実行することになる。
【0092】
この点について、第3の実施形態例では、画像提供元ユーザとの対話処理に依らずに画像領域および発呼先端末のアドレス情報の設定を実現可能とするために、第2の実施形態例で備える発呼先アドレス設定部120に代えて、特徴量・発呼先アドレス対応関係記憶部130、特徴量抽出部131および発呼先アドレス設定部132を備えるという構成を採っている。
【0093】
この特徴量・発呼先アドレス対応関係記憶部130は、画像の持つ特徴量(例えば、人物の顔などの特徴量)と、その特徴量に対して割り付けられた発呼先端末のアドレス情報との対応関係を記憶する。
【0094】
例えば、過去に処理された提供画像から切り出された画像領域の持つ特徴量と、その画像領域に対して割り付けられた発呼先端末のアドレス情報とに従って、その対応関係を記憶したり、あるいは、画像提供元ユーザがその対応関係の構築用に入力してきた画像領域の持つ特徴量と、その画像領域に対して割り付けを指示してきた発呼先端末のアドレス情報とに従って、その対応関係を記憶したりする。
【0095】
ここで、被写体の顔画像に着目する場合には、下記の参考文献1に記載される技術を用いて人物の顔の特徴量を抽出することが可能である。
【0096】
参考文献1:増井信彦, 赤松茂, 末永康仁,"3D計測による顔画像認識の基礎検討: 画像通信システム画像応用", Vol.14, No.36(19900629), pp.7-12,映像 情報メディア学会テレビジョン学会技術報告.
特徴量・発呼先アドレス対応関係記憶部130は、画像の持つ特徴量とその特徴量に対して割り付けられた発呼先端末のアドレス情報との対応関係を記憶するものであるが、例えば、図13に示すように、画像提供元ユーザごとに、その画像提供元ユーザがどのような特徴量に対してどのような発呼先端末のアドレス情報を割り付けたかという形で、この情報を記憶するようにしてもよい。
【0097】
特徴量抽出部131は、メディア入力部100の入力した静止画や映像処理部102の生成した静止画を抽出対象として、その静止画のどの画像領域にどのような特徴量を持つ画像部分があるのかということを抽出する。
【0098】
発呼先アドレス設定部132は、特徴量抽出部131の抽出した特徴量をキーにして、特徴量・発呼先アドレス対応関係記憶部130の記憶情報を参照することで、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域(特徴量抽出部131の抽出した画像領域である)を設定するとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定するという処理を実行する。
【0099】
この構成に従って、第3の実施形態例では、画像提供元ユーザとの対話処理に依らずに、提供画像となる静止画に対して、発呼先端末のアドレス情報を割り付ける複数の画像領域を設定することができるようになるとともに、それらの画像領域のそれぞれに対して発呼先端末のアドレス情報を設定することができるようになる。
【0100】
第3の実施形態例の場合も、第2の実施形態例と同様に、ユーザ端末2-iは、IP電話の発呼を要求する場合、提供画像の識別子を指定することに加えて、ユーザからの指示に従って提供画像の中から切り出した画像領域の領域情報を指定して(単に1点を指定することで画像領域を指定することもある)、本発明のIP電話発呼支援装置1に対して、IP電話の発呼要求を送信するように処理する。
【0101】
このIP電話の発呼要求を受けて、発呼先決定部110は、IP電話受信部109の受信したIP電話の発呼要求で指定される識別子および領域情報をキーにして、識別子・発呼先アドレス対応関係記憶部107の記憶情報を参照することで、その識別子およびその領域情報の指す発呼先端末のアドレス情報を特定して、その特定したアドレス情報の指す端末をIP電話の発呼先として決定する。
【0102】
そして、IP電話送信部111は、発呼先決定部110の決定したユーザ端末2-iに対してIP電話を発呼することで、IP電話の発呼要求を行ったユーザ端末2-iと、そのIP電話の発呼先端末となるユーザ端末2-iとの間でIP電話を成立させる。
【0103】
このようにして、第3の実施形態例に従うと、画像提供元のユーザとなる東京に住むA男が、自分の家族と横浜に住む妹のB子の家族とが写っている写真を九州に住む父親のC男に送信する場合に、A男の家族の画像部分に対してA男の操作するユーザ端末2-iのアドレス情報が発呼先端末のアドレス情報として自動設定されるとともに、B子の家族の画像部分に対してB子の操作するユーザ端末2-iのアドレス情報が発呼先端末のアドレス情報として自動設定されることで、C男がその写真に写っているA男の家族をクリックしてIP電話の発呼要求をするときにはA男に発呼され、一方、C男がその写真に写っているB子の家族をクリックしてIP電話の発呼要求をするときにはB子に発呼されることになる、ということを実現することができるようになる。
【0104】
〔4〕映像処理部102の構成および処理について
映像処理部102は、前述したように、メディア入力部100がメディア情報として映像を入力する場合に、映像記憶部101に記憶されるその映像を1枚または複数枚数の静止画に再構成するという処理を実行する。この静止画を見ると、ユーザは、その静止画の生成元となった映像を視聴することなく、その映像がどのようなものであるのかを把握することができるという特徴がある。
【0105】
このようにして生成された静止画については、メディア入力部100が入力した静止画と同様に処理され、これにより、本発明のネットワーク電話発呼支援装置によれば、映像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。
【0106】
次に、映像を静止画に再構成するという処理を実行する映像処理部102の構成および処理について説明する。
【0107】
図14に、映像処理部102の装置構成の一例を図示する。
【0108】
この図に示すように、映像処理部は、映像入力部300と、第1の素材データ記憶部301と、画像・音響特徴量検出部302と、画像・音響特徴量記憶部303と、優先グループ種別判定部304と、静止画優先順位付与部305と、素材データ記憶構造変更部306と、第2の素材データ記憶部307と、静止画再構成部308と、編集データ記憶部309と、再構成静止画出力部310とを備える。
【0109】
ここで、図2では、説明の便宜上、映像処理部102についてはプログラムメモリ3000に記憶されることで説明したが、映像処理部102の備える第1の素材データ記憶部301、画像・音響特徴量記憶部303、第2の素材データ記憶部307および編集データ記憶部309については、データメモリ4000に記憶されることになる。
【0110】
〔4−1〕各処理部について
〔4−1−1〕映像入力部300の処理
映像入力部300は、処理対象となる映像を入力して第1の素材データ記憶部301に格納する処理を実行する。
【0111】
この処理にあたって、映像入力部300は、入力した映像から音声情報を抽出する処理を行う。例えば、avi フォーマットであれば、visual/audio 情報が格納されており、映像からaudio 情報を抽出する。なお、本発明において、音声と言う場合、音声および音楽などの楽音を指すものとする。
【0112】
〔4−1−2〕画像・音響特徴量検出部302の処理
画像・音響特徴量検出部302は、第1の素材データ記憶部301に格納される映像を処理対象として、その映像の各フレーム(各静止画)の持つ画像特徴量および音響特徴量を検出して画像・音響特徴量記憶部303に格納する処理を実行する。
【0113】
画像・音響特徴量検出部302は、画像特徴量については、例えば、
・画(i) : 笑顔検出
・画(ii) : カット点検出
・画(iii) : カメラワーク検出
・画(iv) : アップショット検出
という4つの画像特徴量を検出する。
【0114】
これらの画像特徴量の内、“画(i) ”の笑顔の検出については、例えば、特許第3098276 号に示される“表情認識装置”の発明に基づいて実施すればよい。ここで、この発明では、顔面全体にわたって筋肉の微少な動きを計測し、その時間的変化をパタン化し、そのパタンに基づいて、感情を表す表情の認識を行っている。
【0115】
また、“画(ii)”のカット点の検出については、例えば、特許第2839132 号に示される“映像カット点検出方法及び装置”の発明に基づいて実施すればよい。
【0116】
また、“画(iii) ”のカメラワークの検出については、例えば、特許第3408117 号に示される「カメラ操作推定方法およびカメラ操作推定プログラムを記録した記録媒体」の発明に基づいて実施すればよい。
【0117】
また、“画(iv)”のアップショットの検出(動物体の検出)については、例えば、特開2006-244074 に示される「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」の発明に基づいて実施すればよい。
【0118】
一方、画像・音響特徴量検出部302は、音響特徴量については、例えば、
・音(i) : 強調状態検出
・音(ii) : 感性状態検出
・音(iii) : 音楽区間検出
という3つの音響特徴量を検出する。
【0119】
これらの音響特徴量の内、“音(i) ”の強調状態の検出については、例えば、特許第3803311 号に示される「音声処理方法及びその方法を使用した装置及びそのプログラム」の発明に基づいて実施すればよい。
【0120】
この特許第3803311 号に示される発明では、1つの区間(ラベル区間A)内のフレーム数をnとし、それぞれのフレームから得られる音声特徴量ベクトルのコードが時系列でC1,C2,C3,.....,Cn であるときに、そのラベル区間Aが音声の強調状態となる確率PAempをN-gram モデルに基づいて求めるようにしているので、このときに求められる強調状態の出現確率PAemp(音声小段落ごとの強調確率PSemp、平静確率PSnrmの比や差を用いることでもよい)を使って、音の強調状態の程度(強調状態の確率値と、その確率値を閾値と比較することで求められる強調状態であるのか否かという情報)を検出することが可能である。
【0121】
また、“音(ii)”感性状態の検出については、例えば、下記の参考文献2に示される発明に基づいて実施すればよい。
【0122】
参考文献2:入江豪,日高浩太,宮下直也,佐藤隆,谷口行信,「個人撮影映像を対 象とした映像速覧のための“笑い”シーン検出法」,映像情報メディア 学会誌,vol.62, no.2, pp.227-233, 2008.
この参考文献2に示される発明では、韻律特徴ベクトルxt と状態et (“笑い”か“笑い以外”の2値を取る)の関係を表現する音響モデルp(xt |et )と、状態et の遷移に関する特性を単純マルコフ過程の仮定の下に表現する遷移モデルp(et |et-1 )とに基づいて、時刻tまでの韻律特徴量ベクトルの時系列Xt ={xt,t-1,t-2,..... }を観測した下での状態et の出現確率p(et |Xt )を求めるようにしているので、このときに求められる笑い状態の出現確率p(et |Xt )を使って、感性状態の程度(感性状態の確率値と、その確率値を閾値と比較することで求められる感性状態であるのか否かという情報)を検出することが可能である。
【0123】
また、“音(iii) ”の音楽区間の検出については、例えば、特許第3475317 号に示される“映像分類方法および装置”の発明に基づいて実施すればよい。
【0124】
画像・音響特徴量検出部302は、“画(i) ”、“画(ii)”、“画(iii) ”、“画(iv)”、“音(i) ”、“音(ii)”、“音(iii) ”のすべてを検出する必要はなく、何れか一つ以上を検出すればよいが、以下の説明では、説明の便宜上、これらのすべてを検出することを想定している。
【0125】
〔4−1−3〕画像・音響特徴量記憶部303のデータ構造
図15に、画像・音響特徴量記憶部303のデータ構造の一例を図示する。
【0126】
画像・音響特徴量記憶部303は、図15に示すように、処理対象の映像の各フレームについて、画像・音響特徴量検出部302の検出した“画(i) ”の検出結果の情報(笑顔の有無)と、“画(ii)”の検出結果の情報(カット点の有無)と、“画(iii) ”の検出結果の情報(カメラワークの有無)と、“画(iv)”の検出結果の情報(動物体の有無)と、“音(i) ”の検出結果の情報(強調状態であるのか否かということと、その強調状態の確率値)と、“音(ii)”の検出結果の情報(感性状態であるのか否かということと、その感性状態の確率値)と、“音(iii) ”の検出結果の情報(音楽区間の有無)とを記憶する。
【0127】
さらに、これらの情報に加えて、画像・音響特徴量記憶部303は、図15に示すように、処理対象の映像の各フレームがどの暫定優先グループに属するのかという情報(優先グループ種別判定部304により格納されることになる情報)と、処理対象の映像の各フレームに付与される暫定優先グループ内の優先順位の情報(静止画優先順位付与部305により格納されることになる情報)とを記憶する。
【0128】
〔4−1−4〕優先グループ種別判定部304の処理
優先グループ種別判定部304は、大枠の優先順位を示す暫定優先グループの区分けを設定して、画像・音響特徴量記憶部303に格納される画像・音響特徴量検出部302の検出した画像特徴量および音響特徴量に基づいて、処理対象の映像の各フレームがどの暫定優先グループに属するのかを判定して、その判定結果の情報を画像・音響特徴量記憶部303に格納する処理を実行する。
【0129】
優先グループ種別判定部304は、例えば、図16に示すように、
(1)“画(i) ”、“画(iv)”、“音(iii) ”の検出結果が有りとなったフレームを優 先順位が最上位の暫定グループである第1暫定優先グループとし、
(2)“画(i) ”、“画(iv)”の検出結果が有りとなったフレームをその次の優先順位 の暫定グループである第2暫定優先グループとし、
(3)“画(i) ”、“音(iii) ”の検出結果が有りとなったフレームをその次の優先順 位の暫定グループである第3暫定優先グループとし、
(4)“画(i) ”の検出結果が有りとなったフレームをその次の優先順位の暫定グルー プである第4暫定優先グループとし、
(5)“画(iv)”、“音(iii) ”の検出結果が有りとなったフレームをその次の優先順 位の暫定グループである第5暫定優先グループとし、
(6)“画(iv)”の検出結果が有りとなったフレームを優先順位が最下位の暫定グルー プである第6暫定優先グループ
として設定して、処理対象の映像の各フレームがどの暫定優先グループに属するのかを判定し、その判定結果の情報を画像・音響特徴量記憶部303に格納するのである。
【0130】
〔4−1−5〕静止画優先順位付与部305の処理
静止画優先順位付与部305は、画像・音響特徴量記憶部303に格納される画像・音響特徴量検出部302の検出した“音(i) ”の強調状態確率値および/または“音(ii)”の感性状態確率値を用いて、各暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与して、その付与結果の情報を画像・音響特徴量記憶部303に格納する処理を実行する。
【0131】
この優先順位の付与にあたって、強調状態確率値と感性状態確率値の両方を用いて優先順位を付与する場合には、2つの確率値の加算値を用いて優先順位を決定したり、2つの確率値の乗算値を用いて優先順位を決定するなどの処理を行うことになるが、その際に、笑い声をより優先したいとの理由から、例えば、“音(ii)”の感性状態確率値を2倍するなどのように重み付けを施してもよい。また、これとは逆に、強調音声を重要視して、“音(i) ”の強調状態確率値を大きくするような重み付けを施してもよい。
【0132】
映像処理部102は、映像から1枚以上の重要な静止画群(フレーム群)を選択して、それらの静止画を1枚の静止画に再構成することで、画像提供先のユーザが映像を視聴することなく、その映像がどのようなものであるのかを把握できるようにすることを実現する。
【0133】
これから、この優先順位の付与にあたって、静止画として見づらいフレームについては、優先順位を低くすることが望ましい。
【0134】
そこで、カメラワークや手ブレなどが生じている画像については静止画として見づらいことが想定されるので、“画(iii) ”によってカメラワークが生じていることが検出される画像(フレーム)については、優先順位を最低にするとか、優先順位をマイナスn(例えば、n=10などと設定しておく)にするなどの処理を施すようにしてもよい。
【0135】
また、カメラワークが生じていなくても、被写体が動作することによって不鮮明な画像となる場合も想定される。そこで、“画(iv)”のアップショット検出により検出される動きベクトルの大きさに閾値を設定して、その閾値以上の動きを示す動物体を有する画像(フレーム)については、前述と同様に、優先順位を最低にするとか、優先順位をマイナスnにするなどの処理を施すようにしてもよい。
【0136】
映像は時系列の画像群ではあるが、撮りはじめからよいシーンでないことも想定される。例えば、未編集のホームビデオなどでは、思いつきで撮影を開始することも多く見られる。
【0137】
そこで、“音(i) ”の強調状態確率値や“音(ii)”の感性状態確率値の結果に対して、図17に示すような、カット点(撮影開始)からの時間に対する重み付けを施すようにしてもよい。
【0138】
例えば、図17に示すパタン1では、次のカット点までの時刻に向かって重み付けが二次関数的に上昇していくものを示している。この場合に、重み付けが一次関数的に上昇していくものであってもよい。
【0139】
また、図17に示すパタン2では、所定の時間tc になるまでは、重み付けが一次関数あるいは二次関数で上昇し、その後は一定値となるものを示している。ここで、tc は、例えば30秒などというように設定されることになる。
【0140】
また、図17に示すパタン3では、次のカット点までの中間時刻で最大となるように、重み付けが一次関数あるいは二次関数で設定されるものを示している。
【0141】
いずれのパタンを用いるのかについては画像提供元のユーザが予め設定しておけばよく、この設定が行われない場合には、例えば、カメラワークがカット点直後にない場合にはパタン2を用い、カメラワークが頻出する場合にはパタン1を用いるというように、システム側で予め設定したパタンを用いることになる。
【0142】
以上に説明した静止画優先順位付与部305の処理では、“画(i) ”、“画(ii)”、“画(iii) ”、“画(iv)”、“音(i) ”、“音(ii)”、“音(iii) ”のすべてが検出されている場合について説明したが、以上の説明から分かるように、最低でも音(i) 、音(ii)の内の1つが検出されていれば、静止画に対して優先順位を付与することは可能である.
〔4−1−6〕素材データ記憶構造変更部306の処理
素材データ記憶構造変更部306は、画像・音響特徴量記憶部303に格納される暫定優先グループ情報および優先順位情報に基づいて、第1の素材データ記憶部301に格納される映像のフレームを、暫定優先グループごとに優先順位の順番に従って並び替えて、図18に示すようなデータ構造を持つ第2の素材データ記憶部307に格納する処理を実行する。
【0143】
〔4−1−7〕静止画再構成部308の処理
静止画再構成部308は、第2の素材データ記憶部307に格納される映像のフレームを処理対象として、それらのフレームの中から1枚以上の重要な静止画群(フレーム群)を選択し、それらの静止画を1枚の静止画に再構成して、それを編集データ記憶部309に格納する処理を実行する。
【0144】
この重要な静止画群の選択にあたって、静止画再構成部308は、図18に示すようなデータ構造を持つ第2の素材データ記憶部307を参照して、第1暫定優先グループを最優先にして、その第1暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択し、このとき、第1暫定優先グループに必要な数の静止画が存在しない場合には、続いて、第2暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択するというように、暫定優先グループの優先順位とその暫定優先グループ内におけるフレームの優先順位とに従って静止画群を選択するように処理する。
【0145】
このようにして1枚の静止画に再構成された静止画(再構成静止画)は、再構成静止画出力部310の処理に従って、編集データ記憶部309から読み出されて図2などに示す識別子付与部103に出力されることになる。
【0146】
次に、静止画再構成部308の実行する再構成静止画の生成方法について説明する。ここで、ユーザ端末2-iの持つ表示解像度により規定される出力解像度がm×n(m:縦の解像度,n:横の解像度)で、第2の素材データ記憶部307から読み出すフレーム(静止画)の解像度がm’×n’(m’:縦の解像度,n’:横の解像度)であるとする。
【0147】
静止画再構成部308は、
m’>m かつ、n’>n ・・・・ 式(1)
である場合には、最優先順位となる静止画をそのまま再構成静止画として生成するようにすればよい。
【0148】
また、閾値thm, thnを設けて、
m’±thm >m かつ、n’±thn >n ・・・・ 式(2)
である場合には、同様に、最優先順位をなる静止画をそのまま再構成静止画として生成するようにしてもよい。ここで、thm とthn については、例えば、
thm = 0.3 ×m ,thn = 0.3 ×n
などというように予め設定しておけばよい。
【0149】
式(1)および式(2)を満足しない場合には、図19〜図21に示すように、複数の画像によって静止画を再構成することで再構成静止画を生成する。
【0150】
ここで、図21では、優先順位の順にどの表示域に配置するのかを決定するようにしているが、図21における時系列情報が、
優先順位3→優先順位2→優先順位1→優先順位4
である場合には、その時系列の順にどの表示域に配置するのかを決定することで、図22のように生成するようにしてもよい。
【0151】
以上に説明した静止画再構成部308の処理では、式(1)や式(2)を満足する場合には、最優先順位となる静止画のみを配置することで再構成静止画を生成するという構成を採ったが、そのような構成を採らずに、優先順位の高い順番に従って所定の枚数の静止画を選択して、それらの静止画を縮小しつつ配置することで再構成静止画を生成するという構成を採るようにしてもよい。
【0152】
また、以上に説明した静止画再構成部308の処理では、1枚のみの再構成静止画を生成することで説明したが、複数の再構成静止画を生成するようにしてもよい。その場合には、図19〜図22の何れかの再構成静止画を適宜、繰り返し優先順位を降順に生成していけばよく、そのようにして生成した複数の再構成静止画を編集データ記憶部309に格納することになる。
【0153】
〔4−1−8〕再構成静止画出力部310の処理
再構成静止画出力部310は、編集データ記憶部309から静止画再構成部308の生成した再構成静止画を読み出して、図2などに示す識別子付与部103に対して出力するという処理を実行する。
【0154】
このとき、静止画再構成部308が複数の再構成静止画を生成する場合には、再構成静止画出力部310は、それらの再構成静止画を優先順位順に順番に出力する。
【0155】
〔4−2〕映像処理部102の実行する処理
図23に、図14のように構成される映像処理部102の実行するフローチャートを図示する。
【0156】
次に、このフローチャートに従って、図14のように構成される映像処理部102の実行する処理について詳細に説明する。
【0157】
映像処理部102は、図2などに示すメディア入力部100が映像を入力したことで再構成静止画の生成要求があると、図23のフローチャートに示すように、まず最初に、ステップS300で、図2などに示す映像記憶部101から処理対象の映像を入力する。
【0158】
続いて、ステップS301で、入力映像の全フレーム(全静止画)について処理を行ったのか否かを判断して、全フレームについて処理を行っていないことを判断するときには、ステップS302に進んで、先頭フレームからの順番に従って未処理のフレームを1つ選択する。
【0159】
続いて、ステップS303で、選択したフレームの持つ画像特徴量および音響特徴量を検出する。
【0160】
例えば、画像特徴量として、前述した“画(i) ”の笑顔検出、“画(ii)”のカット点検出、“画(iii) ”のカメラワーク検出、“画(iv)”のアップショット検出という4つの画像特徴量を検出するとともに、音響特徴量として、前述した“音(i) ”の強調状態検出、“音(ii)”の感性状態検出、“音(iii) ”の音楽区間検出という3つの音響特徴量を検出するのである。
【0161】
続いて、ステップS304で、選択したフレームについてのカット点からの時間経過量を測定して(“画(ii)”のカット点検出によりカット点となったフレームが検出されているので、そのフレームからの時間経過量を測定する)、その測定した時間経過量に基づいて、ステップS303で検出した特徴量に含まれる値属性特徴量(検出結果が特徴量の程度を示す値となる特徴量)を補正する。
【0162】
ステップS303で検出した特徴量に含まれる値属性特徴量としては、“音(i) ”の強調状態検出により検出される強調状態の確率値と、“音(ii)”の感性状態検出により検出される感性状態の確率値という2つの値属性特徴量があるので、これらの値属性特徴量を、例えば図17に示すパタン2の重み付け曲線に従って重み付けすることで、それらの値属性特徴量を補正するのである。
【0163】
続いて、ステップS305で、ステップS303で検出した特徴量に含まれる有無属性特徴量(検出結果が特徴量の有無となる特徴量)に基づいて、選択したフレームが図16に示す6つの暫定優先グループの内のどの暫定優先グループに属するのかを判定して、ステップS301の処理に戻る。
【0164】
ステップS303では、“画(ii)”のカット点検出を除いた有無属性特徴量として、“画(i) ”の笑顔検出、“画(iii) ”のカメラワーク検出、“画(iv)”のアップショット検出、“音(iii) ”の音楽区間検出という4つの有無属性特徴量を検出しているので、これらの有無属性特徴量の検出結果に基づいて、図16に示す判定基準に基づいて、選択したフレームがどの暫定優先グループに属するのかを判定して、ステップS301の処理に戻るのである。
【0165】
このようにしてステップS302〜ステップS305の処理を繰り返すことで、入力映像の全フレームについて、画像特徴量および音響特徴量を検出・補正するとともに、どの暫定優先グループに属するのかを判定すると、ステップS301で、入力映像の全フレームについてこの処理を行ったことを判断することになるので、このことを判断するときには、ステップS306に進んで、検出した値属性特徴量に基づいて、暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与する。
【0166】
例えば、“音(i) ”の強調状態検出により検出される強調状態の確率値と、“音(ii)”の感性状態検出により検出される感性状態の確率値という2つの確率値の加算値を求めて、その加算値の大小を比較することで、暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与するのである。
【0167】
続いて、ステップS307で、静止画として見づらいものとなるフレームを特定して、その特定したフレームの優先順位を低いものに変更する。
【0168】
前述したように、カメラワークや手ブレなどが生じている画像については静止画として見づらいことが想定され、また、カメラワークが生じていなくても、被写体が動作することによって不鮮明な画像となる場合も想定される。そこで、“画(iii) ”のカメラワーク検出により著しく大きなカメラワークが生じていることが検出されるフレームや、“画(iv)”のアップショット検出により極端に大きな動きを示す動物体の存在が検出されるフレームについては、その優先順位を低いものに変更するのである。
【0169】
続いて、ステップS308で、出力解像度とフレーム(静止画)の解像度とに基づいて、再構成静止画を構成する静止画を1枚にするのかそれに以上の枚数にするのかを決定する。
【0170】
例えば、出力解像度とフレームの解像度との間に、前述の式(1)や式(2)の関係が成立するのか否かを判断することで、再構成静止画を構成する静止画を1枚にするのかそれ以上の枚数にするのかを決定したり、あるいは、複数の静止画を縮小して再構成静止画を生成するという構成を採る場合には、画像提供元のユーザとの対話処理などに従って、再構成静止画を構成する静止画を1枚にするのかそれに以上の枚数にするのかを決定したりするのである。
【0171】
続いて、ステップS309で、再構成静止画を構成する静止画を1枚にすることを決定する場合には、暫定優先グループの優先順位と暫定優先グループ内におけるフレームの優先順位とに基づいて、再構成静止画に配置する1枚の静止画(フレーム)を選択し、また、再構成静止画を構成する静止画を所定の枚数にすることを決定する場合には、暫定優先グループの優先順位と暫定優先グループ内におけるフレームの優先順位とに基づいて、再構成静止画に配置するその所定の枚数の静止画(フレーム)を選択する。
【0172】
すなわち、図18に示すようなデータ構造を持つ第2の素材データ記憶部307を参照して、第1暫定優先グループを最優先にして、その第1暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択し、このとき、第1暫定優先グループに必要な数の静止画が存在しない場合には、続いて、第2暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択するというように、暫定優先グループの優先順位とその暫定優先グループ内におけるフレームの優先順位とに従って、再構成静止画に配置する静止画を選択するのである。
【0173】
続いて、ステップS310で、画像提供元のユーザとの対話処理などに従って、再構成静止画に配置する静止画の配置方法を決定する。
【0174】
すなわち、複数の静止画を再構成静止画に配置することで再構成静止画を生成する場合に、図21に示すような優先順位の順にどの表示域に配置するのかを決定するという配置方法と、図22に示すような時系列の順にどの表示域に配置するのかを決定するという配置方法という2種類の配置方法があるので、ユーザとの対話処理などに従って、その内のどちらの配置方法を用いるのかを決定するのである。
【0175】
続いて、ステップS311で、ステップS309で選択した静止画を、予め決定されている配置位置に、ステップS310で決定した配置方法に従って配置することで、複数の再構成静止画を生成する。ここで、配置位置については、再構成静止画を構成する静止画の枚数に応じて予め決定されているものとする。また、生成する再構成静止画の枚数についても予め決定されているものとする。
【0176】
続いて、ステップS312で、生成した再構成静止画を、図2などに示す識別子付与部103に出力して、処理を終了する。
【0177】
このようにして、映像処理部102は、図2などに示すメディア入力部100が映像を入力したことで再構成静止画の生成要求があると、図23のフローチャートに従って、その映像から1枚以上の重要な静止画群を選択し、それらを1枚の静止画に再構成して図2などに示す識別子付与部103に出力することを実行するのである。
【0178】
〔5〕ユーザ端末2-iの構成
図24に、本発明のIP電話発呼支援装置1により提供される提供画像を受信するユーザ端末2-iの装置構成を図示する。
【0179】
この図に示すように、本発明のIP電話発呼支援装置1により提供される提供画像を受信するユーザ端末2-iは、本発明のIP電話発呼支援装置1から識別子とともに送信されてくる提供画像を受信する提供画像受信部200と、提供画像受信部200の受信した提供画像を記憶する提供画像記憶部201と、提供画像記憶部201に記憶される提供画像をディスプレイ203に表示する提供画像表示制御部202と、IP電話の送受信処理を実行するIP電話送受信部204と、IP電話送受信部204に展開されて、本発明のIP電話発呼支援装置1に対して、提供画像の識別子を指定してIP電話の発呼を要求するIP電話発呼部205とを備える。
【0180】
このIP電話発呼部205は、ユーザ端末2-iがIP電話の発呼側となるときに動作するものであり、提供画像表示制御部202による提供画像の表示に応答して、ユーザからIP電話の発呼要求があるときに、提供画像記憶部201からその提供画像の識別子を読み出して、本発明のIP電話発呼支援装置1に対して、その読み出した識別子を指定してIP電話の発呼を要求する処理を実行する。
【0181】
この構成に従って、ユーザ端末2-iは、本発明のIP電話発呼支援装置1により提供される提供画像を受信すると、その提供画像をディスプレイ203に表示して、その表示に応答してユーザからIP電話の発呼要求があると、本発明のIP電話発呼支援装置1に対して、その提供画像の識別子を指定してIP電話の発呼を要求する。
【0182】
このIP電話の発呼要求を受けて、例えば、図2のように構成される本発明のIP電話発呼支援装置1は、前述したように、その提供画像に対応付けて設定された発呼先端末のアドレス情報を特定して、それに基づいて、発呼先端末との間でIP電話を成立させるように処理することになる。
【産業上の利用可能性】
【0183】
本発明は、電話音声をパケットに変換してネットワークに投入することで電話コミュニケーションを実行するネットワーク電話システムに適用できるものであり、本発明を適用することで、電子写真立てなどに表示される画像から電話コミュニケーションを誘導して、その電話コミュニケーションを成立させることができるようになる。
【符号の説明】
【0184】
1 IP電話発呼支援装置
100 メディア入力部
101 映像記憶部
102 映像処理部
103 識別子付与部
104 送信メディア記憶部
105 メディア送信部
106 発呼先アドレス入力部
107 識別子・発呼先アドレス対応関係記憶部
108 対応関係登録部
109 IP電話受信部
110 発呼先決定部
111 IP電話送信部
120 発呼先アドレス設定部
130 特徴量・発呼先アドレス対応関係記憶部
131 特徴量抽出部
132 発呼先アドレス設定部

【特許請求の範囲】
【請求項1】
電話音声をパケットに変換してネットワークに投入することで電話コミュニケーションを実行するネットワーク電話の発呼を支援するネットワーク電話発呼支援装置であって、
画像提供元のユーザから、画像提供先のユーザの操作する端末のアドレス情報と、その画像提供先ユーザに提供する提供画像とを入力する手段と、
前記提供画像に割り付ける発呼先ユーザ端末のアドレス情報を設定する手段と、
前記提供画像に対して識別子を付与して、その識別子と前記設定した発呼先ユーザ端末のアドレス情報との対応関係を記憶手段に登録する手段と、
前記入力した画像提供先ユーザ端末のアドレス情報に従って、前記提供画像をそれに付与した前記識別子とともに画像提供先ユーザに送信する手段と、
前記提供画像の送信に応答して、前記識別子を指定してネットワーク電話の発呼要求があるときに、その発呼要求を受信する手段と、
前記受信した発呼要求で指定される前記識別子をキーにして前記記憶手段を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得する手段と、
前記取得したアドレス情報の指すユーザ端末に対して発呼する手段とを備えることを、
特徴とするネットワーク電話発呼支援装置。
【請求項2】
請求項1に記載のネットワーク電話発呼支援装置において、
前記提供画像として映像が入力された場合に、その映像を静止画に再構成することで画像提供先ユーザに提供する最終的な提供画像を生成する手段を備えることを、
特徴とするネットワーク電話発呼支援装置。
【請求項3】
請求項1または2に記載のネットワーク電話発呼支援装置において、
前記設定する手段は、前記提供画像から切り出される複数の画像領域に対して、それぞれ異なる発呼先ユーザ端末のアドレス情報を設定し、
前記登録する手段は、前記識別子および前記複数の画像領域の領域情報とそれらの画像領域に対して設定された発呼先ユーザ端末のアドレス情報との対応関係を前記記憶手段に登録し、
前記受信する手段は、前記識別子および画像領域の領域情報を指定するネットワーク電話の発呼要求を受信し、
前記取得する手段は、前記受信した発呼要求で指定される前記識別子および画像領域の領域情報をキーにして前記記憶手段を参照することで、ネットワーク電話の発呼先となるユーザ端末のアドレス情報を取得することを、
特徴とするネットワーク電話発呼支援装置。
【請求項4】
請求項1ないし3のいずれか1項に記載のネットワーク電話発呼支援装置において、
前記設定する手段は、画像提供元のユーザから、発呼先ユーザ端末のアドレス情報を入力して、それを前記提供画像に割り付ける発呼先ユーザ端末のアドレス情報として設定することを、
特徴とするネットワーク電話発呼支援装置。
【請求項5】
請求項1ないし3のいずれか1項に記載のネットワーク電話発呼支援装置において、
画像の持つ特徴量とその特徴量に割り付けられた発呼先ユーザ端末のアドレス情報との対応関係を記憶する第2の記憶手段を備え、
前記設定する手段は、前記提供画像の持つ特徴量を抽出して、その抽出した特徴量をキーにして前記第2の記憶手段を参照することで、前記提供画像に割り付ける発呼先ユーザ端末のアドレス情報を特定して、それを前記提供画像に割り付ける発呼先ユーザ端末のアドレス情報として設定することを、
特徴とするネットワーク電話発呼支援装置。
【請求項6】
請求項1ないし5のいずれか1項に記載のネットワーク電話発呼支援装置を構成する手段としてコンピュータを機能させるためのネットワーク電話発呼支援プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2010−268252(P2010−268252A)
【公開日】平成22年11月25日(2010.11.25)
【国際特許分類】
【出願番号】特願2009−118136(P2009−118136)
【出願日】平成21年5月15日(2009.5.15)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】