テキスト入力支援システム、テキスト挿入方法、サーバおよびプログラム

【課題】テキスト内容に応じて適切な書式を自動設定するとともに、テキスト内容に対して最も適切な配置に画像を自動配置することが可能なテキスト入力支援システムを提供する。
【解決手段】制御部は、テキスト情報の内容を解析して、そのテキスト情報の入力者に関する属性情報や感性情報を推定する（ステップ１０３）。次に、記憶部内のテキスト設定表示情報から、入力者に関する情報に対応するフォントおよび吹き出し形状を抽出する（ステップ１０４）。次に、画像データに対して、抽出されたテキスト表示設定情報によって変換されたテキスト情報の配置位置を決定し、テキスト情報を吹き出しとして決定位置に挿入した画像をユーザ端末に送信する（ステップ１０５、１０６）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像にテキスト情報を簡易に挿入するテキスト入力支援システム等に関するものである。
【背景技術】
【０００２】
従来、デジタルカメラ等で撮影されたデジタル画像などに対し、後からメッセージやせりふなどのテキストを画像に挿入する場合がある。このような場合には、ユーザは、画像に対して挿入するテキストのフォントや配置等をその都度調整して設定する必要がある。
【０００３】
これに対し、画像にテキストを挿入する際に、画像に対するテキストの配置等を自動で行う画像合成装置等が提案されている（例えば特許文献１、特許文献２）。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００７−０９６８１６号公報
【特許文献２】特開２００２−１７６６１９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかし、特許文献１の方法は、メール件名や本文から、特定の固有名詞をキーワードとして抽出し、このキーワードから、画像における重要領域を定め、テキストを非重要領域に配置するものである。したがって、重要領域として、単に顔の領域や他の重要背景のみを選択し、これ以外の位置にテキストを自動挿入するに過ぎないものである。また、この際、テキストの色を挿入領域の反対色にするが、これはテキストの視認性を考慮したに過ぎないものである。
【０００６】
したがって、ユーザは、嗜好に合わせてテキストの書式（例えばフォントや字体など）について別途設定する必要がある。また、画像中に複数の顔領域が重要領域として認定されても、あくまでも非重要領域にテキストを配置するに過ぎない。このため、例えば、特定の人のセリフのように吹き出しでテキストを挿入するなど、特定の人がしゃべっているようにテキストを自動配置したりすることはできなかった。
【０００７】
また、特許文献２は、画像中の顔情報を抽出するが、これは、単にこの顔情報と近似したキャラクターを決定して表示するためにすぎない。したがって、特許文献１と同様に、ユーザは、嗜好に合わせてテキストの書式について別途設定する必要があり、また、複数の顔情報を取得したとしても、例えば、テキスト内容に応じて特定の人がしゃべっているようにテキストを自動配置したりすることはできなかった。
【０００８】
本発明は、前述した問題点に鑑みてなされたもので、テキスト内容に応じて適切な書式等を自動設定するとともに、可読性のみを考慮するのではなく、テキスト内容を考慮して、画像に対して最も適切な配置にテキストを自動配置することが可能なテキスト入力支援システム等を提供することを目的とする。
【課題を解決するための手段】
【０００９】
前述した目的を達成するために、第１の発明は、テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、画像データを解析して、前記画像データ中の人間の顔情報を抽出する第１の抽出手段と、テキスト情報から人に関する情報を推定する第１の推定手段と、前記第１の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第２の抽出手段と、前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、を具備することを特徴とするサーバである。
【００１０】
前記人に関する情報は、人の属性情報または感性情報を有してもよい。前記画像データ中に複数の前記顔情報が抽出された場合、前記第１の抽出手段により抽出された前記画像データ中の全ての前記顔情報から、それぞれの人に関する情報を推定する第２の推定手段をさらに具備し、前記決定手段は、第２の推定手段で推定されたそれぞれの前記人に関する情報と、前記第１の推定手段で推定された前記人に関する情報とを用いて、前記第１の推定手段で推定された前記人に関する情報に最も近い情報を有する人を吹き出し者とし、前記吹き出し形状情報における吹き出し口の向きを前記吹き出し者の口の方向に向けて配置することが望ましい。
【００１１】
前記決定手段は、前記第１の推定手段で推定された前記人に関する情報に最も近い情報を有する人が、前記画像データ中に複数存在する場合において、対象となるそれぞれの前記顔情報の画像データ中におけるサイズまたは配置の少なくともいずれかを考慮して、前記吹き出し者を決定することが望ましい。
【００１２】
前記決定手段は、前記画像データ中の人の全ての顔が隠れない位置に前記テキスト情報が挿入可能であるか判定し、可能な場合には、全ての顔以外の部位に前記テキスト情報を挿入し、不可能な場合には、少なくとも前記吹き出し者の顔が隠れない位置に前記テキスト情報を挿入してもよい。
【００１３】
第１の発明によれば、テキスト情報からテキストにより人に関する情報を推定し、これに基づいてテキスト設定情報を抽出するため、テキストの入力者の嗜好に適した書式等によって、テキスト情報を画像に挿入することができる。このため、ユーザが、その都度テキストの書式を設定する必要がない。
【００１４】
また、人に関する情報として、属性情報または感性情報の少なくともいずれかを有すれば、より、テキスト内容に適したテキスト設定を行うことができる。ここで、属性情報とは、テキスト入力者の性別や年齢層などの情報であり、感性情報とは、テキスト入力時の気分（ポジティブな気分や、ネガティブな気分など）を指すものである。
【００１５】
また、画像中に複数の顔情報が抽出された場合において、それぞれの顔情報から、それぞれの顔に対応する人に関する情報（当該人の属性情報や感性情報）を推定し、テキスト入力者に最も近い属性・感性を有する人を吹き出し者（すなわち、当該テキスト情報の発言者）とすることで、よりテキスト内容に適した配置で、テキスト情報を挿入することができる。したがって、単にテキストの見やすさだけでなく、テキスト内容に応じて、画像中の最適な配置を設定することができる。
【００１６】
また、前述の方法でテキスト入力者の情報に近いと推定される人が、画像中に複数いて、吹き出し者の候補者が複数いる場合には、画像中の人の配置や大きさを考慮してテキスト配置を設定することで、画像中の最適な位置にテキストを配置することができる。なお、画像中の人の配置や大きさを考慮するとは、例えば、画像中のより中央の人を選択してもよく、顔領域の大きな人（すなわち、画像中のアップの人であり、他の人よりも前にいる人）を選択してもよい。このようにすることで、テキスト情報をより自然な位置に配置することができる。
【００１７】
また、テキスト情報は、可能な限り、画像中の人の顔領域以外の部位に配置することで、テキスト情報で顔が隠れることがない。また、テキスト情報を吹き出し形状内部に配置する場合において、その吹き出し口を、吹き出し者の口方向に向けることで、より自然に画像中の人のセリフとしてテキスト情報を挿入することができる。
【００１８】
第２の発明は、サーバと端末とがネットワークを介して接続され、画像に対してテキスト情報を挿入するテキスト入力支援システムであって、前記端末は、テキスト情報および画像データを前記サーバに送信する手段を有し、前記サーバは、テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、前記端末から送られた画像データを解析して、前記画像データ中の人間の顔情報を抽出する第１の抽出手段と、前記端末から送られた前記テキスト情報から、人に関する情報を推定する第１の推定手段と、前記第１の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第２の抽出手段と、前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、前記テキスト情報が挿入された前記画像データを前記端末に送信する手段と、を有し、前記端末は、前記テキスト情報が挿入された前記画像データを表示する表示手段を有することを特徴とするテキスト入力支援システムである。
【００１９】
第２の発明によれば、画像データおよびテキスト情報をユーザ端末からサーバに送信するのみで、画像およびテキスト内容に応じた最適なテキスト設定および配置によって、テキスト情報を画像中に自動配置することができる。
【００２０】
第３の発明は、画像に対してテキスト情報を挿入するテキスト合成方法であって、
画像データを解析して、前記画像データ中の人間の顔情報を抽出する工程と、テキスト情報から人に関する情報を推定する工程と、テキスト情報から推定される前記人に関する情報を用いて、人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部から、対応するテキスト表示設定情報を抽出する工程と、前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する工程と、前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する工程と、を具備することを特徴とするテキスト合成方法である。
【００２１】
第３の発明によれば、テキスト情報により人に関する情報を推定し、これに基づいてテキスト設定情報を抽出するため、テキストの入力者の嗜好に適したテキスト設定で、画像中の最適な配置にテキスト情報を画像に自動挿入することができる。
【００２２】
第４の発明は、第１の発明を機能させることが可能なプログラムである。
【００２３】
第４の発明によれば、汎用的なコンピュータにインストールすることで、第１の発明のサーバを実現することができる。
【発明の効果】
【００２４】
本発明は、テキスト内容に応じて適切な書式等を自動設定するとともに、可読性のみを考慮するのではなく、テキスト内容を考慮して、画像に対して最も適切な配置にテキストを自動配置することが可能なテキスト入力支援システム等を提供することができる。
【図面の簡単な説明】
【００２５】
【図１】テキスト入力支援システム１の概要を示すブロック図。
【図２】サーバ３のハードウエア構成図。
【図３】テキスト表示設定情報３０ａ、３０ｂを示す図。
【図４】端末５のハードウエア構成図。
【図５】テキスト入力支援システム１におけるテキスト挿入処理を示すフローチャート。
【図６】ステップ１０５の処理を詳細に示すフローチャート。
【図７】テキスト入力画面３１を示す図。
【図８】画像データ４０および、顔情報抽出画面を示す図。
【図９】人に関する情報５０示す図。
【図１０】テキスト情報解析データ６０を示す図。
【図１１】テキスト挿入画像７０を示す図。
【発明を実施するための形態】
【００２６】
以下、添付図面に基づいて、本発明に係るテキスト入力支援システム等の好適な実施形態について詳細に説明する。尚、以下の説明及び添付図面において、略同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略することにする。
【００２７】
図１は、テキスト入力支援システム１の概要を示すブロック図である。テキスト入力支援システム１は、サーバ３、端末５がネットワーク４を介して接続される。
【００２８】
サーバ３は、本実施形態にかかるテキスト入力支援プログラムを格納し、このプログラムを実行することで、各種処理を行う。端末５は、例えばパーソナルコンピュータ等であり、インターネット等のネットワーク４を介して、サーバ３にアクセス可能である。
【００２９】
図２は、サーバ３のハードウエア構成例を示す図である。サーバ３は、制御部７、記憶部９、メディア入出力部１１、通信制御部１３、入力部１５、表示部１７、周辺機器Ｉ／Ｆ部１９等がバス２１を介して接続される。
【００３０】
制御部７は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で構成される。
ＣＰＵは、ＲＯＭ、記憶部９等に格納されるプログラムをＲＡＭ上のワークメモリ領域に呼び出して実行し、バス２１を介して接続された各装置を駆動制御し、コンピュータが行う処理を実現する。
ＲＯＭは、不揮発性メモリであり、コンピュータのブートプログラムやＢＩＯＳ等のプログラム、データ等を恒久的に保持している。
ＲＡＭは、揮発性メモリであり、記憶部９、ＲＯＭ、記憶媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部７が各種処理を行うために使用するワークエリアを備える。
【００３１】
記憶部９は、ＨＤＤ（ハードディスクドライブ）であり、制御部７が実行するプログラム、プログラム実行に必要なデータ、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等が格納される。プログラムに関しては、ＯＳに相当する制御プログラムや、アプリケーションプログラム、ファイル等が格納されている。
これらの各プログラムコードは、制御部７により必要に応じて読み出されてＲＡＭに移され、ＣＰＵにより各種の手段として実行される。
【００３２】
メディア入出力部１１は、記録媒体のデータの入出力を行うドライブ装置であり、例えば、フロッピー（登録商標）ディスクドライブ、ＣＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）、ＤＶＤドライブ（−ＲＯＭ、−Ｒ、−ＲＷ等）、ＭＯドライブ等のメディア入出力装置を有する。
通信制御部１３は、通信制御装置、通信ポート等を有し、ネットワーク４を介した通信を媒介する通信インタフェースであり、他のコンピュータ間との通信制御を行う。
【００３３】
入力部１５は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。入力部１５を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。
表示部１７は、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）モニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してビデオ機能を実現するための論理回路等（ビデオアダプタ等）を有する。
周辺機器Ｉ／Ｆ部１９は、周辺機器を接続するためのＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート等である。
バス２１は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
【００３４】
図３は、記憶部９に記憶されたテキスト表示設定情報３０ａ、３０ｂの一例を示す図である。テキスト表示設定情報３０ａ、３０ｂは、人に関する情報であるテキスト入力者の属性情報３２、感性情報３４ごとに、テキストの設定（フォント等の書式であるフォント情報３６や、吹き出し形状情報３８など）が対応づけられたものである。
【００３５】
属性情報３２としては、テキスト入力者の性別（Ｍａｌｅ、Ｆｅｍａｌｅ）、年齢層（１０代、２０代、３０代、・・・）などの情報であり、テキスト入力者の感性情報３４としては、気分（ｐｏｓｉｔｉｖｅ、ｎｅｇａｔｉｖｅ）などの情報である。テキスト表示設定情報３０ａは、これらのそれぞれの組み合わせ毎に、その属性情報３２および感性情報３４に適したフォント情報３６が対応づけられる。
【００３６】
同様に、テキスト表示設定情報３０ｂは、属性情報３２および感性情報３４の組み合わせ毎に、その属性情報３２および感性情報３４に適した吹き出し形状情報３８が対応づけられる。吹き出し形状とは、テキスト情報を人のセリフに見立て、テキスト情報を囲む図形の形状である。以上のように、それぞれの属性情報３２および感性情報３４の組み合わせ毎に、テキストのフォント情報３６とテキストを囲む吹き出し形状情報３８が設定される。
【００３７】
例えば、テキスト入力者が１０代の男性で気分が「ｐｏｓｉｔｉｖｅ」と判定されると、フォント情報３６として「ＨＧ創英角ゴシックＵＢ」が選択され、「Ａ．ｊｐｇ」ファイルの吹き出し形状情報３８が選択される。なお、あらかじめ設定された属性情報３２および感性情報３４の組み合わせに該当しないものに対しては、標準設定である「ｄｅｆａｕｌｔ」としてフォントおよび吹き出し形状が対応づけられる。
【００３８】
図４は、端末５のハードウエア構成例を示す図である。端末５は、制御部８、記憶部１０、メディア入出力部１２、通信制御部１４、入力部１６、表示部１８、周辺機器Ｉ／Ｆ部２０等がバス２２を介して接続される。なお、端末５の制御部８、記憶部１０、メディア入出力部１２、通信制御部１４、入力部１６、表示部１８、周辺機器Ｉ／Ｆ部２０、バス２２は、サーバ３の制御部７、記憶部９、メディア入出力部１１、通信制御部１３、入力部１５、表示部１７、周辺機器Ｉ／Ｆ部１９、バス２１とそれぞれ同様の構成であるため、重複する説明を省略する。
【００３９】
次に、テキスト入力支援システムにおけるテキスト挿入処理について説明する。図５は、テキスト挿入処理を示すフローチャートである。
【００４０】
まず、端末５の制御部８は、画像データをサーバ３に送信する（ステップ１００）。サーバ３の制御部７は、画像データを端末５から取得するとともに、端末５からの要求により、テキスト入力画面を端末５の表示部１８に表示させる。図７は、ユーザ端末の表示部１８に表示されたテキスト入力画面３１を示す例である。
【００４１】
テキスト入力画面３１は、画像に挿入するテキスト情報をユーザが打ち込み、反映ボタン３５を押すことで、サーバ３にテキスト情報が送信される。なお、テキスト入力画面３１には、必要に応じて、自動で行われたテキスト設定の修正のためのテキスト設定部３７が設けられてもよい。
【００４２】
端末５からの画像データおよびテキスト情報を取得したサーバ３は、制御部７により、取得した画像データを解析して、画像データ中の顔情報を抽出する（ステップ１０１）。
【００４３】
図８（ａ）は、取得した画像データ４０の一例を示す図、図８（ｂ）は、解析時の画像データ４０を示す概念図である。制御部７は、画像データ４０内の全ての顔について、顔情報を抽出する。例えば、人の目、鼻、口等の位置を取得するとともに、顔と認定した部位の顔領域を推定する。図８（ｂ）に示す例では、ＩＤ＝０、１、２の３つの顔情報が抽出され、それぞれの顔の顔領域４７ａ、４７ｂ、４７ｃが抽出される。
【００４４】
次に、制御部７は、顔情報を解析し、それぞれの顔情報毎に、その人に関する情報を推定する（ステップ１０２）。
【００４５】
図９は、顔情報から推定された人に関する情報５０を示す図である。人に関する情報５０は、例えば、その人の性別、年代層などの画像データ中の人の属性情報およびその人の笑顔の度合いを示す感性情報等から構成される。例えば、ＩＤ＝２の顔情報（図８（ａ）の画像データ中の右側の顔）に対しては、その人に関する情報として、性別が女性、推定年代は２０代であり、笑顔であることが推定された例を示す。
【００４６】
なお、画像データ４０から、顔情報を抽出し、その顔の属性や感性（笑顔判定）の推定を行う方法としては、例えば、特開２００９−２９４９２５号公報、特開２００５−１６５４４７号公報、特開２００７−３３６１２４などの公知の手法を用いればよく、例えば以下のようにすればよい。
【００４７】
まず、顔画像から顔領域検出部にて顔領域を検出し、さらに顔特徴抽出部にて顔の特徴情報を抽出する。また、あらかじめ男女別の幅広い年齢層の個人顔特徴情報を作成しておき、年齢と性別の情報と合わせて顔特徴保持部に保持し、顔特徴抽出部で抽出された顔特徴情報と顔特徴保持部内の個人顔特徴情報とを照合して類似度を求める。得られた類似度とそれに付属した年齢および性別の情報から当該人物の年齢と性別を判別する。
【００４８】
また、笑顔認識は、口の曲がり具合、口角の上がり具合、目の大きさ、しわのより具合などにもとづいて定量化することができる。定量化された値にもとづいてあらかじめ設定されたしきい値との比較により、被写体像がどの程度笑っているかを判定することができる。
【００４９】
次に、制御部７は、取得したテキスト情報を解析して、テキスト入力者に関する情報を推定する（ステップ１０３）。
【００５０】
図１０は、テキスト情報から推定される人に関する情報（以下、テキスト入力者に関する情報）を示す図である。制御部７は、テキスト情報の内容を解析して、そのテキスト情報の入力者に関する属性情報６１や感性情報６３を推定する。例えば、図１０に示す例では、得られたテキスト情報から、テキストの入力者は性別が女性であり、年齢が２０歳代であり、気分が「ｐｏｓｉｔｉｖｅ」であると推定された例である。
【００５１】
なお、テキスト情報から、その入力者に関する情報を推定する手段としては、例えば、非特許文献１（「ｂｌｏｇ著者の性別推定」池田、南野、奥村、言語処理学会第１２回年次大会（２００６年））や、非特許文献２（「スケーラブルで汎用的なブログ著者属性推定手法」大倉、清水、中川情報処理学会研究報告２００７−ＮＬ−１８１（２００７年））、特開２０１０ー２２４８１３号公報等に記載の公知の手法を用いればよい。
【００５２】
例えば、事前に属性情報が既知の文書（例えばブログ等）について解析し、その中で使用される単語（一人称代名詞（「俺」、「僕」、「あたし」等）や形態素（「めし」、「かわいい」等））に対して、ラベル付けを行い、これと比較して属性が推定される。また、テキストデータから、それぞれの表現が依存関係にある感性表現、対象表現、及び意図表現を抽出し、事前に設定された情報を参照して、抽出された感性表現、対象表現、意図表現がそれぞれ属する感性表現クラス、対象表現クラス、意図表現クラスを決定し、決定された感性表現クラス、対象表現クラス、及び意図表現クラスの組に対応付けられた感情ベクトルを用いて、テキストデータの書き手の感情が推定される。
【００５３】
次に、制御部７は、記憶部９内のテキスト表示設定情報３０ａ、３０ｂ（図３）から、入力者に関する情報に対応するフォントおよび吹き出し形状を抽出する（ステップ１０４）。例えば、図１０に示すテキスト入力者に関する情報６０が推定された場合には、テキスト表示設定情報３０ａ、３０ｂから、２０代の女性でｐｏｓｉｔｉｖｅの設定（ＨＧＰ創英角ポップ体、「Ｋ.ｊｐｇ」ファイル）が抽出される。なお、テキスト入力者の属性や感性が推定できなかった場合には、標準設定である「ｄｅｆａｕｌｔ」の設定が選択される。
【００５４】
次に、制御部７は、画像データに対して、抽出されたテキスト表示設定情報によって変換されたテキスト情報の配置を決定する（ステップ１０５）。なお、テキスト情報の配置は、単に、顔情報より得られる顔領域４７ａ、４７ｂ、４７ｃ（図８（ｂ））以外の部位としてもよいが、より望ましくは、以下のように設定される。
【００５５】
図６は、ステップ１０５の詳細を示すフローチャートである。まず、制御部７は、画像データ上のそれぞれの顔情報から推定されたそれぞれの人に関する情報と、テキスト情報から推定された入力者に関する情報とを比較する（ステップ２０１）。すなわち、テキスト入力者に関する情報に対応する情報を有する人が、画像データ中に存在するかどうかを判断する。ここで、テキスト入力者に関する情報に対応する情報を有する人とは、同一の属性情報および感性情報を有する人であってもよく、または、全く同一である人がいなくても、例えば、年代のみが異なるが±１０代の人など、各情報に優先順位を付けて、最も近い情報を有する人であってもよい。
【００５６】
なお、画像中の人の感性情報とテキスト入力者の感性情報とが対応するとは、例えば、テキスト入力者の感性情報が「ｐｏｓｉｔｉｖｅ」は、画像中の人の感性情報における笑顔情報「ｓｍｉｌｌｉｎｇ」が例えばｔｒｕｅ４０％以上と定義され、その他が「ｎｅｇａｔｉｖｅ」であると定義されればよい。すなわち、笑顔判定のｔｒｕｅ値によって、テキスト入力者の感性情報との同一または近似を判定すればよい。
【００５７】
次に、制御部７は、テキスト入力者に関する情報に対応する人が一人の場合には、当該人をテキストの吹き出し者とする（ステップ２０２、２０３）。また、テキスト入力者に関する情報に対応する候補者が複数いる場合には、それらの人の中で、画像中で最も顔領域の大きな人を吹き出し者とする（ステップ２０４）。顔領域が最も大きい人を選択することで、画像データ中で最も手前に位置している人を選択することができる。
【００５８】
なお、候補者が複数いる場合における吹き出し者の選択方法は、前述した方法に限られず、例えば、画像データ中で、最も中心に近い人を吹き出し者としてもよい。すなわち、画像データ中の配置や顔領域の大きさを考慮して、吹き出し者を選択すればよい。
【００５９】
例えば、図１０の例では、テキスト入力者が、２０代の女性であり、感性が「ｐｏｓｉｔｉｖｅ」であると推定されている。これに対し、図９を見ると、ＩＤ＝２の人が、同一の情報を有している。したがって、この場合には、吹き出し者として、テキスト入力者の属性、感性に最も近いＩＤ＝２（画像データ４０中の右側の人）が選択される。
【００６０】
次に、制御部７は、選択された吹き出しおよびフォントで変換されたテキスト情報が、認識された顔領域以外の位置に配置可能であるか判定する（ステップ２０５）。可能であると判定されれば、全ての顔領域以外であって、吹き出し者近傍にテキスト情報を配置する（ステップ２０６）。
【００６１】
全ての顔領域以外にテキスト情報を配置できない場合には、吹き出し者として選択された人の顔領域以外の位置に、テキスト情報を配置可能であるか判定する（ステップ２０７）。可能であると判定されれば、吹き出し者の顔領域以外であって、吹き出し者近傍にテキスト情報を配置する（ステップ２０８）。
【００６２】
吹き出し者の顔領域以外にテキスト情報を配置できない場合には、吹き出し者の目、鼻、口以外の位置に、テキスト情報を配置可能であるか判定する（ステップ２０９）。可能であると判定されれば、吹き出し者の目、鼻、口以外であって、吹き出し者近傍にテキスト情報を配置する（ステップ２１０）。
【００６３】
吹き出し者の目、鼻、口以外にテキスト情報を配置できない場合には、少なくとも、吹き出し者の目、口以外の位置に、テキスト情報を配置可能であるか判定する（ステップ２１１）。可能であると判定されれば、吹き出し者の目、口以外であって、吹き出し者近傍にテキスト情報を配置する（ステップ２１２）。
【００６４】
吹き出し者の目、口以外にテキスト情報を配置できない場合には、少なくとも、吹き出し者の目、鼻以外の位置に、テキスト情報を配置可能であるか判定する（ステップ２１３）。可能であると判定されれば、吹き出し者の目、鼻以外であって、吹き出し者近傍にテキスト情報を配置する（ステップ２１４）。
【００６５】
吹き出し者の目、鼻以外にテキスト情報を配置できない場合には、少なくとも、吹き出し者の目以外の位置に、テキスト情報を配置可能であるか判定する（ステップ２１５）。可能であると判定されれば、吹き出し者の目以外であって、吹き出し者近傍にテキスト情報を配置する（ステップ２１６）。
【００６６】
吹き出し者の目以外にテキスト情報を配置できない場合には、テキスト情報のフォントサイズおよび吹き出し形状のサイズを小さくして、ステップ２０５に戻る（ステップ２１７）。なお、フォントサイズには下限が設定されるため、フォントサイズ等が下限以下となる場合には、当該フォントサイズ等で、あらかじめ設定された標準位置（例えば画像データの右下など）にテキスト情報を仮配置すればよい。
【００６７】
テキスト情報の配置が決定されると、吹き出し形状の吹き出しを、吹き出し者の口の方向に向けて、テキスト情報を画像データ上に配置する（ステップ２１８）。以上により、画像データ上へのテキスト情報の配置が完了する。
【００６８】
なお、テキスト入力者または顔情報から得られる人について、属性情報や感性情報が判定できなかった場合や、テキスト入力者に対応する人が画像中に存在しないと判断された場合にも、あらかじめ設定された画像データ中の標準位置にテキスト情報を配置すればよい。
【００６９】
次に、図５に示すように、制御部７は、テキスト情報が挿入された画像をユーザ端末に送信する（ステップ１０６）。端末５では、表示部１８に画像が表示される（ステップ１０７）。以上により、画像データ上にテキスト情報が挿入された画像が、ユーザに送信される。
【００７０】
図１１は、テキスト挿入画像７０の一例を示す図である。テキスト挿入画像７０には、吹き出し７３が挿入され、吹き出し７３の内部には、テキスト情報が、テキスト表示設定情報から選択されたフォントによって変換されて表示される。前述の通り、画像データ中の右側の人が吹き出し者として選択され、吹き出し７３が、全ての顔領域以外の位置であって、かつ、吹き出し者の近傍に配置される。さらに、吹き出し部７５が吹き出し者の口の方向に向くように設定される。なお、さらにユーザは、端末５を介して、自動で設定されたテキスト表示設定を手動で修正することもできる。例えば、テキスト設定部３７（図３）によって、自動で設定されたフォント、吹き出し、または配置などを適宜修正して、修正内容をサーバ３に送信し、画像の修正を行ってもよい。
【００７１】
以上、本発明によれば、ユーザは、対象画像データとテキスト情報をサーバに送信することで、手間のかかるフォント設定や配置設定を行うことなく、テキスト情報を変換して画像に挿入することができる。したがって、ユーザの負担を削減することができる。
【００７２】
特に、テキスト情報から、属性情報や感性情報を推定するため、単に可読性のみを考慮した従来方法と比較して、より、テキスト入力者の嗜好に合ったテキスト表示設定を自動で設定することができる。また、さらに、画像データ中の顔情報から、その人に関する情報を推定し、テキスト入力者に関する情報と比較することで吹き出し者を選択し、吹き出しが吹き出し者の口方向に向くようにテキスト情報を画像データに挿入することができる。このため、テキスト情報の内容に応じた、より自然なテキスト配置を自動で設定することができる。
【００７３】
以上、添付図を参照しながら、本発明の実施の形態を説明したが、本発明の技術的範囲は、前述した実施の形態に左右されない。当業者であれば、特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【００７４】
例えば、テキスト入力支援システムについて説明したが、サーバ３の機能を有するテキスト挿入装置としてもよい。この場合、メディアや当該装置に付属する撮像装置によって画像データを当該装置に入力するとともに、テキスト情報を装置に入力することで、当該装置の表示部に、テキスト情報が自動で挿入された画像を表示させることができる。挿入された画像は、当該装置によってメディアに保存してもよく、または、印刷してもよい。
【００７５】
また、テキスト表示設定情報が設定されている例を示したが、学習機能を持たせてもよい。例えば、テキスト表示設定の自動設定が完了した後、ユーザからの修正要求を学習して、テキスト入力者に関する情報に対応づけられる書体や吹き出し形状などを都度更新してもよい。
【００７６】
また、テキスト表示設定情報としては、フォントや吹き出し形状のみではなく、フォントサイズ、字体、色、絵文字、模様など他の表示設定を対応させてもよい。
【符号の説明】
【００７７】
１………テキスト入力支援システム
３………サーバ
４………ネットワーク
５………端末
３０ａ、３０ｂ………テキスト表示設定情報
３１………テキスト入力画面
３２………属性情報
３３………テキスト情報入力部
３４………感性情報
３５………反映ボタン
３６………フォント情報
３７………テキスト設定部
３８………吹き出し形状情報
４０………画像データ
４７ａ、４７ｂ、４７ｃ………顔領域
５０………人に関する情報
６０………テキスト入力者に関する情報
６１………属性情報
６３………感性情報
７０………テキスト挿入画像
７１………テキスト
７３………吹き出し
７５………吹き出し部

【特許請求の範囲】
【請求項１】
テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、
画像データを解析して、前記画像データ中の人間の顔情報を抽出する第１の抽出手段と、
テキスト情報から人に関する情報を推定する第１の推定手段と、
前記第１の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第２の抽出手段と、
前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、
前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、
を具備することを特徴とするサーバ。
【請求項２】
前記人に関する情報は、人の属性情報または感性情報を有することを特徴とする請求項１記載のサーバ
【請求項３】
前記画像データ中に複数の前記顔情報が抽出された場合、
前記第１の抽出手段により抽出された前記画像データ中の全ての前記顔情報から、それぞれの人に関する情報を推定する第２の推定手段をさらに具備し、
前記決定手段は、第２の推定手段で推定されたそれぞれの前記人に関する情報と、前記第１の推定手段で推定された前記人に関する情報とを用いて、前記第１の推定手段で推定された前記人に関する情報に最も近い情報を有する人を吹き出し者とし、前記吹き出し形状情報における吹き出し口の向きを前記吹き出し者の口の方向に向けて配置することを特徴とする請求項１または請求項２に記載のサーバ。
【請求項４】
前記決定手段は、前記第１の推定手段で推定された前記人に関する情報に最も近い情報を有する人が、前記画像データ中に複数存在する場合において、対象となるそれぞれの前記顔情報の画像データ中におけるサイズまたは配置の少なくともいずれかを考慮して、前記吹き出し者を決定することを特徴とする請求項３記載のサーバ。
【請求項５】
前記決定手段は、前記画像データ中の人の全ての顔が隠れない位置に前記テキスト情報が挿入可能であるか判定し、可能な場合には、全ての顔以外の部位に前記テキスト情報を挿入し、不可能な場合には、少なくとも前記吹き出し者の顔が隠れない位置に前記テキスト情報を挿入することを特徴とする請求項３または請求項４のいずれかに記載のサーバ。
【請求項６】
サーバと端末とがネットワークを介して接続され、画像に対してテキスト情報を挿入するテキスト入力支援システムであって、
前記端末は、テキスト情報および画像データを前記サーバに送信する手段を有し、
前記サーバは、
テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、
前記端末から送られた画像データを解析して、前記画像データ中の人間の顔情報を抽出する第１の抽出手段と、
前記端末から送られた前記テキスト情報から、人に関する情報を推定する第１の推定手段と、
前記第１の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第２の抽出手段と、
前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、
前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、
前記テキスト情報が挿入された前記画像データを前記端末に送信する手段と、
を有し、
前記端末は、前記テキスト情報が挿入された前記画像データを表示する表示手段を有することを特徴とするテキスト入力支援システム。
【請求項７】
画像に対してテキスト情報を挿入するテキスト合成方法であって、
画像データを解析して、前記画像データ中の人間の顔情報を抽出する工程と、
テキスト情報から人に関する情報を推定する工程と、
テキスト情報から推定される前記人に関する情報を用いて、人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部から、対応するテキスト表示設定情報を抽出する工程と、
前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する工程と、
前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する工程と、
を具備することを特徴とするテキスト合成方法。
【請求項８】
コンピュータを請求項１に記載のサーバとして機能させるためのプログラム。

【図１】