テキスト入力支援システム、テキスト挿入方法、サーバおよびプログラム
【課題】テキスト内容に応じて適切な書式を自動設定するとともに、テキスト内容に対して最も適切な配置に画像を自動配置することが可能なテキスト入力支援システムを提供する。
【解決手段】制御部は、テキスト情報の内容を解析して、そのテキスト情報の入力者に関する属性情報や感性情報を推定する(ステップ103)。次に、記憶部内のテキスト設定表示情報から、入力者に関する情報に対応するフォントおよび吹き出し形状を抽出する(ステップ104)。次に、画像データに対して、抽出されたテキスト表示設定情報によって変換されたテキスト情報の配置位置を決定し、テキスト情報を吹き出しとして決定位置に挿入した画像をユーザ端末に送信する(ステップ105、106)。
【解決手段】制御部は、テキスト情報の内容を解析して、そのテキスト情報の入力者に関する属性情報や感性情報を推定する(ステップ103)。次に、記憶部内のテキスト設定表示情報から、入力者に関する情報に対応するフォントおよび吹き出し形状を抽出する(ステップ104)。次に、画像データに対して、抽出されたテキスト表示設定情報によって変換されたテキスト情報の配置位置を決定し、テキスト情報を吹き出しとして決定位置に挿入した画像をユーザ端末に送信する(ステップ105、106)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像にテキスト情報を簡易に挿入するテキスト入力支援システム等に関するものである。
【背景技術】
【0002】
従来、デジタルカメラ等で撮影されたデジタル画像などに対し、後からメッセージやせりふなどのテキストを画像に挿入する場合がある。このような場合には、ユーザは、画像に対して挿入するテキストのフォントや配置等をその都度調整して設定する必要がある。
【0003】
これに対し、画像にテキストを挿入する際に、画像に対するテキストの配置等を自動で行う画像合成装置等が提案されている(例えば特許文献1、特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−096816号公報
【特許文献2】特開2002−176619号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1の方法は、メール件名や本文から、特定の固有名詞をキーワードとして抽出し、このキーワードから、画像における重要領域を定め、テキストを非重要領域に配置するものである。したがって、重要領域として、単に顔の領域や他の重要背景のみを選択し、これ以外の位置にテキストを自動挿入するに過ぎないものである。また、この際、テキストの色を挿入領域の反対色にするが、これはテキストの視認性を考慮したに過ぎないものである。
【0006】
したがって、ユーザは、嗜好に合わせてテキストの書式(例えばフォントや字体など)について別途設定する必要がある。また、画像中に複数の顔領域が重要領域として認定されても、あくまでも非重要領域にテキストを配置するに過ぎない。このため、例えば、特定の人のセリフのように吹き出しでテキストを挿入するなど、特定の人がしゃべっているようにテキストを自動配置したりすることはできなかった。
【0007】
また、特許文献2は、画像中の顔情報を抽出するが、これは、単にこの顔情報と近似したキャラクターを決定して表示するためにすぎない。したがって、特許文献1と同様に、ユーザは、嗜好に合わせてテキストの書式について別途設定する必要があり、また、複数の顔情報を取得したとしても、例えば、テキスト内容に応じて特定の人がしゃべっているようにテキストを自動配置したりすることはできなかった。
【0008】
本発明は、前述した問題点に鑑みてなされたもので、テキスト内容に応じて適切な書式等を自動設定するとともに、可読性のみを考慮するのではなく、テキスト内容を考慮して、画像に対して最も適切な配置にテキストを自動配置することが可能なテキスト入力支援システム等を提供することを目的とする。
【課題を解決するための手段】
【0009】
前述した目的を達成するために、第1の発明は、テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、画像データを解析して、前記画像データ中の人間の顔情報を抽出する第1の抽出手段と、テキスト情報から人に関する情報を推定する第1の推定手段と、前記第1の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第2の抽出手段と、前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、を具備することを特徴とするサーバである。
【0010】
前記人に関する情報は、人の属性情報または感性情報を有してもよい。前記画像データ中に複数の前記顔情報が抽出された場合、前記第1の抽出手段により抽出された前記画像データ中の全ての前記顔情報から、それぞれの人に関する情報を推定する第2の推定手段をさらに具備し、前記決定手段は、第2の推定手段で推定されたそれぞれの前記人に関する情報と、前記第1の推定手段で推定された前記人に関する情報とを用いて、前記第1の推定手段で推定された前記人に関する情報に最も近い情報を有する人を吹き出し者とし、前記吹き出し形状情報における吹き出し口の向きを前記吹き出し者の口の方向に向けて配置することが望ましい。
【0011】
前記決定手段は、前記第1の推定手段で推定された前記人に関する情報に最も近い情報を有する人が、前記画像データ中に複数存在する場合において、対象となるそれぞれの前記顔情報の画像データ中におけるサイズまたは配置の少なくともいずれかを考慮して、前記吹き出し者を決定することが望ましい。
【0012】
前記決定手段は、前記画像データ中の人の全ての顔が隠れない位置に前記テキスト情報が挿入可能であるか判定し、可能な場合には、全ての顔以外の部位に前記テキスト情報を挿入し、不可能な場合には、少なくとも前記吹き出し者の顔が隠れない位置に前記テキスト情報を挿入してもよい。
【0013】
第1の発明によれば、テキスト情報からテキストにより人に関する情報を推定し、これに基づいてテキスト設定情報を抽出するため、テキストの入力者の嗜好に適した書式等によって、テキスト情報を画像に挿入することができる。このため、ユーザが、その都度テキストの書式を設定する必要がない。
【0014】
また、人に関する情報として、属性情報または感性情報の少なくともいずれかを有すれば、より、テキスト内容に適したテキスト設定を行うことができる。ここで、属性情報とは、テキスト入力者の性別や年齢層などの情報であり、感性情報とは、テキスト入力時の気分(ポジティブな気分や、ネガティブな気分など)を指すものである。
【0015】
また、画像中に複数の顔情報が抽出された場合において、それぞれの顔情報から、それぞれの顔に対応する人に関する情報(当該人の属性情報や感性情報)を推定し、テキスト入力者に最も近い属性・感性を有する人を吹き出し者(すなわち、当該テキスト情報の発言者)とすることで、よりテキスト内容に適した配置で、テキスト情報を挿入することができる。したがって、単にテキストの見やすさだけでなく、テキスト内容に応じて、画像中の最適な配置を設定することができる。
【0016】
また、前述の方法でテキスト入力者の情報に近いと推定される人が、画像中に複数いて、吹き出し者の候補者が複数いる場合には、画像中の人の配置や大きさを考慮してテキスト配置を設定することで、画像中の最適な位置にテキストを配置することができる。なお、画像中の人の配置や大きさを考慮するとは、例えば、画像中のより中央の人を選択してもよく、顔領域の大きな人(すなわち、画像中のアップの人であり、他の人よりも前にいる人)を選択してもよい。このようにすることで、テキスト情報をより自然な位置に配置することができる。
【0017】
また、テキスト情報は、可能な限り、画像中の人の顔領域以外の部位に配置することで、テキスト情報で顔が隠れることがない。また、テキスト情報を吹き出し形状内部に配置する場合において、その吹き出し口を、吹き出し者の口方向に向けることで、より自然に画像中の人のセリフとしてテキスト情報を挿入することができる。
【0018】
第2の発明は、サーバと端末とがネットワークを介して接続され、画像に対してテキスト情報を挿入するテキスト入力支援システムであって、前記端末は、テキスト情報および画像データを前記サーバに送信する手段を有し、前記サーバは、テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、前記端末から送られた画像データを解析して、前記画像データ中の人間の顔情報を抽出する第1の抽出手段と、前記端末から送られた前記テキスト情報から、人に関する情報を推定する第1の推定手段と、前記第1の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第2の抽出手段と、前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、前記テキスト情報が挿入された前記画像データを前記端末に送信する手段と、を有し、前記端末は、前記テキスト情報が挿入された前記画像データを表示する表示手段を有することを特徴とするテキスト入力支援システムである。
【0019】
第2の発明によれば、画像データおよびテキスト情報をユーザ端末からサーバに送信するのみで、画像およびテキスト内容に応じた最適なテキスト設定および配置によって、テキスト情報を画像中に自動配置することができる。
【0020】
第3の発明は、画像に対してテキスト情報を挿入するテキスト合成方法であって、
画像データを解析して、前記画像データ中の人間の顔情報を抽出する工程と、テキスト情報から人に関する情報を推定する工程と、テキスト情報から推定される前記人に関する情報を用いて、人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部から、対応するテキスト表示設定情報を抽出する工程と、前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する工程と、前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する工程と、を具備することを特徴とするテキスト合成方法である。
【0021】
第3の発明によれば、テキスト情報により人に関する情報を推定し、これに基づいてテキスト設定情報を抽出するため、テキストの入力者の嗜好に適したテキスト設定で、画像中の最適な配置にテキスト情報を画像に自動挿入することができる。
【0022】
第4の発明は、第1の発明を機能させることが可能なプログラムである。
【0023】
第4の発明によれば、汎用的なコンピュータにインストールすることで、第1の発明のサーバを実現することができる。
【発明の効果】
【0024】
本発明は、テキスト内容に応じて適切な書式等を自動設定するとともに、可読性のみを考慮するのではなく、テキスト内容を考慮して、画像に対して最も適切な配置にテキストを自動配置することが可能なテキスト入力支援システム等を提供することができる。
【図面の簡単な説明】
【0025】
【図1】テキスト入力支援システム1の概要を示すブロック図。
【図2】サーバ3のハードウエア構成図。
【図3】テキスト表示設定情報30a、30bを示す図。
【図4】端末5のハードウエア構成図。
【図5】テキスト入力支援システム1におけるテキスト挿入処理を示すフローチャート。
【図6】ステップ105の処理を詳細に示すフローチャート。
【図7】テキスト入力画面31を示す図。
【図8】画像データ40および、顔情報抽出画面を示す図。
【図9】人に関する情報50示す図。
【図10】テキスト情報解析データ60を示す図。
【図11】テキスト挿入画像70を示す図。
【発明を実施するための形態】
【0026】
以下、添付図面に基づいて、本発明に係るテキスト入力支援システム等の好適な実施形態について詳細に説明する。尚、以下の説明及び添付図面において、略同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略することにする。
【0027】
図1は、テキスト入力支援システム1の概要を示すブロック図である。テキスト入力支援システム1は、サーバ3、端末5がネットワーク4を介して接続される。
【0028】
サーバ3は、本実施形態にかかるテキスト入力支援プログラムを格納し、このプログラムを実行することで、各種処理を行う。端末5は、例えばパーソナルコンピュータ等であり、インターネット等のネットワーク4を介して、サーバ3にアクセス可能である。
【0029】
図2は、サーバ3のハードウエア構成例を示す図である。サーバ3は、制御部7、記憶部9、メディア入出力部11、通信制御部13、入力部15、表示部17、周辺機器I/F部19等がバス21を介して接続される。
【0030】
制御部7は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、ROM、記憶部9等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス21を介して接続された各装置を駆動制御し、コンピュータが行う処理を実現する。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部9、ROM、記憶媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部7が各種処理を行うために使用するワークエリアを備える。
【0031】
記憶部9は、HDD(ハードディスクドライブ)であり、制御部7が実行するプログラム、プログラム実行に必要なデータ、OS(Operating System)等が格納される。プログラムに関しては、OSに相当する制御プログラムや、アプリケーションプログラム、ファイル等が格納されている。
これらの各プログラムコードは、制御部7により必要に応じて読み出されてRAMに移され、CPUにより各種の手段として実行される。
【0032】
メディア入出力部11は、記録媒体のデータの入出力を行うドライブ装置であり、例えば、フロッピー(登録商標)ディスクドライブ、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)、MOドライブ等のメディア入出力装置を有する。
通信制御部13は、通信制御装置、通信ポート等を有し、ネットワーク4を介した通信を媒介する通信インタフェースであり、他のコンピュータ間との通信制御を行う。
【0033】
入力部15は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。入力部15を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。
表示部17は、CRT(Cathode Ray Tube)モニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
周辺機器I/F部19は、周辺機器を接続するためのUSB(Universal Serial Bus)ポート等である。
バス21は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
【0034】
図3は、記憶部9に記憶されたテキスト表示設定情報30a、30bの一例を示す図である。テキスト表示設定情報30a、30bは、人に関する情報であるテキスト入力者の属性情報32、感性情報34ごとに、テキストの設定(フォント等の書式であるフォント情報36や、吹き出し形状情報38など)が対応づけられたものである。
【0035】
属性情報32としては、テキスト入力者の性別(Male、Female)、年齢層(10代、20代、30代、・・・)などの情報であり、テキスト入力者の感性情報34としては、気分(positive、negative)などの情報である。テキスト表示設定情報30aは、これらのそれぞれの組み合わせ毎に、その属性情報32および感性情報34に適したフォント情報36が対応づけられる。
【0036】
同様に、テキスト表示設定情報30bは、属性情報32および感性情報34の組み合わせ毎に、その属性情報32および感性情報34に適した吹き出し形状情報38が対応づけられる。吹き出し形状とは、テキスト情報を人のセリフに見立て、テキスト情報を囲む図形の形状である。以上のように、それぞれの属性情報32および感性情報34の組み合わせ毎に、テキストのフォント情報36とテキストを囲む吹き出し形状情報38が設定される。
【0037】
例えば、テキスト入力者が10代の男性で気分が「positive」と判定されると、フォント情報36として「HG創英角ゴシックUB」が選択され、「A.jpg」ファイルの吹き出し形状情報38が選択される。なお、あらかじめ設定された属性情報32および感性情報34の組み合わせに該当しないものに対しては、標準設定である「default」としてフォントおよび吹き出し形状が対応づけられる。
【0038】
図4は、端末5のハードウエア構成例を示す図である。端末5は、制御部8、記憶部10、メディア入出力部12、通信制御部14、入力部16、表示部18、周辺機器I/F部20等がバス22を介して接続される。なお、端末5の制御部8、記憶部10、メディア入出力部12、通信制御部14、入力部16、表示部18、周辺機器I/F部20、バス22は、サーバ3の制御部7、記憶部9、メディア入出力部11、通信制御部13、入力部15、表示部17、周辺機器I/F部19、バス21とそれぞれ同様の構成であるため、重複する説明を省略する。
【0039】
次に、テキスト入力支援システムにおけるテキスト挿入処理について説明する。図5は、テキスト挿入処理を示すフローチャートである。
【0040】
まず、端末5の制御部8は、画像データをサーバ3に送信する(ステップ100)。サーバ3の制御部7は、画像データを端末5から取得するとともに、端末5からの要求により、テキスト入力画面を端末5の表示部18に表示させる。図7は、ユーザ端末の表示部18に表示されたテキスト入力画面31を示す例である。
【0041】
テキスト入力画面31は、画像に挿入するテキスト情報をユーザが打ち込み、反映ボタン35を押すことで、サーバ3にテキスト情報が送信される。なお、テキスト入力画面31には、必要に応じて、自動で行われたテキスト設定の修正のためのテキスト設定部37が設けられてもよい。
【0042】
端末5からの画像データおよびテキスト情報を取得したサーバ3は、制御部7により、取得した画像データを解析して、画像データ中の顔情報を抽出する(ステップ101)。
【0043】
図8(a)は、取得した画像データ40の一例を示す図、図8(b)は、解析時の画像データ40を示す概念図である。制御部7は、画像データ40内の全ての顔について、顔情報を抽出する。例えば、人の目、鼻、口等の位置を取得するとともに、顔と認定した部位の顔領域を推定する。図8(b)に示す例では、ID=0、1、2の3つの顔情報が抽出され、それぞれの顔の顔領域47a、47b、47cが抽出される。
【0044】
次に、制御部7は、顔情報を解析し、それぞれの顔情報毎に、その人に関する情報を推定する(ステップ102)。
【0045】
図9は、顔情報から推定された人に関する情報50を示す図である。人に関する情報50は、例えば、その人の性別、年代層などの画像データ中の人の属性情報およびその人の笑顔の度合いを示す感性情報等から構成される。例えば、ID=2の顔情報(図8(a)の画像データ中の右側の顔)に対しては、その人に関する情報として、性別が女性、推定年代は20代であり、笑顔であることが推定された例を示す。
【0046】
なお、画像データ40から、顔情報を抽出し、その顔の属性や感性(笑顔判定)の推定を行う方法としては、例えば、特開2009−294925号公報、特開2005−165447号公報、特開2007−336124などの公知の手法を用いればよく、例えば以下のようにすればよい。
【0047】
まず、顔画像から顔領域検出部にて顔領域を検出し、さらに顔特徴抽出部にて顔の特徴情報を抽出する。また、あらかじめ男女別の幅広い年齢層の個人顔特徴情報を作成しておき、年齢と性別の情報と合わせて顔特徴保持部に保持し、顔特徴抽出部で抽出された顔特徴情報と顔特徴保持部内の個人顔特徴情報とを照合して類似度を求める。得られた類似度とそれに付属した年齢および性別の情報から当該人物の年齢と性別を判別する。
【0048】
また、笑顔認識は、口の曲がり具合、口角の上がり具合、目の大きさ、しわのより具合などにもとづいて定量化することができる。定量化された値にもとづいてあらかじめ設定されたしきい値との比較により、被写体像がどの程度笑っているかを判定することができる。
【0049】
次に、制御部7は、取得したテキスト情報を解析して、テキスト入力者に関する情報を推定する(ステップ103)。
【0050】
図10は、テキスト情報から推定される人に関する情報(以下、テキスト入力者に関する情報)を示す図である。制御部7は、テキスト情報の内容を解析して、そのテキスト情報の入力者に関する属性情報61や感性情報63を推定する。例えば、図10に示す例では、得られたテキスト情報から、テキストの入力者は性別が女性であり、年齢が20歳代であり、気分が「positive」であると推定された例である。
【0051】
なお、テキスト情報から、その入力者に関する情報を推定する手段としては、例えば、非特許文献1(「blog著者の性別推定」池田、南野、奥村、言語処理学会 第12回年次大会(2006年))や、非特許文献2(「スケーラブルで汎用的なブログ著者属性推定手法」大倉、清水、中川 情報処理学会 研究報告 2007−NL−181(2007年))、特開2010ー224813号公報等に記載の公知の手法を用いればよい。
【0052】
例えば、事前に属性情報が既知の文書(例えばブログ等)について解析し、その中で使用される単語(一人称代名詞(「俺」、「僕」、「あたし」等)や形態素(「めし」、「かわいい」等))に対して、ラベル付けを行い、これと比較して属性が推定される。また、テキストデータから、それぞれの表現が依存関係にある感性表現、対象表現、及び意図表現を抽出し、事前に設定された情報を参照して、抽出された感性表現、対象表現、意図表現がそれぞれ属する感性表現クラス、対象表現クラス、意図表現クラスを決定し、決定された感性表現クラス、対象表現クラス、及び意図表現クラスの組に対応付けられた感情ベクトルを用いて、テキストデータの書き手の感情が推定される。
【0053】
次に、制御部7は、記憶部9内のテキスト表示設定情報30a、30b(図3)から、入力者に関する情報に対応するフォントおよび吹き出し形状を抽出する(ステップ104)。例えば、図10に示すテキスト入力者に関する情報60が推定された場合には、テキスト表示設定情報30a、30bから、20代の女性でpositiveの設定(HGP創英角ポップ体、「K.jpg」ファイル)が抽出される。なお、テキスト入力者の属性や感性が推定できなかった場合には、標準設定である「default」の設定が選択される。
【0054】
次に、制御部7は、画像データに対して、抽出されたテキスト表示設定情報によって変換されたテキスト情報の配置を決定する(ステップ105)。なお、テキスト情報の配置は、単に、顔情報より得られる顔領域47a、47b、47c(図8(b))以外の部位としてもよいが、より望ましくは、以下のように設定される。
【0055】
図6は、ステップ105の詳細を示すフローチャートである。まず、制御部7は、画像データ上のそれぞれの顔情報から推定されたそれぞれの人に関する情報と、テキスト情報から推定された入力者に関する情報とを比較する(ステップ201)。すなわち、テキスト入力者に関する情報に対応する情報を有する人が、画像データ中に存在するかどうかを判断する。ここで、テキスト入力者に関する情報に対応する情報を有する人とは、同一の属性情報および感性情報を有する人であってもよく、または、全く同一である人がいなくても、例えば、年代のみが異なるが±10代の人など、各情報に優先順位を付けて、最も近い情報を有する人であってもよい。
【0056】
なお、画像中の人の感性情報とテキスト入力者の感性情報とが対応するとは、例えば、テキスト入力者の感性情報が「positive」は、画像中の人の感性情報における笑顔情報「smilling」が例えばtrue40%以上と定義され、その他が「negative」であると定義されればよい。すなわち、笑顔判定のtrue値によって、テキスト入力者の感性情報との同一または近似を判定すればよい。
【0057】
次に、制御部7は、テキスト入力者に関する情報に対応する人が一人の場合には、当該人をテキストの吹き出し者とする(ステップ202、203)。また、テキスト入力者に関する情報に対応する候補者が複数いる場合には、それらの人の中で、画像中で最も顔領域の大きな人を吹き出し者とする(ステップ204)。顔領域が最も大きい人を選択することで、画像データ中で最も手前に位置している人を選択することができる。
【0058】
なお、候補者が複数いる場合における吹き出し者の選択方法は、前述した方法に限られず、例えば、画像データ中で、最も中心に近い人を吹き出し者としてもよい。すなわち、画像データ中の配置や顔領域の大きさを考慮して、吹き出し者を選択すればよい。
【0059】
例えば、図10の例では、テキスト入力者が、20代の女性であり、感性が「positive」であると推定されている。これに対し、図9を見ると、ID=2の人が、同一の情報を有している。したがって、この場合には、吹き出し者として、テキスト入力者の属性、感性に最も近いID=2(画像データ40中の右側の人)が選択される。
【0060】
次に、制御部7は、選択された吹き出しおよびフォントで変換されたテキスト情報が、認識された顔領域以外の位置に配置可能であるか判定する(ステップ205)。可能であると判定されれば、全ての顔領域以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ206)。
【0061】
全ての顔領域以外にテキスト情報を配置できない場合には、吹き出し者として選択された人の顔領域以外の位置に、テキスト情報を配置可能であるか判定する(ステップ207)。可能であると判定されれば、吹き出し者の顔領域以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ208)。
【0062】
吹き出し者の顔領域以外にテキスト情報を配置できない場合には、吹き出し者の目、鼻、口以外の位置に、テキスト情報を配置可能であるか判定する(ステップ209)。可能であると判定されれば、吹き出し者の目、鼻、口以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ210)。
【0063】
吹き出し者の目、鼻、口以外にテキスト情報を配置できない場合には、少なくとも、吹き出し者の目、口以外の位置に、テキスト情報を配置可能であるか判定する(ステップ211)。可能であると判定されれば、吹き出し者の目、口以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ212)。
【0064】
吹き出し者の目、口以外にテキスト情報を配置できない場合には、少なくとも、吹き出し者の目、鼻以外の位置に、テキスト情報を配置可能であるか判定する(ステップ213)。可能であると判定されれば、吹き出し者の目、鼻以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ214)。
【0065】
吹き出し者の目、鼻以外にテキスト情報を配置できない場合には、少なくとも、吹き出し者の目以外の位置に、テキスト情報を配置可能であるか判定する(ステップ215)。可能であると判定されれば、吹き出し者の目以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ216)。
【0066】
吹き出し者の目以外にテキスト情報を配置できない場合には、テキスト情報のフォントサイズおよび吹き出し形状のサイズを小さくして、ステップ205に戻る(ステップ217)。なお、フォントサイズには下限が設定されるため、フォントサイズ等が下限以下となる場合には、当該フォントサイズ等で、あらかじめ設定された標準位置(例えば画像データの右下など)にテキスト情報を仮配置すればよい。
【0067】
テキスト情報の配置が決定されると、吹き出し形状の吹き出しを、吹き出し者の口の方向に向けて、テキスト情報を画像データ上に配置する(ステップ218)。以上により、画像データ上へのテキスト情報の配置が完了する。
【0068】
なお、テキスト入力者または顔情報から得られる人について、属性情報や感性情報が判定できなかった場合や、テキスト入力者に対応する人が画像中に存在しないと判断された場合にも、あらかじめ設定された画像データ中の標準位置にテキスト情報を配置すればよい。
【0069】
次に、図5に示すように、制御部7は、テキスト情報が挿入された画像をユーザ端末に送信する(ステップ106)。端末5では、表示部18に画像が表示される(ステップ107)。以上により、画像データ上にテキスト情報が挿入された画像が、ユーザに送信される。
【0070】
図11は、テキスト挿入画像70の一例を示す図である。テキスト挿入画像70には、吹き出し73が挿入され、吹き出し73の内部には、テキスト情報が、テキスト表示設定情報から選択されたフォントによって変換されて表示される。前述の通り、画像データ中の右側の人が吹き出し者として選択され、吹き出し73が、全ての顔領域以外の位置であって、かつ、吹き出し者の近傍に配置される。さらに、吹き出し部75が吹き出し者の口の方向に向くように設定される。なお、さらにユーザは、端末5を介して、自動で設定されたテキスト表示設定を手動で修正することもできる。例えば、テキスト設定部37(図3)によって、自動で設定されたフォント、吹き出し、または配置などを適宜修正して、修正内容をサーバ3に送信し、画像の修正を行ってもよい。
【0071】
以上、本発明によれば、ユーザは、対象画像データとテキスト情報をサーバに送信することで、手間のかかるフォント設定や配置設定を行うことなく、テキスト情報を変換して画像に挿入することができる。したがって、ユーザの負担を削減することができる。
【0072】
特に、テキスト情報から、属性情報や感性情報を推定するため、単に可読性のみを考慮した従来方法と比較して、より、テキスト入力者の嗜好に合ったテキスト表示設定を自動で設定することができる。また、さらに、画像データ中の顔情報から、その人に関する情報を推定し、テキスト入力者に関する情報と比較することで吹き出し者を選択し、吹き出しが吹き出し者の口方向に向くようにテキスト情報を画像データに挿入することができる。このため、テキスト情報の内容に応じた、より自然なテキスト配置を自動で設定することができる。
【0073】
以上、添付図を参照しながら、本発明の実施の形態を説明したが、本発明の技術的範囲は、前述した実施の形態に左右されない。当業者であれば、特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【0074】
例えば、テキスト入力支援システムについて説明したが、サーバ3の機能を有するテキスト挿入装置としてもよい。この場合、メディアや当該装置に付属する撮像装置によって画像データを当該装置に入力するとともに、テキスト情報を装置に入力することで、当該装置の表示部に、テキスト情報が自動で挿入された画像を表示させることができる。挿入された画像は、当該装置によってメディアに保存してもよく、または、印刷してもよい。
【0075】
また、テキスト表示設定情報が設定されている例を示したが、学習機能を持たせてもよい。例えば、テキスト表示設定の自動設定が完了した後、ユーザからの修正要求を学習して、テキスト入力者に関する情報に対応づけられる書体や吹き出し形状などを都度更新してもよい。
【0076】
また、テキスト表示設定情報としては、フォントや吹き出し形状のみではなく、フォントサイズ、字体、色、絵文字、模様など他の表示設定を対応させてもよい。
【符号の説明】
【0077】
1………テキスト入力支援システム
3………サーバ
4………ネットワーク
5………端末
30a、30b………テキスト表示設定情報
31………テキスト入力画面
32………属性情報
33………テキスト情報入力部
34………感性情報
35………反映ボタン
36………フォント情報
37………テキスト設定部
38………吹き出し形状情報
40………画像データ
47a、47b、47c………顔領域
50………人に関する情報
60………テキスト入力者に関する情報
61………属性情報
63………感性情報
70………テキスト挿入画像
71………テキスト
73………吹き出し
75………吹き出し部
【技術分野】
【0001】
本発明は、画像にテキスト情報を簡易に挿入するテキスト入力支援システム等に関するものである。
【背景技術】
【0002】
従来、デジタルカメラ等で撮影されたデジタル画像などに対し、後からメッセージやせりふなどのテキストを画像に挿入する場合がある。このような場合には、ユーザは、画像に対して挿入するテキストのフォントや配置等をその都度調整して設定する必要がある。
【0003】
これに対し、画像にテキストを挿入する際に、画像に対するテキストの配置等を自動で行う画像合成装置等が提案されている(例えば特許文献1、特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−096816号公報
【特許文献2】特開2002−176619号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1の方法は、メール件名や本文から、特定の固有名詞をキーワードとして抽出し、このキーワードから、画像における重要領域を定め、テキストを非重要領域に配置するものである。したがって、重要領域として、単に顔の領域や他の重要背景のみを選択し、これ以外の位置にテキストを自動挿入するに過ぎないものである。また、この際、テキストの色を挿入領域の反対色にするが、これはテキストの視認性を考慮したに過ぎないものである。
【0006】
したがって、ユーザは、嗜好に合わせてテキストの書式(例えばフォントや字体など)について別途設定する必要がある。また、画像中に複数の顔領域が重要領域として認定されても、あくまでも非重要領域にテキストを配置するに過ぎない。このため、例えば、特定の人のセリフのように吹き出しでテキストを挿入するなど、特定の人がしゃべっているようにテキストを自動配置したりすることはできなかった。
【0007】
また、特許文献2は、画像中の顔情報を抽出するが、これは、単にこの顔情報と近似したキャラクターを決定して表示するためにすぎない。したがって、特許文献1と同様に、ユーザは、嗜好に合わせてテキストの書式について別途設定する必要があり、また、複数の顔情報を取得したとしても、例えば、テキスト内容に応じて特定の人がしゃべっているようにテキストを自動配置したりすることはできなかった。
【0008】
本発明は、前述した問題点に鑑みてなされたもので、テキスト内容に応じて適切な書式等を自動設定するとともに、可読性のみを考慮するのではなく、テキスト内容を考慮して、画像に対して最も適切な配置にテキストを自動配置することが可能なテキスト入力支援システム等を提供することを目的とする。
【課題を解決するための手段】
【0009】
前述した目的を達成するために、第1の発明は、テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、画像データを解析して、前記画像データ中の人間の顔情報を抽出する第1の抽出手段と、テキスト情報から人に関する情報を推定する第1の推定手段と、前記第1の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第2の抽出手段と、前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、を具備することを特徴とするサーバである。
【0010】
前記人に関する情報は、人の属性情報または感性情報を有してもよい。前記画像データ中に複数の前記顔情報が抽出された場合、前記第1の抽出手段により抽出された前記画像データ中の全ての前記顔情報から、それぞれの人に関する情報を推定する第2の推定手段をさらに具備し、前記決定手段は、第2の推定手段で推定されたそれぞれの前記人に関する情報と、前記第1の推定手段で推定された前記人に関する情報とを用いて、前記第1の推定手段で推定された前記人に関する情報に最も近い情報を有する人を吹き出し者とし、前記吹き出し形状情報における吹き出し口の向きを前記吹き出し者の口の方向に向けて配置することが望ましい。
【0011】
前記決定手段は、前記第1の推定手段で推定された前記人に関する情報に最も近い情報を有する人が、前記画像データ中に複数存在する場合において、対象となるそれぞれの前記顔情報の画像データ中におけるサイズまたは配置の少なくともいずれかを考慮して、前記吹き出し者を決定することが望ましい。
【0012】
前記決定手段は、前記画像データ中の人の全ての顔が隠れない位置に前記テキスト情報が挿入可能であるか判定し、可能な場合には、全ての顔以外の部位に前記テキスト情報を挿入し、不可能な場合には、少なくとも前記吹き出し者の顔が隠れない位置に前記テキスト情報を挿入してもよい。
【0013】
第1の発明によれば、テキスト情報からテキストにより人に関する情報を推定し、これに基づいてテキスト設定情報を抽出するため、テキストの入力者の嗜好に適した書式等によって、テキスト情報を画像に挿入することができる。このため、ユーザが、その都度テキストの書式を設定する必要がない。
【0014】
また、人に関する情報として、属性情報または感性情報の少なくともいずれかを有すれば、より、テキスト内容に適したテキスト設定を行うことができる。ここで、属性情報とは、テキスト入力者の性別や年齢層などの情報であり、感性情報とは、テキスト入力時の気分(ポジティブな気分や、ネガティブな気分など)を指すものである。
【0015】
また、画像中に複数の顔情報が抽出された場合において、それぞれの顔情報から、それぞれの顔に対応する人に関する情報(当該人の属性情報や感性情報)を推定し、テキスト入力者に最も近い属性・感性を有する人を吹き出し者(すなわち、当該テキスト情報の発言者)とすることで、よりテキスト内容に適した配置で、テキスト情報を挿入することができる。したがって、単にテキストの見やすさだけでなく、テキスト内容に応じて、画像中の最適な配置を設定することができる。
【0016】
また、前述の方法でテキスト入力者の情報に近いと推定される人が、画像中に複数いて、吹き出し者の候補者が複数いる場合には、画像中の人の配置や大きさを考慮してテキスト配置を設定することで、画像中の最適な位置にテキストを配置することができる。なお、画像中の人の配置や大きさを考慮するとは、例えば、画像中のより中央の人を選択してもよく、顔領域の大きな人(すなわち、画像中のアップの人であり、他の人よりも前にいる人)を選択してもよい。このようにすることで、テキスト情報をより自然な位置に配置することができる。
【0017】
また、テキスト情報は、可能な限り、画像中の人の顔領域以外の部位に配置することで、テキスト情報で顔が隠れることがない。また、テキスト情報を吹き出し形状内部に配置する場合において、その吹き出し口を、吹き出し者の口方向に向けることで、より自然に画像中の人のセリフとしてテキスト情報を挿入することができる。
【0018】
第2の発明は、サーバと端末とがネットワークを介して接続され、画像に対してテキスト情報を挿入するテキスト入力支援システムであって、前記端末は、テキスト情報および画像データを前記サーバに送信する手段を有し、前記サーバは、テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、前記端末から送られた画像データを解析して、前記画像データ中の人間の顔情報を抽出する第1の抽出手段と、前記端末から送られた前記テキスト情報から、人に関する情報を推定する第1の推定手段と、前記第1の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第2の抽出手段と、前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、前記テキスト情報が挿入された前記画像データを前記端末に送信する手段と、を有し、前記端末は、前記テキスト情報が挿入された前記画像データを表示する表示手段を有することを特徴とするテキスト入力支援システムである。
【0019】
第2の発明によれば、画像データおよびテキスト情報をユーザ端末からサーバに送信するのみで、画像およびテキスト内容に応じた最適なテキスト設定および配置によって、テキスト情報を画像中に自動配置することができる。
【0020】
第3の発明は、画像に対してテキスト情報を挿入するテキスト合成方法であって、
画像データを解析して、前記画像データ中の人間の顔情報を抽出する工程と、テキスト情報から人に関する情報を推定する工程と、テキスト情報から推定される前記人に関する情報を用いて、人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部から、対応するテキスト表示設定情報を抽出する工程と、前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する工程と、前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する工程と、を具備することを特徴とするテキスト合成方法である。
【0021】
第3の発明によれば、テキスト情報により人に関する情報を推定し、これに基づいてテキスト設定情報を抽出するため、テキストの入力者の嗜好に適したテキスト設定で、画像中の最適な配置にテキスト情報を画像に自動挿入することができる。
【0022】
第4の発明は、第1の発明を機能させることが可能なプログラムである。
【0023】
第4の発明によれば、汎用的なコンピュータにインストールすることで、第1の発明のサーバを実現することができる。
【発明の効果】
【0024】
本発明は、テキスト内容に応じて適切な書式等を自動設定するとともに、可読性のみを考慮するのではなく、テキスト内容を考慮して、画像に対して最も適切な配置にテキストを自動配置することが可能なテキスト入力支援システム等を提供することができる。
【図面の簡単な説明】
【0025】
【図1】テキスト入力支援システム1の概要を示すブロック図。
【図2】サーバ3のハードウエア構成図。
【図3】テキスト表示設定情報30a、30bを示す図。
【図4】端末5のハードウエア構成図。
【図5】テキスト入力支援システム1におけるテキスト挿入処理を示すフローチャート。
【図6】ステップ105の処理を詳細に示すフローチャート。
【図7】テキスト入力画面31を示す図。
【図8】画像データ40および、顔情報抽出画面を示す図。
【図9】人に関する情報50示す図。
【図10】テキスト情報解析データ60を示す図。
【図11】テキスト挿入画像70を示す図。
【発明を実施するための形態】
【0026】
以下、添付図面に基づいて、本発明に係るテキスト入力支援システム等の好適な実施形態について詳細に説明する。尚、以下の説明及び添付図面において、略同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略することにする。
【0027】
図1は、テキスト入力支援システム1の概要を示すブロック図である。テキスト入力支援システム1は、サーバ3、端末5がネットワーク4を介して接続される。
【0028】
サーバ3は、本実施形態にかかるテキスト入力支援プログラムを格納し、このプログラムを実行することで、各種処理を行う。端末5は、例えばパーソナルコンピュータ等であり、インターネット等のネットワーク4を介して、サーバ3にアクセス可能である。
【0029】
図2は、サーバ3のハードウエア構成例を示す図である。サーバ3は、制御部7、記憶部9、メディア入出力部11、通信制御部13、入力部15、表示部17、周辺機器I/F部19等がバス21を介して接続される。
【0030】
制御部7は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、ROM、記憶部9等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス21を介して接続された各装置を駆動制御し、コンピュータが行う処理を実現する。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部9、ROM、記憶媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部7が各種処理を行うために使用するワークエリアを備える。
【0031】
記憶部9は、HDD(ハードディスクドライブ)であり、制御部7が実行するプログラム、プログラム実行に必要なデータ、OS(Operating System)等が格納される。プログラムに関しては、OSに相当する制御プログラムや、アプリケーションプログラム、ファイル等が格納されている。
これらの各プログラムコードは、制御部7により必要に応じて読み出されてRAMに移され、CPUにより各種の手段として実行される。
【0032】
メディア入出力部11は、記録媒体のデータの入出力を行うドライブ装置であり、例えば、フロッピー(登録商標)ディスクドライブ、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)、MOドライブ等のメディア入出力装置を有する。
通信制御部13は、通信制御装置、通信ポート等を有し、ネットワーク4を介した通信を媒介する通信インタフェースであり、他のコンピュータ間との通信制御を行う。
【0033】
入力部15は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。入力部15を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。
表示部17は、CRT(Cathode Ray Tube)モニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
周辺機器I/F部19は、周辺機器を接続するためのUSB(Universal Serial Bus)ポート等である。
バス21は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
【0034】
図3は、記憶部9に記憶されたテキスト表示設定情報30a、30bの一例を示す図である。テキスト表示設定情報30a、30bは、人に関する情報であるテキスト入力者の属性情報32、感性情報34ごとに、テキストの設定(フォント等の書式であるフォント情報36や、吹き出し形状情報38など)が対応づけられたものである。
【0035】
属性情報32としては、テキスト入力者の性別(Male、Female)、年齢層(10代、20代、30代、・・・)などの情報であり、テキスト入力者の感性情報34としては、気分(positive、negative)などの情報である。テキスト表示設定情報30aは、これらのそれぞれの組み合わせ毎に、その属性情報32および感性情報34に適したフォント情報36が対応づけられる。
【0036】
同様に、テキスト表示設定情報30bは、属性情報32および感性情報34の組み合わせ毎に、その属性情報32および感性情報34に適した吹き出し形状情報38が対応づけられる。吹き出し形状とは、テキスト情報を人のセリフに見立て、テキスト情報を囲む図形の形状である。以上のように、それぞれの属性情報32および感性情報34の組み合わせ毎に、テキストのフォント情報36とテキストを囲む吹き出し形状情報38が設定される。
【0037】
例えば、テキスト入力者が10代の男性で気分が「positive」と判定されると、フォント情報36として「HG創英角ゴシックUB」が選択され、「A.jpg」ファイルの吹き出し形状情報38が選択される。なお、あらかじめ設定された属性情報32および感性情報34の組み合わせに該当しないものに対しては、標準設定である「default」としてフォントおよび吹き出し形状が対応づけられる。
【0038】
図4は、端末5のハードウエア構成例を示す図である。端末5は、制御部8、記憶部10、メディア入出力部12、通信制御部14、入力部16、表示部18、周辺機器I/F部20等がバス22を介して接続される。なお、端末5の制御部8、記憶部10、メディア入出力部12、通信制御部14、入力部16、表示部18、周辺機器I/F部20、バス22は、サーバ3の制御部7、記憶部9、メディア入出力部11、通信制御部13、入力部15、表示部17、周辺機器I/F部19、バス21とそれぞれ同様の構成であるため、重複する説明を省略する。
【0039】
次に、テキスト入力支援システムにおけるテキスト挿入処理について説明する。図5は、テキスト挿入処理を示すフローチャートである。
【0040】
まず、端末5の制御部8は、画像データをサーバ3に送信する(ステップ100)。サーバ3の制御部7は、画像データを端末5から取得するとともに、端末5からの要求により、テキスト入力画面を端末5の表示部18に表示させる。図7は、ユーザ端末の表示部18に表示されたテキスト入力画面31を示す例である。
【0041】
テキスト入力画面31は、画像に挿入するテキスト情報をユーザが打ち込み、反映ボタン35を押すことで、サーバ3にテキスト情報が送信される。なお、テキスト入力画面31には、必要に応じて、自動で行われたテキスト設定の修正のためのテキスト設定部37が設けられてもよい。
【0042】
端末5からの画像データおよびテキスト情報を取得したサーバ3は、制御部7により、取得した画像データを解析して、画像データ中の顔情報を抽出する(ステップ101)。
【0043】
図8(a)は、取得した画像データ40の一例を示す図、図8(b)は、解析時の画像データ40を示す概念図である。制御部7は、画像データ40内の全ての顔について、顔情報を抽出する。例えば、人の目、鼻、口等の位置を取得するとともに、顔と認定した部位の顔領域を推定する。図8(b)に示す例では、ID=0、1、2の3つの顔情報が抽出され、それぞれの顔の顔領域47a、47b、47cが抽出される。
【0044】
次に、制御部7は、顔情報を解析し、それぞれの顔情報毎に、その人に関する情報を推定する(ステップ102)。
【0045】
図9は、顔情報から推定された人に関する情報50を示す図である。人に関する情報50は、例えば、その人の性別、年代層などの画像データ中の人の属性情報およびその人の笑顔の度合いを示す感性情報等から構成される。例えば、ID=2の顔情報(図8(a)の画像データ中の右側の顔)に対しては、その人に関する情報として、性別が女性、推定年代は20代であり、笑顔であることが推定された例を示す。
【0046】
なお、画像データ40から、顔情報を抽出し、その顔の属性や感性(笑顔判定)の推定を行う方法としては、例えば、特開2009−294925号公報、特開2005−165447号公報、特開2007−336124などの公知の手法を用いればよく、例えば以下のようにすればよい。
【0047】
まず、顔画像から顔領域検出部にて顔領域を検出し、さらに顔特徴抽出部にて顔の特徴情報を抽出する。また、あらかじめ男女別の幅広い年齢層の個人顔特徴情報を作成しておき、年齢と性別の情報と合わせて顔特徴保持部に保持し、顔特徴抽出部で抽出された顔特徴情報と顔特徴保持部内の個人顔特徴情報とを照合して類似度を求める。得られた類似度とそれに付属した年齢および性別の情報から当該人物の年齢と性別を判別する。
【0048】
また、笑顔認識は、口の曲がり具合、口角の上がり具合、目の大きさ、しわのより具合などにもとづいて定量化することができる。定量化された値にもとづいてあらかじめ設定されたしきい値との比較により、被写体像がどの程度笑っているかを判定することができる。
【0049】
次に、制御部7は、取得したテキスト情報を解析して、テキスト入力者に関する情報を推定する(ステップ103)。
【0050】
図10は、テキスト情報から推定される人に関する情報(以下、テキスト入力者に関する情報)を示す図である。制御部7は、テキスト情報の内容を解析して、そのテキスト情報の入力者に関する属性情報61や感性情報63を推定する。例えば、図10に示す例では、得られたテキスト情報から、テキストの入力者は性別が女性であり、年齢が20歳代であり、気分が「positive」であると推定された例である。
【0051】
なお、テキスト情報から、その入力者に関する情報を推定する手段としては、例えば、非特許文献1(「blog著者の性別推定」池田、南野、奥村、言語処理学会 第12回年次大会(2006年))や、非特許文献2(「スケーラブルで汎用的なブログ著者属性推定手法」大倉、清水、中川 情報処理学会 研究報告 2007−NL−181(2007年))、特開2010ー224813号公報等に記載の公知の手法を用いればよい。
【0052】
例えば、事前に属性情報が既知の文書(例えばブログ等)について解析し、その中で使用される単語(一人称代名詞(「俺」、「僕」、「あたし」等)や形態素(「めし」、「かわいい」等))に対して、ラベル付けを行い、これと比較して属性が推定される。また、テキストデータから、それぞれの表現が依存関係にある感性表現、対象表現、及び意図表現を抽出し、事前に設定された情報を参照して、抽出された感性表現、対象表現、意図表現がそれぞれ属する感性表現クラス、対象表現クラス、意図表現クラスを決定し、決定された感性表現クラス、対象表現クラス、及び意図表現クラスの組に対応付けられた感情ベクトルを用いて、テキストデータの書き手の感情が推定される。
【0053】
次に、制御部7は、記憶部9内のテキスト表示設定情報30a、30b(図3)から、入力者に関する情報に対応するフォントおよび吹き出し形状を抽出する(ステップ104)。例えば、図10に示すテキスト入力者に関する情報60が推定された場合には、テキスト表示設定情報30a、30bから、20代の女性でpositiveの設定(HGP創英角ポップ体、「K.jpg」ファイル)が抽出される。なお、テキスト入力者の属性や感性が推定できなかった場合には、標準設定である「default」の設定が選択される。
【0054】
次に、制御部7は、画像データに対して、抽出されたテキスト表示設定情報によって変換されたテキスト情報の配置を決定する(ステップ105)。なお、テキスト情報の配置は、単に、顔情報より得られる顔領域47a、47b、47c(図8(b))以外の部位としてもよいが、より望ましくは、以下のように設定される。
【0055】
図6は、ステップ105の詳細を示すフローチャートである。まず、制御部7は、画像データ上のそれぞれの顔情報から推定されたそれぞれの人に関する情報と、テキスト情報から推定された入力者に関する情報とを比較する(ステップ201)。すなわち、テキスト入力者に関する情報に対応する情報を有する人が、画像データ中に存在するかどうかを判断する。ここで、テキスト入力者に関する情報に対応する情報を有する人とは、同一の属性情報および感性情報を有する人であってもよく、または、全く同一である人がいなくても、例えば、年代のみが異なるが±10代の人など、各情報に優先順位を付けて、最も近い情報を有する人であってもよい。
【0056】
なお、画像中の人の感性情報とテキスト入力者の感性情報とが対応するとは、例えば、テキスト入力者の感性情報が「positive」は、画像中の人の感性情報における笑顔情報「smilling」が例えばtrue40%以上と定義され、その他が「negative」であると定義されればよい。すなわち、笑顔判定のtrue値によって、テキスト入力者の感性情報との同一または近似を判定すればよい。
【0057】
次に、制御部7は、テキスト入力者に関する情報に対応する人が一人の場合には、当該人をテキストの吹き出し者とする(ステップ202、203)。また、テキスト入力者に関する情報に対応する候補者が複数いる場合には、それらの人の中で、画像中で最も顔領域の大きな人を吹き出し者とする(ステップ204)。顔領域が最も大きい人を選択することで、画像データ中で最も手前に位置している人を選択することができる。
【0058】
なお、候補者が複数いる場合における吹き出し者の選択方法は、前述した方法に限られず、例えば、画像データ中で、最も中心に近い人を吹き出し者としてもよい。すなわち、画像データ中の配置や顔領域の大きさを考慮して、吹き出し者を選択すればよい。
【0059】
例えば、図10の例では、テキスト入力者が、20代の女性であり、感性が「positive」であると推定されている。これに対し、図9を見ると、ID=2の人が、同一の情報を有している。したがって、この場合には、吹き出し者として、テキスト入力者の属性、感性に最も近いID=2(画像データ40中の右側の人)が選択される。
【0060】
次に、制御部7は、選択された吹き出しおよびフォントで変換されたテキスト情報が、認識された顔領域以外の位置に配置可能であるか判定する(ステップ205)。可能であると判定されれば、全ての顔領域以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ206)。
【0061】
全ての顔領域以外にテキスト情報を配置できない場合には、吹き出し者として選択された人の顔領域以外の位置に、テキスト情報を配置可能であるか判定する(ステップ207)。可能であると判定されれば、吹き出し者の顔領域以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ208)。
【0062】
吹き出し者の顔領域以外にテキスト情報を配置できない場合には、吹き出し者の目、鼻、口以外の位置に、テキスト情報を配置可能であるか判定する(ステップ209)。可能であると判定されれば、吹き出し者の目、鼻、口以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ210)。
【0063】
吹き出し者の目、鼻、口以外にテキスト情報を配置できない場合には、少なくとも、吹き出し者の目、口以外の位置に、テキスト情報を配置可能であるか判定する(ステップ211)。可能であると判定されれば、吹き出し者の目、口以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ212)。
【0064】
吹き出し者の目、口以外にテキスト情報を配置できない場合には、少なくとも、吹き出し者の目、鼻以外の位置に、テキスト情報を配置可能であるか判定する(ステップ213)。可能であると判定されれば、吹き出し者の目、鼻以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ214)。
【0065】
吹き出し者の目、鼻以外にテキスト情報を配置できない場合には、少なくとも、吹き出し者の目以外の位置に、テキスト情報を配置可能であるか判定する(ステップ215)。可能であると判定されれば、吹き出し者の目以外であって、吹き出し者近傍にテキスト情報を配置する(ステップ216)。
【0066】
吹き出し者の目以外にテキスト情報を配置できない場合には、テキスト情報のフォントサイズおよび吹き出し形状のサイズを小さくして、ステップ205に戻る(ステップ217)。なお、フォントサイズには下限が設定されるため、フォントサイズ等が下限以下となる場合には、当該フォントサイズ等で、あらかじめ設定された標準位置(例えば画像データの右下など)にテキスト情報を仮配置すればよい。
【0067】
テキスト情報の配置が決定されると、吹き出し形状の吹き出しを、吹き出し者の口の方向に向けて、テキスト情報を画像データ上に配置する(ステップ218)。以上により、画像データ上へのテキスト情報の配置が完了する。
【0068】
なお、テキスト入力者または顔情報から得られる人について、属性情報や感性情報が判定できなかった場合や、テキスト入力者に対応する人が画像中に存在しないと判断された場合にも、あらかじめ設定された画像データ中の標準位置にテキスト情報を配置すればよい。
【0069】
次に、図5に示すように、制御部7は、テキスト情報が挿入された画像をユーザ端末に送信する(ステップ106)。端末5では、表示部18に画像が表示される(ステップ107)。以上により、画像データ上にテキスト情報が挿入された画像が、ユーザに送信される。
【0070】
図11は、テキスト挿入画像70の一例を示す図である。テキスト挿入画像70には、吹き出し73が挿入され、吹き出し73の内部には、テキスト情報が、テキスト表示設定情報から選択されたフォントによって変換されて表示される。前述の通り、画像データ中の右側の人が吹き出し者として選択され、吹き出し73が、全ての顔領域以外の位置であって、かつ、吹き出し者の近傍に配置される。さらに、吹き出し部75が吹き出し者の口の方向に向くように設定される。なお、さらにユーザは、端末5を介して、自動で設定されたテキスト表示設定を手動で修正することもできる。例えば、テキスト設定部37(図3)によって、自動で設定されたフォント、吹き出し、または配置などを適宜修正して、修正内容をサーバ3に送信し、画像の修正を行ってもよい。
【0071】
以上、本発明によれば、ユーザは、対象画像データとテキスト情報をサーバに送信することで、手間のかかるフォント設定や配置設定を行うことなく、テキスト情報を変換して画像に挿入することができる。したがって、ユーザの負担を削減することができる。
【0072】
特に、テキスト情報から、属性情報や感性情報を推定するため、単に可読性のみを考慮した従来方法と比較して、より、テキスト入力者の嗜好に合ったテキスト表示設定を自動で設定することができる。また、さらに、画像データ中の顔情報から、その人に関する情報を推定し、テキスト入力者に関する情報と比較することで吹き出し者を選択し、吹き出しが吹き出し者の口方向に向くようにテキスト情報を画像データに挿入することができる。このため、テキスト情報の内容に応じた、より自然なテキスト配置を自動で設定することができる。
【0073】
以上、添付図を参照しながら、本発明の実施の形態を説明したが、本発明の技術的範囲は、前述した実施の形態に左右されない。当業者であれば、特許請求の範囲に記載された技術的思想の範疇内において各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
【0074】
例えば、テキスト入力支援システムについて説明したが、サーバ3の機能を有するテキスト挿入装置としてもよい。この場合、メディアや当該装置に付属する撮像装置によって画像データを当該装置に入力するとともに、テキスト情報を装置に入力することで、当該装置の表示部に、テキスト情報が自動で挿入された画像を表示させることができる。挿入された画像は、当該装置によってメディアに保存してもよく、または、印刷してもよい。
【0075】
また、テキスト表示設定情報が設定されている例を示したが、学習機能を持たせてもよい。例えば、テキスト表示設定の自動設定が完了した後、ユーザからの修正要求を学習して、テキスト入力者に関する情報に対応づけられる書体や吹き出し形状などを都度更新してもよい。
【0076】
また、テキスト表示設定情報としては、フォントや吹き出し形状のみではなく、フォントサイズ、字体、色、絵文字、模様など他の表示設定を対応させてもよい。
【符号の説明】
【0077】
1………テキスト入力支援システム
3………サーバ
4………ネットワーク
5………端末
30a、30b………テキスト表示設定情報
31………テキスト入力画面
32………属性情報
33………テキスト情報入力部
34………感性情報
35………反映ボタン
36………フォント情報
37………テキスト設定部
38………吹き出し形状情報
40………画像データ
47a、47b、47c………顔領域
50………人に関する情報
60………テキスト入力者に関する情報
61………属性情報
63………感性情報
70………テキスト挿入画像
71………テキスト
73………吹き出し
75………吹き出し部
【特許請求の範囲】
【請求項1】
テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、
画像データを解析して、前記画像データ中の人間の顔情報を抽出する第1の抽出手段と、
テキスト情報から人に関する情報を推定する第1の推定手段と、
前記第1の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第2の抽出手段と、
前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、
前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、
を具備することを特徴とするサーバ。
【請求項2】
前記人に関する情報は、人の属性情報または感性情報を有することを特徴とする請求項1記載のサーバ
【請求項3】
前記画像データ中に複数の前記顔情報が抽出された場合、
前記第1の抽出手段により抽出された前記画像データ中の全ての前記顔情報から、それぞれの人に関する情報を推定する第2の推定手段をさらに具備し、
前記決定手段は、第2の推定手段で推定されたそれぞれの前記人に関する情報と、前記第1の推定手段で推定された前記人に関する情報とを用いて、前記第1の推定手段で推定された前記人に関する情報に最も近い情報を有する人を吹き出し者とし、前記吹き出し形状情報における吹き出し口の向きを前記吹き出し者の口の方向に向けて配置することを特徴とする請求項1または請求項2に記載のサーバ。
【請求項4】
前記決定手段は、前記第1の推定手段で推定された前記人に関する情報に最も近い情報を有する人が、前記画像データ中に複数存在する場合において、対象となるそれぞれの前記顔情報の画像データ中におけるサイズまたは配置の少なくともいずれかを考慮して、前記吹き出し者を決定することを特徴とする請求項3記載のサーバ。
【請求項5】
前記決定手段は、前記画像データ中の人の全ての顔が隠れない位置に前記テキスト情報が挿入可能であるか判定し、可能な場合には、全ての顔以外の部位に前記テキスト情報を挿入し、不可能な場合には、少なくとも前記吹き出し者の顔が隠れない位置に前記テキスト情報を挿入することを特徴とする請求項3または請求項4のいずれかに記載のサーバ。
【請求項6】
サーバと端末とがネットワークを介して接続され、画像に対してテキスト情報を挿入するテキスト入力支援システムであって、
前記端末は、テキスト情報および画像データを前記サーバに送信する手段を有し、
前記サーバは、
テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、
前記端末から送られた画像データを解析して、前記画像データ中の人間の顔情報を抽出する第1の抽出手段と、
前記端末から送られた前記テキスト情報から、人に関する情報を推定する第1の推定手段と、
前記第1の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第2の抽出手段と、
前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、
前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、
前記テキスト情報が挿入された前記画像データを前記端末に送信する手段と、
を有し、
前記端末は、前記テキスト情報が挿入された前記画像データを表示する表示手段を有することを特徴とするテキスト入力支援システム。
【請求項7】
画像に対してテキスト情報を挿入するテキスト合成方法であって、
画像データを解析して、前記画像データ中の人間の顔情報を抽出する工程と、
テキスト情報から人に関する情報を推定する工程と、
テキスト情報から推定される前記人に関する情報を用いて、人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部から、対応するテキスト表示設定情報を抽出する工程と、
前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する工程と、
前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する工程と、
を具備することを特徴とするテキスト合成方法。
【請求項8】
コンピュータを請求項1に記載のサーバとして機能させるためのプログラム。
【請求項1】
テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、
画像データを解析して、前記画像データ中の人間の顔情報を抽出する第1の抽出手段と、
テキスト情報から人に関する情報を推定する第1の推定手段と、
前記第1の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第2の抽出手段と、
前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、
前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、
を具備することを特徴とするサーバ。
【請求項2】
前記人に関する情報は、人の属性情報または感性情報を有することを特徴とする請求項1記載のサーバ
【請求項3】
前記画像データ中に複数の前記顔情報が抽出された場合、
前記第1の抽出手段により抽出された前記画像データ中の全ての前記顔情報から、それぞれの人に関する情報を推定する第2の推定手段をさらに具備し、
前記決定手段は、第2の推定手段で推定されたそれぞれの前記人に関する情報と、前記第1の推定手段で推定された前記人に関する情報とを用いて、前記第1の推定手段で推定された前記人に関する情報に最も近い情報を有する人を吹き出し者とし、前記吹き出し形状情報における吹き出し口の向きを前記吹き出し者の口の方向に向けて配置することを特徴とする請求項1または請求項2に記載のサーバ。
【請求項4】
前記決定手段は、前記第1の推定手段で推定された前記人に関する情報に最も近い情報を有する人が、前記画像データ中に複数存在する場合において、対象となるそれぞれの前記顔情報の画像データ中におけるサイズまたは配置の少なくともいずれかを考慮して、前記吹き出し者を決定することを特徴とする請求項3記載のサーバ。
【請求項5】
前記決定手段は、前記画像データ中の人の全ての顔が隠れない位置に前記テキスト情報が挿入可能であるか判定し、可能な場合には、全ての顔以外の部位に前記テキスト情報を挿入し、不可能な場合には、少なくとも前記吹き出し者の顔が隠れない位置に前記テキスト情報を挿入することを特徴とする請求項3または請求項4のいずれかに記載のサーバ。
【請求項6】
サーバと端末とがネットワークを介して接続され、画像に対してテキスト情報を挿入するテキスト入力支援システムであって、
前記端末は、テキスト情報および画像データを前記サーバに送信する手段を有し、
前記サーバは、
テキスト情報から推定される人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部と、
前記端末から送られた画像データを解析して、前記画像データ中の人間の顔情報を抽出する第1の抽出手段と、
前記端末から送られた前記テキスト情報から、人に関する情報を推定する第1の推定手段と、
前記第1の推定手段で推定された前記人に関する情報を用いて、前記記憶部から対応するテキスト表示設定情報を抽出する第2の抽出手段と、
前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する決定手段と、
前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する挿入手段と、
前記テキスト情報が挿入された前記画像データを前記端末に送信する手段と、
を有し、
前記端末は、前記テキスト情報が挿入された前記画像データを表示する表示手段を有することを特徴とするテキスト入力支援システム。
【請求項7】
画像に対してテキスト情報を挿入するテキスト合成方法であって、
画像データを解析して、前記画像データ中の人間の顔情報を抽出する工程と、
テキスト情報から人に関する情報を推定する工程と、
テキスト情報から推定される前記人に関する情報を用いて、人に関する情報と、少なくとも前記テキスト情報の書体情報または吹き出し形状情報を有するテキスト表示設定情報とを対応づけて記憶する記憶部から、対応するテキスト表示設定情報を抽出する工程と、
前記顔情報を基にして、前記画像データに対する前記テキスト情報の挿入位置を決定する工程と、
前記画像データに対して、前記挿入位置に前記テキスト表示設定情報に応じて変換した前記テキスト情報を挿入する工程と、
を具備することを特徴とするテキスト合成方法。
【請求項8】
コンピュータを請求項1に記載のサーバとして機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2013−69185(P2013−69185A)
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願番号】特願2011−208447(P2011−208447)
【出願日】平成23年9月26日(2011.9.26)
【出願人】(000002897)大日本印刷株式会社 (14,506)
【Fターム(参考)】
【公開日】平成25年4月18日(2013.4.18)
【国際特許分類】
【出願日】平成23年9月26日(2011.9.26)
【出願人】(000002897)大日本印刷株式会社 (14,506)
【Fターム(参考)】
[ Back to top ]