画像選定装置、方法及びプログラム

【課題】ブログ等の文書の印象に適した画像を自動付与する画像選定装置を提供する。
【解決手段】入力文書から印象語と当該印象語の入力文書中での印象の強さを表す文書印象関連度を抽出する印象情報抽出部２と、画像とその画像印象語と画像印象関連度とを保存する印象・画像ＤＢ３０と、抽出された文書印象語が印象・画像ＤＢ３０の画像印象語と一致する画像を検索して、検索された画像の文書印象関連度と画像印象関連度とから画像選択スコアを求める画像検索部３とを備えて画像選定装置を構成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は文書用の画像選定装置、方法及びプログラムに関し、特に文書の印象や雰囲気に合った画像を自動で選定し、付与する画像選定装置、方法及びプログラムに関する。
【背景技術】
【０００２】
ブログ記事をブログ投稿者が書く際に画像を付与するケースは多々ある。例えば、自分のその日の出来事についての記事に、画像を付加してブログを作成し投稿を行う。この場合は、自分で撮影した画像を使うケースが多い。一方で、自分の感情や思い、悩みなどを出来事と同時にもしくは独立にブログに書くことがある。テキスト文書であるブログ記事だけでは伝わりにくい記事の雰囲気や印象を画像で表現できれば、投稿者の思いをブログ閲覧者に効果的に伝えることができる。
【０００３】
しかし、こういったケースでは、ブログ記事に対応する画像をブログ投稿者自身が持っていることは少ないと考えられ、また適した画像を取得して付与するには労力がかかる。また、記事の雰囲気を表すような画像を取得できた場合においても、ブログのテンプレートと画像との配色的なバランスがとれていることがより望ましいが、このような記事の雰囲気を表しており且つブログのテンプレートとの配色的バランスがとれている画像をブログ投稿者自身が取得することはさらに困難を伴う。したがって、ブログに適した印象を表す画像を自動で収集・選択するシステムを実現できれば非常に有用であると考えられる。
【０００４】
こうした事情に関連した従来技術として、以下の特許文献１〜３及び非特許文献１〜３に開示された技術がある。
【０００５】
特許文献１（感情画像作成システム、感情画像作成方法、及び感情画像作成プログラム）では、各感情の度合いを表す感情ベクトルと単語との対応付けがされている感情辞書を利用して、入力された文書及び単語から感情を判定し、文書及び単語に対して感情ベクトルを求める。一方、予め用意しておいた画像データベース中の画像に対しても感情ベクトルと関連付けて保持しておく。文書から求めた感情ベクトルと最も近いベクトルを画像データベースから探し、それを文書の感情を表す画像とする。文書中に複数感情を表す単語が存在する場合には、感情ベクトルの近さに応じて画像の大きさを変化させることで、複数の感情を画像で表すことができるとしている。
【０００６】
特許文献２（データ処理装置、データ処理方法、及びプログラム）では、ブログの文書及びブログのコメントの文書から受ける印象と、それらの文書と共に公開される画像との印象を近づけるという技術が開示されている。ブログ文書中に「嬉しい」や「悲しい」のような感情を表すキーワードが含まれているかによって、文書の印象を判断し、文書を分類する。感情を表すキーワード群は、予め用意されたものを利用する。この文書から得られた感情情報に応じて、文書と同時に入力された画像を変化させることで、文書と画像の印象を近づけることができるとしている。例えば、文書が「嬉しい」という印象であれば、人の顔の画像の「口元をあげる」ことで、画像の印象を「嬉しい」に近づけるといったことである。
【０００７】
特許文献３（服飾品購入支援システム、サーバ、服飾品購入支援方法及びプログラム）では、ユーザは、服飾品のコーディネートの支援を行うことを目的として、印象情報や配色情報を利用した服飾品の絞り込み方法を提供している。印象情報による服飾品の絞り込みを行う場合には、上半身といった部位毎に、「高級感」や「フォーマル」といった「資質」を入力する。この場合、印象の観点からユーザの要求にマッチする服飾品の情報をユーザに提供する。また、配色情報による服飾品の絞り込みを行う場合には、服装のベースとなる色である「ベースカラー」およびそれを与える「対応部位」や「類似効果」、「反対色相」といった「色彩効果」およびそれを与える「対応部位」といった、コーディネート規則を入力する。色の観点からユーザの要求にマッチすると思われる服飾品の情報をユーザに提供する。印象情報もしくは配色情報のいずれかを利用することで、ユーザの嗜好を考慮した服飾品の候補の絞りこみを行うシステムを提供する。
【０００８】
非特許文献１（ブログ記事からのイベント文抽出によるシーンの生成）では、ブログ記事中から出来事を表すイベント文を抽出し、イベント文中に表れる場所、対象物、動作という3つの観点についてそれぞれを画像で表す技術が公開されている。場所、対象物、動作を表す単語を抽出する際に、各単語と特定のフレーズとの組み合わせ（文脈を考慮した検索）の検索クエリでテキスト検索エンジンによる検索を行った場合のヒット数を利用することで、各単語が場所、対象物、動作のどれに該当するかを決定する。
【０００９】
非特許文献２（ソーシャルアノテーションに基づく動画検索手法）では、動画共有サイトにおける動画に付与されたタイトル、サマリ、タグに加えて、動画閲覧者によるコメントを利用した動画検索を提案している。例として、ニコニコ動画（登録商標）を利用しているが、こういったサイトでは、コメントを動画の特定の再生時間に対して付与できる。検索クエリがコメント中に出現した数による検索スコアリングや、複数の検索クエリに対して、それらがコメント中に出現した時間の間隔に基づいたスコアリングを行う手法を提案している。さらに、名詞などのキーワードで検索を行った後、検索結果を感性語によりソートする手法を提案している。
【００１０】
非特許文献３（WordNet : A Lexical Database for English）では、名詞、動詞、形容詞などの品詞の各語の間の関係性を人手によって分類したシソーラスが開示されている。2010年現在、このシソーラスDB（データベース）は、一般にも公開されており言語処理の分野をはじめとして広く用いられている。DB中には、ある単語（synsetと呼ばれる同義語の集合）に対する上位語、下位語、対義語などの関係が記述されている。
【００１１】
非特許文献４（形容詞共起を用いた単語の印象推定法）では、Web検索エンジンを利用して、単語の印象を推定する手法を提案している。形容詞、形容動詞、名詞の印象を、webページ文書上での共起関係に基づいて推定している。形容詞同士の類似度を計るために、共起共立の関係に着目し、2つの形容詞を組み合わせてWeb検索エンジンで検索を行った時のヒット数を利用している。例えば、「明るい」と「美しい」という形容詞があった場合に、"明るく美しい"というクエリでWeb検索エンジンで検索を行った時の検索ヒット数を類似度とするということである。形容動詞についても同様である。一方、名詞に関しては、名詞同士の共起共立の関係は印象を知るためにはあまり役立たないと考え、形容詞または形容動詞と、名詞との共起関係に基づいて各印象との類似度を求める。例えば、「明るい」という形容詞と「花」という名詞があった場合に、これらはよく共起するため、類似度は大きくなる。一方で、「暗い」と「花」の場合は、あまり共起しないため、類似度は小さくなる。この結果より、「花」という名詞は、「明るい」という形容詞との結びつきの傾向が強く、そのため「花」は「暗い」よりも「明るい」という印象が強いことが得られる。他の名詞についても同様にすることで、各名詞の印象を推定できるとしている。
【先行技術文献】
【特許文献】
【００１２】
【特許文献１】特開２００５−２０８８９２号公報
【特許文献２】特開２００８−２７６４０９号公報
【特許文献３】特開２００９−３７２８８号公報
【非特許文献】
【００１３】
【非特許文献１】佐藤圭太、西原陽子、砂山渡：ブログ記事からのイベント文抽出によるシーンの生成、人工知能学会全国大会2007、2F4-5(2007)
【非特許文献２】中村聡史、田中克己："ソーシャルアノテーションに基づく動画検索手法"、DEIM2009，D6-1(2009)
【非特許文献３】George A. Miller : "WordNet : A Lexical Database for English", Comm. Of the ACM, 38-11, pp.39-41 (1995)
【非特許文献４】清水浩平，萩原将文：形容詞共起を用いた単語の印象推定法，IEICE論文誌，Vol.J89-D, No.11, pp.2483-2490(2006)
【発明の概要】
【発明が解決しようとする課題】
【００１４】
しかしながら以上のような従来技術では、ブログ等の文書に適した印象を表す画像を自動で収集・選択するシステムを実現できない。特許文献1では、文書中の感情を判定し、画像データベース中の画像に付与された感情情報との関連度を計ることで、文書の印象に適した画像を選択するとしている。しかしながら、画像に付与された感情情報をどうやって求めるかについては開示されていない。
【００１５】
特許文献2では、ブログ文書中から感情情報を表す言葉を抽出し、文書と同時に入力された画像を、感情情報に応じて変化させることで、文書に適した画像を生成する。この場合、元の画像のコントラストや大きさなどを変化させることで、感情を表現するため、元の画像はユーザが用意しておく必要がある。
【００１６】
特許文献3では、服装のコーディネートにおいて、印象情報や配色情報を利用している。印象や色によって、服飾品の呈示候補の絞り込みを行っているが、服飾品のコーディネートが目的であり、ブログへの画像の付与とは目的が大きく異なる。
【００１７】
非特許文献1では、ブログ文書中に書かれている出来事に対応する画像を付与する。この従来技術では、実際に起きた出来事を端的に表すことに主眼が置かれている。場所、対象物、動作に対応する画像を付与することが目的であるため、その時のユーザの思いや、文書全体における雰囲気など、すなわち印象を考慮した画像は付与されない。
【００１８】
非特許文献2では、動画共有サイトの動画に対するコメントを利用した動画検索手法を提案しているがその精度は十分とは言えず、また動画検索を目的としており、ブログに現れるような感性語で直接的に検索を行っているわけでもなく、ブログの印象に適した画像を付与する目的とは異なる。
【００１９】
非特許文献3では、単語間の関係性を表したシソーラスについて示されている。人手によって、このシソーラスは形成されているため信頼性は高いが、新たな語についてその関係性を構築する場合にはコストがかかる。また、一般に使用される言語としての言葉の関係性を定義するために作成されているため、画像付与などを目的とした場合には有用とは言えない。
【００２０】
非特許文献4では、web検索エンジンによるヒット数により、形容詞、形容動詞といった直接的に印象を表すような語だけではなく、名詞の語の印象も自動で推定している。既存のweb検索エンジンを利用することで、簡易に語の印象を推定できるが、これも非特許文献3と同様に、一般的な語の関係を調べているため、画像付与を目的とした場合には精度が不十分であると考えられる。
【００２１】
本発明は、上記の事情に鑑みてなされたもので、文書に対して、文書の印象に適した画像を精度良く選定する画像選定装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【００２２】
上記の目的を達成するために、本発明は文書に対して適した画像を選定し出力する画像選定装置であって、入力文書から、該入力文書に含まれる単語を抽出し当該抽出された単語と、所与の印象語と、に基づいて文書印象語を定め且つ該文書印象語の各々に対して該文書印象語の前記入力文書における印象の強さを表す文書印象関連度を求める印象情報抽出部と、検索対象画像と、前記所与の印象語を含む画像印象語と、該画像印象語の各々に対して前記検索対象画像に対する画像印象関連度と、を対応づけて保存する印象・画像データベースと、前記文書印象語と前記文書関連度とを受け取り、前記印象・画像データベース内の検索対象画像から対応する画像印象語に前記文書印象語と一致する語が存在する画像を検索し、当該検索された各画像の中から、当該検索一致した各語に対応する前記文書印象関連度と、当該検索一致した各語に対応する前記画像印象関連度とに基づいて前記入力文書に対して適した画像を選定する画像検索部を備えることを第１の特徴とする。
【００２３】
また本発明は、画像と当該画像に対するコメントとを対応づけて保存するコメント・画像データベースと、前記コメント・画像データベースから前記印象・画像データベースを構築するデータベース印象情報抽出部とを備え、該データベース印象情報抽出部は前記コメント・画像データベースに保存された各画像を前記検索対象画像として取得し、前記画像に対応づけられたコメントと前記所与の印象語とに基づいて前記画像印象語を定め且つ前記画像印象関連度を求めることにより前記印象・画像データベースを構築することを第２の特徴とする。
【００２４】
また本発明は、前記コメント・画像データベースに保存された画像及びコメントが、ネットワークを介した画像投稿システムを利用する複数ユーザにより投稿された画像及び当該画像に対して当該画像の閲覧ユーザにより付与されたコメントを含むことを第３の特徴とする。
【００２５】
また本発明は、所定の文書を格納し当該文書に対する検索に応答する第１テキストデータベースを備え、前記印象情報抽出部は前記所与の印象語の各々を前記文書印象語として定め、前記文書印象語の各々と前記入力文書から前記抽出された単語の各々とのペアを検索キーとして前記第１テキストデータベースを検索してヒット数を求め、前記文書印象関連度を当該文書印象語とペアで当該検索により求められた各単語の当該ヒット数の和に基づいて求め、前記データベース印象情報抽出部は前記所与の印象語の各々を前記画像印象語として定め、前記画像に対応づけられたコメントに含まれる単語を抽出し、前記画像印象語の各々と前記コメントから前記抽出された単語の各々とのペアを検索キーとして前記第１テキストデータベースを検索してヒット数を求め、前記画像印象関連度を当該画像印象語とペアで当該検索により求められた各単語の当該ヒット数の和に基づいて求めることを第４の特徴とする。
【００２６】
また本発明は、前記印象情報抽出部は前記入力文書から前記抽出された単語のうち前記所与の印象語に一致する単語を前記文書印象語として定め、前記文書印象関連度を当該文書印象語に対応する単語の前記入力文書中の頻度に基づいて求め、
【００２７】
前記データベース印象情報抽出部は前記コメントから単語を抽出し、当該抽出した単語のうち前記所与の印象語に一致する単語を前記コメントに対応する前記検索対象画像に対する前記画像印象語として求め、前記画像印象関連度を当該画像印象語に対応する単語の前記コメント中における頻度に基づいて求めることを第５の特徴とする。
【００２８】
また本発明は、前記所与の印象語の各々をグループ分けして印象グループに対応づける印象語変換テーブルと、該印象語変換テーブルを参照して印象語を印象カテゴリに変換する印象語変換部とを備え、前記印象情報抽出部は前記定めた文書印象語を前記印象語変換部に渡して文書印象カテゴリに変換させ、前記文書印象関連度を各文書印象カテゴリに属する文書印象語に対する文書印象関連度の和に基づくように更新し、前記データベース印象情報抽出部は前記定めた画像印象語を前記印象語変換部に渡して画像印象カテゴリに変換させ、前記画像印象関連度を各画像印象カテゴリに属する画像印象語に対する画像印象関連度の和に基づくように更新し、前記印象・画像データベースを前記検索対象画像と、前記変換された画像印象カテゴリと、前記更新された画像印象関連度と、を対応づけて保存するよう再構築し、前記画像検索部が前記文書印象カテゴリと前記更新された文書印象関連度とを受け取り、前記再構築された印象・画像データベース内の検索対象画像から対応する画像印象カテゴリに前記文書印象カテゴリと一致するカテゴリが存在する画像を検索し、当該検索された各画像の中から、当該検索一致した各カテゴリに対応する前記文書印象関連度と、当該検索一致した各カテゴリに対応する前記画像印象関連度とに基づいて前記入力文書に対して適した画像を選定することを第６の特徴とする。
【００２９】
また本発明は、前記再構築される前の印象・画像データベースを読み込んで前記印象語変換テーブルを構築するカテゴライズ部を備え、該カテゴライズ部は、前記印象・画像データベースに保存された各検索対象画像に対応づけられた画像印象語同士の共起関係に基づいて印象語同士の類似度を求め、当該類似度に基づいて印象語をグループ分けすることにより前記印象語変換テーブルを構築することを第７の特徴とする。
【００３０】
また本発明は、前記カテゴライズ部が、前記画像印象語に対して前記印象・画像データベースにおいて対応づけられた前記画像印象関連度を用いて前記類似度を求めることを第８の特徴とする。
【００３１】
また本発明は、前記入力文書から、該入力文書に含まれるキーワードを抽出するキーワード抽出部を備え、前記印象・画像データベースには前記検索対象画像の各々に対して当該画像内容を表すタグが付与して保存され、前記画像検索部は前記キーワードを受け取り、前記印象・画像データベース内の検索対象画像から前記検索を行うに際して、前記付与されたタグに当該キーワードが含まれる検索対象画像のみに検索対象を限定して前記検索を行うことを第９の特徴とする。
【００３２】
また本発明は、前記入力文書から、該入力文書に含まれるキーワード及び該キーワードの前記入力文書中での重みを抽出するキーワード抽出部を備え、前記印象・画像データベースには前記検索対象画像の各々に対して当該画像内容を表すタグが付与して保存され、前記画像検索部は前記キーワード及び前記重みを受け取り、前記印象・画像データベース内の検索対象画像から、対応する画像印象語に前記文書印象語と一致する語が存在する画像、又は対応するタグに前記キーワードと一致するタグが存在する画像、を検索し、当該検索された各画像の中から、当該検索一致した各語に対応する前記文書印象関連度及び前記画像印象関連度、又は当該検索一致した各タグに対応する前記キーワードの重み、の少なくとも一方に基づいて前記入力文書に対して適した画像を選定することを第１０の特徴とする。
【００３３】
また本発明は、前記所与の印象語の各々に対する上位所定数の頻出共起単語を列挙した頻出共起単語リストと、前記文書印象語を受け取り、前記頻出共起単語リストを参照して前記文書印象語の各々に対する頻出共起単語を抽出する共起情報抽出部とを備え、前記印象・画像データベースには前記検索対象画像の各々に対して当該画像内容を表すタグが付与して保存され、前記画像検索部は前記文書印象語に対する頻出共起単語を受け取り、前記印象・画像データベース内の検索対象画像から、対応する画像印象語に前記文書印象語と一致する語が存在する画像を前記検索し、当該検索一致した印象語に対応する前記頻出共起単語と前記付与されたタグとが一致しない画像を優先して前記入力文書に対して適した画像として選定することを第１１の特徴とする。
【００３４】
また本発明は、所定の文書を格納し当該文書に対する検索に応答する第２テキストデータベースと、前記第２テキストデータベースから前記頻出共起単語リストを構築するデータベーステキスト検索部とを備え、該データベーステキスト検索部は、前記所与の印象語の各々を検索キーとして前記第２テキストデータベースに当該検索キーに一致する語を含む文書を検索させ、当該検索により得られる所定数の文書から当該所与の印象語と共起する単語を上位所定数抽出し、当該共起する単語の各々に対して、当該共起する単語と当該所与の印象語とを検索キーとして前記第２テキストデータベースに再検索を行わせてヒットする文書数を求め、当該共起する単語を該ヒットした文書数で順位付けすることにより、当該所与の印象語に対する前記上位所定数の頻出共起単語を得て前記頻出単語リストを構築することを第１２の特徴とする。
【００３５】
また本発明は、前記入力文書と共に利用されるテンプレートからテンプレート配色情報を抽出する配色情報抽出部を備え、前記画像検索部は前記テンプレート配色情報を受け取り、前記印象・画像データベース内の検索対象画像から、対応する画像印象語に前記文書印象語と一致する語が存在する画像、又は配色が前記テンプレート配色情報と類似する画像、を検索し、当該検索一致した各語に対応する前記文書印象関連度及び前記画像印象関連度、又は当該検索された類似配色画像の配色類似度、の少なくとも一方に基づいて前記入力文書に対して適した画像することを第１３の特徴とする。
【００３６】
また本発明は、上記の目的を達成するために、文書に対して適した画像を選定し出力する画像選定方法であって、入力文書から、該入力文書に含まれる単語を抽出し当該抽出された単語と、所与の印象語と、に基づいて文書印象語を定め且つ該文書印象語の各々に対して該文書印象語の前記入力文書における印象の強さを表す文書印象関連度を求める印象情報抽出手段と、検索対象画像と、前記所与の印象語を含む画像印象語と、該画像印象語の各々に対して前記検索対象画像に対する画像印象関連度と、を対応づけて保存する印象・画像保存手段と、前記文書印象語と前記文書関連度とを受け取り、前記印象・画像データベース内の検索対象画像から対応する画像印象語に前記文書印象語と一致する語が存在する画像を検索し、当該検索された各画像の中から、当該検索一致した各語に対応する前記文書印象関連度と、当該検索一致した各語に対応する前記画像印象関連度とに基づいて前記入力文書に対して適した画像を選定する画像検索手段を備えることを第１４の特徴とする。
【００３７】
また本発明は、上記の目的を達成するために、文書に対して適した画像を選定し出力する画像選定プログラムであって、入力文書から、該入力文書に含まれる単語を抽出し当該抽出された単語と、所与の印象語と、に基づいて文書印象語を定め且つ該文書印象語の各々に対して該文書印象語の前記入力文書における印象の強さを表す文書印象関連度を求める印象情報抽出手段と、検索対象画像と、前記所与の印象語を含む画像印象語と、該画像印象語の各々に対して前記検索対象画像に対する画像印象関連度と、を対応づけて保存する印象・画像保存手段と、前記文書印象語と前記文書関連度とを受け取り、前記印象・画像データベース内の検索対象画像から対応する画像印象語に前記文書印象語と一致する語が存在する画像を検索し、当該検索された各画像の中から、当該検索一致した各語に対応する前記文書印象関連度と、当該検索一致した各語に対応する前記画像印象関連度とに基づいて前記入力文書に対して適した画像を選定する画像検索手段を備えることを特徴とする画像選定プログラムとして、コンピュータを機能させることを第１５の特徴とする。
【発明の効果】
【００３８】
前記第１〜第５の特徴によれば、文書の印象に適した画像を簡単に付与する画像選定装置を提供することができる。前記第６〜第８の特徴によれば、印象・画像データベース中に出現頻度が低い印象語が保存されている場合であっても、印象カテゴリへ変換することによって印象カテゴリとしての出現頻度が高くなり、当該印象カテゴリを用いて画像検索することによって文書の印象に適した画像の検索精度が改善される。
【００３９】
前記第９、第１０の特徴によれば、文書の印象のみでなく内容も適度に考慮した画像を付与できる。前記第１１、第１２の特徴によれば、文書の印象を表す画像としてより抽象的な画像を選別して、文書の内容に関わらず、より汎用的に利用できる画像を付与できる。前記第１３の特徴によれば、文書と共に利用されるテンプレートの配色とマッチするような色合いの画像が選別され、テンプレートとバランスの取れた画像を付与できる。
【００４０】
前記第１４の特徴によれば、文書の印象に適した画像を簡単に付与する画像選定方法を提供することができる。前記第１５の特徴によれば、文書の印象に適した画像を簡単に付与する画像選定プログラムを提供することができる。
【図面の簡単な説明】
【００４１】
【図１】本発明による画像付与の流れの概略を示すブロック図である。
【図２】本発明の画像選定装置の構成を示すブロック図である。
【図３】本発明の画像選定装置のうち、印象・画像ＤＢを構築するための構成を示すブロック図である。
【図４】文書印象情報及び画像印象情報を説明する図である。
【図５】印象語変換テーブルの例を示す図である。
【図６】ブログテンプレートから配色を抽出する箇所の例を示す図である。
【図７】印象・画像ＤＢに格納されるデータの例を示す図である。
【図８】コメント・画像ＤＢに格納されるデータの例を示す図である。
【図９】本発明において好ましい印象語変換テーブルを作成する過程を模式的に示す図である。
【図１０】キーワード情報を説明する図である。
【図１１】共起情報抽出部を用いて抽象画像を検索する実施形態を模式的に示すブロック図である。
【図１２】本発明の画像選定装置のうち頻出共起単語リストを構築するための構成を示すブロック図である。
【図１３】頻出共起単語リストを構築する過程を模式的に示すブロック図である。
【図１４】本発明の画像選定プログラムを実行するコンピュータシステムのブロック図である。
【発明を実施するための形態】
【００４２】
以下に、図面を参照して本発明の実施形態を詳細に説明する。図１に本発明による処理の流れの概略を示す。まず、ブログ投稿者から入力されたブログ記事（同図（ａ）「動物園に行って楽しかった。…」）から、1つ以上の文書印象語（同図（ｂ）"楽しい"、"つまらない"等）と記事の各印象の強さを表す文書印象関連度（"1.0"、"0.1"等）を含む印象情報（文書印象情報）を抽出する。この文書印象情報をキーとして、予め用意しておいた、同図（ｃ）に示すような印象・画像DBに対して検索を行う。すなわち、文書印象情報中の文書印象語とマッチする印象語を、印象・画像DB中の印象情報（画像印象情報）に含まれる画像印象語の中から検索し、マッチしたものの画像を取得するといったことを行う。同図（ｄ）に示すようにこの取得した画像の中から、画像を選択する基準となる画像選択スコアを求めて、上位何枚かの画像を最終的な出力とする。この候補画像を見て、ユーザは最終的に気に入った画像を選択して、同図（ｅ）に示すようにブログに画像を付与する。
【００４３】
図２に本発明の画像選定装置の構成を示す。本発明の画像選定装置は、入力部１、印象情報抽出部２、画像検索部３、印象・画像データベース（印象・画像ＤＢ）３０、出力部４、印象語変換部５、印象語変換テーブル５０、キーワード情報抽出部６、配色情報抽出部７、共起情報抽出部８、頻出共起単語リスト８０及び第１テキストデータベース（第１テキストＤＢ）９を備える。図１の処理の概要説明における（ａ）を入力部１が、（ｂ）を印象情報抽出部２が、（ｃ）を印象・画像ＤＢ３０が、（ｄ）を画像検索部３が、（ｅ）を出力部４が担う。
【００４４】
第１実施形態では、本発明の画像選定装置は図２に示す構成のうち入力部１、印象情報抽出部２、画像検索部３、印象・画像ＤＢ３０及び出力部４によって、さらに印象関連度の実施形態によっては第１テキストＤＢ９を追加して画像選定を行う。第２〜第５実施形態では第１実施形態にさらに図２において括弧で囲った構成ブロックすなわち、印象語変換部５及び印象語変換テーブル５０、キーワード情報抽出部６、配色情報抽出部７、並びに共起情報抽出部及び頻出共起単語リスト８０、のうち少なくとも一つを追加した構成によって画像選定を行う。これらの各実施形態の詳細については後述するが、各追加構成から得られる情報は全て画像検索部３に渡され、ここでの画像選択スコアや画像検索方式に反映された形となって画像選定が行われる。
【００４５】
すなわち、詳しくは後述するが第１実施形態では上記構成により画像選択スコアとして印象情報に基づく印象語スコアを採用する。第２実施形態は印象語スコアの精度を上げるために、印象情報を扱うにあたって印象語単位ではなく印象語をグループ化した印象カテゴリ単位で算出処理を行い、印象語スコアの別実施形態として印象カテゴリスコアを求め、これを画像選択スコアとする。第３〜第５実施形態では、第１、第２実施形態における印象情報以外の情報のみを利用する又は印象情報以外の情報を追加して利用する等して画像選択スコアを求める。
【００４６】
第３実施形態では、配色情報抽出部７の利用によってテンプレートと画像の配色に基づく配色スコアを求めて、画像選択スコア算出に利用する。第４実施形態では、キーワード情報抽出部６の利用によりキーワード情報を抽出してキーワードスコアを求めて画像選択スコア算出に利用する。第５実施形態では、共起情報抽出部８の利用によって画像検索部３による検索対象に制限を加える。
【００４７】
なお第１又は第２実施形態に対する追加として、第３ないし第５実施形態による追加の少なくとも一つを任意に追加できる。しかしこのうち第４実施形態と第５実施形態とは文書に付与すべき適切な画像の定義が対照的であるので、第４実施形態と第５実施形態との両方を追加する実施形態は形式的には可能であるが効果の観点から好ましくない。
【００４８】
なおまた、第１〜第５実施形態全てにおいて用いる印象関連度は頻度に基づいて求める実施形態と、検索により求める実施形態とが利用可能であるが、検索により求める実施形態においては図２、図３に示す第１テキストＤＢ９を利用する。
【００４９】
また本発明において図２の印象・画像ＤＢ３０を構築するための構成を図３に示す。印象・画像ＤＢ３０は、コメント・画像データベース（コメント・画像ＤＢ）１０、データベース印象情報抽出部（ＤＢ印象情報抽出部）１１、データベース印象語変換部（ＤＢ印象語変換部）１２、印象語変換テーブル５０及びカテゴライズ部１３を備えた構成によって構築され、これらは図２には示していないが本発明の画像選定装置に含まれる。印象・画像ＤＢ３０においても印象関連度を頻度ではなく検索で求める実施形態では図２と共通の第１テキストＤＢ９を用いる。
【００５０】
なお前記第１実施形態において印象・画像ＤＢ３０を構築するための構成は図３に示すうち括弧で囲った部分を除いたコメント・画像ＤＢ１０、ＤＢ印象情報抽出部１１及び印象・画像ＤＢ３０である。前記第１実施形態に対して印象語変換部５及び印象語変換テーブル５０を追加した実施形態（後述するようにこれが第２実施形態である）において印象・画像ＤＢ３０を構築するための構成が、図３に示す全構成である。
【００５１】
なお図２、図３の印象語変換テーブル５０は矢印の向かう当該テーブルを参照して利用するブロックが異なるが、共通の番号５０を付しているように同一である。後述のように印象語変換テーブル５０は印象語変換部５から参照され、DB印象語変換部１２から参照され、またカテゴライズ部１３によって構築される。
【００５２】
なおまた後述するがＤＢ印象情報抽出部１１は印象情報抽出部２と、ＤＢ印象語変換部１２は印象語変換部５と、テキスト処理に関しては同一機能である。よってこれらはそれぞれ同一の構成ブロックであるとしてもよいが、本発明における処理の流れを説明する便宜上、別の名称と番号とを与えている。ＤＢ印象情報抽出部１１及びＤＢ印象語変換部１２では、処理対象テキストにコメント・画像ＤＢ１０によって画像が対応づけられているという点が異なる。
【００５３】
また、本発明において図２の頻出共起単語リスト８０を構築するための構成を図１２に示す。頻出共起単語リスト８０は第２テキストデータベース（第２テキストDB）８０１とデータベーステキスト検索部（DBテキスト検索部）８０２とを備えた構成によって構築される。これら構成も図２には示していないが本発明の画像選定装置に含まれる。なお第１テキストＤＢ９と第２テキストＤＢ８０１は共にテキスト検索に応答するものであるので、同一のデータベースとして利用してもよいが、本発明における処理の流れを説明する便宜上、別の名称と番号とを与えている。
【００５４】
以下、図２、３の各部について説明してから、まず前記第１実施形態における画像選択スコアの算出を説明する。
【００５５】
入力部１には、ブログ投稿者が書いたブログ文書などの文書が入力される。文書はユーザがPC（パーソナルコンピュータ）などの端末で作成したものを入力してもよいし、既に存在しているブログサイト上にアップロードされている文書などでもよい。また、主として配色情報抽出部７で配色情報の抽出に利用されることとなる、ブログのテンプレート（タイトルバー、メニューバー、ブログ記事が書かれる部分の背景）も入力文書と共に入力される。
【００５６】
印象情報抽出部２は、入力された文書から1つ以上の印象語および該印象語の文書印象関連度を含む文書印象情報を抽出する。印象語は入力文書とは独立に所与のものを用意しておき、形態素解析などにより入力文書中の単語から一致するものを抽出する。入力文書から抽出された印象語を最初に用意しておいた所与の印象語と特に区別する場合、文書印象語と呼ぶこととする。
【００５７】
文書印象関連度とは、各文書印象語が実際に入力文書で表現されている印象をどの程度の強さで表しているかを示す量であり、一実施形態では各文書印象語の入力文書中の頻度に基づいて求められる。すなわち当該実施形態では文書印象関連度は頻度自体でもよいし、現れた印象語の間での割合でもよい。また、大量の印象語を含んだ文書コーパスから予め計算しておいた各印象語のdocument frequency (df) を使って、当該文書中に現れた印象語の数であるterm frequency (tf) からtfidfを計算し、それを文書印象関連度としてもよい。なおtfidfも、tfを用いることから明らかなように、印象語の入力文書中の頻度に基づく量に含まれる。
【００５８】
また、文書印象関連度を上述のように頻度に基づいて求める一実施形態に対する別実施形態を説明する。当該実施形態においては印象情報抽出部２が第１テキストＤＢ９を利用する。印象情報抽出部２はまず前述の実施形態と同様に形態素解析などにより入力文書に含まれる単語を抽出する。前述の頻度に基づく実施形態では当該抽出された単語の中から所与の印象語に一致する単語のみを選んで用いたが、当該実施形態では以下のように当該抽出された単語を全て用いて文書印象関連度を求める。
【００５９】
なおまた当該実施形態では前述実施形態と異なり入力文書中に一致する単語がない場合でも印象語の文書印象関連度が求まるが、前述実施形態での呼称と対応させて当該実施形態では入力文書に対して文書印象関連度が求められた印象語のことを文書印象語と呼ぶこととする。さらに前述実施形態と対応させて入力文書中に一致する単語がない場合であっても、所与の印象語の利用により「入力文書から抽出された文書印象語」などと表現するものとする。これら表現は後述のＤＢ印象情報抽出部１１における画像印象語等に対しても同様に用いるものとする。
【００６０】
当該実施形態では印象情報抽出部２は次に、前記予め用意しておいた所与の印象語（例えば「かわいい」、「美しい」など）との関係の強さを、抽出した全ての単語について求め、この結果から文書印象関連度を算出する。関係の強さを求めるため、印象情報抽出部２は抽出した各単語と所与の印象語（例えば、「象」など）の組み合わせ（象ＡＮＤかわいい，象ＡＮＤ美しい， ...）を検索キーとして用いて、大量のテキストが含まれた第１テキストＤＢ９（例えばweb検索エンジン等）に対して検索を行い、その時のヒット数を得る。検索キーの組み合わせすなわちペアの方式は、ＡＮＤ検索でなくて、OR検索(象 OR かわいい)やPHRASE検索（"かわいい象"）などでもよい。
【００６１】
印象情報抽出部２は当該検索によるヒット数を用いて、所与の印象語と入力文書から抽出された各単語との関係の強さを求める。ここで検索ヒット数が多ければ、当該単語と当該印象語の関係性は強いと判断され、少なければ関係性が弱いと判断できる。よってこのヒット数をそのまま単語単位の印象関連度としてもよいし、単語単独で検索した数などでヒット数を正規化した数（Dice係数など）を印象関連度としてもよい。入力文書に対する各印象語すなわち各文書印象語の文書印象関連度は、この単語単位の印象関連度を文書から抽出された単語につき足し合わせた値、または必要に応じて当該値を文書中に出現した、すなわち足し合わせた単語数などで正規化したものなどとする。
【００６２】
なお文書印象関連度は，全印象語に対して求めるのではなく最も強い印象（最大数）または上位所定数の印象に対する数と印象を保持してもよい。この場合、後述の各実施形態におけるスコア算出などにおいて、文書印象関連度が求められなかった印象語は文書印象語が存在しないものとして扱うか、文書印象語は存在するが文書印象関連度の値がゼロであるとして扱えばよい。
【００６３】
なお以上のような各実施形態で文書印象関連度は求められるので、当該文書印象関連度は入力文書の印象の強さを表す量であるが、本願発明において入力文書における印象語の印象の強さとは人の主観に左右されるものではない。
【００６４】
図４は上述のような各実施形態で求まる文書印象情報の例を示す図である。同図（ａ１）のブログ入力文書「動物園楽しかった。かわいいペンギンも見れたし。本当に楽しかった。」に対して、印象語が同図（ｂ）に示すように「楽しい」「かわいい」「つまらない」の３語である場合に得られる文書印象情報が同図（ｃ１）である。これは文書印象語として「楽しい」２語、「かわいい」１語を抽出して、文書印象関連度として各文書印象語の頻度を抽出した例である。図中にも示すように、印象情報抽出部２は形態素解析などにより入力文書中の「楽しかった」から印象語「楽しい」を抽出するものとする。印象語「つまらない」は入力文書に存在しないので抽出されていないが、文書印象関連度の値がゼロとして抽出されたとみなしてもよい。なお同図（ａ２）及び（ｃ２）は上述のように印象情報抽出部２で文書印象情報を抽出するのと同一の処理によってＤＢ印象情報抽出部１１で画像印象情報を抽出することを説明するものであり、後述する。
【００６５】
なお、印象語は、図中のように"楽しい"などの形容詞でもいいし、"春"などの名詞でもよい。また、非特許文献4などにある語の共起関係による印象の推定手法を利用して、"春"といった語から"楽しい"などを推定したものを印象語としてもよい。なお前述のように本発明においては、文書の印象を抽出するにあたって基本となる印象語（"楽しい"など）は予め定義しておいたものとする。
【００６６】
印象語変換部５（第２実施形態にて利用）では、所定の印象語を印象カテゴリに変換する。また後述のように当該変換に対応した文書印象関連度の値も求める。印象カテゴリへの変換の際に、印象語変換テーブル５０を利用する。印象語変換テーブル５０とは、印象語と印象カテゴリの対応付けがされている対応表であり、例を図５に示す。例えば、印象語として、「愉快な」と「心地よい」があった場合に、その印象カテゴリは「楽しい」に対応する。また、印象カテゴリは必ずしも「楽しい」といった言葉である必要はなく、印象カテゴリの識別を表すためのID（番号）でもよい。印象語変換テーブル５０は、非特許文献3、4などの所定の知見から作成してもよいし、後述する手法を利用して作成してもよい。
【００６７】
キーワード抽出部６（第３実施形態にて利用）では、入力文書中から印象語とは別に、名詞や動詞などキーワードとなる語を抽出する。キーワード抽出方法は、言語処理の分野などで広く用いられているtfidfを用いればよい。なお、印象語とキーワードは語として同じものがあってもよいが、前述のように印象語とは入力文書とは独立に所与の語を用意しておくものであり、キーワードとは入力文書自体から抽出されるものである。
【００６８】
配色情報抽出部７（第４実施形態にて利用）は、入力部１から入力されたブログ等のテンプレートから、テンプレート配色情報を抽出する。ブログテンプレートから配色を抽出する例を図６に示す。例えば、ブログのテンプレートが「自然」というテーマのものであれば、ブログのタイトルバーやメニューバーは、緑色や茶色を基調とした配色が行われる。このタイトルバーなどの色情報を抽出する。予め、ブログテンプレートと配色の対応をとっておいたものを利用してもよいし、PCなどの端末におけるディスプレイでの表示画面をスクリーンショットしたものを配色情報としてもよい。
【００６９】
こうして配色情報抽出部７では、ブログのテンプレート領域における色を抽出する。ここでのテンプレートとは、図６に示すようにブログのタイトルが表示されるタイトル領域やユーザが過去に書いた記事へのリンクなどが表示されるメニュー領域および記事書き込み欄の背景領域の色などを複数パターン用意したもので、その領域をテンプレート領域とする。一般的に、当該ブログの投稿者（管理者）は、自分の好みに合ったテンプレートを選択する。例えば、図中のように「自然」をテーマとしたテンプレートであれば、タイトル領域やメニュー領域の色は、「緑」を基調とした色に装飾されたりする。このテンプレートに該当する部分の色を抽出する。所定のRGBの各色成分を取得し、RGB空間またはRGB空間からHSV，L*a*b，L*u*vなどの所定の各種色空間へ変換した上で、各色成分を利用して後述の画像検索部３で利用する。
【００７０】
共起情報抽出部８（第５実施形態にて利用）では、印象情報抽出部２から抽出された印象語とよく共起する単語の共起情報を、頻出共起単語リスト８０から抽出する。共起情報とは、共起する「単語」、およびその単語が出現する「頻度」、およびその頻度に基づく順位である「ランク」を指す。頻出共起単語リスト８０については後で述べる。
【００７１】
印象・画像DB３０は、画像（画像ＩＤおよび画像内容）と画像印象情報（印象語および関連度）が対応づけられて保存されているデータベースである。各画像を識別するためのテキスト情報であるタグも追加して対応づけられて保存されていてもよい。図７に印象・画像ＤＢ３０に格納されたデータ例を示す。当該データおよび印象・画像ＤＢ３０の構築に関しては後述する。
【００７２】
コメント・画像DB１０は、各画像に対して、画像識別のタグを対応づけるとともに、画像閲覧者によるコメントが画像と対応づいた形で保存されているものであり、例を図８に示す。例えば、Flickr（登録商標）のような画像共有サイトがこれに該当する。同図にも示すように画像に対応づけられたタグはサイト管理者等が画像内容識別等の目的で付与したものであり、画像に寄せられたコメントとは区別される。
【００７３】
本発明における当該コメント・画像ＤＢ１０の利用は次のような着目点によるものである。すなわち、自動での画像選定装置の実現には、画像とその画像の印象との対応付けを行った画像データベース（画像DB）が必要となる。その際に、人手で画像DB中の全画像に印象を与えるのは困難である。簡単にその画像DBを構築するために、例えばFlickrのような画像共有サイトの利用が考えられる。画像共有サイトでは、各画像に対して、画像を識別するためのテキスト情報であるタグおよび画像閲覧者によるコメントが存在する。このコメントには、画像に対する閲覧者の感想や印象が多く含まれていると考えられ、閲覧者の印象が直接的に反映されていると考えられる。コメント中の印象を表す言葉（印象語）を利用して、画像との対応付けができれば有用な画像DBが簡単に構築でき、ブログの印象に適した画像の付与が可能となると考えられる。
【００７４】
ＤＢ印象情報抽出部１１はコメント・画像ＤＢ１０に保存されたコメントに対して印象情報抽出部２と同様の処理を行う。すなわち、印象情報抽出部２で用いたのと同一の所与の印象語を用い、同一のテキスト処理によってコメントから文書印象語及び文書印象関連度を含む文書印象情報を抽出する。しかしここで当該コメントはコメント・画像ＤＢ１０において対応づけられた画像に対する評価・感想等のコメントであるので、ＤＢ印象情報抽出部１１が抽出しているのは画像に対する印象である。そこでユーザ入力のブログ文書をテキスト処理の対象とする印象情報抽出部２での抽出結果としての文書印象語、文書印象関連度、文書印象情報と特に区別するために、当該ＤＢ印象情報抽出部１１が画像に対応づけられたコメントから上記抽出した結果を画像印象語、画像印象関連度、画像印象情報と呼ぶこととする。なおまた特に区別せずとも文脈から明らかな場合は単に印象語などと呼ぶこととする。
【００７５】
なお、ＤＢ印象情報抽出部１１のテキスト処理の面で印象情報抽出部２と同一機能であるので、画像印象関連度に関してもコメント・画像ＤＢ１０におけるコメントから抽出した単語のうち所与の印象語と一致する語の頻度に基づいて求める実施形態と、第１テキストＤＢ９を検索して所与の印象語の全てに対して求める実施形態とが存在する。しかしここで同一機能であるとは同一機能に基づく各実施形態がそれぞれにおいて利用可能であるという意味であり、印象情報抽出部２とＤＢ印象情報抽出部１１とで文書印象関連度／画像印象関連度を求める実施形態は必ずしも同一のものを用いなくてもよい。例えば印象情報抽出部２では頻度に基づいて文書印象関連度を求め、ＤＢ印象情報抽出部１１では第１テキストＤＢ９の検索によって画像印象関連度を求めてもよい。
【００７６】
ここでＤＢ印象情報抽出部１１が処理するコメントとは、一画像に対して寄せられた全コメントの集合である。例えば図８の画像１に対するコメントは、コメント１、２、３、…を全て集めた「楽しそう！」、「かわいい！」、「楽しい！」、…であり、これに対して印象情報抽出部２と同様の処理を行って画像１に対する画像印象語及び画像印象関連度を含む画像印象情報を抽出する。
【００７７】
この抽出の例を前述の図４に示す。ＤＢ印象情報抽出部１１への入力文書は同図（ａ１）に示すように画像１に対するコメントであり、同図（ｂ）に示すように印象情報抽出部２で用いたのと同一の印象語「楽しい」「かわいい」「つまらない」によって、同図（ｃ２）に示すような画像印象情報が得られる。
【００７８】
なお画像印象関連度は、文書印象関連度と同様に当該画像に対する全コメント中に現れた各印象語の頻度でもよいし、出現した割合でもよい。また、コメント・画像DB１０中の全画像に対する全コメントにおける各印象語の頻度で、当該画像の各印象語の頻度を割ってもよい。これは、一般的な文書ではなく、画像に対するコメントのみを使って、コメント中に現れやすい印象語と現れにくい印象語の正規化をしていることになる。また、文書印象関連度と同様に、所定の文書コーパスなどを利用して求めたdfを利用して、当該画像のコメントに対するtfidfを計算し、それを画像印象関連度としてもよい。また、ＤＢ印象情報抽出部１１が第１テキストＤＢ９を検索することによって画像印象関連度を求めてもよい。
【００７９】
印象・画像ＤＢ３０の構築は、以上のようにしてＤＢ印象情報抽出部１１がコメント・画像ＤＢ１０に保存された各画像に対するコメントを処理し、得られた画像印象情報を画像と対応づけて印象・画像ＤＢ３０に保存することと、コメント・画像DB１０において各画像に対応づけられたタグを印象・画像ＤＢ３０に上記保存された画像に対してそのままコピーして引き継ぐことによって行われる。すなわち画像と画像印象情報の対応づけにおいて、コメント・画像ＤＢ１０が１次データベース、印象・画像ＤＢ３０が２次データベースの関係となる。
【００８０】
このようにして本発明においてはコメント・画像ＤＢ１０に対して、予め多数の閲覧者等によって膨大な画像に各画像の印象に対応するコメントが付与されているネットワーク上の一般的な画像共有サイト、画像投稿システム等のデータを用いる。各画像はシステム等を利用する多数のユーザが投稿し、それを閲覧した多数のユーザがコメントを付与する。なおコメントが付与されていない画像はＤＢ印象情報抽出部１１の処理対象から省けばよい。このようなコメント・画像ＤＢ１０からＤＢ印象情報抽出部１１等にて自動生成される印象・画像ＤＢ３０を利用することによって、本発明の画像選定装置を利用するユーザ自身が手動で膨大な画像の中から画像を探すという手間をかけることなく、また画像の印象を表す語をシステム開発側が手動で行うなどという負担もなく、当該ユーザのブログ文書の雰囲気に合致した上位所定数の画像が自動選出され当該ユーザに提供されるという効果がある。
【００８１】
画像検索部３では、印象語抽出部２で得られた文書印象語をキーとして、印象・画像DB３０に対して検索を行う。文書印象語とそれにマッチする画像印象語との間で、文書印象関連度と画像印象関連度に基づき画像選択スコアを計算する。そして、スコアの高い一枚以上の画像（候補）を出力部４に渡す。ユーザは出力部４の複数の画像候補の中から、気に入った画像を選択する。
【００８２】
前記第１実施形態すなわち入力部１、印象情報抽出部２、画像検索部３、印象・画像ＤＢ３０及び出力部４の構成（印象・画像ＤＢ３０を構築する場合にはコメント・画像ＤＢ１０及びＤＢ印象情報抽出部１１を用いる）における画像選択スコアは次のとおりであり、当該スコアは印象語に基づいて算出されるスコアであるので印象語スコアと呼ぶこととする。
【００８３】
すなわちユーザの入力文書および所与の印象語を用いて印象情報抽出部２の各実施形態により抽出された各文書印象語をk_xとし、文書印象語k_xの文書印象関連度をD(k_x)、画像検索部３による検索で得られた文書印象語k_xに一致する画像印象語k_xを持つ画像i_zの画像印象関連度をI_iz(k_x)として、印象語スコアIS_izは次式（数式１）で計算される。
【００８４】
【数１】

【００８５】
ここで、K={k_x|x=1,2,...,N_K}は入力文書から抽出された印象語の集合、N_Kは入力文書から抽出された印象語の個数である。なおまた一般に単独画像i_zに対する画像印象語の集合と入力文書の文書印象語の集合とは部分的にのみ一致するので、（数式１）において文書印象語集合Kに含まれる文書印象語k_y∈K のうち、画像i_zの画像印象語に一致するものがないような文書印象語k_yについては画像印象関連度I_iz(k_y)の値をゼロとする。
【００８６】
出力部４では、画像検索部でスコアが高いと判定された画像群の中から1枚以上の画像を、入力部で入力された文書と共に出力する。画像は出力スコアが高いものから順に所定数を出力する。ユーザは出力された画像を全て利用してもよいし、気に入った画像のみを選択して当該選択結果を画像選定装置に送信して再度入力文書と共に受信してもよい。
【００８７】
次に、第１実施形態に印象語変換部５、印象語変換テーブル５０を追加した第２実施形態における画像選択スコアの算出について述べる。第２実施形態において印象・画像DB３０を構築する場合には前述の通り図３の構成を全て用いる。
【００８８】
第２実施形態は第１実施形態が（数式１）に示すように印象語単位で画像選択スコア（印象語スコア）を算出していたのに対して印象カテゴリ単位で画像選択スコアを算出するものであり、これを印象カテゴリスコアと呼ぶこととする。第２実施形態は第１実施形態における効果に対して次のような追加的効果を有する。すなわち、第１実施形態で且つ文書印象関連度・画像印象関連度が頻度に基づく実施形態の場合、所与の印象語として用意しておく語の種類によっては、コメント・画像DB１０のコメント中に現れる頻度が低い語が存在する場合もある。出現頻度が低い印象語を用いて画像と印象との対応付けを行い印象画像DB３０を構築した場合、その対応付けの信頼性が低くなってしまい、本発明の画像選定装置が適切な画像を選択する性能が低下することも考えられる。そこで第２実施形態により、似ている印象語をカテゴライズ（グループ化）してその印象カテゴリの出現頻度を高めた上で、その印象カテゴリと画像とを対応付けることで、信頼性を高めるという効果が得られる。
【００８９】
なお、第１テキストＤＢ９を検索利用して文書印象関連度・画像印象関連度を求める実施形態では上述のような印象語の設定による対応づけの信頼性低下のおそれは少ないと考えられるが、この場合であっても当該第２実施形態と併用することはできる。
【００９０】
まず前述の図５のような印象語変換テーブル５０が既に作成されているものとして、第２実施形態において画像選択スコアとして採用する印象カテゴリスコアの算出を説明する。印象情報抽出部２で第１実施形態と同様に文書印象情報を抽出し、印象語変換部５へ文書印象情報を渡す。印象語変換部５は受け取った文書印象語を印象変換テーブル５０を参照して対応する印象カテゴリに変換する。これを文書印象カテゴリと呼ぶこととする。また印象語変換部５では文書印象語と対応づけて印象情報抽出部２で抽出された文書印象関連度に対して、印象語の印象カテゴリへの変換に対応する処理を行う。すなわち印象語単位で値が定義されていた文書印象関連度を拡張して印象カテゴリ単位での値を求める。当該値は当該文書印象カテゴリに属する文書印象語の関連度を足し合わせた値となるが、同様に「文書印象関連度」と呼ぶこととする。これらは「文書印象語に対応する文書印象関連度」と、「文書印象カテゴリに対応する文書印象関連度」又は「更新された文書印象関連度」、などとして区別するものとする。
【００９１】
（例１）例えば、第１実施形態で所定の印象語が「愉快な」、「心地よい」、「快い」…で、ある入力文書に対して文書印象関連度が印象語の頻度として「愉快な＝３語」、「心地よい＝４語」、「快い＝２語」…として得られているとする。この場合第２実施形態で印象語変換テーブル５０が「印象カテゴリ１（愉快な）、（心地よい）」、「印象カテゴリ２（快い）」…である場合、前記入力文書に対する文書印象関連度は各印象カテゴリに属する全印象語の頻度の和として「印象カテゴリ１＝７語＝（愉快な：３語）＋（心地よい：４語）」、「印象カテゴリ２＝２語＝（快い：２語）」…となる。頻度以外を用いる場合でも同様に足し合わせればよい。
【００９２】
このような文書印象カテゴリ及び当該文書印象カテゴリに対応する文書印象関連度が印象語変換部５から画像検索部３に渡される。画像検索部３では印象語変換部５から受け取った文書印象カテゴリをキーとして印象・画像ＤＢ３０を検索して対応する画像印象関連度を求める。
【００９３】
印象・画像ＤＢ３０では第１実施形態において各画像に対して対応する「画像印象語」及び画像印象関連度が格納されていたのに対応して、第２実施形態では各画像に対して対応する「画像印象カテゴリ」及び画像印象関連度が格納されている。このような画像印象カテゴリ単位での画像印象関連度は、ＤＢ印象語変換部１２と印象語変換テーブル５０との利用によって前述の印象語変換部５の説明と同様にして求められる。すなわち、コメント画像ＤＢ１０においてある画像に対応する全コメントからＤＢ印象情報抽出部１１にて画像印象語及び画像印象関連度を含む画像印象情報を算出し、当該画像印象情報をＤＢ印象語変換部１２に渡して印象語変換テーブル５０を参照して画像印象語を印象カテゴリで一括して画像印象カテゴリに変換したうえで、ＤＢ印象情報抽出部１１にて画像印象カテゴリ単位での画像印象関連度を求める。当該値は前述の（例１）と全く同様に画像印象カテゴリに属する画像印象情報の関連度の値の和である。こうして第２実施形態では画像印象カテゴリ単位で画像印象関連度を算出して印象・画像ＤＢ３０を構築する。なお当該構築においてタグは第１実施形態と全く同様のまま利用できることは明らかである。
【００９４】
以上のようにして、第２実施形態では第１実施形態における印象語スコアIS_izの拡張版として印象カテゴリスコアIS_izを同様の（数式１）によって求め、これを画像選択スコアとする。ただし第２実施形態における（数式１）ではユーザの入力文書から印象情報抽出部２および印象語変換部５を経て抽出された各文書印象カテゴリをk_xとし、文書印象カテゴリk_xに対応する文書印象関連度をD(k_x)、検索により得られた文書印象カテゴリk_xに一致する画像印象カテゴリk_xを持つ画像i_zの画像印象関連度をI_iz(k_x)とし、K={k_x|x=1,2,...,N_K}は入力文書から抽出された印象カテゴリの集合、N_Kは入力文書から抽出された印象カテゴリの個数と読み替えるものとする。
【００９５】
次に、第２実施形態に用いる印象語変換テーブル５０の作成方法について述べる。前述の通り非特許文献3、4の技術によって作成することができるが、自動、手動による違いはあるものの、画像を用いずに語のみの一般的な関係性を構築するという点で同じであり、本発明のように画像付与を行う場合には、適さないことが考えられる。本発明では印象・画像ＤＢ３０に格納されたコメントを利用した画像付与に特化した形での語の関係性の構築について述べる。
【００９６】
当該構築においてはまず第１実施形態における構築方法によって印象語単位で構築された印象・画像DB３０をカテゴライズ部１３が読み込んで、以下に具体的に説明する手法によって印象語変換テーブル５０を作成すると共に、カテゴライズ部１３が当該構築の結果を利用して印象・画像DB３０を第２実施形態に沿った形式すなわち印象カテゴリ単位で構築されたデータベースへと更新する。なお当該更新にあたっては更新された印象カテゴリ単位のデータをデータベースに上書きする代わりに追加することによって、印象語単位で構築されたデータを参照可能なように残しておいてもよい。
【００９７】
図９は、カテゴライズ部１３による、画像に対するコメント中の語の共起関係に基づく印象語のカテゴライズ方法を模式的に示している。当該方法の着目点は次の通りである。すなわち、画像共有サイトなどでは、ある１つの画像に対して、複数の画像閲覧者からのコメントが付与されている場合がある。この場合に、画像閲覧者が画像に対して共通の印象を受けているならば、付与されたコメント同士は、同じような意味であることが多い。このことから、コメント中の語同士も同じような意味であると推測される。したがって、同じ画像に対するコメント中に共起して現れる語同士は類似度が高いと考える。この類似度は、画像との関係性が反映されているコメントから求めているため、非特許文献3、4による語の関係性よりも画像付与に特化しているといえる。以上の着目点からも明らかなように、当該類似度を利用して印象語をカテゴライズし印象語変換テーブル５０を作成することで本発明の画像選定装置が適切な画像を選択する精度が向上するという効果がある。
【００９８】
なお、上記の説明では効果を得るための着目点を強調するために「コメント中の語」等として説明したが、実際にカテゴライズ部１３が処理するのは印象・画像ＤＢ３０内の画像印象語である。当該画像印象語は前述のように、コメント・画像ＤＢ１０において画像に対して付与されたコメントに由来し、当該コメント中からＤＢ印象情報抽出部１１で抽出されて印象・画像ＤＢ３０に保存される。上記の説明ではこのような由来によってその効果を生ずるという点が明確となるよう「コメント中の語」等で説明した。
【００９９】
図９の例では、"愉快な"、"心地よい"、"快い"の3つの印象語の関係について示している。同図（a）のカテゴライズ前、すなわち第１実施形態によって構築された印象・画像DB３０における3つの語の１画像内における画像印象語としての共起関係を見ると、"愉快な"に対して、"心地よい"、"快い"がそれぞれ共起している。例では"愉快な"-"心地よい"、 "愉快な"-"快い"はそれぞれ2回（２画像）ずつ共起しているが、この共起頻度を印象語間の類似度として採用してもよい。この場合は類似度が同じという判定になる。もしこの共起頻度に差があれば、共起頻度が高い語の組み合わせの方が、類似度が高いということになる。類似度の高い印象語をカテゴライズすると、印象語カテゴリ同士の類似度を計算する必要が出てくるが、後述の（数式２）よりも明らかなようにそれは同様に行うことができる。
【０１００】
印象語カテゴリAと印象語カテゴリBの類似度（または距離）Rel(A,B)は、以下（数式２）のようにして求められる。当該類似度を求めるためにまず、全コメント集合Γに含まれ、ある1つの画像zに対して付与されたコメント群γ_zにおいて、印象語カテゴリΑに含まれる印象語（α_x）と印象語カテゴリΒに含まれる印象語（β_y）の関係の強さをf(α_x,β_y,γ_z)によって求める。印象語α_xと印象語β_yの共起頻度を考慮した場合、以下の手法（１）（数式３）の計算式でfを求める。
【０１０１】
（数式３）においてλは任意の値で構わないが、通常λ＝1とする。こうして（数式２）に（数式３）を適用すると、全コメント中における各印象語間の共起頻度の総和を正規化したものとして類似度Rel(A,B)が得られる。なお、手法（１）では、直感的にはfは類似度であるので、値が高いほど印象語カテゴリ間は類似していることになる。
【０１０２】
一方で、共起頻度に重みを持たせた場合、以下の手法（２）の計算式（数式４）でfを求める。この重みは、画像に対する印象語の関連度の強さが反映されている。2つの印象語が共起していた場合に、2つの印象語に対する画像印象関連度の差が小さければ、その2つの印象語は類似しており、差が大きければ、その2つの印象語は類似していないという考えに基づく。これは、同じような意味を持つ印象語の共起頻度は同じくらい出現するであろうという仮定からである。なお、手法（２）では、直感的にはfは距離であるので、値が高いほど印象語カテゴリ間は類似していないということになる。
【０１０３】
（数式４）においてg(α_x,γ_z)は、ある1つの画像ｚに対するコメント群γ_zにおける印象語α_xと画像との関連度であり、同様にg(β_y,γ_z)は、印象語β_yと画像との関連度であり、これらは印象・画像DB３０を第１実施形態によって作成する際に既に求められているものである。
【０１０４】
以上の説明における数式２〜４は次に示す通りである。
【０１０５】
【数２】

【０１０６】
なお、（数式２）において規格化項N_A、N_Bはそれぞれ印象語カテゴリＡ、Bに属する印象語の種類数であり、x, yは印象カテゴリA、Bに属する各印象語α_x、β_yに渡る和を（α_x∈A, β_y∈B）の部分で表すための添字、規格化項N_Γはある一つの画像に対する全コメント数である。
【０１０７】
【数３】

【０１０８】
【数４】

【０１０９】
上記（数式２）により算出される値Rel(A,B)を基準として、印象語カテゴリAと印象語カテゴリBのカテゴライズを、所定の階層的クラスタリング手法（最短距離法、最遠距離法、群平均法、Ward法など）を利用して実現する。上述のように手法（１）では値が高いほど類似しており、手法（２）では値が低いほど類似しているとしてカテゴライズを行う。なおカテゴライズの開始にあたっては各印象語が１語毎に１カテゴリに対応しているものとして（数式２）の値を算出すればよい。
【０１１０】
任意の閾値条件を与えて、クラスタ数がその閾値条件を満たすまでクラスタリングによる統合を行うことにより、図９（ｂ）に示すような各印象語カテゴリが形成される。そのカテゴリと各印象語の対応付けを同図（ｃ）に示すように印象語変換テーブル５０に保存する。この対応付けを利用して、文書印象語および画像印象語を前述のようにそれぞれ文書印象カテゴリおよび画像印象カテゴリに変換して、画像検索部３による検索を行う。
【０１１１】
次に、印象情報に追加して入力文書のテンプレートと候補画像の画像配色を考慮した画像検索を実現する第３実施形態について述べる。配色情報抽出部７によって、図６で説明したような入力文書に対応するテンプレート領域（画素単位、ブロック単位など）における各色成分を求める。一方で、印象・画像DB３０中の画像も同様に画像の各領域（画素単位、ブロック単位、背景、前景など）の色成分が求まる。当該印象・画像ＤＢ３０中の画像の色成分算出は印象・画像ＤＢ３０に格納された画像に対して予め処理しておいて画像と共に保存しておいても、画像検索部３が検索時に行ってもよい。テンプレートの色成分と画像DB中の画像の色成分の距離を求めることで、テンプレートと画像の配色がマッチする度合い（以後、配色スコアと呼ぶ）を求めることができる。
【０１１２】
色成分を表す情報としてテンプレートと画像のそれぞれの色ヒストグラムを利用する。ヒストグラム間の距離を計算することで、配色スコアを求める。色空間(例：RGB空間) をC、各色成分(例：R,G,B)をその要素c_y，ヒストグラムのビンwにおける、テンプレートの色成分のヒストグラムの頻度をT_cy(w)，画像i_zの色成分のヒストグラムの頻度をh_izcy(w)として、それらのユークリッド距離として配色スコアCS_izを次式（数式５）で求めることができる。
【０１１３】
【数５】

【０１１４】
ここで、N_Bは、ヒストグラムのビンの数（色空間の分割数）であり、任意に設定する。例えば、ヒストグラム空間を10個に分割したとすれば、10個のビンができるので、N_B=10となる。また、テンプレートのヒストグラムの頻度をT_cy(w)および画像のヒストグラムの頻度h_izcy(w)は、それぞれ頻度の合計値で正規化されたものである。T'_cy(w) およびh'_izcy(w)は次の（数式６）（数式７）のように正規化前の各頻度を示し、N_TおよびN_Hは、各頻度の合計値である。
【０１１５】
【数６】

【０１１６】
【数７】

【０１１７】
上記の例では、例えばRGB空間のR,G,B全てを利用する場合について書いたが、その一部のRだけを利用して配色スコアを求めてもよい。また、色空間自体もRGBではなく、例えばHSVなどの各種色空間を用いてもよく、その中のH成分だけで配色スコアを求めてもよい。また、頻度を求める単位は、画素毎でもよいし、任意の大きさのブロック毎(矩形)でもよいし、任意の形状の範囲毎（円など）でもよい。ブロック毎などで求める場合には、ブロックの中での最頻の色成分をそのブロックの代表色成分として、画像全体の色の頻度を計算してもよい。さらには、画像中の位置などによって（例えば、画像の中央と端で、中央の方が重みが大きくなるように）、頻度に重みを持たせるなどしてもよい。距離は、ユークリッド距離だけはなく、各次元の分散と相関を考慮したマハラノビス距離など所定の距離定義を利用してもよい。また、ビン毎に対する重みを持たせてもよい。
【０１１８】
こうして求めた配色スコアCS_izと第１実施形態（又は第２実施形態）での既述の印象語スコア（又は印象カテゴリスコア）IS_izの重み付き線形和を求めて統合することにより、第３実施形態における画像選択スコアを次の（数式８）のように求めることができる。なお、aは統合重みであり、0.0〜1.0の任意の連続値とする。
【０１１９】
【数８】

【０１２０】
ここでa=1.0であれば、第１、第２実施形態に該当し印象語スコア、印象カテゴリスコアのみを利用することとなり、逆にa=0.0であれば、第３実施形態の特徴である配色スコアのみを利用することとなる。テンプレートの色合いに近い色合いの画像を利用して統一感を出したい場合には、類似度が高い画像を利用すればよいし、逆にテンプレートの色合いに遠い色合いの画像を利用して補色効果によるインパクトを与えたい場合には、配色スコアCS_izを（数式５）で求めた値の符号を負に変えたものを（数式８）で求めるなどして、色的な類似度が低く且つ印象語スコアが高い画像を利用すればよい。以上により、第３実施形態では配色を適度に考慮した印象語による検索が実現できるという効果がある。
【０１２１】
次に、キーワード情報を利用して画像検索する第４実施形態について述べる。ブログ等の入力文書からキーワード抽出部６により抽出されるキーワード情報の例を図１０に示す。キーワード情報（ｂ）は、図１０に示すように入力文書（ａ）中のキーワードおよびその重みであるキーワード重みからなる。ここでは、印象語とは別に例えば名詞や動詞といった語を印象語と区別してキーワードと呼ぶ。また、キーワード抽出は例えばtfidf法により、キーワード重みは、当該tfidfの値などの既存手法を利用して、入力文書に含まれる単語のうち重要度が高いものをその重みと共に所定数抽出する。当該キーワード情報を用いて画像検索部３が印象・画像ＤＢ３０を検索することにより、例えば、"かわいい＋犬"という検索クエリ要求に対応することができるようになり、本発明において入力文書の印象をその内容から直接的に反映した画像を選択する精度が高まるという効果がある。
【０１２２】
印象・画像DB３０には、図７に示すように印象語の他に、画像に対するタグも保存されている。前述のように当該タグはコメント・画像ＤＢ１０において付与されていたタグをＤＢ印象情報抽出部１１によって直接引き継いだタグを用いることができる。印象・画像ＤＢ３０に格納されたこのタグに対して、画像検索部３はキーワード抽出部６より受け取ったキーワードをキーとして検索を行うと共に次のようにキーワードスコアを算出する。
【０１２３】
入力文書中のキーワード集合Wに含まれるキーワードｗ_xが、印象・画像DB３０中の画像i_zに対するタグ集合T_izのタグt_yに一致するか否かを判別する（数式１０）に示す関数E_iz(w_x,t_y)を利用して、キーワードと画像との関係性の強さを表すキーワードスコアKS_izは次式（数式９）で表すことができる。なお、ω_wxはキーワードw_xの重みであり、ω_wx =1として重みなしとしてもよいし、キーワード情報抽出部６にて各単語に対して求めたtfidfなどの値を利用してもよい。N_Wは文書中のキーワードの個数であり、N_Tizは画像i_zに対するタグ集合T_izに含まれるタグの個数である。また、通常、λ=1である。
【０１２４】
【数９】

【０１２５】
【数１０】

【０１２６】
またタグのみだけではなく、コメントからタグに相当するような名詞などを抽出しておいて、それをタグの代替として利用してもよい。
【０１２７】
このキーワードスコアKS_izと、上述した第１実施形態又は第２実施形態における印象語と画像との関係を表す印象語スコア又は印象カテゴリスコアIS_izを統合することにより、画像検索部３は第４実施形態における画像選択スコアS_izを次の（数式１１）のように求めることができる。なお、bは統合重みであり、0.0〜1.0の任意の連続値である。
【０１２８】
【数１１】

【０１２９】
b=1.0であれば、印象語スコア、印象カテゴリスコアのみを利用する第１、第２実施形態に一致し、逆にb=0.0であれば、第４実施形態の特徴であるキーワードスコアのみを利用することとなる。
【０１３０】
また、第４実施形態の別実施形態として、上述のようにキーワードスコアを利用するのではなく、印象・画像ＤＢ３０に格納された画像のうちキーワードをタグに含む画像のみを検索対象として、第１又は第２実施形態によって画像検索部３から印象語又は印象カテゴリをキーとして検索を行ってもよい。
【０１３１】
この場合には、入力文書から抽出された文書印象語に対応する画像印象語を含み、かつタグ中に入力されたキーワードのいずれか一つ以上含む画像を検索対象とした上で、印象語スコア又は印象カテゴリスコアIS_izのみを次式（数式１２）で計算して、それを画像選択スコアとする。
【０１３２】
【数１２】

【０１３３】
以上により、第４実施形態においては印象語および配色により画像の内容を適度に考慮した上で、入力文書の印象を表すような画像を検索できるようになるという効果がある。
【０１３４】
さらに同様にして第１又は第２実施形態に追加して、第３実施形態における配色と第４実施形態におけるキーワードの両方を考慮した印象語による画像検索手法も、配色スコア、キーワードスコア、印象語スコアの3つの重み付き線形和を求めることにより実現できる。この場合、統合重みのパラメータがa,bの2つとなり、次式（数式１３）で求めることができる。
【０１３５】
【数１３】

【０１３６】
これにより、配色と画像の内容を考慮した上で、印象を表すような画像を検索できるようになるという効果がある。
【０１３７】
次に、第５実施形態として共起情報抽出部８から頻出共起単語リスト８０を利用した結果を用いて画像検索部３が抽象画像を検索する場合について述べる。図１１に抽象画像検索の流れを示す。
【０１３８】
当該第５実施形態において検索し選定する画像を特に抽象画像と呼ぶのは次のような着目点によるものである。すなわち、印象を表す画像として具体的な画像が本発明の画像選定装置により選択されても、場合によっては適切な画像でないことがある。例えば、「猫」のブログ記事を書いていて、その記事の印象が「かわいい」であった場合に、「かわいい犬」の画像が選択された場合、適した画像とは言えないことがある。「かわいい犬」の画像は、「かわいい」という印象を表す一方で、「犬」という具体的なオブジェクトを表す画像とも言える。このオブジェクトにできるだけ依存せずに印象を画像で表したい場合、できるだけ抽象的な画像が望まれる。そこで、抽象的な画像を得るために、「かわいい」と「犬」のようによく共起して用いられるような画像を選択候補から省けばよいと考えられる。
【０１３９】
このような着目点のもと、第５実施形態では印象を表す抽象的な画像を取得できるという効果がある。なおこのため、効果的な画像を選択するという共通の目的ではあるが、第３実施形態で入力文書から直接的にキーワードを拾ってそのキーワードにタグが一致する画像を取得するのとは手段が対照的であるので、第５実施形態と第３実施形態は（形式上は可能だが）併用すべきではない。
【０１４０】
第５実施形態では抽象画像の検索実現のために、印象情報抽出部２で抽出された印象語と共起する単語を共起情報抽出部８によって抽出する。共起情報抽出部８では、頻出共起単語リスト８０から、印象情報抽出部１１で抽出された文書印象語とよく共起する単語を共起頻度順に抽出する。頻出共起単語リスト８０は各印象語に対して作成されるが、各印象語と共起する「単語」すなわち頻出共起単語とその単語が共起した「頻度」、およびその頻度順に並べた時の順位を表す「ランク」が保存されている。この印象語とよく共起する単語を頻出共起単語と呼ぶことにする。
【０１４１】
画像検索部３では印象情報抽出部２および共起情報抽出部８の結果を受け取り、「頻度」または「ランク」に対して、所定の閾値を超える上位の所定数の頻出共起単語を印象語と共に利用して、画像検索を行う。印象・画像DB３０に対して検索を行う際に、第１、第２実施形態におけるように印象語をクエリとするだけでなく、頻出共起単語もクエリとする。印象・画像DB３０中の当該印象語を含む画像でかつ、頻出共起単語をタグに含まない画像を選択する。なお図７に示す印象・画像DB３０の例からも明らかなように、印象語クエリは画像印象語を対象とし、頻出共起単語クエリはタグを対象として検索し、これら全てのクエリが一致する画像を選出する。
【０１４２】
こうして第５実施形態では、例えば第１実施形態における（数式１）なら、文書印象語k_xに一致する画像印象語k_xを持ち、且つ画像のタグに文書印象語k_xの各々に対して上位所定の頻出共起単語と一致するものがないような画像i_z、と式の意味を読み替えることによって画像検索部３により画像選択スコアが算出できる。同様の読み替えによって第２〜第４実施形態と第５実施形態とを組み合わせることもできる。
【０１４３】
図１１の具体例を用いて以上の抽象画像の検索を説明する。同図（ａ）は文書印象情報抽出部２で印象語を抽出しており、ここから始めて抽出された印象語のうち「かわいい」に頻出共起単語を求める例が図１１である。（ａ）の印象語の各々が文書印象情報抽出部２から共起情報抽象部８に渡され、各印象語の頻出共起単語を頻出共起単語リスト８０から読みとる。（ｂ）では頻出共起単語リスト８０のうち印象語「かわいい」に対応する部分のデータ例が示されている。
【０１４４】
共起情報抽出部８ではリスト中の印象語に対応する頻出共起単語から頻度が所定基準を満たす頻出共起単語をその共起頻度順に抽出する。同図の例は所定基準として頻度が１０回以上とした例であり、（ｃ）に示すように印象語「かわいい」に対して頻出共起単語「犬」が抽出され、画像検索部３に渡される。したがって画像検索部３では「かわいい」という印象語と「犬」という頻出共起単語を利用して、（ｅ）に示すような印象・画像ＤＢ３０に対して画像検索を行うことになるが、"画像１"に関しては、画像DBの印象語中に「かわいい」が存在するが、タグ中に「犬」が存在するため、この画像は選択されない。一方で、"画像２"に関しては、画像DBの印象語中に「かわいい」が存在し、タグ中には「犬」が存在しないため、（ｆ）に示すようにこの画像は選択されるということになる。
【０１４５】
以上、頻出共起単語を用いた選択画像の制限はタグに頻出共起単語が含まれるものを選択対象から除外するとしたが、選択画像の制限の別実施形態として、印象・画像DB３０に対して前述のように１次データベースの関係にある、コメント・画像DB１０中のコメントも印象・画像DB３０中に保持しておき、そのコメント中に頻出共起単語が含まれる画像を選択対象から除外するとしてもよい。
【０１４６】
さらにまた、タグおよびコメントの少なくとも一方に頻出共起単語が含まれる画像を画像の選択候補から除外してもよいし、選択候補の中での順位を低くすることにしてもよい。順位の決定方法は、頻出共起単語を含まない画像を上位として、頻出共起単語を含む画像を下位とする。このような頻出共起単語を含むか否かによる順位の重み付けは、例えば第１実施形態における（数式１）を第５実施形態に次（数式１４）のように適用すればよい。
【０１４７】
【数１４】

【０１４８】
ここで、（数式１）と同様にK={k_x|x=1,2,...,N_K}は入力文書から抽出された印象語の集合、N_Kは入力文書から抽出された印象語の個数である。C(k_x)が頻出重み単語を含むか否かによる重み付け係数であって、例えば画像i_zのタグ等に当該画像i_zの画像印象語k_xの頻出共起単語があればC(k_x)＝C₁、なければC(k_x)＝C₂、C₁とC₂は所定の定数で0≦C₁＜C₂を満たす、などとすればよい。第２〜第４実施形態と第５実施形態の組み合わせも同様にできる。
【０１４９】
以上では頻出共起単語リスト８０は予め与えられているものとして第５実施形態を説明してきた。次にこのような頻出共起単語リスト８０の構築を図１３で説明する。当該構築を行う構成が前述のように図１２であり、以下に説明するようにＤＢテキスト検索部８０２が所定の印象語の各々をキーとして第２テキストＤＢ８０１に対して検索を行い、検索結果から共起単語頻度リストを作成し、当該共起単語頻度リストと印象語の各々とをキーとして再度テキストＤＢ８０１を検索した結果から頻出単語リスト８０が構築される。
【０１５０】
図１３（ａ）に示すような各印象語をキーとして、同図（ｂ）第２テキストDB８０１において、テキスト検索を行う。第２テキストＤＢ８０１には既存のテキスト検索エンジンを採用すればよい。なお当該印象語は印象情報抽出部２、ＤＢ印象情報抽出部１１で用いたのと同じの、本発明の画像付与装置全体において共通で用いられる所与の印象語である。（ｃ）に示すように各キー、すなわちこの例では「かわいい」にマッチしたWebページを所定のページ数だけ取得し、そのWebページ中の各単語とキーとした印象語との共起頻度を求めて、（ｄ）のような共起単語頻度リストを作成する。これによりまず印象語と共起する単語を大まかに知ることができる。なお、当該テキスト検索エンジンの検索対象の文書はWebページとして説明しているが、本発明の画像選定装置をブログ文書に適用する場合に好ましい実施形態がWebページであり、その他一般の文書が検索対象であってもよい。
【０１５１】
次に、印象語とこの共起単語頻度リストにある単語の組み合わせをキーとして、（ｅ）に示すように再び（ｂ）のテキスト検索エンジンにより検索を行い、（ｆ）に示すようにその時のヒット数を（ｇ）のように頻出共起単語リストの頻度とする。
【０１５２】
（ｅ）の再検索における単語の組み合わせ方として、「印象語」 AND 「共起単語」というようなAND検索を行ってもよいし、「印象語」と「共起単語」をひとつの単語として検索を行ってもよい。例えば、前者は、「かわいい」 AND 「犬」というAND検索で、必ずしも「かわいい」と「犬」がWebページ中の文書において近くに存在しなくてもヒットする。一方で、後者は、「かわいい犬」という印象語と共起単語の組み合わせをひとつのキーとして検索を行うことを意味し、この場合にはWebページ中の文書において「かわいい犬」という並びで存在しているページのみがヒットする。また、ページ内の共起ではなく、ある一文で共起する（文内共起）場合のみをヒットするようにしてもよい。これは、例えば、「あの犬はかわいい。」という一文の中で共起することを意味している。逆に、「あの犬は大きい。でも、かわいい。」という場合には、ページ内では共起しているが、文内では共起しないため、ヒットしない。なお、上述した方法以外で既に作成された単語と単語の共起関係があれば、それを利用してもよい。
【０１５３】
なお、以上の第１〜第５実施形態に関してはいずれを適用するかを入力文書の入力ユーザが選択できるようにしておいてもよい。当該選択の命令は入力文書と共に本発明の画像選定装置が受信して選択された実施形態を適用するようにすればよい。
【０１５４】
図１４は、本発明による以上説明したような画像選定における全機能又は一部機能を実行するコンピュータシステムのブロック図であり、CD-ROM等の記録メディアに記録された画像選定プログラムの全部又は一部（以下、当該全部又は一部を、本発明のプログラムと呼ぶこととする。）を読みとるドライブ装置１００と、ネットワークを介してデータを送受信するインタフェース（I/F）１０１と、オペレーティングシステムと共に前記読みとられた本発明のプログラムや当該プログラム実行に必要なデータを一時記憶する、例えばHDDやフラッシュメモリ等からなる補助記憶装置１０２と、ブログ等の入力文書や配色情報等が入力されるキーボードやマウス等の入力装置１０３と、本発明のプログラムの実行結果を出力するディスプレイなどの出力装置１０４と、各種のデータやプログラムが不揮発に記憶されたROM１０５と、本発明のプログラムを実行するCPU１０６と、CPU106にワークエリアを提供するRAM107とを主要な構成としている。
【０１５５】
なお、本発明のプログラムは記録メディアからドライブ装置１００により読み込む代わりに、ネットワーク上の他コンピュータ等からI/F１０１を介して読み込むなどしてもよい。また複数コンピュータで本発明のプログラムを実行する場合には、中間的なデータの送受信をI/F１０１を介して行ってもよい。また、入力文書や配色情報は入力装置１０３からではなく、I/F101を介して他コンピュータから受信してもよい。よって図２の入力部１が入力装置１０３又はI/F１０１に、出力部４が出力装置１０４又はI/F１０１に該当する。
【０１５６】
従って、例えば印象情報抽出部２、画像検索部３、印象語変換部５、キーワード情報抽出部６、配色情報抽出部７、共起情報抽出部８、DB印象情報抽出部１１、ＤＢ印象語変換部１２、カテゴライズ部１３、ＤＢテキスト検索部８０２の各機能は、本発明のプログラムに従って動作するCPU１０６、ROM105、RAM107等の一機能に該当する。また第１テキストＤＢ９、コメント・画像ＤＢ１０、印象・画像DB３０、印象語変換テーブル５０、頻出共起単語リスト８０、第２テキストＤＢ８０１などは補助記憶装置１０２の一機能に該当する。
【０１５７】
なお第１テキストＤＢ９及び第２テキストＤＢ８０１は補助記憶装置１０２の一機能とともにCPU106等の機能もそなえて前記検索を可能とする。またコメント・画像ＤＢ１０やテキストＤＢ８０１などは、補助記憶装置１０２の一機能を担うが、I/F１０１を介して別のコンピュータ上にあってもよい。
【０１５８】
以上、本発明によれば、次のような効果が得られる。第１実施形態によってブログの文書の印象に適した画像を簡単にブログに付与することができる。さらに、第２実施形態によって印象語を印象語カテゴリに変換することで、画像の検索精度が高まる可能性がある。また、第３実施形態によって文書からキーワードを抽出して、印象語と併用して検索に利用することで、画像の内容も考慮した上で、印象を表す画像を取得できる。さらに、第４実施形態によってブログのテンプレートの配色と画像の配色の適合度を考慮して画像検索を行うことで、配色にマッチした画像を精度良く取得できる。これにより、統一感のとれた（もしくは補色利用等によりインパクトのある）ブログとすることができる。さらに、第５実施形態では抽象画像検索により、印象を表すより抽象的で汎用的な画像が取得でき、ブログ記事との適合度を高めることができる。
【０１５９】
また、以上の本発明の説明では、全て印象語は「かわいい」のような日本語を対象に説明してきたが、印象語は「cute」のような英語でも構わない。この場合、日本語と英語の印象語の対応付け（かわいい：cute）を予めとっておけばよい。したがって、Flickrのような画像共有サイトのように、英語のコメントが多い場合にも対応できる。また、ブログに限らず、発表資料用スライドなども含めて文書に対して適した画像を付与することが期待できる。
【符号の説明】
【０１６０】
２…印象情報抽出部、３…画像検索部、３０…印象・画像ＤＢ

【特許請求の範囲】
【請求項１】
文書に対して適した画像を選定し出力する画像選定装置であって、
入力文書から、該入力文書に含まれる単語を抽出し当該抽出された単語と、所与の印象語と、に基づいて文書印象語を定め且つ該文書印象語の各々に対して該文書印象語の前記入力文書における印象の強さを表す文書印象関連度を求める印象情報抽出部と、
検索対象画像と、前記所与の印象語を含む画像印象語と、該画像印象語の各々に対して前記検索対象画像に対する画像印象関連度と、を対応づけて保存する印象・画像データベースと、
前記文書印象語と前記文書関連度とを受け取り、前記印象・画像データベース内の検索対象画像から対応する画像印象語に前記文書印象語と一致する語が存在する画像を検索し、当該検索された各画像の中から、当該検索一致した各語に対応する前記文書印象関連度と、当該検索一致した各語に対応する前記画像印象関連度とに基づいて前記入力文書に対して適した画像を選定する画像検索部を備えることを特徴とする画像選定装置。
【請求項２】
画像と当該画像に対するコメントとを対応づけて保存するコメント・画像データベースと、
前記コメント・画像データベースから前記印象・画像データベースを構築するデータベース印象情報抽出部とを備え、
該データベース印象情報抽出部は前記コメント・画像データベースに保存された各画像を前記検索対象画像として取得し、前記画像に対応づけられたコメントと前記所与の印象語とに基づいて前記画像印象語を定め且つ前記画像印象関連度を求めることにより前記印象・画像データベースを構築することを特徴とする請求項１に記載の画像選定装置。
【請求項３】
前記コメント・画像データベースに保存された画像及びコメントが、ネットワークを介した画像投稿システムを利用する複数ユーザにより投稿された画像及び当該画像に対して当該画像の閲覧ユーザにより付与されたコメントを含むことを特徴とする請求項２に記載の画像選定装置。
【請求項４】
所定の文書を格納し当該文書に対する検索に応答する第１テキストデータベースを備え、
前記印象情報抽出部は前記所与の印象語の各々を前記文書印象語として定め、前記文書印象語の各々と前記入力文書から前記抽出された単語の各々とのペアを検索キーとして前記第１テキストデータベースを検索してヒット数を求め、前記文書印象関連度を当該文書印象語とペアで当該検索により求められた各単語の当該ヒット数の和に基づいて求め、
前記データベース印象情報抽出部は前記所与の印象語の各々を前記画像印象語として定め、前記画像に対応づけられたコメントに含まれる単語を抽出し、前記画像印象語の各々と前記コメントから前記抽出された単語の各々とのペアを検索キーとして前記第１テキストデータベースを検索してヒット数を求め、前記画像印象関連度を当該画像印象語とペアで当該検索により求められた各単語の当該ヒット数の和に基づいて求めることを特徴とする請求項２または３に記載の画像選定装置。
【請求項５】
前記印象情報抽出部は前記入力文書から前記抽出された単語のうち前記所与の印象語に一致する単語を前記文書印象語として定め、前記文書印象関連度を当該文書印象語に対応する単語の前記入力文書中の頻度に基づいて求め、
前記データベース印象情報抽出部は前記コメントから単語を抽出し、当該抽出した単語のうち前記所与の印象語に一致する単語を前記コメントに対応する前記検索対象画像に対する前記画像印象語として求め、前記画像印象関連度を当該画像印象語に対応する単語の前記コメント中における頻度に基づいて求めることを特徴とする請求項２または３に記載の画像選定装置。
【請求項６】
前記所与の印象語の各々をグループ分けして印象グループに対応づける印象語変換テーブルと、
該印象語変換テーブルを参照して印象語を印象カテゴリに変換する印象語変換部とを備え、
前記印象情報抽出部は前記定めた文書印象語を前記印象語変換部に渡して文書印象カテゴリに変換させ、前記文書印象関連度を各文書印象カテゴリに属する文書印象語に対する文書印象関連度の和に基づくように更新し、
前記データベース印象情報抽出部は前記定めた画像印象語を前記印象語変換部に渡して画像印象カテゴリに変換させ、前記画像印象関連度を各画像印象カテゴリに属する画像印象語に対する画像印象関連度の和に基づくように更新し、前記印象・画像データベースを前記検索対象画像と、前記変換された画像印象カテゴリと、前記更新された画像印象関連度と、を対応づけて保存するよう再構築し、
前記画像検索部が前記文書印象カテゴリと前記更新された文書印象関連度とを受け取り、前記再構築された印象・画像データベース内の検索対象画像から対応する画像印象カテゴリに前記文書印象カテゴリと一致するカテゴリが存在する画像を検索し、当該検索された各画像の中から、当該検索一致した各カテゴリに対応する前記文書印象関連度と、当該検索一致した各カテゴリに対応する前記画像印象関連度とに基づいて前記入力文書に対して適した画像を選定することを特徴とする請求項２ないし５のいずれかに記載の画像選定装置。
【請求項７】
前記再構築される前の印象・画像データベースを読み込んで前記印象語変換テーブルを構築するカテゴライズ部を備え、
該カテゴライズ部は、前記印象・画像データベースに保存された各検索対象画像に対応づけられた画像印象語同士の共起関係に基づいて印象語同士の類似度を求め、当該類似度に基づいて印象語をグループ分けすることにより前記印象語変換テーブルを構築することを特徴とする請求項６に記載の画像選定装置。
【請求項８】
前記カテゴライズ部が、前記画像印象語に対して前記印象・画像データベースにおいて対応づけられた前記画像印象関連度を用いて前記類似度を求めることを特徴とする請求項７に記載の画像選定装置。
【請求項９】
前記入力文書から、該入力文書に含まれるキーワードを抽出するキーワード抽出部を備え、
前記印象・画像データベースには前記検索対象画像の各々に対して当該画像内容を表すタグが付与して保存され、
前記画像検索部は前記キーワードを受け取り、前記印象・画像データベース内の検索対象画像から前記検索を行うに際して、前記付与されたタグに当該キーワードが含まれる検索対象画像のみに検索対象を限定して前記検索を行うことを特徴とする請求項１ないし８のいずれかに記載の画像選定装置。
【請求項１０】
前記入力文書から、該入力文書に含まれるキーワード及び該キーワードの前記入力文書中での重みを抽出するキーワード抽出部を備え、
前記印象・画像データベースには前記検索対象画像の各々に対して当該画像内容を表すタグが付与して保存され、
前記画像検索部は前記キーワード及び前記重みを受け取り、前記印象・画像データベース内の検索対象画像から、対応する画像印象語に前記文書印象語と一致する語が存在する画像、又は対応するタグに前記キーワードと一致するタグが存在する画像、を検索し、当該検索された各画像の中から、当該検索一致した各語に対応する前記文書印象関連度及び前記画像印象関連度、又は当該検索一致した各タグに対応する前記キーワードの重み、の少なくとも一方に基づいて前記入力文書に対して適した画像を選定することを特徴とする請求項１ないし８のいずれかに画像選定装置。
【請求項１１】
前記所与の印象語の各々に対する上位所定数の頻出共起単語を列挙した頻出共起単語リストと、
前記文書印象語を受け取り、前記頻出共起単語リストを参照して前記文書印象語の各々に対する頻出共起単語を抽出する共起情報抽出部とを備え、
前記印象・画像データベースには前記検索対象画像の各々に対して当該画像内容を表すタグが付与して保存され、
前記画像検索部は前記文書印象語に対する頻出共起単語を受け取り、前記印象・画像データベース内の検索対象画像から、対応する画像印象語に前記文書印象語と一致する語が存在する画像を前記検索し、当該検索一致した印象語に対応する前記頻出共起単語と前記付与されたタグとが一致しない画像を優先して前記入力文書に対して適した画像として選定することを特徴とする請求項１ないし１０のいずれかに記載の画像選定装置。
【請求項１２】
所定の文書を格納し当該文書に対する検索に応答する第２テキストデータベースと、
前記第２テキストデータベースから前記頻出共起単語リストを構築するデータベーステキスト検索部とを備え、
該データベーステキスト検索部は、前記所与の印象語の各々を検索キーとして前記第２テキストデータベースに当該検索キーに一致する語を含む文書を検索させ、当該検索により得られる所定数の文書から当該所与の印象語と共起する単語を上位所定数抽出し、当該共起する単語の各々に対して、当該共起する単語と当該所与の印象語とを検索キーとして前記第２テキストデータベースに再検索を行わせてヒットする文書数を求め、当該共起する単語を該ヒットした文書数で順位付けすることにより、当該所与の印象語に対する前記上位所定数の頻出共起単語を得て前記頻出単語リストを構築することを特徴とする請求項１１に記載の画像選定装置。
【請求項１３】
前記入力文書と共に利用されるテンプレートからテンプレート配色情報を抽出する配色情報抽出部を備え、
前記画像検索部は前記テンプレート配色情報を受け取り、前記印象・画像データベース内の検索対象画像から、対応する画像印象語に前記文書印象語と一致する語が存在する画像、又は配色が前記テンプレート配色情報と類似する画像、を検索し、当該検索一致した各語に対応する前記文書印象関連度及び前記画像印象関連度、又は当該検索された類似配色画像の配色類似度、の少なくとも一方に基づいて前記入力文書に対して適した画像することを特徴とする請求項１ないし１２のいずれかに記載の画像選定装置。
【請求項１４】
文書に対して適した画像を選定し出力する画像選定方法であって、
入力文書から、該入力文書に含まれる単語を抽出し当該抽出された単語と、所与の印象語と、に基づいて文書印象語を定め且つ該文書印象語の各々に対して該文書印象語の前記入力文書における印象の強さを表す文書印象関連度を求める印象情報抽出手段と、
検索対象画像と、前記所与の印象語を含む画像印象語と、該画像印象語の各々に対して前記検索対象画像に対する画像印象関連度と、を対応づけて保存する印象・画像保存手段と、
前記文書印象語と前記文書関連度とを受け取り、前記印象・画像データベース内の検索対象画像から対応する画像印象語に前記文書印象語と一致する語が存在する画像を検索し、当該検索された各画像の中から、当該検索一致した各語に対応する前記文書印象関連度と、当該検索一致した各語に対応する前記画像印象関連度とに基づいて前記入力文書に対して適した画像を選定する画像検索手段を備えることを特徴とする画像選定方法。
【請求項１５】
文書に対して適した画像を選定して出力させる画像選定プログラムであって、
入力文書から、該入力文書に含まれる単語を抽出し当該抽出された単語と、所与の印象語と、に基づいて文書印象語を定め且つ該文書印象語の各々に対して該文書印象語の前記入力文書における印象の強さを表す文書印象関連度を求める印象情報抽出手段と、
検索対象画像と、前記所与の印象語を含む画像印象語と、該画像印象語の各々に対して前記検索対象画像に対する画像印象関連度と、を対応づけて保存する印象・画像保存手段と、
前記文書印象語と前記文書関連度とを受け取り、前記印象・画像データベース内の検索対象画像から対応する画像印象語に前記文書印象語と一致する語が存在する画像を検索し、当該検索された各画像の中から、当該検索一致した各語に対応する前記文書印象関連度と、当該検索一致した各語に対応する前記画像印象関連度とに基づいて前記入力文書に対して適した画像を選定する画像検索手段を備えることを特徴とする画像選定プログラムとして、コンピュータを機能させるための画像選定プログラム。

【図１】