情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
【課題】 画像に検索キーワードが特徴的に用いられている場合に検出をしやすくする。
【解決手段】 画像検索装置10は、検索対象の画像を格納する画像データベース11と、画像における文字列領域を抽出する文字列領域抽出部13と、文字列領域に含まれる文字列を認識する文字列候補認識部14と、文字列領域の画像から、文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの何れかに基づく当該文字列の視覚的特徴量を算出する視覚的特徴量算出部16と、検索用のキーワードを入力する検索キーワード入力部17と、キーワードが、認識された文字列に一致するか否かを検索すると共に、一致した文字列が認識された文字列領域から算出された視覚的特徴量から、画像のスコア値を算出する検索部18と、検索の結果を算出されたスコア値に応じて出力する出力部19とを備える。
【解決手段】 画像検索装置10は、検索対象の画像を格納する画像データベース11と、画像における文字列領域を抽出する文字列領域抽出部13と、文字列領域に含まれる文字列を認識する文字列候補認識部14と、文字列領域の画像から、文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの何れかに基づく当該文字列の視覚的特徴量を算出する視覚的特徴量算出部16と、検索用のキーワードを入力する検索キーワード入力部17と、キーワードが、認識された文字列に一致するか否かを検索すると共に、一致した文字列が認識された文字列領域から算出された視覚的特徴量から、画像のスコア値を算出する検索部18と、検索の結果を算出されたスコア値に応じて出力する出力部19とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像検索に係る情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体に関する。
【背景技術】
【0002】
画像に対する検索方法として、例えば、画像に含まれる文字列をテキスト化してテキスト化された文字列に対して検索を行うことが考えられる。画像に含まれる文字列をテキスト化する技術として、例えば、特許文献1に記載されたような文字認識を行うものがある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−337993号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、画像に文字列を用いる場合には、画像をWebページ等に利用する者が意図的に画像中のレイアウトや文字のフォントや文字色と背景色とのコントラストを特徴的に用いる場合がある。このような意図としては、例えば、商品を目立たせたいというものや、あるいは広告に誇大表現を用いる等の不正表現がある。このような場合、単に画像中に含まれる文字列を検索するだけでは、画像をWebページ等に利用する者の意図に従った適切な検索を行うことができない。
【0005】
本発明は、上記を鑑みてなされたものであり、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明に係る情報処理装置は、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段と、文字列領域抽出手段によって抽出された文字列領域の画像から、文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段と、を備えることを特徴とする。
【0007】
本発明に係る情報処理装置では、画像に含まれる文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量を算出して記憶する。この情報を利用して検索を行えば当該視覚的特徴量に応じて検索結果を出力することが可能である。従って、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、本発明に係る情報処理装置によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。
【0008】
視覚的特徴量算出手段は、文字列を構成する文字毎の視覚的特徴量を算出して記憶することしてもよい。この構成によれば、検索時に文字毎の視覚的特徴量を足し合わせて文字列の視覚的特徴量とすることができる。
【0009】
情報処理装置は、検索用のキーワードを入力する検索キーワード入力手段と、キーワード入力手段によって入力されたキーワードが文字列認識手段によって認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された文字列領域の視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索手段と、検索手段による検索結果を、検索手段によって算出されたスコア値に応じてソートして出力する出力手段と、を更に備える。この構成によれば、視覚的特徴量算出手段によって算出された視覚的特徴量を用いて確実に検索を行うことができる。
【0010】
また、文字列認識手段は、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定すると共に文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、情報処理装置は、文字列認識手段によって特定された複数の文字候補を文字毎に当該文字候補の特定元である画像に対応付けて記憶すると共に文字列認識手段によって評価された正確性を示す情報に基づいて文字候補を記憶する文字候補記憶手段を更に備え、検索手段は、キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に文字候補記憶手段によって記憶された文字列を構成する複数の文字候補の何れかに一致するか否かを検索し、キーワードを構成する各文字が、文字候補記憶手段によって記憶された複数の文字候補の何れかに一致した場合、正確性を示す情報から当該一致に関しての信頼性を評価し、視覚的特徴量と当該信頼性とを重み付けして足し合わせることでスコア値を算出する、こととしてもよい。
【0011】
また、文字列認識手段は、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定すると共に文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、情報処理装置は、文字列認識手段によって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶すると共に文字列認識手段によって評価された正確性を示す情報に基づいて文字列を記憶する文字候補記憶手段を更に備え、検索手段は、キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に文字候補記憶手段によって記憶された文字列の何れかに一致するか否かを検索し、キーワードを構成する各文字が、文字候補記憶手段によって記憶された文字列の何れかに一致した場合、正確性を示す情報から当該一致に関しての信頼性を評価し、視覚的特徴量と当該信頼性とを重み付けして足し合わせることでスコア値を算出する、こととしてもよい。
【0012】
視覚的特徴量算出手段は、文字列領域の文字列を構成するとされた画素の明度と、文字列領域の背景を構成するとされた画素の明度との差に基づいて視覚的特徴量を算出することが望ましい。この構成によれば、適切に画像の色に基づく視覚的特徴量を抽出することができ、適切に本発明を実施することができる。
【0013】
視覚的特徴量算出手段は、文字列領域の文字列を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とし、文字列領域の背景を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とすることが望ましい。この構成によれば、確実に画像の色に基づく視覚的特徴量を抽出することができ、確実に本発明を実施することができる。
【0014】
検索手段は、キーワード入力手段によって入力された複数のキーワードに対してスコア値を算出する、ことが望ましい。この構成によれば、複数の検索用のキーワードに対する検索を行うことができ、ユーザにとってより利便性の高い検索を行うことができる。
【0015】
検索手段は、画像データベースに格納された画像に対する、キーワードを含む画像の割合に基づいて、スコア値を算出することが望ましい。この構成によれば、画像に含まれるキーワードの出現率に応じた検索結果の出力が可能になる。即ち、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
【0016】
画像データベースは、同一の画像を複数含まないように検索対象の画像を格納すると共に、当該画像から得られるハッシュ値と当該画像が利用されているWebページの箇所を示す情報とを対応付けて格納し、出力手段は、検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、画像データベースに当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebページの箇所を示す情報とを出力する、ことが望ましい。この構成では、検索対象となる画像のハッシュ値と当該画像が利用されているWebページの箇所を示す情報とが対応付けられて格納されており、検索結果として、検索によって得られた画像を示す情報と、当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebページの箇所を示す情報とが出力される。ハッシュ値は同一の画像であれば、一定の範囲内の値となるため複数のWebページの箇所で利用されている画像は、一つの画像として扱うことができる。従って、この構成によれば、同一の画像が複数のWebページの箇所において利用されている場合であっても有効に検索結果を活用することができる。即ち、同一の画像が検索結果として並ぶことを防止し、ユーザが検索したい画像を効率的に見つけることができる。例えば、ユーザが検索したキーワードが記載されている同一の画像が検索結果として並ぶことを防止することができる。
【0017】
ところで、本発明は、上記のように情報処理装置の発明として記述できる他に、以下のように情報処理方法、及び情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
【0018】
即ち、本発明に係る情報処理方法は、検索対象の画像を格納する画像データベースを備える情報処理装置による画像検索方法であって、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を認識する文字列認識ステップと、文字列領域抽出ステップにおいて抽出された文字列領域の画像から、文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出ステップと、検索用のキーワードを入力する検索キーワード入力ステップと、キーワード入力ステップにおいて入力されたキーワードが文字列認識ステップにおいて認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された文字列領域の視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索ステップと、検索ステップにおける検索結果を、検索手段によって算出されたスコア値に応じてソートして出力する出力ステップと、を含むことを特徴とする。
【0019】
また、本発明に係る記録媒体は、一つ以上のコンピュータを、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段と、文字列領域抽出手段によって抽出された文字列領域の画像から、文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段と、検索用のキーワードを入力する検索キーワード入力手段と、キーワード入力手段によって入力されたキーワードが文字列認識手段によって認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された文字列領域の視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索手段と、検索手段による検索結果を、検索手段によって算出されたスコア値に応じてソートして出力する出力手段と、して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【発明の効果】
【0020】
本発明では、画像に含まれる文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量に応じて検索結果が出力されることが可能である。従って、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、本発明によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施形態に係る情報処理装置である画像検索装置の機能構成を示す図である。
【図2】画像から認識されて画像検索装置によって記憶される文字候補の例を示す表である。
【図3】画像の文字列領域から文字色と背景色とを取得した例を示す図である。
【図4】文字列の文字サイズ、及び文字色の明度と背景色の明度との差から文字列の視覚的特徴量を求めるための表である。
【図5】検索キーワードと文字認識信頼度との関係を説明するための図である。
【図6】画像検索装置から検索結果として出力されて表示された画面の例である。
【図7】本発明の実施形態に係る画像検索装置で実行される処理(情報処理方法)のうち、画像検索用の情報を生成するまでの処理を示すフローチャートである。
【図8】本発明の実施形態に係る画像検索装置で実行される処理(情報処理方法)のうち、画像検索を実際に行う処理を示すフローチャートである。
【図9】本発明の実施形態に係る画像検索装置で実行される処理(情報処理方法)のうち、キーワードの検索処理を示すフローチャートである。
【図10】文字候補数と画像内文字検索の精度との関係を示すグラフである。
【図11】目視結果と検索結果との比較(N=30の場合)を示す表である。
【図12】実験に用いたサンプル画像である。
【図13】画像スコアの計算結果を示す表である。
【図14】文字候補数と検索時間との関係を示すグラフである。
【図15】本発明の実施形態に係る情報処理プログラムの構成を、記録媒体と共に示す図である。
【図16】画像検索装置によって記憶される、画像から認識された文字候補を組み合わせた文字列の例を示す表である。
【発明を実施するための形態】
【0022】
以下、図面とともに本発明に係る情報処理装置、情報処理方法、情報処理プログラム、情報処理プログラムを記録した記録媒体及び画像検索用情報生成装置の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0023】
図1に本実施形態に係る情報処理装置である画像検索装置10を示す。画像検索装置10は、検索対象の画像に対する検索要求を受け付けて、当該検索要求に応じた検索結果を出力する装置である。本実施形態では、検索対象の画像は、サイバーモールで販売される商品の説明画像である。画像検索装置10による画像検索の目的としては、商品の説明画像として不適切な画像がないかどうかをチェックするというものである。商品の説明画像として不適切な画像とは、例えば、健康商品や化粧品等の商品の効果を消費者に過剰に期待されるものである。上記のような検索対象及び目的から画像検索装置10は、例えば、サイバーモールを管理する事業者によって用いられる。従って、画像検索装置10は、図1には明示していないがサイバーモールを構成するサーバに接続する等して検索対象の画像を取得できるようになっている。
【0024】
画像検索装置10は、管理者端末30と接続されて互いに情報の送受信を行うことができる。画像検索装置10は、管理者端末30から検索対象の画像に対する検索要求を受信して、検索要求に応じた検索結果を示す情報を管理者端末30に出力する。
【0025】
画像検索装置10は、CPU(Central Processing Unit)やメモリ、通信モジュール等のハードウェアを備えるサーバ装置等のコンピュータにより実現される。これらの構成要素がプログラム等のより動作することによって、後述する画像検索装置10の機能が発揮される。また、画像検索装置10は、複数のコンピュータからなるコンピュータシステムによって構成されていてもよい。
【0026】
管理者端末30は、上述したサイバーモールを管理する事業者のユーザによって用いられる通信機能を有する端末であり、画像検索装置10と情報の送受信を行うことができる。管理者端末30は、具体的には、PC(Personal Computer)等の通信装置に相当する。
【0027】
引き続いて、画像検索装置10の機能的な構成を説明する。図1に示すように画像検索装置10は、画像データベース11と、画像登録部12と、文字列領域抽出部13と、文字候補認識部14と、文字候補記憶部15と、視覚的特徴量算出部16と、検索キーワード入力部17と、検索部18と、出力部19とを備えて構成される。
【0028】
画像データベース11は、検索対象の画像を格納(記憶)するデータベースである。画像データベース11に格納される画像は、上述したようにサイバーモールを構成するWebサイトに掲載されている、当該サイバーモールで販売される商品の説明画像である。各画像には、画像を特定するID等の情報が付与されており、画像を特定できるようになっている。また、画像データベース11は、同一の画像については重複して格納しない。即ち、画像データベース11は、同一の画像を複数含まないように画像を格納する。画像データベース11は、具体的には、画像検索装置10が備えるメモリやハードディスク等のハードウェアによって実現される。画像データベース11は、データベースを構成するソフトウェアによって格納する画像のデータを管理してもよいし、単にメモリやハードディスク等に画像のデータを格納するだけのものであってもよい。
【0029】
画像データベース11は、格納する画像に対応付けて、当該画像にハッシュ関数を適用することによって得られるハッシュ値を記憶する。当該ハッシュ関数は、予め設定された特定のハッシュ関数である。同一の画像であれば、そこから得られるハッシュ値は一定の範囲内のものになる。これにより、サイバーモールにおいて同一の画像が複数のWebサイトで用いられていた場合、一つのハッシュ値で管理することができる。なお、ここでは、文字色が類似(赤とオレンジ等)している画像や文字の大きさが類似している画像等のユーザにとって同じとみなせる画像についても同一の画像であるものとしてもよい。上記のハッシュ値の一定の範囲は、同一の画像と見なせる画像に応じて適宜設定することができる。画像データベース11は、上記のハッシュ値に、当該画像が利用されているWebページの箇所であるWebサイトを示す情報を対応付けて格納する。Webサイトを示す情報は、例えば、URL(Uniform Resource Locator)である。また、画像データベース11は、上記のWebサイトを示す情報それぞれに数値を対応付けて格納する。この数値は、例えば、当該Webサイトにおける当該画像に係る商品の販売価格である。また、上記のWebサイトを示す情報それぞれには、当該Webサイトにおける当該商品の説明等のその他の情報が対応付けられていてもよい。上記のようなデータ構成によって、画像データベース11は、画像と、画像が用いられているWebサイト及び当該Webサイトにおける当該画像に係る商品の販売価格の情報とを対応付けて記憶することができる。
【0030】
画像登録部12は、新たに画像データベース11に登録する画像と当該画像が利用されているWebサイトを示す情報とを入力して、それらの情報を画像データベースに格納させる画像登録手段である。画像登録部12は、予め上述した特定のハッシュ関数を記憶しておく。画像登録部12は、入力した画像にそのハッシュ関数を適用してハッシュ値を算出する。画像登録部12は、画像データベース11に格納されたハッシュ値を読み出して、算出したハッシュ値が画像データベース11に既に格納されているハッシュ値から一定の範囲内の値であるか否かを判断する。画像登録部12は、算出したハッシュ値が、既に格納されているハッシュ値から一定の範囲内の値であると判断された場合には、当該既に格納されているハッシュ値に当該画像が利用されているWebサイトを示す情報を対応付けて画像データベース11に格納させる。画像登録部12は、算出したハッシュ値が、既に格納されているハッシュ値から一定の範囲内の値でないと判断された場合には、入力した画像及びWebサイトを示す情報、並びに算出したハッシュ値を対応付けて新たに画像データベース11に格納させる。その際、上述したように当該Webサイトにおける当該画像に係る商品の販売価格の情報等も合わせて登録することとしてもよい。
【0031】
画像登録部12への、画像と当該画像が利用されているWebサイトを示す情報との入力は、例えば、サイバーモールを管理する事業者のユーザの操作によって管理者端末30から行われる。あるいは、サイバーモールのWebサイトにおいて新たに画像が利用された場合に自動的に入力が行われることとしてもよい。
【0032】
文字列領域抽出部13は、画像データベース11に格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段である。文字列領域の抽出は、例えば、以下のように行われる。まず、画像内の文字を抽出するために対象画像をグレースケース画像に変換した後、判別分析法により閾値を決定し2値画像に変換する。この方法には、例えば、大津:判別および最小2 乗規準に基づく自動しきい値選定法,信学論D, Vol.63, No.4,pp.349-356(1980)に記載された方法を用いることができる。次に2値画像にラベリング処理を行い、得られた画像連結要素をピッチ、縦横比及び角度を用いて領域を連結し横方向と縦方向に並んだ文字列画像を抽出する。この方法には、例えば、芦田,永井,岡本,宮尾,山本:情景画像からの文字抽出,信学論D, Vol.J88-D2, No.9,pp.1817-1824(2005)に記載された方法を用いることができる。
【0033】
文字列領域抽出部13は、上記のように抽出した文字列領域(の画像のデータ)を文字候補認識部14及び視覚的特徴量算出部16に出力する。この際、抽出した文字列領域が、何れの画像から抽出を行ったかを(抽出元の画像を)判別できるようにしておく。なお、文字列領域抽出部13は、1つの画像から複数の文字列領域を抽出することとしてもよい。この場合、画像から抽出した文字列領域それぞれを例えば、IDを付与する等として判別できるようにしておく。また、抽出される文字列領域は、画像中で領域が重複するものであってもよい。画像中において1つの箇所が、縦方向の文字列領域と、横方向の文字列領域との両方に属するものであってもよい。何れの方向に文字列を読むか明確に判別できない場合であっても、文字列の抽出漏れを防止するためである。
【0034】
文字列領域抽出部13が文字列を抽出するタイミングは、例えば、新たに画像データベース11に画像が格納されたタイミングである。あるいは、ユーザの操作をトリガとして抽出が行われてもよい。
【0035】
文字候補認識部14は、文字列領域抽出部13によって抽出されて入力された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段である。また、文字候補認識部14は、文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、各文字候補の順位付けを行う。文字認識は、以下のように行われる。
【0036】
形態素解析を用いて、入力された文字列領域の画像を文字列を構成する各文字の画像に分割して、各文字の画像に対して文字認識処理を行う。文字認識は、画像から文字認識に用いる特徴量を抽出して、その特徴量と予め抽出しておいた文字候補となりえる文字の特徴量とを比較することによって行われる。文字認識に用いる特徴量は、例えば、文字の輪郭を利用した方向線素特徴を用いることができる。この方法には、例えば、孫,田原,阿曽,木村:方向線素特徴量を用いた高精度文字認識,信学論, vol.J74-D-II, No.3,pp.330-339(1991)に記載された方法を用いることができる。
【0037】
文字認識の正確性としては、例えば、特徴量のユークリッド距離の短さを用いることができる。即ち、画像から抽出した特徴量と、特徴量のユークリッド距離で近い特徴量を有する文字ほど正確性が高い文字候補とする。この文字認識の正確性を用いて、各対象文字画像に対して、文字候補に順位付けを行う。順位付けされた文字候補は、第N位までの多重化された文字候補として保持される(Nは、予め設定された2以上の自然数)。このように文字列を構成する各文字に対して、複数の文字候補を保持することで、文字候補誤りによる検索漏れを回避する。文字候補認識部14は、上記のように、文字列領域から特定した文字列を構成する各文字の複数の文字候補の情報を文字候補記憶部15に出力する。
【0038】
文字候補記憶部15は、文字候補認識部14によって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段である。文字候補記憶部15は、文字候補認識部14によって評価された正確性が高い順番に各文字候補を示す情報を文字毎に画像に対するインデックスとして記憶する。この記憶は、例えば、画像検索装置10のメモリやハードディスク等に、例えば下記のような各文字候補を示すデータ(ファイル)を格納することによって行われる。
【0039】
文字候補記憶部15が記憶する情報の例を図2に示す。図2に示す例は、1つの文字列領域から認識される文字候補である。図2に示すように、文字候補記憶部15が記憶する情報は、文字の順番(図2における「No.j」)と、文字座標と、認識結果との情報がそれぞれ対応付けられたものである。文字の順番は、その文字候補が、文字列を構成する何番目の文字に相当するかを示す情報である。文字座標は、その文字候補が文字候補の特定元の画像における何れの位置にあるかを示す情報である。文字座標の情報は、画像左上を原点(0,0)とした場合の文字画像の(x座標,y座標,幅,高さ)を示すものである。ここで、x座標及びy座標は、文字画像における予め設定された基準位置(例えば、文字画像の左上の画素の位置)を示すものである。文字座標の情報は、例えば、文字候補認識部14によって取得される。
【0040】
認識結果は、各文字の文字候補を正確性が高い順番に並べたものである。ここでは、認識結果Cのn番目の文字候補第j位をC[n][j]と表現する。例えば、図2の表の認識結果CにおけるC[1][1]、C[1][2]及びC[10][1]は、それぞれ「そ」、「予」及び「高」となる。
【0041】
文字候補記憶部15は、図2に示すような認識結果を示す情報を、文字候補の特定元である画像のハッシュ値等の画像を特定する情報に対応付けて記憶しておき、何れの画像から抽出されたのか判別できるようにしておく。また、1つの画像から複数の文字列領域が抽出される場合は、文字列領域のID等に対応付けて記憶しておき、何れの文字列領域から抽出されたのか判別できるようにしておく。
【0042】
文字候補記憶部15は、文字候補認識部14によって特定された複数の文字候補を、当該文字候補の何れかを前記文字列の順に組み合わせた文字列として、当該文字候補の特定元である画像に対応付けて記憶することとしてもよい。即ち、図2に示すような各文字について文字候補の一つを選択して文字列の順に組み合わせた文字列を記憶しておいてもよい。
【0043】
例えば、図2に示すような認識結果であった場合、その文字列は、図16に示すようなものとなる。ここで、組み合わせられて記憶される文字列は、画像から取得された文字候補の順に連続するものではなく、部分的に文字列が抜けたものであってもよい。例えば、画像から取得された文字候補を「安全性」「の高さ」とは文字候補の順では連続していないが、そのような組み合わせであってもよい。また、文字毎に文字候補を記憶する場合であっても、上記と同様に後述する検索において必ずしも文字候補の順で一致を判断しなくてもよい。また、上記のように文字列を記憶する場合であっても、文字候補に対応する情報(文字認識の正確性の情報等)については、文字列に対応付けておき文字毎に文字候補を記憶した場合と同様に扱うことができる。
【0044】
ここで記憶される文字列は、全ての文字候補の組み合わせについて記憶しておいてもよいし、予め設定される検索キーワードとして想定される文字列に一致する組み合わせのみを記憶しておいてもよい。また、文字列の一部(例えば、図2の情報の例では「その安全性」という部分)について記憶することとしてもよい。
【0045】
視覚的特徴量算出部16は、文字列領域抽出部13によって抽出された文字列領域の画像から、文字列を構成する文字の大きさ及び色の少なくとも何れかに基づく当該文字列の視覚的特徴量(saliency)を算出して記憶する視覚的特徴量算出手段である。視覚的特徴量算出部16は、文字列領域の文字列を構成するとされた画素の明度と、文字列領域の背景を構成するとされた画素の明度との差に基づいて視覚的特徴量を算出する。視覚的特徴量算出部16は、文字列領域の文字列を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とし、文字列領域の背景を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とする。より具体的には、視覚的特徴量算出部16は、以下の処理によって文字列の視覚的特徴量を算出する。視覚的特徴量算出部16は、算出した視覚的特徴量を文字列に対応付けて記憶する。この記憶は、例えば、画像検索装置10のメモリやハードディスク等に情報を格納することによって行われる。
【0046】
また、視覚的特徴量算出部16は、文字列を構成する文字毎の視覚的特徴量を算出して記憶することとしてもよい。この構成によれば、検索時に文字毎の視覚的特徴量を足し合わせて文字列の視覚的特徴量とすることができる。
【0047】
視覚的特徴量算出部16は、文字候補認識部14と同様に文字認識を行う。但し、視覚的特徴量算出部16による文字の認識は、必ずしも複数の文字候補を特定するものでなくてもよい。視覚的特徴量算出部16は、文字の抽出時に得られた文字画像領域の縦横の大きさから文字の大きさ(文字サイズ)を特定する。文字サイズは、例えば、ポイント(pt)単位で得る。
【0048】
視覚的特徴量算出部16は、文字色と背景色とを文字画像領域に含まれる文字領域と背景領域に対して、代表色選択法を用いて取得する。代表色選択法は、例えば、長谷,米田,酒井,丸山:カラー文書画像中の文字領域抽出を目的とした色分割についての検討,信学論 D-II vol. J83-D-II No.5 pp.1294-1304 (2000)に記載されている。代表色の選択の手順は、まず文字領域と背景領域の各領域に対し画素値をRGB色空間からL*a*b*色空間に変換する。その後、全ての画素を一辺wの立方体に分割したL*a*b*色空間に写像し、小領域に落ちた画素の数を調べる。ここでwは、予め設定した値である。その結果、小領域の画素値が回りにある26近傍のそれぞれの小領域に落ちた画素数に比べて最も多い小領域を代表色とした。但し、複数個所が発生する場合はそれらいずれかの領域を代表色とした。
【0049】
実際に代表色選択を行い、文字色と背景色とを取得した例を図3に示す。図3において、破線で示す領域は文字列領域である。また、代表色を選択する際のwの値は、4とした。視覚的特徴量算出部16は、明度Lを代表色の画素のRGB値から以下の式(1)により求める。
L=0.298912R+0.586611G+0.114478B (1)
視覚的特徴量算出部16は、文字色の明度Lと背景色の明度Lとの差の絶対値を求める。続いて、視覚的特徴量算出部16は、図4の表に従い、得られた文字サイズと明度差とから文字列の視覚的特徴量を算出する。図4に示す表では、視覚的特徴量は、low、medium及びhigh等と定性的な標記となっているが、それらを定量的な値に変換してもよい。視覚的特徴量算出部16は、算出した文字列の視覚的特徴量を示す情報を検索部18に出力する。
【0050】
視覚的特徴量算出部16が視覚的特徴量を算出するタイミングは、例えば、文字列領域抽出部13が文字列を抽出するタイミングと同様に、新たに画像データベース11に画像が格納されたタイミングである。この場合、視覚的特徴量は、例えば、画像に対するインデックスであるインデックスに付加された情報として記憶される。あるいは、検索部18による検索処理が行われる際に、検索部18からの指示によって行われてもよい。なお、視覚的特徴量算出部16は、大きさ及び色以外にも、その他の文字の特徴、例えば、形状(フォント)及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づいて、視覚的特徴量を算出することとしてもよい。
【0051】
検索キーワード入力部17は、検索用のキーワードを入力する検索キーワード入力手段である。検索キーワード入力部17は、複数のキーワードを入力してもよい。その場合、複数のキーワードでAND検索を行うか、OR検索を行うかを示す情報も合わせて入力するのがよい。検索用のキーワードを入力は、例えば、以下のように行われる。
【0052】
検索キーワード入力部17は、管理者端末30からのアクセス要求を受け付けて、キーワードを入力するためのフォームを有するWebページのデータを管理者端末30に送信する。管理者端末30では、当該Webページのデータが受信されて表示される。管理者端末30では、ユーザによってキーワードの入力操作が行われて、当該キーワードを含む検索要求が画像検索装置10に送信される。検索キーワード入力部17は、当該検索要求を受信して、受信した検索要求からキーワードを取得することによってキーワードを入力する。検索キーワード入力部17は、入力したキーワードを検索部18に出力する。
【0053】
検索部18は、検索キーワード入力部17から入力されたキーワードを用いて、画像データベース11に格納された画像を対象として検索を行う検索手段である。検索は、検索キーワード入力部17から入力されたキーワードを構成する各文字が、当該キーワードの順に、文字候補記憶部15によって記憶された文字列を構成する複数の文字候補の何れかに一致するか否かを判定することによって行われる。例えば、検索用のキーワードが「安全性」であり、文字列を構成する複数の文字候補は図2の表に示すものであった場合、3文字目〜5文字目の文字候補にそれぞれ「安」、「全」、「性」の文字が含まれるため、図2に示す文字列は「安全性」というキーワードにヒットしたものとして判断される。文字列がキーワードにヒットしているか否かの判断については、フローを用いて後述する。
【0054】
上述したように、文字候補記憶部15が文字候補を文字列の順に組み合わせた文字列を記憶している態様では、検索キーワード入力部17から入力されたキーワードと、文字候補記憶部15が記憶している文字列とを比較することによって検索が行われてもよい。文字候補記憶部15が記憶している文字列に、検索キーワード入力部17から入力されたキーワードが含まれていた場合には、文字候補記憶部15が記憶している文字列はキーワードにヒットしたものと判断される。このように文字候補記憶部15が文字列を記憶しておくこととすれば、検索用のキーワードと、上記のように文字列同士の一致を判断することによって検索を行うことができるので、検索処理を速くすることができる。なお、文字列として記憶せず図2に示す情報として文字候補を記憶しておけば、未知語やあいまいなキーワードに対しても検索が可能になる。
【0055】
上記の検索方法では、文字認識の結果の第1候補のみを用いて検索する場合に比べ、検索漏れの低減(再現率の向上)が期待できるが、同時に認識誤りを多く含む検索誤りが増加する(適合率が低下する)ことが考えられる。そこで、検索部18は、キーワードを構成する各文字が、文字候補記憶部15によって記憶された複数の文字候補の何れかに一致した場合(文字候補がキーワードにヒットした場合)、上述した正確性を示す情報から、当該一致に関しての信頼性(一致度)を評価する。より具体的には、検索部18は、キーワードの文字と一致した文字候補の順番から、上記の信頼性を示す値としてキーワードtに対する文字認識信頼度(similarity)を算出する。ここで文字認識信頼度は、0.0〜1.0の範囲の値であり、より大きい値であれば信頼性が高いことを示す。検索部18は、以下の式(2)によって、文字認識信頼度similarityを算出する。
similarity(t)=Keyword(t).length/totalscore(t) (2)
上記の式において、Keyword(t).lengthはキーワードtの長さ(文字数)、totalscore(t)は一致(マッチ)した文字候補の順位の合計とする。なお、第1候補のみでキーワードに一致した文字列の文字認識信頼度は、1.0となる。
【0056】
例えば、図5の示した2つの画像のそれぞれの文字認識結果から「絶対痩せる」というキーワードで検索した場合の文字認識信頼度の例を示す。図5(a)で示す例では、全ての文字が第1候補と一致しているので、文字認識信頼度は、5÷(1+1+1+1+1)で計算され1.00となる。図5(b)で示す例では、最後の文字が第3候補と一致しているので、文字認識信頼度は、5÷(1+1+1+1+3)で計算され0.71となる。このように、文字認識信頼度が低い画像は誤検索されている可能性が高く、文字認識信頼度が高い画像は検索キーワードを正確に含んでいる可能性が高い。即ち、文字認識信頼度は、検索キーワードをより正確に含んでいる指標として利用できる。そのため、大量の画像の中から検索キーワードを含む画像をリストアップする際に文字認識信頼度をもとに検索結果をソートすることで、検索誤りが少ない結果の画像を優先的に提示できる。
【0057】
検索部18は、キーワードの文字数に応じて、キーワードとの一致を判定する文字候補の数を決定することとしてもよい。より詳細には後述するが、検索キーワードの文字数が少ない(検索キーワードが短い)場合には、検索誤りが生じ適合率が低くなる傾向が認められる。そこで、例えば、キーワードの文字数が予め設定した閾値以下であると判断した場合には、一致を判定する文字候補の数を通常よりも少ない数としてもよい。検索部18は、文字候補の数を決定したら、文字候補についての正確性を示す情報からキーワードとの一致を判定する文字候補を決定する。具体的には、検索部18は、決定した文字候補の数の順位までの文字候補を一致を判定する文字候補とする。
【0058】
検索部18は、キーワードと文字候補との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出する。このスコア値は、検索結果として出力する画像の順序を示すものであり、本実施形態においては、検索キーワードが不適切な形で画像に含まれるおそれの高さを示すものである。
【0059】
まず、検索部18は、上述したように求めた検索キーワードtの視覚的特徴量saliency(t)と文字認識信頼度similarity(t)とから、画像内に含まれるm番目の文字列(t,m)の文字特徴量termscore(t,m)を以下の式(3)により求める。
termscore(t,m)=(1−α)・similarity(t,m)+α・saliency(t,m) (3)
ここで、αは視覚的特徴量と文字認識信頼度との重みを示す値である。αは、0〜1の値であり予め設定した値である。α、similarity及びsaliencyとの間には相関関係があり、これにより更に精度のよい検索結果が得られる。検索の用い方、目的によってαのつけ方、つまりsimilarityとsaliencyとにどのように重みを付けるべきかを決めることが望ましい。α=0とした場合には、文字認識信頼度similarityのみが反映されたスコアとなり視覚的特徴量saliencyが考慮されない。一方、α=1とした場合には、視覚的特徴量saliencyのみが反映されたスコアとなり文字認識信頼度similarityが考慮されない。αを1に近づけるほど文字が合っているか否かという観点では結果が悪くなる。また、画像内のm番目の文字列とは、文字列領域抽出部13によって抽出された複数の文字列領域に係る文字列のうちのどの文字列かを示すものである。mは、1から文字列領域抽出部13によって抽出された文字列領域の数までの値のうちの何れかの値をとる。
【0060】
即ち、検索部18は、キーワードを構成する各文字が当該キーワードの順に一致した文字列を構成する複数の文字候補が認識された文字列領域から視覚的特徴量算出部16によって算出された視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する。
【0061】
また、検索部18は、検索キーワード入力部17によって入力された複数のキーワードに対してスコア値を算出する。検索部18は、画像に含まれるキーワードの出現頻度を考慮するために、画像に含まれるキーワードのtf−idfを計算する。tf−idfは、文章中の特徴的な単語を抽出するためのアルゴリズムとして知られ、主に情報検索や文書要約等の分野で利用される指標である。tfは文書中の単語の出現頻度であり、idfは多くのドキュメントに出現する語は重要度を下げ、特定のドキュメントにしか出現しない単語の重要度を上げるための逆出現頻度である。本手法では、このtf−idfの考え方を画像内文字に拡張し、文字列の視覚的特徴量と文字認識信頼度とに組み合わせて用いることで画像スコアを計算する。
【0062】
検索部18は、検索キーワードtの出現頻度に応じて画像スコアを高くするために、以下の式(4)により画像内にtf(t)個含まれる検索キーワードtのそれぞれの文字特徴量の2乗和を求め、検索キーワードによる画像のスコアとする。なお、文字列と画像との対応付けに関しては、文字候補記憶部15によって記憶された文字候補と画像との対応付けの情報が参照される。ここで、mは対象となる画像においてキーワードtが含まれる文字列の添え字であり、1〜tf(t)の範囲の整数である。
【数1】
【0063】
また、複数の検索キーワードで検索を行う場合の画像スコアは、idf(t)の値を用いて算出することができる。検索キーワードtのidf(t)は検索対象の総画像数(A)とtを含む画像数(S)とを用いて以下の式(5)により求められる。idf(t)は、検索キーワードtを含む画像が少ないほど大きな値となり稀少語であることを示す。
idf(t)=log(A/(S+1))+1 (5)
【0064】
複数の検索キーワードでAND検索を行う場合の画像スコアは、クエリー(検索要求)qに含まれる複数の検索キーワードtの画像スコアscore(t,image)にidf(t)の値を掛け合わせた数値の総積を以下の式(6)により求めることで算出される。
【数2】
【0065】
複数の検索キーワードでOR検索を行う場合の画像スコアは、クエリーqに含まれる複数の検索キーワードtの画像スコアscore(t,image)にidf(t)の値を掛け合わせた数値の総和を以下の式(7)により求めることで算出される。
【数3】
上記のように、検索部18は、画像データベース11に格納された画像数に対する、キーワードを含む画像数の割合に基づいて、スコア値を算出する。
【0066】
tf−idfの考え方では、文章が長くなるほど検索キーワードtを含む確率が高くなるため、文章量に応じてtfを調整することが一般的である。そのため、本手法でも画像内に含まれる文章量の指標として、文字認識後の文字列の長さや画像のサイズを用いて重み付けを行うことが望まれる。しかし、本実施形態で対象としている商品説明画像は複雑な背景やレイアウトを持つため、文字認識時に背景を文字としてご認識する等、認識結果にノイズを含む場合が多い。従って、一概に文字認識後の文字列の長さを画像内の文字量の指標として利用することは難しい。また、画像サイズと画像内に含まれる文字量は一定でないため、600×10,000pix(ピクセル)の超巨大画像のスコアが非常に低くなる場合や、20×100pix程度の小さなバナー画像のスコアが急激に高くなる場合がある。そのため、本実施形態では、画像内における文章量による重み付けは必ずしも行う必要は無い。
【0067】
検索部18は、検索によりキーワードにヒットした画像を示す情報、及びそれらの画像に対する画像スコアscore(q,image)を出力部19に出力する。
【0068】
出力部19は、検索部18による検索の結果を出力する出力手段である。出力部19は、キーワードにヒットした画像を示す情報を出力する。出力部19が出力する画像を示す情報は、文字候補記憶部15によって記憶された文字候補と画像との対応付けに基づいたものである。
【0069】
具体的には例えば、出力部19による出力は、検索結果の情報を含むWebページの情報を管理者端末30に送信することによって行われる。図6に、当該Webページが管理者端末30のブラウザで表示された例を示す。図6に示すようにキーワードにヒットした画像が表示される。ここで、表示される画像は、画像スコアscore(q,image)が高い順に並べられる。即ち、出力部19は、検索部18によって評価されたキーワードと文字候補との間の一致に関しての信頼性に基づいて、検索部18による検索の結果を出力する。また、出力部19は、検索部18によって算出された各画像のスコア値に応じて、検索部18による検索の結果を出力する。
【0070】
また、出力部19は、画像データベース11に格納されている画像のハッシュ値に関連付けられている情報に基づいて情報を出力する。出力部19は、検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、画像データベース11に画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebサイトを示す情報とを出力する。より具体的には、出力部19は、検索部18による検索によって得られた画像を示す情報を出力して、当該出力に応じて画像を選択する入力を受け付けて、当該入力に係る画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebサイトを示す情報を出力する。
【0071】
図6に示す例では、まず、出力部19は、管理者端末30に対して、検索部18による検索の結果としてキーワードにヒットした画像を表示するWebページのデータを送信する。管理者端末30では、ブラウザ上にそれらの画像が表示される。図6の領域A1が、キーワードにヒットした画像が表示される部分である。続いて、管理者端末30では、ユーザによって表示された画像の何れかが、「この商品が買えるお店」という部分がクリックされることによってブラウザ上で選択されると、管理者端末30は選択された画像を示す情報を画像検索装置10に送信する。出力部19は、選択された画像を示す情報を受信して、画像データベース11を参照して、当該画像のハッシュ値に対応付けられたWebサイトを示す情報を取得して、管理者端末30に出力する。
【0072】
更に、出力部19は、画像データベース11を参照して、Webサイトに示す情報に対応付けられている商品の販売価格を示す情報を取得する。出力部19は、Webサイトを示す情報を管理者端末30に送信する際に商品の販売価格順(例えば、価格が高い順、あるいは低い順)に表示されるように出力する。また、Webサイトを示す情報が管理者端末30で表示される際に、商品の販売価格やWebサイトにおける商品の説明もあわせて表示されるようにしてもよい。図6の領域A2が、画像が利用されるWebサイトを示す情報、及び商品の販売価格等が表示される部分である。上記のように出力部19は、画像データベース11に格納されている販売価格に応じて画像が利用されているWebサイトを示す情報を出力する。以上が、画像検索装置10の機能的な構成である。
【0073】
引き続いて、図7〜図9のフローチャートを用いて、本実施形態に係る画像検索装置10で実行される処理(情報処理方法)を説明する。まず、図7のフローチャートを用いて、画像検索用の情報を生成するまでの処理を説明して、その後図8及び図9のフローチャートを用いて画像検索を実際に行う処理を説明する。
【0074】
本実施形態に係る画像検索装置10では、検索対象の画像が入力されて、画像登録部12によって当該画像が画像データベース11に登録される(S01)。画像の入力と合わせて、当該画像が利用されているWebサイトを示す情報や画像に係る商品の販売価格の情報等の画像に付随する情報の入力も行われ、それらの情報は上述したようにハッシュ値に対応付けて画像検索装置10に格納される。画像の入力は、例えば、サイバーモールを管理する事業者のユーザの操作によって管理者端末30から行われる。複数の画像が入力された場合には、それぞれの画像について登録が行われ、以下の処理が行われる。
【0075】
続いて、画像検索装置10では、文字列領域抽出部13によって、画像データベース11に格納された画像における文字列が含まれる文字列領域が抽出される(S02、文字列領域抽出ステップ)。抽出された文字列画像は、文字列領域抽出部13から文字候補認識部14に出力される。
【0076】
続いて、文字候補認識部14によって、抽出された文字列領域の画像が文字列を構成する各文字の画像に分割される(S03、文字候補認識ステップ)。続いて、文字候補認識部14によって、分割された各画像に対して文字認識処理が行われ、各文字について予め定められた数の複数の文字候補が特定される(S04、文字候補認識ステップ)。このようにして特定された文字候補を示す情報は、文字候補認識部14から文字候補記憶部15に出力される。S02において、複数の文字列領域が抽出された場合には、文字列領域毎に上記の処理が行われる。
【0077】
続いて、文字候補記憶部15によって、文字候補認識部14から入力された複数の文字候補の情報が、検索処理の際に検索部18から検索可能なように記憶される(S05、文字候補記憶ステップ)。以上が、画像検索用の情報を生成するまでの処理である。
【0078】
引き続いて、図8及び図9のフローチャートを用いて画像検索を実際に行う処理を説明する。本実施形態に係る画像検索装置10では、検索キーワード入力部17によって、検索用のキーワードが入力される(S11、検索キーワード入力ステップ)。検索用のキーワードは、例えば、管理者端末30から、キーワードが含められた検索要求を受信することによって入力する。入力された検索用のキーワードは、検索キーワード入力部17から検索部18に出力される。
【0079】
続いて、検索部18によって、入力された検索用のキーワードが文字候補記憶部15によって記憶された文字候補の何れかと一致するか否かが判定されることによって、当該キーワードによる検索が行われる(S12、検索ステップ)。
【0080】
このキーワードの検索について、図9のフローチャートを用いてより詳細に説明する。ここで、検索用キーワードの各文字をKeyword[i]とする。iは、キーワードの文字の順番を示す添え字である。Keyword[1]は、検索用キーワードの1文字目を表す。また、検索用キーワードの文字数をKeyword.lengthとする。また、画像から取得された文字列の文字候補をC[n][j]とする。nは、文字列の文字の順番を示す添え字であり、jは文字候補の順位を示す添え字である(図1の表における説明と同様)。また、Nは文字列の文字数を示す。また、ここでは、キーワードとの一致が判定される文字候補の順位は、30番目までとする。
【0081】
本処理では、まずn=1として開始される。文字列の1文字目の文字候補から、キーワードとの一致を判定するためである。続いて、i=1とされる(S1201)。キーワードの1文字目が文字候補に一致するか判定するためである。続いて、j=1とされる(S1202)。第1順位の文字候補がキーワードに一致するか判定するためである。
【0082】
続いて、C[n][j]=Keyword[i]を満たすか否かが判断される(S1203)。上記を満たさないと判断された場合(S1203のNO)には、続いて、j=j+1とされる(S1204)。次の順位の文字候補がキーワードに一致するか判定するためである。続いて、j>30を満たすか否かが判断される(S1205)。キーワードとの一致が判定される文字候補の順位が、設定された値を超えていたら次の文字からの判定をするためである。S1205の条件を満たさないと判断された場合(S1205のNO)、再度S1203の判断が行われる。
【0083】
S1205の条件を満たすと判断された場合(S1205のYES)、続いて、n=n+1とされる(S1206)。文字列の次の文字の文字候補とキーワードとの一致を判定するためである。続いて、n>Nを満たすか否かが判断される(S1207)。文字列の最後まで一致を判定したかを判断するものである。S1207の条件を満たすと判断された場合(S1207のYES)、キーワードと文字列の文字候補とは一致しなかったものとして検索の処理は終了される。S1207の条件を満たさないと判断された場合(S1207のNO)、再度、キーワードの1文字目から一致の判定を開始するためにS1201の処理に戻る。
【0084】
S1203の条件を満たすと判断された場合(S1203のYES)には、続いて、i=Keyword.lengthを満たすか否かが判断される(S1208)。キーワードの最後の文字まで一致が判定されたかを判断するものである。S1208の条件を満たさないと判断された場合(S1208のNO)、続いて、i=i+1及びn=n+1とされる(S1209)。キーワードの次の文字と文字列の次の文字の文字候補との一致を判定するためである。続いて、n>Nを満たすか否かが判断される(S1210)。文字列の最後まで一致を判定したかを判断するものである。S1210の条件を満たすと判断された場合(S1210のYES)、キーワードと文字列の文字候補とは一致しなかったものとして検索の処理は終了される。S1210の条件を満たさないと判断された場合(S1210のNO)、S1202の処理に戻る。キーワードの次の文字と、文字列の次の文字の第1順位の文字候補との一致を判定するためである。
【0085】
S1208の条件を満たすと判断された場合(S1208のYES)、キーワードの全ての文字がキーワードの順番で、文字列を構成する文字候補の何れかに一致していることになるのでキーワードが文字列にマッチしたものとしてキーワードの検索が終了される。なお、本処理では、この時点でキーワードの検索は終了しているが、更に検索を続けてその後の文字候補にキーワードが一致する部分があるかを判定してもよい。また、上述した方法以外を用いて、キーワードと文字候補の何れかとの一致を判定してもよい。
【0086】
S12では、上記のキーワードと文字列を構成する文字候補との一致の判定が、検索対象となる全ての文字列に対して行われる。また、S11で入力されたキーワードが複数であった場合、複数のキーワードに対して上記の判断が行われる。
【0087】
続いて、図8に戻り、キーワードにマッチしたと判断された文字列について文字列のスコアが算出される(S13、検索ステップ)。具体的には、以下のようにスコアが算出される。まず、検索部18によって、キーワードと一致した文字列(文字候補)について、上述した式(2)が用いられて、文字認識信頼度が算出される(S131、検索ステップ)。
【0088】
続いて、上述した式(1)が用いられて、キーワードと一致した文字列に係る文字列領域の画像の視覚的特徴量が算出される(S132、視覚的特徴量算出ステップ)。視覚的特徴量の算出は、検索部18から視覚的特徴量算出部16に対して指示が行われて視覚的特徴量算出部16によって行われる。なお、視覚的特徴量算出部16による視覚的特徴量の算出自体は、必ずしもこのタイミングで行われる必要は無く、予め例えば、S04と同様のタイミングで行って記憶しておき、このタイミングでは記憶された情報を参照することとしてもよい。算出された視覚的特徴量を示す情報は、視覚的特徴量算出部16から検索部18に出力される。
【0089】
続いて、検索部18によって、上述した式(3)が用いられて文字列のスコア値である文字特徴量termscore(t,m)が算出される(S133、検索ステップ)。
【0090】
続いて、検索部18によって、上述した式(5)が用いられて、キーワードの使用率を示す値であるidf(t)が算出される(S14、検索ステップ)。続いて、検索部18によって、算出された文字特徴量termscore(t,m)とidf(t)とから、上述した式(4)並びに式(6)及び式(7)の何れかが用いられて、画像スコアscore(q,image)が算出される(S15、検索ステップ)。S12においてキーワードにマッチしたと判断された文字列を含む画像を示す情報と、上記の画像スコアを示す情報とが、検索部18から出力部19に出力される。
【0091】
続いて、出力部19によって、検索部18による検索の結果が出力される(S16、出力ステップ)。検索の結果の出力は、検索部18から入力された情報から、管理者端末30からの検索要求に対する検索結果の情報を生成して管理者端末30に送信することによって行われる。具体的には、検索結果の情報は、上述したように画像スコアが高い順にキーワードにマッチしたと判断された文字列を含む画像を示す情報が管理者端末30において表示するものである。また、上述したように当該画像が利用されているWebサイトの情報等についても、出力部19から管理者端末30に送信される。ユーザは管理者端末30において表示される検索結果を参照することで検索結果を認識することができる。以上が、画像検索装置10において、画像検索を実際に行う処理である。
【0092】
上述したように、本実施形態では、画像に含まれる文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量に応じて検索結果が出力される。従って、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、この構成によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。例えば、同一文字列が含まれる画像でも、小さい文字で説明されている場合に比べ、タイトル等の大きな文字で表記されている画像の場合にスコア値が高くなる。これにより、視覚的に目立つと同時に不正である確率が高い表現を見つけることができる。
【0093】
なお、上述した実施形態においては、文字列領域から文字列を構成する文字の複数の文字候補を特定することとしていた。しかしながら、視覚的特徴量に応じた検索は、必ずしも複数の文字候補を特定する必要はなく、文字列領域から文字列を一意に認識することとしてもよい。即ち、上述した画像検索装置10の文字列候補認識部14は、文字列領域抽出部13によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段である。また、図7におけるS03及びS04は、本実施形態に係る画像検索方法の文字列認識ステップを構成する。
【0094】
また、上述した実施形態のように画像を構成する画素の明度から視覚的特徴量を算出することとすれば、適切かつ適切に視覚的特徴量を抽出することができ、適切かつ適切に本発明を実施することができる。
【0095】
なお、視覚的特徴量を用いる本発明の特徴は、以下のような本発明の発明者の知見により得られたものである。不正な画像を検出するための検索のキーワードが用いられている画像であっても、キーワードの使われ方によっては必ずしも不正な表現とならない場合も多くみられる。
【0096】
そこで本発明の発明者は、予備実験としてサイバーモールの管理者が事前に不正な画像であると判断した674枚の画像を目視で確認した。その結果、不正表現を含む画像には、(1)不正単語が視覚的に目立つものが多い(2)不正単語の出現頻度が高い(3)画像内に複数の不正単語が含まれるという特徴が分かった。これらの知見をもとに、視覚的特徴量から画像のスコア値を算出したものである。なお、出現頻度等の知見についても、上述した本発明の特徴に反映されている。
【0097】
人間は、周囲の視覚刺激の中で異なる属性を持っている刺激に対して無意識に視線を向けることが多い。W3CのTechniques For Accessibility Evaluation And Repair Toolsによると明度差125以上、色差500以上が読みやすい色の組み合わせであるとされている。ウェブコンテンツ制作においても読みやすいコンテンツとするためには文字色と背景色との明度差や色差によるコントラストを確保する必要があることが知られている。また、槙らの研究では文字と背景の色彩をそれぞれ40通りに変化させた1600サンプルの評定結果から配色の明度差が読みやすさに大きく関わっていることを示している。
【0098】
そこで、上記の「不正単語が視覚的に目立つものが多い」という知見をスコアリングに反映させるために、674枚の不正表現を含むサンプル画像内の不正な文字列とその他の画像に含まれる文字列のサイズとコントラストに注目し分布を計測した。その結果、画像のサイズに関係なく文字サイズ30pt以上はタイトルや見出し、20pt以下の文字サイズは説明文に多く用いられている傾向があった。また、検知したいキーワードはタイトルやコントラストが高く目立ちやすい色使いをされていることが分かった。これらの知見から上述したような視覚的特徴量の特徴を構成したものである。ただし、明度差の範囲はW3Cで定義されている読みやすい明度差125と、高本らの研究によって得られた白内障の人にとっての読みやすいと感じられる“おおむね十分の境界”である158を基準とした。
【0099】
また、本実施形態のように複数のキーワードからスコア値を算出することが望ましい。この構成によれば、上述したようにAND検索やOR検索等の複数の検索用のキーワードに対する検索を行うことができ、ユーザにとってより利便性の高い検索を行うことができる。
【0100】
また、本実施形態のように画像におけるキーワードの出現率に応じてスコア値を算出することが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
【0101】
また、本実施形態のように画像から得られるハッシュ値に、当該画像が用いられているWebサイトを示す情報を対応付けておき、その対応に基づいて出力を行うことが望ましい。ハッシュ値は同一の画像であれば、一定の範囲内同一の値となるため複数の箇所で利用されている画像は、一つの画像として扱うことができる。従って、この構成によれば、同一の画像が複数の箇所において利用されている場合であっても有効に検索結果を活用することができる。即ち、同一の画像が検索結果として並ぶことを防止し、ユーザが検索したい画像を効率的に見つけることができる。例えば、ユーザが検索したキーワードが記載されている同一の画像が検索結果として並ぶことを防止することができる。
但し、上記のようなケースを想定していない場合等については、ハッシュ値を用いた情報の格納や出力を必ずしも行う必要はない。
【0102】
上述した実施形態においては、画像検索装置10は、画像検索用の情報を生成するまでの処理と、生成された画像検索用の情報を用いて画像検索を実際に行う処理との両方を備えていた。しかしながら、上記のそれぞれの処理のみを行う装置が、本発明に係る装置として別々に構成されていてもよい。即ち、そのうちの一つの装置は、上述した機能のうち、少なくとも画像データベース11と、文字列領域抽出部13と、文字候補認識部14と、文字候補記憶部15と、視覚的特徴量算出部16とを備える情報処理装置である画像検索用情報生成装置である。また、もう1つの装置は、上述した機能のうち、少なくとも文字候補記憶部15と、検索キーワード入力部17と、検索部18と、出力部19とを備える情報処理装置である画像検索装置である。
【0103】
なお、本実施形態では、検索対象の画像としてサイバーモールで販売される商品の説明画像を例として説明したが、本発明において検索対象の画像は上記の目的の画像に限られず任意の画像を検索対象としてよい。例えば、電子データ化された本の対象として検索を行う場合にも適用できる。また、本発明に係る画像検索の目的も上記のものに限られず任意の目的のものに対して用いられてもよい。また、不正な画像を検出する場合であっても、上述した基準以外の基準を用いて検索を行うこととしてもよい。例えば、小さな文字で表現される不正表現を検出する場合には、文字が小さいほどスコアが高くなるような基準を用いてもよい。
【0104】
引き続いて、本発明に係る評価実験について説明する。以下のような評価実験を行った。文字候補数Nによりどの程度、画像内文字検索の精度が変化するかを評価するために、文字候補数を1〜60の範囲で5刻みに変化させ、不正表現を含む画像で用いられやすい以下の66個の検索キーワードを利用して画像内文字検索を行った。検索キーワードは、具体的には例えば、白肌、細胞、発毛、抑毛、花粉症、若返り、抗老化である。
【0105】
実験は、予めサイバーモールの管理者が、「医薬品・コンタクト・介護カテゴリ」内で検知した不正表現を含むサンプル画像を用い、上述した手法により画像内文字を認識し、認識結果を得た。但し、文字カテゴリとして英、数、記号、ひらがな、カタカナ、漢字(JIS第一水準)を含む3410文字を利用し、辞書を作成するために電子商店で多く利用されている「HGS創英角ポップ体」「HGP行書体」「MSゴシック」の3つのフォントを利用した。また、上記の検索キーワードを用いて目視によりカウントした検索キーワードを含む画像数(S)と、文字候補数を変化させて得られた正解画像数(T)、誤って検知された画像数(E)を比較し、平均の再現率(Recall)と適合率(Precision)とF値とを式(8)(9)(10)により求めた。
Recall=T/S (8)
Precision=T/(T+E) (9)
F=(2・Recall・Precision) (10)
【0106】
文字候補数と上記の値との関係を示すグラフを、図10に示す。図10に示すように、文字候補を増やすことで適合率が下がり再現率が上がる傾向が見られ、文字認識結果を多重化することで検索漏れを低減することが可能であることが分かる。また、文字候補数が30付近でF値が安定し、文字候補数が30以降では検索性能の差が小さくなるため、本実施形態における文字認識手法では文字候補を第30位まで利用することで良好な検索結果が得られることが分かる。
【0107】
また、文字候補数30の場合の検索キーワードの長さと検索精度との関係を図11の表に示す。この表に示すように、検索キーワードが短い場合に検索誤りが生じ適合率が低くなる傾向が認められる。これは文字候補数を多くすることによって、誤認識された文字認識結果を検知する確率が高くなるためであり、検索キーワードの長さに応じて文字候補数を調整することで適合率を高くすることが可能である。更に、再現率と検索キーワードの長さとの相関は見られなかったが、全体的に再現率が低くなる傾向が見られる。これは、サンプル画像にはアーチ状に配置された文字列や斜体の文字、サイズが小さいといった、文字抽出及び認識が困難なケースが多く含まれたためである。
【0108】
続いて、文字認識信頼度と画像内の文字列の視覚的特徴と出現頻度とを利用した画像スコアを用いることで、不正である確率が高い視覚的に目立つ文字列を含む画像を効率良く見つけることが可能かどうかを確認するために以下の実験を行った。サンプル画像として図12に示した10種類の画像を作成して画像スコアを求めた。画像内の文字色は、#000000(色の表記は、Webセールカラー表記である。以下同様)の「MSゴシック」のフォントを利用し、(1)(4)(6)〜(10)は文字サイズを30pt、(3)(5)は20pt、(2)は30ptと20ptとの両方を利用し、(1)〜(5)(7)(8)(10)は背景色を#FFFFFF、(6)(9)は#666666とした。また、「絶対痩せる」と「絶対痩せろ」の各文字列の画像の認識結果に対し「絶対痩せる」というキーワードで検索した場合の文字認識信頼度は、上述した図5を用いた説明で示した通り、文字サイズに関わらずそれぞれ1.00、0.71となった。
【0109】
サンプル画像のスコアを上述した文字認識信頼度と視覚的特徴量とのバランスをとるパラメータαを0.0〜1.0で0.2刻みに変化させて計算した結果を、図13の表に示す。但し、上述した視覚的特徴量saliency(t)は、式(3)において、saliency(t)を0.0とした場合、画像内文字の視覚的な特徴をスコアに反映できないので、本実験では、lowを0.5、highを1.0、mediumをその中間の値である0.75とした。
【0110】
まず、αが0.0の場合に注目すると、画像のスコアには文字認識信頼度のみが反映されるため、検索誤りが少ない結果の画像を優先的に提示することが可能になる。しかし、文字認識信頼度が同じ(1)〜(3)と(6)とが同じスコアになり、視覚的に目立たない(6)が上位に来る可能性がある。αは文字認識信頼度と視覚的特徴量とのバランスをとるパラメータであるから、αの値を高くするほど視覚的特徴量を強く反映することができる。しかし、αが0.6以上の場合に検索キーワードを含まない(7)及び(10)のスコアが、検索キーワードを同数含む(6)及び(5)のスコアをそれぞれ超えてしまっている。そのため検索結果の上位の検索誤りを含む結果が表示されてしまうことになる。同様に(4)(9)(10)を比較すると、αが0.0の場合(4)と(9)とが同スコアになり、αが1.0の場合(4)と(10)とが同スコアになってしまう。
【0111】
次に、(1)(7)(8)について比較すると、αが1.0以外の場合に画像に含まれる検索キーワードが多いほど画像スコアが高くなっていることが分かる。これらの結果から、αの値を0.2〜0.4に設定することで検索キーワードを含まない画像のスコアを低く、また視覚的特徴量に応じて検索結果を良好にソートできていることが確認できる。
【0112】
このように、文字認識信頼度だけでなく文字列の視覚的特徴量と出現頻度を考慮することで、同一の文字列が同数含まれる場合に小さい文字で説明されている画像に比べ、タイトル等の大きな文字で表記されている画像の場合にスコアを高くすることが可能になる。これにより、より視覚的に目立つと同時に不正である確率が高い表現を含む画像を効率良く見つけることができる。
【0113】
続いて、上述した画像検索装置10(画像内文字検索システム)を作成し、実際にサイバーモールで利用されている画像を対象に検索時間の評価を行った。作成したシステムは、Webサーバ上で動作するウェブアプリケーションである。上述した多重化された認識結果から任意の文字列検索を高速に実現するためにLucene(Apacheプロジェクトが管理する全文検索エンジン)を用いた。本システムではインデックスを作成するためにLuceneに実装されているN−gramを用いた単語分割Analyzer(uni−gram)を用いて、第N位までの文字認識候補の組み合わせの中から任意単語の検索を行った。但し、インデックス作成時に文字色と背景色のコントラストと、文字サイズとから求められる視覚的特徴量をFieldに持たせることで、検索キーワードに応じた画像スコアの計算を行う。開発した画像内文字検索システムの応答性能や検索精度といった実用性の確認をおこなうために実際のサイバーモールの「ダイエット・健康カテゴリ」、「医薬品・コンタクト・介護カテゴリ」から取得した567,667枚の画像を対象に、予め画像内の文字認識を行った結果得られた認識結果をインデックス化している。
【0114】
標準的なOSによって動作する標準的なPCによって、以下のような条件で測定を行った。
画像数:567,667枚
インデックスサイズ(GB):2.2(N=1)、2.8(N=5)、3.6(N=10)、4.4(N=15)、5.2(N=20)、6.0(N=25)、30(N=6.8)
【0115】
実験では、上述した、文字候補数Nに応じた画像内文字検索の精度変化の評価に用いた66個の検索キーワードを用いて文字候補数が1〜30のインデックスを使用し、文字候補数に対する検索時間を確認した。図14に文字候補数と検索時間との関係を示すグラフを示す。図14に示すように、文字候補数に対する検索時間はO(n)で増えている。同時に、標準偏差の値が大きくなることからキーワードの長さによって探索時間のばらつきが生じていることが分かる。また、文字候補数30の場合においても平均検索時間が約350ミリ秒であり、ストレスを感じさせないという意味で十分実用に耐えうる応答性能を実現できていることがわかる。但し、平均検索時間は上記の66個のキーワードをクエリーとして10回検索を行った際の平均の時間である。
【0116】
引き続いて、上述した一連の画像検索装置10の画像検索を行う処理をコンピュータに実行させるための情報処理プログラムを説明する。図15に示すように、情報処理プログラム41は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体40に形成されたプログラム格納領域40a内に格納される。
【0117】
情報処理プログラム41は、画像検索処理を統括的に制御するメインモジュール41aと、画像データベースモジュール41bと、画像登録モジュール41cと、文字列抽出モジュール41dと、文字候補認識モジュール41eと、文字候補記憶モジュール41fと、視覚的特徴量算出モジュール41gと、検索キーワード入力モジュール41hと、検索モジュール41iと、出力モジュール41jとを備えて構成される。画像データベースモジュール41bと、画像登録モジュール41cと、文字列領域抽出モジュール41dと、文字候補認識モジュール41eと、文字候補記憶モジュール41fと、視覚的特徴量算出モジュール41gと、検索キーワード入力モジュール41hと、検索モジュール41iと、出力モジュール41jとを実行させることにより実現される機能は、上述した画像検索装置10の画像データベース11と、画像登録部12と、文字列領域抽出部13と、文字候補認識部14と、文字候補記憶部15と、視覚的特徴量算出部16と、検索キーワード入力部17と、検索部18と、出力部19との機能とそれぞれ同様である。
【0118】
なお、情報処理プログラム41は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、情報処理プログラム41の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の情報処理プログラム41の情報処理を行う処理が行われる。
【符号の説明】
【0119】
10…画像検索装置、11…画像データベース、12…画像登録部、13…文字列領域抽出部、14…文字候補認識部、15…文字候補記憶部、16…視覚的特徴量算出部、17…検索キーワード入力部、18…検索部、19…出力部、30…管理者端末、40…記録媒体、40a…プログラム格納領域、41…情報処理プログラム、41a…メインモジュール、41b…画像データベースモジュール、41c…画像登録モジュール、41d…文字列領域抽出モジュール、41e…文字候補認識モジュール、41f…文字候補記憶モジュール、41g…視覚的特徴量算出モジュール、41h…検索キーワード入力モジュール、41i…検索モジュール、41j…出力モジュール。
【技術分野】
【0001】
本発明は、画像検索に係る情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体に関する。
【背景技術】
【0002】
画像に対する検索方法として、例えば、画像に含まれる文字列をテキスト化してテキスト化された文字列に対して検索を行うことが考えられる。画像に含まれる文字列をテキスト化する技術として、例えば、特許文献1に記載されたような文字認識を行うものがある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2001−337993号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、画像に文字列を用いる場合には、画像をWebページ等に利用する者が意図的に画像中のレイアウトや文字のフォントや文字色と背景色とのコントラストを特徴的に用いる場合がある。このような意図としては、例えば、商品を目立たせたいというものや、あるいは広告に誇大表現を用いる等の不正表現がある。このような場合、単に画像中に含まれる文字列を検索するだけでは、画像をWebページ等に利用する者の意図に従った適切な検索を行うことができない。
【0005】
本発明は、上記を鑑みてなされたものであり、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明に係る情報処理装置は、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段と、文字列領域抽出手段によって抽出された文字列領域の画像から、文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段と、を備えることを特徴とする。
【0007】
本発明に係る情報処理装置では、画像に含まれる文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量を算出して記憶する。この情報を利用して検索を行えば当該視覚的特徴量に応じて検索結果を出力することが可能である。従って、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、本発明に係る情報処理装置によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。
【0008】
視覚的特徴量算出手段は、文字列を構成する文字毎の視覚的特徴量を算出して記憶することしてもよい。この構成によれば、検索時に文字毎の視覚的特徴量を足し合わせて文字列の視覚的特徴量とすることができる。
【0009】
情報処理装置は、検索用のキーワードを入力する検索キーワード入力手段と、キーワード入力手段によって入力されたキーワードが文字列認識手段によって認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された文字列領域の視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索手段と、検索手段による検索結果を、検索手段によって算出されたスコア値に応じてソートして出力する出力手段と、を更に備える。この構成によれば、視覚的特徴量算出手段によって算出された視覚的特徴量を用いて確実に検索を行うことができる。
【0010】
また、文字列認識手段は、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定すると共に文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、情報処理装置は、文字列認識手段によって特定された複数の文字候補を文字毎に当該文字候補の特定元である画像に対応付けて記憶すると共に文字列認識手段によって評価された正確性を示す情報に基づいて文字候補を記憶する文字候補記憶手段を更に備え、検索手段は、キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に文字候補記憶手段によって記憶された文字列を構成する複数の文字候補の何れかに一致するか否かを検索し、キーワードを構成する各文字が、文字候補記憶手段によって記憶された複数の文字候補の何れかに一致した場合、正確性を示す情報から当該一致に関しての信頼性を評価し、視覚的特徴量と当該信頼性とを重み付けして足し合わせることでスコア値を算出する、こととしてもよい。
【0011】
また、文字列認識手段は、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定すると共に文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、情報処理装置は、文字列認識手段によって特定された複数の当該文字候補の何れかを組み合わせた文字列を当該文字候補の特定元である画像に対応付けて記憶すると共に文字列認識手段によって評価された正確性を示す情報に基づいて文字列を記憶する文字候補記憶手段を更に備え、検索手段は、キーワード入力手段によって入力されたキーワードを構成する各文字が、当該キーワードの順に文字候補記憶手段によって記憶された文字列の何れかに一致するか否かを検索し、キーワードを構成する各文字が、文字候補記憶手段によって記憶された文字列の何れかに一致した場合、正確性を示す情報から当該一致に関しての信頼性を評価し、視覚的特徴量と当該信頼性とを重み付けして足し合わせることでスコア値を算出する、こととしてもよい。
【0012】
視覚的特徴量算出手段は、文字列領域の文字列を構成するとされた画素の明度と、文字列領域の背景を構成するとされた画素の明度との差に基づいて視覚的特徴量を算出することが望ましい。この構成によれば、適切に画像の色に基づく視覚的特徴量を抽出することができ、適切に本発明を実施することができる。
【0013】
視覚的特徴量算出手段は、文字列領域の文字列を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とし、文字列領域の背景を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とすることが望ましい。この構成によれば、確実に画像の色に基づく視覚的特徴量を抽出することができ、確実に本発明を実施することができる。
【0014】
検索手段は、キーワード入力手段によって入力された複数のキーワードに対してスコア値を算出する、ことが望ましい。この構成によれば、複数の検索用のキーワードに対する検索を行うことができ、ユーザにとってより利便性の高い検索を行うことができる。
【0015】
検索手段は、画像データベースに格納された画像に対する、キーワードを含む画像の割合に基づいて、スコア値を算出することが望ましい。この構成によれば、画像に含まれるキーワードの出現率に応じた検索結果の出力が可能になる。即ち、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
【0016】
画像データベースは、同一の画像を複数含まないように検索対象の画像を格納すると共に、当該画像から得られるハッシュ値と当該画像が利用されているWebページの箇所を示す情報とを対応付けて格納し、出力手段は、検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、画像データベースに当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebページの箇所を示す情報とを出力する、ことが望ましい。この構成では、検索対象となる画像のハッシュ値と当該画像が利用されているWebページの箇所を示す情報とが対応付けられて格納されており、検索結果として、検索によって得られた画像を示す情報と、当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebページの箇所を示す情報とが出力される。ハッシュ値は同一の画像であれば、一定の範囲内の値となるため複数のWebページの箇所で利用されている画像は、一つの画像として扱うことができる。従って、この構成によれば、同一の画像が複数のWebページの箇所において利用されている場合であっても有効に検索結果を活用することができる。即ち、同一の画像が検索結果として並ぶことを防止し、ユーザが検索したい画像を効率的に見つけることができる。例えば、ユーザが検索したキーワードが記載されている同一の画像が検索結果として並ぶことを防止することができる。
【0017】
ところで、本発明は、上記のように情報処理装置の発明として記述できる他に、以下のように情報処理方法、及び情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
【0018】
即ち、本発明に係る情報処理方法は、検索対象の画像を格納する画像データベースを備える情報処理装置による画像検索方法であって、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を認識する文字列認識ステップと、文字列領域抽出ステップにおいて抽出された文字列領域の画像から、文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出ステップと、検索用のキーワードを入力する検索キーワード入力ステップと、キーワード入力ステップにおいて入力されたキーワードが文字列認識ステップにおいて認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された文字列領域の視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索ステップと、検索ステップにおける検索結果を、検索手段によって算出されたスコア値に応じてソートして出力する出力ステップと、を含むことを特徴とする。
【0019】
また、本発明に係る記録媒体は、一つ以上のコンピュータを、検索対象の画像を格納する画像データベースと、画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段と、文字列領域抽出手段によって抽出された文字列領域の画像から、文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段と、検索用のキーワードを入力する検索キーワード入力手段と、キーワード入力手段によって入力されたキーワードが文字列認識手段によって認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された文字列領域の視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索手段と、検索手段による検索結果を、検索手段によって算出されたスコア値に応じてソートして出力する出力手段と、して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【発明の効果】
【0020】
本発明では、画像に含まれる文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量に応じて検索結果が出力されることが可能である。従って、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、本発明によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。
【図面の簡単な説明】
【0021】
【図1】本発明の実施形態に係る情報処理装置である画像検索装置の機能構成を示す図である。
【図2】画像から認識されて画像検索装置によって記憶される文字候補の例を示す表である。
【図3】画像の文字列領域から文字色と背景色とを取得した例を示す図である。
【図4】文字列の文字サイズ、及び文字色の明度と背景色の明度との差から文字列の視覚的特徴量を求めるための表である。
【図5】検索キーワードと文字認識信頼度との関係を説明するための図である。
【図6】画像検索装置から検索結果として出力されて表示された画面の例である。
【図7】本発明の実施形態に係る画像検索装置で実行される処理(情報処理方法)のうち、画像検索用の情報を生成するまでの処理を示すフローチャートである。
【図8】本発明の実施形態に係る画像検索装置で実行される処理(情報処理方法)のうち、画像検索を実際に行う処理を示すフローチャートである。
【図9】本発明の実施形態に係る画像検索装置で実行される処理(情報処理方法)のうち、キーワードの検索処理を示すフローチャートである。
【図10】文字候補数と画像内文字検索の精度との関係を示すグラフである。
【図11】目視結果と検索結果との比較(N=30の場合)を示す表である。
【図12】実験に用いたサンプル画像である。
【図13】画像スコアの計算結果を示す表である。
【図14】文字候補数と検索時間との関係を示すグラフである。
【図15】本発明の実施形態に係る情報処理プログラムの構成を、記録媒体と共に示す図である。
【図16】画像検索装置によって記憶される、画像から認識された文字候補を組み合わせた文字列の例を示す表である。
【発明を実施するための形態】
【0022】
以下、図面とともに本発明に係る情報処理装置、情報処理方法、情報処理プログラム、情報処理プログラムを記録した記録媒体及び画像検索用情報生成装置の好適な実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0023】
図1に本実施形態に係る情報処理装置である画像検索装置10を示す。画像検索装置10は、検索対象の画像に対する検索要求を受け付けて、当該検索要求に応じた検索結果を出力する装置である。本実施形態では、検索対象の画像は、サイバーモールで販売される商品の説明画像である。画像検索装置10による画像検索の目的としては、商品の説明画像として不適切な画像がないかどうかをチェックするというものである。商品の説明画像として不適切な画像とは、例えば、健康商品や化粧品等の商品の効果を消費者に過剰に期待されるものである。上記のような検索対象及び目的から画像検索装置10は、例えば、サイバーモールを管理する事業者によって用いられる。従って、画像検索装置10は、図1には明示していないがサイバーモールを構成するサーバに接続する等して検索対象の画像を取得できるようになっている。
【0024】
画像検索装置10は、管理者端末30と接続されて互いに情報の送受信を行うことができる。画像検索装置10は、管理者端末30から検索対象の画像に対する検索要求を受信して、検索要求に応じた検索結果を示す情報を管理者端末30に出力する。
【0025】
画像検索装置10は、CPU(Central Processing Unit)やメモリ、通信モジュール等のハードウェアを備えるサーバ装置等のコンピュータにより実現される。これらの構成要素がプログラム等のより動作することによって、後述する画像検索装置10の機能が発揮される。また、画像検索装置10は、複数のコンピュータからなるコンピュータシステムによって構成されていてもよい。
【0026】
管理者端末30は、上述したサイバーモールを管理する事業者のユーザによって用いられる通信機能を有する端末であり、画像検索装置10と情報の送受信を行うことができる。管理者端末30は、具体的には、PC(Personal Computer)等の通信装置に相当する。
【0027】
引き続いて、画像検索装置10の機能的な構成を説明する。図1に示すように画像検索装置10は、画像データベース11と、画像登録部12と、文字列領域抽出部13と、文字候補認識部14と、文字候補記憶部15と、視覚的特徴量算出部16と、検索キーワード入力部17と、検索部18と、出力部19とを備えて構成される。
【0028】
画像データベース11は、検索対象の画像を格納(記憶)するデータベースである。画像データベース11に格納される画像は、上述したようにサイバーモールを構成するWebサイトに掲載されている、当該サイバーモールで販売される商品の説明画像である。各画像には、画像を特定するID等の情報が付与されており、画像を特定できるようになっている。また、画像データベース11は、同一の画像については重複して格納しない。即ち、画像データベース11は、同一の画像を複数含まないように画像を格納する。画像データベース11は、具体的には、画像検索装置10が備えるメモリやハードディスク等のハードウェアによって実現される。画像データベース11は、データベースを構成するソフトウェアによって格納する画像のデータを管理してもよいし、単にメモリやハードディスク等に画像のデータを格納するだけのものであってもよい。
【0029】
画像データベース11は、格納する画像に対応付けて、当該画像にハッシュ関数を適用することによって得られるハッシュ値を記憶する。当該ハッシュ関数は、予め設定された特定のハッシュ関数である。同一の画像であれば、そこから得られるハッシュ値は一定の範囲内のものになる。これにより、サイバーモールにおいて同一の画像が複数のWebサイトで用いられていた場合、一つのハッシュ値で管理することができる。なお、ここでは、文字色が類似(赤とオレンジ等)している画像や文字の大きさが類似している画像等のユーザにとって同じとみなせる画像についても同一の画像であるものとしてもよい。上記のハッシュ値の一定の範囲は、同一の画像と見なせる画像に応じて適宜設定することができる。画像データベース11は、上記のハッシュ値に、当該画像が利用されているWebページの箇所であるWebサイトを示す情報を対応付けて格納する。Webサイトを示す情報は、例えば、URL(Uniform Resource Locator)である。また、画像データベース11は、上記のWebサイトを示す情報それぞれに数値を対応付けて格納する。この数値は、例えば、当該Webサイトにおける当該画像に係る商品の販売価格である。また、上記のWebサイトを示す情報それぞれには、当該Webサイトにおける当該商品の説明等のその他の情報が対応付けられていてもよい。上記のようなデータ構成によって、画像データベース11は、画像と、画像が用いられているWebサイト及び当該Webサイトにおける当該画像に係る商品の販売価格の情報とを対応付けて記憶することができる。
【0030】
画像登録部12は、新たに画像データベース11に登録する画像と当該画像が利用されているWebサイトを示す情報とを入力して、それらの情報を画像データベースに格納させる画像登録手段である。画像登録部12は、予め上述した特定のハッシュ関数を記憶しておく。画像登録部12は、入力した画像にそのハッシュ関数を適用してハッシュ値を算出する。画像登録部12は、画像データベース11に格納されたハッシュ値を読み出して、算出したハッシュ値が画像データベース11に既に格納されているハッシュ値から一定の範囲内の値であるか否かを判断する。画像登録部12は、算出したハッシュ値が、既に格納されているハッシュ値から一定の範囲内の値であると判断された場合には、当該既に格納されているハッシュ値に当該画像が利用されているWebサイトを示す情報を対応付けて画像データベース11に格納させる。画像登録部12は、算出したハッシュ値が、既に格納されているハッシュ値から一定の範囲内の値でないと判断された場合には、入力した画像及びWebサイトを示す情報、並びに算出したハッシュ値を対応付けて新たに画像データベース11に格納させる。その際、上述したように当該Webサイトにおける当該画像に係る商品の販売価格の情報等も合わせて登録することとしてもよい。
【0031】
画像登録部12への、画像と当該画像が利用されているWebサイトを示す情報との入力は、例えば、サイバーモールを管理する事業者のユーザの操作によって管理者端末30から行われる。あるいは、サイバーモールのWebサイトにおいて新たに画像が利用された場合に自動的に入力が行われることとしてもよい。
【0032】
文字列領域抽出部13は、画像データベース11に格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段である。文字列領域の抽出は、例えば、以下のように行われる。まず、画像内の文字を抽出するために対象画像をグレースケース画像に変換した後、判別分析法により閾値を決定し2値画像に変換する。この方法には、例えば、大津:判別および最小2 乗規準に基づく自動しきい値選定法,信学論D, Vol.63, No.4,pp.349-356(1980)に記載された方法を用いることができる。次に2値画像にラベリング処理を行い、得られた画像連結要素をピッチ、縦横比及び角度を用いて領域を連結し横方向と縦方向に並んだ文字列画像を抽出する。この方法には、例えば、芦田,永井,岡本,宮尾,山本:情景画像からの文字抽出,信学論D, Vol.J88-D2, No.9,pp.1817-1824(2005)に記載された方法を用いることができる。
【0033】
文字列領域抽出部13は、上記のように抽出した文字列領域(の画像のデータ)を文字候補認識部14及び視覚的特徴量算出部16に出力する。この際、抽出した文字列領域が、何れの画像から抽出を行ったかを(抽出元の画像を)判別できるようにしておく。なお、文字列領域抽出部13は、1つの画像から複数の文字列領域を抽出することとしてもよい。この場合、画像から抽出した文字列領域それぞれを例えば、IDを付与する等として判別できるようにしておく。また、抽出される文字列領域は、画像中で領域が重複するものであってもよい。画像中において1つの箇所が、縦方向の文字列領域と、横方向の文字列領域との両方に属するものであってもよい。何れの方向に文字列を読むか明確に判別できない場合であっても、文字列の抽出漏れを防止するためである。
【0034】
文字列領域抽出部13が文字列を抽出するタイミングは、例えば、新たに画像データベース11に画像が格納されたタイミングである。あるいは、ユーザの操作をトリガとして抽出が行われてもよい。
【0035】
文字候補認識部14は、文字列領域抽出部13によって抽出されて入力された文字列領域に含まれる文字列を構成する各文字について、画像から文字認識を行って複数の文字候補を特定する文字候補認識手段である。また、文字候補認識部14は、文字認識の際に特定された各文字候補に関して文字認識の正確性を評価し、各文字候補の順位付けを行う。文字認識は、以下のように行われる。
【0036】
形態素解析を用いて、入力された文字列領域の画像を文字列を構成する各文字の画像に分割して、各文字の画像に対して文字認識処理を行う。文字認識は、画像から文字認識に用いる特徴量を抽出して、その特徴量と予め抽出しておいた文字候補となりえる文字の特徴量とを比較することによって行われる。文字認識に用いる特徴量は、例えば、文字の輪郭を利用した方向線素特徴を用いることができる。この方法には、例えば、孫,田原,阿曽,木村:方向線素特徴量を用いた高精度文字認識,信学論, vol.J74-D-II, No.3,pp.330-339(1991)に記載された方法を用いることができる。
【0037】
文字認識の正確性としては、例えば、特徴量のユークリッド距離の短さを用いることができる。即ち、画像から抽出した特徴量と、特徴量のユークリッド距離で近い特徴量を有する文字ほど正確性が高い文字候補とする。この文字認識の正確性を用いて、各対象文字画像に対して、文字候補に順位付けを行う。順位付けされた文字候補は、第N位までの多重化された文字候補として保持される(Nは、予め設定された2以上の自然数)。このように文字列を構成する各文字に対して、複数の文字候補を保持することで、文字候補誤りによる検索漏れを回避する。文字候補認識部14は、上記のように、文字列領域から特定した文字列を構成する各文字の複数の文字候補の情報を文字候補記憶部15に出力する。
【0038】
文字候補記憶部15は、文字候補認識部14によって特定された複数の文字候補を、文字列の順に当該文字候補の特定元である画像に対応付けて記憶する文字候補記憶手段である。文字候補記憶部15は、文字候補認識部14によって評価された正確性が高い順番に各文字候補を示す情報を文字毎に画像に対するインデックスとして記憶する。この記憶は、例えば、画像検索装置10のメモリやハードディスク等に、例えば下記のような各文字候補を示すデータ(ファイル)を格納することによって行われる。
【0039】
文字候補記憶部15が記憶する情報の例を図2に示す。図2に示す例は、1つの文字列領域から認識される文字候補である。図2に示すように、文字候補記憶部15が記憶する情報は、文字の順番(図2における「No.j」)と、文字座標と、認識結果との情報がそれぞれ対応付けられたものである。文字の順番は、その文字候補が、文字列を構成する何番目の文字に相当するかを示す情報である。文字座標は、その文字候補が文字候補の特定元の画像における何れの位置にあるかを示す情報である。文字座標の情報は、画像左上を原点(0,0)とした場合の文字画像の(x座標,y座標,幅,高さ)を示すものである。ここで、x座標及びy座標は、文字画像における予め設定された基準位置(例えば、文字画像の左上の画素の位置)を示すものである。文字座標の情報は、例えば、文字候補認識部14によって取得される。
【0040】
認識結果は、各文字の文字候補を正確性が高い順番に並べたものである。ここでは、認識結果Cのn番目の文字候補第j位をC[n][j]と表現する。例えば、図2の表の認識結果CにおけるC[1][1]、C[1][2]及びC[10][1]は、それぞれ「そ」、「予」及び「高」となる。
【0041】
文字候補記憶部15は、図2に示すような認識結果を示す情報を、文字候補の特定元である画像のハッシュ値等の画像を特定する情報に対応付けて記憶しておき、何れの画像から抽出されたのか判別できるようにしておく。また、1つの画像から複数の文字列領域が抽出される場合は、文字列領域のID等に対応付けて記憶しておき、何れの文字列領域から抽出されたのか判別できるようにしておく。
【0042】
文字候補記憶部15は、文字候補認識部14によって特定された複数の文字候補を、当該文字候補の何れかを前記文字列の順に組み合わせた文字列として、当該文字候補の特定元である画像に対応付けて記憶することとしてもよい。即ち、図2に示すような各文字について文字候補の一つを選択して文字列の順に組み合わせた文字列を記憶しておいてもよい。
【0043】
例えば、図2に示すような認識結果であった場合、その文字列は、図16に示すようなものとなる。ここで、組み合わせられて記憶される文字列は、画像から取得された文字候補の順に連続するものではなく、部分的に文字列が抜けたものであってもよい。例えば、画像から取得された文字候補を「安全性」「の高さ」とは文字候補の順では連続していないが、そのような組み合わせであってもよい。また、文字毎に文字候補を記憶する場合であっても、上記と同様に後述する検索において必ずしも文字候補の順で一致を判断しなくてもよい。また、上記のように文字列を記憶する場合であっても、文字候補に対応する情報(文字認識の正確性の情報等)については、文字列に対応付けておき文字毎に文字候補を記憶した場合と同様に扱うことができる。
【0044】
ここで記憶される文字列は、全ての文字候補の組み合わせについて記憶しておいてもよいし、予め設定される検索キーワードとして想定される文字列に一致する組み合わせのみを記憶しておいてもよい。また、文字列の一部(例えば、図2の情報の例では「その安全性」という部分)について記憶することとしてもよい。
【0045】
視覚的特徴量算出部16は、文字列領域抽出部13によって抽出された文字列領域の画像から、文字列を構成する文字の大きさ及び色の少なくとも何れかに基づく当該文字列の視覚的特徴量(saliency)を算出して記憶する視覚的特徴量算出手段である。視覚的特徴量算出部16は、文字列領域の文字列を構成するとされた画素の明度と、文字列領域の背景を構成するとされた画素の明度との差に基づいて視覚的特徴量を算出する。視覚的特徴量算出部16は、文字列領域の文字列を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とし、文字列領域の背景を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とする。より具体的には、視覚的特徴量算出部16は、以下の処理によって文字列の視覚的特徴量を算出する。視覚的特徴量算出部16は、算出した視覚的特徴量を文字列に対応付けて記憶する。この記憶は、例えば、画像検索装置10のメモリやハードディスク等に情報を格納することによって行われる。
【0046】
また、視覚的特徴量算出部16は、文字列を構成する文字毎の視覚的特徴量を算出して記憶することとしてもよい。この構成によれば、検索時に文字毎の視覚的特徴量を足し合わせて文字列の視覚的特徴量とすることができる。
【0047】
視覚的特徴量算出部16は、文字候補認識部14と同様に文字認識を行う。但し、視覚的特徴量算出部16による文字の認識は、必ずしも複数の文字候補を特定するものでなくてもよい。視覚的特徴量算出部16は、文字の抽出時に得られた文字画像領域の縦横の大きさから文字の大きさ(文字サイズ)を特定する。文字サイズは、例えば、ポイント(pt)単位で得る。
【0048】
視覚的特徴量算出部16は、文字色と背景色とを文字画像領域に含まれる文字領域と背景領域に対して、代表色選択法を用いて取得する。代表色選択法は、例えば、長谷,米田,酒井,丸山:カラー文書画像中の文字領域抽出を目的とした色分割についての検討,信学論 D-II vol. J83-D-II No.5 pp.1294-1304 (2000)に記載されている。代表色の選択の手順は、まず文字領域と背景領域の各領域に対し画素値をRGB色空間からL*a*b*色空間に変換する。その後、全ての画素を一辺wの立方体に分割したL*a*b*色空間に写像し、小領域に落ちた画素の数を調べる。ここでwは、予め設定した値である。その結果、小領域の画素値が回りにある26近傍のそれぞれの小領域に落ちた画素数に比べて最も多い小領域を代表色とした。但し、複数個所が発生する場合はそれらいずれかの領域を代表色とした。
【0049】
実際に代表色選択を行い、文字色と背景色とを取得した例を図3に示す。図3において、破線で示す領域は文字列領域である。また、代表色を選択する際のwの値は、4とした。視覚的特徴量算出部16は、明度Lを代表色の画素のRGB値から以下の式(1)により求める。
L=0.298912R+0.586611G+0.114478B (1)
視覚的特徴量算出部16は、文字色の明度Lと背景色の明度Lとの差の絶対値を求める。続いて、視覚的特徴量算出部16は、図4の表に従い、得られた文字サイズと明度差とから文字列の視覚的特徴量を算出する。図4に示す表では、視覚的特徴量は、low、medium及びhigh等と定性的な標記となっているが、それらを定量的な値に変換してもよい。視覚的特徴量算出部16は、算出した文字列の視覚的特徴量を示す情報を検索部18に出力する。
【0050】
視覚的特徴量算出部16が視覚的特徴量を算出するタイミングは、例えば、文字列領域抽出部13が文字列を抽出するタイミングと同様に、新たに画像データベース11に画像が格納されたタイミングである。この場合、視覚的特徴量は、例えば、画像に対するインデックスであるインデックスに付加された情報として記憶される。あるいは、検索部18による検索処理が行われる際に、検索部18からの指示によって行われてもよい。なお、視覚的特徴量算出部16は、大きさ及び色以外にも、その他の文字の特徴、例えば、形状(フォント)及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づいて、視覚的特徴量を算出することとしてもよい。
【0051】
検索キーワード入力部17は、検索用のキーワードを入力する検索キーワード入力手段である。検索キーワード入力部17は、複数のキーワードを入力してもよい。その場合、複数のキーワードでAND検索を行うか、OR検索を行うかを示す情報も合わせて入力するのがよい。検索用のキーワードを入力は、例えば、以下のように行われる。
【0052】
検索キーワード入力部17は、管理者端末30からのアクセス要求を受け付けて、キーワードを入力するためのフォームを有するWebページのデータを管理者端末30に送信する。管理者端末30では、当該Webページのデータが受信されて表示される。管理者端末30では、ユーザによってキーワードの入力操作が行われて、当該キーワードを含む検索要求が画像検索装置10に送信される。検索キーワード入力部17は、当該検索要求を受信して、受信した検索要求からキーワードを取得することによってキーワードを入力する。検索キーワード入力部17は、入力したキーワードを検索部18に出力する。
【0053】
検索部18は、検索キーワード入力部17から入力されたキーワードを用いて、画像データベース11に格納された画像を対象として検索を行う検索手段である。検索は、検索キーワード入力部17から入力されたキーワードを構成する各文字が、当該キーワードの順に、文字候補記憶部15によって記憶された文字列を構成する複数の文字候補の何れかに一致するか否かを判定することによって行われる。例えば、検索用のキーワードが「安全性」であり、文字列を構成する複数の文字候補は図2の表に示すものであった場合、3文字目〜5文字目の文字候補にそれぞれ「安」、「全」、「性」の文字が含まれるため、図2に示す文字列は「安全性」というキーワードにヒットしたものとして判断される。文字列がキーワードにヒットしているか否かの判断については、フローを用いて後述する。
【0054】
上述したように、文字候補記憶部15が文字候補を文字列の順に組み合わせた文字列を記憶している態様では、検索キーワード入力部17から入力されたキーワードと、文字候補記憶部15が記憶している文字列とを比較することによって検索が行われてもよい。文字候補記憶部15が記憶している文字列に、検索キーワード入力部17から入力されたキーワードが含まれていた場合には、文字候補記憶部15が記憶している文字列はキーワードにヒットしたものと判断される。このように文字候補記憶部15が文字列を記憶しておくこととすれば、検索用のキーワードと、上記のように文字列同士の一致を判断することによって検索を行うことができるので、検索処理を速くすることができる。なお、文字列として記憶せず図2に示す情報として文字候補を記憶しておけば、未知語やあいまいなキーワードに対しても検索が可能になる。
【0055】
上記の検索方法では、文字認識の結果の第1候補のみを用いて検索する場合に比べ、検索漏れの低減(再現率の向上)が期待できるが、同時に認識誤りを多く含む検索誤りが増加する(適合率が低下する)ことが考えられる。そこで、検索部18は、キーワードを構成する各文字が、文字候補記憶部15によって記憶された複数の文字候補の何れかに一致した場合(文字候補がキーワードにヒットした場合)、上述した正確性を示す情報から、当該一致に関しての信頼性(一致度)を評価する。より具体的には、検索部18は、キーワードの文字と一致した文字候補の順番から、上記の信頼性を示す値としてキーワードtに対する文字認識信頼度(similarity)を算出する。ここで文字認識信頼度は、0.0〜1.0の範囲の値であり、より大きい値であれば信頼性が高いことを示す。検索部18は、以下の式(2)によって、文字認識信頼度similarityを算出する。
similarity(t)=Keyword(t).length/totalscore(t) (2)
上記の式において、Keyword(t).lengthはキーワードtの長さ(文字数)、totalscore(t)は一致(マッチ)した文字候補の順位の合計とする。なお、第1候補のみでキーワードに一致した文字列の文字認識信頼度は、1.0となる。
【0056】
例えば、図5の示した2つの画像のそれぞれの文字認識結果から「絶対痩せる」というキーワードで検索した場合の文字認識信頼度の例を示す。図5(a)で示す例では、全ての文字が第1候補と一致しているので、文字認識信頼度は、5÷(1+1+1+1+1)で計算され1.00となる。図5(b)で示す例では、最後の文字が第3候補と一致しているので、文字認識信頼度は、5÷(1+1+1+1+3)で計算され0.71となる。このように、文字認識信頼度が低い画像は誤検索されている可能性が高く、文字認識信頼度が高い画像は検索キーワードを正確に含んでいる可能性が高い。即ち、文字認識信頼度は、検索キーワードをより正確に含んでいる指標として利用できる。そのため、大量の画像の中から検索キーワードを含む画像をリストアップする際に文字認識信頼度をもとに検索結果をソートすることで、検索誤りが少ない結果の画像を優先的に提示できる。
【0057】
検索部18は、キーワードの文字数に応じて、キーワードとの一致を判定する文字候補の数を決定することとしてもよい。より詳細には後述するが、検索キーワードの文字数が少ない(検索キーワードが短い)場合には、検索誤りが生じ適合率が低くなる傾向が認められる。そこで、例えば、キーワードの文字数が予め設定した閾値以下であると判断した場合には、一致を判定する文字候補の数を通常よりも少ない数としてもよい。検索部18は、文字候補の数を決定したら、文字候補についての正確性を示す情報からキーワードとの一致を判定する文字候補を決定する。具体的には、検索部18は、決定した文字候補の数の順位までの文字候補を一致を判定する文字候補とする。
【0058】
検索部18は、キーワードと文字候補との一致の検索の結果から、当該キーワードに対する当該文字候補が含まれる画像のスコア値を算出する。このスコア値は、検索結果として出力する画像の順序を示すものであり、本実施形態においては、検索キーワードが不適切な形で画像に含まれるおそれの高さを示すものである。
【0059】
まず、検索部18は、上述したように求めた検索キーワードtの視覚的特徴量saliency(t)と文字認識信頼度similarity(t)とから、画像内に含まれるm番目の文字列(t,m)の文字特徴量termscore(t,m)を以下の式(3)により求める。
termscore(t,m)=(1−α)・similarity(t,m)+α・saliency(t,m) (3)
ここで、αは視覚的特徴量と文字認識信頼度との重みを示す値である。αは、0〜1の値であり予め設定した値である。α、similarity及びsaliencyとの間には相関関係があり、これにより更に精度のよい検索結果が得られる。検索の用い方、目的によってαのつけ方、つまりsimilarityとsaliencyとにどのように重みを付けるべきかを決めることが望ましい。α=0とした場合には、文字認識信頼度similarityのみが反映されたスコアとなり視覚的特徴量saliencyが考慮されない。一方、α=1とした場合には、視覚的特徴量saliencyのみが反映されたスコアとなり文字認識信頼度similarityが考慮されない。αを1に近づけるほど文字が合っているか否かという観点では結果が悪くなる。また、画像内のm番目の文字列とは、文字列領域抽出部13によって抽出された複数の文字列領域に係る文字列のうちのどの文字列かを示すものである。mは、1から文字列領域抽出部13によって抽出された文字列領域の数までの値のうちの何れかの値をとる。
【0060】
即ち、検索部18は、キーワードを構成する各文字が当該キーワードの順に一致した文字列を構成する複数の文字候補が認識された文字列領域から視覚的特徴量算出部16によって算出された視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する。
【0061】
また、検索部18は、検索キーワード入力部17によって入力された複数のキーワードに対してスコア値を算出する。検索部18は、画像に含まれるキーワードの出現頻度を考慮するために、画像に含まれるキーワードのtf−idfを計算する。tf−idfは、文章中の特徴的な単語を抽出するためのアルゴリズムとして知られ、主に情報検索や文書要約等の分野で利用される指標である。tfは文書中の単語の出現頻度であり、idfは多くのドキュメントに出現する語は重要度を下げ、特定のドキュメントにしか出現しない単語の重要度を上げるための逆出現頻度である。本手法では、このtf−idfの考え方を画像内文字に拡張し、文字列の視覚的特徴量と文字認識信頼度とに組み合わせて用いることで画像スコアを計算する。
【0062】
検索部18は、検索キーワードtの出現頻度に応じて画像スコアを高くするために、以下の式(4)により画像内にtf(t)個含まれる検索キーワードtのそれぞれの文字特徴量の2乗和を求め、検索キーワードによる画像のスコアとする。なお、文字列と画像との対応付けに関しては、文字候補記憶部15によって記憶された文字候補と画像との対応付けの情報が参照される。ここで、mは対象となる画像においてキーワードtが含まれる文字列の添え字であり、1〜tf(t)の範囲の整数である。
【数1】
【0063】
また、複数の検索キーワードで検索を行う場合の画像スコアは、idf(t)の値を用いて算出することができる。検索キーワードtのidf(t)は検索対象の総画像数(A)とtを含む画像数(S)とを用いて以下の式(5)により求められる。idf(t)は、検索キーワードtを含む画像が少ないほど大きな値となり稀少語であることを示す。
idf(t)=log(A/(S+1))+1 (5)
【0064】
複数の検索キーワードでAND検索を行う場合の画像スコアは、クエリー(検索要求)qに含まれる複数の検索キーワードtの画像スコアscore(t,image)にidf(t)の値を掛け合わせた数値の総積を以下の式(6)により求めることで算出される。
【数2】
【0065】
複数の検索キーワードでOR検索を行う場合の画像スコアは、クエリーqに含まれる複数の検索キーワードtの画像スコアscore(t,image)にidf(t)の値を掛け合わせた数値の総和を以下の式(7)により求めることで算出される。
【数3】
上記のように、検索部18は、画像データベース11に格納された画像数に対する、キーワードを含む画像数の割合に基づいて、スコア値を算出する。
【0066】
tf−idfの考え方では、文章が長くなるほど検索キーワードtを含む確率が高くなるため、文章量に応じてtfを調整することが一般的である。そのため、本手法でも画像内に含まれる文章量の指標として、文字認識後の文字列の長さや画像のサイズを用いて重み付けを行うことが望まれる。しかし、本実施形態で対象としている商品説明画像は複雑な背景やレイアウトを持つため、文字認識時に背景を文字としてご認識する等、認識結果にノイズを含む場合が多い。従って、一概に文字認識後の文字列の長さを画像内の文字量の指標として利用することは難しい。また、画像サイズと画像内に含まれる文字量は一定でないため、600×10,000pix(ピクセル)の超巨大画像のスコアが非常に低くなる場合や、20×100pix程度の小さなバナー画像のスコアが急激に高くなる場合がある。そのため、本実施形態では、画像内における文章量による重み付けは必ずしも行う必要は無い。
【0067】
検索部18は、検索によりキーワードにヒットした画像を示す情報、及びそれらの画像に対する画像スコアscore(q,image)を出力部19に出力する。
【0068】
出力部19は、検索部18による検索の結果を出力する出力手段である。出力部19は、キーワードにヒットした画像を示す情報を出力する。出力部19が出力する画像を示す情報は、文字候補記憶部15によって記憶された文字候補と画像との対応付けに基づいたものである。
【0069】
具体的には例えば、出力部19による出力は、検索結果の情報を含むWebページの情報を管理者端末30に送信することによって行われる。図6に、当該Webページが管理者端末30のブラウザで表示された例を示す。図6に示すようにキーワードにヒットした画像が表示される。ここで、表示される画像は、画像スコアscore(q,image)が高い順に並べられる。即ち、出力部19は、検索部18によって評価されたキーワードと文字候補との間の一致に関しての信頼性に基づいて、検索部18による検索の結果を出力する。また、出力部19は、検索部18によって算出された各画像のスコア値に応じて、検索部18による検索の結果を出力する。
【0070】
また、出力部19は、画像データベース11に格納されている画像のハッシュ値に関連付けられている情報に基づいて情報を出力する。出力部19は、検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、画像データベース11に画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebサイトを示す情報とを出力する。より具体的には、出力部19は、検索部18による検索によって得られた画像を示す情報を出力して、当該出力に応じて画像を選択する入力を受け付けて、当該入力に係る画像のハッシュ値に対応付けられて格納されている当該画像が利用されているWebサイトを示す情報を出力する。
【0071】
図6に示す例では、まず、出力部19は、管理者端末30に対して、検索部18による検索の結果としてキーワードにヒットした画像を表示するWebページのデータを送信する。管理者端末30では、ブラウザ上にそれらの画像が表示される。図6の領域A1が、キーワードにヒットした画像が表示される部分である。続いて、管理者端末30では、ユーザによって表示された画像の何れかが、「この商品が買えるお店」という部分がクリックされることによってブラウザ上で選択されると、管理者端末30は選択された画像を示す情報を画像検索装置10に送信する。出力部19は、選択された画像を示す情報を受信して、画像データベース11を参照して、当該画像のハッシュ値に対応付けられたWebサイトを示す情報を取得して、管理者端末30に出力する。
【0072】
更に、出力部19は、画像データベース11を参照して、Webサイトに示す情報に対応付けられている商品の販売価格を示す情報を取得する。出力部19は、Webサイトを示す情報を管理者端末30に送信する際に商品の販売価格順(例えば、価格が高い順、あるいは低い順)に表示されるように出力する。また、Webサイトを示す情報が管理者端末30で表示される際に、商品の販売価格やWebサイトにおける商品の説明もあわせて表示されるようにしてもよい。図6の領域A2が、画像が利用されるWebサイトを示す情報、及び商品の販売価格等が表示される部分である。上記のように出力部19は、画像データベース11に格納されている販売価格に応じて画像が利用されているWebサイトを示す情報を出力する。以上が、画像検索装置10の機能的な構成である。
【0073】
引き続いて、図7〜図9のフローチャートを用いて、本実施形態に係る画像検索装置10で実行される処理(情報処理方法)を説明する。まず、図7のフローチャートを用いて、画像検索用の情報を生成するまでの処理を説明して、その後図8及び図9のフローチャートを用いて画像検索を実際に行う処理を説明する。
【0074】
本実施形態に係る画像検索装置10では、検索対象の画像が入力されて、画像登録部12によって当該画像が画像データベース11に登録される(S01)。画像の入力と合わせて、当該画像が利用されているWebサイトを示す情報や画像に係る商品の販売価格の情報等の画像に付随する情報の入力も行われ、それらの情報は上述したようにハッシュ値に対応付けて画像検索装置10に格納される。画像の入力は、例えば、サイバーモールを管理する事業者のユーザの操作によって管理者端末30から行われる。複数の画像が入力された場合には、それぞれの画像について登録が行われ、以下の処理が行われる。
【0075】
続いて、画像検索装置10では、文字列領域抽出部13によって、画像データベース11に格納された画像における文字列が含まれる文字列領域が抽出される(S02、文字列領域抽出ステップ)。抽出された文字列画像は、文字列領域抽出部13から文字候補認識部14に出力される。
【0076】
続いて、文字候補認識部14によって、抽出された文字列領域の画像が文字列を構成する各文字の画像に分割される(S03、文字候補認識ステップ)。続いて、文字候補認識部14によって、分割された各画像に対して文字認識処理が行われ、各文字について予め定められた数の複数の文字候補が特定される(S04、文字候補認識ステップ)。このようにして特定された文字候補を示す情報は、文字候補認識部14から文字候補記憶部15に出力される。S02において、複数の文字列領域が抽出された場合には、文字列領域毎に上記の処理が行われる。
【0077】
続いて、文字候補記憶部15によって、文字候補認識部14から入力された複数の文字候補の情報が、検索処理の際に検索部18から検索可能なように記憶される(S05、文字候補記憶ステップ)。以上が、画像検索用の情報を生成するまでの処理である。
【0078】
引き続いて、図8及び図9のフローチャートを用いて画像検索を実際に行う処理を説明する。本実施形態に係る画像検索装置10では、検索キーワード入力部17によって、検索用のキーワードが入力される(S11、検索キーワード入力ステップ)。検索用のキーワードは、例えば、管理者端末30から、キーワードが含められた検索要求を受信することによって入力する。入力された検索用のキーワードは、検索キーワード入力部17から検索部18に出力される。
【0079】
続いて、検索部18によって、入力された検索用のキーワードが文字候補記憶部15によって記憶された文字候補の何れかと一致するか否かが判定されることによって、当該キーワードによる検索が行われる(S12、検索ステップ)。
【0080】
このキーワードの検索について、図9のフローチャートを用いてより詳細に説明する。ここで、検索用キーワードの各文字をKeyword[i]とする。iは、キーワードの文字の順番を示す添え字である。Keyword[1]は、検索用キーワードの1文字目を表す。また、検索用キーワードの文字数をKeyword.lengthとする。また、画像から取得された文字列の文字候補をC[n][j]とする。nは、文字列の文字の順番を示す添え字であり、jは文字候補の順位を示す添え字である(図1の表における説明と同様)。また、Nは文字列の文字数を示す。また、ここでは、キーワードとの一致が判定される文字候補の順位は、30番目までとする。
【0081】
本処理では、まずn=1として開始される。文字列の1文字目の文字候補から、キーワードとの一致を判定するためである。続いて、i=1とされる(S1201)。キーワードの1文字目が文字候補に一致するか判定するためである。続いて、j=1とされる(S1202)。第1順位の文字候補がキーワードに一致するか判定するためである。
【0082】
続いて、C[n][j]=Keyword[i]を満たすか否かが判断される(S1203)。上記を満たさないと判断された場合(S1203のNO)には、続いて、j=j+1とされる(S1204)。次の順位の文字候補がキーワードに一致するか判定するためである。続いて、j>30を満たすか否かが判断される(S1205)。キーワードとの一致が判定される文字候補の順位が、設定された値を超えていたら次の文字からの判定をするためである。S1205の条件を満たさないと判断された場合(S1205のNO)、再度S1203の判断が行われる。
【0083】
S1205の条件を満たすと判断された場合(S1205のYES)、続いて、n=n+1とされる(S1206)。文字列の次の文字の文字候補とキーワードとの一致を判定するためである。続いて、n>Nを満たすか否かが判断される(S1207)。文字列の最後まで一致を判定したかを判断するものである。S1207の条件を満たすと判断された場合(S1207のYES)、キーワードと文字列の文字候補とは一致しなかったものとして検索の処理は終了される。S1207の条件を満たさないと判断された場合(S1207のNO)、再度、キーワードの1文字目から一致の判定を開始するためにS1201の処理に戻る。
【0084】
S1203の条件を満たすと判断された場合(S1203のYES)には、続いて、i=Keyword.lengthを満たすか否かが判断される(S1208)。キーワードの最後の文字まで一致が判定されたかを判断するものである。S1208の条件を満たさないと判断された場合(S1208のNO)、続いて、i=i+1及びn=n+1とされる(S1209)。キーワードの次の文字と文字列の次の文字の文字候補との一致を判定するためである。続いて、n>Nを満たすか否かが判断される(S1210)。文字列の最後まで一致を判定したかを判断するものである。S1210の条件を満たすと判断された場合(S1210のYES)、キーワードと文字列の文字候補とは一致しなかったものとして検索の処理は終了される。S1210の条件を満たさないと判断された場合(S1210のNO)、S1202の処理に戻る。キーワードの次の文字と、文字列の次の文字の第1順位の文字候補との一致を判定するためである。
【0085】
S1208の条件を満たすと判断された場合(S1208のYES)、キーワードの全ての文字がキーワードの順番で、文字列を構成する文字候補の何れかに一致していることになるのでキーワードが文字列にマッチしたものとしてキーワードの検索が終了される。なお、本処理では、この時点でキーワードの検索は終了しているが、更に検索を続けてその後の文字候補にキーワードが一致する部分があるかを判定してもよい。また、上述した方法以外を用いて、キーワードと文字候補の何れかとの一致を判定してもよい。
【0086】
S12では、上記のキーワードと文字列を構成する文字候補との一致の判定が、検索対象となる全ての文字列に対して行われる。また、S11で入力されたキーワードが複数であった場合、複数のキーワードに対して上記の判断が行われる。
【0087】
続いて、図8に戻り、キーワードにマッチしたと判断された文字列について文字列のスコアが算出される(S13、検索ステップ)。具体的には、以下のようにスコアが算出される。まず、検索部18によって、キーワードと一致した文字列(文字候補)について、上述した式(2)が用いられて、文字認識信頼度が算出される(S131、検索ステップ)。
【0088】
続いて、上述した式(1)が用いられて、キーワードと一致した文字列に係る文字列領域の画像の視覚的特徴量が算出される(S132、視覚的特徴量算出ステップ)。視覚的特徴量の算出は、検索部18から視覚的特徴量算出部16に対して指示が行われて視覚的特徴量算出部16によって行われる。なお、視覚的特徴量算出部16による視覚的特徴量の算出自体は、必ずしもこのタイミングで行われる必要は無く、予め例えば、S04と同様のタイミングで行って記憶しておき、このタイミングでは記憶された情報を参照することとしてもよい。算出された視覚的特徴量を示す情報は、視覚的特徴量算出部16から検索部18に出力される。
【0089】
続いて、検索部18によって、上述した式(3)が用いられて文字列のスコア値である文字特徴量termscore(t,m)が算出される(S133、検索ステップ)。
【0090】
続いて、検索部18によって、上述した式(5)が用いられて、キーワードの使用率を示す値であるidf(t)が算出される(S14、検索ステップ)。続いて、検索部18によって、算出された文字特徴量termscore(t,m)とidf(t)とから、上述した式(4)並びに式(6)及び式(7)の何れかが用いられて、画像スコアscore(q,image)が算出される(S15、検索ステップ)。S12においてキーワードにマッチしたと判断された文字列を含む画像を示す情報と、上記の画像スコアを示す情報とが、検索部18から出力部19に出力される。
【0091】
続いて、出力部19によって、検索部18による検索の結果が出力される(S16、出力ステップ)。検索の結果の出力は、検索部18から入力された情報から、管理者端末30からの検索要求に対する検索結果の情報を生成して管理者端末30に送信することによって行われる。具体的には、検索結果の情報は、上述したように画像スコアが高い順にキーワードにマッチしたと判断された文字列を含む画像を示す情報が管理者端末30において表示するものである。また、上述したように当該画像が利用されているWebサイトの情報等についても、出力部19から管理者端末30に送信される。ユーザは管理者端末30において表示される検索結果を参照することで検索結果を認識することができる。以上が、画像検索装置10において、画像検索を実際に行う処理である。
【0092】
上述したように、本実施形態では、画像に含まれる文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れかに基づく当該文字列の視覚的特徴量に応じて検索結果が出力される。従って、例えば、画像に検索キーワードが特徴的に用いられている場合には、当該画像を上位にする検索結果を出力することができる。即ち、この構成によれば、画像に検索キーワードが特徴的に用いられている場合に検出をしやすくすることができる。例えば、同一文字列が含まれる画像でも、小さい文字で説明されている場合に比べ、タイトル等の大きな文字で表記されている画像の場合にスコア値が高くなる。これにより、視覚的に目立つと同時に不正である確率が高い表現を見つけることができる。
【0093】
なお、上述した実施形態においては、文字列領域から文字列を構成する文字の複数の文字候補を特定することとしていた。しかしながら、視覚的特徴量に応じた検索は、必ずしも複数の文字候補を特定する必要はなく、文字列領域から文字列を一意に認識することとしてもよい。即ち、上述した画像検索装置10の文字列候補認識部14は、文字列領域抽出部13によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段である。また、図7におけるS03及びS04は、本実施形態に係る画像検索方法の文字列認識ステップを構成する。
【0094】
また、上述した実施形態のように画像を構成する画素の明度から視覚的特徴量を算出することとすれば、適切かつ適切に視覚的特徴量を抽出することができ、適切かつ適切に本発明を実施することができる。
【0095】
なお、視覚的特徴量を用いる本発明の特徴は、以下のような本発明の発明者の知見により得られたものである。不正な画像を検出するための検索のキーワードが用いられている画像であっても、キーワードの使われ方によっては必ずしも不正な表現とならない場合も多くみられる。
【0096】
そこで本発明の発明者は、予備実験としてサイバーモールの管理者が事前に不正な画像であると判断した674枚の画像を目視で確認した。その結果、不正表現を含む画像には、(1)不正単語が視覚的に目立つものが多い(2)不正単語の出現頻度が高い(3)画像内に複数の不正単語が含まれるという特徴が分かった。これらの知見をもとに、視覚的特徴量から画像のスコア値を算出したものである。なお、出現頻度等の知見についても、上述した本発明の特徴に反映されている。
【0097】
人間は、周囲の視覚刺激の中で異なる属性を持っている刺激に対して無意識に視線を向けることが多い。W3CのTechniques For Accessibility Evaluation And Repair Toolsによると明度差125以上、色差500以上が読みやすい色の組み合わせであるとされている。ウェブコンテンツ制作においても読みやすいコンテンツとするためには文字色と背景色との明度差や色差によるコントラストを確保する必要があることが知られている。また、槙らの研究では文字と背景の色彩をそれぞれ40通りに変化させた1600サンプルの評定結果から配色の明度差が読みやすさに大きく関わっていることを示している。
【0098】
そこで、上記の「不正単語が視覚的に目立つものが多い」という知見をスコアリングに反映させるために、674枚の不正表現を含むサンプル画像内の不正な文字列とその他の画像に含まれる文字列のサイズとコントラストに注目し分布を計測した。その結果、画像のサイズに関係なく文字サイズ30pt以上はタイトルや見出し、20pt以下の文字サイズは説明文に多く用いられている傾向があった。また、検知したいキーワードはタイトルやコントラストが高く目立ちやすい色使いをされていることが分かった。これらの知見から上述したような視覚的特徴量の特徴を構成したものである。ただし、明度差の範囲はW3Cで定義されている読みやすい明度差125と、高本らの研究によって得られた白内障の人にとっての読みやすいと感じられる“おおむね十分の境界”である158を基準とした。
【0099】
また、本実施形態のように複数のキーワードからスコア値を算出することが望ましい。この構成によれば、上述したようにAND検索やOR検索等の複数の検索用のキーワードに対する検索を行うことができ、ユーザにとってより利便性の高い検索を行うことができる。
【0100】
また、本実施形態のように画像におけるキーワードの出現率に応じてスコア値を算出することが望ましい。この構成によれば、ユーザにとってより利便性の高い検索結果の出力を行うことができる。
【0101】
また、本実施形態のように画像から得られるハッシュ値に、当該画像が用いられているWebサイトを示す情報を対応付けておき、その対応に基づいて出力を行うことが望ましい。ハッシュ値は同一の画像であれば、一定の範囲内同一の値となるため複数の箇所で利用されている画像は、一つの画像として扱うことができる。従って、この構成によれば、同一の画像が複数の箇所において利用されている場合であっても有効に検索結果を活用することができる。即ち、同一の画像が検索結果として並ぶことを防止し、ユーザが検索したい画像を効率的に見つけることができる。例えば、ユーザが検索したキーワードが記載されている同一の画像が検索結果として並ぶことを防止することができる。
但し、上記のようなケースを想定していない場合等については、ハッシュ値を用いた情報の格納や出力を必ずしも行う必要はない。
【0102】
上述した実施形態においては、画像検索装置10は、画像検索用の情報を生成するまでの処理と、生成された画像検索用の情報を用いて画像検索を実際に行う処理との両方を備えていた。しかしながら、上記のそれぞれの処理のみを行う装置が、本発明に係る装置として別々に構成されていてもよい。即ち、そのうちの一つの装置は、上述した機能のうち、少なくとも画像データベース11と、文字列領域抽出部13と、文字候補認識部14と、文字候補記憶部15と、視覚的特徴量算出部16とを備える情報処理装置である画像検索用情報生成装置である。また、もう1つの装置は、上述した機能のうち、少なくとも文字候補記憶部15と、検索キーワード入力部17と、検索部18と、出力部19とを備える情報処理装置である画像検索装置である。
【0103】
なお、本実施形態では、検索対象の画像としてサイバーモールで販売される商品の説明画像を例として説明したが、本発明において検索対象の画像は上記の目的の画像に限られず任意の画像を検索対象としてよい。例えば、電子データ化された本の対象として検索を行う場合にも適用できる。また、本発明に係る画像検索の目的も上記のものに限られず任意の目的のものに対して用いられてもよい。また、不正な画像を検出する場合であっても、上述した基準以外の基準を用いて検索を行うこととしてもよい。例えば、小さな文字で表現される不正表現を検出する場合には、文字が小さいほどスコアが高くなるような基準を用いてもよい。
【0104】
引き続いて、本発明に係る評価実験について説明する。以下のような評価実験を行った。文字候補数Nによりどの程度、画像内文字検索の精度が変化するかを評価するために、文字候補数を1〜60の範囲で5刻みに変化させ、不正表現を含む画像で用いられやすい以下の66個の検索キーワードを利用して画像内文字検索を行った。検索キーワードは、具体的には例えば、白肌、細胞、発毛、抑毛、花粉症、若返り、抗老化である。
【0105】
実験は、予めサイバーモールの管理者が、「医薬品・コンタクト・介護カテゴリ」内で検知した不正表現を含むサンプル画像を用い、上述した手法により画像内文字を認識し、認識結果を得た。但し、文字カテゴリとして英、数、記号、ひらがな、カタカナ、漢字(JIS第一水準)を含む3410文字を利用し、辞書を作成するために電子商店で多く利用されている「HGS創英角ポップ体」「HGP行書体」「MSゴシック」の3つのフォントを利用した。また、上記の検索キーワードを用いて目視によりカウントした検索キーワードを含む画像数(S)と、文字候補数を変化させて得られた正解画像数(T)、誤って検知された画像数(E)を比較し、平均の再現率(Recall)と適合率(Precision)とF値とを式(8)(9)(10)により求めた。
Recall=T/S (8)
Precision=T/(T+E) (9)
F=(2・Recall・Precision) (10)
【0106】
文字候補数と上記の値との関係を示すグラフを、図10に示す。図10に示すように、文字候補を増やすことで適合率が下がり再現率が上がる傾向が見られ、文字認識結果を多重化することで検索漏れを低減することが可能であることが分かる。また、文字候補数が30付近でF値が安定し、文字候補数が30以降では検索性能の差が小さくなるため、本実施形態における文字認識手法では文字候補を第30位まで利用することで良好な検索結果が得られることが分かる。
【0107】
また、文字候補数30の場合の検索キーワードの長さと検索精度との関係を図11の表に示す。この表に示すように、検索キーワードが短い場合に検索誤りが生じ適合率が低くなる傾向が認められる。これは文字候補数を多くすることによって、誤認識された文字認識結果を検知する確率が高くなるためであり、検索キーワードの長さに応じて文字候補数を調整することで適合率を高くすることが可能である。更に、再現率と検索キーワードの長さとの相関は見られなかったが、全体的に再現率が低くなる傾向が見られる。これは、サンプル画像にはアーチ状に配置された文字列や斜体の文字、サイズが小さいといった、文字抽出及び認識が困難なケースが多く含まれたためである。
【0108】
続いて、文字認識信頼度と画像内の文字列の視覚的特徴と出現頻度とを利用した画像スコアを用いることで、不正である確率が高い視覚的に目立つ文字列を含む画像を効率良く見つけることが可能かどうかを確認するために以下の実験を行った。サンプル画像として図12に示した10種類の画像を作成して画像スコアを求めた。画像内の文字色は、#000000(色の表記は、Webセールカラー表記である。以下同様)の「MSゴシック」のフォントを利用し、(1)(4)(6)〜(10)は文字サイズを30pt、(3)(5)は20pt、(2)は30ptと20ptとの両方を利用し、(1)〜(5)(7)(8)(10)は背景色を#FFFFFF、(6)(9)は#666666とした。また、「絶対痩せる」と「絶対痩せろ」の各文字列の画像の認識結果に対し「絶対痩せる」というキーワードで検索した場合の文字認識信頼度は、上述した図5を用いた説明で示した通り、文字サイズに関わらずそれぞれ1.00、0.71となった。
【0109】
サンプル画像のスコアを上述した文字認識信頼度と視覚的特徴量とのバランスをとるパラメータαを0.0〜1.0で0.2刻みに変化させて計算した結果を、図13の表に示す。但し、上述した視覚的特徴量saliency(t)は、式(3)において、saliency(t)を0.0とした場合、画像内文字の視覚的な特徴をスコアに反映できないので、本実験では、lowを0.5、highを1.0、mediumをその中間の値である0.75とした。
【0110】
まず、αが0.0の場合に注目すると、画像のスコアには文字認識信頼度のみが反映されるため、検索誤りが少ない結果の画像を優先的に提示することが可能になる。しかし、文字認識信頼度が同じ(1)〜(3)と(6)とが同じスコアになり、視覚的に目立たない(6)が上位に来る可能性がある。αは文字認識信頼度と視覚的特徴量とのバランスをとるパラメータであるから、αの値を高くするほど視覚的特徴量を強く反映することができる。しかし、αが0.6以上の場合に検索キーワードを含まない(7)及び(10)のスコアが、検索キーワードを同数含む(6)及び(5)のスコアをそれぞれ超えてしまっている。そのため検索結果の上位の検索誤りを含む結果が表示されてしまうことになる。同様に(4)(9)(10)を比較すると、αが0.0の場合(4)と(9)とが同スコアになり、αが1.0の場合(4)と(10)とが同スコアになってしまう。
【0111】
次に、(1)(7)(8)について比較すると、αが1.0以外の場合に画像に含まれる検索キーワードが多いほど画像スコアが高くなっていることが分かる。これらの結果から、αの値を0.2〜0.4に設定することで検索キーワードを含まない画像のスコアを低く、また視覚的特徴量に応じて検索結果を良好にソートできていることが確認できる。
【0112】
このように、文字認識信頼度だけでなく文字列の視覚的特徴量と出現頻度を考慮することで、同一の文字列が同数含まれる場合に小さい文字で説明されている画像に比べ、タイトル等の大きな文字で表記されている画像の場合にスコアを高くすることが可能になる。これにより、より視覚的に目立つと同時に不正である確率が高い表現を含む画像を効率良く見つけることができる。
【0113】
続いて、上述した画像検索装置10(画像内文字検索システム)を作成し、実際にサイバーモールで利用されている画像を対象に検索時間の評価を行った。作成したシステムは、Webサーバ上で動作するウェブアプリケーションである。上述した多重化された認識結果から任意の文字列検索を高速に実現するためにLucene(Apacheプロジェクトが管理する全文検索エンジン)を用いた。本システムではインデックスを作成するためにLuceneに実装されているN−gramを用いた単語分割Analyzer(uni−gram)を用いて、第N位までの文字認識候補の組み合わせの中から任意単語の検索を行った。但し、インデックス作成時に文字色と背景色のコントラストと、文字サイズとから求められる視覚的特徴量をFieldに持たせることで、検索キーワードに応じた画像スコアの計算を行う。開発した画像内文字検索システムの応答性能や検索精度といった実用性の確認をおこなうために実際のサイバーモールの「ダイエット・健康カテゴリ」、「医薬品・コンタクト・介護カテゴリ」から取得した567,667枚の画像を対象に、予め画像内の文字認識を行った結果得られた認識結果をインデックス化している。
【0114】
標準的なOSによって動作する標準的なPCによって、以下のような条件で測定を行った。
画像数:567,667枚
インデックスサイズ(GB):2.2(N=1)、2.8(N=5)、3.6(N=10)、4.4(N=15)、5.2(N=20)、6.0(N=25)、30(N=6.8)
【0115】
実験では、上述した、文字候補数Nに応じた画像内文字検索の精度変化の評価に用いた66個の検索キーワードを用いて文字候補数が1〜30のインデックスを使用し、文字候補数に対する検索時間を確認した。図14に文字候補数と検索時間との関係を示すグラフを示す。図14に示すように、文字候補数に対する検索時間はO(n)で増えている。同時に、標準偏差の値が大きくなることからキーワードの長さによって探索時間のばらつきが生じていることが分かる。また、文字候補数30の場合においても平均検索時間が約350ミリ秒であり、ストレスを感じさせないという意味で十分実用に耐えうる応答性能を実現できていることがわかる。但し、平均検索時間は上記の66個のキーワードをクエリーとして10回検索を行った際の平均の時間である。
【0116】
引き続いて、上述した一連の画像検索装置10の画像検索を行う処理をコンピュータに実行させるための情報処理プログラムを説明する。図15に示すように、情報処理プログラム41は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体40に形成されたプログラム格納領域40a内に格納される。
【0117】
情報処理プログラム41は、画像検索処理を統括的に制御するメインモジュール41aと、画像データベースモジュール41bと、画像登録モジュール41cと、文字列抽出モジュール41dと、文字候補認識モジュール41eと、文字候補記憶モジュール41fと、視覚的特徴量算出モジュール41gと、検索キーワード入力モジュール41hと、検索モジュール41iと、出力モジュール41jとを備えて構成される。画像データベースモジュール41bと、画像登録モジュール41cと、文字列領域抽出モジュール41dと、文字候補認識モジュール41eと、文字候補記憶モジュール41fと、視覚的特徴量算出モジュール41gと、検索キーワード入力モジュール41hと、検索モジュール41iと、出力モジュール41jとを実行させることにより実現される機能は、上述した画像検索装置10の画像データベース11と、画像登録部12と、文字列領域抽出部13と、文字候補認識部14と、文字候補記憶部15と、視覚的特徴量算出部16と、検索キーワード入力部17と、検索部18と、出力部19との機能とそれぞれ同様である。
【0118】
なお、情報処理プログラム41は、その一部若しくは全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、情報処理プログラム41の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の情報処理プログラム41の情報処理を行う処理が行われる。
【符号の説明】
【0119】
10…画像検索装置、11…画像データベース、12…画像登録部、13…文字列領域抽出部、14…文字候補認識部、15…文字候補記憶部、16…視覚的特徴量算出部、17…検索キーワード入力部、18…検索部、19…出力部、30…管理者端末、40…記録媒体、40a…プログラム格納領域、41…情報処理プログラム、41a…メインモジュール、41b…画像データベースモジュール、41c…画像登録モジュール、41d…文字列領域抽出モジュール、41e…文字候補認識モジュール、41f…文字候補記憶モジュール、41g…視覚的特徴量算出モジュール、41h…検索キーワード入力モジュール、41i…検索モジュール、41j…出力モジュール。
【特許請求の範囲】
【請求項1】
検索対象の画像を格納する画像データベースと、
前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段と、
前記文字列領域抽出手段によって抽出された文字列領域の画像から、前記文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段と、
検索用のキーワードを入力する検索キーワード入力手段と、
前記キーワード入力手段によって入力されたキーワードが前記文字列認識手段によって認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された前記文字列領域の前記視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索手段と、
前記検索手段による検索結果を、前記検索手段によって算出されたスコア値に応じてソートして出力する出力手段と、
を備える情報処理装置。
【請求項2】
前記視覚的特徴量算出手段は、前記文字列を構成する文字毎の視覚的特徴量を算出して記憶することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記視覚的特徴量算出手段は、前記文字列領域の文字列を構成するとされた画素の明度と、前記文字列領域の背景を構成するとされた画素の明度との差に基づいて前記視覚的特徴量を算出することを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
前記視覚的特徴量算出手段は、前記文字列領域の文字列を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とし、前記文字列領域の背景を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とすることを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記検索手段は、前記キーワード入力手段によって入力された複数の前記キーワードに対して前記スコア値を算出する、
ことを特徴とする請求項1〜4の何れか一項に記載の情報処理装置。
【請求項6】
前記検索手段は、前記画像データベースに格納された画像に対する、前記キーワードを含む画像の割合に基づいて、前記スコア値を算出することを特徴とする請求項1〜5の何れか一項に記載の情報処理装置。
【請求項7】
前記画像データベースは、同一の画像を複数含まないように検索対象の画像を格納すると共に、当該画像から得られるハッシュ値と当該画像が利用されているWebページの箇所を示す情報とを対応付けて格納し、
前記出力手段は、前記検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、前記画像データベースに当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されている箇所を示す情報とを出力する、
ことを特徴とする請求項1〜6の何れか一項に記載の情報処理装置。
【請求項8】
検索対象の画像を格納する画像データベースを備える情報処理装置による画像検索方法であって、
前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、
前記文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を認識する文字列認識ステップと、
前記文字列領域抽出ステップにおいて抽出された文字列領域の画像から、前記文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出ステップと、
検索用のキーワードを入力する検索キーワード入力ステップと、
前記キーワード入力ステップにおいて入力されたキーワードが前記文字列認識ステップにおいて認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された前記文字列領域の前記視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索ステップと、
前記検索ステップにおける検索結果を、前記検索ステップにおいて算出されたスコア値に応じてソートして出力する出力ステップと、
を含む情報処理方法。
【請求項9】
一つ以上のコンピュータを、
検索対象の画像を格納する画像データベースと、
前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段と、
前記文字列領域抽出手段によって抽出された文字列領域の画像から、前記文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段と、
検索用のキーワードを入力する検索キーワード入力手段と、
前記キーワード入力手段によって入力されたキーワードが前記文字列認識手段によって認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された前記文字列領域の前記視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索手段と、
前記検索手段による検索結果を、前記検索手段によって算出されたスコア値に応じてソートして出力する出力手段と、
して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項1】
検索対象の画像を格納する画像データベースと、
前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段と、
前記文字列領域抽出手段によって抽出された文字列領域の画像から、前記文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段と、
検索用のキーワードを入力する検索キーワード入力手段と、
前記キーワード入力手段によって入力されたキーワードが前記文字列認識手段によって認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された前記文字列領域の前記視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索手段と、
前記検索手段による検索結果を、前記検索手段によって算出されたスコア値に応じてソートして出力する出力手段と、
を備える情報処理装置。
【請求項2】
前記視覚的特徴量算出手段は、前記文字列を構成する文字毎の視覚的特徴量を算出して記憶することを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記視覚的特徴量算出手段は、前記文字列領域の文字列を構成するとされた画素の明度と、前記文字列領域の背景を構成するとされた画素の明度との差に基づいて前記視覚的特徴量を算出することを特徴とする請求項1又は2に記載の情報処理装置。
【請求項4】
前記視覚的特徴量算出手段は、前記文字列領域の文字列を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とし、前記文字列領域の背景を構成するとされた画素の明度を当該画素の中で最も多い色の画素の明度とすることを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記検索手段は、前記キーワード入力手段によって入力された複数の前記キーワードに対して前記スコア値を算出する、
ことを特徴とする請求項1〜4の何れか一項に記載の情報処理装置。
【請求項6】
前記検索手段は、前記画像データベースに格納された画像に対する、前記キーワードを含む画像の割合に基づいて、前記スコア値を算出することを特徴とする請求項1〜5の何れか一項に記載の情報処理装置。
【請求項7】
前記画像データベースは、同一の画像を複数含まないように検索対象の画像を格納すると共に、当該画像から得られるハッシュ値と当該画像が利用されているWebページの箇所を示す情報とを対応付けて格納し、
前記出力手段は、前記検索手段による検索によって得られたと共に同一の画像を複数含まない画像を示す情報と、前記画像データベースに当該画像のハッシュ値に対応付けられて格納されている当該画像が利用されている箇所を示す情報とを出力する、
ことを特徴とする請求項1〜6の何れか一項に記載の情報処理装置。
【請求項8】
検索対象の画像を格納する画像データベースを備える情報処理装置による画像検索方法であって、
前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出ステップと、
前記文字列領域抽出ステップにおいて抽出された文字列領域に含まれる文字列を認識する文字列認識ステップと、
前記文字列領域抽出ステップにおいて抽出された文字列領域の画像から、前記文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出ステップと、
検索用のキーワードを入力する検索キーワード入力ステップと、
前記キーワード入力ステップにおいて入力されたキーワードが前記文字列認識ステップにおいて認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された前記文字列領域の前記視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索ステップと、
前記検索ステップにおける検索結果を、前記検索ステップにおいて算出されたスコア値に応じてソートして出力する出力ステップと、
を含む情報処理方法。
【請求項9】
一つ以上のコンピュータを、
検索対象の画像を格納する画像データベースと、
前記画像データベースに格納された画像における文字列が含まれる文字列領域を抽出する文字列領域抽出手段と、
前記文字列領域抽出手段によって抽出された文字列領域に含まれる文字列を認識する文字列認識手段と、
前記文字列領域抽出手段によって抽出された文字列領域の画像から、前記文字列を構成する文字の大きさ、色、形状及び装飾、並びに文字色と背景色とのコントラストの少なくとも何れか一つ以上に基づく当該文字列の視覚的特徴量を算出して記憶する視覚的特徴量算出手段と、
検索用のキーワードを入力する検索キーワード入力手段と、
前記キーワード入力手段によって入力されたキーワードが前記文字列認識手段によって認識された文字列の少なくとも一部に一致するか否かを検索すると共に、一致した文字列が認識された前記文字列領域の前記視覚的特徴量から、当該文字列が含まれる画像のスコア値を算出する検索手段と、
前記検索手段による検索結果を、前記検索手段によって算出されたスコア値に応じてソートして出力する出力手段と、
して機能させる情報処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
【図1】
【図2】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図13】
【図14】
【図15】
【図16】
【図3】
【図5】
【図12】
【図2】
【図4】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図13】
【図14】
【図15】
【図16】
【図3】
【図5】
【図12】
【公開番号】特開2013−41602(P2013−41602A)
【公開日】平成25年2月28日(2013.2.28)
【国際特許分類】
【出願番号】特願2012−225214(P2012−225214)
【出願日】平成24年10月10日(2012.10.10)
【分割の表示】特願2012−501908(P2012−501908)の分割
【原出願日】平成23年2月28日(2011.2.28)
【出願人】(399037405)楽天株式会社 (416)
【Fターム(参考)】
【公開日】平成25年2月28日(2013.2.28)
【国際特許分類】
【出願日】平成24年10月10日(2012.10.10)
【分割の表示】特願2012−501908(P2012−501908)の分割
【原出願日】平成23年2月28日(2011.2.28)
【出願人】(399037405)楽天株式会社 (416)
【Fターム(参考)】
[ Back to top ]