説明

重複画像除去時の代表画像の選択方法及びシステム

【課題】画像重複除去時の代表画像の選択方法及びシステムを開示する。
【解決手段】画像重複除去時の代表画像の選択方法は、複数の同一画像を抽出し、複数の同一画像を検索対象に加え、検索対象に対して、ユーザが入力したキーワードに基づく画像検索を行い、画像検索に係る検索結果を表示する際に、前記複数の同一画像の中から代表画像を表示すること、を含む。ユーザによる検索要請に先立って重複する同一画像を予め除去せずに、ユーザが入力したキーワードに基づく検索実行時に重複する文書を除去することによって、ユーザが入力したキーワードを含む代表画像を検索結果に表示し、検索結果に対するユーザの便宜性を高める。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、重複画像除去時の代表画像の選択方法及びシステムに関し、特に重複する文書を検索対象に全て表示して、検索時の重複を除去する重複画像除去時の代表画像の選択方法及びシステムに関する。
【背景技術】
【0002】
ユーザが入力したキーワードに対応して画像の検索を行う画像検索において、検索の対象となる画像に同一の画像が複数存在する場合がある。この場合、検索結果において同一の画像が複数表示されることは、画像検索の品質を低下させる要因となり得る。
【0003】
一方、重複する複数の同一画像を除去して代表画像だけを検索結果として表示する場合、表示された代表画像にユーザが入力したキーワードが含まれていなければ、入力したキーワードと関連する画像が正確に検索されたとしても、ユーザは検索結果の正確性を疑うことになる。
【0004】
そこで、重複する画像を除去して代表画像を表示する際に、ユーザが入力したキーワードを含む代表画像を表示するためのキーワード選択方法及びシステムに関する研究が要求されている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、ユーザによる検索要請に先立って重複する画像を除去せずに、ユーザが入力したキーワードに基づく検索実行時に重複する文書を除去することによって、ユーザが入力したキーワードを含む代表画像を検索結果に表示させ、検索結果に対するユーザの便宜性を高める代表画像の選択方法及びシステムを提供する。
【0006】
本発明は、各同一画像を含む文書内の単語ごとに予め算出されたターム重み(term weights)を割当て、各画像を含む文書のターム重みをスコアリングし、当該スコアが最も高い画像を代表画像として決定することによって、ユーザが入力したキーワードを含む代表画像を検索結果に表示できるようにする代表画像の選択方法及びシステムを提供する。
【課題を解決するための手段】
【0007】
本発明の一実施形態に係る重複画像除去時の代表画像の選択方法は、複数の同一画像を抽出し、抽出された複数の同一画像を検索対象に加え、検索対象に対して、ユーザが入力したキーワードに基づく画像の検索を行い、画像検索に係る検索結果を表示する際に、前記複数の同一画像の中から代表画像を表示することを含んでもよい。
【0008】
本発明の一実施形態に係る重複画像除去時の代表画像の選択方法によれば、複数の同一画像を抽出することは、各画像のシグネチャ(signature:特徴)を比較して画像の同一性を判断し、同一であると判断された複数の画像をグループ化して複数の同一画像を抽出することを含んでもよい。
【0009】
本発明の一実施形態に係る重複画像除去時の代表画像の選択方法によれば、各画像のシグネチャは、各画像のハッシュ値(hash value)であってもよい。
【0010】
本発明の一実施形態に係る重複画像除去時の代表画像の選択方法によれば、代表画像を表示することは、検索結果の複数の同一画像の中から代表画像を選択し、検索結果として表示された複数の同一画像の中から代表画像以外の画像を除去して代表画像を表示することを含んでもよい。
【0011】
本発明の一実施形態に係る重複画像除去時の代表画像の選択方法によれば、複数の同一画像を含む各文書内の1つ以上の単語に付与されるターム重みを計算し、複数の同一画像をそれぞれスコアリングすることをさらに含み、代表画像を表示することは、複数の同一画像のうちスコアが最も高い画像を代表画像として選択してもよい。
【0012】
本発明の一実施形態に係る重複画像除去時の代表画像の選択方法によれば、複数の同一画像をスコアリングすることは、一つ以上の単語に予め決められたターム重みを付与し、各単語に付与されたターム重みを各画像別に合算して複数の同一画像をスコアリングしてもよい。
【0013】
本発明の一実施形態に係る重複画像除去時の代表画像の選択システムは、複数の同一画像を抽出する重複画像抽出部と、複数の同一画像を検索対象として表示させる検索対象管理部と、検索対象に対して、ユーザが入力したキーワードに基づく画像検索を行う検索実行部と、画像検索に係る検索結果を表示する際に、複数の同一画像の中から代表画像を表示する検索結果提供部とを含んでもよい。
【0014】
本発明の一実施形態に係る重複画像除去時の代表画像の選択システムによれば、検索結果提供部は、検索結果の複数の同一画像の中から代表画像を選択する代表画像選択部と、検索結果として表示された複数の同一画像の中から代表画像以外の画像を除去して代表画像を表示する画像表示部とを含んでもよい。
【0015】
本発明の一実施形態に係る重複画像除去時の代表画像の選択システムによれば、複数の同一画像を含む各文書内の1つ以上の単語に付与されるターム重みを計算するターム重み計算部と、予め計算されたターム重みを用いて複数の同一画像をそれぞれスコアリングする画像スコアリング部とをさらに含み、検索結果提供部は、複数の同一画像の中からスコアが最も高い画像を代表画像として選択してもよい。
【発明の効果】
【0016】
本発明の一実施形態に係る重複画像除去時の代表画像の選択システムによれば、ユーザによる検索要請に先立って重複する同一画像を予め除去せずに、ユーザが入力したキーワードに基づく検索実行時に重複する文書を除去することによって、ユーザが入力したキーワードを含む代表画像を検索結果に表示し、検索結果に対するユーザの便宜性を高める代表画像の選択方法及びシステムが提供される。
【0017】
本発明の一実施形態に係る重複画像除去時の代表画像の選択システムによれば、各同一画像を含む文書内の単語ごとに算出されたターム重みを当該単語に割当て、各画像をスコアリングし、スコアが最も高い画像を代表画像として決定することによって、ユーザが入力したキーワードを含む代表画像を検索結果に表示できるようにする代表画像の選択方法及びシステムが提供される。
【図面の簡単な説明】
【0018】
【図1】本発明の一実施形態に係る重複画像除去時の代表画像の選択方法を示すフローチャートである。
【図2】本発明の一実施形態に係る検索対象画像の重複を説明するための図である。
【図3】図1に示す重複画像除去時の代表画像の選択方法において、複数の同一画像を抽出することの一例を示す図である。
【図4】本発明の他の一実施形態に係る重複画像除去時の代表画像の選択方法を示すフローチャートである。
【図5】本発明の一実施形態に係る重複画像除去時の代表画像の選択方法において、ターム重みを用いて代表画像を選択することを説明するための図である。
【図6】本発明の一実施形態に係る重複画像除去時の代表画像の選択システムを示すブロック図である。
【発明を実施するための形態】
【0019】
以下、添付の図面に記載された内容を参照して本発明の実施形態を詳細に説明する。ただし、これらの実施形態によって本発明が制限されたり限定されたりすることはない。各図面に記載された同一の参照符号は、同一の部材を示す。
【0020】
図1は、本発明の一実施形態に係る重複画像除去時の代表画像の選択方法を示すフローチャートである。
【0021】
図1を参照すると、ステップS110では複数の同一画像を抽出する。ウェブページなどに含まれる画像を検索するための検索対象には、同一の画像が複数含まれていてもよく、画像を検索するために、複数の同一画像をすべて抽出してもよい。画像を検索するための検索対象に複数の同一画像が含まれていることの一例について、図2を参照しながら、以下において詳しく説明する。
【0022】
図2は、本発明の一実施形態に係る検索対象画像の重複を説明するための図である。
【0023】
図2に示すように、検索の対象となる画像のうちユーザが入力したキーワードである「イ・ヒョリ」と関連する画像211,212,213,214,215,216,217,218,219,220が複数存在する場合がある。ここで、「イ・ヒョリ」と関連する画像の中に、同一の画像が様々なウェブページなどに重複して存在する場合がある。図2の例では、画像1(211)と同一の画像213,220が存在し、さらに画像2(212)と同一の画像218が存在する。この場合、同一の画像をすべて検索結果に表示させると、検索の品質を低下させて検索結果に対するユーザの便宜性を低下させることがあり得るため、同一画像の重複を避け、代表画像だけを検索結果に表示するようにしてもよい。しかし、代表画像を選択して検索結果に表示する場合、どの画像を代表画像として選択して表示するかによって、検索結果の品質が変わることがある。例えば、画像5(215)は画像9(219)と同一の画像であるため、2つの画像215,219のうちいずれか一つの画像を代表画像として選択して表示してもよい。仮に、画像9(219)を代表画像として選択すると、画像9(219)には、ユーザが入力したキーワードである「イ・ヒョリ」が含まれていないため、検索結果にイ・ヒョリに関する画像が表示されたとしても、表示された画像にキーワードである「イ・ヒョリ」が含まれていないため、ユーザは検索が正確になされなかったと判断することもあり得る。そこで、ユーザが検索キーワードを入力して検索を実行する際に代表画像の選択及び重複画像の除去を行うことによって、常に検索キーワードを含む代表画像が選択されるようにしてもよい。
【0024】
一方、複数の同一画像を抽出することの詳細は、図3を参照しながら以下において詳しく説明する。
【0025】
図3は、図1に示す重複画像除去時の代表画像の選択方法において、複数の同一画像を抽出することの一例を示す図である。
【0026】
図3を参照すると、ステップS310では、各画像のシグネチャを比較して画像の同一性を判断してもよい。ここで、画像のシグネチャは、画像に対するハッシュ値であってもよい。
【0027】
ステップS320では、同一であると判断された複数の画像をグループ化して複数の同一画像を抽出してもよい。すなわち、画像のシグネチャの比較によって、同一であると判断された画像を画像ごとにグループ化してもよい。よって、複数の同一画像を抽出する際に重複する同一の画像を1つのグループとしてもよい。
【0028】
再び図1を参照すると、ステップS110は、同一画像を含む各文書内に含まれる1つ以上の単語に付与されるターム重みを計算し、計算されたターム重みを用いて複数の同一画像をそれぞれスコアリングすることをさらに含んでもよい。すなわち、複数の同一画像グループに付与されるターム重みを計算して単語ごとに付与されるターム重みを予め決定し、予め決定されたターム重みを各画像を含む文書内の各単語に割当ててもよい。したがって、各単語に割当てられたターム重みを画像ごとに合算して、算出されたスコアの大きさによって各画像の順位を決定してもよい。順位付けされた画像は、その後に代表画像を選択するために用いられてもよく、これについは、以下において詳しく説明する。
【0029】
ステップS120では、複数の同一画像を検索対象に加えてもよい。複数の同一画像をすべて検索対象に加え、重複する同一画像をユーザによる検索要請前に予め除去せずに、ユーザによる検索実行時に重複する同一画像を除去するようにしてもよい。
【0030】
ステップS130では、検索対象に基対して、ユーザが入力したキーワードに基づく画像検索を実行してもよい。すなわち、ユーザが入力したキーワードを含む画像をすべて検索結果として表示してもよく、その検索結果には、複数の重複した同一の画像が含まれていてもよい。
【0031】
ステップS140では、画像検索に係る検索結果を表示する際に、複数の同一画像の中から代表画像を表示してもよい。検索結果をユーザに対して表示する時、重複画像を除去して代表画像だけを表示してもよく、代表画像は、ユーザが入力したキーワードを含む画像であってもよい。
【0032】
この時、一例として、代表画像を決定するために上述の計算されたターム重みを用いて複数の同一画像をスコアリングし、スコアリングした各画像の順位に従って代表画像を決定してもよい。すなわち、予め決定されたターム重みによって順位付けされた画像の順位に従って最も順位の高い画像を複数の重複画像に対する代表画像として決定してもよい。
【0033】
上述のように、重複画像に対する除去をユーザによる検索前に実行せずに、ユーザがキーワード入力後に検索を行う時に重複画像を除去することによって、代表画像がユーザの入力したキーワードを常に含むことになり、検索結果に対するユーザの満足度を向上させることができる。
【0034】
図4は、本発明の他の一実施形態における、画像重複除去時の代表画像の選択方法を示すフローチャートである。
【0035】
図4を参照すると、ステップS410では、複数の同一画像を抽出してもよい。すなわち、ウェブページなどから画像を検索するための複数の同一画像を抽出してもよい。
【0036】
ステップS420では同一画像を含む複数の各文書内の1つ以上の単語に付与されるターム重みを計算してもよく、ステップS430ではターム重みを用いて複数の同一画像をそれぞれスコアリングしてもよい。
【0037】
ステップS440では、複数の同一画像を検索対象に加えてもよい。
【0038】
ステップS450では、検索対象に対して、ユーザが入力したキーワードに基づく画像検索を実行してもよく、ステップS460では複数の同一画像のうちスコアが最も高い画像を代表画像として選択してもよい。
【0039】
ステップS470では、検索結果の複数の同一画像の中から代表画像以外の画像を除去した後、代表画像のみを表示してもよい。
【0040】
ここで、ターム重みを計算し、ターム重みを用いて代表画像を選択する本発明の一実施形態について図5を参照しながら以下において詳細に説明する。
【0041】
図5は、本発明の一実施形態に係る重複画像除去時の代表画像の選択方法において、ターム重みを用いて代表画像を選択することを説明するための図である。
【0042】
図5を参照すると、「イ・ヒョリ」の画像Aに関する複数の同一画像511,512,513は、1つのグループ510にグループ化することができる。この時、複数の同一画像511,512,513を含む各文書は、互いに異なる単語を含んでもよく、代表画像を決定するために、まず、各文書に含まれる単語に対するターム重みを計算してもよい。予め決定されたターム重みは、各画像に含まれる単語に割当てられてもよく、ターム重みが割当てられた単語のスコアは画像ごとに合算されてもよく、各画像は合算されたスコアに従って順位付けされてもよい。例えば、画像Aに関する複数の同一画像511,512,513は、単語「イ・ヒョリ」、「セクシーな」、「チョン・ジヒョン」、及び「かわいい」を含んでもよく、各単語に対して順に3.5、1.0、1.0、1.0の重みをそれぞれ割り当ててもよい。したがって、予め決定された重みを各画像に含まれる単語に割当てて画像別にスコアを合算し、最も高いスコアを有する画像を代表画像530として決定してもよい。
【0043】
上述のように、重複画像に含まれる各単語に付与されるターム重みを予め決定し、決定されたターム重みのスコアによって各画像を順位付けして代表画像を決定することにより、常にユーザが入力したキーワードを含む代表画像を決定することができる代表画像の選択方法を提供することができる。
【0044】
図6は、本発明の一実施形態に係る、重複画像除去時の代表画像の選択システムを示すブロック図である。
【0045】
図6を参照すると、代表画像選択システム600は、重複画像抽出部610、検索対象管理部640、検索実行部650、及び検索結果提供部660を含んでもよい。
【0046】
重複画像抽出部610は、ウェブページなどから複数の同一画像を抽出してもよい。すなわち、重複画像抽出部610は、画像を検索するための検索対象画像を提供するためにウェブページなどから複数の同一画像を抽出してもよい。ここで、重複画像抽出部610は、重複判断部611及び重複分類部612を含んでもよい。重複判断部611は、ウェブページなどに存在する画像のシグネチャを比較して画像の同一性を判断し、重複分類部612は画像の同一性判断の結果、同一であると判断された複数の画像をグループ化してもよい。前記画像のシグネチャは、画像のハッシュ値であってもよい。
【0047】
検索対象管理部640は、複数の同一画像を検索対象に加えてもよい。すなわち、複数の重複する同一画像をユーザによる検索前に予め除去せずに、画像検索時にウェブページ等から抽出された複数の同一画像をすべて検索対象に加えてもよい。
【0048】
検索実行部650は、検索対象に対して、ユーザが入力したキーワードに基づく画像検索を実行してもよい。したがって、画像を含む文書内にユーザが入力したキーワードが含まれる場合、検索実行部650によって当該画像が検索されてもよい。
【0049】
検索結果提供部660は、画像検索に係る検索結果を表示する際に、複数の同一画像の中から代表画像を表示してもよい。すなわち、除去されなかった複数の重複する同一画像を含む検索対象に基づいて画像検索を行い、代表画像を選択することによって、ユーザが入力したキーワードを含む画像を代表画像として選択して検索結果に表示してもよい。
【0050】
検索結果提供部660は、検索結果に含まれる複数の同一画像の中から代表画像を選択する代表画像の選択部661と、検索結果に含まれる複数の同一画像の中から代表画像以外の画像を除いて代表画像を表示する画像表示部662とを含んでもよい。したがって、重複する同一画像を除去し、検索結果を表示することができ、代表画像に常にユーザが入力したキーワードが含まれるようにすることができる。
【0051】
一方、代表画像選択システム600は、ターム重み計算部620及び画像スコアリング部630をさらに含むものでもよい。
【0052】
ターム重み計算部620は同一画像を含む複数の各文書内の1つ以上の単語に対してターム重みを計算し、画像スコアリング部630はターム重みを用いて複数の同一画像をそれぞれスコアリングしてもよい。すなわち、画像スコアリング部630は、1つ以上の単語に予め決定されたターム重みを付与し、各単語に付与されたターム重みを各画像別に合算して複数の同一画像をスコアリングしてもよい。ここで、スコアリングされた画像のうち最もスコアが高い画像を複数の同一画像に対する代表画像として選択してもよい。
【0053】
上述のように、ユーザによる検索要請に先立ち重複する同一画像を予め除去せずに、ユーザによる検索実行時に重複する同一画像を含む文書を除去することによって、ユーザが入力したキーワードを含む代表画像を検索結果に表示し、検索結果に対するユーザの便宜性を向上させることができる。
【0054】
また、同一画像を含む文書内の単語ごとに算出されたターム重みを割当てて、各画像をスコアリングした後、スコアが最も高い画像を代表画像として決定することによって、ユーザが入力したキーワードを含む代表画像を常に選択することができる。
【0055】
また、本発明の一実施形態に係る画像重複除去時の代表画像の選択方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータ読取可能な記録媒体を含む。前記記録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともできる。前記記録媒体及びプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。上述のハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアモジュールとして作動するように構成されてもよい。
【0056】
上述したように、本発明では具体的な構成要素などと同じ特定事項と限定された実施形態及び図面によって説明したが、これは本発明のより全般的な理解を助けるために提供されたものであり、本発明は、前記の実施例に限定されるものではなく、本発明が属する技術分野における通常の知識を持つ者であれば、このような記載から多様な修正及び変形が可能である。
【0057】
したがって、本発明の思想は説明した実施形態に限定されず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等であるか等価な変形のあるすべてのものを本発明の思想の範囲に属するものとする。

【特許請求の範囲】
【請求項1】
複数の同一画像を抽出し、
前記複数の同一画像を検索対象に加え、
前記検索対象に対して、ユーザが入力したキーワードに基づく画像検索を行い、
前記画像検索に係る検索結果を表示する際に、前記複数の同一画像の中から代表画像を表示すること、
を含むことを特徴とする画像重複除去時の代表画像の選択方法。
【請求項2】
前記複数の同一画像を抽出することは、
各画像のシグネチャを比較して画像の同一性を判断し、
互いに同一であると判断された複数の画像をグループ化して前記複数の同一画像を抽出すること、
を含むことを特徴とする請求項1に記載の画像重複除去時の代表画像の選択方法。
【請求項3】
前記各画像のシグネチャは、
前記各画像のハッシュ値であることを特徴とする請求項2に記載の画像重複除去時の代表画像の選択方法。
【請求項4】
前記画像検索を行うことは、
前記複数の同一画像を含む文書内の単語に前記ユーザが入力したキーワードが含まれる場合、前記複数の同一画像が検索されることを特徴とする請求項1に記載の画像重複除去時の代表画像の選択方法。
【請求項5】
前記代表画像を表示することは、
前記検索結果に含まれる複数の同一画像の中から代表画像を選択し、
前記検索結果に含まれる前記複数の同一画像の中から前記代表画像以外の同一画像を除去して前記代表画像を表示すること、
を含むことを特徴とする請求項1に記載の画像重複除去時の代表画像の選択方法。
【請求項6】
前記同一画像を含む各文書内の1つ以上の単語に付与されるターム重みを予め計算し、
前記ターム重みを用いて前記複数の同一画像をそれぞれスコアリングすること、
をさらに含み、
前記複数の同一画像の中から代表画像を表示することは、
前記複数の同一画像の中からスコアが最も高い画像を前記代表画像として選択することを特徴とする請求項1に記載の画像重複除去時の代表画像の選択方法。
【請求項7】
前記複数の同一画像をスコアリングすることは、
前記一つ以上の単語に予め決定された前記ターム重みを付与して、各単語に付与された前記ターム重みを各画像別に合算して前記複数の同一画像をスコアリングすることを特徴とする請求項6に記載の画像重複除去時の代表画像の選択方法。
【請求項8】
請求項1乃至請求項7のいずれか一項に記載の方法を実行するためのプログラムが記録されていることを特徴とするコンピュータで読み出し可能な記録媒体。
【請求項9】
複数の同一画像を抽出する重複画像抽出部と、
前記複数の同一画像を検索対象に表示させる検索対象管理部と、
前記検索対象に対して、ユーザが入力したキーワードに基づく画像検索を行う検索実行部と、
前記画像検索に係る検索結果を表示する際に、前記複数の同一画像の中から代表画像を表示する検索結果提供部と、
を含むことを特徴とする画像重複除去時の代表画像の選択システム。
【請求項10】
前記重複画像抽出部は、
各画像のシグネチャを比較して画像の同一性を判断する重複判断部と、
同一であると判断された複数の画像をグループ化する重複分類部と、
を含むことを特徴とする請求項9に記載の画像重複除去時の代表画像の選択システム。
【請求項11】
前記各画像のシグネチャは、
前記各画像のハッシュ値であることを特徴とする請求項10に記載の画像重複除去時の代表画像の選択システム。
【請求項12】
前記検索実行部は、
前記複数の同一画像を含む文書内の単語に前記ユーザが入力したキーワードが含まれる場合、前記複数の同一画像が検索されることを特徴とする請求項9に記載の画像重複除去時の代表画像の選択システム。
【請求項13】
前記検索結果提供部は、
前記検索結果に含まれる複数の同一画像の中から代表画像を選択する代表画像選択部と、
前記検索結果に含まれる前記複数の同一画像の中から前記代表画像以外の画像を除去して前記代表画像を表示する画像表示部と、
を含むことを特徴とする請求項9に記載の画像重複除去時の代表画像の選択システム。
【請求項14】
前記同一画像を含む各文書内の1つ以上の単語に付与されるターム重みを計算するターム重み計算部と、
前記ターム重みを用いて前記複数の同一画像をそれぞれスコアリングする画像スコアリング部と、
をさらに含み、
前記検索結果提供部は、
前記複数の同一画像の中からスコアが最も高い画像を前記代表画像として選択することを特徴とする請求項9に記載の画像重複除去時の代表画像の選択システム。
【請求項15】
前記画像スコアリング部は、
前記一つ以上の単語に予め決定された前記ターム重みを付与して、各単語に付与された前記ターム重みを各画像別に合算して前記複数の同一画像をスコアリングすることを特徴とする請求項14に記載の画像重複除去時の代表画像の選択システム。

【図1】
image rotate

【図3】
image rotate

【図4】
image rotate

【図6】
image rotate

【図2】
image rotate

【図5】
image rotate