説明

インデックス生成方法、プログラム及びサーバ

【課題】Webページの検索で使用することが可能な、キーワードとは異なるインデックスを生成するインデックス生成方法、プログラム及びサーバを提供する。
【解決手段】インデックス生成サーバが、検索対象になるWebページを記憶するWebページDBからWebページを読み込んで、Webページ30に配置されたアンカーテキスト31と、表示されたアンカーテキスト31の行に隣接して配置された絵文字32とを取得するデータ取得手段と、取得したアンカーテキスト31と絵文字32との間の関係を判定する関係判定手段と、アンカーテキスト31と絵文字32とに関係があると判定されたことに応じて、絵文字32をアンカーテキスト31からのリンク先のWebページ40のURLのインデックスとして対応付けて、インデックスDBを生成するインデックス生成手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webページの検索に用いるインデックス生成方法、プログラム及びサーバに関する。
【背景技術】
【0002】
従来、キーワードを入力することで、入力したキーワードに関連するWebページを検索することが行われている。このような検索では、キーワードのインデックスが用いられている。キーワードのインデックスを用いた検索として、例えば、携帯電話等で多用される絵文字をキーワードに対応付けてインデックスに記憶することで、絵文字を用いた検索を行う検索システムが開示されている(例えば、特許文献1)。
【特許文献1】特開2006−107199号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
特許文献1に記載の検索システムは、検索に絵文字を用いることで、特に携帯電話機等において入力を容易にするものであるが、Webページの検索に、絵文字に対応するキーワードを用いるものであった。つまり、特許文献1に記載の検索システムは、従来と同様に、キーワードのインデックスを用いるものであった。
【0004】
本発明は、Webページの検索で使用することが可能な、キーワードとは異なるインデックスを生成するインデックス生成方法、プログラム及びサーバを提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明者は、検索時に、リンク先のWebページの内容を端的に表わしていると考えられる絵文字を検索キーとして使う仕組みを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
【0006】
(1) コンピュータが、
検索対象になるWebページを記憶するWebページデータベースから前記Webページを読み込んで、前記Webページに配置されたアンカーテキストと、表示された前記アンカーテキストの行に隣接して配置されたシンボルとを取得するデータ取得ステップと、
前記データ取得ステップにおいて取得した前記アンカーテキストと前記シンボルとの間の関係を判定する関係判定ステップと、
前記関係判定ステップにより前記アンカーテキストと前記シンボルとに関係があると判定されたことに応じて、前記シンボルを前記アンカーテキストが示すリンクデータのインデックスとして対応付けて、インデックスデータベースを生成するインデックス生成ステップと、
を含むインデックス生成方法。
【0007】
本発明のこのような構成によれば、Webページデータベースから読み込んだWebページ内のアンカーテキストと、Webページが表示された際にアンカーテキストの行に隣接して配置されたシンボルとが関係がある場合に、シンボルをアンカーテキストが示すリンクデータのインデックスとして対応付けて、インデックスデータベースを生成する。Webページ上のシンボルとアンカーテキストとの配置から、シンボルは、アンカーテキストが示すリンクデータの内容を端的に表していると考えられる。よって、リンク先のWebページを象徴するシンボルをキーにして、シンボルに関係のあるWebページを直接検索する、今までにない新しいインデックスを生成できる。
【0008】
(2) 前記コンピュータが、
前記シンボルと、前記シンボルに対応する条件データとを記憶する関係条件データベースを備え、
前記関係判定ステップにおいて、前記アンカーテキストと共に取得した前記シンボルに基づいて前記関係条件データベースの前記条件データを抽出し、前記アンカーテキストの前記リンクデータが示すリンク先のWebページが、前記条件データの条件を満たすか否かにより前記関係を判定すること、
を特徴とする(1)に記載のインデックス生成方法。
【0009】
本発明のこのような構成によれば、アンカーテキストのリンクデータが示すリンク先のWebページが、シンボルに対応する条件を満たすか否かにより、アンカーテキストとシンボルとの関係を判定することができる。例えば、リンク先のWebページが、シンボルに対応する条件を満たせば、アンカーテキストとシンボルとは関係があると判定する。よって、アンカーテキストとシンボルとの位置関係に追加して、リンク先のWebページとシンボルとの条件という、両者の実質的な関係をも加味して、両者の関係を判定するので、より正確なインデックスを生成できる。
【0010】
(3) 前記シンボルは、表示された前記アンカーテキストの文字の大きさに類似する大きさで表示される画像データであること、
を特徴とする(1)又は(2)に記載のインデックス生成方法。
【0011】
本発明のこのような構成によれば、シンボルは、表示されたアンカーテキストの文字の大きさに類似の大きさの画像データであるので、例えば、絵文字等の画像データをシンボルに用いることができる。
【0012】
(4) 前記コンピュータが、
前記関係判定ステップにより前記アンカーテキストと前記シンボルとに関係があると判定されたことに応じて、前記リンクデータと前記シンボルとのウェイトを算出するウェイト算出ステップを含み、
前記インデックス生成ステップにおいて、前記ウェイト算出ステップで算出された前記ウェイトを前記リンクデータ及び前記シンボルに対応付けて記憶すること、
を特徴とする(1)から(3)までのいずれか1項に記載のインデックス生成方法。
【0013】
本発明のこのような構成によれば、リンクデータとシンボルとのウェイトを算出して、算出したウェイトをリンクデータ及びシンボルに対応付けて、インデックスを生成することができる。よって、検索時に、相対的な数で表されるウェイトを用いることができ、検索結果に、ウェイトによる順位付けをすることができる。
【0014】
(5) 前記ウェイト算出ステップにおいて、前記ウェイトとして、前記リンクデータに対応する前記シンボルの出現度合い又は前記リンクデータの参照度合いを算出すること、
を特徴とする(4)に記載のインデックス生成方法。
【0015】
本発明のこのような構成によれば、ウェイトとして、リンクデータに対応するシンボルの出現度合いや、Webページに対するクリック数等のリンクデータの参照度合いを用いることができる。よって、リンクデータとシンボルとの間の様々な観点からの関係に基づいたデータを用いてインデックスを作成することができ、検索結果に両者の関係を反映させることができる。
【0016】
(6) 前記コンピュータが、
互いに関連する種類の異なる複数の前記シンボルを、各々対応付けて記憶するシンボルデータベースを備え、
前記インデックス生成ステップにおいて、前記シンボルデータベースに基づき互いに関連する前記シンボルを集約してインデックスデータベースを生成すること、
を特徴とする(1)から(5)までのいずれか1項に記載のインデックス生成方法。
【0017】
本発明のこのような構成によれば、例えば、同一の内容を表す様々な態様のシンボルを各々対応付けたシンボルデータベースを用いて、関連するシンボルを、例えば、1つのシンボルに集約してインデックスデータベースを生成する。よって、異なるシンボルを用いた場合であっても、同一のシンボルを用いたものとして処理できるので、より精緻なインデックスを生成できる。
【0018】
(7) 前記コンピュータが、通信ネットワークを介して接続されたWebサーバを定期的に巡回して、前記Webページデータベースに記憶する前記Webページを取得するWebページ取得ステップを含むこと、
を特徴とする(1)から(6)までのいずれか1項に記載のインデックス生成方法。
【0019】
本発明のこのような構成によれば、対象にするWebページは、定期的に通信ネットワークを介して接続されたWebサーバを巡回してWebデータベースに記憶されたものであるので、Webサーバに記憶されたWebページを対象として、インデックスを生成できる。
【0020】
(8) 前記Webページデータベースは、前記Webページ取得ステップにより取得した前記Webページを、取得タイミングに対応付けて記憶すること、
を特徴とする(7)に記載のインデックス生成方法。
【0021】
本発明のこのような構成によれば、Webページの取得タイミングに対応付けてWebページを記憶するので、Webページを時系列に履歴として記憶することができる。よって、Webページ上のシンボルが、時間の経過と共に、消滅する等の変化がなされた場合であっても、記憶した過去のWebページを用いることができ、Webページの取得タイミングに応じたインデックスを生成できる。
【0022】
(9) (1)から(8)までのいずれか1項に記載の方法のステップをコンピュータに実行させるためのインデックス生成プログラム。
【0023】
(10) 検索対象になるWebページを記憶するWebページデータベースから前記Webページを読み込んで、前記Webページに配置されたアンカーテキストと、表示された前記アンカーテキストの行に隣接して配置されたシンボルとを取得するデータ取得手段と、
前記データ取得手段において取得した前記アンカーテキストと前記シンボルとの間の関係を判定する関係判定手段と、
前記関係判定手段により前記アンカーテキストと前記シンボルとに関係があると判定されたことに応じて、前記シンボルを前記アンカーテキストが示すリンクデータのインデックスとして対応付けて、インデックスデータベースを生成するインデックス生成手段と、
を備えるインデックス生成サーバ。
【発明の効果】
【0024】
本発明によれば、Webページ上のシンボルとアンカーテキストとの配置から、アンカーテキストが示すリンクデータの内容を端的に表していると考えられる、リンク先のWebページを象徴するシンボルをキーにして、シンボルに関係のあるWebページを直接検索する、今までにない新しいインデックスを生成することができる。
【発明を実施するための最良の形態】
【0025】
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
【0026】
(実施形態)
[インデックスサーバの機能構成]
図1は、本実施形態に係るインデックス生成サーバ1の機能構成を示す図である。
【0027】
インデックス生成サーバ1は、インターネット等の通信ネットワーク3を介して、複数のコンテンツサーバ2と端末4とに対して、互いに通信可能に接続されている。
【0028】
インデックス生成サーバ1は、制御部10と記憶部20とを備える。制御部10は、Webページ取得手段11と、データ取得手段12と、関係判定手段13と、ウェイト算出手段14と、インデックス生成手段15とを備える。また、記憶部20は、Webページデータベース(以下、データベースをDBともいう)21と、関係条件DB22と、シンボルDB23と、インデックスDB24とを備える。各DBの内容については後述する。
【0029】
インデックス生成サーバ1は、ハードウェアの数に制限はなく、必要に応じて1又は複数のハードウェアで構成してよい。また、複数のハードウェアで構成する場合には、通信ネットワーク3を介して各ハードウェアを接続してもよい。例えば、後述する各機能ごとに別サーバとし、各サーバ間での信号の送受信により、各サーバを連携させることで、本実施形態の機能を実現してもよい。
【0030】
Webページ取得手段11は、コンテンツサーバ2からWebページを取得する。データ取得手段12は、Webページからアンカーテキストと、表示されたアンカーテキストの行に隣接して配置された絵文字に代表される画像データ(シンボル)とを取得する。アンカーテキストとは、Webページにおいてリンクデータが設定された文字列をいう。アンカーテキストは、通常、文字列にアンダーラインが付されて表示され、マウスポインタを重ねると、アンカーテキストが示すリンクデータであるリンク先のURL(Uniform Resource Locator)が、ブラウザウィンドウの下部のステータスバーに表示される。また、絵文字とは、シンボルとして意味を持つ1つの文字サイズの画像データであり、イラスト風の記号の総称をいう。
【0031】
関係判定手段13は、アンカーテキストのリンクデータと、絵文字との間の関係を判定する。ウェイト算出手段14は、アンカーテキストのリンクデータと、絵文字との関係を数値化したウェイトを算出する。インデックス生成手段15は、リンクデータと、絵文字とを対応付けて、つまり、絵文字をリンクデータのインデックスとして対応付けてインデックスDB24を生成する。
【0032】
コンテンツサーバ2は、複数のWebページを記憶した、Webページを含むコンテンツのDBサーバである。コンテンツサーバ2は、通信ネットワーク3に接続されていれば、世界中のあらゆるWebページを記憶したコンテンツのDBサーバが該当する。
【0033】
端末4は、ユーザが、Webページを再生するための操作入力をするためのキーボード、マウス等の入力部や、Webページを表示する表示画面を備えた装置である。端末4は、例えば、PC(パーソナルコンピュータ)の他、PDA(Personal Data Assistant)等の情報通信端末や、携帯電話機等の様々な機種の端末を含む。端末4を用いて、ユーザは、検索のための絵文字を入力したり、Webページを閲覧したりすることができる。
【0034】
[インデックス生成サーバ1のハードウェア構成図]
図2は、本実施形態に係るインデックス生成サーバ1のハードウェア構成を示す図である。本発明が実施されるサーバは、標準的なものでよく、以下に構成の一例を示す。
【0035】
インデックス生成サーバ1は、制御部10を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インターフェイス)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078はまとめて記憶部20と呼ぶ。
【0036】
制御部10は、インデックス生成サーバ1を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【0037】
通信I/F1040は、インデックス生成サーバ1が、通信ネットワーク3(図1)を介して端末4(図1)と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
【0038】
BIOS1060は、インデックス生成サーバ1の起動時にCPU1010が実行するブートプログラムや、インデックス生成サーバ1のハードウェアに依存するプログラム等を記録する。
【0039】
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
【0040】
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部20を接続することができる。
【0041】
入力装置1100は、インデックス生成サーバ1の管理者による入力の受け付けを行うものである。
【0042】
ハードディスク1074は、本ハードウェアをインデックス生成サーバ1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するDBを記憶する。なお、インデックス生成サーバ1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
【0043】
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は、各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
【0044】
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、インデックス生成サーバ1は、記憶部20、制御部10等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
【0045】
[コンテンツサーバ2のハードウェア構成]
コンテンツサーバ2も、上述のインデックス生成サーバ1と同様な構成を持つ。なお、コンテンツサーバ2のみならず、インデックス生成サーバ1にも、コンテンツサーバ2と同様にWebページを記憶するコンテンツのDBを一部有してもよい。
【0046】
[端末4のハードウェア構成]
端末4も、上述のインデックス生成サーバ1と同様な構成を持つ。例えば、記憶部20は、光ディスクドライブ1076に代えて外部メモリを挿入可能なドライブであってもよい。
【0047】
[インデックス生成処理のフローチャート]
図3は、本実施形態に係るインデックス生成処理のフローチャートである。
【0048】
S1:制御部10(Webページ取得手段11)は、クローラと呼ばれる自動巡回ロボットにより、コンテンツサーバ2からWebページを取得する。Webページを取得する処理は、例えば、毎日や、1日おきや、1週間ごと等、定期的に行ってもよいし、コンテンツサーバ2からWebページの更新情報を受信したことに応じて行ってもよい。
【0049】
S2:制御部10は、取得したWebページを、WebページDB21に記憶する。
【0050】
S3:制御部10(データ取得手段12)は、WebページDB21からWebページを順番に読み込む。
【0051】
S4:制御部10(データ取得手段12)は、読み込んだWebページに配置されたアンカーテキストと、シンボルである絵文字とを取得する。アンカーテキストと共に取得する絵文字は、表示したアンカーテキストと同じ行であって、アンカーテキストの前後いずれかの位置にアンカーテキストに隣接して配置されたものである。絵文字は、表示されるアンカーテキストの文字の大きさに類似する大きさの画像である。
【0052】
S5:制御部10は、取得した絵文字に対応する条件データを、関係条件DB22から抽出する。
【0053】
S6:制御部10は、アンカーテキストのリンクデータが示すリンク先のWebページを取得する。
【0054】
S7:制御部10(関係判定手段13)は、リンク先のWebページが、関係条件DB22から抽出した条件データに合致するか否かを判定する。リンク先のWebページが条件データに合致する場合(S7:YES)には、制御部10は、処理をS8に移す。他方、リンク先のWebページが条件データに合致しない場合(S7:NO)には、制御部10は、処理をS10に移す。
【0055】
S8:制御部10(ウェイト算出手段14)は、リンクデータと絵文字とのウェイトを算出する。算出するウェイトは、リンクデータに対応する絵文字の出現度合いや、ユーザによるリンクデータの参照度合いであり、いずれも相対的な値である。
【0056】
S9:制御部10(インデックス生成手段15)は、絵文字を、アンカーテキストが示すリンクデータのインデックスとして対応付けて、インデックスDB24を生成する。なお、制御部10は、S8で算出したウェイトを、リンクデータと絵文字とに対応付けることができる。
【0057】
S10:制御部10は、読み込んだWebページの全てのアンカーテキストに対して処理を行ったか否かを判定する。処理を行った場合(S10:YES)には、制御部10は、処理をS11に移す。他方、処理を行っていない場合(S10:NO)には、制御部10は、処理をS4に移して、未処理のアンカーテキストについて同様の処理を行う。
【0058】
S11:制御部10は、WebページDB21に記憶された全てのWebページに対して処理を行ったか否かを判定する。処理を行った場合(S11:YES)には、制御部10は、本処理を終了する。処理を行っていない場合(S11:NO)には、制御部10は、処理をS3に移して、未処理のWebページについて同様の処理を行う。
【0059】
このように、インデックス生成サーバ1は、絵文字をアンカーテキストが示すリンクデータのインデックスとして対応付けたインデックスDB24を生成する。Webページ上の絵文字とアンカーテキストとの配置から、絵文字は、アンカーテキストが示すリンクデータの内容を端的に表していると考えられる。よって、インデックス生成サーバ1は、リンク先のWebページを象徴する絵文字をキーにして、絵文字に関係のあるWebページを直接検索する、今までにない新しいインデックスDB24を生成できる。
【0060】
[具体例]
次に、WebページからインデックスDB24を生成するにあたって、リンクデータ及び絵文字を取得する方法について、具体例を用いて説明する。図4は、本実施形態に係るWebページの具体例を示す図である。
【0061】
図4は、端末4に表示可能なWebページ30、40、43、46の4つのWebページを示す。Webページ30は、例えば、ポータルサイトが提供するニュースを表示するページである。Webページ30は、アンカーテキスト31、33、35と、絵文字32、34とを表示している。
【0062】
Webページ30には、アンカーテキスト31が表示された行と同じ行であり、かつ、アンカーテキスト31の後ろに「NEW!」と書かれた画像データである絵文字32が配置されている。また、アンカーテキスト31は、URL41に対応している。
【0063】
Webページ30には、アンカーテキスト33が表示された行と同じ行であり、かつ、アンカーテキスト33の後ろにカメラの画像データである絵文字34が配置されている。また、アンカーテキスト33は、URL44に対応している。
【0064】
Webページ30には、アンカーテキスト35が表示された行と同じ行であり、かつ、アンカーテキスト35の前後であってアンカーテキスト35に隣接した位置に、何も配置されておらず、絵文字等がない。また、アンカーテキスト35は、URL47に対応している。
【0065】
Webページ40は、URL41により表されるページである。Webページ40には、アンカーテキスト31に示された見出しに関する内容の記事が記載されている。また、Webページ40には、記事の配信日時42が示されている。
【0066】
Webページ43は、URL44により表されるページである。Webページ43には、アンカーテキスト33に示された見出しに関する内容の記事が記載されている。また、Webページ43には、記事に関連する女優の写真である画像データ45が配置されている。
【0067】
Webページ46は、URL47により表されるページである。Webページ46には、アンカーテキスト35に示された見出しに関する内容の記事が記載されている。
【0068】
次に、制御部10がWebページ30を読み込んだ場合(図3のS3参照)について説明する。Webページ30は、アンカーテキスト31に隣接して絵文字32を配置するので、データ取得手段12は、アンカーテキスト31と、絵文字32とを取得する(図3のS4参照)。絵文字32は、例えば、GIF(Graphic Interchange Format)形式で表された画像データである。絵文字32のサイズは、例えば、Webページのメタデータから判断することができる。具体的には、例えば、絵文字32のサイズは、WebページをHTML(HyperText Markup Language)で表した場合に、<image>タグの「width」や「height」で示される画像サイズにより判断できる。
【0069】
このように、インデックス生成サーバ1は、表示されたアンカーテキスト31の文字の大きさに類似の大きさの画像データである絵文字32を、インデックスDB24に用いるために取得することができる。
【0070】
同様に、Webページ30は、アンカーテキスト33に隣接して絵文字34を配置するので、データ取得手段12は、アンカーテキスト33と、絵文字34とを取得する。しかし、Webページ30は、アンカーテキスト35に隣接した絵文字を有していない。よって、データ取得手段12は、アンカーテキスト35は取得しない。
【0071】
そして、関係判定手段13は、取得した絵文字32に対応する条件データを関係条件DB22から抽出する(図3のS5参照)。ここで、関係条件DB22と、関係条件DB22と共に用いるシンボルDB23とについて説明する。
【0072】
図5は、本実施形態に係る関係条件DB22及びシンボルDB23を示す図である。図5(a)に示す関係条件DB22は、絵文字と、絵文字が示す条件とについて記憶するデータベースである。関係条件DB22は、画像インデックス22a及び条件22bを有する。画像インデックス22aには、同一の意味を持つ絵文字を一意に示すためのものであり、例えば、「カメラ」等の絵文字が意味するものを格納する。条件22bには、絵文字に対応する条件であり、絵文字に隣接したアンカーテキストに対応するリンク先のWebページの条件を格納する。図5(a)の例では、画像インデックス22aが「カメラ」の場合には、「静止画の画像データが存在する」との条件を条件22bに格納している。これは、「カメラ」の絵文字に隣接するアンカーテキストに対応するリンク先のWebページには、リンクデータに関連した静止画の画像データが必ず存在するため、この両者の関係の有無を、判定条件にしたものである。
【0073】
図5(b)に示すシンボルDB23は、例えば、ポータルサイトごとに異なる絵文字を用いている場合に、意味が同じだが図柄の異なる絵文字を、同一なものとして処理するためのデータベースである。シンボルDB23は、画像インデックス23a及び画像データ23bを有する。画像インデックス23aは、関係条件DB22の画像インデックス22aに対応するものである。画像データ23bには、画像インデックス23aに対応する複数の絵文字を格納する。
【0074】
このように、インデックス生成サーバ1は、シンボルDB23を用いることで、同じ意味を有するが種類の異なる絵文字を用いた場合であっても、集約して、ある1つの絵文字を用いたものとして処理できる。よって、インデックス生成サーバ1は、より精緻なインデックスDB24を生成できる。
【0075】
図4に戻って、関係判定手段13は、同様に、絵文字34に対応する条件を、関係条件DB22から抽出する。
【0076】
次に、関係判定手段13は、アンカーテキスト31に対応するリンク先のWebページ40を取得する(図3のS6参照)。関係判定手段13は、同様に、アンカーテキスト33に対応するリンク先のWebページ43を取得する。
【0077】
そして、関係判定手段13は、取得したWebページ40が、抽出した条件データに合致するか否かを判定する(図3のS7参照)。絵文字32の条件は、対応する関係条件DB22の条件22bにより「配信日時が24時間以内」であるので、関係判定手段13は、Webページ40の配信日時42が、現在の日時から24時間以内であるか否かを判定する。現在の日時から24時間以内であれば、Webページ40は、条件データに合致していると言える。
【0078】
また、関係判定手段13は、絵文字34の場合には、Webページ43に静止画の画像データが存在するか否かを判定する。Webページ43には、画像データ45が存在するので、Webページ43は、条件データに合致していると言える。
【0079】
このように、インデックス生成サーバ1は、アンカーテキスト31と絵文字32との位置関係に追加して、リンク先のWebページ40と絵文字32との条件という、両者の実質的な関係をも加味して、両者の関係を判定するので、より正確なインデックスDB24を生成できる。
【0080】
次に、Webページ40を中心に説明する。図6は、本実施形態に係るWebページの具体例を示す図である。
【0081】
図4で説明したように、Webページ30は、リンク先がWebページ40であるアンカーテキスト31を含む。また、別のWebページ50は、アンカーテキスト51を有し、アンカーテキスト51と同じ行であってアンカーテキスト51に隣接して配置された絵文字52を有する。アンカーテキスト51は、Webページ40をリンク先としたものである。
【0082】
ここで、インデックスDB24について説明する。図7は、本実施形態に係るインデックスDB24を示す図である。インデックスDB24は、絵文字を検索対象に用いることができるインデックスデータベースである。インデックスDB24は、ID24a、URL24b、画像インデックス24c、ウェイト24dを有する。
【0083】
ID24aには、インデックスDB24に記憶されたデータを一意に示す記号を格納する。URL24bには、アンカーテキストのリンクデータであるURLを格納する。画像インデックス24cには、絵文字を一意に示す文字を格納する。画像インデックス24cは、関係条件DB22の画像インデックス22a(図5(a)参照)及びシンボルDB23の画像インデックス23a(図5(b)参照)に対応する。ウェイト24dには、URL24bと、画像インデックス24cとの関係から、重み付けとなるウェイトを格納する。この例では、ウェイト24dには、リンクデータに対応する絵文字の出現度合いを格納している。
【0084】
このように、インデックス生成サーバ1は、URL24bと、絵文字に対応する画像インデックス24cとのウェイトを算出して、算出したウェイトをインデックスDB24に記憶することができるので、検索時に、相対的な数で表されるウェイトを用いることができ、検索結果に、ウェイトによる順位付けをすることができる。
【0085】
図6に戻り、同じリンク先であるWebページ40であっても、Webページ30には、NEWの絵文字が配置され、Webページ50には、ハートの絵文字が配置されている。このように、Webページ40のリンク元のWebページ30と、Webページ50とは、意味の異なる絵文字が配置されている。意味の異なる絵文字は、図7に示すように、異なるものとして、インデックスDB24に別々に記憶される。より具体的には、図6に示すWebページ30のアンカーテキスト31及び絵文字32の関係は、図7の行24xに示すように記憶される。また、Webページ50のアンカーテキスト51及び絵文字52の関係は、図7の行24yに示すように記憶される。
【0086】
このように、インデックス生成サーバ1は、同一のリンク先のWebページ40であっても、絵文字が異なることで、別のインデックスを生成する。また、インデックス生成サーバ1は、検索した結果として出力する順番を、インデックスDB24のウェイト24dを用いることで、順位付けして出力することができる。
【0087】
[検索例]
次に、インデックスDB24を用いた検索について説明する。図8は、本実施形態に係る検索システム100の全体構成を示す図である。
【0088】
検索システム100は、図1で説明した構成の他に、検索サーバ5が通信ネットワーク3を介して接続されている。検索サーバ5は、端末4から検索条件を取得して、検索処理を行うサーバである。検索に際しては、インデックス生成サーバ1に格納されるインデックスDB24を用いる。
【0089】
端末4は、その表示部に、検索画面60を表示している(#1)。検索画面60は、キーワードの他に、絵文字を入力して検索するWebページであり、絵文字入力部61と、キーワード入力部62と、検索実行ボタン63とを有する。絵文字入力部61は、例えば、プルダウンメニュー形式で、検索で用いることが可能な絵文字の一覧が表示され、一覧から1つの絵文字が選択されることで入力可能な入力部である。この例では、絵文字入力部61に、カメラの絵文字を入力し、キーワード入力部62に、「オリンピック 水泳」と入力している。この場合、検索サーバ5は、「オリンピック 水泳」のキーワード検索を実行後、検索結果に含み、カメラの絵文字が隣接して配置されたアンカーテキストのリンクデータを、インデックスDB24を用いて取得して、検索結果として表示する。その際、制御部10は、ウェイトを用いることで、検索結果として出力する順序を決定する。
【0090】
別の端末4は、その表示部に、検索画面70を表示している(#2)。検索画面70は、絵文字と、日時とを入力して検索するWebページであり、絵文字入力部71と、日時指定部72と、検索実行ボタン73とを有する。絵文字入力部71は、絵文字入力部61と同様である。日時指定部72は、Webページの配信日時の指定を行う入力部である。この例では、絵文字入力部71に、「NEW!」の絵文字を入力し、日時指定部72を用いて、「2008年10月1日」を指定している。この場合、検索サーバ5は、インデックス生成サーバ1のWebページDB21から、指定日時を含むWebページデータを取得し、インデックスDB24を用いて、「NEW!」の絵文字が隣接して配置されたアンカーテキストのリンクデータを、検索結果として表示する。
【0091】
ここで、WebページDB21について説明する。図9は、本実施形態に係るWebページDB21を示す図である。WebページDB21は、Webページデータ21a及び取得日時21bを有する。Webページデータ21aは、コンテンツサーバ2から取得したWebページのデータを格納する。Webページは、圧縮して格納してもよい。取得日時21bには、コンテンツサーバ2から取得した取得日時を格納する。
【0092】
このように、WebページDB21は、取得した日時ごとに履歴として別にWebページのデータを記憶できる。よって、Webページ上の絵文字が、時間の経過と共に、消滅する等の変化がなされた場合であっても、記憶した過去のWebページを用いることができ、Webページの取得タイミングに応じたインデックスDB24を生成できる。
【0093】
以上、本発明の実施形態について説明したが、本発明は、上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【0094】
(変形形態)
本実施形態では、ウェイトについて、リンクデータに対応する絵文字の出現度合いに基づいて決定していたが、相対的な数で表されるものであれば、例えば、リンクデータの参照度合い等、リンクデータ及び絵文字のうち少なくともいずれかを用いたものを用いることができる。
【0095】
本実施形態では、シンボルとして絵文字を例に説明したが、例えば、顔文字に代表される、複数の記号や文字を組み合わせて1つの意味のあるオブジェクトを形成するようなものであってもよい。
【0096】
本実施形態では、シンボルを集約するものが、「カメラ」等の文字によって表すものであったが、画像データそのものを、シンボルを集約するものにしてもよい。
【0097】
本実施形態では、Webページの処理について、アンカーテキストを1つずつ処理するフローチャートで説明したが、Webページに含む全てのアンカーテキストについて一度に処理をしてもよい。
【図面の簡単な説明】
【0098】
【図1】本実施形態に係るインデックス生成サーバの機能構成を示す図である。
【図2】本実施形態に係るインデックス生成サーバのハードウェア構成を示す図である。
【図3】本実施形態に係るインデックス生成処理のフローチャートである。
【図4】本実施形態に係るWebページの具体例を示す図である。
【図5】本実施形態に係る関係条件DB及びシンボルDBを示す図である。
【図6】本実施形態に係るWebページの具体例を示す図である。
【図7】本実施形態に係るインデックスDBを示す図である。
【図8】本実施形態に係る検索システムの全体構成を示す図である。
【図9】本実施形態に係るWebページDBを示す図である。
【符号の説明】
【0099】
1 インデックス生成サーバ
2 コンテンツサーバ
3 通信ネットワーク
4 端末
5 検索サーバ
10 制御部
11 Webページ取得手段
12 データ取得手段
13 関係判定手段
14 ウェイト算出手段
15 インデックス生成手段
20 記憶部
21 WebページDB
22 関係条件DB
23 シンボルDB
24 インデックスDB
30,40,43,46,50 Webページ
31,33,35,51 アンカーテキスト
32,34,52 絵文字
100 検索システム

【特許請求の範囲】
【請求項1】
コンピュータが、
検索対象になるWebページを記憶するWebページデータベースから前記Webページを読み込んで、前記Webページに配置されたアンカーテキストと、表示された前記アンカーテキストの行に隣接して配置されたシンボルとを取得するデータ取得ステップと、
前記データ取得ステップにおいて取得した前記アンカーテキストと前記シンボルとの間の関係を判定する関係判定ステップと、
前記関係判定ステップにより前記アンカーテキストと前記シンボルとに関係があると判定されたことに応じて、前記シンボルを前記アンカーテキストが示すリンクデータのインデックスとして対応付けて、インデックスデータベースを生成するインデックス生成ステップと、
を含むインデックス生成方法。
【請求項2】
前記コンピュータが、
前記シンボルと、前記シンボルに対応する条件データとを記憶する関係条件データベースを備え、
前記関係判定ステップにおいて、前記アンカーテキストと共に取得した前記シンボルに基づいて前記関係条件データベースの前記条件データを抽出し、前記アンカーテキストの前記リンクデータが示すリンク先のWebページが、前記条件データの条件を満たすか否かにより前記関係を判定すること、
を特徴とする請求項1に記載のインデックス生成方法。
【請求項3】
前記シンボルは、表示された前記アンカーテキストの文字の大きさに類似する大きさで表示される画像データであること、
を特徴とする請求項1又は請求項2に記載のインデックス生成方法。
【請求項4】
前記コンピュータが、
前記関係判定ステップにより前記アンカーテキストと前記シンボルとに関係があると判定されたことに応じて、前記リンクデータと前記シンボルとのウェイトを算出するウェイト算出ステップを含み、
前記インデックス生成ステップにおいて、前記ウェイト算出ステップで算出された前記ウェイトを前記リンクデータ及び前記シンボルに対応付けて記憶すること、
を特徴とする請求項1から請求項3までのいずれか1項に記載のインデックス生成方法。
【請求項5】
前記ウェイト算出ステップにおいて、前記ウェイトとして、前記リンクデータに対応する前記シンボルの出現度合い又は前記リンクデータの参照度合いを算出すること、
を特徴とする請求項4に記載のインデックス生成方法。
【請求項6】
前記コンピュータが、
互いに関連する種類の異なる複数の前記シンボルを、各々対応付けて記憶するシンボルデータベースを備え、
前記インデックス生成ステップにおいて、前記シンボルデータベースに基づき互いに関連する前記シンボルを集約してインデックスデータベースを生成すること、
を特徴とする請求項1から請求項5までのいずれか1項に記載のインデックス生成方法。
【請求項7】
前記コンピュータが、通信ネットワークを介して接続されたWebサーバを定期的に巡回して、前記Webページデータベースに記憶する前記Webページを取得するWebページ取得ステップを含むこと、
を特徴とする請求項1から請求項6までのいずれか1項に記載のインデックス生成方法。
【請求項8】
前記Webページデータベースは、前記Webページ取得ステップにより取得した前記Webページを、取得タイミングに対応付けて記憶すること、
を特徴とする請求項7に記載のインデックス生成方法。
【請求項9】
請求項1から請求項8までのいずれか1項に記載の方法のステップをコンピュータに実行させるためのインデックス生成プログラム。
【請求項10】
検索対象になるWebページを記憶するWebページデータベースから前記Webページを読み込んで、前記Webページに配置されたアンカーテキストと、表示された前記アンカーテキストの行に隣接して配置されたシンボルとを取得するデータ取得手段と、
前記データ取得手段において取得した前記アンカーテキストと前記シンボルとの間の関係を判定する関係判定手段と、
前記関係判定手段により前記アンカーテキストと前記シンボルとに関係があると判定されたことに応じて、前記シンボルを前記アンカーテキストが示すリンクデータのインデックスとして対応付けて、インデックスデータベースを生成するインデックス生成手段と、
を備えるインデックス生成サーバ。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−108416(P2010−108416A)
【公開日】平成22年5月13日(2010.5.13)
【国際特許分類】
【出願番号】特願2008−282328(P2008−282328)
【出願日】平成20年10月31日(2008.10.31)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】