説明

情報検索システム、情報検索方法および情報検索プログラム

【課題】文書間リンクのアンカーテキストを、より的確に情報検索に反映させることができる情報検索システムを提供する。
【解決手段】検索対象の複数のWEB文書11,12から、該文書間における文書間リンク情報を抽出するリンク抽出機能1と、前記WEB文書と、該WEB文書に張られた文書間リンクのアンカーテキストを、全文検索用の単位に分割してアンカーテキストを含む文書間リンクの特徴を反映させた文書インデックスを作成して分書インデックス3に格納するインデックス機能2と、情報検索端末13から指定された検索キーワードと、該キーワードを含む前記文書インデックス3の文書との一致度を計算するキーワード一致度計算部4と、前記計算された一致度と文書重要度テーブル6内の各WEB文書の重要度とを総合して、情報検索結果の出力順を決定する総合ランキング計算部5と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、インターネット上の検索エンジンをはじめとする、情報検索装置に関わるものである。
【背景技術】
【0002】
近年、インターネットの普及によって、インターネット上の膨大な文書群から利用者が必要とする情報を的確に検索するシステムおよびサービスの重要性が高まっている。
【0003】
一般に検索サービスにおいては、ユーザが入力した検索キーワードが検索対象の文書や該文書に対する別の文書からのリンクアンカーテキストに含まれる数に基づいた、検索キーワードと文書との一致度と、該文書が別の文書からどれだけ参照されているかといった文書の重要度とから情報検索の出力順を決定している。
【0004】
尚、文書の一致度、文書の重要度としては、従来、非特許文献1〜3に記載の手法が利用されている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】S Robertson, H Zaragoza, M Taylor, “Simple BM25 Extension to Multiple Weighted Fields”, Proceedings of the thirteenth ACM international conference on Information and knowledge management,pp.1−8,November8−13 2004
【非特許文献2】Lawrencd Page, Sergey Brin, Rajeev Motwai, Terry Winograd, “The PageRank Citation Ranking: Bringing Order to the Web”, 7th International World Wide Web conference (WWW98),pp.1−17,January29,1998
【非特許文献3】Jon M. Kleinberg, “Authoritative Sources in a Hyperlinked Environment”, Journal of the ACM (JACM), v.46 n.5, pp.604−632, Sept. 1999
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、前記従来の情報検索システムには次の問題が存在する。
【0007】
検索キーワードと文書の一致度としては、tf・idfやBM25やBM25Fといった単語の統計量を用いた手法が一般的に利用されている。これら手法の詳細は本発明の本質に関連しないため詳細は記述しないが、特定の文書群全体の平均と比較して文書に高い頻度で現れる単語が、該文書を特徴付けるものであるという推定に基づいて、ユーザが入力した検索キーワードが文書の特徴と一致する度合いが高い文書を高い出力順位としている。
【0008】
特に、BM25Fでは文書の本文の検索キーワードに対する一致度と、該文書に張られた文書間リンクのアンカーテキストの検索キーワードに対する一致度とを、加重比を変えて計算することでより良い検索結果順位を得ている。
【0009】
しかし、検索キーワードが比較的珍しい単語であればこれらの手法でよい検索結果が得られるが、検索キーワードが極ありふれた単語である場合には、同程度の一致度となる文書が多くなりすぎてしまう。
【0010】
上記の問題を解決するために、一般的な情報検索サービスでは、検索キーワードとの一致度が同程度となった文書の順位付けのために文書の重要度を算出し、検索キーワードと文書との一致度と文書の重要度とを合わせて検索結果の出力順を決定している。
【0011】
文書の重要度としては、PageRank(非特許文献2参照)やHITS(非特許文献3参照)といった手法が一般的に利用されている。これら手法の詳細は本発明の本質に関連しないため詳細は記述しないが、WEBページのリンク情報を用いて、特定の文書が他の多くの文書からリンクされている場合にはその文書が重要であろうという推定に基づいている。
【0012】
上記の文書の静的重要度と検索キーワードとの一致度を併せて用いることで、情報検索ユーザの要求を概ね満たすことができている。
【0013】
しかし、現在のインターネットではブログに代表されるCMS(コンテンツ・マネジメント・システム)が広く利用されるようになっている。CMSを利用するとWEBサイト内に自動または手動によって文書間リンクが大量に作成される。これはPageRankやHITSの根底にある「多くリンクされる文書は重要な文書である」という想定を覆す恐れがある。
【0014】
また、BM25Fを利用する際には一般的にアンカーテキストには文書自体に比べ数十倍の重みを加えて検索キーワードとの一致度を計算するが、サイト内で文書間リンクが大量に自動生成されると、今までのようにアンカーテキストを重視した一致度計算では検索ユーザ一般の要求に合致しなくなるという問題がある。
【0015】
例えば「猫の飼い方」について優良な情報を記載したWEB文書があったとして、それには他の100のWEBサイトから1つずつ「猫の飼い方」というアンカーテキストで文書間リンクが張られていたとする。ここで200ページの文書を含む個人のブログサイトが同じく「猫の飼い方」というWEB文書を追加したとすると、該ブログサイトの200ページ全ての文書に存在する「最新記事」項目として、自動的に「猫の飼い方」というアンカーテキストで概文書に向けた文書間リンクが追加される。この結果外部の100のWEBサイトに認められた前者のWEB文書よりも、後者のWEB文書の方が「猫の飼い方」という検索キーワードにより強く一致してしまう恐れがある。
【0016】
本発明は上記課題を解決するものであり、その目的は、文書間リンクのアンカーテキストを、より的確に情報検索に反映させることができる情報検索システム、方法、プログラムを提供することにある。
【課題を解決するための手段】
【0017】
上記のような課題を解決するために請求項1、5に記載の発明は、WEBページに代表される文書間にリンク情報を備えた文書情報を検索対象とし、各文書へのリンクに含まれるアンカーテキストを該文書自体の情報と併せて該文書を検索する際の参照情報とする情報検索システム、情報検索方法であって、前記文書の情報検索キーワードへの一致度の算出に、該アンカーテキストの情報検索キーワードへの一致度と該文書自体の情報検索キーワードへの一致度との加重比を、該アンカーテキストを含む文書間リンクの特徴に応じて変化させることを特徴とする。
【0018】
また、前記アンカーテキストの情報検索キーワードへの一致度と前記文書自体の情報検索キーワードへの一致度との加重比を決定するために用いる文書間リンクの特徴として、該アンカーテキストを含む文書間リンクを含む文書の重要度を用いることを特徴とする(請求項2、6)。
【0019】
また、前記アンカーテキストの情報検索キーワードへの一致度と前記文書自体の情報検索キーワードへの一致度との加重比を決定するために用いる文書間リンクの特徴として、該アンカーテキストを含む文書間リンクを含む文書と該文書の関係性を用いることを特徴とする(請求項3、7)。
【0020】
また、参照語辞書をさらに備え、前記アンカーテキストの情報検索キーワードへの一致度と前記文書自体の情報検索キーワードへの一致度との加重比を決定するために用いる文書間リンクの特徴として、該アンカーテキストの参照語辞書への登録済み項目との一致度を用いることを特徴とする(請求項4、8)。
【発明の効果】
【0021】
(1)請求項1〜9に記載の発明によれば、文書間リンクのアンカーテキストを、より的確に情報検索に反映させることが可能となる。
(2)請求項2、6に記載の発明によれば、リンク元のWEB文書のPageRankやHITSに代表される重要度の高い文書からのリンクのアンカーテキストを重視し、特に重要でないWEB文書からのリンクのアンカーテキストを重視しない、WEB文書の検索キーワードとの一致度を算出することができる。これによって従来の検索システムのように文書の検索キーワードへの一致度と、文書の重要度を別個に算出して最終的にそれらのスコアを足し合わせるのではなく、文書の検索キーワードへの一致度の算出に文書の重要度を直接反映させた検索結果を得ることが可能となる。
(3)請求項3、7に記載の発明によれば、リンク元の文書とリンク先の文書が同じWEBサーバ上に存在する場合や同じドメインに含まれる場合にそのリンクのアンカーテキストを重視せず、別のドメインからのリンクのアンカーテキストを重視する、WEB文書の検索キーワードとの一致度を算出することができる。これによってブログ等のCMSによりサイト内に自動的に大量に生成されるリンクを重視しない検索結果を得ることが可能となる。
(4)請求項4、8に記載の発明によれば、リンクのアンカーテキストが特定の文言であった場合に該アンカーテキストを重視し、別の特定の文言であった場合には概アンカーテキストを重視しない、WEB文書の検索キーワードとの一致度を算出することができる。
【図面の簡単な説明】
【0022】
【図1】本発明の一実施例の情報検索システムの構成図。
【発明を実施するための形態】
【0023】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。図1は本発明の一実施例の構成を示す模式図である。図1において、10は情報検索システムであり、11および12は情報検索システム10が検索対象とするWEB文書であり、13は情報検索システム10の利用者が検索要求の入力と検索結果の受信に用いる情報検索端末である。
【0024】
情報検索システム10は、請求項1〜4共通の、リンク抽出機能1、インデックス機能2、文書インデックス3、キーワード一致度計算部4および総合ランキング計算部5を備えている。
【0025】
リンク抽出機能1は、前記WEB文書11、12からリンク情報を抽出するリンク抽出手段のリンク抽出機能を示し、インデックス機能2は、前記WEB文書11,12と該WEB文書に別のWEB文書から張られたリンクのアンカーテキストから検索用文書インデックスを作成するインデックス作成手段のインデックス機能を示し、文書インデックス3は、前記機能2によって作成された文書インデックスが格納された文書インデックス格納手段の文書インデックスを示している。
【0026】
キーワード一致度計算部4は、前記情報検索端末13から送られた情報検索要求を受けて検索キーワードと文書との一致度を計算するキーワード一致度計算手段としてのキーワード一致度計算部であり、総合ランキング計算部5は、前記キーワード一致度計算部4により計算された一致度とリンク元のWEB文書の重要度、例えば文書重要度テーブル6の情報とを総合して検索結果の出力順を決定する総合ランキング計算手段としての総合ランキング計算部である。
【0027】
また情報検索システム10は、請求項2に特有の、文書の重要度を記録した文書重要度テーブル6と、請求項3に特有な文書間関係判定手段の文書間関係判定機能7と、請求項4に特有の、参照語辞書8と、参照語辞書8とアンカーテキストとの一致度を判定する参照語辞書一致度判定手段の参照語辞書一致度判定機能9とを備えている。
【0028】
前記リンク抽出機能1、インデックス機能2、キーワード一致度計算部4、総合ランキング計算部5、文書間関係判定機能7および参照語辞書一致度判定機能9の各機能は、例えばコンピュータによって達成される。
【0029】
以下に図1を用いて本発明の実施例である情報検索システムの動作を説明する。リンク抽出機能1は、検索対象のWEB文書11、WEB文書12から文書間リンクを抽出する。この例ではWEB文書11からWEB文書12に向けて、「猫の育て方」というアンカーテキストを持つリンクが張られており、WEB文書12からWEB文書11に向けて、「こちら」というアンカーテキストを持つリンクが張られていたとする。リンク情報は一例として(リンク元文書URL,リンク先文書URL,アンカーテキスト)という形式であってもよく、この場合は(WEB文書11のURL,WEB文書12のURL,猫の育て方)と(WEB文書12のURL,WEB文書11のURL,こちら)との2つのリンク情報が抽出される。
【0030】
リンク抽出機能1から、抽出した文書間リンクの情報を受けた文書間関係判定機能7は、WEB文書11とWEB文書12との関係から該リンクに与える重みを計算する。文書間の関係の判定方法は一例としてWEB文書の URL を比較して同一ドメインに属する、同一ホストに属する、同一ディレクトリに属するといった順に関係が深くなるというWWWの仕組みを利用する方法がありえる。具体的には、
http://hoge.hoge.com/hoge/hoge.htmlhttp://fuga.fuga.com/fuga/fuga.html,fugafugafugafuga)
http://hoge.hoge.com/hoge/hoge.htmlhttp://fuga.hoge.com/fuga/fuga.html,fugahogefugafuga)
http://hoge.hoge.com/hoge/hoge.htmlhttp://hoge.hoge.com/fuga/fuga.html,hogehogefugagufa)
http://hoge.hoge.com/hoge/hoge.htmlhttp://hoge.hoge.com/hoge/fuga.html,hogehogegogefuga)
という4つのリンク情報があったとすると、一番目のリンク情報は全く異なるドメインからのリンクであるので重みを1とし、二番目のリンク情報は同一ドメインの別ホストからのリンクであるので重みを例えば0.5とし、三番目のリンク情報は同一ホスト内の異なるディレクトリ間でのリンクであるので重みを例えば0.1とし、四番目のリンク情報は同一ホストの同一ディレクトリ内のリンクであるので重みを例えば0.05とするという形で、リンク元WEB文書とリンク先WEB文書の関係を重みに反映させる方法がありえる。また一律に別ドメイン間のリンクの重みを1、同一ドメイン内のリンクの重みを0.5などと決めずに、特定のドメイン間やホスト間でのリンクの量や割合に応じてリンクの重みを算出するなどその他のいかなる方法であっても本発明の本質には関わらない。
【0031】
参照語辞書一致度判定機能9は文書間関係判定機能7によって重みを計算した文書間リンクのアンカーテキストを参照語辞書8と照らし合わせてアンカーテキストに与える重みをさらに計算する。例えばWEB文書には「○○はこちら」と記載したうちの「こちら」をアンカーテキストとした文書間リンクが多く存在するが、この「こちら」というアンカーテキストは文書検索にとって有効性が期待できないので、この重みを軽くするか全く無くすことは望ましい。逆に著名人の固有名詞や商品名等は検索用途によっては通常のtf・idfやBM25の単語出現頻度以上の価値があるため、これらの重みを重くするのも望ましい。このように参照語辞書8に登録する単語およびその重みは検索サービスの用途によって適切なものを選択することが好ましいが、その選択方法は本発明の本質に関係しない。
【0032】
図1の例では参照語辞書8には「こちら」「next」を重み0.0、「情報」を重み0.1として計算するよう登録済みであることを図示している。具体的な計算方法の一例として、アンカーテキストを形態素解析によって単語に分割し、分割された各単語のアンカーテキストにおけるtfを算出し、参照語辞書8に登録された単語に対しては、該値に対して参照語辞書8に登録済みの重みを掛け合わせる方法が考えられるが、それ以外でも参照語辞書8に登録済みの重みを反映できる計算方法であればどのような計算方法でもかまわない。
【0033】
インデックス機能2はWEB文書と該WEB文書に張られた文書間リンクのアンカーテキストとを、単語、n−gram、サフィックスアレイといった全文検索用の単位に分割して文書インデックス3に格納する。作成する文書インデックスの形式は上記の他いかなる形式であっても本発明の本質には関わらない。この例では単語によるインデックスとして、一例として単語「猫」がWEB文書11、12を含む文書群に出現している文書インデックスが作成されている。該インデックスには通常の全文検索インデックスに含まれるtfやidf、htmlによる単語のマークアップ情報等が含まれても良いが、本発明の本質に関係しないため詳細は記さない。
【0034】
請求項2による発明では、インデックス機能2はWEB文書に張られた文書間リンクのアンカーテキストを文書インデックス3に格納する際に、リンク元のWEB文書の重要度を文書重要度テーブル6から読み出し、その値を用いて文書インデックス3を構成する。図1の例では文書インデックス3の単語「猫」には(11:2)(12:9)という情報が格納されている状況を示してあるが、これは一例としてWEB文書11に「猫」という単語が2回現れているため、(WEB文書:重み)の値の組として(11:2)を格納し、WEB文書12には「猫」という単語が1回現れ、かつ文書重要度テーブル6に格納された文書重要度が8.0であるWEB文書11から張られたリンクのアンカーテキストに「猫」という単語が1回現れるため1+(8.0×1.0)=9を単語「猫」の重みとして(12:9)という情報を格納している。
【0035】
請求項3による発明では、インデックス機能2はWEB文書に張られた文書間リンクのアンカーテキストを文書インデックス3に格納する際に、文書間関係判定機能7が算出した重みを用いて文書インデックス3を構成する。重みの利用方法の一例として上記のWEB文書12の「猫」のインデックス作成時に、本文に「猫」が1回現れ、かつ文書重要度テーブル6に格納された文書重要度が8.0であるWEB文書11から張られたリンクのアンカーテキストに「猫」という単語が1回現れるため、1+(8.0×1.0)=9を単語「猫」の重みとして(12:9)という情報を格納したところをさらにリンクの重みwを用いて1+(w×8.0×1.0)をWEB文書12における単語「猫」の重みとする方法がありえるがこれに限らない。
【0036】
請求項4による発明では、インデックス機能2はWEB文書に張られた文書間リンクのアンカーテキストを文書インデックス3に格納する際に、参照語辞書一致度判定機能9が算出した重みを用いて文書インデック3を構成する。重みが規定の値以下の場合にはそもそもインデックスに反映させないこととするのも好ましい。図1の例では文書インデックス3の単語「こちら」には(11:0)(12:1)という情報が格納されている状況を示してあるが、これは一例としてWEB文書12に「こちら」という単語が1回現れているため(WEB文書:重み)の値の組として(12:1)を格納し、WEB文書11には「こちら」という単語が現れず、かつ文書重要度テーブル6に文書重要度が7.5であるWEB文書12から張られたリンクのアンカーテキストに「こちら」という単語が1回現れ、参照語辞書8に格納された単語「こちら」の重みが0.0であるため、0+(7.5×1.0)×0.0=0.0を単語「こちら」の重みとして(11:0)という情報を格納している。
【0037】
請求項2〜請求項4の2つないし3つを併せて用いる際には、それぞれの重みをどのように組み合わせて用いるかは任意である。
【0038】
本情報検索システムのユーザが情報検索端末13から検索キーワードを指定して情報検索を行うと、キーワード一致度計算部4は該検索キーワードを用いて文書インデックス3を参照し、検索キーワードを含む文書をリストアップし、それらの検索キーワードとの一致をtf・idfやBM25、BM25Fといった方法で算出する。この際、請求項2〜請求項4の発明では、アンカーテキストに付与された重みを変数として加えて一致度を計算する。計算方法としては、各単語毎に付与された重みをtd・idf等の計算式に掛け合わせるのでもよいし、BM25Fであれば文書インデックス3を作成する時点でアンカーテキストのtf値の倍率を重みによって変化させておく方法でも良く、重みの反映方法は任意である。
【0039】
総合ランキング計算部5は、前記キーワード一致度計算部4により計算された一致度と各WEB文書の重要度、例えば文書重要度テーブル6を参照して得た、リストされた各文書の重要度とを総合して情報検索端末13に返信する情報検索結果の出力順を決定する。
【0040】
本発明の情報検索方法は、例えば前記図1の情報検索システム10の、前記各機能1,2,7,9および前記各計算部4,5の各処理を実行するものである。
【0041】
すなわち、請求項5の情報検索方法の実施例は、リンク抽出機能1が、検索対象の複数のWEB文書11,12から、該文書間における文書間リンク情報を抽出するリンク抽出ステップと、インデックス機能2が、前記WEB文書11,12と、該WEB文書に張られた文書間リンクのアンカーテキストを、全文検索用の単位に分割してアンカーテキストを含む文書間リンクの特徴を反映させた文書インデックスを作成し、文書インデックス3(文書インデックス格納手段)に格納するインデックス作成ステップと、キーワード一致度計算部4が、情報検索端末13から指定された検索キーワードと、該キーワードを含む前記文書インデックス3の文書との一致度を計算するキーワード一致度計算ステップと、総合ランキング計算部5が、前記キーワード一致度計算部4により計算された一致度と、文書重要度テーブル6の各WEB文書の重要度とを総合して、情報検索結果を情報検索端末13に出力する順序を決定する総合ランキング計算ステップと、を実行する。
【0042】
また請求項6の情報検索方法の実施例は、前記請求項5の実施例において、前記インデックス機能2が行うインデックス作成ステップは、文書重要度テーブル6に格納されたリンク元のWEB文書の重要度を反映させた文書インデックスを作成するものである。
【0043】
また請求項7の情報検索方法の実施例は、前記請求項5又は6の実施例において、文書間関係判定機能7が、前記リンク抽出機能1により抽出された文書間リンク情報に基づいて文書間の関係を判定し、該リンクに与える重みを計算する文書間関係判定ステップを更に実行し、前記インデックス機能2のインデックス作成ステップは、前記文書間関係判定機能7により計算された重みを反映させた文書インデックスを作成するものである。
【0044】
また請求項8の情報検索方法の実施例は、前記請求項5ないし7のいずれか1項の実施例において、文書間関係判定機能7が、前記リンク抽出機能1により抽出された文書間リンク情報に基づいて文書間の関係を判定し、該リンクに与える重みを計算する文書間関係判定ステップと、参照語辞書一致度判定機能9が、前記文書間関係判定機能7により重みが計算された文書間リンクのアンカーテキストと、単語に対する重みが登録された参照語辞書8内の単語および重みとを照合して、前記リンクのアンカーテキストに与える重みを計算する参照語辞書一致度判定ステップとを更に実行し、前記インデックス機能2のインデックス作成ステップは、前記参照語辞書一致度判定機能9により計算された重みを反映させた文書インデックスを作成するものである。
【0045】
また、本実施形態の情報検索システムにおける各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の情報検索方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【符号の説明】
【0046】
1…リンク抽出機能
2…インデックス機能
3…文書インデックス
4…キーワード一致度計算部
5…総合ランキング計算部
6…文書重要度テーブル
7…文書間関係判定機能
8…参照語辞書
9…参照語辞書一致度判定機能
10…情報検索システム
11、12…WEB文書
13…情報検索端末

【特許請求の範囲】
【請求項1】
WEB文書間にリンク情報を備えた文書情報を検索対象とする情報検索システムであって、
検索対象の複数のWEB文書から、該文書間における文書間リンク情報を抽出するリンク抽出手段と、
前記WEB文書と、該WEB文書に張られた文書間リンクのアンカーテキストを、全文検索用の単位に分割してアンカーテキストを含む文書間リンクの特徴を反映させた文書インデックスを作成するインデックス作成手段と、
前記インデックス作成手段により作成された文書インデックスが格納された文書インデックス格納手段と、
検索キーワードと、該キーワードを含む前記文書インデックス格納手段内の文書との一致度を計算するキーワード一致度計算手段と、
前記キーワード一致度計算手段により計算された一致度と各WEB文書の重要度とを総合して、情報検索結果の出力順を決定する総合ランキング計算手段と、を備えたことを特徴とする情報検索システム。
【請求項2】
リンク元のWEB文書の重要度が格納された文書重要度テーブルを更に備え、
前記インデックス作成手段は、前記文書重要度テーブルに格納された重要度を反映させた文書インデックスを作成することを特徴とする請求項1に記載の情報検索システム。
【請求項3】
前記リンク抽出手段により抽出された文書間リンク情報に基づいて文書間の関係を判定し、該リンクに与える重みを計算する文書間関係判定手段を更に備え、
前記インデックス作成手段は、前記文書間関係判定手段により計算された重みを反映させた文書インデックスを作成することを特徴とする請求項1又は2に記載の情報検索システム。
【請求項4】
単語に対する重みが登録された参照語辞書と、
前記リンク抽出手段により抽出された文書間リンク情報に基づいて文書間の関係を判定し、該リンクに与える重みを計算する文書間関係判定手段と、
前記文書間関係判定手段により重みが計算された文書間リンクのアンカーテキストと、前記参照語辞書に登録された単語および重みとを照合して、前記リンクのアンカーテキストに与える重みを計算する参照語辞書一致度判定手段とを更に備え、
前記インデックス作成手段は、前記参照語辞書一致度判定手段により計算された重みを反映させた文書インデックスを作成することを特徴とする請求項1ないし3のいずれか1項に記載の情報検索システム。
【請求項5】
WEB文書間にリンク情報を備えた文書情報を検索対象とする情報検索方法であって、
リンク抽出手段が、検索対象の複数のWEB文書から、該文書間における文書間リンク情報を抽出するリンク抽出ステップと、
インデックス作成手段が、前記WEB文書と、該WEB文書に張られた文書間リンクのアンカーテキストを、全文検索用の単位に分割してアンカーテキストを含む文書間リンクの特徴を反映させた文書インデックスを作成するインデックス作成ステップと、
キーワード一致度計算手段が、検索キーワードと、該キーワードを含む、前記インデックス作成手段により作成された文書インデックスの文書との一致度を計算するキーワード一致度計算ステップと、
総合ランキング計算手段が、前記キーワード一致度計算手段により計算された一致度と各WEB文書の重要度とを総合して、情報検索結果の出力順を決定する総合ランキング計算ステップと、を備えたことを特徴とする情報検索方法。
【請求項6】
前記インデックス作成ステップは、文書重要度テーブルに格納されたリンク元のWEB文書の重要度を反映させた文書インデックスを作成することを特徴とする請求項5に記載の情報検索方法。
【請求項7】
文書間関係判定手段が、前記リンク抽出手段により抽出された文書間リンク情報に基づいて文書間の関係を判定し、該リンクに与える重みを計算する文書間関係判定ステップを更に備え、
前記インデックス作成ステップは、前記文書間関係判定手段により計算された重みを反映させた文書インデックスを作成することを特徴とする請求項5又は6に記載の情報検索方法。
【請求項8】
文書間関係判定手段が、前記リンク抽出手段により抽出された文書間リンク情報に基づいて文書間の関係を判定し、該リンクに与える重みを計算する文書間関係判定ステップと、
参照語辞書一致度判定手段が、前記文書間関係判定手段により重みが計算された文書間リンクのアンカーテキストと、単語に対する重みが登録された参照語辞書内の単語および重みとを照合して、前記リンクのアンカーテキストに与える重みを計算する参照語辞書一致度判定ステップとを更に備え、
前記インデックス作成ステップは、前記参照語辞書一致度判定手段により計算された重みを反映させた文書インデックスを作成することを特徴とする請求項5ないし7のいずれか1項に記載の情報検索方法。
【請求項9】
コンピュータを請求項1ないし4のいずれか1項に記載の各手段として機能させる情報検索プログラム。

【図1】
image rotate


【公開番号】特開2011−39717(P2011−39717A)
【公開日】平成23年2月24日(2011.2.24)
【国際特許分類】
【出願番号】特願2009−185369(P2009−185369)
【出願日】平成21年8月10日(2009.8.10)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【出願人】(504126835)エヌ・ティ・ティ レゾナント株式会社 (60)
【Fターム(参考)】