検索情報解析プログラム、検索情報解析装置、及び検索情報解析方法

【課題】話題となっている単語の背景を示す情報の提示を適切に支援すること。
【解決手段】コンピュータに、検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、検索語に含まれる話題語に基づき、該話題語と関係を有する単語である周辺語を関係情報記憶手段を参照して抽出し、抽出した周辺語ごとに、該周辺語と関係を有する第一の単語と第一の単語であってかつ該周辺語以外の周辺語に該当する第二の単語とを関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が話題語の背景を示す度合を算出し、該算出した度合に基づいて周辺語の一部を抽出する選択手順とを実行させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、検索情報解析プログラム、検索情報解析装置、及び検索情報解析方法に関し、特にサーチエンジンの検索ログを解析する検索情報解析プログラム、検索情報解析装置、及び検索情報解析方法に関する。
【背景技術】
【０００２】
従来、インターネット上のサーチエンジン（キーワード検索機能を提供するＷｅｂサイト）において記録されている検索ログを解析し、話題となっている単語を提示するサービスが提供されている（例えば、特許文献１）。斯かるサービスを利用することで、ユーザは、現在世の中で話題となっている事、物、又は人物等を容易に知ることができる。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００４−２０６５１７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、単に単語が提示されるだけでは、提示された単語の意味及び背景等を理解するのはユーザにとって困難である。例えば、或る人物名が、話題となっている単語として提示された場合、その人物が何故話題となっているのかまでは分からなかった。
【０００５】
本発明は、上記の点に鑑みてなされたものであって、話題となっている単語の背景を示す情報の提示を適切に支援することのできる検索情報解析プログラム、検索情報解析装置、及び検索情報解析方法の提供を目的とする。
【課題を解決するための手段】
【０００６】
そこで上記課題を解決するため、検索情報解析プログラムは、コンピュータに、１つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行させる。
【発明の効果】
【０００７】
開示された技術によれば、話題となっている単語の背景を示す情報の提示を適切に支援することができる。
【図面の簡単な説明】
【０００８】
【図１】本発明の実施の形態における検索情報解析装置のハードウェア構成例を示す図である。
【図２】本発明の実施の形態における検索情報解析装置の機能構成例を示す図である。
【図３】検索情報解析装置による処理手順を説明するためのフローチャートである。
【図４】検索ログ記憶部の構成例を示す図である。
【図５】話題語の抽出方法の例を説明するための図である。
【図６】飛び先ＵＲＬの共通性に基づく単語間の関係の抽出例を示す図である。
【図７】検索ユーザの共通性に基づく単語間の関係の抽出例を示す図である。
【図８】同一の検索キーワードに含まれているか否かに基づく単語間の関係の抽出例を示す図である。
【図９】飛び先ＵＲＬの共通性に基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【図１０】関係管理テーブルの例を示す図である。
【図１１】検索ユーザの共通性に基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【図１２】同一の検索キーワードに含まれているか否かに基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【図１３】代表語の選択処理の処理手順を説明するためのフローチャートである。
【図１４】話題語から２ステップ以内の単語の関係情報の例を示す図である。
【図１５】関係情報の具体例における周辺語ごとの各統計値を示す図である。
【図１６】話題語に関する代表語等の表示例を示す図である。
【発明を実施するための形態】
【０００９】
以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態における検索情報解析装置のハードウェア構成例を示す図である。図１の検索情報解析装置１０は、それぞれバスBで相互に接続されているドライブ装置１００と、補助記憶装置１０２と、メモリ装置１０３と、ＣＰＵ１０４と、インタフェース装置１０５と、表示装置１０６と、入力装置１０７とを有する。
【００１０】
検索情報解析装置１０での処理を実現するプログラムは、ＣＤ−ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記録した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【００１１】
メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って検索情報解析装置１０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１０７はキーボード及びマウス等であり、様々な操作指示を入力させるために用いられる。
【００１２】
図２は、本発明の実施の形態における検索情報解析装置の機能構成例を示す図である。同図において、検索情報解析装置１０は、検索ログ記憶部１１、話題語抽出部１２、関係抽出部１３、代表語選択部１４、及び出力処理部１５等を有する。これら各部は、検索情報解析装置１０にインストールされたプログラムがＣＰＵ１０４に実行させる処理によって実現される。
【００１３】
検索ログ記憶部１１は、補助記憶装置１０２において、サーチエンジンの検索ログ（検索履歴）を記憶する記憶領域である。サーチエンジンとは、インターネット上で公開されている情報の検索サービスを提供するＷｅｂサイトである。検索ログとは、閲覧された情報のＵＲＬ（Uniform Resource Locator）と、当該情報の検索に使用された検索キーワード（検索語）を含むデータである。換言すれば、検索ログは、入力された検索キーワードと、検索結果の中のいずれの情報が閲覧先（飛び先又は遷移先）として選択されたかを示す情報（飛び先ＵＲＬ）とを含む。なお、検索ログ記憶部１１は、検索情報解析装置１０とネットワークを介して接続された他のコンピュータ又は記憶装置が有していてもよい。
【００１４】
話題語抽出部１２は、検索ログ記憶部１１に記録された検索ログを解析し、過去の検索に利用された検索キーワードの中から話題語を抽出する。話題語とは、話題となっている可能性の高い単語をいう。関係抽出部１３は、検索ログ記憶部１１に記録された検索ログを解析し、検索キーワードと共に検索ログに記録されている情報に基づいて検索キーワードに含まれている単語間の関係を抽出する。関係抽出部１３は、抽出された関係を示す情報を関係管理テーブルとして補助記憶装置１０２又はメモリ装置１０３に記録する。
【００１５】
代表語選択部１４は、話題語抽出部１２によって抽出された話題語と、関係抽出部１３によって生成された関係管理テーブルとに基づいて、検索キーワードに含まれている単語の中から代表語を選択する。代表語は、話題語が話題となっている背景を示すものと期待されるものとして、話題語と関係を有する単語より所定の規則に基づいて選択される。例えば、話題語が属する分野若しくはカテゴリを示す単語、又は話題語を抽象化した単語等が代表語として選択されることが期待される。出力処理部１５は、代表語選択部１４によって選択された代表語等を出力する。出力先は、表示装置１０６、補助記憶装置１０２、又は非図示のプリンタ等、様々なものが適用可能である。
【００１６】
以下、図１の検索情報解析装置１０の処理手順について説明する。図３は、検索情報解析装置による処理手順を説明するためのフローチャートである。同図の処理は、例えば、操作者による処理の開始指示の入力、又は定期的なタイミングの自動検知により開始される。
【００１７】
ステップＳ１０１において、話題語抽出部１２は、検索ログ記憶部１１に記録されている検索ログに含まれている検索キーワードの中から話題語を抽出する。
【００１８】
図４は、検索ログ記憶部の構成例を示す図である。同図において、検索ログ記憶部１１は、検索ログごとに、日時、ユーザ識別子、検索キーワード、及び飛び先ＵＲＬ等を記憶する。検索キーワードは、検索の種として入力された文字列（一文字も含む。）である。検索キーワードは、複数の単語又は文字列を含みうる。同図において、２行目の検索ログの検索キーワードは「マカロンお菓子」である。このことは、「マカロン」と「お菓子」とが同時に検索キーワードとして入力されたことを示す。飛び先ＵＲＬは、検索キーワードに基づいて検索された検索結果（情報の一覧）の中から、閲覧対象として選択された情報のＵＲＬを示す。例えば、１行目の検索ログは、「マカロン」という検索キーワードに基づいて検索された情報の中から、「http://www.xxxxxxx.com/」によって識別される情報が閲覧対象とされたことを示す。
【００１９】
日時は、検索ログが記録された日時、すなわち、飛び先ＵＲＬに係る情報の取得要求がサーチエンジンにおいて受信された日時である。ユーザ識別子は、検索ログに係る検索を行ったユーザの識別子である。ユーザ識別子は、例えば、サーチエンジンに対応するクッキーに基づいてクライアント装置側（Ｗｅｂブラウザ）より送信される。但し、クライアント装置単位の識別子（例えば、ＩＰアドレス等）をユーザ識別子としてもよい。
【００２０】
また、図５は、話題語の抽出方法の例を説明するための図である。同図では、検索キーワードに含まれている単語ごとに、過去３日間の検索数の増加率に基づくスコアが算出される例が示されている。具体的には、３日前の検索数から２日前の検索数の増加率と、２日前から１日前の検索数の増加率との合計が、各単語のスコアとされる。スコアの高い順にランク（順位）が決定され、ランクが相対的に高い単語（例えば、上位Ｎ番目までのもの）が話題語とされる。なお、検索数とは、検索キーワードに含まれていた数である。
【００２１】
同図の例では、「マカロン」について、３日前、２日前、１日前の検索数は、それぞれ１０、１５、３０である。３日前から２日前の増加率は、１．５である。２日前から１日前までの増加率は２．０である。したがって、スコアは、１．５＋２．０＝３．５である。当該スコアは最も高いため、「マカロン」が最上位にランクされ、上位３位以内の「ラーメン」、及び「パソコン」と共に話題語として抽出されている。
【００２２】
なお、話題語の抽出処理には、他の公知技術が利用されてもよい。すなわち、本実施の形態に適用可能な、話題語の抽出方法は所定のものに限定されない。また、話題語の抽出処理は、検索情報解析装置１０以外の他のコンピュータにおいて行われてもよい。
【００２３】
続いて、関係抽出部１３は、検索ログに基づいて、検索キーワードに含まれている単語間の関係を抽出し、抽出結果を記録した関係管理テーブルを生成する（Ｓ１０２）。単語間の関係を抽出する検索ログの範囲は、話題語が抽出された検索ログの範囲（例えば、過去３日分）と同じでもよいし、異なっていてもよい。
【００２４】
単語間の関係は、検索ログに記録されている情報から抽出又は導出可能なものであり、合理的なものであれば特定の関係に限定されない。例えば、本実施の形態では、飛び先ＵＲＬの共通性、検索の実行主体（検索ユーザ）の共通性、又は同一の検索キーワードに含まれているか否かに基づいて単語間の関係が抽出される。
【００２５】
図６は、飛び先ＵＲＬの共通性に基づく単語間の関係の抽出例を示す図である。同図の例では、２日前において、ＵＲＬ１が飛び先ＵＲＬである検索ログの検索キーワードには、「マカロン」、「フランス」、又は「東京」が含まれている。したがって、この場合、「マカロン」、「フランス」、及び「東京」は相互に関係を有すると判定される。すなわち、「マカロン」、「フランス」、及び「東京」の相互の関係が抽出される。
【００２６】
また、２日前において、ＵＲＬ２が飛び先ＵＲＬである検索ログの検索キーワードには、「マカロン」、「イタリア」、「お菓子」、又は「銀座」が含まれている。したがって、この場合、「マカロン」、「イタリア」、「お菓子」、及び「銀座」の相互の関係が抽出される。
【００２７】
また、１日前において、ＵＲＬ１が飛び先ＵＲＬである検索ログの検索キーワードには、「マカロン」、「お菓子」、又は「東京」が含まれている。したがって、この場合、「マカロン」、「お菓子」、及び「東京」の相互の関係が抽出される。
【００２８】
更に、１日前において、ＵＲＬ２が飛び先ＵＲＬである検索ログの検索キーワードには、「マカロン」又は「フランス」が含まれている。したがって、この場合、「マカロン」及び「フランス」の相互の関係が抽出される。
【００２９】
以上の４つのケースおいて抽出された関係をマージ（統合）すると、関係情報Ｄ１が得られる。関係情報Ｄ１において、単語間の関係は線分によって示されている。また、線分に付された数値は、当該線分によって連結される単語間の関係の抽出回数を示す。例えば、「マカロン」と「フランス」との関係は、２日前の飛び先ＵＲＬがＵＲＬ１のケースと、１日前の飛び先ＵＲＬがＵＲＬ２のケースとにおいて合計２回抽出されている。したがって、当該二つの単語間を結ぶ線分には「２」が付されている。
【００３０】
なお、飛び先ＵＲＬは、ユーザによって閲覧された情報を示す。閲覧された情報は、ユーザが目的としていた情報である可能性が高い。そして、同一の情報を検索の目的とする場合に検索キーワードに含められる単語は、意味が近似する可能性が高い。したがって、飛び先ＵＲＬの共通性に基づいて抽出される関係は、単語間の意味的な近さ（近似度）に基づくものであると考えられる。
【００３１】
また、図７は、検索ユーザの共通性に基づく単語間の関係の抽出例を示す図である。同図の例では、２日前において、ユーザ１は、「マカロン」、「地図」、又は「お菓子」を含む検索キーワードを入力して検索を行っている。したがって、この場合、「マカロン」、「地図」、及び「お菓子」は、相互に関係を有すると判定される。すなわち、「マカロン」、「地図」、及び「お菓子」の相互の関係が抽出される。
【００３２】
また、２日前において、ユーザ２は、「マカロン」、「スイーツ」、又は「地図」を含む検索キーワードを入力して検索を行っている。したがって、この場合、「マカロン」、「スイーツ」、及び「地図」の相互の関係が抽出される。
【００３３】
また、１日前において、ユーザ１は、「マカロン」又は「地図」を含む検索キーワードを入力して検索を行っている。したがって、この場合、「マカロン」及び「地図」の相互の関係が抽出される。
【００３４】
更に、１日前において、ユーザ２は、「マカロン」、「フランス」、「銀座」、又は「レシピ」を含む検索キーワードを入力して検索を行っている。したがって、この場合、「マカロン」、「フランス」、「銀座」、及び「レシピ」の相互の関係が抽出される。
【００３５】
以上の４つのケースにおいて抽出された関係をマージすると、関係情報Ｄ２が得られる。関係情報Ｄ２の表記法は、関係情報Ｄ１と同様である。
【００３６】
なお、ユーザは、目的とする情報を検索する際に、様々な検索キーワードを入力して、検索をやり直す場合がある。このような場合において入力される検索キーワードに含まれる単語は、ユーザの意識の中で、目的とする情報を中心とする関係が形成されているものと考えられる。したがって、検索ユーザの共通性に基づいて抽出される関係は、検索ユーザが認識している関係を示すものと考えられる。
【００３７】
また、図８は、同一の検索キーワードに含まれているか否かに基づく単語間の関係の抽出例を示す図である。同図の例では、２日前において、「お菓子マカロン東京」という検索キーワードが入力されている。「お菓子マカロン東京」は、「お菓子」、「マカロン」、及び「東京」が、スペース等によって区切られて同時に（一つの検索キーワード（クエリ）として）入力されたことを示す。この場合、当該検索キーワードより、「お菓子」、「マカロン」、及び「東京」の相互の関係が抽出される。２日前の他の検索キーワード、及び１日前の各検索キーワードからも、当該検索キーワードに含まれている単語間の相互の関係が抽出される。その結果、関係情報Ｄ３が得られる。関係情報Ｄ３の表記法は、関係情報Ｄ１と同様である。
【００３８】
なお、図６〜図８に示される３つの方法のいずれか一つが採用されてもよいし、二つ以上が組み合わされてもよい。
【００３９】
上記３つの方法を実現するためのそれぞれの処理手順を説明する。図６の抽出例が採用される場合、関係抽出部１３は、図９に示される処理を実行する。
【００４０】
図９は、飛び先ＵＲＬの共通性に基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【００４１】
ステップＳ２０１において、関係抽出部１３は、飛び先ＵＲＬの共通性（同一性）に基づいて、所定期間内の検索ログをグループに分類する。すなわち、飛び先ＵＲＬが共通する検索ログは、同一のグループに属する。
【００４２】
続いて、関係抽出部１３は、１つのグループを処理対象とする（Ｓ２０２）。以下、処理対象とされたグループを「カレントグループ」という。続いて、関係抽出部１３は、カレントグループに属する検索ログの検索キーワードに含まれる全ての単語を二つずつ組み合わせた場合の全ての組み合わせを関係管理テーブルに登録する（Ｓ２０３）。
【００４３】
図１０は、関係管理テーブルの例を示す図である。関係管理テーブルは、二つの単語（「単語１」と「単語２」）の組み合わせごとに抽出回数を記憶する。すなわち、ステップＳ２０３において、関係抽出部１３は、未登録の組み合わせについては、関係管理テーブルに新規に登録し、当該組み合わせに対する抽出回数に「１」を記録する。一方、既に登録されている組み合わせについては、当該組み合わせに対する抽出回数に「１」を加算する。
【００４４】
関係抽出部１３は、全てのグループについてステップＳ２０２及びＳ２０３を実行した後（Ｓ２０４でＹｅｓ）、抽出回数が閾値未満のレコードを関係管理テーブルより削除する（Ｓ２０５）。関連性の低い関係を排除することにより、情報のノイズを除去するためのである。
【００４５】
なお、図６〜図７における関係情報Ｄ１〜Ｄ３は、関係管理テーブルに記録された情報を視覚的に分かり易く表現したものである。
【００４６】
また、図７の抽出例が採用される場合、関係抽出部１３は、図１１に示される処理を実行する。図１１は、検索ユーザの共通性に基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【００４７】
ステップＳ２１１において、関係抽出部１３は、ユーザ識別子の共通性（同一性）に基づいて、所定期間内の検索ログをグループに分類する。すなわち、ユーザ識別子が共通する検索ログは、同一のグループに属する。
【００４８】
以降、ステップＳ２１２〜Ｓ２１５は、図９のステップＳ２０２〜Ｓ２０５と同様の処理手順である。
【００４９】
また、図８の抽出例が採用される場合、関係抽出部１３は、図１２に示される処理を実行する。図１２は、同一の検索キーワードに含まれているか否かに基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【００５０】
ステップＳ２２１において、関係抽出部１３は、所定期間内の検索ログの中で、検索キーワードが２以上の単語を含む検索ログを一つ選択する。ここで選択された検索ログを、以下「カレントログ」という。
【００５１】
続いて、関係抽出部１３は、カレントログの検索キーワードに含まれている単語を二つずつ組み合わせた場合の全ての組み合わせを関係管理テーブルに登録する（Ｓ２２２）。関係管理テーブルの形式は、図１０と同様でよい。関係抽出部１３は、未登録の組み合わせについては、関係管理テーブルに新規に登録し、当該組み合わせに対する抽出回数に「１」を記録する。一方、既に登録されている組み合わせについては、当該組み合わせに対する抽出回数に「１」を加算する。
【００５２】
所定期間内の全ての検索ログについて、ステップＳ２２１及びＳ２２２を実行した後（Ｓ２２３でＹｅｓ）、関係抽出部１３は、抽出回数が閾値未満のレコードを関係管理テーブルより削除する（Ｓ２２４）。
【００５３】
図３に戻る。ステップＳ１０２に続いて、代表語選択部１４は、ステップＳ１０１において抽出された話題語の一つを処理対象として選択する（Ｓ１０３）。話題語の選択順について特に制限は無い。最終的に全ての話題語が処理対象とされればよい。又は、操作者の指示入力によって、処理対象とする話題語が選択されてもよい。以下、選択された話題語を「カレント話題語」という。
【００５４】
続いて、代表語選択部１４は、カレント話題語から２ステップ以内の関係に係るレコードを関係管理テーブルより抽出する（Ｓ１０４）。２ステップ以内とは、関係情報Ｄ１等において２枝以内ということを意味する。例えば、「マカロン」がカレント話題語である場合に、関係情報Ｄ３（図８）において、「ピザ」及び「パスタ」等は、「マカロン」から２ステップである。一方、「お菓子」、「フランス」、及び「イタリア」は、「マカロン」から１ステップである。なお、関係情報Ｄ１〜Ｄ３では、「マカロン」から３ステップ以上の単語は便宜上表示されていない。
【００５５】
カレント話題語から２ステップ以内の関係を示すレコードの関係管理テーブルからの抽出は次のように行えばよい。まず、カレント話題語を含むレコード（以下「１ステップレコード」という。）を全て関係管理テーブルより抽出する。続いて、１ステップレコードにおいてカレント話題語ではない単語をキーとし当該単語を含むレコード（以下、「２ステップレコード」という。）を、１ステップレコードを除いたレコードの中から抽出する。
【００５６】
続いて、代表語選択部１４は、抽出されたレコード（すなわち、１ステップレコード及び２ステップレコード）に基づいて、代表語の選択処理を実行する（Ｓ１０５）。すなわち、代表語は、話題語ごとに選択される。続いて、出力処理部１５は、選択された代表語を出力する。
【００５７】
全ての話題語について代表語の選択及び出力等が完了すると（Ｓ１０７でＹｅｓ）、図３の処理は終了する。
【００５８】
続いて、ステップＳ１０５の詳細について説明する。図１３は、代表語の選択処理の処理手順を説明するためのフローチャートである。
【００５９】
ステップＳ３０１において、代表語選択部１４は、カレント話題語の隣接語を１ステップレコードより抽出する。隣接語とは、１ステップ以内の単語をいう。したがって、１ステップレコードに含まれている単語（話題語以外の単語）が、話題語の隣接語である。
【００６０】
例えば、図１４は、話題語から２ステップ以内の単語の関係情報の例を示す図である。同図において、カレント話題語が「マカロン」であるとすると、ステップＳ３０１では、「イタリア」、「銀座」、「フランス」、「スイーツ」、「ロールケーキ」、及び「お菓子」が隣接語として抽出される。なお、話題語の隣接語を特に「周辺語」という。
【００６１】
続いて、代表語選択部１４は、関係管理テーブルに基づいて各周辺語の隣接語数を計数する（Ｓ３０２）。具体的には、周辺語ごとに、当該周辺語を「単語１」又は「単語２」に含むレコード数がカウントされる。例えば、図１４において、周辺語の一つである「銀座」には、「イタリア」、「フランス」、「マカロン」、「お菓子」、「スイーツ」、「アクセサリ」、及び「ブランドショップ」の七つの隣接語が有る。したがって、「銀座」に対する隣接語数は「７」となる。
【００６２】
続いて、代表語選択部１４は、関係管理テーブルに基づいて、各周辺語の隣接語中の他の周辺語の数を計数する（Ｓ３０３）。具体的には、周辺語ごとに、当該周辺語を「単語１」又は「単語２」の一方に含み、かつ、他方の単語が当該周辺語以外の他の周辺語（すなわち、話題語の隣接語）であるレコードの数がカウントされる。例えば、図１４において、周辺語の一つである「銀座」には、「イタリア」、「フランス」、「マカロン」、「お菓子」、「スイーツ」、「アクセサリ」、及び「ブランドショップ」の七つの隣接語が有る。このうち、「イタリア」、「フランス」、「マカロン」、「お菓子」、及び「スイーツ」の五つは周辺語である。したがって、「銀座」に対する隣接語中の周辺語の数は「５」となる。
【００６３】
続いて、代表語選択部１４は、周辺語ごとにスコアを算出し、スコアが最大である周辺語を代表語として選択する（Ｓ３０４）。ここで、スコアは、以下の式によって算出され、本実施の形態において、話題語の背景を示す度合の一例に相当する。
（ｗｎ×ｗｎ）／ｒｎ
ｒｎ：隣接語数（ステップＳ３０２において計数される値）
ｗｎ：隣接語中の周辺語の数（ステップＳ３０３において計数される値）
図１４の関係情報の例に関して、周辺語ごとのｒｎの値、ｗｎの値、及び（ｗｎ×ｗｎ）／ｒｎの値は、図１５に示される。図１５は、関係情報の具体例における周辺語ごとの各統計値を示す図である。
【００６４】
同図の例において、スコアが最大である周辺語は「スイーツ」である。したがって、「スイーツ」が、話題語「マカロン」に対する代表語として選択される。なお、スコアが最大である周辺語だけでなく、スコアが所定値以上又はスコアの順位が所定以上の複数の周辺語が話題語の背景を示すための提示対象として選択されてもよい。
【００６５】
図１５の例に基づく場合、図３のステップＳ１０６では、例えば、図１６に示されるような表示がお行われる。図１６は、話題語に関する代表語等の表示例を示す図である。
【００６６】
同図では、話題語「マカロン」を中心として、代表語「スイーツ」が上側に、スコアが上位の周辺語（「銀座」、「フランス」、及び「お菓子」）が下側に配置されている。同図に示された画面を閲覧したユーザは、「マカロン」が話題語であることと共に、スイーツの一種であり、銀座で売られているお菓子であること。また、フランスが原産であることを推測することができる。なお、代表語だけを表示させてもよいが、他の周辺語を提示することにより、話題語の意味、内容、又は背景等をより明確に推測させることが可能となる。
【００６７】
ここで、周辺語の評価に利用されるスコアの算出式（（ｗｎ×ｗｎ）／ｒｎ）の意義について説明する。ｗｎは、周辺語の隣接語のうちの周辺語の数である。すなわち、周辺語の隣接語でもあり、かつ、話題語の隣接語でもある単語の数である。したがって、当該単語は、周辺語とも関係が強く、話題語とも関係が強い単語であるといえる。当該単語の数が多ければ多い周辺語ほど（ｗｎの値が大きければ大きい周辺語ほど）、話題語との関係は強いものと考えられる。したがって、そのような周辺語（ｗｎの値が大きい周辺語）は、話題語に対する代表語の選択において高い評価が与えられるべきである。
【００６８】
但し、ｗｎの値は、周辺語の意味の範囲（抽象度）に大きく影響される。具体的には、意味の範囲が広い（抽象度が高い）周辺語であれば、多数の単語と関係を有する可能性が高い。そうすると、当該周辺語と話題語との関係の絶対的な強さ、すなわち、ｗｎの値は自ずと大きくなる。一方、意味する範囲が狭い（抽象度が低い）周辺語であれば、関係を有する単語も限定される。そうすると、当該周辺語と話題語との関係の絶対的な強さ、すなわち、ｗｎの値は自ずと小さくなる。したがって、単にｗｎの比較によって、各周辺語と話題語との関係の強さを比較してしまっては、当該強さを正当に評価したことにはならない。
【００６９】
そこで、本実施の形態では、ｒｎが除数として用いられるのである。ｒｎは、周辺語の隣接語数であり、話題語に隣接していない単語の数も含まれる。したがって、ｒｎは、周辺語と関係の強い単語の総数を示す値、すなわち、周辺語の意味の範囲を示す値であるといえる。
【００７０】
ｗｎをｒｎによって除することにより、各周辺語の意味の範囲の大きさを捨象して、各周辺語と話題語との関係の強さを比較することができる。換言すれば、各周辺語について、当該周辺語が有する他の単語との全ての関係に対する話題語との関係（厳密には周辺語との関係）の割合によって、各周辺語と話題語との関係の強さを評価することができる。なお、ｗｎを自乗しているのは、本実施の形態では、話題語との関係の絶対的な強さに対して重み付けをしているためである。したがって、必ずしもｗｎを自乗しなくてもよい。また、ｗｎやｒｎの重み付けを変化させるため、それぞれに対して重み付け係数を乗ずるようにしてもよい。その場合、スコアの算出式は、（α×ｗｎ）／（β×ｒｎ）となる。ここで、αはｗｎに対する重み付け係数である。βは、ｒｎに対する重み付け係数である。
【００７１】
上述したように、本実施の形態によれば、検索ログを解析して検索キーワードに含まれている単語間の関係情報を抽出し、関係情報に基づいて、検索キーワードから抽出された話題語に対する周辺語及び代表語を抽出又は判定することができる。したがって、話題語の背景を示す情報の提示を適切に支援することができる。すなわち、抽出又は判定された周辺語及び代表語等を提示することで、ユーザは、話題語の背景を容易に理解することが可能となる。
【００７２】
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【００７３】
以上の説明に関し、更に以下の項を開示する。
（付記１）
コンピュータに、
１つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行させる検索情報解析プログラム。
（付記２）
前記選択手順が算出する度合いは、前記第二の単語の数を前記第一の単語の数によって除した値である付記１記載の検索情報解析プログラム。
（付記３）
前記検索語の属性情報は、該検索語に対応する閲覧先情報のＵＲＬであり、
前記関係生成手順は、前記閲覧先情報のＵＲＬの共通性に基づいて前記単語間の関係を抽出する付記１又は２記載の検索情報解析プログラム。
（付記４）
前記検索語の属性情報は、該検索語に対応する検索主体の識別子であり、
前記関係生成手順は、前記検索主体の識別子の共通性に基づいて前記単語間の関係を抽出する付記１又は２記載の検索情報解析プログラム。
（付記５）
前記関係生成手順は、前記検索ログにおいて同一の前記検索語に含まれている否かに基づいて前記単語間の関係を抽出する付記１又は２記載の検索情報解析プログラム。
（付記６）
１つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手段と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手段とを有する検索情報解析装置。
（付記７）
前記選択手段が算出する度合いは、前記第二の単語の数を前記第一の単語の数によって除した値である付記６記載の検索情報解析装置。
（付記８）
前記検索語の属性情報は、該検索語に対応する閲覧先情報のＵＲＬであり、
前記関係生成手段は、前記閲覧先情報のＵＲＬの共通性に基づいて前記単語間の関係を抽出する付記６又は７記載の検索情報解析装置。
（付記９）
前記検索語の属性情報は、該検索語に対応する検索主体の識別子であり、
前記関係生成手段は、前記検索主体の識別子の共通性に基づいて前記単語間の関係を抽出する付記６又は７記載の検索情報解析装置。
（付記１０）
前記関係生成手段は、前記検索ログにおいて同一の前記検索語に含まれている否かに基づいて前記単語間の関係を抽出する付記６又は７記載の検索情報解析装置。
（付記１１）
コンピュータが、
１つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行する検索情報解析方法。
（付記１２）
前記選択手順が算出する度合いは、前記第二の単語の数を前記第一の単語の数によって除した値である付記１１記載の検索情報解析方法。
（付記１３）
前記検索語の属性情報は、該検索語に対応する閲覧先情報のＵＲＬであり、
前記関係生成手順は、前記閲覧先情報のＵＲＬの共通性に基づいて前記単語間の関係を抽出する付記１１又は１２記載の検索情報解析方法。
（付記１４）
前記検索語の属性情報は、該検索語に対応する検索主体の識別子であり、
前記関係生成手順は、前記検索主体の識別子の共通性に基づいて前記単語間の関係を抽出する付記１１又は１２記載の検索情報解析方法。
（付記１５）
前記関係生成手順は、前記検索ログにおいて同一の前記検索語に含まれている否かに基づいて前記単語間の関係を抽出する付記１１又は１２記載の検索情報解析方法。
【符号の説明】
【００７４】
１０検索情報解析装置
１１検索ログ記憶部
１２話題語抽出部
１３関係抽出部
１４代表語選択部
１５出力処理部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１０６表示装置
１０７入力装置
Ｂバス

【特許請求の範囲】
【請求項１】
コンピュータに、
１つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行させる検索情報解析プログラム。
【請求項２】
前記選択手順が算出する度合いは、前記第二の単語の数を前記第一の単語の数によって除した値である請求項１記載の検索情報解析プログラム。
【請求項３】
前記検索語の属性情報は、該検索語に対応する閲覧先情報のＵＲＬであり、
前記関係生成手順は、前記閲覧先情報のＵＲＬの共通性に基づいて前記単語間の関係を抽出する請求項１又は２記載の検索情報解析プログラム。
【請求項４】
前記検索語の属性情報は、該検索語に対応する検索主体の識別子であり、
前記関係生成手順は、前記検索主体の識別子の共通性に基づいて前記単語間の関係を抽出する請求項１又は２記載の検索情報解析プログラム。
【請求項５】
前記関係生成手順は、前記検索ログにおいて同一の前記検索語に含まれている否かに基づいて前記単語間の関係を抽出する請求項１又は２記載の検索情報解析プログラム。
【請求項６】
１つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手段と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手段とを有する検索情報解析装置。
【請求項７】
コンピュータが、
１つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行する検索情報解析方法。

【図１】