説明

検索情報解析プログラム、検索情報解析装置、及び検索情報解析方法

【課題】話題となっている単語の背景を示す情報の提示を適切に支援すること。
【解決手段】コンピュータに、検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、検索語に含まれる話題語に基づき、該話題語と関係を有する単語である周辺語を関係情報記憶手段を参照して抽出し、抽出した周辺語ごとに、該周辺語と関係を有する第一の単語と第一の単語であってかつ該周辺語以外の周辺語に該当する第二の単語とを関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が話題語の背景を示す度合を算出し、該算出した度合に基づいて周辺語の一部を抽出する選択手順とを実行させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索情報解析プログラム、検索情報解析装置、及び検索情報解析方法に関し、特にサーチエンジンの検索ログを解析する検索情報解析プログラム、検索情報解析装置、及び検索情報解析方法に関する。
【背景技術】
【0002】
従来、インターネット上のサーチエンジン(キーワード検索機能を提供するWebサイト)において記録されている検索ログを解析し、話題となっている単語を提示するサービスが提供されている(例えば、特許文献1)。斯かるサービスを利用することで、ユーザは、現在世の中で話題となっている事、物、又は人物等を容易に知ることができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2004−206517号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、単に単語が提示されるだけでは、提示された単語の意味及び背景等を理解するのはユーザにとって困難である。例えば、或る人物名が、話題となっている単語として提示された場合、その人物が何故話題となっているのかまでは分からなかった。
【0005】
本発明は、上記の点に鑑みてなされたものであって、話題となっている単語の背景を示す情報の提示を適切に支援することのできる検索情報解析プログラム、検索情報解析装置、及び検索情報解析方法の提供を目的とする。
【課題を解決するための手段】
【0006】
そこで上記課題を解決するため、検索情報解析プログラムは、コンピュータに、1つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行させる。
【発明の効果】
【0007】
開示された技術によれば、話題となっている単語の背景を示す情報の提示を適切に支援することができる。
【図面の簡単な説明】
【0008】
【図1】本発明の実施の形態における検索情報解析装置のハードウェア構成例を示す図である。
【図2】本発明の実施の形態における検索情報解析装置の機能構成例を示す図である。
【図3】検索情報解析装置による処理手順を説明するためのフローチャートである。
【図4】検索ログ記憶部の構成例を示す図である。
【図5】話題語の抽出方法の例を説明するための図である。
【図6】飛び先URLの共通性に基づく単語間の関係の抽出例を示す図である。
【図7】検索ユーザの共通性に基づく単語間の関係の抽出例を示す図である。
【図8】同一の検索キーワードに含まれているか否かに基づく単語間の関係の抽出例を示す図である。
【図9】飛び先URLの共通性に基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【図10】関係管理テーブルの例を示す図である。
【図11】検索ユーザの共通性に基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【図12】同一の検索キーワードに含まれているか否かに基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【図13】代表語の選択処理の処理手順を説明するためのフローチャートである。
【図14】話題語から2ステップ以内の単語の関係情報の例を示す図である。
【図15】関係情報の具体例における周辺語ごとの各統計値を示す図である。
【図16】話題語に関する代表語等の表示例を示す図である。
【発明を実施するための形態】
【0009】
以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における検索情報解析装置のハードウェア構成例を示す図である。図1の検索情報解析装置10は、それぞれバスBで相互に接続されているドライブ装置100と、補助記憶装置102と、メモリ装置103と、CPU104と、インタフェース装置105と、表示装置106と、入力装置107とを有する。
【0010】
検索情報解析装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0011】
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って検索情報解析装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はキーボード及びマウス等であり、様々な操作指示を入力させるために用いられる。
【0012】
図2は、本発明の実施の形態における検索情報解析装置の機能構成例を示す図である。同図において、検索情報解析装置10は、検索ログ記憶部11、話題語抽出部12、関係抽出部13、代表語選択部14、及び出力処理部15等を有する。これら各部は、検索情報解析装置10にインストールされたプログラムがCPU104に実行させる処理によって実現される。
【0013】
検索ログ記憶部11は、補助記憶装置102において、サーチエンジンの検索ログ(検索履歴)を記憶する記憶領域である。サーチエンジンとは、インターネット上で公開されている情報の検索サービスを提供するWebサイトである。検索ログとは、閲覧された情報のURL(Uniform Resource Locator)と、当該情報の検索に使用された検索キーワード(検索語)を含むデータである。換言すれば、検索ログは、入力された検索キーワードと、検索結果の中のいずれの情報が閲覧先(飛び先又は遷移先)として選択されたかを示す情報(飛び先URL)とを含む。なお、検索ログ記憶部11は、検索情報解析装置10とネットワークを介して接続された他のコンピュータ又は記憶装置が有していてもよい。
【0014】
話題語抽出部12は、検索ログ記憶部11に記録された検索ログを解析し、過去の検索に利用された検索キーワードの中から話題語を抽出する。話題語とは、話題となっている可能性の高い単語をいう。関係抽出部13は、検索ログ記憶部11に記録された検索ログを解析し、検索キーワードと共に検索ログに記録されている情報に基づいて検索キーワードに含まれている単語間の関係を抽出する。関係抽出部13は、抽出された関係を示す情報を関係管理テーブルとして補助記憶装置102又はメモリ装置103に記録する。
【0015】
代表語選択部14は、話題語抽出部12によって抽出された話題語と、関係抽出部13によって生成された関係管理テーブルとに基づいて、検索キーワードに含まれている単語の中から代表語を選択する。代表語は、話題語が話題となっている背景を示すものと期待されるものとして、話題語と関係を有する単語より所定の規則に基づいて選択される。例えば、話題語が属する分野若しくはカテゴリを示す単語、又は話題語を抽象化した単語等が代表語として選択されることが期待される。出力処理部15は、代表語選択部14によって選択された代表語等を出力する。出力先は、表示装置106、補助記憶装置102、又は非図示のプリンタ等、様々なものが適用可能である。
【0016】
以下、図1の検索情報解析装置10の処理手順について説明する。図3は、検索情報解析装置による処理手順を説明するためのフローチャートである。同図の処理は、例えば、操作者による処理の開始指示の入力、又は定期的なタイミングの自動検知により開始される。
【0017】
ステップS101において、話題語抽出部12は、検索ログ記憶部11に記録されている検索ログに含まれている検索キーワードの中から話題語を抽出する。
【0018】
図4は、検索ログ記憶部の構成例を示す図である。同図において、検索ログ記憶部11は、検索ログごとに、日時、ユーザ識別子、検索キーワード、及び飛び先URL等を記憶する。検索キーワードは、検索の種として入力された文字列(一文字も含む。)である。検索キーワードは、複数の単語又は文字列を含みうる。同図において、2行目の検索ログの検索キーワードは「マカロン お菓子」である。このことは、「マカロン」と「お菓子」とが同時に検索キーワードとして入力されたことを示す。飛び先URLは、検索キーワードに基づいて検索された検索結果(情報の一覧)の中から、閲覧対象として選択された情報のURLを示す。例えば、1行目の検索ログは、「マカロン」という検索キーワードに基づいて検索された情報の中から、「http://www.xxxxxxx.com/」によって識別される情報が閲覧対象とされたことを示す。
【0019】
日時は、検索ログが記録された日時、すなわち、飛び先URLに係る情報の取得要求がサーチエンジンにおいて受信された日時である。ユーザ識別子は、検索ログに係る検索を行ったユーザの識別子である。ユーザ識別子は、例えば、サーチエンジンに対応するクッキーに基づいてクライアント装置側(Webブラウザ)より送信される。但し、クライアント装置単位の識別子(例えば、IPアドレス等)をユーザ識別子としてもよい。
【0020】
また、図5は、話題語の抽出方法の例を説明するための図である。同図では、検索キーワードに含まれている単語ごとに、過去3日間の検索数の増加率に基づくスコアが算出される例が示されている。具体的には、3日前の検索数から2日前の検索数の増加率と、2日前から1日前の検索数の増加率との合計が、各単語のスコアとされる。スコアの高い順にランク(順位)が決定され、ランクが相対的に高い単語(例えば、上位N番目までのもの)が話題語とされる。なお、検索数とは、検索キーワードに含まれていた数である。
【0021】
同図の例では、「マカロン」について、3日前、2日前、1日前の検索数は、それぞれ10、15、30である。3日前から2日前の増加率は、1.5である。2日前から1日前までの増加率は2.0である。したがって、スコアは、1.5+2.0=3.5である。当該スコアは最も高いため、「マカロン」が最上位にランクされ、上位3位以内の「ラーメン」、及び「パソコン」と共に話題語として抽出されている。
【0022】
なお、話題語の抽出処理には、他の公知技術が利用されてもよい。すなわち、本実施の形態に適用可能な、話題語の抽出方法は所定のものに限定されない。また、話題語の抽出処理は、検索情報解析装置10以外の他のコンピュータにおいて行われてもよい。
【0023】
続いて、関係抽出部13は、検索ログに基づいて、検索キーワードに含まれている単語間の関係を抽出し、抽出結果を記録した関係管理テーブルを生成する(S102)。単語間の関係を抽出する検索ログの範囲は、話題語が抽出された検索ログの範囲(例えば、過去3日分)と同じでもよいし、異なっていてもよい。
【0024】
単語間の関係は、検索ログに記録されている情報から抽出又は導出可能なものであり、合理的なものであれば特定の関係に限定されない。例えば、本実施の形態では、飛び先URLの共通性、検索の実行主体(検索ユーザ)の共通性、又は同一の検索キーワードに含まれているか否かに基づいて単語間の関係が抽出される。
【0025】
図6は、飛び先URLの共通性に基づく単語間の関係の抽出例を示す図である。同図の例では、2日前において、URL1が飛び先URLである検索ログの検索キーワードには、「マカロン」、「フランス」、又は「東京」が含まれている。したがって、この場合、「マカロン」、「フランス」、及び「東京」は相互に関係を有すると判定される。すなわち、「マカロン」、「フランス」、及び「東京」の相互の関係が抽出される。
【0026】
また、2日前において、URL2が飛び先URLである検索ログの検索キーワードには、「マカロン」、「イタリア」、「お菓子」、又は「銀座」が含まれている。したがって、この場合、「マカロン」、「イタリア」、「お菓子」、及び「銀座」の相互の関係が抽出される。
【0027】
また、1日前において、URL1が飛び先URLである検索ログの検索キーワードには、「マカロン」、「お菓子」、又は「東京」が含まれている。したがって、この場合、「マカロン」、「お菓子」、及び「東京」の相互の関係が抽出される。
【0028】
更に、1日前において、URL2が飛び先URLである検索ログの検索キーワードには、「マカロン」又は「フランス」が含まれている。したがって、この場合、「マカロン」及び「フランス」の相互の関係が抽出される。
【0029】
以上の4つのケースおいて抽出された関係をマージ(統合)すると、関係情報D1が得られる。関係情報D1において、単語間の関係は線分によって示されている。また、線分に付された数値は、当該線分によって連結される単語間の関係の抽出回数を示す。例えば、「マカロン」と「フランス」との関係は、2日前の飛び先URLがURL1のケースと、1日前の飛び先URLがURL2のケースとにおいて合計2回抽出されている。したがって、当該二つの単語間を結ぶ線分には「2」が付されている。
【0030】
なお、飛び先URLは、ユーザによって閲覧された情報を示す。閲覧された情報は、ユーザが目的としていた情報である可能性が高い。そして、同一の情報を検索の目的とする場合に検索キーワードに含められる単語は、意味が近似する可能性が高い。したがって、飛び先URLの共通性に基づいて抽出される関係は、単語間の意味的な近さ(近似度)に基づくものであると考えられる。
【0031】
また、図7は、検索ユーザの共通性に基づく単語間の関係の抽出例を示す図である。同図の例では、2日前において、ユーザ1は、「マカロン」、「地図」、又は「お菓子」を含む検索キーワードを入力して検索を行っている。したがって、この場合、「マカロン」、「地図」、及び「お菓子」は、相互に関係を有すると判定される。すなわち、「マカロン」、「地図」、及び「お菓子」の相互の関係が抽出される。
【0032】
また、2日前において、ユーザ2は、「マカロン」、「スイーツ」、又は「地図」を含む検索キーワードを入力して検索を行っている。したがって、この場合、「マカロン」、「スイーツ」、及び「地図」の相互の関係が抽出される。
【0033】
また、1日前において、ユーザ1は、「マカロン」又は「地図」を含む検索キーワードを入力して検索を行っている。したがって、この場合、「マカロン」及び「地図」の相互の関係が抽出される。
【0034】
更に、1日前において、ユーザ2は、「マカロン」、「フランス」、「銀座」、又は「レシピ」を含む検索キーワードを入力して検索を行っている。したがって、この場合、「マカロン」、「フランス」、「銀座」、及び「レシピ」の相互の関係が抽出される。
【0035】
以上の4つのケースにおいて抽出された関係をマージすると、関係情報D2が得られる。関係情報D2の表記法は、関係情報D1と同様である。
【0036】
なお、ユーザは、目的とする情報を検索する際に、様々な検索キーワードを入力して、検索をやり直す場合がある。このような場合において入力される検索キーワードに含まれる単語は、ユーザの意識の中で、目的とする情報を中心とする関係が形成されているものと考えられる。したがって、検索ユーザの共通性に基づいて抽出される関係は、検索ユーザが認識している関係を示すものと考えられる。
【0037】
また、図8は、同一の検索キーワードに含まれているか否かに基づく単語間の関係の抽出例を示す図である。同図の例では、2日前において、「お菓子 マカロン 東京」という検索キーワードが入力されている。「お菓子 マカロン 東京」は、「お菓子」、「マカロン」、及び「東京」が、スペース等によって区切られて同時に(一つの検索キーワード(クエリ)として)入力されたことを示す。この場合、当該検索キーワードより、「お菓子」、「マカロン」、及び「東京」の相互の関係が抽出される。2日前の他の検索キーワード、及び1日前の各検索キーワードからも、当該検索キーワードに含まれている単語間の相互の関係が抽出される。その結果、関係情報D3が得られる。関係情報D3の表記法は、関係情報D1と同様である。
【0038】
なお、図6〜図8に示される3つの方法のいずれか一つが採用されてもよいし、二つ以上が組み合わされてもよい。
【0039】
上記3つの方法を実現するためのそれぞれの処理手順を説明する。図6の抽出例が採用される場合、関係抽出部13は、図9に示される処理を実行する。
【0040】
図9は、飛び先URLの共通性に基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【0041】
ステップS201において、関係抽出部13は、飛び先URLの共通性(同一性)に基づいて、所定期間内の検索ログをグループに分類する。すなわち、飛び先URLが共通する検索ログは、同一のグループに属する。
【0042】
続いて、関係抽出部13は、1つのグループを処理対象とする(S202)。以下、処理対象とされたグループを「カレントグループ」という。続いて、関係抽出部13は、カレントグループに属する検索ログの検索キーワードに含まれる全ての単語を二つずつ組み合わせた場合の全ての組み合わせを関係管理テーブルに登録する(S203)。
【0043】
図10は、関係管理テーブルの例を示す図である。関係管理テーブルは、二つの単語(「単語1」と「単語2」)の組み合わせごとに抽出回数を記憶する。すなわち、ステップS203において、関係抽出部13は、未登録の組み合わせについては、関係管理テーブルに新規に登録し、当該組み合わせに対する抽出回数に「1」を記録する。一方、既に登録されている組み合わせについては、当該組み合わせに対する抽出回数に「1」を加算する。
【0044】
関係抽出部13は、全てのグループについてステップS202及びS203を実行した後(S204でYes)、抽出回数が閾値未満のレコードを関係管理テーブルより削除する(S205)。関連性の低い関係を排除することにより、情報のノイズを除去するためのである。
【0045】
なお、図6〜図7における関係情報D1〜D3は、関係管理テーブルに記録された情報を視覚的に分かり易く表現したものである。
【0046】
また、図7の抽出例が採用される場合、関係抽出部13は、図11に示される処理を実行する。図11は、検索ユーザの共通性に基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【0047】
ステップS211において、関係抽出部13は、ユーザ識別子の共通性(同一性)に基づいて、所定期間内の検索ログをグループに分類する。すなわち、ユーザ識別子が共通する検索ログは、同一のグループに属する。
【0048】
以降、ステップS212〜S215は、図9のステップS202〜S205と同様の処理手順である。
【0049】
また、図8の抽出例が採用される場合、関係抽出部13は、図12に示される処理を実行する。図12は、同一の検索キーワードに含まれているか否かに基づく単語間の関係の抽出処理の処理手順を説明するためのフローチャートである。
【0050】
ステップS221において、関係抽出部13は、所定期間内の検索ログの中で、検索キーワードが2以上の単語を含む検索ログを一つ選択する。ここで選択された検索ログを、以下「カレントログ」という。
【0051】
続いて、関係抽出部13は、カレントログの検索キーワードに含まれている単語を二つずつ組み合わせた場合の全ての組み合わせを関係管理テーブルに登録する(S222)。関係管理テーブルの形式は、図10と同様でよい。関係抽出部13は、未登録の組み合わせについては、関係管理テーブルに新規に登録し、当該組み合わせに対する抽出回数に「1」を記録する。一方、既に登録されている組み合わせについては、当該組み合わせに対する抽出回数に「1」を加算する。
【0052】
所定期間内の全ての検索ログについて、ステップS221及びS222を実行した後(S223でYes)、関係抽出部13は、抽出回数が閾値未満のレコードを関係管理テーブルより削除する(S224)。
【0053】
図3に戻る。ステップS102に続いて、代表語選択部14は、ステップS101において抽出された話題語の一つを処理対象として選択する(S103)。話題語の選択順について特に制限は無い。最終的に全ての話題語が処理対象とされればよい。又は、操作者の指示入力によって、処理対象とする話題語が選択されてもよい。以下、選択された話題語を「カレント話題語」という。
【0054】
続いて、代表語選択部14は、カレント話題語から2ステップ以内の関係に係るレコードを関係管理テーブルより抽出する(S104)。2ステップ以内とは、関係情報D1等において2枝以内ということを意味する。例えば、「マカロン」がカレント話題語である場合に、関係情報D3(図8)において、「ピザ」及び「パスタ」等は、「マカロン」から2ステップである。一方、「お菓子」、「フランス」、及び「イタリア」は、「マカロン」から1ステップである。なお、関係情報D1〜D3では、「マカロン」から3ステップ以上の単語は便宜上表示されていない。
【0055】
カレント話題語から2ステップ以内の関係を示すレコードの関係管理テーブルからの抽出は次のように行えばよい。まず、カレント話題語を含むレコード(以下「1ステップレコード」という。)を全て関係管理テーブルより抽出する。続いて、1ステップレコードにおいてカレント話題語ではない単語をキーとし当該単語を含むレコード(以下、「2ステップレコード」という。)を、1ステップレコードを除いたレコードの中から抽出する。
【0056】
続いて、代表語選択部14は、抽出されたレコード(すなわち、1ステップレコード及び2ステップレコード)に基づいて、代表語の選択処理を実行する(S105)。すなわち、代表語は、話題語ごとに選択される。続いて、出力処理部15は、選択された代表語を出力する。
【0057】
全ての話題語について代表語の選択及び出力等が完了すると(S107でYes)、図3の処理は終了する。
【0058】
続いて、ステップS105の詳細について説明する。図13は、代表語の選択処理の処理手順を説明するためのフローチャートである。
【0059】
ステップS301において、代表語選択部14は、カレント話題語の隣接語を1ステップレコードより抽出する。隣接語とは、1ステップ以内の単語をいう。したがって、1ステップレコードに含まれている単語(話題語以外の単語)が、話題語の隣接語である。
【0060】
例えば、図14は、話題語から2ステップ以内の単語の関係情報の例を示す図である。同図において、カレント話題語が「マカロン」であるとすると、ステップS301では、「イタリア」、「銀座」、「フランス」、「スイーツ」、「ロールケーキ」、及び「お菓子」が隣接語として抽出される。なお、話題語の隣接語を特に「周辺語」という。
【0061】
続いて、代表語選択部14は、関係管理テーブルに基づいて各周辺語の隣接語数を計数する(S302)。具体的には、周辺語ごとに、当該周辺語を「単語1」又は「単語2」に含むレコード数がカウントされる。例えば、図14において、周辺語の一つである「銀座」には、「イタリア」、「フランス」、「マカロン」、「お菓子」、「スイーツ」、「アクセサリ」、及び「ブランドショップ」の七つの隣接語が有る。したがって、「銀座」に対する隣接語数は「7」となる。
【0062】
続いて、代表語選択部14は、関係管理テーブルに基づいて、各周辺語の隣接語中の他の周辺語の数を計数する(S303)。具体的には、周辺語ごとに、当該周辺語を「単語1」又は「単語2」の一方に含み、かつ、他方の単語が当該周辺語以外の他の周辺語(すなわち、話題語の隣接語)であるレコードの数がカウントされる。例えば、図14において、周辺語の一つである「銀座」には、「イタリア」、「フランス」、「マカロン」、「お菓子」、「スイーツ」、「アクセサリ」、及び「ブランドショップ」の七つの隣接語が有る。このうち、「イタリア」、「フランス」、「マカロン」、「お菓子」、及び「スイーツ」の五つは周辺語である。したがって、「銀座」に対する隣接語中の周辺語の数は「5」となる。
【0063】
続いて、代表語選択部14は、周辺語ごとにスコアを算出し、スコアが最大である周辺語を代表語として選択する(S304)。ここで、スコアは、以下の式によって算出され、本実施の形態において、話題語の背景を示す度合の一例に相当する。
(wn×wn)/rn
rn:隣接語数(ステップS302において計数される値)
wn:隣接語中の周辺語の数(ステップS303において計数される値)
図14の関係情報の例に関して、周辺語ごとのrnの値、wnの値、及び(wn×wn)/rnの値は、図15に示される。図15は、関係情報の具体例における周辺語ごとの各統計値を示す図である。
【0064】
同図の例において、スコアが最大である周辺語は「スイーツ」である。したがって、「スイーツ」が、話題語「マカロン」に対する代表語として選択される。なお、スコアが最大である周辺語だけでなく、スコアが所定値以上又はスコアの順位が所定以上の複数の周辺語が話題語の背景を示すための提示対象として選択されてもよい。
【0065】
図15の例に基づく場合、図3のステップS106では、例えば、図16に示されるような表示がお行われる。図16は、話題語に関する代表語等の表示例を示す図である。
【0066】
同図では、話題語「マカロン」を中心として、代表語「スイーツ」が上側に、スコアが上位の周辺語(「銀座」、「フランス」、及び「お菓子」)が下側に配置されている。同図に示された画面を閲覧したユーザは、「マカロン」が話題語であることと共に、スイーツの一種であり、銀座で売られているお菓子であること。また、フランスが原産であることを推測することができる。なお、代表語だけを表示させてもよいが、他の周辺語を提示することにより、話題語の意味、内容、又は背景等をより明確に推測させることが可能となる。
【0067】
ここで、周辺語の評価に利用されるスコアの算出式((wn×wn)/rn)の意義について説明する。wnは、周辺語の隣接語のうちの周辺語の数である。すなわち、周辺語の隣接語でもあり、かつ、話題語の隣接語でもある単語の数である。したがって、当該単語は、周辺語とも関係が強く、話題語とも関係が強い単語であるといえる。当該単語の数が多ければ多い周辺語ほど(wnの値が大きければ大きい周辺語ほど)、話題語との関係は強いものと考えられる。したがって、そのような周辺語(wnの値が大きい周辺語)は、話題語に対する代表語の選択において高い評価が与えられるべきである。
【0068】
但し、wnの値は、周辺語の意味の範囲(抽象度)に大きく影響される。具体的には、意味の範囲が広い(抽象度が高い)周辺語であれば、多数の単語と関係を有する可能性が高い。そうすると、当該周辺語と話題語との関係の絶対的な強さ、すなわち、wnの値は自ずと大きくなる。一方、意味する範囲が狭い(抽象度が低い)周辺語であれば、関係を有する単語も限定される。そうすると、当該周辺語と話題語との関係の絶対的な強さ、すなわち、wnの値は自ずと小さくなる。したがって、単にwnの比較によって、各周辺語と話題語との関係の強さを比較してしまっては、当該強さを正当に評価したことにはならない。
【0069】
そこで、本実施の形態では、rnが除数として用いられるのである。rnは、周辺語の隣接語数であり、話題語に隣接していない単語の数も含まれる。したがって、rnは、周辺語と関係の強い単語の総数を示す値、すなわち、周辺語の意味の範囲を示す値であるといえる。
【0070】
wnをrnによって除することにより、各周辺語の意味の範囲の大きさを捨象して、各周辺語と話題語との関係の強さを比較することができる。換言すれば、各周辺語について、当該周辺語が有する他の単語との全ての関係に対する話題語との関係(厳密には周辺語との関係)の割合によって、各周辺語と話題語との関係の強さを評価することができる。なお、wnを自乗しているのは、本実施の形態では、話題語との関係の絶対的な強さに対して重み付けをしているためである。したがって、必ずしもwnを自乗しなくてもよい。また、wnやrnの重み付けを変化させるため、それぞれに対して重み付け係数を乗ずるようにしてもよい。その場合、スコアの算出式は、(α×wn)/(β×rn)となる。ここで、αはwnに対する重み付け係数である。βは、rnに対する重み付け係数である。
【0071】
上述したように、本実施の形態によれば、検索ログを解析して検索キーワードに含まれている単語間の関係情報を抽出し、関係情報に基づいて、検索キーワードから抽出された話題語に対する周辺語及び代表語を抽出又は判定することができる。したがって、話題語の背景を示す情報の提示を適切に支援することができる。すなわち、抽出又は判定された周辺語及び代表語等を提示することで、ユーザは、話題語の背景を容易に理解することが可能となる。
【0072】
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【0073】
以上の説明に関し、更に以下の項を開示する。
(付記1)
コンピュータに、
1つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行させる検索情報解析プログラム。
(付記2)
前記選択手順が算出する度合いは、前記第二の単語の数を前記第一の単語の数によって除した値である付記1記載の検索情報解析プログラム。
(付記3)
前記検索語の属性情報は、該検索語に対応する閲覧先情報のURLであり、
前記関係生成手順は、前記閲覧先情報のURLの共通性に基づいて前記単語間の関係を抽出する付記1又は2記載の検索情報解析プログラム。
(付記4)
前記検索語の属性情報は、該検索語に対応する検索主体の識別子であり、
前記関係生成手順は、前記検索主体の識別子の共通性に基づいて前記単語間の関係を抽出する付記1又は2記載の検索情報解析プログラム。
(付記5)
前記関係生成手順は、前記検索ログにおいて同一の前記検索語に含まれている否かに基づいて前記単語間の関係を抽出する付記1又は2記載の検索情報解析プログラム。
(付記6)
1つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手段と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手段とを有する検索情報解析装置。
(付記7)
前記選択手段が算出する度合いは、前記第二の単語の数を前記第一の単語の数によって除した値である付記6記載の検索情報解析装置。
(付記8)
前記検索語の属性情報は、該検索語に対応する閲覧先情報のURLであり、
前記関係生成手段は、前記閲覧先情報のURLの共通性に基づいて前記単語間の関係を抽出する付記6又は7記載の検索情報解析装置。
(付記9)
前記検索語の属性情報は、該検索語に対応する検索主体の識別子であり、
前記関係生成手段は、前記検索主体の識別子の共通性に基づいて前記単語間の関係を抽出する付記6又は7記載の検索情報解析装置。
(付記10)
前記関係生成手段は、前記検索ログにおいて同一の前記検索語に含まれている否かに基づいて前記単語間の関係を抽出する付記6又は7記載の検索情報解析装置。
(付記11)
コンピュータが、
1つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行する検索情報解析方法。
(付記12)
前記選択手順が算出する度合いは、前記第二の単語の数を前記第一の単語の数によって除した値である付記11記載の検索情報解析方法。
(付記13)
前記検索語の属性情報は、該検索語に対応する閲覧先情報のURLであり、
前記関係生成手順は、前記閲覧先情報のURLの共通性に基づいて前記単語間の関係を抽出する付記11又は12記載の検索情報解析方法。
(付記14)
前記検索語の属性情報は、該検索語に対応する検索主体の識別子であり、
前記関係生成手順は、前記検索主体の識別子の共通性に基づいて前記単語間の関係を抽出する付記11又は12記載の検索情報解析方法。
(付記15)
前記関係生成手順は、前記検索ログにおいて同一の前記検索語に含まれている否かに基づいて前記単語間の関係を抽出する付記11又は12記載の検索情報解析方法。
【符号の説明】
【0074】
10 検索情報解析装置
11 検索ログ記憶部
12 話題語抽出部
13 関係抽出部
14 代表語選択部
15 出力処理部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
106 表示装置
107 入力装置
B バス

【特許請求の範囲】
【請求項1】
コンピュータに、
1つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行させる検索情報解析プログラム。
【請求項2】
前記選択手順が算出する度合いは、前記第二の単語の数を前記第一の単語の数によって除した値である請求項1記載の検索情報解析プログラム。
【請求項3】
前記検索語の属性情報は、該検索語に対応する閲覧先情報のURLであり、
前記関係生成手順は、前記閲覧先情報のURLの共通性に基づいて前記単語間の関係を抽出する請求項1又は2記載の検索情報解析プログラム。
【請求項4】
前記検索語の属性情報は、該検索語に対応する検索主体の識別子であり、
前記関係生成手順は、前記検索主体の識別子の共通性に基づいて前記単語間の関係を抽出する請求項1又は2記載の検索情報解析プログラム。
【請求項5】
前記関係生成手順は、前記検索ログにおいて同一の前記検索語に含まれている否かに基づいて前記単語間の関係を抽出する請求項1又は2記載の検索情報解析プログラム。
【請求項6】
1つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手段と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手段とを有する検索情報解析装置。
【請求項7】
コンピュータが、
1つ以上の単語を含む検索語と該検索語の属性情報とを対応付けて格納した検索ログに基づいて、該検索語に含まれている単語間の関係を抽出し、各単語と関係する単語を対応付けて関係情報記憶手段に記録する関係生成手順と、
前記検索語に含まれる単語の一つである話題語に基づき、該話題語と前記関係を有する単語である周辺語を前記関係情報記憶手段を参照して抽出し、抽出した前記周辺語ごとに、該周辺語と前記関係を有する第一の単語と前記第一の単語であってかつ該周辺語以外の前記周辺語に該当する第二の単語とを前記関係情報記憶手段を参照して抽出し、該抽出した第一の単語の数と該第二の単語の数とをそれぞれ計数し、該第一の単語の数及び該第二の単語の数に基づいて該周辺語が前記話題語の背景を示す度合を算出し、該算出した度合に基づいて前記周辺語の一部を抽出する選択手順とを実行する検索情報解析方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2011−113333(P2011−113333A)
【公開日】平成23年6月9日(2011.6.9)
【国際特許分類】
【出願番号】特願2009−269497(P2009−269497)
【出願日】平成21年11月27日(2009.11.27)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】