ローカルクエリ抽出装置、ローカルクエリ抽出プログラム、およびローカルクエリ抽出方法

【課題】低コスト化を図りながらも、精度良くローカルクエリを抽出する。
【解決手段】ローカルクエリ抽出装置１は、検索ログを格納する検索ログ格納部１０と、ユーザデータを格納するユーザデータ格納部２０と、位置情報およびメタデータを格納するメタデータ格納部３０と、検索ログに含まれるメタデータを基に、メタデータ格納部３０に格納された位置情報を抽出し、当該抽出した位置情報を検索ログと関連付ける検索ログ側付加部４０と、ユーザデータに含まれるメタデータを基に、メタデータ格納部３０に格納された位置情報を抽出し、当該抽出した位置情報をユーザデータと関連付けるユーザデータ側付加部５０と、検索ログと関連付けられた位置情報と、ユーザデータと関連付けられた位置情報とを照合することにより、ローカルクエリを抽出するローカルクエリ抽出部６０とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ローカルクエリ抽出装置、ローカルクエリ抽出プログラム、およびローカルクエリ抽出方法に関するものである。
【背景技術】
【０００２】
ウェブサービスとして提供されている検索サービスを利用することで、ウェブ上に存在する膨大なデータから目的の情報を抽出することが可能である。検索サービスの利用者は、目的の情報を取得するために単語または複数語の文字列から構成されるクエリを検索サービスに入力する。検索サービスを提供する検索サーバは入力されたクエリと検索サーバに保持されているドキュメントとの適合度を算出し、適合度の高い順に列挙されたドキュメントを検索結果として利用者に表示するのが一般的である。
【０００３】
パソコンにおいても、携帯電話機などのモバイル端末においても、位置に関連する検索は重要である。地図上での検索を行うことで、レストランや施設などの街の情報を取得したり、道案内の経路情報を取得したりすることが近年では当たり前となっている。高性能モバイル端末の普及により今後、さらに位置連動検索の重要性が増す可能性がある。
【０００４】
ユーザがある特定の地域に関して検索を行う場合は、クエリに地域の名称を含めて検索することが多いと見受けられる。例えば「六本木レストラン」と検索することで、ユーザは六本木周辺のレストラン情報を取得することができる。このクエリ及びユーザがクリックした検索結果は検索サーバにて検索ログとして蓄積される。
【０００５】
特許文献１では、ユーザが検索においてローカル情報をどの程度求めているかを、入力したクエリとユーザ自身のデータから推定する技術が記載されている。具体的には、クエリ、クリックした検索結果、及び関連クエリからクエリのローカル検索意図を推定し、同時にユーザのこれまでの検索行動などからユーザのローカル検索意図を推定した上で、二つの推定値から検索がローカル検索か否か判断している。クエリにローカル検索の意図があるか判断するに当たり、クエリの文字列から位置と共起する特徴的なワードが有るか否かを判断し、クエリの文字列からではローカル検索意図を把握するだけの十分な情報が得られない場合は、クリックした検索結果におけるページの中身を解析することでクエリがローカルクエリか否かを判断している。情報がまだ不足している場合は、さらに関連クエリが位置と共起しているか否かを解析することで、クエリのローカル検索意図を推定している。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００６−１０７５０２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
しかし、特許文献１の技術では以下のような問題点がある。一つ目の問題点は、クエリの文字列からではローカル検索意図を正確に把握するだけの十分な情報が得られない場合に、クリックされた検索結果や関連クエリなどを解析しないと、ローカルクエリかどうかが正確に判断できないところである。例えば、「鎌倉パスタ」というクエリがあった場合、地域名称である「鎌倉」と共起しているのか、または「鎌倉パスタ」という名前のチェーン店のレストランと共起しているのか、クエリの文字列からでは判断することは難しい。特許文献１では、このような場合に、クリックされた検索結果のページの内容を解析することでローカル検索意図を読み取っている。しかし、ページ解析は処理的にも時間的にもコストがかかるため実用性に欠ける。
【０００８】
二つ目の問題点は、特許文献１の技術では、クエリの文字列に含まれている地域名称が二つ以上の地名と共起する場合、どちらの地名と共起しているのかが推定できない点にある。例えば、「日本橋レストラン」というクエリがあった場合、関東の「日本橋」なのか関西の「日本橋」なのかが特許文献１の技術では推定できない。
【０００９】
そこで、本発明は上記に鑑みてなされたもので、低コスト化を図りながらも、精度良くローカルクエリを抽出することが可能なローカルクエリ抽出装置、ローカルクエリ抽出プログラム、およびローカルクエリ抽出方法を提供することを目的とする。
【課題を解決するための手段】
【００１０】
上記課題を解決するために、本発明のローカルクエリ抽出装置は、検索サービスにおいてユーザが入力したクエリ、およびユーザ特定情報を含む検索ログを格納する検索ログ格納手段と、前記ユーザ特定情報を含むユーザデータを格納するユーザデータ格納手段と、位置情報、および前記位置情報に関連付けられたメタデータを格納するメタデータ格納手段と、前記クエリに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記検索ログと関連付ける検索ログ側関連付け手段と、前記ユーザデータに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付けるユーザデータ側関連付け手段と、前記検索ログと関連付けられた位置情報と、前記ユーザデータと関連付けられた位置情報とを照合することにより、ローカルクエリを抽出するローカルクエリ抽出手段と、を備えることを特徴とする。
【００１１】
また、本発明のローカルクエリ抽出プログラムは、コンピュータを、検索サービスにおいてユーザが入力したクエリ、およびユーザ特定情報を含む検索ログを格納する検索ログ格納手段と、前記ユーザ特定情報を含むユーザデータを格納するユーザデータ格納手段と、位置情報、および前記位置情報に関連付けられたメタデータを格納するメタデータ格納手段と、前記クエリに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記検索ログと関連付ける検索ログ側関連付け手段と、前記ユーザデータに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付けるユーザデータ側関連付け手段と、前記検索ログと関連付けられた位置情報と、前記ユーザデータと関連付けられた位置情報とを照合することにより、ローカルクエリを抽出するローカルクエリ抽出手段、として動作させることを特徴とする。
【００１２】
また、本発明のローカルクエリ抽出方法は、検索ログ格納手段に、検索サービスにおいてユーザが入力したクエリ、およびユーザ特定情報を含む検索ログが格納されており、ユーザデータ格納手段に、前記ユーザ特定情報を含むユーザデータが格納されており、メタデータ格納手段に、位置情報、および前記位置情報に関連付けられたメタデータが格納されており、検索ログ側関連付け手段が、前記クエリに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記検索ログと関連付ける検索ログ側関連付けステップと、ユーザデータ側関連付け手段が、前記ユーザデータに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付けるユーザデータ側関連付けステップと、ローカルクエリ抽出手段が、前記検索ログと関連付けられた位置情報と、前記ユーザデータと関連付けられた位置情報とを照合することにより、ローカルクエリを抽出するローカルクエリ抽出ステップと、を備えることを特徴とする。
【００１３】
このような本発明のローカルクエリ抽出装置、ローカルクエリ抽出プログラム、およびローカルクエリ抽出方法によれば、検索ログと関連付けられた位置情報と、ユーザデータと関連付けられた位置情報とを照合することにより、ユーザがクリックしたページに対してページ解析をしなくても、ローカルクエリを抽出することができる。これにより、ローカルクエリ抽出処理における低コスト化を図ることができる。
【００１４】
また、ユーザデータと関連付けられた位置情報を用いてローカルクエリ抽出処理を行うことにより、複数の地域で存在する同一名称を含むクエリの地域性を区別でき、精度良くローカルクエリを抽出することが可能となる。例えば、関東と関西には同一名称の「日本橋」が存在しており、「日本橋レストラン」と記載されているクエリの文字情報だけでは、どちらの「日本橋」を指しているのかが把握できない。しかし、ユーザデータと関連付けられた位置情報により、ユーザが関東にいるのか、または関西にいるのかが把握できるので、これをもって当該ユーザが入力したクエリがどちらの地域を指すのかを推定することができる。
【００１５】
また、本発明においては、前記クエリの地域毎の検索頻度を算出する検索頻度算出手段を更に備え、前記ローカルクエリ抽出手段は、ある地域におけるあるクエリの前記検索頻度が、他の地域における前記あるクエリの前記検索頻度より閾値以上高い場合に、前記あるクエリを前記ある地域における前記ローカルクエリとして抽出してもよい。
【００１６】
この発明によれば、クエリの検索頻度を地域毎に比較することで、そのクエリが地域に特定性があるものか否かが判断可能となる。これにより、地域名が例えば人名やタレント名と同一である場合に、適切にフィルタリングをかけることができ、更に精度良くローカルクエリを抽出することが可能となる。
【００１７】
また、本発明においては、特定の地域にて特定のクエリが検索された回数を、前記特定の地域での総検索回数で割ることで得られる第１の値を算出する第１値算出手段と、地域の総数を、前記特定のクエリが検索された地域の数で割ることで得られる第２の値を算出する第２値算出手段と、を更に備え、前記ローカルクエリ抽出手段は、前記第１の値および前記第２の値に基づき算出される第３の値が基準値以上である場合に、前記特定のクエリを前記特定の地域における前記ローカルクエリとして抽出してもよい。
【００１８】
この発明によれば、ローカルクエリ抽出処理の結果に対する重み付けが第１の値、第２の値および第３の値により行われ、更に精度良くローカルクエリを抽出することが可能となる。
【００１９】
また、本発明においては、前記検索頻度、前記第１の値、前記第２の値、および前記第３の値のうち何れか１つ以上をユニークユーザ数単位で正規化する正規化手段を更に備え、前記ローカルクエリ抽出手段は、当該正規化後の値を用いて前記ローカルクエリとして抽出してもよい。
【００２０】
この発明によれば、正規化を行うことで処理結果に対する信頼性が高まり、更に精度良くローカルクエリを抽出することが可能となる。
【００２１】
また、本発明において、前記メタデータ格納手段に格納されたメタデータは、都道府県名、市町村名、電話番号、郵便番号、地域の固有名詞、施設名、住所、ＩＰアドレス、ＧＰＳ測位による緯度経度、およびネットワーク測位による緯度経度のうち何れか１つ以上を示す情報であってもよい。
【００２２】
この発明によれば、メタデータを構成するための具体的な手法が提供される。
【００２３】
また、本発明において、前記ユーザデータ側関連付け手段は、前記ユーザデータに含まれる前記ユーザにより事前に登録された住所を基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付けてもよい。
【００２４】
この発明によれば、位置情報をユーザデータと関連付けるための具体的な手法が提供される。
【００２５】
また、本発明において、前記ユーザデータ側関連付け手段は、前記ユーザデータに含まれる前記ユーザのＩＰアドレス、または前記ＧＰＳ若しくはネットワーク測位による緯度経度を基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付けてもよい。
【００２６】
この発明によれば、位置情報をユーザデータと関連付けるための具体的な手法が提供される。
【００２７】
また、本発明において、前記ユーザデータ側関連付け手段は、前記ユーザが過去に発行したクエリまたはライフログを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付けてもよい。
【００２８】
この発明によれば、位置情報をユーザデータと関連付けるための具体的な手法が提供される。
【発明の効果】
【００２９】
本発明によれば、低コスト化を図りながらも、精度良くローカルクエリを抽出することが可能なローカルクエリ抽出装置、ローカルクエリ抽出プログラム、およびローカルクエリ抽出方法を提供することができる。
【図面の簡単な説明】
【００３０】
【図１】本発明の第１の実施形態に係るローカルクエリ抽出装置１の構成概要図である。
【図２】ローカルクエリ抽出装置１のハードウェア構成図である。
【図３】検索ログ格納部１０に格納されている検索ログの一例を示す図である。
【図４】ユーザデータ格納部２０に格納されているユーザデータの一例を示す図である。
【図５】メタデータ格納部３０に格納されているメタデータの一例を示す図である。
【図６】検索ログ側付加部４０が位置情報と検索ログとを関連付けた一例を示す図である。
【図７】ユーザデータ側付加部５０が位置情報とユーザデータとを関連付けた一例を示す図である。
【図８】ローカルクエリ抽出部６０によるローカルクエリ抽出動作の具体的な手順を示すフローチャートである。
【図９】ローカルクエリ抽出部６０によりステップＳ１１が実行された様子の一例を示す図である。
【図１０】ステップＳ１３においてエリア毎に共起語が集計された様子の一例を示す図である。
【図１１】本発明の第２の実施形態に係るローカルクエリ抽出装置１の構成概要図である。
【図１２】検索頻度算出部６１およびローカルクエリ抽出部６０による、ローカルクエリ抽出動作の具体的な手順を示すフローチャートである。
【図１３】ステップＳ２６においてローカルクエリ抽出部６０よりローカルクエリが抽出された様子の一例を示す図である。
【図１４】本発明の第３の実施形態に係るローカルクエリ抽出装置１の構成概要図である。
【図１５】ＴＦ値算出部６２、ＩＤＦ値算出部６３、およびローカルクエリ抽出部６０による、ローカルクエリ抽出動作の具体的な手順を示すフローチャートである。
【図１６】ステップＳ３８においてローカルクエリ抽出部６０よりローカルクエリが抽出された様子の一例を示す図である。
【発明を実施するための形態】
【００３１】
以下、添付図面を参照して本発明にかかるローカルクエリ抽出装置、ローカルクエリ抽出プログラム、およびローカルクエリ抽出方法の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
【００３２】
［第１の実施形態］
まず、本発明の第１の実施形態に係るローカルクエリ抽出装置１の構成について、図１を参照しながら説明する。図１は、ローカルクエリ抽出装置１の構成概要図である。図１に示すように、ローカルクエリ抽出装置１は、検索ログ格納部１０（特許請求の範囲の「検索ログ格納手段」に相当）、ユーザデータ格納部２０（特許請求の範囲の「ユーザデータ格納手段」に相当）、メタデータ格納部３０（特許請求の範囲の「メタデータ格納手段」に相当）、検索ログ側付加部４０（特許請求の範囲の「検索ログ側関連付け手段」に相当）、ユーザデータ側付加部５０（特許請求の範囲の「ユーザデータ側関連付け手段」に相当）、ローカルクエリ抽出部６０（特許請求の範囲の「ローカルクエリ抽出手段」に相当）、およびローカルクエリ出力部７０を備える。
【００３３】
図２はローカルクエリ抽出装置１のハードウェア構成図である。図２に示すように、ローカルクエリ抽出装置１は、物理的には、ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３等の主記憶装置、キーボード及びマウス等の入力デバイス１４、ディスプレイ等の出力デバイス１５、外部装置（例えば検索サーバなど）との間でデータの送受信を行うためのネットワークカード等の通信モジュール１６、ハードディスク等の補助記憶装置１７などを含む通常のコンピュータシステムとして構成される。後述するローカルクエリ抽出装置１の各機能は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御の元で入力デバイス１４、出力デバイス１５、通信モジュール１６を動作させると共に、主記憶装置１２，１３や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。
【００３４】
図１に戻り、検索ログ格納部１０は、検索サービスにおいてユーザが入力したクエリ、および当該ユーザのユーザＩＤ（特許請求の範囲の「ユーザ特定情報」に相当）を含む検索ログを格納するものである。言い換えれば、検索ログ格納部１０は、検索サービスを提供する検索サーバから利用者が検索行動においてとった検索行動履歴を受け取り、それを記憶する蓄積部である。図３は、検索ログ格納部１０に格納されている検索ログの一例を示している。検索ログは、ユーザＩＤ、ユーザが入力したクエリ、検索サーバが提示した検索結果のうちユーザがクリックしたドキュメントのＵＲＬ、およびユーザが当該ドキュメントをクリックした日時を示す情報を主な構成要素とする。これらに加え、クリックしたドキュメントの順位、検索結果に表示された上位数件のＵＲＬなどが検索ログに更に含まれていてもよい。全ての項目のデータが必須として検索ログに含まれている必要はなく、本実施形態においては、例えば、ユーザＩＤ、クエリ、日時が少なくとも検索ログに含まれているものとする。また、図１では、検索ログ格納部１０がローカルクエリ抽出装置１内に存在している構成を示しているが、これに限らず、検索ログ格納部１０がローカルクエリ抽出装置１の外部に存在し、所定の通信回線によってローカルクエリ抽出装置１の本体と接続されていてもよい。
【００３５】
ユーザデータ格納部２０は、ユーザデータを格納するものである。ユーザデータはユーザＩＤを含む他、図４に示されるように、当該ユーザデータが生成された日時、ユーザのＩＰアドレスを示す情報、ユーザの位置に対するＧＰＳ測位またはネットワーク測位による緯度経度を示す情報を含んでいてもよい。これらに加え、ユーザの年齢、性別、住所を示す情報等を更に含んでいてもよい。全ての項目の情報が必須としてユーザデータに含まれている必要はなく、本実施形態においては、例えば、図４に示されているユーザＩＤおよび日時が少なくとも含まれ、更にＩＰアドレスおよび緯度経度のうち何れか一方がユーザデータに含まれているものとする。
【００３６】
メタデータ格納部３０は、位置情報、および当該位置情報に関連付けられたメタデータを格納するものである。図５はメタデータ格納部３０に格納されている情報を示しており、位置情報と種々のメタデータとが紐づけられている。図５の場合、「ディズニーランド」という施設の名称、緯度経度を示す情報等が本実施形態でいうメタデータである。メタデータは、図５に示された名称や緯度経度に限らず、位置情報と紐づけることが可能な種々の情報をいう。例えば、メタデータ格納部３０に格納されたメタデータが、都道府県名、市町村名、電話番号、郵便番号、地域の固有名詞、施設名、住所、ＩＰアドレス、ＧＰＳ測位による緯度経度、およびネットワーク測位による緯度経度のうち何れか１つ以上を示す情報であってもよい。
【００３７】
図５では住所を位置情報とし、名称や緯度経度等をメタデータとているが、それに限らず、名称や緯度経度等を位置情報とし、住所をメタデータとしてもかまわない。また、図５に示す「エリア」という項目は、位置情報を上位概念化または抽象化したものである。本実施形態においては、「エリア」もそれ自体位置情報の一種である。例えば、ある住所に対して、当該住所における最寄の駅名を「エリア」項目の値とすることができる。一例として、品川駅周辺のある住所に対して、「エリア」項目の値を「品川駅」とすることができる。もちろん、駅名に限らず、都道府県名、市町村名等を「エリア」項目の値としてもかまわない。つまり、上記例において、「エリア」項目の値を「東京」や「関東」としてもかまわない。以上説明した位置情報およびメタデータは、メタデータ格納部３０に予め格納されている情報であってもよい。
【００３８】
検索ログ側付加部４０は、クエリに含まれるメタデータを基に、メタデータ格納部３０に格納された位置情報を抽出し、当該抽出した位置情報を検索ログと関連付けるものである。具体的に、検索ログ側付加部４０は、検索ログ格納部１０に格納されているクエリに含まれるワードと、メタデータ格納部３０に格納されている位置情報またはメタデータとを照合し、それらが一致した場合に、対応する位置情報をメタデータ格納部３０より抽出し、検索ログ格納部１０の上記ワードを含む検索ログに付加する。図６は、位置情報に加え、エリアもが抽出され、検索ログに付加された一例を示す。図３のクエリｑ１に仮にワード「ディズニーランド」が含まれている場合に、検索ログ側付加部４０は、図５に示されるメタデータのテーブルの中で名称が「ディズニーランド」で一致している位置情報「○○県××市□□町△△△」およびエリア「○○○」を抽出する。そして、検索ログ側付加部４０は、図６に示すように、位置情報「○○県××市□□町△△△」およびエリア「○○○」を、図３でクエリｑ１を含んでいた検索ログに付加する。以上により、位置情報と検索ログとの関連付けが行われる。なお、図６に示した例においては、位置情報およびエリアの両方を抽出して付加しているが、これに限らず、位置情報のみを抽出して付加してもよく、エリアのみを抽出して付加してもよい。また、クエリに含まれるワードとメタデータ格納部３０の位置情報またはメタデータとの照合方法としては、完全一致に限らず、部分一致による照合でもかまわない。更に、上記例では関連付けの手法としてデータそのものを付加しているが、これに限らず、その他の方法で関連付けを行ってもよい。
【００３９】
ユーザデータ側付加部５０は、ユーザデータに含まれるメタデータを基に、メタデータ格納部３０に格納された位置情報を抽出し、当該抽出した位置情報をユーザデータと関連付けるものである。具体的に、ユーザデータ側付加部５０は、ユーザデータ格納部２０に格納されているユーザデータに含まれるＩＰアドレス、緯度経度等の値と、メタデータ格納部３０に格納されているメタデータとを照合し、それらが一致した場合に、対応する位置情報をメタデータ格納部３０より抽出し、ユーザデータ格納部２０の上記ＩＰアドレス、緯度経度等を含むユーザデータに付加する。緯度経度はＧＰＳまたはネットワーク測位により得られるものである。図７は、位置情報に加え、エリアもが抽出され、ユーザデータに付加された一例を示す。図４のユーザデータのうち緯度経度の値が「△×」であるユーザＩＤがｕ１のユーザデータの場合、ユーザデータ側付加部５０は、図５に示されるメタデータのテーブルの中で緯度経度の値が「△×」で一致している位置情報「○○県××市□□町△△△」およびエリア「○○○」を抽出する。そして、ユーザデータ側付加部５０は、図７に示すように、位置情報「○○県××市□□町△△△」およびエリア「○○○」を、図４のユーザＩＤがｕ１のユーザデータに付加する。以上により、位置情報とユーザデータとの関連付けが行われる。なお、図７に示した例においては、位置情報およびエリアの両方を抽出して付加しているが、これに限らず、位置情報のみを抽出して付加してもよく、エリアのみを抽出して付加してもよい。また、ユーザデータに含まれる緯度経度とメタデータ格納部３０の緯度経度との照合方法としては、完全一致に限らず、前方一致による照合でもかまわない。更に、上記例では関連付けの手法としてデータそのものを付加しているが、これに限らず、その他の方法で関連付けを行ってもよい。
【００４０】
付加された位置情報やエリアは、ユーザの活動区域を示す情報であり、複数の活動地域がある場合は位置情報やエリアを複数付加してもよい。活動範囲が複数ある場合は、その活動日時を示すタイムスタンプを用意し、それぞれの活動範囲を区別してもよい。このタイムスタンプとしては、例えば図４に示した「日時」項目の値を用いることができる。図７の例は、一つのユーザＩＤに位置情報やエリアが複数付加されている例（ユーザＩＤがｕ１の場合）を示している。
【００４１】
図７で示した上記例においては、緯度経度の値を照合して位置情報とユーザデータとの関連付けを行ったが、これに限らず、ＩＰアドレスの値を照合して位置情報とユーザデータとの関連付けを行ってもよい。また、ユーザのＩＰアドレス、緯度経度等を取得することが不可能または難しい場合には、当該ユーザが過去に入力したクエリから逆引きすることで、ユーザの活動範囲を推定することもできる。つまり、ユーザデータ側付加部５０は、ユーザが過去に発行したクエリまたはライフログを基に、メタデータ格納部３０に格納された位置情報やエリアを抽出し、当該抽出した位置情報やエリアをユーザデータと関連付けることができる。例えば横浜エリアに住んでいる人は横浜周辺のスーパ及びレストランなどを検索する傾向があるため、当該ユーザの過去のクエリから当該ユーザの活動範囲を推定することができる。推定方法の一例としては、各エリアで頻繁に検索されるワードと、ユーザがこれまで入力したクエリとの類似度とを例えば強調フィルタリングを用いて算出し、類似度が最も近いエリアをそのユーザの活動範囲とすることができる。
【００４２】
更に、ユーザデータ側付加部５０は、ユーザデータに含まれる当該ユーザにより事前に登録された住所を基に、メタデータ格納部３０に格納された位置情報やエリアを抽出し、当該抽出した位置情報やエリアをユーザデータと関連付けるようにしてもよい。この場合には、例えば、住所に含まれたワードと、位置情報やメタデータとを照合し、それらが一致した場合に、対応する位置情報やエリアをメタデータ格納部３０より抽出し、上記ワードを含む住所のユーザデータに付加する。なお、住所に含まれたワードと、位置情報またはメタデータとの照合方法としては、完全一致に限らず、部分一致による照合でもかまわない。
【００４３】
ローカルクエリ抽出部６０は、検索ログと関連付けられた位置情報またはエリアと、ユーザデータと関連付けられた位置情報またはエリアとを照合することにより、ローカルクエリを抽出するものである。図８はローカルクエリ抽出部６０による動作の具体的な手順を示すフローチャートである。最初に、ローカルクエリ抽出部６０は、図６に示した位置情報およびエリア付き検索ログと、図７に示した位置情報およびエリア付きユーザデータとの結合を行う（ステップＳ１１）。結合は、ユーザＩＤをキーとして行われる。また、ユーザデータに複数の活動拠点が存在する場合には、図６の日時項目と図７の日時項目を比較した上で、両時刻が一致またはある程度の範囲内である場合に限り結合を行う。図９は、ローカルクエリ抽出部６０より、図６の位置情報およびエリア付き検索ログ（図９の（Ａ））と、図７の位置情報およびエリア付きユーザデータ（図９の（Ｂ））とが結合された様子（図９の（Ｃ））を示す。図９の（Ａ）におけるエリア項目は図９の（Ｃ）において検索ログ側エリア項目として結合され、図９の（Ｂ）におけるエリア項目は図９の（Ｃ）においてユーザデータ側エリア項目として結合されている。なお、図９の例においては、記載の便宜上、ＩＰアドレス、緯度経度、位置情報等、一部の項目についてはその表示を省略している。
【００４４】
次に、ローカルクエリ抽出部６０は、図９の（Ｃ）のテーブルにおいて、検索ログ側エリア項目の値とユーザデータ側エリア項目の値とが一致するデータを抽出する（ステップＳ１２）。両エリア項目の値が一致しない場合には、抽出を行わない。よって、図９において、検索ログ側エリア項目の値が「△△△」で、ユーザデータ側エリア項目の値が「×××」のデータは抽出対象外となる。なお、この動作は、位置情報をもとに行われてもかまわない。
【００４５】
次に、ローカルクエリ抽出部６０は、抽出対象となったデータからエリア毎に共起語を集計する（ステップＳ１３）。「共起語」とは、図９の（Ｃ）のテーブルの各クエリにおいて、各エリアと共起するワードをいう。例えば、クエリｑ１が「品川レストラン」である場合、「レストラン」はエリア「品川」に対する共起語である。図１０は、ステップＳ１３においてエリア毎に共起語が集計された様子の一例を示す。「品川ブログ」、「品川レストラン」、「品川水族館」等のクエリに対して集計が行われている。なお、図１０では、各クエリの検索回数毎に集計が行われているが、検索人数を基準にして集計を行ってもかまわない。
【００４６】
次に、ローカルクエリ抽出部６０は、上記集計されたクエリをローカルクエリとして抽出する（ステップＳ１４）。つまり、「品川ブログ」、「品川レストラン」、「品川水族館」等のクエリがローカルクエリとして抽出される。なお、ローカルクエリ抽出部６０が、図１０で示した検索回数が一定の閾値以上となるクエリをローカルクエリとして抽出してもよい。
【００４７】
図１に戻り、ローカルクエリ出力部７０は、ローカルクエリ抽出部６０が抽出したローカルクエリを出力するものである。ローカルクエリ出力部７０は、図１０で示されているような形式で出力してもよく、共起語とエリアとの相関関係を示す値を更に追加して出力してもよい。
【００４８】
［第２の実施形態］
引き続き、本発明の第２の実施形態について説明する。第２の実施形態は、第１の実施形態（図１を参照）と比べ、検索頻度算出部６１（特許請求の範囲の「検索頻度算出手段」に相当）を更に備え、ローカルクエリ抽出部６０の動作に相違点がある。以下、第２の実施形態における相違点を中心に説明し、共通する部分においては説明を省略する。
【００４９】
図１１は、本発明の第２の実施形態に係るローカルクエリ抽出装置１の構成概要図である。図１１に示すように、ローカルクエリ抽出装置１は、図１の第１の実施形態に比べて、検索頻度算出部６１を更に設けている。検索頻度算出部６１は、クエリの地域（エリア）毎の検索頻度を算出するものである。第２の実施形態におけるローカルクエリ抽出部６０は、検索頻度算出部６１が算出した検索頻度を用いて、ある地域におけるあるクエリの検索頻度が、他の地域における当該あるクエリの検索頻度より閾値以上高い場合に、当該あるクエリを当該ある地域におけるローカルクエリとして抽出する。
【００５０】
以下、第２の実施形態におけるローカルクエリの抽出方法について詳細に説明する。図１２は検索頻度算出部６１およびローカルクエリ抽出部６０による動作の具体的な手順を示すフローチャートである。最初に、第１の実施形態のステップＳ１１に相当する動作が行われる（ステップＳ２１）。ただし、この動作は検索頻度算出部６１により行われるものとする。すなわち、検索頻度算出部６１が、図６に示した位置情報およびエリア付き検索ログと、図７に示した位置情報およびエリア付きユーザデータとの結合を行う。結合は、ユーザＩＤをキーとして行われる。また、ユーザデータに複数の活動拠点が存在する場合には、図６の日時項目と図７の日時項目を比較した上で、両時刻が一致またはある程度の範囲内である場合に限り結合を行う。図９は、検索頻度算出部６１より、図６の位置情報およびエリア付き検索ログ（図９の（Ａ））と、図７の位置情報およびエリア付きユーザデータ（図９の（Ｂ））とが結合された様子（図９の（Ｃ））を示す。図９の（Ａ）におけるエリア項目は図９の（Ｃ）において検索ログ側エリア項目として結合され、図９の（Ｂ）におけるエリア項目は図９の（Ｃ）においてユーザデータ側エリア項目として結合されている。なお、図９の例においては、記載の便宜上、ＩＰアドレス、緯度経度、位置情報等、一部の項目についてはその表示を省略している。
【００５１】
次に、第１の実施形態のステップＳ１２に相当する動作が行われる（ステップＳ２２）。ただし、この動作は検索頻度算出部６１により行われるものとする。すなわち、検索頻度算出部６１が、図９の（Ｃ）のテーブルにおいて、検索ログ側エリア項目の値とユーザデータ側エリア項目の値とが一致するデータを抽出する。両エリアが一致しない場合には、抽出を行わない。よって、図９において、検索ログ側エリア項目の値が「△△△」で、ユーザデータ側エリア項目の値が「×××」のデータは抽出対象外となる。なお、この動作は、図９には表示を省略している位置情報をもとに行われてもかまわない。
【００５２】
次に、第１の実施形態のステップＳ１３に相当する動作が行われる（ステップＳ２３）。ただし、この動作は検索頻度算出部６１により行われるものとする。すなわち、検索頻度算出部６１が、抽出対象となったデータからエリア毎に共起語を集計する。「共起語」とは、図９の（Ｃ）のテーブルの各クエリにおいて、各エリアと共起するワードをいう。例えば、クエリｑ１が「品川レストラン」である場合、「レストラン」はエリア「品川」に対する共起語である。図１０は、ステップＳ２３においてエリア毎に共起語が集計された様子の一例を示す。「品川ブログ」、「品川レストラン」、「品川水族館」等のクエリに対して集計が行われている。なお、図１０では、各クエリの検索回数毎に集計が行われているが、検索人数を基準にして集計を行ってもかまわない。
【００５３】
次に、検索頻度算出部６１が、各エリアにて共起語が検索される頻度を算出する（ステップＳ２４）。例えば図１０に示した検索回数の例において、「品川」を含むクエリの総検索回数が１万であるとすれば、共起語「ブログ」の検索頻度は０．０２５である。このような検索頻度算出部６１の動作を数式で表現すると、下記の式（１）となる。式（１）によれば、各エリアでの共起語の検索頻度Frequency_{エリア,共起語}を求めることができる。式（１）において、SearchNum_{エリア,共起語}は、エリアで検索された共起語の回数、つまり検索回数を示す。検索頻度算出部６１は、式（１）を用いて、全てのエリアと共起語の組合せについてFrequency_{エリア,共起語}を求める。
【数１】

【００５４】
次に、検索頻度算出部６１が、共起語毎の検索頻度の期待値を全てのエリアを押し並べて求める（ステップＳ２５）。期待値の求め方としては、エリア毎の共起語の検索頻度に対してその平均値を期待値として推定してもよい。またはエリア毎の人口密度の偏りを考慮してより正確な平均値を計算し、それを期待値として推定してもよい。このような検索頻度算出部６１の動作を数式で表現すると、下記の式（２）となる。式（２）によれば、エリア毎の共起語の検索頻度の平均値が共起語の検索頻度の期待値として算出される。式（２）において、AvgFrequency_共起語は共起語の検索頻度の期待値を示す。
【数２】

【００５５】
次に、ローカルクエリ抽出部６０が、上記式（１）で検索頻度算出部６１より求められた共起語の検索頻度Frequency_{エリア,共起語}と、上記式（２）で検索頻度算出部６１より求められた共起語の検索頻度の期待値AvgFrequency_共起語との比率を算出し、当該比率（以下「リフト値」という。）が所定の閾値を越えた場合に、当該共起語をローカルクエリとして抽出する（ステップＳ２６）。このようなローカルクエリ抽出部６０の動作を数式で表現すると、下記の式（３）となる。式（３）において、ローカルクエリ抽出部６０は、リフト値が閾値βを超えた場合に、当該共起語をローカルクエリとして抽出する。
【数３】

【００５６】
例えば、図１０で示したような場合において、「品川」エリアにおける共起語「水族館」の検索頻度Frequency_{エリア,共起語}が０．０６９であり、共起語「水族館」の検索頻度の全国平均値AvgFrequency_共起語が０．０１５であり、閾値βは３であるとする。この場合に、リフト値は０．０６９／０．０１５＝４．６であり、閾値βより大きく、上記式（３）を満たす。このような場合に、ローカルクエリ抽出部６０は共起語「水族館」を「品川」エリアに対するローカルクエリとして抽出する。一方で、「品川」エリアにおける共起語「ブログ」の検索頻度Frequency_{エリア,共起語}が０．０２５であり、共起語「ブログ」の検索頻度の全国平均値AvgFrequency_共起語が０．０２３であり、閾値βは３であるとする場合には、リフト値が０．０２５／０．０２３＝１．０８７である。この場合には、リフト値が閾値βより小さく、上記式（３）を満たさないため、ローカルクエリ抽出部６０は共起語「ブログ」を「品川」エリアに対するローカルクエリとして抽出しない。以上の説明において、閾値βの値は実装にあたり適宜設定される値であり、全てのエリアにおいて固定の値であってもよく、エリア毎の検索回数や人口に応じて値が変動するものであってもよい。
【００５７】
図１３は、ステップＳ２６においてローカルクエリ抽出部６０よりローカルクエリが抽出された様子の一例を示す。「品川レストラン」、「品川水族館」等のクエリがローカルクエリとして抽出されているが、「品川ブログ」はローカルクエリとして抽出されていない。
【００５８】
上記例においては、ある地域におけるあるクエリの検索頻度と、全国における当該あるクエリの検索頻度の平均値との比率をリフト値として算出しているが、これに限らず、ある地域におけるあるクエリの検索頻度と、他の地域における当該あるクエリの検索頻度、または複数の他の地域における当該あるクエリの検索頻度の平均値との比率をリフト値として算出してもよい。ポイントは「品川ブログ」のように全国的にどこでも調べられていそうなクエリはリフト値が低くなり、ローカルクエリとしては除外されることである。一方で、「品川水族館」のように、水族館がある場所でしか調べられないようなワードは、その地域固有の共起語である可能性が高いため、リフト値が高く、ローカルクエリとして抽出される。
【００５９】
更に、上記ステップＳ２３においては検索回数をもとにエリア毎の共起語を集計し、上記ステップＳ２４においては上記ステップＳ２３にて集計した検索回数をもとに検索頻度を算出しているが、これに限らず、検索回数または検索頻度をユニークユーザ数単位で正規化する手段（特許請求の範囲の「正規化手段」に相当）を更に備え、ローカルクエリ抽出部６０が、当該正規化後の値を用いてローカルクエリを抽出するようにしてもよい。
【００６０】
［第３の実施形態］
引き続き、本発明の第３の実施形態について説明する。第３の実施形態は、第１の実施形態（図１を参照）と比べ、ＴＦ値算出部６２（特許請求の範囲の「第１値算出手段」に相当）およびＩＤＦ値算出部６３（特許請求の範囲の「第２値算出手段」に相当）を更に備え、ローカルクエリ抽出部６０の動作に相違点がある。以下、第１の実施形態における相違点を中心に説明し、共通する部分においては説明を省略する。
【００６１】
図１４は、本発明の第３の実施形態に係るローカルクエリ抽出装置１の構成概要図である。図１４に示すように、ローカルクエリ抽出装置１は、図１の第１の実施形態に比べて、ＴＦ値算出部６２およびＩＤＦ値算出部６３を更に設けている。ＴＦ値算出部６２は、特定の地域にて特定のクエリが検索された回数を、当該特定の地域での総検索回数で割ることで得られるＴＦ値（特許請求の範囲の「第１の値」に相当）を算出するものである。ＩＤＦ値算出部６３は、地域の総数を、当該特定のクエリが検索された地域の数で割ることで得られるＩＤＦ値（特許請求の範囲の「第２の値」に相当）を算出するものである。第３の実施形態におけるローカルクエリ抽出部６０は、ＴＦ値およびＩＤＦ値に基づき算出されるＴＦＩＤＦ値（特許請求の範囲の「第３の値」に相当）が基準値以上である場合に、当該特定のクエリを当該特定の地域におけるローカルクエリとして抽出する。以上により、第３の実施形態においては、共起語の出現頻度に加え、エリアとの相関の高さが考慮され、よりローカライズされたローカルクエリの抽出が可能となる。
【００６２】
以下、第３の実施形態におけるローカルクエリの抽出方法について詳細に説明する。図１５は、ＴＦ値算出部６２、ＩＤＦ値算出部６３、およびローカルクエリ抽出部６０による動作の具体的な手順を示すフローチャートである。最初に、第１の実施形態のステップＳ１１に相当する動作が行われる（ステップＳ３１）。すなわち、ローカルクエリ抽出部６０が、図６に示した位置情報およびエリア付き検索ログと、図７に示した位置情報およびエリア付きユーザデータとの結合を行う。結合は、ユーザＩＤをキーとして行われる。また、ユーザデータに複数の活動拠点が存在する場合には、図６の日時項目と図７の日時項目を比較した上で、両時刻が一致またはある程度の範囲内である場合に限り結合を行う。図９は、ローカルクエリ抽出部６０より、図６の位置情報およびエリア付き検索ログ（図９の（Ａ））と、図７の位置情報およびエリア付きユーザデータ（図９の（Ｂ））とが結合された様子（図９の（Ｃ））を示す。図９の（Ａ）におけるエリア項目は図９の（Ｃ）において検索ログ側エリア項目として結合され、図９の（Ｂ）におけるエリア項目は図９の（Ｃ）においてユーザデータ側エリア項目として結合されている。なお、図９の例においては、記載の便宜上、ＩＰアドレス、緯度経度、位置情報等、一部の項目についてはその表示を省略している。
【００６３】
次に、第１の実施形態のステップＳ１２に相当する動作が行われる（ステップＳ３２）。すなわち、ローカルクエリ抽出部６０が、図９の（Ｃ）のテーブルにおいて、検索ログ側エリア項目の値とユーザデータ側エリア項目の値とが一致するデータを抽出する。両エリアが一致しない場合には、抽出を行わない。よって、図９において、検索ログ側エリア項目の値が「△△△」で、ユーザデータ側エリア項目の値が「×××」のデータは抽出対象外となる。なお、この動作は、図９には表示を省略している位置情報をもとに行われてもかまわない。
【００６４】
次に、第１の実施形態のステップＳ１３に相当する動作が行われる（ステップＳ３３）。すなわち、ローカルクエリ抽出部６０が、抽出対象となったデータからエリア毎に共起語を集計する。「共起語」とは、図９の（Ｃ）のテーブルの各クエリにおいて、各エリアと共起するワードをいう。例えば、クエリｑ１が「品川レストラン」である場合、「レストラン」はエリア「品川」に対する共起語である。図１０は、ステップＳ３３においてエリア毎に共起語が集計された様子の一例を示す。「品川ブログ」、「品川レストラン」、「品川水族館」等のクエリに対して集計が行われている。なお、図１０では、各クエリの検索回数毎に集計が行われているが、検索人数を基準にして集計を行ってもかまわない。
【００６５】
次に、後述するステップＳ３５〜Ｓ３８の手順を行うためのエリアが選択される（ステップＳ３４）。ステップＳ３４は、例えば処理対象のエリアを順番に選択することで行われる。ステップＳ３４を行うための別途の手段を設けてもよく、ＴＦ値算出部６２、ＩＤＦ値算出部６３、ローカルクエリ抽出部６０のそれぞれがステップＳ３４を行ってもよい。
【００６６】
次に、ＴＦ値算出部６２が、ステップＳ３４にて選択されたエリアにて特定のクエリが検索された回数を、当該特定のエリアでの総検索回数で割ることで得られるＴＦ値を算出する（ステップＳ３５）。ＴＦ値は、共起語の出現頻度を表す値である。ＴＦ値算出部６２の動作を数式で表現すると、下記の式（４）となる。式（４）において、ｔｆ_{エリア、共起語}は特定のエリアにおける共起語のＴＦ値を示し、ｎ_{エリア、共起語}はステップＳ３４にて選択されたエリアにてクエリが検索された回数を示し、Σ_共起語ｎ_{エリア、共起語}は当該特定のエリアでの総検索回数を示す。例えば、「渋谷」エリアにおける共起語「レストラン」の出現頻度であるＴＦ値は、当該「渋谷」エリアにてクエリ「渋谷レストラン」が検索された回数ｎ_{エリア、共起語}を、当該「渋谷」エリアでの総検索回数Σ_共起語ｎ_{エリア、共起語}で割ることで得られる。
【数４】

【００６７】
次に、ＩＤＦ値算出部６３が、エリアの総数を、特定のクエリが検索されたエリアの数で割ることで得られるＩＤＦ値を算出する（ステップＳ３６）。ＩＤＦ値は、共起語の逆出現頻度を表す値である。逆出現頻度は、どこのエリアでも検索されるような共起語の場合は１に近い値となるが、特定のエリアとしか共起しないような共起語の場合は１以上の値となるものである。よって逆出現頻度が高いほど、エリアに対してユニークで相関が高い共起語であることがいえる。ＩＤＦ値算出部６３の動作を数式で表現すると、下記の式（５）となる。式（５）において、ｉｄｆ_{エリア、共起語}は選択されたエリアにおけるＩＤＦ値を示し、|Σ_エリア１|はエリアの総数を示し、|｛エリア：共起語∈エリア｝|は共起語を含むエリアの数を示す。例えばエリア数が１０で、そのうちレストランという共起語を含むエリア数が２だった場合、|Σ_エリア１|は１０、|｛エリア：共起語∈エリア｝|は２となる。
【数５】

【００６８】
次に、ローカルクエリ抽出部６０が、ステップＳ３５で算出されたＴＦ値およびステップＳ３６で算出されたＩＤＦ値に基づき、ＴＦＩＤＦ値を算出する（ステップＳ３７）。ローカルクエリ抽出部６０がＴＦＩＤＦ値を算出する方法の一例を、下記の式（６）に示す。式（６）では、ｔｆ_{エリア、共起語}とｉｄｆ_{エリア、共起語}とを積算することにより、ｔｆｉｄｆ_{エリア、共起語}が算出される。
ｔｆｉｄｆ_{エリア、共起語}＝ｔｆ_{エリア、共起語}・ｉｄｆ_{エリア、共起語}…（６）
【００６９】
次に、ローカルクエリ抽出部６０が、ステップＳ３７で算出したＴＦＩＤＦ値が基準値γ以上である場合に、当該特定のクエリを当該特定の地域におけるローカルクエリとして抽出する（ステップＳ３８）。図１６は、ステップＳ３８においてローカルクエリ抽出部６０よりローカルクエリが抽出された様子の一例を示す。この例においては基準値γが１．０として設定されており、「品川レストラン」、「品川水族館」等のクエリはＴＦＩＤＦ値が基準値γ以上であるため、ローカルクエリとして抽出されている。一方、「品川ブログ」はＴＦＩＤＦ値が基準値γ以上でなかったため、ローカルクエリとして抽出されていない。以上のような処理により、特定のエリアでよく検索され、且つユニークな共起語の抽出が可能となる。なお、抽出したローカルクエリを出力する際には、少なくともエリアおよび共起語を表示するものとし、必要に応じてエリア毎にＴＦＩＤＦ値を降順にソートし、検索頻度が高く地域固有の共起語を上位に出力するようにしてもよい。
【００７０】
次に、全てのエリアに対して上記ステップＳ３４〜Ｓ３８の手順が行われたかが判断される（ステップＳ３９）。全てのエリアに対して上記ステップＳ３４〜Ｓ３８の手順が行われた場合には、処理はそのまま終了する。一方で、上記ステップＳ３４〜Ｓ３８の手順が行われていないエリアがある場合には、上記ステップＳ３４に戻りステップＳ３９までの処理が繰り返して行われる。なお、ステップＳ３９の判断手順を行うための別途の手段を設けてもよく、ローカルクエリ抽出部６０がこの手順を行ってもよい。
【００７１】
なお、上記ステップＳ３３、Ｓ３５、Ｓ３６、Ｓ３７においては検索回数をもとに集計または算出が行われているが、これに限らず、検索回数、ＴＦ値、ＩＤＦ値、およびＴＦＩＤＦ値のうち何れか１つ以上をユニークユーザ数単位で正規化する手段（特許請求の範囲の「正規化手段」に相当）を更に備え、ローカルクエリ抽出部６０が、当該正規化後の値を用いてローカルクエリを抽出するようにしてもよい。
【００７２】
［ローカルクエリ抽出プログラム］
以上、本発明の第１〜第３の実施形態をローカルクエリ抽出装置１として説明した。以上の説明は、コンピュータをローカルクエリ抽出装置１として動作させるローカルクエリ抽出プログラムに係る説明としても捉えることができる。重複する説明は省略するが、ローカルクエリ抽出プログラムは、コンピュータを、以上で説明した検索ログ格納部１０、ユーザデータ格納部２０、メタデータ格納部３０、検索ログ側付加部４０、ユーザデータ側付加部５０、ローカルクエリ抽出部６０、およびローカルクエリ出力部７０として機能させる。ローカルクエリ抽出プログラムは、例えば、記録媒体に格納されて提供される。なお、記録媒体としては、フレキシブルディスク、ＣＤ、ＤＶＤ等の記録媒体、ＲＯＭ等の記録媒体、または半導体メモリ等が例示される。
【００７３】
［ローカルクエリ抽出方法］
また、以上の説明は、ローカルクエリ抽出装置１より行われるローカルクエリ抽出方法に係る説明としても捉えることができる。重複する説明は省略するが、ローカルクエリ抽出方法では、検索ログ格納部１０に、検索サービスにおいてユーザが入力したクエリ、およびユーザＩＤを含む検索ログが格納されており、ユーザデータ格納部２０に、ユーザＩＤを含むユーザデータが格納されており、メタデータ格納部３０に、位置情報、および当該位置情報に関連付けられたメタデータが格納されている。そして、ローカルクエリ抽出方法は、検索ログ側付加部４０が、クエリに含まれるメタデータを基に、メタデータ格納部３０に格納された位置情報を抽出し、当該抽出した位置情報を検索ログと関連付ける検索ログ側関連付けステップと、ユーザデータ側付加部５０が、ユーザデータに含まれるメタデータを基に、メタデータ格納部３０に格納された位置情報を抽出し、当該抽出した位置情報をユーザデータと関連付けるユーザデータ側関連付けステップと、ローカルクエリ抽出部６０が、検索ログと関連付けられた位置情報と、ユーザデータと関連付けられた位置情報とを照合することにより、ローカルクエリを抽出するローカルクエリ抽出ステップと、を備える。
【００７４】
［本実施形態の作用及び効果］
続いて、本実施形態にかかるローカルクエリ抽出装置１、コンピュータをローカルクエリ抽出装置１として動作させるローカルクエリ抽出プログラム、ローカルクエリ抽出装置１より行われるローカルクエリ抽出方法の作用及び効果について説明する。
【００７５】
（第１の実施形態の作用及び効果）
第１の実施形態では、検索ログと関連付けられた位置情報と、ユーザデータと関連付けられた位置情報とを照合することにより、ローカルクエリを抽出することができる。検索ログは、ユーザが検索サービス使用時に入力した検索クエリと、検索結果から遷移し閲覧したウェブサイトのＵＲＬ情報とを蓄積したログである。検索ログ側付加部４０は検索ログに格納されているクエリに含まれるメタデータを基に、検索ログに位置情報を追加するものである。メタデータは位置または地名に関連する抽象的なデータであり、数値または文字列から構成されている。例えば、都道府県名、市町村名、電話番号、郵便番号、あるいは東京ドーム、ディズニーランド、上野動物園などといった固有名詞が一例として含まれる。ユーザデータに含まれるメタデータからユーザの位置情報をユーザデータ側付加部５０にて推定する。ユーザデータは、ユーザのＩＰアドレス、ＧＰＳまたはネットワーク測位による位置データ（緯度経度）、ユーザがこれまで入力したクエリやライフログのことを指し、これらのデータから位置情報が推定される。ローカルクエリ抽出部６０は、クエリの位置情報とユーザの位置情報とを照合し、地域毎にローカルクエリの抽出を行う。地域（エリア）とは、都道府県、市町村、またはある特定の位置から一定の範囲の領域のことを指すが限定はしない。ローカルクエリ出力部７０における出力形式は固定していないが、クエリの検索回数を基準に規則的にソートされていてもよいし、またランダムな順序でもよい。また集計においては、クエリ単位の集計に限定されない。
【００７６】
このような第１の実施形態によれば、低コストによるローカルクエリ抽出が可能となる。特許文献１の技術では、クリックされた検索結果のページを解析することで、クエリが位置と共起しているか否かの判断を行っていた。このようなページ解析には処理的にも時間的にも莫大なコストがかかる。一方、本実施形態では、ページ解析は不要であり、コストの低減が見込める。
【００７７】
また、第１の実施形態によれば、ユーザデータと関連付けられた位置情報を用いてローカルクエリ抽出処理を行うことにより、複数の地域で存在する同一名称を含むクエリの地域性を区別でき、精度良くローカルクエリを抽出することが可能となる。例えば、関東と関西には同一名称の「日本橋」が存在しており、「日本橋レストラン」と記載されているクエリの文字情報だけではどちらの「日本橋」を指しているのかが把握できない。しかし、ユーザデータと関連付けられた位置情報により、ユーザが関東にいるのか、または関西にいるのかが把握できるので、これをもって当該ユーザが入力したクエリがどちらの地域を指すのかを推定することができる。
【００７８】
また、第１の実施形態によれば、それぞれの地域のローカルクエリから、その地域の特徴を把握することが可能となる。例えば、映画館がある地域では映画関連クエリが常時ローカルクエリとして抽出される傾向にある。地域の特徴を把握することで、その地域にて活動している人達の趣味趣向や属性などの分析にも活用することができ、地域のプロファイリング及びユーザのプロファイリングへの応用が可能となる。
【００７９】
（第２の実施形態の作用及び効果）
第２の実施形態では、クエリの検索頻度と他地域における同一クエリの検索頻度とを比較してから、ローカルクエリを抽出する。検索頻度はその地域で特定のワードがどの程度の割合で検索されたかを示すものである。例えば地域名と共起するクエリのうち「ラーメン」が検索された割合が１割ならば、「ラーメン」の当該地域名における検索頻度は０．１となる。検索頻度の地域毎の比較を行うことで、検索ログからローカルクエリの抽出をさらに洗練することが可能である。一例として、地域名と共起するクエリを母集団とし、「映画」というワードにおいて、それぞれの地域でワード「映画」が検索される平均の割合がＸだとした場合を考える。この場合、例えば「六本木」エリアで「映画」と検索される割合がＹだった場合、ＹとＸを比較し、ＹがＸを一定の基準値以上上回っていた場合、「映画」というクエリは全国の地域を押し並べて比較した結果、地域「六本木」の特徴を表しているローカルクエリであると言えることになる。対象となる地域の検索頻度と全国平均頻度を必ず比較するとは限らない。地域毎の検索頻度を比較し、ある地域における検索頻度が他の地域における検索頻度に比べて一定の基準を超えた場合、当該クエリを当該地域におけるローカルクエリとしてもよい。また基準値は固定値であってもよいが、地域毎の人口や地域の特徴に応じて変動する値であってもかまわない。
【００８０】
このような第２の実施形態によれば、クエリの検索頻度を地域毎に比較することで、そのクエリが地域に特定性があるものか否かが判断可能となる。これにより、地域名が例えば人名やタレント名と同一である場合に、適切にフィルタリングをかけることができ、第１の実施形態に比べてより精度良くローカルクエリを抽出することが可能となる。つまり、キャラクタ、人物名などの地域と関連性のないワードを誤って地域の名称と判断し、当該クエリをローカルクエリとして抽出した場合においても、地域毎の検索頻度を比較することでフィルタリングをかけることができ、当該誤って判断され抽出されたものを除外することが可能となる。例えば、「品川ドロップ」というクエリのみからでは、「ドロップ」が地域名称である「品川区」あるいは「品川駅」に関連しているのか、または芸能人の「品川庄司」が監督を勤める「ドロップ」という映画を指しているのかが分からない。この場合、各地域での「ドロップ」の検索頻度を考慮することで、「ドロップ」が「品川」という地域のローカルクエリであるか否かが把握できる。例えば、「品川区」あるいは「品川駅」における「ドロップ」の検索頻度と、全国における「ドロップ」の検索頻度が同じぐらいであれば、「品川ドロップ」は「品川」地域の固有のクエリではない。このように検索頻度をパラメータとして用いて地域毎に比較を行うことで、非ローカルクエリの判別が可能となり、フィルタリング後のより洗練されたローカルクエリの抽出が可能となる。
【００８１】
また、第２の実施形態によれば、正規化を行うことで処理結果に対する信頼性が高まり、更に精度良くローカルクエリを抽出することが可能となる。例えば、ユニークユーザ単位で正規化することで、単一のユーザの行動により全体の計算結果が偏ることを防止できる。例えば、ある地域にて一人のユーザが同じクエリを何度も投入した場合、投入した回数分で通常カウントされるが、特定の期間のデータを対象に１ユーザ１回とカウントすることにより、ユニークユーザ単位の正規化が行われ、処理結果に対する信頼性が高まり、更に精度良くローカルクエリを抽出することが可能となる。
【００８２】
（第３の実施形態の作用及び効果）
第３の実施形態では、ローカルクエリ抽出処理の結果に対する重み付けがＴＦ値、ＩＤＦ値およびＴＦＩＤＦ値により行われ、更に精度良くローカルクエリを抽出することが可能となる。また、ＴＦ値、ＩＤＦ値およびＴＦＩＤＦ値を基にローカルクエリの並び変えを行うことで、どのクエリがよりその地域と相関が高いかを把握することが可能となる。例えば、その地域にしかない人気レストランなどは高いＴＦ値、ＩＤＦ値およびＴＦＩＤＦ値で重み付けされる。また、病院といったどこの地域にもあるような一般的なクエリには、低いＴＦ値、ＩＤＦ値およびＴＦＩＤＦ値で重み付けされる。このように、第３の実施形態では、地域毎にその他の地域と比較してより地域特定性の高いクエリや検索頻度の高いクエリに高い値で重み付けが行われるので、クエリの更なるローカライズが可能となる。また、正規化に関しては、上記「第２の実施形態の作用及び効果」と同様のことが言える。
【符号の説明】
【００８３】
１…ローカルクエリ抽出装置、１０…検索ログ格納部、２０…ユーザデータ格納部、３０…メタデータ格納部、４０…検索ログ側付加部、５０…ユーザデータ側付加部、６０…ローカルクエリ抽出部、６１…検索頻度算出部、６２…ＴＦ値値算出部、６３…ＩＤＦ値値算出部、７０…ローカルクエリ出力部。

【特許請求の範囲】
【請求項１】
検索サービスにおいてユーザが入力したクエリ、およびユーザ特定情報を含む検索ログを格納する検索ログ格納手段と、
前記ユーザ特定情報を含むユーザデータを格納するユーザデータ格納手段と、
位置情報、および前記位置情報に関連付けられたメタデータを格納するメタデータ格納手段と、
前記クエリに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記検索ログと関連付ける検索ログ側関連付け手段と、
前記ユーザデータに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付けるユーザデータ側関連付け手段と、
前記検索ログと関連付けられた位置情報と、前記ユーザデータと関連付けられた位置情報とを照合することにより、ローカルクエリを抽出するローカルクエリ抽出手段と、
を備えることを特徴とするローカルクエリ抽出装置。
【請求項２】
前記クエリの地域毎の検索頻度を算出する検索頻度算出手段を更に備え、
前記ローカルクエリ抽出手段は、ある地域におけるあるクエリの前記検索頻度が、他の地域における前記あるクエリの前記検索頻度より閾値以上高い場合に、前記あるクエリを前記ある地域における前記ローカルクエリとして抽出する、
ことを特徴とする請求項１に記載のローカルクエリ抽出装置。
【請求項３】
特定の地域にて特定のクエリが検索された回数を、前記特定の地域での総検索回数で割ることで得られる第１の値を算出する第１値算出手段と、
地域の総数を、前記特定のクエリが検索された地域の数で割ることで得られる第２の値を算出する第２値算出手段と、
を更に備え、
前記ローカルクエリ抽出手段は、前記第１の値および前記第２の値に基づき算出される第３の値が基準値以上である場合に、前記特定のクエリを前記特定の地域における前記ローカルクエリとして抽出する、
ことを特徴とする請求項１または２に記載のローカルクエリ抽出装置。
【請求項４】
前記検索頻度、前記第１の値、前記第２の値、および前記第３の値のうち何れか１つ以上をユニークユーザ数単位で正規化する正規化手段を更に備え、
前記ローカルクエリ抽出手段は、当該正規化後の値を用いて前記ローカルクエリとして抽出する、
ことを特徴とする請求項２または３に記載のローカルクエリ抽出装置。
【請求項５】
前記メタデータ格納手段に格納されたメタデータは、都道府県名、市町村名、電話番号、郵便番号、地域の固有名詞、施設名、住所、ＩＰアドレス、ＧＰＳ測位による緯度経度、およびネットワーク測位による緯度経度のうち何れか１つ以上を示す情報である、
ことを特徴とする請求項１〜４の何れか１項に記載のローカルクエリ抽出装置。
【請求項６】
前記ユーザデータ側関連付け手段は、前記ユーザデータに含まれる前記ユーザにより事前に登録された住所を基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付ける、
ことを特徴とする請求項５に記載のローカルクエリ抽出装置。
【請求項７】
前記ユーザデータ側関連付け手段は、前記ユーザデータに含まれる前記ユーザのＩＰアドレス、または前記ＧＰＳ若しくはネットワーク測位による緯度経度を基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付ける、
ことを特徴とする請求項５に記載のローカルクエリ抽出装置。
【請求項８】
前記ユーザデータ側関連付け手段は、前記ユーザが過去に発行したクエリまたはライフログを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付ける、
ことを特徴とする請求項５に記載のローカルクエリ抽出装置。
【請求項９】
コンピュータを、
検索サービスにおいてユーザが入力したクエリ、およびユーザ特定情報を含む検索ログを格納する検索ログ格納手段と、
前記ユーザ特定情報を含むユーザデータを格納するユーザデータ格納手段と、
位置情報、および前記位置情報に関連付けられたメタデータを格納するメタデータ格納手段と、
前記クエリに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記検索ログと関連付ける検索ログ側関連付け手段と、
前記ユーザデータに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付けるユーザデータ側関連付け手段と、
前記検索ログと関連付けられた位置情報と、前記ユーザデータと関連付けられた位置情報とを照合することにより、ローカルクエリを抽出するローカルクエリ抽出手段、
として動作させることを特徴とするローカルクエリ抽出プログラム。
【請求項１０】
検索ログ格納手段に、検索サービスにおいてユーザが入力したクエリ、およびユーザ特定情報を含む検索ログが格納されており、
ユーザデータ格納手段に、前記ユーザ特定情報を含むユーザデータが格納されており、
メタデータ格納手段に、位置情報、および前記位置情報に関連付けられたメタデータが格納されており、
検索ログ側関連付け手段が、前記クエリに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記検索ログと関連付ける検索ログ側関連付けステップと、
ユーザデータ側関連付け手段が、前記ユーザデータに含まれるメタデータを基に、前記メタデータ格納手段に格納された位置情報を抽出し、当該抽出した位置情報を前記ユーザデータと関連付けるユーザデータ側関連付けステップと、
ローカルクエリ抽出手段が、前記検索ログと関連付けられた位置情報と、前記ユーザデータと関連付けられた位置情報とを照合することにより、ローカルクエリを抽出するローカルクエリ抽出ステップと、
を備えることを特徴とするローカルクエリ抽出方法。

【図１】