説明

文書検索装置、文書検索方法、文書検索プログラム

【課題】ユーザに検索キーワードにマッチする文書群と地理的範囲との関連性を容易に把握可能な情報検索サービスを提供する。
【解決手段】文書検索部4は、ユーザ端末2に入力された検索キーワードに基づきDB5を参照して検索キーワードを含む文書群を取得する。地理範囲特定部6は、DB7を参照して取得した各電子文書の地理的表現を示す正規住所を抽出し、DB8を参照して抽出された正規住所に応じた最小の地理範囲を特定する。メッシュ地理スコア算出部9は、ユーザ端末2に表示された地図画面の範囲を区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出する。地図重畳画像描画部10は、メッシュ毎に前記スコアの大小を表す画像を描画する。この画像は送受信部3を通じてユーザ端末2に表示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子文書の集合からユーザ入力の検索キーワード(検索語)とユーザが関心を持つ地理的範囲の双方に関連する電子文書を検索する技術に関する。
【背景技術】
【0002】
近年、インターネットの普及によって、インターネット上の膨大な電子文書(Webページ、以下文書と省略する。)の集合から、ユーザが必要とする情報を含む文書を的確に検索する検索エンジンの重要性が高まっている。
【0003】
この文書検索の利用方法としては、検索キーワードに併せて興味対象の地理的範囲を検索条件として検索エンジンに与えることにより、検索キーワードおよび地理的範囲の位置情報と関連する情報の文書を検索することが少なくない。この地理的情報検索を提供する検索エンジンとしては、例えば特許文献1の検索装置が知られている。
【0004】
このような地理情報検索は、検索キーワードと興味対象の地理的範囲の双方に関連する文書が存在する場合には効果的であるものの、場所によってはその場所に言及した文書が極めて少ないため、検索結果としての関連文書が存在しない場合がある。そこで、ユーザは、より多くの文書に該当するように検索キーワードを変更するか、あるいは地理的範囲を変更して検索を試行する。特に探したい情報の検索キーワードが決まっている場合には地理的範囲を変更することとなる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−134463
【非特許文献】
【0006】
【非特許文献1】平野徹,松尾義博,菊井玄一郎 ”地理的距離と有名度を用いた地名の曖昧性解消” 情報処理学会全国大会講演論文集,2008
【非特許文献2】”街区レベル位置参照情報” 「online」、国土交通省、「平成23年1月13日検索」、インターネット<URL:http:nlftp.go.jp/isj/>
【非特許文献3】安田宜仁,戸田浩之 ”検索位置のごく周辺を対象とした地理情報検索”,人工知能学会論文誌,23巻5号C(2008年)
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来の地理情報検索だけを用いる場合、検索キーワードと地理的範囲の双方を指定しないといけいない。地理的範囲は地理情報検索の実装方法によって様々ではあるが、例えば特許文献1では数キロメートルの範囲を想定してある。
【0008】
もし、関心のあるキーワードだけが決まっていて、その検索キーワードに関連している情報がどの地理的範囲であれば得られるか分からない場合、ユーザは地理的範囲を逐一選択し直しながら、検索の試行を繰り返す必要があり、これではユーザの検索効率が悪化するおそれがある。このため、少ない検索の試行で所望の情報を得られるような検索キーワードと検索対象の地理的範囲との対を把握できるような方法が求められている。
【0009】
本発明は、このような従来技術の問題点を解決するためになされたものであり、ユーザに検索キーワードにマッチする文書群と地理的範囲との関連性を容易に把握可能な情報検索サービスを提供することを解決課題としている。
【課題を解決するための手段】
【0010】
そこで、本発明は、地理的情報検索にあたってユーザ端末から入力された検索キーワードと併せてユーザ端末に表示された地図画面の表示範囲を利用する。すなわち、ユーザ端末から入力された検索キーワードに関連する各文書の集合に応じた地理範囲の集合を求める。この地理的範囲に基づき地図画面の表示範囲を区分した各メッシュのスコアを算出し、算出されたスコアを地図画面の表示範囲に反映させ、検索キーワードに関連する文書の地理的分布をユーザに提示する。
【0011】
本発明の一態様は、ユーザ端末に入力された検索キーワードと該端末に表示された地図画面の範囲とに関連する電子文書を検索する装置であって、前記検索キーワードに関連する各電子文書から地理的表現を抽出し、抽出された各地理的表現の示す地理範囲を特定する地理範囲特定手段と、前記地図の範囲を任意単位で区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出するスコア算出手段と、前記各メッシュのスコアを前記地図画面の範囲に反映させた画像を描画し、ユーザに提示する画像描画手段と、を備える。
【0012】
本発明の他の態様は、ユーザ端末に入力された検索キーワードと該端末に表示された地図画面の範囲とに関連する電子文書を検索する装置の文書検索方法であって、前記検索キーワードに関連する各電子文書から地理的表現を抽出し、抽出された各地理的表現の示す地理範囲を特定する地理範囲特定ステップと、前記地図の範囲を任意単位で区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出するスコア算出ステップと、前記各メッシュのスコアを前記地図画面の範囲に反映させた画像を描画し、ユーザに提示する画像描画ステップと、を有する。
【0013】
なお、本発明は、前記装置としてコンピュータを機能させるプログラムの態様としてもよい。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
【発明の効果】
【0014】
本発明によれば、検索キーワードに関連する文書の地理的分布がユーザに提示されるため、検索キーワードにマッチする文書群と地理的範囲との関連性を容易に把握可能な情報検索サービスを提供でき、ユーザ所望の情報に到達する試行回数を削減することができる。
【図面の簡単な説明】
【0015】
【図1】本発明の実施形態に係る文書検索装置の構成図。
【図2】同 処理フロー図。
【図3】同 地理範囲特定部の処理フロー図。
【図4】同 メッシュ地理スコア算出部の処理フロー図。
【発明を実施するための形態】
【0016】
≪装置構成例≫
図1に基づき本発明の実施形態に係る文書検索装置の構成例を説明する。この装置1は、ユーザ端末2に情報検索サービスを提供し、ユーザ端末2とインターネット経由でデータ通信が可能に接続されている。
【0017】
このユーザ端末2は、ユーザが前記装置1にアクセスして情報検索サービスを利用するための端末であればよく、例えばパーソナルコンピュータ(PC)や携帯電話などが該当する。この情報検索サービスのうち地理的情報検索の利用にあたってユーザは、ユーザ端末2に入力された検索キーワードと併せてユーザが興味を有するエリアの範囲を送信する。ここでは一例としてユーザ端末2の画面表示部(例えば液晶パネル)に現在表示されている地図画面(地図画像)の表示範囲を検索キーワードと併せて送信し、検索を命令するものとする。この表示範囲は、ユーザ端末2の画面表示部に表示された地図画面の四方の座標あるいは対角2点の座標とする。
【0018】
前記装置1は、事前に「WWW(World Wide Web)」から収集された検索対象の文書集合を対象に処理を行う。この対象を文書集合Sとする。また、前記装置1は、地理的情報検索にあたって日本地図あるいは世界地図の全体を緯度経度それぞれ決められた度数で区切った矩形(以下、メッシュと呼ぶ。)を単位として取り扱う。そして、前記地図画面の表示範囲のメッシュ毎に検索キーワードとマッチする文書群との関連性を示し、ユーザに提示する。ただし、ユーザ端末2から前記地図画面の範囲の送信がなければ、通常のキーワード検索が行われる。
【0019】
具体的には、前記装置1は、検索エンジンのサーバにより構成され、通常のコンピュータのハードウェアリソース、例えばCPU,メモリ(RAM),ハードディスクドライブ装置,通信デバイスなどを備える。このハードウェアリソースとソフトウェアリソース(OS.アプリケーションなど)との協働の結果、前記装置1は、送受信部3.文書検索部4.転置インデックスDB5.地理範囲特定部6.文書内正規住所DB7.正規住所−地理範囲DB8.メッシュ地理スコア算出部9.地図重畳画像描画部10を実装する。この送受信部3は、前記通信デバイスを通じてユーザ端末2から検索キーワードと前記地図画面の表示範囲とを受信する。ここで受信した検索キーワードを文書検索部4に送る一方、前記地図画面の表示範囲を前記スコア算出部9および前記描画部10に送る。
【0020】
前記各DB5.7.8は、メモリ(RAM)あるいはハードディスクドライブ装置などの記憶装置に構築されているものとする。ここで前記DB5には文書集合Sの転置インデックス(文書番号.単語.位置情報など)が格納されている。
【0021】
前記DB7には、文書集合Sの各文書中に出現しうる地名と想定される表現(地名表現)の正規住所を格納している。ここでは事前に文書集合Sの各文書中に出現する各表現のうち地名を記述していると想定される地名表現を抽出し、抽出された地名表現を住所化して文書毎に地名表現と正規住所とがペアに格納されているものとする。この手法としては、例えば非特許文献1などで示される従来手法を用いることができ、文書中の地名と想定される表現は必ずしも正規の住所表現でなくともよく、断片的な地名(例えば「浜松」など)でもよい。
【0022】
前記DB8には、各地名の正規の住所表現に対応する最小外接矩形(その地名を含む最も小さな矩形、MBR)の位置情報が格納されている。格納される情報としては、MBRの両端座標が好ましい。表1は、前記DB8の格納データ例を示している。ここでは一例として「東京都千代田区大手町二丁目」を含む最小外接矩形の対角線の座標と、「東京都千代田区大手町」を含む最小外接矩形の対角線の座標とが示されている。
【0023】
【表1】

【0024】
このような前記DB8の格納データは、事前に人手により作成してもよく、あるいは非特許文献2に示すように、地名とその代表点を保持するような地名辞書から各地名に対応する矩形を近似的に得ることも可能である。この場合には非特許文献3の「3−1 事前処理」で示された方法などを用いてもよい。
【0025】
文書検索部4は、通常の検索エンジンのキーワードマッチングを担当し、送受信部3から送られた検索キーワードを入力とし、前記DB5を参照して検索キーワードを含む文書群、即ち検索キーワードに関連する文書群の各文書番号を文書集合Sから収集する。ここで収集された文書番号は地理範囲特定部6に送られる。
【0026】
地理範囲特定部6は、文書検索部4から送られた文書群の文書番号を入力とし、該各文書に含まれる地名表現を抽出し、抽出された各地名表現の示す地理範囲を特定する。すなわち、地理範囲特定部6は、前記DB7を参照して入力された文書番号を持つ各文書の地理的表現が示す正規住所を抽出し、前記DB8を参照して抽出された各正規住所に対応する地理範囲を特定する。ここで特定された地理範囲群は前記スコア算出部9に送られる。
【0027】
前記スコア算出部9には、地理範囲特定部6から送られた地理範囲集合と、送受信部3から送られた前記地図画面の表示範囲とが入力される。ここでは前記スコア算出部9は、前記地図画面の表示範囲を区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出する。算出された各メッシュのスコアは、前記描画部10に送られる。
【0028】
前記描画部10は、前記スコア算出部9で算出された各メッシュのスコアと、送受信部3から送られた前記地図画面の表示範囲とが入力される。ここでは前記地図画面の表示範囲に各メッシュのスコアを反映させるために該表示範囲と重ね合わせる画像を描画し、送受信部3に送る。描画する画像は、前記地図画面の表示範囲でメッシュ群のスコアの大小を表示するものとする。
【0029】
そして、送受信部3は、前記描画部10から出力された画像をユーザ端末2に送信し、前記画面表示部に表示させる。これにより検索キーワードに関連する文書の地理的な分布をユーザに提示でき、ユーザは所望の情報に到達する試行回数を削減することができる。
【0030】
≪具体的な処理内容≫
以下、図2に基づき前記装置1の具体的な処理内容を説明する。ここでは前記各DB5.7.8には既に必要なデータがすべて格納されているものとする。また、ユーザ端末2からは検索キーワードおよび前記地図画面の表示範囲(四方の座標あるいは対角2点の座標)が送信され、送受信部3に受信されているものとする。
【0031】
S01:処理が開始されると文書検索部4は、通常の検索エンジンと同様に送受信部3から送られた検索キーワードに基づき前記DB5の転置インデックスを検索して検索キーワードに関連する文書群の各文書番号を取得する。ここでは転置インデックスを用いた一般的な文書検索の手法を用いることができる。
【0032】
S02.S03:地理範囲特定部6は、S01で得られた文書番号を持つ各文書、即ち検索キーワードに関連する各文書内に含まれる地名表現を特定する(S02)。ここで特定された地名表現に対応する地理範囲を抽出する(S03)。この地理範囲は矩形を示し、対角の座標によって表現されているものとする。
【0033】
図3に基づきS02.S03の処理内容を説明すれば、地理範囲特定部6は処理が開始されると結果格納集合Kを初期化し(S11)、つぎにS01で検索された文書番号順に次の処理を繰り返して行う(S12.S12a)。すなわち、文書番号をキーに前記DB7の格納データを探索し、該文書中に出現する地名表現の正規住所を取得する(S13)。ここで取得された正規住所をキーに前記DB8の格納データを探索し、該正規住所に対応する地理範囲、即ち矩形の対角座標を取得し、結果格納集合Kに追加する(S14)。
【0034】
この処理をすべての文書番号順に繰り返した(S12.S12a)後に結果格納集合Kを前記スコア算出部9に出力し(S15)、処理を終了する。なお、結果格納集合Kはメモリ(RAM)やハードディスクドライブ装置などに記憶されているものとする。
【0035】
S04:前記スコア算出部9は、送受信部3から送られた前記地図画面の表示範囲をメッシュ化し、各メッシュのスコアを算出する。すなわち、前記スコア算出部9は、前述のように日本地図あるいは世界地図の全体を緯度経度それぞれ決められた度数で区切った矩形単位のメッシュとして取り扱う。このメッシュの大きさは文書集合Sや地図の性質などに応じて任意に設定できるものとする。ここでは概ね500m四方の矩形図形を想定している。
【0036】
各メッシュのスコア算出には、検索キーワードに関連する文書に含まれる地理範囲を反映させるため、S15で出力された結果格納集合Kを利用する。したがって、算出されるスコアは、検索キーワードにマッチする文書の地理範囲とメッシュとの関連度を示している。図4に基づきスコア算出の処理内容を説明すれば、前記スコア算出部9は、処理が開始されると前記地図画面の表示範囲内に含まれる各メッシュiについて次の処理を繰り返す(S21.S21a)。
【0037】
まず、処理対象のメッシュiのスコアSiを「Si=0」の初期値とする(S22)。つぎに結果格納集合K中、メッシュiの位置に対応する地理範囲、即ちメッシュiを包含する地理範囲を探索し、探索された地理範囲毎にS24の処理を繰り返す(S23.S23a)。S24では、「メッシュiを包含する地理範囲の値N=1/地理範囲の広さ(面積)」を算出し、算出結果をSiに加算する。ここで「N=地理的範囲の広さ(面積)の逆数」とするのは、メッシュiを包含する地理的範囲の広さ(面積)に反比例させてスコアSiを算出するためである。例えばメッシュiが「東京都千代田区大手町二丁目」の矩形であれば、地理範囲「東京都千代田区大手町」は該メッシュi以外も包含するため、地理的範囲「東京都千代田区大手町二丁目」とスコアSiに与える影響を等価とする必要は無い。この場合には地理範囲「東京都千代田区大手町」の値Nを、地理的範囲「東京都千代田区大手町二丁目」の値Nよりも小さくし、文書の地理的表現と前記地図画面の表示範囲との関連性を正確に把握する。
【0038】
このようにメッシュiを包含する地理範囲毎に値NをスコアSiに順次加算していくことにより(S23.S23a)、処理対象のメッシュiのスコアSiが算出される。したがって、メッシュ毎にS22〜S24の処理を繰り返すことで(S21.S21a)、前記地図画面の表示範囲に含まれる全メッシュのスコアが算出され、これをもって処理を終了する。なお、S22.S24のステップについては、非特許文献3の「4−1 ノイズとなる地名の除去」に示すように、文書内の地理範囲を事前にクラスタリングし、ノイズと想定される地理範囲を除去する方法も利用することもできる。
【0039】
S05:前記描画部10は、S04で算出された各メッシュiのスコアSiに基づき送受信部3から送られた前記地図画面の表示範囲に重ね合わせる画像を描画する。ここで描画する画像は、前記地図画面の表示範囲でメッシュi群のスコアS1の大小を表せればよく、例えばスコアSiの大小に応じた棒グラフや色の選択を用いることができる。
【0040】
ここで色の選択による描画を一例に説明すれば、前記地図画面の表示範囲内のすべてのメッシュの領域をスコアSiに応じた色をもって塗りつぶす。このとき色の選択方法は、例えばスコアを概ね「1,000〜1,600」の間になるように正規化し、その値を色温度とみなして対応する色を出力する方法などを用いることが可能である。このように前記地図画面の表示範囲内におけるすべてのメッシュの領域について、何らかの色で塗りつぶした画像を作成し、作成した画像を送受信部3に送る。
【0041】
送受信部3は、前記描画部10から送られた画像をユーザ端末2に送信し、ユーザ端末2の画面表示部に表示させる。ここで画面表示部に表示される色領域は、各メッシュiのスコアSiを示しているため、ユーザに検索キーワードに関連する文書の地理的な分布が提示される。これによりユーザ端末2に表示された地図画面内の各領域について、検索キーワードにマッチする文書群と該各領域との関連性とを示すことができる。このとき色領域をユーザがクリックすれば、該領域の地理的範囲に関連する検索キーワードを含む文書の一覧表示に画面が切り替わる。
【0042】
このように検索キーワードおよび特定の地理範囲と関連性を持つ文書を検索するにあたって、検索キーワードに関連する文書の地理的な分布が画面上に表示されるため、ユーザに検索キーワードにマッチする文書群と地理的範囲との関連性を容易に把握可能な情報検索サービスを提供できる。この結果、従来の方法によれば検索キーワードと地理範囲の双方の条件を満たす文書を探すためには、様々な地理的範囲の指定を試行しなければならなかったものの、前記装置1によればユーザはその試行回数を削減でき、検索効率の向上に貢献することができる。
【0043】
なお、本発明は上記実施形態に限定されるものではなく、各請求項に記載された範囲内で各種の変形が可能である。例えばユーザ端末2の記憶装置(ハードディスクドライブ装置やメモリカードなど)に過去に表示した地図画面の範囲を記憶し、該記憶装置の記憶データを検索に用いることもできる。この場合には該記憶データを読み込んで検索キーワードと併せて前記装置1に送信して検索を命令すればよい。
【0044】
≪プログラムなど≫
本発明は、前記装置1の各部3〜10の一部もしくは全部として、コンピュータを機能させる文書検索プログラムとして構成することもできる。このプログラムによれば、S01〜S05.S11〜S15.S21〜S24の一部あるいは全部をコンピュータに実行させることが可能となる。
【0045】
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
【符号の説明】
【0046】
1…文書検索装置
2…ユーザ端末
3…送受信部
4…文書検索部
5…転置インデックスDB
6…地理範囲特定部(地理範囲特定手段)
7…文書内正規住所DB(第1のデータベース)
8…正規住所−地理範囲DB(第2のデータベース)
9…メッシュ地理スコア算出部(スコア算出手段)
10…地図重畳画像描画部(画像描画手段)

【特許請求の範囲】
【請求項1】
ユーザ端末に入力された検索キーワードと該端末に表示された地図画面の範囲とに関連する電子文書を検索する装置であって、
前記検索キーワードに関連する各電子文書から地理的表現を抽出し、抽出された各地理的表現の示す地理範囲を特定する地理範囲特定手段と、
前記地図の範囲を任意単位で区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出するスコア算出手段と、
前記各メッシュのスコアを前記地図画面の範囲に反映させた画像を描画し、ユーザに提示する画像描画手段と、
を備えることを特徴とする文書検索装置。
【請求項2】
検索対象の各電子文書に出現しうる地名表現の正規住所を格納する第1のデータベースと、正規住所に対応する地理範囲の位置情報を格納する第2のデータベースとをさらに備え、
地理範囲特定手段は、第1のデータベースを参照して検索キーワードに関連する各電子文書の地理的表現の示す正規住所を抽出し、
第2のデータベースを参照して抽出された正規住所に応じた最小の地理範囲を特定することを特徴とする請求項1記載の文書検索装置。
【請求項3】
スコア算出手段は、前記メッシュを包含する前記地理範囲の広さに反比例させて前記スコアを算出する
ことを特徴とする請求項1または2のいずれか1項に記載の文書検索装置。
【請求項4】
画像描画手段は、前記メッシュ群のスコアの大小を表す画像を描画することを特徴とする請求項1〜3のいずれか1項に記載の文書検索装置。
【請求項5】
ユーザ端末に入力された検索キーワードと該端末に表示された地図画面の範囲とに関連する電子文書を検索する装置の文書検索方法であって、
前記検索キーワードに関連する各電子文書から地理的表現を抽出し、抽出された各地理的表現の示す地理範囲を特定する地理範囲特定ステップと、
前記地図の範囲を任意単位で区切ったメッシュのスコアを、該メッシュを包含する前記地理範囲の広さに応じて算出するスコア算出ステップと、
前記各メッシュのスコアを前記地図画面の範囲に反映させた画像を描画し、ユーザに提示する画像描画ステップと、
を有することを特徴とする文書検索方法。
【請求項6】
地理範囲特定ステップは、検索対象の各電子文書に出現しうる地名表現の正規住所を格納する第1のデータベースを参照して、検索キーワードに関連する各電子文書の地理的表現の示す正規住所を抽出するステップと、
正規住所に対応する地理範囲の位置情報を格納する第2のデータベースを参照して、前記抽出された正規住所に応じた最小の地理範囲を特定するステップと、
を有することを特徴とする請求項5記載の文書検索方法。
【請求項7】
スコア算出ステップは、前記メッシュを包含する前記地理範囲の広さに反比例させて前記スコアを算出する
ことを特徴とする請求項5または6のいずれか1項に記載の文書検索方法。
【請求項8】
画像描画ステップは、前記メッシュ群のスコアの大小を表す画像を描画することを特徴とする請求項5〜7のいずれか1項に記載の文書検索装置。
【請求項9】
請求項1〜4のいずれか1項に記載の文書検索装置の各手段としてコンピュータを機能させるための文書検索プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2012−155468(P2012−155468A)
【公開日】平成24年8月16日(2012.8.16)
【国際特許分類】
【出願番号】特願2011−13073(P2011−13073)
【出願日】平成23年1月25日(2011.1.25)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】