説明

情報処理装置、情報処理方法、およびプログラム

【課題】従来の情報処理装置においては、地名を用いた検索では適切な情報が得にくいという課題があった。
【解決手段】地域との関連性が高い文字列である地域特徴語と、当該地域特徴語との関連性の高い地域を含む領域を示す情報である領域情報とが対応付けられて格納されている地域特徴語格納部101と、位置を示す情報である位置情報を取得する位置情報取得部102と、位置情報取得部102が取得した位置情報が示す位置を含む領域を示す領域情報に対応した地域特徴語を、地域特徴語格納部101から取得する地域特徴語取得部103と、地域特徴語取得部103が取得した地域特徴語を出力する地域特徴語出力部104とを備えた。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、地域に関連した情報の検索を行う際に利用可能な情報処理装置等に関するものである。
【背景技術】
【0002】
従来の情報処理の技術として、自動車内のユーザに対し、その位置情報に基づいて、ユーザの近傍に存在する地名を取得し、当該地名を検索クエリとして用いて検索を行うことで、地域性の高いいわゆるBlogコンテンツを抽出し、可聴化して提示するものが知られていた。(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】群 宏志、外2名、"地域Blog情報の可聴化インタフェースの提案と音声化に適したテキストコンテンツの抽出手法"、DEWS2006
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記のように検索対象がBlogコンテンツのように、予め限られたコンテンツである場合は良いが、検索対象をBlogコンテンツに限定せずにWEB等から検索を行う場合においては、地名は検索条件としては、検索結果を十分に絞り込み可能なものであるとはいえず、また、地名を用いた検索では、通常の検索サイト等においては、その地名を含む都道府県庁や役場等のWEBページ等が検索されることが多いため、上記のように地名を検索条件として用いた検索では、地域についての特徴的な事象に関するWEBページ等が必ずしも検索結果として得られないという課題があった。したがって、地域等について特徴的な様々な事象の情報を知りたい場合、上記のように地名を用いた検索クエリによる検索では適切な情報が得ることが困難である、という課題があった。
【課題を解決するための手段】
【0005】
本発明の情報処理装置は、地域との関連性が高い文字列である地域特徴語と、当該地域特徴語との関連性の高い地域を含む領域を示す情報である領域情報とが対応付けられて格納されている地域特徴語格納部と、位置を示す情報である位置情報を取得する位置情報取得部と、前記位置情報取得部が取得した位置情報が示す位置を含む領域を示す前記領域情報に対応した地域特徴語を、前記地域特徴語格納部から取得する地域特徴語取得部と、前記地域特徴語取得部が取得した地域特徴語を出力する地域特徴語出力部とを備えた情報処理装置である。
【0006】
かかる構成により、地域に特徴的な情報を検索するために適切な文字列の情報を提供することができる。このため、例えば、ユーザが地域に特徴的な事象等を検索する際の処理を簡略化することができる。
【0007】
また、本発明の情報処理装置は、前記情報処理装置において、地域を示す情報である地域情報を受け付ける地域情報受付部と、前記地域情報受付部が受け付けた地域情報を含む検索条件を用いて検索を行い、当該地域情報が示す地域に関連した情報である地域関連情報を取得する地域関連情報取得部と、前記地域関連情報取得部が取得した地域関連情報から、前記地域特徴語を抽出する地域特徴語抽出部と、前記地域特徴語抽出部が抽出した地域特徴語を、前記地域情報が示す地域を含む前記領域情報と対応付けて前記地域特徴語格納部に蓄積する地域特徴語蓄積部とを更に備えた情報処理装置である。
【0008】
かかる構成により、ユーザ等から受け付けた地域情報を用いて、地域特徴語を抽出して、領域情報と対応付けて、地域特徴語格納部に蓄積することができる。これにより、地域特徴語を追加していくことができる。この結果、例えば地域特徴語の辞書となるデータベース等を構築することが可能となる。
【0009】
また、本発明の情報処理装置は、前記情報処理装置において、前記地域情報受付部は、複数の前記地域情報を受け付け、前記地域関連情報取得部は、前記地域情報受付部が受け付けた前記複数の地域情報をそれぞれ含む検索条件を用いて検索を行い、各地域情報が示す地域の地域関連情報をそれぞれ取得し、前記地域特徴語抽出部は、前記地域関連情報取得部が取得した一の地域情報が示す地域の地域関連情報に出現する文字列について、当該一の地域情報が示す地域の地域関連情報内における出現頻度と、前記複数の地域情報が示す複数の地域の地域関連情報内における、当該文字列と一致する文字列を含む地域関連情報の出現頻度とを用いて、前記文字列の、地域との関連の強さを示す情報である地域特徴度を算出し、当該地域特徴度が所定の条件を満たす前記文字列である地域特徴語を抽出し、前記地域特徴語蓄積部は、前記地域特徴語抽出部が抽出した地域特徴語を、前記一の地域情報が示す地域を含む前記領域情報と対応付けて前記地域特徴語格納部に蓄積する情報処理装置である。
【0010】
かかる構成により、地域特徴語を、ユーザ等から受け付けた地域情報を用いて取得した地域関連情報から、文字列の出現頻度を利用して抽出することができる。これにより、例えば、地域に特徴的な文字列だけを選択的に地域特徴度として蓄積していくことが可能となる。
【0011】
また、本発明の情報処理装置は、前記情報処理装置において、前記地域情報受付部は、複数の地域情報の位置に関する情報を更に受け付け、前記地域特徴語抽出部が複数の地域情報についてそれぞれ抽出および算出した一以上の地域特徴語およびその地域特徴度と、前記地域情報の位置に関する情報を用いて取得した複数の地域間の距離の情報とを用いて、類似する前記地域情報をクラスタリングするクラスタリング部とを更に備え、前記地域特徴語蓄積部は、前記一以上の地域特徴語と、前記クラスタリングにより一のクラスタにまとめられた地域情報が示す地域を含む領域情報とを対応付けて前記地域特徴語格納部に蓄積する情報処理装置である。
【0012】
かかる構成により、地域特徴語が類似する地域をまとめて構成した領域に、地域特徴語を対応付けて蓄積することができる。これにより、例えば、入力された位置情報に対応する地域に類似する地域の地域特徴語も出力することが可能となり、ユーザに、入力された位置情報に関連する地域の地域特徴語を提示することが可能となる。
【0013】
また、本発明の情報処理装置は、前記情報処理装置において、前記地域特徴語は、前記地域との関連の強さを示す情報である地域特徴度と対応付けられて格納されており、前記地域特徴語取得部は、前記地域特徴度に応じて前記地域特徴語を取得する情報処理装置である。
【0014】
かかる構成により、例えば、領域情報が示す地域に含まれる地域との関連度の高さが高い地域特徴度を優先的に取得して出力することができる。
【0015】
また、本発明の情報処理装置は、前記情報処理装置において、前記地域関連情報取得部は、前記地域情報受付部が受け付けた前記複数の地域情報をそれぞれ含む検索条件を用いて、WEBページの検索を行い、各地域情報が示す地域のWEBページの情報である地域関連情報をそれぞれ取得する情報処理装置である。
【0016】
かかる構成により、多種多様な広い範囲の情報の中から地域特徴語を抽出することができ、例えば、地域特徴語の精度、即ち抽出された地域特徴語が地域に特徴的な文字列であることを示す度合い等を向上させることができる。
【0017】
また、本発明の情報処理装置は、前記情報処理装置において、前記地域特徴語出力部が出力した地域特徴語を含む検索条件を生成する検索条件生成部と、前記検索条件作成部が作成した検索条件を用いて検索を行い、検索結果を示す情報を取得する検索部と、前記検索部の検索結果を示す情報を出力する検索結果出力部とを更に備えた情報処理装置である。
【0018】
かかる構成により、ユーザ等が指定した位置情報が示す位置に応じた地域特徴語を用いて生成した検索条件を用いて適切な検索を行うことができる。これにより、地域に特徴的な情報を容易に提供することが可能となる。
【0019】
また、本発明の情報処理装置は、前記情報処理装置において、前記地域特徴語出力部は、地域特徴語取得部が取得した地域特徴語をリスト表示し、前記リスト表示された地域特徴語のうちの一以上の地域特徴語の指定を受け付ける指定受付部とを更に備え、前記検索条件生成部は、前記地域特徴語出力部が出力した地域特徴語のうちの、前記指定受付部が指定を受け付けた地域特徴語を用いて検索条件を生成する情報処理装置である。
【0020】
かかる構成により、ユーザ等が、検索条件を作成する際の補助や、検索に用いられるキーワード等の提案等を行うことができる。
【0021】
また、本発明の情報処理装置は、前記情報処理装置において、前記領域情報は、領域の範囲を示す情報であり、前記位置情報取得部は、ユーザの存在する位置を示す情報である前記位置情報を取得し、前記地域特徴語取得部は、前記位置情報取得部が取得した位置情報が示す位置を含む範囲を示す領域情報を検出し、当該領域情報に対応づけられた地域特徴語を、前記地域特徴語格納部から取得する情報処理装置である。
【0022】
かかる構成により、ユーザの存在する位置についての地域特徴度情報を容易に取得することができる。
【0023】
また、本発明の情報処理装置は、前記情報処理装置において、前記地域特徴語は、時期を示す情報である時間情報と対応付けられて地域特徴語格納部に格納されており、前記位置情報取得部は、時刻情報を更に取得し、前記地域特徴語取得部は、前記時刻情報が示す時刻を含む時間情報と対応付けられた地域特徴語であって、前記位置情報取得部が取得した位置情報が示す位置を含む領域を示す前記領域情報に対応した地域特徴語を、前記地域特徴語格納部から取得する情報処理装置である。
【0024】
かかる構成により、時刻情報に応じた地域特徴語を選択的に取得することができる。これにより、例えば、時刻情報が示す時刻にのみ、利用可能な事象等を示す地域特徴語だけを選択的に取得したりすることが可能となる。
【0025】
また、本発明の情報処理装置は、前記情報処理装置において、前記地域特徴語は、分野を示す情報である分野情報と対応付けられて地域特徴語格納部に格納されており、前記位置情報取得部は、分野を指定する情報である分野指定情報を更に取得し、前記地域特徴語取得部は、前記分野指定情報が示す分野を含む分野情報と対応付けられた地域特徴語であって、前記位置情報取得部が取得した位置情報が示す位置を含む領域を示す前記領域情報に対応した地域特徴語を、前記地域特徴語格納部から取得する情報処理装置である。
【0026】
かかる構成により、分野指定情報に応じた地域特徴語を選択的に取得することができる。これにより,ユーザの望む分野に関する地域特徴語を選択的に取得することができる。
【発明の効果】
【0027】
本発明による情報処理装置等によれば、地域に特徴的な情報を検索するために適切な情報を提供することができる。
【0028】
また、このような情報を含む検索条件を用いた適切な検索を行うことが可能な情報処理装置等を提供することができる。
【図面の簡単な説明】
【0029】
【図1】本発明の実施の形態における情報処理装置のブロック図
【図2】同情報処理装置の動作について説明するフローチャート
【図3】同情報処理装置の概念図
【図4】同情報処理装置の動作を説明するための、地域情報のリストを示す図
【図5】同情報処理装置の動作を説明するための、地域関連情報から抽出された地域特徴語の一例を示す図
【図6】同情報処理装置の動作を説明するための、地域範囲情報管理表の一例を示す図
【図7】同情報処理装置の動作を説明するための、地域特徴語管理表の一例を示す図
【図8】同情報処理装置の動作を説明するための、地域特徴語のリストの表示例を示す図
【図9】同情報処理装置の動作を説明するための、検索結果の表示例を示す図
【図10】同情報処理装置の変形例を示す図
【図11】同情報処理装置の変形例を示す図
【図12】本発明の実施の形態におけるコンピュータシステムの外観一例を示す模式図
【図13】本発明の実施の形態におけるコンピュータシステムの構成の一例を示す図
【発明を実施するための形態】
【0030】
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0031】
(実施の形態)
図1は、本実施の形態における情報処理装置1のブロック図である。
【0032】
情報処理装置1は、地域特徴語格納部101、位置情報取得部102、地域特徴語取得部103、地域特徴語出力部104、地域情報受付部105、地域関連情報取得部106、地域特徴語抽出部107、クラスタリング部108、地域特徴語蓄積部109、検索条件生成部110、検索部111、検索結果出力部112、指定受付部113、および地域範囲情報格納部114を備えている。
【0033】
地域特徴語格納部101には、地域との関連性が高い文字列である地域特徴語と、当該地域特徴語との関連性の高い地域を含む領域を示す情報である領域情報とが対応付けられて格納され得る。ここで述べる文字列とは例えば単語である。ただし、複合語も単語と考えて良い。地域特徴語は、例えば、対応する領域情報が示す領域に含まれる地域に対する依存度が高い事象等についての文字列の情報である。また、地域特徴語は、例えば、一部の地域のみに依存して、あるいは関連して出現するような事象等を表すキーワード等の文字列の情報であってもよい。地域特徴語は、例えば、地域における関連性が高い事象についての文字列の情報である。具体的には、地域特徴語は、名産品や地域食品やお土産等の地域特有のものや、お祭りや伝統行事等のイベント、旧跡、名所、建物、方言等の言葉等である。地域特徴語は、ある地域に関するコンテンツに出現し、その他の地域に関するコンテンツには、あまり出現しない事象等である。地域特徴語は、具体的には、「ねぶた祭り」や、「おわら風の盆」、「だんじり祭り」等の地域特有の祭りの名前や、「だやい」、「よだきい」、「おおきに」等の方言等である。ここで述べる地域とは、例えば、都道府県、市、区、郡、町、村等の行政単位としての地域である。また、文化圏等によって分類した地域であってもよい。あるいは、これらの一部を組み合わせた地域、例えば、東北地方や関東地方、港湾地区等の地区や、都市等であっても良い。地域特徴語は、地名や住所等のみの情報を含まない情報であることが好ましい。ここで述べる領域とは、例えば、対応する地域特徴語同士が類似している一以上の地域により構成される領域であることが好ましい。例えば、一の領域に、二つの地域が含まれる場合、この二つの地域のそれぞれに関連性の高い地域特徴語が、類似していることが好ましい。つまり、地域特徴語の類似性の高い地域同士が、一の領域を構成することが好ましい。また、一の領域を構成する地域間の距離は短いことが好ましい。ここで述べる一の領域は、例えば、後述するクラスタリング部108により、地域特徴語の類似性等によって一のクラスタに分割された一以上の地域で構成される領域である。なお、一の領域は、一の地域のみから構成されても良い。地域特徴語に対応する領域を構成する地域が一つである場合、その地域だけが地域特徴語が類似した領域であると考えれてもよい。
【0034】
領域情報は、領域を特定できる情報であれば良い。例えば、領域を識別可能な識別情報等であっても良い。領域情報は、領域のインデックスとなる情報であっても良い。また、領域情報は、領域の範囲を示す情報であってもよい。領域の範囲を示す情報は、領域の境界線(輪郭)を定義可能な情報と考えても良い。領域情報は、例えば、領域の境界線(輪郭)を定義する情報、例えば、領域の境界線を、緯度や経度と対応付けた座標情報やベクター情報で示す情報である。また、領域の範囲を示す情報である領域情報は、領域を構成する一以上の地域を、例えば地域名等の地域の識別情報等を用いて指定する情報であってもよい。また、この場合、当該地域に対して、当該地域の境界線を定義する情報を、図示しない格納部等に予め格納しておくことで、結果的に、当該地域により構成される領域の境界線を定義する情報が取得することが可能である。なお、領域情報は、領域の範囲、即ち、どこからどこまでの範囲が領域であるかを特定可能な情報であれば、領域内に含まれる住所や地名や駅名等を示す情報であっても良い。
【0035】
なお、地域特徴語は、地域との関連の強さを示す情報である地域特徴度と対応付けられて、当該地域特徴度とともに、地域特徴語格納部101に格納されていてもよい。地域との関連の強さは、ここでは、対応する領域情報が示す領域との関連の強さと考えても良い。地域特徴度は、関連の強さを示すことができる情報であれば、数値や、「高」、「低」等の値など、そのデータ形式等は問わない。また、地域特徴語は、時期を示す情報である時間情報と対応付けられて地域特徴語格納部101に格納されていてもよい。ここで述べる時期とは、季節や、時間帯や、期間等である。時間情報は、例えば、開始や終了の年月日や時刻等を示す情報である。また、地域特徴語は、地域特徴語の分野を示す情報である分野情報と対応付けられて地域特徴語格納部101に格納されていても良い。分野は、地域特徴語が属する分野であり、地域特徴語の属性と考えても良い。また、分野は地域特徴語の上位概念を示す文字列である上位語であっても良い。例えば、地域特徴語が「関さば」である場合、分野は「食品」や「海産物」等であってもよい。時間情報や、分野情報は、地域特徴語を参照して、適宜ユーザ等が入力デバイス等を介して入力するようにしても良い。また、予め時間情報や分野情報等を用意しておき、後述する地域関連情報取得部106が地域関連情報を取得する際に、当該時間情報や分野情報を検索条件に加えて検索を行うようにし、この検索により得られた地域関連情報から抽出した地域特徴語については、これらの時間情報や分野情報を対応付けるようにしても良い。なお、地域特徴語と、領域情報等が対応付けられているとは、例えば、対応付けられているこれらの情報がデータベース等の一のレコードとして管理されていることである。地域特徴語格納部101に地域特徴語や、領域情報や、地域特徴度や、分野情報や時期情報等の情報が蓄積される過程やタイミング等は問わない。例えば、記録媒体を介して入力されたこれらの情報が地域特徴語格納部101で蓄積されても良い。入力デバイスを介して入力されたこれらの情報が地域特徴語格納部101に蓄積されても良い。また、地域特徴語や、領域情報や、地域特徴度は、後述する地域特徴語蓄積部109により蓄積されても良い。地域特徴語格納部101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0036】
位置情報取得部102は、位置を示す情報である位置情報を取得する。位置情報は、上述した領域情報が示す領域のうちの、いずれかの領域内の位置を指定可能な情報であればよい。位置情報は、例えば、緯度と経度等の座標情報である。ただし、地域名等の地域の識別情報や、住所や駅名等の情報であっても良い。位置情報取得部102は、どのように位置情報を取得しても良い。例えば、図示しない入力デバイス等を介してユーザから入力された位置情報を取得しても良い。また、位置情報取得部102は、ユーザが存在する位置を示す情報である位置情報を取得してもよい。例えば、図示しないGPS(global positioning system)等を用いて取得した座標データを位置情報として取得しても良い。また、位置情報取得部102は、位置情報に加えて、時刻を示す情報である時刻情報を更に取得するようにしても良い。時刻情報は、位置情報を取得した現在の時刻の情報であることが好ましい。なお、時刻情報は年月日の情報を含む情報であっても良い。時刻情報は、例えば、情報処理装置1の内部の時計等から取得しても良いし、NTP(Network Time Protocol)等でNTPサーバ等からネットワーク経由で取得してもよい。なお、ここではネットワーク接続を行う通信手段等の構成については説明を省略する。位置情報取得部102は、位置情報に加えて、分野を指定する情報である分野指定情報を更に取得してもよい。位置情報取得部102は、例えば、図示しない入力デバイス等を介してユーザ等が入力する分野を指定する情報を取得しても良い。位置情報等をユーザ等からテンキーやキーボードやマウス等の入力手段等を介して受け付ける場合、位置情報取得部102は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現しても良い。また、GPS等から位置情報等を取得する場合、位置情報取得部102は、例えば、MPUやメモリ等から実現され得る。位置情報取得部102の処理手順は、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。また、位置情報取得部102は、GPS等を備えていても良いし、備えていなくても良い。
【0037】
地域特徴語取得部103は、位置情報取得部102が取得した位置情報が示す位置を含む領域を示す領域情報に対応した地域特徴語を、地域特徴語格納部101から取得する。具体的には、地域特徴語取得部103は、位置情報取得部102が取得した位置情報が示す位置を含む範囲を示す領域情報を検出し、当該領域情報に対応づけられた地域特徴語を、地域特徴語格納部101から取得する。例えば、領域情報が、領域の境界線の緯度や経度の座標等を定義する情報を含むものである場合、位置情報が示す緯度や経度の座標が、地域特徴語格納部101に格納されている地域特徴語に対応付けられて領域情報のうちの、いずれかの領域情報が示す範囲に含まれているか否かを判断する。そして、いずれかの領域情報が示す範囲に含まれている場合、当該領域情報に対応する地域特徴語を、地域特徴語取得部103が地域特徴語格納部101から読み出す。また、例えば、領域情報が地域名等で構成されている場合、位置情報が示す地域名を含む領域情報に対応する地域特徴語を、地域特徴語取得部103が地域特徴語格納部101から読み出素ようにしても良い。また、地域特徴語に地域特徴度が対応付けられている場合、地域特徴語取得部103は、地域特徴度に応じて地域特徴語を取得するようにしてもよい。例えば、位置情報取得部102が取得した位置情報が示す位置を含む領域を示す領域情報に対応した地域特徴語のうちの、対応する地域特徴度が高いものから順に予め指定された所定数の地域特徴語を取得しても良い。また、対応する地域特徴度の値が、領域情報に対応した地域特徴語に対応した地域特徴度の平均以上のものだけを取得しても良い。
【0038】
また、地域特徴語が時刻情報と対応付けられている場合、地域特徴語取得部103は、位置情報取得部102が取得した時刻情報が示す時刻を含む時間情報と対応付けられた地域特徴語であって、位置情報取得部102が取得した位置情報が示す位置を含む領域を示す領域情報に対応した地域特徴語を、地域特徴語格納部101から取得するようにしても良い。例えば、ある地域特徴語に対応付けられた時間情報が、3月から5月までの期間を示す情報である場合において、位置情報取得部102が取得した時刻情報が4月18日であれば、当該地域特徴語は、位置情報取得部102が取得した時刻情報が示す時刻を含む時間情報と対応付けられた地域特徴語であると判断される。
【0039】
また、地域特徴語が分野情報と対応付けられている場合、地域特徴語取得部103は、位置情報取得部102が取得した分野指定情報が示す分野を含む分野情報と対応付けられた地域特徴語であって、位置情報取得部102が取得した位置情報が示す位置を含む領域を示す領域情報に対応した地域特徴語を、地域特徴語格納部101から取得するようにしてもよい。例えば、ある地域特徴語に対応付けられた分野情報が、「食べ物」である場合において、位置情報取得部102が取得した分野指定情報が「食べ物」であれば、当該地域特徴語は、位置情報取得部102が取得した分野指定情報が示す分野を含む分野情報と対応付けられた地域特徴語であると判断される。
【0040】
地域特徴語取得部103は、通常、MPUやメモリ等から実現され得る。地域特徴語取得部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0041】
地域特徴語出力部104は、地域特徴語取得部103が取得した一以上の地域特徴語を出力する。ここでの、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積や一時記憶、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。地域特徴語出力部104は、地域特徴語取得部103が取得した一以上の地域特徴語を用いてリストを構成して、地域特徴語をリスト表示してもよい。また、リスト表示する際に、地域特徴語に対応する地域特徴度に応じて地域特徴語を配列しても良い。例えば、地域特徴度の高い順、即ち、地域との関連性の高い順に、上から順に、あるいは下から順に、地域特徴語を配列しても良い。また、地域特徴語出力部104は、地域特徴語取得部103が取得した一以上の地域特徴語を図示しないメモリ等に一時記憶するようにし、ユーザが、例えば図示しない入力フィールド等に、文字を入力する毎に、入力された文字列と前方一致する地域特徴語を地域特徴度順に読み出して、いわゆるドロップダウンリスト等を構成し表示するようにしても良い。なお、ここで述べるプログラムとは、コンピュータの行う処理(演算・動作・通信など)の手順を指示したもののことである。地域特徴語出力部104は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。地域特徴語出力部104は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。また、メモリ等に地域特徴語を出力、即ち蓄積するためのMPU等を備えていても良い。
【0042】
地域情報受付部105は、地域を示す情報である地域情報を一以上受け付ける。ここで述べる地域は、上述した地域と同様のものである。地域情報は、例えば、地域名等の地域を識別可能な情報である。地域情報は、例えば、検索用のWEBサイト(検索サイト)等で提供される検索用のプログラム等において検索のキーワードまたはその一部として利用可能な文字列の情報である。また、地域情報受付部105は、複数の地域情報の位置に関する情報を更に受け付けてもよい。複数の地域情報の位置に関する情報とは、言い換えれば、複数の地域情報がそれぞれ示す地域の位置に関する情報である。複数の地域情報の位置に関する情報は、結果的に、複数の地域間の距離を算出可能な情報であればよい。例えば、複数の地域情報が示す地域の位置を示す、緯度や経度の座標等で示す情報であっても良いし、複数の地域情報が示す地域間の距離を示す情報であってもよい。地域の位置を示す情報は、地域内のどの位置であっても良く、例えば、地域の中心と考えられる位置や重心等の位置の情報であっても良いし、地域の境界上の一の位置を示す情報であっても良い。地域の中心と考えられる位置は、例えば地域の行政の中心、例えば、都道府県庁や、役所等が存在する位置と考えても良い。ここで述べる受け付けとは、ユーザ等によるキーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。地域情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。地域情報受付部105は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0043】
地域関連情報取得部106は、地域情報受付部105が受け付けた地域情報を含む検索条件を用いて検索を行い、当該地域情報が示す地域に関連した情報である一以上の地域関連情報を取得する。地域関連情報は、例えば、地域に関連した情報を含むWEBページの情報である。WEBページの情報は、いわゆるWEBブラウザ等で閲覧やダウンロード可能な情報であれば良く、例えば、HTML形式やXML形式の情報等である。ここでの地域関連情報は、文字列の情報を含む情報である。なお、ここでは、WEB等からダウンロード可能な地域に関連した情報もWEBページの情報と考える。例えば、地域関連情報取得部106は、地域情報受付部105が受け付けた複数の地域情報をそれぞれ含む検索条件を用いて、WEBページの検索を行い、各地域情報が示す地域のWEBページの情報である地域関連情報をそれぞれ取得する。具体的には、地域関連情報取得部106は、地域情報受付部105が受け付けた地域情報を含む検索条件を構成し、当該検索条件を、予め指定された所定のWEB上の、WEBページを検索するための検索サイト等にインターネット等のネットワーク経由で送信する。そして、検索サイトが検索条件を用いて実行した検索の結果を、ネットワークを介して受信する。検索サイトとは、例えばWEBページを検索するための検索用プログラム等を提供するWEBサイトである。通常、この検索結果は、検索条件に合致する複数のWEBページ等のURL等のアドレスを示す情報であるため、この検索結果が示すWEBページの情報を、WEBサイト等からネットワーク経由で取得する。この取得した情報が地域関連情報である。通常、検索サイト等の検索結果は複数のアドレスの情報であることが多いため、地域関連情報を取得する際には、検索結果として得られたアドレス情報のうちの、検索条件に対する合致の度合いが高い予め指定された所定数のアドレス情報だけを用いることが好ましい。検索条件とは、例えば、地域情報受付部105が受け付けた地域情報を用いて構成された文字列、即ちキーワード列である。この場合、検索条件が、地域情報のみから構成されていても良い。また、検索条件は、例えば、地域情報を含む検索クエリであってもよい。例えば、地域情報をwhere節に含むSQL文であってもよい。地域関連情報取得部106は、地域情報受付部105が複数の地域情報を受け付けた場合、地域情報受付部105が受け付けた複数の地域情報をそれぞれ含む検索条件を用いて検索を行い、各地域情報が示す地域の地域関連情報をそれぞれ取得する。取得した地域関連情報は、例えば、図示しない記憶媒体等に蓄積される。なお、地域関連情報取得部106は、インターネット等のネットワークと接続された図示しない送信部や受信部等を用いて、検索条件や検索結果の送受信等を行うが、ここでは、送信部や受信部等の構成等の説明は省略する。また、地域関連情報取得部106は、必ずしもWEBページの検索を行い、各地域情報が示す地域のWEBページの情報である地域関連情報をそれぞれ取得する必要はない。例えば、地域関連情報のデータベース等が予め図示しない格納部等に用意されている場合に、当該データベースから、地域情報を含む検索条件を用いて地域関連情報を取得しても良い。地域関連情報取得部106は、通常、MPUやメモリ等から実現され得る。地域関連情報取得部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0044】
地域特徴語抽出部107は、地域関連情報取得部106が取得した地域関連情報から、地域特徴語を抽出する。ここで、地域特徴語抽出部107は、一の地域情報に対応して取得した地域関連情報から、出現頻度の高い文字列を地域特徴語として取得しても良いが、このようにして取得した地域特徴語は、必ずしも一の地域に特徴的な文字列でないことが考えられる。例えば、他の地域について取得した地域関連情報においても、同様に出現頻度が高い文字列である場合が考えられるからである。
【0045】
このため、例えば、地域情報受付部105が複数の地域情報を受け付け、地域関連情報取得部106が、各地域情報について、それぞれ一以上の地域関連情報を取得するようにしたうえで、地域特徴語抽出部107は、地域関連情報取得部106が取得した一の地域情報が示す地域の地域関連情報に出現する文字列について、当該一の地域情報が示す地域の地域関連情報内における出現頻度と、複数の地域情報が示す複数の地域の地域関連情報内における、当該文字列と一致する文字列を含む地域関連情報の出現頻度とを用いて、文字列の、地域との関連の強さを示す情報である地域特徴度を算出する。そして、当該地域特徴度が所定の条件を満たす文字列である地域特徴語を抽出する。ここでの文字列は、地域関連情報に出現する文字列のうちの所定の条件を満たす文字列である。例えば、特定の品詞の文字列である。なお、地域関連情報取得部106が一の地域情報が示す地域について複数の地域関連情報を取得した場合、地域特徴語抽出部107は、当該複数の地域関連情報を一の地域関連情報として扱う
【0046】
具体的には、地域特徴語抽出部107は、地域関連情報取得部106が取得した一の地域情報が示す地域の地域関連情報から、形態素解析により地域関連情報内の文字列(例えば単語)の品詞を取得し、地域関連情報内の文字列のうちの特定の品詞の文字列、例えば、名詞と形容詞の文字列のみを抽出する。形態素解析のシステムとしては、例えば、「Mecab(和布蕪)」(http://mecab.sourceforge.net/)や、「ChaSen(茶筌)」(http://chasen.naist.jp)等が利用可能である。
【0047】
次に、形態素解析で抽出した名詞と形容詞の文字列の中から、各地域の地域関連情報において特徴的な文字列の抽出する。この抽出には、ここでは、いわゆるtf−idfの手法を利用する。具体的には、一の地域の地域関連情報内から抽出した各文字列について、次の式を用いて地域特徴度を算出する。なお、tf−idfについては、公知技術であるので詳細な説明は省略する。tf−idfについては、例えば、http://mikilab.doshisha.ac.jp/dia/research/report/2008/1110/002/report20081110002.html」等を参考されたい。
【0048】
【数1】

【0049】
DLCは地域特徴度(Degree of Local Characteristic)、tfは一の地域の地域関連情報内におけるある文字列の出現頻度、dfはその他の複数の地域の地域関連情報のうちの、同じ文字列を含む地域関連情報の出現頻度をそれぞれ表す。その他の複数の地域は、地域情報受付部105が受け付けた地域情報が示す地域のうちの、一の地域以外の全ての地域であることが好ましいが、その一部の地域であっても良い。なお、通常は、地域情報受付部105が受け付ける地域情報は、「prefecture(県)、city(市)、ward(区)、town(町)」等の地域レベルのうちの、一の地域レベルについての情報である。一の地域レベルの地域情報が示す地域は、通常、重複しない地域である。上記のような式を用いることで、一の地域の地域関連情報(ここでは、WEBページ)で頻出する文字列のうちの、その他の地域の地域関連情報では出現頻度が少ない、もしくは出現しない文字列ほど、地域特徴度(DLC)の値が高くなる。そして、地域レベル別に、地域特徴度の値が高いものを、その一の地域の地域特徴語として抽出する。ここでは、例えば、地域特徴度の値が、予めユーザ等が指定した閾値以上のものを地域特徴語と指定取得する。このようにすることで、一の地域において出現頻度が高く、他の地域においては出現頻度が高くない文字列を、地域特徴語として取得することが可能となる。なお、地域特徴語抽出部107は、複数の地域情報のそれぞれについても、同様に、順次地域特徴語を抽出するようにして良い。
【0050】
地域特徴度の算出には、tf−idfの手法を用いているが、対象としている地域のレベル(level)により、抽出される地域特徴語や地域特徴度は異なるものとなる。地域のレベルをどのようなレベルに設定するかによって、地域特徴度の計算時間と、その結果の精度に大きな影響が現れる。したがって、どのようなレベルの地域情報を用いるかは、その用途や状況等に応じて適宜選択するようにすればよい。なお、地域のレベルとは地域の階層を示す情報と考えても良い。
【0051】
また、上述したように、通常は、地域情報受付部105が受け付ける地域情報は、「prefecture(県)、city(市)、ward(区)、town(町)」等の地域レベルのうちの、一の地域レベルについての情報であるが、地域情報受付部105は、地域レベル別に、異なる複数のレベルの地域情報を受け付けるようにしても良い。地域情報受付部105が「prefecture(県)、city(市)、ward(区)、town(町)」等の異なった地域レベル別に地域情報を受け付ける場合、地域関連情報取得部106は、地域レベル別に、地域関連情報を取得し、地域特徴語抽出部107は、地域レベル別に地域特徴度を算出するようにし、地域レベル別に、地域特徴語等を取得するようにしても良い。この場合、後述する地域特徴語蓄積部109が、地域特徴語が対応するレベルを示す情報であるレベル情報と対応付けて、地域特徴語格納部101に格納されるようにしても良いし、クラスタリング部108がレベル別の地域についてクラスタリング等を行うようにしてもよい。また、この場合、上述した位置情報取得部102が、位置情報とともに、どのレベル情報と対応付けられた地域特徴語を取得するかを指定するためのレベル指定情報等を取得するようにし、地域特徴語取得部103は、レベル指定情報により指定されたレベル情報に対応した地域特徴語の中から地域特徴語を取得するようにしても良い。あるいは、地域特徴語取得部103は、全てのレベル情報に対応した地域特徴語の中から、レベルに関係なく地域特徴語を取得するようにしても良い。ただし、地域特徴語抽出部107は、上記以外の手法により地域特徴語を抽出してもよい。地域特徴語抽出部107は、通常、MPUやメモリ等から実現され得る。地域特徴語抽出部107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0052】
クラスタリング部108は、地域特徴語抽出部107が複数の地域情報についてそれぞれ一以上の地域特徴語およびその地域特徴度を抽出および算出した場合に、当該複数の地域情報についてそれぞれ抽出および算出した一以上の地域特徴語およびその地域特徴度と、地域情報の位置に関する情報を用いて取得した複数の地域間の距離の情報とを用いて、類似する地域情報をクラスタリングする。
【0053】
例えば、上記のように地域特徴語抽出部107等が各地域毎に地域関連語を取得したとすると、例えば地域のレベルが細分化されすぎている場合等においては、隣接している地域や距離が近い地域間において抽出される地域特徴語が類似している場合がある。このような場合、地域特徴語が類似している複数の地域をそれぞれ個別に一の領域と考えて、地域特徴語を対応付けるよりは、このような地域を併合して構成した領域を一の領域と考えて、当該領域に対して地域特徴語を対応付ける方が、データ量等を削減する上で好ましい。また、併合した地域のうちの一方の地域についての地域特徴語を取得する際に、併合した類似する他の地域についての地域特徴語も補足的に提示されることとなる結果、一方の地域についての検索等を行う際に、その地域がどのような地域であるかをユーザが把握しやすくなるという効果がある。
【0054】
このため、クラスタリング部108は、地域特徴語が類似している地域のクラスタを作成する。ここは、例えば、重心法というクラスタリング手法が利用可能である。重心法については、「http://www.ie.reitaku−u.ac.jp/〜tak/datB/datB_clust.pdf」等を参考されたい。具体的には、まず、一の地域Gの特徴を、以下に示すようなベクトルとして定義する。
【0055】
【数2】

【0056】
ここで、/LCは、地域Gのベクトルであるとする。ここでは、このベクトルを地域特徴語ベクトルと称す。lgは、一の地域におけるある地域特徴語の地域特徴度を表す。lg〜lgは、地域情報受付部105が受け付けた複数の地域から、地域特徴語抽出部107が抽出した地域特徴語を、重複を除外して併合して得られる地域特徴語に対応して設けられたベクトルの要素であり、各要素の値は、例えば、対応する地域特徴語についての地域特徴度の値が用いられる。ただし、地域Gから抽出した地域特徴語に、併合した地域特徴語のうちの一つが含まれていない場合、地域Gの地域特徴語ベクトルにおいて、当該地域特徴語に対応する要素の値は、例えば0とする。なお、併合する地域特徴語は、各地域において抽出された地域特徴語のうちの全てでなくても良く、例えば、地域特徴度(DLC)の値が上位から所定の順位までの地域特徴語であってもよい。
【0057】
クラスタリング部108は、二つの地域G、Gについて地域特徴語抽出部107が取得した地域特徴度を用いてそれぞれ構成した上記式で示したような地域特徴語ベクトルと、地域情報受付部105が受け付けた二つの地域G1、G2の位置に関する情報を用いて取得した二つの地域間の距離とを用いて、以下に示す式を用いて、二つの地域GとGの類似性を判定する。なお、上述したように地域特徴語ベクトル/LCG2を構成するn個のベクトルの要素は、地域特徴語ベクトル/LCG1を構成するn個のベクトルの要素に対応する地域特徴語と同じ地域特徴語についての地域特徴度であるとする。
【0058】
【数3】

【0059】
、w(=1−w)(0≦w,w≦1)は重み、distance(G,G)は、地域GとGとの距離である。なお、地域情報受付部105が受け付けた二つの地域G1、G2の位置に関する情報が、地域間の距離の値であれば、その値をそのまま利用し、二つの地域G、Gの位置に関する情報が、地域の位置を示す情報であれば、この位置間の距離を演算等により算出する。w、wは、試験的に値を変更して地域間の類似度を算出することで、適切と考えられる値をユーザ等が適宜判断して、予め設定しておく。上記の式の値が大きいほど、二つの地域の類似度が高いこととなる。このようにベクトルを比較して二つの地域の類似度を求める手法はベクトル空間法と呼ばれる。ただし、ここでは、二つの地域間の距離の値を要素として組み入れている点で、一般的なベクトル空間法とは異なる。このような距離の要素を加えることで、二つの地域の地域特徴語についての類似度が高くても、二つの地域の距離が大きく離れている場合、二つの地域を同じ領域としてクラスタ化しないようにすることができる。なお、距離の要素を加える必要がない場合、距離の要素は省略しても良い。
【0060】
このような処理を、地域特徴語抽出部107が地域特徴語を抽出した複数の地域から取り出した二つの地域の組合せに対して順次実施して、二つの地域間の類似度を順次算出し、類似している地域の地域特徴度ベクトルを順次まとめていく。まとめる際には、例えば、まとめる対象となる地域特徴語ベクトルの各要素の値を平均した値を持つベクトル、即ち、重心ベクトルを、まとめた後のベクトルとして生成する。この処理を繰り返し行うことで、抽出された地域特徴語が類似する地域をクラスタに分割することができる。また、クラスタリング部108は、例えば、クラスタリングをした結果の重心ベクトルを生成し、そのベクトルにおいて値が高い要素に対応した文字列、即ち、地域特徴度の高い文字列を各クラスタの地域特徴語として取得する。あるいはクラスタリングにより一のクラスタにまとめられる一以上の地域特徴度ベクトルのそれぞれにおける、高い値の要素に対応した地域語、即ち地域特徴度の高い値に対応した地域特徴語を、重複を削除し併合して得られた地域特徴語群を、当該一のクラスタの地域特徴語として取得しても良い。地域特徴度が高いとは、地域特徴度が所定の閾値を超えた値であることや、地域特徴度の値が上位から所定の順位までの値であること等を意味する。地域特徴度は、クラスタリング部108は、クラスタに分割した地域を示す情報、即ち類似する地域を示す情報を、例えば図示しない記憶部等に一時記憶する。また、このクラスタリングされた地域情報に対応して取得された地域特徴語を一時記憶する。
【0061】
クラスタリング部108は、通常、MPUやメモリ等から実現され得る。クラスタリング部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0062】
地域特徴語蓄積部109は、地域特徴語抽出部107が抽出した地域特徴語を、地域情報が示す地域を含む領域情報と対応付けて地域特徴語格納部101に蓄積する。例えば、地域特徴語蓄積部109は、複数の地域情報のうちの一の地域について地域特徴語抽出部107が抽出した地域特徴語を、当該一の地域情報が示す地域を含む領域情報と対応付けて地域特徴語格納部101に蓄積する。例えば、上述したようなクラスタリングが行われない場合等においては、地域特徴語蓄積部109は、一の地域情報が示す地域の境界線等を示す情報を、後述する地域範囲情報格納部114等に地域情報と対応付けて格納されている、当該地域情報が示す地域の境界線を定義する情報等から取得し、この情報を領域情報として地域特徴語と対応付けて蓄積する。あるいは境界線等の情報の代わりに、地域情報等を領域情報として蓄積しても良い。また、上述したように、クラスタリング部108により、地域のクラスタリングが行われた場合、地域特徴語蓄積部109は、一以上の地域特徴語と、クラスタリングにより一のクラスタに分割された地域情報が示す地域を含む領域情報とを対応付けて地域特徴語格納部101に蓄積する。例えば、一のクラスタに分割された一以上の地域情報が示す地域の境界線等を示す情報を、後述する地域範囲情報格納部114等に地域情報と対応付けて格納されている、当該地域情報が示す地域の境界を定義する情報等から取得し、この情報を併合して構成した境界線の情報を領域情報として、地域間の類似度を判断する際に利用された地域特徴語と対応付けて蓄積する。なお、地域範囲情報格納部114等から地域の境界線を定義する情報を取得する代わりに、インターネット等のネットワーク経由で、国土に関する数値情報を提供している情報等を提供しているWEBページ等から地域の境界線や輪郭を示す情報を取得するようにしても良い。また、地域特徴語蓄積部109は、境界線等の情報の代わりに、一のクラスタに分割された一以上の地域の地域情報等を、一の領域情報として蓄積しても良い。また、地域特徴語蓄積部109は、上述した地域特徴語抽出部107が抽出した地域特徴語に対応した地域特徴度を、地域特徴語と対応付けて蓄積してもよい。また、図示しない受付部等を介してユーザ等からキーボード等の入力デバイスを介して入力を受け付けた時刻情報や、分野情報を、地域特徴度と対応付けて蓄積しても良い。地域特徴語蓄積部109は、通常、MPUやメモリ等から実現され得る。地域特徴語蓄積部109の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0063】
検索条件生成部110は、地域特徴語出力部104が出力した地域特徴語を含む検索条件を生成する。検索条件は、例えば、地域特徴語を含むキーワード列である。この場合、地域特徴語が検索条件であっても良い。また、検索条件は、例えば、地域特徴語を含む検索クエリであってもよい。検索条件は、例えば、地域特徴語をwhere節に含むSQL文である。また、検索条件生成部110は、地域特徴語出力部104が出力した地域特徴語のうちの、指定受付部113が指定を受け付けた地域特徴語を用いて検索条件を生成するようにしてもよい。例えば、地域特徴語出力部104がリスト表示した地域特徴語のうちの、後述する指定受付部113等を介してユーザにより指定された地域特徴語を用いて検索条件を生成してもよい。検索条件生成部110は、通常、MPUやメモリ等から実現され得る。検索条件生成部110の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0064】
検索部111は、検索条件作成部110が作成した検索条件を用いて検索を行い、検索結果を示す情報を取得する。検索部111は、インターネット等のネットワークを介して、検索条件を用いてWEBページの検索を行う。なお、検索部111がネットワークを介して検索条件の送信や検索結果の受信を行うための送信部や受信部等については、ここでは説明を省略する。検索部111が行う検索は、上述した地域関連情報取得部106が行う検索と同様である。なお、検索部111が検索結果として取得する情報は、文字列を含む情報に限るものではなく、検索条件に合致した観光名所等の位置情報等であっても良いし、検索条件に合致した画像情報等であっても良い。検索部111が検索結果として取得する情報は、WEBページのアドレスの情報等や、WEBページのコメント等を示した検索サイトによる検索結果を示すWEBページの情報であっても良い。検索部111は、通常、MPUやメモリ等から実現され得る。検索部111の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0065】
検索結果出力部112は、検索部111の検索結果を示す情報を出力する。ここで述べる出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラム等への処理結果の引渡し等を含む概念である。検索結果出力部112は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。検索結果出力部112は、出力デバイスのドライバーソフト、または、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0066】
指定受付部113は、地域特徴度出力部104により、リスト表示された地域特徴語のうちの一以上の地域特徴語の指定を受け付ける。例えば、リスト表示された地域特徴語の一つを、ユーザがマウス等を用いてクリックした場合に、当該地域特徴語に対するクリックが行われたイベントを受け付けることで、地域特徴語の指定を受け付ける。地域特徴語を指定するための入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。指定受付部113は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0067】
地域範囲情報格納部114には、地域情報と、当該地域情報が示す地域の境界線(輪郭)を定義する情報とが対応付けて格納され得る。地域情報の境界線を定義する情報は、上述した領域の境界線を定義する情報と同様であるので、ここでは説明を省略する。地域範囲情報格納部114は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0068】
次に、情報処理装置1の動作について図2のフローチャートを用いて説明する。なお、ここでは、複数の地域情報を用いて地域特徴語を取得する場合を例に挙げて説明する。
【0069】
(ステップS201)地域情報受付部105は、複数の地域情報を受け付けたか否かを判断する。受け付けた場合、ステップS202に進み、受け付けていない場合、ステップS208に進む。
【0070】
(ステップS202)地域関連情報取得部106は、ステップS201において受け付けた複数の地域情報が示す各地域にそれぞれ対応する地域関連情報を、例えば各地域情報を検索のキーワード等として用いてWEBページの検索等を行うことにより取得する。各地域に対応する地域関連情報としては、例えば、予め指定した数の地域関連情報を取得する。
【0071】
(ステップS203)地域特徴語抽出部107は、ステップS201において受け付けた複数の地域情報が示す各地域別に取得した地域関連情報を用いて、形態素解析により、各地域別に所定の文字列を取得する。この所定の文字列は、例えば、形容詞と名詞等の所定の品詞の文字列である。なお、ステップS202において、一の地域について複数の地域関連情報を取得した場合、当該一の地域についての複数の地域関連情報を、一の地域関連情報として扱って、形態素解析を行う。
【0072】
(ステップS204)地域特徴語抽出部107は、tf−idfの手法を用いて、ステップS201において受け付けた複数の地域情報が示す各地域別に地域特徴語を抽出する。具体的には、地域特徴語抽出部107は、ステップS203で各地域別に地域関連情報から取得した文字列のそれぞれについて、当該文字列の取得元の地域関連情報における出現頻度を算出し、当該文字列の取得元以外の残りの地域について取得した地域関連情報のうちの、当該文字列と同じ文字列を含む地域関連情報の出現頻度を算出する。ただし、ステップS202において、一の地域について複数の地域関連情報を取得した場合、当該一の地域についての複数の地域関連情報を、例えばマージ等により一の地域関連情報として扱うものとする。そして、これらの算出した出現頻度の値を、上述した式(1)に入力することで、各文字列の地域特徴度を算出する。そして、算出した地域特徴度が予め指定した所定の閾値以上である文字列を、各地域に対応した地域特徴度として抽出する。算出した地域特徴度は、例えば、抽出した値域特徴語と対応付けてメモリ等の記憶媒体等に一時記憶する。
【0073】
(ステップS205)クラスタリング部108は、ステップS204において算出した地域特徴度を用いて地域別に構成した地域特徴語ベクトルを利用して、類似する地域をクラスタリングする。具体的には、ステップS201において受け付けた複数の地域情報が示す複数の地域のそれぞれについて、式(2)に示すような地域特徴語ベクトルを構成し、二つの地域の地域特徴語ベクトルを上述した式(3)に代入することで、地域間の類似度を順次算出する。そして、算出した類似度の高い地域同士をまとめていくことで、クラスタリングを行う。また、クラスタリングされた地域についての地域特徴語ベクトルを取得する。
【0074】
(ステップS206)地域特徴語蓄積部109は、ステップS205においてクラスタリングにより分割された類似する地域により構成される領域について、領域情報を取得する。例えば、各領域を構成する一以上の地域の地域情報に対応した一以上の地域範囲情報を地域範囲情報格納部114から取得し、当該一以上の地域範囲情報を結合して、領域の境界線を示す領域情報を構成する。
【0075】
(ステップS207)地域特徴語蓄積部109は、ステップS206において取得した領域情報と、当該領域情報が示す領域を構成する地域についてステップS204において取得された地域特徴語と、ステップS204において算出された当該地域特徴語に対応する地域特徴度とを対応付けて地域特徴語格納部101に蓄積する。なお、領域情報をクラスタリングにより取得する際に利用した地域特徴語ベクトルを構成する地域特徴度に対応する地域特徴語を、領域情報と対応付けて地域特徴語格納部101に蓄積してもよい。なお、地域特徴語蓄積部109は、ユーザ等から図示しない受付部等を介して受け付けた分野情報や時間情報等を、地域特徴語と対応付けて蓄積するようにしてもよい。そして、ステップS201に戻る。
【0076】
(ステップS208)位置情報取得部102は、位置情報を取得したか否かを判断する。例えば、図示しないGPS等を介して、ユーザの現在位置の位置情報を取得したか否か等を判断する。あるいは、ユーザ等により入力された位置情報があるか否かを判断してもよい。位置情報が取得されている場合、ステップS209に進み、位置情報が取得されていない場合、ステップS201に戻る。
【0077】
(ステップS209)位置情報取得部102は、分野指定情報を取得したか否かを判断する。例えば、ユーザ等により入力された分野指定情報を受け付けたか否かを判断する。なお、ユーザ等による分野指定情報の入力がない場合、予めデフォルトで指定されている分野指定情報を位置情報取得部102が取得するようにし、位置情報を取得したと判断するようにしても良い。予めデフォルトで指定されている分野指定情報は、例えば、全ての分野情報を指定する分野指定情報や、分野指定なしを示す分野指定情報等である。分野情報が取得できた場合、ステップS210に進み、分野指定情報が取得されていない場合、ステップS209に戻る。
【0078】
(ステップS210)位置情報取得部102は、現在の時刻の情報である時刻情報を取得する。なお、時刻情報を地域特徴語を取得する際に利用しない場合は、当該ステップは省略して良い。
【0079】
(ステップS211)地域特徴語取得部103は、ステップS208において取得した位置情報が示す位置を含む領域を示す領域情報を検出する。
【0080】
(ステップS212)地域特徴語取得部103は、ステップS211において検出した領域情報に対応付けられた地域特徴語であって、ステップS209において受け付けた分野指定情報により指定される分野情報と、ステップS210により取得した時刻情報が示す時刻を含む期間を示す時間情報とに対応付けられた地域特徴語を、地域特徴語格納部101から読み出す。また、当該地域特徴語に対応付けられた地域特徴度も読み出すようにしても良い。なお、地域特徴語を取得する際に、予め指定された値より大きい地域特徴度と対応付けられた地域特徴語だけを取得するようにしても良い。
【0081】
(ステップS213)地域特徴語出力部104は、ステップS212において取得した地域特徴語を出力する。例えば、地域特徴語出力部104は、ステップS212において取得した地域特徴語を用いてリストを構成し、当該リストを、図示しないモニタ等に表示する。また、このリストを作成する際に、対応付けられた地域特徴度の高い順に各地域特徴語を配列するようにしても良い。
【0082】
(ステップS214)指定受付部113は、地域特徴語出力部104が、例えばリスト表示等により出力した地域特徴語のうちの一以上の地域特徴語についての指定を受け付けたか否かを判断する。受け付けた場合、ステップS215に進み、受け付けていない場合、ステップS214に戻る。
【0083】
(ステップS215)検索条件生成部110は、ステップS214により指定を受け付けた地域特徴語を含む検索条件、具体的には,検索クエリを作成する。
【0084】
(ステップS216)検索部111は、ステップS215において作成した検索条件を用いて検索を行う。例えば、ステップS215において作成した検索条件を、WEB上の検索サイト等に送信し、検索結果を取得する。
【0085】
(ステップS217)検索結果出力部112は、ステップS216において行われた検索結果を出力する。例えば、図示しないモニタ等に表示する。そして、ステップS201に戻る。
【0086】
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0087】
以下、本実施の形態における情報処理装置1の具体的な動作について説明する。
【0088】
図3は、本実施の形態の情報処理装置1の概念図である。情報処理装置1は、ここでは例として、無線あるいは有線のネットワーク等と接続可能な携帯型の情報端末であるとする。携帯型の情報端末は、例えば、携帯電話や、多機能携帯電話、小型携帯コンピュータ、PDA(Personal Digital Assistant)、ナビゲーション端末等である。情報処理装置1は、例えば、無線あるいは有線のネットワーク等を介してWEBサーバ2等と接続される。また、ここでは、情報処理装置1は、位置情報を取得するための手段としてGPSを有しているものとする。
【0089】
ユーザが、複数の地域情報である地域名のリストを情報処理装置1に入力すると地域情報受付部105は、当該地域名のリストを受け付ける。ここでの地域名は、例えば、市の名前、(ただし、市に属さない町村がある場合は町村の名前)であるとする。
【0090】
図4は、地域情報受付部105が受け付けた地域情報である地域名のリストを示す図である。
【0091】
地域関連情報取得部106は、受け付けた地域名を順番に用いて、検索クエリを作成し、図示しない送信部を介して予め指定されたWEB上の検索サイト等に送信する。そして、検索サイトから検索結果として送信される、地域名に対して関連度の高いWEBページのURL等を図示しない受信部等を介して受信する。そして、このURLからWEBページを取得する。ここでは、地域関連情報取得部106は、各地域名についての検索結果のうちの、関連度の高さが上位10位までのWEBページを取得するものとする。つまり、各地域について、10のWEBページのデータ、具体的には10のHTMLファイル等を取得する。この取得したWEBページが、地域関連情報である。地域関連情報取得部106は、取得した10のWEBページを結合して、一の文書、即ち一のHTMLファイルとする。これにより、一つの地域について一の地域関連情報を得ることができる。
【0092】
次に、地域特徴語抽出部107は、地域情報受付部105が受け付けた各地域名について、当該地域名に対応して取得された地域関連情報を用いて地域特徴語を抽出する。地域特徴語抽出部107は、図4に示した各地域名に対応して取得した地域関連情報を、Mecab等を用いて形態素解析を行うことにより、当該地域関連情報に含まれる品詞が名詞と形容詞である文字列を抽出する。例えば、図4に示した「富山市」について取得された地域関連情報からは、「富山城」、「サンダーバード」、「寒ブリ」、「富山地方鉄道」、「日本海」、「ビジネスホテル」、「だやい」等の単語が検出されたとする。
【0093】
地域特徴語抽出部107は、まず地域名が「富山市」である地域について、一番目の文字列である「富山城」を取得し、「富山市」の地域関連情報内における「富山城」の出現頻度を算出する。また、「富山市」以外の地域名について取得された地域関連情報のうちの、「富山城」という文字列を含む地域関連情報の出現頻度を算出する。そして、上述した式(2)のtfに「富山城」の出現頻度を、また、dfに「富山城」という文字列を含む全ての地域関連情報の、残りの地域情報について取得した地域関連情報に対する出現頻度を代入することで、地域特徴度(DLC)を算出する。そして、この地域特徴度の値が予め指定された閾値を超える場合、この文字列「富山城」を地域特徴語として抽出する。また、閾値を超えない場合には地域特徴語として抽出しない。なお、地域特徴度が、特徴度の増加に伴って減少するような値である場合には、地域特徴度が閾値より小さくなることを、閾値を超えると解釈するものとする。ここでは、例えば閾値を超えたとすると、「富山城」という文字列が、地域特徴語として抽出される。そして、この地域特徴語と、地域名と、算出された地域特徴度とが対応付けられて、図示しない記憶媒体等に一時記憶される。
【0094】
同様にして、「富山市」の地域特徴語から取得された「サンダーバード」等の他の文字列についても、同様に、順次、地域特徴語であるか否かの判断が行われ、地域特徴語と判断された文字列は、地域名と、算出された地域特徴度とが対応付けられて、図示しない記憶媒体等に一時記憶される。ここでは、「富山市」については、「富山城」、「寒ブリ」、「富山地方鉄道」、「だやい」が地域特徴語と判断されたとする。
【0095】
また、上記と同様の処理が、他の地域についても繰り返し行われる。
【0096】
図5は、上記のような地域特徴語を抽出する処理を繰り返した結果、各地域名について取得された地域関連情報から抽出された地域特徴語の一例を示す図である。図において、「地域名」は地域名、「地域特徴語」は地域特徴語、「地域特徴度」は地域特徴度を示している。
【0097】
次に、クラスタリング部108が、抽出された地域特徴語と算出された地域特徴度を利用して、地域名が示す地域のクラスタリングを行う。まず、クラスタリング部108は、各地域名別に、図5に示した地域特徴語の抽出結果に出現する全ての地域特徴語に対応する地域特徴度の値をベクトル値として有する地域特徴度ベクトルを作成する。例えば、図5に示した各地域名について取得した地域特徴語を併合したものから、重複する地域特徴語を除いた地域特徴語の数が、m個であったとすると、地域特徴度ベクトルは、m個の要素を有するm次元のベクトルとなる。なお、ある地域名についての地域特徴度ベクトルにおいて、当該地域名については存在しない地域特徴語に対応する要素の値は、「0」に設定されるものとし、地域特徴語が存在する場合には、当該地域特徴語に対応する要素の値は、当該地域特徴語に対応する地域特徴度の値が設定される。
【0098】
例えば、図5に基づいて生成される地域特徴度ベクトル[lg1,lg2,lg3,lg4,lg5,lg6,…,lgm]において、lg1は「富山城」の地域特徴度、lg2は「寒ブリ」の地域特徴度、lg3は「富山地方鉄道」の地域特徴度、lg4は「だやい」の地域特徴度、lg5は「蜃気楼」の地域特徴度、lg6は「黒部スイカ」の地域特徴度となる。そして、「富山市」の地域特徴語ベクトルは[60,50,40,36,0,…,0]、「魚津市」の地域特徴語ベクトルは[0,48,30,32,80,0…,0]、「黒部市」の地域特徴語ベクトルは[0,40,30,28,0,75…,0]等となる。なお、本具体例の値等は、説明のためのものであり、実際の検索結果や計算結果によるものとは異なる。
【0099】
クラスタリング部108は、これらの地域特徴語ベクトルを用いて、クラスタリングを行う。まず、複数の地域のうちの二つの地域の組合せについて、それぞれの地域語特徴ベクトルを、式(3)に代入することで、二つの地域間の類似度を順次算出する。そして、一の地域と類似度の値が、最も類似度が高いことを示す二つの地域をまとめ、地域特徴語ベクトルの重心ベクトルを、この新たにまとめた地域群の地域特徴語ベクトルとする。同様の処理を繰り返して、地域をまとめていくことで地域をクラスタに分けていくことができる。なお、クラスタリングは、例えば予め指定した閾値を超えるような類似度が得られる二つの地域(まとめた地域も含む)が存在しなくなった時点で終了しても良いし、一のクラスタリングに含まれる地域の上限や、クラスタリングにより構成されるクラスタ数等の上限等を用いて判断しても良い。
【0100】
そして、クラスタリング部108は、クラスタリングが終了した時点で、各クラスタの地域特徴度を取得する。具体的には、クラスタリングによって最終的に得られる各クラスタの地域特徴語ベクトルである重心ベクトルを構成する地域特徴度が、上位から所定の順位までの地域特徴語を、各クラスタの地域特徴語として取得する。なお、各クラスタの地域特徴語の取得方法や、目的等に応じて適宜変更可能であり、例えば、重心ベクトルのうちの、地域特徴度が所定の閾値を超えるものを各クラスタの地域特徴度として取得しても良い。また、各クラスタを構成する類似する地域に対応した地域特徴語のうちの、地域特徴度が高いものから順番に所定数の地域特徴語を取得しても良い。
【0101】
ここでは、クラスタリングの結果、例えば、富山市と滑川市との組、魚津市と黒部市との組がそれぞれクラスタに分けられたとする。また、富山市と滑川市との組の地位特徴語が「富山城」、「寒ブリ」、[富山地方鉄道」、「だやい」、魚津市と黒部市との組の地域特徴語が、「蜃気楼」、「黒部スイカ」、「黒部峡谷」、「富山地方鉄道」であったとする。
【0102】
図6は、地域範囲情報格納部114に格納されている地域範囲情報を管理する地域範囲情報管理表である。地域範囲情報管理表は、「地域名」と「地域範囲情報」とを有している。「地域名」は、地域情報であり、ここでは地域情報受付部105が受け付ける地域情報と同様の地域名である。「地域範囲情報」は、地域範囲情報であり、ここでは地域の境界線を定義する複数の座標情報である。この座標情報は、緯度と経度との組み合わせた座標を示す。
【0103】
地域特徴語蓄積部109は、クラスタリングにより分割された類似する地域により構成される領域について、領域の境界線を示す領域情報を取得する。例えば、クラスタに分割された各領域を構成する一以上の地域の地域名に対応した一以上の地域範囲情報を地域範囲情報格納部114から取得し、当該一以上の地域範囲情報を結合して、一のクラスタの領域の境界線を示す領域情報を構成する。なお、地域特徴語蓄積部109は、ネットワーク上に設けられている、地域範囲情報格納部114と同様の情報を提供可能なサーバ等から、検索等により地域範囲情報を適宜取得するようにしても良い。
【0104】
地域特徴語蓄積部109は、クラスタリング部108が取得した各クラスタに対応する地域特徴語と、当該地域特徴語に対応する地域特徴度と、各クラスタに対応して構成した領域情報とを対応付けて、地域特徴語格納部101に蓄積する。なお、地域特徴語格納部101に地域特徴語を蓄積する直前等に、ユーザに、当該地域特徴語に対応した時間情報や分野情報等の入力を促すメッセージ等を表示し、ユーザ等から入力された時間情報や分野情報等を、地域特徴語に対して更に対応付けて蓄積するようにしてもよい。また、地域特徴語格納部101に蓄積されている地域特徴語について、図示しない入力受付部等を介してユーザが適宜任意のタイミングで入力した分野情報や時間情報等を対応付けて蓄積するようにしてもよい。
【0105】
図7は、地域特徴語格納部101に蓄積された地域特徴語等を管理する地域特徴語管理表である。地域特徴語管理表は、「領域ID」、「領域情報」、「地域特徴語」、「地域特徴度」、「時間情報」、「分野情報」という項目を有している。「領域ID」は領域を管理するために付与される識別情報である。また、「領域ID」以外の項目はそれぞれ、上述した領域情報、地域特徴語、地域特徴度、時間情報、分野情報に相当する。地域特徴語管理表の一のレコードを構成する各項目の情報は、互いに対応付けられた情報である。例えば、図7においては、「領域ID」が「001」である領域は、富山市と滑川市との組を含む領域であり、「領域ID」が「002」である領域は、魚津市と黒部市との組を含む領域である。
【0106】
ここで、ユーザが、情報処理装置1を持って富山市に移動したとし、富山市についての検索を行うために、検索を行うための検索画面等を図示しない表示部等に表示させたとする。この検索画面等の表示をトリガーとして、情報処理装置1が有している図示しないGPSが、現在位置の情報として、(N36.42.16.27,E137.12.53.19)という座標情報を取得する。位置情報取得部102は、GPSが取得した位置情報を取得する。
【0107】
地域特徴語取得部103は図7に示した地域特徴語管理表の「領域情報」において、位置情報取得部102が取得した位置情報が示す位置が含まれる領域情報を検索する。ここでは、「領域ID」が「001」であるレコードの「領域情報」が、位置情報が示す位置を含む領域を示す領域情報として検出される。また、位置情報取得部102は、現在の時刻情報を、例えば情報処理装置1内の時刻を計時する処理部(図示せず)等から取得する。例えば、ここで取得した時刻情報は、「三月七日午前10時」という情報であったとする。また、位置情報取得部102は、予めユーザ等により指定されている分野を指定する情報を取得する。なお、ここでは、「観光」および「食べ物」という分野指定情報が予め指定されていたとする。なお、位置情報を取得する前後に、分野を指定する情報を要求する情報を、ユーザ等に対して表示するようにし、当該表示に応じてユーザから入力される分野情報を取得しても良い。このため、地域特徴語取得部103は、「領域ID」が「001」であるレコードの「地域特徴語」である「富山城」、「寒ブリ」、「富山地方鉄道」、「だやい」等のうちの、「三月七日午前10時」を含む期間を示す「時間情報」、および「観光」または「食べ物」という「分野情報」に対応付けられた地域特徴語を、地域特徴語格納部101から読み出す。「富山城」に対応した時間情報は、日にち指定なしの「午前9時から午後5時」であるため、時刻情報を含む期間を示す時間情報であると判断される。「富山地方鉄道」に対応した時間情報は、日にち指定なしの「午前5時から午後22時」であるため、時刻情報を含む期間を示す時間情報であると判断される。また、「寒ブリ」に対応した時間情報は、11月1日から2月28日であるため、時刻情報を含む期間を示す時間情報であると判断される。このように時刻情報を用いることで、例えば、現在の期間においては、ユーザが利用ができない事象についての地域特徴語の取得を行わないようにすることができる。また、「富山城」および「富山地方鉄道」の分野情報は「観光」であり、「寒ブリ」の分野情報は「食べ物」であるため、これらの分野情報は、分野指定情報が指定する分野情報であると判断される。このため、「富山城」と「富山地方鉄道」と「寒ブリ」が地域特徴語として取得される。このようにして取得された地域特徴語が、地域特徴語出力部104により図示しない記憶媒体等に一時記憶される。
【0108】
次に、ユーザが検索画面等の入力フィールド等に、「と」という文字を入力したとする。
【0109】
地域特徴語出力部104は、地域特徴語取得部103が読み出した地域特徴語のうちの、「と」で始まる地域特徴語を、前方一致の検索等により検索する。ここでは、「富山城」と「富山地方鉄道」とが検索される。そして、検索した地域特徴語を含むリストを構成し、入力フィールドの近傍にリスト表示する。このとき、地域特徴度の高い地域特徴語、ここでは「富山城」、が最も入力フィールドに近い位置に表示されるようにリスト表示を行う。
【0110】
図8は地域特徴語のリストの表示例を示す図である。
【0111】
なお、さらに文字が追加されると、追加された文字によって、更に地域特徴語を検索し、検索結果の地域特徴語をリスト表示するようにすればよい。
【0112】
次にユーザがタッチパネル等を操作してリスト表示された地域特徴語のうちの「富山城」を選択したとすると、地域特徴語出力部104は、選択された地域特徴語を入力フィールド等に入力した画面を表示する。
【0113】
そして、ユーザが検索を行うための指示を情報処理装置1に与えると、検索条件生成部110は、選択された地域特徴語である「富山城」を含む条件情報、例えば検索クエリを作成する。作成した条件情報は、例えば、所定の検索用のWEBサイトにGETパラメータとして送信される「q=富山城」(ただし、qは検索のWEBサイトにおいて検索条件として利用される変数とする)等である。そして、検索部111は、当該条件情報を、予め指定されている検索用のWEBサイト等にネットワーク等を介して送信する。そして、WEBサイト等が送信する検索結果を示すWEBページの情報をネットワーク等を介して受信する。そして、受信した検索結果を示すWEBページを、検索結果出力部112が図示しないモニタ等に表示する。なお、検索が図示しないSQLサーバ等に対して行われる場合、例えば地域特徴語が管理されるフィールド名(項目名)が「地域特徴語」であるとすると、検索条件生成部110が生成する条件情報は、「SELECT フィールド名 FROM テーブル名 WHERE 地域特徴語='富山城';」等であってもよい。ただし、「テーブル名」は地域特徴語や検索対象となる情報等が管理されているテーブル名、「フィールド名」は、検索対象となる情報、言い換えれば検索結果として出力されうる情報が管理されているフィールド名であるとする。
【0114】
図9は、検索結果出力部112による検索結果の表示例を示す図である。
【0115】
なお、ここでは、GPSにより位置情報を取得する場合について説明したが、例えば、図10に示すように、図示しないモニタ等に地図を表示して、当該地図情報上の位置についてのタッチパネル等の入力デバイスの操作により指定を受け付けた場合に、当該指定を受け付けた位置に対応する実際の地域の位置情報を受け付けるようにしても良い。このような地図を表示するための地図情報は、図示しない地図情報格納部等に格納しておくようにすればよい。また、地図情報の表示は、図示しない表示部等により行うようにすればよく、表示した地図上の位置の指定は図示しない受付部等が受け付けるようにすればよい。また、このような受付部が受け付けた地図上の位置から、位置情報取得部102等が実際の地域の座標情報を取得する処理は、WEBページ等に地図の画像を表示する技術等として公知であるのでここでは説明を省略する。
【0116】
また、地域特徴語格納部101に格納される地域特徴語に対して、地域のレベルを指定する地域レベル情報を対応付けておき、上記のように地図情報を用いて位置情報を取得する場合等に、位置の指定を受け付けるために表示された地図の縮尺を示す縮尺情報を受け付けるようにし、地域特徴語取得部103が、当該縮尺情報に応じた地域レベル情報に対応した地域特徴語の中から地域特徴語を取得するようにしても良い。
【0117】
例えば、縮尺が7万5千分の1より小さい場合は、市町村レベルの地域情報を用いて抽出した地域特徴語を用いるようにし、縮尺が7万5千分の1より大きい場合は、都道府県レベルの地域情報を用いて抽出した地域特徴語を用いるようにすればよい。例えば、縮尺が小さい場合は、地図上には複数の都道府県が表示されるため、都道府県レベルの違いでしか地域を指定できない。このため、地域特徴語として都道府県レベルでの違いが分かるような地域特徴語が表示されればよく、逆にこれ以上細かいレベルでの地域特徴語が取得できても、地図上の選択位置の微妙なずれで、異なる地域特徴語が取得されてしまうため、ユーザに混乱を与える可能性がある。このため、縮尺に応じたレベルの地域特徴語が選択されるようにすることで、地図上から表示している地図の縮尺に応じた適切なレベルの地域特徴語を提示することが可能となる。なお、縮尺情報と地域レベル情報との対応関係は、例えば図示しない格納部等に縮尺情報と地域レベル情報とを対応付けた情報を格納しておくことにより管理すればよい。また、縮尺情報と地域レベル情報として同一の情報を用いるようにしても良い。
【0118】
また、上記具体例においては、地域特徴語出力部104が、入力フィールドに入力された文字を含む地域特徴語を表示するようにしたが、図11に示すように、地域特徴語取得部103が読み出した地域特徴語の少なくとも一部を含むリストを表示して、当該リストから地域特徴語を選択させるようにしても良い。また、地域特徴語に対応した分野情報を、地域特徴語と対応付けて表示、例えば並べて表示し、当該分野情報のひとつが選択された場合、当該分野情報に対応した分野指定情報を位置情報取得部102が取得して、当該分野指定情報に対応した地域特徴語のみを地域特徴語取得部103が再取得するようにしても良い。このようにすることで、地域特徴語の分野による絞り込みを行うことができる。
【0119】
以上のように、本実施の形態によれば、位置情報が示す位置に関連性が高い文字列の情報である地域特徴語を取得して、当該地域特徴語を用いた情報検索を行うことが可能である。これにより、例えば、ユーザが現在存在している地域に関連性の高い特徴的な情報をユーザに提示することが可能となる。
【0120】
また、本実施の形態においては、ユーザ等により指定された地域に関連性の高い文字列の情報である地域特徴語を抽出して、地域特徴語格納部101に蓄積することができる。
【0121】
また、クラスタリングにより類似している地域をまとめた領域と対応付けて地域特徴語を蓄積するようにしたことにより、ユーザ等により指定された地域に類似している地域の地域特徴語も補足的に出力することが可能となり、類似する地域において特徴的な事象の情報等も提示することが可能となる。
【0122】
なお、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0123】
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(情報送信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
【0124】
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりする情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
【0125】
また、上記各実施の形態では、情報処理装置がスタンドアロンである場合について説明したが、情報処理装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
【0126】
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
【0127】
なお、上記各実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、地域との関連性が高い文字列である地域特徴語と、当該地域特徴語との関連性の高い地域を含む領域を示す情報である領域情報とが対応付けられて格納されている地域特徴語格納部と、位置を示す情報である位置情報を取得する位置情報取得部と、地域との関連性が高い文字列である地域特徴語と、当該地域特徴語との関連性の高い地域を含む領域を示す情報である領域情報とが対応付けられて格納されている地域特徴語格納部から、前記位置情報取得部が取得した位置情報が示す位置を含む領域を示す前記領域情報に対応した地域特徴語を取得する地域特徴語取得部と、前記地域特徴語取得部が取得した地域特徴語を出力する地域特徴語出力部として機能させるためのプログラムである。
【0128】
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
【0129】
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0130】
図12は、上記プログラムを実行して、上記実施の形態による情報処理装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
【0131】
図12において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
【0132】
図13は、コンピュータシステム900の内部構成を示す図である。図13において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
【0133】
コンピュータシステム900に、上記実施の形態による情報処理装置の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
【0134】
プログラムは、コンピュータ901に、上記実施の形態による情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
【0135】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0136】
以上のように、本発明にかかる情報処理装置等は、検索を補助する情報処理装置等として適しており、特に、地域に関連した情報の検索を補助する情報処理装置等として有用である。
【符号の説明】
【0137】
1 情報処理装置
101 地域特徴語格納部
102 位置情報取得部
103 地域特徴語取得部
104 地域特徴語出力部
105 地域情報受付部
106 地域関連情報取得部
107 地域特徴語抽出部
108 クラスタリング部
109 地域特徴語蓄積部
110 検索条件生成部
111 検索部
112 検索結果出力部
113 指定受付部
114 地域範囲情報格納部

【特許請求の範囲】
【請求項1】
地域との関連性が高い文字列である地域特徴語と、当該地域特徴語との関連性の高い地域を含む領域を示す情報である領域情報とが対応付けられて格納されている地域特徴語格納部と、
位置を示す情報である位置情報を取得する位置情報取得部と、
前記位置情報取得部が取得した位置情報が示す位置を含む領域を示す前記領域情報に対応した地域特徴語を、前記地域特徴語格納部から取得する地域特徴語取得部と、
前記地域特徴語取得部が取得した地域特徴語を出力する地域特徴語出力部とを備えた情報処理装置。
【請求項2】
地域を示す情報である地域情報を受け付ける地域情報受付部と、
前記地域情報受付部が受け付けた地域情報を含む検索条件を用いて検索を行い、当該地域情報が示す地域に関連した情報である地域関連情報を取得する地域関連情報取得部と、
前記地域関連情報取得部が取得した地域関連情報から、前記地域特徴語を抽出する地域特徴語抽出部と、
前記地域特徴語抽出部が抽出した地域特徴語を、前記地域情報が示す地域を含む前記領域情報と対応付けて前記地域特徴語格納部に蓄積する地域特徴語蓄積部とを更に備えた請求項1または請求項2記載の情報処理装置。
【請求項3】
前記地域情報受付部は、複数の前記地域情報を受け付け、
前記地域関連情報取得部は、前記地域情報受付部が受け付けた前記複数の地域情報をそれぞれ含む検索条件を用いて検索を行い、各地域情報が示す地域の地域関連情報をそれぞれ取得し、
前記地域特徴語抽出部は、前記地域関連情報取得部が取得した一の地域情報が示す地域の地域関連情報に出現する文字列について、当該一の地域情報が示す地域の地域関連情報内における出現頻度と、前記複数の地域情報が示す複数の地域の地域関連情報内における、
当該文字列と一致する文字列を含む地域関連情報の出現頻度とを用いて、前記文字列の、地域との関連の強さを示す情報である地域特徴度を算出し、当該地域特徴度が所定の条件を満たす前記文字列である地域特徴語を抽出し、
前記地域特徴語蓄積部は、前記地域特徴語抽出部が抽出した地域特徴語を、前記一の地域情報が示す地域を含む前記領域情報と対応付けて前記地域特徴語格納部に蓄積する請求項2記載の情報処理装置。
【請求項4】
前記地域情報受付部は、複数の地域情報の位置に関する情報を更に受け付け、
前記地域特徴語抽出部が複数の地域情報についてそれぞれ抽出および算出した一以上の地域特徴語およびその地域特徴度と、前記地域情報の位置に関する情報を用いて取得した複数の地域間の距離の情報とを用いて、類似する前記地域情報をクラスタリングするクラスタリング部とを更に備え、
前記地域特徴語蓄積部は、前記一以上の地域特徴語と、前記クラスタリングにより一のクラスタにまとめられた地域情報が示す地域を含む領域情報とを対応付けて前記地域特徴語格納部に蓄積する請求項3記載の情報処理装置。
【請求項5】
前記地域特徴語は、前記地域との関連の強さを示す情報である地域特徴度と対応付けられて格納されており、
前記地域特徴語取得部は、前記地域特徴度に応じて前記地域特徴語を取得する請求項1記載の情報処理装置。
【請求項6】
前記地域関連情報取得部は、前記地域情報受付部が受け付けた前記複数の地域情報をそれぞれ含む検索条件を用いて、WEBページの検索を行い、各地域情報が示す地域のWEBページの情報である地域関連情報をそれぞれ取得する請求項2から請求項4いずれか記載の情報処理装置。
【請求項7】
前記地域特徴語出力部が出力した地域特徴語を含む検索条件を生成する検索条件生成部と、
前記検索条件作成部が作成した検索条件を用いて検索を行い、検索結果を示す情報を取得する検索部と、
前記検索部の検索結果を示す情報を出力する検索結果出力部とを更に備えた請求項1から請求項6いずれか記載の情報処理装置。
【請求項8】
前記地域特徴語出力部は、地域特徴語取得部が取得した地域特徴語をリスト表示し、
前記リスト表示された地域特徴語のうちの一以上の地域特徴語の指定を受け付ける指定受付部とを更に備え、
前記検索条件生成部は、前記地域特徴語出力部が出力した地域特徴語のうちの、前記指定受付部が指定を受け付けた地域特徴語を用いて検索条件を生成する請求項7記載の情報処理装置。
【請求項9】
前記領域情報は、領域の範囲を示す情報であり、
前記位置情報取得部は、ユーザの存在する位置を示す情報である前記位置情報を取得し、
前記地域特徴語取得部は、前記位置情報取得部が取得した位置情報が示す位置を含む範囲を示す領域情報を検出し、当該領域情報に対応づけられた地域特徴語を、前記地域特徴語格納部から取得する請求項1から請求項8いずれか記載の情報処理装置。
【請求項10】
前記地域特徴語は、時期を示す情報である時間情報と対応付けられて地域特徴語格納部に格納されており、
前記位置情報取得部は、時刻情報を更に取得し、
前記地域特徴語取得部は、前記時刻情報が示す時刻を含む時間情報と対応付けられた地域特徴語であって、前記位置情報取得部が取得した位置情報が示す位置を含む領域を示す前記領域情報に対応した地域特徴語を、前記地域特徴語格納部から取得する請求項1から請求項9いずれか記載の情報処理装置。
【請求項11】
前記地域特徴語は、分野を示す情報である分野情報と対応付けられて地域特徴語格納部に格納されており、
前記位置情報取得部は、分野を指定する情報である分野指定情報を更に取得し、
前記地域特徴語取得部は、前記分野指定情報が示す分野を含む分野情報と対応付けられた地域特徴語であって、前記位置情報取得部が取得した位置情報が示す位置を含む領域を示す前記領域情報に対応した地域特徴語を、前記地域特徴語格納部から取得する請求項1から請求項10いずれか記載の情報処理装置。
【請求項12】
地域との関連性が高い文字列である地域特徴語と、当該地域特徴語との関連性の高い地域を含む領域を示す情報である領域情報とが対応付けられて格納されている地域特徴語格納部と、位置情報取得部と、地域特徴語取得部と、地域特徴語出力部とを用いて行われる情報処理方法であって、
前記位置情報取得部が、位置を示す情報である位置情報を取得する位置情報取得ステップと、
前記地域特徴語取得部が、前記位置情報取得ステップで取得した位置情報が示す位置を含む領域を示す前記領域情報に対応した地域特徴語を、前記地域特徴語格納部から取得する地域特徴語取得ステップと、
前記地域特徴語出力部が、前記地域特徴語取得ステップで取得した地域特徴語を出力する地域特徴語出力ステップとを備えた情報処理方法。
【請求項13】
コンピュータを、
地域との関連性が高い文字列である地域特徴語と、当該地域特徴語との関連性の高い地域を含む領域を示す情報である領域情報とが対応付けられて格納されている地域特徴語格納部と、
位置を示す情報である位置情報を取得する位置情報取得部と、
地域との関連性が高い文字列である地域特徴語と、当該地域特徴語との関連性の高い地域域特徴語取得部と、
前記地域特徴語取得部が取得した地域特徴語を出力する地域特徴語出力部として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2010−198281(P2010−198281A)
【公開日】平成22年9月9日(2010.9.9)
【国際特許分類】
【出願番号】特願2009−41972(P2009−41972)
【出願日】平成21年2月25日(2009.2.25)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成20年度、独立行政法人情報通信研究機構「高度通信・放送研究開発委託研究/電気通信サービスにおける情報信憑性検証技術に関する研究開発 課題ア Webコンテンツ分析技術」、産業技術力強化法第19条の適用を受ける特許出願
【出願人】(592216384)兵庫県 (258)
【Fターム(参考)】