情報分析装置
【課題】文書情報と空間情報を共に検索又は出力し、空間的な関連データを提示する情報分析装置を提供する。
【解決手段】文書情報中に記載された固有表現を抽出する手段110、抽出した固有表現を位置情報に変換できる地名辞書120、位置情報を文書情報の空間属性として管理し、さらに必要に応じて複数の空間属性も管理可能なジオイベントデータベース132、位置情報の曖昧性を解消する手段111,112、地図を管理するデータベース131、文書を管理するデータベース133、データベースを管理する手段117、固有表現抽出に用いる辞書を管理する手段116、ジオイベントを管理する手段118、地図を検索する手段113、地図を編集する手段114、空間解析を実行する手段115、処理指示を入力する手段101、処理結果を出力する手段102を備える。
【解決手段】文書情報中に記載された固有表現を抽出する手段110、抽出した固有表現を位置情報に変換できる地名辞書120、位置情報を文書情報の空間属性として管理し、さらに必要に応じて複数の空間属性も管理可能なジオイベントデータベース132、位置情報の曖昧性を解消する手段111,112、地図を管理するデータベース131、文書を管理するデータベース133、データベースを管理する手段117、固有表現抽出に用いる辞書を管理する手段116、ジオイベントを管理する手段118、地図を検索する手段113、地図を編集する手段114、空間解析を実行する手段115、処理指示を入力する手段101、処理結果を出力する手段102を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書情報と空間情報を共に検索又は出力し、空間的な関連データを提示する情報分析装置に関わる。
【背景技術】
【0002】
近年、ニュースやブログなど場所や地域に関する非定型の文書データが、インターネット上で日々大量に生成され続けている。これらデータには、現地取材で直接得られた一次情報や地域住民により記述された地域の最新状況などが含まれ、マーケティングなど地域状況の詳細把握に有効な情報が含まれている場合がある。一般に非定型文書データには様々な情報が記載されているが、文書情報処理技術及び地理情報システムなど空間情報処理技術を組み合わせて用い、これらデータを空間や時間などをキーとして時空間地図上で管理することで、空間や時間やキーワードなどにより検索及び出力でき、大量の文書データの全体状況把握など高度な利用が可能となってきた。
【0003】
従来技術としては、文書中に記載された地名などの固有表現を抽出する技術が開示されている(例えば特許文献1)。抽出された地名と地名辞書とを照合して地図上の特定位置(経緯度等の座標値)に変換し、それを空間属性として属性情報に付与することにより、文書データを空間管理できる。また、特にニュースについては、地図上の地名位置にシンボル表示する技術が開示されている(例えば特許文献2,3)。また、曖昧な位置情報を扱う技術が開示されている(例えば特許文献4)。
【0004】
【特許文献1】特開2006−23968号公報
【特許文献2】特表2007−524113号公報
【特許文献3】特表2003−524259号公報
【特許文献4】特開2004−280659号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
従来技術では、完全な住所表記など場所が明確な地名記述を扱うことは容易だったが、曖昧な地名記述を含む文書を適切に地図上に関連付け、文書を他の空間情報と同等に地図上で検索し、出力することは難しい場合があった。例えば、従来技術では、人名や組織名などの固有表現を誤って地名として抽出し、それによりデータが誤った場所に関連付けられることがあった。また同表記地名や類似表記地名など複数の地名候補が得られた場合、それらのうち最も確からしさ(確度)が高い結果のみを採用し一意に絞り込んでいたが、結果として誤った場所に関連付けられることがあった。
【0006】
また、地名単独ではなく、地名と地名、又は地名と注目地域との方向関係や距離関係など位置的な関係を記述した記述子(以下、空間関係子と呼ぶ)を含む文書の扱いが必要である。例えば、方向関係の例では「XX北部」や「XX中心部」、距離関係の例では「XX付近」や「XXからYYキロ」、それらの組み合わせの例では「XXの北YYキロ」、その他の例では「XXとYYの間」や「XX市の国道YY沿い」、などである。これら空間関係子を含む複雑かつ曖昧な地名記述については、従来技術の空間属性付与処理では未対応又は誤った場所に関連付けられることがあった。
【0007】
また、一般に地名辞書に記載されている位置情報は点図形データ(座標値)であることが多く、文書の内容が指し示す線や面など広がりのある領域や、それら領域同士の組み合わせによる領域、さらには上記空間関係子を含む組み合わせによる領域などと、文書を関連付けて管理することが難しかった。
【0008】
すなわち、多様な地名記述を含む任意の文書を簡易にデータベースに登録し、曖昧性を管理し、必要に応じて曖昧性を解消し、場所に関連付けて管理することで、文書を空間情報と同等に検索利用などしたい、という要求があった。本発明では、これらの課題を解決する情報分析装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明は、文書情報を場所に関連付けて管理し、場所をキーとして文書情報を検索する情報分析装置であって、文書情報を格納した文書データベースと、地図図形を含む地図情報を格納した地図データベースと、文書中に記載された地名に関する情報を抽出する抽出手段と、抽出された地名に関する情報の曖昧性を解消する手段と、抽出された地名に関する情報を文書情報の空間属性として地図データベースの地図に関連付けて格納したジオイベントデータベースと、地図上の領域を検索指定範囲として入力する入力手段と、検索指定範囲に含まれる地図に関連付けられた文書をジオイベントデータベースを用いて検索する検索手段と、検索結果を出力する出力手段と、を備える。
【0010】
地図図形には、例えば、都市名などを表す点図形、国、県、区などの行政界などを表す面図形、道路、鉄道、川、海岸線、境界線などを表す線図形などが含まれる。地図上の領域指定は、例えば地名、行政区画、道路、鉄道などの名称を入力することによって指定することもできるし、検索画面に表示された地図上のポイントを指定したり、特定の領域を線で囲むことによって指定することもできる。
【0011】
抽出手段は、地名表現と位置情報とを関連付けて格納した地名辞書、空間の間の位置的な関係を記述する空間関係子の表記を格納した空間関係子辞書、地名の前後に記述されることで地名を異なるカテゴリに変換する修飾表現を格納した非地名修飾表現辞書の一つ以上の辞書を用い、地名又は空間関係子又はそれらの組み合わせを抽出する。
空間属性は、地図図形へのリンク形式とすることができる。
【0012】
曖昧性解消手段は、抽出された地名の地図上の位置に対する複数の候補と空間関係子の組み合わせについて真偽判定することにより、正しい空間関係子の記述を含む地名の地図上の位置を候補から選択する。また、曖昧性解消手段は、複数の文書情報を照合して情報を補完することによって曖昧性を解消する。
【0013】
また、入力手段は、関連データ検索指示の入力部を備え、関連データ検索指示が入力されたとき、入力された検索条件に基づいて直接検索された検索結果と空間的あるいは内容的に関連する可能性がある関連データを検索する。例えば、検索手段は、検索指定範囲と一部重なる地図図形に関連付けられた文書を検索する。
【発明の効果】
【0014】
本発明によれば、文書に記載された複雑な地名記述の曖昧性を適切に管理し、かつ曖昧性を解消できる。非定型文書データを空間、時間及びキーワードなどにより構造化して管理でき、地図上での高精度な検索利用などが可能となる。また、単なる空間検索では検索されなかった、空間的に関連するデータなど、ユーザーが意図していなかった関連データを提供でき、発見的な地域状況の把握及び分析を支援できる機能を実現できる。
【0015】
これらの効果により、注目地域に関する様々な情報をユーザーに提供でき、データ間の空間的な関係や時空間での変化傾向などの情報分析が可能となる。ユーザーの多様な要求に応じた即時性及び視認性の高い情報提供が可能となり、ユーザーの分析業務や意思決定を効果的に支援できる。
【発明を実施するための最良の形態】
【0016】
以下、本発明の実施例を詳細に説明するが、本発明は以下の実施例に限定されるものではない。例えば、以下ではニュースやブログなどWeb情報を用いた実施例について説明するが、ローカルHDDに格納されたドキュメントファイル群や、ローカル又はネットワーク接続サーバのデータベースに格納された構造化データ群、モバイル端末等により入力された断片的な情報、あるいはそれらの組み合わせなどを用いても本発明を実施できることは明らかである。また、地域マーケティングのアプリケーション例について説明するが、災害時の地域状況把握など、その他アプリケーションや、あるいは各種アプリケーションを実現可能とする汎用システムとして実施しても良い。また、県や市などの行政体レベルの例について説明するが、より詳細な字レベル、あるいはより広域の国レベルの内容であっても良い。また、以下では装置の例について説明するが、本発明はコンピュータに読み込まれて実行されるプログラムで実現されるものであっても良いし、ネットワークシステム又はネットワークサービスなどであっても良い。
【0017】
図1は、本発明の一実施形態における機能構成の例を示す図である。情報分析装置100は以下の複数手段により構成される。入力手段101は、ユーザーからの検索条件設定やデータ操作、ネットワーク経由で受信した処理指示などを情報分析装置に入力する。出力手段102は、ユーザーへの画面表示や印刷、又はネットワーク経由で処理結果などを情報分析装置から出力する。固有表現抽出手段110は、文書から固有表現を抽出するための抽出規則に基づき、地名や空間関係子や時間やキーワードなどの固有表現を文書データから抽出する。曖昧性解消文書処理手段111は、複数文書の属性情報同士の照合に基づき、曖昧な属性情報を特定し、他の属性情報に合わせて内容を更新する。例えば、同じ内容のニュースが複数のニュースリソースから提供された場合、表現が微妙に異なるため、不足情報を相互に補える場合がある。地図検索手段113は、時空間及びレイヤなどの条件により地図を検索する。ただし検索対象は地図に限らず、適切な空間属性を付与すれば、地図以外の空間情報や文書情報など各種情報も併せて検索可能である。地図編集手段114は、新規図形の作成や既存図形の修正、既存図形の削除などを行う。また、一時的な図形(以下、一時図形と呼ぶ)の計算生成など、各種空間情報処理に必要な図形の操作を実現する。曖昧性解消空間処理手段112は、空間関係子を含む複雑な地名記述における空間的な位置関係を空間解析手段115などにより判定し、多数の地名候補から注目文書が関連する場所を絞り込む。空間解析手段115は、重畳判定や計測やバッフ解析やネットワーク解析やボロノイ解析や空間統計などの空間解析機能を備え、上記一時図形の計算生成に向けた図形同士の重畳判定や重畳範囲特定及び切り出し、また上記位置関係の判定に向けた距離や方向の計測などを行う。これら処理のフローについては図2から図8で後述する。
【0018】
辞書管理手段116は、固有表現抽出に必要な以下の複数の辞書を管理する。すなわち、地名辞書120は地名表記と地名代表点における経緯度座標など位置情報を対応付けて管理し、それらの変換を可能とする。空間関係子辞書121は、空間関係子の表記及び曖昧性解消空間処理における処理内容などを対応付けて管理する(例えば、「地名Aの南にある地名B」などの「南」空間関係子と、「地名Aの位置から地名Bの位置へのベクトルと南方向ベクトルとの内積演算処理による方向判定」など)。非地名修飾表現辞書122は、地名の前後に記述されることで地名を異なるカテゴリに変換する「地名修飾表現」を管理する(例えば「市民」「大使館」など)。
【0019】
データベース管理手段117は、文書情報及び空間情報の検索及び更新などに必要な以下の複数のデータベースを管理する。すなわち、地図データベース131は地図情報を管理する。ジオイベントデータベース132は、文書情報など明示的な空間属性を有さないが場所に関する情報を地図データなどと同様に空間管理又は時空間管理し、文書情報と場所を関連付けて管理する。具体的には、地図オブジェクト(地物)の一種として「ジオイベント型の地物」を定義し、固有表現抽出手段110により抽出された地名に基づく位置情報と、必要に応じて位置情報の曖昧性を含めて空間属性として管理する。曖昧な空間属性の記述例としては、複数の位置候補に対応した複数の空間属性の記述管理、又は複数地名候補間の空間的な位置関係を記述した空間関係子を含む複雑な空間属性のグラフによる記述管理、などである。インデクス130は空間、時空間又はキーワードなどにより各種情報をインデクス管理し、高速検索を可能とする。ジオイベントを(時)空間インデキシング管理することで、非定型文書データを効率的に地図上で検索や出力できる。文書データベース133は文書情報を管理する。これらデータベースの主なテーブル構成については図9及び図20で後述する。
【0020】
ジオイベント管理手段118は、ジオイベントデータベース132に対して、地図編集手段114や空間解析手段115などを用いて、図6で後述するジオイベントデータベース登録処理などを行う。
【0021】
ここで、地名辞書120と地図データベース131を併用するためには、位置情報によりデータを暗示的に関連付けて用いても良いし、全国地方公共団体コードやISO3166やその他コード、あるいは独自コードなど、共通のコードを各データに記述して明示的に関連付けても良い。また、多言語の表記を含む地名辞書や空間関係子辞書や非地名修飾表現辞書や地図などを用いることで、多言語の文書情報から地名を抽出して場所に関連付けて管理し、多言語の文書情報を空間検索クエリで一括検索しても良い。また、辞書やデータベースは、ネットワーク経由で接続したり、又は情報分析装置100の内部に保持しても良い。また、上記以外のデータベースとして画像データベースを保持したり、ユーザーが入力した情報や図形などを地図又は独自データベースとして保持するなどして、地図やジオイベントなど他データベースと併用しても良い。また、以下では地物の属性情報として空間属性を地物データに直接記述する例について述べるが、メタデータのような別データ又はデータベースに記述しても良い。もちろん、データベースは任意の構成が可能であり、地名辞書120を地図図形と同等の地名点データ群として扱い地図データベース131に含めて良いことは言うまでもないが、さらに地図や地名辞書やジオイベントなどを組み合わせたデータベース構成としても良い。
【0022】
以上の構成により、固有表現抽出手段110により文書から抽出した複数の地名や空間関係子などの候補に基づき、空間解析手段115や曖昧性解消空間処理手段112や曖昧性解消文書処理手段111などによりそれらの曖昧性を解消し、空間解析手段115や地図検索手段113などにより地図データベース131から該当する地図図形を検索し、該当する地図図形が存在しない場合は空間解析手段115や地図編集手段114などにより一時図形を計算生成し、その地図図形又は一時図形を空間属性とするジオイベントをジオイベントデータベース132で管理することで、文書を空間管理及び検索利用できる。
【0023】
図2は、本発明の一実施形態における文書登録処理フローの例を示す図である。まず文書を入力すると(S200)、図3で後述する固有表現抽出処理を実行し(S201)、地名や空間関係子などの固有表現を抽出する。なお、地名記述は曖昧性を有し、場所を一意に特定できない場合が多いため、通常は複数の地名候補と図11で後述する確度として出力される。例えば、文書中に「国分寺」という地名記述が含まれている場合、地名候補及び確度は「東京都国分寺市:確度High」「香川県高松市国分寺町:確度Low」などとして出力しても良い。また、複数地名及びそれらの間の関係を示す「空間関係子」の候補表現が抽出された場合、図21(c)で後述するような上記複数地名候補を含むグラフとして出力しても良い。これら曖昧性を含めて管理するため、まずは複数地名候補やグラフを含む複数の空間属性を有する属性情報を生成し(S202)、以降の処理でその曖昧性を解消していく。
【0024】
まず、図4で後述する曖昧性解消空間処理を実行し(S203)、上記グラフに含まれる複数地名候補同士の位置関係の矛盾などを判定して空間属性を絞り込む。さらに図5で後述する曖昧性解消文書処理を実行し(S204)、内容が類似する他の文書の属性情報を参照して空間属性を更新する。以上の結果により得られた属性情報に基づき、図6で後述するジオイベントデータベース登録処理を実行する(S205)。また、文書情報を文書データベースに登録し(S206)、さらにインデクスを更新する(S207)。以上の構成により、文書の空間属性の曖昧性を適切に管理し、かつ曖昧性を解消でき、文書を高精度な地図上で扱うことができる。
【0025】
図3は、本発明の一実施形態における固有表現抽出処理フローの例を示す図である。まず文書を入力すると(S300)、候補表現を一時格納する空のリストを生成し(S301)、地名辞書などを用いた文書情報処理により地名やその他の候補表現を抽出する(S302)。全ての候補表現についてループをまわし(S303)、非地名修飾表現辞書との照合により候補表現の採否を判定し(S304)、採用の場合には候補表現リストに追加する(S305)。例えば、「アメリカにある日本大使館」において、「アメリカ」と「日本」が候補表現として抽出されたとする。非地名修飾表現辞書に「大使館」が登録されていれば、「日本大使館」における「日本」は地名候補としては不採用になる。また、地名以外のその他の候補表現としては、文書と空間関係子辞書の照合により採否判定する空間関係子がある。図2で上述した通り、空間関係子に基づき地名間の関係をグラフとして記述しても良い。以上の手順を全候補表現について繰り返し(S306)、最後に候補表現リストを出力する(S307)。
【0026】
これにより、図4及び図5で後述する曖昧性解消処理などにおいて、地名と空間関係子やその他の時間やキーワードなど各種表現を共に利用できる。また、ステップ302の候補表現抽出の際に、文書と地名辞書を直接照合するのではなく、地名など固有表現がタグ付けされた教師データを事前に機械学習して得られた統計モデルや識別モデルを用いて固有表現抽出し、その後で地名辞書と照合しても良い。以上の構成により、辞書を用いた柔軟な空間属性付与の自動処理が可能となる。これにより、日々蓄積されるWebデータベースなどでも自動かつ高精度な空間属性付与が可能となる。
【0027】
図4は、本発明の一実施形態における曖昧性解消空間処理フローの例を示す図である。まず地名候補及び空間関係子を入力する(S400)。複雑な関係を有する複数の地名候補及び空間関係子を入力するため、図21(c)で後述するグラフなどを用いれば良い。次に、空の真理表を生成し(S401)、全ての地名候補及び空間関係子の組み合わせについて(S402)、真理表に該組み合わせの命題の行を追加し(S403)、これを全地名候補の組み合わせについて繰り返す(S404)。さらに構築された真理表の各行、すなわち地名候補組み合わせについて(S405)、真偽判定する(S406)。構築した真理表の例は図21(d)に後述する。注目行の命題が正しくなかった場合、すなわち注目している地名候補及び空間関係子等の記述内容に矛盾が含まれている場合、図11で後述する確度を更新して該地名候補による空間属性の利用を抑制する(S407)。上記手順を真理表の全ての行について繰り返す(S408)。
【0028】
以上の構成により、空間関係子を含む複雑な地名記述における空間的な位置関係を簡易に真偽判定できる。正しい空間関係子の記述を含む地名記述のみを選択でき、正しくない空間関係子の記述を含む地名記述を地名候補から除外できる。すなわち、地名候補群に含まれる曖昧性を解消し、多数の地名候補から注目文書が示す場所を絞り込むことができる。ここで、地名記述に空間関係子が含まれない場合、真理表は単純な1列の表となり、各行について地名の確度のみを判定すれば良い。また、真理表の真偽判定結果については、真偽2値の例について説明したが、一致度や適合度など連続値としても良い。また、真理表の構築時に全ての組み合わせの命題の行を追加するのではなく、明らかに真偽判定が不要な誤った地名候補はあらかじめ除外するなど、真理表の行数を減らして計算処理を効率化しても良い。
【0029】
図5は、本発明の一実施形態における曖昧性解消文書処理フローの例を示す図である。まず文書を入力すると、該文書と内容が関連する可能性がある文書を文書データベースから検索する(S500)。検索結果の全ての関連文書について(S501)、関連文書中に含まれる地名やキーワードなど固有表現が一致するか照合し(S502)、一致度を評価する(S503)。一致度が高い場合、空間属性や時間属性などの属性情報について矛盾の有無や更新可能か確認し(S504)、更新可能な場合、他の文書に記述された情報を補完的に用いて属性情報を更新する(S505)。例えば、同じ内容に関するニュースであっても、詳細度又は曖昧性の度合いが異なる地名及び空間関係子などの表記を含む場合があり(例えば、XX市中心部、XX市YY町など)、図4で上述した曖昧性解消空間処理で異なる範囲の空間属性が付与されている場合などである。上記手順を全ての関連文書について繰り返す(S506)。
【0030】
ここで、一致度の評価には空間属性及び時間属性のオーバーラップの度合いを用いても良いし、さらにキーワードの一致の度合いを計量化して用いても良い。また、更新対象の特定には、曖昧性が高い(確度が低い)属性情報を更新対象としても良い。また、更新情報を直接データベースに反映しても良いが、更新情報を一度キューに蓄積し、システム管理者が更新内容を確認してから反映しても良い。また、属性情報更新の信頼性向上のため、複数文書情報の集合による統計的処理、多数決などを用いても良い。また、入力する文書は文書データベースに新規登録するものだけでなく、文書データベースに蓄積済みの文書を用いても良い。以上の構成により、大量の文書情報の集合を用いた属性情報付与などが可能となる。
【0031】
図6は、本発明の一実施形態におけるジオイベントデータベース登録処理フローの例を示す図である。まず上述の属性情報に含まれる空間属性候補情報及び文書を入力すると(S600)、ジオイベントの空のレコードデータ(新規インスタンス)を生成する(S601)。該空間属性候補を地図データ又は地図のレイヤ管理情報や属性情報と照合し(S602)、該当地図の有無を判定する(S603)。該当地図が有る場合、該当する地図図形を特定し(S604)、既存の地図図形へのリンクを空間属性としてジオイベントのレコードデータへ付与する(S605)。該当地図が無い場合、地図編集機能114により図17で後述する一時図形を生成し(S606)、一時図形生成に成功した場合、該一時図形を地図データベース131へ登録し(S607)、該一時図形へのリンクをジオイベントのレコードデータへ付与する(S608)。また、一時図形生成に失敗した場合、ジオイベントのレコードデータに空間属性候補をそのまま(曖昧性を含んだまま)採用する(S609)。以上の手順により生成されたジオイベントのレコードデータを、ジオイベントデータベース132へ追加する(S610)。
【0032】
ここで、上記空間属性候補には、任意数の地名候補や空間関係子やキーワードなどを含んでも良い。また、上記該当する地図図形を特定する際や、上記一時図形を生成する際には、上述の曖昧性解消空間処理を組み合わせて用いて、複数の図形候補から一つの図形候補に絞り込んでも良いし、また曖昧性を含めて複数の地図図形候補を管理しても良い。以上の構成により、曖昧な空間属性を有する情報をジオイベントとして扱うことができ、従来の文書情報と空間情報を同等に利用できる。
【0033】
図7は、本発明の一実施形態における検索出力処理フローの例を示す図である。まず検索指定範囲やキーワードなど検索条件を入力し(S700)、インデクス検索を実行し(S701)、検索条件に直接ヒットする検索結果データをデータベースから取得する(S702)。ここで、ヒットした検索結果データがジオイベントデータであった場合、関連付けられている文書データもデータベースから取得できる。さらに図8で後述する処理により、該検索結果データと空間的又は内容的に関連する可能性がある関連データを検索する(S703)。上記手順により得られた検索結果をソートしたり、関連データと併記するなど整形処理し(S704)、検索結果として出力する(S705)。さらに絞り込み検索の条件入力の有無を確認し(S706)、入力が有る場合にはステップ701のインデクス検索に戻り、入力が無い場合にはステップ700の検索条件入力に戻る。以上の構成により、空間インデクスを用いることで、文書情報も地図上で高速に検索できる。
【0034】
図8は、本発明の一実施形態における関連データ検索処理フローの例を示す図である。まず上記検索出力処理による通常検索における検索条件及び検索結果データを入力すると(S800)、関連データを一時格納する空のリストを生成する(S801)。全ての検索結果データについてループをまわし(S802)、該検索結果データに基づき関連データ候補を探索するためのデータ(以下、仲介データと呼ぶ)をたどり、周辺地域に存在する地名データや地図図形、さらにそれらにリンクされた文書など、関連する可能性があるデータ(以下、関連データ候補と呼ぶ)を再検索する(S803)。キーワードなど上記入力された検索条件と、該関連データ候補の文書から抽出したキーワード及び空間関係子など関連データ候補の属性情報が一致する場合(S804)、関連データであるとして、関連データリストにレコード追加する(S805)。上記手順を全ての検索結果データについて繰り返す(S806)。以上の手順により作成された関連データリストを出力する(S807)。関連データ検索の例は図14から図16に後述する。
【0035】
ここで、関連データは、空間的な関連、時間的な関連、キーワード的な関連、又はそれらの組み合わせによる関連であっても良い。また、検索条件に応じて関連データ検索処理の内容を切り替えても良い。また、空間的に関連するデータを検索する場合の仲介データの例は、地図又は一時図形などの図形データや地名辞書などを用いても良い。例えば、検索指定範囲に一部重なる(含まれる)道路や行政界などの線又は面図形データを仲介データとしてたどり(追跡し)、該図形データに関連付けられた文書を検索しても良い。あるいは、地名が階層管理された地名辞書を仲介データとし、検索指定範囲に含まれる地名代表点データから仲介データを経由して上位又は下位又は隣接などの関連地名データをたどったり、国や県など同一の行政体などに属する関連地名データをたどるなどして、該関連地名データに関連付けられた文書を検索しても良い。もちろん、地名辞書の代わりに地名が階層管理された地図データベース等を用いても良い。また、キーワード的に関連するデータを検索する場合、文書中に出現するキーワード群や各種属性などに基づき文書データをクラスタリングし、検索条件に該当する検索結果から該検索結果が属するクラスタを特定し、該クラスタに属する他の文書を検索しても良い。もちろん、上記クラスタ検索は空間的や時間的に関連するデータを検索する場合に利用しても良いし、空間又は時間又はキーワードを組み合わせた多次元データ空間でクラスタリングしても良い。
【0036】
以上の手順により、地図図形データや地名代表点データが検索指定範囲に直接含まれておらず、単なる空間検索では検索されなかった、空間的に関連するデータなどをユーザーに提示できる。また空間以外の時間及びキーワードを含め、検索条件に直接合致しないが内容的に関連する可能性がある文書をユーザーに提示でき、多様な情報に基づく総合的な判断や意思決定などの支援を実現できる。
【0037】
図9は、本発明の一実施形態におけるジオイベント管理に必須のデータベースのテーブル構成の例を示す図である。ジオイベントは文書や地図や地名辞書など複数データベース及びテーブルにまたがる異種データを関連付けて管理する。ジオイベントテーブル900は、ジオイベントのメタデータに相当し、ジオイベントデータベース132の一部として、文書データへのリンクを管理する。また、該ジオイベントの空間属性の抽出元の文書データ中における地名や空間関係子などの詳細に関する空間属性コンテキストや、キーワード、その他の各種属性などを管理しても良い。空間属性コンテキストとしては、固有表現抽出手段110により抽出された地名や空間関係子などの文書中の記述箇所や、複数の地名候補や空間関係子など同士のグラフ構造などを、XMLデータなどとして記述管理しても良い。また、複数の場所に関する文書をジオイベントとして管理するには、任意数の空間属性を記述管理する必要があるため、空間属性を別テーブルの空間属性テーブル901として管理しても良い。該ジオイベントが関連する地図図形データや地名データへのリンクや、曖昧性を管理するための確度、曖昧性解消などに伴う更新履歴情報、その他の各種属性などを管理しても良い。ここで、空間属性番号は該ジオイベントが有する複数の空間属性データの識別子であり、ジオイベントコードと合わせて主キーとして用いるだけでなく、空間属性データ同士の関係管理に用いても良い。例えば、特定ジオイベントに関する全ての空間属性データに通番の空間属性番号を付与しても良いし、あるいは同じ地名に関する複数の候補のみに通番を付与し、異なる地名に関するデータには連続しない番号を付与しても良い。
【0038】
文書テーブル902は、文書データベース133の一部として、ジオイベントから参照する文書データを管理する。データのURIや、その他の各種属性などを管理しても良い。地図図形テーブル903は、地図データベース131の一部として、地図図形データなどを管理する。点や線や面など図形の種別や、様々な種別を含むジオメトリ型の地図図形データ、空間解析手段などにより計算生成された一時図形であることを示すフラグ情報、行政界境界や道路など図形の内容を示すレイヤ、その他図形名称などの各種属性などを管理しても良い。地名テーブル904は、地名辞書120の一部として、地名データを管理する。一つ以上の言語で記述された住所表記や別名などの地名表記や、該地名の代表点の経緯度座標などを表す位置情報、その他の各種属性などを管理しても良い。
【0039】
ここで、データ構成は上記構成に限定されるものではなく、複数テーブルを統合したり、あるいは分割などしても良い。例えば、一時図形データなど地図図形データは地図図形テーブルではなく空間属性テーブルに直接記述しても良いし、また地名データも地名テーブルではなく空間属性テーブルに直接記述しても良いし、また空間属性を空間属性テーブルではなくジオイベントテーブルに直接記述管理しても良いし、あるいはジオイベント自体を地図図形として管理しても良い。もちろん、一時図形データを一時図形データベースまたは一時図形テーブルに格納しても良い。また、ジオイベントの空間属性の記述に地図図形テーブルへのリンクを用いない場合、ジオイベントと地図との関連付けは位置情報により暗示的に関連付ければ良い。もちろん、地名データについても同様に位置情報により暗示的に関連付ければ良い。また、キーワードは文書テーブルで管理しても良い。また、データベース実装は関係データベースに限定されず、XMLデータベースやオブジェクト指向データベースなど、任意の手段で実装しても良い。以上の構成により、複数かつ曖昧性を含む空間属性を有するジオイベントを管理できる。
【0040】
図20は、本発明の一実施形態におけるジオイベント以外のデータベースのテーブル構成の例を示す図である。空間関係子テーブル2000は、空間関係子辞書121の一部として、固有表現抽出手段で文書から抽出する空間関係子と、曖昧性解消空間処理手段112で曖昧性解消に用いる空間解析処理内容とを対応付けて管理する。一つ又は複数の空間関係子の表記、確度算出に必要な空間解析処理で用いるパラメータや処理内容、その他の各種属性などを管理しても良い。例えば、「南」空間関係子では指定された2点により構成されるベクトルと南方向ベクトルとの内積計算を、「距離」空間関係子では指定された2点間の距離と指定距離パラメータとの差異などを登録しても良い。これら登録内容を曖昧性解消空間処理手段112で解釈することで、空間解析手段115を呼び出して確度算出できる。また、同じ空間関係子について複数パラメータを記述することで、点対点やポリライン対点、ポリゴン対点など、入力されたデータの型に応じた複数の空間解析処理を実現しても良い。
【0041】
非地名修飾表現テーブル2001は、非地名修飾表現辞書122の一部として、固有表現抽出手段110で地名を抽出する際に地名以外の固有表現を除外するため、地名の前後に記述されることで地名を異なるカテゴリに変換する「地名修飾表現」を管理する。対象とする言語や地名修飾表現、該地名修飾表現が出現する位置、その他の各種属性などを管理しても良い。ここで、言語として文字コードを管理しても良いし、複数の非地名修飾表現の組み合わせを管理しても良い。また、ここではインデクス130のテーブル構成は特に記載していないが、独自のインデクス機能を用いても良いし、既存のデータベースに実装されているインデクス機能を用いても良い。例えば、ジオイベントや地名辞書、地図図形データの検索を高速化するため空間インデクスや時空間インデクスなどを構築して用いても良いし、文書中のキーワードなどをインデキシングしても良い。
【0042】
図10は、本発明の一実施形態における文書の空間属性の例を示す図である。図10(a)は、文書の内容が示す地域に該当する詳細な地図図形データが存在する場合、それを空間属性とする文書1001の例である。ここで、文書中に記載された地名や空間関係子などと地図データベース中の地図図形データとを照合した結果、一致する地図図形データが存在する場合には、該地図図形データへのリンクを空間属性として保持すれば良い。しかしながら、一般に、一致する地図図形データが存在する場合は多くない。そこで、一致する地図図形データが存在しない場合には、空間解析手段115などにより該当する地域の図形を一時図形として一時的に計算生成して利用しても良い。
【0043】
図10(b)は、文書の内容が示す地域を包含する行政体の地図図形データを空間属性とする文書1002の例である。ここで、行政体の面の地図図形データ以外にも、道路や鉄道や行政界や河川や海岸線など、線の地図図形データを空間属性として利用しても良い。図10(c)は文書の内容が示す地域に関する地名代表点データを空間属性とする文書1003の例である。一般に、詳細な行政体の境界線などの地図図形データは入手又は利用が困難な場合があり、地図データベースに比べ詳細な地名を含む地名辞書を用いることで、地名代表点データを空間属性として利用できる場合がある。また、地図データベースと地名辞書における各地名データは明示的に関連付け管理されていない場合が多いが、地名代表点の座標データを経由することで、地名が示す行政界の地図に暗示的に関連付け利用が可能となる。
【0044】
以上の構成により、文書内容に合わせて図10(a)(b)(c)の例を適宜選択又は組み合わせて利用することで、様々な空間属性の記述が可能となり、様々な内容の文書を空間データとして管理できる。なお、以下の実施例では、主に、文書の内容が示す地域に該当する地図図形データが存在しない場合に、地名代表点データ及び空間解析手段115などを組み合わせて用いることで空間属性を付与し、さらに関連するデータを検索する例について述べる。
【0045】
図11は、本発明の一実施形態における曖昧性管理の例を示す図である。ここで、まず具体的な地名を例に、地名の曖昧性について説明する。例えば「吉祥寺」は、地名としては東京都武蔵野市や福岡県北九州市や兵庫県三木市に、またランドマークとしては「駅」が東京都武蔵野市に、「寺院」が少なくとも東京都文京区など国内に95軒、海外にも2軒存在する。すなわち、文書中に「吉祥寺」と記載されている場合、それがどの吉祥寺を指しているのかを正しく判定し、適切な空間属性を付与する必要がある。通常は前後文脈に記載されたキーワードなど各種記述に基づき、各候補について確度を算出して判断する必要がある。例えば前後に「東京」という記載があれば武蔵野市の地名又は文京区の寺院、さらに「駅」との記載があれば武蔵野市、などと絞り込める(確度を更新できる)。特にブログなどでは、大都市以外の市町村レベルの地名や駅や通りなどのランドマークの扱いが必要な場合も多く、これらを適切に管理できる仕組みが必要である。
【0046】
図11(a)は曖昧性を有さない地名記述により、唯一の場所に関連付けて管理した文書1101の例である。図11(b)は文書が複数の場所に関する内容を含んでいる場合に、曖昧性を有さない複数の地名記述により、複数の場所に関連付けて管理した文書1102の例である。一般に、完全な住所表記など以外では、これらのようなケースは少ない。一方、図11(c)は曖昧性を有する地名記述により、複数の地名候補に対し確度を付与し、場所に関連付けて管理した文書1103の例である。このような曖昧性の管理により、複数の候補が存在する一般的な地名記述による文書も適切に管理でき、空間検索などに利用することができる。また、図11(b)に示した複数地名記述の例と組み合わせ、m件の地名記述に関するn件の地名候補が存在する場合、m×n件の場所に確度を含めて関連付け管理しても良い。また、図4及び図5で上述した曖昧性解消空間処理及び曖昧性解消文書処理やユーザー操作による更新指示などにより曖昧性解消できた場合、空間属性の確度を修正することで、空間検索結果などの品質向上が可能となる。ここで、確度は全体で100%となるよう正規化して記述しても良いし、尤度や確度スコア、あるいは「High」「Low」など順序付き非数値データとして記述しても良い。ここで、地名の確度の算出方法としては、過去のGeoCLEFで検討されている地名辞書中の種別や人口などの項目を用いて算出しても良い(http://www.uni-hildesheim.de/geoclef/)。
【0047】
図12は、本発明の一実施形態における曖昧性解消の例を示す図である。図12(a)は複数地名候補における各種スコア計算や他データ参照等による評価により、最も確度が高い地名A1210を採用して文書の空間属性とし、確度が低い地名A’1211や地名A’’1212を不採用とすることで、曖昧性を解消して文書の空間属性とする例である。もちろん、確度が低い地名A’1211や地名A’’1212も採用し、確度や曖昧性を含めて情報出力することで、ユーザーの目視確認により曖昧性解消しても良い。
【0048】
図12(b)は「地名Aの南方20kmにある地名B」など空間関係子を含む文書表記に対し、複数地名候補の全ての地名の組み合わせにおける方位及び距離の評価1231により、最も確度が高い地名組み合わせ(地名A1220及び地名B1222)を採用し、確度が低い地名組み合わせ(地名A’1221及び地名B’1223)を不採用とすることで、曖昧性を解消して文書の空間属性とする例である。一般に同表記の地名は多く、地名候補が多数となる場合が多いが、空間関係子などの空間解析に基づく評価により矛盾する地名候補の組み合わせの確度を下げるか又は不採用とし、確度が高い地名組み合わせを絞り込むことで、文書の内容が示す地域を特定できる場合がある。ここで、単純に「地名Aの南方20km」の位置を空間解析により特定し、地名Bの一時点図形データを機械的に生成すると、海中など誤った場所となってしまう場合がある。もちろん、全く地名候補が存在しない場合は機械的に一時図形データを生成しても良いが、地名候補が存在する場合には、上記空間解析などに基づく評価により、空間関係子の記述内容に最も類似する既存データの組み合わせを選択することで、安定した空間属性の付与が可能となる。例えば、完全に南でなくても相対的評価により比較的南に位置する候補組み合わせを、また距離が厳密に20kmでなくても相対的評価により比較的20kmに近い候補組み合わせを採用すれば良い。
【0049】
また、図12(c)は「地名Aと地名Bの間」など空間関係子を含む文書表記に対し、地名A1230と地名B1231を含む地域全体1233ではなく、地名A1230と地名B1231を結ぶ道路や鉄道や行政界や河川や海岸線など地図図形データ1232を空間解析手段115により最短経路(又は最適コスト)で結ぶ地図図形データを選択特定し、曖昧性を解消して文書の空間属性とする例である。ここで、文書の内容やキーワードなどに応じて、地図図形データの図形種別やレイヤを選択することで、空間属性付与の精度を向上しても良い。
【0050】
図13は、本発明の一実施形態における空間関係子による地域記述の例を示す図である。図13(a)はレベルの異なる地名データ又は行政体のデータ管理イメージの例であり、図13(b)はさらに地域記述を追加した例である。本実施例では、複数の行政体を横断する地域を横断地域1311、明示的に定義された集合的な地域である明示的集合地域1312、明示的に定義されていないが実質的に理解される集合的な地域である暗示的集合地域1313、行政体の部分である部分地域1314、と定義しデータ管理する。もちろん、これら複数の地域構成を組み合わせて用いても良い。本実施例では、地域は上位地域Level 0から下位地域Level 2まで階層構造となっており、例えばLevel 0は県1301、Level 1は市1302、Level 2は町1303などに相当する。その際には、横断地域は「XX通り沿い」、明示的集合地域は「XX地区」、暗示的集合地域は「XX町及びYY町の境界付近」、部分地域は「XX町北部」、などに相当する。あるいはLevel 0は国、Level 1は県、Level 2は市などであっても良い。その際には、横断地域は「XX洋沿岸」、明示的集合地域は「XX地方」、暗示的集合地域は「XX県及びYY県の県境付近」、部分地域は「XX市北部」、などに相当する。もちろん、世界、国、県などの組み合わせであっても良い。ここで、上記階層構造の階層数は実世界の状況に対応した3階層以外の階層数であっても良いし、単層構造など非階層構造の部分が含まれていても良い。
【0051】
また、上記地域記述を実現するための空間関係子の例としては、「XX前」「XX付近」「XXのそば」など隣接性又は近接性に関するもの、「XX北部」「XXの周囲YYキロ」「XXの北方YYキロ」など方位及び距離又はその組み合わせに関するもの、「XXとYYの間」「XX駅前YY通り沿い」「XX市YY通り沿い」など複数の地名又は地物との空間関係に関するものなど、多様な表現がある。これら空間関係子については、独自に定義しても良いし、GeoCLEFで検討されているGeo-relationなど既存体系を適用しても良い(http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm)。また、距離については曖昧性を考慮し評価する必要があるが、独自の判定方法を定義しても良いし、W3CによるGeoOnionなど既存の語彙を適用しても良い(http://esw.w3.org/topic/GeoOnion)。
【0052】
図14は、本発明の一実施形態における階層管理地名データを用いた関連データ検索の例を示す図である。ここでは、階層管理された地名データとして地名辞書を例に説明するが、地図データベースやその他データベースなどを用いても良い。図14(a)はA県1401、B市1402、C町1403というレベルの異なる行政体の地名データ管理イメージである。B市及びC町はレベルが異なるものの、いずれもA県に属しており、各々の地名にリンク管理されている文書データには、関連データとして閲覧したい内容が含まれている可能性がある。図14(b)は地図1410上で検索指定範囲1411を入力設定し、B市1402付近の地域の情報を空間検索した例である。通常の空間検索で閲覧できるのはB市1402に関する文書1422だけだが、図8で上述した関連データ検索処理により、階層管理された地名データを仲介データとして上位又は下位又は隣接などの関連地名データをたどる事で、A県1401に関する文書1421やC町1403に関する文書1423も閲覧できる。もちろん、詳細な行政界の地図図形データ1410が存在する場合には、まず検索指定範囲1411に含まれる行政界図形データ1410を特定し、該行政界図形データに包含される全ての地名点データを空間解析により特定することで、階層管理された地名データを用いずに関連データ検索しても良い。また、検索指定範囲は矩形に限らず、ユーザー入力やその他図形などのポリゴン、線分又は折れ線、円、点、時間又は空間又は空間の立体又は時空間の超立体などであっても良い。
【0053】
図15は、本発明の一実施形態における面図形データを用いた関連データ検索の例を示す図である。図15(a)は面図形データを用いた関連データ検索をしない例で、検索指定範囲1501に含まれる地名1511のみ検索され、含まれない地名1513は検索されない。また、閲覧できる文書は、該検索される地名1511に関連付けられた文書1521のみである。図15(b)は行政界地図を用いて関連データ検索する例で、検索指定範囲に含まれている行政界地図1502に基づき、各面の代表点である全ての地名に関連付けられた文書1521を閲覧できる。検索範囲に直接含まれている地名1511のみならず、関連する可能性がある地名1512を全て検索できる。図15(c)は行政界地図が無い場合に各地名を母点とするボロノイ図1503を一時図形として生成し関連データ検索に用いる例で、行政界地図が無い状況にも関わらず、関連する可能性のある地名の一部1512を検索できる。図15(d)は同様に行政界地図が無い場合に各地名位置を中心とする円1504を一時図形として生成し関連データ検索する例で、行政界地図が無い状況にも関わらず、関連する可能性のある地名の一部1512を検索できる。以上の構成により、詳細な行政界地図データがない地域でも注目行政体に関連するデータを検索でき、さらに検索指定範囲に直接含まれないが関連する可能性がある文書も閲覧できる。
【0054】
図16は、本発明の一実施形態における線図形データを用いた関連データ検索の例を示す図である。図16(a)は関連データ検索をしない例で、検索指定範囲1601を用いた通常の空間検索では、検索指定範囲1601に直接含まれるA都市1611に関連付けられた文書1631しか閲覧できない。図16(b)は関連データ検索をする例で、検索指定範囲1601に直接含まれるA都市1611に関連付けられた文書1631だけでなく、検索指定範囲1601に一部重なる(含まれる)各種地図図形データを仲介データとし、空間的に関連する可能性がある文書も閲覧できる。例えば、「B都市1612からC都市1613までの道路沿い」など、既存のベクトル地図図形を用いることで場所を特定できるキーワードなどの記述が含まれている文書1634の場合、「B都市」「C都市」という地名だけでなく当該道路地図図形1621にも関連付けて管理することで、同一の検索指定範囲1601でも検索閲覧可能となる。また、「B都市1612からC都市1613までの海岸沿い」など、既存のベクトル地図図形1622の一部を用いることで場所を特定できるキーワードなどの記述が含まれている文書1635の場合、当該一部領域に一時図形1623を生成し、「B都市」「C都市」という地名だけでなく該図形にも関連付けて管理することで、同一の検索指定範囲1601でも検索閲覧可能となる。
【0055】
ここで、具体的な場所特定方法としては、文書中のキーワードとレイヤ名称又は図形名称などを照合し、一致度を算出して判定に用いれば良い。例えば、海岸の特性や地形などに関する記述の場合は海岸線図形、鉄道移動を想定した駅などに関する記述の場合は鉄道関連図形、車移動を想定した主要道路などに関する記述の場合は道路関連図形など、地図図形を用いて文書を関連付けて管理すれば良い。また、キーワードと直接一致するレイヤ名称や図形名称などが無かった場合は、オントロジーや概念検索機能などを用いて、概念的に関連する可能性が高いデータを選択しても良い。
【0056】
図17は、本発明の一実施形態における一時図形の例を示す図である。本実施例では空間属性として利用可能な地図図形データが存在しない場合、空間解析手段115や各種データベースなどを組み合わせて一時図形を生成し利用する。図17(a)は地名A1700と地名B1701の境界1702「沿い」又は「付近」などの空間関係子に対応する一時図形1703の例である。図17(b)は地名A1710における地名B1711との境界1712「付近」などの空間関係子に対応する一時図形1713の例である。これらは空間解析手段115のバッファ解析処理などにより実現できる。図17(c)は、空間統計処理により推定した地名辞書の地名データ群1720の密度分布の等密度線による一時図形1721の例である。「XX都市部」「YY都区部」「XX市街」「XX郊外」など、明示的な境界データが存在しない地域に関する文書の空間属性として利用できる。もちろん、地図データベースに都市部などのポリゴンデータが存在する場合、それらを用いて都市部を特定しても良い。ここで、等密度線の密度しきい値には所定の値を用いても良いし、判別分析や機械学習などにより計算取得しても良い。また、地名データ群1720が人口などの属性値を有する場合、それを重み係数として空間統計処理に用いても良い。
【0057】
図17(d)は地名A1730と地名B1731の「間」などの空間関係子に対応する一時図形1732の例である。地名A1730又は地名B1731の点だけでなく、文書内容が示している可能性がある範囲を広く空間属性とすることができる。図17(e)は既存地図図形データ1742を用いた地名A1740と地名B1741の「間」などの一時図形1743の例である。地名A1740又は地名B1741の点だけでなく、文書内容が示している可能性がある範囲を限定して空間属性とすることができる。空間解析手段115により、地名Aと地名Bの間を最短経路(又は最適コスト)で結ぶ道路などの地図図形データを取得し、AからBの間で切り抜き処理することで実現できる。ここで、既存地図図形データ1742の一部を切り抜き処理する以外にも、既存地図図形データ1742が複数のセグメントからなる場合には、複数セグメントを統合した一時図形を生成しても良いし、また複数セグメントを空間属性として直接利用しても良い。図17(f)は、既存地図図形データ1751を用いたXX県1750におけるYY1751「沿い」などの空間関係子に対応する一時図形1752の例である。空間解析手段115により、行政界ポリゴンと道路ラインストリングなどを重畳判定及び交差判定し、交差部分を切り抜き処理することで実現できる。
【0058】
図17(g)は、XX駅など注目ランドマーク1760の「XX駅付近」や「XX駅付近YYkm」1761などの空間関係子に対応する一時図形1762の例である。前者「XX駅付近」の場合、距離については所定の値を用いても良いし、周辺ランドマークとの平均距離などに基づき計算取得しても良い。図17(h)は、XX駅など注目ランドマーク1770の「XX駅前」などの空間関係子に対応する一時図形1774の例である。道路地図図形データを用いることで、等距離内でも駅に面していない道路の反対側は除外するなど、範囲を限定して空間属性とすることができる。また、地図データベースなどに駅出入り口位置などの情報が存在する場合、駅の全周囲ではなく、駅出入り口から前面のみなど範囲を限定しても良い。図17(i)は、XX駅など注目ランドマーク1780の「XX駅徒歩YY分」などの空間関係子に対応する一時図形1783の例である。空間解析手段115のネットワーク解析処理などにより実現できる。
【0059】
図17(j)は既存地図図形データを均等に方位分割した、「XX県北部」や「XX国北部」などの空間関係子に対応する一時図形1790の例である。もちろん、注目行政体の方位分割区分を含む地図図形データが存在する場合、それらを参照しても良い。また、図17(k)は、さらに県庁所在地や首都など行政界代表点となる地名代表点データ1795を考慮し、方位分割した一時図形1796の例である。これらにより、詳細な部分地域への文書関連付けを実現できる。
【0060】
ここで、行政界代表点の地名代表点データが存在しない場合、図17(c)と同等の空間統計処理などにより、複数の地名代表点データ群の密度ピークなどを算出して用いても良い。また、これら以外にも様々な空間解析を用いて一時図形を生成しても良い。例えば、重畳判定による切り抜き図形やAND図形やOR図形やXOR図形などを用いても良いし、バッファ解析による点や線や面や立体などのバッファ図形などを用いても良いし、ボロノイ図やドロネー図などを生成して用いても良いし、空間統計処理や時系列解析による予測分布などを用いても良い。また、これら以外にも様々な既存データを用いて一時図形を生成しても良い。その他、画像処理結果や画像認識結果などを用いても良い。
【0061】
図18は、本発明の一実施形態におけるユーザーインタフェースの例を示す図である。ユーザーインタフェース1800は下記の複数画面から構成される。地図画面1801は、地図画面上で検索指定範囲1810を入力して空間検索を実行する。ここで、現在の地図表示範囲を検索指定範囲としても良いし、既存ベクトル地図図形を選択して検索指定範囲としても良い。文書検索キーワード指定画面1802は、検索キーワードを入力指定し、検索ボタン1803を押下してキーワード検索を実行する。検索結果は、検索結果項目表示画面1804及び検索結果文書表示画面1805に表示すると共に、地図画面1801上に検索結果シンボルなどを表示しても良い。ここで、上記の空間検索とキーワード検索は、まずインデクス130を用いた空間検索で検索対象の数を絞り込み、さらにキーワード検索を実行しても良いし、あるいはインデクス130を用いたキーワード検索で検索対象の数を絞り込み、さらに空間検索を実行しても良い。これら検索手順は固定でも良いし、あるいは入力された検索指定範囲1810の広さやキーワードの数などに応じて動的に変更しても良い。また、地図画面1801で検索指定範囲1810を入力する代わりに、文書検索キーワード指定画面1802で地名を入力して検索に用いても良い。その際、地名だけでなく地名間の関係を記述する空間関係子も入力可能とし、地図上では入力が複雑な検索指定範囲を文字入力しても良い。地図画面1801での検索指定範囲1810と文書検索キーワード指定画面1802での地名及び空間関係子など両方が入力された場合、それらのANDやORやXORなど論理演算やIntersectやCrossesなど空間演算やその他演算を実行して検索に用いても良い。また図19で後述する関連データ検索の実行又は表示をオンオフ制御可能なインタフェースを備えても良い。その他、検索条件として検索対象の言語条件(例えば特定の言語コードや言語条件無し)や情報源(例えばWebサーバのドメイン)などを追加指定しても良い。検索結果項目表示画面1804は、検索結果を行政体毎などでクラスタ化し纏めて出力する例である。ここで、検索結果の項目を表示するだけでなく複数地名を入力指定して表示項目を制御しても良いし、検索結果の空間分布状況や表示データ数などに応じてクラスタを自動又は手動で調節しても良い。また、行政体以外の地域や時間やキーワードやデータの情報源などでクラスタ化しても良いし、もちろん全ての検索結果を纏めて表示しても良い。検索結果文書表示画面1805は、検索結果を時系列順にソートして出力した例である。ここで、表示順序は、指定キーワードとの一致度順や指定位置からの推定距離順などとしても良い。
【0062】
図19は、本発明の一実施形態における関連データ検索ユーザーインタフェースの例を示す図である。図16で上述した線図形データを用いた関連データ検索について説明する。もちろん、図18で上述したインタフェースの一部として実施しても良いし、あるいは別途実施しても良い。図19(a)は関連データを検索しない例である。検索指定範囲1601に直接含まれる都市に関連付けられた文書1631しか閲覧できない。検索結果文書表示画面1901では、同位置又は同地名に関連付けられている検索結果をリスト形式で表示できる。
【0063】
図19(b)は関連データを検索し、検索結果を地図画面1900及び検索結果表示画面1901上に表示する例である。検索結果表示画面1901の「関連情報」にリストアップされた関連データ項目1910を選択すると、当該項目における関連データ検索の実行を指示入力でき、関連データ検索結果を表示できる。例えば関連データ項目から周辺地域1910を選択すると、検索指定範囲1601に直接含まれていないが空間的に関連する可能性がある文書も閲覧できる。ここで、上記関連データ項目の選択ではなく、図18で上述したように検索指示画面に別途チェックボックスなど関連データ検索オプション設定インタフェースを設けて指示入力しても良い。
【0064】
また、本実施例では関連データ項目として空間に関する「周辺地域」「国」、時間に関する「時期」、内容に関する「キーワード」などを設ける例を示したが、これ以外の関連データ項目を用意しても良い。また、「時期」については同時期や同季節やイベント発生タイミングなど、「キーワード」については類似キーワードや最新頻出キーワードや類似カテゴリなどの関連データ項目を備えても良い。また、各検索結果については、同地名や同位置に関連付けられた他の検索結果を纏めて閲覧可能としても良い。また、関連データ検索で用いた一時図形データ1623などについては、地図画面上に表示又は強調表示などして関連データ検索の結果内容を確認可能としても良いし、ユーザーに一時図形を意識させないよう表示しなくても良い。また関連データ検索はユーザーが関連データ項目1910を選択した際に実行しても良いし、あるいは選択前にバックグラウンドで事前に実行しておいても良い。事前に実行しておく場合、図19に図示したように、関連情報の検索結果数をあらかじめ関連データ項目1910と並べて表示し、閲覧判断できる情報をユーザーに提供しても良い。
【0065】
図21は、本発明の一実施形態における曖昧性解消空間処理に用いるデータの例を示す図である。図21(a)は地名及び空間関係子を含む文書データ2100の例である。図21(b)は該文書データ2100から固有表現抽出手段110により抽出した地名をノードとし空間関係子をエッジとして構造化したグラフ2101の例である。図21(c)は該グラフ2101のノードに複数の地名候補が関連付けられたグラフ2102の例である。図21(d)は複数の地名候補が関連付けられたグラフ2102を展開し、真偽判定した真理表2103の例である。図21(e)は、真理表2103の真偽判定の結果、複数候補から絞り込まれた空間関係子を含む複雑な地名記述を地図出力2104した例である。もちろん、文書データ2100中に複数の内容が含まれている場合、複数の場所に関する記述を複数のグラフとして記述し利用しても良い。以上の構成により、複数の地名候補や空間関係子を含み、空間属性が曖昧な文書データを地図上で容易に可視化できる。
【図面の簡単な説明】
【0066】
【図1】本発明の一実施形態における機能構成の例を示す図。
【図2】本発明の一実施形態における文書登録処理フローの例を示す図。
【図3】本発明の一実施形態における固有表現抽出処理フローの例を示す図。
【図4】本発明の一実施形態における曖昧性解消空間処理フローの例を示す図。
【図5】本発明の一実施形態における曖昧性解消文書処理フローの例を示す図。
【図6】本発明の一実施形態におけるジオイベントデータベース登録処理フローの例を示す図。
【図7】本発明の一実施形態における検索出力処理フローの例を示す図。
【図8】本発明の一実施形態における関連データ検索処理フローの例を示す図。
【図9】本発明の一実施形態におけるジオイベント管理に必須のデータベースのテーブル構成の例を示す図。
【図10】本発明の一実施形態における階層管理地名データを用いた関連データ検索の例を示す図。
【図11】本発明の一実施形態における曖昧性管理の例を示す図。
【図12】本発明の一実施形態における曖昧性解消の例を示す図。
【図13】本発明の一実施形態における空間関係子による地域記述の例を示す図。
【図14】本発明の一実施形態における空間関係子における方位記述の例を示す図。
【図15】本発明の一実施形態における面図形データを用いた関連データ検索の例を示す図。
【図16】本発明の一実施形態における線図形データを用いた関連データ検索の例を示す図。
【図17】本発明の一実施形態における一時図形の例を示す図。
【図18】本発明の一実施形態におけるユーザーインタフェースの例を示す図。
【図19】本発明の一実施形態における関連データ検索ユーザーインタフェースの例を示す図。
【図20】本発明の一実施形態におけるジオイベント以外のデータベースのテーブル構成の例を示す図。
【図21】本発明の一実施形態における曖昧性解消空間処理に用いるデータの例を示す図。
【符号の説明】
【0067】
100…情報分析装置、101…入力手段、102…出力手段、110…固有表現抽出手段、111…曖昧性解消文書処理手段、112…曖昧性解消空間処理手段、113…地図検索手段、114…地図編集手段、115…空間解析手段、116…辞書管理手段、117…データベース管理手段、118…ジオイベント管理手段、120…地名辞書、121…空間関係子辞書、122…非地名修飾表現辞書、130…インデクス、131…地図データベース、132…ジオイベントデータベース、133…文書データベース
【技術分野】
【0001】
本発明は、文書情報と空間情報を共に検索又は出力し、空間的な関連データを提示する情報分析装置に関わる。
【背景技術】
【0002】
近年、ニュースやブログなど場所や地域に関する非定型の文書データが、インターネット上で日々大量に生成され続けている。これらデータには、現地取材で直接得られた一次情報や地域住民により記述された地域の最新状況などが含まれ、マーケティングなど地域状況の詳細把握に有効な情報が含まれている場合がある。一般に非定型文書データには様々な情報が記載されているが、文書情報処理技術及び地理情報システムなど空間情報処理技術を組み合わせて用い、これらデータを空間や時間などをキーとして時空間地図上で管理することで、空間や時間やキーワードなどにより検索及び出力でき、大量の文書データの全体状況把握など高度な利用が可能となってきた。
【0003】
従来技術としては、文書中に記載された地名などの固有表現を抽出する技術が開示されている(例えば特許文献1)。抽出された地名と地名辞書とを照合して地図上の特定位置(経緯度等の座標値)に変換し、それを空間属性として属性情報に付与することにより、文書データを空間管理できる。また、特にニュースについては、地図上の地名位置にシンボル表示する技術が開示されている(例えば特許文献2,3)。また、曖昧な位置情報を扱う技術が開示されている(例えば特許文献4)。
【0004】
【特許文献1】特開2006−23968号公報
【特許文献2】特表2007−524113号公報
【特許文献3】特表2003−524259号公報
【特許文献4】特開2004−280659号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
従来技術では、完全な住所表記など場所が明確な地名記述を扱うことは容易だったが、曖昧な地名記述を含む文書を適切に地図上に関連付け、文書を他の空間情報と同等に地図上で検索し、出力することは難しい場合があった。例えば、従来技術では、人名や組織名などの固有表現を誤って地名として抽出し、それによりデータが誤った場所に関連付けられることがあった。また同表記地名や類似表記地名など複数の地名候補が得られた場合、それらのうち最も確からしさ(確度)が高い結果のみを採用し一意に絞り込んでいたが、結果として誤った場所に関連付けられることがあった。
【0006】
また、地名単独ではなく、地名と地名、又は地名と注目地域との方向関係や距離関係など位置的な関係を記述した記述子(以下、空間関係子と呼ぶ)を含む文書の扱いが必要である。例えば、方向関係の例では「XX北部」や「XX中心部」、距離関係の例では「XX付近」や「XXからYYキロ」、それらの組み合わせの例では「XXの北YYキロ」、その他の例では「XXとYYの間」や「XX市の国道YY沿い」、などである。これら空間関係子を含む複雑かつ曖昧な地名記述については、従来技術の空間属性付与処理では未対応又は誤った場所に関連付けられることがあった。
【0007】
また、一般に地名辞書に記載されている位置情報は点図形データ(座標値)であることが多く、文書の内容が指し示す線や面など広がりのある領域や、それら領域同士の組み合わせによる領域、さらには上記空間関係子を含む組み合わせによる領域などと、文書を関連付けて管理することが難しかった。
【0008】
すなわち、多様な地名記述を含む任意の文書を簡易にデータベースに登録し、曖昧性を管理し、必要に応じて曖昧性を解消し、場所に関連付けて管理することで、文書を空間情報と同等に検索利用などしたい、という要求があった。本発明では、これらの課題を解決する情報分析装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記目的を達成するため、本発明は、文書情報を場所に関連付けて管理し、場所をキーとして文書情報を検索する情報分析装置であって、文書情報を格納した文書データベースと、地図図形を含む地図情報を格納した地図データベースと、文書中に記載された地名に関する情報を抽出する抽出手段と、抽出された地名に関する情報の曖昧性を解消する手段と、抽出された地名に関する情報を文書情報の空間属性として地図データベースの地図に関連付けて格納したジオイベントデータベースと、地図上の領域を検索指定範囲として入力する入力手段と、検索指定範囲に含まれる地図に関連付けられた文書をジオイベントデータベースを用いて検索する検索手段と、検索結果を出力する出力手段と、を備える。
【0010】
地図図形には、例えば、都市名などを表す点図形、国、県、区などの行政界などを表す面図形、道路、鉄道、川、海岸線、境界線などを表す線図形などが含まれる。地図上の領域指定は、例えば地名、行政区画、道路、鉄道などの名称を入力することによって指定することもできるし、検索画面に表示された地図上のポイントを指定したり、特定の領域を線で囲むことによって指定することもできる。
【0011】
抽出手段は、地名表現と位置情報とを関連付けて格納した地名辞書、空間の間の位置的な関係を記述する空間関係子の表記を格納した空間関係子辞書、地名の前後に記述されることで地名を異なるカテゴリに変換する修飾表現を格納した非地名修飾表現辞書の一つ以上の辞書を用い、地名又は空間関係子又はそれらの組み合わせを抽出する。
空間属性は、地図図形へのリンク形式とすることができる。
【0012】
曖昧性解消手段は、抽出された地名の地図上の位置に対する複数の候補と空間関係子の組み合わせについて真偽判定することにより、正しい空間関係子の記述を含む地名の地図上の位置を候補から選択する。また、曖昧性解消手段は、複数の文書情報を照合して情報を補完することによって曖昧性を解消する。
【0013】
また、入力手段は、関連データ検索指示の入力部を備え、関連データ検索指示が入力されたとき、入力された検索条件に基づいて直接検索された検索結果と空間的あるいは内容的に関連する可能性がある関連データを検索する。例えば、検索手段は、検索指定範囲と一部重なる地図図形に関連付けられた文書を検索する。
【発明の効果】
【0014】
本発明によれば、文書に記載された複雑な地名記述の曖昧性を適切に管理し、かつ曖昧性を解消できる。非定型文書データを空間、時間及びキーワードなどにより構造化して管理でき、地図上での高精度な検索利用などが可能となる。また、単なる空間検索では検索されなかった、空間的に関連するデータなど、ユーザーが意図していなかった関連データを提供でき、発見的な地域状況の把握及び分析を支援できる機能を実現できる。
【0015】
これらの効果により、注目地域に関する様々な情報をユーザーに提供でき、データ間の空間的な関係や時空間での変化傾向などの情報分析が可能となる。ユーザーの多様な要求に応じた即時性及び視認性の高い情報提供が可能となり、ユーザーの分析業務や意思決定を効果的に支援できる。
【発明を実施するための最良の形態】
【0016】
以下、本発明の実施例を詳細に説明するが、本発明は以下の実施例に限定されるものではない。例えば、以下ではニュースやブログなどWeb情報を用いた実施例について説明するが、ローカルHDDに格納されたドキュメントファイル群や、ローカル又はネットワーク接続サーバのデータベースに格納された構造化データ群、モバイル端末等により入力された断片的な情報、あるいはそれらの組み合わせなどを用いても本発明を実施できることは明らかである。また、地域マーケティングのアプリケーション例について説明するが、災害時の地域状況把握など、その他アプリケーションや、あるいは各種アプリケーションを実現可能とする汎用システムとして実施しても良い。また、県や市などの行政体レベルの例について説明するが、より詳細な字レベル、あるいはより広域の国レベルの内容であっても良い。また、以下では装置の例について説明するが、本発明はコンピュータに読み込まれて実行されるプログラムで実現されるものであっても良いし、ネットワークシステム又はネットワークサービスなどであっても良い。
【0017】
図1は、本発明の一実施形態における機能構成の例を示す図である。情報分析装置100は以下の複数手段により構成される。入力手段101は、ユーザーからの検索条件設定やデータ操作、ネットワーク経由で受信した処理指示などを情報分析装置に入力する。出力手段102は、ユーザーへの画面表示や印刷、又はネットワーク経由で処理結果などを情報分析装置から出力する。固有表現抽出手段110は、文書から固有表現を抽出するための抽出規則に基づき、地名や空間関係子や時間やキーワードなどの固有表現を文書データから抽出する。曖昧性解消文書処理手段111は、複数文書の属性情報同士の照合に基づき、曖昧な属性情報を特定し、他の属性情報に合わせて内容を更新する。例えば、同じ内容のニュースが複数のニュースリソースから提供された場合、表現が微妙に異なるため、不足情報を相互に補える場合がある。地図検索手段113は、時空間及びレイヤなどの条件により地図を検索する。ただし検索対象は地図に限らず、適切な空間属性を付与すれば、地図以外の空間情報や文書情報など各種情報も併せて検索可能である。地図編集手段114は、新規図形の作成や既存図形の修正、既存図形の削除などを行う。また、一時的な図形(以下、一時図形と呼ぶ)の計算生成など、各種空間情報処理に必要な図形の操作を実現する。曖昧性解消空間処理手段112は、空間関係子を含む複雑な地名記述における空間的な位置関係を空間解析手段115などにより判定し、多数の地名候補から注目文書が関連する場所を絞り込む。空間解析手段115は、重畳判定や計測やバッフ解析やネットワーク解析やボロノイ解析や空間統計などの空間解析機能を備え、上記一時図形の計算生成に向けた図形同士の重畳判定や重畳範囲特定及び切り出し、また上記位置関係の判定に向けた距離や方向の計測などを行う。これら処理のフローについては図2から図8で後述する。
【0018】
辞書管理手段116は、固有表現抽出に必要な以下の複数の辞書を管理する。すなわち、地名辞書120は地名表記と地名代表点における経緯度座標など位置情報を対応付けて管理し、それらの変換を可能とする。空間関係子辞書121は、空間関係子の表記及び曖昧性解消空間処理における処理内容などを対応付けて管理する(例えば、「地名Aの南にある地名B」などの「南」空間関係子と、「地名Aの位置から地名Bの位置へのベクトルと南方向ベクトルとの内積演算処理による方向判定」など)。非地名修飾表現辞書122は、地名の前後に記述されることで地名を異なるカテゴリに変換する「地名修飾表現」を管理する(例えば「市民」「大使館」など)。
【0019】
データベース管理手段117は、文書情報及び空間情報の検索及び更新などに必要な以下の複数のデータベースを管理する。すなわち、地図データベース131は地図情報を管理する。ジオイベントデータベース132は、文書情報など明示的な空間属性を有さないが場所に関する情報を地図データなどと同様に空間管理又は時空間管理し、文書情報と場所を関連付けて管理する。具体的には、地図オブジェクト(地物)の一種として「ジオイベント型の地物」を定義し、固有表現抽出手段110により抽出された地名に基づく位置情報と、必要に応じて位置情報の曖昧性を含めて空間属性として管理する。曖昧な空間属性の記述例としては、複数の位置候補に対応した複数の空間属性の記述管理、又は複数地名候補間の空間的な位置関係を記述した空間関係子を含む複雑な空間属性のグラフによる記述管理、などである。インデクス130は空間、時空間又はキーワードなどにより各種情報をインデクス管理し、高速検索を可能とする。ジオイベントを(時)空間インデキシング管理することで、非定型文書データを効率的に地図上で検索や出力できる。文書データベース133は文書情報を管理する。これらデータベースの主なテーブル構成については図9及び図20で後述する。
【0020】
ジオイベント管理手段118は、ジオイベントデータベース132に対して、地図編集手段114や空間解析手段115などを用いて、図6で後述するジオイベントデータベース登録処理などを行う。
【0021】
ここで、地名辞書120と地図データベース131を併用するためには、位置情報によりデータを暗示的に関連付けて用いても良いし、全国地方公共団体コードやISO3166やその他コード、あるいは独自コードなど、共通のコードを各データに記述して明示的に関連付けても良い。また、多言語の表記を含む地名辞書や空間関係子辞書や非地名修飾表現辞書や地図などを用いることで、多言語の文書情報から地名を抽出して場所に関連付けて管理し、多言語の文書情報を空間検索クエリで一括検索しても良い。また、辞書やデータベースは、ネットワーク経由で接続したり、又は情報分析装置100の内部に保持しても良い。また、上記以外のデータベースとして画像データベースを保持したり、ユーザーが入力した情報や図形などを地図又は独自データベースとして保持するなどして、地図やジオイベントなど他データベースと併用しても良い。また、以下では地物の属性情報として空間属性を地物データに直接記述する例について述べるが、メタデータのような別データ又はデータベースに記述しても良い。もちろん、データベースは任意の構成が可能であり、地名辞書120を地図図形と同等の地名点データ群として扱い地図データベース131に含めて良いことは言うまでもないが、さらに地図や地名辞書やジオイベントなどを組み合わせたデータベース構成としても良い。
【0022】
以上の構成により、固有表現抽出手段110により文書から抽出した複数の地名や空間関係子などの候補に基づき、空間解析手段115や曖昧性解消空間処理手段112や曖昧性解消文書処理手段111などによりそれらの曖昧性を解消し、空間解析手段115や地図検索手段113などにより地図データベース131から該当する地図図形を検索し、該当する地図図形が存在しない場合は空間解析手段115や地図編集手段114などにより一時図形を計算生成し、その地図図形又は一時図形を空間属性とするジオイベントをジオイベントデータベース132で管理することで、文書を空間管理及び検索利用できる。
【0023】
図2は、本発明の一実施形態における文書登録処理フローの例を示す図である。まず文書を入力すると(S200)、図3で後述する固有表現抽出処理を実行し(S201)、地名や空間関係子などの固有表現を抽出する。なお、地名記述は曖昧性を有し、場所を一意に特定できない場合が多いため、通常は複数の地名候補と図11で後述する確度として出力される。例えば、文書中に「国分寺」という地名記述が含まれている場合、地名候補及び確度は「東京都国分寺市:確度High」「香川県高松市国分寺町:確度Low」などとして出力しても良い。また、複数地名及びそれらの間の関係を示す「空間関係子」の候補表現が抽出された場合、図21(c)で後述するような上記複数地名候補を含むグラフとして出力しても良い。これら曖昧性を含めて管理するため、まずは複数地名候補やグラフを含む複数の空間属性を有する属性情報を生成し(S202)、以降の処理でその曖昧性を解消していく。
【0024】
まず、図4で後述する曖昧性解消空間処理を実行し(S203)、上記グラフに含まれる複数地名候補同士の位置関係の矛盾などを判定して空間属性を絞り込む。さらに図5で後述する曖昧性解消文書処理を実行し(S204)、内容が類似する他の文書の属性情報を参照して空間属性を更新する。以上の結果により得られた属性情報に基づき、図6で後述するジオイベントデータベース登録処理を実行する(S205)。また、文書情報を文書データベースに登録し(S206)、さらにインデクスを更新する(S207)。以上の構成により、文書の空間属性の曖昧性を適切に管理し、かつ曖昧性を解消でき、文書を高精度な地図上で扱うことができる。
【0025】
図3は、本発明の一実施形態における固有表現抽出処理フローの例を示す図である。まず文書を入力すると(S300)、候補表現を一時格納する空のリストを生成し(S301)、地名辞書などを用いた文書情報処理により地名やその他の候補表現を抽出する(S302)。全ての候補表現についてループをまわし(S303)、非地名修飾表現辞書との照合により候補表現の採否を判定し(S304)、採用の場合には候補表現リストに追加する(S305)。例えば、「アメリカにある日本大使館」において、「アメリカ」と「日本」が候補表現として抽出されたとする。非地名修飾表現辞書に「大使館」が登録されていれば、「日本大使館」における「日本」は地名候補としては不採用になる。また、地名以外のその他の候補表現としては、文書と空間関係子辞書の照合により採否判定する空間関係子がある。図2で上述した通り、空間関係子に基づき地名間の関係をグラフとして記述しても良い。以上の手順を全候補表現について繰り返し(S306)、最後に候補表現リストを出力する(S307)。
【0026】
これにより、図4及び図5で後述する曖昧性解消処理などにおいて、地名と空間関係子やその他の時間やキーワードなど各種表現を共に利用できる。また、ステップ302の候補表現抽出の際に、文書と地名辞書を直接照合するのではなく、地名など固有表現がタグ付けされた教師データを事前に機械学習して得られた統計モデルや識別モデルを用いて固有表現抽出し、その後で地名辞書と照合しても良い。以上の構成により、辞書を用いた柔軟な空間属性付与の自動処理が可能となる。これにより、日々蓄積されるWebデータベースなどでも自動かつ高精度な空間属性付与が可能となる。
【0027】
図4は、本発明の一実施形態における曖昧性解消空間処理フローの例を示す図である。まず地名候補及び空間関係子を入力する(S400)。複雑な関係を有する複数の地名候補及び空間関係子を入力するため、図21(c)で後述するグラフなどを用いれば良い。次に、空の真理表を生成し(S401)、全ての地名候補及び空間関係子の組み合わせについて(S402)、真理表に該組み合わせの命題の行を追加し(S403)、これを全地名候補の組み合わせについて繰り返す(S404)。さらに構築された真理表の各行、すなわち地名候補組み合わせについて(S405)、真偽判定する(S406)。構築した真理表の例は図21(d)に後述する。注目行の命題が正しくなかった場合、すなわち注目している地名候補及び空間関係子等の記述内容に矛盾が含まれている場合、図11で後述する確度を更新して該地名候補による空間属性の利用を抑制する(S407)。上記手順を真理表の全ての行について繰り返す(S408)。
【0028】
以上の構成により、空間関係子を含む複雑な地名記述における空間的な位置関係を簡易に真偽判定できる。正しい空間関係子の記述を含む地名記述のみを選択でき、正しくない空間関係子の記述を含む地名記述を地名候補から除外できる。すなわち、地名候補群に含まれる曖昧性を解消し、多数の地名候補から注目文書が示す場所を絞り込むことができる。ここで、地名記述に空間関係子が含まれない場合、真理表は単純な1列の表となり、各行について地名の確度のみを判定すれば良い。また、真理表の真偽判定結果については、真偽2値の例について説明したが、一致度や適合度など連続値としても良い。また、真理表の構築時に全ての組み合わせの命題の行を追加するのではなく、明らかに真偽判定が不要な誤った地名候補はあらかじめ除外するなど、真理表の行数を減らして計算処理を効率化しても良い。
【0029】
図5は、本発明の一実施形態における曖昧性解消文書処理フローの例を示す図である。まず文書を入力すると、該文書と内容が関連する可能性がある文書を文書データベースから検索する(S500)。検索結果の全ての関連文書について(S501)、関連文書中に含まれる地名やキーワードなど固有表現が一致するか照合し(S502)、一致度を評価する(S503)。一致度が高い場合、空間属性や時間属性などの属性情報について矛盾の有無や更新可能か確認し(S504)、更新可能な場合、他の文書に記述された情報を補完的に用いて属性情報を更新する(S505)。例えば、同じ内容に関するニュースであっても、詳細度又は曖昧性の度合いが異なる地名及び空間関係子などの表記を含む場合があり(例えば、XX市中心部、XX市YY町など)、図4で上述した曖昧性解消空間処理で異なる範囲の空間属性が付与されている場合などである。上記手順を全ての関連文書について繰り返す(S506)。
【0030】
ここで、一致度の評価には空間属性及び時間属性のオーバーラップの度合いを用いても良いし、さらにキーワードの一致の度合いを計量化して用いても良い。また、更新対象の特定には、曖昧性が高い(確度が低い)属性情報を更新対象としても良い。また、更新情報を直接データベースに反映しても良いが、更新情報を一度キューに蓄積し、システム管理者が更新内容を確認してから反映しても良い。また、属性情報更新の信頼性向上のため、複数文書情報の集合による統計的処理、多数決などを用いても良い。また、入力する文書は文書データベースに新規登録するものだけでなく、文書データベースに蓄積済みの文書を用いても良い。以上の構成により、大量の文書情報の集合を用いた属性情報付与などが可能となる。
【0031】
図6は、本発明の一実施形態におけるジオイベントデータベース登録処理フローの例を示す図である。まず上述の属性情報に含まれる空間属性候補情報及び文書を入力すると(S600)、ジオイベントの空のレコードデータ(新規インスタンス)を生成する(S601)。該空間属性候補を地図データ又は地図のレイヤ管理情報や属性情報と照合し(S602)、該当地図の有無を判定する(S603)。該当地図が有る場合、該当する地図図形を特定し(S604)、既存の地図図形へのリンクを空間属性としてジオイベントのレコードデータへ付与する(S605)。該当地図が無い場合、地図編集機能114により図17で後述する一時図形を生成し(S606)、一時図形生成に成功した場合、該一時図形を地図データベース131へ登録し(S607)、該一時図形へのリンクをジオイベントのレコードデータへ付与する(S608)。また、一時図形生成に失敗した場合、ジオイベントのレコードデータに空間属性候補をそのまま(曖昧性を含んだまま)採用する(S609)。以上の手順により生成されたジオイベントのレコードデータを、ジオイベントデータベース132へ追加する(S610)。
【0032】
ここで、上記空間属性候補には、任意数の地名候補や空間関係子やキーワードなどを含んでも良い。また、上記該当する地図図形を特定する際や、上記一時図形を生成する際には、上述の曖昧性解消空間処理を組み合わせて用いて、複数の図形候補から一つの図形候補に絞り込んでも良いし、また曖昧性を含めて複数の地図図形候補を管理しても良い。以上の構成により、曖昧な空間属性を有する情報をジオイベントとして扱うことができ、従来の文書情報と空間情報を同等に利用できる。
【0033】
図7は、本発明の一実施形態における検索出力処理フローの例を示す図である。まず検索指定範囲やキーワードなど検索条件を入力し(S700)、インデクス検索を実行し(S701)、検索条件に直接ヒットする検索結果データをデータベースから取得する(S702)。ここで、ヒットした検索結果データがジオイベントデータであった場合、関連付けられている文書データもデータベースから取得できる。さらに図8で後述する処理により、該検索結果データと空間的又は内容的に関連する可能性がある関連データを検索する(S703)。上記手順により得られた検索結果をソートしたり、関連データと併記するなど整形処理し(S704)、検索結果として出力する(S705)。さらに絞り込み検索の条件入力の有無を確認し(S706)、入力が有る場合にはステップ701のインデクス検索に戻り、入力が無い場合にはステップ700の検索条件入力に戻る。以上の構成により、空間インデクスを用いることで、文書情報も地図上で高速に検索できる。
【0034】
図8は、本発明の一実施形態における関連データ検索処理フローの例を示す図である。まず上記検索出力処理による通常検索における検索条件及び検索結果データを入力すると(S800)、関連データを一時格納する空のリストを生成する(S801)。全ての検索結果データについてループをまわし(S802)、該検索結果データに基づき関連データ候補を探索するためのデータ(以下、仲介データと呼ぶ)をたどり、周辺地域に存在する地名データや地図図形、さらにそれらにリンクされた文書など、関連する可能性があるデータ(以下、関連データ候補と呼ぶ)を再検索する(S803)。キーワードなど上記入力された検索条件と、該関連データ候補の文書から抽出したキーワード及び空間関係子など関連データ候補の属性情報が一致する場合(S804)、関連データであるとして、関連データリストにレコード追加する(S805)。上記手順を全ての検索結果データについて繰り返す(S806)。以上の手順により作成された関連データリストを出力する(S807)。関連データ検索の例は図14から図16に後述する。
【0035】
ここで、関連データは、空間的な関連、時間的な関連、キーワード的な関連、又はそれらの組み合わせによる関連であっても良い。また、検索条件に応じて関連データ検索処理の内容を切り替えても良い。また、空間的に関連するデータを検索する場合の仲介データの例は、地図又は一時図形などの図形データや地名辞書などを用いても良い。例えば、検索指定範囲に一部重なる(含まれる)道路や行政界などの線又は面図形データを仲介データとしてたどり(追跡し)、該図形データに関連付けられた文書を検索しても良い。あるいは、地名が階層管理された地名辞書を仲介データとし、検索指定範囲に含まれる地名代表点データから仲介データを経由して上位又は下位又は隣接などの関連地名データをたどったり、国や県など同一の行政体などに属する関連地名データをたどるなどして、該関連地名データに関連付けられた文書を検索しても良い。もちろん、地名辞書の代わりに地名が階層管理された地図データベース等を用いても良い。また、キーワード的に関連するデータを検索する場合、文書中に出現するキーワード群や各種属性などに基づき文書データをクラスタリングし、検索条件に該当する検索結果から該検索結果が属するクラスタを特定し、該クラスタに属する他の文書を検索しても良い。もちろん、上記クラスタ検索は空間的や時間的に関連するデータを検索する場合に利用しても良いし、空間又は時間又はキーワードを組み合わせた多次元データ空間でクラスタリングしても良い。
【0036】
以上の手順により、地図図形データや地名代表点データが検索指定範囲に直接含まれておらず、単なる空間検索では検索されなかった、空間的に関連するデータなどをユーザーに提示できる。また空間以外の時間及びキーワードを含め、検索条件に直接合致しないが内容的に関連する可能性がある文書をユーザーに提示でき、多様な情報に基づく総合的な判断や意思決定などの支援を実現できる。
【0037】
図9は、本発明の一実施形態におけるジオイベント管理に必須のデータベースのテーブル構成の例を示す図である。ジオイベントは文書や地図や地名辞書など複数データベース及びテーブルにまたがる異種データを関連付けて管理する。ジオイベントテーブル900は、ジオイベントのメタデータに相当し、ジオイベントデータベース132の一部として、文書データへのリンクを管理する。また、該ジオイベントの空間属性の抽出元の文書データ中における地名や空間関係子などの詳細に関する空間属性コンテキストや、キーワード、その他の各種属性などを管理しても良い。空間属性コンテキストとしては、固有表現抽出手段110により抽出された地名や空間関係子などの文書中の記述箇所や、複数の地名候補や空間関係子など同士のグラフ構造などを、XMLデータなどとして記述管理しても良い。また、複数の場所に関する文書をジオイベントとして管理するには、任意数の空間属性を記述管理する必要があるため、空間属性を別テーブルの空間属性テーブル901として管理しても良い。該ジオイベントが関連する地図図形データや地名データへのリンクや、曖昧性を管理するための確度、曖昧性解消などに伴う更新履歴情報、その他の各種属性などを管理しても良い。ここで、空間属性番号は該ジオイベントが有する複数の空間属性データの識別子であり、ジオイベントコードと合わせて主キーとして用いるだけでなく、空間属性データ同士の関係管理に用いても良い。例えば、特定ジオイベントに関する全ての空間属性データに通番の空間属性番号を付与しても良いし、あるいは同じ地名に関する複数の候補のみに通番を付与し、異なる地名に関するデータには連続しない番号を付与しても良い。
【0038】
文書テーブル902は、文書データベース133の一部として、ジオイベントから参照する文書データを管理する。データのURIや、その他の各種属性などを管理しても良い。地図図形テーブル903は、地図データベース131の一部として、地図図形データなどを管理する。点や線や面など図形の種別や、様々な種別を含むジオメトリ型の地図図形データ、空間解析手段などにより計算生成された一時図形であることを示すフラグ情報、行政界境界や道路など図形の内容を示すレイヤ、その他図形名称などの各種属性などを管理しても良い。地名テーブル904は、地名辞書120の一部として、地名データを管理する。一つ以上の言語で記述された住所表記や別名などの地名表記や、該地名の代表点の経緯度座標などを表す位置情報、その他の各種属性などを管理しても良い。
【0039】
ここで、データ構成は上記構成に限定されるものではなく、複数テーブルを統合したり、あるいは分割などしても良い。例えば、一時図形データなど地図図形データは地図図形テーブルではなく空間属性テーブルに直接記述しても良いし、また地名データも地名テーブルではなく空間属性テーブルに直接記述しても良いし、また空間属性を空間属性テーブルではなくジオイベントテーブルに直接記述管理しても良いし、あるいはジオイベント自体を地図図形として管理しても良い。もちろん、一時図形データを一時図形データベースまたは一時図形テーブルに格納しても良い。また、ジオイベントの空間属性の記述に地図図形テーブルへのリンクを用いない場合、ジオイベントと地図との関連付けは位置情報により暗示的に関連付ければ良い。もちろん、地名データについても同様に位置情報により暗示的に関連付ければ良い。また、キーワードは文書テーブルで管理しても良い。また、データベース実装は関係データベースに限定されず、XMLデータベースやオブジェクト指向データベースなど、任意の手段で実装しても良い。以上の構成により、複数かつ曖昧性を含む空間属性を有するジオイベントを管理できる。
【0040】
図20は、本発明の一実施形態におけるジオイベント以外のデータベースのテーブル構成の例を示す図である。空間関係子テーブル2000は、空間関係子辞書121の一部として、固有表現抽出手段で文書から抽出する空間関係子と、曖昧性解消空間処理手段112で曖昧性解消に用いる空間解析処理内容とを対応付けて管理する。一つ又は複数の空間関係子の表記、確度算出に必要な空間解析処理で用いるパラメータや処理内容、その他の各種属性などを管理しても良い。例えば、「南」空間関係子では指定された2点により構成されるベクトルと南方向ベクトルとの内積計算を、「距離」空間関係子では指定された2点間の距離と指定距離パラメータとの差異などを登録しても良い。これら登録内容を曖昧性解消空間処理手段112で解釈することで、空間解析手段115を呼び出して確度算出できる。また、同じ空間関係子について複数パラメータを記述することで、点対点やポリライン対点、ポリゴン対点など、入力されたデータの型に応じた複数の空間解析処理を実現しても良い。
【0041】
非地名修飾表現テーブル2001は、非地名修飾表現辞書122の一部として、固有表現抽出手段110で地名を抽出する際に地名以外の固有表現を除外するため、地名の前後に記述されることで地名を異なるカテゴリに変換する「地名修飾表現」を管理する。対象とする言語や地名修飾表現、該地名修飾表現が出現する位置、その他の各種属性などを管理しても良い。ここで、言語として文字コードを管理しても良いし、複数の非地名修飾表現の組み合わせを管理しても良い。また、ここではインデクス130のテーブル構成は特に記載していないが、独自のインデクス機能を用いても良いし、既存のデータベースに実装されているインデクス機能を用いても良い。例えば、ジオイベントや地名辞書、地図図形データの検索を高速化するため空間インデクスや時空間インデクスなどを構築して用いても良いし、文書中のキーワードなどをインデキシングしても良い。
【0042】
図10は、本発明の一実施形態における文書の空間属性の例を示す図である。図10(a)は、文書の内容が示す地域に該当する詳細な地図図形データが存在する場合、それを空間属性とする文書1001の例である。ここで、文書中に記載された地名や空間関係子などと地図データベース中の地図図形データとを照合した結果、一致する地図図形データが存在する場合には、該地図図形データへのリンクを空間属性として保持すれば良い。しかしながら、一般に、一致する地図図形データが存在する場合は多くない。そこで、一致する地図図形データが存在しない場合には、空間解析手段115などにより該当する地域の図形を一時図形として一時的に計算生成して利用しても良い。
【0043】
図10(b)は、文書の内容が示す地域を包含する行政体の地図図形データを空間属性とする文書1002の例である。ここで、行政体の面の地図図形データ以外にも、道路や鉄道や行政界や河川や海岸線など、線の地図図形データを空間属性として利用しても良い。図10(c)は文書の内容が示す地域に関する地名代表点データを空間属性とする文書1003の例である。一般に、詳細な行政体の境界線などの地図図形データは入手又は利用が困難な場合があり、地図データベースに比べ詳細な地名を含む地名辞書を用いることで、地名代表点データを空間属性として利用できる場合がある。また、地図データベースと地名辞書における各地名データは明示的に関連付け管理されていない場合が多いが、地名代表点の座標データを経由することで、地名が示す行政界の地図に暗示的に関連付け利用が可能となる。
【0044】
以上の構成により、文書内容に合わせて図10(a)(b)(c)の例を適宜選択又は組み合わせて利用することで、様々な空間属性の記述が可能となり、様々な内容の文書を空間データとして管理できる。なお、以下の実施例では、主に、文書の内容が示す地域に該当する地図図形データが存在しない場合に、地名代表点データ及び空間解析手段115などを組み合わせて用いることで空間属性を付与し、さらに関連するデータを検索する例について述べる。
【0045】
図11は、本発明の一実施形態における曖昧性管理の例を示す図である。ここで、まず具体的な地名を例に、地名の曖昧性について説明する。例えば「吉祥寺」は、地名としては東京都武蔵野市や福岡県北九州市や兵庫県三木市に、またランドマークとしては「駅」が東京都武蔵野市に、「寺院」が少なくとも東京都文京区など国内に95軒、海外にも2軒存在する。すなわち、文書中に「吉祥寺」と記載されている場合、それがどの吉祥寺を指しているのかを正しく判定し、適切な空間属性を付与する必要がある。通常は前後文脈に記載されたキーワードなど各種記述に基づき、各候補について確度を算出して判断する必要がある。例えば前後に「東京」という記載があれば武蔵野市の地名又は文京区の寺院、さらに「駅」との記載があれば武蔵野市、などと絞り込める(確度を更新できる)。特にブログなどでは、大都市以外の市町村レベルの地名や駅や通りなどのランドマークの扱いが必要な場合も多く、これらを適切に管理できる仕組みが必要である。
【0046】
図11(a)は曖昧性を有さない地名記述により、唯一の場所に関連付けて管理した文書1101の例である。図11(b)は文書が複数の場所に関する内容を含んでいる場合に、曖昧性を有さない複数の地名記述により、複数の場所に関連付けて管理した文書1102の例である。一般に、完全な住所表記など以外では、これらのようなケースは少ない。一方、図11(c)は曖昧性を有する地名記述により、複数の地名候補に対し確度を付与し、場所に関連付けて管理した文書1103の例である。このような曖昧性の管理により、複数の候補が存在する一般的な地名記述による文書も適切に管理でき、空間検索などに利用することができる。また、図11(b)に示した複数地名記述の例と組み合わせ、m件の地名記述に関するn件の地名候補が存在する場合、m×n件の場所に確度を含めて関連付け管理しても良い。また、図4及び図5で上述した曖昧性解消空間処理及び曖昧性解消文書処理やユーザー操作による更新指示などにより曖昧性解消できた場合、空間属性の確度を修正することで、空間検索結果などの品質向上が可能となる。ここで、確度は全体で100%となるよう正規化して記述しても良いし、尤度や確度スコア、あるいは「High」「Low」など順序付き非数値データとして記述しても良い。ここで、地名の確度の算出方法としては、過去のGeoCLEFで検討されている地名辞書中の種別や人口などの項目を用いて算出しても良い(http://www.uni-hildesheim.de/geoclef/)。
【0047】
図12は、本発明の一実施形態における曖昧性解消の例を示す図である。図12(a)は複数地名候補における各種スコア計算や他データ参照等による評価により、最も確度が高い地名A1210を採用して文書の空間属性とし、確度が低い地名A’1211や地名A’’1212を不採用とすることで、曖昧性を解消して文書の空間属性とする例である。もちろん、確度が低い地名A’1211や地名A’’1212も採用し、確度や曖昧性を含めて情報出力することで、ユーザーの目視確認により曖昧性解消しても良い。
【0048】
図12(b)は「地名Aの南方20kmにある地名B」など空間関係子を含む文書表記に対し、複数地名候補の全ての地名の組み合わせにおける方位及び距離の評価1231により、最も確度が高い地名組み合わせ(地名A1220及び地名B1222)を採用し、確度が低い地名組み合わせ(地名A’1221及び地名B’1223)を不採用とすることで、曖昧性を解消して文書の空間属性とする例である。一般に同表記の地名は多く、地名候補が多数となる場合が多いが、空間関係子などの空間解析に基づく評価により矛盾する地名候補の組み合わせの確度を下げるか又は不採用とし、確度が高い地名組み合わせを絞り込むことで、文書の内容が示す地域を特定できる場合がある。ここで、単純に「地名Aの南方20km」の位置を空間解析により特定し、地名Bの一時点図形データを機械的に生成すると、海中など誤った場所となってしまう場合がある。もちろん、全く地名候補が存在しない場合は機械的に一時図形データを生成しても良いが、地名候補が存在する場合には、上記空間解析などに基づく評価により、空間関係子の記述内容に最も類似する既存データの組み合わせを選択することで、安定した空間属性の付与が可能となる。例えば、完全に南でなくても相対的評価により比較的南に位置する候補組み合わせを、また距離が厳密に20kmでなくても相対的評価により比較的20kmに近い候補組み合わせを採用すれば良い。
【0049】
また、図12(c)は「地名Aと地名Bの間」など空間関係子を含む文書表記に対し、地名A1230と地名B1231を含む地域全体1233ではなく、地名A1230と地名B1231を結ぶ道路や鉄道や行政界や河川や海岸線など地図図形データ1232を空間解析手段115により最短経路(又は最適コスト)で結ぶ地図図形データを選択特定し、曖昧性を解消して文書の空間属性とする例である。ここで、文書の内容やキーワードなどに応じて、地図図形データの図形種別やレイヤを選択することで、空間属性付与の精度を向上しても良い。
【0050】
図13は、本発明の一実施形態における空間関係子による地域記述の例を示す図である。図13(a)はレベルの異なる地名データ又は行政体のデータ管理イメージの例であり、図13(b)はさらに地域記述を追加した例である。本実施例では、複数の行政体を横断する地域を横断地域1311、明示的に定義された集合的な地域である明示的集合地域1312、明示的に定義されていないが実質的に理解される集合的な地域である暗示的集合地域1313、行政体の部分である部分地域1314、と定義しデータ管理する。もちろん、これら複数の地域構成を組み合わせて用いても良い。本実施例では、地域は上位地域Level 0から下位地域Level 2まで階層構造となっており、例えばLevel 0は県1301、Level 1は市1302、Level 2は町1303などに相当する。その際には、横断地域は「XX通り沿い」、明示的集合地域は「XX地区」、暗示的集合地域は「XX町及びYY町の境界付近」、部分地域は「XX町北部」、などに相当する。あるいはLevel 0は国、Level 1は県、Level 2は市などであっても良い。その際には、横断地域は「XX洋沿岸」、明示的集合地域は「XX地方」、暗示的集合地域は「XX県及びYY県の県境付近」、部分地域は「XX市北部」、などに相当する。もちろん、世界、国、県などの組み合わせであっても良い。ここで、上記階層構造の階層数は実世界の状況に対応した3階層以外の階層数であっても良いし、単層構造など非階層構造の部分が含まれていても良い。
【0051】
また、上記地域記述を実現するための空間関係子の例としては、「XX前」「XX付近」「XXのそば」など隣接性又は近接性に関するもの、「XX北部」「XXの周囲YYキロ」「XXの北方YYキロ」など方位及び距離又はその組み合わせに関するもの、「XXとYYの間」「XX駅前YY通り沿い」「XX市YY通り沿い」など複数の地名又は地物との空間関係に関するものなど、多様な表現がある。これら空間関係子については、独自に定義しても良いし、GeoCLEFで検討されているGeo-relationなど既存体系を適用しても良い(http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm)。また、距離については曖昧性を考慮し評価する必要があるが、独自の判定方法を定義しても良いし、W3CによるGeoOnionなど既存の語彙を適用しても良い(http://esw.w3.org/topic/GeoOnion)。
【0052】
図14は、本発明の一実施形態における階層管理地名データを用いた関連データ検索の例を示す図である。ここでは、階層管理された地名データとして地名辞書を例に説明するが、地図データベースやその他データベースなどを用いても良い。図14(a)はA県1401、B市1402、C町1403というレベルの異なる行政体の地名データ管理イメージである。B市及びC町はレベルが異なるものの、いずれもA県に属しており、各々の地名にリンク管理されている文書データには、関連データとして閲覧したい内容が含まれている可能性がある。図14(b)は地図1410上で検索指定範囲1411を入力設定し、B市1402付近の地域の情報を空間検索した例である。通常の空間検索で閲覧できるのはB市1402に関する文書1422だけだが、図8で上述した関連データ検索処理により、階層管理された地名データを仲介データとして上位又は下位又は隣接などの関連地名データをたどる事で、A県1401に関する文書1421やC町1403に関する文書1423も閲覧できる。もちろん、詳細な行政界の地図図形データ1410が存在する場合には、まず検索指定範囲1411に含まれる行政界図形データ1410を特定し、該行政界図形データに包含される全ての地名点データを空間解析により特定することで、階層管理された地名データを用いずに関連データ検索しても良い。また、検索指定範囲は矩形に限らず、ユーザー入力やその他図形などのポリゴン、線分又は折れ線、円、点、時間又は空間又は空間の立体又は時空間の超立体などであっても良い。
【0053】
図15は、本発明の一実施形態における面図形データを用いた関連データ検索の例を示す図である。図15(a)は面図形データを用いた関連データ検索をしない例で、検索指定範囲1501に含まれる地名1511のみ検索され、含まれない地名1513は検索されない。また、閲覧できる文書は、該検索される地名1511に関連付けられた文書1521のみである。図15(b)は行政界地図を用いて関連データ検索する例で、検索指定範囲に含まれている行政界地図1502に基づき、各面の代表点である全ての地名に関連付けられた文書1521を閲覧できる。検索範囲に直接含まれている地名1511のみならず、関連する可能性がある地名1512を全て検索できる。図15(c)は行政界地図が無い場合に各地名を母点とするボロノイ図1503を一時図形として生成し関連データ検索に用いる例で、行政界地図が無い状況にも関わらず、関連する可能性のある地名の一部1512を検索できる。図15(d)は同様に行政界地図が無い場合に各地名位置を中心とする円1504を一時図形として生成し関連データ検索する例で、行政界地図が無い状況にも関わらず、関連する可能性のある地名の一部1512を検索できる。以上の構成により、詳細な行政界地図データがない地域でも注目行政体に関連するデータを検索でき、さらに検索指定範囲に直接含まれないが関連する可能性がある文書も閲覧できる。
【0054】
図16は、本発明の一実施形態における線図形データを用いた関連データ検索の例を示す図である。図16(a)は関連データ検索をしない例で、検索指定範囲1601を用いた通常の空間検索では、検索指定範囲1601に直接含まれるA都市1611に関連付けられた文書1631しか閲覧できない。図16(b)は関連データ検索をする例で、検索指定範囲1601に直接含まれるA都市1611に関連付けられた文書1631だけでなく、検索指定範囲1601に一部重なる(含まれる)各種地図図形データを仲介データとし、空間的に関連する可能性がある文書も閲覧できる。例えば、「B都市1612からC都市1613までの道路沿い」など、既存のベクトル地図図形を用いることで場所を特定できるキーワードなどの記述が含まれている文書1634の場合、「B都市」「C都市」という地名だけでなく当該道路地図図形1621にも関連付けて管理することで、同一の検索指定範囲1601でも検索閲覧可能となる。また、「B都市1612からC都市1613までの海岸沿い」など、既存のベクトル地図図形1622の一部を用いることで場所を特定できるキーワードなどの記述が含まれている文書1635の場合、当該一部領域に一時図形1623を生成し、「B都市」「C都市」という地名だけでなく該図形にも関連付けて管理することで、同一の検索指定範囲1601でも検索閲覧可能となる。
【0055】
ここで、具体的な場所特定方法としては、文書中のキーワードとレイヤ名称又は図形名称などを照合し、一致度を算出して判定に用いれば良い。例えば、海岸の特性や地形などに関する記述の場合は海岸線図形、鉄道移動を想定した駅などに関する記述の場合は鉄道関連図形、車移動を想定した主要道路などに関する記述の場合は道路関連図形など、地図図形を用いて文書を関連付けて管理すれば良い。また、キーワードと直接一致するレイヤ名称や図形名称などが無かった場合は、オントロジーや概念検索機能などを用いて、概念的に関連する可能性が高いデータを選択しても良い。
【0056】
図17は、本発明の一実施形態における一時図形の例を示す図である。本実施例では空間属性として利用可能な地図図形データが存在しない場合、空間解析手段115や各種データベースなどを組み合わせて一時図形を生成し利用する。図17(a)は地名A1700と地名B1701の境界1702「沿い」又は「付近」などの空間関係子に対応する一時図形1703の例である。図17(b)は地名A1710における地名B1711との境界1712「付近」などの空間関係子に対応する一時図形1713の例である。これらは空間解析手段115のバッファ解析処理などにより実現できる。図17(c)は、空間統計処理により推定した地名辞書の地名データ群1720の密度分布の等密度線による一時図形1721の例である。「XX都市部」「YY都区部」「XX市街」「XX郊外」など、明示的な境界データが存在しない地域に関する文書の空間属性として利用できる。もちろん、地図データベースに都市部などのポリゴンデータが存在する場合、それらを用いて都市部を特定しても良い。ここで、等密度線の密度しきい値には所定の値を用いても良いし、判別分析や機械学習などにより計算取得しても良い。また、地名データ群1720が人口などの属性値を有する場合、それを重み係数として空間統計処理に用いても良い。
【0057】
図17(d)は地名A1730と地名B1731の「間」などの空間関係子に対応する一時図形1732の例である。地名A1730又は地名B1731の点だけでなく、文書内容が示している可能性がある範囲を広く空間属性とすることができる。図17(e)は既存地図図形データ1742を用いた地名A1740と地名B1741の「間」などの一時図形1743の例である。地名A1740又は地名B1741の点だけでなく、文書内容が示している可能性がある範囲を限定して空間属性とすることができる。空間解析手段115により、地名Aと地名Bの間を最短経路(又は最適コスト)で結ぶ道路などの地図図形データを取得し、AからBの間で切り抜き処理することで実現できる。ここで、既存地図図形データ1742の一部を切り抜き処理する以外にも、既存地図図形データ1742が複数のセグメントからなる場合には、複数セグメントを統合した一時図形を生成しても良いし、また複数セグメントを空間属性として直接利用しても良い。図17(f)は、既存地図図形データ1751を用いたXX県1750におけるYY1751「沿い」などの空間関係子に対応する一時図形1752の例である。空間解析手段115により、行政界ポリゴンと道路ラインストリングなどを重畳判定及び交差判定し、交差部分を切り抜き処理することで実現できる。
【0058】
図17(g)は、XX駅など注目ランドマーク1760の「XX駅付近」や「XX駅付近YYkm」1761などの空間関係子に対応する一時図形1762の例である。前者「XX駅付近」の場合、距離については所定の値を用いても良いし、周辺ランドマークとの平均距離などに基づき計算取得しても良い。図17(h)は、XX駅など注目ランドマーク1770の「XX駅前」などの空間関係子に対応する一時図形1774の例である。道路地図図形データを用いることで、等距離内でも駅に面していない道路の反対側は除外するなど、範囲を限定して空間属性とすることができる。また、地図データベースなどに駅出入り口位置などの情報が存在する場合、駅の全周囲ではなく、駅出入り口から前面のみなど範囲を限定しても良い。図17(i)は、XX駅など注目ランドマーク1780の「XX駅徒歩YY分」などの空間関係子に対応する一時図形1783の例である。空間解析手段115のネットワーク解析処理などにより実現できる。
【0059】
図17(j)は既存地図図形データを均等に方位分割した、「XX県北部」や「XX国北部」などの空間関係子に対応する一時図形1790の例である。もちろん、注目行政体の方位分割区分を含む地図図形データが存在する場合、それらを参照しても良い。また、図17(k)は、さらに県庁所在地や首都など行政界代表点となる地名代表点データ1795を考慮し、方位分割した一時図形1796の例である。これらにより、詳細な部分地域への文書関連付けを実現できる。
【0060】
ここで、行政界代表点の地名代表点データが存在しない場合、図17(c)と同等の空間統計処理などにより、複数の地名代表点データ群の密度ピークなどを算出して用いても良い。また、これら以外にも様々な空間解析を用いて一時図形を生成しても良い。例えば、重畳判定による切り抜き図形やAND図形やOR図形やXOR図形などを用いても良いし、バッファ解析による点や線や面や立体などのバッファ図形などを用いても良いし、ボロノイ図やドロネー図などを生成して用いても良いし、空間統計処理や時系列解析による予測分布などを用いても良い。また、これら以外にも様々な既存データを用いて一時図形を生成しても良い。その他、画像処理結果や画像認識結果などを用いても良い。
【0061】
図18は、本発明の一実施形態におけるユーザーインタフェースの例を示す図である。ユーザーインタフェース1800は下記の複数画面から構成される。地図画面1801は、地図画面上で検索指定範囲1810を入力して空間検索を実行する。ここで、現在の地図表示範囲を検索指定範囲としても良いし、既存ベクトル地図図形を選択して検索指定範囲としても良い。文書検索キーワード指定画面1802は、検索キーワードを入力指定し、検索ボタン1803を押下してキーワード検索を実行する。検索結果は、検索結果項目表示画面1804及び検索結果文書表示画面1805に表示すると共に、地図画面1801上に検索結果シンボルなどを表示しても良い。ここで、上記の空間検索とキーワード検索は、まずインデクス130を用いた空間検索で検索対象の数を絞り込み、さらにキーワード検索を実行しても良いし、あるいはインデクス130を用いたキーワード検索で検索対象の数を絞り込み、さらに空間検索を実行しても良い。これら検索手順は固定でも良いし、あるいは入力された検索指定範囲1810の広さやキーワードの数などに応じて動的に変更しても良い。また、地図画面1801で検索指定範囲1810を入力する代わりに、文書検索キーワード指定画面1802で地名を入力して検索に用いても良い。その際、地名だけでなく地名間の関係を記述する空間関係子も入力可能とし、地図上では入力が複雑な検索指定範囲を文字入力しても良い。地図画面1801での検索指定範囲1810と文書検索キーワード指定画面1802での地名及び空間関係子など両方が入力された場合、それらのANDやORやXORなど論理演算やIntersectやCrossesなど空間演算やその他演算を実行して検索に用いても良い。また図19で後述する関連データ検索の実行又は表示をオンオフ制御可能なインタフェースを備えても良い。その他、検索条件として検索対象の言語条件(例えば特定の言語コードや言語条件無し)や情報源(例えばWebサーバのドメイン)などを追加指定しても良い。検索結果項目表示画面1804は、検索結果を行政体毎などでクラスタ化し纏めて出力する例である。ここで、検索結果の項目を表示するだけでなく複数地名を入力指定して表示項目を制御しても良いし、検索結果の空間分布状況や表示データ数などに応じてクラスタを自動又は手動で調節しても良い。また、行政体以外の地域や時間やキーワードやデータの情報源などでクラスタ化しても良いし、もちろん全ての検索結果を纏めて表示しても良い。検索結果文書表示画面1805は、検索結果を時系列順にソートして出力した例である。ここで、表示順序は、指定キーワードとの一致度順や指定位置からの推定距離順などとしても良い。
【0062】
図19は、本発明の一実施形態における関連データ検索ユーザーインタフェースの例を示す図である。図16で上述した線図形データを用いた関連データ検索について説明する。もちろん、図18で上述したインタフェースの一部として実施しても良いし、あるいは別途実施しても良い。図19(a)は関連データを検索しない例である。検索指定範囲1601に直接含まれる都市に関連付けられた文書1631しか閲覧できない。検索結果文書表示画面1901では、同位置又は同地名に関連付けられている検索結果をリスト形式で表示できる。
【0063】
図19(b)は関連データを検索し、検索結果を地図画面1900及び検索結果表示画面1901上に表示する例である。検索結果表示画面1901の「関連情報」にリストアップされた関連データ項目1910を選択すると、当該項目における関連データ検索の実行を指示入力でき、関連データ検索結果を表示できる。例えば関連データ項目から周辺地域1910を選択すると、検索指定範囲1601に直接含まれていないが空間的に関連する可能性がある文書も閲覧できる。ここで、上記関連データ項目の選択ではなく、図18で上述したように検索指示画面に別途チェックボックスなど関連データ検索オプション設定インタフェースを設けて指示入力しても良い。
【0064】
また、本実施例では関連データ項目として空間に関する「周辺地域」「国」、時間に関する「時期」、内容に関する「キーワード」などを設ける例を示したが、これ以外の関連データ項目を用意しても良い。また、「時期」については同時期や同季節やイベント発生タイミングなど、「キーワード」については類似キーワードや最新頻出キーワードや類似カテゴリなどの関連データ項目を備えても良い。また、各検索結果については、同地名や同位置に関連付けられた他の検索結果を纏めて閲覧可能としても良い。また、関連データ検索で用いた一時図形データ1623などについては、地図画面上に表示又は強調表示などして関連データ検索の結果内容を確認可能としても良いし、ユーザーに一時図形を意識させないよう表示しなくても良い。また関連データ検索はユーザーが関連データ項目1910を選択した際に実行しても良いし、あるいは選択前にバックグラウンドで事前に実行しておいても良い。事前に実行しておく場合、図19に図示したように、関連情報の検索結果数をあらかじめ関連データ項目1910と並べて表示し、閲覧判断できる情報をユーザーに提供しても良い。
【0065】
図21は、本発明の一実施形態における曖昧性解消空間処理に用いるデータの例を示す図である。図21(a)は地名及び空間関係子を含む文書データ2100の例である。図21(b)は該文書データ2100から固有表現抽出手段110により抽出した地名をノードとし空間関係子をエッジとして構造化したグラフ2101の例である。図21(c)は該グラフ2101のノードに複数の地名候補が関連付けられたグラフ2102の例である。図21(d)は複数の地名候補が関連付けられたグラフ2102を展開し、真偽判定した真理表2103の例である。図21(e)は、真理表2103の真偽判定の結果、複数候補から絞り込まれた空間関係子を含む複雑な地名記述を地図出力2104した例である。もちろん、文書データ2100中に複数の内容が含まれている場合、複数の場所に関する記述を複数のグラフとして記述し利用しても良い。以上の構成により、複数の地名候補や空間関係子を含み、空間属性が曖昧な文書データを地図上で容易に可視化できる。
【図面の簡単な説明】
【0066】
【図1】本発明の一実施形態における機能構成の例を示す図。
【図2】本発明の一実施形態における文書登録処理フローの例を示す図。
【図3】本発明の一実施形態における固有表現抽出処理フローの例を示す図。
【図4】本発明の一実施形態における曖昧性解消空間処理フローの例を示す図。
【図5】本発明の一実施形態における曖昧性解消文書処理フローの例を示す図。
【図6】本発明の一実施形態におけるジオイベントデータベース登録処理フローの例を示す図。
【図7】本発明の一実施形態における検索出力処理フローの例を示す図。
【図8】本発明の一実施形態における関連データ検索処理フローの例を示す図。
【図9】本発明の一実施形態におけるジオイベント管理に必須のデータベースのテーブル構成の例を示す図。
【図10】本発明の一実施形態における階層管理地名データを用いた関連データ検索の例を示す図。
【図11】本発明の一実施形態における曖昧性管理の例を示す図。
【図12】本発明の一実施形態における曖昧性解消の例を示す図。
【図13】本発明の一実施形態における空間関係子による地域記述の例を示す図。
【図14】本発明の一実施形態における空間関係子における方位記述の例を示す図。
【図15】本発明の一実施形態における面図形データを用いた関連データ検索の例を示す図。
【図16】本発明の一実施形態における線図形データを用いた関連データ検索の例を示す図。
【図17】本発明の一実施形態における一時図形の例を示す図。
【図18】本発明の一実施形態におけるユーザーインタフェースの例を示す図。
【図19】本発明の一実施形態における関連データ検索ユーザーインタフェースの例を示す図。
【図20】本発明の一実施形態におけるジオイベント以外のデータベースのテーブル構成の例を示す図。
【図21】本発明の一実施形態における曖昧性解消空間処理に用いるデータの例を示す図。
【符号の説明】
【0067】
100…情報分析装置、101…入力手段、102…出力手段、110…固有表現抽出手段、111…曖昧性解消文書処理手段、112…曖昧性解消空間処理手段、113…地図検索手段、114…地図編集手段、115…空間解析手段、116…辞書管理手段、117…データベース管理手段、118…ジオイベント管理手段、120…地名辞書、121…空間関係子辞書、122…非地名修飾表現辞書、130…インデクス、131…地図データベース、132…ジオイベントデータベース、133…文書データベース
【特許請求の範囲】
【請求項1】
文書情報を場所に関連付けて管理し、場所をキーとして文書情報を検索する情報分析装置であって、
文書情報を格納した文書データベースと、
地図図形を含む地図情報を格納した地図データベースと、
文書中に記載された地名に関する情報を抽出する抽出手段と、
前記抽出手段によって抽出された地名に関する情報の曖昧性を解消する手段と、
前記抽出された地名に関する情報を文書情報の空間属性として前記地図データベースの地図に関連付けて格納したジオイベントデータベースと、
地図上の領域を検索指定範囲として入力する入力手段と、
前記検索指定範囲に含まれる地図に関連付けられた文書を前記ジオイベントデータベースを用いて検索する検索手段と、
検索結果を出力する出力手段と、
を備えることを特徴とする情報分析装置。
【請求項2】
請求項1記載の情報分析装置において、前記抽出手段は、地名表現と位置情報とを関連付けて格納した地名辞書、空間の間の位置的な関係を記述する空間関係子の表記を格納した空間関係子辞書、地名の前後に記述されることで地名を異なるカテゴリに変換する修飾表現を格納した非地名修飾表現辞書の一つ以上の辞書を用い、地名又は空間関係子又はそれらの組み合わせを抽出することを特徴とする情報分析装置。
【請求項3】
請求項1又は2記載の情報分析装置において、前記空間属性は、当該空間属性の確度を示す情報を有することを特徴とする情報分析装置。
【請求項4】
請求項1〜3のいずれか1項記載の情報分析装置において、前記空間属性は、前記地図データベースに含まれる地図図形へのリンク形式であることを特徴とする情報分析装置。
【請求項5】
請求項1〜4のいずれか1項記載の情報分析装置において、前記空間属性は、前記抽出された地名又は空間関係子又はそれらの組み合わせに基づき計算生成した地図図形へのリンク形式であることを特徴とする情報分析装置。
【請求項6】
請求項1〜5のいずれか1項記載の情報分析装置において、前記曖昧性解消手段は、前記抽出された地名の地図上の位置に対する複数の候補と空間関係子の組み合わせについて真偽判定することにより、正しい空間関係子の記述を含む地名の地図上の位置を前記候補から選択することを特徴とする情報分析装置。
【請求項7】
請求項1〜6のいずれか1項記載の情報分析装置において、前記曖昧性解消手段は、複数の文書情報を照合して情報を補完することによって曖昧性を解消することを特徴とする情報分析装置。
【請求項8】
請求項1〜7のいずれか1項記載の情報分析装置において、前記入力手段は、関連データ検索指示の入力部を備え、関連データ検索指示が入力されたとき、前記検索手段は、入力された検索条件に基づいて直接検索された検索結果と空間的又は内容的又はその両方に関連する可能性がある文書をも検索することを特徴とする情報分析装置。
【請求項9】
請求項8記載の情報分析装置において、前記検索手段は、前記検索指定範囲と一部重なる地図図形に関連付けられた文書をも検索することを特徴とする情報分析装置。
【請求項10】
請求項8又は9記載の情報分析装置において、前記入力手段は、検索キーワードの入力部を備え、前記抽出手段は、文書から地名関連情報及びその他のキーワードの抽出機能を備え、関連データ検索指示が入力されたとき、前記検索手段は、前記検索指定範囲及び前記検索キーワードの組み合わせによる関連データ検索クエリを生成して、前記検索指定範囲又は前記検索キーワード又はその両方に関連する文書をも検索することを特徴とする情報分析装置。
【請求項11】
請求項8〜10のいずれか1項記載の情報分析装置において、前記関連データ検索結果は、周辺地域又は国又は時期又はキーワード又はそれらの複数に関連する文書を含むことを特徴とする情報分析装置。
【請求項12】
請求項8〜11のいずれか1項記載の情報分析装置において、前記出力手段は、前記関連データ検索で用いた地図図形又は一時的に計算生成した図形をも出力することを特徴とする情報分析装置。
【請求項1】
文書情報を場所に関連付けて管理し、場所をキーとして文書情報を検索する情報分析装置であって、
文書情報を格納した文書データベースと、
地図図形を含む地図情報を格納した地図データベースと、
文書中に記載された地名に関する情報を抽出する抽出手段と、
前記抽出手段によって抽出された地名に関する情報の曖昧性を解消する手段と、
前記抽出された地名に関する情報を文書情報の空間属性として前記地図データベースの地図に関連付けて格納したジオイベントデータベースと、
地図上の領域を検索指定範囲として入力する入力手段と、
前記検索指定範囲に含まれる地図に関連付けられた文書を前記ジオイベントデータベースを用いて検索する検索手段と、
検索結果を出力する出力手段と、
を備えることを特徴とする情報分析装置。
【請求項2】
請求項1記載の情報分析装置において、前記抽出手段は、地名表現と位置情報とを関連付けて格納した地名辞書、空間の間の位置的な関係を記述する空間関係子の表記を格納した空間関係子辞書、地名の前後に記述されることで地名を異なるカテゴリに変換する修飾表現を格納した非地名修飾表現辞書の一つ以上の辞書を用い、地名又は空間関係子又はそれらの組み合わせを抽出することを特徴とする情報分析装置。
【請求項3】
請求項1又は2記載の情報分析装置において、前記空間属性は、当該空間属性の確度を示す情報を有することを特徴とする情報分析装置。
【請求項4】
請求項1〜3のいずれか1項記載の情報分析装置において、前記空間属性は、前記地図データベースに含まれる地図図形へのリンク形式であることを特徴とする情報分析装置。
【請求項5】
請求項1〜4のいずれか1項記載の情報分析装置において、前記空間属性は、前記抽出された地名又は空間関係子又はそれらの組み合わせに基づき計算生成した地図図形へのリンク形式であることを特徴とする情報分析装置。
【請求項6】
請求項1〜5のいずれか1項記載の情報分析装置において、前記曖昧性解消手段は、前記抽出された地名の地図上の位置に対する複数の候補と空間関係子の組み合わせについて真偽判定することにより、正しい空間関係子の記述を含む地名の地図上の位置を前記候補から選択することを特徴とする情報分析装置。
【請求項7】
請求項1〜6のいずれか1項記載の情報分析装置において、前記曖昧性解消手段は、複数の文書情報を照合して情報を補完することによって曖昧性を解消することを特徴とする情報分析装置。
【請求項8】
請求項1〜7のいずれか1項記載の情報分析装置において、前記入力手段は、関連データ検索指示の入力部を備え、関連データ検索指示が入力されたとき、前記検索手段は、入力された検索条件に基づいて直接検索された検索結果と空間的又は内容的又はその両方に関連する可能性がある文書をも検索することを特徴とする情報分析装置。
【請求項9】
請求項8記載の情報分析装置において、前記検索手段は、前記検索指定範囲と一部重なる地図図形に関連付けられた文書をも検索することを特徴とする情報分析装置。
【請求項10】
請求項8又は9記載の情報分析装置において、前記入力手段は、検索キーワードの入力部を備え、前記抽出手段は、文書から地名関連情報及びその他のキーワードの抽出機能を備え、関連データ検索指示が入力されたとき、前記検索手段は、前記検索指定範囲及び前記検索キーワードの組み合わせによる関連データ検索クエリを生成して、前記検索指定範囲又は前記検索キーワード又はその両方に関連する文書をも検索することを特徴とする情報分析装置。
【請求項11】
請求項8〜10のいずれか1項記載の情報分析装置において、前記関連データ検索結果は、周辺地域又は国又は時期又はキーワード又はそれらの複数に関連する文書を含むことを特徴とする情報分析装置。
【請求項12】
請求項8〜11のいずれか1項記載の情報分析装置において、前記出力手段は、前記関連データ検索で用いた地図図形又は一時的に計算生成した図形をも出力することを特徴とする情報分析装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【公開番号】特開2010−128806(P2010−128806A)
【公開日】平成22年6月10日(2010.6.10)
【国際特許分類】
【出願番号】特願2008−302943(P2008−302943)
【出願日】平成20年11月27日(2008.11.27)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】
【公開日】平成22年6月10日(2010.6.10)
【国際特許分類】
【出願日】平成20年11月27日(2008.11.27)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】
[ Back to top ]