説明

位置表現特定装置、プログラム、及び、記憶媒体

【課題】 テキスト文書の中に複数の位置表現が含まれる場合に、話題の中心でない位置表現に対し、テキスト文書が対応付けされられることを防止する。
【解決手段】 本発明の位置表現特定装置は、ある位置表現に対して、その位置表現に係る領域の大小を反映させた特定度を対応付けて記憶し、又は、特定度を算出する元情報を記憶する位置表現・特定度対応記憶部と、入力されたテキスト文書から位置表現を抽出する位置表現抽出部と、位置表現抽出部によって抽出された各位置表現をキーに、位置表現・特定度対応記憶部をアクセスして、各位置表現に係る特定度を得、各位置表現の特定度の大小に応じ、テキスト文書を代表する位置表現を検出する位置表現判定部とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は位置表現特定装置、プログラム、及び、記憶媒体に関し、例えば、ある文章に含まれる1又は複数の位置表現の中から、その文章に最も適した位置表現を特定するシステムに適用して好適なものである。
【背景技術】
【0002】
情報処理において、テキスト文書から位置表現を抽出し、抽出された位置表現を位置情報(経度、緯度表現)に変換して各種サービスとして利用することは、既に広く行なわれている。
【0003】
例えば、特許文献1には、観光名所や訪問先などに関係するテキスト文書から位置情報を自動抽出してそのテキスト文書とペアで記憶しておき、利用者端末の位置情報が検索用として送信されると、蓄積されたテキスト文書の中から、検索用の位置情報に関連するものを検索し、検索されたテキスト文書を応答することが記載されている。
【0004】
また、特許文献2には、ハイパーテキスト文書から、地名や施設名などの位置表現を抽出し、この抽出で複数の位置表現が抽出された場合において、大きく位置が外れた位置表現があればその位置表現を排除し、概ね話題となっている位置を含む地図を表示することが記載されている。
【特許文献1】特開2002−132795号公報
【特許文献2】特開平10−134042号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1の記載方法では、ある位置表現が複数ある場合や、様々な広さの位置表現が混在したような文書の場合でも、その文書に含まれている全ての位置表現と対応付けられるため、位置情報に基づいた検索で、検索用の位置情報と関係の薄いテキスト文書も多数検索されるという問題がある。例えば、「東京から新幹線で大阪の梅田にやってきました。」という文章を最初に含む文書は、位置表現「東京」、「大阪」、「梅田」に対応付けられる。そのため、「東京」の位置情報に対する検索で反応してしまい、「大阪」や「梅田」に関する情報が多い、関係が薄いテキスト文書が検索されてしまう。
【0006】
特許文献2の記載方法は、コンテンツ(ハイパーテキスト文書)に対して位置を特定する機能はなく、あくまでもそのテキスト文書に含まれる複数の位置表現を含むエリアを表示するものである。すなわち、このテキスト文書には、このような位置表現が含まれているという一覧地図を表示することが目的であり、このテキスト文書は概ねこの場所についての話題を提供しているという絞り込み機能を提供しているわけではない。例えば、上述の「東京から新幹線で大阪の梅田にやってきました。」に関しては、「東京」は効果的に削除されるが、「大阪」及び「梅田」の2つの地点が残り、本当の話題の中心である「梅田」だけを残すことはできない。この場合、大阪と梅田の両方のターゲットに対して、対応する位置情報に基づいて、表示地図では2箇所のプロットが行われてしまう。
【0007】
本発明は、以上の点を考慮してなされたものであり、テキスト文書の中に複数の位置表現が含まれる場合において、テキスト文書の話題の中心ではない位置表現に対して、このテキスト文書が対応付けされてしまうことを防止できる位置表現特定装置、プログラム、及び、記憶媒体を提供しようとしたものである。
【課題を解決するための手段】
【0008】
第1の本発明の位置表現特定装置は、(1)ある位置表現に対して、その位置表現に係る領域の大小を反映させた特定度を対応付けて記憶し、又は、上記特定度を算出する元情報を記憶する位置表現・特定度対応記憶部と、(2)入力されたテキスト文書から位置表現を抽出する位置表現抽出部と、(3)上記位置表現抽出部によって抽出された各位置表現をキーに、上記位置表現・特定度対応記憶部をアクセスして、各位置表現に係る特定度を得、各位置表現の特定度の大小に応じ、上記テキスト文書を代表する位置表現を検出する位置表現判定部とを有することを特徴とする。
【0009】
第2の本発明の位置表現特定プログラムは、コンピュータを、(1)ある位置表現に対して、その位置表現に係る領域の大小を反映させた特定度を対応付けて記憶し、又は、上記特定度を算出する元情報を記憶する位置表現・特定度対応記憶部と、(2)入力されたテキスト文書から位置表現を抽出する位置表現抽出部と、(3)上記位置表現抽出部によって抽出された各位置表現をキーに、上記位置表現・特定度対応記憶部をアクセスして、各位置表現に係る特定度を得、各位置表現の特定度の大小に応じ、上記テキスト文書を代表する位置表現を検出する位置表現判定部として機能させることを特徴とする。
【0010】
第3の本発明の記録媒体は、第2の本発明の位置表現特定プログラムを記憶した、コンピュータ読み取り可能なものである。
【発明の効果】
【0011】
本発明によれば、テキスト文書の中に複数の位置表現が含まれる場合において、テキスト文書の話題の中心ではない位置表現に対して、このテキスト文書が対応付けされてしまうことを防止することができる。
【発明を実施するための最良の形態】
【0012】
(A)主たる実施形態
以下、本発明による位置表現特定装置、プログラム、及び、記憶媒体の一実施形態を、図面を参照しながら詳述する。
【0013】
(A−1)実施形態の構成
図1は、実施形態の位置表現特定装置10の機能的構成を示すブロック図である。位置表現特定装置10は、例えば、テキスト文書処理用の専用装置の一部として構築されたものであっても良く、また、PC(パソコン)やサーバ等の汎用的な情報処理装置に位置表現特定プログラム(固定データ等を含む)をインストールすることにより構築されたものであっても良いが、機能的には、図1の構成で表すことができる。位置表現特定プログラムのインストールは、通信網を介したダウンロードによる方法に限らず、コンピュータが読取可能な記録媒体を介する方法であっても良い。
【0014】
図1において、位置表現特定装置10は、テキスト文書14を入力し、そのテキスト文書14に係る代表位置表現リスト15を出力するものであり、機能的には、位置表現抽出部11、位置表現判定部12及び位置表現・位置座標対応情報テーブル13を有する。
【0015】
位置表現抽出部11は、入力されたテキスト文書14から全ての位置表現を抽出し、さらに、抽出された各位置表現に対し、位置を、より特定する修飾語が存在する場合には、その位置表現のバイアス値を計算するものである。但し、位置表現抽出部11は、位置を、より特定する修飾語が存在しない位置表現には、一定値のバイアス値を対応付ける。位置表現抽出部11の機能の詳細については、後述する動作説明で明らかにする。
【0016】
なお、テキスト文書14は、純粋なテキスト文書だけでなく、HTML文書などの一部に画像などを含むものであっても良い。後者の場合には、テキスト部分だけが、当該位置表現特定装置10の処理対象となる。
【0017】
図2は、位置表現・位置座標対応情報テーブル13の構成例を示す説明図である。位置表現・位置座標対応情報テーブル13のレコードは、各レコードについて付与されたID13aと、住所、スポット、地域などの「位置表現」情報13bと、経度緯度などの「位置座標」情報13cと、位置表現に係る面積情報13dと、その位置表現が位置を特定している度合を表す、住所の階層と面積から算出される特定度13eなどのフィールドを有する。位置表現が、最下層の住所、スポット(ランドマーク等)を複数包含する地域表現やエリア表現の場合には、「位置座標」情報13cに、エリアの外形を特定する複数の「位置座標」が記述され、面積情報13dには有効な値が記述され、特定度13eには、住所の階層と面積から算出された値が記述されている。位置表現が、完全なる住所表記やスポットの場合には、「位置座標」情報13cには1つの「位置座標」が記述され、面積情報13dには「0」が記述され、特定度13eには最大値「10」が記述されている。例えば、エリアの外形を後述する図6や図7に示すように多角形に変換し(凹みがある多角形になることもある)、多角形の各頂点の位置座標を、エリアの外形を特定する複数の「位置座標」とする。多角形への変換方式は任意であるが、1辺の長さを、所定長さ(例えば、100m)の整数倍に定めるようにしても良く、このような所定長さを、行政区画の階層が上位のものほど長くするようにしても良い。
【0018】
位置表現・位置座標対応情報テーブル13内の特定度13eは、以下の(13e−1)〜(13e−e)に示すようにして生成されたものである。
【0019】
(13e−1)住所表記(行政区画)の区分に応じて特定度を割り当てる。そして、それぞれの区分における最大の面積を持つ行政区画に対する面積比を考慮して特定度を再設定する。具体例を挙げると、市区町村の区画には、初期値として6を割り当てる。最大面積を持つのがA市とすると、B市の特定度を(1)式に従って再設定する。これにより、大きな面積を持つ市区町村ほど特定度の値は6より小さくなり、小さな面積を持つ市区町村になるほど特定度の値は6より大きくなる。
【0020】
B市の特定度=6+(1.0−2×B市の面積÷A市の面積) …(1)
(13e−2)住所表記にはない、九州地方、近畿地方、四国地方などは、都道府県よりも低い値(図2では、値1)を割り当てる。
【0021】
(13e−3)美ヶ原高原、京阪地区など、いくつかの市町村を含めた領域は、都道府県と市郡の間の値(図2では、値5)を割り当てる。
【0022】
(13e−4)その他、行政区画以外の表現で示される領域については、例えば、その面積と各行政区画の面積の平均値と比較し、行政区画の間の値を割り当てる。
【0023】
(13e−5)ランドマーク等のスポット(位置)や、完全な住所表記については、面積を持たないものとし、最大の特定度(図2では、値10)を割り当てる。
【0024】
位置表現・位置座標対応情報テーブル13は、HDD(Hard Disk Drive)、ROM(Read Only Memory)等の記憶デバイスを含むハードウエア資源で実現される。
【0025】
位置表現判定部12は、位置表現抽出部11で抽出された、それぞれバイアス値を持つ位置表現リスト(後述する図5参照)に対して、それぞれの位置座標情報を割り当てた後、テキスト文書14が注目している位置表現を特定する条件を適用することにより、テキスト文書14に対応付ける代表位置表現リスト15を算出するものである。位置表現判定部12の機能の詳細については、後述する動作説明で明らかにする。
【0026】
位置表現抽出部11と、位置表現判定部12とは、例えば、専用の制御デバイス、あるいは、プログラムを実行するプロセッサ(CPU)と、そのプロセッサで実行するプログラムとデータを記憶するRAM(Random Access Memory)、ROM、HDDなどの記憶デバイスを含むハードウエア資源で実現される。
【0027】
また、上記では、機能別に説明したが、実現するハードウエアの物理構成が各部分毎に明確に分離され、独立に用意されている必要はない。例えば、位置表現判定部12のプログラムを格納するHDDは、位置表現・位置座標対応情報テーブル13のHDDと共通のものであっても良く、さらには他の機能を実現する装置の一部を利用しても良い。また、当該位置表現特定装置10を構成する一部は、ネットワークで接続された他の場所に配置されていても良い。
【0028】
(A−2)実施形態の動作
次に、実施形態の位置表現特定装置10の動作を、図面を参照しながら説明する。図3は、位置表現特定装置10の動作の流れを示すフローチャートである。
【0029】
(A−2−1)ステップS1
位置表現抽出部11において、テキスト文書14から位置表現を抽出すると共に、位置表現判定部12で利用するバイアス値を、以下のように算出する。このステップS1は、図4に示すような、3個のサブステップS1−1〜S1−3でなる。
【0030】
(S1−1)テキスト文書14に対して、形態素解析等のテキスト処理により、位置表現に相当する文字列(住所、ランドマーク、地域表現、エリア表現など)を抽出する。この位置表現の抽出を、予め与えられた地名辞書などを利用して、パターンマッチングにより実現しても良い。なお、図3では明確に記載していないが、テキスト文書14に位置表現が1つも存在しない場合には、以降の処理は行わず、終了処理を実行する。終了処理では、位置表現が1つも存在しない旨を出力する。
【0031】
(S1−2)抽出された位置表現には、バイアス値として、予め定義している初期値1.0を紐付けて割り当てる。
【0032】
(S1−3)抽出された位置表現の前後の文字列を調べ、その位置表現を修飾する文字列に応じて、バイアス値を調整する。
【0033】
位置表現を修飾する文字列が、位置をより特定する文字列(修飾語)の場合には、バイアス値を増大させる処理を行う。例えば、その位置表現のバイアス値に予め定義する1.0より大きいバイアス係数を乗算する。なお、バイアス値に応じた調整を乗算ではなく、加算処理で行うようにしても良く、加算処理を考慮してバイアス値を定めるようにしても良い。
【0034】
位置をより特定する文字列の例としては、以下の(ア)〜(ウ)の例を挙げることができる。
【0035】
(ア)大阪「の南部」にある堺市では…
(イ)白山スーパー林道「の入り口付近」で、…
(ウ)信州「の真ん中あたり」に位置する…
これらの文章部分は、位置表現+「の」+「位置をより特定する修飾語」でなっており、このように説明を加えていることは、そのテキスト文書14の中心的話題の場所を示している可能性が高いため、バイアス値を増大させることとした。例えば、「の」+「位置をより特定する修飾語」の部分をパターン化して予めルールとして用意しておき、当該ルールに該当するか否かを確認することによって、「位置をより特定する修飾語」の存在を認識する。なお、バイアス値を増大させる位置表現を修飾する文字列の抽出方法は、上記(ア)〜(ウ)に係るルール以外のルールを適用するようにしても良い。各ルールには、乗算するバイアス係数も規定されている。例えば、(ア)の場合、そのルールでのバイアス係数を1.2とすると、「大阪」のバイアス係数は、1.0×1.2=1.2となる。
【0036】
なお、「真ん中あたり」、「入り口付近」などのように、位置の特定度合を弱める文字列「あたり」、「付近」を伴う場合には、伴わない場合より、バイアス係数を小さくするようにしても良い。
【0037】
位置表現を修飾する文字列が、出発地や経由地を表す文字列の場合には、バイアス値を低減させる処理を行う。例えば、その位置表現のバイアス値に予め定義する1.0未満のバイアス係数を乗算する。
【0038】
出発地や経由地を表す文字列の例としては、以下の(エ)や(オ)の例を挙げることができる。
【0039】
(エ)大阪「から」東京へ行き…
(オ)途中、名古屋「を通って」静岡へ…
基点を表す「から」が位置表現のすぐ後ろにつく場合や、位置表現の後の表現が「を」+「通過を意味する修飾語」に当てはまる場合には、その位置表現の位置はテキスト文書14の話題の中心ではないと判断する。(エ)や(オ)の部分をパターン化して予めルールとして用意しておき、当該ルールに該当するか否かを確認することによって、「出発地や経由地を表す文字列」の存在を認識する。なお、バイアス値を低減させる位置表現を修飾する文字列の抽出方法は、上記(エ)や(オ)に係るルール以外のルールを適用するようにしても良い。各ルールには、乗算するバイアス係数も規定されている。例えば、(エ)の場合、そのルールでのバイアス係数を0.8とすると、「大阪」のバイアス係数は、1.0×0.8=0.8となる。
【0040】
また、複数回出てきた位置表現については、マージを行い、バイアス値に、予め定義する1.0より大きいマージ係数をその回数分だけ(若しくは(回数−1回)分だけ)掛け合わせ、マージされた位置表現のバイアス値とする。例えば、マージ係数を1.2とし、「大阪」という文字列が3回出現した場合は、「大阪」のバイアス値は、1.0×1.2×1.2×1.2=1.728となる。なお、2回目、3回目、…によってマージ係数を切り替えるようにしても良い。
【0041】
以上の処理により、バイアス値を持った1つ以上の位置表現からなるリストがテキスト文書14から抽出される。
【0042】
例えば、図5(A)に示すテキスト文書が入力された場合を考える。このテキスト文書からは、位置表現として、「東京」、「大阪」、「堺市」が抽出され、それぞれ、バイアス値の初期値1.0が割り当てられる。抽出された位置表現の前後の文字列を調べると、図5(B)に示すように、「東京」には出発地を表す「から」(そのバイアス係数を0.8とする)が伴い、「大阪」には位置をより特定する修飾語「の南」(そのバイアス係数を1.2とする)が伴っており、そのため、「東京」及び「大阪」のバイアス値が0.8、1.2に修正される。なお、「堺市」のバイアス値はそのまま1.0が維持される。例えば、バイアス値の大きい方の位置表現からリストに加えることにより、図5(C)に示すような、バイアス値を持った1つ以上の位置表現からなるリストが形成される。
【0043】
(A−2−2)ステップS2
バイアス値を持った位置表現リストが作成された以降に実行されるステップS2〜S6の処理は、位置表現判定部12によって実行される。
【0044】
位置表現判定部12は、位置表現リストの各位置表現について、それぞれの面積に応じて付与されている特定度を、位置表現・位置座標対応情報テーブル13より取得し、(1)式に示すように、取得した特定度とその位置表現のバイアス値とを掛け合わせ、それぞれの位置表現に対する特定度(バイアス調整特定度)を算出する。
【0045】
バイアス調整特定度=テーブル13の特定度×バイアス係数 …(1)
ここで、「日本橋」のように、大阪と東京に同じ名前が存在する場合がある。このように、1つの位置表現に対して複数の場所が存在する場合には、位置表現・位置座標対応情報テーブル13内に、位置座標情報が複数登録されている。複数の位置座標情報が割り当てられている位置表現に対しては、全ての位置座標情報についてそれぞれ、対応する特定度を取得してバイアス調整特定度を算出する。
【0046】
ステップS1で算出したバイアス係数を位置表現・位置座標対応情報テーブル13から抽出した特定度に掛け合わせることで、文書中で注目している位置表現の特定度(バイアス調整特定度)がより大きな値になり、後述する処理において、その位置表現を選択されやすくしている(以下の説明では、バイアス調整特定度も単に特定度と呼ぶ)。
【0047】
上述したように、位置表現が表すエリア面積の小さいものに対して、大きな特定度を割り当て、さらに、テキスト文書において注目されている位置表現に対する重み付け(バイアス値の乗算処理)を行うことにより、テキスト文書14に記載されている位置表現が示しているエリア面積が小さいものほど、そのテキスト文書14の中心的話題の場所であると判断できるようにしている。
【0048】
(A−2−3)ステップS3
各位置表現に対して算出された特定度の中に、最大の特定度を持つ位置表現が一つだけか否かを判別する。最大の特定度を持つ位置表現が一つだけの場合には、その位置表現を、テキスト文書14が注目している位置としてステップS6へ処理を移す。最大の特定度を持つ値が複数あれば、ステップS4に処理を移す。
【0049】
ここで、出力する位置表現を一つに定めず、ある閾値を決めて、その閾値を超える特定度を有する位置表現を複数個出力するようにしても良い。但し、閾値を超えるものが1個もない場合には、最大の特定度を持つ位置表現を出力するものとする。
【0050】
なお、このステップS3の処理を省略し、ステップS2からステップS4の処理に移行するようにしても良い。
【0051】
(A−2−4)ステップS4
各位置表現に対して、お互いの包含関係を確認する。包含関係があれば、ステップS5に移行し、なければ、ステップS6に移行する。
【0052】
包含関係の確認は、位置表現・位置座標対応情報テーブル13に記録されている各位置表現のエリアを表す位置座標データを利用し、ある位置表現の領域内に、他の位置表現の領域が含まれるかどうかを調べることにより行う。例えば、位置表現が、スポット(エリアを持たない情報)の場合は、エリアを持つ他の位置表現に含まれるかどうかを調べることによる、包含関係を捉えることができる。
【0053】
(A−2−5)ステップS5
各位置表現に対して、互いの包含関係に基づいて、特定度をさらに調整する。例えば、包含関係を有する一対の位置表現があると、包含している方の位置表現の特定度を、包含されている方の位置表現の特定度に加算することにより、包含されている方の位置表現の特定度を調整する(なお、この調整方法には、加算による方法以外の増大方法を適用しても良い)。なお、包含関係が多段に渡る場合には、包含されている最も面積が小さな位置表現の特定度には、包含している全ての位置表現の特定度が加算されるようになされている。なお、包含関係は、最大の特定度を有する複数の位置表現に関してのみ確認するようにしても良く、最大の特定度を有さない位置表現に関しても確認するようにしても良い。
【0054】
実際の処理では、位置表現毎に、一時的に加算処理用の特定度を保存する「一時特定度変数」を準備し、その変数に対して加算していく。全ての位置表現について、包含関係に基づいた調整計算を終了すると、一時特定度変数の値を、その位置表現の特定度にコピーする。
【0055】
図6は、包含関係に基づいた特定度の調整の第1例を示している。ステップS3の処理を終えた状態では、位置表現「生駒駅」及び「丸太町駅」が同じ特定度10を持っている。入力テキスト文書14には、さらに、「京都(市)」というエリアを持つ位置表現があったとする。ここで、「京都」のエリアは、図2に示す位置表現・位置座標対応情報テーブル13で定義されており、「生駒駅」は「京都」のエリアには含まれないが、「丸太町駅」は「京都」のエリアに含まれる。「京都」の特定度が4であると、包含関係に基づいた調整(計算)により、調整後の「丸太町駅」の特定度は、調整前の丸太町駅の特定度10+京都の特定度4=14となる。
【0056】
図7は、包含関係に基づいた特定度の調整の第2例を示しており、包含関係が多段に渡る場合である。詳述を避けるが、「飛鳥」の特定度、「河原町」の特定度、「中京区」の特定度は以下のようになる。
【0057】
調整後の飛鳥の特定度=飛鳥の特定度9+奈良の特定度4=13
調整後の河原町の特定度=河原町の特定度9+中京区の特定度8+京都の特定度4=21
調整後の中京区の特定度=中京区の特定度8+京都の特定度4=12
(A−2−6)ステップS6
各位置表現の特定度を比較し、最も値の大きい特定度を持つ位置表現を、このテキスト文書14の代表位置表現としてリスト15を出力する。上述した図6の例では「丸太町駅」が代表位置表現となり、図7の例では「河原町」が代表位置表現となる。上述したように、代表位置表現が複数存在していても構わない。
【0058】
なお、得られた代表位置表現の利用方法は任意である。例えば、テキスト文書のその代表位置表現を、リンク元を表すように表示しており、その代表位置表現にカーソルが位置されたときに地図を表示しても良く、また、その代表位置表現の位置に関する説明文を表示するようにしても良い。また、多くのテキスト文書を分類する場合に、代表位置表現の異同によって分類するように利用しても良い。
【0059】
(A−3)実施形態の効果
上記実施形態によれば、テキスト文書内に複数の位置表現が含まれている場合であっても、それらの位置表現が示している実際の面積の大小関係と、それらが示す実空間での位置の包含関係から、そのテキスト文書が注目している位置表現をより的確に捉えることができる。
【0060】
逆に言えば、テキスト文書内に複数の位置表現が含まれている場合において、テキスト文書の話題の中心ではない位置表現に対して、このテキスト文書が対応付けされてしまうことを防止することができる。
【0061】
(B)他の実施形態
上記実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を
上記実施形態では、位置表現・位置座標対応情報テーブル13に、予め特定度が算出されて記録されているものを示したが、位置表現・位置座標対応情報テーブル13に特定度を記録せず、行政区画などの情報を記録しておき、行政区画などの情報に基づき、特定度が求められる都度、特定度を算出するようにしても良い。
【0062】
また、上記実施形態では、エリアについては、複数の位置座標で特定するものを示したが、スプライン関数などを利用した曲線表記などを利用してエリアの外形を規定するようにしても良い。
【0063】
さらに、上記実施形態では、完全に包含されているか否かを包含関係としているものを示したが、領域が一部重複する位置表現間でも包含関係を規定するようにしても良い。例えば、重複した面積以外の面積が小さい方を包含されているものとして取り扱うようにしても良く、重複した面積以外の面積が大きい方の特定度に対し、(重複面積/全面積)×特定度だけを、加算する特定度とするようにしても良い。但し、重複した面積以外の面積が大きい方の位置表現における重複面積/全面積の比率が所定値以下の場合にのみ、包含関係を認めるようにしても良い。
【0064】
さらにまた、上記実施形態では、包含関係の確認を、位置座標情報に基づいて演算処理などによって行うものを示したが、位置表現、・位置座標対応情報テーブル13に、予め、包含関係の情報を記録しておき、それに基づいて、包含関係の確認を行うようにしても良い。
【0065】
上記では、国内の住所情報と関連のある位置情報を用いて説明したが、この仕組みは、国内の位置表現だけでなく、海外の位置表現についても、同様の仕組みを適用することができる。また、住所の部分を、テーマパークの各アトラクションに対応付け、テーマパーク内の紹介テキスト文書とアトラクションの位置(テーマパーク内の相対位置)とを自動的に結び付けるようにしても良い。さらに、住所の部分を、展示会場の各展示ブースに対応付け、展示ブースの紹介テキストや、感想メッセージなどと、展示ブースの位置(会場内の相対位置)と結び付けるようにしても良い。
【図面の簡単な説明】
【0066】
【図1】実施形態に係る位置表現特定装置の機能的構成を示すブロック図である。
【図2】実施形態における位置表現・位置座標対応情報テーブルの構成例を示す説明図である。
【図3】実施形態に係る位置表現特定装置の動作を示すフローチャートである。
【図4】図3のステップS1の詳細を示すフローチャートである。
【図5】入力テキスト文書の一例と、それに対する図3のステップS1の処理結果とを示す説明図である。
【図6】実施形態の位置表現特定装置における、位置表現の包含関係に基づいた特定度の調整方法の説明図(1)である。
【図7】実施形態の位置表現特定装置における、位置表現の包含関係に基づいた特定度の調整方法の説明図(2)である。
【符号の説明】
【0067】
10…位置表現特定装置、11…位置表現抽出部、12…位置表現判定部、13…位置表現・位置座標対応情報テーブル、14…テキスト文書、15…代表位置表現リスト。

【特許請求の範囲】
【請求項1】
ある位置表現に対して、その位置表現に係る領域の大小を反映させた特定度を対応付けて記憶し、又は、上記特定度を算出する元情報を記憶する位置表現・特定度対応記憶部と、
入力されたテキスト文書から位置表現を抽出する位置表現抽出部と、
上記位置表現抽出部によって抽出された各位置表現をキーに、上記位置表現・特定度対応記憶部をアクセスして、各位置表現に係る特定度を得、各位置表現の特定度の大小に応じ、上記テキスト文書を代表する位置表現を検出する位置表現判定部と
を有することを特徴とする位置表現特定装置。
【請求項2】
上記位置表現の特定度は、位置表現の行政区画毎の階層に応じて定義されるものであることを特徴とする請求項1に記載の位置表現特定装置。
【請求項3】
上記位置表現の特定度は、同一階層の行政区画に係る位置表現間では、面積が大きいほど小さくなるように定められるものであることを特徴とする請求項2に記載の位置表現特定装置。
【請求項4】
上記位置表現抽出部は、抽出した各位置表現に基準バイアス値を割り当てると共に、抽出した位置表現の前後に、その位置表現が示す位置をより特定する修飾語が存在する場合に、その位置情報に割り当てた基準バイアス値を、修飾の意味に応じて加減し、
上記位置表現判定部は、上記位置表現・特定度対応記憶部をアクセスすることにより得た特定度を、加減されたバイアス値を含め、バイアス値を含めて調整した後、上記テキスト文書を代表する位置表現を検出する
ことを特徴とする請求項1〜3に記載の位置表現特定装置。
【請求項5】
位置表現間の包含関係を判定できる情報を記憶する包含関係判定情報記憶部と、
上記位置表現判定部は、複数の位置表現が抽出された場合には、上記包含関係判定情報記憶部をアクセスして、包含関係の有無を確認し、包含関係があれば、包含されている位置表現の特定度は、包含している位置表現の特定度に応じて増大させた後、上記テキスト文書を代表する位置表現を検出する
ことを特徴とする請求項1〜4に記載の位置表現特定装置。
【請求項6】
上記位置表現抽出部は、同じ位置表現が複数回抽出された場合には、その位置表現の特定度を存在回数に応じて増大させると共に、複数回存在する位置表現を一つにまとめて上記位置表現判定部に引き渡すことを特徴とする請求項1〜5に記載の位置表現特定装置。
【請求項7】
コンピュータを、
ある位置表現に対して、その位置表現に係る領域の大小を反映させた特定度を対応付けて記憶し、又は、上記特定度を算出する元情報を記憶する位置表現・特定度対応記憶部と、
入力されたテキスト文書から位置表現を抽出する位置表現抽出部と、
上記位置表現抽出部によって抽出された各位置表現をキーに、上記位置表現・特定度対応記憶部をアクセスして、各位置表現に係る特定度を得、各位置表現の特定度の大小に応じ、上記テキスト文書を代表する位置表現を検出する位置表現判定部と
して機能させることを特徴とする位置表現特定プログラム。
【請求項8】
請求項7に記載の位置表現特定プログラムを記憶した、コンピュータ読み取り可能な記憶媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate