位置表現抽出装置、方法及びプログラム

【課題】処理対象である入力文書の主題に強く関連する位置表現を判定することができ、その主題に対応した最適な位置表現を抽出することができるようにする。
【解決手段】本発明の位置表現抽出装置は、位置表現・位置座標情報対応テーブルと、入力された文書から１又は複数の位置表現を抽出し、位置表現・位置座標情報対応テーブルを参照して、抽出した各位置表現の位置座標情報を求める位置表現抽出手段と、文書から１又は複数の非テキストコンテンツを抽出し、各非テキストコンテンツに含まれている１又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段と、非テキストコンテンツの各位置情報が示す位置と、抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段とを備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、位置表現抽出装置、方法及びプログラムに関し、例えば、ネットワーク上に存在する様々なコンテンツが有する位置表現を抽出する位置表現抽出装置、方法及びプログラムに適用し得るものである。
【背景技術】
【０００２】
近年、例えばインターネット等のネットワーク上に存在する様々なコンテンツに付与された位置情報（例えば、ＧＰＳ情報など）を抽出し、この位置情報を用いた位置情報サービスが提供されている。
【０００３】
また、例えばＧＰＳ機能付きデジタルカメラを用いた位置情報サービスも提供されている。このサービスは、位置情報（ＧＰＳ情報）を取得して、撮影時に位置情報を画像に付与する。そして、地図ソフトなどを用いて、位置情報をキーとして地図上の位置を検索するというものである。
【０００４】
しかしながら、ネットワーク上のコンテンツは位置情報が明示的に付与されていないものがほとんどである。また、上記ＧＰＳ機能付きデジタルカメラを用いたサービスの場合も、位置情報が画像に自動的に付与される技術が定着しておらず、ほとんどの画像は位置情報が付与されないままネットワーク上に存在している。
【０００５】
従って、上記のような位置情報サービスを充実させるためには、インターネット上のコンテンツから位置情報を自動的に抽出する技術が重要になる。
【０００６】
従来、この種の技術としては、特許文献１に記載の技術がある。特許文献１には、ウェブテキストについて住所情報に関する抽出範囲を決定し、この決定した抽出範囲内のウェブテキストから複数の住所情報に該当する文字列を抽出する。そして、少なくとも抽出した文字列が特定のキーワードを含むかどうかを調べることにより各住所情報の重要度を決定し、重要度の低い住所情報に関する抽出した文字列を削除して必要な住所情報に関する文字列のみを残す、という技術である。
【０００７】
【特許文献１】特開２００４−２８０６５９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００８】
しかしながら、上述した特許文献１に記載の技術は、特定のキーワードを含まない文字列の重要度に差をつけないため、一定の主題をもつ文書（例えば、ニュース記事やウェブログ（いわゆるブログ）記事など）においては主題と無関係な文字列も抽出してしまう。
【０００９】
つまり、対象の文書の主題とは何ら関連しない住所情報も抽出してしまうため、最適な位置情報の抽出ができない。
【００１０】
そのため、処理対象である入力文書の主題に強く関連する位置表現を判定することができ、その主題に対応した最適な位置表現を抽出することができる位置表現抽出装置、方法及びプログラムが求められている。
【課題を解決するための手段】
【００１１】
かかる課題を解決するために第１の本発明の位置表現抽出装置は、（１）少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、（２）入力された文書から１又は複数の位置表現を抽出し、位置表現・位置座標情報対応テーブルを参照して、抽出した各位置表現の位置座標情報を求める位置表現抽出手段と、（３）文書から１又は複数の非テキストコンテンツを抽出し、各非テキストコンテンツに含まれている１又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段と、（４）非テキストコンテンツ位置情報抽出手段により抽出された各位置情報が示す位置と、位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段とを備えることを特徴とする。
【００１２】
第２の本発明の位置表現抽出方法は、コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、位置表現抽出手段と、非テキストコンテンツ位置情報抽出手段と、代表位置表現判定手段とを備え、（１）位置表現抽出手段が、入力された文書から１又は複数の位置表現を抽出し、位置表現・位置座標情報対応テーブルを参照して、抽出した各位置表現の位置座標情報を求める位置表現抽出工程と、（２）非テキストコンテンツ位置情報抽出手段が、文書から１又は複数の非テキストコンテンツを抽出し、各非テキストコンテンツに含まれている１又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出工程と、（３）代表位置表現判定手段が、非テキストコンテンツ位置情報抽出手段により抽出された各位置情報が示す位置と、位置表現抽出手段により抽出された各位置表現の位置座標情報が示す位置との間の距離を求め、各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定工程とを有することを特徴とする。
【００１３】
第３の本発明の位置表現抽出プログラムは、コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルを有し、コンピュータを、（１）入力された文書から１又は複数の位置表現を抽出し、位置表現・位置座標情報対応テーブルを参照して、抽出した各位置表現の位置座標情報を求める位置表現抽出手段、（２）文書から１又は複数の非テキストコンテンツを抽出し、各非テキストコンテンツに含まれている１又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段、（３）非テキストコンテンツ位置情報抽出手段により抽出された各位置情報が示す位置と、位置表現抽出手段により抽出された各位置表現の位置座標情報が示す位置との間の距離を求め、各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段として機能させるものである。
【発明の効果】
【００１４】
本発明によれば、処理対象である入力文書の主題に強く関連する位置表現を判定することで、当該文書の主題に最適な位置表現を抽出することができる。
【発明を実施するための最良の形態】
【００１５】
（Ａ）第１の実施形態
以下、本発明の位置表現抽出装置、方法及びプログラムの第１の実施形態を図面を参照しながら詳細に説明する。
【００１６】
第１の実施形態は、本発明の位置表現抽出装置、方法及びプログラムを利用して、入力されたウェブ文書（例えば、ＨＴＭＬ（HyperText Markup Language）言語で記述されたウェブページなど）から主題に関連する位置表現を抽出する実施形態を例示して説明する。
【００１７】
（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の位置表現抽出装置１０の内部構成を示す内部構成図である。図１において、第１の実施形態の位置表現抽出装置１０は、位置表現抽出部１１、非テキストコンテンツ位置情報抽出部１２、代表位置表現判定部１３、位置表現・位置座標対応情報テーブル１４を少なくとも有して構成される。
【００１８】
なお、第１の実施形態の位置表現抽出装置１０の機能はソフトウェア処理により実現されるものである。つまり、例えば、位置表現抽出部１１と非テキストコンテンツ位置情報抽出部１２と位置表現判定部１３は、専用の制御デバイスあるいは、プログラムを実行するプロセッサと、そのプロセッサで実行するプログラムとデータを記憶するＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）などの記憶デバイスを含むハードウェア資源により実現される。
【００１９】
位置表現抽出部１１は、入力されたウェブ文書１５から１又は複数の位置表現を抽出し、位置表現・位置座標対応情報テーブル１４を参照しながら、この抽出した各位置表現に対応する位置座標を求めるものである。また、位置表現抽出部１１は、抽出した各位置表現の位置座標を代表位置表現判定部１３に与えるものである。
【００２０】
また、位置表現抽出部１１による位置表現の抽出方法としては、種々の方法を適用することができるが、例えば、予め設定された複数の位置表現を格納する位置表現データベースを参照して、パターンマッチングにより、ウェブ文書１５から位置表現を抽出する方法を適用することができる。
【００２１】
そのため、例えばパターンマッチングにより位置表現を抽出する位置表現抽出部１１の内部構成としては図２に示すような構成を備える。
【００２２】
図２は、位置表現抽出部１１の内部構成を示す内部構成図である。図２に示すように、位置表現抽出部１１は、位置表現抽出実行部１１１、位置表現データベース１１２を少なくとも有して構成される。
【００２３】
位置表現抽出実行部１１１は、位置表現データベース１１２を参照しながら、入力されたウェブ文書１５から、パターンマッチングにより位置表現を抽出するものである。パターンマッチング技術は種々の方法を適用することができ、例えば、位置表現データベース１１２に格納される位置表現と一致する文字列を抽出する。なお、完全一致しない場合でも、一部に位置表現を含む文字列を抽出するようにしてもよい。
【００２４】
位置表現データベース１１２は、予め設定された複数の位置表現を格納するデータベースである。
【００２５】
なお、図２では、位置表現データベース１１２を有する場合を示したが、位置表現・位置座標対応情報テーブル１４を用いて、位置表現・位置座標対応情報テーブル１４に格納されている複数の位置表現とパターンマッチングにより抽出するようにしてもよい。
【００２６】
非テキストコンテンツ位置情報抽出部１２は、入力されたウェブ文書１５を構成する非テキストコンテンツ（例えば、静止画像、動画像、音声など）に含まれる１又は複数の位置情報を抽出し、この抽出した各位置情報の位置座標を求めるものである。また、非テキストコンテンツ位置情報抽出部１２は、抽出した各位置表現の位置情報を代表位置表現判定部１３に与えるものである。
【００２７】
ここで、非テキストコンテンツとしては、例えば、ウェブ文書に含まれる静止画像、動画像、音声などが該当する。また、これら非テキストコンテンツから位置情報を抽出する方法としては、その非テキストコンテンスの種類に応じて、種々の方法を適用することができる。
【００２８】
図３は、非テキストコンテンツが静止画像である場合、この静止画像に含まれる位置情報を抽出するときの非テキストコンテンツ位置情報抽出部１２の内部構成を示す内部構成図である。
【００２９】
図３に示すように、非テキストコンテンツ位置情報抽出部１２は、メタデータ検出部１２１、位置情報抽出部１２２を少なくとも有するものである。
【００３０】
メタデータ検出部１２１は、入力されたウェブ文書１５に含まれている静止画像データから、当該静止画像データに含まれているメタデータを検出するものである。
【００３１】
ここで、メタ情報について説明する。例えば、デジタルカメラなどで撮影された画像データには、当該静止画像に関連する情報が例えばＥｘｉｆ（Exchangeable Image File Format）形式のメタデータとして付与されている。そこで、メタデータ検出部１２１は、静止画像データから、このメタデータを抽出するようにする。
【００３２】
なお、非テキストコンテンツの種類は静止画像に限定されるものではなく、また静止画像のメタデータの規格形式も特に限定されるものではなく、種々のものを広く適用することができる。
【００３３】
位置情報抽出部１２２は、メタデータ検出部１２１により検出されたメタデータを受け取り、このメタデータに含まれる１又は複数の位置情報を抽出するものである。
【００３４】
代表位置表現判定部１３は、位置表現抽出部１１により抽出された位置表現の位置情報と、非テキストコンテンツ位置情報抽出部１２により抽出された位置表現の位置情報とに基づいて、ウェブ文書１５の主題に関連する位置表現を求め、この位置表現を代表位置表現リスト１６として出力するものである。
【００３５】
ここで、代表位置表現判定部１３による代表位置表現の求める方法としては、非テキストコンテンツ位置情報抽出部１２により抽出された位置表現の位置情報を基準とする。そして、位置表現抽出部１１からの位置表現の位置情報の中から、上記基準点に最も近いものを代表位置表現とする方法を適用することができる。これは、ウェブ文書１５に含まれている非テキストコンテンツの位置情報がウェブ文書１５の主題に強く関連する場合が多いからである。
【００３６】
位置表現・位置座標対応情報テーブル１４は、複数の位置表現と各位置表現の位置座標情報とを対応付けたテーブルであり、例えば、ＨＤＤ、ＲＯＭ等の記憶デバイスに記憶されるものである。
【００３７】
図４は、位置表現・位置座標対応情報テーブル１４の構成例を示す構成図である。図４に示すように、位置表現・位置座標対応情報テーブル１４は、「位置表現１４１」、「緯度１４２」、「経度１４３」を管理項目として有する。
【００３８】
「位置表現１４１」は、位置を表現するものを格納し、例えば、住所、施設名、建物名、スポット名などが該当する。「緯度１４２」、「経度１４３」は、対応する位置表現の位置座標情報とするものである。
【００３９】
なお、ここで説明した第１の実施形態の位置表現抽出装置１０の構成は、機能別に説明したものであり、実現するハードウェアの物理構成が各部分毎に明確に分離され、独立に用意される必要はない。
【００４０】
例えば位置表現抽出部１１と非テキストコンテンツ位置情報抽出部１２と位置表現判定部１３を実現するプロセッサとＲＡＭ、ＲＯＭは共通のものであってもよく、さらにプログラムを格納するＨＤＤは位置表記・位置座標対応テーブル１４のＨＤＤと共通のものであってもよく、さらには他の機能を実現する装置の一部を利用してもよい。また、本装置の構成する部分の一部はネットワークで接続された他の場所に分散配置してもよい。
【００４１】
（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の位置表現抽出装置１０による位置表現抽出処理について図面を参照しながら説明する。
【００４２】
図５は、この実施形態の動作説明で用いる、処理対象のウェブ文書１５の内容例を示すものである。
【００４３】
図５において、ウェブ文書１５は、テキスト文書１５１、非テキストコンテンツ１５２、広告データ１５３、を有して構成されるものとする。
【００４４】
非テキストコンテンツ１５２は、例えばデジタルカメラ等により撮像された静止画像であり、この静止画像には位置情報を含むＥｘｉｆ形式のメタデータが付与されているものとする。
【００４５】
広告データ１５３は、例えば、ユーザが作成したウェブ文書１５に付与された広告データであり、広告主の住所が付与されているものとする。
【００４６】
この広告データ１５３は、テキスト文書、静止画像・動画像などの非テキストコンテンツなどを組み合わせて構成されるものであってよい。また、第１の実施形態の位置表現抽出装置１０は、この広告データについても、テキスト文書と非テキストコンテンツとに応じた位置情報の抽出が可能である。
【００４７】
図５に示す例では、広告データ１５３は、テキスト文書として、「Ａ電気工業」、「大阪府大阪市中央区本町Ｘ−Ｙ−Ｚ」を含むものとする。
【００４８】
図６は、第１の実施形態の位置表現抽出処理の動作を示すフローチャートである。
【００４９】
まず、処理対象のウェブ文書１５が位置表現抽出装置１０に入力されると、位置表現抽出部１１により、ウェブ文書１５からすべての位置表現が抽出される（ステップＳ１０１）。
【００５０】
例えば、図５に示すウェブ文書１５が入力されると、位置表現抽出部１１は、ウェブ文書１５から、「大阪府大阪市中央区Ｘ−Ｙ−Ｚ」、「大阪城」、「大阪ドーム」を抽出する。
【００５１】
ステップ１０２では、ステップ１０１において抽出した位置表現の数を調べ、１個も取得できなかった場合は結果なしとして処理を終了する（ステップＳ１０２）。
【００５２】
一方、１個以上の位置表現を取得できた場合には、ステップＳ１０３に移行する。この実施形態の動作説明の例では、３個の位置表現を取得できたので、ステップＳ１０３に移行する。
【００５３】
次に、位置表現抽出部１１では、位置表現・位置座標対応情報テーブル１４を参照して、各位置表現に対応する位置座標情報（緯度情報、経度情報）を取得する（ステップＳ１０３）。
【００５４】
例えば、「大阪府大阪市中央区本町Ｘ−Ｙ−Ｚ」の位置表現に対して「緯度３４．６８４１経度１３５．５０４０」が取得され、「大阪ドーム」の位置表現に対して「緯度３４．６６９４経度１３５．４７６０」が取得され、「大阪城」の位置表現に対して「緯度３４．６８７４経度１３５．５２５９」が取得される。
【００５５】
また、非テキストコンテンツ位置情報抽出部１２では、ウェブ文書１５からすべての非テキストコンテンツが抽出される（ステップＳ１０４）。
【００５６】
例えば、ウェブ文書１５には非テキストコンテンツ１５２として「大阪城の写真」が含まれているので、非テキストコンテンツ位置情報抽出部１２はこの「大阪城の写真」を抽出する。
【００５７】
ステップＳ１０５では、ステップＳ１０４において抽出された非テキストコンテンツの数を調べ、１個の取得できなかった場合にはステップＳ１０８に移行し、代表位置表現判定部１３は、位置表現抽出部１１からのすべての位置表現が選択されたものとみなされ、すべての位置表現をリストとして出力し、処理を終了する（ステップＳ１０８）。
【００５８】
一方、１個以上の非テキストコンテンツが抽出されると、ステップＳ１０６に移行する。この実施形態の動作説明では、１個の非テキストコンテンツ１５２が抽出されたので、ステップＳ１０８に移行する。
【００５９】
次に、非テキストコンテンツでは、抽出された非テキストコンテンツに含まれるメタデータを抽出し、このメタデータから位置情報を抽出する（ステップＳ１０６）。
【００６０】
このとき、複数個の非テキストコンテンツがある場合には、複数個の非テキストコンテンツのそれぞれの位置情報を抽出し、複数の位置情報を取得するようにしてもよい。さらに、１個の非テキストコンテンツのメタデータから複数の位置情報を取得するようにしてもよい。例えば、Ｅｘｉｆ形式のメタデータからは、撮影場所と撮影対象の場所の２個の位置情報が得られることがある。この場合には、それぞれの位置情報を抽出する。
【００６１】
また、メタデータから取得する位置情報が緯度情報・経度情報ではない場合もある。この場合、例えばメタデータの位置情報として「位置表現」が格納されているのであれば、非テキストコンテンツ位置情報抽出部１２は、位置表現・位置座標対応情報テーブル１２を用いて緯度情報・経度情報を求めるようにしてもよい。
【００６２】
例えば、この実施形態の動作説明では、非テキストコンテンツ１５２である「大阪城の写真」のメタデータには、「緯度３４．６８８０経度１３５．５３４４」の位置情報が付加されているものとする。そこで、非テキストコンテンツ位置情報抽出部１２は、この「緯度３４．６８８０経度１３５．５３４４」を抽出する。
【００６３】
ステップＳ１０１において位置表現抽出部１１により抽出された位置表現は、代表位置表現判定部１３に与えられる。また、非テキストコンテンツ位置情報抽出部１２により取得された位置情報も、代表位置表現判定部１３に与えられる。
【００６４】
そして、代表位置表現判定部１３により、位置表現抽出部１１により抽出された位置表現の中から、ウェブ文書１５の主題に強く関連する位置表現（代表位置表現）が選択される（ステップＳ１０７）。
【００６５】
このとき、代表位置表現判定部１３は、非テキストコンテンツ位置情報抽出部１２からの位置情報を基準点として、代表位置表現を選択する。
【００６６】
このように、非テキストコンテンツの位置情報を基準として利用することは、例えば、画像がウェブ文書１５に含まれている場合、その画像がウェブ文書１５の主題に強く関連している可能性が非常に高いからである。
【００６７】
これにより、ウェブ文書１５の主題に最も強く関連する位置表現を判定し、この位置表現を代表位置表現として出力することができる（ステップＳ１０８）。その結果、当該ウェブ文書１５に最適な位置表現を出力することができる。
【００６８】
例えば、非テキストコンテンツ１５２の位置情報が「緯度３４．６８８０経度１３５．５３４４」であるから、代表位置表現判定部１３は、この緯度情報・経度情報を基準点とする。
【００６９】
そして、代表位置表現判定部１３は、位置表現「大阪府大阪市中央区Ｘ−Ｙ−Ｚ」、「大阪城」、「大阪ドーム」のそれぞれの緯度情報・経度情報を用いて、基準点に最も近い距離の位置表現を選択する。
【００７０】
このとき、代表位置表現判定部１３は、種々の方法を適用して、各位置表現の位置座標情報と基準点との間の距離を求めることができる。例えば、球面三角法などを用いて厳密に計算しても良いし、また例えば直角三角形の公式を用いた簡単なものでも良い。
【００７１】
そうすると、代表位置表現判定部１３は、基準点「緯度３４．６８８０経度１３５．５３４４」に対して、最も距離が近いものは「大阪城」（緯度３４．６８７４経度１３５．５２５９）であると判定し、この位置表現「大阪城」を代表位置表現として選択し、選択された代表位置表現リスト１６を出力して終了する。
【００７２】
（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、対象とするウェブ文書に複数の位置表現が存在する場合において、非テキストコンテンツから求めた位置情報を基準として、この基準から最も距離が近い位置表現を出力することで、対象のウェブ文書の主題に関連の強い位置表現を選択及び出力することが可能となる。
【００７３】
（Ｂ）他の実施形態
第１の実施形態では、処理対象として「ウェブ文書」を例示して説明したが、一般的なＨＴＭＬ言語で記述されたウェブページに限定されるものではない。また、例えば、ＲＤＦやＰＤＦなどいわゆるリッチメディアと呼ばれる、テキストとそれ以外のさまざまなメディア情報（非テキストコンテンツ）を併せ持つ文書に適用することができる。
【００７４】
第１の実施形態において、代表位置表現判定部１３は、非テキストコンテンツの位置情報が示す位置との間の距離が最も近い位置表現を選択し、この１個の位置表現を出力する場合を例示した。しかし、基準点からの距離が近い順に複数個の位置表現を並べ替えて、これら複数の位置表現を出力してもよい。これにより、文書の主題の関連度に応じた優先順位で位置表記を出力することができる。また、この場合、予め定めた個数の位置表現を出力するようにしてもよい。
【００７５】
さらに、主題とは無関係の非テキストコンテンツによる悪影響を抑えるために、すべての位置表現又は一部の位置表現と基準点との距離が、予め設定された閾値よりも大きな距離の位置表現しか存在しない場合は、その非テキストコンテンツに対する代表位置表現をあえて出力しないようにしてもよい。
【００７６】
第１の実施形態の説明においては、ウェブ文書に含まれる非テキストコンテンツの個数は１個であったが、複数の非テキストコンテンツが含まれるウェブ文書にも適用できる。この場合、各非テキストコンテンツに対応した代表位置表現が選択され、複数出力される。
【００７７】
非テキストコンテンツの位置情報が示す位置が複数ある場合、各位置情報の位置毎に、代表位置表現を出力するようにしてもよい。
【００７８】
第１の実施形態では、非テキストコンテンツが、例えばデジタルカメラなどで撮影した静止画像の場合を例示して説明したが、第１の実施形態でも示したが、動画像や音声などの場合にも適用できる。この場合、非テキストコンテンツ位置情報抽出部は、動画像データや音声データの設定データを検出し、この設定データから位置情報を抽出することで実現することができる。
【図面の簡単な説明】
【００７９】
【図１】第１の実施形態の位置表現抽出装置の内部構成を示す内部構成図である。
【図２】第１の実施形態の位置表現抽出部の内部構成を示す内部構成図である。
【図３】第１の実施形態の非テキストコンテンツ位置情報抽出部の内部構成を示す内部構成図である。
【図４】第１の実施形態の位置表現・位置座標対応情報テーブルの構成を示す構成図である。
【図５】第１の実施形態のウェブ文書の内容を示す説明図である。
【図６】第１の実施形態の位置表現抽出処理の動作を示すフローチャートである。
【符号の説明】
【００８０】
１０…位置表現抽出装置、１１…位置表現抽出部、１２…非テキストコンテンツ位置情報抽出部、１３…代表位置表現はン知恵部、１４…位置表現・位置座標対応情報テーブル。

【特許請求の範囲】
【請求項１】
少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、
入力された文書から１又は複数の位置表現を抽出し、上記位置表現・位置座標情報対応テーブルを参照して、抽出した上記各位置表現の位置座標情報を求める位置表現抽出手段と、
上記文書から１又は複数の非テキストコンテンツを抽出し、上記各非テキストコンテンツに含まれている１又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段と、
上記非テキストコンテンツ位置情報抽出手段により抽出された上記各位置情報が示す位置と、上記位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、上記各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段と
を備えることを特徴とする位置表現抽出装置。
【請求項２】
上記代表位置表現判定手段は、上記各非テキストコンテンツの上記各位置情報が示す位置と、抽出された上記各位置表現の位置座標情報が示す位置との距離に応じて、上記各位置表現に対して優先順位を付与することを特徴とする請求項１に記載の位置表現抽出装置。
【請求項３】
上記代表位置表現判定手段は、当該非テキストコンテンツの上記位置情報が示す位置と、抽出されたすべての上記位置表現の位置座標情報が示す位置との距離が、予め定めた閾値より超える場合、当該非テキストコンテンスに対する代表位置表現を選択しないことを特徴とする請求項１又は２に記載の位置表現抽出装置。
【請求項４】
上記代表位置表現判定手段は、上記各非テキストコンテンツの上記各位置情報が示す位置と、抽出された上記各位置表現の位置座標情報が示す位置との距離が小さい順に、予め定められた個数だけ代表位置表現として選択することを特徴とする請求項１〜３のいずれかに位置表現抽出装置。
【請求項５】
上記非テキストコンテンツ位置情報抽出手段は、上記各非テキストコンテンツに含まれる上記位置情報が位置座標情報でない場合、上記位置表現・位置座標情報対応テーブルを参照して、上記各非テキストコンテンツの各位置情報から位置座標情報を取得することを特徴とする請求項１に記載の位置表現抽出装置。
【請求項６】
コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルと、位置表現抽出手段と、非テキストコンテンツ位置情報抽出手段と、代表位置表現判定手段とを備え、
上記位置表現抽出手段が、入力された文書から１又は複数の位置表現を抽出し、上記位置表現・位置座標情報対応テーブルを参照して、抽出した上記各位置表現の位置座標情報を求める位置表現抽出工程と、
上記非テキストコンテンツ位置情報抽出手段が、上記文書から１又は複数の非テキストコンテンツを抽出し、上記各非テキストコンテンツに含まれている１又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出工程と、
上記代表位置表現判定手段が、上記非テキストコンテンツ位置情報抽出手段により抽出された上記各位置情報が示す位置と、上記位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、上記各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定工程と
を有することを特徴とする位置表現抽出方法。
【請求項７】
コンピュータが、少なくとも、複数の位置表現と、これら各位置表現の位置を特定する位置座標情報とを対応付けて格納する位置表現・位置座標情報対応テーブルを有し、
コンピュータを、
入力された文書から１又は複数の位置表現を抽出し、上記位置表現・位置座標情報対応テーブルを参照して、抽出した上記各位置表現の位置座標情報を求める位置表現抽出手段、
上記文書から１又は複数の非テキストコンテンツを抽出し、上記各非テキストコンテンツに含まれている１又は複数の位置情報を抽出する非テキストコンテンツ位置情報抽出手段、
上記非テキストコンテンツ位置情報抽出手段により抽出された上記各位置情報が示す位置と、上記位置表現抽出手段により抽出された上記各位置表現の位置座標情報が示す位置との間の距離を求め、上記各非テキストコンテンツの各位置情報が示す位置から距離が最小となる位置表現を代表位置表現と判定して出力する代表位置表現判定手段
として機能させる位置表現抽出プログラム。

【図１】