テキスト位置判定装置及びテキスト位置判定方法
【課題】 地名等の位置を示す単語以外の単語やテキストに位置情報を付与すると共に位置情報が付与された単語やテキストを容易に利用可能とする。
【解決手段】 テキスト位置判定装置10は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する地名辞書記憶部11及びPOI辞書記憶部12と、テキストを取得する情報収集部13と、取得されたテキストを単語単位に分解するワード分解部14と、分解された単語と記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出すると共に抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、当該位置を示す単語に対応付けて記憶されている位置情報を付与するエリア判定部16及び位置判定部17と、位置情報に応じて当該位置情報が付与された単語を集計する集計部19と、集計結果を出力する出力部20とを備える。
【解決手段】 テキスト位置判定装置10は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する地名辞書記憶部11及びPOI辞書記憶部12と、テキストを取得する情報収集部13と、取得されたテキストを単語単位に分解するワード分解部14と、分解された単語と記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出すると共に抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、当該位置を示す単語に対応付けて記憶されている位置情報を付与するエリア判定部16及び位置判定部17と、位置情報に応じて当該位置情報が付与された単語を集計する集計部19と、集計結果を出力する出力部20とを備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストに係る位置情報を判定するテキスト位置判定装置及びテキスト位置判定方法に関する。
【背景技術】
【0002】
近年、日記や掲示板、ブログ、マイクロブログサービス、SNS(SocialNetworking Service)などインターネット上での情報発信手段が多様化している。また、スマートフォン等のモバイル端末の普及により、モバイル端末でこれらのサービスを、いつでも、どこでも利用できる環境が整い、よりリアルタイムに今起きている事件や最新の話題などの情報入手することが可能となった。また、スマートフォンではGPS(Global Positioning System)やWi−Fiを利用した位置情報サービスが広まっており、SNSと位置情報を連携させたサービスも行われている。例えばFoursquareでは様々な施設にユーザがチェックインし、自分の友人とチェックインを共有したり、Twitterではツイートと呼ばれるコメント投稿に位置情報(ジオタグ)を付けることが可能であったりする。
【0003】
これらのサービスで発信されている情報の中には、モバイル端末のGPSで位置を付与したり、予め用意された位置情報タグ(店舗や施設の位置情報)を付与したりすることで、緯度経度などの位置情報が関連付けされているものも存在する。これら位置情報が関連付けされた情報は、モバイル端末で、現在位置周辺に関連する情報に絞り込んで検索するなどが容易にできるため、「その時」「その場所で」「旬な」情報を取得することが可能である。
【0004】
しかしながら、これらの発信されている情報は、必ずしも位置情報が付与されていないため、「その時」「その場所で」「旬な」情報を取得する場合、取得可能な情報の対象数が発信されている情報全体に対して極めて限られてしまう。例えばTwitterでは投稿されるツイートの0.5%程度しかジオタグがつけられていない(2010年3月31日現在)。
【0005】
特許文献1では、ウェブページに出現する地名を抽出し、地名の出現回数をカウントすることで、その地名がどれくらいブログ等で話題となっているか判定を行い、地図上での地名の表示サイズやフォントを変更する方法を提供している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2010−3256号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1では地名以外の単語及びテキスト(文書)全体に対しては位置情報を付与していないため、例えば、その場所で話題となっているワードを抽出しようとしても地名以外のワードに位置情報が付与されていないため抽出できない。
【0008】
本発明は、上記の問題点を鑑みてなされたものであり、地名等の位置を示す単語以外の単語やテキストに位置情報を付与すると共に位置情報が付与された単語やテキストを容易に利用可能とすることができるテキスト位置判定装置及びテキスト位置判定方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記の目的を達成するために、本発明に係るテキスト位置判定装置は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、テキストを取得する取得手段と、取得手段によって取得されたテキストを単語単位に分解する単語分解手段と、単語分解手段によって分解された単語と位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出手段と、位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段と、位置情報に応じて、当該位置情報が位置情報付与手段によって付与された単語を集計する集計手段と、集計手段による集計結果を出力する出力手段と、を備える。
【0010】
本発明に係るテキスト位置判定装置では、テキスト内に含まれる位置を示す単語に基づいて、それ以外の単語に位置情報を付与することができる。また、付与された位置情報に応じて単語が集計されるので容易に利用可能とすることができる。
【0011】
取得手段は、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断して、含まれていると判断した場合には当該リンク情報によって示される場所のデータを取得し、位置単語抽出手段は、取得手段によって取得されたリンク情報によって示される場所のデータに含まれるテキストと位置情報記憶手段に記憶された位置を示す単語とを比較して、当該リンク情報によって示される場所のデータから位置を示す単語を抽出し、位置情報付与手段は、位置単語抽出手段によって抽出された位置を示す単語を含んでいたデータに係るリンク情報を含むテキストに含まれる単語に、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置を示す位置情報を付与する、こととしてもよい。テキストに含まれるURL等のリンク情報に場所が示されるデータに、当該テキストに係る単語に関連する位置を示す単語が含まれることがあり、本構成によれば、そのような場合に適切かつ確実に単語に位置情報を対応付けることができ、適切かつ確実に本発明を実施することができる。
【0012】
位置情報記憶手段は、地名を示す単語とエリアを示すエリア情報とを対応付けて記憶すると共に、POI(Point Of Interest)を示す単語とエリア情報と位置情報とを対応付けて記憶し、位置単語抽出手段は、単語分解手段によって分解された単語と位置情報記憶手段に記憶された地名を示す単語とを比較して、それらが一致した地名を示す単語に位置情報記憶手段に対応付けられているエリア情報を特定し、分解された単語と特定されたエリア情報に対応付けられているPOIを示す単語とを比較して、それらが一致したPOIを示す単語を抽出し、位置情報付与手段は、位置単語抽出手段によって抽出されたPOIを示す単語を含んでいたテキストに含まれる他の単語に、位置情報記憶手段に当該POIを示す単語に対応付けて記憶されている位置情報を付与する、こととしてもよい。この構成によれば、POIに応じて、効率的かつ適切に単語に位置情報を対応付けることができる。
【0013】
テキストにはメタデータが付与されており、位置単語抽出手段は、取得手段によって取得されたテキストに付与されたメタデータにも関連する位置を示す単語を抽出する、こととしてもよい。この構成によれば、メタデータに応じて単語に適切な位置情報を対応付けることができる。
【0014】
テキストには時刻が対応付けられており、集計手段は、テキストに対応付けられた時刻に応じて集計を行う、こととしてもよい。この構成によれば、例えば、特定の時間帯において関連している単語と位置情報とを対応付けることができる。
【0015】
集計手段は、第1の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第1の期間よりも長い第2の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、第1の期間に係る集計結果の値から第2の期間に係る集計結果の値を減じた値を集計結果とすることとしてもよい。この構成によれば、例えば、特定の時間帯において特に関連している度合いが高まっている単語と位置情報とを対応付けることができる。
【0016】
集計手段は、位置情報を含むエリア毎に単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にTF値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各単語のTF−IDF値を計算して集計結果とすることとしてもよい。この構成によれば、単語の出現頻度が考慮された単語と位置情報との対応付けが可能になる。
【0017】
集計手段は、複数の単語が同一のテキスト内に含まれる頻度を計算して、当該頻度に基づき単語をグループ化して集計結果を計算することとしてもよい。この構成によれば、集計結果を利便性の高いものにすることができる。
【0018】
上記の目的を達成するために、本発明に係るテキスト位置判定装置は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、テキストを取得する取得手段と、取得手段によって取得されたテキストと位置情報記憶手段に記憶された位置を示す単語とを比較して、当該テキストに含まれる位置を示す単語を抽出する位置単語抽出手段と、位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段と、位置情報に応じて、当該位置情報が位置情報付与手段によって付与されたテキストを集計する集計手段と、集計手段による集計結果を出力する出力手段と、を備える。
【0019】
本発明に係るテキスト位置判定装置では、テキスト内に含まれる位置を示す単語に基づいて、テキストに位置情報を付与することができる。また、付与された位置情報に応じてテキストが集計されるので容易に利用可能とすることができる。
【0020】
ところで、本発明は、上記のようにテキスト位置判定装置の発明として記述できる他に、以下のようにテキスト位置判定方法の発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
【0021】
即ち、本発明に係るテキスト位置判定方法は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段を備えるテキスト位置判定装置によるテキスト位置判定方法であって、テキストを取得する取得ステップと、取得ステップにおいて取得されたテキストを単語単位に分解する単語分解ステップと、単語分解ステップにおいて分解された単語と位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出ステップと、位置単語抽出ステップにおいて抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与ステップと、位置情報に応じて、当該位置情報が位置情報付与ステップにおいて付与された単語を集計する集計ステップと、集計ステップにおける集計結果を出力する出力ステップと、を含む。
【発明の効果】
【0022】
本発明によれば、テキスト内に含まれる位置を示す単語に基づいて、それ以外の単語やテキストに位置情報を付与することができる。また、付与された位置情報に応じて単語やテキストが集計されるので容易に利用可能とすることができる。
【図面の簡単な説明】
【0023】
【図1】本発明の実施形態に係るテキスト位置判定装置の機能構成を示す図である。
【図2】地名辞書記憶部に格納されるデータを示す図である。
【図3】POI辞書記憶部に格納されるデータを示す図である。
【図4】ワード記憶部に格納されるデータを示す図である。
【図5】位置情報付ワード記憶部に格納されるデータを示す図である。
【図6】ワードのグルーピングを示す図である。
【図7】本発明の実施形態に係るテキスト位置判定装置によって生成された情報の利用例を示す図である。
【図8】本発明の実施形態に係るテキスト位置判定装置のハードウェア構成を示す図である。
【図9】本発明の実施形態に係るテキスト位置判定装置で実行される処理(テキスト位置判定方法)を示すフローチャートである。
【図10】集計処理の具体例を示すフローチャートである。
【図11】本発明の実施形態に係るテキスト位置判定装置の変形例の機能構成を示す図である。
【発明を実施するための形態】
【0024】
以下、図面と共に本発明に係るテキスト位置判定装置及びテキスト位置判定方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係るテキスト位置判定装置10を示す。テキスト位置判定装置10は、テキストに係る位置情報を判定する装置である。より具体的には、テキスト位置判定装置10は、テキストに含まれるワード(単語)に関連がある位置を判定して、ワードに位置情報を付与して位置情報に応じた集約を行う。テキスト位置判定装置10の解析対象となるテキストは、例えば、インターネット上の日記、掲示板、ブログ、マイクロブログ及びSNS等のサービスにおいて、様々なユーザによって作成、投稿されたテキストである。
【0025】
ユーザは、自身が位置している場所に応じたテキストを作成するので位置に応じてよく使われるワードがある。このようなワードは、位置(場所)に応じた情報であり、その位置においてどのようなものが興味を持たれているかを示すものとなる。本実施形態に係るテキスト位置判定装置10では、テキストを分析することによって、位置に応じたワードを抽出するものである。なお、テキスト位置判定装置10が解析対象とするテキストは、上述したインターネット上のテキストには限定されず任意のテキストが用いられてもよい。
【0026】
図1に示すようにテキスト位置判定装置10は、インターネットNに接続されており、インターネットN上の装置(例えば、上述したテキストを投稿、表示するサービスを提供するサーバ)と情報の送受信を行うことができる。
【0027】
図1に示すようにテキスト位置判定装置10は、地名辞書記憶部11と、POI辞書記憶部12と、情報収集部13と、ワード分解部14と、ワード記憶部15と、エリア判定部16と、位置判定部17と、位置情報付ワード記憶部18と、集計部19と、出力部20とを備えて構成される。
【0028】
地名辞書記憶部11は、位置を示すワード(単語)と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段の一つである。具体的には、地名辞書記憶部11は、例えば、図2に示すテーブルを用いて、位置を示すワードとして地名を示すワードと、位置を示す位置情報と、エリアを示すエリア情報とを対応付けて記憶する。地名を示すワードは、例えば、都道府県名、市区町村名、駅名等を用いる。位置情報は、具体的には、緯度、経度の情報であり、例えば、地名を示すワードで示される場所の代表的な位置(例えば、都道府県庁の所在地、市区町村役場の所在地、駅の所在地)とする。エリアは、テキスト位置判定装置10によって位置の判定対象となる範囲を予め複数に区切った領域であり、例えば、都道府県や市区町村等の範囲である。それぞれのエリアには、エリア情報としてエリアを一意に特定するエリアIDが予め付与されている。地名を示すワード及び位置情報に対応付けられるエリアIDは、当該位置情報が含まれるエリアのエリアIDである。
【0029】
POI辞書記憶部12は、位置を示すワードと位置を示す位置情報とを対応付けて記憶する位置情報記憶手段の一つである。具体的には、POI辞書記憶部12は、例えば、図3に示すテーブルを用いて、コンテンツIDと、位置を示すワードとしてPOIを示すワードである名称と、住所と、位置情報と、エリアを示すエリア情報とを対応付けて記憶する。POIは、ユーザが興味を持った、あるいは興味を持ちえる特定の場所であり、具体的には、特定の店舗や施設等に相当する。
【0030】
コンテンツIDは、POIの情報が掲載されているWebページ等のPOIに係るコンテンツを特定するIDである。当該コンテンツは、本発明とは直接は関係しないが本発明に付随する情報の提供等に用いることができる。名称は、POIを示すワードであり、具体的には店舗の名前や施設名等に相当する。住所は、POIの所在地を示す住所である。位置情報は、POIの所在地の緯度、経度の情報である。エリアIDは、当該位置情報が含まれるエリアのエリアIDである。
【0031】
地名辞書記憶部11及びPOI辞書記憶部12に格納される情報は、予めテキスト位置判定装置10の管理者等によって地名辞書記憶部11及びPOI辞書記憶部12に入力されている。
【0032】
情報収集部13は、テキスト位置判定装置10による解析対象となる1つ以上のテキストを取得する取得手段である。情報収集部13は、上述したインターネット上に掲載されている日記等の情報を収集する。テキストの収集は、例えば、インターネット経由で日記や掲示板等のサービスを提供すると共にテキストを保存するサーバに対して、当該サーバによって用意されているAPIを利用してテキストの取得を要求して取得(受信)する。あるいは、クローリングによる収集が行われてもよく、任意のテキストの取得方法を用いることができる。情報収集部13は、取得したテキストをワード分解部14に出力する。
【0033】
テキストは、個々のデータで(例えば、日記や掲示板等における一記事が一つのテキストデータとして)取得される。テキストには、少なくともテキスト本文を示すデータが含まれる。このテキストは、例えば、ユーザによって作成された投稿の内容を示すものである。また、テキストのデータには一意に特定するIDが付与されている。このIDは、テキストの取得時に予め付与されていてもよいし、テキストが取得された時点で情報収集部13によって一意なIDを付与されてもよい。また、テキストのデータには時刻を示すデータが付与されていてもよい。この時刻は、例えば、テキストがユーザによって、日記や掲示板等のサーバに投稿(あるいは生成)された時刻である。
【0034】
また、取得されるテキストのデータにはメタデータが付与されていてもよい。メタデータとしては、例えば、緯度及び経度等の位置情報がある。あるいは、テキストを作成したユーザに係る情報であってもよい。より具体的には、ユーザの所在地を示すプロフィールデータ等である。これらのメタデータは、例えば、テキストの作成時に作成に用いられた端末によって自動的にテキストに付与されるものである。情報収集部13は、テキストに付与された時刻を示すデータやメタデータをテキストのIDに対応付けて後の解析に利用できるように管理する。
【0035】
情報収集部13は、取得したテキストに含まれるリンク情報によって示される場所のデータを取得することとしてもよい。その場合、情報収集部13は、まず、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断する。リンク情報は、例えば、インターネット上のWebページ等のデータの場所を示すURL(Uniform Resource Locator)である。あるいは、リンク情報はURL以外のものが用いられてもよい。この判断は、テキストに対して正規表現(部分一致)で検索を行うことによって行われる。
【0036】
情報収集部13は、テキストにリンク情報が含まれていると判断した場合には当該リンク情報を抽出して、当該リンク情報によって示される場所のデータを取得する。例えば、URLで示されるサーバに取得を要求して取得(受信)する。情報収集部13は、リンク情報から取得された情報をテキストのIDに対応付けて後の解析に利用できるように管理する。
【0037】
また、以降の処理において、情報収集部13によってリンク情報から取得されたテキストを取得元のテキスト(リンク情報が含まれるテキスト)と合わせて一つのテキストとして扱うこととしてもよい。
【0038】
ワード分解部14は、情報収集部13によって収集されたテキストをワード単位に分解する単語分解手段である。この分解は、テキストが日本語である場合には、例えば形態素解析によって行われる。形態素解析には、MeCab、茶筌、JTAG(例えば、Japanese morphological analyzer using word co-occurrence:JTAG, Takeshi Fuchi and Shinichiro Takagi , ACL ‘98 Proceedings ofthe 36th Annual Meeting of the Association for Computational Linguistics参照)等の形態素解析エンジンが用いられてもよい。テキストが英語等のアルファベットで構成されているものである場合には、例えばスペースで区切られた文字列をワードとすることができる。
【0039】
ワード分解部14は、テキストを分解して得られたワードをテキストのIDと共にワード記憶部15に出力する。また、ワード分解部14は、分解したワードの品詞を解析して、ワードと共にそのワードの品詞を示す情報も合わせてワード記憶部15に出力してもよい。なお、品詞の解析は、従来から用いられている技術を利用することができる。
【0040】
ワード記憶部15は、ワード分解部14によってテキストから分解されたワードを記憶する手段である。具体的には、ワード記憶部15は、例えば、図4(a)及び図4(b)に示すテーブルを用いて、情報元IDと、ワードとを対応付けて記憶する。情報元IDは、ワードが取得された(ワードが含まれていた)テキストのIDである。また、ワード分解部14による形態素解析等によってワードの品詞を示す情報が取得される場合には、図4(b)に示すように、情報元IDと、ワードと、品詞とを対応付けて記憶してもよい。
【0041】
エリア判定部16は、ワード分解部14によって分解されてワード記憶部15に記憶されているワードと、地名辞書記憶部11に記憶された地名を示すワードとを比較して、それらが一致した地名を示すワードを抽出する位置単語抽出手段の一機能である。なお、ワード記憶部15に記憶されているワードのうち、比較対象とする(照合に利用する)ワードを絞り込むこととしてもよい。例えば、品詞が名詞であるワードのみ、あるいは名詞及び固有名詞のみを対象とすることとしてもよい。また、固有名詞の中でも人名と判断されたものを除くこととしてもよい。これにより、精度を落とさずに効率的に処理を行うことが可能である。
【0042】
エリア判定部16は、地名辞書記憶部11に記憶された地名を示すワードと一致した(ワード記憶部15に記憶されている)ワードに、地名辞書記憶部11から当該地名を示すワードに対応付けられている位置情報及びエリアIDを取得(特定)して付与する。また、エリア判定部16は、一致したワード記憶部15に記憶されているワードと同一の情報元IDを有するワードにも、同様に当該地名を示すワードに対応付けられている位置情報及びエリアIDを付与する。即ち、エリア判定部16は、位置を示すワードを含んでいたテキストに含まれる他のワードに、地名辞書記憶部11に地名を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段でもある。なお、テキスト中の何れのワードも地名と一致しなかった場合には、そのテキスト中の全てのワードには、位置情報及びエリアIDは付与されない。エリア判定部16は、位置情報及びエリアIDを対応付けたワードの情報を位置判定部17に出力する。
【0043】
エリア判定部16は、情報収集部13によって取得されたリンク情報によって示される場所の(リンク先の)データに含まれるテキスト(中のワード)と地名辞書記憶部11に記憶された位置を示すワードとを比較することとしてもよい。即ち、リンク先のデータに含まれるテキストに、地名辞書記憶部11に記憶された位置を示すワードが含まれるか判断してもよい。エリア判定部16は、地名辞書記憶部11に記憶された地名を示すワードと一致した、リンク先のデータに含まれるテキスト(中のワード)に、地名辞書記憶部11に当該地名を示すワードに対応付けられている位置情報及びエリアIDを取得(特定)して付与する。この場合、エリア判定部16は、リンク情報の取得元のテキストの情報元IDを有するワードに、同様に当該地名を示すワードに対応付けられている位置情報及びエリアIDを付与する。
【0044】
エリア判定部16は、更にワードと地名とが一致した場合、その地名が全国で一つだけのものか判定することとしてもよい。この判定は、予め地名辞書記憶部11に記憶された地名を示すワードが全国で一つものであるか否か判定しておき、判定結果を示すフラグを地名辞書記憶部11に記憶されたデータに持たせておき当該フラグが用いられて行うこととしてもよい。あるいは、ワードと地名との一致を判断する際に一致する地名が一つだけかどうかを判断することとによって行われてもよい。
【0045】
エリア判定部16は、一致した地名が複数であると判定した場合には、それを更に絞り込むこととしてもよい。例えば、「日本橋」という地名は東京と大阪にあるためワードのみではどちらの日本橋を示すか判定ができない。エリア判定部16は、絞り込んだ地名の位置情報及びエリアIDを、上記のようにテキストのワードに付与する。絞り込みは、例えば、上述したように、情報収集部13によって取得されたリンク情報によって示される場所のデータが用いられて行われてもよい。
【0046】
その場合、予め図2に示す地名辞書記憶部11の各データに、絞り込みを行うための情報、例えば当該地名が属する都道府県名を更に対応付けておく。エリア判定部16は、リンク情報によって示される場所のデータに含まれるテキストに都道府県名が含まれているか否か判断する。都道府県名が含まれていた場合には、エリア判定部16は、一致した複数の地名のうち、リンク情報に係るテキストに含まれていた都道府県名と一致する都道府県名が、地名辞書記憶部11に記憶された情報において当該一致した当該複数の地名に対応付けられているか判断する。複数の地名のうち、リンク情報に係るデータに含まれる都道府県名と対応付けられている地名がある場合、当該地名を上記の処理に採用する。そのような地名が無い場合、あるいは、リンク情報のデータに都道府県名が含まれていない場合には、絞り込みを行わずに両方の地名を採用する。
【0047】
また、絞り込みは、上述したように情報収集部13によって取得されたテキストに付与されたメタデータが用いられて行われてもよい。エリア判定部16は、メタデータにも関連する位置を示す単語を抽出する。具体的には、リンク情報の例と同様にメタデータ(より具体的には、プロフィールや所在地の情報)から都道府県名を抽出する。エリア判定部16は、一致した複数の地名のうち、メタデータから抽出した都道府県名と一致する都道府県名が、地名辞書記憶部11に記憶された情報において当該一致した当該複数の地名に対応付けられているか判断する。複数の地名のうち、メタデータに含まれる都道府県名と対応付けられている地名がある場合、当該地名を上記の処理に採用する。そのような地名が無い場合、あるいは、メタデータから都道府県名を抽出できない場合には、絞り込みを行わずに両方の地名を採用する。
【0048】
位置判定部17は、エリア判定部16から入力されたワードと、POI辞書記憶部12に記憶されたPOIを示すワードとを比較して、それらが一致したPOIを示すワードを抽出する位置単語抽出手段の一機能である。位置判定部17は、エリア判定部16から入力されたワードに対応付けられているエリアIDと同じエリアIDに対応付けられてPOI辞書記憶部12に記憶されているPOIを示すワードを比較対象とする。
【0049】
位置判定部17は、POI辞書記憶部12に記憶されたPOIを示すワードと一致した(エリア判定部16から入力された)ワードに、POI辞書記憶部12に当該POIを示すワードに対応付けられている位置情報及びエリアIDを取得(特定)して付与する。また、エリア判定部16は、一致したエリア判定部16から入力されたワードと同一の情報元IDを有するワードにも、同様に当該POIを示すワードに対応付けられている位置情報及びエリアIDを付与する。即ち、位置判定部17は、位置を示すワードを含んでいたテキストに含まれる他のワードに、POI辞書記憶部12にPOIを示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段でもある。POIを示すワードに対応付けられている位置情報の付与は、地名を示すワードに対応付けられている位置情報を更新することで行われる。
【0050】
位置情報及びエリアIDの付与は、エリア判定部16によって付与された位置情報及びエリアIDが更新されて行われる。なお、テキスト中の何れのワードもPOIと一致しなかった場合には、そのテキスト中の全てのワードには、エリア判定部16によって付与された位置情報及びエリアIDのままとされる。位置判定部17は、位置情報及びエリアIDを対応付けたワードの情報を位置情報付ワード記憶部18に出力する。
【0051】
位置判定部17は、エリア判定部16と同様にリンク情報に係るテキストを用いた比較や、リンク情報に係るテキスト及びメタデータを用いたPOIの絞り込みが行われてもよい。
【0052】
位置情報付ワード記憶部18は、位置判定部17から入力された位置情報及びエリアIDが付与されたワードを記憶する手段である。位置情報付ワード記憶部18が記憶するデータは、ワード毎のデータであり、例えば、図5に示すデータが格納される。図5に示すように、位置情報付ワード記憶部18は、位置判定部17からワードに対応付けられて入力されたエリアID、地名又は名称(POI)、地名又は名称の区分、品詞、並びに位置情報である緯度及び経度が、ワードに対応付けられて記憶される。
【0053】
集計部19は、位置情報付ワード記憶部18に記憶されている位置情報が付与されたワードを、位置情報に応じて集計する集計手段である。集計は、例えば最も単純には、エリアIDが付与されたエリア毎にエリアに対応付けられたワードの数をカウントすることによって行われる。また、集計部19は、テキストに対応付けられた時刻に応じて集計を行うこととしてもよい。例えば、ある時間帯のテキストのみを用いて集計を行うこととしてもよい。
【0054】
更に、集計部19は、位置情報付ワード記憶部18に記憶されている位置情報が付与されたワードに基づき、エリア毎に各ワードのスコアを算出するような集計を行ってもよい。ここで、各ワードのスコアは、当該エリアでユーザに注目されている度合いを示す。即ち、「その場所で」「旬な」ワードである度合いを示す。また、時刻の情報を用いれば、「その時」「その場所で」「旬な」ワードである度合いを示す。
【0055】
具体的には例えば、集計部19は、以下のような集計を行うこととしてもよい。集計部19は、第1の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第1の期間よりも長い第2の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、第1の期間に係る集計結果の値(スコア)から第2の期間に係る集計結果の値を減じた値(スコア)を集計結果とすることとしてもよい。ここで例えば、第1の期間を直近24時間として、第2の期間を直近48時間とする。これにより、直近24時間でスコアが上昇した、即ち、注目度が向上した急上昇ワード(ホットワード)を抽出することができる。
【0056】
集計部19は、以下のようにスコアを算出することができる。集計部19は、位置情報を含むエリア毎に集計対象となるワードを含むテキストの数(Wt)を当該エリアに含まれる位置情報の何れかが対応付けられた全ワードの総テキストの数(Wa)で除算した値を基にTF値を計算すると共に、総エリア数(Wa)を当該ワードに対応付けられた位置情報が含まれるエリアの数(At)で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各ワードのTF−IDF値を計算して、これをスコアとすることができる。
【0057】
具体的には、スコアは、以下の式により算出することができる。
スコア=(Wt/Wa)×log(Wa/At+1)
また、上記の例ではテキストの数を用いてTF値を算出したが、テキストの数の代わりに、当該テキストを投稿したユーザの数を用いてもよい。テキストを投稿したユーザは、テキストに付与されたメタデータにより特定できる。ユーザの数によりTF値を算出することで、特定のユーザが同一のワードについて複数回投稿した際にも、その影響を排除することができる。次に、集計部19は、急上昇度スコアを算出する。急上昇度スコアは、以下の式によって算出することとしてもよい。
急上昇度スコア=(直近24時間のスコア)−(直近48時間のスコア)
【0058】
なお、上記の急上昇度スコアに、(ワードの長さ(文字数))の1.5乗を乗じたものを最終的なスコアとしてもよい。最終的なスコアが高いワードほど、注目されている度合いが高い。また、辞書として利用した市区町村名、駅名等の名詞、「〜駅」という名詞、一文字の単語、予め設定されたワード(NGワード)、「www」や「?!」等の記号、「なう」「I‘m at」「via」等のミニブログ(Twitter)特有の単語については、ユーザから注目されているワードとしては適切ではないので削除することが望ましい。
【0059】
集計部19は、例えば、類似するワード等のワードをグルーピングして同じグループのワードを同一のワードとして扱うこととしてもよい。例えば、集計部19は、複数のワードが同一のテキスト内に含まれる頻度を計算して、当該頻度に基づきワードをグループ化して集計結果を計算することとしてもよい。例えば、以下の式によって、2つのワードが同一のテキスト内に含まれる頻度を示す2つのワード間のダイス係数又はコサイン距離を計算する。
【数1】
【数2】
ここで、a,bはそれぞれ単語を示し、D(a,b)は単語aと単語bとの間のダイス係数、C(a,b)は単語aと単語bとの間のコサイン距離、freq(a)は単語aの出現頻度(全てのテキスト数に対する単語aが登場するテキストの割合)、freq(a,b)は単語aと単語bとの共起頻度(全てのテキスト数に対する単語aと単語bとが両方登場するテキストの割合)である。なお、全てのテキストは、情報収集部13によって取得されたテキストの総数を用いてもよいし、エリア毎のテキストの総数を用いてもよい。ダイス係数又はコサイン距離が予め設定した閾値(例えば、0.5以上)である場合、同じグループ(一つのトピック)にまとめる。
【0060】
グルーピングの例を、図6を用いて説明する。ここでは、上述した急上昇度スコアに基づく、ワードのランキングをホットワードランキングと呼ぶ。1位の「花火大会」を親ワード(他のワードとダイス係数を計算するワード)として、2位以下のワードのダイス係数を計算する。閾値以上であれば「花火大会」と同じグループ(同じトピック)のワードとする。例えば、「花火大会」と「ABC新聞」とだけが同じグループにまとまったとする。次は、3位の「みなとみらい」から処理を始める。「みなとみらい」を親ワードとして、上記と同様にダイス係数を用いて処理を行う。但し、1度子ワード(別のワードとグルーピングされたワード)になったものは親ワードとしない。この時点で「みなとみらい」と「夜景」とが同じグループにまとまったとする。次は、4位の「ランドマークタワー」から処理を始める。
【0061】
集計部19は、各エリアにおける各ワードについて、位置情報を集約することとしてもよい。位置情報付ワード記憶部18に記憶されているワードに対応付けられている位置情報である緯度及び経度は、同じエリアのワードであっても異なる緯度及び経度となっていることがある。そこで、エリア毎に各ワード毎に対応付けられる緯度及び経度を、1つあるいは予め設定した数に限定することとしてもよい。なお、上述するようにグルーピングが行われている場合は、同じグループに属するワードは同一のワードとして扱うこととしてもよい。
【0062】
位置情報の集約は、例えば、エリア毎のワードに対する緯度及び経度の(ペアの)出現回数をカウントして、最も多い緯度及び経度をそのワードの緯度及び経度とすることによって行う。あるいは、POIの名称である施設名や店舗名に基づいて付与された位置の方が、地名辞書よりも詳細な位置を表しているので、POIの名称である施設名や店舗名に基づいて付与された位置を優先することとしてもよい。また、上記2つの方法を組み合わせてもよい。あるいは、POIの名称である施設名や店舗名に基づいて付与された位置が、予め設定した閾値以上付与されていたら、その位置をそのワードの緯度及び経度とすることとしてもよい。
【0063】
集計部19は、集計した結果を出力部20に出力する。集計した結果は、例えば、上述した処理によって得られたエリア毎のワードのランキング、及び当該ワードに対応付けられた緯度及び経度の情報である。
【0064】
出力部20は、集計部19による集計結果を出力する出力手段である。この出力は、例えば、ワードのランキングを用いて、ユーザに情報の提供を行うサーバに行われる。集計部19による集計結果(テキスト位置判定装置10から出力される情報)を用いたサービスの例を、図7を用いて説明する。このサービスは、例えば、旅行先でエリア毎に観光地に対するホットトピック(スコアが高いワード)を表示したり、日常生活や出張時に出かけた先でエリア毎にホットトピックを表示したりするものである。
【0065】
例えば、ユーザが自身の現在位置を示す情報を入力すると、当該情報からエリアが判断されて、図7の画面イメージに示されるように、テキスト位置判定装置10から出力される情報に基づいて、当該エリアに応じたユーザの周辺のホットトピック(スコアが高いワード)が取得されて、表示される。なお、図7の画面イメージで示すように、上述したグルーピング結果も利用することができる(破線で囲まれたワード群が一つのグループに属するワード)。
【0066】
また、図7に示すように、何れかのワードを選択すると、当該ワードに係るPOI情報、コンテンツプロバイダ、関連するテキスト(関連Tweet)等を表示することとしてもよい。以上が、テキスト位置判定装置10の機能構成である。
【0067】
あるいは、出力部20は、集計部19による集計結果をテキスト位置判定装置10の管理者が確認できるように、テキスト位置判定装置10が備える表示装置に表示すること等の出力を行ってもよい。出力部20は、その他、任意の出力を行うことができる。
【0068】
図8にテキスト位置判定装置10のハードウェア構成を示す。図8に示すようにテキスト位置判定装置10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述したテキスト位置判定装置10の機能が発揮される。以上が、テキスト位置判定装置10の構成である。
【0069】
引き続いて、図9及び図10のフローチャートを用いて、本実施形態に係るテキスト位置判定装置10で実行される処理であるテキスト位置判定方法を説明する。なお、本処理は、例えば、テキスト位置判定装置10の管理者による操作とトリガとして、あるいは一定時間毎の定期的な処理として行われる。
テキスト位置判定装置10では、情報収集部13によって解析対象となる一つ以上のテキストが取得される(S01、取得ステップ)。続いて、取得されたテキストにURLが含まれているか判断されて、URLが含まれていた場合はリンク先のデータ(テキスト)が取得される(S02、取得ステップ)。リンク先のテキストは、S01で取得されたテキストと合わせて扱われてもよいし、後述するS07の地名の絞り込みの処理のみに用いられてもよい。取得されたテキストは、情報収集部13からワード分解部14に出力される。
【0070】
続いて、ワード分解部14によって、情報収集部13から入力されたテキストがワード単位に分解される(S03、単語分解ステップ)。この際、合わせてワードの品詞が解析される。分解されたワードは、当該ワードが含まれるテキストのID及び当該ワードの品詞を示す情報と共にワード記憶部15に出力されて記憶される。
【0071】
続いて、エリア判定部16によって、ワード記憶部15に記憶されたワードが読み出される。この際、品詞が特定の品詞(例えば、名詞及び固有名詞)のワードのみを読み出して解析の対象とする(S04)。続いて、エリア判定部16によって、取得されたワードと、地名辞書記憶部11に記憶された地名を示すワードとが比較されて、一致した地名を示すワードがあるか否かが判断される(S05、位置単語抽出ステップ)。もし、ワード記憶部15に記憶されたワードの中に、地名辞書記憶部11に記憶された地名を示すワードと一致するものがなければ処理は終了する。
【0072】
ワード記憶部15に記憶されたワードの中に、地名辞書記憶部11に記憶された地名を示すワードと一致するものがあれば、続いて、一致した地名が唯一のものか否か(全国で一つだけのものか)が判断される(S06、位置単語抽出ステップ)。一致した地名が唯一のものでない(複数の地名が存在する)と判断された場合には、当該ワードが含まれるテキストに付与されていたメタデータ、あるいは当該ワードに含まれるURLによってS02で取得されたテキストが用いられて地名の絞り込みが行われる(S07、位置単語抽出ステップ)。
【0073】
S06において、一致した地名が唯一のものである(複数の地名が存在しない)と判断された場合、及びS07において地名の絞り込みが行われた後、続いて、エリア判定部16によって、地名と一致したワードが含まれるテキストに含まれる他のワード(ワード記憶部15に地名と一致したワードと同一の情報元IDを有するワード)に、地名辞書記憶部11に当該地名を示すワードに対応付けられている位置情報及びエリアIDが付与される(S08、位置情報付与ステップ)。位置情報及びエリアIDを対応付けたワードの情報は、エリア判定部16から位置判定部17に出力される。
【0074】
続いて、位置判定部17によって、エリア判定部16から入力されたワードと、当該ワードに対応付けられているエリアIDと同じエリアIDに対応付けられてPOI辞書記憶部12に記憶されているPOIを示すワードとが比較されて、一致したPOIを示すワードがあるか否かが判断される(S09、位置単語抽出ステップ)。
【0075】
エリア判定部16から入力されたワードの中に、POI辞書記憶部12に記憶されているPOIを示すワードと一致するものがあれば、位置判定部17によって、POIと一致したワードが含まれるテキストに含まれる他のワード(ワード記憶部15にPOIと一致したワードと同一の情報元IDを有するワード)に、POI辞書記憶部12に当該POIを示すワードに対応付けられている位置情報及びエリアIDが付与(地名の位置情報が更新)される(S10、位置情報付与ステップ)。エリア判定部16から入力されたワードの中に、POI辞書記憶部12に記憶されているPOIを示すワードと一致するものがなければ、POIに係る位置情報及びエリアIDは付与されない(地名に係る位置情報及びエリアIDが付与されたままとなる)。上記のように位置判定部17によって処理された各ワードは、位置情報付ワード記憶部18に格納される。
【0076】
続いて、集計部19によって、位置情報付ワード記憶部18に記憶されている位置情報及びエリアIDが付与されたワードが、エリア毎に集計される(S11、集計ステップ)。
【0077】
この集計は、より具体的には図10のフローチャートに示すように行われる。まず、各ワードが含まれるテキストに対応付けられた時刻が参照されて、直近24時間及び直近48時間のエリア毎の各ワードのTF−IDF値が計算される(S1101、集計ステップ)。続いて、直近24時間及び直近48時間のTF−IDF値からエリア毎の各ワードのスコアが算出されて、スコア順にした急上昇ワードが生成される(S1102、集計ステップ)。続いて、エリア毎の各ワードがクラスタリング(グルーピング)される(S1103、集計ステップ)。以上が、図9のS11の具体的な集計処理の例である。
【0078】
続いて、集計部19によって、エリア毎の各ワードの位置情報が集約される(S12、集計ステップ)。上述したように、位置情報の集約は、例えば、エリア毎のワードに対する緯度及び経度の出現回数がカウントされて行われる。集計部19による集計結果は、出力部20に出力される。続いて、出力部20によって、集計結果が出力される(S13、出力ステップ)。出力は、例えば、ワードのランキングを用いて、ユーザに情報の提供を行うサーバに集計結果を送信することによって行われる。
【0079】
上述したように本実施形態では、例えば、インターネット上の日記や掲示板等のテキストに対して、地名やPOI等のテキスト内に含まれる位置を示すワードに基づいて、それ以外のワードに位置情報を付与することができる。テキストは、ユーザの日記や掲示板等への投稿によるものであるので、ワードに付与される位置情報は当該ワードに関連が深い位置に係るものとなる。また、付与された位置情報に応じてワードが集計されるので、位置情報が付与されたワードを容易に利用可能とすることができる。
【0080】
また、本実施形態のようにテキストに含まれるURL等のリンク先のデータを用いて付与される位置情報が判断されてもよい。インターネット上の日記や掲示板等のテキストでは、URL等のリンク情報が含まれることがあり、そのような場合に適切かつ確実に単語に位置情報を対応付けることができ、適切かつ確実に本発明を実施することができる。但し、リンク情報を必ず用いる必要はない。
【0081】
また、本実施形態のように地名とPOIとを用いて、段階的に位置情報を付与することとしてもよい。この構成によれば、POIに応じて、効率的かつ適切に単語に位置情報を対応付けることができる。なお、位置情報の付与は、地名のみ、あるいはPOIのみが用いられて行われもよい。
【0082】
また、本実施形態のようにテキストに付与されているメタデータにも基づいてワードに付与する位置情報を判断することとしてもよい。この構成によれば、メタデータに応じて単語に適切な位置情報を対応付けることができる。但し、メタデータが付与されていないテキストを解析の対象にする場合やメタデータに位置を示す情報を含むことが期待できない場合等には、必ずしもメタデータを利用する必要はない。
【0083】
また、本実施形態のようにテキストに対応付けられた時刻に応じてワードの集計を行うこととしてもよい。この構成によれば、例えば、特定の時間帯において関連しているワードと位置情報とを対応付けることができる。更に、上述した実施形態のように直近24時間及び直近48時間の2つの時間帯の集計結果を用いて最終的な集計結果を計算することとしてもよい。この構成によれば、例えば、特定の時間帯において特に関連している度合いが高まっているワードと位置情報とを対応付けることができる。なお、上記の24時間及び48時間は、一例であり、2つの時間帯の幅をどのように取るかは取得したい情報に応じて任意に変更することができる。
【0084】
また、本実施形態のように各ワードのTF−IDF値を算出して、それに基づいてワードの集計を行うこととしてもよい。この構成によれば、ワードの出現頻度が考慮されたワードと位置情報との対応付けが可能になる。また、本実施形態のようにワードが同一のテキスト内に含まれる頻度に基づいて、ワードをグループ化することが望ましい。この構成によれば、図7に示したように互いに関連しているワードを近くに表示させる等の利用が可能になり、集計結果を利便性の高いものにすることができる。
【0085】
上述した実施形態では、位置情報が付与される対象は、テキストが分解されたワードであった。しかしながら、テキスト自体に位置情報が付与されることとしてもよい。そのような形態に係るテキスト位置判定装置10aを図11に示す。テキスト位置判定装置10aは基本的には、テキスト位置判定装置10と同様の構成である。
【0086】
テキスト位置判定装置10aは、地名辞書記憶部11と、POI辞書記憶部12と、情報収集部13と、テキスト記憶部15aと、エリア判定部16aと、位置判定部17aと、位置情報付テキスト記憶部18aと、集計部19aと、出力部20aとを備えて構成される。図1を用いて説明した実施形態では、情報収集部13によって取得されたテキストは、ワード分解部14によってワードに分解されて処理された。しかし、テキスト位置判定装置10aでは、ワードに分解されず、情報収集部13によって取得されたテキストはそのままテキスト記憶部15aに記憶されテキストとして処理される。
【0087】
エリア判定部16a及び位置判定部17aは、テキストと地名辞書記憶部11及びPOI辞書記憶部12に記憶された地名及びPOIを示す情報との比較を行って、テキストに対して位置情報を付与する。図1を用いて説明した実施形態では、ワードと地名辞書記憶部11及びPOI辞書記憶部12に記憶された地名及びPOIを示す情報との一致が判断されたが、エリア判定部16a及び位置判定部17aは、テキストに地名辞書記憶部11及びPOI辞書記憶部12に記憶された地名及びPOIを示す情報が含まれるかを判断し(正規表現でテキストを検索し)、含まれていた場合には当該テキストに対応する位置情報を付与する。集計部19a及び出力部20aも、図1を用いて説明した実施形態においてワードを単位として処理していたところを、テキストを単位として処理を行う。
【0088】
本実施形態では、テキスト内に含まれる位置を示すワードに基づいて、テキストに位置情報を付与することができる。また、付与された位置情報に応じてテキストが集計されるので容易に利用可能とすることができる。
【符号の説明】
【0089】
10,10a…テキスト位置判定装置、11…地名辞書記憶部、12…辞書記憶部、13…情報収集部、14…ワード分解部、15…ワード記憶部、15a…テキスト記憶部、16,16a…エリア判定部、17,17a…位置判定部、18…位置情報付ワード記憶部、18a…位置情報付テキスト記憶部、19,19a…集計部、20,20a…出力部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、N…インターネット。
【技術分野】
【0001】
本発明は、テキストに係る位置情報を判定するテキスト位置判定装置及びテキスト位置判定方法に関する。
【背景技術】
【0002】
近年、日記や掲示板、ブログ、マイクロブログサービス、SNS(SocialNetworking Service)などインターネット上での情報発信手段が多様化している。また、スマートフォン等のモバイル端末の普及により、モバイル端末でこれらのサービスを、いつでも、どこでも利用できる環境が整い、よりリアルタイムに今起きている事件や最新の話題などの情報入手することが可能となった。また、スマートフォンではGPS(Global Positioning System)やWi−Fiを利用した位置情報サービスが広まっており、SNSと位置情報を連携させたサービスも行われている。例えばFoursquareでは様々な施設にユーザがチェックインし、自分の友人とチェックインを共有したり、Twitterではツイートと呼ばれるコメント投稿に位置情報(ジオタグ)を付けることが可能であったりする。
【0003】
これらのサービスで発信されている情報の中には、モバイル端末のGPSで位置を付与したり、予め用意された位置情報タグ(店舗や施設の位置情報)を付与したりすることで、緯度経度などの位置情報が関連付けされているものも存在する。これら位置情報が関連付けされた情報は、モバイル端末で、現在位置周辺に関連する情報に絞り込んで検索するなどが容易にできるため、「その時」「その場所で」「旬な」情報を取得することが可能である。
【0004】
しかしながら、これらの発信されている情報は、必ずしも位置情報が付与されていないため、「その時」「その場所で」「旬な」情報を取得する場合、取得可能な情報の対象数が発信されている情報全体に対して極めて限られてしまう。例えばTwitterでは投稿されるツイートの0.5%程度しかジオタグがつけられていない(2010年3月31日現在)。
【0005】
特許文献1では、ウェブページに出現する地名を抽出し、地名の出現回数をカウントすることで、その地名がどれくらいブログ等で話題となっているか判定を行い、地図上での地名の表示サイズやフォントを変更する方法を提供している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2010−3256号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、特許文献1では地名以外の単語及びテキスト(文書)全体に対しては位置情報を付与していないため、例えば、その場所で話題となっているワードを抽出しようとしても地名以外のワードに位置情報が付与されていないため抽出できない。
【0008】
本発明は、上記の問題点を鑑みてなされたものであり、地名等の位置を示す単語以外の単語やテキストに位置情報を付与すると共に位置情報が付与された単語やテキストを容易に利用可能とすることができるテキスト位置判定装置及びテキスト位置判定方法を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記の目的を達成するために、本発明に係るテキスト位置判定装置は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、テキストを取得する取得手段と、取得手段によって取得されたテキストを単語単位に分解する単語分解手段と、単語分解手段によって分解された単語と位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出手段と、位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段と、位置情報に応じて、当該位置情報が位置情報付与手段によって付与された単語を集計する集計手段と、集計手段による集計結果を出力する出力手段と、を備える。
【0010】
本発明に係るテキスト位置判定装置では、テキスト内に含まれる位置を示す単語に基づいて、それ以外の単語に位置情報を付与することができる。また、付与された位置情報に応じて単語が集計されるので容易に利用可能とすることができる。
【0011】
取得手段は、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断して、含まれていると判断した場合には当該リンク情報によって示される場所のデータを取得し、位置単語抽出手段は、取得手段によって取得されたリンク情報によって示される場所のデータに含まれるテキストと位置情報記憶手段に記憶された位置を示す単語とを比較して、当該リンク情報によって示される場所のデータから位置を示す単語を抽出し、位置情報付与手段は、位置単語抽出手段によって抽出された位置を示す単語を含んでいたデータに係るリンク情報を含むテキストに含まれる単語に、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置を示す位置情報を付与する、こととしてもよい。テキストに含まれるURL等のリンク情報に場所が示されるデータに、当該テキストに係る単語に関連する位置を示す単語が含まれることがあり、本構成によれば、そのような場合に適切かつ確実に単語に位置情報を対応付けることができ、適切かつ確実に本発明を実施することができる。
【0012】
位置情報記憶手段は、地名を示す単語とエリアを示すエリア情報とを対応付けて記憶すると共に、POI(Point Of Interest)を示す単語とエリア情報と位置情報とを対応付けて記憶し、位置単語抽出手段は、単語分解手段によって分解された単語と位置情報記憶手段に記憶された地名を示す単語とを比較して、それらが一致した地名を示す単語に位置情報記憶手段に対応付けられているエリア情報を特定し、分解された単語と特定されたエリア情報に対応付けられているPOIを示す単語とを比較して、それらが一致したPOIを示す単語を抽出し、位置情報付与手段は、位置単語抽出手段によって抽出されたPOIを示す単語を含んでいたテキストに含まれる他の単語に、位置情報記憶手段に当該POIを示す単語に対応付けて記憶されている位置情報を付与する、こととしてもよい。この構成によれば、POIに応じて、効率的かつ適切に単語に位置情報を対応付けることができる。
【0013】
テキストにはメタデータが付与されており、位置単語抽出手段は、取得手段によって取得されたテキストに付与されたメタデータにも関連する位置を示す単語を抽出する、こととしてもよい。この構成によれば、メタデータに応じて単語に適切な位置情報を対応付けることができる。
【0014】
テキストには時刻が対応付けられており、集計手段は、テキストに対応付けられた時刻に応じて集計を行う、こととしてもよい。この構成によれば、例えば、特定の時間帯において関連している単語と位置情報とを対応付けることができる。
【0015】
集計手段は、第1の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第1の期間よりも長い第2の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、第1の期間に係る集計結果の値から第2の期間に係る集計結果の値を減じた値を集計結果とすることとしてもよい。この構成によれば、例えば、特定の時間帯において特に関連している度合いが高まっている単語と位置情報とを対応付けることができる。
【0016】
集計手段は、位置情報を含むエリア毎に単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にTF値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各単語のTF−IDF値を計算して集計結果とすることとしてもよい。この構成によれば、単語の出現頻度が考慮された単語と位置情報との対応付けが可能になる。
【0017】
集計手段は、複数の単語が同一のテキスト内に含まれる頻度を計算して、当該頻度に基づき単語をグループ化して集計結果を計算することとしてもよい。この構成によれば、集計結果を利便性の高いものにすることができる。
【0018】
上記の目的を達成するために、本発明に係るテキスト位置判定装置は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、テキストを取得する取得手段と、取得手段によって取得されたテキストと位置情報記憶手段に記憶された位置を示す単語とを比較して、当該テキストに含まれる位置を示す単語を抽出する位置単語抽出手段と、位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段と、位置情報に応じて、当該位置情報が位置情報付与手段によって付与されたテキストを集計する集計手段と、集計手段による集計結果を出力する出力手段と、を備える。
【0019】
本発明に係るテキスト位置判定装置では、テキスト内に含まれる位置を示す単語に基づいて、テキストに位置情報を付与することができる。また、付与された位置情報に応じてテキストが集計されるので容易に利用可能とすることができる。
【0020】
ところで、本発明は、上記のようにテキスト位置判定装置の発明として記述できる他に、以下のようにテキスト位置判定方法の発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。
【0021】
即ち、本発明に係るテキスト位置判定方法は、位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段を備えるテキスト位置判定装置によるテキスト位置判定方法であって、テキストを取得する取得ステップと、取得ステップにおいて取得されたテキストを単語単位に分解する単語分解ステップと、単語分解ステップにおいて分解された単語と位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出ステップと、位置単語抽出ステップにおいて抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与ステップと、位置情報に応じて、当該位置情報が位置情報付与ステップにおいて付与された単語を集計する集計ステップと、集計ステップにおける集計結果を出力する出力ステップと、を含む。
【発明の効果】
【0022】
本発明によれば、テキスト内に含まれる位置を示す単語に基づいて、それ以外の単語やテキストに位置情報を付与することができる。また、付与された位置情報に応じて単語やテキストが集計されるので容易に利用可能とすることができる。
【図面の簡単な説明】
【0023】
【図1】本発明の実施形態に係るテキスト位置判定装置の機能構成を示す図である。
【図2】地名辞書記憶部に格納されるデータを示す図である。
【図3】POI辞書記憶部に格納されるデータを示す図である。
【図4】ワード記憶部に格納されるデータを示す図である。
【図5】位置情報付ワード記憶部に格納されるデータを示す図である。
【図6】ワードのグルーピングを示す図である。
【図7】本発明の実施形態に係るテキスト位置判定装置によって生成された情報の利用例を示す図である。
【図8】本発明の実施形態に係るテキスト位置判定装置のハードウェア構成を示す図である。
【図9】本発明の実施形態に係るテキスト位置判定装置で実行される処理(テキスト位置判定方法)を示すフローチャートである。
【図10】集計処理の具体例を示すフローチャートである。
【図11】本発明の実施形態に係るテキスト位置判定装置の変形例の機能構成を示す図である。
【発明を実施するための形態】
【0024】
以下、図面と共に本発明に係るテキスト位置判定装置及びテキスト位置判定方法の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
図1に本実施形態に係るテキスト位置判定装置10を示す。テキスト位置判定装置10は、テキストに係る位置情報を判定する装置である。より具体的には、テキスト位置判定装置10は、テキストに含まれるワード(単語)に関連がある位置を判定して、ワードに位置情報を付与して位置情報に応じた集約を行う。テキスト位置判定装置10の解析対象となるテキストは、例えば、インターネット上の日記、掲示板、ブログ、マイクロブログ及びSNS等のサービスにおいて、様々なユーザによって作成、投稿されたテキストである。
【0025】
ユーザは、自身が位置している場所に応じたテキストを作成するので位置に応じてよく使われるワードがある。このようなワードは、位置(場所)に応じた情報であり、その位置においてどのようなものが興味を持たれているかを示すものとなる。本実施形態に係るテキスト位置判定装置10では、テキストを分析することによって、位置に応じたワードを抽出するものである。なお、テキスト位置判定装置10が解析対象とするテキストは、上述したインターネット上のテキストには限定されず任意のテキストが用いられてもよい。
【0026】
図1に示すようにテキスト位置判定装置10は、インターネットNに接続されており、インターネットN上の装置(例えば、上述したテキストを投稿、表示するサービスを提供するサーバ)と情報の送受信を行うことができる。
【0027】
図1に示すようにテキスト位置判定装置10は、地名辞書記憶部11と、POI辞書記憶部12と、情報収集部13と、ワード分解部14と、ワード記憶部15と、エリア判定部16と、位置判定部17と、位置情報付ワード記憶部18と、集計部19と、出力部20とを備えて構成される。
【0028】
地名辞書記憶部11は、位置を示すワード(単語)と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段の一つである。具体的には、地名辞書記憶部11は、例えば、図2に示すテーブルを用いて、位置を示すワードとして地名を示すワードと、位置を示す位置情報と、エリアを示すエリア情報とを対応付けて記憶する。地名を示すワードは、例えば、都道府県名、市区町村名、駅名等を用いる。位置情報は、具体的には、緯度、経度の情報であり、例えば、地名を示すワードで示される場所の代表的な位置(例えば、都道府県庁の所在地、市区町村役場の所在地、駅の所在地)とする。エリアは、テキスト位置判定装置10によって位置の判定対象となる範囲を予め複数に区切った領域であり、例えば、都道府県や市区町村等の範囲である。それぞれのエリアには、エリア情報としてエリアを一意に特定するエリアIDが予め付与されている。地名を示すワード及び位置情報に対応付けられるエリアIDは、当該位置情報が含まれるエリアのエリアIDである。
【0029】
POI辞書記憶部12は、位置を示すワードと位置を示す位置情報とを対応付けて記憶する位置情報記憶手段の一つである。具体的には、POI辞書記憶部12は、例えば、図3に示すテーブルを用いて、コンテンツIDと、位置を示すワードとしてPOIを示すワードである名称と、住所と、位置情報と、エリアを示すエリア情報とを対応付けて記憶する。POIは、ユーザが興味を持った、あるいは興味を持ちえる特定の場所であり、具体的には、特定の店舗や施設等に相当する。
【0030】
コンテンツIDは、POIの情報が掲載されているWebページ等のPOIに係るコンテンツを特定するIDである。当該コンテンツは、本発明とは直接は関係しないが本発明に付随する情報の提供等に用いることができる。名称は、POIを示すワードであり、具体的には店舗の名前や施設名等に相当する。住所は、POIの所在地を示す住所である。位置情報は、POIの所在地の緯度、経度の情報である。エリアIDは、当該位置情報が含まれるエリアのエリアIDである。
【0031】
地名辞書記憶部11及びPOI辞書記憶部12に格納される情報は、予めテキスト位置判定装置10の管理者等によって地名辞書記憶部11及びPOI辞書記憶部12に入力されている。
【0032】
情報収集部13は、テキスト位置判定装置10による解析対象となる1つ以上のテキストを取得する取得手段である。情報収集部13は、上述したインターネット上に掲載されている日記等の情報を収集する。テキストの収集は、例えば、インターネット経由で日記や掲示板等のサービスを提供すると共にテキストを保存するサーバに対して、当該サーバによって用意されているAPIを利用してテキストの取得を要求して取得(受信)する。あるいは、クローリングによる収集が行われてもよく、任意のテキストの取得方法を用いることができる。情報収集部13は、取得したテキストをワード分解部14に出力する。
【0033】
テキストは、個々のデータで(例えば、日記や掲示板等における一記事が一つのテキストデータとして)取得される。テキストには、少なくともテキスト本文を示すデータが含まれる。このテキストは、例えば、ユーザによって作成された投稿の内容を示すものである。また、テキストのデータには一意に特定するIDが付与されている。このIDは、テキストの取得時に予め付与されていてもよいし、テキストが取得された時点で情報収集部13によって一意なIDを付与されてもよい。また、テキストのデータには時刻を示すデータが付与されていてもよい。この時刻は、例えば、テキストがユーザによって、日記や掲示板等のサーバに投稿(あるいは生成)された時刻である。
【0034】
また、取得されるテキストのデータにはメタデータが付与されていてもよい。メタデータとしては、例えば、緯度及び経度等の位置情報がある。あるいは、テキストを作成したユーザに係る情報であってもよい。より具体的には、ユーザの所在地を示すプロフィールデータ等である。これらのメタデータは、例えば、テキストの作成時に作成に用いられた端末によって自動的にテキストに付与されるものである。情報収集部13は、テキストに付与された時刻を示すデータやメタデータをテキストのIDに対応付けて後の解析に利用できるように管理する。
【0035】
情報収集部13は、取得したテキストに含まれるリンク情報によって示される場所のデータを取得することとしてもよい。その場合、情報収集部13は、まず、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断する。リンク情報は、例えば、インターネット上のWebページ等のデータの場所を示すURL(Uniform Resource Locator)である。あるいは、リンク情報はURL以外のものが用いられてもよい。この判断は、テキストに対して正規表現(部分一致)で検索を行うことによって行われる。
【0036】
情報収集部13は、テキストにリンク情報が含まれていると判断した場合には当該リンク情報を抽出して、当該リンク情報によって示される場所のデータを取得する。例えば、URLで示されるサーバに取得を要求して取得(受信)する。情報収集部13は、リンク情報から取得された情報をテキストのIDに対応付けて後の解析に利用できるように管理する。
【0037】
また、以降の処理において、情報収集部13によってリンク情報から取得されたテキストを取得元のテキスト(リンク情報が含まれるテキスト)と合わせて一つのテキストとして扱うこととしてもよい。
【0038】
ワード分解部14は、情報収集部13によって収集されたテキストをワード単位に分解する単語分解手段である。この分解は、テキストが日本語である場合には、例えば形態素解析によって行われる。形態素解析には、MeCab、茶筌、JTAG(例えば、Japanese morphological analyzer using word co-occurrence:JTAG, Takeshi Fuchi and Shinichiro Takagi , ACL ‘98 Proceedings ofthe 36th Annual Meeting of the Association for Computational Linguistics参照)等の形態素解析エンジンが用いられてもよい。テキストが英語等のアルファベットで構成されているものである場合には、例えばスペースで区切られた文字列をワードとすることができる。
【0039】
ワード分解部14は、テキストを分解して得られたワードをテキストのIDと共にワード記憶部15に出力する。また、ワード分解部14は、分解したワードの品詞を解析して、ワードと共にそのワードの品詞を示す情報も合わせてワード記憶部15に出力してもよい。なお、品詞の解析は、従来から用いられている技術を利用することができる。
【0040】
ワード記憶部15は、ワード分解部14によってテキストから分解されたワードを記憶する手段である。具体的には、ワード記憶部15は、例えば、図4(a)及び図4(b)に示すテーブルを用いて、情報元IDと、ワードとを対応付けて記憶する。情報元IDは、ワードが取得された(ワードが含まれていた)テキストのIDである。また、ワード分解部14による形態素解析等によってワードの品詞を示す情報が取得される場合には、図4(b)に示すように、情報元IDと、ワードと、品詞とを対応付けて記憶してもよい。
【0041】
エリア判定部16は、ワード分解部14によって分解されてワード記憶部15に記憶されているワードと、地名辞書記憶部11に記憶された地名を示すワードとを比較して、それらが一致した地名を示すワードを抽出する位置単語抽出手段の一機能である。なお、ワード記憶部15に記憶されているワードのうち、比較対象とする(照合に利用する)ワードを絞り込むこととしてもよい。例えば、品詞が名詞であるワードのみ、あるいは名詞及び固有名詞のみを対象とすることとしてもよい。また、固有名詞の中でも人名と判断されたものを除くこととしてもよい。これにより、精度を落とさずに効率的に処理を行うことが可能である。
【0042】
エリア判定部16は、地名辞書記憶部11に記憶された地名を示すワードと一致した(ワード記憶部15に記憶されている)ワードに、地名辞書記憶部11から当該地名を示すワードに対応付けられている位置情報及びエリアIDを取得(特定)して付与する。また、エリア判定部16は、一致したワード記憶部15に記憶されているワードと同一の情報元IDを有するワードにも、同様に当該地名を示すワードに対応付けられている位置情報及びエリアIDを付与する。即ち、エリア判定部16は、位置を示すワードを含んでいたテキストに含まれる他のワードに、地名辞書記憶部11に地名を示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段でもある。なお、テキスト中の何れのワードも地名と一致しなかった場合には、そのテキスト中の全てのワードには、位置情報及びエリアIDは付与されない。エリア判定部16は、位置情報及びエリアIDを対応付けたワードの情報を位置判定部17に出力する。
【0043】
エリア判定部16は、情報収集部13によって取得されたリンク情報によって示される場所の(リンク先の)データに含まれるテキスト(中のワード)と地名辞書記憶部11に記憶された位置を示すワードとを比較することとしてもよい。即ち、リンク先のデータに含まれるテキストに、地名辞書記憶部11に記憶された位置を示すワードが含まれるか判断してもよい。エリア判定部16は、地名辞書記憶部11に記憶された地名を示すワードと一致した、リンク先のデータに含まれるテキスト(中のワード)に、地名辞書記憶部11に当該地名を示すワードに対応付けられている位置情報及びエリアIDを取得(特定)して付与する。この場合、エリア判定部16は、リンク情報の取得元のテキストの情報元IDを有するワードに、同様に当該地名を示すワードに対応付けられている位置情報及びエリアIDを付与する。
【0044】
エリア判定部16は、更にワードと地名とが一致した場合、その地名が全国で一つだけのものか判定することとしてもよい。この判定は、予め地名辞書記憶部11に記憶された地名を示すワードが全国で一つものであるか否か判定しておき、判定結果を示すフラグを地名辞書記憶部11に記憶されたデータに持たせておき当該フラグが用いられて行うこととしてもよい。あるいは、ワードと地名との一致を判断する際に一致する地名が一つだけかどうかを判断することとによって行われてもよい。
【0045】
エリア判定部16は、一致した地名が複数であると判定した場合には、それを更に絞り込むこととしてもよい。例えば、「日本橋」という地名は東京と大阪にあるためワードのみではどちらの日本橋を示すか判定ができない。エリア判定部16は、絞り込んだ地名の位置情報及びエリアIDを、上記のようにテキストのワードに付与する。絞り込みは、例えば、上述したように、情報収集部13によって取得されたリンク情報によって示される場所のデータが用いられて行われてもよい。
【0046】
その場合、予め図2に示す地名辞書記憶部11の各データに、絞り込みを行うための情報、例えば当該地名が属する都道府県名を更に対応付けておく。エリア判定部16は、リンク情報によって示される場所のデータに含まれるテキストに都道府県名が含まれているか否か判断する。都道府県名が含まれていた場合には、エリア判定部16は、一致した複数の地名のうち、リンク情報に係るテキストに含まれていた都道府県名と一致する都道府県名が、地名辞書記憶部11に記憶された情報において当該一致した当該複数の地名に対応付けられているか判断する。複数の地名のうち、リンク情報に係るデータに含まれる都道府県名と対応付けられている地名がある場合、当該地名を上記の処理に採用する。そのような地名が無い場合、あるいは、リンク情報のデータに都道府県名が含まれていない場合には、絞り込みを行わずに両方の地名を採用する。
【0047】
また、絞り込みは、上述したように情報収集部13によって取得されたテキストに付与されたメタデータが用いられて行われてもよい。エリア判定部16は、メタデータにも関連する位置を示す単語を抽出する。具体的には、リンク情報の例と同様にメタデータ(より具体的には、プロフィールや所在地の情報)から都道府県名を抽出する。エリア判定部16は、一致した複数の地名のうち、メタデータから抽出した都道府県名と一致する都道府県名が、地名辞書記憶部11に記憶された情報において当該一致した当該複数の地名に対応付けられているか判断する。複数の地名のうち、メタデータに含まれる都道府県名と対応付けられている地名がある場合、当該地名を上記の処理に採用する。そのような地名が無い場合、あるいは、メタデータから都道府県名を抽出できない場合には、絞り込みを行わずに両方の地名を採用する。
【0048】
位置判定部17は、エリア判定部16から入力されたワードと、POI辞書記憶部12に記憶されたPOIを示すワードとを比較して、それらが一致したPOIを示すワードを抽出する位置単語抽出手段の一機能である。位置判定部17は、エリア判定部16から入力されたワードに対応付けられているエリアIDと同じエリアIDに対応付けられてPOI辞書記憶部12に記憶されているPOIを示すワードを比較対象とする。
【0049】
位置判定部17は、POI辞書記憶部12に記憶されたPOIを示すワードと一致した(エリア判定部16から入力された)ワードに、POI辞書記憶部12に当該POIを示すワードに対応付けられている位置情報及びエリアIDを取得(特定)して付与する。また、エリア判定部16は、一致したエリア判定部16から入力されたワードと同一の情報元IDを有するワードにも、同様に当該POIを示すワードに対応付けられている位置情報及びエリアIDを付与する。即ち、位置判定部17は、位置を示すワードを含んでいたテキストに含まれる他のワードに、POI辞書記憶部12にPOIを示す単語に対応付けて記憶されている位置情報を付与する位置情報付与手段でもある。POIを示すワードに対応付けられている位置情報の付与は、地名を示すワードに対応付けられている位置情報を更新することで行われる。
【0050】
位置情報及びエリアIDの付与は、エリア判定部16によって付与された位置情報及びエリアIDが更新されて行われる。なお、テキスト中の何れのワードもPOIと一致しなかった場合には、そのテキスト中の全てのワードには、エリア判定部16によって付与された位置情報及びエリアIDのままとされる。位置判定部17は、位置情報及びエリアIDを対応付けたワードの情報を位置情報付ワード記憶部18に出力する。
【0051】
位置判定部17は、エリア判定部16と同様にリンク情報に係るテキストを用いた比較や、リンク情報に係るテキスト及びメタデータを用いたPOIの絞り込みが行われてもよい。
【0052】
位置情報付ワード記憶部18は、位置判定部17から入力された位置情報及びエリアIDが付与されたワードを記憶する手段である。位置情報付ワード記憶部18が記憶するデータは、ワード毎のデータであり、例えば、図5に示すデータが格納される。図5に示すように、位置情報付ワード記憶部18は、位置判定部17からワードに対応付けられて入力されたエリアID、地名又は名称(POI)、地名又は名称の区分、品詞、並びに位置情報である緯度及び経度が、ワードに対応付けられて記憶される。
【0053】
集計部19は、位置情報付ワード記憶部18に記憶されている位置情報が付与されたワードを、位置情報に応じて集計する集計手段である。集計は、例えば最も単純には、エリアIDが付与されたエリア毎にエリアに対応付けられたワードの数をカウントすることによって行われる。また、集計部19は、テキストに対応付けられた時刻に応じて集計を行うこととしてもよい。例えば、ある時間帯のテキストのみを用いて集計を行うこととしてもよい。
【0054】
更に、集計部19は、位置情報付ワード記憶部18に記憶されている位置情報が付与されたワードに基づき、エリア毎に各ワードのスコアを算出するような集計を行ってもよい。ここで、各ワードのスコアは、当該エリアでユーザに注目されている度合いを示す。即ち、「その場所で」「旬な」ワードである度合いを示す。また、時刻の情報を用いれば、「その時」「その場所で」「旬な」ワードである度合いを示す。
【0055】
具体的には例えば、集計部19は、以下のような集計を行うこととしてもよい。集計部19は、第1の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第1の期間よりも長い第2の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、第1の期間に係る集計結果の値(スコア)から第2の期間に係る集計結果の値を減じた値(スコア)を集計結果とすることとしてもよい。ここで例えば、第1の期間を直近24時間として、第2の期間を直近48時間とする。これにより、直近24時間でスコアが上昇した、即ち、注目度が向上した急上昇ワード(ホットワード)を抽出することができる。
【0056】
集計部19は、以下のようにスコアを算出することができる。集計部19は、位置情報を含むエリア毎に集計対象となるワードを含むテキストの数(Wt)を当該エリアに含まれる位置情報の何れかが対応付けられた全ワードの総テキストの数(Wa)で除算した値を基にTF値を計算すると共に、総エリア数(Wa)を当該ワードに対応付けられた位置情報が含まれるエリアの数(At)で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各ワードのTF−IDF値を計算して、これをスコアとすることができる。
【0057】
具体的には、スコアは、以下の式により算出することができる。
スコア=(Wt/Wa)×log(Wa/At+1)
また、上記の例ではテキストの数を用いてTF値を算出したが、テキストの数の代わりに、当該テキストを投稿したユーザの数を用いてもよい。テキストを投稿したユーザは、テキストに付与されたメタデータにより特定できる。ユーザの数によりTF値を算出することで、特定のユーザが同一のワードについて複数回投稿した際にも、その影響を排除することができる。次に、集計部19は、急上昇度スコアを算出する。急上昇度スコアは、以下の式によって算出することとしてもよい。
急上昇度スコア=(直近24時間のスコア)−(直近48時間のスコア)
【0058】
なお、上記の急上昇度スコアに、(ワードの長さ(文字数))の1.5乗を乗じたものを最終的なスコアとしてもよい。最終的なスコアが高いワードほど、注目されている度合いが高い。また、辞書として利用した市区町村名、駅名等の名詞、「〜駅」という名詞、一文字の単語、予め設定されたワード(NGワード)、「www」や「?!」等の記号、「なう」「I‘m at」「via」等のミニブログ(Twitter)特有の単語については、ユーザから注目されているワードとしては適切ではないので削除することが望ましい。
【0059】
集計部19は、例えば、類似するワード等のワードをグルーピングして同じグループのワードを同一のワードとして扱うこととしてもよい。例えば、集計部19は、複数のワードが同一のテキスト内に含まれる頻度を計算して、当該頻度に基づきワードをグループ化して集計結果を計算することとしてもよい。例えば、以下の式によって、2つのワードが同一のテキスト内に含まれる頻度を示す2つのワード間のダイス係数又はコサイン距離を計算する。
【数1】
【数2】
ここで、a,bはそれぞれ単語を示し、D(a,b)は単語aと単語bとの間のダイス係数、C(a,b)は単語aと単語bとの間のコサイン距離、freq(a)は単語aの出現頻度(全てのテキスト数に対する単語aが登場するテキストの割合)、freq(a,b)は単語aと単語bとの共起頻度(全てのテキスト数に対する単語aと単語bとが両方登場するテキストの割合)である。なお、全てのテキストは、情報収集部13によって取得されたテキストの総数を用いてもよいし、エリア毎のテキストの総数を用いてもよい。ダイス係数又はコサイン距離が予め設定した閾値(例えば、0.5以上)である場合、同じグループ(一つのトピック)にまとめる。
【0060】
グルーピングの例を、図6を用いて説明する。ここでは、上述した急上昇度スコアに基づく、ワードのランキングをホットワードランキングと呼ぶ。1位の「花火大会」を親ワード(他のワードとダイス係数を計算するワード)として、2位以下のワードのダイス係数を計算する。閾値以上であれば「花火大会」と同じグループ(同じトピック)のワードとする。例えば、「花火大会」と「ABC新聞」とだけが同じグループにまとまったとする。次は、3位の「みなとみらい」から処理を始める。「みなとみらい」を親ワードとして、上記と同様にダイス係数を用いて処理を行う。但し、1度子ワード(別のワードとグルーピングされたワード)になったものは親ワードとしない。この時点で「みなとみらい」と「夜景」とが同じグループにまとまったとする。次は、4位の「ランドマークタワー」から処理を始める。
【0061】
集計部19は、各エリアにおける各ワードについて、位置情報を集約することとしてもよい。位置情報付ワード記憶部18に記憶されているワードに対応付けられている位置情報である緯度及び経度は、同じエリアのワードであっても異なる緯度及び経度となっていることがある。そこで、エリア毎に各ワード毎に対応付けられる緯度及び経度を、1つあるいは予め設定した数に限定することとしてもよい。なお、上述するようにグルーピングが行われている場合は、同じグループに属するワードは同一のワードとして扱うこととしてもよい。
【0062】
位置情報の集約は、例えば、エリア毎のワードに対する緯度及び経度の(ペアの)出現回数をカウントして、最も多い緯度及び経度をそのワードの緯度及び経度とすることによって行う。あるいは、POIの名称である施設名や店舗名に基づいて付与された位置の方が、地名辞書よりも詳細な位置を表しているので、POIの名称である施設名や店舗名に基づいて付与された位置を優先することとしてもよい。また、上記2つの方法を組み合わせてもよい。あるいは、POIの名称である施設名や店舗名に基づいて付与された位置が、予め設定した閾値以上付与されていたら、その位置をそのワードの緯度及び経度とすることとしてもよい。
【0063】
集計部19は、集計した結果を出力部20に出力する。集計した結果は、例えば、上述した処理によって得られたエリア毎のワードのランキング、及び当該ワードに対応付けられた緯度及び経度の情報である。
【0064】
出力部20は、集計部19による集計結果を出力する出力手段である。この出力は、例えば、ワードのランキングを用いて、ユーザに情報の提供を行うサーバに行われる。集計部19による集計結果(テキスト位置判定装置10から出力される情報)を用いたサービスの例を、図7を用いて説明する。このサービスは、例えば、旅行先でエリア毎に観光地に対するホットトピック(スコアが高いワード)を表示したり、日常生活や出張時に出かけた先でエリア毎にホットトピックを表示したりするものである。
【0065】
例えば、ユーザが自身の現在位置を示す情報を入力すると、当該情報からエリアが判断されて、図7の画面イメージに示されるように、テキスト位置判定装置10から出力される情報に基づいて、当該エリアに応じたユーザの周辺のホットトピック(スコアが高いワード)が取得されて、表示される。なお、図7の画面イメージで示すように、上述したグルーピング結果も利用することができる(破線で囲まれたワード群が一つのグループに属するワード)。
【0066】
また、図7に示すように、何れかのワードを選択すると、当該ワードに係るPOI情報、コンテンツプロバイダ、関連するテキスト(関連Tweet)等を表示することとしてもよい。以上が、テキスト位置判定装置10の機能構成である。
【0067】
あるいは、出力部20は、集計部19による集計結果をテキスト位置判定装置10の管理者が確認できるように、テキスト位置判定装置10が備える表示装置に表示すること等の出力を行ってもよい。出力部20は、その他、任意の出力を行うことができる。
【0068】
図8にテキスト位置判定装置10のハードウェア構成を示す。図8に示すようにテキスト位置判定装置10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述したテキスト位置判定装置10の機能が発揮される。以上が、テキスト位置判定装置10の構成である。
【0069】
引き続いて、図9及び図10のフローチャートを用いて、本実施形態に係るテキスト位置判定装置10で実行される処理であるテキスト位置判定方法を説明する。なお、本処理は、例えば、テキスト位置判定装置10の管理者による操作とトリガとして、あるいは一定時間毎の定期的な処理として行われる。
テキスト位置判定装置10では、情報収集部13によって解析対象となる一つ以上のテキストが取得される(S01、取得ステップ)。続いて、取得されたテキストにURLが含まれているか判断されて、URLが含まれていた場合はリンク先のデータ(テキスト)が取得される(S02、取得ステップ)。リンク先のテキストは、S01で取得されたテキストと合わせて扱われてもよいし、後述するS07の地名の絞り込みの処理のみに用いられてもよい。取得されたテキストは、情報収集部13からワード分解部14に出力される。
【0070】
続いて、ワード分解部14によって、情報収集部13から入力されたテキストがワード単位に分解される(S03、単語分解ステップ)。この際、合わせてワードの品詞が解析される。分解されたワードは、当該ワードが含まれるテキストのID及び当該ワードの品詞を示す情報と共にワード記憶部15に出力されて記憶される。
【0071】
続いて、エリア判定部16によって、ワード記憶部15に記憶されたワードが読み出される。この際、品詞が特定の品詞(例えば、名詞及び固有名詞)のワードのみを読み出して解析の対象とする(S04)。続いて、エリア判定部16によって、取得されたワードと、地名辞書記憶部11に記憶された地名を示すワードとが比較されて、一致した地名を示すワードがあるか否かが判断される(S05、位置単語抽出ステップ)。もし、ワード記憶部15に記憶されたワードの中に、地名辞書記憶部11に記憶された地名を示すワードと一致するものがなければ処理は終了する。
【0072】
ワード記憶部15に記憶されたワードの中に、地名辞書記憶部11に記憶された地名を示すワードと一致するものがあれば、続いて、一致した地名が唯一のものか否か(全国で一つだけのものか)が判断される(S06、位置単語抽出ステップ)。一致した地名が唯一のものでない(複数の地名が存在する)と判断された場合には、当該ワードが含まれるテキストに付与されていたメタデータ、あるいは当該ワードに含まれるURLによってS02で取得されたテキストが用いられて地名の絞り込みが行われる(S07、位置単語抽出ステップ)。
【0073】
S06において、一致した地名が唯一のものである(複数の地名が存在しない)と判断された場合、及びS07において地名の絞り込みが行われた後、続いて、エリア判定部16によって、地名と一致したワードが含まれるテキストに含まれる他のワード(ワード記憶部15に地名と一致したワードと同一の情報元IDを有するワード)に、地名辞書記憶部11に当該地名を示すワードに対応付けられている位置情報及びエリアIDが付与される(S08、位置情報付与ステップ)。位置情報及びエリアIDを対応付けたワードの情報は、エリア判定部16から位置判定部17に出力される。
【0074】
続いて、位置判定部17によって、エリア判定部16から入力されたワードと、当該ワードに対応付けられているエリアIDと同じエリアIDに対応付けられてPOI辞書記憶部12に記憶されているPOIを示すワードとが比較されて、一致したPOIを示すワードがあるか否かが判断される(S09、位置単語抽出ステップ)。
【0075】
エリア判定部16から入力されたワードの中に、POI辞書記憶部12に記憶されているPOIを示すワードと一致するものがあれば、位置判定部17によって、POIと一致したワードが含まれるテキストに含まれる他のワード(ワード記憶部15にPOIと一致したワードと同一の情報元IDを有するワード)に、POI辞書記憶部12に当該POIを示すワードに対応付けられている位置情報及びエリアIDが付与(地名の位置情報が更新)される(S10、位置情報付与ステップ)。エリア判定部16から入力されたワードの中に、POI辞書記憶部12に記憶されているPOIを示すワードと一致するものがなければ、POIに係る位置情報及びエリアIDは付与されない(地名に係る位置情報及びエリアIDが付与されたままとなる)。上記のように位置判定部17によって処理された各ワードは、位置情報付ワード記憶部18に格納される。
【0076】
続いて、集計部19によって、位置情報付ワード記憶部18に記憶されている位置情報及びエリアIDが付与されたワードが、エリア毎に集計される(S11、集計ステップ)。
【0077】
この集計は、より具体的には図10のフローチャートに示すように行われる。まず、各ワードが含まれるテキストに対応付けられた時刻が参照されて、直近24時間及び直近48時間のエリア毎の各ワードのTF−IDF値が計算される(S1101、集計ステップ)。続いて、直近24時間及び直近48時間のTF−IDF値からエリア毎の各ワードのスコアが算出されて、スコア順にした急上昇ワードが生成される(S1102、集計ステップ)。続いて、エリア毎の各ワードがクラスタリング(グルーピング)される(S1103、集計ステップ)。以上が、図9のS11の具体的な集計処理の例である。
【0078】
続いて、集計部19によって、エリア毎の各ワードの位置情報が集約される(S12、集計ステップ)。上述したように、位置情報の集約は、例えば、エリア毎のワードに対する緯度及び経度の出現回数がカウントされて行われる。集計部19による集計結果は、出力部20に出力される。続いて、出力部20によって、集計結果が出力される(S13、出力ステップ)。出力は、例えば、ワードのランキングを用いて、ユーザに情報の提供を行うサーバに集計結果を送信することによって行われる。
【0079】
上述したように本実施形態では、例えば、インターネット上の日記や掲示板等のテキストに対して、地名やPOI等のテキスト内に含まれる位置を示すワードに基づいて、それ以外のワードに位置情報を付与することができる。テキストは、ユーザの日記や掲示板等への投稿によるものであるので、ワードに付与される位置情報は当該ワードに関連が深い位置に係るものとなる。また、付与された位置情報に応じてワードが集計されるので、位置情報が付与されたワードを容易に利用可能とすることができる。
【0080】
また、本実施形態のようにテキストに含まれるURL等のリンク先のデータを用いて付与される位置情報が判断されてもよい。インターネット上の日記や掲示板等のテキストでは、URL等のリンク情報が含まれることがあり、そのような場合に適切かつ確実に単語に位置情報を対応付けることができ、適切かつ確実に本発明を実施することができる。但し、リンク情報を必ず用いる必要はない。
【0081】
また、本実施形態のように地名とPOIとを用いて、段階的に位置情報を付与することとしてもよい。この構成によれば、POIに応じて、効率的かつ適切に単語に位置情報を対応付けることができる。なお、位置情報の付与は、地名のみ、あるいはPOIのみが用いられて行われもよい。
【0082】
また、本実施形態のようにテキストに付与されているメタデータにも基づいてワードに付与する位置情報を判断することとしてもよい。この構成によれば、メタデータに応じて単語に適切な位置情報を対応付けることができる。但し、メタデータが付与されていないテキストを解析の対象にする場合やメタデータに位置を示す情報を含むことが期待できない場合等には、必ずしもメタデータを利用する必要はない。
【0083】
また、本実施形態のようにテキストに対応付けられた時刻に応じてワードの集計を行うこととしてもよい。この構成によれば、例えば、特定の時間帯において関連しているワードと位置情報とを対応付けることができる。更に、上述した実施形態のように直近24時間及び直近48時間の2つの時間帯の集計結果を用いて最終的な集計結果を計算することとしてもよい。この構成によれば、例えば、特定の時間帯において特に関連している度合いが高まっているワードと位置情報とを対応付けることができる。なお、上記の24時間及び48時間は、一例であり、2つの時間帯の幅をどのように取るかは取得したい情報に応じて任意に変更することができる。
【0084】
また、本実施形態のように各ワードのTF−IDF値を算出して、それに基づいてワードの集計を行うこととしてもよい。この構成によれば、ワードの出現頻度が考慮されたワードと位置情報との対応付けが可能になる。また、本実施形態のようにワードが同一のテキスト内に含まれる頻度に基づいて、ワードをグループ化することが望ましい。この構成によれば、図7に示したように互いに関連しているワードを近くに表示させる等の利用が可能になり、集計結果を利便性の高いものにすることができる。
【0085】
上述した実施形態では、位置情報が付与される対象は、テキストが分解されたワードであった。しかしながら、テキスト自体に位置情報が付与されることとしてもよい。そのような形態に係るテキスト位置判定装置10aを図11に示す。テキスト位置判定装置10aは基本的には、テキスト位置判定装置10と同様の構成である。
【0086】
テキスト位置判定装置10aは、地名辞書記憶部11と、POI辞書記憶部12と、情報収集部13と、テキスト記憶部15aと、エリア判定部16aと、位置判定部17aと、位置情報付テキスト記憶部18aと、集計部19aと、出力部20aとを備えて構成される。図1を用いて説明した実施形態では、情報収集部13によって取得されたテキストは、ワード分解部14によってワードに分解されて処理された。しかし、テキスト位置判定装置10aでは、ワードに分解されず、情報収集部13によって取得されたテキストはそのままテキスト記憶部15aに記憶されテキストとして処理される。
【0087】
エリア判定部16a及び位置判定部17aは、テキストと地名辞書記憶部11及びPOI辞書記憶部12に記憶された地名及びPOIを示す情報との比較を行って、テキストに対して位置情報を付与する。図1を用いて説明した実施形態では、ワードと地名辞書記憶部11及びPOI辞書記憶部12に記憶された地名及びPOIを示す情報との一致が判断されたが、エリア判定部16a及び位置判定部17aは、テキストに地名辞書記憶部11及びPOI辞書記憶部12に記憶された地名及びPOIを示す情報が含まれるかを判断し(正規表現でテキストを検索し)、含まれていた場合には当該テキストに対応する位置情報を付与する。集計部19a及び出力部20aも、図1を用いて説明した実施形態においてワードを単位として処理していたところを、テキストを単位として処理を行う。
【0088】
本実施形態では、テキスト内に含まれる位置を示すワードに基づいて、テキストに位置情報を付与することができる。また、付与された位置情報に応じてテキストが集計されるので容易に利用可能とすることができる。
【符号の説明】
【0089】
10,10a…テキスト位置判定装置、11…地名辞書記憶部、12…辞書記憶部、13…情報収集部、14…ワード分解部、15…ワード記憶部、15a…テキスト記憶部、16,16a…エリア判定部、17,17a…位置判定部、18…位置情報付ワード記憶部、18a…位置情報付テキスト記憶部、19,19a…集計部、20,20a…出力部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、N…インターネット。
【特許請求の範囲】
【請求項1】
位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストを単語単位に分解する単語分解手段と、
前記単語分解手段によって分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与された単語を集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備えるテキスト位置判定装置。
【請求項2】
前記取得手段は、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断して、含まれていると判断した場合には当該リンク情報によって示される場所のデータを取得し、
前記位置単語抽出手段は、前記取得手段によって取得された前記リンク情報によって示される場所のデータに含まれるテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該リンク情報によって示される場所のデータから位置を示す単語を抽出し、
前記位置情報付与手段は、前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたデータに係るリンク情報を含むテキストに含まれる単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置を示す位置情報を付与する、
請求項1に記載のテキスト位置判定装置。
【請求項3】
前記位置情報記憶手段は、地名を示す単語とエリアを示すエリア情報とを対応付けて記憶すると共に、POIを示す単語とエリア情報と前記位置情報とを対応付けて記憶し、
前記位置単語抽出手段は、前記単語分解手段によって分解された単語と前記位置情報記憶手段に記憶された地名を示す単語とを比較して、それらが一致した地名を示す単語に前記位置情報記憶手段に対応付けられている前記エリア情報を特定し、前記分解された単語と特定されたエリア情報に対応付けられているPOIを示す単語とを比較して、それらが一致したPOIを示す単語を抽出し、
前記位置情報付与手段は、前記位置単語抽出手段によって抽出されたPOIを示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該POIを示す単語に対応付けて記憶されている前記位置情報を付与する、
請求項1又は2に記載のテキスト位置判定装置。
【請求項4】
前記テキストにはメタデータが付与されており、
前記位置単語抽出手段は、前記取得手段によって取得されたテキストに付与されたメタデータにも関連する位置を示す単語を抽出する、
請求項1〜3のいずれか一項に記載のテキスト位置判定装置。
【請求項5】
前記テキストには時刻が対応付けられており、
前記集計手段は、前記テキストに対応付けられた時刻に応じて集計を行う、
請求項1〜4のいずれか一項に記載のテキスト位置判定装置。
【請求項6】
前記集計手段は、第1の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第1の期間よりも長い第2の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、前記第1の期間に係る集計結果の値から前記第2の期間に係る集計結果の値を減じた値を集計結果とする請求項5に記載のテキスト位置判定装置。
【請求項7】
前記集計手段は、前記位置情報を含むエリア毎に前記単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にTF値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各単語のTF−IDF値を計算して集計結果とする請求項5又は6に記載のテキスト位置判定装置。
【請求項8】
前記集計手段は、複数の前記単語が同一のテキスト内に含まれる頻度を計算して、当該頻度に基づき単語をグループ化して集計結果を計算する請求項1〜7の何れか一項に記載のテキスト位置判定装置。
【請求項9】
位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該テキストに含まれる位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与されたテキストを集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備えるテキスト位置判定装置。
【請求項10】
位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段を備えるテキスト位置判定装置によるテキスト位置判定方法であって、
テキストを取得する取得ステップと、
前記取得ステップにおいて取得されたテキストを単語単位に分解する単語分解ステップと、
前記単語分解ステップにおいて分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出ステップと、
前記位置単語抽出ステップにおいて抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与ステップと、
前記位置情報に応じて、当該位置情報が位置情報付与ステップにおいて付与された単語を集計する集計ステップと、
前記集計ステップにおける集計結果を出力する出力ステップと、
を含むテキスト位置判定方法。
【請求項1】
位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストを単語単位に分解する単語分解手段と、
前記単語分解手段によって分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与された単語を集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備えるテキスト位置判定装置。
【請求項2】
前記取得手段は、取得したテキストにネットワーク上のデータの場所を示すリンク情報が含まれているか否かを判断して、含まれていると判断した場合には当該リンク情報によって示される場所のデータを取得し、
前記位置単語抽出手段は、前記取得手段によって取得された前記リンク情報によって示される場所のデータに含まれるテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該リンク情報によって示される場所のデータから位置を示す単語を抽出し、
前記位置情報付与手段は、前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたデータに係るリンク情報を含むテキストに含まれる単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている位置を示す位置情報を付与する、
請求項1に記載のテキスト位置判定装置。
【請求項3】
前記位置情報記憶手段は、地名を示す単語とエリアを示すエリア情報とを対応付けて記憶すると共に、POIを示す単語とエリア情報と前記位置情報とを対応付けて記憶し、
前記位置単語抽出手段は、前記単語分解手段によって分解された単語と前記位置情報記憶手段に記憶された地名を示す単語とを比較して、それらが一致した地名を示す単語に前記位置情報記憶手段に対応付けられている前記エリア情報を特定し、前記分解された単語と特定されたエリア情報に対応付けられているPOIを示す単語とを比較して、それらが一致したPOIを示す単語を抽出し、
前記位置情報付与手段は、前記位置単語抽出手段によって抽出されたPOIを示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該POIを示す単語に対応付けて記憶されている前記位置情報を付与する、
請求項1又は2に記載のテキスト位置判定装置。
【請求項4】
前記テキストにはメタデータが付与されており、
前記位置単語抽出手段は、前記取得手段によって取得されたテキストに付与されたメタデータにも関連する位置を示す単語を抽出する、
請求項1〜3のいずれか一項に記載のテキスト位置判定装置。
【請求項5】
前記テキストには時刻が対応付けられており、
前記集計手段は、前記テキストに対応付けられた時刻に応じて集計を行う、
請求項1〜4のいずれか一項に記載のテキスト位置判定装置。
【請求項6】
前記集計手段は、第1の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行うと共に第1の期間よりも長い第2の期間に含まれる時刻に対応付けられたテキストに基づいて集計を行い、前記第1の期間に係る集計結果の値から前記第2の期間に係る集計結果の値を減じた値を集計結果とする請求項5に記載のテキスト位置判定装置。
【請求項7】
前記集計手段は、前記位置情報を含むエリア毎に前記単語を含むテキストの数を当該エリアに含まれる位置情報の何れかが対応付けられた全単語の総テキストの数で除算した値を基にTF値を計算すると共に、総エリア数を当該単語に対応付けられた位置情報が含まれるエリアの数で除算した値を基にIDF値を計算して、算出したTF値とIDF値とからエリア毎の各単語のTF−IDF値を計算して集計結果とする請求項5又は6に記載のテキスト位置判定装置。
【請求項8】
前記集計手段は、複数の前記単語が同一のテキスト内に含まれる頻度を計算して、当該頻度に基づき単語をグループ化して集計結果を計算する請求項1〜7の何れか一項に記載のテキスト位置判定装置。
【請求項9】
位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段と、
テキストを取得する取得手段と、
前記取得手段によって取得されたテキストと前記位置情報記憶手段に記憶された位置を示す単語とを比較して、当該テキストに含まれる位置を示す単語を抽出する位置単語抽出手段と、
前記位置単語抽出手段によって抽出された位置を示す単語を含んでいたテキストに、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与手段と、
前記位置情報に応じて、当該位置情報が位置情報付与手段によって付与されたテキストを集計する集計手段と、
前記集計手段による集計結果を出力する出力手段と、
を備えるテキスト位置判定装置。
【請求項10】
位置を示す単語と位置を示す位置情報とを対応付けて記憶する位置情報記憶手段を備えるテキスト位置判定装置によるテキスト位置判定方法であって、
テキストを取得する取得ステップと、
前記取得ステップにおいて取得されたテキストを単語単位に分解する単語分解ステップと、
前記単語分解ステップにおいて分解された単語と前記位置情報記憶手段に記憶された位置を示す単語とを比較して、それらが一致した位置を示す単語を抽出する位置単語抽出ステップと、
前記位置単語抽出ステップにおいて抽出された位置を示す単語を含んでいたテキストに含まれる他の単語に、前記位置情報記憶手段に当該位置を示す単語に対応付けて記憶されている前記位置情報を付与する位置情報付与ステップと、
前記位置情報に応じて、当該位置情報が位置情報付与ステップにおいて付与された単語を集計する集計ステップと、
前記集計ステップにおける集計結果を出力する出力ステップと、
を含むテキスト位置判定方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2013−77045(P2013−77045A)
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願番号】特願2011−214949(P2011−214949)
【出願日】平成23年9月29日(2011.9.29)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【公開日】平成25年4月25日(2013.4.25)
【国際特許分類】
【出願日】平成23年9月29日(2011.9.29)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
[ Back to top ]