説明

地域代表語抽出装置、地域代表語提示装置、地域代表語抽出方法およびプログラム

【課題】指定地域の代表語を適切に抽出することのできる地域代表語抽出装置、地域代表語提示装置、地域代表語抽出方法およびプログラムを得る。
【解決手段】サーバ50のCPU50Aにより、携帯電話器30等により指定された第1の地域(注目地域)に含まれる位置を示す位置情報を有する第1の文書情報と、予め定められた第2の地域に含まれる位置を示す位置情報を有する第2の文書情報を取得し、取得した第1の文書情報に含まれる単語の種類毎に、各々同一種類の単語が含まれる第1の文書情報の数の第2の文書情報の数に対する割合、および当該単語が含まれる第1の文書情報に有される位置情報により示される位置のばらつきの度合いを示す物理量を算出し、算出した割合および物理量に基づいて上記単語の種類毎にスコアを導出し、当該スコアに基づいて注目地域の代表語を抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、地域代表語抽出装置、地域代表語提示装置、地域代表語抽出方法およびプログラムに係り、特に、地域の特徴や性質等を端的に表す代表語を抽出する地域代表語抽出装置、地域代表語提示装置、地域代表語抽出方法およびプログラムに関する。
【背景技術】
【0002】
近年、ナビゲーション・システムやインターネット等の利用の拡大に伴って、指定した地域における特徴や性質等を端的に把握するためのキーワード(以下、「代表語」という。)を得たいという要望が高まっている。
【0003】
このような代表語を得るために適用することのできる技術として、特許文献1には、地図の表示範囲を指定する情報を受け付ける表示範囲入力部と、前記表示範囲に含まれる各地点の特徴とその特徴の強さを示す情報を含む地点情報を取得する地点情報取得部と、前記地点情報取得部にて取得した特徴の強さを示す情報と各地点の位置を示す情報とに基づいて、前記表示範囲内に存在する複数の地点をクラスタリングするクラスタリング処理部と、前記指定範囲入力部にて入力された表示範囲を示す地図を表示すると共に、前記クラスタリング処理部によって同じクラスタに分類された複数の地点を包含するエリアを共通特徴エリアとして前記地図上に表示する地図表示部と、を備えた地図表示システムが開示されている。
【0004】
この特許文献1に開示されている技術では、表示範囲に含まれる各地点に関する記述文書をWebサーバ等から取得し、表示範囲に紐付けられた文書と、それ以外の範囲に紐付けられた文書における単語の出現頻度の比率を用いて表示範囲に特徴的な単語を代表語として抽出している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−293823号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記特許文献1に開示されている技術では、上記表示範囲に紐付けられた文書における単語の出現頻度と、それ以外の範囲に紐付けられた文書における単語の出現頻度との比率を用いて表示範囲に関する代表語を抽出しているため、必ずしも適切な代表語を抽出することができるとは限らない、という問題点があった。
【0007】
すなわち、特許文献1に開示されている技術では、ある事項に関連する文書が表示領域内に多ければ、当該事項に関する単語の評価値(以下、「スコア」という。)は上昇する。
【0008】
しかしながら、都市部等においては、表示対象とする地域内に店舗数等が多いため、当該店舗数等に関する文書が多いのか、当該地域内に象徴的な店舗や観光名所等があるために文書が多くなっているのかを区別することができず、当該地域において余り意味のない単語まで代表語として抽出してしまう場合がある。
【0009】
例えば、指定された地域内に有名な観光名所があれば、その観光名所に関する文書は多くなるが、それが飲食店も相対的に多い地域であれば飲食店に関する文書も多くなり、「メニュー」、「飲み放題」といった単語も代表語として抽出されてしまう。
【0010】
本発明は、上記問題点を解決するためになされたものであり、指定地域の代表語を適切に抽出することのできる地域代表語抽出装置、地域代表語提示装置、地域代表語抽出方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するために、請求項1に記載の地域代表語抽出装置は、代表語の抽出対象とする第1の地域の指定を受け付ける受付手段と、前記受付手段によって受け付けられた前記第1の地域に含まれる位置を示す位置情報を有する第1の文書情報を取得すると共に、予め定められた第2の地域に含まれる位置を示す位置情報を有する第2の文書情報を取得する取得手段と、前記取得手段によって取得された前記第1の文書情報および前記第2の文書情報から単語を検出する検出手段と、前記検出手段によって前記第1の文書情報から検出された単語の種類毎に、各々同一種類の単語が含まれる前記第1の文書情報の数の前記第2の文書情報の数に対する割合、および当該単語が含まれる前記第1の文書情報に有される前記位置情報により示される位置のばらつきの度合いを示す物理量を算出する算出手段と、前記算出手段によって算出された前記割合および前記物理量に基づいて、前記単語の種類毎に、前記割合が高くなるほど大きくなり、前記物理量が大きくなるほど小さくなるように評価値を導出する導出手段と、前記導出手段によって導出された前記評価値が評価の高い順から予め定められた数の単語、または当該評価値が予め定められた閾値以上である単語を前記第1の地域の代表語として抽出する抽出手段と、を備えている。
【0012】
請求項1に記載の地域代表語抽出装置によれば、受付手段により、代表語の抽出対象とする第1の地域の指定が受け付けられる。なお、上記受付手段による受け付けには、キーボード等の入力装置を介した受け付けや、インターネット等の通信回線を介した受け付けが含まれる。
【0013】
ここで、本発明では、取得手段により、前記受付手段によって受け付けられた前記第1の地域に含まれる位置を示す位置情報を有する第1の文書情報が取得されると共に、予め定められた第2の地域に含まれる位置を示す位置情報を有する第2の文書情報が取得され、検出手段により、前記取得手段によって取得された前記第1の文書情報および前記第2の文書情報から単語が検出される。
【0014】
また、本発明では、算出手段により、前記検出手段によって前記第1の文書情報から検出された単語の種類毎に、各々同一種類の単語が含まれる前記第1の文書情報の数の前記第2の文書情報の数に対する割合、および当該単語が含まれる前記第1の文書情報に有される前記位置情報により示される位置のばらつきの度合いを示す物理量が算出され、導出手段により、前記算出手段によって算出された前記割合および前記物理量に基づいて、前記単語の種類毎に、前記割合が高くなるほど大きくなり、前記物理量が大きくなるほど小さくなるように評価値が導出される。
【0015】
そして、本発明では、抽出手段により、前記導出手段によって導出された前記評価値が評価の高い順から予め定められた数の単語、または当該評価値が予め定められた閾値以上である単語が前記第1の地域の代表語として抽出される。
【0016】
すなわち、本発明では、各々同一種類の単語が含まれる第1の文書情報の数の第2の文書情報の数に対する割合のみならず、当該単語が含まれる第1の文書情報に有される位置情報により示される位置のばらつきの度合いを示す物理量も適用して当該単語の評価値を導出しており、これによって、指定地域内における、或る程度の広がりを有する比較的狭い領域(スポット)に関する代表語を抽出することができるようになる結果、当該物理量を適用しない場合に比較して、より適切に指定地域の代表語を抽出することができるようにしている。
【0017】
なお、ここでいうスポットとは、指定地域内で、1または複数の店舗や観光名所等が存在する、或る程度の広がりを有する比較的狭い領域のことを意味する。例えば、「横浜市」という指定地域における、「中華料理屋」が集中した「中華街」という領域等である。また、ここでいう代表語とは、上記スポットに存在する店舗名、当該店舗で提供される商品やサービス名、当該スポットで実施可能なイベント名、行為等である。例えば、「横浜市」という指定地域の「中華街」というスポットにおける「肉まん」、「○○軒」(中華街に存在する店舗名)等や、「神奈川県」という指定地域の「三浦海岸」というスポットにおける「海水浴」、「スイカ割り」等がこれに当たる。
【0018】
このように、請求項1に記載の地域代表語抽出装置によれば、代表語の抽出対象とする第1の地域の指定を受け付け、受け付けた前記第1の地域に含まれる位置を示す位置情報を有する第1の文書情報を取得すると共に、予め定められた第2の地域に含まれる位置を示す位置情報を有する第2の文書情報を取得し、取得した前記第1の文書情報および前記第2の文書情報から単語を検出し、前記第1の文書情報から検出された単語の種類毎に、各々同一種類の単語が含まれる前記第1の文書情報の数の前記第2の文書情報の数に対する割合、および当該単語が含まれる前記第1の文書情報に有される前記位置情報により示される位置のばらつきの度合いを示す物理量を算出し、算出した前記割合および前記物理量に基づいて、前記単語の種類毎に、前記割合が高くなるほど大きくなり、前記物理量が大きくなるほど小さくなるように評価値を導出し、導出した前記評価値が評価の高い順から予め定められた数の単語、または当該評価値が予め定められた閾値以上である単語を前記第1の地域の代表語として抽出しているので、指定地域の代表語を適切に抽出することができる。
【0019】
なお、本発明は、請求項2に記載の発明のように、前記第1の地域の広さに基づいて前記閾値を決定する決定手段をさらに備えてもよい。これにより、より適切に指定地域の代表語を抽出することができる。
【0020】
また、前記第2の地域は、前記第1の地域を含む領域としてもよい。また、前記物理量は、前記単語が含まれる前記第1の文書情報に有される前記位置情報により示される位置の分散値としてもよい。さらに、前記位置情報は、緯度および経度を示す情報、および当該位置情報が有される文書情報に含まれた、位置を特定することのできる単語の少なくとも一方としてもよい。
【0021】
一方、上記目的を達成するために、請求項3に記載の地域代表語提示装置は、請求項1または請求項2に記載の地域代表語抽出装置と、前記地域代表語抽出装置によって抽出された代表語を提示する提示手段と、を備えている。
【0022】
請求項3に記載の地域代表語提示装置によれば、提示手段により、本発明に係る地域代表語抽出装置によって抽出された代表語が提示される。なお、上記提示手段による提示には、表示装置等による可視表示による提示の他、音声再生装置等による可聴表示や、画像形成装置等による永久可視表示による提示が含まれる。
【0023】
このように、請求項3に記載の地域代表語提示装置によれば、本発明に係る地域代表語抽出装置を備えているので、当該地域代表語抽出装置と同様に、指定地域の代表語を適切に抽出することができる。
【0024】
なお、前記地域代表語提示装置の前記受付手段および前記提示手段と、前記取得手段、前記検出手段、前記算出手段、前記導出手段、および前記抽出手段とが、各々別装置として構成されていてもよい。
【0025】
一方、上記目的を達成するために、請求項4に記載の地域代表語抽出方法は、代表語の抽出対象とする第1の地域の指定を受け付ける受付ステップと、前記受付ステップによって受け付けられた前記第1の地域に含まれる位置を示す位置情報を有する第1の文書情報を取得すると共に、予め定められた第2の地域に含まれる位置を示す位置情報を有する第2の文書情報を取得する取得ステップと、前記取得ステップによって取得された前記第1の文書情報および前記第2の文書情報から単語を検出する検出ステップと、前記検出ステップによって前記第1の文書情報から検出された単語の種類毎に、各々同一種類の単語が含まれる前記第1の文書情報の数の前記第2の文書情報の数に対する割合、および当該単語が含まれる前記第1の文書情報に有される前記位置情報により示される位置のばらつきの度合いを示す物理量を算出する算出ステップと、前記算出ステップによって算出された前記割合および前記物理量に基づいて、前記単語の種類毎に、前記割合が高くなるほど大きくなり、前記物理量が大きくなるほど小さくなるように評価値を導出する導出ステップと、前記導出ステップによって導出された前記評価値が評価の高い順から予め定められた数の単語、または当該評価値が予め定められた閾値以上である単語を前記第1の地域の代表語として抽出する抽出ステップと、を有している。
【0026】
従って、請求項4に記載の地域代表語抽出方法によれば、請求項1に記載の発明と同様に作用するので、請求項1に記載の発明と同様に、指定地域の代表語を適切に抽出することができる。
【0027】
なお、本発明は、請求項5に記載の発明のように、前記第1の地域の広さに基づいて前記閾値を決定する決定ステップをさらに有してもよい。これにより、より適切に指定地域の代表語を抽出することができる。
【0028】
一方、上記目的を達成するために、請求項6に記載のプログラムは、コンピュータを、請求項1または請求項2記載の地域代表語抽出装置、または請求項3記載の地域代表語提示装置として機能させるためのものである。
【0029】
従って、請求項6に記載のプログラムによれば、コンピュータを本発明の地域代表語抽出装置および地域代表語提示装置と同様に作用させることができるので、これらの装置と同様に、指定地域の代表語を適切に抽出することができる。
【発明の効果】
【0030】
請求項1、請求項3、請求項4、および請求項6に記載の発明によれば、代表語の抽出対象とする第1の地域の指定を受け付け、受け付けた前記第1の地域に含まれる位置を示す位置情報を有する第1の文書情報を取得すると共に、予め定められた第2の地域に含まれる位置を示す位置情報を有する第2の文書情報を取得し、取得した前記第1の文書情報および前記第2の文書情報から単語を検出し、前記第1の文書情報から検出された単語の種類毎に、各々同一種類の単語が含まれる前記第1の文書情報の数の前記第2の文書情報の数に対する割合、および当該単語が含まれる前記第1の文書情報に有される前記位置情報により示される位置のばらつきの度合いを示す物理量を算出し、算出した前記割合および前記物理量に基づいて、前記単語の種類毎に、前記割合が高くなるほど大きくなり、前記物理量が大きくなるほど小さくなるように評価値を導出し、導出した前記評価値が評価の高い順から予め定められた数の単語、または当該評価値が予め定められた閾値以上である単語を前記第1の地域の代表語として抽出しているので、指定地域の代表語を適切に抽出することができる、という効果が得られる。
【0031】
また、請求項2および請求項5に記載の発明によれば、より適切に指定地域の代表語を抽出することができる、という効果が得られる。
【図面の簡単な説明】
【0032】
【図1】実施の形態に係る地域代表語抽出システムの構成を示すブロック図である。
【図2】実施の形態に係る地域代表語抽出システムの各構成装置の電気的な要部構成を示すブロック図である。
【図3】第1の実施の形態に係るサーバに備えられたHDDの主な記憶内容を示す模式図である。
【図4】実施の形態に係る文書データベースの構成を示す模式図である。
【図5】実施の形態に係る総出現頻度データベースの構成を示す模式図である。
【図6】実施の形態に係る文書ID一覧データベースの構成を示す模式図である。
【図7】実施の形態に係る単語スコア一覧データベースの構成を示す模式図である。
【図8】実施の形態に係る基本情報蓄積処理プログラムの処理の流れを示すフローチャートである。
【図9】第1の実施の形態に係る端末装置側で実行されるユーザ側代表語提示処理プログラムの処理の流れを示すフローチャートである。
【図10】実施の形態に係る初期画面の表示状態の一例を示す概略図である。
【図11】実施の形態に係る代表語提示画面の表示状態の一例を示す概略図である。
【図12】第1の実施の形態に係るサーバ側で実行されるサーバ側代表語提示処理プログラムの処理の流れを示すフローチャートである。
【図13】第1の実施の形態に係る単語別スコア導出処理ルーチン・プログラムの処理の流れを示すフローチャートである。
【図14】第2の実施の形態に係るサーバに備えられたHDDの主な記憶内容を示す模式図である。
【図15】第2の実施の形態に係る閾値データベースの構成を示す模式図である。
【図16】第2の実施の形態に係る端末装置側で実行されるユーザ側代表語提示処理プログラムの処理の流れを示すフローチャートである。
【図17】第2の実施の形態に係るサーバ側で実行されるサーバ側代表語提示処理プログラムの処理の流れを示すフローチャートである。
【図18】第2の実施の形態に係る第2単語別スコア導出処理ルーチン・プログラムの処理の流れを示すフローチャートである。
【図19】実施の形態に係る代表語提示画面の他の表示状態の一例を示す概略図である。
【発明を実施するための形態】
【0033】
以下、図面を参照して、本発明を実施するための形態について詳細に説明する。なお、ここでは、本発明を、ユーザから端末装置等を介して指定された地域(以下、「第1の地域」という。)に関する代表語を特定して当該ユーザに提示するサービス(以下、「指定地域代表語提示サービス」という。)を提供するサービス提供者によって運営される地域代表語抽出システムに適用した場合の形態例について説明する。
【0034】
[第1の実施の形態]
まず、図1を参照して、本実施の形態に係る地域代表語抽出システム10の構成について説明する。
【0035】
同図に示すように、本実施の形態に係る地域代表語抽出システム10は、上記サービス提供者が所有するサーバ50と、地域代表語抽出システム10の各ユーザが所有する携帯電話器30および端末装置60と、を含んで構成されている。ここで、サーバ50および各端末装置60は、モデム、ルータ、TA(Terminal Adapter)等の接続装置90を介してインターネット12に接続されている。
【0036】
本実施の形態に係るサーバ50はWWW(World Wide Web)サーバとして機能し、端末装置60はWWWクライアントとして機能する。
【0037】
すなわち、各端末装置60にはWWWブラウザがインストールされており、このWWWブラウザを起動することにより、インターネット12を介してサーバ50に任意にアクセスすることができる。このとき、アクセス位置はURL(Uniform Resource Locator)で指定される。なお、端末装置60の識別には、IP(Internet Protocol)アドレスが用いられるが、URL等の他の位置指定のコードを用いてもよい。
【0038】
一方、インターネット12には、各国又は各地域の電話会社が構築・提供する公衆電話網14がゲートウェイ40によって相互接続されている。なお、公衆電話網14には、例えば、PSTN(Public Switched Telephone Network)やISDN(Integrated Services Digital Network)等が含まれる。
【0039】
また、電話網として、さらに、PHS(Personal Handy-phone System)やW−CDMA(Wideband-Code Division Multiple Access)など各種無線通信形式の無線電話網14A、14Bを含んでいる。なお、無線電話網14A、14Bは、携帯電話器30に対するデータの送受信機能、発信番号の認証機能等の機能サービスを提供することができる。
【0040】
なお、地域代表語抽出システム10で対象としている携帯電話器30は、上記電話会社によって提供されるインターネット接続サービスに対応したものとされており、携帯電話器30は、インターネット12に接続されている情報端末装置との間で各種情報の授受を行うことができる。すなわち、携帯電話器30にもWWWブラウザがインストールされており、このWWWブラウザを起動することにより、インターネット12を介してサーバ50に任意にアクセスすることができる。
【0041】
次に、図2を参照して、本実施の形態に係る地域代表語抽出システム10の電気系の要部構成を説明する。
【0042】
同図に示すように、本実施の形態に係る携帯電話器30は、装置全体の動作を司るCPU(中央処理装置)30Aと、制御プログラムを含む各種プログラム等が予め記憶されたROM(Read Only Memory)30Bと、各種データを一時的に記憶するRAM(Random Access Memory)30Cと、を備えている。また、本実施の形態に係る携帯電話器30は、各種情報が入力される際に操作されるキースイッチ30Dと、対応する無線通信形式で無線通信を行う無線通信部30Eと、各種情報を表示する表示部30Fと、その他の撮影に関する機能等の各種機能を実現するための処理を実行する各種機能部30Gと、を備えている。
【0043】
CPU30A、ROM30B、RAM30C、キースイッチ30D、および無線通信部30Eは、システムバスB1を介して相互に接続されている。従って、CPU30Aは、ROM30B、RAM30Cへのアクセスを行うことができる。また、CPU30Aは、キースイッチ30Dを介して各種情報を入力することができる。さらに、CPU30Aは、無線通信部30Eを介して公衆電話網14、インターネット12等を介してサーバ50等の外部装置との間で各種情報の送受信を行うことができる。さらに、CPU30Aは、表示部30Fおよび各種機能部30Gに接続されている。従って、CPU30Aは、表示部30Fにより各種情報を表示することができると共に、各種機能部30Gの作動を制御することができる。
【0044】
一方、本実施の形態に係る端末装置60は、装置全体の動作を司るCPU60Aと、制御プログラムを含む各種プログラム等が予め記憶されたROM60Bと、各種データを一時的に記憶するRAM60Cと、を備えている。また、本実施の形態に係る端末装置60は、各種情報が入力される際に操作されるキーボード60Dと、インターネット12を介して外部装置との各種情報の授受を行う入出力ポート60Eと、各種情報を表示する表示部60Fと、各種情報を記憶して保持するHDD(Hard Disc Drive)60Gと、を備えている。
【0045】
CPU60A、ROM60B、RAM60C、キーボード60D、入出力ポート60E、表示部60F、およびHDD60Gは、システムバスB2を介して相互に接続されている。従って、CPU60Aは、ROM60B、RAM60C、およびHDD60Gへのアクセス、キーボード60Dを介して入力された各種情報の取得、入出力ポート60Eを介してのインターネット12に接続された外部装置との間での各種情報の授受、および表示部60Fによる各種情報の表示を各々行うことができる。
【0046】
一方、本実施の形態に係るサーバ50は、装置全体の動作を司るCPU50Aと、制御プログラムを含む各種プログラム等が予め記憶されたROM50Bと、各種データを一時的に記憶するRAM50Cと、を備えている。また、本実施の形態に係るサーバ50は、各種情報が入力される際に操作されるキーボード50Dと、インターネット12を介して外部装置との各種情報の授受を行う入出力ポート50Eと、各種情報を表示する表示部50Fと、各種情報を記憶して保持するHDD50Gと、を備えている。
【0047】
CPU50A、ROM50B、RAM50C、キーボード50D、入出力ポート50E、表示部50F、およびHDD50Gは、システムバスB3を介して相互に接続されている。従って、CPU50Aは、ROM50B、RAM50C、およびHDD50Gへのアクセス、キーボード50Dを介して入力された各種情報の取得、入出力ポート50Eを介してのインターネット12に接続された外部装置との間での各種情報の授受、および表示部50Fによる各種情報の表示を各々行うことができる。
【0048】
図3には、サーバ50に備えられたHDD50Gの主な記憶内容が模式的に示されている。同図に示すように、HDD50Gには、各種データベースを記憶するためのデータベース領域DBと、アプリケーション・プログラム等を記憶するためのプログラム領域PGと、が設けられている。
【0049】
なお、本実施の形態に係る地域代表語抽出システム10においてデータベース領域DBに記憶されるデータベースには、文書データベースDB1、総出現頻度データベースDB2、文書ID一覧データベースDB3、および単語スコア一覧データベースDB4の各データベースが含まれる。以下、これらのデータベースの構成について、図面を参照しつつ詳細に説明する。
【0050】
図4に示すように、本実施の形態に係る文書データベースDB1は、文書ID、位置情報、文書情報、および単語の各情報が記憶されるように構成されている。
【0051】
本実施の形態に係る地域代表語抽出システム10では、サーバ50により、上記第1の地域に含まれる位置を示す位置情報を有する文書情報(以下、「第1の文書情報」という。)、および予め定められた第2の地域に含まれる位置を示す位置情報を有する文書情報(以下、「第2の文書情報」という。)を取得(検索)して適用する。
【0052】
なお、本実施の形態に係る地域代表語抽出システム10では、上記第2の地域として、上記第1の地域を含み、かつ当該第1の地域より十分広い領域を適用している。具体的には、第1の地域として日本国内の市区町村単位の地域を適用し、第2の地域として日本を適用しているが、これに限らず、例えば、第1の地域として都道府県単位の地域を適用し、第2の地域として日本を適用する形態や、第1の地域として市区町村単位の地域を適用し、第2の地域として都道府県単位の地域を適用する形態、第1の地域として国単位の地域を適用し、第2の地域として全世界を適用する形態等としてもよい。
【0053】
文書データベースDB1における「文書ID」は、上記第2の文書情報の各々に対し、唯一無二の情報として予め付与されたID(Identification)情報であり、当該第2の文書情報を識別(特定)するために用いられる。また、文書データベースDB1における「位置情報」は、対応する第2の文書情報に有されている位置情報であり、本実施の形態では、緯度および経度を示す情報により構成されている。また、文書データベースDB1における「文書情報」は、対応する第2の文書情報の文書本文を示す情報であり、さらに、「単語」は、対応する第2の文書情報により示される文書から抽出された単語を示す情報である。
【0054】
図4に示す例では、例えば、文書IDとして‘doc1’が付与された第2の文書情報が、緯度が35.332度で、経度が139.882度の位置に関する情報が記載された文書を示すものであり、当該文書には、‘みなとみらい’、‘夜景’等の単語が含まれていることを示している。
【0055】
一方、図5に示すように、本実施の形態に係る総出現頻度データベースDB2は、単語および総出現頻度の各情報が記憶されるように構成されている。
【0056】
上記「単語」は、文書データベースDB1における単語と同一の情報であり、上記「総出現頻度」は、対応する単語が出現する第2の文書情報の総数を示す情報である。図5に示す例では、例えば、‘みなとみらい’との単語が出現する第2の文書情報の総数が120であることを示している。
【0057】
また、図6に示すように、本実施の形態に係る文書ID一覧データベースDB3は、単語、文書ID、および出現文書数の各情報が記憶されるように構成されている。
【0058】
上記「単語」は、文書データベースDB1における単語と同一の情報であり、上記「文書ID」は、対応する単語が出現する第1の文書情報に付与された文書IDであり、上記「出現文書数」は、対応する単語が出現する第1の文書情報の総数を示す情報である。図6に示す例では、例えば、‘みなとみらい’との単語が出現する第1の文書情報が、文書IDとして‘doc1’、‘doc12’、・・・が付与されたものであり、それらの第1の文書情報の総数が‘18’であることを示している。
【0059】
さらに、図7に示すように、本実施の形態に係る単語スコア一覧データベースDB4は、単語およびスコアの各情報が記憶されるように構成されている。
【0060】
上記「単語」は、文書データベースDB1における単語と同一のものであり、上記「スコア」は、対応する単語の第1の地域における特徴や性質等を端的に把握することができる程度の高さを示すものとして算出された評価値を示す情報である。図7に示す例では、例えば、‘みなとみらい’との単語に対して算出されたスコアが‘スコア1’(実際には、数値情報)であったことを示している。
【0061】
次に、本実施の形態に係る地域代表語抽出システム10の作用を説明する。なお、ここでは、ユーザ側の装置として携帯電話器30を用いる場合について説明するが、端末装置60を用いる場合も同様である。
【0062】
まず、図8を参照して、指定地域代表語提示サービスの実行に先立ち、文書データベースDB1および総出現頻度データベースDB2を構築する際のサーバ50の作用を説明する。なお、図8は、予め定められたタイミング(本実施の形態では、キーボード50Dを介して実行する旨の指示入力が行われたタイミング)でサーバ50のCPU50Aによって実行される基本情報蓄積処理プログラムの処理の流れを示すフローチャートであり、当該プログラムはHDD50Gのプログラム領域PGに予め記憶されている。
【0063】
同図のステップS100では、上記第2の地域(本実施の形態では、日本)に含まれる位置を示す位置情報(本実施の形態では、緯度情報および経度情報)を有する文書情報(第2の文書情報)を、インターネット12を介して検索して取得(ダウンロード)する。本ステップS100の処理により、インターネット上でツイッターやブログ等により作成されている、第2の地域に含まれる位置を示す位置情報を有する第2の文書情報が取得されることになる。
【0064】
次のステップS102では、上記ステップS100の処理によって取得した第2の文書情報のうちの何れか1つ(以下、「処理対象文書」という。)から、形態素解析等の従来既知の手法を適用して単語を検出し、次のステップS104にて、処理対象文書に対して唯一無二の文書IDを付与した後、当該文書IDと、処理対象文書に有された位置情報、当該処理対象文書、および検出した単語を、文書データベースDB1に登録する。
【0065】
次のステップS106では、上記ステップS102の処理によって検出した単語の種類毎に、当該単語が出現する第2の文書情報の数を計数する処理を行って計数値をRAM50Cの所定領域に記憶し、次のステップS108では、上記ステップS100の処理によって取得した全ての第2の文書情報について上記ステップS102〜ステップS106の処理が終了したか否かを判定して、否定判定となった場合は上記ステップS102に戻る一方、肯定判定となった時点でステップS110に移行する。なお、上記ステップS102からステップS108までの処理を繰り返し実行する際には、それまでに処理対象としなかった第2の文書情報を処理対象文書として適用する。また、この繰り返し処理の際には、上記ステップS106において、それまでに上記ステップS102の処理によって検出された単語の種類別に、当該単語が出現された処理対象文書の数を計数(集計)する。
【0066】
ステップS110では、上記ステップS106の処理によって最終的に得られた単語の種類毎の第2の文書情報の数(総出現頻度)を、対応する単語と共に総出現頻度データベースDB2に登録し、その後に本基本情報蓄積処理プログラムを終了する。
【0067】
以上の基本情報蓄積処理プログラムにより、一例として図4および図5に示される文書データベースDB1および総出現頻度データベースDB2が構築される。
【0068】
次に、図9〜図13を参照して、指定地域代表語提示サービスを実行する際の本実施の形態に係る地域代表語抽出システム10の作用を説明する。
【0069】
まず、図9を参照して、ユーザ側の処理について説明する。なお、図9は、キースイッチ30Dを介して指定地域代表語提示サービスを実行する旨の指示入力が行われた際に携帯電話器30のCPU30Aによって実行されるユーザ側代表語提示処理プログラムの処理の流れを示すフローチャートであり、当該プログラムはROM30Bの所定領域に予め記憶されている。
【0070】
同図のステップS200では、予め定められた初期画面を表示するように表示部30Fを制御し、次のステップS202では、所定情報が入力されるまで待機する。
【0071】
図10には、上記ステップS200の処理によって表示部30Fに表示される初期画面の一例が示されている。同図に示すように、本実施の形態に係る初期画面では、代表語の提示対象とする地域(前述した第1の地域に相当し、以下、「注目地域」ともいう。)の指定を促すメッセージと共に、本実施の形態に係る地域代表語抽出システム10で取り扱い対象としている地域(本実施の形態では、第2の地域)の地図が表示される。なお、同図では、前回の指定地域代表語提示サービスの実行で指定された注目地域が含まれる県の地図を表示しているが、これに限らず、例えば、予め指定されている地域(一例として、日本)の地図をデフォルトで表示する形態等としてもよい。
【0072】
同図に示す初期画面が表示部30Fに表示されると、ユーザは、注目地域の位置を、キースイッチ30Dを介して指定した後、当該初期画面に表示されている「指定終了」ボタンを、キースイッチ30Dを介して指定する。これに応じて、上記ステップS202が肯定判定となってステップS204に移行する。
【0073】
ステップS204では、ユーザによって指定された注目地域を示す指定地域情報を、無線通信部30Eを介してサーバ50に送信する。なお、本実施の形態に係る地域代表語抽出システム10では、上記指定地域情報として、指定された注目地域の名称を示す情報を適用しているが、これに限らず、例えば、当該注目地域における隣接する地域との境界線の位置を示す情報や、当該注目地域の外接矩形枠の位置を示す情報等、他の注目地域の位置を示す情報を上記指定地域情報として適用してもよい。
【0074】
一方、本実施の形態に係るサーバ50は、何れかのユーザが所有する携帯電話器30や端末装置60から上記指定地域情報を受信すると、後述するサーバ側代表語提示処理プログラム(図12参照。)が実行され、指定された注目地域に関する代表語を抽出して、指定地域情報の送信元の装置に対して送信する。
【0075】
そこで、次のステップS206では、サーバ50から代表語が受信されるまで待機し、次のステップS208では、表示部30Fに表示されている画面を、受信した代表語を表示する代表語提示画面に更新し、次のステップS210にて、所定情報が入力されるまで待機する。
【0076】
図11には、上記ステップS208の処理によって表示部30Fに表示される代表語提示画面の一例が示されている。同図に示すように、本実施の形態に係る代表語提示画面は、前述した初期画面に加えて、ユーザによって指定された注目地域の名称、およびサーバ50から受信した代表語が一覧形式で表示される。従って、ユーザは、同図に示される代表語提示画面を参照することにより、指定した注目地域に関する代表語を把握することができる。
【0077】
一方、ユーザは、代表語提示画面を参照すると、指定地域代表語提示サービスを再び実行する場合は、次の注目地域の位置を、キースイッチ30Dを介して指定した後、当該代表語提示画面に表示されている「指定終了」ボタンを、キースイッチ30Dを介して指定する一方、本ユーザ側代表語提示処理プログラムを終了する場合は、「表示終了」ボタンを、キースイッチ30Dを介して指定する。これに応じて、上記ステップS210が肯定判定となってステップS212に移行する。
【0078】
ステップS212では、代表語提示画面上でユーザにより指定されたものが「表示終了」ボタンであり、ユーザ側代表語提示処理プログラムの終了を指示するものであったか否かを判定し、否定判定となった場合は上記ステップS204に戻る一方、肯定判定となった時点で、本ユーザ側代表語提示処理プログラムを終了する。
【0079】
次に、図12を参照して、指定地域代表語提示サービスを実行する際のサーバ50側の処理について説明する。なお、図12は、何れかのユーザが所有する携帯電話器30または端末装置60から前述した指定地域情報を受信した際にサーバ50のCPU50Aによって実行されるサーバ側代表語提示処理プログラムの処理の流れを示すフローチャートであり、当該プログラムはHDD50Gのプログラム領域PGに予め記憶されている。
【0080】
同図のステップS300では、受信した指定地域情報により示される注目地域の領域を特定し、特定した領域に含まれる位置を示す位置情報に対応する、全ての文書ID、文書情報(第2の文書情報)および単語を文書データベースDB1から読み出す。なお、本実施の形態に係る地域代表語抽出システム10では、上記注目地域の領域の特定を、本実施の形態に係る地域代表語抽出システム10で取り扱い対象としている地域(本実施の形態では、第2の地域)に含まれる、上記第1の地域の単位(本実施の形態では、市区町村の単位)の全ての地域における隣接する地域との境界線の位置を示す位置情報を、対応する地域の名称と関連付けてROM50B、HDD50G等の記憶装置に予め記憶しておき、当該記憶装置から、受信した指定地域情報により示される注目地域の名称に対応する位置情報を読み出すことにより行っている。ただし、この形態に限らず、例えば、ユーザ側の携帯電話器30等から指定地域情報として注目地域の領域を示す情報を送信することとし、受信した指定地域情報そのものを注目地域の領域として特定する形態等としてもよい。
【0081】
次のステップS302では、上記ステップS300の処理によって読み出した全ての第2の文書情報を対象として、上記ステップS300の処理によって読み出した全ての単語の種類毎に、当該単語が出現する第2の文書情報の数(以下、「出現文書数」という。)を計数する。
【0082】
次のステップS304では、上記ステップS302の処理によって得られた単語の種類毎の出現文書数を、出現する第2の文書情報に付与された文書IDおよび対応する単語に関連付けて文書ID一覧データベースDB3に登録する。本ステップS304の処理により、一例として図6に示される文書ID一覧データベースDB3が構築されることになる。
【0083】
次のステップS306では、単語別スコア導出処理ルーチン・プログラムを実行する。以下、図13を参照して、本実施の形態に係る単語別スコア導出処理ルーチン・プログラムについて説明する。なお、図13は、単語別スコア導出処理ルーチン・プログラムの処理の流れを示すフローチャートであり、当該プログラムもHDD50Gのプログラム領域PGに予め記憶されている。
【0084】
同図のステップS400では、文書ID一覧データベースDB3から1単語分の単語(以下、「処理対象単語」という。)、文書ID、および出現文書数を読み出し、次のステップS402では、総出現頻度データベースDB2から処理対象単語に対応する総出現頻度を読み出す。
【0085】
次のステップS404では、上記ステップS400の処理によって読み出した全ての文書IDに対応する全ての位置情報を文書データベースDB1から読み出し、次のステップS406にて、読み出した位置情報により示される全ての位置の分布に対して、距離的な分散値sを算出する。なお、本実施の形態に係る地域代表語抽出システム10では、上記分散値を次の(1)式により算出する。なお、(1)式におけるnは読み出した位置情報の組み合わせの数を表し、x’は読み出した位置情報により示される全ての位置の間の距離の平均値を表し、xはi番目の位置情報の組み合わせにより示される位置間の距離を表す。
【0086】
【数1】

【0087】
なお、上記分散値は、このような位置の分布に対して距離の分散値を算出する形態に限らず、例えば、最も遠い2点間の距離や、予め定められた順位で遠い2点間の距離を用いる形態等、各位置のばらつきの度合いを示す他の値を用いる形態としてもよい。
【0088】
次のステップS408では、上記ステップS400の処理によって読み出した出現文書数b、上記ステップS402の処理によって読み出した総出現頻度B、および上記ステップS406の処理によって算出した分散値sを用いて、次の(2)式により、処理対象単語に対する評価値であるスコアSを算出する。
【0089】
【数2】

【0090】
なお、上記(2)式は一例であり、出現文書数bの総出現頻度Bに対する割合が高くなるほど大きくなり、分散値sが大きくなるほど小さくなるようにスコアSを算出することができるものであれば、如何なる演算式も適用可能である。
【0091】
次のステップS410では、上記ステップS408の処理によって算出したスコアSを処理対象単語と関連付けて単語スコア一覧データベースDB4に登録し、次のステップS412にて、文書ID一覧データベースDB3に登録されている全ての単語について、上記ステップS400からステップS410の処理が終了したか否かを判定し、否定判定となった場合は上記ステップS400に戻る一方、肯定判定となった時点で本単語別スコア導出処理ルーチン・プログラムを終了する。なお、上記ステップS400からステップS412の処理を繰り返し実行する際には、それまでに処理対象としなかった単語を処理対象単語として適用する。以上の単語別スコア導出処理ルーチン・プログラムにより、一例として図7に示される単語スコア一覧データベースDB4が構築されることになる。
【0092】
一方、単語別スコア導出処理ルーチン・プログラムが終了すると、サーバ側代表語提示処理プログラム(図12参照。)のステップS308に移行し、単語スコア一覧データベースDB4に記憶された単語をスコアの大きな順にソーティングし、次のステップS310にて、スコアの大きな順にN個の単語を注目地域の代表語としてアクセス元の携帯電話器30に送信した後、本サーバ側代表語提示処理プログラムを終了する。なお、本実施の形態に係る地域代表語抽出システム10では、上記Nとして、ユーザによって予め設定されている値を適用しているが、これに限らず、例えば、デフォルトで予め固定値として設定されている値を適用する形態等としてもよい。
【0093】
以上詳細に説明したように、本実施の形態では、代表語の抽出対象とする第1の地域(注目地域)の指定を受け付け、受け付けた前記第1の地域に含まれる位置を示す位置情報を有する第1の文書情報を取得すると共に、予め定められた第2の地域に含まれる位置を示す位置情報を有する第2の文書情報を取得し、取得した前記第1の文書情報および前記第2の文書情報から単語を検出し、前記第1の文書情報から検出された単語の種類毎に、各々同一種類の単語が含まれる前記第1の文書情報の数の前記第2の文書情報の数に対する割合、および当該単語が含まれる前記第1の文書情報に有される前記位置情報により示される位置のばらつきの度合いを示す物理量(本実施の形態では、分散値s)を算出し、算出した前記割合および前記物理量に基づいて、前記単語の種類毎に、前記割合が高くなるほど大きくなり、前記物理量が大きくなるほど小さくなるように評価値(本実施の形態では、スコアS)を導出し、導出した前記評価値が評価の高い順から予め定められた数(本実施の形態では、N個)の単語を前記第1の地域の代表語として抽出しているので、上記物理量を適用しない場合に比較して、より適切に指定地域の代表語を抽出することができる。
【0094】
[第2の実施の形態]
以下、本発明の第2の実施の形態について説明する。なお、本第2の実施の形態に係る地域代表語抽出システム10の構成は、上記第1の実施の形態に係るものと同様であるので、ここでの説明は省略する。
【0095】
本実施の形態に係る地域代表語抽出システム10の指定地域代表語提示サービスでは、スコアが注目地域の面積に応じて決定される閾値以上である単語のみを当該注目地域の代表語であるものとして提示する。このため、本実施の形態に係る地域代表語抽出システム10では、図14に示すように、サーバ50のHDD50Gにおけるデータベース領域DBに、新たに閾値データベースDB5が記憶されている。
【0096】
図15に示すように、本実施の形態に係る閾値データベースDB5は、面積および閾値の各情報が記憶されるように構成されている。
【0097】
上記「面積」は、ユーザによって指定された注目地域の面積の区分領域を示す情報であり、上記閾値は、対応する面積の区分領域に対応する上記閾値を示す情報である。図15に示す例では、例えば、注目地域の面積が0m以上100m以下である場合の閾値がTH1(実際には、数値情報)であることを示している。
【0098】
次に、本実施の形態に係る地域代表語抽出システム10の指定地域代表語提示サービスを実行する際の作用を説明する。なお、本実施の形態に係る地域代表語抽出システム10においても基本情報蓄積処理プログラムが実行されるが、当該プログラムは上記第1の実施の形態に係るプログラム(図8参照。)と同一であるので、ここでの説明は省略する。
【0099】
以下、図16〜図18を参照して、指定地域代表語提示サービスを実行する際の本実施の形態に係る地域代表語抽出システム10の作用を説明する。
【0100】
まず、図16を参照して、ユーザ側の処理について説明する。なお、図16は、キースイッチ30Dを介して指定地域代表語提示サービスを実行する旨の指示入力が行われた際に携帯電話器30のCPU30Aによって実行される、本第2の実施の形態に係るユーザ側代表語提示処理プログラムの処理の流れを示すフローチャートであり、当該プログラムはROM30Bの所定領域に予め記憶されている。
【0101】
同図のステップS500では、予め定められた初期画面を表示するように表示部30Fを制御し、次のステップS502では、所定情報が入力されるまで待機する。なお、本実施の形態に係る地域代表語抽出システム10では、上記初期画面として、上記第1の実施の形態と同様の画面(図10参照。)を適用しているが、これに限るものではない。
【0102】
図10に示される初期画面が表示部30Fに表示されると、ユーザは、注目地域の位置を、キースイッチ30Dを介して指定した後、当該初期画面に表示されている「指定終了」ボタンを、キースイッチ30Dを介して指定する。これに応じて、上記ステップS502が肯定判定となってステップS504に移行する。
【0103】
ステップS504では、ユーザによって指定された注目地域を示す指定地域情報を、無線通信部30Eを介してサーバ50に送信する。なお、本実施の形態に係る地域代表語抽出システム10でも、上記指定地域情報として、指定された注目地域の名称を示す情報を適用しているが、これに限らず、例えば、当該注目地域における隣接する地域との境界線の位置を示す情報や、当該注目地域の外接矩形枠の位置を示す情報等、他の注目地域の位置を示す情報を上記指定地域情報として適用してもよい。
【0104】
一方、本実施の形態に係るサーバ50は、何れかのユーザが所有する携帯電話器30や端末装置60から上記指定地域情報を受信すると、後述するサーバ側代表語提示処理プログラム(図17参照。)が実行され、指定された注目地域に関する代表語を抽出して、1つずつ指定地域情報の送信元の端末装置に送信すると共に、代表語の抽出および送信が終了した際に、当該終了したことを示す終了情報を送信する。
【0105】
そこで、次のステップS506では、サーバ50から代表語または上記終了情報が受信されるまで待機し、次のステップS508にて、受信した情報が終了情報であったか否かを判定して、否定判定となった場合は代表語を受信したと見なしてステップS510に移行し、表示部30Fに表示されている画面を、受信した代表語を表示する代表語提示画面に更新した後に上記ステップS506に戻る一方、肯定判定となった時点で本ユーザ側代表語提示処理プログラムを終了する。
【0106】
なお、本実施の形態に係る地域代表語抽出システム10では、上記代表語提示画面として、上記第1の実施の形態と略同様の画面(図11参照。)を適用しているが、これに限るものではない。
【0107】
次に、図17を参照して、指定地域代表語提示サービスを実行する際のサーバ50側の処理について説明する。なお、図17は、何れかのユーザが所有する携帯電話器30または端末装置60から前述した指定地域情報を受信した際にサーバ50のCPU50Aによって実行される、本第2の実施の形態に係るサーバ側代表語提示処理プログラムの処理の流れを示すフローチャートであり、当該プログラムはHDD50Gのプログラム領域PGに予め記憶されている。
【0108】
同図のステップS600では、受信した指定地域情報により示される注目地域の領域を特定し、特定した領域の面積を算出する。なお、本実施の形態に係る地域代表語抽出システム10でも、上記注目地域の領域の特定を、本実施の形態に係る地域代表語抽出システム10で取り扱い対象としている地域(本実施の形態では、第2の地域)に含まれる、上記第1の地域の単位(本実施の形態では、市区町村の単位)の全ての地域における隣接する地域との境界線の位置を示す位置情報を、対応する地域の名称と関連付けてROM50B、HDD50G等の記憶装置に予め記憶しておき、当該記憶装置から、受信した指定地域情報により示される注目地域の名称に対応する位置情報を読み出すことにより行っている。ただし、この形態に限らず、例えば、ユーザ側の携帯電話器30等から指定地域情報として注目地域の領域を示す情報を送信することとし、受信した指定地域情報そのものを注目地域の領域として特定する形態等としてもよいことは、上記第1の実施の形態と同様である。
【0109】
次のステップS602では、上記ステップS600の処理によって算出した面積に対応する閾値を閾値データベースDB5から読み出し、次のステップS604にて、上記ステップS600の処理によって特定した注目地域の領域に含まれる位置を示す位置情報に対応する、全ての文書ID、文書情報(第2の文書情報)および単語を文書データベースDB1から読み出す。
【0110】
次のステップS606では、上記ステップS604の処理によって読み出した全ての第2の文書情報を対象として、上記ステップS604の処理によって読み出した全ての単語の種類毎に、当該単語が出現する第2の文書情報の数(出現文書数)を計数する。
【0111】
次のステップS608では、上記ステップS606の処理によって得られた単語の種類毎の出現文書数を、出現する第2の文書情報に付与された文書IDおよび対応する単語に関連付けて文書ID一覧データベースDB3に登録する。本ステップS608の処理により、一例として図6に示される文書ID一覧データベースDB3が構築されることになる。
【0112】
次のステップS610では、第2単語別スコア導出処理ルーチン・プログラムを実行する。以下、図18を参照して、本実施の形態に係る第2単語別スコア導出処理ルーチン・プログラムについて説明する。なお、図18は、第2単語別スコア導出処理ルーチン・プログラムの処理の流れを示すフローチャートであり、当該プログラムもHDD50Gのプログラム領域PGに予め記憶されている。
【0113】
同図のステップS700では、文書ID一覧データベースDB3から1単語分の単語(以下、「処理対象単語」という。)、文書ID、および出現文書数を読み出し、次のステップS702では、総出現頻度データベースDB2から処理対象単語に対応する総出現頻度を読み出す。
【0114】
次のステップS704では、上記ステップS700の処理によって読み出した全ての文書IDに対応する全ての位置情報を文書データベースDB1から読み出し、次のステップS706にて、読み出した位置情報により示される全ての位置の分布に対して、距離的な分散値sを算出する。なお、本第2の実施の形態に係る地域代表語抽出システム10でも、上記分散値を上記(1)式により算出する。
【0115】
なお、上記分散値は、このような位置の分布に対して距離の分散値を算出する形態に限らず、例えば、最も遠い2点間の距離や、予め定められた順位で遠い2点間の距離を用いる形態等、各位置のばらつきの度合いを示す他の値を用いる形態としてもよいことは、上記第1の実施の形態と同様である。
【0116】
次のステップS708では、上記ステップS700の処理によって読み出した出現文書数b、上記ステップS702の処理によって読み出した総出現頻度B、および上記ステップS706の処理によって算出した分散値sを用いて、上記(2)式により、処理対象単語に対する評価値であるスコアSを算出する。
【0117】
次のステップS710では、上記ステップS708の処理によって算出したスコアSを処理対象単語と関連付けて単語スコア一覧データベースDB4に登録し、その後に本第2単語別スコア導出処理ルーチン・プログラムを終了する。
【0118】
一方、第2単語別スコア導出処理ルーチン・プログラムが終了すると、サーバ側代表語提示処理プログラム(図17参照。)のステップS612に移行し、当該第2単語別スコア導出処理ルーチン・プログラムによって導出した処理対象単語のスコアが、上記ステップS602の処理によって取得した閾値以上であるか否かを判定して、肯定判定となった場合はステップS614に移行する一方、否定判定となった場合には、当該ステップS614の処理を実行することなく、ステップS616に移行する。
【0119】
ステップS614では、処理対象単語を注目地域の代表語としてアクセス元の携帯電話器30に送信し、次のステップS616にて、文書ID一覧データベースDB3に登録されている全ての単語について、上記ステップS610からステップS614の処理が終了したか否かを判定し、否定判定となった場合は上記ステップS610に戻る一方、肯定判定となった時点でステップS618に移行する。なお、上記ステップS610からステップS616の処理を繰り返し実行する際に、第2単語別スコア導出処理ルーチン・プログラムでは、それまでに処理対象としなかった単語を処理対象単語として適用する。この結果、第2単語別スコア導出処理ルーチン・プログラムにより、一例として図7に示される単語スコア一覧データベースDB4が構築されることになる。
【0120】
ステップS618では、前述した終了情報をアクセス元の携帯電話器30に送信し、その後に本サーバ側代表語提示処理プログラムを終了する。
【0121】
以上詳細に説明したように、本実施の形態では、上記第1の実施の形態と同様の効果を奏することができると共に、第1の地域(注目地域)の広さに基づいて、提示する評価値(スコア)を選定する際に用いる閾値を決定しているので、より適切に指定地域の代表語を抽出することができる。
【0122】
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施の形態に多様な変更または改良を加えることができ、当該変更または改良を加えた形態も本発明の技術的範囲に含まれる。
【0123】
また、上記の実施の形態は、クレーム(請求項)にかかる発明を限定するものではなく、また実施の形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。前述した実施の形態には種々の段階の発明が含まれており、開示される複数の構成要件の組み合わせにより種々の発明が抽出される。実施の形態に示される全構成要件から幾つかの構成要件が削除されても、効果が得られる限りにおいて、この幾つかの構成要件が削除された構成が発明として抽出され得る。
【0124】
例えば、上記各実施の形態では、本発明を、コンピュータを利用してソフトウェア構成により実現した場合について説明したが、本発明はこれに限定されるものではなく、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成の組み合わせによって本発明を実現してもよい。
【0125】
また、上記各実施の形態では、本発明の位置情報として緯度および経度の情報を適用した場合について説明したが、本発明はこれに限定されるものではなく、例えば、店名、地名、建造物名等の、対象としている位置を特定することのできる単語を本発明の位置情報として適用する形態としてもよい。この場合、当該単語が記載されている文書情報も本発明の文書情報として適用することができ、より広範囲な文書情報を適用することができる結果、より的確な代表語を抽出ないし提示することができる。
【0126】
また、上記各実施の形態では、本発明に係る地域代表語抽出装置および地域代表語提示装置を、ユーザが所有する携帯電話器30や端末装置60と、サーバ50とに分けて別体で構成した場合について説明したが、本発明はこれに限定されるものではなく、例えば、サーバ50で実行する処理を携帯電話器30や端末装置60により実行させることにより、本発明に係る地域代表語抽出装置および地域代表語提示装置を単体の装置で構成する形態としてもよい。
【0127】
また、上記各実施の形態では、文書データベースDB1に文書情報そのものを登録する場合について説明したが、本発明はこれに限定されるものではなく、例えば、各文書IDに対して、対応する文書情報に対するリンクを張っておき、単語の抽出を行う場合等に当該文書情報をダウンロードして用いる形態等としてもよい。これにより、文書データベースDB1のための記憶容量を低減することができる。
【0128】
また、上記各実施の形態で適用した各演算式((1)式、(2)式)は一例であり、これらの演算式を適宜変更して用いることができることは言うまでもない。
【0129】
また、上記各実施の形態では、本発明の第2の地域として、本発明の第1の地域を含み、かつ当該第1の地域より十分広い領域を適用した場合について説明したが、本発明はこれに限定されるものではなく、例えば、本発明の第2の地域として、第1の地域を含まない地域を適用してもよく、第1の地域より狭い地域を適用する形態としてもよい。
【0130】
また、上記各実施の形態では、地図上で注目地域を指定する場合について説明したが、本発明はこれに限定されるものではなく、例えば、注目地域の候補を一覧形式で表示しておき、何れかの注目地域を指定する形態や、注目地域の名称、または位置情報を直接入力する形態等としてもよい。また、ユーザの明示的なキースイッチ30D等の押圧操作や定期的な自動更新により、GPS(Global Positioning Systems)等からユーザが所有する携帯電話器30等の端末装置の位置を特定し、当該位置の近傍の矩形領域や円形領域等を注目地域として適用する形態等としてもよい。
【0131】
また、上記各実施の形態では、代表語の提示を表示部30Fによる可視表示によって行う場合について説明したが、本発明はこれに限定されるものではなく、例えば、音声再生装置による可聴表示や、画像形成装置等による永久可視表示により行う形態としてもよい。
【0132】
また、上記各実施の形態では、文書ID一覧データベースDB3、単語スコア一覧データベースDB4を構築する場合について説明したが、本発明はこれに限定されるものではなく、これらのデータベースに記憶した情報をRAM50C等の記憶手段に一時的に記憶する形態としてもよい。
【0133】
また、上記第2の実施の形態では、注目地域の面積に応じて代表語を抽出する際の閾値を決定する場合について説明したが、本発明はこれに限定されるものではなく、注目地域が細長い領域である場合の閾値を大きくするために、注目地域の領域のうち、最も離れた端点と端点とを結ぶ線分の長さに基づいて上記閾値を決定する形態としてもよい。
【0134】
さらに、上記各実施の形態で示した各種表示画面は一例であり、各種表示対象の表示位置を変更したり、表示内容を変更したりすることができることは言うまでもない。例えば、図11に示した代表語提示画面は、図19に示したように、抽出した代表語に対応する位置に予め定められた提示情報(同図に示す例では、□、△等のマーク)を表示する形態等としてもよい。
【符号の説明】
【0135】
10 地域代表語抽出システム
12 インターネット
30 携帯電話器
30A CPU
30B ROM
30F 表示部
50 サーバ
50A CPU
50B ROM
50F 表示部
50G HDD
60 端末装置
60A CPU
60B ROM
60F 表示部
60G HDD

【特許請求の範囲】
【請求項1】
代表語の抽出対象とする第1の地域の指定を受け付ける受付手段と、
前記受付手段によって受け付けられた前記第1の地域に含まれる位置を示す位置情報を有する第1の文書情報を取得すると共に、予め定められた第2の地域に含まれる位置を示す位置情報を有する第2の文書情報を取得する取得手段と、
前記取得手段によって取得された前記第1の文書情報および前記第2の文書情報から単語を検出する検出手段と、
前記検出手段によって前記第1の文書情報から検出された単語の種類毎に、各々同一種類の単語が含まれる前記第1の文書情報の数の前記第2の文書情報の数に対する割合、および当該単語が含まれる前記第1の文書情報に有される前記位置情報により示される位置のばらつきの度合いを示す物理量を算出する算出手段と、
前記算出手段によって算出された前記割合および前記物理量に基づいて、前記単語の種類毎に、前記割合が高くなるほど大きくなり、前記物理量が大きくなるほど小さくなるように評価値を導出する導出手段と、
前記導出手段によって導出された前記評価値が評価の高い順から予め定められた数の単語、または当該評価値が予め定められた閾値以上である単語を前記第1の地域の代表語として抽出する抽出手段と、
を備えた地域代表語抽出装置。
【請求項2】
前記第1の地域の広さに基づいて前記閾値を決定する決定手段をさらに備えた
請求項1記載の地域代表語抽出装置。
【請求項3】
請求項1または請求項2に記載の地域代表語抽出装置と、
前記地域代表語抽出装置によって抽出された代表語を提示する提示手段と、
を備えた地域代表語提示装置。
【請求項4】
代表語の抽出対象とする第1の地域の指定を受け付ける受付ステップと、
前記受付ステップによって受け付けられた前記第1の地域に含まれる位置を示す位置情報を有する第1の文書情報を取得すると共に、予め定められた第2の地域に含まれる位置を示す位置情報を有する第2の文書情報を取得する取得ステップと、
前記取得ステップによって取得された前記第1の文書情報および前記第2の文書情報から単語を検出する検出ステップと、
前記検出ステップによって前記第1の文書情報から検出された単語の種類毎に、各々同一種類の単語が含まれる前記第1の文書情報の数の前記第2の文書情報の数に対する割合、および当該単語が含まれる前記第1の文書情報に有される前記位置情報により示される位置のばらつきの度合いを示す物理量を算出する算出ステップと、
前記算出ステップによって算出された前記割合および前記物理量に基づいて、前記単語の種類毎に、前記割合が高くなるほど大きくなり、前記物理量が大きくなるほど小さくなるように評価値を導出する導出ステップと、
前記導出ステップによって導出された前記評価値が評価の高い順から予め定められた数の単語、または当該評価値が予め定められた閾値以上である単語を前記第1の地域の代表語として抽出する抽出ステップと、
を有する地域代表語抽出方法。
【請求項5】
前記第1の地域の広さに基づいて前記閾値を決定する決定ステップをさらに有する
請求項4記載の地域代表語抽出方法。
【請求項6】
コンピュータを、請求項1または請求項2記載の地域代表語抽出装置、または請求項3記載の地域代表語提示装置として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2013−114615(P2013−114615A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−262819(P2011−262819)
【出願日】平成23年11月30日(2011.11.30)
【出願人】(000004226)日本電信電話株式会社 (13,992)