説明

地図データ処理装置及び方法

【課題】地図データベースにおいて複合施設を構成している施設の範囲を容易に特定する。
【解決手段】地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンをポリゴン選択手段が対象として選択し、施設ポリゴンに関連するPOIをPOI選択手段が選択する。候補抽出手段がPOIの名称を解析して施設ポリゴンごとの施設名称候補を抽出する。関連付け手段が、抽出された施設名称候補の共通性に基づいて施設ポリゴンを相互に関連付けする。候補抽出手段では各文字列を分割手段がトークンに分割し、カウント手段が一以上のトークンが直接連なって文字列を構成する全てのトークン列について文字列群中における文字列数をカウントする。この文字列数が所定の閾値以上のトークン列で、トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたものをトークン選択手段が選択する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、地図データの生成に関する。
【背景技術】
【0002】
近年、情報処理技術や通信技術の進展に伴い、ウェブ(WWW)上でサーバコンピュータを用いて提供される、各種のウェブサービスが急速に普及している。ウェブサービスを支える重要な技術分野として、商品名など文字列に関する情報の処理と、店舗など施設に関する情報の処理がある。
【0003】
文字列に関しては、電子商取引などの各種サービスにおいて、商品名などの文字列を多数蓄積し、キーワードの抽出や検索に用いている。この種の分野では、文字列中の単語の頻度を計量し、その頻度を単語の「重み」に換算して自動的にキーワードを抽出する提案(例えば、特許文献1参照)や、係り受け解析を用いたキーワード抽出の提案(例えば、特許文献2参照)などがある。これらの従来技術は、記事などのコンテンツを一つ与えて、その特徴的なキーワードを抽出することに向いている。
【0004】
また、店舗など施設の情報は、緯度経度などの位置に施設名やその関連情報を対応付けたもので、位置情報、施設情報、POI(Point Of Interest)などと呼ばれるが、本出願では主に「POI」と呼ぶこととする。POIを活用する例としては、ナビゲーションサービスやポータルサイトサービスその他のウェブサイトにおいて、場所と、業種などキーワードの入力を受け付け、POIを検索して地図上や一覧などの形でウェブ画面表示するサービスがある(例えば、非特許文献1参照)。この種のサービスでは、店舗などを表す施設情報(「POI」と呼ばれる)を予め記憶した地図データベースから、入力された場所とキーワードをクエリ(検索要求)としてPOIを検索した結果を表示している。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平08−30627号公報
【特許文献2】特開2004−240576号公報
【特許文献3】特開2002−340604号公報
【非特許文献】
【0006】
【非特許文献1】ヤフー株式会社、「Yahoo!地域情報」、[online]、[2010年2月5日検索]、インターネット〈URL: http://local.yahoo.co.jp/>
【発明の概要】
【発明が解決しようとする課題】
【0007】
文字列の処理に関し、従来の技術(例えば、特許文献1及び2など)に存在していた課題は、同じ対象に関する互いに似通った文字列群から、それらを共通項的に言い表す文字列(本出願では「代表表記」と呼ぶこととする)を抽出したい潜在的需要に対し、そのような抽出の技術が存在しなかったことである。
【0008】
例えば、テナント形式(モール形式)などと呼ばれるポータル電子商取引ウェブサイト(以下「ポータルECサイト」と呼ぶ)では、商品を一意に識別するJANコードなどでは同一となる商品であっても、複数の出店店舗(ショップ、ストア)が販売している場合、文字列として登録している商品名はストアにより異なることがある。このため、ある特定の同一商品を扱う複数の店舗を横断的に紹介する企画や、漏れのない検索を実現するには、同じ商品を言い表すのに適切な代表表記を抽出したい。しかし、そのような抽出を人手で行うことは負荷が大きく、取扱商品数の多いポータルECサイトでは困難が一層大きかった。
上記の課題に対し、本発明の目的は、与えられた文字列群から適切な代表表記を抽出する技術を提供することである。
【0009】
一方、POIの処理に関し、従来の技術(例えば、非特許文献1など)に存在していた課題は、地図データベースにおいて複合施設を構成している施設の範囲を容易に特定できないことであった。
【0010】
この前提として、まず、POIを検索する上記のようなサービス(例えば、非特許文献1など)において、入力された場所がビル名などの施設名称である場合、そのビル内のテナントのうちキーワードに合致するものを検索する意図と考えられる。しかし、このような場合、その施設名称と施設内のテナントがデータベース上で予め適切に関連付けられていないと、店舗名称に施設名を含むものしか表示されないなど、適切な検索結果が得られないという問題があった。
【0011】
この問題に関連し、POIに親子関係を設定し、親POIに子POIのリストを紐付けておき、ナビゲーションの目的地設定で親POIが選択されると、子POIリストを表示する提案もあるが(例えば、特許文献3参照)、この提案には親POIと子POIを関連付ける具体的手法の開示がなく、このような関連付けを手作業で行うことはサービス提供者などの負担が大きい。
【0012】
特に近年、「○○タウン」「○○ヒルズ」といった具合に、棟やエリアなど複数の施設が相互に一体化して大規模商業施設などの複合施設を構成する例が多い。この種の複合施設内の棟やエリアは互いに行き来が容易である。このため、テナントなどの検索において適切な検索結果を提示するには、データベース上、複合施設に含まれる複数の施設が互いに関連付けられている必要がある。しかし、このような複合施設はPOI数も多く、関連付けを手作業で行うことはサービス提供者にとって負担が大きいという課題があった。
上記の課題に対し、本発明の目的は、地図データベースにおいて複合施設を構成している施設の範囲を容易に特定することである。
【課題を解決するための手段】
【0013】
上記の目的をふまえ、本発明の一態様(B1)は、地図データ処理装置であって、施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段と、前記地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンを選択するポリゴン選択手段と、選択された前記施設ポリゴンに関連するPOIを前記地図データ記憶手段から選択するPOI選択手段と、前記施設ポリゴンに関連するものとして選択された前記POIの名称を解析して前記施設ポリゴンごとの施設名称候補を抽出する候補抽出手段と、抽出された前記施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付けする関連付け手段と、を有することを特徴とする。
【0014】
上記態様を方法として捉えた他の態様(B5)は、地図データ生成方法であって、施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンを選択するポリゴン選択ステップと、選択された前記施設ポリゴンに関連するPOIを前記地図データ記憶手段から選択するPOI選択ステップと、前記施設ポリゴンに関連するものとして選択された前記POIの名称を解析して前記施設ポリゴンごとの施設名称候補を抽出する候補抽出ステップと、抽出された前記施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付けする関連付けステップと、をコンピュータが実行することを特徴とする。
【0015】
上記態様をコンピュータ・プログラムとして捉えた他の態様(B6)である地図データ生成プログラムは、コンピュータを制御するコンピュータ・プログラムであって、施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンを選択するポリゴン選択ステップと、選択された前記施設ポリゴンに関連するPOIを前記地図データ記憶手段から選択するPOI選択ステップと、前記施設ポリゴンに関連するものとして選択された前記POIの名称を解析して前記施設ポリゴンごとの施設名称候補を抽出する候補抽出ステップと、抽出された前記施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付けする関連付けステップと、をコンピュータに実行させることを特徴とする。
【0016】
このように、ビルなどを表す施設ポリゴンであって互いに位置の近い施設ポリゴンごとに、関連するPOIの名称を解析して施設ポリゴンの施設名称候補を抽出し、その施設名称候補の共通性に基づくことにより、同じ大規模商業施設などに包含される施設ポリゴンを相互に関連付けることが容易になる。
【0017】
本発明の他の態様(B3)は、上記いずれかの態様において、与えられた複数の文字列を、それぞれトークンに分割する分割手段と、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウント手段と、カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択手段と、選択されたトークン列を抽出結果として出力する結果出力手段と、を有することを特徴とする。
【0018】
このように、与えられた文字列群であるPOIの名称を、字種などで分割したトークンから、所定数の文字列に含まれる最長のトークンの列を選択することにより、文字列群中で最も共通的に用いられる最大公約数的表記が得られるので、その文字列群を言い表す大規模商業施設名など適切な代表表記を抽出することができる。
【0019】
本発明の他の態様(B2)は、上記いずれかの態様において、前記関連付け手段による前記関連付けの根拠となった前記共通性にかかる前記施設名称候補を、前記関連付けされた複数の施設ポリゴンに対応する名称として、前記地図データ記憶手段に記憶されている前記地図データを更新する地図データ更新手段を有することを特徴とする。
【0020】
本発明の他の態様(B4)は、上記いずれかの態様において、前記関連付けされた前記各施設ポリゴンに関連する複数のPOIの名称に基づいて前記結果出力手段により抽出結果として出力された前記トークン列、を前記関連付けされた複数の施設ポリゴンに対応する名称として、前記地図データ記憶手段に記憶されている前記地図データを更新する地図データ更新手段を有することを特徴とする。
【0021】
このように、施設ポリゴン同士の関連付けの基礎となった共通の施設名称候補、又は関連付けされた施設ポリゴンに関連するPOIの名称から抽出されたトークン列を、それら関連付けされた施設ポリゴン群に対応する施設名称などとして地図データを更新することにより、大規模商業施設等の名称を人手で付与する負担なく、また、特定のビルのグループや地域を指す慣習上や事実上の俗称についても適切に設定することが可能となる。
【0022】
以上のような本発明の態様群との組み合わせに好適な他の態様群を以下に示す。
【0023】
すなわち、その一態様(A1)は、代表表記抽出装置であって、与えられた複数の文字列を、それぞれトークンに分割する分割手段と、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウント手段と、カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択手段と、選択されたトークン列を抽出結果として出力する結果出力手段と、を有することを特徴とする。
【0024】
上記態様を方法として捉えた他の態様(A5)は、代表表記抽出方法であって、与えられた複数の文字列を、それぞれトークンに分割する分割ステップと、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウントステップと、カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択ステップと、選択されたトークン列を抽出結果として出力する結果出力ステップと、をコンピュータが実行することを特徴とする。
【0025】
上記各態様をコンピュータ・プログラムとして捉えた他の態様(A6)である代表表記抽出プログラムは、コンピュータを制御するコンピュータ・プログラムであって、与えられた複数の文字列を、それぞれトークンに分割する分割ステップと、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウントステップと、カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択ステップと、選択されたトークン列を抽出結果として出力する結果出力ステップと、をコンピュータに実行させることを特徴とする。
【0026】
以上のように、同じ商品などに対応するものとして与えられた文字列群を、字種などで分割したトークンから、所定数の文字列に含まれる最長のトークンの列を選択することにより、文字列群中で最も共通的に用いられる最大公約数的文字列が得られるので、その文字列群を言い表す適切な代表表記を抽出することができる。
【0027】
本発明の他の態様(A2)は、上記いずれかの態様において、与えられた前記複数の文字列のうち選択されたトークン列を最も多く含む文字列を基準文字列として選択し、その基準文字列における各トークンの順序に合わせて、前記選択されたトークン列を並べ替える並べ替え手段を有することを特徴とする。
【0028】
このように、選択されたトークンを、それら選択されたトークンを最も多く含む表記、すなわち網羅的表記での順序どおりに並べ替えることにより、網羅的な表記が作られたときに配慮された適切な表現順序が反映される。特に、表記が商品名の場合でも、商品の種類や特徴などを配慮した表現順序となり、判り易い適切な代表表記が得られる。
【0029】
本発明の他の態様(A3)は、上記いずれかの態様において、選択された前記トークン列を構成する各トークンのうちトークン列間で相互に重複するものを削除する重複削除手段を有することを特徴とする。
【0030】
このように、選択されたトークン列から、トークン単位での重複を削除することにより、トークン列を並べた代表表記についても重複が排除でき、無駄のない適切な代表表記が得られる。特に、文字列が商品名の場合でも、重複を排した簡明な表現となり、誰にも判り易い適切で代表的な商品名が得られる。
【0031】
本発明の他の態様(A4)は、上記いずれかの態様において、さらに、施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段と、前記地図データ記憶手段から施設ポリゴンを選択するポリゴン選択手段と、選択された前記施設ポリゴンに関連付けされたPOIを前記地図データ記憶手段から選択するPOI選択手段と、選択された前記POIの名称を解析して前記各施設ポリゴンの施設名称候補を抽出する候補抽出手段と、を有する代表表記抽出装置であって、前記分割手段は、前記POIの名称をそれぞれ、与えられた複数の文字列として、それぞれトークンに分割し、分割された各トークンを基に前記カウント手段は前記カウントを行い、前記トークン選択手段はトークン列の前記選択を行い、前記結果出力手段は、選択されたトークン列を施設名称候補の抽出結果として出力し、この代表表記抽出装置はさらに、出力された前記施設名称候補を、選択された前記施設ポリゴンの名称として前記地図データ記憶手段に記憶させる地図データ更新手段を有することを特徴とする。
【0032】
このように、ビルなどを表すポリゴンについて、そのポリゴンに位置が内包されるなど関連をもつPOIの名称を文字列群として、トークンへの分割、文字列数に基づくトークン列の選択などにより、代表表記としてビル名などの施設名称候補を、人手に依らず容易に抽出できる。その施設名称候補をポリゴンに対応する名称として用いることにより地図データを効率的に更新することができる。
【0033】
なお、上記の各態様とは異なるカテゴリ(装置に対し方法、方法に対しプログラムなど)や、以下に説明するさらに具体的な各態様も本発明に含まれる。前記の異なるカテゴリの場合、構成等の表現について「手段」を「ステップ」のようにカテゴリに応じ適宜読み替えるものとする。
【発明の効果】
【0034】
本発明によれば、地図データベースにおいて複合施設を構成している施設の範囲を容易に特定することが可能となる。
【図面の簡単な説明】
【0035】
【図1】本発明の第1実施形態の構成を示す機能ブロック図。
【図2】本発明の第1実施形態で用いる情報(データ)を例示する図。
【図3】本発明の第1実施形態における処理手順を示すフローチャート。
【図4】本発明の第2実施形態の構成を示す機能ブロック図。
【図5】本発明の第2実施形態における処理手順を示すフローチャート。
【図6】本発明の第3実施形態の構成を示す機能ブロック図。
【図7】本発明の第3実施形態における処理手順を示すフローチャート。
【図8】本発明の第3実施形態で用いる情報(データ)を例示する図。
【図9】本発明の第3実施形態において、施設ポリゴン及びPOIが選択されている状態を地図上で示す概念図。
【図10】本発明の第3実施形態において、選択されている施設ポリゴンとPOIの対応関係を表す概念図。
【図11】本発明の第3実施形態において、施設ポリゴン間の関連付けの状態を地図上で示す概念図。
【図12】本発明の第3実施形態において、選択された一部の施設ポリゴンが関連付け(グループ化)されている状態を表す概念図。
【図13】本発明の第4実施形態の構成を示す機能ブロック図。
【図14】本発明の第4実施形態における処理手順を示すフローチャート。
【発明を実施するための形態】
【0036】
次に、本発明を実施するための複数の形態(それぞれ「実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
【0037】
〔1.第1実施形態の構成〕
第1実施形態は、図1(構成図)に示す代表表記抽出装置(以下「本装置」と呼ぶ)1に関する。本装置1は、一般的なコンピュータの構成として少なくとも、CPUなどの演算制御部5と、外部記憶装置(HDD等)や主メモリ等の記憶装置6と、図示しない通信ネットワークとの通信手段7(LANアダプタなど)と、を有する。そして、本装置1では、記憶装置6に予め記憶(インストール)した図示しない所定のコンピュータ・プログラムが演算制御部5を制御することで、図1に示す各手段などの要素(11,12,14など)を実現する。
【0038】
このようにコンピュータ・プログラムで実現される各要素のうち、情報の記憶手段は、記憶装置6において各種のデータベース(「DB」とも表す)やファイル、配列等の変数、各種スタックやレジスタ、システム設定値など任意の形式で実現できる。このような記憶手段のうち、文字列記憶手段11は、代表表記を抽出する基礎として、図2に例示するように、テナント形式(モール形式)のポータルECサイトにおいて、ある一つのJANコードに対応して登録されている商品名である文字列を複数記憶している手段である。また、記憶手段以外の各手段は、以下のような情報処理の機能・作用を実現・実行する処理手段である。
【0039】
〔2.第1実施形態の作用〕
上記のように構成した本装置1を用いて、ポータルECサイトの管理者が、図2に例示したように店舗により異なった商品名が付けられているある特定の同一商品について、その商品を扱う複数の店舗を横断的に紹介する企画コーナーを設けるために代表表記を得る場合の処理例を以下に示す。この場合、管理者が、適宜なユーザインタフェース画面などで、図2に示した5つの文字列を対象として選択する場合、文字列指定手段12がそのような操作を受け付け、選択された各文字列を分割手段14に与える。ここで選択された複数の文字列を「文字列群」とも呼ぶこととする。
【0040】
なお、文字列指定手段12は、管理者などユーザからの選択操作を受け付けるものには限定されず、例えば、多数の商品ごとに文字列群が各通販事業者などにより登録されているデータベースなどから、商品ごとの文字列群を次々と選択して、それぞれの文字列群から以下のように代表表記を抽出する手順の制御を行うものでもよい。いずれにしても、与えられた文字列群から代表表記を以下のように抽出する処理手順を図3のフローチャートに示す。
【0041】
〔2−1.トークンへの分割〕
すなわち、まず、分割手段14が、与えられた複数の文字列を、それぞれトークンに分割する(ステップS14)。「トークン」は、文字列を所定のある基準で分割した一単位の意である。文字列をトークンに分割する手法としては、字種などの文字グループごとに分割したり、形態素で分割するなど、自由に選択してよい。
【0042】
例えば、代表表記を抽出する基礎として与えられた文字列群が

地球防衛軍モビルスーツAB100
地球防衛軍モビルスーツ「AB100」
地球防衛軍AB100
防衛軍AB100モビルスーツ
防衛軍AB100

であるものとし、これらをもとの文字列(文字列群)のように呼ぶこととする。また、記号の鉤括弧「」も文字列を構成するものとし、文字列中の記号を説明するため示すときは二重鉤括弧で『「』や『」』のように示すものとする。
【0043】
これら個々の文字列を、文字グループすなわち漢字か、カタカナか、アルファベットか、数字か、記号か、といった種別ごとにトークンに分割した結果は次のようになる。なお、分割位置を『/』(半角スラッシュ)で示すものとする。

地球防衛軍/モビルスーツ/AB/100
地球防衛軍/モビルスーツ/「/AB/100/」
地球防衛軍/AB/100
防衛軍/AB/100/モビルスーツ
防衛軍/AB/100

【0044】
さらに、他の文字列に含まれるトークンにより更に分割してもよく、「防衛軍」で「地球防衛軍」を分割すると

地球/防衛軍/モビルスーツ/AB/100
地球/防衛軍/モビルスーツ/「/AB/100/」
地球/防衛軍/AB/100
防衛軍/AB/100/モビルスーツ
防衛軍/AB/100

となる。
【0045】
〔2−2.文字列数のカウント〕
続いて、カウント手段15が、一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列(もとの文字列中でも直接連なっていたものに限る)について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントする(ステップS15)。これは、いわゆる「N−gram」を、その適用単位をトークンとして適用するものである。
【0046】
具体的には、「一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列」として、文字列ごとに有り得る全てのトークン列を作成する。例えば、『防衛軍/AB/100』という文字列からは、

『防衛軍』
『AB』
『100』
『防衛軍/AB』
『AB/100』
『防衛軍/AB/100』

という6種のトークン列が生成される。なお、もとの文字列中で直接連ならない『防衛軍/100』(間に有った中間のトークン『AB』を抜いている)のようなトークン列は、この例では作成しない。
【0047】
このように各文字列から作成する全てのトークン列それぞれについて、もとの全ての文字列に何回登場するか、つまり幾つの文字列に含まれているか、をカウントする。
【0048】
〔2−3.トークンの選択〕
さらに、トークン選択手段16が、カウントされた前記文字列数が所定の閾値以上又はその閾値より大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列(以下「最長トークン列」と呼ぶ)を選択し、他は足切りする(ステップS16)。例えば、上の例では、もとの文字列群のうち5割以上に出現した最長トークン列が、

地球/防衛軍 (3)
防衛軍 (5)
地球 (3)
防衛軍/AB/100 (3)
AB/100 (5)
モビルスーツ (3)

となる(括弧内はそのトークン列を含む文字列数)。
【0049】
このうち、『防衛軍』と『地球』は、さらに長いトークン列『地球/防衛軍』に含まれ、『AB/100』も同様に『防衛軍/AB/100』に含まれるので、次のように除くと(除くものを×印で示す)、

地球/防衛軍 (3)
× 防衛軍 (5)
× 地球 (3)
防衛軍/AB/100 (3)
× AB/100 (5)
モビルスーツ (3)

残る最長トークン列は、

地球/防衛軍 (3)
防衛軍/AB/100 (3)
モビルスーツ (3)

となり、これらが現在残っているトークン列である。
【0050】
〔2−4.重複の削除〕
また、重複削除手段17が、選択されたトークン列であってこの時点で上記のように残っている最長トークン列のうち、最長トークン列間で相互に重複するものを削除する(ステップS17)。例えば上記の

地球/防衛軍
防衛軍/AB/100
モビルスーツ

から、重複している『防衛軍』を削除して独立したトークンとして切り出すと、

地球
防衛軍
AB/100
モビルスーツ

となり、これらが現在選択されているトークン列である。
【0051】
〔2−5.並べ替えと結果の出力〕
ついで、並べ替え手段18が、与えられた文字列群のうち、現在選択されているトークン列を最も多く含む文字列を基準文字列として選択し、その基準文字列における各トークンの順序に合わせて、前記選択されたトークン列を並べ替える(ステップS18)。ここで、現在選択されているトークン列を「最も多く含む」文字列を選択する基準としては、現在選択されているトークン列を、単に最も数多く含む文字列を基準文字列としてもよいが、他の基準でもよい。例えば、ここでは、現在選択されているトークン列を含み、含んでいるそれぞれのトークン列を含む文字列の文字列数(3、5など)の合計が最大となる文字列を、トークン列を「最も多く含む」文字列とし、基準文字列として選択するものとする。
【0052】
例えば、

地球 (3)
防衛軍 (5)
AB/100 (5)
モビルスーツ (3)

をもとに、与えられた文字列ごとに、その文字列が含んでいるトークン列を含む文字列数の合計を計算すると、

地球/防衛軍/モビルスーツ/AB/100 : 3+5+3+5=16
地球/防衛軍/モビルスーツ/「/AB100/」 : 3+5+3+5=16
地球/防衛軍/AB/100 : 3+5+5=13
防衛軍/AB/100/モビルスーツ : 5+5+3=13
防衛軍/AB/100 : 5+5=10

となる。
【0053】
ここで、『地球/防衛軍/モビルスーツ/AB/100』と『地球/防衛軍/モビルスーツ/「/AB100/」』のどちらも文字列数の合計が最大の16回でたまたま同じとなったが、いずれを選択しても、次の同じ結果となる。すなわち、この文字列における登場順に合わせて、重複の削除(ステップS17)までの処理の結果として現在選択されているトークン列を並べ替えれば、

『地球 防衛軍 モビルスーツ AB 100』

となる。最後に、この並べ替えたトークン列を、結果出力手段19が抽出結果として

『地球防衛軍モビルスーツAB100』

のように出力する(ステップS19)。
【0054】
〔3.第1実施形態の効果〕
以上のように、第1実施形態では、同じ商品などに対応するものとして与えられた文字列群を、字種などで分割したトークンから、所定数の文字列に含まれる最長のトークンの列を選択することにより、文字列群中で最も共通的に用いられる最大公約数的文字列が得られるので、その文字列群を言い表す適切な代表表記を抽出することができる。
【0055】
また、第1実施形態では、選択されたトークンを、それら選択されたトークンを最も多く含む表記、すなわち網羅的表記での順序どおりに並べ替えることにより(図3、ステップS18)、網羅的な表記が作られたときに配慮された適切な表現順序が反映される。特に、表記が商品名の場合でも、商品の種類や特徴などを配慮した表現順序となり、判り易い適切な代表表記が得られる。
【0056】
さらに、第1実施形態では、選択されたトークン列から、トークン単位での重複を削除することにより(ステップS17)、トークン列を並べた代表表記についても重複が排除でき、無駄のない適切な代表表記が得られる。特に、文字列が商品名の場合でも、重複を排した簡明な表現となり、誰にも判り易い適切で代表的な商品名が得られる。
【0057】
〔4.第2実施形態〕
第1実施形態に示した代表表記抽出装置を応用して、POIの名称から施設名称候補を得る例を第2実施形態として示す。図4に示すように、第2実施形態の代表表記抽出装置2は、地図データの処理に関し後述する作用効果を実現・実行する各手段21〜24並びに26を有し(図4左側)、そのうち候補抽出手段24の具体的構成内容として、第1実施形態に準じた構成(図4右側の一点鎖線内。符号14〜19)を設けたものである。
【0058】
なお、この第2実施形態では、候補抽出手段24には、POI選択手段23が選択したPOI群が与えられるので、第1実施形態(図1)で示した文字列記憶手段11及び文字列指定手段12は必須ではないが、図示しないワークエリアを処理において適宜用いることは言うまでもない。続いて、このような第2実施形態における処理手順を図5のフローチャートに示す。
【0059】
まず、地図データ記憶手段21は、施設ポリゴン及びPOIを含む地図データを予め記憶しているものである。そして、図5に示すように、まず、ポリゴン選択手段22が、ユーザによる操作などを受けて、又は適宜な基準による自動処理などにより、地図データ記憶手段21から施設ポリゴンを選択し(ステップS22)、POI選択手段23は、選択された前記施設ポリゴンに関連付けされたPOIを地図データ記憶手段21から選択する(ステップS23)。ここで「関連付けされた」とは、典型的には、POIの位置座標がポリゴン内に内包されている場合であるが、それに限らず、予め施設とPOIが互いの識別情報(ID)などで対応付けされている場合も含む。
【0060】
そして、候補抽出手段24が、選択された前記POIの名称を解析して前記各施設ポリゴンの施設名称候補を抽出するが(ステップS24)、この候補抽出手段24を、前記各手段14〜19が第1実施形態に準じて構成している。
【0061】
すなわち、分割手段14は、前記POIの名称をそれぞれ、与えられた複数の文字列として、それぞれトークンに分割し(ステップS14)、分割された各トークンを基にカウント手段15は前記カウントを行い(ステップS15)、トークン選択手段16はトークン列の前記選択を行う(ステップS16)。手段17及び18については、第1実施形態に準じるが(ステップS17,S18)、省略も可能であり、ここでは説明は省略する。そして、結果出力手段19は、選択されたトークン列を施設名称候補の抽出結果として、地図データ更新手段26へ出力する(ステップS19)。
【0062】
このように出力された抽出結果である施設名称候補については、地図データ更新手段26が受け取って、選択された前記施設ポリゴンの名称として地図データ記憶手段21に記憶させる(ステップS26)。
【0063】
例えば、名称が未設定のあるビルの施設ポリゴンに内包されるPOIの名称が

『ペストリー○○ネリオタワー越谷店』
『○○銀行ネリオタワー越谷支店』
『寿司○○・ネリオタワー越谷店』
『○○ショップ越谷ネリオタワー店』

であれば、名称後方の「店」「支店」は定型的表現として無視したうえ、第1実施形態と同様にトークンを用いた処理の結果、施設名称候補は『ネリオタワー越谷』となる。
【0064】
このように、ビルなどを表すポリゴンについて、そのポリゴンに位置が内包されるなど関連をもつPOIの名称を文字列群として、トークンへの分割、文字列数に基づくトークン列の選択などにより、代表表記としてビル名などの施設名称候補を、人手に依らず容易に抽出できる。その施設名称候補をポリゴンに対応する名称として用いることにより地図データを効率的に更新することができる。
【0065】
〔5.第3実施形態〕
上記第2実施形態では、第1実施形態に準じた代表表記抽出装置により、単一施設の名称をPOIの名称から抽出した例を示した。これに対し、第3実施形態は、ビルなどの要素を複数含む複合施設(大規模商業施設など)の名称をPOIの名称から抽出する地図データ処理装置3(図6)を示すものである。この第3実施形態において施設の名称を抽出する技術は、第1及び第2実施形態で示したような代表表記抽出装置には限られない。
【0066】
具体的には、第3実施形態における地図データ処理装置3は、記憶装置6及び通信手段7を伴う演算制御部5を所定のコンピュータ・プログラムで制御することにより、以下のような作用効果(図7)を実現する各処理手段(図6)を実現する。
【0067】
まず、施設ポリゴン及びPOIを含む地図データを地図データ記憶手段31が予め記憶している。例えば、図8は、地図データ記憶手段31の一例を示すもので、施設ポリゴンデータベース(図8(1))とPOIデータベースと(図8(2))を、ポリゴンIDで関連付け(破線で示す)した例である。
【0068】
そして、ポリゴン選択手段32がユーザ操作又は自動処理などにより、地図データ記憶手段31から、互いに近傍に位置する複数の施設ポリゴンを選択し(ステップS32)、POI選択手段33は、選択された前記施設ポリゴンに関連するPOIを地図データ記憶手段31から選択する(ステップS33)。ここで、施設ポリゴンに「関連する」とは、典型的には、POIの位置座標がポリゴン内に内包されている場合であるが、それに限らず、図8に例示したように、予め施設とPOIをポリゴンIDのような識別情報などで対応付けしている場合も含む。
【0069】
一例として、地図データ上で相互に近接した4つのビルの施設ポリゴンをユーザが選択した場合を考える。ここで、施設ポリゴンを選択した各ビルを仮に「タワー棟」、「東棟」、「西棟」、「他の一棟」と呼ぶが、施設ポリゴンにこのような名称が予め設定されている必要はない。また、選択された各施設ポリゴンとポリゴンIDで予め関連付けされているPOIを、POI選択手段33が、3つずつ計12(POI1〜POI12)、次のように選択した場合を考える。
【0070】
タワー棟
POI1:『○○銀行アモルタウン支店』
POI2:『アモルタウンクリニック』
POI3:『アモルタウン内郵便局』

東棟
POI4:『洋菓子○○アモルタウン店』
POI5:『○○ショップアモルタウン店』
POI6:『和食○○亭アモルタウン店』

西棟
POI7:『てんぷら○○』
POI8:『スーパー○○アモルタウン店』
POI9:『アモルタウン○○催事場』

他の一棟
POI10:『○○ファクトリー東町ビル店』
POI11:『美容室○○東町ビル店』
POI12:『○○チケット東町ビル支店』

【0071】
上記のように4つのビルの施設ポリゴンと12個のPOIが選択されている状態について、地図上に表した概念図を図9に、施設ポリゴンと各POIとの対応関係を図10に示す。
【0072】
そして、候補抽出手段34が、施設ポリゴンごとに施設名称候補を、その施設ポリゴンに対応して選択されている各POIの名称を解析することで抽出する(ステップS34)。この抽出を行う技術は、第1及び第2実施形態で示したような代表表記抽出装置には限らず、言語解析その他のアルゴリズムを自由に選択してよい。その後、関連付け手段35が、抽出された施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付け、すなわちグループ化する(ステップS35)。
【0073】
上記の例では、タワー棟、東棟、西棟についてはいずれも、POIの名称の多くに共通して含まれる『アモルタウン』が施設名称候補となる。そして、このように施設名称候補が共通することから、タワー棟、東棟、西棟については関連付け手段35が複合施設として相互に関連付ける(図11、図12)。他の一棟については、場所は近かったが、POIの名称の共通部分に基づく施設名称候補は『東町ビル』であり、他の3棟とは異なっているため複合施設には含まれず、関連付けの対象から除外されている(図11、図12)。
【0074】
続いて、地図データ更新手段36は、関連付け手段35による関連付けの根拠となった共通性にかかる施設名称候補『アモルタウン』を、関連付けされた複数の施設すなわちタワー棟、東棟、西棟の各施設ポリゴンに対応する複合施設の名称として、地図データ記憶手段21に記憶されている施設情報など地図データを更新する(ステップS36)。
【0075】
以上のように、第3実施形態では、ビルなどを表す施設ポリゴンであって互いに位置の近い施設ポリゴンごとに、関連するPOIの名称を解析して施設ポリゴンの施設名称候補を抽出し、その施設名称候補の共通性に基づくことにより、同じ大規模商業施設などに包含される施設ポリゴンを相互に関連付けることが容易になる。
【0076】
また、第3実施形態では、上記のように、施設ポリゴン同士の関連付けの基礎となった共通の施設名称候補を、それら関連付けされた施設ポリゴン群に対応する施設名称などとして地図データを更新することにより(ステップS36)、大規模商業施設等の名称を人手で付与する負担なく、また、特定のビルのグループや地域を指す慣習上や事実上の俗称についても適切に設定することが可能となる。
【0077】
〔6.第4実施形態〕
第4実施形態は、第3実施形態に準じた地図データ処理装置における施設名称候補の抽出に、第1実施形態における代表表記抽出装置(図1)に準じた構成を適用する例である。すなわち、図13に示すように、この第4実施形態における地図データ処理装置4は、第3実施形態(図6)に準じた構成であるが、候補抽出手段44の具体的構成としては、代表表記抽出装置41として、次のような作用効果を実現・実行する各手段を設けたものである。なお、地図データ処理装置4と代表表記抽出装置41は一体の装置として実現してもよく、また、各処理の詳細や語義は、第3実施形態までに説明してきた内容に準じる。
【0078】
ここで、図14は、第4実施形態における処理手順を示すフローチャートである。すなわち、第3実施形態と同様に選択された施設ポリゴンごとに対応するPOI群が選択されると(ステップS32,S33)、代表表記抽出装置41が、施設ポリゴンごとに、その施設ポリゴンに対応して選択されている各POIの名称を解析することにより、施設名称候補を次のように抽出する(ステップS44)。
【0079】
すなわち、まず、分割手段14が、対象の施設ポリゴンに関連するPOIの各名称を、与えられた複数の文字列として、それぞれトークンに分割し(ステップS14)、カウント手段15が、個々の文字列ごとに、一以上のトークンが直接連なってその文字列の全部又は一部を構成する全てのトークン列(もとの文字列中でも直接連なっていたものに限る)について、もとの文字列群中における文字列数をカウントする(ステップS15)。続いて、トークン選択手段16が、カウントされた前記文字列数が所定の閾値以上又はその閾値より大きいトークン列であって、前記トークン列の中で他のトークン列中に含まれるトークン列を除いたトークン列(最長トークン列)を選択し、他は足切りする(ステップS16)。
【0080】
さらに、重複削除手段17が、選択されたトークン列であってこの時点で残っている最長トークン列のうち最長トークン列間で相互に重複するものを削除し(ステップS17)、並べ替え手段18が、与えられた文字列群のうち、現在選択されているトークン列を最も多く含む文字列を基準文字列として選択し、その基準文字列における各トークンの順序に合わせて、現在選択されているトークン列を並べ替える(ステップS18)。このように並べ替えたトークン列は施設ポリゴンごとに、結果出力手段19が抽出結果として関連付け手段35及び地図データ更新手段46に対して出力する(ステップS19)。
【0081】
施設ポリゴンごとに、以上のステップS14〜S19の処理を行って施設名称候補を抽出した上で、最後に、それら施設名称候補を基に関連付け手段35が施設ポリゴン同士を関連付けし(ステップS35)、また、地図データ更新手段46が施設情報など地図データを更新するが(ステップS46)、この点は、第3実施形態と同様である。
【0082】
但し、この第4実施形態では、地図データ更新手段46は、関連付けされた各施設ポリゴンに関連する複数のPOIの名称に基づいて上記のように結果出力手段19により抽出結果として出力されたトークン列を、関連付けされた複数の施設すなわちタワー棟、東棟、西棟の各施設ポリゴンに対応する複合施設である大規模商業施設全体の名称として、地図データ記憶手段31に記憶されている施設情報など地図データを更新する(ステップS46)。
【0083】
以上のように第4実施形態では、与えられた文字列群であるPOIの名称を、字種などで分割したトークンから、所定数の文字列に含まれる最長のトークンの列を選択することにより、文字列群中で最も共通的に用いられる最大公約数的表記が得られるので、その文字列群を言い表す大規模商業施設名など適切な代表表記を抽出することができる。
【0084】
また、第4実施形態では、上記のように、関連付けされた施設ポリゴンに関連するPOIの名称から抽出されたトークン列を、それら関連付けされた施設ポリゴン群に対応する施設名称などとして地図データを更新することにより(ステップS46)、大規模商業施設等の名称を人手で付与する負担なく、また、特定のビルのグループや地域を指す慣習上や事実上の俗称についても適切に設定することが可能となる。
【0085】
なお、施設ポリゴンをグループ化する基準としての施設名称候補を抽出する基準やアルゴリズムと、グループ化された複合施設に名称として付与する施設名称候補を抽出する基準やアルゴリズムは、互いに異なってもよい。例えば、グループ化については第3実施形態で触れたような言語解析を用い、複合施設の名称については別途、グループ内のPOIから改めて、第1実施形態や第2実施形態で説明したようなトークンを用いたアルゴリズムで抽出することもできる。このようにすれば、処理の段階など状況に応じ各アルゴリズムを特性に応じて効果的に使い分けすることが可能となる。
【0086】
〔7.他の実施形態〕
なお、上記各実施形態は例示に過ぎず、本発明は、以下に例示するものやそれ以外の他の実施態様も含むものである。例えば、手段などの各要素は、コンピュータの演算制御部に限らず、ワイヤードロジック等に基づく電子回路など他の情報処理機構で実現してもよい。また、各構成図、データの図、フローチャートの図などは例示に過ぎず、各要素の有無、その順序や具体的内容などは適宜変更可能である。
【0087】
また、本発明の装置(代表表記抽出装置、地図データ処理装置)は、それぞれ、サーバなどの装置を複数用いて実現してもよく、個々の記憶手段を別個独立のサーバ装置やシステムで実現する構成も一般的である。また、機能によっては、外部のプラットフォーム等をAPI(アプリケーション・プログラム・インタフェース)やネットワークコンピューティング(いわゆるクラウドなど)で呼び出して実現するなど、構成は柔軟に変更できる。
【符号の説明】
【0088】
1,2,41 代表表記抽出装置
3,4 地図データ処理装置
5 演算制御部
6 記憶装置
7 通信手段
11 文字列記憶手段
12 文字列指定手段
14 分割手段
15 カウント手段
16 トークン選択手段
17 重複削除手段
18 並べ替え手段
19 結果出力手段
21,31 地図データ記憶手段
22,32 ポリゴン選択手段
23,33 POI選択手段
24,34,44 候補抽出手段
35 関連付け手段
26,36,46 地図データ更新手段

【特許請求の範囲】
【請求項1】
施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段と、
前記地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンを選択するポリゴン選択手段と、
選択された前記施設ポリゴンに関連するPOIを前記地図データ記憶手段から選択するPOI選択手段と、
前記施設ポリゴンに関連するものとして選択された前記POIの名称を解析して前記施設ポリゴンごとの施設名称候補を抽出する候補抽出手段と、
抽出された前記施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付けする関連付け手段と、
を有することを特徴とする地図データ処理装置。
【請求項2】
前記関連付け手段による前記関連付けの根拠となった前記共通性にかかる前記施設名称候補を、前記関連付けされた複数の施設ポリゴンに対応する名称として、前記地図データ記憶手段に記憶されている前記地図データを更新する地図データ更新手段を有することを特徴とする請求項1記載の地図データ処理装置。
【請求項3】
与えられた複数の文字列を、それぞれトークンに分割する分割手段と、
一以上の前記トークンが直接連なって前記文字列の全部又は一部を構成する全てのトークン列について、前記複数の文字列の中で当該トークン列が含まれる文字列数をカウントするカウント手段と、
カウントされた前記文字列数が所定の閾値以上又はより大きいトークン列であって、前記トークン列の中で他のさらに長いトークン列中に含まれるトークン列を除いたトークン列を選択するトークン選択手段と、
選択されたトークン列を抽出結果として出力する結果出力手段と、
を有することを特徴とする請求項1記載の地図データ処理装置。
【請求項4】
前記関連付けされた前記各施設ポリゴンに関連する複数のPOIの名称に基づいて前記結果出力手段により抽出結果として出力された前記トークン列、を前記関連付けされた複数の施設ポリゴンに対応する名称として、前記地図データ記憶手段に記憶されている前記地図データを更新する地図データ更新手段を有することを特徴とする請求項3記載の地図データ処理装置。
【請求項5】
施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンを選択するポリゴン選択ステップと、
選択された前記施設ポリゴンに関連するPOIを前記地図データ記憶手段から選択するPOI選択ステップと、
前記施設ポリゴンに関連するものとして選択された前記POIの名称を解析して前記施設ポリゴンごとの施設名称候補を抽出する候補抽出ステップと、
抽出された前記施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付けする関連付けステップと、
をコンピュータが実行することを特徴とする地図データ生成方法。
【請求項6】
コンピュータを制御するコンピュータ・プログラムであって、
施設ポリゴン及びPOIを含む地図データを記憶している地図データ記憶手段から、互いに近傍に位置する複数の施設ポリゴンを選択するポリゴン選択ステップと、
選択された前記施設ポリゴンに関連するPOIを前記地図データ記憶手段から選択するPOI選択ステップと、
前記施設ポリゴンに関連するものとして選択された前記POIの名称を解析して前記施設ポリゴンごとの施設名称候補を抽出する候補抽出ステップと、
抽出された前記施設名称候補の共通性に基づいて、選択されている複数の施設ポリゴンの全部又は一部を相互に関連付けする関連付けステップと、
をコンピュータに実行させることを特徴とする地図データ生成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate