説明

名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法

【課題】同一法人か否かの判定に有用なコンテンツを容易に抽出できる名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法を提供することを課題とする。
【解決手段】名寄せチェック支援装置40は、確定情報記憶部2及び候補情報記憶部3を参照して、一の法人に属すると確定された又は一の法人に属すると推定された名寄せ対象の双方をキーとして第1のコンテンツを取得するコンテンツ取得手段52と、取得した第1のコンテンツと近似する格納位置の第2のコンテンツを取得し、第1及び第2のコンテンツに記載されている名寄せ対象が一の法人に属するときに、第1のコンテンツの情報を、候補テーブルの名寄せ対象が、名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報テーブルに記録するコンテンツタイプ決定手段53とを有することにより上記課題を解決する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は名寄せチェックを支援する名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法に関する。
【背景技術】
【0002】
データベース(以下、DBという)には、例えば法人テーブルのように、ある法人を表すレコードが複数含まれているものがあった。異なる営業所のレコードがあるなど、異なるレコードが同一法人を表している場合のある法人テーブルには、同一法人を表しているレコードを同定する処理(名寄せ)へのニーズがあった。
【0003】
自動的又は半自動的に名寄せを行う既存の名寄せ技術には、レコード対や複数レコード間の類似度を計算して類似度の高い複数レコードを同一法人と確定し、同一法人と確定された複数レコードに対して中程度の類似度を持つレコードを同一法人候補として出力するものがあった。
【0004】
既存の名寄せ技術を用いた名寄せ処理を行う名寄せプログラムや名寄せ装置では、例えば図1に示すように、法人テーブル1が入力されると、確定テーブル2と候補テーブル3とを出力する。図1は、法人テーブル,確定テーブル及び候補テーブルの一例の構成図である。
【0005】
法人テーブル1は異なるレコードが同一法人を表している場合があるものとする。確定テーブル2は名寄せ処理により同一法人であると確定されたレコードに同じグループIDが付与されている。
【0006】
なお、確定テーブル2は同一法人が無いレコードにも単独でグループIDが付与されている。つまり、確定テーブル2において異なるグループIDが付与されたレコードは別の法人であると確定されたことになる。以下では、確定テーブルの各レコードを確定レコードと呼び、同じグループIDを持つ確定レコードを確定レコード群と呼ぶ。
【0007】
候補テーブル3は、名寄せ処理により同一法人であると確定できなかったが、確定テーブル2で同一法人と確定されている確定レコード群と同一法人の可能性があるレコードに、確定レコード群と同じグループIDが付与されている。以下では、候補テーブルの各レコードを候補レコードと呼ぶ。
【0008】
例えば図1の候補テーブル3のレコードID「007」の候補レコードは、確定テーブル2のレコードID「004」の確定レコードの法人と同一法人の可能性があることを表している。
【0009】
名寄せ処理を行ったDB管理者等のユーザは、名寄せ処理後、候補レコードの名寄せも遂行したい場合、候補レコードと確定レコード群とを閲覧し、人手によって候補レコードと確定レコード群とが同一法人か否かを判定する。例えばユーザは図2に示すGUIを備えたシステム(以下、名寄せチェックシステム)を利用し、人手によって候補レコードと確定レコード群とが同一法人か否かを判定する。
【0010】
図2は人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。ユーザは候補レコード11と確定レコード群12とが同一法人か否かを様々な方法を用いて判定する。例えば候補レコード11と確定レコード群12とが同一法人か否かを判定する方法の一例としては、候補レコード11と確定レコード群12の両者の情報を共に含むウェブページを閲覧することにより、ユーザが同一法人か否かを判定する方法がある。
【0011】
そこで、候補レコード11と確定レコード群12の両者の情報を共に含むウェブページの閲覧を容易とするため、名寄せチェックシステムは候補レコード11と確定レコード群12の両者の情報を含んだクエリを自動的に生成して検索エンジンで検索し、検索結果を例えば図3に示すように提示することが考えられる。
【0012】
図3は候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一例のイメージ図である。クエリ13は候補レコード11と確定レコード群12の両者の情報を含んでいる。検索結果としてリンク情報14で示されたウェブページは候補レコード11と確定レコード群12の両者の情報を含んでいる。
【0013】
しかし、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13により検索を行った場合、検索結果としてリンク情報14で示されるウェブページの数は多くなることがある。したがって、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13により検索を行った場合、ユーザは検索結果としてリンク情報14で示されるウェブページを順に見ていく必要があり、作業に無駄があった。
【0014】
ユーザの作業の無駄を削減するためには、例えば検索結果としてリンク情報14で示されるウェブページを、ウェブページから得ることのできるスコアや信頼度に応じて並び替えること又は抽出することが考えられる。
【0015】
ウェブページに含まれる電話番号や住所の個数を数え、数えた個数をウェブページのスコアとする技術は従来から知られている(例えば特許文献1参照)。また、予め設定されたキーワードがウェブページに含まれるか否かによってウェブページの信頼度を決定する技術も従来から知られている(例えば特許文献2参照)。
【先行技術文献】
【特許文献】
【0016】
【特許文献1】特開2003−108595号公報
【特許文献2】国際公開第2006/027973号
【発明の概要】
【発明が解決しようとする課題】
【0017】
しかし、検索結果としてリンク情報14で示されるウェブページを、ウェブページから得ることのできるスコアや信頼度に応じて並び替え又は抽出するだけでは、同一法人か否かの判定という観点から有用なウェブページの順番が先になるように並び替えること又は抽出することはできないという問題があった。
【0018】
例えばウェブページに含まれる電話番号や住所の個数を数えてウェブページのスコアとする技術では、同一法人か否かの判定という観点から有用なウェブページを抽出することができない。また、予め設定されたキーワードがウェブページに含まれるか否かによってウェブページの信頼度を決定する技術では、同一法人か否かの判定という観点から有用なウェブページを決定するようなキーワードを予め網羅しておくことが現実的でなく、精度の良いキーワードを見つけることも難しい。
【0019】
本発明の一実施形態は、同一法人か否かの判定に有用なコンテンツを容易に抽出できる名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法を提供することを目的とする。
【課題を解決するための手段】
【0020】
上記課題を解決するため、本発明の一実施形態の名寄せチェック支援装置は、名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段とを有する。
【0021】
なお、本発明の一実施形態の構成要素、表現又は構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、データ構造などに適用したものも本発明の態様として有効である。
【発明の効果】
【0022】
本発明の一実施形態によれば、同一法人か否かの判定に有用なコンテンツを容易に抽出できる名寄せチェック支援装置、名寄せチェック支援プログラム及び名寄せチェック支援方法を提供可能である。
【図面の簡単な説明】
【0023】
【図1】法人テーブル,確定テーブル及び候補テーブルの一例の構成図である。
【図2】人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。
【図3】候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一例のイメージ図である。
【図4】候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一実施例のイメージ図である。
【図5】タイプ1のウェブページについて説明するための説明図である。
【図6】タイプ2のウェブページについて説明するための説明図である。
【図7】タイプ3のウェブページについて説明するための説明図である。
【図8】名寄せチェック支援装置の一例のハードウェア構成図である。
【図9】名寄せチェック支援装置の一例の処理ブロック構成図である。
【図10】ウェブページタイプテーブルの一例の構成図である。
【図11】名寄せチェック支援装置の処理手順を表した一例のフローチャートである。
【図12】ステップS3で候補テーブルから取り出す候補レコードを表した一例の説明図である。
【図13】ステップS4で確定テーブルから取り出す確定レコード群を表した一例の説明図である。
【図14】ステップS5で取得したウェブページ群を表した一例の説明図である。
【図15】ステップS2〜S6で形成される処理ループの1周目にステップS6で決定した各ウェブページのタイプを表す一例の説明図である。
【図16】人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。
【図17】ステップS5の処理手順を表した一例のフローチャートである。
【図18】候補レコード及び確定レコード群からクエリを生成する処理を説明するための説明図である。
【図19】ステップS6の処理手順を表した一例のフローチャートである。
【図20】ステップS64の処理手順を表した一例のフローチャートである。
【図21】ステップS64の処理の第1のフローを説明するための説明図である。
【図22】ステップS64の処理の第2のフローを説明するための説明図である。
【図23】ステップS64の処理の第3のフローを説明するための説明図である。
【図24】ステップS64の処理の第4のフローを説明するための説明図である。
【図25】ステップS64の処理の第5のフローを説明するための説明図である。
【図26】ステップS64の処理の第6のフローを説明するための説明図である。
【発明を実施するための形態】
【0024】
次に、本発明を実施するための形態を、以下の実施例に基づき図面を参照しつつ説明していく。
【0025】
図4は候補レコードと確定レコード群の両者の情報を含んだクエリによる検索結果を含むGUIの一実施例のイメージ図である。本実施例の名寄せチェック支援装置は、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13を自動的に生成して検索エンジンで検索し、検索結果を得る。
【0026】
名寄せチェック支援装置は、検索結果のウェブページの中から、同一法人か否かの判定に有用なウェブページのリンク情報20を抽出し、ユーザに提示する。なお、リンク情報とはURLなどのコンピュータ上の格納位置を示す情報である。ウェブページはコンテンツの一例である。
【0027】
同一法人か否かの判定に有用なウェブページのリンク情報20には同一法人の情報のみが載っているウェブページ(以下、タイプ1のウェブページという)のリンク情報21と同一法人の情報が重複して載っていないウェブページ(以下、タイプ2のウェブページという)のリンク情報22とが含まれる。
【0028】
なお、タイプ1のウェブページは同一法人と判定しやすい、言い換えれば名寄せ可と判定しやすいウェブページである。また、タイプ2のウェブページは同一法人でないと判定しやすい、言い換えれば名寄せ不可と判定しやすいウェブページである。
【0029】
そこで、ユーザの作業の無駄を削減するため、名寄せチェック支援装置はユーザが検索結果のウェブページをやみくもに見ることがないように、検索結果のウェブページの中からタイプ1及び2のウェブページを同定してユーザに提示している。
【0030】
図5はタイプ1のウェブページについて説明するための説明図である。ここではSSS社の店舗リストのウェブページ31がタイプ1のウェブページであるとする。図5のGUIにはタイプ1のウェブページ31のリンク情報21が含まれる。SSS社の店舗リストのウェブページ31に載っているSSS銀座店,TTT有楽町店及びTTT池袋店は何れもSSS社の店舗である。
【0031】
このように、SSS社の店舗リストのウェブページ31は、SSS社の情報(同一法人の情報)のみが載っている。したがって、ユーザはタイプ1のウェブページとしてSSS社の店舗リストのウェブページ31を見ることで、候補レコード11及び確定レコード群12の法人が同一法人であると判定できる。
【0032】
図6はタイプ2のウェブページについて説明するための説明図である。ここでは銀座周辺W会法人リストのウェブページ32がタイプ2のウェブページであるとする。図6のGUIにはタイプ2のウェブページ32のリンク情報22が含まれる。銀座周辺W会法人リストのウェブページ32に載っているSSS銀座店,TTT有楽町店及びUUU銀座店は何れも別法人の店舗である。
【0033】
このように、銀座周辺W会法人リストのウェブページ32は、同一法人の情報が重複して載っていない。したがって、ユーザはタイプ2のウェブページとして銀座周辺W会法人リストのウェブページ32を見ることで、候補レコード11及び確定レコード群12の法人が同一法人でないと判定できる。
【0034】
図7はタイプ3のウェブページについて説明するための説明図である。ここでは銀座周辺店舗リストのウェブページ33がタイプ3のウェブページであるとする。ここでタイプ3のウェブページとはタイプ1のウェブページでもタイプ2のウェブページでもないウェブページとする。タイプ3のウェブページは、複数法人の情報が載っていると共に、同一法人の情報が重複して載っているウェブページである。
【0035】
図7のGUIにはタイプ3のウェブページ33のリンク情報23が含まれる。銀座周辺店舗リストのウェブページ33に載っているUUU銀座店とVVV有楽町店とは同一法人の店舗である。また、銀座周辺店舗リストのウェブページ33に載っているXXX有楽町店はUUU銀座店及びVVV有楽町店の法人と別法人の店舗である。
【0036】
このように、銀座周辺店舗リストのウェブページ33は、複数法人の情報が載っていると共に、同一法人の情報が重複して載っている。したがって、ユーザはタイプ3のウェブページである銀座周辺店舗リストのウェブページ33を見ても、同一法人か否かを判定するための参考情報として適していないため、候補レコード11及び確定レコード群12の法人が同一法人であるか否かを判定できない。
【0037】
このように、本実施例の名寄せチェック支援装置は、候補レコード11と確定レコード群12の両者の情報を含んだクエリ13を生成し、クエリ13によりウェブ検索された検索結果のウェブページ群の各ウェブページを、タイプ1のウェブページ,タイプ2のウェブページ及びタイプ3のウェブページに、自動的に同定するものである。
【0038】
図8は名寄せチェック支援装置の一例のハードウェア構成図である。名寄せチェック支援装置40は、バス49で相互に接続された入力装置41,出力装置42,ドライブ装置43,補助記憶装置44,主記憶装置45,演算処理装置46及びインターフェース装置47を有する。
【0039】
入力装置41はキーボードやマウス等である。入力装置41は、各種信号を入力するために用いられる。出力装置42はディスプレイ装置等である。出力装置42は、各種ウインドウやデータ等を表示するために用いられる。インターフェース装置47は、モデム又はLANカード等である。インターフェース装置47は、ネットワークに接続するために用いられる。
【0040】
名寄せチェック支援装置40を制御する名寄せチェック支援プログラムは記録媒体48の配布やネットワークからのダウンロードなどによって提供される。名寄せチェック支援プログラムは、補助記憶装置44にインストールされる。また、補助記憶装置44は名寄せチェック支援プログラムの他、必要なファイル,データ等を格納する。
【0041】
主記憶装置45は、名寄せチェック支援装置40の起動時に補助記憶装置44から名寄せチェック支援プログラムを読み出して格納する。演算処理装置46は主記憶装置45に格納された名寄せチェック支援プログラムに従って、後述するような各種処理を実現している。
【0042】
図9は名寄せチェック支援装置の一例の処理ブロック構成図である。名寄せチェック支援装置40は全体処理部51,ウェブページ群取得部52,ウェブページ群タイプ決定部53を有する。ウェブページ群タイプ決定部53はウェブページタイプ決定部54を有している。
【0043】
名寄せチェック支援装置40は、例えば図1の法人テーブル1を名寄せ処理した名寄せ結果である確定テーブル2と候補テーブル3とが入力される。なお、各テーブルはDBの形式の一例であり、上記した補助記憶装置44又は主記憶装置45に記憶される。
【0044】
名寄せチェック支援装置40の全体処理部51は、ウェブページ群取得部52及びウェブページ群タイプ決定部53を制御し、候補テーブル3中の各候補レコードについて以下の処理を行わせる。
【0045】
ウェブページ群取得部52は、候補レコードと同じグループIDを持った確定レコード群を確定テーブル2から読み出す。ウェブページ群取得部52は候補レコード及び確定レコード群の両者の情報を含んだクエリを作成し、検索エンジン55で検索する。以下ではクエリにより検索された検索結果の複数のウェブページをウェブページ群と呼ぶ。
【0046】
ウェブページ群タイプ決定部53は、ウェブページタイプ決定部54を制御し、ウェブページ群中の各ウェブページについて以下の処理を行う。ウェブページタイプ決定部54は処理対象として選択された選択ウェブページがタイプ1又はタイプ2のウェブページである可能性があるか否かを後述のように調べる。
【0047】
ウェブページタイプ決定部54は、選択ウェブページがタイプ1又はタイプ2のウェブページである可能性があれば、選択ウェブページの類似ウェブページをインターネット56から取得する。なお、ウェブページタイプ決定部54は選択ウェブページの類似ウェブページを、格納位置を示す文字列の類似で判断する。URLのように格納位置を示す文字列が階層化されている場合には、上位階層を示す文字列が一致するが、下位階層の文字列が異なるものを類似と判断する。例えば、選択ウェブページの類似ウェブページは選択ウェブページのURLに対して末尾のファイル名が異なるURL(例えば「http://www.aaa.z/12.html」に対して「http://www.aaa.z/13.html」)を持つウェブページである。
【0048】
ウェブページタイプ決定部54は、選択ウェブページがタイプ1のウェブページである可能性があれば、類似ウェブページが全てタイプ1か調べる。類似ウェブページが全てタイプ1であれば、ウェブページタイプ決定部54は選択ウェブページもタイプ1のウェブページである可能性が高いと判定し、選択ウェブページをタイプ1のウェブページと決定する。
【0049】
ウェブページタイプ決定部54は、選択ウェブページがタイプ2のウェブページである可能性があれば、類似ウェブページが全てタイプ2か調べる。類似ウェブページが全てタイプ2であれば、ウェブページタイプ決定部54は選択ウェブページもタイプ2のウェブページである可能性が高いと判定し、選択ウェブページをタイプ2のウェブページと決定する。
【0050】
ウェブページタイプ決定部54は、選択ウェブページをタイプ1のウェブページともタイプ2のウェブページとも決定しなければ、選択ウェブページをタイプ3のウェブページと決定する。
【0051】
ウェブページ群タイプ決定部53はウェブページ群中の各ウェブページがタイプ1〜3の何れのウェブページであるかを決定したあと、図10に示すようなウェブページタイプテーブルに記録する。
【0052】
図10はウェブページタイプテーブルの一例の構成図である。図10のウェブページタイプテーブル57はデータ項目として、候補レコードのレコードID,ウェブページのタイプ,ウェブページのURLを有する。なお、ウェブページタイプテーブル57はタイプ3のウェブページに関する記録を省略してもよい。
【0053】
ウェブページタイプテーブル57は例えば図4に示すようなGUIを作成するために利用される。名寄せチェック支援装置40はGUIを作成する画面作成部を設ければ、ウェブページタイプテーブル57を利用して、タイプ1の選択ウェブページのリンク情報21とタイプ2の選択ウェブページのリンク情報22とを参考情報として含む図4に示すようなGUIを作成できる。なお、名寄せチェック支援装置40はウェブページタイプテーブル57を他の装置へ出力し、他の装置に図4に示すようなGUIを作成させてもよい。
【0054】
このように、名寄せチェック支援装置40は法人テーブルを名寄せ処理した名寄せ結果である確定テーブル2と候補テーブル3とを利用して、タイプを同定したいウェブページの類似ウェブページ群が全てタイプ1のウェブページか、全てタイプ2のウェブページかを調べる。
【0055】
類似ウェブページ群が全てタイプ1のウェブページであれば名寄せチェック支援装置40はタイプを同定したいウェブページのタイプをタイプ1と決定する。類似ウェブページ群が全てタイプ2のウェブページであれば、名寄せチェック支援装置40はタイプを同定したいウェブページのタイプをタイプ2と決定する。
【0056】
本実施例の名寄せチェック支援装置40は、ウェブサイトの管理者が複数の法人情報を載せる複数のウェブページを作成する際、類似ウェブページ間のタイプが同じとなるように作成するケースが、ある程度以上存在することを仮定している。この仮定により、名寄せチェック支援装置40はウェブページタイプ決定部54において、上記のウェブサイトに属するウェブページのタイプを決定できる。
【0057】
なお、類似ウェブページ間のタイプが同じとなるように作成するケースとして、例えばタイプ1の複数のウェブページを含むウェブサイトとしては、1つの法人の店舗リストを1つのウェブページに記載し、複数法人分のウェブページをまとめたウェブサイトが挙げられる。
【0058】
また、タイプ2の複数のウェブページを含むウェブサイトとしては、例えば、ある区域に存在する法人を名称の頭文字別に、あ行の法人リスト,か行の法人リスト,……,わ行の法人リストのように別のウェブページにしてまとめたウェブサイトが挙げられる。
【0059】
以下では、本実施例の名寄せチェック支援装置40の処理手順について説明する。図11は名寄せチェック支援装置の処理手順を表した一例のフローチャートである。
【0060】
ステップS1に進み、全体処理部51は確定テーブル2と候補テーブル3とを入力として受け付ける。ここでは、図1に示す確定テーブル2及び候補テーブル3を例として説明する。なお、図1に示す確定テーブル2及び候補テーブル3は同一法人の店舗を名寄せ対象とする例を表したものであるが、同一法人の支店,営業所,工場などを名寄せ対象とするものであってもよい。
【0061】
また、図1に示す確定テーブル2及び候補テーブル3は名称,電話番号をデータ項目として有しているが、住所や社長名など、ウェブページ上で名寄せ対象と関連付けられて表示される情報をデータ項目として有していればよい。
【0062】
ステップS2に進み、全体処理部51は図1の候補テーブル3に未処理の候補レコードがあるか否かを判定する。全体処理部51は候補テーブル3に未処理の候補レコードがあれば、ステップS3に進み、候補テーブル3から未処理の候補レコードを1つ取り出す。全体処理部51は候補テーブル3に未処理の候補レコードがなければ、図11のフローチャートの処理を終了する。
【0063】
図12はステップS3で候補テーブルから取り出す候補レコードを表した一例の説明図である。図12はステップS2〜S6で形成される処理ループの1〜3周目にステップS3で取り出す候補レコードを具体的に表している。
【0064】
ステップS4に進み、全体処理部51は候補レコードと同じグループIDを持つ確定レコードを確定テーブル2から全て取り出し、確定レコード群とする。
【0065】
図13はステップS4で確定テーブルから取り出す確定レコード群を表した一例の説明図である。図13はステップS2〜S6で形成される処理ループの1〜3周目にステップS4で取り出す確定レコード群を具体的に表している。
【0066】
ステップS5に進み、全体処理部51はウェブページ群取得部52を制御し、取り出した候補レコード及び確定レコード群を入力として、クエリを生成し、クエリを用いて検索エンジン55で検索して、検索結果から一定数のウェブページ群を取得する。図14はステップS5で取得したウェブページ群を表した一例の説明図である。
【0067】
ステップS6に進み、全体処理部51はウェブページ群タイプ決定部53を制御し、ウェブページ群タイプ決定部53はウェブページタイプ決定部54を制御し、ウェブページ群,確定レコード群及び確定テーブルを用いて、ウェブページ群の各ウェブページに対してタイプ1〜3を決定する。ウェブページ群タイプ決定部53は決定したウェブページ群の各ウェブページのタイプをウェブページタイプテーブル57に記録する。
【0068】
図15はステップS2〜S6で形成される処理ループの1周目にステップS6で決定した各ウェブページのタイプを表す一例の説明図である。なお、ステップS2〜S6で形成される処理ループの2,3周目にステップS6で決定した各ウェブページのタイプについては省略する。
【0069】
ウェブページタイプテーブル57は例えば図16に示すようなGUIを作成するために利用される。図16は人手によって候補レコードと確定レコード群とが同一法人か否かを判定するGUIの一例のイメージ図である。
【0070】
名寄せチェック支援装置40はGUIを作成する画面作成部を設ければ、候補レコード11,確定レコード群12,ウェブページタイプテーブル57を利用することで、タイプ1のウェブページのリンク情報21とタイプ2のウェブページのリンク情報22とを参考情報として含む図16に示すようなGUIを作成できる。なお、名寄せチェック支援装置40はウェブページタイプテーブル57を他の装置へ出力し、他の装置に図16に示すようなGUIを作成させてもよい。
【0071】
図17はステップS5の処理手順を表した一例のフローチャートである。ステップS51に進み、ウェブページ群取得部52はステップS3,S4で取り出した候補レコード及び確定レコード群を入力として受け付ける。なお、ウェブページ群取得部52はステップS2〜S6で形成される処理ループの1周目に図18(A)に示す候補レコード及び確定レコード群を受け付け、2周目に図18(B)に示す候補レコード及び確定レコード群を受け付ける。図18ではステップS2〜S6で形成される処理ループの3周目に受け付ける候補レコード及び確定レコード群を省略している。図18は、候補レコード及び確定レコード群からクエリを生成する処理を説明するための説明図である。
【0072】
ステップS52に進み、ウェブページ群取得部52は受け付けた候補レコード及び確定レコード群からクエリを生成する。クエリは、候補レコードから得られる部分クエリと確定レコード群から得られる部分クエリとをAND(論理積)で繋げて生成される。
【0073】
例えば候補レコードから得られる部分クエリは、名称と電話番号とをANDで繋げて生成される。また、確定レコード群から得られる部分クエリは、各確定レコードの名称と電話番号とをANDで繋げた各確定レコードの部分クエリを更にOR(論理和)で繋げて生成される。
【0074】
なお、ウェブページ群取得部52は、ステップS2〜S6で形成される処理ループの1周目に図18(A)に示したクエリを生成し、2周目に図18(B)に示したクエリを生成する。
【0075】
ステップS53に進み、ウェブページ群取得部52は生成したクエリを用いて検索エンジン55で検索を行う。
【0076】
ステップS54に進み、ウェブページ群取得部52は検索結果から一定数のウェブページ群を取得する。なお、検索結果から取得するウェブページ群の数はユーザが予め指定しておいてもよいし、検索結果の全ウェブページを使用するようにしてもよい。
【0077】
また、ステップS5の処理において、候補レコード及び確定レコード群のデータ項目として「住所」を利用する場合は、以下のように行われる。ステップS52においてクエリを生成する場合は、候補レコード及び確定レコード群の住所の文字列を、そのまま使用すると、検索エンジン55が完全一致の検索結果を返す仕様のとき、ステップS53において完全一致の検索結果が返される。
【0078】
例えば「東京都港区東新橋1−5−2」と「東京都港区東新橋一丁目5番2号」とのような住所の異表記の問題のために、検索結果からウェブページ群を十分に取得できない可能性がある。
【0079】
そこで、ステップS5の処理において、候補レコード及び確定レコード群のデータ項目として「住所」を利用する場合は、以下のような対応を行う。第1の対応は、ステップS53で用いる検索エンジン55を、完全一致以外に曖昧検索も自動的に行って検索結果を返す仕様とする。また、第2の対応は、住所クレンジング(住所表記の正規化)を行う技術を適用し、住所のクレンジングを行う。住所のクレンジング後、ウェブページ群取得部52は予め定めた適当な階層から適当な階層(例えば都道府県名より後から町名)までに短縮してクエリに使用する。例えば「東京都港区東新橋1−5−2」と「東京都港区東新橋一丁目5番2号」との異表記の例では「港区東新橋」に短縮してクエリに使用する。
【0080】
住所クレンジングを行う技術の一例として、特許第4185399号には、住所を階層ごとに区切り、コードを割り当てる技術が示されている。例えば特許第4185399号に示されている技術は「東京都荒川区南千住1−10−1」に対して「13/118/007/001/010/0001」が得られる。特許第4185399号に示されている技術を利用すれば、住所を適当な階層から適当な階層までに短縮可能であるし、コードから文字列に変換できることは自明であるため、短縮した住所文字列を生成することも可能である。
【0081】
図19はステップS6の処理手順を表した一例のフローチャートである。ステップS61に進み、ウェブページ群タイプ決定部53はウェブページ群,確定レコード群及び確定テーブルを入力として受け付ける。
【0082】
ステップS62に進み、ウェブページ群タイプ決定部53はウェブページ群に未処理のウェブページがあるか否かを判定する。ウェブページ群に未処理のウェブページがあればウェブページ群タイプ決定部53はステップS63に進み、未処理のウェブページを一つ選択して選択ウェブページとする。なお、ウェブページ群に未処理のウェブページがなければウェブページ群タイプ決定部53は図19のフローチャートの処理を終了する。
【0083】
ステップS64に進み、ウェブページ群タイプ決定部53はウェブページタイプ決定部54を制御し、選択ウェブページ,確定レコード群及び確定テーブルを入力として、選択ウェブページがタイプ1,タイプ2,タイプ3の何れであるかを決定する。ウェブページ群タイプ決定部53は決定した選択ウェブページのタイプをウェブページタイプテーブル57に記録する。
【0084】
図20はステップS64の処理手順を表した一例のフローチャートである。ステップS6401に進み、ウェブページタイプ決定部54は選択ウェブページ,確定レコード群及び確定テーブルを入力として受け付ける。
【0085】
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブルを利用して選択ウェブページに複数法人の情報が現れているか否かを判定する。なお、ステップS6402の処理の詳細は後述する。選択ウェブページに複数法人の情報が現れていなければ選択ウェブページがタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページの類似ウェブページを複数取得して類似ウェブページ群とする。なお、ステップS6403の処理の詳細は後述する。
【0086】
ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54はステップS6402と同様、確定テーブルを利用して類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。なお、ステップS6404の処理の詳細は後述する。
【0087】
ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在しなければステップS6405に進み、選択ウェブページをタイプ1と決定する。
【0088】
また、ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在すれば選択ウェブページがタイプ1のウェブページである可能性がないため、ステップS6408に進む。
【0089】
ステップS6402において、選択ウェブページに複数法人の情報が現れていれば選択ウェブページがタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、確定テーブルを利用して選択ウェブページに2つ以上の情報が現れる法人が存在するか否かを判定する。なお、ステップS6406の処理の詳細は後述する。
【0090】
ステップS6406において、選択ウェブページに2つ以上の情報が現れる法人が存在しなければ選択ウェブページがタイプ2のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6407に進み、ステップS6403と同様、選択ウェブページの類似ウェブページを複数取得して類似ウェブページ群とする。
【0091】
ステップS6408に進み、ウェブページタイプ決定部54はステップS6406と同様、確定テーブルを利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。なお、ステップS6408の処理の詳細は後述する。ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在しなければステップS6409に進み、選択ウェブページをタイプ2と決定する。
【0092】
また、ステップS6408において、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在すればタイプ2のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6410に進み、選択ウェブページをタイプ3と決定する。
【0093】
また、ステップS6406において、選択ウェブページに2つ以上の情報が現れる法人が存在すれば選択ウェブページがタイプ2のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6410に進み、選択ウェブページをタイプ3と決定する。
【0094】
図20に示したフローチャートは、6通りのフローを有している。そこで、以下では6つの選択ウェブページを用いて6通りのフローを順次説明する。なお、以下では説明に使用しないフローや確定テーブルの確定レコードについて図示や説明を省略する。
【0095】
図21はステップS64の処理の第1のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ101,確定レコード群100及び確定テーブル2を入力として受け付ける。
【0096】
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ101に複数法人の情報(名称、電話番号)が現れているか否かを調べる。
【0097】
選択ウェブページ101に複数法人の情報が現れていなければ、言い換えれば単独法人の情報しか現れていなければ、ウェブページタイプ決定部54はタイプ1のウェブページである可能性があると判定する。また、選択ウェブページ101に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。
【0098】
具体的に、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が選択ウェブページ101に現れるか否かをチェックする。異なるグループIDを持つ、即ち異なる法人の確定レコードの情報が選択ウェブページ101に現れれば、ウェブページタイプ決定部54は選択ウェブページ101に複数法人の情報が現れていると判定する。
【0099】
図21の例では、確定テーブル2の全確定レコードのうち、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」のみが選択ウェブページ101に現れている。言い換えれば、選択ウェブページ101には単独法人の情報しか現れていない。したがって、ウェブページタイプ決定部54は選択ウェブページ101に複数法人の情報が現れていないと判定する。
【0100】
選択ウェブページ101がタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページ101からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ101のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ102,103として取得する。なお、リンクを辿る回数は、ユーザが予め指定しておいてもよい。ウェブページタイプ決定部54は取得した類似ウェブページ102及び103を類似ウェブページ群とする。
【0101】
ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在しなければ、全ての類似ウェブページがタイプ1であると判定する。
【0102】
なお、ステップS6402における処理と同様に、各類似ウェブページの判定において、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が類似ウェブページに現れるか否かをチェックする。異なるグループIDを持つ、即ち異なる法人の確定レコードの情報が類似ウェブページに現れれば、ウェブページタイプ決定部54は類似ウェブページに複数法人の情報が現れていると判定する。
【0103】
図21の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「003」の確定レコードの情報である名称「RRR青山店」及び電話番号「03−xxx1−0303」とが類似ウェブページ102に現れている。レコードID「002」及び「003」の確定レコードが共にグループID「2」であるので、ウェブページタイプ決定部54は類似ウェブページ102に複数法人の情報が現れていないと判定する。なお、ウェブページタイプ決定部54は類似ウェブページ103も類似ウェブページ102と同様、複数法人の情報が現れていないと判定する。
【0104】
ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在しない、言い換えれば全ての類似ウェブページ102,103がタイプ1であることから、ステップS6405に進み、選択ウェブページ101もタイプ1であると決定する。
【0105】
図22はステップS64の処理の第2のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ104,確定レコード群100及び確定テーブル2を入力として受け付ける。
【0106】
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ104に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ104に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。
【0107】
具体的に、ウェブページタイプ決定部54は、異なるグループIDを持つ、即ち異なる法人の確定レコードの情報が選択ウェブページ104に現れれば、ウェブページタイプ決定部54は選択ウェブページ104に複数法人の情報が現れていると判定する。
【0108】
図22の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ104に現れている。レコードID「002」及び「004」の確定レコードのグループIDは、それぞれ「2」及び「3」であるため、選択ウェブページ104には複数法人の情報が現れている。
【0109】
選択ウェブページ104がタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、選択ウェブページ104に2つ以上の情報が現れる法人が存在するか否かを、確定テーブル2を利用して判定する。
【0110】
選択ウェブページ104に2つ以上の情報が現れる法人が存在していなければ、ウェブページタイプ決定部54はタイプ2のウェブページの可能性があると判定する。また、選択ウェブページ104に2つ以上の情報が現れる法人が存在していれば、ウェブページタイプ決定部54は、タイプ2のウェブページの可能性がないと判定する。
【0111】
具体的に、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が選択ウェブページ104に現れるか否かをチェックする。同じグループIDを持つ、即ち同一法人の確定レコードの情報が2つ以上、選択ウェブページ104に現れれば、ウェブページタイプ決定部54は選択ウェブページ104に2つ以上の情報が現れる法人が存在していると判定する。
【0112】
図22の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ104に現れている。レコードID「002」及び「004」の確定レコードのグループIDは、それぞれ「2」及び「3」である。
【0113】
したがって、選択ウェブページ104には同一法人の情報が2つ以上現れていないことになる。ウェブページタイプ決定部54は選択ウェブページ104に同一法人の情報が2つ以上現れていないと判定する。
【0114】
選択ウェブページ104がタイプ2のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6407に進み、選択ウェブページ104からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ104のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ105,106として取得する。なお、リンクを辿る回数は、ユーザが予め指定しておいてもよい。ウェブページタイプ決定部54は取得した類似ウェブページ105及び106を類似ウェブページ群とする。
【0115】
ステップS6407に続いてステップS6408に進み、ウェブページタイプ決定部54はステップS6406と同様、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。
【0116】
ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在しなければ、全ての類似ウェブページがタイプ2であると判定する。
【0117】
なお、ステップS6406における処理と同様に、各類似ウェブページの判定において、ウェブページタイプ決定部54は、確定テーブル2の各確定レコードについて名称及び電話番号の文字列の両方が類似ウェブページに現れるか否かをチェックする。同じグループIDを持つ、即ち同一法人の確定レコードの情報が2つ以上、類似ウェブページに現れれば、ウェブページタイプ決定部54は類似ウェブページに2つ以上の情報が現れる法人が存在していると判定する。
【0118】
図22の例では、類似ウェブページ105に、レコードID「009」の確定レコードの情報である名称「YYY有楽町店」及び電話番号「03−xxx3−0909」と、レコードID「010」の確定レコードの情報である名称「ZZZ有楽町店」及び電話番号「03−xxx3−1010」とが現れている。
【0119】
レコードID「009」及び「010」の確定レコードがグループID「6」及び「7」であるので、ウェブページタイプ決定部54は類似ウェブページ105に2つ以上の情報が現れる法人が存在していないと判定する。なお、ウェブページタイプ決定部54は類似ウェブページ106も類似ウェブページ105と同様、2つ以上の情報が現れる法人が存在していないと判定する。
【0120】
ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在していない、言い換えれば全ての類似ウェブページ105,106がタイプ2であることから、ステップS6409に進み、選択ウェブページ104もタイプ2であると決定する。
【0121】
図23はステップS64の処理の第3のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ107,確定レコード群100及び確定テーブル2を入力として受け付ける。
【0122】
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ107に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ107に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。
【0123】
図23の例では、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」と、レコードID「003」の確定レコードの情報である名称「RRR青山店」及び電話番号「03−xxx1−0303」と、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ107に現れている。
【0124】
レコードID「002」,「003」及び「004」の確定レコードのグループIDは、それぞれ「2」,「2」及び「3」である。したがって、選択ウェブページ107にはグループID「2」,「3」の確定レコードの情報が現れている、即ち複数法人の情報が現れている。
【0125】
選択ウェブページ107がタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、選択ウェブページ107に2つ以上の情報が現れる法人が存在するか否かを、確定テーブル2を利用して判定する。ウェブページタイプ決定部54は、選択ウェブページ107に2つ以上の情報が現れる法人が存在していれば、タイプ2のウェブページの可能性がないと判定する。
【0126】
同じグループIDを持つ、即ち同一法人の確定レコードの情報が2つ以上、選択ウェブページ107に現れれば、ウェブページタイプ決定部54は選択ウェブページ107に2つ以上の情報が現れる法人が存在すると判定する。
【0127】
図23の例では、上記したように、レコードID「002」,「003」及び「004」の確定レコードの情報が選択ウェブページ107に現れている。レコードID「002」,「003」及び「004」の確定レコードのグループIDは、それぞれ「2」,「2」及び「3」である。
【0128】
したがって、選択ウェブページ107には同一法人(グループID「2」の法人)の情報が2つ以上現れていることになる。ウェブページタイプ決定部54は選択ウェブページ107に同一法人の情報が2つ以上現れていると判定する。選択ウェブページ107がタイプ2のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6410に進み、選択ウェブページをタイプ3と決定する。
【0129】
図24はステップS64の処理の第4のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ108,確定レコード群100及び確定テーブル2を入力として受け付ける。
【0130】
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ108に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ108に複数法人の情報が現れていなければ、ウェブページタイプ決定部54はタイプ1のウェブページの可能性があると判定する。
【0131】
図24の例では、レコードID「004」の確定レコードの情報である名称「SSS銀座店」及び電話番号「03−xxx2−0404」が選択ウェブページ108に現れているため、言い換えれば単独法人の情報しか現れていない。したがって、ウェブページタイプ決定部54は選択ウェブページ108に複数法人の情報が現れていないと判定する。
【0132】
選択ウェブページ108がタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページ108からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ108のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ109,110として取得する。なお、ウェブページタイプ決定部54は取得した類似ウェブページ109及び110を類似ウェブページ群とする。
【0133】
ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在すれば選択ウェブページがタイプ1のウェブページである可能性がないため、ステップS6408に進む。
【0134】
図24の例では、レコードID「009」の確定レコードの情報である名称「YYY有楽町店」及び電話番号「03−xxx3−0909」と、レコードID「010」の確定レコードの情報である名称「ZZZ有楽町店」及び電話番号「03−xxx3−1010」とが類似ウェブページ109に現れている。レコードID「009」及び「010」の確定レコードがそれぞれグループID「6」及び「7」であるので、ウェブページタイプ決定部54は類似ウェブページ109に複数法人の情報が現れていると判定する。
【0135】
ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在することから、ステップS6408に進み、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。
【0136】
ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在しなければ、全ての類似ウェブページがタイプ2であると判定する。
【0137】
図24の例では、類似ウェブページ109に、レコードID「009」の確定レコードの情報である名称「YYY有楽町店」及び電話番号「03−xxx3−0909」と、レコードID「010」の確定レコードの情報である名称「ZZZ有楽町店」及び電話番号「03−xxx3−1010」とが現れている。
【0138】
レコードID「009」及び「010」の確定レコードがグループID「6」及び「7」であるので、ウェブページタイプ決定部54は類似ウェブページ109に2つ以上の情報が現れる法人が存在していないと判定する。なお、ウェブページタイプ決定部54は類似ウェブページ110も類似ウェブページ109と同様、2つ以上の情報が現れる法人が存在していないと判定する。
【0139】
ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在していない、言い換えれば全ての類似ウェブページ109,110がタイプ2であることから、ステップS6409に進み、選択ウェブページ108もタイプ2であると決定する。
【0140】
図25はステップS64の処理の第5のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ111,確定レコード群100及び確定テーブル2を入力として受け付ける。
【0141】
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ111に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ111に複数法人の情報が現れていなければ、ウェブページタイプ決定部54はタイプ1のウェブページの可能性があると判定する。
【0142】
図25の例では、選択ウェブページ111が図24の選択ウェブページ108と同一である。したがって、ウェブページタイプ決定部54は選択ウェブページ111に複数法人の情報が現れていないと判定する。
【0143】
選択ウェブページ111がタイプ1のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6403に進み、選択ウェブページ111からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ111のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ112,113として取得する。なお、ウェブページタイプ決定部54は取得した類似ウェブページ112及び113を類似ウェブページ群とする。
【0144】
ステップS6403に続いてステップS6404に進み、ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在するか否かを判定する。ウェブページタイプ決定部54は類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在すれば選択ウェブページがタイプ1のウェブページである可能性がないため、ステップS6408に進む。
【0145】
図25の例では、レコードID「001」の確定レコードの情報である名称「QQQ渋谷店」及び電話番号「03−xxx1−0101」と、レコードID「002」の確定レコードの情報である名称「RRR渋谷店」及び電話番号「03−xxx1−0202」とが類似ウェブページ113に現れている。レコードID「001」及び「002」の確定レコードがそれぞれグループID「1」及び「2」であるので、ウェブページタイプ決定部54は類似ウェブページ113に複数法人の情報が現れていると判定する。
【0146】
ウェブページタイプ決定部54は、類似ウェブページ群に複数法人の情報が現れている類似ウェブページが存在することから、ステップS6408に進み、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。
【0147】
ウェブページタイプ決定部54は、類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在すれば、選択ウェブページ111がタイプ2のウェブページである可能性がないと判定する。
【0148】
図25の例では、類似ウェブページ112に、レコードID「005」の確定レコードの情報である名称「UUU銀座店」及び電話番号「03−xxx2−0505」と、レコードID「006」の確定レコードの情報である名称「VVV有楽町店」及び電話番号「03−xxx3−0606」とが現れている。
【0149】
レコードID「005」及び「006」の確定レコードが共にグループID「4」であるので、ウェブページタイプ決定部54は類似ウェブページ112に2つ以上の情報が現れる法人が存在していると判定する。
【0150】
ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在していることから、ステップS6410に進み、選択ウェブページ111をタイプ3と決定する。
【0151】
図26はステップS64の処理の第6のフローを説明するための説明図である。ステップS6401に進み、ウェブページタイプ決定部54は、選択ウェブページ114,確定レコード群100及び確定テーブル2を入力として受け付ける。
【0152】
ステップS6402に進み、ウェブページタイプ決定部54は確定テーブル2を利用して選択ウェブページ114に複数法人の情報(名称、電話番号)が現れているか否かを調べる。選択ウェブページ114に複数法人の情報が現れていれば、ウェブページタイプ決定部54は、タイプ1のウェブページの可能性がないと判定する。
【0153】
図26の例では、選択ウェブページ114が図22の選択ウェブページ104と同一である。したがって、ウェブページタイプ決定部54は選択ウェブページ114に複数法人の情報が現れていると判定する。
【0154】
選択ウェブページ114がタイプ1のウェブページである可能性がないため、ウェブページタイプ決定部54はステップS6406に進み、選択ウェブページ114に2つ以上の情報が現れる法人が存在するか否かを、確定テーブル2を利用して判定する。
【0155】
選択ウェブページ114に2つ以上の情報が現れる法人が存在していなければ、ウェブページタイプ決定部54はタイプ2のウェブページの可能性があると判定する。図26の例では、選択ウェブページ114が図22の選択ウェブページ104と同一である。したがって、ウェブページタイプ決定部54は選択ウェブページ114に同一法人の情報が2つ以上現れていないと判定する。
【0156】
選択ウェブページ114がタイプ2のウェブページである可能性があるため、ウェブページタイプ決定部54はステップS6407に進み、選択ウェブページ114からリンクを一定回数辿って得られるウェブページのうち、選択ウェブページ114のURLに対して末尾のファイル名が異なるURLを持つウェブページを類似ウェブページ115,116として取得する。なお、ウェブページタイプ決定部54は取得した類似ウェブページ115及び116を類似ウェブページ群とする。
【0157】
ステップS6407に続いてステップS6408に進み、ウェブページタイプ決定部54はステップS6406と同様、確定テーブル2を利用して類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在するか否かを判定する。
【0158】
ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在する類似ウェブページが存在すれば、選択ウェブページ114がタイプ2のウェブページである可能性がないと判定する。
【0159】
図26の例では、類似ウェブページ115,116が図25の類似ウェブページ112,113と同一である。したがって、ウェブページタイプ決定部54は類似ウェブページ115に2つ以上の情報が現れる法人が存在していると判定する。
【0160】
ウェブページタイプ決定部54は類似ウェブページ群に2つ以上の情報が現れる法人が存在していることから、ステップS6410に進み、選択ウェブページ114をタイプ3と決定する。
【0161】
なお、ステップS6402,S6404,S6406,S6408の処理において、候補レコード及び確定レコード群のデータ項目として「住所」を利用する場合は、以下のように行われる。ステップS6402,S6404,S6406,S6408の処理においては法人の情報の一つである住所がウェブページに現れるか否かをチェックするときに完全一致でチェックしていては、クエリを生成する場合と同様、住所の異表記の問題で本来同じである住所が同じでないと判定される。
【0162】
そこで、ステップS6402,S6404,S6406,S6408の処理においては住所の一致を判定する際、次の処理を行う。まず、ウェブページタイプ決定部54は、テキストから住所を抽出する技術を使用し、ウェブページに現れる住所を全て抽出する。次にウェブページタイプ決定部54は、確定テーブル2の全ての住所と、抽出した全ての住所とに対して、住所クレンジングを行う技術を適用し、住所のクレンジングを行う。
【0163】
住所のクレンジング後、ウェブページタイプ決定部54は予め定めた適当な階層から適当な階層(例えば都道府県名より後から号)までに短縮して、短縮された住所に対して完全一致でチェックする。
【0164】
なお、ここでは確定テーブル2の住所に対して使用時に住所クレンジングを適用しているが、確定テーブル2を受け付けた段階で住所クレンジングを1回適用し、別テーブルに保存して利用するようにしてもよい。
【0165】
テキストから住所を抽出する技術の一例として、特開2004−280659号公報及び特開2007−179329号公報には、テキストから住所の文字列を抽出する技術が示されている。
【0166】
以上、本実施例の名寄せチェック支援装置40は、候補レコード11と確定レコード群12との両者の情報を含んだクエリ13による検索結果から、同一法人か否かの判定に役立つ可能性の高いウェブページとして、タイプ1及び2のウェブページを抽出してユーザに提示している。同一法人か否かの判定に役立つ可能性の高いウェブページは名寄せ処理後のチェック作業(名寄せチェック)においてユーザに利用される。
【0167】
ユーザはタイプ1のウェブページを見ることで候補レコード11が名寄せ可であるかを容易に判定できる。また、ユーザはタイプ2のウェブページを見ることで候補レコード11が名寄せ不可であるかを容易に判定できる。
【0168】
したがって、ユーザは検索結果のウェブページをやみくもに見る必要がなくなり、同一法人か否かの判定に役立つ可能性の高いウェブページを見て名寄せ処理後のチェック作業を行うことができるので、検索結果のウェブページを順に見ていくというようなチェック作業における無駄を軽減できる。
【0169】
本発明は、以下に記載する付記のような構成が考えられる。
(付記1)
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
を有する名寄せチェック支援装置。
(付記2)
前記コンテンツタイプ決定手段は、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
付記1記載の名寄せチェック支援装置。
(付記3)
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成手段を更に有する
付記1又は2記載の名寄せチェック支援装置。
(付記4)
コンピュータを、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
して機能させるための名寄せチェック支援プログラム。
(付記5)
前記コンテンツタイプ決定手段は、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
付記4記載の名寄せチェック支援プログラム。
(付記6)
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成手段
として更に機能させるための付記4又は5記載の名寄せチェック支援プログラム。
(付記7)
コンピュータによって実行される名寄せチェック支援方法であって、
前記コンピュータが、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出する抽出ステップと、
前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得ステップと、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定ステップと
を実行する名寄せチェック支援方法。
(付記8)
前記コンテンツタイプ決定ステップは、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないか否かを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
付記7記載の名寄せチェック支援方法。
(付記9)
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成ステップを更に実行する
付記7又は8記載の名寄せチェック支援方法。
【0170】
本発明は、具体的に開示された実施例に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
【符号の説明】
【0171】
1 法人テーブル
2 確定テーブル
3 候補テーブル
11 候補レコード
12,100 確定レコード群
13 クエリ
20〜23 リンク情報
31〜33 ウェブページ
40 名寄せチェック支援装置
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 主記憶装置
46 演算処理装置
47 インターフェース装置
48 記録媒体
49 バス
51 全体処理部
52 ウェブページ群取得部
53 ウェブページ群タイプ決定部
54 ウェブページタイプ決定部
55 検索エンジン
56 インターネット
57 ウェブページタイプテーブル
101,104,107,108,111,114 選択ウェブページ
102,103,105,106,109,110,112,113,115,116 類似ウェブページ

【特許請求の範囲】
【請求項1】
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
を有する名寄せチェック支援装置。
【請求項2】
前記コンテンツタイプ決定手段は、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が重複せず別々の前記法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属しないかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録する
請求項1記載の名寄せチェック支援装置。
【請求項3】
前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するか否かをユーザに判定させる画面を作成する際、前記コンテンツタイプ情報記憶部に記録した前記第1のコンテンツの情報を載せる画面作成手段を更に有する
請求項1又は2記載の名寄せチェック支援装置。
【請求項4】
コンピュータを、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出し、前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得手段と、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定手段と
して機能させるための名寄せチェック支援プログラム。
【請求項5】
コンピュータによって実行される名寄せチェック支援方法であって、
前記コンピュータが、
名寄せ対象を該名寄せ対象が属する法人に名寄せする処理により出力された、名寄せ対象の情報と該名寄せ対象が属すると確定された法人の情報とを対応付けた確定情報記憶部、及び、名寄せ対象の情報と該名寄せ対象が属すると推定された法人の情報とを対応付けた候補情報記憶部を参照して、一の法人に属すると確定された名寄せ対象の情報と該一の法人に属すると推定された名寄せ対象の情報とを抽出する抽出ステップと、
前記一の法人に属すると確定された名寄せ対象の情報及び該一の法人に属すると推定された名寄せ対象の情報の双方をキーとして検索エンジンにより第1のコンテンツを取得するコンテンツ取得ステップと、
前記取得した第1のコンテンツのリンク情報に基づき、該リンク情報に近似する格納位置の第2のコンテンツを取得し、前記第1のコンテンツ及び前記第2のコンテンツに記載されている名寄せ対象が前記一の法人に属するときに、前記第1のコンテンツの情報を、前記候補情報記憶部の前記名寄せ対象が、該名寄せ対象が属すると推定された法人に属するかを判定するためのコンテンツとしてコンテンツタイプ情報記憶部に記録するコンテンツタイプ決定ステップと
を実行する名寄せチェック支援方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate


【公開番号】特開2011−175486(P2011−175486A)
【公開日】平成23年9月8日(2011.9.8)
【国際特許分類】
【出願番号】特願2010−39332(P2010−39332)
【出願日】平成22年2月24日(2010.2.24)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】