説明

商品名同一性判定装置および商品名同一性判定プログラム

【課題】商品名の記載において特徴的に出てくる販売促進目的の語句を考慮した商品名の同一性判定を行うことができる商品名同一性判定装置を提供する。
【解決手段】商品名表記ペア110を入力とし、商品名情報が蓄積された商品表記データベース120中に含まれる語句それぞれに対して、特定の商品を識別するのに有用な語句に対して高い値となり、複数の商品に含まれる語句に対して低い値となる商品スコアを算出し、商品スコアデータベース150に蓄積する商品スコア算出手段140と、商品名表記ペア110を解析して、それぞれの商品名表記に含まれる語句の共通部分と差異部分を取得し、前記データベース150にアクセスして前記語句の商品スコアを取得し、前記共通して出現する語句の商品スコアが高く、片側のみに出現する語句の商品スコアが低い場合に、入力された商品名表記ペア110は同一性が高いと判定する同一性判定手段と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ウェブにおける購買行動のマーケティング分析技術に係わり、様々な表記がなされている商品名表記から、同一の商品名であるものを判定する為の商品名同一性判定装置およびプログラムに関する。
【背景技術】
【0002】
インターネット環境の普及に伴い、通販を行っているウェブサイトにおける購買行動が多く行われるようになってきた。これらのウェブにおける購買行動は、ウェブブラウザを介して行われるため、ウェブブラウザの閲覧履歴等を用いることによって、消費者がどのような商品を閲覧・比較し、結果としてどの商品を購入したかといったマーケティング分析を行うことが可能となってきた。
【0003】
しかし通販サイトにおいて表示される商品名は同じ商品であっても様々な表記がなされているために、ウェブページ中に書かれる商品名をそのまま用いると消費者が同じ商品を繰り返し見ているのか、異なる商品を比較しているのかが区別できなく、消費者の閲覧もしくは購入した商品数を正しく分析出来なくなってしまう。
【0004】
それに対し、この様な記載の揺れを考慮して、異なるサイト中の商品表記から同一の商品であるものを判別することができれば、より正確なマーケティング分析を行うことが可能になると考えられる。
【0005】
ウェブ中の記載の揺れを判定して、同一のものであるか否かを判別する手法は多数提案されている。
【0006】
従来の技術として、主に人物の固有名詞の同一性を判定する技術がある(例えば特許文献1)。この手法では、ウェブサイトをノードとし、同一の人物名を含むウェブサイト間にリンクが張られるグラフ構造を構築し、密接な関係にあるウェブサイトの集合中で出現している固有名詞を同一の存在と判定する。
【0007】
尚、本発明において、カテゴリ情報構築時に利用する技術は特許文献2に記載され、商品名表記情報が表記揺れ関係にあるかどうかを判定する際に利用する技術は特許文献3に記載されている。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】特開2006−107361号公報
【特許文献2】特開2010−123001号公報
【特許文献3】特許第4084515号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
上記特許文献1に開示された技術は、同一の表記を持つ固有名詞の多義性を解消するための技術であるため、通販サイトで見られるような同一の商品が異なる表記で表されている場合の同一性の判定はできないという問題点があった。
【0010】
本発明は上記の点に鑑みなされたものであり、その目的は、商品名の記載において特徴的に出てくる販売促進目的の語句を考慮した商品名の同一性判定を行うことができる商品名同一性判定装置およびプログラムを提供することにある。
【課題を解決するための手段】
【0011】
上記課題を解決するための本発明の商品名同一性判定装置は、同一性判定を行う対象となる2つの商品名表記からなる組を入力とし、商品名情報が蓄積された商品表記データベースを参照し、該商品表記データベース中に含まれる語句それぞれに対して、特定の商品を識別するのに有用な語句に対して高い値となり、複数の商品に含まれる語句に対して低い値となる商品スコアを算出し、商品スコアデータベースに蓄積する商品スコア算出手段と、入力された2つの商品名表記からなる組を解析して、それぞれの商品名表記に含まれる語句の共通部分と差異部分を取得し、前記商品スコアデータベースを参照して前記語句の商品スコアを取得し、前記共通して出現する語句の商品スコアが高く、片側のみに出現する語句の商品スコアが低い場合に、入力された商品名表記の組は同一性が高いと判定する同一性判定手段と、を備えたことを特徴としている。
【0012】
また、前記商品表記データベースには、商品の表記情報と商品の分類カテゴリを表すカテゴリ情報が商品名情報として蓄積され、前記商品スコア算出手段は、処理対象語句を含む商品群の所属カテゴリの分布を、前記商品表記データベースを参照して解析することにより、特定のカテゴリのみに偏って出現している語句に対して商品を一意に識別するのに有用な語句として高い商品スコアを算出し、複数のカテゴリに渡って満遍なく出現する語句に対して商品を特徴付けるのに有効でない語句として低い商品スコアを算出する、ことを特徴としている。
【0013】
上記構成によれば、同一の商品が異なる表記で表されている場合に、その同一性を判定することができ、商品名の記載において特徴的に出てくる販売促進目的の語句を考慮した商品名の同一性判定を行うことが可能となる。
【発明の効果】
【0014】
本発明によれば、同一の商品が異なる表記で表されている場合に、その同一性を判定することができ、商品名の記載において特徴的に出てくる販売促進目的の語句を考慮した商品名の同一性判定を行うことが可能となる。
【0015】
例えば、ウェブサイト毎に異なる商品名の表記の同一性を担保することが出来るため、消費者が様々なサイトで似通った名称の商品を見ていた場合に、同じ商品を複数サイトで見比べて販売条件の良いサイトを探していたのか、異なる商品を見比べてよりよい商品を探していたのかが判別可能となる。
【0016】
その結果、サイトを跨いだ各商品の閲覧回数や購入回数の集計が正しく行われ、各商品の販売シェアやユーザの商品の購買頻度といったマーケティング分析の精度向上が可能となる。
【図面の簡単な説明】
【0017】
【図1】本発明の原理構成図。
【図2】本発明の第1の実施の形態における商品名同一性判定装置の構成図。
【図3】本発明の第1の実施の形態における商品表記データベースに蓄積される情報の例を示す説明図。
【図4】本発明の第1の実施の形態における商品スコア算出部の処理の流れを示すフローチャート。
【図5】本発明の第1の実施の形態における商品表記データベースから取得した情報の例を示す説明図。
【図6】本発明の第1の実施の形態における商品スコアデータベースに蓄積される情報の例を示す説明図。
【図7】本発明の第1の実施の形態における同一性判定部の処理の流れを示すフローチャート。
【図8】本発明の第2の実施の形態における商品名同一性判定装置の構成図。
【図9】本発明の第2の実施の形態における同一性判定部の処理の流れを示すフローチャート。
【発明を実施するための形態】
【0018】
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。まず、本発明の原理を図1の構成図とともに説明する。図1において、100は、同一性判定を行う対象となる2つの商品名表記からなる組(商品名表記ペア110)を入力とし、当該商品名表記ペア110が同一の商品を表現しているか否かを表す商品同一性の判定結果130を出力とする商品名同一性判定装置であって、商品スコア算出手段140、商品スコアデータベース150及び同一性判定手段160を備えており、該商品名同一性判定装置100には、大量の商品表記データが蓄積された商品表記データベース120が接続されている。
【0019】
商品スコア算出手段140は、商品表記データベース120中に含まれる多量の商品表記を解析し、商品表記中に含まれる各語句に対して商品名の表現に不適切であるほど低い値となる商品スコアを算出し、その結果を商品スコアデータベース150に蓄積する。ここにおける商品名の表現に不適切な語句とは、「送料無料」や「セール中」、「2000円引き」といった商品の販売状態に関する語句であり、商品の種別にかかわらず多数の商品表記に含まれる語句に対して低いスコアを算出する。
【0020】
商品スコアを算出する際に、商標登録されているような商品そのものを表す商品名や「炊飯器」といったようなその商品を良く表すような語句は、当該商品が属するカテゴリのみで使われる語句であり、一方、商品の販売状態に関する語句は商品のカテゴリに係わらず出現する特性を利用して、特定のカテゴリのみに偏って出現している語句(特定の商品を識別するのに有用な語句)に対して高い商品スコアを、複数のカテゴリに渡って満遍なく出現する語句に対して低い商品スコアを各々算出する。
【0021】
同一性判定手段160は、入力された商品名表記ペア110に対し、それらが同じ商品を表しているか否かの判別を行い、その結果を出力する。同一性の判定には、それぞれの商品名表記に含まれる語句中の共通する語句が商品スコアが高く商品の記述に適切な語句である場合に同一性が高いと判定し、非共通な語句が商品スコアが高く商品表記に適切な語句である場合に同一性が低いと判定する。
【実施例1】
【0022】
図2は、本発明の第1の実施の形態における商品名同一性判定装置200の構成を示す。商品名同一性判定装置200は、表記揺れ置換部240、商品スコア算出手段としての商品スコア算出部250、商品スコアデータベース260および同一性判定手段としての同一性判定部270を備え、商品名表記ペア入力装置210、商品表記データベース220および同一性判定結果表示装置230が接続されている。
【0023】
商品名同一性判定装置200は、例えばコンピュータにより構成され、通常のコンピュータのハードウェアリソース、例えばROM、RAM、CPU、入力装置、出力装置、通信インターフェース、ハードディスク、記録媒体およびその駆動装置を備えている。
【0024】
このハードウェアリソースとソフトウェアリソース(OS、アプリケーションなど)との協働の結果、商品名同一性判定装置200は、図2に示すように、商品名表記ペア入力装置210、商品表記データベース220、同一性判定結果表示装置230、表記揺れ置換部240、商品スコア算出部250、商品スコアデータベース260および同一性判定部270を実装する。
【0025】
前記商品表記データベース220および商品スコアデータベース260と、後述する商品スコア算出部250が商品表記情報中に含まれる語句の一覧を取得し記憶するための語句リストバッファは、ハードディスクあるいはRAMなどの保存手段・記憶手段に構築されているものとする。
【0026】
商品名表記ペア入力装置210は、キーボード等の入力装置であり、ユーザが同一性の判定対象となる2つの商品名表記を入力するのに用いられる。
【0027】
商品表記データベース220は、インターネット上の通販サイトにおいて販売されている商品の表記情報とそのカテゴリ情報との組からなる商品情報が大量に蓄積されたデータベースである。商品表記データベース220に蓄積される情報の例を図3に示す。
【0028】
図3において、表記情報は商品の名称の記載内容となる。通販サイトにおいては、商品の名称だけでなく「送料無料」や「20%オフ」と記されていることが多い。カテゴリ情報は、「ワンピース」、「炊飯器」といった、商品の分類カテゴリを表す情報である。
【0029】
多くの通販サイトはそれぞれ商品の分類構造を持っているため、その情報をページ中から抽出することにより、カテゴリ分類情報を構築することが可能である。また通販サイトの分類構造を抽出するのではなく、ページに含まれる語句を用いて、例えば特許文献2に示されるような技術を用いてあらかじめ定められたカテゴリを付与することによって構築しても良い。
【0030】
また商品表記データベース220は各商品情報が入力される際に、各商品情報の表記情報を形態素解析することにより表記情報を構成する語句群を取得し、それを集計することにより、商品表記データベース220中に含まれる全ての語句を保持しているものとする。一般的に商品表記データベース220中のデータを表記情報中に含まれる語句で検索可能にするための転置インデックスがデータベース中に構築されるため、当該転置インデックスの索引リストが商品表記データベース220中の全ての語句の一覧として利用可能である。
【0031】
同一性判定結果表示装置230はディスプレイやプリンターといった外部出力装置であり、商品名同一性判定装置200による商品名の同一性判定結果を表示する。
【0032】
表記揺れ置換部240は、商品名表記ペア入力装置210から処理対象となる商品名表記情報の組が入力されると動作を開始し、特許文献3に示されるような英語・日本語対訳技術を用いて、処理対象となる商品名表記情報が表記揺れ関係にあるかどうかを判定する。判定した結果、商品名表記情報の組みが表記揺れの関係にあるとなった場合、片方をもう一方の内容で置き換えて、同じ表記情報からなる組を作り、同一性判定部270に出力する。表記揺れの関係になかった場合には、商品名表記情報の組をそのまま同一性判定部270に出力する。
【0033】
商品スコア算出部250は、商品表記データベース220に蓄積されている大量の表記情報を解析することにより、あらゆる商品カテゴリの商品表記において満遍なく使われている語句を、販促的な目的で含まれている語句と判別し、低い商品スコアを付与して、商品スコアデータベース260に蓄積する。
【0034】
商品スコア算出部250の処理の流れを図4に示す。
【0035】
商品スコア算出部250は処理を開始すると、商品表記データベース220にアクセスし全ての商品表記情報中に含まれる語句の一覧を取得し、語句リストバッファに記憶する(ステップ401)。
【0036】
次に語句リストバッファから1つ語句を抽出し、処理対象語句情報とする(ステップ402)。
【0037】
次に商品表記データベース220にアクセスし、処理対象語句を表記情報に含む全商品情報を取得し、取得した各商品情報に含まれるカテゴリ情報を集計し、各カテゴリのデータが何件存在するかと全データ数とを算出する(ステップ403)。

例えば、「送料」という語句を含むデータが10件有り、それらの内容が図5に示すような内容であった場合、カテゴリ情報の集計結果は「婦人服」が2件、「家電」が3件、「書籍」が2件、「音楽」が1件、「コンピュータ」が2件となり、全データ数は10件となる。
【0038】
次に前記集計結果を用いて、処理対象語句の商品スコアを算出する(ステップ404)。処理対象語句を含むデータに出現したカテゴリの数をnとし、各カテゴリ毎のデータ数をxi(iは1からnを取る)として、処理対象語句の商品スコアsは下の式で求められる。
【0039】
【数1】

【0040】
【数2】

【0041】
その為、商品スコアsは多くのカテゴリ(nが大)で用いられる語句に対して低い値を示し、少ないカテゴリ(nが小)でのみ現れる語句に対しては高い値を示す。また複数のカテゴリに均等な回数出現する標準偏差δが小さい語句に対して低い値を示し、特定のカテゴリのみに偏って出現する標準偏差δが大きい語句に対して高い値を示す特徴を持つ。得られた商品スコアsを処理対象語句と共に商品スコアデータベース260に蓄積する。図6に商品スコアデータベース260に蓄積されるデータの例を示す。
【0042】
【数3】

【0043】
これに対して「ワンピース」を含む商品情報が商品表記データベース220に10件存在し、それらのデータに含まれるカテゴリ情報の数が「婦人服」が9件、「手芸」が1件であった場合、「ワンピース」の商品スコアsは0.238となる。これにより、「ワンピース」は「送料」よりも商品らしい語句ということが出来る。
【0044】
次に、語句リスト中の全ての語句について処理を行っていたか確認し、全ての語句について処理を行っていたら処理を終了する。未処理の語句があった場合は、ステップ402に戻って処理を再開する(ステップ405)
同一性判定部270は、表記揺れ置換部240から商品名表記情報の組を受け取ると処理を開始し、当該商品名 表記情報の組が同一の商品についての表記であるか否かを、表記内容の差異部分が商品内容を表す語句かを元に判別する。
【0045】
同一性判定部270の処理の流れを図7に示す。
【0046】
最初に、入力された商品名表記情報の組を既存の形態素解析技術を用いて、形態素解析を行い、形態素毎に分割された語句の列に変形する(ステップ701)。例えば、入力された商品名表記情報が「株主優待チケット」と「[送料無料]株主優待チケット[20%オフ]」とである場合、形態素解析技術を用いて形態素毎に分割すると、それぞれ「株主、優待、チケット」と「[、送料、無料、]、株主、優待、チケット、[、20%、オフ、]」といった語句の列になる。
【0047】
次に、ステップ701で得られた2つの語句の列を比較し、両方の語句列に共通して現れる語句群と、片側の語句列にのみ出現する語句群を抽出する(ステップ702)。
【0048】
例えばステップ701の例で用いた、「株主、優待、チケット」と「[、送料、無料、]、株主、優待、チケット、[、20%、オフ、]」との2つの語句列について考える。この時、「株主、優待、チケット」は2つの語句列に共通して出現する語句群となり、「[、送料、無料、]、[、20%、オフ、]」は片方の語句のみに出現する語句群となる。
【0049】
次に、共通して現れる語句群と片側のみに出現する語句群とに含まれる語句それぞれの商品スコアを商品スコアデータベース260にアクセスすることにより取得し、共通して現れる語句群の商品スコアの合計と片側のみに出現する語句群の商品スコアの合計を比較することにより、入力された2つの商品名表記情報の組が同一の商品と考えられるほど小さな値を示す距離スコアSを算出する(ステップ703)。
【0050】
具体的には、共通して現れる語句群の商品スコアsの合計をC、片側のみに出現する語句群の商品スコアsの合計をDとし、下記の式を用いて距離スコアSを算出する。
【0051】
【数4】

【0052】
得られた距離スコアSがあらかじめ定められた閾値以下であった場合、入力された商品名表記情報の組を同一の商品と判定し、その結果を同一性判定結果表示装置230に出力する。得られた距離スコアSがあらかじめ定められた閾値より大きい場合は、異なる商品と判定してその結果を同一性判定結果表示装置230に出力する(ステップ704)。
【0053】
この際、同一か否かの2値の結果でなく、距離スコアをそのまま同一性判定結果表示装置230に出力することにより、商品名表記情報の組の同一性らしさを出力するようにしてもよい。
【実施例2】
【0054】
実施例1は、入力された2つの商品名表記情報の組それぞれを構成する語句の共通部分と差異部分を用いて同一性の判定を行う手法である。しかし商品名においては「10%OFF カジュアルコート」と「ロングコートカジュアル用途に最適」といった商品名表記情報の組のように、「カジュアル」「コート」という2つの語句が共通していても、その出現順番が同一性の判定に意味を持つ場合が存在する。
【0055】
本発明の第2の実施の形態は、上記のような特徴を持つ商品名について、語句の出現順を考慮した同一性の判定を行うことにより、判定精度を向上するための手法である。
【0056】
図8は、本発明の第2の実施の形態における商品名同一性判定装置800の構成を示す。
【0057】
商品名同一性判定装置800は、表記揺れ置換部240、商品スコア算出部250、商品スコアデータベース260、同一性判定手段としての同一性判定部870を備え、商品名表記ペア入力装置210、商品表記データベース220および同一性判定結果表示装置230が接続されている。
【0058】
これらのうち、表記揺れ置換部240、商品スコア算出部250、商品スコアデータベース260、商品名表記ペア入力装置210、商品表記データベース220、同一性判定結果表示装置230は実施例1と同様の動作をするものであり、同一性判定部870のみが実施例1と異なる動作をする。
【0059】
以下、実施例1と異なる動作をする同一性判定部870の処理についてのみ記述する。
【0060】
同一性判定部870は、表記揺れ置換部240から商品名表記情報の組を受け取ると処理を開始し、当該商品名表記情報の組が同一の商品についての表記であるか否かを、表記内容の差異部分が商品内容を表す語句かを元に判別する。
【0061】
同一性判定部870の処理の流れを図9に示す。
【0062】
最初に、入力された商品名表記情報の組を既存の形態素解析技術を用いて形態素解析を行い、形態素毎に分割された語句の列に変形する(ステップ901)。例えば、入力された商品名表記情報が「株主優待チケット」と「[送料無料]株主優待チケット[20%オフ]」とである場合、形態素解析技術を用いて形態素ごとに分割すると、それぞれ「株主、優待、チケット」と「[、送料、無料、]、株主、優待、チケット、[、20%、オフ、]」といった語句の列になる。
【0063】
次に、一般的な編集距離計算に用いられる動的計画法を用いたアルゴリズムを用いて、ステップ901で得られた2つの語句の列の片方からもう一方に変形する際に追加・削除する必要がある語句を抽出する(ステップ902)。
【0064】
例えば、「株主、優待、チケット」と「[、送料、無料、]、株主、優待、チケット、[、20%、オフ、]」との2つの語句列間の変形を考えると、前の形態素列に対して「[、送料、無料、]、[、20%、オフ、]」の8文字が挿入される関係になることが分かる。
【0065】
次に、削除または追加された語句の商品スコアを商品スコアデータベース260から取得し、その合計値を入力された商品名表記情報の組の意味的な距離スコアとして算出する(ステップ903)。商品スコアは商品内容を表現しない語句ほど低い値となることから、削除もしくは追加された語句が商品内容を表していない語句ならば距離スコアは小さくなり、商品内容を表す語句であれば距離スコアが高くなる。
【0066】
次に、得られた距離スコアがあらかじめ定められた閾値以下であった場合、入力された商品名表記情報の組を同一の商品と判定し、その結果を同一性判定結果表示装置230に出力する(ステップ904)。得られた距離スコアがあらかじめ定められた閾値より大きい場合は、異なる商品と判定してその結果を同一性判定結果表示装置230に出力する。
【0067】
この際、同一か否かの2値の結果でなく、距離スコアをそのまま同一性判定結果表示装置230に出力することにより、商品名表記情報の組の同一性らしさを出力するようにしてもよい。
【0068】
また、本実施形態の商品名同一性判定装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
【符号の説明】
【0069】
100、200、800…商品名同一性判定装置
120、220…商品表記データベース
140…商品スコア算出手段
150、260…商品スコアデータベース
160…同一性判定手段
210…商品名表記ペア入力装置
230…同一性判定結果表示装置
240…表記揺れ置換部
250…商品スコア算出部
270、870…同一性判定部

【特許請求の範囲】
【請求項1】
同一性判定を行う対象となる2つの商品名表記からなる組を入力とし、
商品名情報が蓄積された商品表記データベースを参照し、該商品表記データベース中に含まれる語句それぞれに対して、特定の商品を識別するのに有用な語句に対して高い値となり、複数の商品に含まれる語句に対して低い値となる商品スコアを算出し、商品スコアデータベースに蓄積する商品スコア算出手段と、
入力された2つの商品名表記からなる組を解析して、それぞれの商品名表記に含まれる語句の共通部分と差異部分を取得し、前記商品スコアデータベースを参照して前記語句の商品スコアを取得し、前記共通して出現する語句の商品スコアが高く、片側のみに出現する語句の商品スコアが低い場合に、入力された商品名表記の組は同一性が高いと判定する同一性判定手段と、
を備えたことを特徴とする商品名同一性判定装置。
【請求項2】
前記商品表記データベースには、商品の表記情報と商品の分類カテゴリを表すカテゴリ情報が商品名情報として蓄積され、
前記商品スコア算出手段は、
処理対象語句を含む商品群の所属カテゴリの分布を、前記商品表記データベースを参照して解析することにより、特定のカテゴリのみに偏って出現している語句に対して商品を一意に識別するのに有用な語句として高い商品スコアを算出し、複数のカテゴリに渡って満遍なく出現する語句に対して商品を特徴付けるのに有効でない語句として低い商品スコアを算出する、
ことを特徴とする請求項1に記載の商品名同一性判定装置。
【請求項3】
前記商品スコア算出手段は、
処理対象語句を含む商品群の所属カテゴリを集計し、該集計された所属カテゴリの異なり数をnとし、各カテゴリ毎のデータ数をxi(iは1からnを取る)として、処理対象語句の商品スコアsを下式で求める、
ことを特徴とする請求項2に記載の商品名同一性判定装置。
【数1】

【請求項4】
前記同一性判定手段は、
入力された2つの商品名表記の組をそれぞれ構成する語句に分割し、前記商品スコアデータベースを参照することにより、共通して現れる語句の商品スコアの合計Cと、片方のみに出現する語句の商品スコアの合計Dを各々取得し、下式を用いて当該商品名表記の組が同一と考えられるほど低い値となる距離スコアSを算出し、該距離スコアSがあらかじめ定められた閾値よりも低い場合に当該商品名表記の組が同一の商品を示していると判定する、
ことを特徴とする請求項1ないし3のいずれか1項に記載の商品名同一性判定装置。
【数4】

【請求項5】
前記同一性判定手段は、
入力された2つの商品名表記の組をそれぞれ構成する語句に分割し、一般的な編集距離計算に用いられる動的計画法アルゴリズムを用いて、片方の語句列からもう一方の語句列に変形する際に追加・削除する必要がある語句の集合を取得し、前記商品スコアデータベースを参照して得られた、前記追加・削除する必要がある語句の集合の構成語句それぞれの商品スコアの合計を集計し、該商品スコアの合計値を、入力された商品名表記の組が同一と考えられるほど低い値となる距離スコアとして算出し、該距離スコアがあらかじめ定められた閾値よりも低い場合に当該商品名表記の組が同一の商品を示していると判定する、
ことを特徴とする請求項1ないし3のいずれか1項に記載の商品名同一性判定装置。
【請求項6】
コンピュータを請求項1ないし5のいずれか1項に記載の各手段として機能させる商品名同一性判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−242933(P2012−242933A)
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願番号】特願2011−110218(P2011−110218)
【出願日】平成23年5月17日(2011.5.17)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】