属性表現獲得方法及び装置及びプログラム
【課題】 ユーザが商品を探す際に用いる属性に限定された属性表現を抽出する。
【解決手段】 本発明は、検索ログから入力された対象語句を含むログ(先行クエリ情報と後続クエリ情報の組)を抽出し、後から検索クエリが追加された追加キーを属性表現候補語句として検索ログから抽出し、属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する。属性表現候補を抽出する際に、先行クエリ情報に追加キーを付加することで、後続クエリ情報が構成されている絞り込み関係にある検索クエリシーケンス情報集合を選び出し、得られた絞り込み関係にある検索クエリシーケンス情報集合の各検索クエリシーケンス情報から、該後続クエリ情報に追加された絞り込み語句を属性候補語句情報として抽出する。
【解決手段】 本発明は、検索ログから入力された対象語句を含むログ(先行クエリ情報と後続クエリ情報の組)を抽出し、後から検索クエリが追加された追加キーを属性表現候補語句として検索ログから抽出し、属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する。属性表現候補を抽出する際に、先行クエリ情報に追加キーを付加することで、後続クエリ情報が構成されている絞り込み関係にある検索クエリシーケンス情報集合を選び出し、得られた絞り込み関係にある検索クエリシーケンス情報集合の各検索クエリシーケンス情報から、該後続クエリ情報に追加された絞り込み語句を属性候補語句情報として抽出する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、属性表現獲得方法及び装置及びプログラムに係り、特に、検索システムに入力された検索クエリのログを用いることによって、対象を探す際に有効となる属性表現を獲得するための属性表現獲得方法及び装置及びプログラムに関する。
【背景技術】
【0002】
インターネットの普及と共に、ウェブ上で商品を購入するEC(Electronic Commerce)サイトが普及し、それらにおいて提供される商品の数も膨大になってきている。そのような中、ユーザが探し易いように商品の分類体系を整備し、それに従って商品を配置することが、ECサイトの使いやすさを確保するために必要な条件となっている。しかし、膨大な商品群の分類体系を構築するのはコストのかかる作業であり、自動で商品分類属性を獲得する手法が必要とされてきた。
【0003】
従来の商品の属性表現を自動的に獲得する手法として、文書の集合に対して、予め与えられた評価表現や属性抽出対象が出現する構文情報を抽出することによって、同様の構文を持つ文書中から属性表現を抽出する手法が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−241765号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記従来技術においては、文書中から属性表現を抽出してくるために、抽出された属性表現の中にユーザが商品を探す際に重視される属性ではないものも含まれてしまうという問題点があった。
【0006】
本発明は上記の点に鑑みなされたもので、検索システムにユーザが入力した検索クエリのログを用いることにより、ユーザが商品を探す際に用いる属性に限定された属性表現を抽出することが可能な属性表現獲得方法及び装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
図1は、本発明の原理を説明するための図である。
【0008】
本発明(請求項1)は、対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得方法であって、
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力ステップ(ステップ1)と、
検索クエリデータベースからユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出ステップ(ステップ2)と、
抽出対象バッファに格納されている属性抽出対象語句に基づいて、検索シーケンスデータベースに格納されている検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出ステップ(ステップ3)と、
属性候補バッファに格納されている属性表現候補語句それぞれについて、抽出対象バッファに格納されている属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別ステップ(ステップ4)と、を有し、
属性表現候補抽出ステップ(ステップ3)において、
先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する。
【0009】
また、本発明(請求項2)は、請求項1の属性表現獲得方法において、属性表現候補抽出ステップの前に、
検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出ステップを行い、
属性表現候補抽出ステップにおいて、
共起語句抽出ステップで得られた共起語句の集合と、検索シーケンスデータベースから抽出された絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出するステップを行う。
【0010】
また、本発明(請求項3)は、請求項2の属性表現獲得方法の属性表現候補抽出ステップにおいて、
共起語句の集合より絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
ある語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出するステップを行う。
【0011】
図2は、本発明の原理構成図である。
【0012】
本発明(請求項4)は、対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得装置であって、
入力装置300から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファ131に格納する属性抽出対象入力手段132と、
検索クエリデータベース200からユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベース120に格納する検索シーケンス抽出手段110と、
抽出対象バッファ131に格納されている属性抽出対象語句に基づいて、検索シーケンスデータベース120に格納されている検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファ141に格納する属性表現候補抽出手段130と、
属性候補バッファ141に格納されている属性表現候補語句それぞれについて、抽出対象バッファに格納されている属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別手段140と、を有し、
属性表現候補抽出手段130は、
先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する手段を含む。
【0013】
また、本発明(請求項5)は、請求項4の属性表現獲得装置において、検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出手段を更に有し、
属性表現候補抽出手段130は、
共起語句抽出手段で得られた共起語句の集合と、検索シーケンスデータベース120から抽出される絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出する属性表現候補比較手段を含む。
【0014】
また、本発明(請求項6)は、請求項5記載の属性表現獲得装置の属性表現候補抽出手段において、
共起語句の集合より絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
当該語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出する手段を含む。
【0015】
本発明(請求項7)は、請求項4乃至6の何れか1項記載の属性表現獲得装置を構成する各手段としてコンピュータを機能させるための属性表現獲得プログラムである。
【発明の効果】
【0016】
上記のように、本発明は実際にユーザが対象を探す目的で入力した検索クエリ情報の集合から対象の属性表現を抽出するため、ユーザの表品を探す際に用いる属性表現のみに絞った抽出が可能となる。
【0017】
また、本発明は、ユーザがあるクエリを入力した後に条件を追加して再度検索を行った絞込み関係にある検索シーケンスに注目し、絞り込み関係にある検索シーケンスにおいて絞り込み条件として入力された語句のみを属性表現として抽出することにより、「デジカメ」に対する「カメラ」のような、属性抽出対象語句よりも概念的に抽象的な語句を取り除くことができ、ユーザが商品を探す際に用いる属性表現をより精度良く抽出することが可能となる。
【図面の簡単な説明】
【0018】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の第1の実施の形態における属性表現獲得装置の構成図である。
【図4】本発明の第1の実施の形態における検索クエリデータベースに蓄積される情報の例である。
【図5】本発明の第1の実施の形態における検索シーケンスデータベースに蓄積される情報の例である。
【図6】本発明の第1の実施の形態における属性表現候補抽出部の処理の流れを表す図である。
【図7】本発明の第1の実施の形態における検索シーケンスデータベースから読み出された情報の例である。
【図8】本発明の第1の実施の形態における絞り込み関係となる検索シーケンス情報の例である。
【図9】本発明の第1の実施の形態における属性候補バッファに書き込まれる情報の例である。
【図10】本発明の第1の実施の形態における属性表現選別部の処理の流れを表す図である。
【図11】本発明の第2の実施の形態における属性表現獲得装置の構成図である。
【図12】本発明の第2の実施の形態における属性表現候補比較抽出部の処理の流れを表す図である。
【図13】本発明の第2の実施の形態における集計された共起語句情報の例である。
【発明を実施するための形態】
【0019】
以下、図面と共に本発明の実施の形態を説明する。
【0020】
[第1の実施の形態]
図3は、本発明の第1の実施の形態における属性表現獲得装置の構成を示す。
【0021】
同図に示す属性表現獲得装置100Aは、検索シーケンス抽出部110、検索シーケンスデータベース120、属性表現候補抽出部130、属性表現選別部140を有し、検索シーケンス抽出部110には外部の検索クエリデータベース200が接続され、属性表現候補抽出部130には外部の属性抽出対象入力装置300が接続され、属性表現選別部140には外部の属性表現出力装置400が接続されている。
【0022】
検索クエリデータベース200には、既存の検索システムに入力された検索クエリ情報の集合が蓄積されている。検索クエリデータベース200に蓄積されるこの検索クエリ情報は、一人のユーザからの1回毎の検索要求を表し、入力された検索クエリ情報と、当該検索クエリが入力された時刻情報、当該検索クエリを入力したユーザを一意に判別可能にするユーザ識別情報、とから構成される。検索クエリデータベース200に蓄積される検索クエリ情報の例を図4に示す。
【0023】
検索シーケンス抽出部110は、検索クエリデータベース200が属性表現獲得装置100Aに接続された際に処理を開始し、ユーザ識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同じユーザによって入力された時間的に連続した2つの検索クエリ情報の組を検索シーケンス情報として全て抜き出し、検索シーケンスデータベース120に蓄積する。
【0024】
検索シーケンス情報に含まれる2つの検索クエリ情報の内、時間的に先に入力された方を「先行検索クエリ情報」と呼び、後に入力された方を「後続検索クエリ情報」と呼ぶことにする。
【0025】
図4に示した検索クエリデータベース200に蓄積される情報の例を用いて、検索シーケンス抽出部110の処理を説明する。
【0026】
検索クエリデータベース200に含まれる5つの情報の内、ユーザ識別情報が「aaa」であるユーザが「ノーベル賞」「ノーベル賞 賞金」「物理学」の順に検索クエリを入力しているので、「ノーベル賞」と「ノーベル賞 賞金」とからなる検索シーケンス情報と、「ノーベル賞 賞金」と「物理学」とからなる検索シーケンス情報との2つの検索シーケンス情報が抽出される。ここで、「ノーベル賞」が先行検索クエリ情報となり、「ノーベル賞 賞金」が後続検索クエリ情報となる。また、「ノーベル賞 賞金」が先行検索クエリ情報となり、「物理学」が後続検索クエリ情報となる。また、ユーザ識別情報が「bbb」であるユーザは、「デジタルカメラ」と「デジタルカメラ レンズ」との2つの検索クエリを入力しているので、「デジタルカメラ」と「デジタルカメラ レンズ」とからなる検索シーケンス情報が抽出される。以上の結果、検索シーケンスデータベース120に蓄積される情報は、図5のようになる。
【0027】
当該属性情報獲得装置100Aの使用者は、キーボード等の属性抽出対象入力装置300を用いることにより、処理対象となる1つまたは複数の属性抽出対象語句情報を入力する。属性抽出対象入力装置300から入力された属性抽出対象語句情報は、属性表現候補抽出部130内の抽出対象バッファ131に入力する。
【0028】
属性表現候補抽出部130は、属性抽出対象入力装置300から1つまたは複数の属性抽出対象語句が入力されると、処理を開始し、検索シーケンスデータベース120にアクセスして抽出対象が先行クエリ情報に含まれる検索シーケンス情報を抽出し、得られた検索シーケンス情報集合の後続検索クエリ情報に含まれる語句を属性表現候補として抽出する。
【0029】
図6は、本発明の第1の実施の形態における属性表現候補抽出部の処理の流れを示す。
【0030】
属性表現候補抽出部130は、処理を開始すると抽出対象バッファ131から属性抽出対象語句情報を1つ取り出す(ステップ101)。
【0031】
属性表現候補抽出部130は、検索シーケンスデータベース120にアクセスし、上記の抽出対象バッファ131から取り出した属性抽出対象語句情報を先行検索クエリ情報として含む検索シーケンス情報を、検索シーケンスデータベース120から読み出す(ステップ102)。例えば、属性抽出対象語句情報が「ノーベル賞」であった場合、図7に示すような検索シーケンス情報の集合が読み出される。
【0032】
属性表現候補抽出部130は、読み出された検索シーケンス情報の集合から、後続検索クエリ情報が先行クエリ情報の内容にいくつかの語句を追加することによって構成されている検索シーケンス情報を、先行クエリ情報に対して検索条件を追加した絞り込みの関係になっていると見做して抜き出す(ステップ103)。図7に示される「ノーベル賞」を先行クエリ情報に含む検索シーケンス情報の集合から、絞り込み関係となっている検索シーケンス情報のみを抜き出した例を図8に示す。例えば、図7の4行目に示されている検索シーケンス情報は、先行クエリ情報が「ノーベル賞 2008」で、後続クエリ情報が「ノーベル賞 受賞者 2008」となっており、後続クエリ情報は先行クエリ情報に「受賞者」を加えたものとなっているため、絞り込み関係になっていると見做せる。
【0033】
属性表現候補抽出部130は、ステップ103で得られた検索シーケンス情報集合をそれぞれについて、後続検索クエリ情報に含まれるが、先行クエリ情報に含まれない語句を、属性候補語句情報として抽出する(ステップ104)。例えば、図8に示される検索シーケンス情報集合を解析すると、属性抽出対象語句情報が『ノーベル賞』の場合、該当する後続検索クエリ情報は、1行目、4行目、5行目、6行目であり、1行目の後続検索クエリ情報では「賞金」、4行目では「受賞者」、5行目では「講演」、6行目では「受賞者」となり、属性候補語句情報として「賞金」「受賞者」「講演」「受賞者」といった語句が抽出される。
【0034】
属性表現候補抽出部130は、ステップ104で得られた1つまたは複数の属性候補語句情報について、同じ表記の語句についてはその出現数を集計し、属性候補語句情報と属性抽出対象語句情報と出現数情報とを合わせ、属性表現選別部140の属性候補バッファ141に書き込む(ステップ105)。図9に属性候補バッファ141に書き込まれる情報の例を示す。
【0035】
属性表現候補抽出部130は、抽出対象バッファ131に未処理の属性抽出対象語句情報が含まれているかを確認し、含まれている場合はステップ101に戻って処理を続け、含まれていない場合は処理を終了する(ステップ106)。
【0036】
属性表現選別部140は、属性表現候補抽出部130の処理が終わると処理を開始し、属性候補バッファ141に蓄積されている属性候補情報を読み込み、1つまたは複数の属性抽出対象語句情報の間の偏りなく抽出されている属性候補情報を選び出し、属性表現情報として属性表現出力装置400に出力する。
【0037】
図10は、本発明の第1の実施の形態における属性表現選別部の処理の流れを示す。
【0038】
属性表現選別部140は、属性候補バッファ141に蓄積されている情報を読み込み、属性抽出対象語句情報がそれぞれ何回ずつ出現しているかを集計する。例えば、図9に示される内容が属性候補バッファ141に蓄積されている場合、「ノーベル賞」が3回、「アカデミー賞」が2回という集計結果が得られる(ステップ201)。
【0039】
属性表現選別部140は、属性候補バッファ141に蓄積されている情報を読み込み、属性候補語句情報がそれぞれ何回ずつ出現しているかを集計する。例えば、図9に示される内容が属性候補バッファ141に蓄積されている場合、「賞金」が1回、「講演」が1回、「受賞者」が3回、「作品」が1回となる集計結果が得られる(ステップ202)。
【0040】
属性表現選別部140は、ステップ202で集計した属性候補語句情報のそれぞれについて、その語句が属性抽出語句情報のそれぞれについて、偏りなく出現しているほど値が小さくなる出現分散度を算出する。具体的には、以下の式のように、出現数の偏りを表す統計量であるχ2値を用いて算出する(ステップ203)。
【0041】
【数1】
ここで、Tは属性候補バッファ141に含まれている属性抽出対象語句の集合を表し、属性候補バッファ141が図9に示される内容の場合、「ノーベル賞」「アカデミー賞」となる。fq(wi,t)は、ある属性抽出対象語句tにおける属性候補語句wiの出現数を表し、属性候補バッファ141が図9に示される内容の場合、tが「ノーベル賞」でwiが「受賞者」とすると、fq(wi,t)は2となる。fw(wi)は、属性候補バッファ141中での属性候補語句wiの出現数であり、属性候補バッファ141が図9に示される内容の場合、wiを「受賞者」とするとfw(wi)の値は3となる。ft(tj)は属性候補バッファ141の中で属性抽出対象語句tjの出現数であり、属性候補バッファ141が図9に示される内容の場合、tjを「ノーベル賞」とするとft(tj)の値は4となる。
【0042】
属性表現選別部140は、閾値よりも低い出現分散度を持つ属性候補語句情報を、属性表現として属性表現出力装置400に出力する。閾値の値は、属性候補バッファ141中に含まれる属性抽出対象語句情報の異なり数から1引いた値を自由度として、計算により求められるχ二乗分布表を参照し、有意水準0.05の値を抽出することにより自動的に求められる。また、処理の簡略化のため、予め決まった閾値を入力しておいてもよい(ステップ204)。
【0043】
属性表現出力装置400は、ディスプレイもしくはプリンタ等の出力装置であり、属性表現選別部140から送られた属性表現情報を、ユーザが読み取れる形で出力する。
【0044】
[第2の実施の形態]
図11は、本発明の第2の実施の形態における属性表現獲得装置の構成を示す。同図において、図3と同一構成部分には同一符号を付し、その説明を省略する。
【0045】
属性表現獲得装置100Bは、検索シーケンス抽出部110、検索シーケンスデータベース120、属性表現候補比較抽出部150、属性表現選別部140から構成され、検索シーケンス抽出部110は外部の検索クエリデータベース200に接続され、属性表現候補比較抽出部150は外部の属性抽出対象入力装置300に接続され、属性表現選別部140は外部の属性表現出力装置400に接続されている。このうち、属性表現候補比較抽出部150以外の構成要素は、第1の実施の形態と同様である。
【0046】
以下、第1の実施の形態と異なる属性表現候補比較抽出部150について説明する。
【0047】
属性表現候補比較抽出部150は、属性抽出対象入力装置300から1つまたは複数の属性抽出対象語句が入力されると処理を開始し、属性抽出対象語句を抽出対象バッファ151に蓄積し、検索シーケンスデータベース120にアクセスして抽出対象が先行クエリ情報に含まれる検索シーケンス情報を抽出し、得られた検索シーケンス情報集合の後続検索クエリ情報に含まれる語句の集合と、先行検索クエリに含まれる属性抽出対象語句の共起クエリの集合とを比較し、後続検索クエリに含まれる傾向の高い語句を属性表現候補として抽出する。
【0048】
図12は、本発明の第2の実施の形態における属性表現候補比較抽出部の処理の流れを示す。
【0049】
属性表現候補比較抽出部150は、処理を開始すると抽出対象バッファ151から属性抽出対象語句情報を1つ取り出す(ステップ301)。
【0050】
属性表現候補比較抽出部150は、検索シーケンスデータベース120に接続し、上記の抽出対象バッファ151から取り出した属性抽出対象語句情報を先行検索クエリ情報として含む検索シーケンス情報を、検索シーケンスデータベース120から読み出す(ステップ302)。例えば、属性抽出対象語句情報が「ノーベル賞」であった場合、図7に示すような検索シーケンス情報の集合が読み出される。
【0051】
属性表現候補比較抽出部150は、読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抜き出し、抜き出した共起語句集合に対して、その表記毎に出現数を集計する(ステップ303)。
【0052】
図7に示される「ノーベル賞」を先行クエリ情報に含む検索シーケンス情報の集合から、共起語句情報を集計して得られる結果を図13に示す。
【0053】
属性表現候補比較抽出部150は、読み出された検索シーケンス情報の集合から、後続検索クエリ情報が先行クエリ情報の内容にいくつかの語句を追加することによって構成されている検索シーケンス情報を、先行クエリに対して検索条件を追加した絞り込みの関係になっているとみなし、追加された語句を絞り込み語句として抜き出し、その表記毎に出現数を集計する(ステップ304)。例えば、図7に示される「ノーベル賞」を先行クエリ情報に含む検索シーケンス情報の集合において、2行目と5行目と6行目と7行目とが絞り込み関係になっている検索シーケンス情報である。このとき、それぞれの絞り込み語句は、「賞金」「受賞者」「講演」「受賞者」となるため、絞り込み語句を集計した結果は、「賞金1回」「受賞者2回」「講演1回」となる。
【0054】
属性表現候補比較抽出部150は、ステップ304で得られた絞り込み語句それぞれについて、当該語句のステップ303で得られた共起語句集合の中での出現確率と、当該語句のステップ304で得られた絞り込み語句集合の中での出現確率とを比較し、共起語句集合中よりも絞り込み語句中で多く出現している場合に、属性候補語句情報として抽出する(ステップ305)。ここで言う当該語句の共起語句集合中での出現確率は、当該語句の共起語句集合中での出現数を、共起語句集合に含まれる全ての語句の出現数を足し合わせた値で割ることにより求められる。当該語句の絞り込み語句集合での出現確率も同様に、当該語句の絞り込み語句集合中での出現数を、絞り込み語句集合に含まれる全ての語句の出現数を足し合わせた値で割ることにより求められる。
【0055】
例えば、ステップ304で得られる絞り込み語句集合が、「賞金」:1回、「受賞者」:2回、「講演」:1回といった内容であった場合、「受賞者」の絞り込み語句集合中での出現確率は、「受賞者」の出現回数である2回を、全ての語句の出現回数を足し合わせた値である4回で割ることにより、0.5と求められる。
【0056】
また、属性候補語句を抽出する際に、絞り込み語句集合中での出現確率と共起語句集合中での出現確率の差が、予め定めた閾値よりも高い場合に、属性候補語句として抽出するようにしてもよい。
【0057】
属性表現候補比較抽出部150は、ステップ305で得られた1つまたは複数の属性候補語句情報について、同じ表記の語句についてはその出現数を集計し、属性候補語句情報と属性抽出対象語句情報と出現数情報とを合わせ、属性表現選別部140の属性候補バッファ141に書き込む(ステップ306)。
【0058】
属性表現候補比較抽出部150は、抽出対象バッファ151に未処理の属性抽出対象語句情報が含まれているかを確認し、含まれている場合はステップ301に戻って処理を続け、含まれていない場合は処理を終了する(ステップ307)。
【0059】
なお、上記の第1の実施の形態の図3、第2の実施の形態の図7に示す属性表現獲得装置の構成要素の処理をプログラムとして構築し、属性表現獲得装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0060】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0061】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0062】
本発明は、インターネット等のネットワークの検索システムに適用可能である。
【符号の説明】
【0063】
100 属性表現獲得装置
110 検索シーケンス抽出手段、検索シーケンス抽出部
120 検索シーケンスデータベース
130 属性表現候補抽出手段、属性表現候補抽出部
131 抽出対象バッファ
132 属性抽出対象入力手段
140 属性表現選別手段、属性表現選別部
141 属性候補バッファ
150 属性表現候補比較抽出部
151 抽出対象バッファ
200 検索クエリデータベース
300 入力装置、属性抽出対象入力装置
400 属性表現出力装置
【技術分野】
【0001】
本発明は、属性表現獲得方法及び装置及びプログラムに係り、特に、検索システムに入力された検索クエリのログを用いることによって、対象を探す際に有効となる属性表現を獲得するための属性表現獲得方法及び装置及びプログラムに関する。
【背景技術】
【0002】
インターネットの普及と共に、ウェブ上で商品を購入するEC(Electronic Commerce)サイトが普及し、それらにおいて提供される商品の数も膨大になってきている。そのような中、ユーザが探し易いように商品の分類体系を整備し、それに従って商品を配置することが、ECサイトの使いやすさを確保するために必要な条件となっている。しかし、膨大な商品群の分類体系を構築するのはコストのかかる作業であり、自動で商品分類属性を獲得する手法が必要とされてきた。
【0003】
従来の商品の属性表現を自動的に獲得する手法として、文書の集合に対して、予め与えられた評価表現や属性抽出対象が出現する構文情報を抽出することによって、同様の構文を持つ文書中から属性表現を抽出する手法が知られている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−241765号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記従来技術においては、文書中から属性表現を抽出してくるために、抽出された属性表現の中にユーザが商品を探す際に重視される属性ではないものも含まれてしまうという問題点があった。
【0006】
本発明は上記の点に鑑みなされたもので、検索システムにユーザが入力した検索クエリのログを用いることにより、ユーザが商品を探す際に用いる属性に限定された属性表現を抽出することが可能な属性表現獲得方法及び装置及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
図1は、本発明の原理を説明するための図である。
【0008】
本発明(請求項1)は、対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得方法であって、
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力ステップ(ステップ1)と、
検索クエリデータベースからユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出ステップ(ステップ2)と、
抽出対象バッファに格納されている属性抽出対象語句に基づいて、検索シーケンスデータベースに格納されている検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出ステップ(ステップ3)と、
属性候補バッファに格納されている属性表現候補語句それぞれについて、抽出対象バッファに格納されている属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別ステップ(ステップ4)と、を有し、
属性表現候補抽出ステップ(ステップ3)において、
先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する。
【0009】
また、本発明(請求項2)は、請求項1の属性表現獲得方法において、属性表現候補抽出ステップの前に、
検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出ステップを行い、
属性表現候補抽出ステップにおいて、
共起語句抽出ステップで得られた共起語句の集合と、検索シーケンスデータベースから抽出された絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出するステップを行う。
【0010】
また、本発明(請求項3)は、請求項2の属性表現獲得方法の属性表現候補抽出ステップにおいて、
共起語句の集合より絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
ある語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出するステップを行う。
【0011】
図2は、本発明の原理構成図である。
【0012】
本発明(請求項4)は、対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得装置であって、
入力装置300から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファ131に格納する属性抽出対象入力手段132と、
検索クエリデータベース200からユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベース120に格納する検索シーケンス抽出手段110と、
抽出対象バッファ131に格納されている属性抽出対象語句に基づいて、検索シーケンスデータベース120に格納されている検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファ141に格納する属性表現候補抽出手段130と、
属性候補バッファ141に格納されている属性表現候補語句それぞれについて、抽出対象バッファに格納されている属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別手段140と、を有し、
属性表現候補抽出手段130は、
先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する手段を含む。
【0013】
また、本発明(請求項5)は、請求項4の属性表現獲得装置において、検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出手段を更に有し、
属性表現候補抽出手段130は、
共起語句抽出手段で得られた共起語句の集合と、検索シーケンスデータベース120から抽出される絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出する属性表現候補比較手段を含む。
【0014】
また、本発明(請求項6)は、請求項5記載の属性表現獲得装置の属性表現候補抽出手段において、
共起語句の集合より絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
当該語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出する手段を含む。
【0015】
本発明(請求項7)は、請求項4乃至6の何れか1項記載の属性表現獲得装置を構成する各手段としてコンピュータを機能させるための属性表現獲得プログラムである。
【発明の効果】
【0016】
上記のように、本発明は実際にユーザが対象を探す目的で入力した検索クエリ情報の集合から対象の属性表現を抽出するため、ユーザの表品を探す際に用いる属性表現のみに絞った抽出が可能となる。
【0017】
また、本発明は、ユーザがあるクエリを入力した後に条件を追加して再度検索を行った絞込み関係にある検索シーケンスに注目し、絞り込み関係にある検索シーケンスにおいて絞り込み条件として入力された語句のみを属性表現として抽出することにより、「デジカメ」に対する「カメラ」のような、属性抽出対象語句よりも概念的に抽象的な語句を取り除くことができ、ユーザが商品を探す際に用いる属性表現をより精度良く抽出することが可能となる。
【図面の簡単な説明】
【0018】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の第1の実施の形態における属性表現獲得装置の構成図である。
【図4】本発明の第1の実施の形態における検索クエリデータベースに蓄積される情報の例である。
【図5】本発明の第1の実施の形態における検索シーケンスデータベースに蓄積される情報の例である。
【図6】本発明の第1の実施の形態における属性表現候補抽出部の処理の流れを表す図である。
【図7】本発明の第1の実施の形態における検索シーケンスデータベースから読み出された情報の例である。
【図8】本発明の第1の実施の形態における絞り込み関係となる検索シーケンス情報の例である。
【図9】本発明の第1の実施の形態における属性候補バッファに書き込まれる情報の例である。
【図10】本発明の第1の実施の形態における属性表現選別部の処理の流れを表す図である。
【図11】本発明の第2の実施の形態における属性表現獲得装置の構成図である。
【図12】本発明の第2の実施の形態における属性表現候補比較抽出部の処理の流れを表す図である。
【図13】本発明の第2の実施の形態における集計された共起語句情報の例である。
【発明を実施するための形態】
【0019】
以下、図面と共に本発明の実施の形態を説明する。
【0020】
[第1の実施の形態]
図3は、本発明の第1の実施の形態における属性表現獲得装置の構成を示す。
【0021】
同図に示す属性表現獲得装置100Aは、検索シーケンス抽出部110、検索シーケンスデータベース120、属性表現候補抽出部130、属性表現選別部140を有し、検索シーケンス抽出部110には外部の検索クエリデータベース200が接続され、属性表現候補抽出部130には外部の属性抽出対象入力装置300が接続され、属性表現選別部140には外部の属性表現出力装置400が接続されている。
【0022】
検索クエリデータベース200には、既存の検索システムに入力された検索クエリ情報の集合が蓄積されている。検索クエリデータベース200に蓄積されるこの検索クエリ情報は、一人のユーザからの1回毎の検索要求を表し、入力された検索クエリ情報と、当該検索クエリが入力された時刻情報、当該検索クエリを入力したユーザを一意に判別可能にするユーザ識別情報、とから構成される。検索クエリデータベース200に蓄積される検索クエリ情報の例を図4に示す。
【0023】
検索シーケンス抽出部110は、検索クエリデータベース200が属性表現獲得装置100Aに接続された際に処理を開始し、ユーザ識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同じユーザによって入力された時間的に連続した2つの検索クエリ情報の組を検索シーケンス情報として全て抜き出し、検索シーケンスデータベース120に蓄積する。
【0024】
検索シーケンス情報に含まれる2つの検索クエリ情報の内、時間的に先に入力された方を「先行検索クエリ情報」と呼び、後に入力された方を「後続検索クエリ情報」と呼ぶことにする。
【0025】
図4に示した検索クエリデータベース200に蓄積される情報の例を用いて、検索シーケンス抽出部110の処理を説明する。
【0026】
検索クエリデータベース200に含まれる5つの情報の内、ユーザ識別情報が「aaa」であるユーザが「ノーベル賞」「ノーベル賞 賞金」「物理学」の順に検索クエリを入力しているので、「ノーベル賞」と「ノーベル賞 賞金」とからなる検索シーケンス情報と、「ノーベル賞 賞金」と「物理学」とからなる検索シーケンス情報との2つの検索シーケンス情報が抽出される。ここで、「ノーベル賞」が先行検索クエリ情報となり、「ノーベル賞 賞金」が後続検索クエリ情報となる。また、「ノーベル賞 賞金」が先行検索クエリ情報となり、「物理学」が後続検索クエリ情報となる。また、ユーザ識別情報が「bbb」であるユーザは、「デジタルカメラ」と「デジタルカメラ レンズ」との2つの検索クエリを入力しているので、「デジタルカメラ」と「デジタルカメラ レンズ」とからなる検索シーケンス情報が抽出される。以上の結果、検索シーケンスデータベース120に蓄積される情報は、図5のようになる。
【0027】
当該属性情報獲得装置100Aの使用者は、キーボード等の属性抽出対象入力装置300を用いることにより、処理対象となる1つまたは複数の属性抽出対象語句情報を入力する。属性抽出対象入力装置300から入力された属性抽出対象語句情報は、属性表現候補抽出部130内の抽出対象バッファ131に入力する。
【0028】
属性表現候補抽出部130は、属性抽出対象入力装置300から1つまたは複数の属性抽出対象語句が入力されると、処理を開始し、検索シーケンスデータベース120にアクセスして抽出対象が先行クエリ情報に含まれる検索シーケンス情報を抽出し、得られた検索シーケンス情報集合の後続検索クエリ情報に含まれる語句を属性表現候補として抽出する。
【0029】
図6は、本発明の第1の実施の形態における属性表現候補抽出部の処理の流れを示す。
【0030】
属性表現候補抽出部130は、処理を開始すると抽出対象バッファ131から属性抽出対象語句情報を1つ取り出す(ステップ101)。
【0031】
属性表現候補抽出部130は、検索シーケンスデータベース120にアクセスし、上記の抽出対象バッファ131から取り出した属性抽出対象語句情報を先行検索クエリ情報として含む検索シーケンス情報を、検索シーケンスデータベース120から読み出す(ステップ102)。例えば、属性抽出対象語句情報が「ノーベル賞」であった場合、図7に示すような検索シーケンス情報の集合が読み出される。
【0032】
属性表現候補抽出部130は、読み出された検索シーケンス情報の集合から、後続検索クエリ情報が先行クエリ情報の内容にいくつかの語句を追加することによって構成されている検索シーケンス情報を、先行クエリ情報に対して検索条件を追加した絞り込みの関係になっていると見做して抜き出す(ステップ103)。図7に示される「ノーベル賞」を先行クエリ情報に含む検索シーケンス情報の集合から、絞り込み関係となっている検索シーケンス情報のみを抜き出した例を図8に示す。例えば、図7の4行目に示されている検索シーケンス情報は、先行クエリ情報が「ノーベル賞 2008」で、後続クエリ情報が「ノーベル賞 受賞者 2008」となっており、後続クエリ情報は先行クエリ情報に「受賞者」を加えたものとなっているため、絞り込み関係になっていると見做せる。
【0033】
属性表現候補抽出部130は、ステップ103で得られた検索シーケンス情報集合をそれぞれについて、後続検索クエリ情報に含まれるが、先行クエリ情報に含まれない語句を、属性候補語句情報として抽出する(ステップ104)。例えば、図8に示される検索シーケンス情報集合を解析すると、属性抽出対象語句情報が『ノーベル賞』の場合、該当する後続検索クエリ情報は、1行目、4行目、5行目、6行目であり、1行目の後続検索クエリ情報では「賞金」、4行目では「受賞者」、5行目では「講演」、6行目では「受賞者」となり、属性候補語句情報として「賞金」「受賞者」「講演」「受賞者」といった語句が抽出される。
【0034】
属性表現候補抽出部130は、ステップ104で得られた1つまたは複数の属性候補語句情報について、同じ表記の語句についてはその出現数を集計し、属性候補語句情報と属性抽出対象語句情報と出現数情報とを合わせ、属性表現選別部140の属性候補バッファ141に書き込む(ステップ105)。図9に属性候補バッファ141に書き込まれる情報の例を示す。
【0035】
属性表現候補抽出部130は、抽出対象バッファ131に未処理の属性抽出対象語句情報が含まれているかを確認し、含まれている場合はステップ101に戻って処理を続け、含まれていない場合は処理を終了する(ステップ106)。
【0036】
属性表現選別部140は、属性表現候補抽出部130の処理が終わると処理を開始し、属性候補バッファ141に蓄積されている属性候補情報を読み込み、1つまたは複数の属性抽出対象語句情報の間の偏りなく抽出されている属性候補情報を選び出し、属性表現情報として属性表現出力装置400に出力する。
【0037】
図10は、本発明の第1の実施の形態における属性表現選別部の処理の流れを示す。
【0038】
属性表現選別部140は、属性候補バッファ141に蓄積されている情報を読み込み、属性抽出対象語句情報がそれぞれ何回ずつ出現しているかを集計する。例えば、図9に示される内容が属性候補バッファ141に蓄積されている場合、「ノーベル賞」が3回、「アカデミー賞」が2回という集計結果が得られる(ステップ201)。
【0039】
属性表現選別部140は、属性候補バッファ141に蓄積されている情報を読み込み、属性候補語句情報がそれぞれ何回ずつ出現しているかを集計する。例えば、図9に示される内容が属性候補バッファ141に蓄積されている場合、「賞金」が1回、「講演」が1回、「受賞者」が3回、「作品」が1回となる集計結果が得られる(ステップ202)。
【0040】
属性表現選別部140は、ステップ202で集計した属性候補語句情報のそれぞれについて、その語句が属性抽出語句情報のそれぞれについて、偏りなく出現しているほど値が小さくなる出現分散度を算出する。具体的には、以下の式のように、出現数の偏りを表す統計量であるχ2値を用いて算出する(ステップ203)。
【0041】
【数1】
ここで、Tは属性候補バッファ141に含まれている属性抽出対象語句の集合を表し、属性候補バッファ141が図9に示される内容の場合、「ノーベル賞」「アカデミー賞」となる。fq(wi,t)は、ある属性抽出対象語句tにおける属性候補語句wiの出現数を表し、属性候補バッファ141が図9に示される内容の場合、tが「ノーベル賞」でwiが「受賞者」とすると、fq(wi,t)は2となる。fw(wi)は、属性候補バッファ141中での属性候補語句wiの出現数であり、属性候補バッファ141が図9に示される内容の場合、wiを「受賞者」とするとfw(wi)の値は3となる。ft(tj)は属性候補バッファ141の中で属性抽出対象語句tjの出現数であり、属性候補バッファ141が図9に示される内容の場合、tjを「ノーベル賞」とするとft(tj)の値は4となる。
【0042】
属性表現選別部140は、閾値よりも低い出現分散度を持つ属性候補語句情報を、属性表現として属性表現出力装置400に出力する。閾値の値は、属性候補バッファ141中に含まれる属性抽出対象語句情報の異なり数から1引いた値を自由度として、計算により求められるχ二乗分布表を参照し、有意水準0.05の値を抽出することにより自動的に求められる。また、処理の簡略化のため、予め決まった閾値を入力しておいてもよい(ステップ204)。
【0043】
属性表現出力装置400は、ディスプレイもしくはプリンタ等の出力装置であり、属性表現選別部140から送られた属性表現情報を、ユーザが読み取れる形で出力する。
【0044】
[第2の実施の形態]
図11は、本発明の第2の実施の形態における属性表現獲得装置の構成を示す。同図において、図3と同一構成部分には同一符号を付し、その説明を省略する。
【0045】
属性表現獲得装置100Bは、検索シーケンス抽出部110、検索シーケンスデータベース120、属性表現候補比較抽出部150、属性表現選別部140から構成され、検索シーケンス抽出部110は外部の検索クエリデータベース200に接続され、属性表現候補比較抽出部150は外部の属性抽出対象入力装置300に接続され、属性表現選別部140は外部の属性表現出力装置400に接続されている。このうち、属性表現候補比較抽出部150以外の構成要素は、第1の実施の形態と同様である。
【0046】
以下、第1の実施の形態と異なる属性表現候補比較抽出部150について説明する。
【0047】
属性表現候補比較抽出部150は、属性抽出対象入力装置300から1つまたは複数の属性抽出対象語句が入力されると処理を開始し、属性抽出対象語句を抽出対象バッファ151に蓄積し、検索シーケンスデータベース120にアクセスして抽出対象が先行クエリ情報に含まれる検索シーケンス情報を抽出し、得られた検索シーケンス情報集合の後続検索クエリ情報に含まれる語句の集合と、先行検索クエリに含まれる属性抽出対象語句の共起クエリの集合とを比較し、後続検索クエリに含まれる傾向の高い語句を属性表現候補として抽出する。
【0048】
図12は、本発明の第2の実施の形態における属性表現候補比較抽出部の処理の流れを示す。
【0049】
属性表現候補比較抽出部150は、処理を開始すると抽出対象バッファ151から属性抽出対象語句情報を1つ取り出す(ステップ301)。
【0050】
属性表現候補比較抽出部150は、検索シーケンスデータベース120に接続し、上記の抽出対象バッファ151から取り出した属性抽出対象語句情報を先行検索クエリ情報として含む検索シーケンス情報を、検索シーケンスデータベース120から読み出す(ステップ302)。例えば、属性抽出対象語句情報が「ノーベル賞」であった場合、図7に示すような検索シーケンス情報の集合が読み出される。
【0051】
属性表現候補比較抽出部150は、読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、属性抽出対象語句以外の語句を共起語句として抜き出し、抜き出した共起語句集合に対して、その表記毎に出現数を集計する(ステップ303)。
【0052】
図7に示される「ノーベル賞」を先行クエリ情報に含む検索シーケンス情報の集合から、共起語句情報を集計して得られる結果を図13に示す。
【0053】
属性表現候補比較抽出部150は、読み出された検索シーケンス情報の集合から、後続検索クエリ情報が先行クエリ情報の内容にいくつかの語句を追加することによって構成されている検索シーケンス情報を、先行クエリに対して検索条件を追加した絞り込みの関係になっているとみなし、追加された語句を絞り込み語句として抜き出し、その表記毎に出現数を集計する(ステップ304)。例えば、図7に示される「ノーベル賞」を先行クエリ情報に含む検索シーケンス情報の集合において、2行目と5行目と6行目と7行目とが絞り込み関係になっている検索シーケンス情報である。このとき、それぞれの絞り込み語句は、「賞金」「受賞者」「講演」「受賞者」となるため、絞り込み語句を集計した結果は、「賞金1回」「受賞者2回」「講演1回」となる。
【0054】
属性表現候補比較抽出部150は、ステップ304で得られた絞り込み語句それぞれについて、当該語句のステップ303で得られた共起語句集合の中での出現確率と、当該語句のステップ304で得られた絞り込み語句集合の中での出現確率とを比較し、共起語句集合中よりも絞り込み語句中で多く出現している場合に、属性候補語句情報として抽出する(ステップ305)。ここで言う当該語句の共起語句集合中での出現確率は、当該語句の共起語句集合中での出現数を、共起語句集合に含まれる全ての語句の出現数を足し合わせた値で割ることにより求められる。当該語句の絞り込み語句集合での出現確率も同様に、当該語句の絞り込み語句集合中での出現数を、絞り込み語句集合に含まれる全ての語句の出現数を足し合わせた値で割ることにより求められる。
【0055】
例えば、ステップ304で得られる絞り込み語句集合が、「賞金」:1回、「受賞者」:2回、「講演」:1回といった内容であった場合、「受賞者」の絞り込み語句集合中での出現確率は、「受賞者」の出現回数である2回を、全ての語句の出現回数を足し合わせた値である4回で割ることにより、0.5と求められる。
【0056】
また、属性候補語句を抽出する際に、絞り込み語句集合中での出現確率と共起語句集合中での出現確率の差が、予め定めた閾値よりも高い場合に、属性候補語句として抽出するようにしてもよい。
【0057】
属性表現候補比較抽出部150は、ステップ305で得られた1つまたは複数の属性候補語句情報について、同じ表記の語句についてはその出現数を集計し、属性候補語句情報と属性抽出対象語句情報と出現数情報とを合わせ、属性表現選別部140の属性候補バッファ141に書き込む(ステップ306)。
【0058】
属性表現候補比較抽出部150は、抽出対象バッファ151に未処理の属性抽出対象語句情報が含まれているかを確認し、含まれている場合はステップ301に戻って処理を続け、含まれていない場合は処理を終了する(ステップ307)。
【0059】
なお、上記の第1の実施の形態の図3、第2の実施の形態の図7に示す属性表現獲得装置の構成要素の処理をプログラムとして構築し、属性表現獲得装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0060】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0061】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0062】
本発明は、インターネット等のネットワークの検索システムに適用可能である。
【符号の説明】
【0063】
100 属性表現獲得装置
110 検索シーケンス抽出手段、検索シーケンス抽出部
120 検索シーケンスデータベース
130 属性表現候補抽出手段、属性表現候補抽出部
131 抽出対象バッファ
132 属性抽出対象入力手段
140 属性表現選別手段、属性表現選別部
141 属性候補バッファ
150 属性表現候補比較抽出部
151 抽出対象バッファ
200 検索クエリデータベース
300 入力装置、属性抽出対象入力装置
400 属性表現出力装置
【特許請求の範囲】
【請求項1】
対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得方法であって、
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力ステップと、
前記検索クエリデータベースから前記ユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出ステップと、
前記抽出対象バッファに格納されている属性抽出対象語句に基づいて、前記検索シーケンスデータベースに格納されている前記検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出ステップと、
前記属性候補バッファに格納されている前記属性表現候補語句それぞれについて、前記抽出対象バッファに格納されている前記属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別ステップと、を有し、
前記属性表現候補抽出ステップにおいて、
前記先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する
ことを特徴とする属性表現獲得方法。
【請求項2】
前記属性表現候補抽出ステップの前に、
前記検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、前記属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出ステップを行い、
前記属性表現候補抽出ステップにおいて、
前記共起語句抽出ステップで得られた前記共起語句の集合と、前記検索シーケンスデータベースから抽出された絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出するステップを行う
請求項1記載の属性表現獲得方法。
【請求項3】
前記属性表現候補抽出ステップにおいて、
前記共起語句の集合より前記絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
ある語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出するステップを行う
請求項2記載の属性表現獲得方法。
【請求項4】
対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得装置であって、
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力手段と、
前記検索クエリデータベースから前記ユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出手段と、
前記抽出対象バッファに格納されている属性抽出対象語句に基づいて、前記検索シーケンスデータベースに格納されている前記検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出手段と、
前記属性候補バッファに格納されている前記属性表現候補語句それぞれについて、前記抽出対象バッファに格納されている前記属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別手段と、を有し、
前記属性表現候補抽出手段は、
前記先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する手段を含む
ことを特徴とする属性表現獲得装置。
【請求項5】
前記検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、前記属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出手段を更に有し、
前記属性表現候補抽出手段は、
前記共起語句抽出手段で得られた前記共起語句の集合と、前記検索シーケンスデータベースから抽出される絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出する属性表現候補比較手段を含む
請求項4記載の属性表現獲得装置。
【請求項6】
前記属性表現候補抽出手段は、
前記共起語句の集合より前記絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
当該語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出する手段を含む
請求項5記載の属性表現獲得装置。
【請求項7】
請求項4乃至6の何れか1項記載の属性表現獲得装置を構成する各手段としてコンピュータを機能させるための属性表現獲得プログラム。
【請求項1】
対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得方法であって、
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力ステップと、
前記検索クエリデータベースから前記ユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出ステップと、
前記抽出対象バッファに格納されている属性抽出対象語句に基づいて、前記検索シーケンスデータベースに格納されている前記検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出ステップと、
前記属性候補バッファに格納されている前記属性表現候補語句それぞれについて、前記抽出対象バッファに格納されている前記属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別ステップと、を有し、
前記属性表現候補抽出ステップにおいて、
前記先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する
ことを特徴とする属性表現獲得方法。
【請求項2】
前記属性表現候補抽出ステップの前に、
前記検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、前記属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出ステップを行い、
前記属性表現候補抽出ステップにおいて、
前記共起語句抽出ステップで得られた前記共起語句の集合と、前記検索シーケンスデータベースから抽出された絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出するステップを行う
請求項1記載の属性表現獲得方法。
【請求項3】
前記属性表現候補抽出ステップにおいて、
前記共起語句の集合より前記絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
ある語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出するステップを行う
請求項2記載の属性表現獲得方法。
【請求項4】
対象事物に対してその性質や特性を表す属性表現を、検索システムに入力された検索クエリ語句の集合と個々の検索クエリ語句を入力したユーザの識別情報とが蓄積された検索クエリデータベースから獲得するための属性表現獲得装置であって、
入力装置から、属性を獲得する対象となる1つまたは複数の属性抽出対象となる属性抽出対象語句を取得し、抽出対象バッファに格納する属性抽出対象入力手段と、
前記検索クエリデータベースから前記ユーザの識別情報に基づいて同一のユーザから入力された検索語句の集合を抽出し、同一ユーザによって入力された時間的に連続した先に入力された検索クエリ語句(以下、「先行クエリ情報」と記す)と後に入力された検索クエリ語句(以下、「後続クエリ情報」と記す)からなる2つの検索クエリ情報の組を検索クエリシーケンス情報として抽出して検索シーケンスデータベースに格納する検索シーケンス抽出手段と、
前記抽出対象バッファに格納されている属性抽出対象語句に基づいて、前記検索シーケンスデータベースに格納されている前記検索クエリシーケンス情報の検索クエリ情報に含まれている語句を属性表現候補語句として抽出し、属性候補バッファに格納する属性表現候補抽出手段と、
前記属性候補バッファに格納されている前記属性表現候補語句それぞれについて、前記抽出対象バッファに格納されている前記属性抽出対象語句の集合のどの語句に対しても偏りなく出現する属性表現候補を、該属性抽出対象語句の集合に共通する属性表現として抽出する属性表現選別手段と、を有し、
前記属性表現候補抽出手段は、
前記先行クエリ情報に検索条件が追加された検索クエリシーケンス情報を絞り込み関係にある絞り込み語句の集合として抽出し、該検索クエリシーケンス情報集合の各検索クエリシーケンス情報の先行クエリ情報に追加された該検索条件を含む後続クエリ情報を選択し、該後続クエリ情報から該先行クエリ情報に含まれない語句を属性候補語句情報として抽出する手段を含む
ことを特徴とする属性表現獲得装置。
【請求項5】
前記検索シーケンスデータベースから読み出された検索シーケンス情報集合のそれぞれに含まれる先行クエリ情報から、前記属性抽出対象語句以外の語句を共起語句として抽出する共起語句抽出手段を更に有し、
前記属性表現候補抽出手段は、
前記共起語句抽出手段で得られた前記共起語句の集合と、前記検索シーケンスデータベースから抽出される絞り込み関係にある絞り込み語句の集合とを比較し、該絞り込み語句の集合中での出現度合いが、該共起語句の集合における出現度合いよりも高い語句を属性表現候補語句として抽出する属性表現候補比較手段を含む
請求項4記載の属性表現獲得装置。
【請求項6】
前記属性表現候補抽出手段は、
前記共起語句の集合より前記絞り込み語句の集合中でより多く出現する度合いを表す値Aを、
当該語句が該絞り込み語句の集合に出現する回数を絞り込み語句に出現する全語句の数で割ることによって得られる当該語句の絞り込み語句集合中での第1の出現確率と、当該語句が共起する語句の集合で出現する回数を共起する語句の集合に出現する全語句の数で割ることによって得られる共起する語句の集合中での第2の出現確率との差を算出することによって求め、
得られた値Aが予め定められた閾値以上の場合に属性表現候補語句として抽出する手段を含む
請求項5記載の属性表現獲得装置。
【請求項7】
請求項4乃至6の何れか1項記載の属性表現獲得装置を構成する各手段としてコンピュータを機能させるための属性表現獲得プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2010−244341(P2010−244341A)
【公開日】平成22年10月28日(2010.10.28)
【国際特許分類】
【出願番号】特願2009−93049(P2009−93049)
【出願日】平成21年4月7日(2009.4.7)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
【公開日】平成22年10月28日(2010.10.28)
【国際特許分類】
【出願日】平成21年4月7日(2009.4.7)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】
[ Back to top ]