説明

トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム

ドキュメントは、製品レビュー、製品仕様及び価格情報等を含む製品データを含む様々な一般公開されている情報源から収集される。ドキュメントから得られるテキストのスニペットは、製品の品質を評価するのを助ける関連性、感想及び信頼性等の側面に対して解析される。特徴ベクトルは、スニペットが関連性、感想又は信頼性を解析するのに計算される。統計解析は、関連性、感想又は信頼性の尺度を評価するために、特徴ベクトルで実行される。様々なスニペットと関連した要素は、製品又は製品の特徴、属性、使用法若しくはユーザの人物像を含む特定の側面に対して、品質スコアを計算するのに集約される。情報は、ユーザが品質スコアの計算に関連する詳細を調べることを可能にするユーザインタフェース上に表示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子的なデータ、例えばユーザ貢献型のオンラインコンテンツで利用できる情報を用いて、製品の異なる側面に基づき製品の品質を評価する製品ランク付け方法及び製品ランク付けシステムに関する。
【関連出願】
【0002】
本願は、「System and Method for Aggregating and Summarizing Product/Topic Sentiment」を発明の名称とする、2008年6月19日に出願された米国仮特許出願第61/074061号の利益及び優先権を主張し、この米国仮特許出願文献は、引用することにより、本願に完全に援用される。
【背景技術】
【0003】
消費者は、製品の購入決定をするために他の人の意見を使うのを好む。従来、消費者は、製品の購入判断をするのに、限られた情報源、例えば家族、友人、販売員、従来からの印刷物あるいは放送媒体を利用することができた。インターネットを用いて、電子データにアクセスすることができるようになり、消費者は、製品の購入判断をするのに役立つ情報にアクセスできるようになった。この情報は、様々な形式、例えば製品情報のあるウェブページ、ブログ若しくはフォーラムでの製品レビュー、又はオンラインビデオクリップ等によって利用することができる。このような情報は、調査をするための様々な情報源を消費者に提供する。ある消費者が探している製品の種類や製品の目的に関係なく、多くの人々が、既にその目的で製品を購入していたり、広範囲にその製品を使用していたり、公衆アクセス可能な電子媒体のフォーラムで彼らの意見を表現していたりする確率が高い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、かなり多くの関連情報が、ある目的のために製品に関連があり、利用できる一方、その情報は、多くの情報源の間に分布されていることがあり、また、各情報源は、異なるフォーマットでその情報を提供している場合がある。この情報の多様な内容によって、製品カテゴリ内で製品の一貫した意見を集めて、数十又は数百の製品の中から購入判断対象を絞り込んで、最終的に、購入する1つの製品に落とし込むことは、個人にとって、困難なものとなっている。
【課題を解決するための手段】
【0005】
本発明の製品ランク付け方法及び製品ランク付けシステムは、トピックに関して製品の品質を評価することを可能にする。製品のランク付けは、テキストドキュメントのスニペット内で利用可能な情報に基づいて決定される。スニペットは、トピックに対する各スニペットの関連性の評価、トピックに関する各スニペットの感想の評価及び各スニペットの信頼性の評価を決定するために解析される。トピックに関する製品の集約品質スコア(aggregate quality score)は、スニペットの関連性の評価、感想の評価及び信頼性の評価を含む、各スニペットに関連した要素に基づいて決定される。
【0006】
一実施の形態において、テキストのスニペットは、製品の情報を含むドキュメントをオンライン情報源から集約することによって得られる。テキストのスニペットは、トピックに関して製品を記述するテキストの一部に相当する。スニペットの関連性の評価は、トピックを記述した用語を有するスニペットを識別し、特定されたスニペットを処理することによって計算される。トピックに関してスニペットの関連性を表現する特徴ベクトルは、特定された各スニペットに対して計算される。特定された各スニペットの関連性スコア(relevance score)は、スニペットに関連した特徴ベクトルの統計解析に基づいて決定される。他の実施の形態において、特徴ベクトルの成分は、トピックを記述するテキストパターンと一致させることによって計算される。
【0007】
一実施の形態において、トピックに関する各スニペットの感想の評価は、トピックを記述した用語を有するスニペットを特定し、各スニペットを処理することによって決定される。特徴ベクトルは、スニペット毎に計算される。特徴ベクトルの成分は、スニペット内で記述される感想に基づいて決定される。特定されたスニペットの特徴ベクトルの統計解析は、スニペット毎に感想スコア(sentiment score)を決定するために実行される。
【0008】
スニペットの信頼性の評価は、スニペット内の情報の信頼性を示す情報に基づいて決定される。スニペットの信頼性の評価は、トピックの書き手の信頼性、情報源の信頼性、役に立つ情報又は役に立たない情報の数を特定してユーザから受け取るフィードバック及びスニペットの長さを含む要素に基づいて決定される。
【0009】
トピックに関する製品の全体的な品質スコアは、各スニペットに対応する投票数の評価の集約値(aggregate value)として決定される。スニペットに対応する投票数は、スニペットによって決定されるので、トピックに関して製品の品質を示す。他の実施の形態において、全体的な品質スコアの計算は、他の要素、例えば各スニペットの寿命(age)を含んでいる。
【0010】
ここで記述され、及び以下の詳細な説明で記述される特徴及び効果は、全てが含まれるものではない。多くの付加された特徴及び効果は、図面、明細書及びクレームを考慮することにより当業者とって明らかにされる。
【図面の簡単な説明】
【0011】
【図1】サーバ及び/又はクライアントとして用いるコンピュータの例を示すハイレベルのブロック図である。
【図2】本発明の一実施の形態に基づいて、製品/トピックの感想を集約及び要約するシステムの主要なサブシステムを示すシステムアーキテクチャ図である。
【図3】本発明の一実施の形態に基づいて、図2に示す各サブシステムの様々な構成要素を示すシステムアーキテクチャ図である。
【図4】本発明の一実施の形態に基づいて、製品/トピックの感想を集約及び要約する処理を示すハイレベルのフローチャートである。
【図5】本発明の一実施の形態に基づいて、製品/トピックの品質基準(quality metrics)を計算するために、集約されたデータを解析する処理を示すフローチャートである。
【図6】本発明の一実施の形態に基づいて、テキストのスニペットの関連性スコア(relevance score)を計算する処理を示すフローチャートである。
【図7】本発明の一実施の形態に基づいて、テキストのスニペットの感想スコア(sentiment score)を計算する処理を示すフローチャートである。
【図8】本発明の一実施の形態に基づいて、テキストのスニペットの信頼性スコア(credibility score)を計算する処理を示すフローチャートである。
【図9】本発明の一実施の形態に基づいて、製品/トピックの品質スコアを計算する処理を示すフローチャートである。
【図10】本発明の一実施の形態に基づいて、製品/トピックの品質スコアに関連付けられた情報を示すグラフィカルユーザインタフェースを示す図である。
【0012】
これらの図は、説明だけの目的で、本発明の様々な実施の形態を示している。当業者であれば、ここに説明する構造及び方法の他の実施の形態を、ここに説明する発明の原理を逸脱することなく、採用できることは、以下の説明から容易に理解することができる。
【発明を実施するための形態】
【0013】
図1は、一実施の形態に基づくクライアント及び/又はサーバとして用いる代表的なコンピュータ100の機能を示すハイレベルのブロック図である。少なくとも1個のプロセッサ110がバス145に接続されていることが示されている。また、メモリ115と、記憶装置130と、キーボード135と、グラフィックアダプタ120と、ポインティングデバイス140と、ネットワークアダプタ125とがバス145に接続されている。ディスプレイ105は、グラフィックアダプタ120に接続されている。
【0014】
プロセッサ110は、任意の汎用プロセッサ、例えばインテル製x86互換CPUである。一実施の形態において、記憶装置130は、ハードディスクドライブであるが、データを記憶することが可能な任意の他の装置、例えば書き込み可能なコンパクトディスク(CD)、デジタルビデオディスク(DVD)及び/又は半導体メモリであってもよい。メモリ115は、例えばファームウェア、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)又は不揮発性RAM(NVRAM)であってもよく、プロセッサ110によって用いられる命令及びデータを格納する。ポインティングデバイス140は、マウス、トラックボール又は他の種類のポインティングデバイスであってもよく、コンピュータ100にデータを入力するキーボード135と組み合わせて用いられる。グラフィックアダプタ120は、ディスプレイ105上に画像及び他の情報を表示させる。ネットワークアダプタ125は、コンピュータ100をネットワークに接続させる。
【0015】
技術的に知られているように、コンピュータ100は、コンピュータプログラムモジュールを実行する。本明細書で用いる場合、用語「モジュール」は、特定の機能を働かせる、コンピュータのプログラム論理及び/又はデータのことを指す。モジュールは、ハードウェア、ファームウェア及び/又はソフトウェアの形で、コンピュータ100に実装される。一実施の形態において、モジュールは、記憶装置130に格納され、メモリ115にロードされ、プロセッサ110によって実行される。
【0016】
一実施の形態において利用されるコンピュータ100の種類は、その実施の形態、及び構成要素(entity)によって利用される処理パワーによって変わる。例えば、クライアントが必要とする処理パワーは、通常、サーバよりも低い。したがって、クライアントは、標準的なパーソナルコンピュータシステム又は携帯型電子機器とすることができる。対照的に、サーバは、本明細書で説明する機能を実現するために、より高性能のコンピュータ及び/又は連携して動作する複数のコンピュータから構成される。また、コンピュータ100は、上述した構成要素のうちのいくつかがなくてもよい。例えば、クライアントとして動作する携帯電話には、ポインティングデバイスがなくてもよく、サーバとして動作するコンピュータには、キーボード及びディスプレイがなくてもよい。
【0017】
図2は、一実施の形態に基づいて、製品/トピックの感想を集約及び要約する(aggregating and summarizing)製品ランク付けシステム200を構成する主要なサブシステムを示す図である。以下、これらのサブシステムをモジュールとも呼ぶ。集約サブシステム(aggregation subsystem)230は、例えばワールドワイドウェブ(以下、単に「ウェブ」ともいう。)全体に亘って分散している様々な情報源250から、多様な製品情報を収集する。情報源250の例として、製品仕様205、価格情報210、レビュー215、ブログ投稿記事(blog posts)220又はフォーラム投稿記事(forum posts)225がある。情報源の他の例として、ソーシャルネットワークの会員によって投稿されたステータスメッセージ、ユーザの共有注釈(shared annotations)、例えばブックマーク、ニース記事(news articles)等がある。情報を表現するウェブサイト全体に亘って用いられる唯一の代表的規格があるわけではなく、また、情報が絶えず変化しているので、多数の製品カテゴリに亘って異なる情報源から得た情報を処理することは難しい作業(challenging)である。一般的には、製品の品質解析の正確さは、処理のために使われたデータの量及び多様性によって向上する。より多くの多様なデータを収集することにより、顧客満足度、感想及びインターネット全体に亘る製品の広範囲の良好な評価が得られる。
【0018】
情報の関連性に関する部分は、情報源250の多様な集合から検索されて、格納されたデータから抽出される。例えば、製品関連のブログ投稿記事を検索するときには、集約サブシステム230は、ブログ投稿記事のテキストを格納するが、そのウェブページ上のブログナビゲーションヘッダ(blog navigation headers)又は広告は格納しない。集約サブシステム230によって集約された製品情報は、1つの統一表現に正規化(normalized)することができる。例えば、製品は、多様な情報源250に亘って、様々な名称及び略称(nicknames)で呼ばれることがある。異なる製品のそれぞれには、固有の識別子が割り当てられる。各製品は、その製品について収集された情報に加えて、製品カテゴリに関連付けられる。
【0019】
解析サブシステム235は、収集された情報を利用し、品質に基づいて又はトピックによって、製品をランク付けする(後述する)。製品は、製品レビューの集合が与えられた製品の総体的な品質判定によって決定したそれらの全体の品質に基づいて、ランク付けすることができる。製品は、トピックと呼ばれる製品の特定の側面、例えば製品の特徴、属性、使用法又はユーザの人物像(personas)に基づいて、ランク付けすることができる。例えば、特定のデジタルカメラは、特に軽量かつコンパクトであるが、バッテリ寿命はひどく短いということがある。あるいは、製品の品質は、特定の使用法又は用途に対する製品の適合性に基づいて、ランク付けすることができる。例えば、水中写真用にとても適しているカメラは、ポートレート撮影には適しておらず、その逆もそうである。製品は、特定のタイプのユーザ(人物像とも称される)に対する製品の適合性に基づいて、ランク付けすることができる。例えば、プロのカメラマンに適しているカメラは、初心者ユーザには適しておらず、その逆もそうである。
【0020】
表示サブシステム240は、ユーザインタフェースによって、ユーザに解析された情報を表示する。ユーザインタフェースによって、ユーザは、価格、特徴、属性、用途、人物像について製品のフィルタリングを容易に行うことができる。例えば、ユーザが200ドル未満で、バッテリの持ちがよく、お母さん向けの5メガピクセルのカメラを探している場合、ユーザは、ユーザインタフェースによって、製品のこれらの側面の全てについてフィルタをかけることができる。ユーザインタフェースによって、ユーザは、様々な基準に従って製品を比較することができる。上述の例では、ユーザが、基準の集合を有し、3つの異なる候補の製品のうちのいずれかに決定しようとする場合、ユーザは、候補のカメラを、カメラを選択するのに用いる基準によって、比較することができる。ユーザインタフェースによって、ユーザは、ランキングに対応する簡単な品質判定(summary quality judgments)の背後にある個々の詳細な意見をブラウズすることができる。例えば、ユーザが、あるカメラがなぜお母さん向けとして高い評価なのかを知りたい場合、そのカメラを持っているお母さんの経験を記述したレビュー及び投稿記事にフィルタをかけることは容易である(肯定的感想、否定的感想又は全ての感想)。
【0021】
図3は、製品ランク付けシステム200の様々な構成要素を示しており、本発明の一実施の形態に基づいて、図2に示す様々なサブシステムの詳細を含むシステムアーキテクチャ図である。集約サブシステム230は、ユニフォームレコードロケータ(以下、URLという。)リポジトリ300と、ドキュメント格納装置330と、正規化データ格納装置305と、URLサーバ310と、ドキュメントプロセッサ315と、フェッチャ(fetcher)325と、コンテンツ抽出装置320とを備える。製品ランク付けシステム200は、拡張性又は信頼性を目的として、特定の構成要素、例えばURLサーバ310、フェッチャ325、ドキュメントプロセッサ315又はドキュメント格納装置330の複数のインスタンスを走らせることができる。
【0022】
URLリポジトリ300は、製品ランク付けシステム200が辿ったURLのリストを収容する。URLは、ウェブページを取り出す出発点としての種(seed)URLとして提供され、あるいはドキュメントプロセッサ315によってポピュレートされる(populated)。URLサーバ310は、ウェブページがフェッチャ325によって取得されるシーケンス及びタイミングを規定する。URLサーバ310は、変更の頻度、製品の新しさ、問題の製品寿命に基づいて予め計算された新しいコンテンツ(例えばレビュー記事及び更新された製品価格)の到着の傾向を含むシーケンス及びタイミングを規定する様々な基準(metrics)を用いる。例えば、新製品は、その発売日(release date)の直後の期間に、より多くのレビューを得る傾向あるが、製品の種類によっては、古い製品ほど、新しいレビューを得る機会が少ない。URLサーバ310は、異なるURL及びそれらの内容の比較に基づいて、URLの正規化及び最小化(minimization)を実行する。類似した内容を示すURLは、URLのより単純な表現にマージすることができる。フェッチャ325は、URLサーバ310からURLを取得し、取得されたURLに対してハイパーテキスト転送プロトコル(HTTP)要求を発行し、検索されたページコンテンツをドキュメント格納装置330に格納する。ドキュメント格納装置330により、正規化URLに基づくページコンテンツの高速記憶及び検索(fast storage and lookup)が可能となる。一実施の形態において、高速検索は、ページコンテンツのハッシュベース又は他の索引付け(indexing)によって達成することができる。ドキュメント格納装置330により、ドキュメントプロセッサ315は、ドキュメントに注釈を付けることができる。ドキュメントプロセッサ315は、ドキュメント格納装置330内のドキュメントを調べ、調査したドキュメントを抽出及び/又は増やす(augments)。ドキュメントプロセッサ315は、コンテンツ抽出、URL抽出(URLリポジトリ300に保管する新しいURLの取得)を含む機能を実行することができる。正規化データ格納装置305は、解析サブシステム235及び表示サブシステム240によって消費(consumption)に適した、ウェブから取得されたデータの整理された表現(cleaned representation)を含んでいる。コンテンツ抽出装置320は、ユーザに提示できる製品の品質スコア(quality scores)を計算するのに関連したコンテンツを抽出する。ウェブサイトは、その構成を変えることがあり、また、ユーザが作成したコンテンツは、新しいコンテンツ、編集等のために、ページからページに移動されることがあるので、コンテンツ抽出装置320は、抽出されたコンテンツを更新し続ける。
【0023】
解析サブシステム235は、関連性解析装置335と、感想解析装置340と、評判(reputation)解析装置345と、品質スコア計算モジュール355と、トピックモデル(topic model)格納装置370と、感想モデル(sentiment model)格納装置375と、評判格納装置380とを備えている。トピックモデル格納装置370は、トピックに一致した製品をランク付けするのに役立つスコアを決定するのに有用な、各トピックに特有の情報を含んでいる。例えば、テキストのスニペットがトピックに関連するときには、トピック「自動車(Automobiles)用のGPS(グローバルポジショニングシステム)」は、スコアを決定するための用語として、用語「車(car)」、「運転(driving)」、「ハンズフリー」を含む可能性がある。トピックモデルの品質は、関連性スコア(relevance score)の精度を決定することができる。トピックモデルは、入力に一致したテキストパターン(text patterns)の集合を含むことができる。トピックモデルは、入力に一致したテキストパターンの集合、スニペットの有効値の集合又は製品のメタデータの正規表現(regular expression)を含むことができる(例えば、2シートベビーカーだけが、トピック「双子」に関連する)。これらのテキストパターンは、人間によって入力することができ、あるいは二次資料(secondary source)、例えば類語辞典(thesaurus)から推測することができる(また、テキストパターン「自動車」の存在は、トピック「車」に関連性があることを意味している)。入力に適用できる標準パターン(standard patterns、単独又は品詞タグ(part of speech tags)が組み合わされたnグラム(N-grams))の大きな集合も存在する。
【0024】
感想モデル格納装置375は、製品に対するテキストのスニペットの感想を決定するのに役立つ情報を含んでいる。例えば、用語「すばらしい(great)」、「すごい(awesome)」は、肯定的感想に対応し、用語「私は嫌い(I hate)」、「ひどい(terrible)」は、否定的感想に対応する。評判格納装置380は、情報源及びユーザの信頼性に基づいて、スニペットの信頼性を評価するのに役立つ情報を保管している。関連性解析装置335は、スニペットをランク付けするスニペットの関連性スコアを、トピックに対するそれらの関連性に基づいて計算する。感想解析装置340は、感想モデル格納装置375内で利用できる情報に基づいて、スニペットの感想スコア(sentiment score)を決定する。感想スコアは、基準(measure)を、スニペットの利用できる情報に基づいて、製品トピックに対する肯定的類似点(positive likeness)又は否定的類似点に提供する。評判解析装置345は、評判格納装置380内で利用できる情報に基づいて、スニペットの信頼性スコアを決定する。トピックモデル格納装置370及び感想モデル格納装置375は、専門家によって生成する(populated)ことができる。あるいは、トピックモデル格納装置370及び感想モデル格納装置375は、機械学習技術を用いて、生成することができる。例えば、一実施の形態において、ドキュメントの集合の全ての単語(word、ユニグラム(unigrams))を処理し、各単語の重み(weights)を学習し、そして、重みが約0である単語を除去し、その結果、モデルに対して重要な単語の集合を得ることができる。例えば、感想における単語「すばらしい」に0.8の重みが割り当てられ、単語「ひどい」に−0.8の重みが割り当てられ、単語「ギア(gear)」に0.001の重みが割り当てられてもよい。同様に、関連性モデル「休暇用のカメラ(cameras for vacation)」に対する単語「休暇」、「旅行(trip)」が正の重み(positive weights)を有し、単語「ホーム(home)」が負の重みを有し、単語「カメラ」が、0に近い重みを有していてもよい。単語の有無(非存在の場合は0、存在する場合は1)の加重和をとることができる分類子(classifier)によって、スニペットを分類することができる。上述した例では、説明の目的のために単純なモデル(simplified model)を示したが、現実のモデル(world models)は、より複雑(sophisticated)である。非常に大きな正の重みを有するユニグラムを含むクエリ(query)におけるスニペットを考慮する場合、その考慮に対してスニペットの良好な集合が得られる。
【0025】
表示サブシステム240は、ユーザ対話処理モジュール360と、ユーザフィードバックモジュール365とを備える。ユーザ対話処理モジュール360は、解析サブシステム235によって生成された情報をユーザに提示する。ユーザは、ユーザが興味のあるトピックを指示する入力を、ユーザ対話処理モジュール360を用いて入力することができる。ユーザフィードバックモジュール365によって、ユーザは、トピックモデル格納装置370、感想モデル格納装置375及び正規化データ格納装置305に格納されているモデルを改良する学習に役立つ情報を入力することができる。例えば、製品トピックに対して決定された品質スコアが誤っており、ユーザの意見では、品質スコアが他の値でなければならないことを示す情報を入力することができる。フィードバックは、今後の結果を向上できるように、解析サブシステム235で使われるパラメータを修正するのに用いられる。
【0026】
ドキュメントプロセッサ315は、更なるメタデータ、例えば「商品名又は型番のような(likely product name or model number)」によって、ドキュメントに注釈を付ける構文解析部(parsers)を実装している。構文解析部は、正規表現と、ハイパーテキスト記述言語(以下、HTMLという。)のドキュメントオブジェクトモデル(以下、DOMという。)のナビゲーション規則との組合せを含むテキストパターンベースの技術を使用する。正規表現/DOMのナビゲーション規則は、所定のページからコンテンツ、例えばレビューを抽出するのに用いられる手動でコード化されたパターン(hand-coded patterns)の集合である。表現又はナビゲーション規則のそれぞれは、(ウェブサイト−識別子、ページ−タイプ)の組合せに関連付けられており、ウェブサイト−識別子は、ウェブページを識別する情報、例えばウェブサイトのURLであり、ページ−タイプは、ウェブページのカテゴリ、例えば小売業者のウェブサイト上の製品ページ又は製品リストページを表している。例えば、URLがwww.acme.comの小売業者ウェブサイトの(ウェブサイト−識別子、ページ−タイプ)組合せは、(www.acme.com、製品−ページ)及び(www.acme.com、製品−リスト−ページ)とすることができる。同様に、URLがwww.acme2.comの異なるウェブサイトの(ウェブサイト−識別子、ページ−タイプ)組合せは、(www.acme2.com、製品−ページ)及び(www.acme2.com、製品−リスト−ページ)とすることができる。抽出されたデータは、そのタイプ、例えば「商品名」、「型番」、「製品カテゴリ」、「レビューテキスト」、「仕様名/値」等によって注釈が付けられる。ドキュメントプロセッサ315は、テキストパターンベースの技術を用いて、更なるメタデータを含むコンテンツを識別し、正規化データ格納装置305に格納する。ドキュメントプロセッサ315は、統計分類機構(statistical classification mechanisms)、例えば単純ベイズ分類器(Naive Bayes classifier)、回帰分析(regression)等を、このメタデータによって強化されたコンテンツに適用して、データの種類毎の分類子を生成する。一実施の形態において、製品に関するユーザの感想についての特定のコンテンツに対して隠れマルコフモデル(Hidden Markov Models)を用いる。新しいウェブページがあった場合、そのコンテンツを前処理して、HTMLタグを除去し、句の集合(collection of phrases)、すなわち文(sentences)を残すことができる。そして、このコンテンツは、上述した分類器に供給される。そのような分類毎に、製品ランク付けシステム200は、信頼度(confidence level、例えば0.0〜1.0)を割り当てる。信頼度が、経験的に決定された製品−カテゴリ及びコンテンツ−タイプに依存した閾値よりも低い場合、コンテンツは、人間による手動抽出のために待ち行列に入れることができる。この抽出されたコンテンツは、解析段階に供給される。
【0027】
図4は、発明の一実施の形態に基づく製品ランク付けシステム200のハイレベルの処理を示すフローチャートである。集約サブシステム230は、ステップ410において、様々な情報源250から取得したデータを集約する。解析サブシステム235は、ステップ420において、ステップ410で集約した情報を解析して、製品及びトピックの品質基準(quality metrics)を計算する。表示サブシステム240は、ステップ430において、ステップ420での解析結果をユーザに表示する。いくつかの実施の形態では、ステップ430でユーザに表示した情報によって、ユーザは、どのように結果が得られたかを示す情報を調べ及び見ることができるとともに、結果の品質/正確さに対するユーザの意見をフィードバックすることができる。図4の個々のステップを、以下で詳細に説明する。
【0028】
データの集約(Aggregation of Data)
一実施の形態において、コンテンツ抽出装置320は、特定の製品又はラベルを付されたドキュメントのそれぞれが参照する製品の分類を識別することによって、利用可能なコンテンツの正規化(normalization)を実行する。テキストによって参照される製品の識別は、多くの人が製品を参照する方法(小売業者、型番、微細な属性の相違、略称、在庫維持単位(SKU)等を含む)が異なるために、困難なものとなっている。入力データは、まったく体系化されておらず、ウェブサイト、特に小さなウェブサイトでは、標準化された命名方式(naming schemes)に固定させることができない。ラベルを付されたドキュメントによって参照される製品を識別するのに用いられる技術には、マッチングルールエンジン(matching rules engine)及び手動マッチングを用いるものが含まれる。マッチングルール、例えば「型番は、既知の製品と一致する」、「技術仕様は、既知の製品と一致する」、「発売日は、既知の製品に近い」等の集合は、新しく抽出されたドキュメントで評価される。そのような結果のそれぞれには、マッチングの全体的な信頼度(confidence)を判定するのに用いられる信頼値(例えば、0.0〜1.0)を割り当てることができる。いくつかの実施の形態においては、既知の製品のキー属性(key attributes、例えば名称及び型番)に関する逆索引(inverted index)を用いて、マッチングの速度を上げることができる。信頼度が所定の閾値未満の場合、コンテンツは、人間の監視者に提示することができる。監視者には、新しいページのラベルが付されたコンテンツと、監視者が既存の製品カタログに対して一致を決定する、あるいは新しい製品を生成するのに用いることができる考えられる一致のリストと(list of possible matches)が提示される。既にカタログ内で製品に対する一致を見つかっている場合、異なる情報源から取得されたデータには矛盾(conflicting data)がある可能性がある。矛盾は、情報源に、信頼性の値(credibility value)を割り当てることによって解決される。新しい情報源が製品ランク付けシステム200に現れたときには、その信頼性の値は、そのデータの既知の情報源に対する相関に基づいて、上方又は下方に調整される。情報源の信頼性の値は、人間の監視者によって定期的に監視してもよい。解析サブシステム235及び表示サブシステム240によって、入力として用いられた全ての製品及び関連したデータの正規化された表現は、正規化データ格納装置305に格納される。いくつかの実施の形態において、正規化データ格納装置305に格納されたドキュメントは、1つ以上の文又は節に相当するテキストスニペット(text snippets)に対応している。
【0029】
関連性解析(Relevance Analysis)
図5は、ステップ410において情報源250から集約した情報のステップ420における解析の全てステップを示すフローチャートである。解析により、集められたスニペットにおける利用可能な製品に関連した情報に基づいて、製品の全体的な品質アセスメント(quality assessment)の評価を提供する製品の品質スコアを決定する。また、解析により、製品の特徴、属性、使用法又はユーザの人物像の集合に関する製品の品質提供評価アセスメント(product providing quality assessment)に関連したトピックのトピックスコアを決定する。一実施の形態において、トピック、製品の集合、それらの製品を議論するレビュー(あるいは、任意の他のテキスト)の集合並びに製品関するメタデータの集合、例えば価格及び仕様書が与えられた場合、解析により、トピックに関する各製品の正規化スコア(例えば0〜100)を決定する。スコアは、製品を、そのトピックに対してランク付け、すなわち順番を付ける(rank-order)のに用いることができる。解析の結果は、ユーザがフィルタをかけ、比較し、彼らのニーズ及び好み(preferences)に適した製品を決定するのに役立つ。
【0030】
関連性解析装置335は、ステップ510において、製品/トピックに対するスニペットの関連性を解析して、スニペットがトピックに対してどれくらい関連するかを示す、スニペットに対する関連性スコアを決定する。製品は、それに関連付けられた任意の数のテキストスニペット、例えば、製品に関するユーザ又は専門家のレビュー、ブログ又はフォーラム投稿記事、解説記事(articles)等を有することができる。スニペットは、任意の長さとすることができ、投稿記事、投稿記事の節、文又は文より短い句を含むことができる。各スニペットは、問題のトピックに言及してもよく、言及していなくてもよい。例えば、トピックが「スポーツ用のデジタルカメラ(Digital Cameras for Sports)」である場合、書き手がホッケの試合の写真を撮るためにどのようにカメラを使ったかについて記述しているスニペットは、そのトピックに関連する。同様に、動きの速い被写体又は移動撮影用のカメラの性能について議論しているスニペットは、トピック「スポーツ用のデジタルカメラ」に関連する。カメラのバッテリ寿命又は家族写真用に使いやすいカメラに重点を置いているスニペットは、トピックス「スポーツ用のデジタルカメラ」とは関連しない。
【0031】
感想解析装置340は、ステップ520において、感想解析を実行して、トピックに対するスニペットの感想を示す製品/トピックに関して、スニペットの感想スコアを決定する。製品と関連した1つ以上のテキストスニペットの集合がある場合、感想解析装置340は、ステップ520において、感想、すなわちそれらのスニペットの傾向が肯定的であるか、否定的であるか、中立であるかどうかを決定する。上述した例においては、書き手がホッケの試合の写真を撮るカメラを使ったことを書いたスニペットは、どれくらいうまく試合の写真を撮ることができたかを公表していてもよく、どれくらいその性能に失望したかを公表していてもよく、あるいは結果を述べずにそのカメラを使用したことだけを公表していてもよい。感想は、区間(例えば肯定的、中立、否定的、さらに細分化して、「いくぶん肯定的(somewhat positive)」、「いくぶん否定的」)の集合として表現されるか、または、否定的から肯定的までの連続したスケールとして表現されるかいずれかであり、好みの度合いを表現することができる。
【0032】
評判解析装置345は、ステップ530において、ドキュメントの信頼性を解析して、スニペットに対する信頼性スコアを決定する。いくつかの実施の形態において、信頼性スコアは、スニペットと関連している一方で、他の実施の形態においては、信頼性スコアは、スニペットとトピックの組合せと関連している。スニペットの信頼性は、書き手の信頼性及びドキュメントの情報源の信頼性を含む要素に基づいて解析される。例えば、書き手がその製品を支持することに非常に偏っているので、製品のメーカによるスニペットは、あまり当てにならない。同様に、完全な製品レビューを書き込んでいる有名なリポータは、なんら実証することなく、製品が「お粗末である(sucks)」との書き込んでいる第三者よりも信頼できる。いくつかの製品レビューサイトで、ユーザは「役立つレビュー」又は「役立たないレビュー」としてレビューをマークすることができ、これは、また、そのスニペットの評判に、又はその投稿をした書き手に寄与することもできる。
【0033】
トピックに関連し、トピックに対してある感想を表現するスニペットの集合がある場合、集約品質スコア(aggregate quality score)は、ステップ540において、トピックに関して製品毎に、品質スコア計算モジュール355によって決定される。直観的には、トピックに関連し、そのトピックに対して肯定的傾向を表現する各スニペットは、「得票数が上がる」と考えられる。同様に、トピックに関連する否定的な各スニペットは、「得票数が下がる」ことになる。集約品質スコアは、スニペットの関連性スコア、スニペットの感想スコア及びスニペットの信頼性スコアを含む様々な要素に基づいて計算される。品質スコアの計算に関する詳細は、以下で説明する。一実施の形態において、1つのステップにおける計算結果が他のステップにおける計算に必要でない限り、ステップ510、520、530は、ステップ540において品質スコアの計算結果を得るために、いかなる順番で実行することができる。
【0034】
フィードバックは、ステップ550において、様々な機構によって取得されて、製品ランク付けシステム200によって計算される品質スコアを向上させる。一実施の形態において、ユーザ対話処理モジュール360は、製品/トピック及びスニペットに関連したスコアを示す表示を、製品ランク付けシステム200のエンドユーザ又は製品ランク付けシステム200が高品質の結果を出力することを保証する責任を負う管理者に表示する。その表示に基づいて、ユーザは、ユーザフィードバックモジュール365によって取り入れられるフィードバックを、製品ランク付けシステム200に与える。製品ランク付けシステム200は、このフィードバックに適応し、学習して、より良好な結果を出力する。例えば、相対的な製品品質は、ランク付けされたリストとして表示される。ユーザは、これらの可視化情報をブラウズすることができ、そのランキングに同意しない場合、ユーザは、例えば製品のランキングの得票を上げる又は下げるべきと提案することによって、ユーザフィードバックモジュール365にフィードバックを提供することができる。製品ランク付けシステム200は、この情報に基づいて、より良好なスコアを出力することを学習するので、この種のフィードバックは、処理をする製品/トピックの品質スコアの計算を向上させるのに用いることができる。
【0035】
また、ユーザは、ランキングを決定するのに用いられる個々のスニペットをブラウズすることもできる。どのようにカメラが「美しく光を捕らえるか」について記述したレビューは、カメラの「重量」に関連するレビューと間違えられることがある。ユーザは、トピック「重量」と無関係なものとして、このスニペットをマークすることができ、また、トピック「画質」に関連するものとして、このスニペットをマークすることもできる。同様に、「そのカメラの弱光設定を発見するまでは、そのカメラで屋内で写真を撮ることが、どんなに私は嫌いだったか」と公表しているスニペットは、句「私は嫌いだった」のために、非常に否定的な感想と間違えられることがある。「肯定的」、「否定的」又は「中立」としてスニペットをマークすることによって、ユーザは、製品ランク付けシステム200の感想の評価を修正することができ、製品ランク付けシステム200は、修正から学習して、より正確な関連性の評価及び感想の評価を生成する。学習過程の詳細については、以下に説明する。
【0036】
いくつかの実施の形態において、間接的なフィードバックは、ユーザアクションから得ることができる。例えば、所定のトピックに対する製品のリストがユーザに提示された場合に、ユーザが製品の詳細な情報に興味のあったことを示すユーザアクション中のクリック操作は、肯定的なフィードバックを示す。他方、最高のランク付けをされた製品を無視し、より低くランク付けされた製品の情報を取り出すユーザの操作は、最高のランク付けをされた製品に対する否定的なフィードバックの指標と考えられる。一実施の形態において、スニペットの信頼性スコアの計算は、書き手の信頼性スコアの評価にフィードバックを提供することができる。例えば、低い信頼性スコアしか達成していないいくつかのスニペットを提供している書き手には、低い書き手信頼性スコアを割り当てることができる。ステップ550において、ユーザ又は他の手段から得られたフィードバックは、図5における処理の1つのステップ、例えば、関連性解析ステップ510又は感想解析ステップ520に対する入力として提供され、あるいは、フィードバックは、複数のステップに入力することもできる。一実施の形態において、ユーザインタフェースがユーザに提供され、ユーザインタフェースによって、ユーザは、スニペット上でクリックスルー(click-through)することで、その全てのレビューを見ることができる。ユーザがスニペットに対する関心を示したときから、ユーザによるクリックスルーは、スニペットの関連性の指標となる。
【0037】
図6は、本発明の実施の形態に基づいて、ステップ510において、関連性の解析を行い/テキストの関連性スコアを計算する関連性解析装置335によって実行される処理のフローチャートを示す図である。スニペットの解析は、「投票」に類似するものと考えられ、投票とは、トピックに関連したテキストスニペットが、最終的なスコアに重み付けされるということである。スニペットの関連性スコアは、テキストスニペットがトピックに関連するかどうかを示している。ステップ510における関連性解析の処理は、テキストスニペット、テキストスニペットに関するメタデータ(書き手、情報源、投稿日付、レビュースコア等)及びその入力としての製品に関するメタデータを識別する。処理は、トピックに関する情報(knowledge)を表現するトピックモデルを用いる。関連性解析は、トピックに対するスニペットの関連性の評価の程度を決定する。
【0038】
図6に示すように、ユーザ対話処理モジュール360は、ステップ605において、クエリをユーザから受け取る。クエリは、トピックから用語(terms)を提供する。関連性解析装置335は、ステップ610において、トピックに関連するスニペットを識別する。一実施の形態において、全ての利用可能なスニペットは、あらゆるトピックの関連性スコアを計算するのに用いられる。しかしながら、多数のスニペットを有する製品ランク付けシステム200においては、各トピック毎に、全てのスニペットのそれぞれを調べるのは、非効率である。このような状況においては、スニペットの部分集合を、トピックに対する関連性スコアを計算するのに用いることができる。一実施の形態において、関連性解析装置335は、スニペットの部分集合を計算するために、トピックモデルからの用語に基づくクエリを用いる。例えば、トピックモデルからの最も高く重み付けされたnグラムは、トピックに対する関連性スコアを計算するのに用いられるスニペットの部分集合を計算するのに用いられる。最も高く重み付けされた用語を問い合わせることによって計算された部分集合は、トピックモデルからの他の用語を用いることによって、さらに洗練された(refined)ものとすることができる。スニペットを部分集合にすることによって、スニペットの数をかなり減らすことができる。適用可能性解析(applicability analysis)のこの技術は、文がトピックに関連するかどうかを検出する一般的な技術なので、また、この技術は、レビューにおいて製品の参照(references)を見つけるのに適用することができる。特定の製品、例えばモトローラ製RAZRカメラの場合を考える。この製品に対する参照は、「モトローラRAZR」、「モトローラ」、「RAZR」、「V3(これは、人気商品の改良版である)」等の文字列を含んでいてもよい。テキストのスニペットにおいて、これらの製品を「見つける(spot)」ために、特定の製品を参照する文字列を認識するモデルが作られる。ここに説明する学習技術は、また、スニペットにおいて、製品の参照を見つけることに適用することができる。
【0039】
トピックに関連するスニペットの部分集合が与えられた場合、関連性解析装置335は、ステップ615〜630を用いて、そのトピックの関連性スコアに対するスニペットの寄与を計算する各スニペットを解析する。関連性解析装置335は、ステップ615において、スニペットを選択し、ステップ620において、トピックモデルからテキストパターンを選択し、ステップ625において、トピックモデルからのテキストパターンをスニペットとマッチングする。例えば、1つの単語「車」を有するトピックモデルの単純な場合において、単語「車」を含むあらゆるテキストスニペットは、関連性1を返し、単語「車」を含まないあらゆるスニペットは、関連性0を返す。一般的に、各スニペットの関連性を計算するために、複数の要素を考えるとき、関連性解析装置335は、ステップ630において、スニペットの特徴ベクトルを計算する。特徴ベクトルの各成分は、スニペットの関連性を計算するのに用いられる1つの要素によって決定される。いくつかの実施の形態において、ステップ615、620が、スニペットに対応する特徴ベクトルの成分を計算する特定の実施の形態を表しているので、ステップ615、620は、オプションと考えることができる。
【0040】
いくつかの実施の形態において、関連性解析装置335は、各スニペットの特徴ベクトルの成分を計算するのに、以下の基準のうちの1つ以上を用いる。
(1)そのトピックに対する1つ以上の手作業による正規表現(regular expressions)の集合の有無。
(2)最も頻度の高いK個のユニグラム、バイグラム及びトライグラムの有無(K=10000)。
(3)既製の品詞タグ付け機を用いて計算されるように、品詞情報によって注釈が付けられた最も頻度の高いK個のユニグラム、バイグラム及びトライグラムの有無(K=300)。
(4)製品の論理述語(boolean predicates)の集合のいずかに対する製品メタデータのマッチング(「type=DSLR AND (価格<1000 OR brand=Acme)」)。
関連性スコアを評価する他の基準としては、例えば、経験則(heuristics)、例えばスニペットの長さと、スニペットの長さに基づくスカラ値と、スニペット内の句のインスタンスの数と、スニペットの先頭又は末尾に対する句の近接度(proximity)の基準(measure)と、製品属性の値とが考えられる。一般的に、所定の閾値に対してあらゆるスカラ関数を比較する全ての論理式は、製品メタデータの述語、テキストの本文における句の有無、品詞タグ、構文木タグ等を設定する。また、語幹処理(Stemming)は、単語に適用することがある。語幹処理は、単語をその語幹(root)の形式に減少させる処理であり、要素によって特徴空間の大きさを減らす。例えば、「inflating」、「inflation」、「inflates」及び「inflate」は全て、同じ語幹である「inflat」まで減らすことができる。これにより、製品ランク付けシステム200は、学習を容易にすることができる。多くの語幹処理アルゴリズムは、以下の参考文献に示されている。これらの全ては、引用することによって、本明細書に援用される。(1)PORTER,M.F.(1980)「AN ALGORITHM FOR SUFFIX STRIPPING, PROGRAM」,14(3):130-137、(2)Krovetz,R.「Viewing Morophology as an Inference Process」,Annual ACM Conference on Research and Development in Information Retrieval,1993、(3)Lovins,J.B.「Development of a Stemming Algorithm.」,Mechanical Translation and Computational Linguistics 11,1968,22-31、(4)ウェブ上の利用可能なランカスタ語幹処理アルゴリズムは、次のURLにある。「www.comp.lancs.ac.uk/computing/research/stemming/index.htm」、(5)Jenkins,Marie-Claire,Smith,Dan,「Conservative stemming for search and indexing」,SIGIR 2005。語幹処理は、情報を減らすので、一実施の形態では、経験的に(heuristically)単語を1つにして、ハードコードされた語幹処理ルールの拡張可能な辞書を有する伝統的な語幹処理を用いている。
【0041】
ステップ630において計算される特徴ベクトルは、バイナリ成分(入力1と一致しない各テキストパターンに対しては0、一致する各テキストパターンに対しては1)によるベクトルであってもよく、又は連続的なベクトル(各エントリは、テキストパターンが入力と一致した回数である)であってもよい。一実施の形態において、1つのn次元ベクトルは、スニペット毎に計算され、統計解析技術は、更なる処理であるステップ635に対して用いられる。トピックモデルは、これらのテキストパターンがどのように関連性スコアに寄与するかを学習した重み付けを含んでいる。ユーザが解析出力を修正すると、重み付けは、より正確なものに更新される。モデルによって利用することができる多くの重み付け及び更新の方法があり、これらの方法では、例えばベイジアンネットワーク、決定木、サポートベクタ分類、線形回帰、サポートベクタ回帰、ニューラルネットワーク、ブーステッド決定木等の技術を用いて、分類及び回帰を行う。選択肢の統計解析技術は、ステップ635において、所定の特徴ベクトルに適用されて、スニペットに対してスコア又は個々の分類を割り当てる(例えば無関係=0、一部関連=0.5、高い関連=1に変換される。)。
【0042】
感想解析
図7は、本発明の一実施の形態に基づいて、ステップ520における感想解析の実行、テキストのスニペットの感想スコアを計算するのに用いられる処理を示すフローチャートである。入力のテキストパターン(の特徴)及び重み付け方式を含む感想モデルは、入力データに適用されて、感想スコアの評価基準を生成する。一実施の形態において、感想解析のステップが1つのモジュール、例えば、関連性解析装置335によって、関連性解析のステップと共に実行されるように、感想解析及び関連性解析は、1つの処理に結合される。他の実施の形態において、感想解析は、感想解析装置340によって実行される、感想解析に特定のステップを含む別々の処理として計算される。2つの処理を分離することは実際的な利益がある。例えば、人々が肯定的感想及び否定的感想(「すばらしい」、「ひどい」等)を表現する方法は、トピック間に大きな相違があるので、関連性解析がトピック毎に実行でき、一方では、感想解析をトピックのカテゴリ毎、又は全体のレベルで実行することができるようになる。感想解析装置340は、以下のような細分化の程度(granularity)により、感想解析を実行することができる。
(1)トピック毎、
(2)トピックカテゴリに対して、
(3)全体レベルでの全てのトピックに対して、
(4)所定のコンテクストに対する最適なアプローチを得られるような、上述の3つのモデルの組合せ。
分類結果を結合させる機構(Mechanisms of combining classifier results)は、以下を含む。
(1)出力の加重和を計算し、経験的に重み付けを決定すること、
(2)ニューラルネットワーク(又は任意の他の分類子)に入力を与え、自動的に重み付け/メタモデルを学習すること、
(3)各アルゴリズムがその重み付けに加えて信頼性(a confidence)を返し、その信頼性によって加重和を計算すること、
(4)ニューラルネットワークのような学習アルゴリズムに出力及び信頼性を与えること。
さらに、感想の全ての段階に対してユーザにより補正された(ラベルを付された)スニペットは、トピックモデルを調整するのに用いられ、全てのトピックによるスニペットは、感想モデルを調整するのに用いられる。
【0043】
図7に示すように、感想解析装置340は、ステップ700において、感想スコアを計算するスニペットを識別する。識別されたスニペットの集合は、スニペットの集合の全体又は部分集合である。例えば、図6のフローチャートを用いる関連性解析装置335によって計算されるような、トピックに関連するスニペットの部分集合は、感想スコアを計算するスニペットの集合として、ステップ700において識別される。ユーザ要求が入った場合には、感想解析は、バッチ処理としてオフラインで実行されることがあり、又は即時実行される場合もある。要求があった場合に、実行される計算量が少ないので、バッチ処理を用いる前に感想解析を実行しておくことは、オンライン要求の性能を向上させることになる。感想解析装置340は、ステップ705において、スニペットを選択し、ステップ710において、感想モデルからテキストパターンを選択し、ステップ715において、そのテキストパターンと選択されたスニペットとのマッチングをする。いくつかの実施の形態において、ステップ710、715では、代わりの機構が任意にスニペットの感想を評価するのに用いられることがある。スニペットの感想を評価する感想解析装置340によって用いられる機構は、以下を含む。
(1)最も頻度の高いK個のユニグラム、バイグラム及びトライグラムの有無(K=10000)。
(2)既製の品詞タグ付け機を用いて計算されるように、品詞情報によって注釈を付けた、最も頻度の高いK個のユニグラム、バイグラム及びトライグラムの有無(K=300)。
(3)製品の全体的な(K=10の区間に)量子化された品質スコア。一般的に、その製品のユーザによってその製品が好まれている場合に、その製品についての全ての与えられるスニペットは肯定的な評価である可能性が高いので、製品の品質スコアは感想解析に影響を与える。
(4)考慮中のレビューの(K=10の区間に)量子化されたスコア。例えば、低い信頼性のレビューは、感想解析の観点から、あまり有意であるとはいえない。
感想スコアを評価する他の基準としては、例えば、経験則、例えばスニペットの単語のインスタンスの数と、nグラムの特徴間の論理積(conjunctions)又は分離(disjunctions)とが考えられる。
感想解析装置340は、ステップ720において、特徴ベクトルの成分として、スニペットの感想を定量化する様々な機構によって計算される値を結合して、スニペットに対応する特徴ベクトルを計算する。感想解析装置は、例えば分類技術又は回帰技術を用いて、ステップ725において、統計解析を実行し、ステップ730において、スニペットに対する感想スコアを割り当てる。ステップ735において、未処理のスニペットがまだある場合には、感想解析装置340は、未処理のスニペットに対してステップ705−730を繰り返す。
【0044】
評判解析
図8は、一実施の形態に基づいて、ステップ530における信頼性解析を実行し、テキストのスニペットの信頼性スコアを計算する評判解析装置345によって実行される処理を示すフローチャートである。スニペットは、その信頼性スコアを計算するステップ800において識別される。一実施の形態において、信頼性解析は、スニペットの全ての集合に対して実行される。他の実施の形態において、信頼性解析は、ステップ530における信頼性解析によって計算される解析の部分集合に対して実行される。信頼性解析は、学習モデルを利用して、投稿記事又は書き手の信頼性を評価する。しかしながら、その投稿自体の内容についてよりも(内容については考慮されるけれども)、より投稿及び書き手についてのメタデータに基づいて、その評価がなされる。一実施の形態において、スニペットの信頼性解析は、オフラインで実行されるバッチ処理として実行される。他の実施の形態において、ユーザ要求があった場合には、信頼性解析は即時実行される。要求があった場合に、実行される計算量がより少ないので、バッチ処理を用いる前に信頼性解析を実行することは、オンライン要求の性能を向上させる。評判解析装置345は、ステップ805において、その信頼性スコアを計算するのに、識別されたスニペットからスニペットを選択する。スニペットの信頼性は、様々な要素に基づいて評価される。
【0045】
評判解析装置345は、ステップ810において、スニペットの書き手の信頼性を評価する。書き手による投稿数は、書き手の信頼性をゆがめることがある。ほとんどが信用できる投稿の書き手である場合には、書き手の信頼性は、増大する。信用できる投稿をほとんどしていない書き手の場合には、書き手の信頼性は、減少する可能性がある。同様に、書き手の意見が一貫して大多数の意見と一致しない場合にも、書き手の信頼性は減少する。一実施の形態において、書き手の信頼性と対応する特徴は、その書き手による信用できる投稿数のヒストグラム(区間の数K=3)として表現される。それで、書き手の1つの投稿の信頼性値が、信頼性値<0.33であり、3つの投稿の信頼性値が、0.33と0.66の間の値であり、7つの投稿の信頼性値が、信頼性>0.66である場合には、その書き手の信頼性の特徴は、(1、3、7)となる。
【0046】
評判解析装置345は、ステップ815において、情報源の信頼性を評価する。記事の投稿がされた情報源は、投稿の信頼性に有意な影響を有する。情報源の信頼性が一貫して全体の他の部分の信頼性と一致しない場合、又は一貫して信頼性の低い投稿ばかりを有している場合には、その信頼性は低下し、同様に、その投稿自体の信頼性を低下させてしまう。一実施の形態において、情報源の信頼性は、4つの機能によってモデル化される。第1の特徴は、全ての投稿に対するレビュースコアの分布によるその特定の情報源に対するレビュースコアの分布間の距離である。これは、カルバックライブラー情報量(Kullback-Leibler divergence)又は他の統計的相違度基準を用いてモデル化できる。2、3、4番目の特徴は、書き手の信頼性の基準と同じであるが、書き手によるレビューではなく、入力情報としての情報源からのレビューを用いる。
【0047】
評判解析装置345は、ステップ820において、投稿の有用性に基づいて投稿の信頼性を評価する。有用な投稿は、「役立つ」又は「役立たない」としてレビューにマークを付する、製品ランク付けシステム200のユーザによって、フィードバックを表現する。利用可能な場合には、役立つ投稿は、投稿に対する信頼性の有用な基準を提供する。この情報は、いくつかの投稿に対しては利用できない場合がある。この情報が利用できる場合には、信頼性にとって十分な代用(proxy)となり、他の要素の相対的重要度のモデルを調整するために用いられる。役立つ情報に対応する特徴は、投稿記事の役に立つ情報の数に対応する離散値として表現される。投稿が5つの役立つ情報を有している場合には、その値は、5である。役立つ情報の数及び役立たない情報の数は、別々の成分として表現される。これは、結果として学習アルゴリズムが独立して2つの値の高機能な組合せを学習することを可能にする一般的な表現である。
【0048】
評判解析装置345は、ステップ825において、スニペットが得られるところからの投稿の内容に基づいて、スニペットの信頼性を評価する。投稿のテキストの内容は、信頼性の指標となり得る。例えば、投稿記事の長さは、その信頼性に比例する。より長い投稿記事は、一般的に、対象及びより多くの信頼性に対するより高い関心を示すといえる。言い回し(wording)の選択肢は、信頼性に影響を及ぼすこともできる。言い回しの選択肢は(nグラムによってモデル化されたときは)、ランダムであるよりも、投稿の信頼性をより良く予測することができる。それ自体では、これは信頼するには十分ではないが、他の要素と結合される場合には、製品ランク付けシステム200の精度を向上させる。一実施の形態において、先頭のnグラム、例えば、最初の10000個のユニグラムの頻度が、投稿の信頼性の基準として用いられる。nグラムの頻度が高ければ高いほど、投稿の信頼性も高くなる。
【0049】
評判解析装置345は、任意の順序で、ステップ810、815、820、825を実行することができる。ステップ835において、識別されたスニペットから利用可能な多くの未処理のスニペットがある間は、評判解析装置345は、スニペットの信頼性を評価する。スニペットの信頼性の評価の問題は、回帰問題としてモデル化される。回帰分析の出力は、入力としても用いられる。例えば、書き手の信頼性は様々な投稿の信頼性に基づいている。したがって、評判解析装置345は、書き手及び情報源の双方の信頼性についての入力[0,0,0]の初期値を設定することによって、反復して計算を実行することができる(カルバックライブラー情報量は、演繹的に計算される)。
【0050】
投稿の信頼性は、情報源、書き手/情報源の信頼性の更新値及び繰り返される処理の範囲内で全ての書き手に対して計算される。この処理は、多数回の繰返しを行い、固定点に収束させる(例えば、より信用できない投稿は、それらの情報源/書き手の信頼性を低下させ、続いて、それ自体の信頼性等を低下させる)。固定数の繰返し、例えば計算の2回繰返しは、この値への発見的方法による近似操作として実行される。他の実施の形態においては、他の方法を用いる。例えば、全ての情報源/書き手に対する情報源/書き手信頼性を計算し、情報源/書き手にランク付けをし、その結果を区間内に量子化する。
【0051】
品質スコア計算
図9は、本発明の実施の形態に基づいて、ステップ540において、品質スコア計算モジュール355によって用いられる製品/トピックの品質スコアを決定する処理を示すフローチャートである。品質スコア計算モジュール355は、ステップ905において、品質スコアを計算するのに、スニペットを識別する。スニペットを計算する様々なスコア、例えば、関連性スコア、感想スコア及び信頼性スコアは、製品/トピックの全体的な品質を評価する製品/トピックに対する1つのスコアに結合される。様々な実施の形態において、製品/トピックの品質スコアは、異なる方法で計算される。一実施の形態において、スニペットのスコアの集合の平均値が計算され、その集合の「平均」スコアが生成される。他の実施の形態において、スニペットのスコアの集合の中央値が計算され、その集合の「中央」のスコアが生成されて、一般的には、異常値データの影響を与えにくくしている。
【0052】
よい代表的な品質スコアとは、様々な指標によって表現されるような、「正確で、一般的な感想を反映する」ものである。ステップ910、915、920において評価されるように、ここで示される指標のいくつかは、スニペットの関連性、感想及び信頼性を含んでいる。他の指標は、以下のものを含んでいる。
(1)最新購買日。特にテクノロジが急速に変化する製品カテゴリ、例えばエレクトロニクス商品に対する新しいスニペットは、古いスニペットよりも、より大きな重み付けがされる。
(2)数量。トピックに関連するより多くのスニペットを有する製品は、関連するスニペットの少ない製品より目立っていると考えられる(肯定的であるか、否定的であるかは、それらのスニペットの感想による)。
(3)異常値。製品に対する一般的な意見が肯定的な場合であっても、否定的な感想が少しある場合もある。これらの少数の意見は、適切な方法で全体的なスコアに影響を及ぼす必要がある。すなわち、否定的な感想は、妥当な少数派又は製品をこれまで使ったことのない、ただ反対意見を持つ人の集合である可能性がある。
(4)メタデータ。製品についてのメタデータは、特定のトピックに対するその製品の品質を判断するのに用いられる。例えば、製品の価格は、カメラが良い物であるかどうかにかなり影響を及ぼす。スニペットがこれを裏付けている間は、価格情報が利用でき、トピック「価値」と関連する知識が利用できる場合には、製品の価格は、「価値」に対して全体的な品質スコアを決定するのに非常に役に立つ情報である。同様に、一人乗りのベビーカーは、たとえどんなに多くのスニペットが双子に言及していたとしても、双子に対しては適切でない可能性が高い。品質スコアの評価は、これらの要素のそれぞれが各要素に対して、適切な重み付けを用いることによって、どの程度全体のスコアに寄与するかを決定する。一実施の形態において、要素の重み付けは、異なるカテゴリに対して異なる。例えば、最新購買日についての要素は、変化の速いカテゴリにおいては、かなり寄与することができる一方で、特定のメタデータは、特定のトピック又はカテゴリにより大きく寄与することがある。
【0053】
直観的に、それがトピックに関して肯定的な投票をする各スニペットは、投票数が増え、否定的なスニペットは投票数が減少する。品質スコアを計算する上述の様々な要素は、ステップ925において、方程式(1)を用いて投票数を決定する。
【0054】
【数1】

【0055】
パラメータλl、λ2、λ3、λ4は、各要素、すなわち関連性、感想、信頼性及び最新購買日がスニペットの得票に寄与することを決定する。ステップ930において、残りの未処理のスニペットがある間は、各スニペットに対する投票が計算される。他の実施の形態において、方程式(2)を用いて加重和を計算する。
【0056】
【数2】

【0057】
方程式(2)を用いて計算された合計値は、線形回帰問題に直接写像し、線形回帰問題においては、パラメータλ1、λ2、λ3、λ4、λ5は、データから直接的に学習することができる。一実施の形態において、方程式(2)で用いられる定数の値の例は、λ1=0.5、λ2=0.3、λ3=0.2、λ4=0.1、λ5=0.1である。他の実施の形態において、異なる回帰評価、例えば線形回帰、サポートベクタ回帰、ロバスト回帰等の技術が用いられ、各カテゴリに対して手動によってパラメータλ5を評価する。
【0058】
一実施の形態において、各製品に対する品質スコアは、ステップ950において、方程式(3)を用いて計算される。
【0059】
【数3】

【0060】
演算子|S|は、集合Sにおける要素数を返し、演算子avg(S)は、集合Sの平均である。係数θ、θは、どの程度各要素が投票の平均スコアに対して寄与するかを決定し、係数θ、θの値は、経験的に決定される。一実施の形態において、係数θ、θは、データ管理者及び/又はエンドユーザによって手動で投票数の上げ下げをされるデータの最小2乗誤差(又は任意の損失関数)を最小にしようとするグリッドサーチによって決定される。一実施の形態において、用いられる定数の例は、θ=1、θ=1.5である。一実施の形態において、関数avg(votesnippet)は、異常値除去によって平均を計算する。例えば、最終のスコアが上下して結果をゆがめてしまう全ての異常値を除去しようとする場合において、得票の上部と下部のK=5%が除外される。
【0061】
異なる実施の形態では、ステップ940において、以下の技術を用いて品質スコアを計算する。
(1)重み付きデータの統計的平均値を決定すること。
(2)特定の特性の累積分布関数(CDF)、例えば線形曲線、ロジスティック曲線、正規分布等に品質スコアを出力させること。
(3)その分布を観察したときの尤度が最適最尤推定値から90%以上になるように、最大値を予測評価するために、t検定(学生の分布)を用いること。
(4)回帰分析技術を用いること。回帰分析技術においては、入力される情報の特徴がレビューの割合のヒストグラムであり(信頼性によって、任意的に重み付けされる)、そのヒストグラムは、スコアの区間に分割される。例えば、スコア1かつ重み付け1の10件のレビューと、スコア2かつ重み付け2の5件のレビューと、スコア3かつ重み付け4のレビューが0件と、スコア5かつ重み付け10のレビューが1件である場合には、その特徴ベクトルは、(0.333,0.333,0,0.333)となる。この特徴ベクトルは、任意の回帰分析技術、例えば線形回帰、多項式補間、ノンパラメトリック分析等において用いることができる。
【0062】
フィードバック
スコアを付けられた製品/トピックは、ユーザ対話処理モジュール360によって、製品ランク付けシステム200のユーザ又は製品ランク付けシステム200が高品質の結果を生成することを確保するのに責任を負うシステム管理者に対して表示される。ユーザ又は管理者は、製品ランク付けシステム200によって計算される結果の精度を示す、製品ランク付けシステム200へのフィードバックを行う。ユーザによって提供されるフィードバックは、ユーザフィードバックモジュール365によって取り入れられ、結果の品質を向上させるように、製品ランク付けシステム200のパラメータを変更する。一実施の形態において、ユーザが製品ランク付けシステム200によって計算される結果に同意しない場合には、ユーザは「最善のリスト」中の結果の順序が誤っていることを、そのリスト内の製品のランクを上下に移動させることにより、又は製品をリストに加えたり若しくはリストから完全に削除したりすることにより、明示することができる。製品ランク付けシステム200に対するこのフィードバックは、品質スコアを付する段階であることを製品ランク付けシステム200に知らせる(任意に関連性、感想又は信頼性解析も)。
【0063】
他の実施の形態において、ユーザは、最終結果に寄与した個々のスニペットをブラウズすることができる。ユーザにとっては、これが所定の製品の、トピックに関するランク付けが高いか、低いかを実証するのに役立つが、この処理で間違った解析結果を修正する機会ともなる。ユーザがトピックに関連しないスニペットを見る場合には、それは無関係なものとして、それをマークすることができる。ユーザが間違った感想を付された関連スニペットを見る場合には、ユーザは、正しい感想をマークすることができる。そして、最後に、ユーザが、信用できるとは思えないスニペットを何らかの方法で見るとき、ユーザはそれを疑わしいものとしてマークすることができる。
【0064】
学習及び適合度は、受け取ったフィードバックの種類に従い、異なったものとして実現される。関連性、感想及び信頼性解析については、フィードバックは、ラベルが付されたものとして捕らえることができ、そのユーザ及び他のユーザによって寄与を受けた、任意の他のラベルが付されたデータとともに格納される。ラベルは、スニペットの参照先(スニペットID)、ユーザ、ラベルが生成された日時及び所望の出力(関連性/非関連性、肯定的、否定的、中立、信頼性あり、疑わしい)を含んでいる。適切な解析は、データの新しい集合でのモデル(例えばベイジアンネットワーク、サポートベクタマシン、ニューラルネットワーク、ブースティング等)に従って再調整され、改良されたモデルが結果を出力し、その入力で再度動作する。
【0065】
一実施の形態において、品質スコアについて、更新された製品ランク付けシステム200は、以下のように動作する。ユーザが、ランク付けされた順序リストで投票によって製品の投票数を上下させる場合には、記憶された情報は、修正をしたユーザ、修正した日時、製品及び修正が適用されたトピックであり、スコアの差分によって、リスト中の望ましいいくつか場所に製品を移動させる必要があったものである。例えば、製品Aのランクが78であり、製品Bのランクが80であり、また、リスト上で、製品Aは、製品Bより上位であるべきとユーザが申し立てた場合には、記憶される差分は、2.1である。ユーザが製品Aがそのリストに属さないと申し立てた場合には、より目立つラベルで、適用不可と記憶される。
【0066】
品質スコアの計算が回帰問題としてモデル化される場合には、フィードバックを取り入れる方法は、ユーザの投票によって生成されるような新しいリストから回帰分析のパラメータを再学習することである。多くの回帰分析技術は、予測されたスコア及び望ましいスコアの間の差分を最小にするパラメータの集合を選択する。一実施の形態において、ノンパラメトリックサポートベクタ回帰技術(nonparametric support vector regression technique)が用いられる。
【0067】
ユーザ対話処理モジュール360は、正規化データ格納装置305内の情報を用いて生成される動的ウェブページの集合に基づいて、ユーザに対する情報を表示する。ユーザに示される情報は、ユーザのニーズと一致させるために、製品仕様によってフィルタをかけられる(例えばカメラに対して「メガピクセル」、「バッテリ寿命」等)。感想解析によって生成されたデータは、ユーザが製品全体、特徴、使用法及び人物像について考慮する方法と、より良く一致させるのに用いられる。
【0068】
ユーザは、以下のような様々な方法で、考慮したい製品を限定することができる。
(1)製品リストページ。このページは、カテゴリ(例えば「デジタルカメラ」)内で製品の完全なリストから始めることができ、価格及び他の属性(「5〜7メガピクセル」)に基づいてフィルタをかけることができる製品のリストである。ユーザは、後の比較のために興味がある製品をマークすることもできる。
(2)比較ページ。このページは、ユーザが、価格情報を含む仕様書に基づいて、製品の比較をすることができるサーチグリッドによって、製品の仕様書を表示する。
(3)トピックリストページ。トピック毎に、製品は、製品及び/又はトピックのランクの順序で表示される。これにより、ユーザは、素早く、どの製品が製品仕様の詳細な知識を必要とすることなく、ユーザの要求する必要条件と最も一致するか判断することができる。ユーザは、ユーザが選択したトピックだけに限られた製品リストページに移行することができる。
【0069】
各製品は、製品についての詳細(写真、価格及び仕様書)を含む、対応製品詳細ページを有する。図10は、本発明の一実施の形態に基づいて、レビュー記事に焦点に合わせたユーザインタフェースを示す図である。ユーザは、所定の製品が比較的高いトピックスコアを有するトピックを提示される。これらのトピックは、使用法(「休暇用のデジタルカメラ」)、人物像(「プロ用」)、属性(「優れたバッテリ寿命を持つ」)等である。ユーザが、トピックフィルタ領域1010でトピック名のうちの1つをクリックするとき、ユーザは、そのトピックに対するトピックスコアに寄与するレビューの集合を含む関連性レビュー1020を見ることができる。特に寄与したレビュー中の句及び文は、異なる色で強調されて、ユーザがレビューコンテンツの性質に素早く焦点を合わせることを可能にする。
【0070】
変形例
本発明の好ましい実施の形態は、図面に関連して上述された。「一実施の形態」又は「実施の形態」に対する明細書における引用は、実施の形態に関連して記述される特定の特徴、構成又は特性が発明の少なくとも1つの実施の形態に含まれることを意味する。「一実施の形態において」との明細書の様々な場所で現れる句の全てが、同じ実施の形態を必ずしも参照しているというわけではない。
【0071】
一部は、コンピュータメモリ中のデータビットでのアルゴリズム及び演算の記号表現に関して示されたものである。これらのアルゴリズムの記述及び表現は、データ処理技術分野における当業者にとっては通常用いられる手段であり、他分野の当業者に最も効果的にそれらの要旨を示すことができる。この明細書に記載されたアルゴリズムは、一般的に設計され、所望の結果に導くステップ(命令)からなる一貫したシーケンスである。そのステップは、物理量についての物理操作を必要とするものである。通常、これらの数値(quantities)は、記憶され、移動され、結合され、比較され、さもなければ処理されることが可能な電気、磁気、光学信号の形式をとるが、必ずしもそうとは限らない。主に一般的な用法上の理由であるが、これらの信号をビット、値、要素、記号、文字、用語、番号等と称することが通常は都合よい。さらに、一般性を失わずに、モジュール又はコード装置として物理量の物理操作を必要とするステップの特定の配置を参照言及するのにも、通常、都合がよい。
【0072】
しかしながら、これらの用語及び類似する用語の全ては、適切な物理量と関連しており、また、単にこれらの数値に適用される都合よい標識に過ぎない。以下の説明から明らかなように、その他の場合には特に断らない限り、明細書の記載、用語、例えば「処理すること」、「計算すること」、「表示すること」、「決定すること」等を用いる説明によって理解され、コンピュータシステム又は類似の計算装置の動作及び処理を参照し、コンピュータシステム等は、コンピュータシステムメモリ、レジスタ若しくは他の情報記憶装置等、伝送装置又は表示装置内の物理(電気)量として表現されるデータを処理し及び変換する。
【0073】
本発明の特定の実施の形態において、アルゴリズムの形式で、本明細書で説明する処理のステップ及び命令が含まれる。本発明のステップ及び命令がソフトウェア、ファームウェア又はハードウェアで実現されることに留意する必要があり、ソフトウェアで実現される場合には、ダウンロードすることができ、様々なオペレーティングシステムによって用いられる異なるプラットホームにおいて動作する。
【0074】
本発明は、このような方法で動作する装置にも関する。この装置は、その目的に対して特に構成され、又はこの装置は、コンピュータに記憶されたコンピュータプログラムによって選択的に動作され、若しくは再構成された汎用コンピュータにより構成することができる。そのようなコンピュータプログラムは、コンピュータで読み取り可能な記憶媒体、特段制限はないが、例えば任意の種類のディスク装置であり、フレキシブル磁気ディスク、光学ディスク、コンパクトディスクリードオンリメモリ(CD−ROM)、光磁気ディスク、リードオンリメモリ(ROM)、ランダムアクセスメモリ、消去可能プログラマブルリードオンリメモリ(EPROM)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、磁気若しくは光学読み取りカード、特定用途向け集積回路(ASIC)、又は電子命令を記憶するのに適した記憶媒体に記憶され、また、それぞれの記憶媒体とコンピュータとを接続するシステムバスがある。さらに、明細書に記載のコンピュータは、シングルプロセッサを含んでいてもよく、計算能力の向上のためにマルチプロセッサを採用するアーキテクチャであってもよい。
【0075】
本明細書で説明するアルゴリズム及びディスプレイは、いかなる特定のコンピュータ又は他の装置に本質的に限定されるものではない。様々な汎用システムは、本明細書での開示に従って、プログラムとともに用いられ、さらに専用の装置を構成して、本発明の方法のステップを実行するのは容易であることが理解される。さらに、本発明においては、いかなるの特定のプログラミング言語に関して記述されるものではない。様々なプログラミング言語が、本明細書で説明する本発明の技術の開示を実現するのに用いられることはいうまでもなく、特定のプログラミング言語に対して任意に参照することができ、本発明の使用可能性及びベストモードの開示に提供される。
【0076】
さらに、明細書で用いられる言語は、主に読みやすさ及び教育目的のために選択されており、発明の要旨を詳細に記述し、又は外延を記述するのに選択できない。したがって、本発明の開示は、実施例ではあっても、発明の範囲を制限するものではない。

【特許請求の範囲】
【請求項1】
コンピュータによって実行される、トピックに関する複数の製品にランクを付ける製品ランク付け方法において、
製品の情報を含むドキュメントを受け取るステップと、
上記トピックに関する製品を記述するテキストの一部を含む、上記ドキュメントからのテキストのスニペットを計算するステップと、
上記トピックに対する各スニペットの関連性の評価を決定するステップと、
上記トピックに関する各スニペットの感想の評価を決定するステップと、
上記各スニペットに関連する要素に基づいて上記製品にランクを付ける、上記複数の製品のそれぞれの集約品質スコアを決定するステップとを有し、
上記集約品質スコアは、上記スニペットの関連性の評価と、上記スニペットの感想の評価と、上記スニペットの信頼性の評価とを含むことを特徴とする製品ランク付け方法。
【請求項2】
上記各スニペットの信頼性の評価を決定するステップを更に有する請求項1記載の製品ランク付け方法。
【請求項3】
上記トピックに関する製品のランキングを決定するのに用いられる情報を表示するステップを更に有する請求項1記載の製品ランク付け方法。
【請求項4】
上記各スニペットの関連性の評価を決定するステップは、
上記トピックを記述した用語をそれぞれ含む上記複数のスニペットの部分集合を識別するステップと、
上記各スニペットの特徴ベクトルを計算するステップと、
上記スニペットに関連する上記特徴ベクトルの統計解析に基づいて、該スニペットの関連性スコアを決定するステップとを有し、
上記特徴ベクトルの成分は、上記トピックに対する各スニペットの関連性に基づいて決定されることを特徴とする請求項1記載の製品ランク付け方法。
【請求項5】
上記スニペットの特徴ベクトルを計算するステップは、
上記トピックに基づくパターンを選択するステップと、
上記テキストパターンが上記スニペットにどの程度良く一致するかに基づいて、上記特徴ベクトルの成分を決定するステップとを有することを特徴する請求項4記載の製品ランク付け方法。
【請求項6】
上記トピックに基づくパターンは、
上記トピックを記述した用語を有する正規表現と、
上記トピックを記述した用語を有し、上記複数のスニペット内におけるその出現頻度に基づいて選択されたnグラムと、
上記トピックを記述した用語を有し、上記複数のスニペット内におけるその出現頻度に基づいて選択され、品詞情報によって注釈が付けられたnグラムと、
製品メタデータに基づく論理述語と、
上記スニペットの長さに基づくスカラ値と、
上記スニペット内の句のインスタンスの数と、
上記スニペットの先頭又は末尾に対する句の近接度の基準とのうちの少なくとも1つを含むことを特徴とする請求項5記載の製品ランク付け方法。
【請求項7】
上記スニペットの感想の評価を決定するステップは、
上記トピックを記述した用語をそれぞれ含む上記複数のスニペットの部分集合を識別するステップと、
上記各スニペットの特徴ベクトルを計算するステップと、
上記スニペットに関連する上記特徴ベクトルの統計解析に基づいて、該スニペットの感想スコアを決定するステップとを有し、
上記特徴ベクトルの成分は、上記スニペットによって記述された感想に基づいて決定されることを特徴とする請求項1記載の製品ランク付け方法。
【請求項8】
上記複数のスニペットの部分集合は、上記トピックに対する各スニペットの関連性に基づいて識別されることを特徴とする請求項7記載の製品ランク付け方法。
【請求項9】
上記スニペットの特徴ベクトルを計算するステップは、
上記スニペットによって記述された上記感想スコアを決定する基準に基づいて、上記特徴ベクトルの成分を決定するステップを有することを特徴とする請求項7記載の製品ランク付け方法。
【請求項10】
上記スニペットによって記述された上記感想スコアを決定する上記基準は、
上記複数のスニペット内におけるその出現頻度に基づいて選択されたnグラムを、感想を記述する用語と一致をさせること、
上記複数のスニペット内におけるその出現頻度に基づいて選択され、品詞情報によって注釈が付けられたnグラムを、感想を記述する用語と一致をさせることとの少なくとも一方を含むことを特徴とする請求項9記載の製品ランク付け方法。
【請求項11】
上記各スニペットの信頼性の評価を決定することは、1つ以上の要素に基づくことであり、該1つ以上の要素は、
上記スニペットの書き手の信頼性の基準と、
上記スニペットが得られた情報源の信頼性の基準と、
上記スニペットに関連した役立つ情報及び役立たない情報の数と、
上記スニペットに関連した投稿記事のサイズとを含むことを特徴とする請求項2記載の製品ランク付け方法。
【請求項12】
上記スニペットに関連する要素は、
該スニペットの寿命を更に含むことを特徴とする請求項1記載の製品ランク付け方法。
【請求項13】
上記トピックスに関する製品の集約品質スコアは、各スニペットに対応する投票の評価の集約値として決定され、
上記投票は、上記スニペットが決定した上記トピックに関する製品の品質を示すことを特徴とする請求項2記載の製品ランク付け方法。
【請求項14】
上記各スニペットに対応する投票は、関連性の第1の定数乗の評価に基づいて決定される関連性スコアと、感想の第2の定数乗の評価に基づいて決定される感想スコアと、信頼性の第3の定数乗の評価に基づいて決定される信頼性スコアとを含む複数の項の積として決定されることを特徴とする請求項13記載の製品ランク付け方法。
【請求項15】
上記複数の項には、上記スニペットの寿命の関数に対応した項を更に含むことを特徴とする請求項14記載の製品ランク付け方法。
【請求項16】
上記各スニペットに対応する投票は、関連性の第1の定数乗の評価に基づいて決定される関連性スコアと、感想の第2の定数乗の評価に基づいて決定される感想スコアと、信頼性の第3の定数乗の評価に基づいて決定される信頼性スコアとを含む複数の項の加重和として決定されることを特徴とする請求項13記載の製品ランク付け方法。
【請求項17】
上記複数の項は、上記スニペットの寿命の関数に対応した項を更に含むことを特徴とする請求項16記載の製品ランク付け方法。
【請求項18】
コンピュータによって実行される、トピックに関する複数の製品にランクを付ける製品ランク付けシステムにおいて、
コンピュータプロセッサと、
上記コンピュータプロセッサで実行されるコンピュータプログラムモジュールを格納したコンピュータで読み取り可能な記憶媒体とを備え、
上記コンピュータプログラムモジュールは、
複数のオンライン情報源から集約された、製品の情報を含むドキュメントを受け取り、上記トピックに関する製品を記述するテキストの一部を含む、該ドキュメントからのテキストのスニペットを計算する集約モジュールと、
上記トピックに対する各スニペットの関連性の評価を決定する関連性解析モジュールと、
上記トピックに関連する上記スニペットの感想の評価を決定する感想解析モジュールと、
上記各スニペットに関連する要素に基づいて上記製品にランクを付ける、上記複数の製品のそれぞれの集約品質スコアを決定する品質スコア計算モジュールとを含み、
上記品質スコア計算モジュールは、上記スニペットの関連性の評価と、上記スニペットの感想の評価と、上記スニペットの信頼性の評価とを含むことを特徴とする製品ランク付けシステム。
【請求項19】
トピックに関する複数の製品にランクを付けるコンピュータ実行コードを格納する、コンピュータで読み取り可能な記憶媒体に記憶されたコンピュータプログラムにおいて、
複数のオンライン情報源から集約された、製品の情報を含むドキュメントを受け取り、上記トピックに関する製品を記述するテキストの一部を含む、該ドキュメントからのテキストのスニペットを計算する集約モジュールと、
上記トピックに対する各スニペットの関連性の評価を決定する関連性解析モジュールと、
上記トピックに関する各スニペットの感想の評価を決定する感想解析モジュールと、
上記各スニペットに関連する要素に基づいて上記製品にランクを付ける、上記複数の製品のそれぞれの集約品質スコアを決定する品質スコア計算モジュールとを含み、
上記集約品質スコアは、上記スニペットの関連性の評価と、上記スニペットの感想の評価と、上記スニペットの信頼性の評価とを含むことを特徴とするコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公表番号】特表2011−530729(P2011−530729A)
【公表日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願番号】特願2011−514785(P2011−514785)
【出願日】平成21年6月17日(2009.6.17)
【国際出願番号】PCT/US2009/047707
【国際公開番号】WO2009/155375
【国際公開日】平成21年12月23日(2009.12.23)
【出願人】(510333667)ワイズ テクノロジーズ インコーポレイテッド (1)
【Fターム(参考)】