トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム

ドキュメントは、製品レビュー、製品仕様及び価格情報等を含む製品データを含む様々な一般公開されている情報源から収集される。ドキュメントから得られるテキストのスニペットは、製品の品質を評価するのを助ける関連性、感想及び信頼性等の側面に対して解析される。特徴ベクトルは、スニペットが関連性、感想又は信頼性を解析するのに計算される。統計解析は、関連性、感想又は信頼性の尺度を評価するために、特徴ベクトルで実行される。様々なスニペットと関連した要素は、製品又は製品の特徴、属性、使用法若しくはユーザの人物像を含む特定の側面に対して、品質スコアを計算するのに集約される。情報は、ユーザが品質スコアの計算に関連する詳細を調べることを可能にするユーザインタフェース上に表示される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、電子的なデータ、例えばユーザ貢献型のオンラインコンテンツで利用できる情報を用いて、製品の異なる側面に基づき製品の品質を評価する製品ランク付け方法及び製品ランク付けシステムに関する。
【関連出願】
【０００２】
本願は、「System and Method for Aggregating and Summarizing Product/Topic Sentiment」を発明の名称とする、２００８年６月１９日に出願された米国仮特許出願第６１／０７４０６１号の利益及び優先権を主張し、この米国仮特許出願文献は、引用することにより、本願に完全に援用される。
【背景技術】
【０００３】
消費者は、製品の購入決定をするために他の人の意見を使うのを好む。従来、消費者は、製品の購入判断をするのに、限られた情報源、例えば家族、友人、販売員、従来からの印刷物あるいは放送媒体を利用することができた。インターネットを用いて、電子データにアクセスすることができるようになり、消費者は、製品の購入判断をするのに役立つ情報にアクセスできるようになった。この情報は、様々な形式、例えば製品情報のあるウェブページ、ブログ若しくはフォーラムでの製品レビュー、又はオンラインビデオクリップ等によって利用することができる。このような情報は、調査をするための様々な情報源を消費者に提供する。ある消費者が探している製品の種類や製品の目的に関係なく、多くの人々が、既にその目的で製品を購入していたり、広範囲にその製品を使用していたり、公衆アクセス可能な電子媒体のフォーラムで彼らの意見を表現していたりする確率が高い。
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、かなり多くの関連情報が、ある目的のために製品に関連があり、利用できる一方、その情報は、多くの情報源の間に分布されていることがあり、また、各情報源は、異なるフォーマットでその情報を提供している場合がある。この情報の多様な内容によって、製品カテゴリ内で製品の一貫した意見を集めて、数十又は数百の製品の中から購入判断対象を絞り込んで、最終的に、購入する１つの製品に落とし込むことは、個人にとって、困難なものとなっている。
【課題を解決するための手段】
【０００５】
本発明の製品ランク付け方法及び製品ランク付けシステムは、トピックに関して製品の品質を評価することを可能にする。製品のランク付けは、テキストドキュメントのスニペット内で利用可能な情報に基づいて決定される。スニペットは、トピックに対する各スニペットの関連性の評価、トピックに関する各スニペットの感想の評価及び各スニペットの信頼性の評価を決定するために解析される。トピックに関する製品の集約品質スコア（aggregate quality score）は、スニペットの関連性の評価、感想の評価及び信頼性の評価を含む、各スニペットに関連した要素に基づいて決定される。
【０００６】
一実施の形態において、テキストのスニペットは、製品の情報を含むドキュメントをオンライン情報源から集約することによって得られる。テキストのスニペットは、トピックに関して製品を記述するテキストの一部に相当する。スニペットの関連性の評価は、トピックを記述した用語を有するスニペットを識別し、特定されたスニペットを処理することによって計算される。トピックに関してスニペットの関連性を表現する特徴ベクトルは、特定された各スニペットに対して計算される。特定された各スニペットの関連性スコア（relevance score）は、スニペットに関連した特徴ベクトルの統計解析に基づいて決定される。他の実施の形態において、特徴ベクトルの成分は、トピックを記述するテキストパターンと一致させることによって計算される。
【０００７】
一実施の形態において、トピックに関する各スニペットの感想の評価は、トピックを記述した用語を有するスニペットを特定し、各スニペットを処理することによって決定される。特徴ベクトルは、スニペット毎に計算される。特徴ベクトルの成分は、スニペット内で記述される感想に基づいて決定される。特定されたスニペットの特徴ベクトルの統計解析は、スニペット毎に感想スコア（sentiment score）を決定するために実行される。
【０００８】
スニペットの信頼性の評価は、スニペット内の情報の信頼性を示す情報に基づいて決定される。スニペットの信頼性の評価は、トピックの書き手の信頼性、情報源の信頼性、役に立つ情報又は役に立たない情報の数を特定してユーザから受け取るフィードバック及びスニペットの長さを含む要素に基づいて決定される。
【０００９】
トピックに関する製品の全体的な品質スコアは、各スニペットに対応する投票数の評価の集約値（aggregate value）として決定される。スニペットに対応する投票数は、スニペットによって決定されるので、トピックに関して製品の品質を示す。他の実施の形態において、全体的な品質スコアの計算は、他の要素、例えば各スニペットの寿命（age）を含んでいる。
【００１０】
ここで記述され、及び以下の詳細な説明で記述される特徴及び効果は、全てが含まれるものではない。多くの付加された特徴及び効果は、図面、明細書及びクレームを考慮することにより当業者とって明らかにされる。
【図面の簡単な説明】
【００１１】
【図１】サーバ及び／又はクライアントとして用いるコンピュータの例を示すハイレベルのブロック図である。
【図２】本発明の一実施の形態に基づいて、製品／トピックの感想を集約及び要約するシステムの主要なサブシステムを示すシステムアーキテクチャ図である。
【図３】本発明の一実施の形態に基づいて、図２に示す各サブシステムの様々な構成要素を示すシステムアーキテクチャ図である。
【図４】本発明の一実施の形態に基づいて、製品／トピックの感想を集約及び要約する処理を示すハイレベルのフローチャートである。
【図５】本発明の一実施の形態に基づいて、製品／トピックの品質基準（quality metrics）を計算するために、集約されたデータを解析する処理を示すフローチャートである。
【図６】本発明の一実施の形態に基づいて、テキストのスニペットの関連性スコア（relevance score）を計算する処理を示すフローチャートである。
【図７】本発明の一実施の形態に基づいて、テキストのスニペットの感想スコア（sentiment score）を計算する処理を示すフローチャートである。
【図８】本発明の一実施の形態に基づいて、テキストのスニペットの信頼性スコア（credibility score）を計算する処理を示すフローチャートである。
【図９】本発明の一実施の形態に基づいて、製品／トピックの品質スコアを計算する処理を示すフローチャートである。
【図１０】本発明の一実施の形態に基づいて、製品／トピックの品質スコアに関連付けられた情報を示すグラフィカルユーザインタフェースを示す図である。
【００１２】
これらの図は、説明だけの目的で、本発明の様々な実施の形態を示している。当業者であれば、ここに説明する構造及び方法の他の実施の形態を、ここに説明する発明の原理を逸脱することなく、採用できることは、以下の説明から容易に理解することができる。
【発明を実施するための形態】
【００１３】
図１は、一実施の形態に基づくクライアント及び／又はサーバとして用いる代表的なコンピュータ１００の機能を示すハイレベルのブロック図である。少なくとも１個のプロセッサ１１０がバス１４５に接続されていることが示されている。また、メモリ１１５と、記憶装置１３０と、キーボード１３５と、グラフィックアダプタ１２０と、ポインティングデバイス１４０と、ネットワークアダプタ１２５とがバス１４５に接続されている。ディスプレイ１０５は、グラフィックアダプタ１２０に接続されている。
【００１４】
プロセッサ１１０は、任意の汎用プロセッサ、例えばインテル製ｘ８６互換ＣＰＵである。一実施の形態において、記憶装置１３０は、ハードディスクドライブであるが、データを記憶することが可能な任意の他の装置、例えば書き込み可能なコンパクトディスク（ＣＤ）、デジタルビデオディスク（ＤＶＤ）及び／又は半導体メモリであってもよい。メモリ１１５は、例えばファームウェア、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）又は不揮発性ＲＡＭ（ＮＶＲＡＭ）であってもよく、プロセッサ１１０によって用いられる命令及びデータを格納する。ポインティングデバイス１４０は、マウス、トラックボール又は他の種類のポインティングデバイスであってもよく、コンピュータ１００にデータを入力するキーボード１３５と組み合わせて用いられる。グラフィックアダプタ１２０は、ディスプレイ１０５上に画像及び他の情報を表示させる。ネットワークアダプタ１２５は、コンピュータ１００をネットワークに接続させる。
【００１５】
技術的に知られているように、コンピュータ１００は、コンピュータプログラムモジュールを実行する。本明細書で用いる場合、用語「モジュール」は、特定の機能を働かせる、コンピュータのプログラム論理及び／又はデータのことを指す。モジュールは、ハードウェア、ファームウェア及び／又はソフトウェアの形で、コンピュータ１００に実装される。一実施の形態において、モジュールは、記憶装置１３０に格納され、メモリ１１５にロードされ、プロセッサ１１０によって実行される。
【００１６】
一実施の形態において利用されるコンピュータ１００の種類は、その実施の形態、及び構成要素（entity）によって利用される処理パワーによって変わる。例えば、クライアントが必要とする処理パワーは、通常、サーバよりも低い。したがって、クライアントは、標準的なパーソナルコンピュータシステム又は携帯型電子機器とすることができる。対照的に、サーバは、本明細書で説明する機能を実現するために、より高性能のコンピュータ及び／又は連携して動作する複数のコンピュータから構成される。また、コンピュータ１００は、上述した構成要素のうちのいくつかがなくてもよい。例えば、クライアントとして動作する携帯電話には、ポインティングデバイスがなくてもよく、サーバとして動作するコンピュータには、キーボード及びディスプレイがなくてもよい。
【００１７】
図２は、一実施の形態に基づいて、製品／トピックの感想を集約及び要約する（aggregating and summarizing）製品ランク付けシステム２００を構成する主要なサブシステムを示す図である。以下、これらのサブシステムをモジュールとも呼ぶ。集約サブシステム（aggregation subsystem）２３０は、例えばワールドワイドウェブ（以下、単に「ウェブ」ともいう。）全体に亘って分散している様々な情報源２５０から、多様な製品情報を収集する。情報源２５０の例として、製品仕様２０５、価格情報２１０、レビュー２１５、ブログ投稿記事（blog posts）２２０又はフォーラム投稿記事（forum posts）２２５がある。情報源の他の例として、ソーシャルネットワークの会員によって投稿されたステータスメッセージ、ユーザの共有注釈（shared annotations）、例えばブックマーク、ニース記事（news articles）等がある。情報を表現するウェブサイト全体に亘って用いられる唯一の代表的規格があるわけではなく、また、情報が絶えず変化しているので、多数の製品カテゴリに亘って異なる情報源から得た情報を処理することは難しい作業（challenging）である。一般的には、製品の品質解析の正確さは、処理のために使われたデータの量及び多様性によって向上する。より多くの多様なデータを収集することにより、顧客満足度、感想及びインターネット全体に亘る製品の広範囲の良好な評価が得られる。
【００１８】
情報の関連性に関する部分は、情報源２５０の多様な集合から検索されて、格納されたデータから抽出される。例えば、製品関連のブログ投稿記事を検索するときには、集約サブシステム２３０は、ブログ投稿記事のテキストを格納するが、そのウェブページ上のブログナビゲーションヘッダ（blog navigation headers）又は広告は格納しない。集約サブシステム２３０によって集約された製品情報は、１つの統一表現に正規化（normalized）することができる。例えば、製品は、多様な情報源２５０に亘って、様々な名称及び略称（nicknames）で呼ばれることがある。異なる製品のそれぞれには、固有の識別子が割り当てられる。各製品は、その製品について収集された情報に加えて、製品カテゴリに関連付けられる。
【００１９】
解析サブシステム２３５は、収集された情報を利用し、品質に基づいて又はトピックによって、製品をランク付けする（後述する）。製品は、製品レビューの集合が与えられた製品の総体的な品質判定によって決定したそれらの全体の品質に基づいて、ランク付けすることができる。製品は、トピックと呼ばれる製品の特定の側面、例えば製品の特徴、属性、使用法又はユーザの人物像（personas）に基づいて、ランク付けすることができる。例えば、特定のデジタルカメラは、特に軽量かつコンパクトであるが、バッテリ寿命はひどく短いということがある。あるいは、製品の品質は、特定の使用法又は用途に対する製品の適合性に基づいて、ランク付けすることができる。例えば、水中写真用にとても適しているカメラは、ポートレート撮影には適しておらず、その逆もそうである。製品は、特定のタイプのユーザ（人物像とも称される）に対する製品の適合性に基づいて、ランク付けすることができる。例えば、プロのカメラマンに適しているカメラは、初心者ユーザには適しておらず、その逆もそうである。
【００２０】
表示サブシステム２４０は、ユーザインタフェースによって、ユーザに解析された情報を表示する。ユーザインタフェースによって、ユーザは、価格、特徴、属性、用途、人物像について製品のフィルタリングを容易に行うことができる。例えば、ユーザが２００ドル未満で、バッテリの持ちがよく、お母さん向けの５メガピクセルのカメラを探している場合、ユーザは、ユーザインタフェースによって、製品のこれらの側面の全てについてフィルタをかけることができる。ユーザインタフェースによって、ユーザは、様々な基準に従って製品を比較することができる。上述の例では、ユーザが、基準の集合を有し、３つの異なる候補の製品のうちのいずれかに決定しようとする場合、ユーザは、候補のカメラを、カメラを選択するのに用いる基準によって、比較することができる。ユーザインタフェースによって、ユーザは、ランキングに対応する簡単な品質判定（summary quality judgments）の背後にある個々の詳細な意見をブラウズすることができる。例えば、ユーザが、あるカメラがなぜお母さん向けとして高い評価なのかを知りたい場合、そのカメラを持っているお母さんの経験を記述したレビュー及び投稿記事にフィルタをかけることは容易である（肯定的感想、否定的感想又は全ての感想）。
【００２１】
図３は、製品ランク付けシステム２００の様々な構成要素を示しており、本発明の一実施の形態に基づいて、図２に示す様々なサブシステムの詳細を含むシステムアーキテクチャ図である。集約サブシステム２３０は、ユニフォームレコードロケータ（以下、ＵＲＬという。）リポジトリ３００と、ドキュメント格納装置３３０と、正規化データ格納装置３０５と、ＵＲＬサーバ３１０と、ドキュメントプロセッサ３１５と、フェッチャ（fetcher）３２５と、コンテンツ抽出装置３２０とを備える。製品ランク付けシステム２００は、拡張性又は信頼性を目的として、特定の構成要素、例えばＵＲＬサーバ３１０、フェッチャ３２５、ドキュメントプロセッサ３１５又はドキュメント格納装置３３０の複数のインスタンスを走らせることができる。
【００２２】
ＵＲＬリポジトリ３００は、製品ランク付けシステム２００が辿ったＵＲＬのリストを収容する。ＵＲＬは、ウェブページを取り出す出発点としての種（seed）ＵＲＬとして提供され、あるいはドキュメントプロセッサ３１５によってポピュレートされる（populated）。ＵＲＬサーバ３１０は、ウェブページがフェッチャ３２５によって取得されるシーケンス及びタイミングを規定する。ＵＲＬサーバ３１０は、変更の頻度、製品の新しさ、問題の製品寿命に基づいて予め計算された新しいコンテンツ（例えばレビュー記事及び更新された製品価格）の到着の傾向を含むシーケンス及びタイミングを規定する様々な基準（metrics）を用いる。例えば、新製品は、その発売日（release date）の直後の期間に、より多くのレビューを得る傾向あるが、製品の種類によっては、古い製品ほど、新しいレビューを得る機会が少ない。ＵＲＬサーバ３１０は、異なるＵＲＬ及びそれらの内容の比較に基づいて、ＵＲＬの正規化及び最小化（minimization）を実行する。類似した内容を示すＵＲＬは、ＵＲＬのより単純な表現にマージすることができる。フェッチャ３２５は、ＵＲＬサーバ３１０からＵＲＬを取得し、取得されたＵＲＬに対してハイパーテキスト転送プロトコル（ＨＴＴＰ）要求を発行し、検索されたページコンテンツをドキュメント格納装置３３０に格納する。ドキュメント格納装置３３０により、正規化ＵＲＬに基づくページコンテンツの高速記憶及び検索（fast storage and lookup）が可能となる。一実施の形態において、高速検索は、ページコンテンツのハッシュベース又は他の索引付け（indexing）によって達成することができる。ドキュメント格納装置３３０により、ドキュメントプロセッサ３１５は、ドキュメントに注釈を付けることができる。ドキュメントプロセッサ３１５は、ドキュメント格納装置３３０内のドキュメントを調べ、調査したドキュメントを抽出及び／又は増やす（augments）。ドキュメントプロセッサ３１５は、コンテンツ抽出、ＵＲＬ抽出（ＵＲＬリポジトリ３００に保管する新しいＵＲＬの取得）を含む機能を実行することができる。正規化データ格納装置３０５は、解析サブシステム２３５及び表示サブシステム２４０によって消費（consumption）に適した、ウェブから取得されたデータの整理された表現（cleaned representation）を含んでいる。コンテンツ抽出装置３２０は、ユーザに提示できる製品の品質スコア（quality scores）を計算するのに関連したコンテンツを抽出する。ウェブサイトは、その構成を変えることがあり、また、ユーザが作成したコンテンツは、新しいコンテンツ、編集等のために、ページからページに移動されることがあるので、コンテンツ抽出装置３２０は、抽出されたコンテンツを更新し続ける。
【００２３】
解析サブシステム２３５は、関連性解析装置３３５と、感想解析装置３４０と、評判（reputation）解析装置３４５と、品質スコア計算モジュール３５５と、トピックモデル（topic model）格納装置３７０と、感想モデル（sentiment model）格納装置３７５と、評判格納装置３８０とを備えている。トピックモデル格納装置３７０は、トピックに一致した製品をランク付けするのに役立つスコアを決定するのに有用な、各トピックに特有の情報を含んでいる。例えば、テキストのスニペットがトピックに関連するときには、トピック「自動車（Automobiles）用のＧＰＳ（グローバルポジショニングシステム）」は、スコアを決定するための用語として、用語「車（car）」、「運転（driving）」、「ハンズフリー」を含む可能性がある。トピックモデルの品質は、関連性スコア（relevance score）の精度を決定することができる。トピックモデルは、入力に一致したテキストパターン（text patterns）の集合を含むことができる。トピックモデルは、入力に一致したテキストパターンの集合、スニペットの有効値の集合又は製品のメタデータの正規表現（regular expression）を含むことができる（例えば、２シートベビーカーだけが、トピック「双子」に関連する）。これらのテキストパターンは、人間によって入力することができ、あるいは二次資料（secondary source）、例えば類語辞典（thesaurus）から推測することができる（また、テキストパターン「自動車」の存在は、トピック「車」に関連性があることを意味している）。入力に適用できる標準パターン（standard patterns、単独又は品詞タグ（part of speech tags）が組み合わされたｎグラム（N-grams））の大きな集合も存在する。
【００２４】
感想モデル格納装置３７５は、製品に対するテキストのスニペットの感想を決定するのに役立つ情報を含んでいる。例えば、用語「すばらしい（great）」、「すごい（awesome）」は、肯定的感想に対応し、用語「私は嫌い（I hate）」、「ひどい（terrible）」は、否定的感想に対応する。評判格納装置３８０は、情報源及びユーザの信頼性に基づいて、スニペットの信頼性を評価するのに役立つ情報を保管している。関連性解析装置３３５は、スニペットをランク付けするスニペットの関連性スコアを、トピックに対するそれらの関連性に基づいて計算する。感想解析装置３４０は、感想モデル格納装置３７５内で利用できる情報に基づいて、スニペットの感想スコア（sentiment score）を決定する。感想スコアは、基準（measure）を、スニペットの利用できる情報に基づいて、製品トピックに対する肯定的類似点（positive likeness）又は否定的類似点に提供する。評判解析装置３４５は、評判格納装置３８０内で利用できる情報に基づいて、スニペットの信頼性スコアを決定する。トピックモデル格納装置３７０及び感想モデル格納装置３７５は、専門家によって生成する（populated）ことができる。あるいは、トピックモデル格納装置３７０及び感想モデル格納装置３７５は、機械学習技術を用いて、生成することができる。例えば、一実施の形態において、ドキュメントの集合の全ての単語（word、ユニグラム（unigrams））を処理し、各単語の重み（weights）を学習し、そして、重みが約０である単語を除去し、その結果、モデルに対して重要な単語の集合を得ることができる。例えば、感想における単語「すばらしい」に０．８の重みが割り当てられ、単語「ひどい」に−０．８の重みが割り当てられ、単語「ギア（gear）」に０．００１の重みが割り当てられてもよい。同様に、関連性モデル「休暇用のカメラ（cameras for vacation）」に対する単語「休暇」、「旅行（trip）」が正の重み（positive weights）を有し、単語「ホーム（home）」が負の重みを有し、単語「カメラ」が、０に近い重みを有していてもよい。単語の有無（非存在の場合は０、存在する場合は１）の加重和をとることができる分類子（classifier）によって、スニペットを分類することができる。上述した例では、説明の目的のために単純なモデル（simplified model）を示したが、現実のモデル（world models）は、より複雑（sophisticated）である。非常に大きな正の重みを有するユニグラムを含むクエリ（query）におけるスニペットを考慮する場合、その考慮に対してスニペットの良好な集合が得られる。
【００２５】
表示サブシステム２４０は、ユーザ対話処理モジュール３６０と、ユーザフィードバックモジュール３６５とを備える。ユーザ対話処理モジュール３６０は、解析サブシステム２３５によって生成された情報をユーザに提示する。ユーザは、ユーザが興味のあるトピックを指示する入力を、ユーザ対話処理モジュール３６０を用いて入力することができる。ユーザフィードバックモジュール３６５によって、ユーザは、トピックモデル格納装置３７０、感想モデル格納装置３７５及び正規化データ格納装置３０５に格納されているモデルを改良する学習に役立つ情報を入力することができる。例えば、製品トピックに対して決定された品質スコアが誤っており、ユーザの意見では、品質スコアが他の値でなければならないことを示す情報を入力することができる。フィードバックは、今後の結果を向上できるように、解析サブシステム２３５で使われるパラメータを修正するのに用いられる。
【００２６】
ドキュメントプロセッサ３１５は、更なるメタデータ、例えば「商品名又は型番のような（likely product name or model number）」によって、ドキュメントに注釈を付ける構文解析部（parsers）を実装している。構文解析部は、正規表現と、ハイパーテキスト記述言語（以下、ＨＴＭＬという。）のドキュメントオブジェクトモデル（以下、ＤＯＭという。）のナビゲーション規則との組合せを含むテキストパターンベースの技術を使用する。正規表現／ＤＯＭのナビゲーション規則は、所定のページからコンテンツ、例えばレビューを抽出するのに用いられる手動でコード化されたパターン（hand-coded patterns）の集合である。表現又はナビゲーション規則のそれぞれは、（ウェブサイト−識別子、ページ−タイプ）の組合せに関連付けられており、ウェブサイト−識別子は、ウェブページを識別する情報、例えばウェブサイトのＵＲＬであり、ページ−タイプは、ウェブページのカテゴリ、例えば小売業者のウェブサイト上の製品ページ又は製品リストページを表している。例えば、ＵＲＬがwww.acme.comの小売業者ウェブサイトの（ウェブサイト−識別子、ページ−タイプ）組合せは、（www.acme.com、製品−ページ）及び（www.acme.com、製品−リスト−ページ）とすることができる。同様に、ＵＲＬがwww.acme2.comの異なるウェブサイトの（ウェブサイト−識別子、ページ−タイプ）組合せは、（www.acme2.com、製品−ページ）及び（www.acme2.com、製品−リスト−ページ）とすることができる。抽出されたデータは、そのタイプ、例えば「商品名」、「型番」、「製品カテゴリ」、「レビューテキスト」、「仕様名／値」等によって注釈が付けられる。ドキュメントプロセッサ３１５は、テキストパターンベースの技術を用いて、更なるメタデータを含むコンテンツを識別し、正規化データ格納装置３０５に格納する。ドキュメントプロセッサ３１５は、統計分類機構（statistical classification mechanisms）、例えば単純ベイズ分類器（Naive Bayes classifier）、回帰分析（regression）等を、このメタデータによって強化されたコンテンツに適用して、データの種類毎の分類子を生成する。一実施の形態において、製品に関するユーザの感想についての特定のコンテンツに対して隠れマルコフモデル（Hidden Markov Models）を用いる。新しいウェブページがあった場合、そのコンテンツを前処理して、ＨＴＭＬタグを除去し、句の集合（collection of phrases）、すなわち文（sentences）を残すことができる。そして、このコンテンツは、上述した分類器に供給される。そのような分類毎に、製品ランク付けシステム２００は、信頼度（confidence level、例えば０．０〜１．０）を割り当てる。信頼度が、経験的に決定された製品−カテゴリ及びコンテンツ−タイプに依存した閾値よりも低い場合、コンテンツは、人間による手動抽出のために待ち行列に入れることができる。この抽出されたコンテンツは、解析段階に供給される。
【００２７】
図４は、発明の一実施の形態に基づく製品ランク付けシステム２００のハイレベルの処理を示すフローチャートである。集約サブシステム２３０は、ステップ４１０において、様々な情報源２５０から取得したデータを集約する。解析サブシステム２３５は、ステップ４２０において、ステップ４１０で集約した情報を解析して、製品及びトピックの品質基準（quality metrics）を計算する。表示サブシステム２４０は、ステップ４３０において、ステップ４２０での解析結果をユーザに表示する。いくつかの実施の形態では、ステップ４３０でユーザに表示した情報によって、ユーザは、どのように結果が得られたかを示す情報を調べ及び見ることができるとともに、結果の品質／正確さに対するユーザの意見をフィードバックすることができる。図４の個々のステップを、以下で詳細に説明する。
【００２８】
データの集約（Aggregation of Data）
一実施の形態において、コンテンツ抽出装置３２０は、特定の製品又はラベルを付されたドキュメントのそれぞれが参照する製品の分類を識別することによって、利用可能なコンテンツの正規化（normalization）を実行する。テキストによって参照される製品の識別は、多くの人が製品を参照する方法（小売業者、型番、微細な属性の相違、略称、在庫維持単位（ＳＫＵ）等を含む）が異なるために、困難なものとなっている。入力データは、まったく体系化されておらず、ウェブサイト、特に小さなウェブサイトでは、標準化された命名方式（naming schemes）に固定させることができない。ラベルを付されたドキュメントによって参照される製品を識別するのに用いられる技術には、マッチングルールエンジン（matching rules engine）及び手動マッチングを用いるものが含まれる。マッチングルール、例えば「型番は、既知の製品と一致する」、「技術仕様は、既知の製品と一致する」、「発売日は、既知の製品に近い」等の集合は、新しく抽出されたドキュメントで評価される。そのような結果のそれぞれには、マッチングの全体的な信頼度（confidence）を判定するのに用いられる信頼値（例えば、０．０〜１．０）を割り当てることができる。いくつかの実施の形態においては、既知の製品のキー属性（key attributes、例えば名称及び型番）に関する逆索引（inverted index）を用いて、マッチングの速度を上げることができる。信頼度が所定の閾値未満の場合、コンテンツは、人間の監視者に提示することができる。監視者には、新しいページのラベルが付されたコンテンツと、監視者が既存の製品カタログに対して一致を決定する、あるいは新しい製品を生成するのに用いることができる考えられる一致のリストと（list of possible matches）が提示される。既にカタログ内で製品に対する一致を見つかっている場合、異なる情報源から取得されたデータには矛盾（conflicting data）がある可能性がある。矛盾は、情報源に、信頼性の値（credibility value）を割り当てることによって解決される。新しい情報源が製品ランク付けシステム２００に現れたときには、その信頼性の値は、そのデータの既知の情報源に対する相関に基づいて、上方又は下方に調整される。情報源の信頼性の値は、人間の監視者によって定期的に監視してもよい。解析サブシステム２３５及び表示サブシステム２４０によって、入力として用いられた全ての製品及び関連したデータの正規化された表現は、正規化データ格納装置３０５に格納される。いくつかの実施の形態において、正規化データ格納装置３０５に格納されたドキュメントは、１つ以上の文又は節に相当するテキストスニペット（text snippets）に対応している。
【００２９】
関連性解析（Relevance Analysis）
図５は、ステップ４１０において情報源２５０から集約した情報のステップ４２０における解析の全てステップを示すフローチャートである。解析により、集められたスニペットにおける利用可能な製品に関連した情報に基づいて、製品の全体的な品質アセスメント（quality assessment）の評価を提供する製品の品質スコアを決定する。また、解析により、製品の特徴、属性、使用法又はユーザの人物像の集合に関する製品の品質提供評価アセスメント（product providing quality assessment）に関連したトピックのトピックスコアを決定する。一実施の形態において、トピック、製品の集合、それらの製品を議論するレビュー（あるいは、任意の他のテキスト）の集合並びに製品関するメタデータの集合、例えば価格及び仕様書が与えられた場合、解析により、トピックに関する各製品の正規化スコア（例えば０〜１００）を決定する。スコアは、製品を、そのトピックに対してランク付け、すなわち順番を付ける（rank-order）のに用いることができる。解析の結果は、ユーザがフィルタをかけ、比較し、彼らのニーズ及び好み（preferences）に適した製品を決定するのに役立つ。
【００３０】
関連性解析装置３３５は、ステップ５１０において、製品／トピックに対するスニペットの関連性を解析して、スニペットがトピックに対してどれくらい関連するかを示す、スニペットに対する関連性スコアを決定する。製品は、それに関連付けられた任意の数のテキストスニペット、例えば、製品に関するユーザ又は専門家のレビュー、ブログ又はフォーラム投稿記事、解説記事（articles）等を有することができる。スニペットは、任意の長さとすることができ、投稿記事、投稿記事の節、文又は文より短い句を含むことができる。各スニペットは、問題のトピックに言及してもよく、言及していなくてもよい。例えば、トピックが「スポーツ用のデジタルカメラ（Digital Cameras for Sports）」である場合、書き手がホッケの試合の写真を撮るためにどのようにカメラを使ったかについて記述しているスニペットは、そのトピックに関連する。同様に、動きの速い被写体又は移動撮影用のカメラの性能について議論しているスニペットは、トピック「スポーツ用のデジタルカメラ」に関連する。カメラのバッテリ寿命又は家族写真用に使いやすいカメラに重点を置いているスニペットは、トピックス「スポーツ用のデジタルカメラ」とは関連しない。
【００３１】
感想解析装置３４０は、ステップ５２０において、感想解析を実行して、トピックに対するスニペットの感想を示す製品／トピックに関して、スニペットの感想スコアを決定する。製品と関連した１つ以上のテキストスニペットの集合がある場合、感想解析装置３４０は、ステップ５２０において、感想、すなわちそれらのスニペットの傾向が肯定的であるか、否定的であるか、中立であるかどうかを決定する。上述した例においては、書き手がホッケの試合の写真を撮るカメラを使ったことを書いたスニペットは、どれくらいうまく試合の写真を撮ることができたかを公表していてもよく、どれくらいその性能に失望したかを公表していてもよく、あるいは結果を述べずにそのカメラを使用したことだけを公表していてもよい。感想は、区間（例えば肯定的、中立、否定的、さらに細分化して、「いくぶん肯定的（somewhat positive）」、「いくぶん否定的」）の集合として表現されるか、または、否定的から肯定的までの連続したスケールとして表現されるかいずれかであり、好みの度合いを表現することができる。
【００３２】
評判解析装置３４５は、ステップ５３０において、ドキュメントの信頼性を解析して、スニペットに対する信頼性スコアを決定する。いくつかの実施の形態において、信頼性スコアは、スニペットと関連している一方で、他の実施の形態においては、信頼性スコアは、スニペットとトピックの組合せと関連している。スニペットの信頼性は、書き手の信頼性及びドキュメントの情報源の信頼性を含む要素に基づいて解析される。例えば、書き手がその製品を支持することに非常に偏っているので、製品のメーカによるスニペットは、あまり当てにならない。同様に、完全な製品レビューを書き込んでいる有名なリポータは、なんら実証することなく、製品が「お粗末である（sucks）」との書き込んでいる第三者よりも信頼できる。いくつかの製品レビューサイトで、ユーザは「役立つレビュー」又は「役立たないレビュー」としてレビューをマークすることができ、これは、また、そのスニペットの評判に、又はその投稿をした書き手に寄与することもできる。
【００３３】
トピックに関連し、トピックに対してある感想を表現するスニペットの集合がある場合、集約品質スコア（aggregate quality score）は、ステップ５４０において、トピックに関して製品毎に、品質スコア計算モジュール３５５によって決定される。直観的には、トピックに関連し、そのトピックに対して肯定的傾向を表現する各スニペットは、「得票数が上がる」と考えられる。同様に、トピックに関連する否定的な各スニペットは、「得票数が下がる」ことになる。集約品質スコアは、スニペットの関連性スコア、スニペットの感想スコア及びスニペットの信頼性スコアを含む様々な要素に基づいて計算される。品質スコアの計算に関する詳細は、以下で説明する。一実施の形態において、１つのステップにおける計算結果が他のステップにおける計算に必要でない限り、ステップ５１０、５２０、５３０は、ステップ５４０において品質スコアの計算結果を得るために、いかなる順番で実行することができる。
【００３４】
フィードバックは、ステップ５５０において、様々な機構によって取得されて、製品ランク付けシステム２００によって計算される品質スコアを向上させる。一実施の形態において、ユーザ対話処理モジュール３６０は、製品／トピック及びスニペットに関連したスコアを示す表示を、製品ランク付けシステム２００のエンドユーザ又は製品ランク付けシステム２００が高品質の結果を出力することを保証する責任を負う管理者に表示する。その表示に基づいて、ユーザは、ユーザフィードバックモジュール３６５によって取り入れられるフィードバックを、製品ランク付けシステム２００に与える。製品ランク付けシステム２００は、このフィードバックに適応し、学習して、より良好な結果を出力する。例えば、相対的な製品品質は、ランク付けされたリストとして表示される。ユーザは、これらの可視化情報をブラウズすることができ、そのランキングに同意しない場合、ユーザは、例えば製品のランキングの得票を上げる又は下げるべきと提案することによって、ユーザフィードバックモジュール３６５にフィードバックを提供することができる。製品ランク付けシステム２００は、この情報に基づいて、より良好なスコアを出力することを学習するので、この種のフィードバックは、処理をする製品／トピックの品質スコアの計算を向上させるのに用いることができる。
【００３５】
また、ユーザは、ランキングを決定するのに用いられる個々のスニペットをブラウズすることもできる。どのようにカメラが「美しく光を捕らえるか」について記述したレビューは、カメラの「重量」に関連するレビューと間違えられることがある。ユーザは、トピック「重量」と無関係なものとして、このスニペットをマークすることができ、また、トピック「画質」に関連するものとして、このスニペットをマークすることもできる。同様に、「そのカメラの弱光設定を発見するまでは、そのカメラで屋内で写真を撮ることが、どんなに私は嫌いだったか」と公表しているスニペットは、句「私は嫌いだった」のために、非常に否定的な感想と間違えられることがある。「肯定的」、「否定的」又は「中立」としてスニペットをマークすることによって、ユーザは、製品ランク付けシステム２００の感想の評価を修正することができ、製品ランク付けシステム２００は、修正から学習して、より正確な関連性の評価及び感想の評価を生成する。学習過程の詳細については、以下に説明する。
【００３６】
いくつかの実施の形態において、間接的なフィードバックは、ユーザアクションから得ることができる。例えば、所定のトピックに対する製品のリストがユーザに提示された場合に、ユーザが製品の詳細な情報に興味のあったことを示すユーザアクション中のクリック操作は、肯定的なフィードバックを示す。他方、最高のランク付けをされた製品を無視し、より低くランク付けされた製品の情報を取り出すユーザの操作は、最高のランク付けをされた製品に対する否定的なフィードバックの指標と考えられる。一実施の形態において、スニペットの信頼性スコアの計算は、書き手の信頼性スコアの評価にフィードバックを提供することができる。例えば、低い信頼性スコアしか達成していないいくつかのスニペットを提供している書き手には、低い書き手信頼性スコアを割り当てることができる。ステップ５５０において、ユーザ又は他の手段から得られたフィードバックは、図５における処理の１つのステップ、例えば、関連性解析ステップ５１０又は感想解析ステップ５２０に対する入力として提供され、あるいは、フィードバックは、複数のステップに入力することもできる。一実施の形態において、ユーザインタフェースがユーザに提供され、ユーザインタフェースによって、ユーザは、スニペット上でクリックスルー（click-through）することで、その全てのレビューを見ることができる。ユーザがスニペットに対する関心を示したときから、ユーザによるクリックスルーは、スニペットの関連性の指標となる。
【００３７】
図６は、本発明の実施の形態に基づいて、ステップ５１０において、関連性の解析を行い／テキストの関連性スコアを計算する関連性解析装置３３５によって実行される処理のフローチャートを示す図である。スニペットの解析は、「投票」に類似するものと考えられ、投票とは、トピックに関連したテキストスニペットが、最終的なスコアに重み付けされるということである。スニペットの関連性スコアは、テキストスニペットがトピックに関連するかどうかを示している。ステップ５１０における関連性解析の処理は、テキストスニペット、テキストスニペットに関するメタデータ（書き手、情報源、投稿日付、レビュースコア等）及びその入力としての製品に関するメタデータを識別する。処理は、トピックに関する情報（knowledge）を表現するトピックモデルを用いる。関連性解析は、トピックに対するスニペットの関連性の評価の程度を決定する。
【００３８】
図６に示すように、ユーザ対話処理モジュール３６０は、ステップ６０５において、クエリをユーザから受け取る。クエリは、トピックから用語（terms）を提供する。関連性解析装置３３５は、ステップ６１０において、トピックに関連するスニペットを識別する。一実施の形態において、全ての利用可能なスニペットは、あらゆるトピックの関連性スコアを計算するのに用いられる。しかしながら、多数のスニペットを有する製品ランク付けシステム２００においては、各トピック毎に、全てのスニペットのそれぞれを調べるのは、非効率である。このような状況においては、スニペットの部分集合を、トピックに対する関連性スコアを計算するのに用いることができる。一実施の形態において、関連性解析装置３３５は、スニペットの部分集合を計算するために、トピックモデルからの用語に基づくクエリを用いる。例えば、トピックモデルからの最も高く重み付けされたｎグラムは、トピックに対する関連性スコアを計算するのに用いられるスニペットの部分集合を計算するのに用いられる。最も高く重み付けされた用語を問い合わせることによって計算された部分集合は、トピックモデルからの他の用語を用いることによって、さらに洗練された（refined）ものとすることができる。スニペットを部分集合にすることによって、スニペットの数をかなり減らすことができる。適用可能性解析（applicability analysis）のこの技術は、文がトピックに関連するかどうかを検出する一般的な技術なので、また、この技術は、レビューにおいて製品の参照（references）を見つけるのに適用することができる。特定の製品、例えばモトローラ製ＲＡＺＲカメラの場合を考える。この製品に対する参照は、「モトローラＲＡＺＲ」、「モトローラ」、「ＲＡＺＲ」、「Ｖ３（これは、人気商品の改良版である）」等の文字列を含んでいてもよい。テキストのスニペットにおいて、これらの製品を「見つける（spot）」ために、特定の製品を参照する文字列を認識するモデルが作られる。ここに説明する学習技術は、また、スニペットにおいて、製品の参照を見つけることに適用することができる。
【００３９】
トピックに関連するスニペットの部分集合が与えられた場合、関連性解析装置３３５は、ステップ６１５〜６３０を用いて、そのトピックの関連性スコアに対するスニペットの寄与を計算する各スニペットを解析する。関連性解析装置３３５は、ステップ６１５において、スニペットを選択し、ステップ６２０において、トピックモデルからテキストパターンを選択し、ステップ６２５において、トピックモデルからのテキストパターンをスニペットとマッチングする。例えば、１つの単語「車」を有するトピックモデルの単純な場合において、単語「車」を含むあらゆるテキストスニペットは、関連性１を返し、単語「車」を含まないあらゆるスニペットは、関連性０を返す。一般的に、各スニペットの関連性を計算するために、複数の要素を考えるとき、関連性解析装置３３５は、ステップ６３０において、スニペットの特徴ベクトルを計算する。特徴ベクトルの各成分は、スニペットの関連性を計算するのに用いられる１つの要素によって決定される。いくつかの実施の形態において、ステップ６１５、６２０が、スニペットに対応する特徴ベクトルの成分を計算する特定の実施の形態を表しているので、ステップ６１５、６２０は、オプションと考えることができる。
【００４０】
いくつかの実施の形態において、関連性解析装置３３５は、各スニペットの特徴ベクトルの成分を計算するのに、以下の基準のうちの１つ以上を用いる。
（１）そのトピックに対する１つ以上の手作業による正規表現（regular expressions）の集合の有無。
（２）最も頻度の高いＫ個のユニグラム、バイグラム及びトライグラムの有無（Ｋ＝１００００）。
（３）既製の品詞タグ付け機を用いて計算されるように、品詞情報によって注釈が付けられた最も頻度の高いＫ個のユニグラム、バイグラム及びトライグラムの有無（Ｋ＝３００）。
（４）製品の論理述語（boolean predicates）の集合のいずかに対する製品メタデータのマッチング（「type＝DSLR ＡＮＤ（価格＜１０００ＯＲ brand＝Acme）」）。
関連性スコアを評価する他の基準としては、例えば、経験則（heuristics）、例えばスニペットの長さと、スニペットの長さに基づくスカラ値と、スニペット内の句のインスタンスの数と、スニペットの先頭又は末尾に対する句の近接度（proximity）の基準（measure）と、製品属性の値とが考えられる。一般的に、所定の閾値に対してあらゆるスカラ関数を比較する全ての論理式は、製品メタデータの述語、テキストの本文における句の有無、品詞タグ、構文木タグ等を設定する。また、語幹処理（Stemming）は、単語に適用することがある。語幹処理は、単語をその語幹（root）の形式に減少させる処理であり、要素によって特徴空間の大きさを減らす。例えば、「inflating」、「inflation」、「inflates」及び「inflate」は全て、同じ語幹である「inflat」まで減らすことができる。これにより、製品ランク付けシステム２００は、学習を容易にすることができる。多くの語幹処理アルゴリズムは、以下の参考文献に示されている。これらの全ては、引用することによって、本明細書に援用される。（１）PORTER,M.F.(1980)「AN ALGORITHM FOR SUFFIX STRIPPING, PROGRAM」,14(3):130-137、（２）Krovetz,R.「Viewing Morophology as an Inference Process」,Annual ACM Conference on Research and Development in Information Retrieval,1993、（３）Lovins,J.B.「Development of a Stemming Algorithm.」,Mechanical Translation and Computational Linguistics 11,1968,22-31、（４）ウェブ上の利用可能なランカスタ語幹処理アルゴリズムは、次のＵＲＬにある。「www.comp.lancs.ac.uk/computing/research/stemming/index.htm」、（５）Jenkins,Marie-Claire,Smith,Dan,「Conservative stemming for search and indexing」,SIGIR 2005。語幹処理は、情報を減らすので、一実施の形態では、経験的に（heuristically）単語を１つにして、ハードコードされた語幹処理ルールの拡張可能な辞書を有する伝統的な語幹処理を用いている。
【００４１】
ステップ６３０において計算される特徴ベクトルは、バイナリ成分（入力１と一致しない各テキストパターンに対しては０、一致する各テキストパターンに対しては１）によるベクトルであってもよく、又は連続的なベクトル（各エントリは、テキストパターンが入力と一致した回数である）であってもよい。一実施の形態において、１つのｎ次元ベクトルは、スニペット毎に計算され、統計解析技術は、更なる処理であるステップ６３５に対して用いられる。トピックモデルは、これらのテキストパターンがどのように関連性スコアに寄与するかを学習した重み付けを含んでいる。ユーザが解析出力を修正すると、重み付けは、より正確なものに更新される。モデルによって利用することができる多くの重み付け及び更新の方法があり、これらの方法では、例えばベイジアンネットワーク、決定木、サポートベクタ分類、線形回帰、サポートベクタ回帰、ニューラルネットワーク、ブーステッド決定木等の技術を用いて、分類及び回帰を行う。選択肢の統計解析技術は、ステップ６３５において、所定の特徴ベクトルに適用されて、スニペットに対してスコア又は個々の分類を割り当てる（例えば無関係＝０、一部関連＝０．５、高い関連＝１に変換される。）。
【００４２】
感想解析
図７は、本発明の一実施の形態に基づいて、ステップ５２０における感想解析の実行、テキストのスニペットの感想スコアを計算するのに用いられる処理を示すフローチャートである。入力のテキストパターン（の特徴）及び重み付け方式を含む感想モデルは、入力データに適用されて、感想スコアの評価基準を生成する。一実施の形態において、感想解析のステップが１つのモジュール、例えば、関連性解析装置３３５によって、関連性解析のステップと共に実行されるように、感想解析及び関連性解析は、１つの処理に結合される。他の実施の形態において、感想解析は、感想解析装置３４０によって実行される、感想解析に特定のステップを含む別々の処理として計算される。２つの処理を分離することは実際的な利益がある。例えば、人々が肯定的感想及び否定的感想（「すばらしい」、「ひどい」等）を表現する方法は、トピック間に大きな相違があるので、関連性解析がトピック毎に実行でき、一方では、感想解析をトピックのカテゴリ毎、又は全体のレベルで実行することができるようになる。感想解析装置３４０は、以下のような細分化の程度（granularity）により、感想解析を実行することができる。
（１）トピック毎、
（２）トピックカテゴリに対して、
（３）全体レベルでの全てのトピックに対して、
（４）所定のコンテクストに対する最適なアプローチを得られるような、上述の３つのモデルの組合せ。
分類結果を結合させる機構（Mechanisms of combining classifier results）は、以下を含む。
（１）出力の加重和を計算し、経験的に重み付けを決定すること、
（２）ニューラルネットワーク（又は任意の他の分類子）に入力を与え、自動的に重み付け／メタモデルを学習すること、
（３）各アルゴリズムがその重み付けに加えて信頼性（a confidence）を返し、その信頼性によって加重和を計算すること、
（４）ニューラルネットワークのような学習アルゴリズムに出力及び信頼性を与えること。
さらに、感想の全ての段階に対してユーザにより補正された（ラベルを付された）スニペットは、トピックモデルを調整するのに用いられ、全てのトピックによるスニペットは、感想モデルを調整するのに用いられる。
【００４３】
図７に示すように、感想解析装置３４０は、ステップ７００において、感想スコアを計算するスニペットを識別する。識別されたスニペットの集合は、スニペットの集合の全体又は部分集合である。例えば、図６のフローチャートを用いる関連性解析装置３３５によって計算されるような、トピックに関連するスニペットの部分集合は、感想スコアを計算するスニペットの集合として、ステップ７００において識別される。ユーザ要求が入った場合には、感想解析は、バッチ処理としてオフラインで実行されることがあり、又は即時実行される場合もある。要求があった場合に、実行される計算量が少ないので、バッチ処理を用いる前に感想解析を実行しておくことは、オンライン要求の性能を向上させることになる。感想解析装置３４０は、ステップ７０５において、スニペットを選択し、ステップ７１０において、感想モデルからテキストパターンを選択し、ステップ７１５において、そのテキストパターンと選択されたスニペットとのマッチングをする。いくつかの実施の形態において、ステップ７１０、７１５では、代わりの機構が任意にスニペットの感想を評価するのに用いられることがある。スニペットの感想を評価する感想解析装置３４０によって用いられる機構は、以下を含む。
（１）最も頻度の高いＫ個のユニグラム、バイグラム及びトライグラムの有無（Ｋ＝１００００）。
（２）既製の品詞タグ付け機を用いて計算されるように、品詞情報によって注釈を付けた、最も頻度の高いＫ個のユニグラム、バイグラム及びトライグラムの有無（Ｋ＝３００）。
（３）製品の全体的な（Ｋ＝１０の区間に）量子化された品質スコア。一般的に、その製品のユーザによってその製品が好まれている場合に、その製品についての全ての与えられるスニペットは肯定的な評価である可能性が高いので、製品の品質スコアは感想解析に影響を与える。
（４）考慮中のレビューの（Ｋ＝１０の区間に）量子化されたスコア。例えば、低い信頼性のレビューは、感想解析の観点から、あまり有意であるとはいえない。
感想スコアを評価する他の基準としては、例えば、経験則、例えばスニペットの単語のインスタンスの数と、ｎグラムの特徴間の論理積（conjunctions）又は分離（disjunctions）とが考えられる。
感想解析装置３４０は、ステップ７２０において、特徴ベクトルの成分として、スニペットの感想を定量化する様々な機構によって計算される値を結合して、スニペットに対応する特徴ベクトルを計算する。感想解析装置は、例えば分類技術又は回帰技術を用いて、ステップ７２５において、統計解析を実行し、ステップ７３０において、スニペットに対する感想スコアを割り当てる。ステップ７３５において、未処理のスニペットがまだある場合には、感想解析装置３４０は、未処理のスニペットに対してステップ７０５−７３０を繰り返す。
【００４４】
評判解析
図８は、一実施の形態に基づいて、ステップ５３０における信頼性解析を実行し、テキストのスニペットの信頼性スコアを計算する評判解析装置３４５によって実行される処理を示すフローチャートである。スニペットは、その信頼性スコアを計算するステップ８００において識別される。一実施の形態において、信頼性解析は、スニペットの全ての集合に対して実行される。他の実施の形態において、信頼性解析は、ステップ５３０における信頼性解析によって計算される解析の部分集合に対して実行される。信頼性解析は、学習モデルを利用して、投稿記事又は書き手の信頼性を評価する。しかしながら、その投稿自体の内容についてよりも（内容については考慮されるけれども）、より投稿及び書き手についてのメタデータに基づいて、その評価がなされる。一実施の形態において、スニペットの信頼性解析は、オフラインで実行されるバッチ処理として実行される。他の実施の形態において、ユーザ要求があった場合には、信頼性解析は即時実行される。要求があった場合に、実行される計算量がより少ないので、バッチ処理を用いる前に信頼性解析を実行することは、オンライン要求の性能を向上させる。評判解析装置３４５は、ステップ８０５において、その信頼性スコアを計算するのに、識別されたスニペットからスニペットを選択する。スニペットの信頼性は、様々な要素に基づいて評価される。
【００４５】
評判解析装置３４５は、ステップ８１０において、スニペットの書き手の信頼性を評価する。書き手による投稿数は、書き手の信頼性をゆがめることがある。ほとんどが信用できる投稿の書き手である場合には、書き手の信頼性は、増大する。信用できる投稿をほとんどしていない書き手の場合には、書き手の信頼性は、減少する可能性がある。同様に、書き手の意見が一貫して大多数の意見と一致しない場合にも、書き手の信頼性は減少する。一実施の形態において、書き手の信頼性と対応する特徴は、その書き手による信用できる投稿数のヒストグラム（区間の数Ｋ＝３）として表現される。それで、書き手の１つの投稿の信頼性値が、信頼性値＜０．３３であり、３つの投稿の信頼性値が、０．３３と０．６６の間の値であり、７つの投稿の信頼性値が、信頼性＞０．６６である場合には、その書き手の信頼性の特徴は、（１、３、７）となる。
【００４６】
評判解析装置３４５は、ステップ８１５において、情報源の信頼性を評価する。記事の投稿がされた情報源は、投稿の信頼性に有意な影響を有する。情報源の信頼性が一貫して全体の他の部分の信頼性と一致しない場合、又は一貫して信頼性の低い投稿ばかりを有している場合には、その信頼性は低下し、同様に、その投稿自体の信頼性を低下させてしまう。一実施の形態において、情報源の信頼性は、４つの機能によってモデル化される。第１の特徴は、全ての投稿に対するレビュースコアの分布によるその特定の情報源に対するレビュースコアの分布間の距離である。これは、カルバックライブラー情報量（Kullback-Leibler divergence）又は他の統計的相違度基準を用いてモデル化できる。２、３、４番目の特徴は、書き手の信頼性の基準と同じであるが、書き手によるレビューではなく、入力情報としての情報源からのレビューを用いる。
【００４７】
評判解析装置３４５は、ステップ８２０において、投稿の有用性に基づいて投稿の信頼性を評価する。有用な投稿は、「役立つ」又は「役立たない」としてレビューにマークを付する、製品ランク付けシステム２００のユーザによって、フィードバックを表現する。利用可能な場合には、役立つ投稿は、投稿に対する信頼性の有用な基準を提供する。この情報は、いくつかの投稿に対しては利用できない場合がある。この情報が利用できる場合には、信頼性にとって十分な代用（proxy）となり、他の要素の相対的重要度のモデルを調整するために用いられる。役立つ情報に対応する特徴は、投稿記事の役に立つ情報の数に対応する離散値として表現される。投稿が５つの役立つ情報を有している場合には、その値は、５である。役立つ情報の数及び役立たない情報の数は、別々の成分として表現される。これは、結果として学習アルゴリズムが独立して２つの値の高機能な組合せを学習することを可能にする一般的な表現である。
【００４８】
評判解析装置３４５は、ステップ８２５において、スニペットが得られるところからの投稿の内容に基づいて、スニペットの信頼性を評価する。投稿のテキストの内容は、信頼性の指標となり得る。例えば、投稿記事の長さは、その信頼性に比例する。より長い投稿記事は、一般的に、対象及びより多くの信頼性に対するより高い関心を示すといえる。言い回し（wording）の選択肢は、信頼性に影響を及ぼすこともできる。言い回しの選択肢は（ｎグラムによってモデル化されたときは）、ランダムであるよりも、投稿の信頼性をより良く予測することができる。それ自体では、これは信頼するには十分ではないが、他の要素と結合される場合には、製品ランク付けシステム２００の精度を向上させる。一実施の形態において、先頭のｎグラム、例えば、最初の１００００個のユニグラムの頻度が、投稿の信頼性の基準として用いられる。ｎグラムの頻度が高ければ高いほど、投稿の信頼性も高くなる。
【００４９】
評判解析装置３４５は、任意の順序で、ステップ８１０、８１５、８２０、８２５を実行することができる。ステップ８３５において、識別されたスニペットから利用可能な多くの未処理のスニペットがある間は、評判解析装置３４５は、スニペットの信頼性を評価する。スニペットの信頼性の評価の問題は、回帰問題としてモデル化される。回帰分析の出力は、入力としても用いられる。例えば、書き手の信頼性は様々な投稿の信頼性に基づいている。したがって、評判解析装置３４５は、書き手及び情報源の双方の信頼性についての入力［０，０，０］の初期値を設定することによって、反復して計算を実行することができる（カルバックライブラー情報量は、演繹的に計算される）。
【００５０】
投稿の信頼性は、情報源、書き手／情報源の信頼性の更新値及び繰り返される処理の範囲内で全ての書き手に対して計算される。この処理は、多数回の繰返しを行い、固定点に収束させる（例えば、より信用できない投稿は、それらの情報源／書き手の信頼性を低下させ、続いて、それ自体の信頼性等を低下させる）。固定数の繰返し、例えば計算の２回繰返しは、この値への発見的方法による近似操作として実行される。他の実施の形態においては、他の方法を用いる。例えば、全ての情報源／書き手に対する情報源／書き手信頼性を計算し、情報源／書き手にランク付けをし、その結果を区間内に量子化する。
【００５１】
品質スコア計算
図９は、本発明の実施の形態に基づいて、ステップ５４０において、品質スコア計算モジュール３５５によって用いられる製品／トピックの品質スコアを決定する処理を示すフローチャートである。品質スコア計算モジュール３５５は、ステップ９０５において、品質スコアを計算するのに、スニペットを識別する。スニペットを計算する様々なスコア、例えば、関連性スコア、感想スコア及び信頼性スコアは、製品／トピックの全体的な品質を評価する製品／トピックに対する１つのスコアに結合される。様々な実施の形態において、製品／トピックの品質スコアは、異なる方法で計算される。一実施の形態において、スニペットのスコアの集合の平均値が計算され、その集合の「平均」スコアが生成される。他の実施の形態において、スニペットのスコアの集合の中央値が計算され、その集合の「中央」のスコアが生成されて、一般的には、異常値データの影響を与えにくくしている。
【００５２】
よい代表的な品質スコアとは、様々な指標によって表現されるような、「正確で、一般的な感想を反映する」ものである。ステップ９１０、９１５、９２０において評価されるように、ここで示される指標のいくつかは、スニペットの関連性、感想及び信頼性を含んでいる。他の指標は、以下のものを含んでいる。
（１）最新購買日。特にテクノロジが急速に変化する製品カテゴリ、例えばエレクトロニクス商品に対する新しいスニペットは、古いスニペットよりも、より大きな重み付けがされる。
（２）数量。トピックに関連するより多くのスニペットを有する製品は、関連するスニペットの少ない製品より目立っていると考えられる（肯定的であるか、否定的であるかは、それらのスニペットの感想による）。
（３）異常値。製品に対する一般的な意見が肯定的な場合であっても、否定的な感想が少しある場合もある。これらの少数の意見は、適切な方法で全体的なスコアに影響を及ぼす必要がある。すなわち、否定的な感想は、妥当な少数派又は製品をこれまで使ったことのない、ただ反対意見を持つ人の集合である可能性がある。
（４）メタデータ。製品についてのメタデータは、特定のトピックに対するその製品の品質を判断するのに用いられる。例えば、製品の価格は、カメラが良い物であるかどうかにかなり影響を及ぼす。スニペットがこれを裏付けている間は、価格情報が利用でき、トピック「価値」と関連する知識が利用できる場合には、製品の価格は、「価値」に対して全体的な品質スコアを決定するのに非常に役に立つ情報である。同様に、一人乗りのベビーカーは、たとえどんなに多くのスニペットが双子に言及していたとしても、双子に対しては適切でない可能性が高い。品質スコアの評価は、これらの要素のそれぞれが各要素に対して、適切な重み付けを用いることによって、どの程度全体のスコアに寄与するかを決定する。一実施の形態において、要素の重み付けは、異なるカテゴリに対して異なる。例えば、最新購買日についての要素は、変化の速いカテゴリにおいては、かなり寄与することができる一方で、特定のメタデータは、特定のトピック又はカテゴリにより大きく寄与することがある。
【００５３】
直観的に、それがトピックに関して肯定的な投票をする各スニペットは、投票数が増え、否定的なスニペットは投票数が減少する。品質スコアを計算する上述の様々な要素は、ステップ９２５において、方程式（１）を用いて投票数を決定する。
【００５４】
【数１】

【００５５】
パラメータλｌ、λ２、λ３、λ４は、各要素、すなわち関連性、感想、信頼性及び最新購買日がスニペットの得票に寄与することを決定する。ステップ９３０において、残りの未処理のスニペットがある間は、各スニペットに対する投票が計算される。他の実施の形態において、方程式（２）を用いて加重和を計算する。
【００５６】
【数２】

【００５７】
方程式（２）を用いて計算された合計値は、線形回帰問題に直接写像し、線形回帰問題においては、パラメータλ１、λ２、λ３、λ４、λ５は、データから直接的に学習することができる。一実施の形態において、方程式（２）で用いられる定数の値の例は、λ１＝０．５、λ２＝０．３、λ３＝０．２、λ４＝０．１、λ５＝０．１である。他の実施の形態において、異なる回帰評価、例えば線形回帰、サポートベクタ回帰、ロバスト回帰等の技術が用いられ、各カテゴリに対して手動によってパラメータλ５を評価する。
【００５８】
一実施の形態において、各製品に対する品質スコアは、ステップ９５０において、方程式（３）を用いて計算される。
【００５９】
【数３】

【００６０】
演算子｜Ｓ｜は、集合Ｓにおける要素数を返し、演算子ａｖｇ（Ｓ）は、集合Ｓの平均である。係数θ_１、θ_２は、どの程度各要素が投票の平均スコアに対して寄与するかを決定し、係数θ_１、θ_２の値は、経験的に決定される。一実施の形態において、係数θ_１、θ_２は、データ管理者及び／又はエンドユーザによって手動で投票数の上げ下げをされるデータの最小２乗誤差（又は任意の損失関数）を最小にしようとするグリッドサーチによって決定される。一実施の形態において、用いられる定数の例は、θ_１＝１、θ_２＝１．５である。一実施の形態において、関数ａｖｇ（ｖｏｔｅ_{ｓｎｉｐｐｅｔ}）は、異常値除去によって平均を計算する。例えば、最終のスコアが上下して結果をゆがめてしまう全ての異常値を除去しようとする場合において、得票の上部と下部のＫ＝５％が除外される。
【００６１】
異なる実施の形態では、ステップ９４０において、以下の技術を用いて品質スコアを計算する。
（１）重み付きデータの統計的平均値を決定すること。
（２）特定の特性の累積分布関数（ＣＤＦ）、例えば線形曲線、ロジスティック曲線、正規分布等に品質スコアを出力させること。
（３）その分布を観察したときの尤度が最適最尤推定値から９０％以上になるように、最大値を予測評価するために、ｔ検定（学生の分布）を用いること。
（４）回帰分析技術を用いること。回帰分析技術においては、入力される情報の特徴がレビューの割合のヒストグラムであり（信頼性によって、任意的に重み付けされる）、そのヒストグラムは、スコアの区間に分割される。例えば、スコア１かつ重み付け１の１０件のレビューと、スコア２かつ重み付け２の５件のレビューと、スコア３かつ重み付け４のレビューが０件と、スコア５かつ重み付け１０のレビューが１件である場合には、その特徴ベクトルは、（０．３３３，０．３３３，０，０．３３３）となる。この特徴ベクトルは、任意の回帰分析技術、例えば線形回帰、多項式補間、ノンパラメトリック分析等において用いることができる。
【００６２】
フィードバック
スコアを付けられた製品／トピックは、ユーザ対話処理モジュール３６０によって、製品ランク付けシステム２００のユーザ又は製品ランク付けシステム２００が高品質の結果を生成することを確保するのに責任を負うシステム管理者に対して表示される。ユーザ又は管理者は、製品ランク付けシステム２００によって計算される結果の精度を示す、製品ランク付けシステム２００へのフィードバックを行う。ユーザによって提供されるフィードバックは、ユーザフィードバックモジュール３６５によって取り入れられ、結果の品質を向上させるように、製品ランク付けシステム２００のパラメータを変更する。一実施の形態において、ユーザが製品ランク付けシステム２００によって計算される結果に同意しない場合には、ユーザは「最善のリスト」中の結果の順序が誤っていることを、そのリスト内の製品のランクを上下に移動させることにより、又は製品をリストに加えたり若しくはリストから完全に削除したりすることにより、明示することができる。製品ランク付けシステム２００に対するこのフィードバックは、品質スコアを付する段階であることを製品ランク付けシステム２００に知らせる（任意に関連性、感想又は信頼性解析も）。
【００６３】
他の実施の形態において、ユーザは、最終結果に寄与した個々のスニペットをブラウズすることができる。ユーザにとっては、これが所定の製品の、トピックに関するランク付けが高いか、低いかを実証するのに役立つが、この処理で間違った解析結果を修正する機会ともなる。ユーザがトピックに関連しないスニペットを見る場合には、それは無関係なものとして、それをマークすることができる。ユーザが間違った感想を付された関連スニペットを見る場合には、ユーザは、正しい感想をマークすることができる。そして、最後に、ユーザが、信用できるとは思えないスニペットを何らかの方法で見るとき、ユーザはそれを疑わしいものとしてマークすることができる。
【００６４】
学習及び適合度は、受け取ったフィードバックの種類に従い、異なったものとして実現される。関連性、感想及び信頼性解析については、フィードバックは、ラベルが付されたものとして捕らえることができ、そのユーザ及び他のユーザによって寄与を受けた、任意の他のラベルが付されたデータとともに格納される。ラベルは、スニペットの参照先（スニペットＩＤ）、ユーザ、ラベルが生成された日時及び所望の出力（関連性／非関連性、肯定的、否定的、中立、信頼性あり、疑わしい）を含んでいる。適切な解析は、データの新しい集合でのモデル（例えばベイジアンネットワーク、サポートベクタマシン、ニューラルネットワーク、ブースティング等）に従って再調整され、改良されたモデルが結果を出力し、その入力で再度動作する。
【００６５】
一実施の形態において、品質スコアについて、更新された製品ランク付けシステム２００は、以下のように動作する。ユーザが、ランク付けされた順序リストで投票によって製品の投票数を上下させる場合には、記憶された情報は、修正をしたユーザ、修正した日時、製品及び修正が適用されたトピックであり、スコアの差分によって、リスト中の望ましいいくつか場所に製品を移動させる必要があったものである。例えば、製品Ａのランクが７８であり、製品Ｂのランクが８０であり、また、リスト上で、製品Ａは、製品Ｂより上位であるべきとユーザが申し立てた場合には、記憶される差分は、２．１である。ユーザが製品Ａがそのリストに属さないと申し立てた場合には、より目立つラベルで、適用不可と記憶される。
【００６６】
品質スコアの計算が回帰問題としてモデル化される場合には、フィードバックを取り入れる方法は、ユーザの投票によって生成されるような新しいリストから回帰分析のパラメータを再学習することである。多くの回帰分析技術は、予測されたスコア及び望ましいスコアの間の差分を最小にするパラメータの集合を選択する。一実施の形態において、ノンパラメトリックサポートベクタ回帰技術（nonparametric support vector regression technique）が用いられる。
【００６７】
ユーザ対話処理モジュール３６０は、正規化データ格納装置３０５内の情報を用いて生成される動的ウェブページの集合に基づいて、ユーザに対する情報を表示する。ユーザに示される情報は、ユーザのニーズと一致させるために、製品仕様によってフィルタをかけられる（例えばカメラに対して「メガピクセル」、「バッテリ寿命」等）。感想解析によって生成されたデータは、ユーザが製品全体、特徴、使用法及び人物像について考慮する方法と、より良く一致させるのに用いられる。
【００６８】
ユーザは、以下のような様々な方法で、考慮したい製品を限定することができる。
（１）製品リストページ。このページは、カテゴリ（例えば「デジタルカメラ」）内で製品の完全なリストから始めることができ、価格及び他の属性（「５〜７メガピクセル」）に基づいてフィルタをかけることができる製品のリストである。ユーザは、後の比較のために興味がある製品をマークすることもできる。
（２）比較ページ。このページは、ユーザが、価格情報を含む仕様書に基づいて、製品の比較をすることができるサーチグリッドによって、製品の仕様書を表示する。
（３）トピックリストページ。トピック毎に、製品は、製品及び／又はトピックのランクの順序で表示される。これにより、ユーザは、素早く、どの製品が製品仕様の詳細な知識を必要とすることなく、ユーザの要求する必要条件と最も一致するか判断することができる。ユーザは、ユーザが選択したトピックだけに限られた製品リストページに移行することができる。
【００６９】
各製品は、製品についての詳細（写真、価格及び仕様書）を含む、対応製品詳細ページを有する。図１０は、本発明の一実施の形態に基づいて、レビュー記事に焦点に合わせたユーザインタフェースを示す図である。ユーザは、所定の製品が比較的高いトピックスコアを有するトピックを提示される。これらのトピックは、使用法（「休暇用のデジタルカメラ」）、人物像（「プロ用」）、属性（「優れたバッテリ寿命を持つ」）等である。ユーザが、トピックフィルタ領域１０１０でトピック名のうちの１つをクリックするとき、ユーザは、そのトピックに対するトピックスコアに寄与するレビューの集合を含む関連性レビュー１０２０を見ることができる。特に寄与したレビュー中の句及び文は、異なる色で強調されて、ユーザがレビューコンテンツの性質に素早く焦点を合わせることを可能にする。
【００７０】
変形例
本発明の好ましい実施の形態は、図面に関連して上述された。「一実施の形態」又は「実施の形態」に対する明細書における引用は、実施の形態に関連して記述される特定の特徴、構成又は特性が発明の少なくとも１つの実施の形態に含まれることを意味する。「一実施の形態において」との明細書の様々な場所で現れる句の全てが、同じ実施の形態を必ずしも参照しているというわけではない。
【００７１】
一部は、コンピュータメモリ中のデータビットでのアルゴリズム及び演算の記号表現に関して示されたものである。これらのアルゴリズムの記述及び表現は、データ処理技術分野における当業者にとっては通常用いられる手段であり、他分野の当業者に最も効果的にそれらの要旨を示すことができる。この明細書に記載されたアルゴリズムは、一般的に設計され、所望の結果に導くステップ（命令）からなる一貫したシーケンスである。そのステップは、物理量についての物理操作を必要とするものである。通常、これらの数値（quantities）は、記憶され、移動され、結合され、比較され、さもなければ処理されることが可能な電気、磁気、光学信号の形式をとるが、必ずしもそうとは限らない。主に一般的な用法上の理由であるが、これらの信号をビット、値、要素、記号、文字、用語、番号等と称することが通常は都合よい。さらに、一般性を失わずに、モジュール又はコード装置として物理量の物理操作を必要とするステップの特定の配置を参照言及するのにも、通常、都合がよい。
【００７２】
しかしながら、これらの用語及び類似する用語の全ては、適切な物理量と関連しており、また、単にこれらの数値に適用される都合よい標識に過ぎない。以下の説明から明らかなように、その他の場合には特に断らない限り、明細書の記載、用語、例えば「処理すること」、「計算すること」、「表示すること」、「決定すること」等を用いる説明によって理解され、コンピュータシステム又は類似の計算装置の動作及び処理を参照し、コンピュータシステム等は、コンピュータシステムメモリ、レジスタ若しくは他の情報記憶装置等、伝送装置又は表示装置内の物理（電気）量として表現されるデータを処理し及び変換する。
【００７３】
本発明の特定の実施の形態において、アルゴリズムの形式で、本明細書で説明する処理のステップ及び命令が含まれる。本発明のステップ及び命令がソフトウェア、ファームウェア又はハードウェアで実現されることに留意する必要があり、ソフトウェアで実現される場合には、ダウンロードすることができ、様々なオペレーティングシステムによって用いられる異なるプラットホームにおいて動作する。
【００７４】
本発明は、このような方法で動作する装置にも関する。この装置は、その目的に対して特に構成され、又はこの装置は、コンピュータに記憶されたコンピュータプログラムによって選択的に動作され、若しくは再構成された汎用コンピュータにより構成することができる。そのようなコンピュータプログラムは、コンピュータで読み取り可能な記憶媒体、特段制限はないが、例えば任意の種類のディスク装置であり、フレキシブル磁気ディスク、光学ディスク、コンパクトディスクリードオンリメモリ（ＣＤ−ＲＯＭ）、光磁気ディスク、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、磁気若しくは光学読み取りカード、特定用途向け集積回路（ＡＳＩＣ）、又は電子命令を記憶するのに適した記憶媒体に記憶され、また、それぞれの記憶媒体とコンピュータとを接続するシステムバスがある。さらに、明細書に記載のコンピュータは、シングルプロセッサを含んでいてもよく、計算能力の向上のためにマルチプロセッサを採用するアーキテクチャであってもよい。
【００７５】
本明細書で説明するアルゴリズム及びディスプレイは、いかなる特定のコンピュータ又は他の装置に本質的に限定されるものではない。様々な汎用システムは、本明細書での開示に従って、プログラムとともに用いられ、さらに専用の装置を構成して、本発明の方法のステップを実行するのは容易であることが理解される。さらに、本発明においては、いかなるの特定のプログラミング言語に関して記述されるものではない。様々なプログラミング言語が、本明細書で説明する本発明の技術の開示を実現するのに用いられることはいうまでもなく、特定のプログラミング言語に対して任意に参照することができ、本発明の使用可能性及びベストモードの開示に提供される。
【００７６】
さらに、明細書で用いられる言語は、主に読みやすさ及び教育目的のために選択されており、発明の要旨を詳細に記述し、又は外延を記述するのに選択できない。したがって、本発明の開示は、実施例ではあっても、発明の範囲を制限するものではない。

【特許請求の範囲】
【請求項１】
コンピュータによって実行される、トピックに関する複数の製品にランクを付ける製品ランク付け方法において、
製品の情報を含むドキュメントを受け取るステップと、
上記トピックに関する製品を記述するテキストの一部を含む、上記ドキュメントからのテキストのスニペットを計算するステップと、
上記トピックに対する各スニペットの関連性の評価を決定するステップと、
上記トピックに関する各スニペットの感想の評価を決定するステップと、
上記各スニペットに関連する要素に基づいて上記製品にランクを付ける、上記複数の製品のそれぞれの集約品質スコアを決定するステップとを有し、
上記集約品質スコアは、上記スニペットの関連性の評価と、上記スニペットの感想の評価と、上記スニペットの信頼性の評価とを含むことを特徴とする製品ランク付け方法。
【請求項２】
上記各スニペットの信頼性の評価を決定するステップを更に有する請求項１記載の製品ランク付け方法。
【請求項３】
上記トピックに関する製品のランキングを決定するのに用いられる情報を表示するステップを更に有する請求項１記載の製品ランク付け方法。
【請求項４】
上記各スニペットの関連性の評価を決定するステップは、
上記トピックを記述した用語をそれぞれ含む上記複数のスニペットの部分集合を識別するステップと、
上記各スニペットの特徴ベクトルを計算するステップと、
上記スニペットに関連する上記特徴ベクトルの統計解析に基づいて、該スニペットの関連性スコアを決定するステップとを有し、
上記特徴ベクトルの成分は、上記トピックに対する各スニペットの関連性に基づいて決定されることを特徴とする請求項１記載の製品ランク付け方法。
【請求項５】
上記スニペットの特徴ベクトルを計算するステップは、
上記トピックに基づくパターンを選択するステップと、
上記テキストパターンが上記スニペットにどの程度良く一致するかに基づいて、上記特徴ベクトルの成分を決定するステップとを有することを特徴する請求項４記載の製品ランク付け方法。
【請求項６】
上記トピックに基づくパターンは、
上記トピックを記述した用語を有する正規表現と、
上記トピックを記述した用語を有し、上記複数のスニペット内におけるその出現頻度に基づいて選択されたｎグラムと、
上記トピックを記述した用語を有し、上記複数のスニペット内におけるその出現頻度に基づいて選択され、品詞情報によって注釈が付けられたｎグラムと、
製品メタデータに基づく論理述語と、
上記スニペットの長さに基づくスカラ値と、
上記スニペット内の句のインスタンスの数と、
上記スニペットの先頭又は末尾に対する句の近接度の基準とのうちの少なくとも１つを含むことを特徴とする請求項５記載の製品ランク付け方法。
【請求項７】
上記スニペットの感想の評価を決定するステップは、
上記トピックを記述した用語をそれぞれ含む上記複数のスニペットの部分集合を識別するステップと、
上記各スニペットの特徴ベクトルを計算するステップと、
上記スニペットに関連する上記特徴ベクトルの統計解析に基づいて、該スニペットの感想スコアを決定するステップとを有し、
上記特徴ベクトルの成分は、上記スニペットによって記述された感想に基づいて決定されることを特徴とする請求項１記載の製品ランク付け方法。
【請求項８】
上記複数のスニペットの部分集合は、上記トピックに対する各スニペットの関連性に基づいて識別されることを特徴とする請求項７記載の製品ランク付け方法。
【請求項９】
上記スニペットの特徴ベクトルを計算するステップは、
上記スニペットによって記述された上記感想スコアを決定する基準に基づいて、上記特徴ベクトルの成分を決定するステップを有することを特徴とする請求項７記載の製品ランク付け方法。
【請求項１０】
上記スニペットによって記述された上記感想スコアを決定する上記基準は、
上記複数のスニペット内におけるその出現頻度に基づいて選択されたｎグラムを、感想を記述する用語と一致をさせること、
上記複数のスニペット内におけるその出現頻度に基づいて選択され、品詞情報によって注釈が付けられたｎグラムを、感想を記述する用語と一致をさせることとの少なくとも一方を含むことを特徴とする請求項９記載の製品ランク付け方法。
【請求項１１】
上記各スニペットの信頼性の評価を決定することは、１つ以上の要素に基づくことであり、該１つ以上の要素は、
上記スニペットの書き手の信頼性の基準と、
上記スニペットが得られた情報源の信頼性の基準と、
上記スニペットに関連した役立つ情報及び役立たない情報の数と、
上記スニペットに関連した投稿記事のサイズとを含むことを特徴とする請求項２記載の製品ランク付け方法。
【請求項１２】
上記スニペットに関連する要素は、
該スニペットの寿命を更に含むことを特徴とする請求項１記載の製品ランク付け方法。
【請求項１３】
上記トピックスに関する製品の集約品質スコアは、各スニペットに対応する投票の評価の集約値として決定され、
上記投票は、上記スニペットが決定した上記トピックに関する製品の品質を示すことを特徴とする請求項２記載の製品ランク付け方法。
【請求項１４】
上記各スニペットに対応する投票は、関連性の第１の定数乗の評価に基づいて決定される関連性スコアと、感想の第２の定数乗の評価に基づいて決定される感想スコアと、信頼性の第３の定数乗の評価に基づいて決定される信頼性スコアとを含む複数の項の積として決定されることを特徴とする請求項１３記載の製品ランク付け方法。
【請求項１５】
上記複数の項には、上記スニペットの寿命の関数に対応した項を更に含むことを特徴とする請求項１４記載の製品ランク付け方法。
【請求項１６】
上記各スニペットに対応する投票は、関連性の第１の定数乗の評価に基づいて決定される関連性スコアと、感想の第２の定数乗の評価に基づいて決定される感想スコアと、信頼性の第３の定数乗の評価に基づいて決定される信頼性スコアとを含む複数の項の加重和として決定されることを特徴とする請求項１３記載の製品ランク付け方法。
【請求項１７】
上記複数の項は、上記スニペットの寿命の関数に対応した項を更に含むことを特徴とする請求項１６記載の製品ランク付け方法。
【請求項１８】
コンピュータによって実行される、トピックに関する複数の製品にランクを付ける製品ランク付けシステムにおいて、
コンピュータプロセッサと、
上記コンピュータプロセッサで実行されるコンピュータプログラムモジュールを格納したコンピュータで読み取り可能な記憶媒体とを備え、
上記コンピュータプログラムモジュールは、
複数のオンライン情報源から集約された、製品の情報を含むドキュメントを受け取り、上記トピックに関する製品を記述するテキストの一部を含む、該ドキュメントからのテキストのスニペットを計算する集約モジュールと、
上記トピックに対する各スニペットの関連性の評価を決定する関連性解析モジュールと、
上記トピックに関連する上記スニペットの感想の評価を決定する感想解析モジュールと、
上記各スニペットに関連する要素に基づいて上記製品にランクを付ける、上記複数の製品のそれぞれの集約品質スコアを決定する品質スコア計算モジュールとを含み、
上記品質スコア計算モジュールは、上記スニペットの関連性の評価と、上記スニペットの感想の評価と、上記スニペットの信頼性の評価とを含むことを特徴とする製品ランク付けシステム。
【請求項１９】
トピックに関する複数の製品にランクを付けるコンピュータ実行コードを格納する、コンピュータで読み取り可能な記憶媒体に記憶されたコンピュータプログラムにおいて、
複数のオンライン情報源から集約された、製品の情報を含むドキュメントを受け取り、上記トピックに関する製品を記述するテキストの一部を含む、該ドキュメントからのテキストのスニペットを計算する集約モジュールと、
上記トピックに対する各スニペットの関連性の評価を決定する関連性解析モジュールと、
上記トピックに関する各スニペットの感想の評価を決定する感想解析モジュールと、
上記各スニペットに関連する要素に基づいて上記製品にランクを付ける、上記複数の製品のそれぞれの集約品質スコアを決定する品質スコア計算モジュールとを含み、
上記集約品質スコアは、上記スニペットの関連性の評価と、上記スニペットの感想の評価と、上記スニペットの信頼性の評価とを含むことを特徴とするコンピュータプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【公表番号】特表２０１１−５３０７２９（Ｐ２０１１−５３０７２９Ａ）
【公表日】平成２３年１２月２２日（２０１１．１２．２２）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)
  - 管理目的，商用目的，金融目的，経営目的，監督目的または予測目的... (55,954)
    - 商取引，例．マーケティング，買物，請求，競売又は電子商取引 (11,815)

【出願番号】特願２０１１−５１４７８５（Ｐ２０１１−５１４７８５）
【出願日】平成２１年６月１７日（２００９．６．１７）
【国際出願番号】ＰＣＴ／ＵＳ２００９／０４７７０７
【国際公開番号】ＷＯ２００９／１５５３７５
【国際公開日】平成２１年１２月２３日（２００９．１２．２３）
【出願人】（５１０３３３６６７）ワイズ　テクノロジーズ　インコーポレイテッド (1)
【Ｆターム（参考）】

検索装置 (67,127)
- 検索対象情報 (11,868)
  - 検索対象情報の内容 (10,277)
    - コード情報 (3,706)
      - 文字コード (3,390)
- 二次情報作成 (1,342)
  - 抄録、要約 (329)
  - その他 (842)

[ Back to top ]

トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク