レビュー処理方法およびシステム

【課題】ユーザが、入手することに関心がある製品およびサービスに関して、ならびに取引することに関心がある製品およびサービスの提供者に関して、調査をより効率的に実施できるようにする。
【解決手段】レビューを処理する方法であって、複数のレビューを識別するステップと、少なくとも所定の品質基準に基づいて前記複数のレビューのサブセットを選択するステップと、前記選択されたサブセットの内容を含む応答を生成するステップと、を含む。

【発明の詳細な説明】
【技術分野】
【０００１】
本出願は、以下の出願に関連し、またこれらの出願のそれぞれは、参照によって本明細書に援用される。
【０００２】
２００５年９月３０日出願の米国特許出願第１１／２４１，６９８号「表示用の代表的レビューの選択（ＳｅｌｅｃｔｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｖｅＲｅｖｉｅｗｓｆｏｒＤｉｓｐｌａｙ）」。
【０００３】
２００５年９月３０日出願の米国特許出願第１１／２４１，７０２号「レビュー抜粋で表示するための、識別されたレビュー内における高品質テキストの選択（ＳｅｌｅｃｔｉｎｇＨｉｇｈＱｕａｌｉｔｙＴｅｘｔＷｉｔｈｉｎＩｄｅｎｔｉｆｉｅｄＲｅｖｉｅｗｓｆｏｒＤｉｓｐｌａｙｉｎＲｅｖｉｅｗＳｎｉｐｐｅｔｓ）」。
【０００４】
２００５年９月３０日出願の米国特許出願第１１／２４１，６９４号「類似レビューのクラスタの識別および多数のクラスタからの代表的レビューの表示（ＩｄｅｎｔｉｆｙｉｎｇＣｌｕｓｔｅｒｓｏｆＳｉｍｉｌａｒＲｅｖｉｅｗｓａｎｄＤｉｓｐｌａｙｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｖｅＲｅｖｉｅｗｓｆｒｏｍＭｕｌｔｉｐｌｅＣｌｕｓｔｅｒｓ）」。
【０００５】
２００５年９月３０日出願の米国特許出願第１１／２４１，６９３号「評判管理のためのシステムおよび方法（ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＲｅｐｕｔａｔｉｏｎＭａｎａｇｅｍｅｎｔ）」。
【０００６】
開示される実施形態は、一般に、検索エンジンに関する。特に、開示される実施形態は、プレゼンテーションのためにレビューおよびレビューの内容を選択するための方法およびシステムに関する。
【背景技術】
【０００７】
多くのインターネットユーザは、製品またはサービスを入手する前に、それらを調査する。多くのインターネットユーザはまた、製品またはサービスの提供者を調査してから、その提供者と取引する。現在、多くのユーザが従うアプローチは、製品、サービスおよび／またはそれらの提供者のレーティングおよびレビューを提供するウェブサイトを利用することである。たとえば、ｗｗｗ．ｐｒｉｃｅｇｒａｂｂｅｒ．ｃｏｍ、ｗｗｗ．ｂｉｚｒａｔｅ．ｃｏｍ、およびｗｗｗ．ｒｅｓｅｌｌｅｒｒａｔｉｎｇｓ．ｃｏｍなどのウェブサイトが、製品ならびにその提供者のレーティングおよびレビューを提供する。
【０００８】
製品、サービスまたは提供者に対するレビューおよびレーティングの全体的視野を得るために、ユーザは、レビューおよびレーティングを提供する多くのウェブサイトにアクセスして、それらのウェブサイトによって提供される多くのレーティングおよびレビューを読んでもよい。しかしながら、このプロセスは、かなり時間を浪費し、厄介である。ユーザは、様々なウェブサイトのレビューおよびレーティングを厳選することに時間を費やすのを避けるために、レーティングおよびレビューの簡単な要約で満足することがある。
【発明の概要】
【発明が解決しようとする課題】
【０００９】
したがって、ユーザが、（たとえば、購入、リース、レンタルまたは他の類似の取引によって）入手することに関心がある製品およびサービスに関して、ならびに取引することに関心がある製品およびサービスの提供者に関して、調査をより効率的に実施できるようにすることは、非常に望ましいであろう。
【課題を解決するための手段】
【００１０】
本発明のいくつかの実施形態において、レビューの処理方法には、複数のレビューを識別するステップ、少なくとも所定の品質基準に基づいて複数のレビューのサブセットを選択するステップ、および選択されたサブセットの内容を含む応答を生成するステップが含まれる。類似の参照数字は、図面全体を通して対応する部分を指す。
【図面の簡単な説明】
【００１１】
【図１】本発明のいくつかの実施形態に基づくネットワークを示す。
【図２】本発明のいくつかの実施形態に基づく、レビュー要約の要求を受信し、それに応答するプロセスの流れ図である。
【図３】本発明のいくつかの実施形態に基づく、代表的なレビューを選択するためのプロセスの流れ図である。
【図４】本発明のいくつかの実施形態に基づく、高品質レビューを選択するためのプロセスの流れ図である。
【図５】本発明のいくつかの実施形態に基づく、レビューをクラスタリングし、クラスタからレビューを選択するためのプロセスの流れ図である。
【図６】本発明のいくつかの実施形態に基づく、レビュー内の高品質な内容から抜粋を生成するためのプロセスの流れ図である。
【図７】本発明のいくつかの実施形態に基づく、レビューを処理するためのシステムを示す。
【発明を実施するための形態】
【００１２】
（製品、サービスまたはこれらの提供者などの）対象に関して調査を行なうユーザは、いくつかのウェブサイトにわたって多数のレビューおよびレーティングを読むことに時間を費やすことを望まず、その対象のレビューおよびレーティングの要約で満足することがある。要約は、対象に対するレビューのサンプルを含んでもよい。しかしながら、単にサンプルに含むためにランダムにレビューを選択することは、ユーザにはあまり役に立たない。開示される実施形態は、レビューサンプルに含むためのレビューを、所定の非ランダム基準に基づいて選択し、またレビュー抜粋で用いるテキストをレビューから選択する。
【００１３】
図１は、本発明のいくつかの実施形態によるネットワークを示す。ネットワーク１００には、１つ以上のクライアント１０２、１つ以上のドキュメントホスト１０４、およびレビューエンジン１０６が含まれる。ネットワーク１００にはまた、これらの構成要素を結合するネットワーク１０８が含まれる。
【００１４】
ドキュメントホスト１０４は、ドキュメントを格納し、ドキュメントへのアクセスを提供する。ドキュメントは、テキスト、グラフィックス、マルチメディアコンテンツ等の任意の組み合わせを含む任意の機械可読データであってもよい。いくつかの実施形態において、ドキュメントは、テキスト、グラフィックス、およびハイパーテキストマークアップ言語（ＨＴＭＬ）で書かれた他の可能な情報形態すなわちウェブページの組み合わせであってもよい。ドキュメントには、他のドキュメントへの１つ以上のハイパーリンクを含んでもよい。ドキュメントホスト１０２に格納されたドキュメントは、ユニフォームリソースロケータ（ＵＲＬ）もしくはウェブアドレス、または識別および／もしくは位置特定のための任意の他の適切な形態によって、位置特定および／または識別してもよい。ドキュメントホスト１０４はまた、ユーザによってこれらのホストに投稿されたレビューを格納し、ウェブページなどのドキュメントを介してレビューへのアクセスを提供する。
【００１５】
クライアント１０２には、ユーザがウェブページなどのドキュメントにアクセスできるようにするクライアントアプリケーションが含まれる。いくつかの実施形態において、クライアントアプリケーションには、ウェブブラウザが含まれる。ウェブブラウザの例には、ファイヤフォックス、インターネットエクスプローラおよびオペラが含まれる。いくつかの実施形態において、ユーザはまた、クライアント１０２を介して、ドキュメントホスト１０４またはレビューエンジン１０６にレビューを投稿することができる。
【００１６】
レビューには、対象または対象のクラスに関する内容（たとえばコメント、評価、意見等）が含まれる。いくつかの実施形態において、内容はテキストである。他の実施形態において、内容にはまた、オーディオ、ビデオ、またはテキスト、オーディオおよびビデオの任意の組み合わせを含んでもよい。
【００１７】
レビューの対象は、特定のエンティティまたは物体であって、それらに対してレビューの内容がコメント、評価、意見等を提供する。いくつかの実施形態において、レビューの対象は、対象のタイプによって分類してもよい。対象タイプの例には、製品、サービス、製品の提供者、サービスの提供者などが含まれる。レビューは、対象のクラスに向けられてもよい。対象のクラスには、共通の特性、特徴または機能を共有する複数の特定のエンティティまたは物体が含まれる。たとえば、特定の製品ラインは、レビューの対象となる可能性がある対象のクラスになり得る。別の例として、特定のブランドを有する全ての製品は、レビューの対象となる可能性がある対象のクラスになり得る。
【００１８】
レーティングは、レビューに関連付けされてもよく、またレビューと共に格納してもよい。レーティング（または「レーティングスコア」）は、レビューの対象（または対象のクラス）のスコアを所定の尺度に基づいて表現する。レーティングのフォーマットは、数値または数値にマップすることができる任意の非数値フォーマットであってもよい。たとえば、非数値の同意または不同意のレーティングは、それぞれ、２進値の１または０にマップされてもよい。レーティング形態の例には、記号または記述的フォーマット（肯定的／否定的、同意／不同意など）および数値フォーマット（１〜３、１〜５、１〜１０、１〜１００など）が含まれる。いくつかの実施形態において、レーティングに加えて、レビューはまた、対象の特定の側面のためのサブレーティングと関連付けされてもよい。サブレーティングは、対象の特定の側面のためのスコアであってもよい。
【００１９】
レビューエンジン１０６には、レビューサーバ１１０、レビューリポジトリ１１２、レビューコレクタ１１４、およびドキュメントリポジトリ１１６が含まれる。レビューサーバ１１０は、クライアント１０２へ伝送するためのレビューおよび／またはレビュー抜粋を含む応答を生成する。レビューサーバ１１０はまた、レビューエンジン１０６にレビューおよびレーティングを投稿するためのインタフェースを、クライアント１０２のユーザに提供する。
【００２０】
レビューコレクタ１１４は、ドキュメントからレビューを収集する。レビューコレクタ１１４は、ドキュメントを解析し、ドキュメントからレビュー、レーティングおよび他の関連情報（レビュー作成者、レビューの日付、レビューの対象等）を抽出する。抽出されたレビューは、格納のためにレビューリポジトリ１１２へ伝送される。レビューコレクタ１１４がレビューを抽出する元となるドキュメントは、ドキュメントホスト１０４および／またはドキュメントリポジトリ１１６に格納してもよい。
【００２１】
ドキュメントリポジトリ１１６は、ドキュメントホスト１０４に格納されたドキュメントの少なくともサブセットのコピーの記憶装置（a store）である。ドキュメントリポジトリ１１６に格納されるドキュメントは、ドキュメントホスト１０４から収集して、レビューエンジン１０６によってリポジトリ１１６に格納してもよい。いくつかの実施形態において、ドキュメントリポジトリ１１６は、レビューエンジン１０６がアクセス可能な検索エンジン（図示せず）に位置してもよく、検索エンジンは、ドキュメントホスト１０４からドキュメントを収集し、それらをドキュメントリポジトリ１１６に格納する働きをする。
【００２２】
レビューエンジン１０６に格納されるレビューは、クライアント１０２のユーザによって書かれ、ドキュメントホスト１０４またはレビューエンジン１０６に投稿される。ドキュメントホスト１０４に投稿されたレビューは、ドキュメントホスト１０４に格納されたドキュメントまたはドキュメントリポジトリ１１６に格納されたドキュメントのコピーから抽出してもよい。レビューはまた、ユーザがレビューエンジン１０６に投稿してもよい。ドキュメントから抽出されたレビュー、およびレビューエンジン１０６に投稿されたレビューの両方は、格納のためにレビューリポジトリ１１２へ伝送される。
【００２３】
ドキュメントホスト１０４またはレビューエンジン１０６は、ユーザがそれらにレビューを投稿する機能を提供してもよい。たとえば、ドキュメントホスト１０４またはレビューエンジン１０６は、ユーザがレビューおよびレーティングで埋めて、次に投稿できるオンラインフォームを提供してもよい。レビューは、投稿および保存の後で、ウェブページなどのドキュメントを通して他のユーザがアクセスしてもよい。
【００２４】
レビューのソースは、レビューを投稿されたエンティティである。ソースは、レビューを投稿されたドキュメントホスト１０４の位置および／または識別子によって識別してもよい。いくつかの実施形態において、レビューのソースは、レビューを投稿されたドキュメントホスト１０４のドメインによって識別してもよい。たとえば、レビューが、「ｗｗｗ．ｘｙｚ．ｃｏｍ」というドメイン下のドキュメントホストに投稿された場合には、抽出されたレビューのソースは「ｘｙｚ．ｃｏｍ」であってもよい。ユーザによってレビューエンジン１０６に投稿されたレビューの場合には、レビューエンジン１０６をソースと見なしてもよい。
【００２５】
レビューリポジトリ１１２は、レビューおよび関連するレーティングを格納する。レビューリポジトリ１１２はまた、各レビューの対象または対象のクラス、および対象タイプ（すなわち、対象または対象のクラスが、製品、製品提供者等かどうか）を格納する。レビューリポジトリ１１２はまた、各レビューのソース、作成者および日付を格納してもよい。いくつかの実施形態において、レビューおよびレーティングを、レビューリポジトリ１１２において、レビューおよびレーティング自体の１つ以上の評価と関連付けてもよい。レビューおよびレーティングの評価は、レビューならびにレーティングの有用性および／または信頼性を評価してもよい。たとえば、レビューおよびレーティングの評価には、有用／有用でないというレーティングを含んでもよい。別の例として、レビューおよびレーティングは、その作成者の評判の程度に基づいたメトリック値に関連付けてもよい。評判をベースにしたメトリック値の例が、２００５年９月３０日出願の米国特許出願１１／２４１，６９３号明細書「評判管理のためのシステムおよび方法（ＳｙｓｔｅｍｓａｎｄＭｅｔｈｏｄｓｆｏｒＲｅｐｕｔａｔｉｏｎＭａｎａｇｅｍｅｎｔ）」に開示され、この出願の開示が、参照により本明細書に援用される。
【００２６】
レビューエンジン１０６の構成要素のそのそれぞれが多数のコンピュータに分散されてもよいことを理解されたい。たとえば、レビューリポジトリ１１２は、どのレビューがＭ台のサーバのそれぞれに格納されるかを決定するために用いられる「モジュロＭ」関数などのマッピング関数を備えた、Ｍ台のサーバに配置してもよい。同様に、レビューサーバ１１０は、多数のサーバに分配されてもよく、レビューコレクタ１１４およびドキュメントリポジトリ１１６は、それぞれ、多数のコンピュータに分配されてもよい。しかしながら、説明の便宜上、レビューエンジン１０６の構成要素が、単一のコンピュータに実現されているかのように、これらの構成要素について説明する。
【００２７】
図２は、本発明のいくつかの実施形態による、レビュー要約の要求を受信し、要求に応答するプロセスの流れ図である。上記のように、レビューエンジン１０６は、ユーザによってレビューエンジン１０６に投稿されたレビューと同様に、ドキュメントホスト１０４に投稿されたレビューを収集および格納する。ユーザは、クライアント１０２を通して、製品、サービスまたは提供者といった対象のレビュー情報をレビューエンジンに要求してもよい。たとえば、ユーザは、クライアント１０２に表示されたウェブページにおいて、レビューエンジン１０６への要求の伝送をトリガするリンクをクリックしてもよい。かかる要求を扱う例示的なプロセスを、下記で説明する。
【００２８】
クライアント１０２を介して、ユーザは、対象または対象のクラスのレビュー要約をレビューエンジン１０６に要求してもよい。レビューエンジン１０６は、対象のレビュー要約に対する要求をクライアント１０２から受信する（２０２）。レビューリポジトリ１１２に格納された、対象のレビューが、識別される（２０４）。識別されたレビューのサブセットが、選択される（２０６）。選択されたサブセットの内容を含む応答が生成される（２０８）。応答は、クライアント１０２に伝送される（２１０）。クライアント１０２は、応答を受信すると、ユーザに提示するために、ウェブブラウザなどのクライアントアプリケーションで応答を表示する。
【００２９】
生成された応答は、ユーザへの提供および表示のためにクライアント１０２に伝送されるドキュメントである。応答ドキュメントには、対象のレビュー要約を含んでもよい。レビュー要約には、対象の全体的レーティングなどの情報を含んでもよいが、そのさらなる詳細は、図３に関連して下記で説明する。レビュー要約にはまた、利用可能な場合には、レビューソースによって与えられた対象の集合レーティングを含んでもよい。レビューソースによって対象に与えられる集合レーティングは、そのソースに投稿された対象のレビューに関連付けられたレーティングに基づいて、レビューソースによって決定されたレーティングである。集合レーティングがどのように決定されるかは、レビューソースごとに変化してもよいが、しかしそれは、ここでは重要でない。様々な理由で、全てのレビューソースが、対象の集合レーティングを有することができるわけではない。たとえば、いくつかのレビューソースは、集合レーティングを全く有さないように決定している可能性があり、一方で他のレビューソースは、集合レーティングを決定して提供する前に、対象のレーティング数が所定の最小数に達することを要求する場合がある。集合レーティングをレビュー要約に含むのは、任意である。
【００３０】
レビュー要約にはまた、レビューサンプルが含まれる。いくつかの実施形態において、レビューサンプルには、前記選択されたレビューのうちの少なくともいくつかの完全な内容を含んでもよい。テキストベースのレビューにとって、レビューの完全な内容は、レビューの全テキストである。ビデオベースのレビューにとって、レビューの完全な内容は、レビューの完全なビデオクリップである。他のいくつかの実施形態において、レビューサンプルには、前記選択されたレビューのうちの少なくともいくつかにおける抜粋を含んでもよいが、そのさらなる詳細は、図６に関連して下記で説明する。しかしながら、いくつかの実施形態において、レビューサンプルには、いくつかの選択されたレビューの完全な内容、および他の選択されたレビューの抜粋の両方を含んでもよいことを理解されたい。レビューサンプルにはまた、完全な内容または抜粋がレビューサンプルに含まれているレビューソースへの１つ以上のリンクを含んでもよい。
【００３１】
図３は本発明のいくつかの実施形態による、代表的なレビューを選択するためのプロセスの流れ図である。対象のレビュー要約に対する要求をユーザから受信すると、レビューエンジン１０６は、対象のレビューサンプルに含めるための多くのレビューを選択して、サンプルにおけるレビューが対象の全体的レーティングの代表であるようにすることができる。
【００３２】
特定の対象のレビューおよび該レビューのソースが識別される（３０２）。レビューは、特定の対象に関連する全てのレビューに対してレビューリポジトリ１１２を探索することによって、レビューリポジトリ１１２から識別してもよい。前記識別されたレビューが、特定の対象のためのレビューのコーパス（corpus）を形成する。利用可能な場合には、対象の集合レーティングが、各識別されたソースから識別される（３０４）。各識別されたレビューソースについて、それぞれのソースにある、コーパスのレビュー数が識別される（３０６）。これは、単に、コーパスにおけるどれくらいの数のレビューが各ソースに含まれるかの計算である。
【００３３】
全体的レーティングスコアが、対象に対して決定される（３０８）。全体的レーティングスコアは、レビューソースによって与えられた対象の集合レーティングの数学的な組み合わせであってもよい。いくつかの実施形態において、全体的レーティングスコアは、集合レーティングの加重平均である。重み付けは、各ソースに含まれる、コーパスにおけるレビューの数に基づいている。したがって、より多くのレビューがコーパスにあるソースからの集合レーティングは、加重平均では有利になる。全体的レーティングを計算する例示的な式は、
【数１】

であり、式中、ＯＲは全体的レーティングであり、Ｓは、コーパスにおける少なくとも１つのレビュー（すなわち、対象の少なくとも１つのレビュー）および対象の集合レーティングを有するレビューソース数であり、ｒｉは、ソースｉからの集合レーティングであり、ｎｉは、ソースｉにある、コーパスのレビュー数である。レビューソースが、それぞれ、その集合レーティングのために異なる尺度および／または形式を用いる場合には、集合レーティングは、最初に、全体的レーティングのために用いられる尺度／形式と同じ尺度および形式に変換および／または正規化される。いくつかの実施形態において、全体的レーティングは、１〜５の数値レーティング尺度に基づいており、したがって、集合レーティングは、この尺度に変換および／または正規化される。しかしながら、全体的レーティングのために代替レーティング尺度を用いてもよいことを理解されたい。いくつかの実施形態において、上記の式に示すように、集合レーティングは、各レビューソースにある、コーパスのレビュー数の対数によって重み付けされる。対数は、底２、底１０または底ｅなどの任意の適切な底であってもよい。他のいくつかの実施形態において、次の式に示すように、集合レーティングは、各レビューソースにある、コーパスのレビュー数によって重み付けしてもよい。
【数２】

【００３４】
全体的レーティングを決定する際に、全体的レーティングが収まるレーティング範囲が識別される（３１０）。レーティング尺度は、２つ以上のレーティング範囲に分割してもよい。たとえば、１〜５の尺度は、３つの範囲に分割してもよい。３．６６以上５以下のレーティングは、対象に関する経験が全体として肯定的だったことを示してもよい。１以上２．３３以下のレーティングは、対象に関する経験が全体として否定的だったことを示してもよい。２．３４以上３．６５以下のレーティングは、対象に関する経験が全体的にいろいろ混在していたことを示してもよい。別の例として、同じ１〜５の尺度は、４つの範囲に分割してもよい。４．１以上５以下のレーティングは、非常によいレーティングを示してもよい。３．１以上４以下のレーティングは、よいレーティングを意味してもよい。２．１以上３以下のレーティングは、中程度のレーティングを意味してもよい。１以上２以下のレーティングは、悪いレーティングを意味してもよい。上記のレーティング範囲の例はあくまで例示であり、レーティング尺度を分割する代替方法を用いてもよいことを理解されたい。しかしながら、説明の便宜上、レーティング尺度が、３つの範囲すなわち高／肯定的範囲、低／否定的範囲および中間／混在範囲に分割されるかのように、図３に示すプロセスを説明する。
【００３５】
全体的レーティングが低範囲（３１０−低）に入る場合には、低範囲のレーティングに関連する、コーパスのレビューが選択される（３１２）。レビューは、ソースごとに選択するか、または全体としてのコーパスから選択してもよい。レビューがソースごとに選択される場合には、低範囲におけるレーティングに関連する、第１の所定の数のレビューまで、各ソースから選択してもよい。レビューが全体としてのコーパスから選択される場合には、第２の所定の数のレビューまで、レビューソースに関係なく、コーパスから選択してもよい。
【００３６】
全体的レーティングが中間範囲（３１０−中間）に入る場合には、高範囲のレーティングに関連する、コーパスのレビュー、および低範囲のレーティングに関連する、コーパスのレビューが、選択される（３１４）。換言すれば、選択されたレビューの中には、高範囲のレーティングに関連するレビューおよび低範囲のレーティングに関連するレビューがある。代替実施形態では、中間範囲のレーティングに関連する、コーパスのレビューが、選択される。上記のように、レビューは、ソースごとか、または全体としてのコーパスから選択してもよい。
【００３７】
全体的レーティングが高範囲（３１０−高）に入る場合には、高範囲のレーティングに関連する、コーパスのレビューが、選択される（３１６）。上記のように、レビューは、ソースごとか、または全体としてのレビューセットから選択してもよい。
【００３８】
いくつかの実施形態では、追加選択基準を含んでもよい。たとえば、追加基準は、選択されるレビューが、冒涜または性的に露骨な内容などの不快な内容を有さないということであってもよい。別の例として、追加基準は、選択されるレビューが、所定の閾値を超える、評判に基づいたメトリック値を有さなければならないということであってもよい。より一般的には、全体的レーティングが収まるレーティング範囲のレーティングに関連するレビューであって、かつゼロ以上の他の所定の基準を満たすレビューを選択してもよい。
【００３９】
前記選択されたレビューの内容を含む応答が生成される（３１８）。前記生成された応答は、ユーザへの提供および表示のためにクライアント１０２に伝送されるドキュメントである。応答ドキュメントには、対象のレビュー要約が含まれる。レビュー要約には、対象の全体的レーティング、および任意に、レビューソースによって与えられた対象の集合レーティングなどの情報を含んでもよい。レビュー要約にはまた、レビューサンプルが含まれるが、このサンプルには、上記のように、前記選択されたレビューのうちの少なくともいくつか、またはそれらの抜粋が含まれる。
【００４０】
図４は、本発明のいくつかの実施形態による、高品質レビューを選択するためのプロセスの流れ図である。対象のレビュー要約の要求をユーザから受信すると、レビューエンジン１０６は、レビューが高品質な内容を含むように、対象のレビューサンプルに含めるための多くのレビューを選択することができる。
【００４１】
特定の対象のレビューおよび該レビューのソースが、識別される（４０２）。レビューは、特定の対象に関連する全てのレビューに対してレビューリポジトリ１１２を探索することによって、レビューリポジトリ１１２から識別してもよい。前記識別されたレビューは、対象のためのレビューのコーパスを形成する。いくつかの実施形態において、最初に識別されたレビューは、４０２かまたはプロセスのより後の段階でフィルタリングされ、不快な内容を含むあらゆるレビューを除去するようにする。
【００４２】
各識別されたレビューのために、品質スコアが決定される（４０４）。品質スコアは、レビューの内容の品質の尺度である。品質スコアによって、レビューの品質に関して、レビューを互いに比較する基礎が提供される。品質スコアは、１つ以上の所定の要因に基づいてもよい。いくつかの実施形態において、所定の要因には、レビューの長さ、レビューにおける文の長さ、レビューの単語に関連する値、およびレビューの文法的品質（grammatical quality）が含まれる。各要因に基づき、レビューに対してサブスコアを決定してもよく、またサブスコアは、レビューの品質スコアを決定するために組み合わされてもよい。しかしながら、追加および／または代替要因を含んでもよいことを理解されたい。
【００４３】
レビューの文法的品質に関して、適切な文法および大文字使用（たとえば、実際には、全てを大文字としたものでない文、レビューを用いる）を有するレビューが有利である。したがって、「適切な」文法および大文字使用を伴ったレビューは、この要因に対して、より高いサブスコアを得る。貧弱な文法および不適切な大文字使用を伴ったレビューは、あまり読み易くない傾向がある。さらに、全てが大文字のレビューは、無作法であると見なされることが多い。いくつかの実施形態において、レビューにおける文の検出は、レビューにおけるピリオドなどの文の区切り文字の検出に基づいてもよい。いくつかの実施形態において、レビューは、主語−動詞の一致、無終止文または不完全な部分がない（absence of run-on sentences or fragments）など、文法的品質の追加的な特徴にしたがって評価してもよい。いくつかの実施形態において、レビューの文法および大文字使用の評価は、文法チェッカの助けを借りて実行してもよいが、文法チェッカは、当該技術分野において周知であり、さらに説明する必要はない。
【００４４】
レビューの長さに関して、長すぎず、短すぎないレビューが、有利である。短いレビュー（たとえば数語）は、情報価値がない傾向があり、長いレビュー（たとえば多くの段落）は、より短いレビューほど読み易くない傾向がある。いくつかの実施形態において、レビュー長さは、単語数に基づいてもよい。他のいくつかの実施形態において、レビュー長さは、文字数または文の数に基づいてもよい。レビュー長さのサブスコアは、そのレビュー長さと所定の「最適な」レビュー長さとの間の差に基づいてもよい。
【００４５】
いくつかの実施形態において、レビューにおける文の長さもまた、考慮してよい。レビューエンジンは、極端に長いかまたは短い文よりも「適度な」長さの文を好んでもよい。いくつかの実施形態において、レビューの文の長さサブスコアは、そのレビューにおける文の長さと所定の「最適な」文の長さとの間における差の平均に基づいてもよい。
【００４６】
レビューにおける単語に関連する値に関して、高い値の単語を備えたレビューは、低い値の単語を備えたレビューより有利である。いくつかの実施形態において、単語値（the word values）は、単語に関連する逆文献頻度（the inverse document frequency）（ＩＤＦ）値に基づいている。高いＩＤＦ値を備えた単語は、一般に、より「価値がある」と見なされる。単語のＩＤＦは、テキストの１セットのテキスト数に基づいており、その単語の少なくとも１回の出現を含むテキストのセットのテキスト数で割られたものである。レビューエンジン１０６は、レビューリポジトリ１１２のレビュー全体にわたってＩＤＦ値を決定し、それらの値を１つ以上の表に格納してもよい。いくつかの実施形態において、ＩＤＦ値の表が、各タイプのレビューのために生成される。たとえば、ＩＤＦ値の表が、全ての製品レビューのために生成される。表が、全ての製品提供者レビューのために生成される、等である。すなわち、製品レビューのためにＩＤＦ値の表を決定するために用いられるテキストのセットは、レビューリポジトリ１１２における全ての製品レビューである。製品提供者レビューのためにＩＤＦ値の表を決定するために用いられるテキストセットは、レビューリポジトリ１１２における全ての製品提供者レビューである、等である。各対象タイプは、それ自身のＩＤＦ値の表を有する。なぜなら、ある対象タイプのレビューでは価値がある単語が、別の対象タイプのレビューでは、同じほどには価値がない可能性があるからである。
【００４７】
任意の識別されたレビューに関して、レビューにおける各個別の単語の頻度が、決定され、その単語のためのＩＤＦで乗算される。レビューのための単語値サブスコアは、
【数３】

であり、式中、ＷＶＲは、レビューＲのための単語値サブスコアであり、ｆｗ、Ｒは、レビューＲにおける個別の単語ｗの出現回数（用語頻度または「ＴＦ」）であり、ｌｏｇＩＤＦｗは、単語ｗのＩＤＦ値の対数である。単語ｗのＩＤＦ値は、レビューの対象タイプに適したＩＤＦ値の表から取られる。たとえば、レビューＲの対象が製品である場合には、ＩＤＦｗ値は、製品レビューのためのＩＤＦ値の表から取られる。
【００４８】
他のいくつかの実施形態において、単語値は、レビュー文脈において価値があると考えられる単語の所定の辞書に基づいている。別個の辞書を異なる対象タイプのために定義してもよい。なぜなら、異なる単語が、異なる対象タイプに関連するレビューで用いる価値があり得るからである。たとえば、対象が製品である場合のレビュー用の価値のある単語の辞書があってもよく、対象が提供者である場合のレビュー用の価値のある単語の別の辞書があってもよい。これらの実施形態において、単語値サブスコアは、所定の辞書中の単語のうちいくつが、それぞれのレビューに含まれているかの計算に基づいてもよい。
【００４９】
レビューエンジン１０６は、各識別されたレビューを各所定の要因に基づいて評価し、その評価に基づいて各要因のサブスコアを決定する。要因のそれぞれに対するサブスコアは、下記の例示的な式を用いて、品質スコアに組み合わせてもよい。
【数４】

式中、Ｑは、レビューのための品質スコアであり、Ｆは、品質スコアに関与する要因の数であり、ｑｊは、要因ｊのためのサブスコアであり、重さｊは、要因ｊのための重み付けである。いくつかの実施形態において、重み付けは、全て１に等しいが、この場合には、品質スコアＱは、要因のためのスコアの合計である。他のいくつかの実施形態において、重み付けは、各要因に対して別々に定義してもよい。一般に、重み付けは、品質スコアに対する各要因の重要性、および要因がレビューの品質に肯定的または否定的に寄与するかどうかに基づいて定義してもよい。
【００５０】
いくつかの実施形態において、レビューの古さ（ａｇｅ）を、レビューの品質スコアの要因と見なしてもよい。一般に、より新しいレビューが有利である。なぜなら、それらは、より遠く離れた過去の経験より重要な、レビュー対象に対する最近の経験をより反映しているからである。品質スコアを増加させるボーナス点を、レビューの古さに基づいたレビューの品質スコアに適用してもよい。たとえば、１日の古さのレビューは、（加算または乗算のいずれかによって）その品質スコアを増加してもよく、一方で１年の古さのレビューは、ボーナスを得ない。
【００５１】
品質スコアに基づいて、レビューが選択される（４０６）。最高の品質スコアを備えたレビューが選択される。レビューは、ソースごとにかまたは全体としてのコーパスから選択してもよい。レビューがソースごとに選択される場合には、各ソースに対して多くの最高得点レビューが選択される。たとえば、ソースごとに１０の最高得点レビューを選択してもよい。いくつかの実施形態において、選択は、品質スコアによってレビューをソートすることによって実行され、レビューは、所望のレビュー数が選択されるまで、最高得点レビューから取られる。
【００５２】
いくつかの実施形態において、所定の内容基準はまた、レビューを選択するための追加基準であってもよい。所定の基準を満たす内容に関して、基準は、冒涜および性的に露骨な内容など、ユーザを怒らせる可能性があるレビュー内容を備えたレビューの優先度を下げる（ｄｉｓｆａｖｏｒ）ように定義してもよい。かかる単語および句は、対象の理解にはほとんどまたは全く寄与せず、レビューを読んでいるユーザを不快にする可能性がある。所定の基準を満たす内容に関するレビューの評価は、無礼または不快な内容に共通に関連する内容の辞書を定義し、かつレビューにおける内容を辞書と照合することによって実行してもよい。冒涜または性的に露骨な言葉などの不快な内容を有するレビューは、選択のための考慮から除外される。所定の内容基準を満たす内容に関するレビュー内容の評価は、スコア決定中（４０４）か、またはレビュー選択時（４０６）に行ってもよい。評価がいつ実行されるかは、設計上の選択の問題である。
【００５３】
いくつかの実施形態において、レーティングスコア基準は、レビュー選択のための追加基準であってもよい。たとえば、上記したような、代表的なレビューを選択するプロセスを目下のプロセスと組み合わせて、対象の全体的レーティングを代表する高品質レビューを選択するようにしてもよい。したがって、全体的レーティングが収まるレーティング範囲のレーティングに関連するレビューであって、高品質スコアを有するレビューが、選択可能である。
【００５４】
上記の追加基準があくまで例示であること、ならびに上記の基準および他の基準の任意の組み合わせを、レビュー選択のために追加的に考慮してもよいことを理解されたい。より一般的には、レビューエンジンは、ゼロ以上の他の所定の基準を満たす（品質スコアの観点における）最高得点レビューを選択してもよい。
【００５５】
前記選択されたレビューを含む応答が生成される（４０８）。前記生成された応答は、ユーザへ提供および表示するためにクライアント１０２に伝送されるドキュメントである。応答ドキュメントには、対象のレビュー要約が含まれる。レビュー要約には、対象の全体的レーティング、および任意に、レビューソースによって与えられた対象の集合レーティングなどの情報を含んでもよい。レビュー要約にはまたレビューサンプルが含まれるが、このサンプルには、図２に関連して上記したように、前記選択されたレビューの内容が含まれる。
【００５６】
図５は、本発明のいくつかの実施形態による、レビューをクラスタリングするための、およびクラスタからレビューを選択するための、プロセスの流れ図である。特定の対象のレビューが識別される（５０２）。レビューは、特定の対象に関連する全てのレビューに対してレビューリポジトリ１１２を検索することによって、レビューリポジトリ１１２から識別してもよい。前記識別されたレビューは、対象のレビューコーパスを形成する。
【００５７】
レビューの単語値ベクトルが生成される（５０４）。単語値ベクトルには用語頻度−レビューにおける単語のための逆文献頻度値が含まれる。用語頻度−逆文献頻度（「ＴＦ−ＩＤＦ」または「ＴＦＩＤＦ」としてもまた知られている）は、ドキュメントにおける、またはこれらの実施形態の場合にはレビューにおける、単語の重要性を評価するための技術である。レビューに関連する単語の値は、その単語がレビューに現われる回数と共に増加するが、しかしそれは、その単語を含むレビューのコーパスにおけるレビュー数によって相殺される。識別されたレビューのコーパスの任意のレビューのために、単語値のベクトルを生成してもよい。たとえば、レビューＲは、重み付けベクトル、
Ｒ＝［ｖ１ｖ２ｖ３・・・ｖｎ］
を有してもよく、式中、ｖ１〜ｖｎは、レビューのコーパスにおける別個の単語全ての、レビューＴに関連する単語値である。いくつかの実施形態において、単語およびその関連する変化形が、一緒にカウントされる。たとえば、ある動詞の動詞時制は、単にスペルが異なっているだけの可能性があるので、別個の単語としてではなく、同じ動詞の出現としてカウントしてもよい。
【００５８】
レビューＲに関連する単語ｗの値は、例示的な式、
ｖｗ、Ｒ＝ｆｗ、ＲｌｏｇＩＤＦｗ
によって決定してもよく、式中、ｖｗ、Ｒは、レビューＲに関連する単語ｗの値であり、ｆｗ、Ｒは、レビューＲ内における単語ｗの出現回数（用語頻度）であり、ｌｏｇＩＤＦｗは、上記のように、単語ｗのためのＩＤＦ値の対数である。レビューＲが単語ｗを有さない（ｆｗ、Ｒ＝０）場合には、単語値ｖｗ、Ｒは０である。単語値ｖｗ、Ｒは、決して負になり得ない。なぜなら、ｆｗ、Ｒ≧０（出現回数は決して負ではない）およびｌｏｇＩＤＦｗ≧０であるからである。
【００５９】
コーパスにおける各レビューのための単語値ベクトルが生成されると、コーパスにおけるレビューは、単語値ベクトルに基づいてクラスタに組織される（５０６）。単語値ベクトルは、ベクトル空間に埋め込まれるが、そこでは、各単語値ベクトルは、そのベクトル空間における「ポイント」である。「ポイント」は、クラスタリングアルゴリズムを用いて、１つ以上のクラスタにグループ化してもよい。１つの例示的なクラスタリングアルゴリズムは、Ｋ平均クラスタリングアルゴリズムである。Ｋ平均クラスタリングアルゴリズムは、当該技術分野において周知である。しかしながら、開示される実施形態の理解を容易にするために、Ｋ平均アルゴリズムを下記で説明する。
【００６０】
次の擬似コードが、Ｋ平均アルゴリズムの基礎的なステップを示す。
ｋ個のクラスタに関するｋ個の重心をランダムに生成する。
各ベクトルをｋ個のクラスタのうちの１つに割り当てる。
終了条件が満たされるまで以下を繰り返す：クラスタ重心を決定し直す。各ベクトルを１つのクラスタに割り当てる。
【００６１】
Ｋ平均アルゴリズムにおいて、任意の数ｋが事前に定義される。いくつかの実施形態において、ｋは、２〜１６の値であり、一方で他のいくつかの実施形態では、ｋは、２〜５０の値である。単語値ベクトルのベクトル空間におけるＫランダムベクトルが、生成される。ｋ個のランダムベクトルは、ベクトル空間のための初期重心である。各初期重心は、クラスタの「中心」を表わす。換言すれば、ｋ個の初期クラスタおよびそれらの中心が、任意に定義される。各単語値ベクトルは、それぞれの単語値ベクトルと各重心との間の類似度（距離）に基づいて、ｋクラスタのうちの１つに割り当てられる。単語値ベクトルは、それが最も類似した（最短距離の）重心に割り当てられる。
【００６２】
いくつかの実施形態において、単語値ベクトルと重心との間の類似度（距離）は、コサイン類似度（「コサイン距離」としてもまた知られている）である。すなわち、
【数５】

であり、式中、Ｘ・Ｙは、ベクトルＸおよびＹのドット積であり、‖Ｘ‖×‖Ｙ‖は、ベクトルＸの長さ×ベクトルＹの長さであり、ｃｏｓθは、コサイン類似度である。ベクトルＸおよびＹが正確に同じである場合には、コサイン類似度の値は、１である。これらの実施形態においてコサイン類似度の値域は、０以上１以下である（コサイン類似度は、決して負になり得ない。なぜなら、単語値が決して負になり得ないからである）。したがって、１により近いコサイン類似度を備えたレビューは、より類似しており（より短い距離）、一方で０に近いコサイン類似度を備えたレビューは、それほど類似していない（より長い距離）。他のいくつかの実施形態では、距離または類似度を決定する代替方法を用いてもよい。
【００６３】
いくつかの実施形態において、多くの所定の規準レビューを、初期重心として用いてもよい。規準レビューは、対象の特定の側面に関してコメントするレビューの典型として働く所定のレビューのセットである。規準レビューのセットは、レビューのコーパスの対象が何であるかに依存して、異なってもよい。たとえば、対象が製品である規準レビューのセット（使い易さおよび性能などの側面の規準レビューを含んでいる可能性がある）は、対象が製品提供者である規準レビューのセット（顧客サービスおよび発送の適時性などの側面の規準レビューを含んでいる可能性がある）と異なってもよい。
【００６４】
単語値ベクトルがｋ個のクラスタに割り当てられた後、ｋ個のクラスタの重心が新たに決定される。すなわち、重心は、各クラスタのために再決定される。クラスタの重心は、クラスタ（初期重心を含まない。初期重心は、初期クラスタ割り当てだけに関連する）における単語値ベクトルの「平均」を取ることによって決定してもよい。重心Ｃを決定する式は、
【数６】

であり、式中、ＣＳは、クラスタのサイズ（クラスタにおける単語値ベクトルの数）であり、Ｖｉは、クラスタにおける単語値ベクトルの正規化された（単位長さのベクトルに変換された）ベクトルである。
【００６５】
新しい重心が決定されると、単語ベクトル値は、今度は新しい重心に対する類似度に基づいて、クラスタに再割り当てされる。単語値ベクトルは、それが最も類似した重心に割り当てられる。各単語値ベクトルがクラスタに再割り当てされた後で、重心の再決定および単語値ベクトルの再割り当ての繰り返しが、反復される。終了条件が満たされるまで、繰り返しが反復される。いくつかの実施形態において、終了条件は、収束基準が満たされたときである。収束基準は、繰り返しの完了後に、異なるクラスタに再割り当てされる単語値ベクトルがないということであってもよい。他のいくつかの実施形態において、終了条件は、所定数の繰り返しが実行されたということである。
【００６６】
階層クラスタリング、ファジィｃ平均アルゴリズムおよびその他などの、クラスタリングの代替方法を用いてもよいことを理解されたい。
【００６７】
レビューをクラスタにグループ化すると、レビュークラスタのサイズが識別される（５０８）。これは、単に、各クラスタにおける（重心を含まない、単語値ベクトルによって表わされた）レビュー数である。
【００６８】
レビューが、各クラスタから選択される（５１０）。いくつかの実施形態において、レビューは、クラスタサイズに比例して各クラスタから選択される。所定の合計数のレビューが、レビューのコーパスのサンプルとして働くために、レビューコーパスから選択される。サンプルにおけるレビューは、クラスタのサイズに比例してクラスタから選択される。サンプルは、より小さなクラスタより、より大きなクラスタから、より多くのレビューが選択されることになる。いくつかの実施形態において、極端に小さなクラスタ（たとえば、所定のレビュー数未満、またはコーパスにおける合計レビュー数の所定の割合未満）は、レビュー選択から除外してもよい。そのクラスタからのレビューは、サンプルに含めるためには選択されない。クラスタが除外された場合には、サンプルにおけるレビュー数が所定の合計数に達するように、１つ以上のレビューを他のクラスタから選択してもよい。
【００６９】
いくつかの実施形態において、レビューは、追加的な所定の基準に基づいてクラスタから選択してもよい。たとえば、図４に関連して上記したように、レビューは、レビューの品質に基づいてクラスタから選択してもよい。高品質のレビューは、一般に、より情報価値があり、低品質のレビューより読み易い。したがって、たとえば、クラスタから１０のレビューが選択されることになる場合には、追加品質基準を用いて、そのクラスタの１０の最高品質のレビューを選択してもよい。別の例として、図３に関連して上記した選択プロセスのように、レビューは、レビューに関連するレーティングに基づいてクラスタから選択してもよい。より一般的には、クラスタが、クラスタサイズに比例する数のレビューをレビューサンプルに与える限り、そのクラスタからのレビューは、ゼロ以上の所定の基準に基づいて選択してもよい。
【００７０】
前記選択されたレビューを含む応答が生成される（５１２）。前記生成された応答は、ユーザへの提供および表示のためにクライアント１０２に伝送されるドキュメントである。応答ドキュメントには、対象のレビュー要約が含まれる。レビュー要約には、対象の全体的レーティング、および任意にレビューソースによって与えられた対象の集合レーティングなどの情報を含んでもよい。レビュー要約にはまた、レビューサンプルが含まれるが、このサンプルには、図２に関連して上記したように、前記選択されたレビューの内容が含まれる。
【００７１】
レビューをクラスタリングし、かつクラスタからレビューを選択することによって、レビューの話題の中心を代表するレビューサンプルが選択される。クラスタリングは、レビューエンジンが、対象の特定の側面に焦点を当てたレビューを識別するのを支援する。レビューが焦点を当てた側面によってレビューを（クラスタに）分類し、かつレビューサンプルに含めるためにクラスタからレビューを選択することによって、ユーザは、レビューサンプルを示されるとすぐに、対象のどの側面が特に注目に値するか、またはその対象を経験した他のユーザにとって、対象のどの側面が特に重要だったかを、よりよく理解することができる。
【００７２】
図６は、本発明のいくつかの実施形態による、レビュー内の高品質の内容から抜粋を生成するためのプロセスの流れ図である。時間を節約するために、ユーザは、レビューの完全な内容よりレビューにおける部分だけを読むのを好む場合がある。レビューエンジンは、レビュー抜粋としてレビューサンプルに含めるために、レビュー内の特定の内容を選択してもよい。
【００７３】
レビューが識別される（６０２）。前記識別されたレビューは、パーティションに分割される（６０４）。いくつかの実施形態において、パーティションは、レビューの文である。すなわち、レビューの各文が、レビューのパーティションである。レビューの文は、ピリオドなどの文区切り文字に基づいて識別してもよい。レビューが１つの文だけを有する場合など、レビューが１つのパーティションだけを有することもあり得る。説明の便宜上、図５のプロセスは、レビューのパーティションがレビューの文であるかのように、下記で説明される。しかしながら、レビューを分割する代替方法（所定の整数Ｚの単語のパーティションなど）を用いてもよいことを理解されたい。
【００７４】
レビューの各文のために品質スコアが決定される（６０６）。図４に関連して上記したように、レビュー文の品質スコアは、レビューの品質スコアに類似している。文品質スコアによって、文の品質に関して、１レビューにおける文の相対的な順序付けのための基礎が提供される。品質スコアは、１つ以上の要因に基づいてもよい。要因のそれぞれに基づいて、サブスコアを決定してもよい。サブスコアは、上記で図３に関連して説明した式に類似した加重和の式を用いて、文の品質スコアへと組み合わせてもよい。いくつかの実施形態において、所定の要因には、文の長さ、文の単語に関連する値、およびレビュー内の文の位置が含まれる。
【００７５】
レビューの文の長さに関連して、長すぎず短すぎない文（すなわち「適度な長さ」の文）は、有利である。極端に短い文は、あまり情報を含んでいない可能性があり、極端に長い文は、読み難い可能性がある。いくつかの実施形態において、文の長さに基づいたサブスコアは、所定の「最適な」文の長さからの、レビューにおける文の偏差に基づいてもよい。文の長さは、単語数または文字数に基づいてもよい。
【００７６】
文の単語に関連する値に関して、高い値の単語を備えた文は、低い値の単語を備えた文より有利である。いくつかの実施形態において、単語値は、図４に関連して上記したように、レビューをスコアリングする際に用いられる単語値の要因に類似した、単語に関連する逆文献頻度（ＩＤＦ）値に基づいている。１文について、該文における各別個の単語の頻度が決定され、その単語用のＩＤＦにより乗算される。レビューのための単語値サブスコアは、
【数７】

であり、式中、ＷＶｐは、文Ｐのための単語値サブスコアであり、ｆｗ、Ｐは、文Ｐにおける単語ｗの出現回数であり、ｌｏｇＩＤＦｗは、単語ｗのためのＩＤＦ値の対数である。
【００７７】
他のいくつかの実施形態において、単語値は、レビュー文脈において価値があると考えられる単語の所定の辞書に基づいている。別個の辞書を異なる対象タイプのために定義してもよい。なぜなら、異なる単語が、異なる対象タイプに関連するレビューで用いる価値がある場合があるからである。たとえば、対象が製品である場合のレビューに対して価値のある単語の辞書があってもよく、対象が提供者である場合のレビューに対して価値のある単語の別の辞書があってもよい。これらの実施形態において、単語値サブスコアは、所定の辞書の単語のうちいくつが、それぞれの文に含まれているかの計算に基づいてもよい。
【００７８】
レビュー内の文の位置に関して、いくつかの実施形態では、レビューエンジンは、レビューの始めに出現する文を優先してもよい。したがって、位置に基づくサブスコアは、レビューの文の数に対して正規化された、レビューの文の位置に基づいてもよい。たとえば、１０の文を備えたレビューの４番目の文について、その文のための位置サブスコアは、４／１０＝０．２であってもよい。
【００７９】
文のサブスコアを決定すると、サブスコアは、図４に関連して上記した式と類似の式を用いて、文の品質スコアへと数学的に組み合わせてもよい。
【００８０】
レビュー文の組み合わせが識別される（６０８）。各組み合わせには、所定の長さ基準を満たす、レビューの１つ以上の連続する文が含まれる。いくつかの実施形態において、長さ基準は、組み合わせの長さが、所定の最大抜粋長さ（単語数または文字数に基づいてもよい）に等しいか、または組み合わせにおける最後の文の一部だけ最大抜粋長さを超えるということである。組み合わせを識別するための例示的なアルゴリズムを、下記に擬似コードで示す。
Ｆｏｒｅａｃｈｓｅｎｔｅｎｃｅｉｉｎｔｈｅｒｅｖｉｅｗ：
ｉｎｔｅｇｅｒｊ＝ｉ
ｃｏｍｂｉｎａｔｉｏｎｉ＝ｓｅｎｔｅｎｃｅｊ
ｗｈｉｌｅ（ｌｅｎｇｔｈ（ｃｏｍｂｉｎａｔｉｏｎｉ）＜ｍａｘ＿ｓｎｉｐｐｅｔｌｅｎｇｔｈ）
ｃｏｍｂｉｎａｔｉｏｎｉ＝ｃｏｍｂｉｎａｔｉｏｎｉ＋ｓｅｎｔｅｎｃｅ（＋＋ｊ）
上記の擬似コードに示すように、組み合わせは、レビューにおける一文として出発し、組み合わせの長さを最大抜粋長さ以上にする最初の文を含むまで、続く文が組み合わせに追加される。したがって、組み合わせは、レビューにおけるできるだけ多くの連続する文の連結であるが、これは、組み合わせの長さが、最大抜粋長さと、組み合わせに追加された場合に、組み合わせの長さを最大抜粋長さ以上にするおそらく１つの追加文との、合計を超えないように行われる。
【００８１】
他のいくつかの実施形態において、追加される文のどれくらいが最大抜粋長さ内にあるか、すなわち、追加文を収容するために、組み合わせにどれくらいの「スペース」が残っているかもまた考慮するように、アルゴリズムを洗練してもよい。たとえば、組み合わせが、１つまたは２つの単語だけ最大抜粋長さに達しない場合には、追加文を組み合わせに追加しないことが、より価値があり得る。
【００８２】
最高の組み合わせ品質スコアを備えた組み合わせが選択される（６１０）。いくつかの実施形態において、組み合わせのための組み合わせ品質スコアは、組み合わせ内における文の品質スコアの単純な合計である。他のいくつかの実施形態において、組み合わせ品質スコアは、組み合わせ内における文の品質スコアの加重和、単純平均または加重平均であってもよい。
【００８３】
前記選択された組み合わせを用いて、抜粋が生成される（６１２）。抜粋には、最大抜粋長さまで、前記選択された組み合わせが含まれる。組み合わせが最大抜粋長さを超えた場合には、組み合わせ長さが最大抜粋長さに等しくなるまで、内容が、組み合わせの最後から切り捨てられる。いくつかの実施形態において、最大抜粋長さまで切り捨てた後に、組み合わせにおける最後の文の小部分（たとえば１つまたは２つの単語）だけが残る場合には、組み合わせは、最大抜粋長さより短くなるように切り捨ててもよい。換言すれば、最大抜粋長さまで組み合わせを切り捨てた後に、その文の少数の単語だけが残る場合には、組み合わせの最後の文を削除することによって切り捨てることが、より価値があり得る。
【００８４】
前記抜粋を含む応答が生成される（６１４）。前記生成された応答は、ユーザへの提供および表示のためにクライアント１０２に伝送されるドキュメントである。応答ドキュメントには、対象のレビュー要約が含まれる。レビュー要約には、対象の全体的レーティング、および任意にレビューソースによって与えられた対象の集合レーティングなどの情報を含んでもよい。レビュー要約にはまた、レビューサンプルが含まれるが、このサンプルには、図２に関連して上記したように、前記選択されたレビューの内容が含まれる。
【００８５】
レビューエンジン１０６は、クライアント１０２へ伝送するために、そのレビューリポジトリからレビューを選択し、前記選択されたレビューの内容（完全なレビューおよび／または抜粋など）を含む応答を生成する。図３、４および５は、サンプル用のレビューを選択するための３つのプロセスを示す。図６は、レビューの抜粋を生成するためのプロセスを示すが、このレビューは、図３、４および／または５のプロセスで選択されたレビューであってもよい。上記のプロセスを組み合わせてもよいことを理解されたい。たとえば、レビューエンジン１０６は、全体的スコアが収まるレーティング範囲に対応し、かつ高い品質スコアを有する多くのレビューを選択してもよい。別の例として、レビューエンジン１０６は、対象のレビューをクラスタリングし、全体的スコアが収まるレーティング範囲に対応しかつ高い品質スコアを有する多くのレビューを、クラスタサイズに比例して各クラスタから選択してもよい。これらの選択されたレビューの抜粋が生成され、前記抜粋を含む応答が生成される。より一般的には、レビューを１つ以上の所定の基準に基づいて選択してもよく、これらのレビューの抜粋を生成して、クライアント１０２に送信される応答に含めてもよい。
【００８６】
図７は、本発明のいくつかの実施形態による、レビュー処理システム７００を示すブロック図である。システム７００には、典型的には、１つ以上の処理装置（ＣＰＵ）７０２、１つ以上のネットワークまたは他の通信インタフェース７１０、メモリ７１２、およびこれらの構成要素を相互接続するための１つ以上の通信バス７１４が含まれる。任意に、システム７００には、表示装置７０６およびキーボード／マウス７０８を含むユーザインタフェース７０４を含んでもよい。メモリ７１２には、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲ−ＲＡＭまたは他のラングムアクセス固体メモリ装置などの高速ランダムアクセスメモリが含まれ、また１つ以上の磁気ディスク記憶装置、光ディスク記憶装置、フラッシュメモリ装置、または他の不揮発性ソリッドステート記憶装置などの不揮発性メモリを含んでもよい。任意に、メモリ７１２には、ＣＰＵ７０２から遠隔に位置する１つ以上の記憶装置を含んでもよい。いくつかの実施形態において、メモリ７１２は、下記のプログラム、モジュールおよびデータ構造、またはそれらのサブセットを格納する。すなわち、
・様々な基本システムサービスを扱うための、およびハードウェア依存タスクを実行するための手順を含むオペレーティングシステム７１６と、
・インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどの１つ以上の通信ネットワークインタフェース７１０（有線または無線）を介して、レビュー処理システム７００を他のコンピュータに接続するために用いられるネットワーク通信モジュール７１８と、
・レビュー記憶システムとインタフェースするレビュー記憶インタフェース７２０と、
・レビューソースを識別するソース識別モジュール７２２と、
・レビューソースからのレビューおよび関連するレーティングを識別するレビュー識別モジュール７２４と、
・対象の全体的レーティングを決定し、かつその全体的レーティングがどのレーティング範囲に収まるかを決定する全体的レーティングモジュール７２６と、
・レビューの品質スコアを決定するレビュー品質スコアリングモジュール７２８と、
・レビューをクラスタに組織するレビュークラスタリングモジュール７３０と、
・レビューをパーティションに分割し、パーティションの品質スコアを決定し、パーティションの組み合わせを識別し、かつ最高組み合わせ品質スコアを備えた組み合わせを選択するレビューパーティションモジュール７３２と、
・１つ以上の所定の基準に基づいてレビューを選択するレビュー選択モジュール７３４と、
・不快な内容など、所定の内容基準を満たす内容に対して、レビューおよびレビューパーティションを評価する内容フィルタ７３６と、
・レビューおよび／またはレビュー抜粋を含む応答を生成する応答生成モジュール７３８と、
である。
【００８７】
システム７００にはまた、レビュー記憶システム７４０が含まれる。レビュー記憶システム７４０は、レビューおよび関連するレーティングを格納する。レビュー記憶システム７４０には、レビューの抜粋を生成する抜粋生成器７４２が含まれる。いくつかの実施形態において、抜粋生成器７４２は、レビュー記憶システム７４０ではなく、メモリ７１２に位置してもよい。
【００８８】
上記で識別した要素のそれぞれは、前に言及したメモリ装置の１つ以上に格納してもよく、また上記の機能を実行するための命令セットに対応する。上記で識別したモジュールまたはプログラム（すなわち命令セット）は、別個のソフトウエアプログラム、手順またはモジュールとして実行する必要はなく、したがって、これらのモジュールの様々なサブセットは、様々な実施形態において、組み合わせるか、さもなければ再編してもよい。いくつかの実施形態において、メモリ７１２は、上で識別したモジュールおよびデータ構造のサブセットを格納してもよい。さらに、メモリ７１２は、上記しなかった追加モジュールおよびデータ構造を格納してもよい。
【００８９】
図７は「レビュー処理システム」を示すが、図７は、本明細書で説明する実施形態の構造的概略図としてよりも、サーバのセットに存在し得る様々な特徴の機能的説明として意図されている。実際には、当業者が理解されるように、別々に示したアイテムは結合させることができ、いくつかのアイテムは分離することができる。たとえば、図７に別々に示したいくつかのアイテムは、単一のサーバに実現してもよく、また単一のアイテムは、１つ以上のサーバで実現してもよい。レビュー処理システムを実現するために用いられるサーバの実際の数、およびそれらの中で機能がどのように割り当てられるかは、実装ごとに変化し、また平均使用期間中に加えてピーク使用期間中にシステムが処理しなければならないデータトラフィック量に部分的に依存してもよい。
【００９０】
上記の説明が、その適用において、純粋なテキストの、すなわち文字列からなるレビューに限定されないことを理解されたい。この説明は、オーディオ、ビデオまたは他のメディア形態を含むレビューに適合させることができる。たとえば、オーディオ（オーディオだけのレビューまたはオーディオトラックを備えたビデオレビューなど）を含むレビューに関して、オーディオは、音声テキスト変換を用いてテキストに変換してもよいが、この変換は、当該技術分野において周知である。変換されたテキストは、上記の選択および抜粋生成プロセス用の「レビュー」として用いてもよい。オーディオまたはビデオレビューの抜粋は、レビューの変換されたテキストに基づいて抜粋のために選択された単語を備えた音声を有する、オーディオまたはビデオにおける部分ということになる。レビュー品質が、オーディオ／ビデオレビューを選択するための基準である場合には、文法的な品質要因は、媒体に適応させてもよい。たとえば、レビューの内容が、テキストではなく口頭である場合には、大文字使用は、それほど関係なく、したがって無視することができる。
【００９１】
説明目的のために、前述の記載は、特定の実施形態に関連して説明した。しかしながら、上記の実例的な説明は、包括的であるようにも、開示された形態に本発明を厳密に限定するようにも意図されていない。上記の教示を考慮すれば、多くの修正および変更が可能である。実施形態は、本発明の原理およびその実際的な用途を最もよく説明し、それによって、当業者が、本発明および考えられた特定の使用法に適した様々な修正を含む様々な実施形態を最もよく利用できるようにするために、選択され説明された。

【特許請求の範囲】
【請求項１】
レビューを処理する方法であって、
複数のレビューを識別するステップと、
少なくとも所定の品質基準に基づいて前記複数のレビューのサブセットを選択するステップと、
前記選択されたサブセットの内容を含む応答を生成するステップと、
を含む方法。
【請求項２】
選択するステップが、少なくとも前記所定の品質基準および所定の古さ基準に基づいて前記複数のレビューのサブセットを選択するステップを含む、請求項１に記載の方法。
【請求項３】
選択するステップが、少なくとも前記所定の品質基準および所定の内容基準に基づいて前記複数のレビューのサブセットを選択するステップを含む、請求項１に記載の方法。
【請求項４】
選択するステップが、少なくとも前記所定の品質基準および所定のレーティングスコア基準に基づいて前記複数のレビューのサブセットを選択するステップを含む、請求項１に記載の方法。
【請求項５】
選択するステップが、
前記それぞれのレビューの長さ、前記それぞれのレビューにおける文の長さ、前記それぞれのレビューにおける１つ以上の単語に関連する値、および前記それぞれのレビューの文法的品質からなる群の少なくとも１つに基づいて、前記複数のレビューのそれぞれの品質スコアを決定するステップと、
少なくとも前記それぞれの品質スコアに基づいて前記複数のレビューのサブセットを選択するステップと、
を含む、請求項１に記載の方法。
【請求項６】
応答を生成するステップが、前記選択されたサブセットにおける複数のレビューの抜粋を生成するステップを含む、請求項１に記載の方法。
【請求項７】
レビューの抜粋を生成するステップが、
前記レビューを１つ以上のパーティションに分割するステップと、
所定の基準に基づいて前記パーティションのサブセットを選択するステップと、
前記パーティションの前記選択されたサブセットの内容を含む前記抜粋を生成するステップと、
を含む、請求項６に記載の方法。
【請求項８】
レビューを処理するためのシステムであって、
複数のレビューを識別する命令と、
少なくとも所定の品質基準に基づいて前記複数のレビューのサブセットを選択する命令と、
前記選択されたサブセットの内容を含む応答を生成する命令と、
を含む１つ以上のモジュールを含むシステム。
【請求項９】
前記１つ以上のモジュールが、少なくとも前記所定の品質基準および所定の古さ基準に基づいて前記複数のレビューのサブセットを選択する命令を含む、請求項８に記載のシステム。
【請求項１０】
前記１つ以上のモジュールが、少なくとも前記所定の品質基準および所定の内容基準に基づいて前記複数のレビューのサブセットを選択する命令を含む、請求項８に記載のシステム。
【請求項１１】
前記１つ以上のモジュールが、少なくとも前記所定の品質基準および所定のレーティングスコア基準に基づいて前記複数のレビューのサブセットを選択する命令を含む、請求項８に記載のシステム。
【請求項１２】
前記１つ以上のモジュールが、
前記それぞれのレビューの長さ、前記それぞれのレビューにおける文の長さ、前記それぞれのレビューにおける１つ以上の単語に関連する値、および前記それぞれのレビューの文法的品質からなる群の少なくとも１つに基づいて、前記複数のレビューのそれぞれの品質スコアを決定する命令と、
少なくとも前記それぞれの品質スコアに基づいて前記複数のレビューのサブセットを選択する命令と、
を含む、請求項８に記載のシステム。
【請求項１３】
前記１つ以上のモジュールが、前記選択されたサブセットにおける複数のレビューの抜粋を生成する命令を含む、請求項８に記載のシステム。
【請求項１４】
前記１つ以上のモジュールが、
前記レビューを１つ以上のパーティションに分割する命令と、
所定の基準に基づいて前記パーティションのサブセットを選択する命令と、
前記パーティションの前記選択されたサブセットの内容を含む前記抜粋を生成する命令と、
を含む、請求項１３に記載のシステム。
【請求項１５】
コンピュータシステムと共に用いるためのコンピュータプログラム製品であって、前記コンピュータプログラム製品が、コンピュータ可読記憶媒体、およびそこに埋め込まれたコンピュータプログラム機構を含み、前記コンピュータプログラム機構が、
複数のレビューを識別する命令と、
少なくとも所定の品質基準に基づいて前記複数のレビューのサブセットを選択する命令と、
前記選択されたサブセットの内容を含む応答を生成する命令と、
を含む、コンピュータプログラム製品。
【請求項１６】
選択するための前記命令が、
前記それぞれのレビューの長さ、前記それぞれのレビューにおける文の長さ、前記それぞれのレビューにおける１つ以上の単語に関連する値、および前記それぞれのレビューの文法的品質からなる群の少なくとも１つに基づいて、前記複数のレビューのそれぞれの品質スコアを決定する命令と、
少なくとも前記それぞれの品質スコアに基づいて前記複数のレビューのサブセットを選択する命令と、
を含む、請求項１５に記載のコンピュータプログラム製品。
【請求項１７】
応答を生成するための前記命令が、前記選択されたサブセットにおける複数のレビューの抜粋を生成するための命令を含む、請求項１５に記載のコンピュータプログラム製品。
【請求項１８】
レビューの抜粋を生成するための前記命令が、
前記レビューを１つ以上のパーティションに分割する命令と、
所定の基準に基づいて前記パーティションのサブセットを選択する命令と、
前記パーティションの前記選択されたサブセットの内容を含む前記抜粋を生成する命令と、
を含む、請求項１７に記載のコンピュータプログラム製品。
【請求項１９】
レビューを処理するためのシステムであって、
複数のレビューを識別するための手段と、
少なくとも所定の品質基準に基づいて前記複数のレビューのサブセットを選択するための手段と、
前記選択されたサブセットの内容を含む応答を生成するための手段と、
を含むシステム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【公開番号】特開２０１２−１６０２０１（Ｐ２０１２−１６０２０１Ａ）
【公開日】平成２４年８月２３日（２０１２．８．２３）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)
      - 自然言語データの取扱い (7,890)
        
        テキスト処理 (6,199)
  - 管理目的，商用目的，金融目的，経営目的，監督目的または予測目的... (55,954)
    - 管理，例．オフィスオートメーションまたは予約；経営，例．人的資... (14,161)

【外国語出願】
【出願番号】特願２０１２−９４６７３（Ｐ２０１２−９４６７３）
【出願日】平成２４年４月１８日（２０１２．４．１８）
【分割の表示】特願２００８−５３３７６８（Ｐ２００８−５３３７６８）の分割
【原出願日】平成１８年９月２９日（２００６．９．２９）
【出願人】（５０２２０８３９７）グーグル　インコーポレイテッド (161)
【Ｆターム（参考）】

[ Back to top ]

レビュー処理方法およびシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

レビュー処理方法およびシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク