情報処理装置、情報処理方法及びプログラム
【課題】2つの批評対象物に関する各批評情報の比較分析を高い精度で容易かつ迅速に行うこと。
【解決手段】PC100は、比較対象の2つの商品についての各高評価レビュー記事の総数に対する、所定のレビューポイント毎に設定された所定のキーワードを含むレビュー記事の数の比率を、各商品についての高評価レビュー記事の総数に対する、特定のビューポイントを高評価するレビュー記事の数の比率として算出し、その各比率をビューポイント毎に比較可能に出力する。
【解決手段】PC100は、比較対象の2つの商品についての各高評価レビュー記事の総数に対する、所定のレビューポイント毎に設定された所定のキーワードを含むレビュー記事の数の比率を、各商品についての高評価レビュー記事の総数に対する、特定のビューポイントを高評価するレビュー記事の数の比率として算出し、その各比率をビューポイント毎に比較可能に出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2つの商品またはサービスに関するそれぞれの評価情報を分析比較することが可能な情報処理装置、情報処理方法及びそのプログラムに関する。
【背景技術】
【0002】
インターネット上には、商品やサービスに対する消費者の評価が記載されたテキスト情報(評価情報)が大量に存在している。そして、商品の供給者により、このような評価情報をいわゆるVOC(Voice of the Customer)として、ユーザの感性の評価や品質改善項目の抽出等のさまざまな目的に役立てようとする試みが行われている。
【0003】
上記評価情報をコンピュータ上で処理する技術として、例えばデータマイニングが挙げられる。しかし、データマイニングでは膨大なリソースの準備及びインプットが必要な場合が多いにもかかわらず、現状では、それに見合うだけのアウトプットが得られているとは言い難い。また、データマイニングの結果得られたアウトプットについて、各種統計手法を用いた解析がなされているが、これらの解析結果が意味するものは必ずしも明確ではなく、分析者個人の主観的な解釈を必要とするものも多い。
【0004】
また下記特許文献1には、評判情報取得手段と、評判情報分類手段と、カテゴリスコア算出手段と、カテゴリソート手段と、評判情報出力手段とを有する評判情報処理装置が記載されている。評判情報取得手段は、対象事物の性質を表す属性表現(例えば「デザイン」等)とその属性表現に対する評価を表す評価表現(例えば「かっこいい」等)との組からなる評判情報、及び、その評判情報が評判としてどの程度適切かを表す評判情報スコアを取得する。評判情報分類手段は、評判情報を、第1階層において複数のカテゴリに分類し、その第1階層のカテゴリごとの評判情報を第2階層において複数のカテゴリに分類し、各カテゴリにカテゴリ名を付与する。カテゴリスコア算出手段は、評判情報スコアをもとに、各階層におけるカテゴリに対してカテゴリスコアを算出する。カテゴリソート手段は、各階層におけるカテゴリをカテゴリスコアの大きい順に並び替える。評判情報出力手段は、第1階層のカテゴリ名のうち1つが入力された場合に、そのカテゴリ名を持つカテゴリの属する第2階層のカテゴリ名を出力する。ここで、第1階層のカテゴリ名は「かっこいい」等の評価表現とされ、第2階層のカテゴリ名は「デザイン」等の属性表現とされる(図18等参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第4361526号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記特許文献1に記載の評判情報処理装置では、属性表現と評価表現との組からなる評判情報を取得するにあたり、予め、属性表現リスト及び評価表現リストを用意し、それらと、分析対象文書中の表現とのマッチングを行っている。しかしながら、このような手法では、対象とする文書の数が多くなればなるほど、処理の初期段階としての属性表現リスト及び評価表現リストの構築処理、及び、それによる評判情報の取得処理に大きな負荷が掛かることとなる。
【0007】
また、上記評判情報処理装置では、評判情報が評判としてどの程度適切かを表す評判情報スコアを、属性表現と対象事物との関連度を算出して取得し、それを基に最終的な出力結果におけるカテゴリスコアを算出している。具体的には、関連度rは、文書集合の中で属性表現と対象事物がともに出現する文書の数をa、属性表現のみが出現する文書の数をb、対象事物のみが出現する文書の数をcとしたときに、r=2a/(2a+b+c)として算出される。しかしながら、文章集合中には、当然ながら肯定の評価表現を含む文書と否定の評価表現を含む文書とが存在し、また1つの文書に肯定と否定の矛盾する評価表現が含まれている場合もある。したがって上記関連度rを算出するのみでは、評判情報に対する信頼性を保証することにならない。
【0008】
さらに、上記特許文献1に記載の評判情報処理装置では、最終的な評判情報の出力画面において、「かっこいい」、「よい」等のさまざまな評価表現がそのままカテゴリ名として出力される。しかも、その評判情報は1つの製品のみに関するものである。したがって、その出力画面の閲覧者は、どの製品がどの属性についてどの製品よりもどれほど優れているかといったように、2つ以上の製品間で評判情報を比較することができない。
【0009】
以上のような事情に鑑み、本発明の目的は、2つの評価対象物に対する各評価情報の比較分析を高い精度で容易かつ迅速に行うことが可能な情報処理装置、情報処理方法及びそのプログラムを提供することにある。
【課題を解決するための手段】
【0010】
上記目的を達成するため、本発明の一形態に係る情報処理装置は、記憶部と、制御部と、出力部とを有する。上記記憶部は、第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、上記所定以上の評価レベルに分類された複数の第2の高評価情報とを記憶する。さらに記憶部は、上記第1の評価対象物及び上記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードを記憶する。上記制御部は、上記第1の高評価情報の総数に対する上記所定のキーワードを含む第1の高評価情報の第1の比率と、上記第2の高評価情報の総数に対する上記所定のキーワードを含む第2の高評価情報の第2の比率とをそれぞれ算出する。上記出力部は、上記第1の比率と上記第2の比率とを、それぞれ、上記第1の高評価情報の総数に対する、上記所定の評価項目を高評価した上記第1の高評価情報の比率と、上記第2の高評価情報の総数に対する、上記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力する。
【0011】
この構成により情報処理装置は、2つの評価対象物に対する各高評価情報の総数に対する、上記所定のキーワードを含む高評価情報の比率を算出するだけで、それらを、各高評価情報の総数に対する、上記所定の評価項目を高評価した高評価情報の比率としてそれぞれ比較可能に出力できる。各評価文書情報の比較が、数ではなく比率で行われることで、たとえ上記所定のキーワードを含む高評価情報中に、所定の評価項目を低評価した高評価情報が含まれていたとしても、その情報が抽出されることによるエラーはキャンセルされる。したがって情報処理装置は、各高評価情報中に、所定の評価項目を高評価したものが含まれる比率を算出することなく、2つの評価対象物に対する各評価情報の比較分析を高い精度で容易かつ迅速に行うことができる。したがって分析者は、例えば自社商品と他社商品等、2つの評価対象物の上記所定の評価項目についての比較分析結果を瞬時に得て活用することができる。さらに情報処理装置は、上記所定のキーワードを多数の言語に対応させるだけで、あらゆる言語で記述された評価文書情報に対応可能となる。ここで評価対象物とはあらゆる商品及びサービスを含む。また所定以上の評価レベルとは、例えば上記評価文書情報が評価1〜評価5の5つのレベルの評価に分類されている場合、評価5、もしくは評価4以上等である。また所定の評価項目とは、例えばテレビジョンが評価対象物である場合には、画質、音質、外観等である。所定のキーワードとしては、例えば評価項目が画質であれば、"picture"、"image"、"motion"等、他の評価項目との関連性がほとんど無いものが選択される。
【0012】
上記記憶部は、複数の上記所定の評価項目にそれぞれ対応する複数の所定のキーワードを記憶してもよい。この場合上記制御部は、上記第1の比率と上記第2の比率とを、上記複数の所定の評価項目毎に算出してもよい。この場合上記出力部は、上記第1の比率と、上記第2の比率とを、上記複数の所定の評価項目毎に比較可能に出力してもよい。
【0013】
これにより情報処理装置は、複数の評価項目毎に2つの評価対象物に関する第1の比率及び第2の比率を算出して比較可能に出力できる。ここで各評価項目についての各第1の比率と各第2の比率とは、それぞれ分母を共通にしているため、例えばレーダーチャートのように正規化された出力結果に比べて、評価項目間での各第1の比率または各第2の比率の比較が可能となる。したがって、分析者は、ある評価対象物について消費者がどの評価項目に興味を示しているか、または示してないかといったことも把握し、それを商品開発等に反映させることができる。
【0014】
本発明の他の形態に係る情報処理方法は、第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、上記所定以上の評価レベルに分類された複数の第2の高評価情報と、上記第1の評価対象物及び上記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとを記憶することを含む。この情報処理方法では、上記第1の高評価情報の総数に対する上記所定のキーワードを含む第1の高評価情報の第1の比率と、上記第2の高評価情報の総数に対する上記所定のキーワードを含む第2の高評価情報の第2の比率とがそれぞれ算出される。さらに、上記第1の比率と上記第2の比率とが、それぞれ、上記第1の高評価情報の総数に対する、上記所定の評価項目を高評価した上記第1の高評価情報の比率と、上記第2の高評価情報の総数に対する、上記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力される。
【0015】
本発明のまた別の形態に係るプログラムは、情報処理装置に、記憶ステップと、算出ステップと、出力ステップとを実行させる。上記記憶ステップでは、第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、上記所定以上の評価レベルに分類された複数の第2の高評価情報と、上記第1の評価対象物及び上記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとが記憶される。上記算出ステップでは、上記第1の高評価情報の総数に対する上記所定のキーワードを含む第1の高評価情報の第1の比率と、上記第2の高評価情報の総数に対する上記所定のキーワードを含む第2の高評価情報の第2の比率とがそれぞれ算出される。上記出力ステップでは、上記第1の比率と上記第2の比率とを、それぞれ、上記第1の高評価情報の総数に対する、上記所定の評価項目を高評価した上記第1の高評価情報の比率と、上記第2の高評価情報の総数に対する、上記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力される。
【発明の効果】
【0016】
以上説明したように、本発明によれば、2つの評価対象物に対する各評価情報の比較分析を高い精度で容易かつ迅速に行うことができる。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施形態に係るPCの構成を示すブロック図である。
【図2】本発明の一実施形態に係るPCに記憶されるデータの構成を示した図である。
【図3】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図4】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図5】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図6】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図7】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図8】本実施形態におけるPCの高評価レビュー記事の分類処理の流れを示すフローチャートである。
【図9】図8の処理のうちキーワード発生率のカウント処理の流れを示すフローチャートである。
【図10】本実施形態におけるPCのキーワード発生率の出力画面の例を示した図である。
【発明を実施するための形態】
【0018】
以下、図面を参照しながら、本発明の実施形態を説明する。
【0019】
[情報処理装置の構成]
図1は、本発明の一実施形態に係る情報処理装置としてのPC(Personal Computer)の構成を示すブロック図である。
【0020】
PC100は、CPU(Central Processing Unit)101、ROM102(Read Only Memory)、RAM(Random Access Memory)103、入出力インターフェース105、及び、これらを互いに接続するバス104を備える。
【0021】
CPU101は、必要に応じてRAM103等に適宜アクセスし、各種演算処理を行いながらPC100の各ブロック全体を統括的に制御する。ROM102は、CPU101に実行させるOS、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。RAM103は、CPU101の作業用領域等として用いられ、OS、実行中の各種プログラム、処理中の各種データを一時的に保持する。
【0022】
入出力インターフェース105には、表示部106、入力部107、記憶部108、通信部109、ドライブ部110等が接続される。
【0023】
表示部106は、例えば液晶、EL(Electro-Luminescence)、CRT(Cathode Ray Tube)等を用いた表示デバイスである。当該表示部106は、PC100に内蔵されていてもよいし、PC100に外部接続されていてもよい。
【0024】
入力部107は、例えばポインティングデバイス、キーボード、タッチパネル、その他の操作装置である。入力部107がタッチパネルを含む場合、そのタッチパネルは表示部106と一体となり得る。
【0025】
記憶部108は、例えばHDD(Hard Disk Drive)や、フラッシュメモリ、その他の固体メモリ等の不揮発性メモリである。当該記憶部108には、後述する高評価レビューやキーワード用シソーラスが記憶される。
【0026】
ドライブ部110は、例えば光学記録媒体、フロッピー(登録商標)ディスク、磁気記録テープ、フラッシュメモリ等、リムーバブルの記録媒体111を駆動することが可能なデバイスである。これに対し上記記憶部108は、主にリムーバブルでない記録媒体を駆動する、PC100に予め搭載されたデバイスとして使用される場合が多い。
【0027】
通信部109は、LAN(Local Area Network)、WAN(Wide Area Network)等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部109は、有線及び無線のどちらを利用して通信するものであってもよい。通信部109は、PC100とは別体で使用される場合が多い。
【0028】
[情報処理装置におけるデータ構成]
次に、上記PC100の上記記憶部108に記憶されるデータの構成について説明する。図2は、当該データ構成を示した図である。
【0029】
同図に示すように、記憶部108は、商品Xに関する多数の高評価レビュー記事12からなる商品X高評価レビューDB(データベース)11、商品Yに関する多数の高評価レビュー記事22からなる商品Y高評価レビューDB21を記憶している。
【0030】
各高評価レビューDBは、PC100が例えば上記通信部109によりインターネット上の1つまたは複数のレビューサイトから、比較対象となる商品Xと商品Yの各レビュー記事のうち、所定以上の高評価レベルに分類されたレビュー記事を取得することで形成される。
【0031】
周知のように、レビューサイトの多くは、例えば★マークの数により各商品に対する消費者の評価を複数レベル(例えば評価1(1つ星)〜評価5(5つ星)の5つのレベル)に分類している。PC100は、数多くのレビュー記事の中からまず商品Xと商品Yの各レビュー記事を例えば商品名(型番)をキーに抽出し、さらにそれらの中から高評価レベル(例えば5つ星)に分類された複数の高評価レビュー記事12、22を抽出して、商品X及び商品Yの各高評価レビューDB11、21を形成する。抽出される高評価レビュー記事の数は、各商品についてそれぞれ数百〜千程度であるが、これに限られない。またPC100は、当該抽出された各高評価レビュー記事12、22を格納したリムーバブルの記録媒体111から当該各高評価レビュー記事12、22をロードすることで上記各高評価レビューDB11、21を形成しても構わない。
【0032】
また記憶部108は、消費者が各商品X及びYを評価している項目(以下、ビューポイント)毎に所定のキーワードを対応付けたビューポイントテーブル15も記憶している。本実施形態では、例えば商品X及びYが異なるメーカーの液晶テレビである場合を想定している。この場合ビューポイントは例えば画質、音質、外観等であり、画質に対するキーワードは例えば"Picture"、"Image"等、音質に対するキーワードは例えば"Sound"、"Audio"等、外観に対するキーワードは例えば"Design"、"Appearance"等である。これらのキーワードとしては、例えば汎用のシソーラスを基に、各ビューポイントに極めて関連性の高い(他のビューポイントに極めて関連性の低い)ものが選択される。これは、後述するように、キーワードを含む高評価レビュー記事12、22のビューポイント毎の発生頻度を算出する際のエラーを極力なくすためである。
【0033】
またここで、抽出するレビュー記事が、高評価のレビュー記事に限定されているのは、後述するように、そのようなレビュー記事は、内容も表現も一定のパターンをとりやすく、上記キーワードがヒットしやすいためである。
【0034】
[検証事項]
次に、本実施形態における処理の前提として本発明者が検証した事項について説明する。図3〜図7は、その検証事項を説明するための図である。
【0035】
本実施形態では、2つの商品XとYに対するレビュー記事を基に、分析者が迅速かつ容易にビューポイント毎の両商品の比較分析が行えるようなシステムを構築することを目標としている。そのためには、本来的には、上記商品X高評価レビューDB11及び商品Y高評価レビューDB21に格納された全ての高評価レビュー記事のうち、特定のビューポイントについての高評価レビュー記事の比率がそれぞれ求められればよい。これにより商品Xと商品Yとについて消費者がそれぞれどのビューポイントをどれほど評価しているかが把握され両者が比較可能となるからである。すなわち、図3に示すように、例えば商品Xについて集合Uを定義した場合、「画質」というビューポイントについて高評価を与えているレビュー記事の比率(同図Ax+Bx/Ux+Ax+Bx+Cx)が求められるのが望ましい。しかし、この特定のビューポイントを高評価した高評価レビュー記事の比率を抽出するのは容易なことではない。なぜなら、単に高評価レビュー記事であるというだけでは、それがどのビューポイントに関するものであるかは不明であり、当該高評価レビュー記事の内容を解析してそれを明らかにする必要があるからである。
【0036】
そこで本実施形態では、同図に示すように、全ての高評価レビュー記事の数に対する例えば上記「画質」というビューポイントを高評価したレビュー記事の比率を、特定のキーワード(例えば"Picture")を含む高評価レビュー記事の比率(同図Bx+Cx/Ux+Ax+Bx+Cx)で代替することとしている。以下、このような代替が可能であることの根拠について説明する。
【0037】
図4に示すように、商品Xについての高評価レビュー記事12の集合Ux及び商品Yについての高評価レビュー記事22の集合Uyを定義する。同図における各要素Ax、Bx、Cx、Ay、By及びCyは上記図3に示したものと同様である。
【0038】
ここで、集合Uxに属する高評価レビュー記事の総数と、集合Uyに属するレビュー記事の総数とは、商品の質が異なれば、同一とはならないと考えられる。しかし、サンプルとなる高評価レビュー記事のデータ数が十分多い場合には、いずれの集合においても、例えば"Picture"というキーワードを含むレビュー記事(要素Bx+Cx)が、画質というビューポイントを高評価しているレビュー記事(要素Ax+Bx)に占める比率(Bx/Ax+Bx)は、商品によらず一定(α)である、という仮説(同図(1))が妥当すると考えられる。すなわち、この比率は商品の質に影響を受けないと考えられる。
【0039】
またこの場合、"Picture"というキーワードを含むレビュー記事(要素Bx+Cx)の中で、画質を高評価しているもの(要素Bx)と、そうでないもの(要素Cx)との比率も、商品によらず一定(β)である、という仮説(同図(2))も妥当すると考えられる。
【0040】
さらに、図5に示すように、レビュー記事のデータ数が十分多い場合には、複数の評価レベルに分類された全てのレビュー記事のうち、高評価(5★)に分類されたレビュー記事においては、"Picture"という単語を含むレビュー記事(要素Bx+Cx)は、"Picture"というビューポイントに対して高評価の意見を述べている、という仮説も概ね妥当すると考えられる。高評価のレビュー記事で現れる単語は、総じて肯定的な記事を構成する場合が多いと考えられるからである。実際、本発明者は、数千の高評価レビュー記事を閲覧して、上記仮説が妥当であることを確認している。
【0041】
そして、上述したが、図6に示すように、本来的に商品間で比較したい比率は、各商品についての高評価レビュー記事の総数に対する、画質を高評価するレビュー記事の数の比率(同図(a))である。この比率を正確に算出するのは困難である一方、各商品についての高評価レビュー記事の総数に対する、キーワード"picture"を含むレビュー記事の数の比率(同図(b))は、機械的にPC100で算出することができる。
【0042】
また、当然ながら、上記要素(Ax+Bx)と要素(Bx+Cx)に属するレビュー記事の数は異なっている。また、あるレビュー記事に特定のキーワード(例えば"picture")が含まれていても、そのレビュー記事がそのキーワードに対応するビューポイント(例えば「画質」)を高評価していない場合(要素Cx)もある。しかしながら、上記キーワードを含むレビュー記事について、その数ではなく「比率」が算出され、その比率同士が商品間で比較されれば、上記要素(Ax+Bx)と要素(Bx+Cx)との差はキャンセルされ、問題にならなくなると考えられる。
【0043】
したがって、上記比率(a)と比率(b)とが等しいという命題が証明できれば、図3で説明した代替が可能であるということができる。
【0044】
そこで、この命題の証明を試みる。図7(I)及び(II)に示すように、上記式(1)及び(2)が成り立つ。ここで、同図(III)に示すように、Ax+Bx/Ay+Byは、Ax(1+α)/Ay(1+α)と変形できる。そして、上記式(1)及び(2)を用いれば、これはさらにBx+Cx/By+Cyと変形できる。
【0045】
さらに、同図(IV)に示すように、上記Ax+Bx/Ay+By=Bx+Cx/By+Cyの両辺に、(U+A+B+C)y/(U+A+B+C)xを乗算すると、両辺はそれぞれ上記比率(a)及び比率(b)と等しくなる。
【0046】
以上より、各商品についての高評価レビュー記事の総数に対する、画質を高評価するレビュー記事の数の比率(a)は、各商品についての高評価レビュー記事の総数に対する、キーワード"picture"を含むレビュー記事の数の比率(b)と等しいことが証明された。
【0047】
[情報処理装置の動作]
次に、以上の検証により証明された命題を用いた、PC100の動作について具体的に説明する。以降の説明においては、PC100のCPU101を主な動作主体として説明するが、この動作はCPU101の制御下において実行されるプログラムとも協働して行われる。図8は、PC100による高評価レビュー記事の分類処理の流れを示したフローチャートである。
【0048】
同図に示すように、まずPC100のCPU101は、上記商品X高評価レビューDB11から、各高評価レビュー記事12のテキストデータを取得する(ステップ81)。続いてCPU101は、取得した高評価レビュー記事12のうち、ビューポイント毎のキーワードを含むレビュー記事の数をそれぞれカウントする(ステップ82)。
【0049】
そしてCPU101は、上記カウントした数を基に、商品Xのレビュー記事において、特定のキーワードを含むレビュー記事の、ビューポイント毎の発生率を算出する(ステップ83)。
【0050】
続いてCPU101は、商品Xについての上記ステップ81〜ステップ83の処理を、商品Yについても同様に実行する(ステップ84〜ステップ86)。
【0051】
そしてCPU101は、商品Xと商品Yについてそれぞれ算出されたビューポイント毎のキーワード発生率を、グラフ化して表示部106から出力する(ステップ87)。
【0052】
図9は、図8の処理のうちキーワード発生率のカウント処理(ステップ82及びステップ85)の流れを示すフローチャートである。
【0053】
同図に示すように、CPU101は、商品X及び商品Yの高評価レビュー記事12、22を取得する(ステップ91)。続いてCPU101は、上記ビューポイントテーブル15から、ビューポイント毎のキーワードを取得する(ステップ92)。
【0054】
続いてCPU101は、各高評価レビュー記事が、ビューポイント毎のキーワードを含むか否かを判断する(ステップ93)。当該キーワードが含まれる場合(YES)、CPU101は、該当のビューポイントに関するキーワードの発生カウンターをインクリメントする(ステップ94)。
【0055】
続いてCPU101は、上記ステップ93及びステップ94の処理を、特定のビューポイントにおける全てのキーワードについて実行したか否かを判断する(ステップ95)。例えばCPU101は、「画質」というビューポイントについて、上記図2で示したキーワード"Picture"及び"Image"のそれぞれについてその発生数をカウントしたか否かを判断する。
【0056】
CPU101は、上記ステップ92〜95の処理を、それが全ての高評価レビュー記事について、また全てのビューポイントについて完了するまで繰り返し実行する(ステップ96)。
【0057】
図10は、上記算出された各商品X及びYについてのビューポイント毎のキーワード発生率の出力画面の例を示した図である。同図に示すように、当該出力画面では、商品Xと商品Yの、各ビューポイント(画質、音質、外観)毎のキーワード発生率が例えば棒グラフにより比較可能に表示される。同図の例からは、画質及び音質については商品Xの方がやや勝っており、外観については商品Yの方がだいぶ勝っていることが分かる。したがって分析者は、例えば、他社商品Yと競争するためには、自社商品Xの外観をより強化する必要があることを瞬時に把握することができる。
【0058】
さらに、この表示画面において、各ビューポイント毎のキーワード発生率のプロット値(10a〜10f)は、商品毎に、それぞれ高評価レビュー記事の総数という共通の分母により算出された値である。すなわち、各プロット値は、全ての高評価レビュー記事の中で、それぞれのビューポイントが占める割合を示しており、換言すれば、消費者の各ビューポイントに対する関心の高さを示している。したがって分析者は、この表示画面において、同じ商品の各プロット値同士を比較すれば、各商品について、消費者がどのビューポイントについて関心を持っているか、また持っていないかを把握することができる。例えば、商品Xについて、画質についてのプロット値10a、音質についてのプロット値10c及び外観についてのプロット値10eとを比較すると、画質に比べて音質及び外観についての消費者の声はだいぶ少ないことが分かる。したがって分析者は、例えば、他社商品Yに比べて自社商品Xの音質は劣ってはいないものの、画質に比べればより強化すべきである、といった分析を行うことができる。これは、各ビューポイント毎のプロットが例えばレーダーチャート等の正規化されたグラフで出力される場合に比べて極めて有効であると言える。
【0059】
[まとめ]
以上説明したように、本実施形態によれば、処理対象となるレビュー記事が、高評価レビュー記事に限定された上で、各商品についての高評価レビュー記事の総数に対する、所定のキーワードを含むレビュー記事の数の比率が、各商品についての高評価レビュー記事の総数に対する、特定のビューポイントを高評価するレビュー記事の数の比率として算出され、比較可能に出力される。これにより、従来のような膨大な辞書を用いた時間と負荷の掛かる処理を行わなくとも、キーワードの選定を行うだけで誰でも容易に2つの商品の比較分析を行うことができる。
【0060】
[変形例]
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。
【0061】
上述の実施形態においては、テレビジョンの評価項目として、画質、音質、外観の3つが例に挙げられたが、もちろん、評価項目はこれらに限られない。同じくテレビジョンであっても、例えば特徴性、価格、色の再現性、設置容易性、メニューの利便性、ブラックレベル、外部接続性、操作性等、他のさまざまな評価項目について上述の実施形態と同様の比較分析が実現されうる。また上述の実施形態では評価対象物の例としてテレビジョンが挙げられたが、もちろん、テレビジョン以外のあらゆる商品またはサービスについても同様にあらゆる評価項目について比較分析が可能である。
【0062】
上述の実施形態においては、2つの商品についてキーワード発生率が算出され比較可能に出力されたが、3つ以上の商品についての各キーワード発生率が同様に算出され比較可能に出力されてもよい。
【0063】
上述の実施形態では、高評価レビュー記事は英語で記載されていることを前提に、英語のキーワード用いられたが、本発明はもちろんあらゆる言語に対応可能である。
【符号の説明】
【0064】
11、21…高評価レビューDB
12、22…高評価レビュー記事
15…ビューポイントテーブル
100…PC
101…CPU
106…表示部
108…記憶部
【技術分野】
【0001】
本発明は、2つの商品またはサービスに関するそれぞれの評価情報を分析比較することが可能な情報処理装置、情報処理方法及びそのプログラムに関する。
【背景技術】
【0002】
インターネット上には、商品やサービスに対する消費者の評価が記載されたテキスト情報(評価情報)が大量に存在している。そして、商品の供給者により、このような評価情報をいわゆるVOC(Voice of the Customer)として、ユーザの感性の評価や品質改善項目の抽出等のさまざまな目的に役立てようとする試みが行われている。
【0003】
上記評価情報をコンピュータ上で処理する技術として、例えばデータマイニングが挙げられる。しかし、データマイニングでは膨大なリソースの準備及びインプットが必要な場合が多いにもかかわらず、現状では、それに見合うだけのアウトプットが得られているとは言い難い。また、データマイニングの結果得られたアウトプットについて、各種統計手法を用いた解析がなされているが、これらの解析結果が意味するものは必ずしも明確ではなく、分析者個人の主観的な解釈を必要とするものも多い。
【0004】
また下記特許文献1には、評判情報取得手段と、評判情報分類手段と、カテゴリスコア算出手段と、カテゴリソート手段と、評判情報出力手段とを有する評判情報処理装置が記載されている。評判情報取得手段は、対象事物の性質を表す属性表現(例えば「デザイン」等)とその属性表現に対する評価を表す評価表現(例えば「かっこいい」等)との組からなる評判情報、及び、その評判情報が評判としてどの程度適切かを表す評判情報スコアを取得する。評判情報分類手段は、評判情報を、第1階層において複数のカテゴリに分類し、その第1階層のカテゴリごとの評判情報を第2階層において複数のカテゴリに分類し、各カテゴリにカテゴリ名を付与する。カテゴリスコア算出手段は、評判情報スコアをもとに、各階層におけるカテゴリに対してカテゴリスコアを算出する。カテゴリソート手段は、各階層におけるカテゴリをカテゴリスコアの大きい順に並び替える。評判情報出力手段は、第1階層のカテゴリ名のうち1つが入力された場合に、そのカテゴリ名を持つカテゴリの属する第2階層のカテゴリ名を出力する。ここで、第1階層のカテゴリ名は「かっこいい」等の評価表現とされ、第2階層のカテゴリ名は「デザイン」等の属性表現とされる(図18等参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第4361526号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記特許文献1に記載の評判情報処理装置では、属性表現と評価表現との組からなる評判情報を取得するにあたり、予め、属性表現リスト及び評価表現リストを用意し、それらと、分析対象文書中の表現とのマッチングを行っている。しかしながら、このような手法では、対象とする文書の数が多くなればなるほど、処理の初期段階としての属性表現リスト及び評価表現リストの構築処理、及び、それによる評判情報の取得処理に大きな負荷が掛かることとなる。
【0007】
また、上記評判情報処理装置では、評判情報が評判としてどの程度適切かを表す評判情報スコアを、属性表現と対象事物との関連度を算出して取得し、それを基に最終的な出力結果におけるカテゴリスコアを算出している。具体的には、関連度rは、文書集合の中で属性表現と対象事物がともに出現する文書の数をa、属性表現のみが出現する文書の数をb、対象事物のみが出現する文書の数をcとしたときに、r=2a/(2a+b+c)として算出される。しかしながら、文章集合中には、当然ながら肯定の評価表現を含む文書と否定の評価表現を含む文書とが存在し、また1つの文書に肯定と否定の矛盾する評価表現が含まれている場合もある。したがって上記関連度rを算出するのみでは、評判情報に対する信頼性を保証することにならない。
【0008】
さらに、上記特許文献1に記載の評判情報処理装置では、最終的な評判情報の出力画面において、「かっこいい」、「よい」等のさまざまな評価表現がそのままカテゴリ名として出力される。しかも、その評判情報は1つの製品のみに関するものである。したがって、その出力画面の閲覧者は、どの製品がどの属性についてどの製品よりもどれほど優れているかといったように、2つ以上の製品間で評判情報を比較することができない。
【0009】
以上のような事情に鑑み、本発明の目的は、2つの評価対象物に対する各評価情報の比較分析を高い精度で容易かつ迅速に行うことが可能な情報処理装置、情報処理方法及びそのプログラムを提供することにある。
【課題を解決するための手段】
【0010】
上記目的を達成するため、本発明の一形態に係る情報処理装置は、記憶部と、制御部と、出力部とを有する。上記記憶部は、第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、上記所定以上の評価レベルに分類された複数の第2の高評価情報とを記憶する。さらに記憶部は、上記第1の評価対象物及び上記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードを記憶する。上記制御部は、上記第1の高評価情報の総数に対する上記所定のキーワードを含む第1の高評価情報の第1の比率と、上記第2の高評価情報の総数に対する上記所定のキーワードを含む第2の高評価情報の第2の比率とをそれぞれ算出する。上記出力部は、上記第1の比率と上記第2の比率とを、それぞれ、上記第1の高評価情報の総数に対する、上記所定の評価項目を高評価した上記第1の高評価情報の比率と、上記第2の高評価情報の総数に対する、上記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力する。
【0011】
この構成により情報処理装置は、2つの評価対象物に対する各高評価情報の総数に対する、上記所定のキーワードを含む高評価情報の比率を算出するだけで、それらを、各高評価情報の総数に対する、上記所定の評価項目を高評価した高評価情報の比率としてそれぞれ比較可能に出力できる。各評価文書情報の比較が、数ではなく比率で行われることで、たとえ上記所定のキーワードを含む高評価情報中に、所定の評価項目を低評価した高評価情報が含まれていたとしても、その情報が抽出されることによるエラーはキャンセルされる。したがって情報処理装置は、各高評価情報中に、所定の評価項目を高評価したものが含まれる比率を算出することなく、2つの評価対象物に対する各評価情報の比較分析を高い精度で容易かつ迅速に行うことができる。したがって分析者は、例えば自社商品と他社商品等、2つの評価対象物の上記所定の評価項目についての比較分析結果を瞬時に得て活用することができる。さらに情報処理装置は、上記所定のキーワードを多数の言語に対応させるだけで、あらゆる言語で記述された評価文書情報に対応可能となる。ここで評価対象物とはあらゆる商品及びサービスを含む。また所定以上の評価レベルとは、例えば上記評価文書情報が評価1〜評価5の5つのレベルの評価に分類されている場合、評価5、もしくは評価4以上等である。また所定の評価項目とは、例えばテレビジョンが評価対象物である場合には、画質、音質、外観等である。所定のキーワードとしては、例えば評価項目が画質であれば、"picture"、"image"、"motion"等、他の評価項目との関連性がほとんど無いものが選択される。
【0012】
上記記憶部は、複数の上記所定の評価項目にそれぞれ対応する複数の所定のキーワードを記憶してもよい。この場合上記制御部は、上記第1の比率と上記第2の比率とを、上記複数の所定の評価項目毎に算出してもよい。この場合上記出力部は、上記第1の比率と、上記第2の比率とを、上記複数の所定の評価項目毎に比較可能に出力してもよい。
【0013】
これにより情報処理装置は、複数の評価項目毎に2つの評価対象物に関する第1の比率及び第2の比率を算出して比較可能に出力できる。ここで各評価項目についての各第1の比率と各第2の比率とは、それぞれ分母を共通にしているため、例えばレーダーチャートのように正規化された出力結果に比べて、評価項目間での各第1の比率または各第2の比率の比較が可能となる。したがって、分析者は、ある評価対象物について消費者がどの評価項目に興味を示しているか、または示してないかといったことも把握し、それを商品開発等に反映させることができる。
【0014】
本発明の他の形態に係る情報処理方法は、第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、上記所定以上の評価レベルに分類された複数の第2の高評価情報と、上記第1の評価対象物及び上記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとを記憶することを含む。この情報処理方法では、上記第1の高評価情報の総数に対する上記所定のキーワードを含む第1の高評価情報の第1の比率と、上記第2の高評価情報の総数に対する上記所定のキーワードを含む第2の高評価情報の第2の比率とがそれぞれ算出される。さらに、上記第1の比率と上記第2の比率とが、それぞれ、上記第1の高評価情報の総数に対する、上記所定の評価項目を高評価した上記第1の高評価情報の比率と、上記第2の高評価情報の総数に対する、上記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力される。
【0015】
本発明のまた別の形態に係るプログラムは、情報処理装置に、記憶ステップと、算出ステップと、出力ステップとを実行させる。上記記憶ステップでは、第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、上記所定以上の評価レベルに分類された複数の第2の高評価情報と、上記第1の評価対象物及び上記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとが記憶される。上記算出ステップでは、上記第1の高評価情報の総数に対する上記所定のキーワードを含む第1の高評価情報の第1の比率と、上記第2の高評価情報の総数に対する上記所定のキーワードを含む第2の高評価情報の第2の比率とがそれぞれ算出される。上記出力ステップでは、上記第1の比率と上記第2の比率とを、それぞれ、上記第1の高評価情報の総数に対する、上記所定の評価項目を高評価した上記第1の高評価情報の比率と、上記第2の高評価情報の総数に対する、上記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力される。
【発明の効果】
【0016】
以上説明したように、本発明によれば、2つの評価対象物に対する各評価情報の比較分析を高い精度で容易かつ迅速に行うことができる。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施形態に係るPCの構成を示すブロック図である。
【図2】本発明の一実施形態に係るPCに記憶されるデータの構成を示した図である。
【図3】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図4】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図5】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図6】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図7】本実施形態における処理の前提として本発明者が検証した事項について説明した図である。
【図8】本実施形態におけるPCの高評価レビュー記事の分類処理の流れを示すフローチャートである。
【図9】図8の処理のうちキーワード発生率のカウント処理の流れを示すフローチャートである。
【図10】本実施形態におけるPCのキーワード発生率の出力画面の例を示した図である。
【発明を実施するための形態】
【0018】
以下、図面を参照しながら、本発明の実施形態を説明する。
【0019】
[情報処理装置の構成]
図1は、本発明の一実施形態に係る情報処理装置としてのPC(Personal Computer)の構成を示すブロック図である。
【0020】
PC100は、CPU(Central Processing Unit)101、ROM102(Read Only Memory)、RAM(Random Access Memory)103、入出力インターフェース105、及び、これらを互いに接続するバス104を備える。
【0021】
CPU101は、必要に応じてRAM103等に適宜アクセスし、各種演算処理を行いながらPC100の各ブロック全体を統括的に制御する。ROM102は、CPU101に実行させるOS、プログラムや各種パラメータなどのファームウェアが固定的に記憶されている不揮発性のメモリである。RAM103は、CPU101の作業用領域等として用いられ、OS、実行中の各種プログラム、処理中の各種データを一時的に保持する。
【0022】
入出力インターフェース105には、表示部106、入力部107、記憶部108、通信部109、ドライブ部110等が接続される。
【0023】
表示部106は、例えば液晶、EL(Electro-Luminescence)、CRT(Cathode Ray Tube)等を用いた表示デバイスである。当該表示部106は、PC100に内蔵されていてもよいし、PC100に外部接続されていてもよい。
【0024】
入力部107は、例えばポインティングデバイス、キーボード、タッチパネル、その他の操作装置である。入力部107がタッチパネルを含む場合、そのタッチパネルは表示部106と一体となり得る。
【0025】
記憶部108は、例えばHDD(Hard Disk Drive)や、フラッシュメモリ、その他の固体メモリ等の不揮発性メモリである。当該記憶部108には、後述する高評価レビューやキーワード用シソーラスが記憶される。
【0026】
ドライブ部110は、例えば光学記録媒体、フロッピー(登録商標)ディスク、磁気記録テープ、フラッシュメモリ等、リムーバブルの記録媒体111を駆動することが可能なデバイスである。これに対し上記記憶部108は、主にリムーバブルでない記録媒体を駆動する、PC100に予め搭載されたデバイスとして使用される場合が多い。
【0027】
通信部109は、LAN(Local Area Network)、WAN(Wide Area Network)等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部109は、有線及び無線のどちらを利用して通信するものであってもよい。通信部109は、PC100とは別体で使用される場合が多い。
【0028】
[情報処理装置におけるデータ構成]
次に、上記PC100の上記記憶部108に記憶されるデータの構成について説明する。図2は、当該データ構成を示した図である。
【0029】
同図に示すように、記憶部108は、商品Xに関する多数の高評価レビュー記事12からなる商品X高評価レビューDB(データベース)11、商品Yに関する多数の高評価レビュー記事22からなる商品Y高評価レビューDB21を記憶している。
【0030】
各高評価レビューDBは、PC100が例えば上記通信部109によりインターネット上の1つまたは複数のレビューサイトから、比較対象となる商品Xと商品Yの各レビュー記事のうち、所定以上の高評価レベルに分類されたレビュー記事を取得することで形成される。
【0031】
周知のように、レビューサイトの多くは、例えば★マークの数により各商品に対する消費者の評価を複数レベル(例えば評価1(1つ星)〜評価5(5つ星)の5つのレベル)に分類している。PC100は、数多くのレビュー記事の中からまず商品Xと商品Yの各レビュー記事を例えば商品名(型番)をキーに抽出し、さらにそれらの中から高評価レベル(例えば5つ星)に分類された複数の高評価レビュー記事12、22を抽出して、商品X及び商品Yの各高評価レビューDB11、21を形成する。抽出される高評価レビュー記事の数は、各商品についてそれぞれ数百〜千程度であるが、これに限られない。またPC100は、当該抽出された各高評価レビュー記事12、22を格納したリムーバブルの記録媒体111から当該各高評価レビュー記事12、22をロードすることで上記各高評価レビューDB11、21を形成しても構わない。
【0032】
また記憶部108は、消費者が各商品X及びYを評価している項目(以下、ビューポイント)毎に所定のキーワードを対応付けたビューポイントテーブル15も記憶している。本実施形態では、例えば商品X及びYが異なるメーカーの液晶テレビである場合を想定している。この場合ビューポイントは例えば画質、音質、外観等であり、画質に対するキーワードは例えば"Picture"、"Image"等、音質に対するキーワードは例えば"Sound"、"Audio"等、外観に対するキーワードは例えば"Design"、"Appearance"等である。これらのキーワードとしては、例えば汎用のシソーラスを基に、各ビューポイントに極めて関連性の高い(他のビューポイントに極めて関連性の低い)ものが選択される。これは、後述するように、キーワードを含む高評価レビュー記事12、22のビューポイント毎の発生頻度を算出する際のエラーを極力なくすためである。
【0033】
またここで、抽出するレビュー記事が、高評価のレビュー記事に限定されているのは、後述するように、そのようなレビュー記事は、内容も表現も一定のパターンをとりやすく、上記キーワードがヒットしやすいためである。
【0034】
[検証事項]
次に、本実施形態における処理の前提として本発明者が検証した事項について説明する。図3〜図7は、その検証事項を説明するための図である。
【0035】
本実施形態では、2つの商品XとYに対するレビュー記事を基に、分析者が迅速かつ容易にビューポイント毎の両商品の比較分析が行えるようなシステムを構築することを目標としている。そのためには、本来的には、上記商品X高評価レビューDB11及び商品Y高評価レビューDB21に格納された全ての高評価レビュー記事のうち、特定のビューポイントについての高評価レビュー記事の比率がそれぞれ求められればよい。これにより商品Xと商品Yとについて消費者がそれぞれどのビューポイントをどれほど評価しているかが把握され両者が比較可能となるからである。すなわち、図3に示すように、例えば商品Xについて集合Uを定義した場合、「画質」というビューポイントについて高評価を与えているレビュー記事の比率(同図Ax+Bx/Ux+Ax+Bx+Cx)が求められるのが望ましい。しかし、この特定のビューポイントを高評価した高評価レビュー記事の比率を抽出するのは容易なことではない。なぜなら、単に高評価レビュー記事であるというだけでは、それがどのビューポイントに関するものであるかは不明であり、当該高評価レビュー記事の内容を解析してそれを明らかにする必要があるからである。
【0036】
そこで本実施形態では、同図に示すように、全ての高評価レビュー記事の数に対する例えば上記「画質」というビューポイントを高評価したレビュー記事の比率を、特定のキーワード(例えば"Picture")を含む高評価レビュー記事の比率(同図Bx+Cx/Ux+Ax+Bx+Cx)で代替することとしている。以下、このような代替が可能であることの根拠について説明する。
【0037】
図4に示すように、商品Xについての高評価レビュー記事12の集合Ux及び商品Yについての高評価レビュー記事22の集合Uyを定義する。同図における各要素Ax、Bx、Cx、Ay、By及びCyは上記図3に示したものと同様である。
【0038】
ここで、集合Uxに属する高評価レビュー記事の総数と、集合Uyに属するレビュー記事の総数とは、商品の質が異なれば、同一とはならないと考えられる。しかし、サンプルとなる高評価レビュー記事のデータ数が十分多い場合には、いずれの集合においても、例えば"Picture"というキーワードを含むレビュー記事(要素Bx+Cx)が、画質というビューポイントを高評価しているレビュー記事(要素Ax+Bx)に占める比率(Bx/Ax+Bx)は、商品によらず一定(α)である、という仮説(同図(1))が妥当すると考えられる。すなわち、この比率は商品の質に影響を受けないと考えられる。
【0039】
またこの場合、"Picture"というキーワードを含むレビュー記事(要素Bx+Cx)の中で、画質を高評価しているもの(要素Bx)と、そうでないもの(要素Cx)との比率も、商品によらず一定(β)である、という仮説(同図(2))も妥当すると考えられる。
【0040】
さらに、図5に示すように、レビュー記事のデータ数が十分多い場合には、複数の評価レベルに分類された全てのレビュー記事のうち、高評価(5★)に分類されたレビュー記事においては、"Picture"という単語を含むレビュー記事(要素Bx+Cx)は、"Picture"というビューポイントに対して高評価の意見を述べている、という仮説も概ね妥当すると考えられる。高評価のレビュー記事で現れる単語は、総じて肯定的な記事を構成する場合が多いと考えられるからである。実際、本発明者は、数千の高評価レビュー記事を閲覧して、上記仮説が妥当であることを確認している。
【0041】
そして、上述したが、図6に示すように、本来的に商品間で比較したい比率は、各商品についての高評価レビュー記事の総数に対する、画質を高評価するレビュー記事の数の比率(同図(a))である。この比率を正確に算出するのは困難である一方、各商品についての高評価レビュー記事の総数に対する、キーワード"picture"を含むレビュー記事の数の比率(同図(b))は、機械的にPC100で算出することができる。
【0042】
また、当然ながら、上記要素(Ax+Bx)と要素(Bx+Cx)に属するレビュー記事の数は異なっている。また、あるレビュー記事に特定のキーワード(例えば"picture")が含まれていても、そのレビュー記事がそのキーワードに対応するビューポイント(例えば「画質」)を高評価していない場合(要素Cx)もある。しかしながら、上記キーワードを含むレビュー記事について、その数ではなく「比率」が算出され、その比率同士が商品間で比較されれば、上記要素(Ax+Bx)と要素(Bx+Cx)との差はキャンセルされ、問題にならなくなると考えられる。
【0043】
したがって、上記比率(a)と比率(b)とが等しいという命題が証明できれば、図3で説明した代替が可能であるということができる。
【0044】
そこで、この命題の証明を試みる。図7(I)及び(II)に示すように、上記式(1)及び(2)が成り立つ。ここで、同図(III)に示すように、Ax+Bx/Ay+Byは、Ax(1+α)/Ay(1+α)と変形できる。そして、上記式(1)及び(2)を用いれば、これはさらにBx+Cx/By+Cyと変形できる。
【0045】
さらに、同図(IV)に示すように、上記Ax+Bx/Ay+By=Bx+Cx/By+Cyの両辺に、(U+A+B+C)y/(U+A+B+C)xを乗算すると、両辺はそれぞれ上記比率(a)及び比率(b)と等しくなる。
【0046】
以上より、各商品についての高評価レビュー記事の総数に対する、画質を高評価するレビュー記事の数の比率(a)は、各商品についての高評価レビュー記事の総数に対する、キーワード"picture"を含むレビュー記事の数の比率(b)と等しいことが証明された。
【0047】
[情報処理装置の動作]
次に、以上の検証により証明された命題を用いた、PC100の動作について具体的に説明する。以降の説明においては、PC100のCPU101を主な動作主体として説明するが、この動作はCPU101の制御下において実行されるプログラムとも協働して行われる。図8は、PC100による高評価レビュー記事の分類処理の流れを示したフローチャートである。
【0048】
同図に示すように、まずPC100のCPU101は、上記商品X高評価レビューDB11から、各高評価レビュー記事12のテキストデータを取得する(ステップ81)。続いてCPU101は、取得した高評価レビュー記事12のうち、ビューポイント毎のキーワードを含むレビュー記事の数をそれぞれカウントする(ステップ82)。
【0049】
そしてCPU101は、上記カウントした数を基に、商品Xのレビュー記事において、特定のキーワードを含むレビュー記事の、ビューポイント毎の発生率を算出する(ステップ83)。
【0050】
続いてCPU101は、商品Xについての上記ステップ81〜ステップ83の処理を、商品Yについても同様に実行する(ステップ84〜ステップ86)。
【0051】
そしてCPU101は、商品Xと商品Yについてそれぞれ算出されたビューポイント毎のキーワード発生率を、グラフ化して表示部106から出力する(ステップ87)。
【0052】
図9は、図8の処理のうちキーワード発生率のカウント処理(ステップ82及びステップ85)の流れを示すフローチャートである。
【0053】
同図に示すように、CPU101は、商品X及び商品Yの高評価レビュー記事12、22を取得する(ステップ91)。続いてCPU101は、上記ビューポイントテーブル15から、ビューポイント毎のキーワードを取得する(ステップ92)。
【0054】
続いてCPU101は、各高評価レビュー記事が、ビューポイント毎のキーワードを含むか否かを判断する(ステップ93)。当該キーワードが含まれる場合(YES)、CPU101は、該当のビューポイントに関するキーワードの発生カウンターをインクリメントする(ステップ94)。
【0055】
続いてCPU101は、上記ステップ93及びステップ94の処理を、特定のビューポイントにおける全てのキーワードについて実行したか否かを判断する(ステップ95)。例えばCPU101は、「画質」というビューポイントについて、上記図2で示したキーワード"Picture"及び"Image"のそれぞれについてその発生数をカウントしたか否かを判断する。
【0056】
CPU101は、上記ステップ92〜95の処理を、それが全ての高評価レビュー記事について、また全てのビューポイントについて完了するまで繰り返し実行する(ステップ96)。
【0057】
図10は、上記算出された各商品X及びYについてのビューポイント毎のキーワード発生率の出力画面の例を示した図である。同図に示すように、当該出力画面では、商品Xと商品Yの、各ビューポイント(画質、音質、外観)毎のキーワード発生率が例えば棒グラフにより比較可能に表示される。同図の例からは、画質及び音質については商品Xの方がやや勝っており、外観については商品Yの方がだいぶ勝っていることが分かる。したがって分析者は、例えば、他社商品Yと競争するためには、自社商品Xの外観をより強化する必要があることを瞬時に把握することができる。
【0058】
さらに、この表示画面において、各ビューポイント毎のキーワード発生率のプロット値(10a〜10f)は、商品毎に、それぞれ高評価レビュー記事の総数という共通の分母により算出された値である。すなわち、各プロット値は、全ての高評価レビュー記事の中で、それぞれのビューポイントが占める割合を示しており、換言すれば、消費者の各ビューポイントに対する関心の高さを示している。したがって分析者は、この表示画面において、同じ商品の各プロット値同士を比較すれば、各商品について、消費者がどのビューポイントについて関心を持っているか、また持っていないかを把握することができる。例えば、商品Xについて、画質についてのプロット値10a、音質についてのプロット値10c及び外観についてのプロット値10eとを比較すると、画質に比べて音質及び外観についての消費者の声はだいぶ少ないことが分かる。したがって分析者は、例えば、他社商品Yに比べて自社商品Xの音質は劣ってはいないものの、画質に比べればより強化すべきである、といった分析を行うことができる。これは、各ビューポイント毎のプロットが例えばレーダーチャート等の正規化されたグラフで出力される場合に比べて極めて有効であると言える。
【0059】
[まとめ]
以上説明したように、本実施形態によれば、処理対象となるレビュー記事が、高評価レビュー記事に限定された上で、各商品についての高評価レビュー記事の総数に対する、所定のキーワードを含むレビュー記事の数の比率が、各商品についての高評価レビュー記事の総数に対する、特定のビューポイントを高評価するレビュー記事の数の比率として算出され、比較可能に出力される。これにより、従来のような膨大な辞書を用いた時間と負荷の掛かる処理を行わなくとも、キーワードの選定を行うだけで誰でも容易に2つの商品の比較分析を行うことができる。
【0060】
[変形例]
本発明は上述の実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更され得る。
【0061】
上述の実施形態においては、テレビジョンの評価項目として、画質、音質、外観の3つが例に挙げられたが、もちろん、評価項目はこれらに限られない。同じくテレビジョンであっても、例えば特徴性、価格、色の再現性、設置容易性、メニューの利便性、ブラックレベル、外部接続性、操作性等、他のさまざまな評価項目について上述の実施形態と同様の比較分析が実現されうる。また上述の実施形態では評価対象物の例としてテレビジョンが挙げられたが、もちろん、テレビジョン以外のあらゆる商品またはサービスについても同様にあらゆる評価項目について比較分析が可能である。
【0062】
上述の実施形態においては、2つの商品についてキーワード発生率が算出され比較可能に出力されたが、3つ以上の商品についての各キーワード発生率が同様に算出され比較可能に出力されてもよい。
【0063】
上述の実施形態では、高評価レビュー記事は英語で記載されていることを前提に、英語のキーワード用いられたが、本発明はもちろんあらゆる言語に対応可能である。
【符号の説明】
【0064】
11、21…高評価レビューDB
12、22…高評価レビュー記事
15…ビューポイントテーブル
100…PC
101…CPU
106…表示部
108…記憶部
【特許請求の範囲】
【請求項1】
第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、前記所定以上の評価レベルに分類された複数の第2の高評価情報と、前記第1の評価対象物及び前記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとを記憶する記憶部と、
前記第1の高評価情報の総数に対する前記所定のキーワードを含む第1の高評価情報の第1の比率と、前記第2の高評価情報の総数に対する前記所定のキーワードを含む第2の高評価情報の第2の比率とをそれぞれ算出する制御部と、
前記第1の比率と前記第2の比率とを、それぞれ、前記第1の高評価情報の総数に対する、前記所定の評価項目を高評価した前記第1の高評価情報の比率と、前記第2の高評価情報の総数に対する、前記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力する出力部と
を具備する情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記記憶部は、複数の前記所定の評価項目にそれぞれ対応する複数の所定のキーワードを記憶し、
前記制御部は、前記第1の比率と前記第2の比率とを、前記複数の所定の評価項目毎に算出し、
前記出力部は、前記第1の比率と、前記第2の比率とを、前記複数の所定の評価項目毎に比較可能に出力する
情報処理装置。
【請求項3】
第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、前記所定以上の評価レベルに分類された複数の第2の高評価情報と、前記第1の評価対象物及び前記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとを記憶し、
前記第1の高評価情報の総数に対する前記所定のキーワードを含む第1の高評価情報の第1の比率と、前記第2の高評価情報の総数に対する前記所定のキーワードを含む第2の高評価情報の第2の比率とをそれぞれ算出し、
前記第1の比率と前記第2の比率とを、それぞれ、前記第1の高評価情報の総数に対する、前記所定の評価項目を高評価した前記第1の高評価情報の比率と、前記第2の高評価情報の総数に対する、前記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力する
情報処理方法。
【請求項4】
情報処理装置に、
第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、前記所定以上の評価レベルに分類された複数の第2の高評価情報と、前記第1の評価対象物及び前記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとを記憶するステップと、
前記第1の高評価情報の総数に対する前記所定のキーワードを含む第1の高評価情報の第1の比率と、前記第2の高評価情報の総数に対する前記所定のキーワードを含む第2の高評価情報の第2の比率とをそれぞれ算出するステップと、
前記第1の比率と前記第2の比率とを、それぞれ、前記第1の高評価情報の総数に対する、前記所定の評価項目を高評価した前記第1の高評価情報の比率と、前記第2の高評価情報の総数に対する、前記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力するステップと
を実行させるプログラム。
【請求項1】
第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、前記所定以上の評価レベルに分類された複数の第2の高評価情報と、前記第1の評価対象物及び前記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとを記憶する記憶部と、
前記第1の高評価情報の総数に対する前記所定のキーワードを含む第1の高評価情報の第1の比率と、前記第2の高評価情報の総数に対する前記所定のキーワードを含む第2の高評価情報の第2の比率とをそれぞれ算出する制御部と、
前記第1の比率と前記第2の比率とを、それぞれ、前記第1の高評価情報の総数に対する、前記所定の評価項目を高評価した前記第1の高評価情報の比率と、前記第2の高評価情報の総数に対する、前記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力する出力部と
を具備する情報処理装置。
【請求項2】
請求項1に記載の情報処理装置であって、
前記記憶部は、複数の前記所定の評価項目にそれぞれ対応する複数の所定のキーワードを記憶し、
前記制御部は、前記第1の比率と前記第2の比率とを、前記複数の所定の評価項目毎に算出し、
前記出力部は、前記第1の比率と、前記第2の比率とを、前記複数の所定の評価項目毎に比較可能に出力する
情報処理装置。
【請求項3】
第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、前記所定以上の評価レベルに分類された複数の第2の高評価情報と、前記第1の評価対象物及び前記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとを記憶し、
前記第1の高評価情報の総数に対する前記所定のキーワードを含む第1の高評価情報の第1の比率と、前記第2の高評価情報の総数に対する前記所定のキーワードを含む第2の高評価情報の第2の比率とをそれぞれ算出し、
前記第1の比率と前記第2の比率とを、それぞれ、前記第1の高評価情報の総数に対する、前記所定の評価項目を高評価した前記第1の高評価情報の比率と、前記第2の高評価情報の総数に対する、前記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力する
情報処理方法。
【請求項4】
情報処理装置に、
第1の評価対象物に対する、複数の評価レベルに分類された複数の第1の評価文書情報のうち、所定以上の評価レベルに分類された複数の第1の高評価情報と、第2の評価対象物に対する、複数の評価レベルに分類された複数の第2の評価文書情報のうち、前記所定以上の評価レベルに分類された複数の第2の高評価情報と、前記第1の評価対象物及び前記第2の評価対象物に対する所定の評価項目に対応する所定のキーワードとを記憶するステップと、
前記第1の高評価情報の総数に対する前記所定のキーワードを含む第1の高評価情報の第1の比率と、前記第2の高評価情報の総数に対する前記所定のキーワードを含む第2の高評価情報の第2の比率とをそれぞれ算出するステップと、
前記第1の比率と前記第2の比率とを、それぞれ、前記第1の高評価情報の総数に対する、前記所定の評価項目を高評価した前記第1の高評価情報の比率と、前記第2の高評価情報の総数に対する、前記所定の評価項目を高評価した第2の高評価情報の比率として、比較可能に出力するステップと
を実行させるプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2011−118778(P2011−118778A)
【公開日】平成23年6月16日(2011.6.16)
【国際特許分類】
【出願番号】特願2009−277016(P2009−277016)
【出願日】平成21年12月4日(2009.12.4)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成23年6月16日(2011.6.16)
【国際特許分類】
【出願日】平成21年12月4日(2009.12.4)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]