興味分析方法及び興味分析装置

【課題】概念出現の希少性を利用してユーザの興味を高精度に推定すること。
【解決手段】特徴スコア算出部１２０は、複数のコンテンツを一覧として閲覧した第１のコンテンツリストと、そこからコンテンツ本体を閲覧した第２のコンテンツリストとをクラスタ化し、クラスタ毎に、第１のコンテンツリスト及び第２のコンテンツリストから分析パラメータＳ、Ｎ、ａ、ｎを求め、Ｓ、Ｎ、ａの条件下で、第２のコンテンツリストに概念の出現するコンテンツの数が、ｎ以上となる第１の確率及びｎ以下となる第２の確率を算出し、第１の確率及び第２の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する。概念体系更新処理部１３０は、クラスタ毎に算出した特徴スコアを用いて概念に対するユーザ興味スコアを更新する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、コンテンツ閲覧履歴等からユーザの興味を分析する興味分析方法及び興味分析装置に関する。
【背景技術】
【０００２】
ユーザの行動や状況に合わせて適切なサービス・コンテンツをレコメンドする技術が望まれている。このため、書籍通販サイトにて、サイト内での書籍情報閲覧履歴からユーザの興味を推定して書籍をレコメンドする等、履歴情報からユーザの興味を推定する技術が提案されている。このような方法において、各コンテンツに内容をサマライズするメタ情報が付与されていることを前提として、ユーザ履歴において出現する概念等の頻度からユーザの興味を推定する方法は、内容ベースフィルタリング手法（Content Based Filtering: CBF）で、特にメモリベース手法として研究が進められている。
【０００３】
具体的に、内容ベースフィルタリング技術とは、例えば特定ブランド（ブランドを示す情報を概念タグとして保持）の商品を閲覧した場合に、同じブランドの商品（同じ概念タグを保持）を提示する。この場合の、メモリベース手法は、過去に閲覧した履歴から、特定ブランドを頻繁に閲覧していれば、特定ブランドの商品を提示することとなる。単純な方法では、閲覧履歴により多く出現した概念タグに関連する商品を提示することとなる。このような手法においてタクソノミ（オントロジ）を利用した方法としては、例えば、非特許文献１の「操作履歴を用いた多面的嗜好把握方法の提案」がある。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】「操作履歴を用いた多面的嗜好把握方法の提案」，信学技報，vol. 110， no. 450， LOIS2010-76， pp. 67-72， 2011年3月
【発明の概要】
【発明が解決しようとする課題】
【０００５】
ところが、従来技術では、ユーザのコンテンツ閲覧履歴において、当該概念のコンテンツ出現数を指標化した数値によって推定を行っていた。しかし、この場合、コンテンツを選択した事実のみが入力となるため、ユーザが特定概念を持つコンテンツを比較的“選ばない”という特徴を活かすことができなかった。
【０００６】
この発明は上記事情に着目してなされたもので、その目的とするところは、概念出現の希少性を利用してユーザの興味を高精度に推定できる興味分析方法及び興味分析装置を提供することにある。
【課題を解決するための手段】
【０００７】
本発明は、上記目的を達成するために、以下のような手段を講じている。
本発明の第１の態様は、コンピュータによって複数の概念に対するユーザ興味スコアを体系化した概念体系を用いてユーザの興味を分析する方法及び装置であって、複数のコンテンツを一覧として閲覧した第１のコンテンツリストと、前記第１のコンテンツリストからコンテンツの本体を閲覧した第２のコンテンツリストとをクラスタ化し、前記クラスタ毎に、前記第１のコンテンツリストのコンテンツの総数を第１の総数と、前記第１のコンテンツリストにおいて前記概念が出現するコンテンツの数を第１の出現数と、前記第２のコンテンツリストのコンテンツの総数を第２の総数と、前記第２のコンテンツリストにおいて前記概念が出現するコンテンツの数を第２の出現数としたとき、前記第１の総数、前記第１の出現数、及び前記第２の総数の条件下で、前記第２のコンテンツリストに前記概念が出現するコンテンツの数が、前記第２の出現数以上となる第１の確率及び前記第２の出現数以下となる第２の確率を算出し、前記第１の確率及び前記第２の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出し、前記第１の確率及び前記第２の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出し、前記クラスタ毎に算出した特徴スコアを用いて前記概念に対する前記ユーザ興味スコアを更新することを特徴とする。
【０００８】
すなわち、第１の態様によれば、ユーザの選択候補となる第１のコンテンツリストにおける各概念が出現する第１のコンテンツ数と、第１のコンテンツリストからユーザが選択した第２のコンテンツリストにおける各概念が出現する第２のコンテンツ数とを算出し、この第１のコンテンツ数および第２のコンテンツ数を比較分析することで、各概念の出現の希少性を考慮し、且つ選択候補のコンテンツに付与されている概念が、比較的に「選ばれる」という事象だけでなく、比較的に「選ばれない」という事象の出現数の特徴を活用することができるため、ユーザの興味を高精度に推定することが可能となる。
【０００９】
本発明の第２の態様は、前記第１の態様の前記更新ステップにおいて、前記第２コンテンツに関するユーザの操作履歴、前記コンテンツの閲覧時間及び閲覧状況、並びに前記第２コンテンツと前記概念との関連度の少なくとも１つに応じて前記特徴スコアを重み付けすることをさらに特徴とするものである。
第２の態様によれば、ユーザ興味スコアの算出に際し、閲覧時のユーザの状況や閲覧操作の特徴（お気に入り登録、長時間閲覧等）などを反映することで、ユーザの行動や状況に基づいてユーザ興味スコアをさらに的確に求めることが可能となる。
【００１０】
本発明の第３の態様は、前記第１の態様の前記算出ステップにおいて、前記第１の確率及び前記第２の確率を超幾何分布により求めることを特徴とするものである。
第３の態様によれば、前記第２の確率を超幾何分布により求めることで、ユーザが特定概念を持つコンテンツを偶然と比べて比較的”選ぶ”という特徴だけでなく、ユーザが特定概念を持つコンテンツを偶然と比べて比較的“選ばない”という特徴を活用して、精度良くユーザの興味スコアを求めることが可能となる。
【００１１】
本発明の第４の態様は、前記第１の態様において、前記概念体系が前記概念間の上位概念、下位概念の関係情報を有する場合に、前記第１のコンテンツリスト及び前記第２のコンテンツリストのコンテンツに出現する出現概念の上位概念を前記概念体系から抽出し、前記上位概念が当該コンテンツに出現するものとみなして前記上位概念に対するユーザ興味スコアを更新することをさらに特徴とするものである。なお、前記概念体系の前記関係情報は、多数の前記概念が相互に関連を持つことでグラフ構造を持つことができる。グラフ構造を持つ場合は、各前記概念の直接の上位概念を「親概念」、直接の下位概念を「子概念」とよぶ。
【００１２】
第４の態様によれば、タクソノミ（オントロジ）などとして定義された概念関係性を表現する体系を用いたコンテンツ閲覧履歴分析において、コンテンツに出現した概念だけでなく、上位概念が付与されたコンテンツについても統計的な観点で合理的かつ的確に分析可能となる。
【００１３】
本発明の第５の態様は、前記第４の態様において、前記出現概念の下位概念及び前記上位概念の下位概念を前記概念体系から抽出し、前記出現概念のユーザ興味スコア及び前記上位概念のユーザ興味スコアを用いて前記下位概念のユーザ興味スコアを更新することをさらに特徴とするものである。
第５の態様によれば、さらに、コンテンツに出現した概念及び上位概念だけでなく、これらの下位概念についても合理的かつ的確に分析可能となる。
【００１４】
本発明の第６の態様は、前記第１の態様において、１つ以上の概念が出現するコンテンツについて、前記コンテンツに出現する各概念の前記ユーザ興味スコアを用いて、前記コンテンツに対するユーザの評価スコアを算出する評価ステップをさらに有することを特徴とするものである。
第６の態様によれば、前記ユーザ興味スコアを用いてコンテンツに対するユーザの評価スコアを算出することで、ユーザの興味に合ったコンテンツを推薦することが可能となる。
【００１５】
本発明の第７の態様は、前記第６の態様の前記評価ステップにおいて、前記コンテンツと各概念との関連度及び各概念の重要度の少なくとも１つに応じて前記ユーザ興味スコアを重み付けすることをさらに特徴とするものである。
第７の態様によれば、前記評価スコアの算出に際し、コンテンツと各概念との関連度や及び各概念の重要度などを反映することで、さらに精度良く評価スコアを算出することが可能となる。
【発明の効果】
【００１６】
すなわちこの発明によれば、概念出現の希少性を利用してユーザの興味を高精度に推定可能な興味分析方法及び興味分析装置を提供することができる。
【図面の簡単な説明】
【００１７】
【図１】本実施形態に係る興味分析装置を用いたシステム全体図。
【図２】図１の各装置の機能構成を示すブロック図。
【図３】興味分析装置の処理概要を示す図。
【図４】クライアント端末上でのコンテンツ閲覧操作の一例を示す図。
【図５】一覧閲覧コンテンツリストのデータ構成例を示す図。
【図６】詳細閲覧コンテンツのデータ構成例を示す図。
【図７】提示コンテンツリストのデータ構成例を示す図。
【図８】コンテンツデータベースの一例を示す図。
【図９】概念体系／ユーザ興味スコアデータベースの一例を示す図。
【図１０】履歴情報受信部の処理フローを示す図。
【図１１】特徴スコア算出部の処理フローを示す図。
【図１２】分析パラメータリストのデータ構成例を示す図。
【図１３】特徴スコア算出部の動作を説明するための模式図。
【図１４】特徴スコア算出処理の詳細を示す図。
【図１５】概念体系更新処理部の処理フローを示す図。
【図１６】概念体系更新処理の詳細を示す図。
【図１７】コンテンツ評価処理部の処理フローを示す図。
【図１８】コンテンツスコアリストの一例を示す図。
【図１９】コンテンツ評価処理の詳細を示す図。
【図２０】コンテンツ要求データの一例を示す図。
【発明を実施するための形態】
【００１８】
以下、図面を参照してこの発明の実施の形態について詳細に説明する。
図１は、本実施形態に係る興味分析装置を用いたシステム全体図である。このシステムは、クライアント端末２００と、コンテンツサーバ３００と、興味分析装置１００を備える。クライアント端末２００とコンテンツサーバ３００との間、及びコンテンツサーバ３００と興味分析装置１００との間はそれぞれ通信ネットワークで接続される。ユーザは、クライアント端末２００上での閲覧操作により、所望のコンテンツをコンテンツサーバ３００から取得し、取得したコンテンツをクライアント端末２００の画面に提示して閲覧する。
【００１９】
クライアント端末２００は、ユーザ操作によるコンテンツ閲覧履歴を収集し、複数のコンテンツを一覧として閲覧した一覧閲覧コンテンツリスト（第１のコンテンツリスト）と、コンテンツの一覧からコンテンツの本体を閲覧した詳細閲覧コンテンツリスト（第２のコンテンツリスト）とをコンテンツサーバ３００に送信する。コンテンツサーバ３００は、この一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを、通信ネットワークを介して興味分析装置１００に転送する。
【００２０】
興味分析装置１００は、この一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをもとに、コンテンツに出現する各概念に対する特徴スコア及びユーザ興味スコアを算出し、ユーザの興味を推定する。興味分析装置１００は、このユーザ興味スコアに基づいて、コンテンツサーバ３００から受け取った「提示コンテンツリスト」から、ユーザの興味に合わせてソートを行ったコンテンツのリスト（ソート済み提示コンテンツリスト）を生成し、コンテンツサーバ３００に送信する。
【００２１】
図２は、図１の各装置の機能構成を示すブロック図である。
興味分析装置１００は、履歴情報受信部１１０、特徴スコア算出部１２０、概念体系更新処理部１３０、概念体系／ユーザ興味スコアデータベース１４０、提示コンテンツリスト受信部１５０、コンテンツデータベース１６０、コンテンツ評価処理部１７０、及びソート済みコンテンツスコアリスト送信部１８０を備える。
【００２２】
図３は、興味分析装置１００の処理概要を示したものである。
履歴情報受信部１１０は、クライアント端末２００からの一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをコンテンツサーバ３００を介して受信する。一覧閲覧コンテンツリストとは、例えば、ユーザがコンテンツのタイトルのみを一覧で閲覧したコンテンツのリストである。詳細閲覧コンテンツリストとは、ユーザがコンテンツ本体の内容（詳細）を閲覧したコンテンツのリストである。例えば、図３において、一覧閲覧コンテンツリストには、コンテンツ１〜８が含まれ、詳細閲覧コンテンツリストには、コンテンツ１，３，４が含まれる。また、図３において、斜線パターンで示すコンテンツは、概念Ｂがコンテンツ１，６，７，８に出現することを示す。
【００２３】
特徴スコア算出部１２０は、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを利用して概念選択の統計モデルにより各概念の特徴スコア（後述するＺ値）を算出する。
概念体系更新処理部１３０は、上記特徴スコアを用いて概念体系における概念間の関係情報（上位概念及び下位概念）に基づいて各概念に対するユーザ興味スコアを更新する。概念体系のグラフに含まれるノードは概念を表し、リンクは概念間の関係を表す。ユーザ興味スコアは、概念体系における各概念に対応するノードの値として保持する。概念体系において、上位に位置するノードほど抽象的な概念を表し、下位に位置するノードほど具体的な概念を表す。概念体系及び概念ＩＤ（ノード毎に付与される識別子）は、サービス運用者等が事前に設計し定義するものとする。
【００２４】
コンテンツ評価処理部１７０は、評価コンテンツに出現する各概念のユーザ興味スコアを利用して確率結合によってコンテンツに対するユーザの評価スコアを算出する。図３の例では、コンテンツ１に出現する概念Ｅ，Ｆ，Ｄのユーザ興味スコアを用いてコンテンツ１の評価スコアを求めている。興味分析装置１００の詳しい動作説明は後述する。
【００２５】
図２において、クライアント端末２００は、履歴収集部２１０、履歴情報送信部２２０、コンテンツ提示部２３０、及びコンテンツ要求送信部２４０を備える。
コンテンツ要求送信部２４０は、ユーザの指示（入力）によりコンテンツサーバ３００に対して、コンテンツの提示要求を行う。具体的には図２０のようなコンテンツ要求データをコンテンツサーバ３００に送信する。例えば、コンテンツ要求データは、クライアント端末ＩＤ（もしくはユーザＩＤ）及び要求時刻を有する。なお、要求時刻は、コンテンツサーバ３００において追加するようにしてもよい。クライアント端末ＩＤ（もしくはユーザＩＤ）は、端末（もしくはユーザ）毎に一意に付与される数字であって、後述する概念体系／ユーザ興味スコアデータベース１４０のユーザ興味スコアテーブルのユーザＩＤと一致するＩＤである。
【００２６】
図４は、クライアント端末２００上でのユーザによるコンテンツ閲覧操作の一例を示したものである。
コンテンツ提示部２３０は、コンテンツサーバ３００から受信したソート済み提示コンテンツリストをもとに、クライアント端末２００の表示画面サイズが許容する範囲でソート順の上位から一覧として表示を行う。
【００２７】
図４の例では、１０個のコンテンツ（コンテンツ１〜１０）が一覧表示されている。ユーザのフリック、スクロールバーの操作等で一覧によりソート順下位のコンテンツが表示することができる。このように実際にクライアント端末２００に表示されたコンテンツのリストを一覧閲覧コンテンツリストとする。つまり、ソート済み提示コンテンツリスト内のすべてのコンテンツがクライアント端末２００で表示されるとは限らないため、一覧閲覧コンテンツリストに含まれるとは限らない。ユーザがこの一覧から各コンテンツのタイトルをクリック操作等で選択すると、選択されたタイトルのコンテンツ（図４のコンテンツ３，５，６）の本体（詳細）を閲覧することができる。この詳細を閲覧したコンテンツを、詳細閲覧コンテンツリストに含む。
【００２８】
履歴収集部２１０は、上述したように、ユーザの操作履歴を収集して一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを作成する。履歴情報送信部２２０は、履歴収集部２１０により作成された一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストをコンテンツサーバ３００に送信する。
【００２９】
図５に、上記図４の場合の一覧閲覧コンテンツリストのデータ構成例を示す。一覧閲覧コンテンツリストは、クラスタＩＤ、コンテンツＩＤ、及び閲覧時刻を有する。クラスタとは、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストに一意に付与される識別子（図５では“１”）である。別の時刻（時間帯）に表示した一覧閲覧コンテンツをユーザが閲覧した場合は、別のクラスタＩＤが付与される。なお、時刻以外の条件でクラスタＩＤを新たに付与する条件としては、一覧閲覧コンテンツリスト表示中に一定時間操作が無かった場合や、閲覧するユーザ（ユーザＩＤ）を切り替えた場合、一覧閲覧コンテンツリストに対して、コンテンツジャンル等を観点に絞り込み検索を掛けた場合、その他閲覧アプリケーションにおいて閲覧モードを切り替えた場合がある。コンテンツＩＤは、一覧閲覧コンテンツの各コンテンツに一意に付与された識別子であり、後述するコンテンツデータベース１６０が保持する値と一致するものとする。
【００３０】
図６は、上記図４の場合の詳細閲覧コンテンツリストのデータ構成例を示したものである。詳細閲覧コンテンツリストは、上記一覧閲覧コンテンツリストと同様に、クラスタＩＤ、コンテンツＩＤ、及び閲覧時刻を有する。クラスタＩＤは、一覧閲覧コンテンツリストと同一の値とする（図６では“１”）。コンテンツＩＤ及び閲覧時刻は、詳細閲覧コンテンツリストでは、ユーザが一覧閲覧コンテンツから選択して詳細を閲覧したコンテンツ（図６ではコンテンツ３，５，６）の識別子及び当該コンテンツを閲覧した時刻となる。
【００３１】
上記図２において、コンテンツサーバ３００は、コンテンツ送信処理部３１０、ソート済み提示コンテンツリスト受信部３２０、提示コンテンツリスト送信部３３０、提示コンテンツリスト入力部３４０、履歴情報転送部３５０、及びコンテンツ要求転送部３６０を備える。
【００３２】
履歴情報転送部３５０は、クライアント端末２００から受信した一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを通信ネットワークを介して興味分析装置１００に転送する。
提示コンテンツリスト入力部３４０には、サービス運用者により、ユーザの利用するクライアント端末２００に提示するコンテンツを一覧にした提示コンテンツリストが入力される。提示コンテンツリスト送信部３３０は、上記入力された提示コンテンツリストを興味分析装置１００へ通信ネットワークを介して送信する。
【００３３】
図７に、提示コンテンツリストのデータ構成例を示す。提示コンテンツリストは、コンテンツＩＤ、概念ＩＤ／関連度リスト、コンテンツ本体、及びコンテンツ登録時刻を有する。コンテンツＩＤは、各コンテンツに対してコンテンツサーバ３００にて付与される一意のＩＤである。概念ＩＤ／関連度リストは、コンテンツに出現する概念の概念ＩＤ及び当該概念とコンテンツと関連性の程度を示す値のセットが格納される。概念ＩＤ／関連度リストは、コンテンツ毎に予め設定されており、具体例としては、コンテンツ１（スポーツ記事）には、｛“野球”の概念ＩＤ=１，関連度＝０．５｝、｛“サッカー”の概念ＩＤ=２，関連度＝０．８｝、｛“ゴルフ”の概念ＩＤ=３、関連度＝０．６｝…のように、概念ＩＤと関連度のセットが格納される。
【００３４】
なお、概念ＩＤは、概念体系／ユーザ興味スコアデータベース１４０に格納される値と一致する。関連度は、例えば、０から１までの値とし、大きいほど関連性が強いものとする。関連度は、サービス運用者がコンテンツ登録時に設定する値、若しくは別システムにより算出される値を利用する。
【００３５】
ソート済み提示コンテンツリスト受信部３２０は、興味分析装置１００から提示コンテンツリストの一部又は全部をソートしたソート済み提示コンテンツリストとクライアント端末ＩＤ（もしくはユーザＩＤ）を受信する。コンテンツ送信処理部３１０は、ソート済み提示コンテンツリストをクライアント端末ＩＤ（もしくはユーザＩＤ）に該当するクライアント端末２００に送信する。
コンテンツ要求転送部３６０は、クライアント端末２００のコンテンツ要求送信部２４０からのコンテンツ提示要求であるコンテンツ要求データ（図２０）を興味分析装置１００に転送する。
【００３６】
次に、興味分析装置１００の各部の詳細について説明する。
［コンテンツデータベース１６０］
図８にコンテンツデータベース１６０のデータ構造の一例を示す。コンテンツデータベース１６０は、コンテンツテーブルと、ユーザ履歴テーブルとを有する。
【００３７】
コンテンツテーブルは、コンテンツＩＤ、概念ＩＤ／関連度リスト、コンテンツ本体、及びコンテンツ登録時刻を格納する。提示コンテンツリスト受信部１５０で受信した値が格納される。
ユーザ履歴テーブルは、コンテンツＩＤ、ユーザＩＤ（クライアント端末ＩＤ）、詳細閲覧総数、詳細閲覧時刻、一覧閲覧総数、一覧閲覧時刻、及び一覧非表示フラグを格納する。詳細閲覧時刻は、詳細閲覧総数が０の場合はｎｕｌｌ、１以上であれば各閲覧の時系列による閲覧時刻のリストを格納する。一覧閲覧時刻は、一覧閲覧総数が０の場合はｎｕｌｌ、１以上であれば各閲覧の時系列による閲覧時刻のリストを格納する。一覧非表示フラグは、まだユーザにクライアント端末の画面上で一覧としても表示／視認していない場合はｆａｌｓｅ、一度でも閲覧した場合はｔｒｕｅを格納する。ユーザ履歴テーブルおいては、ユーザＩＤ毎に全コンテンツＩＤの値を保持する。詳細閲覧総数及び一覧閲覧総数は、上記クラスタＩＤで示される一覧閲覧コンテンツリストが多数受信された場合には過去の履歴の累計を格納する。
【００３８】
例えば、このユーザ履歴テーブルのデータを利用することで、ユーザの閲覧回数に応じて、コンテンツについて、今後の評価（コンテンツ評価処理部１７０での処理時）で評価スコアを下げるようにする。評価スコアの低減方法としては、あるコンテンツに対する閲覧回数をｋとしたとき、当該コンテンツの評価スコアをｋ＋１で割る、或いは評価スコアに重み（例えば０．９）のｋ乗を乗算するなどがある。この処理により、同じコンテンツの反復提示を興味との一致度を加味して低減することができるためユーザの推薦に対する満足度を向上することができる。
【００３９】
［概念体系／ユーザ興味スコアデータベース１４０］
図９に概念体系／ユーザ興味スコアデータベース１４０のデータ構造の一例を示す。概念体系／ユーザ興味スコア１６０は、ルート概念ノードＩＤと、概念体系テーブルと、ユーザ興味スコアテーブルとを有する。
【００４０】
ルート概念ノードＩＤとは、概念体系構造において最上位にある概念ノードＩＤである。システム内に１つだけ存在する。
概念体系テーブルは、自概念ＩＤ、親概念ＩＤリスト、及び子概念ＩＤリストを格納する。概念体系内の全ての自概念ＩＤは、親概念ＩＤ及び子概念ＩＤ（ただし、自概念が最下位の場合には子概念ＩＤは無し）と紐付けて保存されており、これにより概念構造が定義される。
ユーザ興味スコアテーブルは、概念ＩＤ、ユーザＩＤ（クライアント端末ＩＤ）、ＴｏｔａｌＺ（ユーザ興味スコア）、Ｘ、及びＹの値を格納する。ＴｏｔａｌＺ、Ｘ、及びＹの定義及び算出方法は後述する。
【００４１】
［提示コンテンツリスト受信部１５０］
提示コンテンツリスト受信部１５０は、コンテンツサーバ３００から上記図７のような提示コンテンツリストを受信し、コンテンツデータベース１６０に保存する。
【００４２】
［履歴情報受信部１１０］
図１０に、履歴情報受信部１１０の処理フローを示す。
（ステップＳ１１：履歴データ受信）
履歴情報受信部１１０は、コンテンツサーバ３００の履歴情報転送部３５０から通信ネットワークを介してクライアント端末ＩＤ（もしくはユーザＩＤ）、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストを受信し、特徴スコア算出部１２０へ出力する。
【００４３】
［特徴スコア算出部１２０］
図１１に、特徴スコア算出部１２０の処理フローを示す。特徴スコア算出部１２０には、履歴情報受信部１１０からクライアント端末ＩＤ（もしくはユーザＩＤ）、一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリストが入力される。
【００４４】
（ステップＳ１２：出現概念抽出）
特徴スコア算出部１２０は、詳細閲覧コンテンツリスト内の各コンテンツに出現する概念ＩＤをコンテンツデータベース１６０から抽出する。具体的には、図６の詳細閲覧コンテンツリストにおいて、各コンテンツＩＤに紐付けされている「概念ＩＤ」を図８のコンテンツデータベース１６０のコンテンツテーブルから検索する。特徴スコア算出部１２０は、クラスタデータ｛クラスタＩＤ，一覧閲覧コンテンツリスト，詳細閲覧コンテンツリスト｝と、コンテンツＩＤ／概念ＩＤ関連づけリスト｛｛コンテンツＩＤ，｛関連づいている概念ＩＤ，…｝｝，…｝と、出現概念リスト｛概念ＩＤ｝とを生成する。「コンテンツＩＤ／概念ＩＤ関連付けリスト」とは、コンテンツＩＤをもとに検索された概念ＩＤのリストである。「出現概念リスト」とは、一覧閲覧コンテンツリスト、及び詳細閲覧コンテンツリストに含まれる各コンテンツに出現する概念の概念ＩＤを全て列挙したものである。
【００４５】
（ステップＳ１３：出現概念抽出）
特徴スコア算出部１２０は、「出現概念リスト」の各概念ＩＤについて、図９の概念体系／ユーザ興味スコアデータベース１４０から上位概念を抽出し、上位概念の概念ＩＤを「出現概念リスト」及び「コンテンツＩＤ／概念ＩＤ関連づけリスト」に追加する。
【００４６】
具体的には、特徴スコア算出部１２０は、「出現概念リスト」の概念ＩＤが、図９の概念体系テーブルから「自概念ＩＤ」と一致するものを検索し、その「親概念ＩＤ」を抽出する。例えば、上記抽出された「親概念ＩＤ」が図９の概念体系テーブルの「自概念ＩＤ」と一致するものをさがし、その「親概念ＩＤ」も上位概念として抽出する。そして、特徴スコア算出部１２０は、上位概念の概念ＩＤを抽出の元になった出現概念の概念ＩＤを有するコンテンツＩＤに関連づける。すなわち、上記抽出された「上位概念」を「元になった概念ＩＤを持っていたコンテンツＩＤ」に対して上位概念が付与されていたと見なして、「出現概念リスト」「コンテンツＩＤ／概念ＩＤ関連づけリスト」に追加する。なお、概念体系階層におけるルート概念の抽出は除外する。
【００４７】
（ステップＳ１４：分析パラメータ抽出）
特徴スコア算出部１２０は、「出現概念リスト」の各概念について出現数を算出し、特徴スコアの算出に必要な分析パラメータを抽出し、分析パラメータリストを生成する。
図１２に、分析パラメータリストのデータ構成例を示す。分析パラメータリストは、クラスタＩＤ毎に、一覧閲覧コンテンツリストのコンテンツ総数Ｓ（第１の総数）、詳細閲覧コンテンツリストのコンテンツ総数ａ（第２の総数）、クラスタＩＤに紐づいた出現概念リスト内の概念ＩＤ毎に算出するＮとｎがある。Ｎ（第１の出現数）は、一覧閲覧コンテンツリストにおいて当該概念ＩＤが付与されているコンテンツ数とする。ｎ（第２の出現数）は詳細閲覧コンテンツリストにおける当該概念ＩＤが付与されているコンテンツ数とする。なお、ステップＳ１３にて追加した上位概念も含めて出現概念リスト内の概念ＩＤすべてについて、Ｎとｎを算出する。
【００４８】
図１３（ａ）に分析パラメータ抽出処理の模式図を示す。例えば、５０個（＝Ｓ）のコンテンツが一覧表示されている中から、ユーザが１０個（＝a）のコンテンツの詳細を閲覧した場合を示す。ここで、一覧表示されている５０個のコンテンツのうち「野球」という概念が含まれている記事が１５個（＝N）あり、ユーザが閲覧した１０個のコンテンツのうち、「野球」という概念が含まれているコンテンツが５個（＝ｎ）あったことを示す。
【００４９】
（ステップＳ１５：特徴スコア算出）
特徴スコア算出部１２０は、上記分析パラメータＳ，ａ，Ｎ，ｎを利用して概念ＩＤ毎に特徴スコアＺを算出する。図１４に特徴スコア算出処理の詳細を示す。図１４において、ｉは概念の識別子、ｊは、クラスタＩＤを示す。Ｈ１（第１の確率）は、一覧閲覧コンテンツリストに含まれる一覧閲覧コンテンツの総数Ｓ、一覧閲覧コンテンツのうち概念ｉが出現するコンテンツ数Ｎのとき、詳細閲覧コンテンツをａ個ランダム選択して閲覧した場合に、概念ｉが出現する詳細閲覧コンテンツの数がｎ以上となる累積確率である。Ｈ２（第２の確率）は、一覧閲覧コンテンツリストに含まれる一覧閲覧コンテンツの総数Ｓ、一覧閲覧コンテンツのうち概念ｉが出現するコンテンツ数Ｎのとき、詳細閲覧コンテンツをａ個ランダム選択して閲覧した場合に、概念ｉが出現する詳細閲覧コンテンツの数がｎ以下となる累積確率である。なお、本実施形態では、累積確率Ｈ１及びＨ２は、超幾何分布により求めるが、この手法に限定するものではない。他の分布の例としては、二項分布、正規分布が存在する。
【００５０】
図１３（ｂ）に示すように、例えば、上記の分析パラメータＳ、Ｎ、ａ、ｎを用いて、ユーザが閲覧した１０個のコンテンツのうち、「野球」という概念が含まれるコンテンツが５以上である確率が、「０．１２」であることを示す。ここで、「０．１２」は、累積確率Ｈ１の値に相当する。
【００５１】
なお、Ｈ２の値を使う例として、上記の分析パラメータでｎが０である場合を考える。この場合は、出現数が０以下の場合の確率を算出する。具体的には、図１３（ｂ）において横軸が０の項目の値となるため「０．０２」となる。
そして、特徴スコア算出部１２０は、図１４に示すように、上記算出した累積確率Ｈ１及びＨ２を用いて、標準正規分布の累積分布関数の逆関数により特徴スコアＺを算出する。図１３（ｃ）に示すように、上記Ｈ１を累積確率とする標準正規分布の累積分布関数の逆関数により特徴スコアＺを求める。なお、累積確率としてＨ２を利用する場合には、標準正規分布の累積分布関数の逆関数の返値の符号を負にして特徴スコアＺを求める。この特徴スコアＺを用いて、後述する概念体系更新処理部１３０は、「野球」という概念に対するユーザ興味スコア（ＴｏｔａｌＺ）を求める。
【００５２】
特徴スコア算出部１２０は、更新対象概念リストを生成し、概念体系更新処理部１３０に出力する。「更新対象概念リスト」とは、概念ＩＤ、前記で算出した特徴スコアＺ、及び重みｗのセットである。なお、この更新対象概念リストに出現する概念ＩＤが、次の概念体系更新処理で更新対象のノード（概念）となる。上位概念を追加した出現概念リスト内の概念ＩＤすべてについて、特徴スコアＺと重みｗを算出する。重みｗは、各クラスタＩＤにおいて概念毎に設定される値である。
【００５３】
なお、重みｗは、初期値ｗ＝１とし、ユーザの特徴的な操作等が有った場合に、以下のように値を変化させることができる。例えば、クライアント端末２００において、ユーザに提示されたコンテンツについて、ユーザは、お気に入りコンテンツとして登録や、他ユーザへのお勧め、又はコンテンツへの評価入力ができる。クライアント端末２００が、このような閲覧操作以外の操作履歴を興味分析装置１００に送信できる場合には以下の処理を行う。
【００５４】
特徴スコア算出部１２０は、例えば、コンテンツがお気に入りに登録されたとき、そのコンテンツが含む全ての概念ＩＤについて重みｗをｗ＝１．５のように増加させる。その他にも、コンテンツ閲覧時刻、閲覧時の天気、気温、湿度、季節、曜日、休日、余暇かどうか、閲覧時のユーザ位置情報、スケジューラ、日記等から収集したイベント情報に応じて重みｗの値を変えることもできる。
【００５５】
［概念体系更新処理部１３０］
図１５に、概念体系更新処理部１３０の処理フローを示す。概念体系更新処理部１３０には、特徴スコア算出部１２０から、クライアント端末ＩＤ（もしくはユーザＩＤ）及び更新対象概念リスト｛クラスタＩＤ，｛概念ＩＤ，特徴スコア＝Ｚ，重み＝ｗ｝，…｝が入力される。
【００５６】
（ステップＳ１６：概念ノード値更新）
概念体系更新処理部１３０は、「更新対象概念リスト」の各概念ＩＤのノード値を更新する。図１６に概念体系更新処理部１３０の処理の詳細を示す。概念体系更新処理部１３０は、コンテンツに出現した概念（出現概念）、及びこの出現概念の上位概念の概念ＩＤについて、図１６に示す各概念ｉに対するユーザ興味スコア更新式を用いて、ユーザ興味スコアＴｏｔａｌＺ_ｉｎ，及びＸ_{ｉ（ｎ−１）}，Ｙ_{ｉ（ｎ−１）}の値を求め、図９の概念体系／ユーザ興味スコアデータベース１４０の、クラスタＩＤに対応する図１１のステップＳ１２に入力されたユーザＩＤ（クライアント端末ＩＤ）のカラムに対応するユーザ興味スコアテーブルに格納されている各値を更新する。
【００５７】
ここで、Ｘ_{ｉ（ｎ−１）}は、各概念ＩＤ（ここでは識別子ｉで表現）に対する、過去の（前回までの）前記更新対象概念リストの重みｗの二乗の合計である。Ｙ_{ｉ（ｎ−１）}は、同様に各概念ＩＤ（ここでは識別子ｉで表現）に対する、過去の前記更新対象概念リストの重みｗと特徴スコアＺの乗算の合計である。
【００５８】
この、Ｘ，Ｙはユーザ興味スコア（ＴｏｔａｌＺ）計算過程における中間結果を保持することとなり、省メモリ／ストレージを優先させる場合、最低限では各ノードの変数としてＴｏｔａｌＺ，Ｘ，Ｙの３つの実数値を保持することで実現可能である。省メモリ／ストレージを優先させない場合は、算出した各概念、各クラスタの特徴スコアＺをすべて保存することとなる。この場合は、Ｘ，Ｙの保存は不要となる。
【００５９】
図１６において、ｎは、概念体系更新処理が何度目かを示す識別子である。ユーザ興味スコアＴｏｔａｌＺを求める一連の処理は、クラスタＩＤ単位で行なわれ、この一連の処理が行なわれる単位を１度と数えるとき、ｎはこの一連の処理が何度目に行なわれたものであるかを示す識別子である。ｉは、概念ＩＤの識別子である。Ｚ_ｉｎは、概念ｉの各更新処理に利用するＺ値である。なお、上記Ｚ_ｉｊは一覧閲覧コンテンツリスト及び詳細閲覧コンテンツリスト毎のＺ値であり、Ｚ_ｉｊ∈Ｚ_ｉｎの関係である。重みｗ_ｉｎは、概念ｉの各更新処理に利用する重みである。上記重みｗと同じであり、上記特徴スコア算出部１２０で設定したものと同様である。
【００６０】
例えば、ｗ_ｉｎは、お気に入り登録、他ユーザとの共有等の閲覧以外の特殊な操作をユーザが行った場合、及びコンテンツ閲覧時間（閲覧開始から終了までの間隔）、コンテンツと概念の関連度合い、コンテンツ閲覧時刻、閲覧時の天気・気温・湿度・季節・曜日・休日・余暇かどうか、閲覧時のユーザ位置情報、スケジューラ・日記等から収集したイベント情報に応じて値を変化させる。その他サービス利用者、サービス運用者が特に指定した場合にも変化させる。
【００６１】
なお、一定期間過ぎた履歴の影響を低減させるため等のユーザ興味スコアの忘却は、最終更新時から現在の時刻までの時間間隔の閾値を超えた場合に、ＴｏｔａｌＺ，Ｘ，Ｙをそれぞれ減衰させることで実現する。
減衰の計算式の例を示す。例えば、ｋを減衰率（例えばｋ＝０・８）と設定し、以下のように算出することができる。
ＴｏｔａｌＺ（減衰後）＝ｋ×ＴｏｔａｌＺ（現在）
Ｘ（減衰後）＝ｋ^２×Ｘ（現在）
Ｙ（減衰後）＝ｋ^２×Ｙ（現在）
【００６２】
（ステップＳ１７：下位概念ノード値更新）
さらに、概念体系更新処理部１３０は、「更新対象概念リスト」の各概念ＩＤ（出現概念及び上位概念）の下位概念を抽出し、下位概念のノード値を更新する。下位概念の抽出では、「更新対象概念リスト」の各概念ＩＤについて、図９の概念体系／興味度データベース１４０の概念体系テーブルを参照し、子概念ＩＤリストから概念ＩＤのリストを抽出し、さらに各子概念ＩＤリストの概念ＩＤについて概念体系テーブルを参照して子概念リストを抽出する処理を繰り返す。
【００６３】
下位概念の興味度の更新に利用する特徴スコアＺは、例えば、隣接した親ノードのうち特徴スコアの絶対値が最も大きい値を利用、最も近い上位ノードの値を利用、親ノードの値を平均、または確率結合した値とする。なお、「更新対象概念リスト」のうち、上記ステップＳ１６で更新済みの概念（コンテンツに出現した概念、及び上位概念）のユーザ興味スコアは更新しない。
【００６４】
［コンテンツ評価処理部１７０］
図１７にコンテンツ評価処理部１７０の処理フローを示す。コンテンツ評価処理部１７０には、コンテンツサーバ３００のコンテンツ要求転送部３６０からの通知を入力として、コンテンツデータベース１６０のコンテンツテーブルから図７のような形式の提示コンテンツリストを読み出して以下のコンテンツ評価処理を行う。コンテンツ要求転送部３６０からはクライアント端末ＩＤ（もしくはユーザＩＤ）を含む、図２０に示すようなコンテンツ要求データを受信する。また、上記提示コンテンツリストについては、サービス運用者もしくはサービス利用者（クライアント端末利用者）の事前設定により、過去何日以内に登録されたコンテンツのみを評価対象とするか（提示コンテンツリストに含めるか）を設定することができる。
【００６５】
（ステップＳ２１：分析対象概念フィルタリング）
分析対象概念フィルタリングでは、サービス運用者又はサービス利用者が、事前設定や手動等で特に分析対象の概念ＩＤを指定した場合は、概念体系／興味度データベース１４０を参照し、指定された分析対象の概念ＩＤおよび下位の概念ＩＤのみを評価対象とする。コンテンツ評価処理部１７０は、入力された提示コンテンツリストが保持する概念ＩＤについて、事前にサービス運用者又はサービス利用者が設定した条件にしたがって分析対象外とし、「フィルタリング済みコンテンツリスト」を生成する。
【００６６】
例えば、ユーザが、野球に関するコンテンツのレコメンドを求めた場合には、図９の概念体系テーブルを参照し、野球に対応する概念ＩＤの下位概念のみを分析対象とする。「フィルタリング済みコンテンツリスト」とは上記処理によって、各コンテンツＩＤに紐付けされている概念ＩＤを事前にサービス運用者又はユーザが設定した条件にしたがって削除したコンテンツリストである。「フィルタリング済みコンテンツリスト」は、上記図７の提示コンテンツリストと同じデータ構成である。
【００６７】
（ステップＳ２２：スコア評価）
コンテンツ評価処理部１７０は、「フィルタリング済みコンテンツリスト」に含まれるコンテンツの評価スコアを算出し、図１８に示すようなコンテンツスコアリストを生成する。コンテンツスコアリストは、コンテンツＩＤ、評価スコア、コンテンツ本体、及びコンテンツ登録時刻を有する。
【００６８】
図１９に評価スコアの算出方法の一例を示す。例えば、図１９に示すコンテンツ評価式により、コンテンツｘに対する評価スコアＥｎｔｉｔｙＺ_ｘを概念ｉのユーザ興味スコアＴｏｔａｌＺ_ｉ、コンテンツｘと概念ｉとの関連度ｗ_ｉ（もしくは、概念ｉの重要度）、及びコンテンツｘに出現する概念ＩＤの集合ｐを用いて算出することができる。なお、概念の識別子ｉは集合ｐ内の概念ＩＤに対応する。
【００６９】
図１９の算出で利用するユーザ興味スコア（ＴｏｔａｌＺ）は、各コンテンツに関連した概念ＩＤについて、概念体系／ユーザ興味スコアデータベース１４０のユーザ興味スコアテーブル（図９）から、クライアント端末ＩＤ（もしくは、ユーザＩＤ）をもとに読み出し利用する。図１９において、概念Ｋ、概念Ｂ及び概念Ｄが出現するコンテンツ１を評価コンテンツとした場合、概念Ｋ、概念Ｂ及び概念ＤのＴｏｔａｌＺ，ｗを利用して評価スコアＥｎｔｉｔｙＺ_ｘ＝０．１８と算出できる。一方、概念Ｂのみが出現するコンテンツ２を評価コンテンツとした場合、概念ＢのＴｏｔａｌＺ，ｗを利用して評価スコアＥｎｔｉｔｙＺ_ｘ＝−０．３と算出できる。評価スコアＥｎｔｉｔｙＺ_ｘの値が大きいコンテンツ１が優先して表示される。
【００７０】
その他にも、評価スコアＥｎｔｉｔｙＺ_ｘは、以下の変形例１〜３の方法により求めることができる。
変形例１としては、ＥｎｔｉｔｙＺ_ｘ=ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）により求める。ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）は、ｉ∈ｐのＴｏｔａｌＺ_ｉ＊ｗ_ｉの最大値を返す関数とする。
【００７１】
変形例２としては、ＥｎｔｉｔｙＺ_ｘの値は、ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）の値が閾値を超えた場合には、ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）の返り値とする。ＭＡＸ（ＴｏｔａｌＺ_ｉ＊ｗ_ｉ）はｉ∈ｐのＴｏｔａｌＺ_ｉ＊ｗ_ｉの最大値を返す関数とする。閾値を超えない場合は、図１９のコンテンツ評価式の結果をＥｎｔｉｔｙＺ_ｘとする。ＭＡＸ（）は、はｉ∈ｐのＴｏｔａｌＺ_ｉ＊ｗ_ｉで最大値を返す関数とする。閾値はサービス運用者が設定する値とする。
【００７２】
変形例３としては、ＴｏｔａｌＺ_ｉが正の値のｉ∈ｐについてのみ取り出し、図１９のコンテンツ評価式で統合した値をＥｎｔｉｔｙＺ_ｘとする。
（ステップＳ２３：コンテンツをスコア順にソート）
コンテンツ評価処理部１７０は、コンテンツスコアリストに含まれるコンテンツを評価スコアＥｎｔｉｔｙＺ_ｘの降順にソートし、ソート済みコンテンツスコアリストをコンテンツスコアリスト送信部１８０に出力する。
【００７３】
［ソート済みコンテンツスコアリスト送信部１８０］
ソート済みコンテンツスコアリスト送信部１８０は、コンテンツ評価処理部１７０から入力されるソート済みコンテンツスコアリストとクライアント端末ＩＤ（もしくはユーザＩＤ）を通信ネットワークを介してコンテンツサーバ３００に送信する。
【００７４】
以上述べたように、上記実施形態によれば、ユーザの選択候補となる一覧リストを定義し、そこからのコンテンツ選択における概念の出現数を分析することで、各概念の出現の希少性を考慮し、且つ一覧から選ばれない概念の履歴特徴を利用することができるため、ユーザの興味を高精度に推定することが可能となる。
【００７５】
さらに、上記ステップＳ１５、ステップＳ１６に示したように、特徴スコアの算出やステユーザ興味スコアの算出に際し、閲覧時のユーザの状況や閲覧操作の特徴（お気に入り登録、長時間閲覧等）などを重み係数（重みｗ）を介して反映することができるため、ユーザ興味スコアをさらに精度良く求めることが可能となる。
【００７６】
また、タクソノミ（オントロジ）等で定義された概念をメタタグとして付与したコンテンツ閲覧履歴分析において、概念出現の希少性を合理的に分析に反映することが難しかったため、従来はタクソノミ（オントロジ）構造の深さを一定する等によりコンテンツに付与する概念の抽象度を統一する等のオントロジ構造側の調整が必要があったが、本実施形態のでは概念出現の希少性を考慮するオントロジ構造によるユーザ興味スコアの更新処理により上位概念が付与されたコンテンツと、下位概念が付与されたコンテンツの閲覧履歴を統合して分析可能となるため、分析に利用するタクソノミ（オントロジ）への制約低減し、タクソノミ（オントロジ）の維持・運用・管理コストを低減することが可能となる。
【００７７】
さらに、ユーザ興味スコアを用いてコンテンツに対するユーザの評価スコアを算出することで、ユーザの興味に合ったコンテンツを推薦することが可能となる。
なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
【符号の説明】
【００７８】
１００…興味分析装置、２００…クライアント端末、３００…コンテンツサーバ、１１０…履歴情報受信部、１２０…特徴スコア算出部、１３０…概念体系更新処理部、１４０…概念体系／ユーザ興味スコアデータベース、１５０…提示コンテンツリスト受信部、１６０…コンテンツデータベース、１７０…コンテンツ評価処理部、１８０…ソート済みコンテンツスコアリスト送信部、２１０…履歴情報送信部、２２０…履歴収集部、２３０…コンテンツ提示部、２４０…コンテンツ要求送信部、３１０…コンテンツ送信処理部、３２０…ソート済み提示コンテンツリスト受信部、３３０…提示コンテンツリスト送信部、３４０…提示コンテンツリスト入力部、３５０…履歴情報転送部、３６０…コンテンツ要求転送部。

【特許請求の範囲】
【請求項１】
コンピュータによって複数の概念に対するユーザ興味スコアを体系化した概念体系を用いてユーザの興味を分析する方法であって、
複数のコンテンツを一覧として閲覧した第１のコンテンツリストと、前記第１のコンテンツリストからコンテンツの本体を閲覧した第２のコンテンツリストとをクラスタ化するステップと、
前記クラスタ毎に、前記第１のコンテンツリストのコンテンツの総数を第１の総数と、前記第１のコンテンツリストにおいて前記概念が出現するコンテンツの数を第１の出現数と、前記第２のコンテンツリストのコンテンツの総数を第２の総数と、前記第２のコンテンツリストにおいて前記概念が出現するコンテンツの数を第２の出現数としたとき、前記第１の総数、前記第１の出現数、及び前記第２の総数の条件下で、前記第２のコンテンツリストに前記概念が出現するコンテンツの数が、前記第２の出現数以上となる第１の確率及び前記第２の出現数以下となる第２の確率を算出し、前記第１の確率及び前記第２の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出ステップと、
前記クラスタ毎に算出した特徴スコアを用いて前記概念に対する前記ユーザ興味スコアを更新する更新ステップと
を有することを特徴とする興味分析方法。
【請求項２】
前記更新ステップにおいて、前記第２のコンテンツリストのコンテンツに関するユーザの操作履歴、当該コンテンツの閲覧時間及び閲覧状況、並びに当該コンテンツと前記概念との関連度の少なくとも１つに応じて前記特徴スコアを重み付けすることをさらに特徴とする請求項１に記載の興味分析方法。
【請求項３】
前記算出ステップにおいて、前記第１の確率及び前記第２の確率を超幾何分布により求めることを特徴とする請求項１に記載の興味分析方法。
【請求項４】
前記概念体系が前記概念間の上位概念、下位概念の関係情報を有する場合に、前記第１のコンテンツリスト及び前記第２のコンテンツリストのコンテンツに出現する出現概念の上位概念を前記概念体系から抽出し、前記上位概念が当該コンテンツに出現するものとみなして前記上位概念に対するユーザ興味スコアを更新することをさらに特徴とする請求項１記載の興味分析方法。
【請求項５】
前記更新ステップにおいて、前記出現概念の下位概念及び前記上位概念の下位概念を前記概念体系から抽出し、前記出現概念のユーザ興味スコア及び前記上位概念のユーザ興味スコアを用いて前記下位概念のユーザ興味スコアを更新することをさらに特徴とする請求項４記載の興味分析方法。
【請求項６】
１つ以上の概念が出現するコンテンツについて、当該コンテンツに出現する各概念の前記ユーザ興味スコアを用いて、当該コンテンツに対するユーザの評価スコアを算出する評価ステップをさらに有することを特徴とする請求項１記載の興味分析方法。
【請求項７】
前記評価ステップにおいて、前記コンテンツと各概念との関連度及び各概念の重要度の少なくとも１つに応じて前記ユーザ興味スコアを重み付けすることをさらに特徴とする請求項６に記載の興味分析方法。
【請求項８】
複数の概念に対するユーザ興味スコアを体系化したデータ概念体系を用いてユーザの興味を分析する装置であって、
複数のコンテンツを一覧として閲覧した第１のコンテンツリストと、前記第１のコンテンツリストからコンテンツの本体を閲覧した第２のコンテンツリストとをクラスタ化する手段と、
前記クラスタ毎に、前記第１のコンテンツリストのコンテンツの総数を第１の総数と、前記第１のコンテンツリストにおいて前記概念が出現するコンテンツの数を第１の出現数と、前記第２のコンテンツリストのコンテンツの総数を第２の総数と、前記第２のコンテンツリストにおいて前記概念が出現するコンテンツの数を第２の出現数としたとき、前記第１の総数、前記第１の出現数、及び前記第２の総数の条件下で、前記第２のコンテンツリストに前記概念が出現するコンテンツの数が、前記第２の出現数以上となる第１の確率及び前記第２の出現数以下となる第２の確率を算出し、前記第１の確率及び前記第２の確率をもとに標準正規分布の累積分布関数の逆関数により特徴スコアを算出する算出手段と、
前記クラスタ毎に算出した特徴スコアを用いて前記概念に対する前記ユーザ興味スコアを更新する更新手段と
を具備することを特徴とする興味分析装置。

【図１】