説明

番組推薦装置及び方法及びプログラム

【課題】 インターネット回線を利用した映像配信サービスにおいて、ユーザにより適切な番組を推薦する。
【解決手段】 本発明は、ユーザの視聴履歴から視聴した番組に含まれる単語について、単語別に頻度を求め、また、録画履歴からも単語別に頻度を求め、放送予定の番組に対して、その放送予定に含まれる番組の単語についても頻度を求め、これらの頻度を集計することにより、重みを求め、これらの頻度と重みからユーザの番組に対する推薦度を求め、その推薦度に基づいてユーザにより適合した番組を推薦する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、番組推薦装置及び方法及びプログラムに係り、特に、インターネット回線による映像配信サービスで提供されるユーザのテレビ番組視聴における、番組推薦装置及び方法及びプログラムに関する。
【背景技術】
【0002】
情報推薦の手法はいくつも提案されている。例えば、ニュース記事を推薦するために、各ニュース記事についてユーザに5段階の評価をつけさせ、過去の評価履歴を見てユーザ間の嗜好の類似度を測り、嗜好が似たユーザの好むニュース記事を推薦する手法が提案されている(例えば、非特許文献1参照)。
【0003】
また、上記の手法と同様に、各情報に対してユーザに評価をつけさせ、過去の評価履歴でユーザが評価している情報に含まれるテキストに着目する。そのテキストがユーザの興味を反映していると考え、そのテキストと同じような単語が出現している情報を推薦する手法が提案されている(例えば、非特許文献2参照)。
【0004】
また、利用者に興味を持つ部分のテキストを指定させ、そこに含まれる単語の出現頻度に基づいてユーザの興味を推定し、ユーザの興味を表す単語に基づいてコミュニティ内の情報を検索し、ユーザの興味のある箇所のみの情報を提示する手法がある(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開平11-338869号公報
【非特許文献】
【0006】
【非特許文献1】Resnick, P. et al., "GroupLens: An open architecture for collaborative filtering of netnews". CSCW '94: Proceedings of the 1994 ACM conference on Computer supported cooperative work, ACM Press New York, 1994.
【非特許文献2】Mooney R.J. et al, `` Content-Based Book Recommending Using Learning for Text Categorization'', Proceedings of the 5th ACM Conference on Digital Libraries, ACM Press New York, 2000
【発明の概要】
【発明が解決しようとする課題】
【0007】
インターネット回線を利用した映像配信サービスについて、多チャンネル化が進んでいる。こういった中でユーザが本当に興味のある番組を見つけるのは困難である。また興味ある番組をすべて把握し録画することもまた、困難である。
【0008】
上記の特許文献1の手法を用いて番組を推薦する場合、ユーザが指定した興味のある語に関連する番組が推薦される。この場合、語を指定しなければならないという問題がある。また、指定した語が十分でなければ、ユーザにうまく番組が推薦されない。
【0009】
非特許文献1、2に記載の手法で番組を推薦する場合、ユーザの視聴した番組の情報を用いてユーザに番組を推薦するが、その番組情報の中でユーザが録画した情報は考慮しない。あるいは録画した番組の情報を用いれば、ユーザが視聴したという情報は考慮されない。視聴・録画の両方の情報を用いなければ、ユーザにさらに適切な番組を推薦することはできない。
【0010】
本発明は上記の点に鑑みなされたもので、インターネット回線を利用した映像配信サービスにおいて、ユーザの視聴と録画に関するログを利用することでさらに適切に番組を推薦することが可能な番組推薦装置及び方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0011】
上記の課題を解決するために、本発明(請求項1)は、インターネット回線を利用した映像配信サービスにおいて、利用者の視聴履歴、中でも番組がユーザにより録画されたかどうかの情報を利用する番組推薦装置であって、
インターネット回線を利用した映像配信サービスにおける番組の情報を取得し、番組情報記憶手段に格納する番組情報取得手段と、
番組情報中の内容の要約テキストから単語を抽出する単語抽出手段と、
各番組情報における各単語の統計量を算出し、統計量記憶手段に格納する統計量算出手段と、
インターネット回線を利用した映像配信サービスにおける各ユーザの視聴または録画の視聴情報を取得し、視聴情報記憶手段に格納する視聴情報取得手段と、
取得した視聴情報からユーザと、視聴情報の対象である番組の番組情報記憶手段に格納されている内容の要約テキストから算出した各単語の統計量から、該ユーザの該単語に対する興味量を算出し、ユーザの識別子と、単語と共に興味量記憶手段に格納する興味量算出手段と、
興味量記憶手段に格納されている各ユーザの各単語に対する統計量と、番組情報記憶手段に格納されている番組のうち、放送前の番組のみの各単語の統計量から、該ユーザの該質問に対する興味合致度を算出し、該ユーザの識別子と、該番組の識別子と共に興味合致度記憶手段に格納する興味合致度算出手段と、
番組情報記憶手段の番組のうち、視聴情報記憶手段を参照して、録画された番組のみを選出し、統計量記憶手段に格納されている該録画の対象である番組の各単語の統計量から、該ユーザの該単語に対する良興味量を算出し、ユーザの識別子と、単語と共に良興味量記憶手段に格納する良興味量算出手段と、
良興味量記憶手段に格納されている各ユーザの各単語に対する統計量と、番組情報記憶手段に格納されている番組のうち、放送前の番組のみの各単語の統計量から、該ユーザの該番組に対する良興味合致度を算出し、該ユーザの識別子と、該番組の識別子と共に良興味合致度記憶手段に格納する良興味合致度算出手段と、
番組情報記憶手段に格納されている番組のうち、放送済の番組と、該番組情報記憶手段に格納されているユーザのうち、視聴したことのある番組との全ての組合せについて、該番組情報記憶手段に格納されている該番組について該ユーザが録画したかどうかと、興味合致度記憶手段に格納されている興味合致度と、良興味合致度記憶手段に格納されている良興味合致度とを用いて、重みパラメータを算出し、重みパラメータ記憶手段に格納する重みパラメータ算出手段と、
ユーザの識別子が与えられると、該ユーザの番組情報記憶手段に格納されている放送前の各番組に対して、興味合致度記憶手段に格納されている興味合致度と、良興味合致度記憶手段に格納されている良興味合致度と、重みパラメータ記憶手段に格納された重みパラメータとを用いて、該ユーザの各番組に対する推薦スコアを算出し、推薦スコアの上位N件の質問の識別子を推薦番組として選択する番組推薦手段と、を有する。
【0012】
また、本発明(請求項2)は、統計量算出手段において、
各単語の統計量を算出する際に、重要と見做される単語を抽出するためのTF値(単語の出現頻度)、TFIDF値(単語の出現頻度と逆出現頻度)を用いる。
【0013】
また、本発明(請求項3)は、重みパラメータ算出手段において、
番組情報記憶手段に格納されている該番組に対して該ユーザが録画したかどうかと、興味合致度記憶手段に格納されている興味合致度と、良興味合致度記憶手段に格納されている良興味合致度に基づいて、ロジスティック回帰分析によって重みパラメータを算出する手段を含む。
【0014】
また、本発明(請求項4)は、インターネット回線を利用した映像配信サービスにおいて、利用者の視聴履歴、中でも番組がユーザにより録画されたかどうかの情報を利用する番組推薦方法であって、
記憶媒体に、番組情報記憶手段、統計量記憶手段、視聴情報記憶手段、興味量記憶手段、興味合致度記憶手段、良興味量記憶手段、良興味合致度記憶手段、重みパラメータ記憶手段、を格納し、番組情報取得手段、単語抽出手段、視聴情報取得手段、興味量算出手段、興味合致度算出手段、良興味量算出手段、良興味合致度算出手段、重みパラメータ算出手段、番組推薦手段と、を有する装置において、
番組情報取得手段が、インターネット回線を利用した映像配信サービスにおける番組の情報を取得し、番組情報記憶手段に格納する番組情報取得ステップと、
単語抽出手段が、番組情報中の内容の要約テキストから単語を抽出する単語抽出ステップと、
統計量算出手段が、各番組情報における各単語の統計量を算出し、統計量記憶手段に格納する統計量算出ステップと、
視聴情報取得手段が、インターネット回線を利用した映像配信サービスにおける各ユーザの視聴または録画の視聴情報を取得し、視聴情報記憶手段に格納する視聴情報取得ステップと、
興味量算出手段が、取得した視聴情報からユーザと、視聴情報の対象である番組の番組情報記憶手段に格納されている内容の要約テキストから算出した各単語の統計量から、該ユーザの該単語に対する興味量を算出し、ユーザの識別子と、単語と共に興味量記憶手段に格納する興味量算出ステップと、
興味合致度算出手段が、興味量記憶手段に格納されている各ユーザの各単語に対する統計量と、番組情報記憶手段に格納されている番組のうち、放送前の番組のみの各単語の統計量から、該ユーザの該質問に対する興味合致度を算出し、該ユーザの識別子と、該番組の識別子と共に興味合致度記憶手段に格納する興味合致度算出ステップと、
量興味量算出手段が、番組情報記憶手段の番組のうち、視聴情報記憶手段を参照して、録画された番組のみを選出し、統計量記憶手段に格納されている該録画の対象である番組の各単語の統計量から、該ユーザの該単語に対する良興味量を算出し、ユーザの識別子と、単語と共に良興味量記憶手段に格納する良興味量算出ステップと、
良興味合致度算出手段が、良興味量記憶手段に格納されている各ユーザの各単語に対する統計量と、番組情報記憶手段に格納されている番組のうち、放送前の番組のみの各単語の統計量から、該ユーザの該番組に対する良興味合致度を算出し、該ユーザの識別子と、該番組の識別子と共に前期良興味合致度記憶手段に格納する良興味合致度算出ステップと、
重みパラメータ算出手段が、番組情報記憶手段に格納されている番組のうち、放送済の番組と、該番組情報記憶手段に格納されているユーザのうち、視聴したことのある番組との全ての組合せについて、該番組情報記憶手段に格納されている該番組について該ユーザが録画したかどうかと、興味合致度記憶手段に格納されている興味合致度と、良興味合致度記憶手段に格納されている良興味合致度とを用いて、重みパラメータを算出し、重みパラメータ記憶手段に格納する重みパラメータ算出ステップと、
番組推薦手段が、ユーザの識別子が与えられると、該ユーザの番組情報記憶手段に格納されている放送前の各番組に対して、興味合致度記憶手段に格納されている興味合致度と、良興味合致度記憶手段に格納されている良興味合致度と、重みパラメータ記憶手段に格納された重みパラメータとを用いて、該ユーザの各番組に対する推薦スコアを算出し、推薦スコアの上位N件の質問の識別子を推薦番組として選択する番組推薦ステップと、を行う。
【0015】
また、本発明(請求項5)は、統計量算出ステップにおいて、
各単語の統計量を算出する際に、重要と見做される単語を抽出するためのTF値(単語の出現頻度)、TFIDF値(単語の出現頻度と逆出現頻度)を用いる。
【0016】
また、本発明(請求項6)は、重みパラメータ算出ステップにおいて、
番組情報記憶手段に格納されている該番組に対して該ユーザが録画したかどうかと、興味合致度記憶手段に格納されている興味合致度と、良興味合致度記憶手段に格納されている良興味合致度に基づいて、ロジスティック回帰分析によって重みパラメータを算出する。
【0017】
また、本発明(請求項7)は、請求項1乃至請求項3のいずれか1項に記載の番組推薦装置を構成する各手段としてシステムを機能させるための番組推薦プログラムである。
【発明の効果】
【0018】
上記のように本発明によれば、視聴情報だけでなく録画情報を用いて、ユーザの興味により適合した番組を推薦する手法を実現したことにより、従来の技術では不可能であった、インターネット回線を利用した映像配信サービスにおいて、ユーザにより適切な番組を推薦することが可能となる。これはインターネット回線を利用した映像配信サービスにおける視聴/録画の増加につながる。
【図面の簡単な説明】
【0019】
【図1】本発明の一実施の形態における番組推薦装置の概要図である。
【図2】本発明の一実施の形態における番組情報テーブルの例である。
【図3】本発明の一実施の形態における視聴情報テーブルの例である。
【図4】本発明の一実施の形態における興味情報テーブルの例である。
【図5】本発明の一実施の形態における良興味情報テーブルの例である。
【図6】本発明の一実施の形態における興味合致度テーブルの例である。
【図7】本発明の一実施の形態における良興味合致度テーブルの例である。
【図8】本発明の一実施の形態における番組氏弔辞の処理のフローチャートである。
【図9】本発明の一実施の形態における図8のステップ120の詳細な処理のフローチャートである。
【図10】本発明の一実施の形態における図8のステップ130の詳細な処理のフローチャートである。
【図11】本発明の一実施の形態における番組録画時の処理のフローチャートである。
【図12】本発明の一実施の形態における図11のステップ220の詳細な処理のフローチャートである。
【図13】本発明の一実施の形態における図11のステップ230の詳細な処理のフローチャートである。
【図14】本発明の一実施の形態におけるユーザログオン時の処理のフローチャートである。
【図15】本発明の一実施の形態における重みパラメータ更新時の処理のフローチャートである。
【発明を実施するための形態】
【0020】
以下図面と共に、本発明の実施の形態を説明する。
【0021】
図1は、本発明の一実施の形態における番組推薦装置の構成を示す。
【0022】
同図に示す番組推薦装置1は、番組情報取得部10、視聴情報テーブル更新部20、興味情報テーブル更新部30、良興味情報テーブル更新部40、興味合致度テーブル更新部50、良興味合致度テーブル更新部60、番組推薦部70、重みパラメータ更新部80、記憶部90、通信部A0、入出力部B0から構成され、通信部A0はネットワーク3に接続されており、入出力部B0は、入力装置や表示装置等の外部装置4に接続されている。
【0023】
記憶部90は、番組情報テーブル91、視聴情報テーブル92、興味情報テーブル93、良興味情報テーブル94、興味合致度テーブル95、良興味合致度テーブル96、重みパラメータ記録部97を格納するディスク等の記憶媒体である。以下に、記憶部90内の各テーブルについて説明する。
【0024】
<番組情報テーブル>
番組情報テーブル91には、図2に示すように、番組IDフィールド、内容フィールド、放送時間フィールドが含まれる。
【0025】
番組IDフィールドは、その番組を特定する識別子であり、番組情報取得部10により設定される。
【0026】
内容フィールドは、該番組の内容に関する要約が、番組情報取得部10によりテキストデータにて設定される。
【0027】
放送時間フィールドは、該番組の放送時間が、番組情報取得部10により設定される。
【0028】
<視聴情報テーブル>
視聴情報テーブル92には、図3に示すように、番組IDフィールド、ユーザIDフィールド、視聴/録画種別フィールドが含まれる。
【0029】
番組IDフィールドは、番組情報テーブルに出現する番組の識別子と対応し、視聴情報テーブル更新部20により設定される。
【0030】
ユーザIDフィールドは、番組を視聴/録画したユーザを特定する識別子が、視聴情報テーブル更新部20により設定される。
【0031】
視聴/録画種別フィールドは、該視聴/録画が視聴か、録画かを判定するための値が、視聴情報テーブル更新部20により設定される。
【0032】
<興味情報テーブル>
興味情報テーブル93には、図4に示すように、ユーザIDフィールドと、単語フィールドと、特徴量フィールドとが含まれる。
【0033】
ユーザIDフィールドは、ユーザIDが、興味情報テーブル更新部30により設定される。
【0034】
単語フィールドは、単語 w が、興味情報テーブル更新部30により設定される。
【0035】
特徴量フィールドは、ユーザ u の視聴した番組の内容中に出現する単語 w の統計量 interest0(u,w) であり、興味情報テーブル更新部30により設定される。
【0036】
<良興味情報テーブル>
良興味情報テーブル94には、図5に示すように、ユーザIDフィールドと、単語フィールドと、特徴量フィールドとが含まれる。
【0037】
ユーザIDフィールドは、ユーザIDが、良興味情報テーブル更新部40により設定される。
【0038】
単語フィールドは、単語 w が、良興味情報テーブル更新部40により設定される。
【0039】
特徴量フィールドは、ユーザ u の録画した番組の内容中に出現する単語 w の統計量 interest1(u,w)であり、良興味情報テーブル更新部50により設定される。
【0040】
<興味合致度テーブル>
興味合致度テーブル95には、図6に示すように、ユーザIDフィールドと、番組IDフィールドと、興味合致度フィールドとが含まれる。
【0041】
興味合致度フィールドは、当該行のユーザ u の過去に視聴した番組と、当該行の番組 pとの内容の類似度 score0(p,u) が興味合致度テーブル更新部40により設定される。
【0042】
<良興味合致度テーブル>
良興味合致度テーブル96には、図7に示すように、ユーザIDフィールドと、番組IDフィールドと、良興味合致度フィールドとが含まれる。
【0043】
良興味合致度フィールドは、当該行のユーザ u の過去に録画した番組と、当該行の番組 p との内容の類似度 score1(p,u) が良興味合致度テーブル更新部60により設定される。
【0044】
<重みパラメータ記録部>
重みパラメータ記録部97には、番組推薦部70がユーザ u に番組 p を推薦するための推薦スコア score(p,u) を以下の式(1)のように算出するための重み λ0、λ1 が格納されている。
【0045】
【数1】

重み λ0、λ1 は、重みパラメータ更新部80によって設定される。
【0046】
以下に、上記の構成における番組視聴時の処理を説明する。
【0047】
図8は、本発明の一実施形態における番組視聴時の処理のフローチャートである。
【0048】
ステップ110)視聴情報テーブル更新部10が、視聴情報テーブル92に、視聴された番組、視聴したユーザに応じて番組IDフィールド、ユーザIDフィールドを設定する。また、視聴/録画種別フィールドを「視聴」と設定する。そのような行 v を視聴情報テーブル92に挿入する。
【0049】
ステップ120)興味情報テーブル更新部30が、上記行 v の情報を元に興味情報テーブル82を更新する。
【0050】
ステップ130)興味合致度テーブル更新部50が、上記行 v の情報を元に興味合致度テーブル84を更新する。
【0051】
次に、上記の図8のステップ120の処理を詳細に説明する。
【0052】
図9は、本発明の一実施の形態における図8のステップ120の詳細な処理のフローチャートである。今、行 v のユーザ、対象となっている番組がそれぞれ u、p であるとする。
【0053】
ステップ121)番組情報取得部10が、番組情報テーブル91を参照し、番組IDが p である行の内容フィールドの値を取得する。
【0054】
ステップ122)興味情報テーブル更新部30が、形態素解析器の分かち書き機能を用いて前記番組 p の内容に含まれる単語集合 W を取得する。
【0055】
ステップ123)興味情報テーブル更新部30が、上記単語集合 W に含まれる個々の単語 w に対して、番組 p の内容における統計量、例えば、出現頻度(文献3(Manning, C.D. et al., "Introduction to information retrieval", 2008)記載の「TF値」) tf(p,w) を算出する。単語 w の番組 p の内容における重みを算出するにあたって、出現頻度だけでなく、別の尺度(文献3記載の「TFIDF値」等)を用いても構わない。
【0056】
ステップ124)興味情報テーブル更新部30が、興味情報テーブル93を参照し、ユーザIDフィールドの値が u、単語フィールドの値が wの行の特徴量フィールドの値 interest0(u,w) を取得する。ただし、ユーザIDフィールドの値が u、単語フィールドの値が wの行が存在しない場合は interest0(u,w) の値は0とする。
【0057】
ステップ125)興味情報テーブル更新部30が、興味情報テーブル93に、ユーザIDフィールドの値が u、単語フィールドの値が w の行の特徴量フィールドの値を interest0(u,w)+ tf(p,w) とするように更新または挿入する。
【0058】
次に、上記の図8のステップ130の処理を詳細に説明する。
【0059】
図10は、本発明の一実施の形態における図8のステップ130の詳細な処理のフローチャートである。今、行 v のユーザがそれぞれ u であるとする。
【0060】
ステップ131)興味合致度テーブル更新部50が、興味情報テーブル93を参照し、ユーザIDが u の行に出現する単語フィールドの値の集合を W とする。
【0061】
ステップ132)興味合致度テーブル更新部50が、上記単語集合 W に含まれる個々の単語 w に対して、興味情報テーブル93を参照し、ユーザIDが u で単語が w の行の特徴量フィールドの値 interest0(u,w) を取得する。
【0062】
ステップ133)興味合致度テーブル更新部50が、番組情報テーブル91を参照し、放送時間フィールドの値が現在時刻よりも未来の番組集合 P を取得する。
【0063】
ステップ134)興味合致度テーブル更新部50が、前記番組集合 P 中の各番組 p の内容フィールドにおける、前記単語集合 W 内の各単語 w の統計量(例えば文献3記載の「TF値」) tf(p,w) を算出する。もし番組 p の本文フィールドに単語 w が含まれない場合は、tf(p,w)=0とする。
【0064】
ステップ135)興味合致度テーブル更新部50が、前記番組 p のユーザu に対する興味合致度 score0(p,u) を以下の式(2)を用いて算出する。
【0065】
【数2】

式(2)における tf(p,w) は、番組 p における単語 w の重みを意味し、興味情報テーブル93の特徴量 interest0(u,w)はユーザ u の単語 w に対する興味量を表す。分子は、両者の内積であるが、内積は番組 p に含まれる語数が多ければ多いほど大きくなる傾向を考慮し、分母により正規化する。これは、文献3(Manning, C.D. et al., "Introduction to information retrieval", 2008)記載のコサイン類似度と呼ばれる尺度であり、この尺度によりユーザ u の興味と番組 p の関連の強さが求まる。
【0066】
ステップ136)興味合致度テーブル更新部50が、興味合致度テーブル95を、ユーザIDが u で、番組IDが p の行の興味合致度フィールドの値が前記興味合致度 score0(p,u) となるように更新する。
【0067】
次に、番組録画時の処理を説明する。
【0068】
図11は、本発明の一実施形態における番組録画時の処理のフローチャートである。
【0069】
ステップ210)視聴情報テーブル更新部10が、視聴情報テーブル92に、視聴された番組、視聴したユーザに応じて番組IDフィールド、ユーザIDフィールドを設定する。また、視聴/録画種別フィールドを「録画」と設定する。そのような行 r を視聴情報テーブル92に挿入する。
【0070】
ステップ220)良興味情報テーブル更新部50が、上記行 r の情報を元に良興味情報テーブル94を更新する。
【0071】
ステップ230)良興味合致度テーブル更新部50が、上記行 r の情報を元に良興味合致度テーブル96を更新する。
【0072】
次に、上記の図11のステップ220の処理を詳細に説明する。
【0073】
図12は、本発明の一実施の形態における図11のステップ220の詳細な処理のフローチャートである。今、行 r のユーザ、対象となっている番組がそれぞれ u、p であるとする。
【0074】
ステップ221)番組情報取得部10が、番組情報テーブル91を参照し、番組IDが p である行の内容フィールドの値を取得する。
【0075】
ステップ222)良興味情報テーブル更新部40が、形態素解析器の分かち書き機能を用いて前記番組 p の内容に含まれる単語集合 W を取得する。
【0076】
ステップ223)良興味情報テーブル更新部40が、上記単語集合 W に含まれる個々の単語 w に対して、番組 p の内容における統計量、例えば出現頻度(文献3(Manning, C.D. et al., "Introduction to information retrieval", 2008)記載の「TF値」) tf(p,w) を算出する。単語 w の番組 p の内容における重みを算出するにあたって、出現頻度だけでなく、別の尺度(文献3記載の「TFIDF値」等)を用いても構わない。
【0077】
ステップ224)良興味情報テーブル更新部40が、良興味情報テーブル94を参照し、ユーザIDフィールドの値が u、単語フィールドの値が wの行の特徴量フィールドの値 interest1(u,w) を取得する。但し、ユーザIDフィールドの値が u、単語フィールドの値が wの行が存在しない場合は interest1(u,w) の値は0とする。
【0078】
ステップ225)良興味情報テーブル更新部40が、良興味情報テーブル94に、ユーザIDフィールドの値が u、単語フィールドの値が w の行の特徴量フィールドの値を interest1(u,w)+ tf(p,w) とするように更新または挿入する。
【0079】
次に、上記の図11のステップ230の処理を詳細に説明する。
【0080】
図13は、本発明の一実施の形態における図11のステップ230の詳細な処理のフローチャートである。今、行 r のユーザがそれぞれ u であるとする。
【0081】
ステップ231)良興味合致度テーブル更新部60が、良興味情報テーブル94を参照し、ユーザIDが u の行に出現する単語フィールドの値の集合を W とする。
【0082】
ステップ232)良興味合致度テーブル更新部60が、上記単語集合 W に含まれる個々の単語 w に対して、良興味情報テーブル94を参照し、ユーザIDが u で単語が w の行の特徴量フィールドの値 interest1(u,w) を取得する。
【0083】
ステップ233)良興味合致度テーブル更新部60が、番組情報テーブル91を参照し、放送時間フィールドの値が現在時刻よりも未来の番組集合 P を取得する。
【0084】
ステップ234)良興味合致度テーブル更新部60が、前記番組集合 P 中の各番組 p の内容フィールドにおける、前記単語集合 W 内の各単語 w の統計量(例えば文献3記載の「TF値」) tf(p,w) を算出する。もし番組 p の本文フィールドに単語 w が含まれない場合は、tf(p,w)=0とする。
【0085】
ステップ235)良興味合致度テーブル更新部60が、前記番組 p のユーザuに対する興味合致度 score1(p,u) を以下の式(3)を用いて算出する。
【0086】
【数3】

上記の式(3)における tf(p,w) は、番組 p における単語 w の重みを意味し、良興味情報テーブル94の特徴量 interest1(u,w)はユーザ u の単語 w に対する良興味量を表す。分子は、両者の内積であるが、内積は番組 p に含まれる語数が多ければ多いほど大きくなる傾向を考慮し、分母により正規化する。これは、文献3(Manning, C.D. et al., "Introduction to information retrieval", 2008)記載のコサイン類似度と呼ばれる尺度であり、この尺度によりユーザ u の良興味と番組 p の関連の強さが求まる。
【0087】
ステップ236)良興味合致度テーブル更新部60が、良興味合致度テーブル96を、ユーザIDが u で、番組IDが p の行の良興味合致度フィールドの値が前記良興味合致度 score1(p,u) となるように更新する。
【0088】
図14は、本発明の一実施の形態におけるユーザログオン時の処理のフローチャートである。
【0089】
ユーザ u がログオンすると、
ステップ310)番組推薦部70が、興味合致度テーブル95を参照し、ユーザIDフィールドが u の行 I0u を取得する。
【0090】
ステップ320)番組推薦部70が、良興味合致度テーブル96を参照し、ユーザIDフィールドが u の行 I1u を取得する。
【0091】
ステップ330)番組推薦部70が、重みパラメータ記録部97を参照し、重みパラメータ λ0、λ1 を取得する。
【0092】
ステップ340)番組推薦部70が、番組情報テーブル91を参照し、放送時間フィールドの値が現在時刻よりも未来の番組集合 P を取得する。
【0093】
ステップ350)番組推薦部70が、前記番組集合 P の各番組 p について、前記興味合致度テーブル95内のユーザIDがユーザ uのもの I0u のうち番組IDが pの行の興味合致度score0(p,u)と、前記良興味合致度テーブル96内のユーザIDがユーザ u のもの I1uのうち番組IDが p の行の良興味合致度score1(p,u)とを取得し、式(1)を用いてユーザ u への番組 p の推薦スコア score(p,u)を算出する。
【0094】
ステップ360)番組推薦部70が、前期番組集合 P 内の各番組 p のユーザ u に対する推薦スコア score(p,u) の値を用いてユーザ u に推薦すべき番組を決定する。その際、推薦スコアフィールドの値が大きいものから順に予め設定した任意の件数 N (N=1,2,3,…)件を推薦すべき番組としてもよいし、推薦スコアに対し、ある閾値を設けて、 推薦スコアがその値を超えるものを推薦すべき番組としてもよい。
【0095】
次に、重みパラメータ更新部80による重みパラメータの更新処理を説明する。
【0096】
図16は、本発明の一実施の形態における重みパラメータ更新時の処理のフローチャートである。重みパラメータは、本実施の形態のように、文献4(Hosmer, D.W. et al., "Applied logistic regression", 2000)記載のロジスティック回帰モデルを用いて自動で算出してもよいし、文献5(Cristianini, N. et al., "An introduction to support Vector Machines: and other kernel-based learning methods", 2000)記載のサポートベクトルマシン等を用いて自動で算出してもよいし、人手にて適当な重みパラメータを設定してもよい。重みパラメータの更新は、システムの管理者の明示的な入力で開始するようにしてもよいし、定期的にバッチ処理するようにしてもよい。
【0097】
ステップ410)重みパラメータ更新部80は、視聴情報テーブル92のユーザIDフィールドに出現するユーザ集合 U を取得する。
【0098】
ステップ420)重みパラメータ更新部80は、番組情報テーブル91を参照し、放送時間フィールドの値が現在時刻よりも過去の番組集合 P を取得する。
【0099】
ステップ430)重みパラメータ更新部80は、興味合致度テーブル95、良興味合致度テーブル96を参照し、前記番組集合 P の各質問と、前記ユーザ集合 U の各ユーザとの各質問との組合せ (p,u) について、興味合致度 score0(p,u) と、良興味合致度 score1(p,u) を取得し、以下の式を用いて l(p,u)を算出する。
【0100】
【数4】

上記の式(4)は、Σiλiscorei(p,u) の値を確率化したもので、Σiλiscorei(p,u) の値が高ければ高いほど値が1に近づき、Σiλiscorei(p,u) の値が低ければ低いほど0に近づく。
【0101】
ステップ440)重みパラメータ更新部80は、前記番組集合 P 内の各番組 p と、前記ユーザ集合 U 内の各ユーザ u について、視聴情報テーブル92に、ユーザIDが u で、番組IDが p で、視聴/録画フィールドの値が「録画」の行が存在する場合 b(p,u)=α とし、ユーザIDが u で、番組IDが p で、視聴/録画フィールドの値が「録画」の行は存在しないが、「視聴」の行が存在する場合は b(p,u)=β とし、ユーザIDが u で、番組IDが pの行が存在しない場合は b(p,u)=0 とする。このとき、L(λ01) を以下の式を用いて算出する。
【0102】
【数5】

α、βは人手によって、例えば 0.8、0.5 に設定する。
【0103】
上記の式(5)は、λ0とλ1の尤度と呼ばれる尺度で、過去に u が p を録画したか、視聴したか b(p,u) と、各番組のユーザ毎の式(4)で表わされる l(p,u)から、設定したλ0とλ1がどれだけ過去の視聴情報とマッチしているかを表す尺度である。従って、式(5)を最大にするようなλ0、λ1が最も適切な重みパラメータであると考えられる。
【0104】
ステップ450)重みパラメータ更新部80は、文献6(Liu, D.C. et al., "On the limited memory BFGS method for large scale optimization", 1989)記載の準ニュートン法等による最適化手法により、式(4)で表わされる L(λ01) を最大にするλ0、λ1 を算出する。
【0105】
ステップ460)重みパラメータ更新部80は、重みパラメータ記録部97にさきほど算出した重みパラメータλ0、λ1 を記録する。
【0106】
なお、上記の番組推薦装置の各構成要素の処理をプログラムとして構築し、番組推薦装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
【0107】
また、構築されたプログラムをハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0108】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【符号の説明】
【0109】
1 番組推薦装置
2 外部端末
3 ネットワーク
4 外部装置
A0 通信部
B0 入出力部
10 番組情報取得部
20 視聴情報テーブル更新部
30 興味情報テーブル更新部
40 良興味情報テーブル更新部
50 興味合致度テーブル更新部
60 良興味合致度テーブル更新部
70 番組推薦部
80 重みパラメータ更新部
90 記憶部
91 番組情報テーブル
92 視聴情報テーブル
93 興味情報テーブル
94 良興味情報テーブル
95 興味合致度テーブル
96 良興味合致度テーブル
97 重みパラメータ記憶部

【特許請求の範囲】
【請求項1】
インターネット回線を利用した映像配信サービスにおいて、利用者の視聴履歴、中でも番組がユーザにより録画されたかどうかの情報を利用する番組推薦装置であって、
前記インターネット回線を利用した映像配信サービスにおける番組の情報を取得し、番組情報記憶手段に格納する番組情報取得手段と、
前記番組情報中の内容の要約テキストから単語を抽出する単語抽出手段と、
各番組情報における各単語の統計量を算出し、統計量記憶手段に格納する統計量算出手段と、
前記インターネット回線を利用した映像配信サービスにおける各ユーザの視聴または録画の視聴情報を取得し、視聴情報記憶手段に格納する視聴情報取得手段と、
取得した前記視聴情報からユーザと、前記視聴情報の対象である番組の前記番組情報記憶手段に格納されている内容の要約テキストから算出した前記各単語の統計量から、該ユーザの該単語に対する興味量を算出し、前記ユーザの識別子と、前記単語と共に興味量記憶手段に格納する興味量算出手段と、
前記興味量記憶手段に格納されている各ユーザの各単語に対する統計量と、前記番組情報記憶手段に格納されている番組のうち、放送前の番組のみの前記各単語の統計量から、該ユーザの該質問に対する興味合致度を算出し、該ユーザの識別子と、該番組の識別子と共に興味合致度記憶手段に格納する興味合致度算出手段と、
前記番組情報記憶手段の前記番組のうち、前記視聴情報記憶手段を参照して、録画された番組のみを選出し、前記統計量記憶手段に格納されている該録画の対象である番組の前記各単語の統計量から、該ユーザの該単語に対する良興味量を算出し、前記ユーザの識別子と、前記単語と共に良興味量記憶手段に格納する良興味量算出手段と、
前記良興味量記憶手段に格納されている各ユーザの各単語に対する統計量と、前記番組情報記憶手段に格納されている番組のうち、放送前の番組のみの前記各単語の統計量から、該ユーザの該番組に対する良興味合致度を算出し、該ユーザの識別子と、該番組の識別子と共に良興味合致度記憶手段に格納する良興味合致度算出手段と、
前記番組情報記憶手段に格納されている番組のうち、放送済の番組と、該番組情報記憶手段に格納されているユーザのうち、視聴したことのある番組との全ての組合せについて、該番組情報記憶手段に格納されている該番組について該ユーザが録画したかどうかと、前記興味合致度記憶手段に格納されている興味合致度と、前記良興味合致度記憶手段に格納されている良興味合致度とを用いて、重みパラメータを算出し、重みパラメータ記憶手段に格納する重みパラメータ算出手段と、
ユーザの識別子が与えられると、該ユーザの前記番組情報記憶手段に格納されている放送前の各番組に対して、前記興味合致度記憶手段に格納されている興味合致度と、前記良興味合致度記憶手段に格納されている良興味合致度と、前記重みパラメータ記憶手段に格納された重みパラメータとを用いて、該ユーザの各番組に対する推薦スコアを算出し、前記推薦スコアの上位N件の質問の識別子を推薦番組として選択する番組推薦手段と、
を有することを特徴とする番組推薦装置。
【請求項2】
前記統計量算出手段は、
前記各単語の統計量を算出する際に、重要と見做される単語を抽出するためのTF値(単語の出現頻度)、TFIDF値(単語の出現頻度と逆出現頻度)を用いる
請求項1記載の番組推薦装置。
【請求項3】
前記重みパラメータ算出手段は、
前記番組情報記憶手段に格納されている該番組に対して該ユーザが録画したかどうかと、前記興味合致度記憶手段に格納されている興味合致度と、前記良興味合致度記憶手段に格納されている良興味合致度に基づいて、ロジスティック回帰分析によって重みパラメータを算出する手段を含む
請求項1記載の番組推薦装置。
【請求項4】
インターネット回線を利用した映像配信サービスにおいて、利用者の視聴履歴、中でも番組がユーザにより録画されたかどうかの情報を利用する番組推薦方法であって、
記憶媒体に、番組情報記憶手段、統計量記憶手段、視聴情報記憶手段、興味量記憶手段、興味合致度記憶手段、良興味量記憶手段、良興味合致度記憶手段、重みパラメータ記憶手段、を格納し、番組情報取得手段、単語抽出手段、視聴情報取得手段、興味量算出手段、興味合致度算出手段、良興味量算出手段、良興味合致度算出手段、重みパラメータ算出手段、番組推薦手段と、を有する装置において、
前記番組情報取得手段が、前記インターネット回線を利用した映像配信サービスにおける番組の情報を取得し、前記番組情報記憶手段に格納する番組情報取得ステップと、
前記単語抽出手段が、前記番組情報中の内容の要約テキストから単語を抽出する単語抽出ステップと、
統計量算出手段が、各番組情報における各単語の統計量を算出し、前記統計量記憶手段に格納する統計量算出ステップと、
前記視聴情報取得手段が、前記インターネット回線を利用した映像配信サービスにおける各ユーザの視聴または録画の視聴情報を取得し、前記視聴情報記憶手段に格納する視聴情報取得ステップと、
前記興味量算出手段が、取得した前記視聴情報からユーザと、前記視聴情報の対象である番組の前記番組情報記憶手段に格納されている内容の要約テキストから算出した前記各単語の統計量から、該ユーザの該単語に対する興味量を算出し、前記ユーザの識別子と、前記単語と共に前記興味量記憶手段に格納する興味量算出ステップと、
前記興味合致度算出手段が、前記興味量記憶手段に格納されている各ユーザの各単語に対する統計量と、前記番組情報記憶手段に格納されている番組のうち、放送前の番組のみの前記各単語の統計量から、該ユーザの該質問に対する興味合致度を算出し、該ユーザの識別子と、該番組の識別子と共に前記興味合致度記憶手段に格納する興味合致度算出ステップと、
前記量興味量算出手段が、前記番組情報記憶手段の前記番組のうち、前記視聴情報記憶手段を参照して、録画された番組のみを選出し、前記統計量記憶手段に格納されている該録画の対象である番組の前記各単語の統計量から、該ユーザの該単語に対する良興味量を算出し、前記ユーザの識別子と、前記単語と共に前記良興味量記憶手段に格納する良興味量算出ステップと、
前記良興味合致度算出手段が、前記良興味量記憶手段に格納されている各ユーザの各単語に対する統計量と、前記番組情報記憶手段に格納されている番組のうち、放送前の番組のみの前記各単語の統計量から、該ユーザの該番組に対する良興味合致度を算出し、該ユーザの識別子と、該番組の識別子と共に前期良興味合致度記憶手段に格納する良興味合致度算出ステップと、
前記重みパラメータ算出手段が、前記番組情報記憶手段に格納されている番組のうち、放送済の番組と、該番組情報記憶手段に格納されているユーザのうち、視聴したことのある番組との全ての組合せについて、該番組情報記憶手段に格納されている該番組について該ユーザが録画したかどうかと、前記興味合致度記憶手段に格納されている興味合致度と、前記良興味合致度記憶手段に格納されている良興味合致度とを用いて、重みパラメータを算出し、前記重みパラメータ記憶手段に格納する重みパラメータ算出ステップと、
前記番組推薦手段が、ユーザの識別子が与えられると、該ユーザの前記番組情報記憶手段に格納されている放送前の各番組に対して、前記興味合致度記憶手段に格納されている興味合致度と、前記良興味合致度記憶手段に格納されている良興味合致度と、前記重みパラメータ記憶手段に格納された重みパラメータとを用いて、該ユーザの各番組に対する推薦スコアを算出し、前記推薦スコアの上位N件の質問の識別子を推薦番組として選択する番組推薦ステップと、
を行うことを特徴とする番組推薦方法。
【請求項5】
前記統計量算出ステップにおいて、
前記各単語の統計量を算出する際に、重要と見做される単語を抽出するためのTF値(単語の出現頻度)、TFIDF値(単語の出現頻度と逆出現頻度)を用いる
請求項4記載の番組推薦方法。
【請求項6】
前記重みパラメータ算出ステップにおいて、
前記番組情報記憶手段に格納されている該番組に対して該ユーザが録画したかどうかと、前記興味合致度記憶手段に格納されている興味合致度と、前記良興味合致度記憶手段に格納されている良興味合致度に基づいて、ロジスティック回帰分析によって重みパラメータを算出する
請求項4記載の番組推薦方法。
【請求項7】
請求項1乃至請求項3のいずれか1項に記載の番組推薦装置を構成する各手段としてシステムを機能させるための番組推薦プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2011−244340(P2011−244340A)
【公開日】平成23年12月1日(2011.12.1)
【国際特許分類】
【出願番号】特願2010−116543(P2010−116543)
【出願日】平成22年5月20日(2010.5.20)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】