説明

推定装置、推定方法、並びにプログラム

【課題】ソーシャルメディアが言及している番組を放送する放送局を推定する。
【解決手段】タグ取出部103は、文字列とその文字列が書き込まれた時刻情報とを含むブログをネットワークを介して収集してその文字列中に出現するタグを取り出し、ブログと取り出したタグとを対応づけてタグ出現データベース104に格納する。仮放送局推定部106は、ブログの文字列中に出現する特徴語をもとにブログで言及されている番組を放送する放送局を推定し、仮放送局としてブログと対応づけてブログデータベース102に格納する。放送局確定部107は、タグ出現データベース104中に格納された、所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、ブログデータベース102を参照してタグを文字列中に含むブログで言及されている番組の仮放送局を集計し、その番組を放送する放送局を確定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推定装置、推定方法、並びにプログラムに係り、特に、収集したブログの特徴語を使用して、ブログが言及している番組を放送する放送局やその番組を推定する技術に関する。
【背景技術】
【0002】
インターネットやブログが一般に普及したことにより、ごく普通のユーザが自身のブログサイトで放送中のテレビ番組などをリアルタイムに実況するということが流行している。特に140文字程度の短いコメントを投稿、閲覧できるようなマイクロブログは、携帯電話からも投稿できる手軽さから、こうした番組の実況という利用が急速に広まっている。なお、本明細書における「ブログ」とは、個人がwebサイトへ投稿したコメントや記事と定義する。
【0003】
このような背景から、ユーザが現在視聴しているテレビ番組の番組情報をユーザへ一覧させることで、その番組に関連したブログ記事やコメントの作成支援を行う発明などもある(特許文献1参照)。
【0004】
また、逆のアプローチとして、ブログ記事の内容からどの番組について実況しているかを推定する手法についても考えられつつある。このようなブログが言及している番組の推定に関して、字幕テキストを使った手法として、「字幕テキストの利用によるブログで引用されたテレビ番組の推定」が挙げられる(非特許文献1参照)。これは、EPG(Electric Program Guide:電子番組ガイド)や字幕テキストから特徴語を抽出し、ブログ内の単語と比較することで、テレビ局制約、ジャンル制約を決定し、さらに時制特徴語から時間制約を取り出し、スコアリングを行い、ブログが言及している番組を推定するものである。
【0005】
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2008−124861号公報
【非特許文献】
【0007】
【非特許文献1】及川 孝徳、外4名、“字幕テキストの利用によるブログで引用されたテレビ番組の推定”[online][平成23年9月9日検索]、インターネット<URL:http://db-event.jpn.org/deim2010/proceedings/files/D6-4.pdf>
【0008】
一方、現実のブロガー(ブログを書く人)は、テレビ番組のみを365日実況しているわけではなく、自分の普段の生活の一コマや、書籍の感想などを1つのブログサイトに混在して記述する。このようなブロガーの行動様式としては、こういった混在した個々の内容の付箋として、タグ名を付与することが確立している。例えば、日常、書籍、テレビなどのカテゴリに分けて#dairy、#books、#tvなどのタグを付ける。また、良く視聴する番組に対しては固有のタグを付与することも良く行われている。例えば、連続ドラマA→#rendoraAなどの省略語を基調としたものが多い。
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、前記の提案手法では、字幕テキストが付いていない番組に関しては最初から扱わない(評価でも全て例外にしている)が、現実として番組の半分には字幕テキストが付いておらず、実用的ではなかった。また、ラジオなど元々字幕テキストが存在しない放送に対しては適用が難しかった。
更に、現実の字幕テキストは、シナリオや放送倫理規定に沿った正しい日本語である。一方、ユーザがテレビを見ながらブログに入力する場合は、省略語、スラング、タグが多用されるカジュアルな日本語になりがちである。特にタレント名や番組名などは省略語にされやすいため、思い通りの推定精度が得られない。これを解決する既知の技術として、正しい日本語と、省略語、スラング、タグとの類義語辞書を作成することで、推定精度を高めることも考えられているが、日々未知の単語が現れる類義語辞書をメンテナンスしていくことは高コストである。
また、確かにブロガーの行動様式としてタグを付けることは良く行われているものの、そのタグは決して放送局が指定したものではなく、自然発生的に決まったものであって、出現頻度にもばらつきがあり、番組情報と結びつけることが難しかった。
【0010】
そこで本発明は、EPGや字幕テキストから特徴語を抽出したり、類義語辞書などをメンテナンスしたりすることなく、ブログ等のソーシャルメディアが言及している番組を高精度に推定できるようにすることを目的とする。
【課題を解決するための手段】
【0011】
上記目的を達成するため、本発明のある態様は推定装置である。この装置は、個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するタグ取出部と、前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納する仮放送局推定部と、前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定する放送局確定部とを含む。
本発明の別の態様は、推定方法である。この方法は、個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するステップと、前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納するステップと、前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定するステップとをプロセッサに実行させる。
【発明の効果】
【0012】
本発明によれば、ブログ等のソーシャルメディアが言及している番組を放送する放送局を推定することができる。
【図面の簡単な説明】
【0013】
【図1】本発明の実施の形態1における推定装置のブロック図である。
【図2】本発明の実施の形態1におけるフローチャートである。
【図3】本発明の実施の形態1のブログDBデータ構造の例(番組推定前)である。
【図4】本発明の実施の形態1のブログDBデータ構造の例(番組推定後)である。
【図5】本発明の実施の形態1におけるタグ出現DBデータ構造の例である。
【図6】本発明の実施の形態1におけるタグ番組DBデータ構造の例(番組推定前)である。
【図7】本発明の実施の形態1におけるタグ番組DBデータ構造の例(番組推定後)である。
【図8】本発明の実施の形態1における特徴語データの例である。
【図9】本発明の実施の形態2における推定装置のブロック図である。
【図10】本発明の実施の形態2におけるフローチャートである。
【発明を実施するための形態】
【0014】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(実施の形態1)
【0015】
図1は、本発明の実施の形態1に係る推定装置のブロック図である。また、図2は本発明の実施の形態1におけるフローチャートである。
【0016】
推定装置100のブログ収集部101は、インターネット等のネットワーク200を通じてブログ記事を収集し(S1)、図3に示したブログDB(DataBase;データベース)102に投稿固有ID、本文、投稿時刻を登録する(S2)。なお、この時点では、後述する仮放送局や確定放送局、番組情報(タイトル、放送局名、番組詳細など)は不明であるため、空のままである。なお、本明細書における「ブログ」とは、個人がwebサイトへ1回に投稿した(書き込んだ)コメントや記事を1つの単位とし、その投稿されたコメントや記事を構成する文章情報(文字列)と、そのコメントや記事を投稿した時刻情報とが含まれているものとする。
ここで、投稿固有IDは個々のブログ記事に特有のID(IDentification)である。本発明では特に投稿固有IDの書式は限定しない。また、ブログ記事を収集するブログサイトについても、特に限定するものではない。
【0017】
次に、タグ取出部103はブログの本文から任意のタグを取り出す(S3)。本実施例では#rendoraAのように“#”から始まる英数字をタグとして取り出しているが、このタグの書式については、本発明で特に限定するものではなく、予め定められたルールに従って機械的に自動取出しできる、ブログ固有の書式(HTMLタグのうち特定の書式で囲まれたテキストなど)やユーザの行動様式に従った書式であれば、どのような書式でも構わない。
【0018】
続けて、タグ取出部103は取り出したタグをブログの投稿固有IDおよび投稿時刻と対応づけてタグ出現DB104に登録する(S4)。タグ出現DB104は図5に示したデータ構造を持つ。なお、図5では、後述する仮の放送局名を推定する際に使用する特徴語データは除いた例が示されている。
更に、タグ取出部103は、取り出したタグがタグとそのタグから推定された番組情報の関連付けを示したタグ番組DB105にまだ登録されていない新しいタグであるかを判断し(S5)、新しいタグであるならばタグ番組DB105に登録する(S6)。タグ番組DB105は図6に示したデータ構造を持つ。なお、この時点では確定時刻(タグと番組情報の関連付けが決定した時刻)と番組情報、および後述する確定放送局は不明であるため、空である。
【0019】
一方、仮放送局推定部106は、ブログ収集部101が収集したブログの本文から仮の放送局を推定し(S7)、推定された仮放送局をブログDB102に一時保存する(S8)。
本発明の実施の形態では、この仮放送局の推定に、図8の例に示したような放送局ごとに予め用意した特徴語データを用いる。この特徴語データは、ブログ本文中に出てくる用語であり、必ずしも上述したタグとは限らない。特徴語データには優先度スコアを予め定めておく。例えば、図3の投稿固有ID=06565406541では、ブログ本文の「Bテレビ」という文字列のみにマッチするので「放送局B」を仮放送局と推定する。この方法は、従来技術のように、EPGや字幕テキストを形態素解析して特徴語を取り出すような必要がなく、推定に掛かる計算コストを大幅に抑えることができる。
仮放送局を推定する精度を上げるために、図8のように特徴語データ毎に優先度のスコア付けを行い、ブログDB102の仮放送局に一時保持し、一つのブログ本文が複数の放送局の特徴語データにマッチする場合(例えば「放送局Aの衛星放送を見てみなよ」というブログ本文は、放送局Aと放送局Aの衛星放送との両者にマッチする)、放送局ごとに合計し、最も仮合計スコアが高い放送局を仮放送局と推定してもよい。この優先度スコアも、特徴語同様、予め定められた値であり、各放送局向けに一度設定した静的なデータである。マッチした仮合計スコアは、ブログDB102の所定のカラムへ一時保存する。
【0020】
この段階での仮放送局はあくまでも仮の放送局であり、マッチングする仮放送局が複数あっても、また、一つもマッチせずに仮放送局が不明であっても構わない。例えば、図3の投稿固有ID=06565406567では、ブログ本文から放送局が推定できないため、対応する仮放送局の欄は「?(不明)」のままである。
【0021】
次に、図5に示したように、放送局確定部107は、定期的にタグ出現DB104を予め定めた規定の時刻範囲Ra(例えば10分前〜現在時刻など)で区切り、その時刻範囲Raに任意のタグTが予め定められた閾値β回(例えば50回など)以上出現するかを判断し(S9)、タグTがβ回以上出現する場合に、後述する方法で放送局を確定する。ここで規定の時刻範囲Raとは、タグと放送局との対応関係を求める際に基準とする放送局推定基準時刻範囲である。また、閾値βは、タグと放送局とを対応づけるか否かを決定するために参照する、放送局決定基準値である。
なお、本実施例では説明の簡単化のために、前記規定の時刻範囲を10分間に固定した例を説明しているが、定期的に時刻を監視し、現在放送中の番組情報から、番組の開始時刻と終了時刻を取り出し、現在時刻が終了時刻に重なった時点で、時刻範囲Raを決定することで、時刻範囲を可変にしてもよい。
【0022】
ここでは、現在時刻22:05において、図5で示した規定の時刻範囲Ra(21:55:00‐22:05:00)の区間に#prog1というタグTがβ回以上出現したとする。
放送局確定部107は、タグ出現DB104に記録した投稿固有IDを元にブログDB102から#prog1というタグが含まれている最も古い投稿時刻(20:50:22)から最新の投稿時刻(22:02:20)まで時刻範囲Rb内のブログリストLbを取得する(S10)。放送局確定部107は次に、このブログリストLbから仮放送局の出現回数を集計してランキングを作成し、最も出現回数の多い仮放送局を#prog1が示す確定放送局と特定する(S11)。
なお、本実施例においてブログDB102は、ブログ収集部101が収集した過去1週間分のブログを格納し、それよりも過去のブログは削除しているものとする。また、説明の簡単化のために、タグTが含まれている最も古い投稿時刻をそのまま時刻範囲Rbに採用したが、最も古い時刻は、最新の投稿時刻と同一日時であるといった制限を加えて、同一番組が異なる地方局で日時をずらして放送するといった編成に対処してもよい。
【0023】
より多くの例を示す。例えば、時刻範囲Rb(20:50:22‐22:05:00)の区間に、全体で305件のタグTを含む投稿があり、仮放送局ごとの集計結果が
1位:放送局A=296件 (合計スコア 485.0)
2位:放送局E=6件 (合計スコア 8.5)
3位:放送局F=1件 (合計スコア 2.0)
不明=2件(不明率0.7%)
であった場合には、「放送局A」を確定放送局とする。この方法により、一つ一つのブログ記事から推定した仮放送局のばらつきや誤差を抑えることができ、推定精度を格段に高めることができる。
また、本実施例では説明の簡単化のために必ず放送局が確定するようになっているが、より精度を高めるために、仮放送局の分布を統計的に判定し、棄却条件に一致(ここで棄却条件は、例えば、1位と2位の合計優先度スコアに殆ど差がない場合、不明率が全体の投稿件数に対して著しく大きい(例えば不明率30%以上など)場合を指す)した場合には、タグTが特定の放送局や番組情報を示すものではないとして、番組情報の推定には用いないと判断してもよい。
【0024】
前記の方法で確定放送局が特定できたならば、次に番組推定部108は番組情報DB109から前記時刻範囲Rbに該当する確定放送局の全ての番組候補を取得する(S12)。ここで、番組情報DB109は少なくとも放送局名、放送時間、タイトル、番組詳細などの情報を蓄積したデータベースであるが、これらの情報の取得部について本発明では特に限定しない。ネットワーク経由で取得した情報でも、放送波に含まれる電子番組データから取得したものでも、その他の方法で取得したものでも構わない。
【0025】
先ほどの例では、前記時刻範囲Rb(20:50:22−22:05:00)に該当する放送局Aの番組候補として、20:45−21:00に放送の「番組5」と、21:00−22:00に放送の「番組6」、22:00−22:45に放送の「番組1」の3つの番組が得られる。
更に、前記ブログリストLbの投稿時刻を元にして、それぞれの番組放送時間中の投稿件数を集計すると、ユーザがリアルタイムに番組を実況しているという行動様式から、以下のように特定の番組についての投稿件数が非常に大きくなる。
「放送局名:放送局A
タイトル:番組5
放送時間:20:45−21:00
前記ブログリストLb中の投稿件数:1件」、
「放送局名:放送局A
タイトル:番組6
放送時間:21:00−22:00
前記ブログリストLb中の投稿件数:5件」、
「放送局名:放送局A
タイトル:番組1
放送時間:22:00−22:45
前記ブログリストLb中の投稿件数:299件」。
この結果から、番組推定部108は、前記ブログリストLb中の投稿件数が最も多い「番組1」がタグ#prog1が示す該当番組であるとして推定する(S13)。ここでも、複数の番組に関連するブログのばらつきや誤差を抑えることで、推定精度を高めている。
【0026】
タグTが示す番組が推定できた時点で、番組推定部108は、タグ番組DB105に番組情報として番組情報DB109から取得した「番組1」に関する情報を登録し、確定時刻として現在時刻の22:05を登録することで、タグTと番組情報との関連付けを完了する(S14)。
【0027】
最後に、番組情報書換部110が前記ブログリストLbのうち、番組情報が空であるものに関して、推定した番組情報を元にブログDB102の番組情報および確定放送局を書き換える(S15)。これにより、S7の段階では不明であった番組情報や誤って推定された確定放送局も正しい情報となる。
例えば、図3に示した投稿固有ID=06565406567は、ブログ本文からは仮放送局を推定できていなかったが、前記手法によって、図4に示したように放送局が確定されている。また、図4および図7は同様にして番組情報が確定した状態を示している。
図4の投稿固有ID=06565406542は#dairyというタグを含んでいるものの、そのタグが特定の番組と関連づけられる結果が得られなかったため、番組を引用しているブログではないと判別できる。
【0028】
以上のように、実施の形態1によれば、EPGや字幕テキストから特徴語を抽出したり、類義語辞書などをメンテナンスしたりすることなく、ブログ等のソーシャルメディアが言及している番組を高精度に推定できるという効果を得ることができる。
(実施の形態2)
【0029】
図9は、本発明の実施の形態2に係る推定装置のブロック図である。また、図10は本発明の実施の形態2におけるフローチャートである。実施の形態1の推定装置100に、番組情報設定部111を加えたブロック構成になっている。
【0030】
図10のフローチャートにおいて、ステップS1からステップS4まで、および、ステップS6からステップS15までは実施例1と同様であるため、説明は省略する。
【0031】
タグ取出部103は、タグとそのタグから推定された番組情報の関連付けを示したタグ番組DB105にまだ登録されていない新しいタグであるかを判断し(S5)、新しいタグであるならばタグ番組DB105に登録する(S6)。
既にタグ番組DB105に登録されているタグである場合、番組情報設定部111は、そのタグに関連付けられている番組情報があるかどうかを判断し(S16)、番組情報がある場合には、ブログの投稿時刻がタグ番組DB105にある確定時刻+閾値γ以内であるかどうかを判断し(S17)、範囲内であればタグが同一の番組情報を示していると推定し、ブログDB102の番組情報および放送局リストを書き換える(S18)。ここで閾値γは、タグと番組情報との対応関係を求める際に基準とする番組推定基準時刻範囲である。
【0032】
例えば、予め定められた閾値γ=2時間である場合に、図3に示した投稿固有ID=06565406721では、ブログ本文と特徴語データとのマッチングからは仮放送局が得られないが、タグ#prog1を含んでおり、かつ、投稿時刻22:43:20がタグ#prog1の確定時刻22:05:00+閾値γ(2時間)以内であるため、番組情報設定部111により、「番組1」であると直ちに推定される。その結果、図4に示したように投稿固有ID=06565406721の番組情報および放送局が設定される。
【0033】
確定時刻+閾値γによる制限は、同一の番組が異なる放送局で異なる時間に放送された場合に、古い関連付けの番組情報を強制しないためのものである。例えば、放送局Fと放送局Gで同一の番組が異なる時間帯で放送されることがある。しかしながら、放送局名が異なるため、番組情報は完全には一致しない。このとき、後に放送された番組に対して、新しい番組情報を関連付けるためにこのような制限が必要となる。このように、閾値γの値は各局で放送される番組情報を勘案して実験により定めればよい。
【0034】
また、同様の考えから、タグ番組DB105を定期的に確認し、確定時刻が現在時刻−閾値γ以前のタグを削除することで、タグと番組情報の関連づけを新しいものに更新していくことも可能である。
【0035】
以上のように、実施の形態2によれば、番組に関連するタグTは設定されているが、既知の特徴語テーブルからは仮の放送局が推定できないブログテキスト(即ち、従来は活用されずに捨てられていたブログテキスト)の番組を推定するという効果を得ることができる。
【0036】
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0037】
(変形例1)
上記の説明では、放送局確定部107が、タグ出現DB104に記録した投稿固有IDを元にブログDB102から特定のタグに関するブログリストLbを取得し、取得したブログリストLbから仮放送局の出現回数を集計してランキングを作成し、最も出現回数の多い仮放送局をそのタグが示す確定放送局と特定する場合に説明した。放送局確定部107によるタグと放送局との対応の付け方は、出現回数の最大値に基づく方法に限らない。放送局確定部107は、確定放送局を求める際に、単にブログリストLbに出現する仮放送局の出現回数を集計するのみならず、その集計結果をさらに解析することで確定放送局を求めてもよい。以下、放送局確定部107によるタグと放送局との対応付けの、別の例について説明する。
【0038】
放送局確定部107は、まずブログリストLbから推定される各仮放送局の数の時系列的な変化を算出する。時系列的な変化は、例えば時刻を横軸とし、各時刻において投稿されたブログから推定される仮放送局の数を縦軸とするグラフによって表現される。続いて放送局確定部107は、算出した時系列的な変化の時間微分を算出し、微分値の極大値が最も大きくなるグラフを持つ仮放送局を、そのタグに対応する放送局とする。このように時系列的な変化の微分値を求めることは、ブログ中の瞬間的な盛り上がりを評価することに相当する。これにより、ある番組のスタート時点や番組中の人気コーナーの放映中など、番組の進行状況に応じた盛り上がりの変化をその放送局の決定に反映させることができる。
【0039】
(変形例2)
上記の説明では、番組推定部108は、ブログリストLb中の投稿件数が最も多い「番組」を、タグが示す該当番組であるとして推定する場合について説明した。番組推定部108によるタグと番組との対応の付け方は、投稿件数の最大値に基づく方法に限らない。以下、番組推定部108によるタグと番組との対応付けの、別の例について説明する。
【0040】
番組推定部108は、ブログリストLb中の投稿された番組の数を集計し、その数を番組の放送時間で規格化した規格化番組数をもとにタグと番組とを対応づけてもよい。より具体的には、番組推定部108は、集計した番組の数をその番組の放送時間で割ることにより、単位放送時間あたりの番組数を求める。一般に、放送時間の長い番組の方が、放送時間が短い番組と比較して、ブログに投稿される数が増えると考えられる。例えば、放送時間が10分の番組の後に放送時間が3時間の番組が放送されることを考えると、ブログに投稿される数の総和は、放送時間が3時間の番組の方が多くなると考えられる。したがって、番組推定部108が単位放送時間あたりの番組数をもとにタグと番組とを対応づけることにより、放送時間による投稿数の相違を低減し、番組推定精度を向上することができる。
【符号の説明】
【0041】
100 推定装置、 101 ブログ収集部、 102 ブログDB、 103 タグ取出部、 104 タグ出現DB、 105 タグ番組DB、 106 仮放送局推定部、 107 放送局確定部、 108 番組推定部、 109 番組情報DB、 110 番組情報書換部、 111 番組情報設定部、 200 ネットワーク。

【特許請求の範囲】
【請求項1】
個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するタグ取出部と、
前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納する仮放送局推定部と、
前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定する放送局確定部とを含むことを特徴とする推定装置。
【請求項2】
各放送局が放送する番組の放送時間帯を格納した番組情報データベースを参照し、前記放送局確定部が確定した放送局が放送する番組の中で、前記番組の放送時間帯中に書き込まれた前記ブログの文字列中に出現する前記タグの数をもとに前記タグが示す番組を推定し、前記タグと推定した番組とを対応づけてタグ番組データベースに格納する番組推定部をさらに含むことを特徴とする請求項1に記載の推定装置。
【請求項3】
前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログのうち前記番組推定部が番組を推定したタグを含むブログを、前記番組および前記放送局確定部が確定した放送局と対応づけて前記ブログデータベースに格納する番組情報書換部をさらに含むことを特徴とする請求項2に記載の推定装置。
【請求項4】
ネットワークを介して収集したブログの文字列中に、前記番組推定部が番組と対応づけたタグを含む場合、前記ブログが書き込まれた時刻がタグの所定の時刻範囲に収まっていることを条件として、前記タグに対応づけられた番組および前記番組を放送する放送局を前記ブログと対応づけて前記ブログデータベースに格納する番組情報設定部をさらに含むことを特徴とする請求項2から3のいずれかに記載の推定装置。
【請求項5】
個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するステップと、
前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納するステップと、
前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定するステップとをプロセッサに実行させることを特徴とする推定方法。
【請求項6】
個人がwebサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納する機能と、
前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納する機能と、
前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定する機能とをコンピュータに実現させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2012−129982(P2012−129982A)
【公開日】平成24年7月5日(2012.7.5)
【国際特許分類】
【出願番号】特願2011−215271(P2011−215271)
【出願日】平成23年9月29日(2011.9.29)
【出願人】(308036402)株式会社JVCケンウッド (1,152)
【Fターム(参考)】