推定装置、推定方法、並びにプログラム

【課題】ソーシャルメディアが言及している番組を放送する放送局を推定する。
【解決手段】タグ取出部１０３は、文字列とその文字列が書き込まれた時刻情報とを含むブログをネットワークを介して収集してその文字列中に出現するタグを取り出し、ブログと取り出したタグとを対応づけてタグ出現データベース１０４に格納する。仮放送局推定部１０６は、ブログの文字列中に出現する特徴語をもとにブログで言及されている番組を放送する放送局を推定し、仮放送局としてブログと対応づけてブログデータベース１０２に格納する。放送局確定部１０７は、タグ出現データベース１０４中に格納された、所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、ブログデータベース１０２を参照してタグを文字列中に含むブログで言及されている番組の仮放送局を集計し、その番組を放送する放送局を確定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、推定装置、推定方法、並びにプログラムに係り、特に、収集したブログの特徴語を使用して、ブログが言及している番組を放送する放送局やその番組を推定する技術に関する。
【背景技術】
【０００２】
インターネットやブログが一般に普及したことにより、ごく普通のユーザが自身のブログサイトで放送中のテレビ番組などをリアルタイムに実況するということが流行している。特に１４０文字程度の短いコメントを投稿、閲覧できるようなマイクロブログは、携帯電話からも投稿できる手軽さから、こうした番組の実況という利用が急速に広まっている。なお、本明細書における「ブログ」とは、個人がｗｅｂサイトへ投稿したコメントや記事と定義する。
【０００３】
このような背景から、ユーザが現在視聴しているテレビ番組の番組情報をユーザへ一覧させることで、その番組に関連したブログ記事やコメントの作成支援を行う発明などもある（特許文献１参照）。
【０００４】
また、逆のアプローチとして、ブログ記事の内容からどの番組について実況しているかを推定する手法についても考えられつつある。このようなブログが言及している番組の推定に関して、字幕テキストを使った手法として、「字幕テキストの利用によるブログで引用されたテレビ番組の推定」が挙げられる（非特許文献１参照）。これは、ＥＰＧ（ＥｌｅｃｔｒｉｃＰｒｏｇｒａｍＧｕｉｄｅ：電子番組ガイド）や字幕テキストから特徴語を抽出し、ブログ内の単語と比較することで、テレビ局制約、ジャンル制約を決定し、さらに時制特徴語から時間制約を取り出し、スコアリングを行い、ブログが言及している番組を推定するものである。
【０００５】
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００８−１２４８６１号公報
【非特許文献】
【０００７】
【非特許文献１】及川孝徳、外４名、“字幕テキストの利用によるブログで引用されたテレビ番組の推定”［online］［平成２３年９月９日検索］、インターネット<URL:http://db-event.jpn.org/deim2010/proceedings/files/D6-4.pdf>
【０００８】
一方、現実のブロガー（ブログを書く人）は、テレビ番組のみを３６５日実況しているわけではなく、自分の普段の生活の一コマや、書籍の感想などを１つのブログサイトに混在して記述する。このようなブロガーの行動様式としては、こういった混在した個々の内容の付箋として、タグ名を付与することが確立している。例えば、日常、書籍、テレビなどのカテゴリに分けて＃ｄａｉｒｙ、＃ｂｏｏｋｓ、＃ｔｖなどのタグを付ける。また、良く視聴する番組に対しては固有のタグを付与することも良く行われている。例えば、連続ドラマＡ→＃ｒｅｎｄｏｒａＡなどの省略語を基調としたものが多い。
【発明の概要】
【発明が解決しようとする課題】
【０００９】
しかしながら、前記の提案手法では、字幕テキストが付いていない番組に関しては最初から扱わない（評価でも全て例外にしている）が、現実として番組の半分には字幕テキストが付いておらず、実用的ではなかった。また、ラジオなど元々字幕テキストが存在しない放送に対しては適用が難しかった。
更に、現実の字幕テキストは、シナリオや放送倫理規定に沿った正しい日本語である。一方、ユーザがテレビを見ながらブログに入力する場合は、省略語、スラング、タグが多用されるカジュアルな日本語になりがちである。特にタレント名や番組名などは省略語にされやすいため、思い通りの推定精度が得られない。これを解決する既知の技術として、正しい日本語と、省略語、スラング、タグとの類義語辞書を作成することで、推定精度を高めることも考えられているが、日々未知の単語が現れる類義語辞書をメンテナンスしていくことは高コストである。
また、確かにブロガーの行動様式としてタグを付けることは良く行われているものの、そのタグは決して放送局が指定したものではなく、自然発生的に決まったものであって、出現頻度にもばらつきがあり、番組情報と結びつけることが難しかった。
【００１０】
そこで本発明は、ＥＰＧや字幕テキストから特徴語を抽出したり、類義語辞書などをメンテナンスしたりすることなく、ブログ等のソーシャルメディアが言及している番組を高精度に推定できるようにすることを目的とする。
【課題を解決するための手段】
【００１１】
上記目的を達成するため、本発明のある態様は推定装置である。この装置は、個人がｗｅｂサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するタグ取出部と、前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納する仮放送局推定部と、前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定する放送局確定部とを含む。
本発明の別の態様は、推定方法である。この方法は、個人がｗｅｂサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するステップと、前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納するステップと、前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定するステップとをプロセッサに実行させる。
【発明の効果】
【００１２】
本発明によれば、ブログ等のソーシャルメディアが言及している番組を放送する放送局を推定することができる。
【図面の簡単な説明】
【００１３】
【図１】本発明の実施の形態１における推定装置のブロック図である。
【図２】本発明の実施の形態１におけるフローチャートである。
【図３】本発明の実施の形態１のブログＤＢデータ構造の例（番組推定前）である。
【図４】本発明の実施の形態１のブログＤＢデータ構造の例（番組推定後）である。
【図５】本発明の実施の形態１におけるタグ出現ＤＢデータ構造の例である。
【図６】本発明の実施の形態１におけるタグ番組ＤＢデータ構造の例（番組推定前）である。
【図７】本発明の実施の形態１におけるタグ番組ＤＢデータ構造の例（番組推定後）である。
【図８】本発明の実施の形態１における特徴語データの例である。
【図９】本発明の実施の形態２における推定装置のブロック図である。
【図１０】本発明の実施の形態２におけるフローチャートである。
【発明を実施するための形態】
【００１４】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
（実施の形態１）
【００１５】
図１は、本発明の実施の形態１に係る推定装置のブロック図である。また、図２は本発明の実施の形態１におけるフローチャートである。
【００１６】
推定装置１００のブログ収集部１０１は、インターネット等のネットワーク２００を通じてブログ記事を収集し（Ｓ１）、図３に示したブログＤＢ（ＤａｔａＢａｓｅ；データベース）１０２に投稿固有ＩＤ、本文、投稿時刻を登録する（Ｓ２）。なお、この時点では、後述する仮放送局や確定放送局、番組情報（タイトル、放送局名、番組詳細など）は不明であるため、空のままである。なお、本明細書における「ブログ」とは、個人がｗｅｂサイトへ１回に投稿した（書き込んだ）コメントや記事を１つの単位とし、その投稿されたコメントや記事を構成する文章情報（文字列）と、そのコメントや記事を投稿した時刻情報とが含まれているものとする。
ここで、投稿固有ＩＤは個々のブログ記事に特有のＩＤ（ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）である。本発明では特に投稿固有ＩＤの書式は限定しない。また、ブログ記事を収集するブログサイトについても、特に限定するものではない。
【００１７】
次に、タグ取出部１０３はブログの本文から任意のタグを取り出す（Ｓ３）。本実施例では＃ｒｅｎｄｏｒａＡのように“＃”から始まる英数字をタグとして取り出しているが、このタグの書式については、本発明で特に限定するものではなく、予め定められたルールに従って機械的に自動取出しできる、ブログ固有の書式（ＨＴＭＬタグのうち特定の書式で囲まれたテキストなど）やユーザの行動様式に従った書式であれば、どのような書式でも構わない。
【００１８】
続けて、タグ取出部１０３は取り出したタグをブログの投稿固有ＩＤおよび投稿時刻と対応づけてタグ出現ＤＢ１０４に登録する（Ｓ４）。タグ出現ＤＢ１０４は図５に示したデータ構造を持つ。なお、図５では、後述する仮の放送局名を推定する際に使用する特徴語データは除いた例が示されている。
更に、タグ取出部１０３は、取り出したタグがタグとそのタグから推定された番組情報の関連付けを示したタグ番組ＤＢ１０５にまだ登録されていない新しいタグであるかを判断し（Ｓ５）、新しいタグであるならばタグ番組ＤＢ１０５に登録する（Ｓ６）。タグ番組ＤＢ１０５は図６に示したデータ構造を持つ。なお、この時点では確定時刻（タグと番組情報の関連付けが決定した時刻）と番組情報、および後述する確定放送局は不明であるため、空である。
【００１９】
一方、仮放送局推定部１０６は、ブログ収集部１０１が収集したブログの本文から仮の放送局を推定し（Ｓ７）、推定された仮放送局をブログＤＢ１０２に一時保存する（Ｓ８）。
本発明の実施の形態では、この仮放送局の推定に、図８の例に示したような放送局ごとに予め用意した特徴語データを用いる。この特徴語データは、ブログ本文中に出てくる用語であり、必ずしも上述したタグとは限らない。特徴語データには優先度スコアを予め定めておく。例えば、図３の投稿固有ＩＤ＝０６５６５４０６５４１では、ブログ本文の「Ｂテレビ」という文字列のみにマッチするので「放送局Ｂ」を仮放送局と推定する。この方法は、従来技術のように、ＥＰＧや字幕テキストを形態素解析して特徴語を取り出すような必要がなく、推定に掛かる計算コストを大幅に抑えることができる。
仮放送局を推定する精度を上げるために、図８のように特徴語データ毎に優先度のスコア付けを行い、ブログＤＢ１０２の仮放送局に一時保持し、一つのブログ本文が複数の放送局の特徴語データにマッチする場合（例えば「放送局Ａの衛星放送を見てみなよ」というブログ本文は、放送局Ａと放送局Ａの衛星放送との両者にマッチする）、放送局ごとに合計し、最も仮合計スコアが高い放送局を仮放送局と推定してもよい。この優先度スコアも、特徴語同様、予め定められた値であり、各放送局向けに一度設定した静的なデータである。マッチした仮合計スコアは、ブログＤＢ１０２の所定のカラムへ一時保存する。
【００２０】
この段階での仮放送局はあくまでも仮の放送局であり、マッチングする仮放送局が複数あっても、また、一つもマッチせずに仮放送局が不明であっても構わない。例えば、図３の投稿固有ＩＤ＝０６５６５４０６５６７では、ブログ本文から放送局が推定できないため、対応する仮放送局の欄は「？（不明）」のままである。
【００２１】
次に、図５に示したように、放送局確定部１０７は、定期的にタグ出現ＤＢ１０４を予め定めた規定の時刻範囲Ｒａ（例えば１０分前〜現在時刻など）で区切り、その時刻範囲Ｒａに任意のタグＴが予め定められた閾値β回（例えば５０回など）以上出現するかを判断し（Ｓ９）、タグＴがβ回以上出現する場合に、後述する方法で放送局を確定する。ここで規定の時刻範囲Ｒａとは、タグと放送局との対応関係を求める際に基準とする放送局推定基準時刻範囲である。また、閾値βは、タグと放送局とを対応づけるか否かを決定するために参照する、放送局決定基準値である。
なお、本実施例では説明の簡単化のために、前記規定の時刻範囲を１０分間に固定した例を説明しているが、定期的に時刻を監視し、現在放送中の番組情報から、番組の開始時刻と終了時刻を取り出し、現在時刻が終了時刻に重なった時点で、時刻範囲Ｒａを決定することで、時刻範囲を可変にしてもよい。
【００２２】
ここでは、現在時刻２２：０５において、図５で示した規定の時刻範囲Ｒａ（２１：５５：００‐２２：０５：００）の区間に＃ｐｒｏｇ１というタグＴがβ回以上出現したとする。
放送局確定部１０７は、タグ出現ＤＢ１０４に記録した投稿固有ＩＤを元にブログＤＢ１０２から＃ｐｒｏｇ１というタグが含まれている最も古い投稿時刻（２０：５０：２２）から最新の投稿時刻（２２：０２：２０）まで時刻範囲Ｒｂ内のブログリストＬｂを取得する（Ｓ１０）。放送局確定部１０７は次に、このブログリストＬｂから仮放送局の出現回数を集計してランキングを作成し、最も出現回数の多い仮放送局を＃ｐｒｏｇ１が示す確定放送局と特定する（Ｓ１１）。
なお、本実施例においてブログＤＢ１０２は、ブログ収集部１０１が収集した過去１週間分のブログを格納し、それよりも過去のブログは削除しているものとする。また、説明の簡単化のために、タグＴが含まれている最も古い投稿時刻をそのまま時刻範囲Ｒｂに採用したが、最も古い時刻は、最新の投稿時刻と同一日時であるといった制限を加えて、同一番組が異なる地方局で日時をずらして放送するといった編成に対処してもよい。
【００２３】
より多くの例を示す。例えば、時刻範囲Ｒｂ（２０：５０：２２‐２２：０５：００）の区間に、全体で３０５件のタグＴを含む投稿があり、仮放送局ごとの集計結果が
１位：放送局Ａ＝２９６件（合計スコア４８５．０）
２位：放送局Ｅ＝６件（合計スコア８．５）
３位：放送局Ｆ＝１件（合計スコア２．０）
不明＝２件（不明率０．７％）
であった場合には、「放送局Ａ」を確定放送局とする。この方法により、一つ一つのブログ記事から推定した仮放送局のばらつきや誤差を抑えることができ、推定精度を格段に高めることができる。
また、本実施例では説明の簡単化のために必ず放送局が確定するようになっているが、より精度を高めるために、仮放送局の分布を統計的に判定し、棄却条件に一致（ここで棄却条件は、例えば、１位と２位の合計優先度スコアに殆ど差がない場合、不明率が全体の投稿件数に対して著しく大きい（例えば不明率３０％以上など）場合を指す）した場合には、タグＴが特定の放送局や番組情報を示すものではないとして、番組情報の推定には用いないと判断してもよい。
【００２４】
前記の方法で確定放送局が特定できたならば、次に番組推定部１０８は番組情報ＤＢ１０９から前記時刻範囲Ｒｂに該当する確定放送局の全ての番組候補を取得する（Ｓ１２）。ここで、番組情報ＤＢ１０９は少なくとも放送局名、放送時間、タイトル、番組詳細などの情報を蓄積したデータベースであるが、これらの情報の取得部について本発明では特に限定しない。ネットワーク経由で取得した情報でも、放送波に含まれる電子番組データから取得したものでも、その他の方法で取得したものでも構わない。
【００２５】
先ほどの例では、前記時刻範囲Ｒｂ（２０：５０：２２−２２：０５：００）に該当する放送局Ａの番組候補として、２０：４５−２１：００に放送の「番組５」と、２１：００−２２：００に放送の「番組６」、２２：００−２２：４５に放送の「番組１」の３つの番組が得られる。
更に、前記ブログリストＬｂの投稿時刻を元にして、それぞれの番組放送時間中の投稿件数を集計すると、ユーザがリアルタイムに番組を実況しているという行動様式から、以下のように特定の番組についての投稿件数が非常に大きくなる。
「放送局名：放送局Ａ
タイトル：番組５
放送時間：２０：４５−２１：００
前記ブログリストＬｂ中の投稿件数：１件」、
「放送局名：放送局Ａ
タイトル：番組６
放送時間：２１：００−２２：００
前記ブログリストＬｂ中の投稿件数：５件」、
「放送局名：放送局Ａ
タイトル：番組１
放送時間：２２：００−２２：４５
前記ブログリストＬｂ中の投稿件数：２９９件」。
この結果から、番組推定部１０８は、前記ブログリストＬｂ中の投稿件数が最も多い「番組１」がタグ＃ｐｒｏｇ１が示す該当番組であるとして推定する（Ｓ１３）。ここでも、複数の番組に関連するブログのばらつきや誤差を抑えることで、推定精度を高めている。
【００２６】
タグＴが示す番組が推定できた時点で、番組推定部１０８は、タグ番組ＤＢ１０５に番組情報として番組情報ＤＢ１０９から取得した「番組１」に関する情報を登録し、確定時刻として現在時刻の２２：０５を登録することで、タグＴと番組情報との関連付けを完了する（Ｓ１４）。
【００２７】
最後に、番組情報書換部１１０が前記ブログリストＬｂのうち、番組情報が空であるものに関して、推定した番組情報を元にブログＤＢ１０２の番組情報および確定放送局を書き換える（Ｓ１５）。これにより、Ｓ７の段階では不明であった番組情報や誤って推定された確定放送局も正しい情報となる。
例えば、図３に示した投稿固有ＩＤ＝０６５６５４０６５６７は、ブログ本文からは仮放送局を推定できていなかったが、前記手法によって、図４に示したように放送局が確定されている。また、図４および図７は同様にして番組情報が確定した状態を示している。
図４の投稿固有ＩＤ＝０６５６５４０６５４２は＃ｄａｉｒｙというタグを含んでいるものの、そのタグが特定の番組と関連づけられる結果が得られなかったため、番組を引用しているブログではないと判別できる。
【００２８】
以上のように、実施の形態１によれば、ＥＰＧや字幕テキストから特徴語を抽出したり、類義語辞書などをメンテナンスしたりすることなく、ブログ等のソーシャルメディアが言及している番組を高精度に推定できるという効果を得ることができる。
（実施の形態２）
【００２９】
図９は、本発明の実施の形態２に係る推定装置のブロック図である。また、図１０は本発明の実施の形態２におけるフローチャートである。実施の形態１の推定装置１００に、番組情報設定部１１１を加えたブロック構成になっている。
【００３０】
図１０のフローチャートにおいて、ステップＳ１からステップＳ４まで、および、ステップＳ６からステップＳ１５までは実施例１と同様であるため、説明は省略する。
【００３１】
タグ取出部１０３は、タグとそのタグから推定された番組情報の関連付けを示したタグ番組ＤＢ１０５にまだ登録されていない新しいタグであるかを判断し（Ｓ５）、新しいタグであるならばタグ番組ＤＢ１０５に登録する（Ｓ６）。
既にタグ番組ＤＢ１０５に登録されているタグである場合、番組情報設定部１１１は、そのタグに関連付けられている番組情報があるかどうかを判断し（Ｓ１６）、番組情報がある場合には、ブログの投稿時刻がタグ番組ＤＢ１０５にある確定時刻＋閾値γ以内であるかどうかを判断し（Ｓ１７）、範囲内であればタグが同一の番組情報を示していると推定し、ブログＤＢ１０２の番組情報および放送局リストを書き換える（Ｓ１８）。ここで閾値γは、タグと番組情報との対応関係を求める際に基準とする番組推定基準時刻範囲である。
【００３２】
例えば、予め定められた閾値γ＝２時間である場合に、図３に示した投稿固有ＩＤ＝０６５６５４０６７２１では、ブログ本文と特徴語データとのマッチングからは仮放送局が得られないが、タグ＃ｐｒｏｇ１を含んでおり、かつ、投稿時刻２２：４３：２０がタグ＃ｐｒｏｇ１の確定時刻２２：０５：００＋閾値γ（２時間）以内であるため、番組情報設定部１１１により、「番組１」であると直ちに推定される。その結果、図４に示したように投稿固有ＩＤ＝０６５６５４０６７２１の番組情報および放送局が設定される。
【００３３】
確定時刻＋閾値γによる制限は、同一の番組が異なる放送局で異なる時間に放送された場合に、古い関連付けの番組情報を強制しないためのものである。例えば、放送局Ｆと放送局Ｇで同一の番組が異なる時間帯で放送されることがある。しかしながら、放送局名が異なるため、番組情報は完全には一致しない。このとき、後に放送された番組に対して、新しい番組情報を関連付けるためにこのような制限が必要となる。このように、閾値γの値は各局で放送される番組情報を勘案して実験により定めればよい。
【００３４】
また、同様の考えから、タグ番組ＤＢ１０５を定期的に確認し、確定時刻が現在時刻−閾値γ以前のタグを削除することで、タグと番組情報の関連づけを新しいものに更新していくことも可能である。
【００３５】
以上のように、実施の形態２によれば、番組に関連するタグＴは設定されているが、既知の特徴語テーブルからは仮の放送局が推定できないブログテキスト（即ち、従来は活用されずに捨てられていたブログテキスト）の番組を推定するという効果を得ることができる。
【００３６】
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【００３７】
（変形例１）
上記の説明では、放送局確定部１０７が、タグ出現ＤＢ１０４に記録した投稿固有ＩＤを元にブログＤＢ１０２から特定のタグに関するブログリストＬｂを取得し、取得したブログリストＬｂから仮放送局の出現回数を集計してランキングを作成し、最も出現回数の多い仮放送局をそのタグが示す確定放送局と特定する場合に説明した。放送局確定部１０７によるタグと放送局との対応の付け方は、出現回数の最大値に基づく方法に限らない。放送局確定部１０７は、確定放送局を求める際に、単にブログリストＬｂに出現する仮放送局の出現回数を集計するのみならず、その集計結果をさらに解析することで確定放送局を求めてもよい。以下、放送局確定部１０７によるタグと放送局との対応付けの、別の例について説明する。
【００３８】
放送局確定部１０７は、まずブログリストＬｂから推定される各仮放送局の数の時系列的な変化を算出する。時系列的な変化は、例えば時刻を横軸とし、各時刻において投稿されたブログから推定される仮放送局の数を縦軸とするグラフによって表現される。続いて放送局確定部１０７は、算出した時系列的な変化の時間微分を算出し、微分値の極大値が最も大きくなるグラフを持つ仮放送局を、そのタグに対応する放送局とする。このように時系列的な変化の微分値を求めることは、ブログ中の瞬間的な盛り上がりを評価することに相当する。これにより、ある番組のスタート時点や番組中の人気コーナーの放映中など、番組の進行状況に応じた盛り上がりの変化をその放送局の決定に反映させることができる。
【００３９】
（変形例２）
上記の説明では、番組推定部１０８は、ブログリストＬｂ中の投稿件数が最も多い「番組」を、タグが示す該当番組であるとして推定する場合について説明した。番組推定部１０８によるタグと番組との対応の付け方は、投稿件数の最大値に基づく方法に限らない。以下、番組推定部１０８によるタグと番組との対応付けの、別の例について説明する。
【００４０】
番組推定部１０８は、ブログリストＬｂ中の投稿された番組の数を集計し、その数を番組の放送時間で規格化した規格化番組数をもとにタグと番組とを対応づけてもよい。より具体的には、番組推定部１０８は、集計した番組の数をその番組の放送時間で割ることにより、単位放送時間あたりの番組数を求める。一般に、放送時間の長い番組の方が、放送時間が短い番組と比較して、ブログに投稿される数が増えると考えられる。例えば、放送時間が１０分の番組の後に放送時間が３時間の番組が放送されることを考えると、ブログに投稿される数の総和は、放送時間が３時間の番組の方が多くなると考えられる。したがって、番組推定部１０８が単位放送時間あたりの番組数をもとにタグと番組とを対応づけることにより、放送時間による投稿数の相違を低減し、番組推定精度を向上することができる。
【符号の説明】
【００４１】
１００推定装置、１０１ブログ収集部、１０２ブログＤＢ、１０３タグ取出部、１０４タグ出現ＤＢ、１０５タグ番組ＤＢ、１０６仮放送局推定部、１０７放送局確定部、１０８番組推定部、１０９番組情報ＤＢ、１１０番組情報書換部、１１１番組情報設定部、２００ネットワーク。

【特許請求の範囲】
【請求項１】
個人がｗｅｂサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するタグ取出部と、
前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納する仮放送局推定部と、
前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定する放送局確定部とを含むことを特徴とする推定装置。
【請求項２】
各放送局が放送する番組の放送時間帯を格納した番組情報データベースを参照し、前記放送局確定部が確定した放送局が放送する番組の中で、前記番組の放送時間帯中に書き込まれた前記ブログの文字列中に出現する前記タグの数をもとに前記タグが示す番組を推定し、前記タグと推定した番組とを対応づけてタグ番組データベースに格納する番組推定部をさらに含むことを特徴とする請求項１に記載の推定装置。
【請求項３】
前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログのうち前記番組推定部が番組を推定したタグを含むブログを、前記番組および前記放送局確定部が確定した放送局と対応づけて前記ブログデータベースに格納する番組情報書換部をさらに含むことを特徴とする請求項２に記載の推定装置。
【請求項４】
ネットワークを介して収集したブログの文字列中に、前記番組推定部が番組と対応づけたタグを含む場合、前記ブログが書き込まれた時刻がタグの所定の時刻範囲に収まっていることを条件として、前記タグに対応づけられた番組および前記番組を放送する放送局を前記ブログと対応づけて前記ブログデータベースに格納する番組情報設定部をさらに含むことを特徴とする請求項２から３のいずれかに記載の推定装置。
【請求項５】
個人がｗｅｂサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納するステップと、
前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納するステップと、
前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定するステップとをプロセッサに実行させることを特徴とする推定方法。
【請求項６】
個人がｗｅｂサイトへ書き込んだ文字列と、その文字列を書き込んだ時刻情報とが含まれるブログをネットワークを介して収集し、前記ブログの文字列中に出現するタグを取り出し、前記ブログと取り出したタグとを対応づけてタグ出現データベースに格納する機能と、
前記ブログの文字列中に出現する特徴語をもとに前記ブログで言及されている番組を放送する放送局を推定し、推定した放送局を仮放送局として前記ブログと対応づけてブログデータベースに格納する機能と、
前記タグ出現データベース中に格納されたブログであって所定の時刻範囲内に書き込まれたブログの文字列中に出現するタグの数が所定の閾値を越えた場合、前記ブログデータベースを参照して前記タグを文字列中に含むブログで言及されている番組の仮放送局を集計し、集計結果をもとに前記ブログで言及されている番組を放送する放送局を確定する機能とをコンピュータに実現させることを特徴とするプログラム。

【図１】