説明

情報抽出装置、情報抽出方法、及び情報抽出プログラム

【課題】高精度に目的とする情報を抽出する。
【解決手段】放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出装置において、前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出手段と、前記表現候補抽出手段により得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出手段とを有することにより、上記課題を解決する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報抽出装置、情報抽出方法、及び情報抽出プログラムに係り、特に、高精度に目的とする情報を抽出するための情報抽出装置、情報抽出方法、及び情報抽出プログラムに関する。
【背景技術】
【0002】
従来、放送番組等を視聴した視聴者等が番組に対して寄せられる意見や要望等の視聴者の反響文から番組の評判分析が行われ、その結果に基づいて新たな番組等を制作して視聴者の現在の嗜好に適合した番組が提供される。
【0003】
ここで、従来の評判分析は、反響文から「肯定的な意見」、「否定的な意見」、「番組を見て考えたこと」、「知ったこと」、「番組への要望」、「質問」、「その他の意見」等の典型的なカテゴリに分類して分析を行う手法がある。また、その場合には、予め感想や要望等の種類を表現するのに用いられる語句を設定した語群からなる辞書を用意しておき、感想や要望の対象となる語句と辞書との2つの構成により分類が行われていた。なお、予め設定される辞書には、主に動詞や形容詞等の用言の表現が中心に集められ、それぞれに良い反響、悪い反響といった極性が割り振られたり、反響の良さが数値化されたりしている。
【0004】
また、従来では、反響文のテキストに含まれる意見情報には、例えば、感想や要望の対象やその部分、属性、及びそれに対する評価値という形で構造化できるものが多く、これらの関係を用いて、対象から属性に至る階層関係を同定することで、意見の収集や要約に役立たせる手法がある(例えば、非特許文献1参照。)。
【0005】
また、感想や要望の対象は、予めわかっている商品名や店名等の特定の語を登録するという方法が用いられてきた(例えば、非特許文献2参照。)。非特許文献2に示される手法は、例えば、候補となる評価対象を、辞書を用いて同定し、次に評価値と対となる評価対象を抽出して、評価対象が店名でなければ、店名にたどりつくまで評価対象間の階層関係を同定するものである。
【0006】
更に、感想や要望の対象が句や節等の埋め込み文になっているときには、事前に商品名等として登録することができず、そのために埋め込み文の検出手法(例えば、特許文献1、2参照。)等を用いる必要があった。
【非特許文献1】小林のぞみ他、「意見情報抽出のための評価対象・評価視点間の関係同定」、言語処理学会第12回年次大会、2006年3月
【非特許文献2】廣瀬峰史他、「レストランドメインにおける意見情報抽出」、言語処理学会第12回年次大会、2006年3月
【特許文献1】特開昭63−213065号公報
【特許文献2】特開平03−022171号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
ところで、反響文から放送番組に対する評判を分析する場合は、感想や要望の対象が多種多様になり、対象の全てを辞書等に事前に登録することは困難であった。特に、放送番組が特定の商品を扱ったものではなく、より複雑なものを扱った放送である場合には、これらの放送言及部分は単語の範囲を超えて句や節になることがあり、その可能性を事前に網羅することは不可能であった。
【0008】
また、反響文の1つ1つを個別に分析するため、反響の多かった部分等の目的とする情報を効率よく、高精度に特定することができなかった。
【0009】
本発明は、上述した問題点に鑑みなされたものであり、高精度に目的とする情報を抽出するための情報抽出装置、情報抽出方法、及び情報抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
【0011】
請求項1に記載された発明は、放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出装置において、前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出手段と、前記表現候補抽出手段により得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出手段とを有する、ことを特徴とする。
【0012】
請求項1記載の発明によれば、高精度に目的とする情報を抽出することができる。これにより、例えば、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。
【0013】
請求項2に記載された発明は、前記表現候補抽出手段は、前記反響データに含まれる単語に対してn−gramを用いて出現確率を求め、前記出現確率に基づいて前記単語の前後が連続することが必然か否かの検定を行い、必然か否かの検定を表す量である検定量が予め設定された有意水準を超えていれば、前記表現候補として前記反響データに含まれる単語又は連語を抽出する、ことを特徴とする。
【0014】
請求項2記載の発明によれば、n単語の連鎖について、n−gramという形態で出現確率を計算することで、全てのn−gramについて個別にその連鎖する出現が偶然によるものなのか、それとも偶然よりも強い確率で出現したものなのかを検定し、単語の連鎖が必然と判断されたn−gramを放送言及部分と感想や要望、感想等の種類を表す表現候補として抽出することができる。
【0015】
請求項3に記載された発明は、前記表現候補抽出手段は、抽出された表現候補の出現回数を生成し、前記検定量と共に慣用表現データベースとして蓄積し、前記放送言及部分抽出手段は、前記慣用表現データベースに登録された複数の放送番組の表現候補の集合から、予め設定された放送番組に対する前記放送言及部分を抽出する、ことを特徴とする。
【0016】
請求項3記載の発明によれば、多量の反響文から統計的な特徴を用いて放送言及部分を特定することができる。
【0017】
請求項4に記載された発明は、放送された番組を視聴した視聴者からの反響文章から放送番組を特定し、対応する識別情報を付加した反響データを生成し、放送反響データベースとして登録する放送反響データ生成手段を有する、ことを特徴とする。
【0018】
請求項4記載の発明によれば、予め識別情報を含む放送反響データをデータベースに蓄積しておくことにより、効率的に放送番組毎の反響データを抽出することができる。
【0019】
請求項5に記載された発明は、放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出方法において、前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出ステップと、前記表現候補抽出ステップにより得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出ステップとを有する、ことを特徴とする。
【0020】
請求項5記載の発明によれば、高精度に目的とする情報を抽出することができる。これにより、例えば、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。
【0021】
請求項6に記載された発明は、前記表現候補抽出ステップは、前記反響データに含まれる単語に対してn−gramを用いて出現確率を求め、前記出現確率に基づいて前記単語の前後が連続することが必然か否かの検定を行い、必然か否かの検定を表す量である検定量が予め設定された有意水準を超えていれば、前記表現候補として前記反響データに含まれる単語又は連語を抽出する、ことを特徴とする。
【0022】
請求項6記載の発明によれば、n単語の連鎖について、n−gramという形態で出現確率を計算することで、全てのn−gramについて個別にその連鎖する出現が偶然によるものなのか、それとも偶然よりも強い確率で出現したものなのかを検定し、単語の連鎖が必然と判断されたn−gramを放送言及部分と感想や要望、感想等の種類を表す表現候補として抽出することができる。
【0023】
請求項7に記載された発明は、前記表現候補抽出ステップは、抽出された表現候補の出現回数を生成し、前記検定量と共に慣用表現データベースとして蓄積し、前記放送言及部分抽出ステップは、前記慣用表現データベースに登録された複数の放送番組の表現候補の集合から、予め設定された放送番組に対する前記放送言及部分を抽出する、ことを特徴とする。
【0024】
請求項7記載の発明によれば、多量の反響文から統計的な特徴を用いて放送言及部分を特定することができる。
【0025】
請求項8に記載された発明は、放送された番組を視聴した視聴者からの反響文章から放送番組を特定し、対応する識別情報を付加した反響データを生成し、放送反響データベースとして登録する放送反響データ生成ステップを有する、ことを特徴とする。
【0026】
請求項8記載の発明によれば、予め識別情報を含む放送反響データをデータベースに蓄積しておくことにより、効率的に放送番組毎の反響データを抽出することができる。
【0027】
請求項9に記載された発明は、放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出プログラムにおいて、コンピュータを、前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出手段、及び、前記表現候補抽出手段により得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出手段として機能させる。
【0028】
請求項9記載の発明によれば、高精度に目的とする情報を抽出することができる。これにより、例えば、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に目的とする情報の抽出を実現することができる。
【発明の効果】
【0029】
本発明によれば、高精度に目的とする情報を抽出することができる。これにより、例えば、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。
【発明を実施するための最良の形態】
【0030】
<本発明の概要>
本発明は、反響文の1つ1つを個別に分析するのではなく、多量の反響文から統計的な特徴を用いて放送言及部分を特定する方法を用いる。具体的には、まず、個々の反響文を形態素解析等によって単語に分かち書きし、それらの単語を集計して単語毎に出現確率を算定する。このとき、n単語の連鎖についてもn−gramという形態で出現確率を計算する。ここで、全てのn−gramについて個別にその連鎖する出現が偶然によるものなのか、それとも偶然よりも強い確率で出現したものなのかを検定する。この検定で単語の連鎖が必然と判断されたn−gramは、放送言及部分と感想や要望、感想等の種類を表す表現として列挙される。
【0031】
一方で、別の放送回についても同様の処理を行うと、別の放送回に対する放送言及部分と感想や要望、感想等の種類を表す表現が列挙される。これら2つの列挙された集合の差分を抽出することにより、着目した放送回における放送言及部分を特定することができる。
【0032】
以下に、上述したような特徴を有する本発明における情報抽出装置、情報抽出方法、及び情報抽出プログラムを好適に実施した形態について、図面を用いて詳細に説明する。なお、以下に示す実施形態では、抽出される情報の一例として、放送番組を視聴した視聴者からの反響データを入力し、その反響データから着目した放送番組における放送言及部分を抽出するものとする。
【0033】
<装置構成>
図1は、本実施形態における情報抽出装置の一構成例を示す図である。図1に示す情報抽出装置10は、入力手段11と、出力手段12と、蓄積手段13と、放送反響データ生成手段14と、表現候補抽出手段15と、放送言及部分抽出手段16と、送受信手段17と、制御手段18とを有するよう構成されている。
【0034】
入力手段11は、使用者等からの放送反響データの生成指示や、表現候補の抽出指示、放送言及部分の抽出指示等の各処理の入力を受け付ける。なお、入力手段11は、例えばキーボードや、マウス等のポインティングデバイス、マイク等の音声入力デバイス等からなる。
【0035】
出力手段12は、入力手段11により入力された各指示内容や、各指示内容に基づいて生成された放送反響データ、表現候補、放送言及部分等の内容を表示したり、音声を出力する。なお、出力手段12は、ディスプレイやスピーカ等からなる。
【0036】
蓄積手段13は、放送反響データ生成手段14にて生成された放送反響データを含む放送反響データベース21と、表現候補抽出部15にて抽出された表現候補を含む慣用表現データベース22等を蓄積する。また、蓄積手段13は、放送反響データ生成手段14において、視聴者からの反響文等の入力情報から放送番組を特定し、特定した放送番組に対応する番組ID等の識別情報を付加するために番組情報(番組名(タイトル)、放送回等)とIDとが対となった番組一覧テーブル等を蓄積する。
【0037】
なお、蓄積手段13は、上述した各種データを通信ネットワーク等に接続された外部装置等から取得することもできる。また、蓄積手段13は、例えば、文字情報や、その他の情報の集合物であり、それらの情報を検索することができるように体系的に構成されている。
【0038】
放送反響データ生成手段14は、視聴者等から電子メールやWebブラウザ画面等を用いて入力された放送番組に対する意見、要望、感想等の反響文から放送反響データを生成する。具体的には、放送反響データ生成手段14は、視聴者が入力した反響データに対して放送番組を識別するための識別情報等を付加して放送反響データを生成し、生成した放送反響データを放送反響データベース21として蓄積手段13に蓄積させる。したがって、放送反響データベース21は、例えば、反響の対象となる放送番組のIDと反響の内容等とからなるレコードから構成される。なお、放送反響データ生成手段14における放送反響データの生成例の詳細については後述する。
【0039】
表現候補抽出手段15は、放送反響データベース21に蓄積されている放送番組毎の放送反響データ全体を抽出し、抽出された放送反響データを放送番組毎に入力して、放送言及部分となる表現候補の集合を抽出する。また、表現候補抽出手段15は、着目していない他の放送番組に対する放送反響データに対しても放送言及部分となる表現候補の集合を抽出する。
【0040】
また、表現候補抽出手段15は、抽出した放送番組毎の表現候補の集合について、表現候補の単語や連語(句、節等)に対して出現回数の統計値や後述する検定量tを生成し、慣用表現データベース22として蓄積手段13に登録させる。
【0041】
なお、表現候補抽出手段15における表現候補の抽出例の詳細については後述する。
【0042】
放送言及部分抽出手段16は、慣用表現データベース22に登録された放送番組毎の表現候補の集合のうち、着目したある放送番組における表現候補の集合から、他の少なくとも1つの放送番組の表現候補の集合との差分を抽出する。したがって、放送言及部分抽出手段16により出力された差分が、着目した放送に対する放送言及部分の集合となる。
【0043】
また、放送言及部分抽出手段16は、例えば、抽出された着目した放送番組における放送言及部分と、着目した放送番組におけるセリフ等の情報を形態素解析した単語や句、節等とを照合することで、ある番組に対する反響部分の番組中のどこにあったのかを明確に把握することができる。これにより、反響の内容を高精度に取得することができ、その結果を反映して使用者の嗜好情報等に適した高精度な番組を制作して提供することができる。
【0044】
なお、放送言及部分抽出手段16における言及部分抽出例の詳細については後述する。
【0045】
送受信手段17は、通信ネットワーク等を介してデータの送受信可能な外部装置から放送反響データ、放送反響データベース21、慣用表現データベース22等を取得したり、表現候補、放送言及部分等の各種データを送信するための通信インタフェイスである。
【0046】
制御手段18は、情報抽出装置10における各機能構成全体の制御を行う。具体的には、制御手段18は、入力手段11により入力されたユーザからの入力情報に基づいて放送反響データを生成したり、表現候補や放送言及部分を抽出したり、各構成部により得られる各種データを送受信手段17により送受信させたり、各種データを受信する等の制御を行う。
【0047】
<放送反響データ生成手段14における放送反響データの生成例>
次に、放送反響データ生成手段14における放送反響データの生成例について説明する。本実施形態における放送反響データは、例えば、視聴者等からの電子メールや、インターネット等におけるWebブラウザ画面等から視聴者により投稿された番組アンケート等に含まれる反響文から放送反響データを生成する。
【0048】
ここで、図2は、反響文を取得する一例を示す図である。例えば、電子メールにより反響文を取得する場合には、図2(a)に示すように、予め設定された宛先31や件名32、本文33等に記載されている内容から番組名に相当する部分(語句)を抽出する。これは、例えば、予め番組情報(番組名、放送回等)と、番組情報に対応するIDとからなる番組一覧テーブル等を用意しておき、反響文と照合することで、どの番組に対する反響文であるかを取得することができる。なお、例えば、電子メールの宛て先31のアドレスを番組毎に個別に設定しておくことにより、番組を容易に識別することができる。
【0049】
また、番組が識別されると、それぞれの番組毎に予め設定された番組ID等の識別情報を本文33に付加して放送反響データとして放送反響データベース21に蓄積する。
【0050】
また、視聴者がインターネット等を介してWebブラウザ画面から反響文を投稿するような場合には、図2(b)に示すように、番組名を選択する選択ボックス34に予め番組名の一覧が表示され、その表示結果から投稿する番組名を選択することができ、その選択された番組名に対応する番組ID等の識別情報を、投稿入力領域35に入力された反響文に付加して放送反響データベース21に蓄積する。
【0051】
また、例えば、図2(b)に示すように、Webブラウザ画面によりデータを入力させる場合には、性別や年代(年齢)等を選択させる領域を設けておき、視聴者に選択させるようにしてもよい。これを放送反響データベース21に登録することで、放送言及部分を性別や年代別に取得することができ、より詳細に番組の反響に対する分析を行うことができる。
【0052】
なお、上述した手法により放送反響データベース21に放送反響データを登録する以外にもFAXや電話等で送られてきた反響をオペレータ等により手入力により入力して反響データを生成したり、電話により得られる音声データから既存の音声認識処理等を行うことで反響データを取得し、その取得した結果から上述したように番組名に相当する部分を抽出し、抽出した番組名のIDを付加して放送反響データとして放送反響データベース21に登録することもできる。また、放送反響データベース21には、上述した番組識別情報の他にレコード毎を識別するシーケンシャル番号等も付加して登録することができる。
【0053】
なお、放送反響データ生成手段14は、上述したように反響文に放送番組毎の識別情報を付加して生成した放送反響データを放送反響データベース21に登録するだけでなく、例えば、反響文に対して既存の言語解析処理等を行うことで、意見の分類、用言、体言、用言・体言以外の語/不完全な形の用言、意見の種類(肯定的な意見/否定的な意見/考えたこと/知ったこと/要望/質問/その他の意見/意見でないもの等)、意見の対象等の情報を放送反響データベース21に登録してもよい。
【0054】
ここで、図3は、番組反響データベースの一例を示す図である。なお、図3に示す例では、ある番組ID(図3では、A01)に対する反響文に対して言語解析処理等により得られる所定の項目に分類分けされている。
【0055】
図3に示す番組反響データベースの項目としては、例えば、「番組ID」、「シーケンシャル番号」、「意見の内容」、「意見の分類」、「用言」、「体言」、「用言・体言以外の語/不完全な形の用言」、「意見の種類(肯定的な意見/否定的な意見/考えた事/知った事/要望/質問/その他の意見/意見でないもの等)」、「意見の対象」等がある。なお、本発明においては、この項目に限定されず、例えば、性別や年代等の項目を入力することもできる。
【0056】
<表現候補抽出手段15における表現候補の抽出例>
次に、表現候補抽出手段15における表現候補の抽出例について説明する。表現候補抽出手段15は、上述したように、放送反響データベース21に蓄積されている放送番組毎の反響全体を抽出し、抽出された放送反響データを放送番組毎に入力して、それぞれ放送言及部分の表現候補の集合を取得する。
【0057】
なお、本実施形態では、n単語の連鎖についてもn−gramという形態で出現確率を計算し、全てのn−gramについて個別にその連鎖する出現が偶然によるものなのか、それとも偶然よりも強い確率で出現したものなのかを検定する。また、この検定で単語の連鎖が必然と判断されたn−gramは、放送言及部分と感想や要望、感想等の種類を表す表現として出力する。
【0058】
ここで、表現候補抽出のアルゴリズムとして、例えば、予め設定されたn−gramに対して、以下に示す式(1)により検定量tを計算し、単語が連続することが必然か否かの検定で有意水準を超えていれば、表現候補として保持する。
【0059】
【数1】

なお、上述した式(1)において、Nは単語総数を示し、wは単語を示し、p(w…w)は、n−gramの出現確率を示し、p(w)は、単語wの出現頻度を示している。
【0060】
次に、上述した式(1)を用いて表現候補を抽出する例についてフローチャートを用いて詳細に説明する。図4は、表現候補抽出処理の一例を示すフローチャートである。図4に示す表現候補の抽出処理では、一例として、10−gram(連語数10)までの表現候補を抽出する例を示すが連語数については任意に調整することができる。したがって、まず、n=10として(S01)、n−gramの中から1つの単語wを選択する(S02)。次に、wの出現確率pを計算する(S03)。また、wを1−gramに分解し、その出現確率の積pを計算する(S04)。更に、上述した式(1)によりpとpとから検定量tを計算する(S05)。
【0061】
ここで、S05の処理にて計算された検定量tが予め設定される有意水準を超えているか否かを判断し(S06)、検定量tが有意水準を超えている場合(S06において、YES)、wを候補として採択する(S07)。また、S07の処理が終了後、又は、S06の処理において検定量tが有意水準を超えていない場合(S06において、NO)、次に、N>n単語なるNに対してwがwの部分文字列であるか否かを判断する(S08)。
【0062】
ここで、N>nなるNに対してwがwの部分文字列である場合(S08において、YES)、wを候補から除外する(S09)。また、wがwの部分文字列でない場合(S08において、NO)、wを候補として出力する(S10)。
【0063】
次に、処理していないwが存在するか否かを判断し(S11)、処理していないwが存在する場合(S11において、NO)、S02に戻り、S02の処理において、まだ処理していないwを選択して後続の処理を継続して行う。
【0064】
また、処理していないwが存在しない場合(S11において、YES)、nの値から1減算する(S12)。ここで、n=1か否かを判断し(S13)、nの値が1でない場合は、S02の処理に戻り後続の処理を継続する。また、S13の処理において、n=1の場合(S13において、YES)には、処理を終了する。
【0065】
上述した処理により、例えば、2−gramから10−gram(連続する2〜10単語)までの長さの放送言及部分の候補を抽出することができる。具体的には、nが10から2になるまでループを繰り返しながらnを1つずつ減少させていき、全てのn−gramに対して、上述した式(1)により検定量tを計算し、単語が連続することが必然か否かの検定を有意水準に基づいて行うことで、表現候補を抽出することができる。
【0066】
また、ある2つの候補が重なった表現を持つ場合、wがwの部分文字列であるときにwを除外することによって、単語列の長い方の候補を残して短い方の部分表現に相当する候補は除外される。このようにして、最後まで残った候補を表現候補として慣用表現データベース22に出力する。また、表現候補抽出手段15は、上述した表現候補抽出処理を放送番組毎に行い、着目していない放送番組から抽出された表現候補等を慣用表現データベース22に出力する。なお、表現候補抽出手段15は、慣用表現データベース22に表現候補を登録する際、例えば、その表現候補の出現回数の統計値や検定量t等を表現候補に付加して登録する。
【0067】
ここで、図5は、慣用表現データベースの一例を示す図である。なお、図5(a)〜(c)は、それぞれ異なる番組に対する反響文について、上述した表現候補の抽出を行った結果を示している。なお、図5については、形態素解析処理により単語毎に分かち書きされたものが登録されている。
【0068】
また、表現候補抽出手段15は、出現回数又は検定量tの値が所定の値以上の単語や連語等を放送言及部分の表現候補として出力する。例えば、出現回数が5以上等の予め設定された抽出条件に基づいて出現確率の高い単語を放送言及部分の表現候補として出力することができる。
【0069】
また、検定量tについても、例えば、自由度無限大で、有意水準0.5%の(片側)検定値である2.576を予め設定された下限として、この抽出条件に基づいて出現確率の高い単語を放送言及部分の表現候補として出力することができる。更に、出現回数の上限と下限を設定してもよい(例えば、出現回数が1〜2回のもの等)。これにより、特殊な反響内容等を取得することができる。
【0070】
なお、慣用表現データベース22の項目としては、例えば、「出現回数」、「検定量t」、及び、「n−gramの出現確率を行った対象文章」等から構成されるが、本発明においてはこれに限定されない。
【0071】
<放送言及部分抽出手段16における言及部分抽出例>
次に、放送言及部分抽出手段16における言及部分抽出例について、説明する。放送言及部分抽出手段16は、着目したある放送番組において、表現候補抽出手段15にて抽出した表現候補の集合に対して他の放送回から検出された表現候補の集合との差分を取ることによって放送言及部分を特定する。
【0072】
ここで、図6は、放送言及部分を抽出する様子を説明するための一例を示す図である。なお、図6では、抽出される放送言及部分を模式的に示している。図6に示すように、上述の表現候補抽出手段15の処理により、着目したある1回の放送に対する表現候補の集合41が抽出されるが、その中から他の放送番組から抽出される表現候補の集合42,43に含まれる表現候補は除外し、残った表現候補を、その放送番組に固有の放送言及部分として出力する。
【0073】
なお、図6の例では、他の放送から抽出される複数の表現候補の集合42,43について差分を抽出しているが、本発明においてはこれに限定されず他の少なくとも1つの放送番組から抽出される表現候補の集合を用いることができる。
【0074】
また、放送言及部分抽出手段16は、その放送回に対する特徴的な表現だけを抽出するために、他の放送回や他の放送番組で検出された表現候補の集合との差分をとり、最終的に差分で残った表現を元の反響文と照合することによって、ある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。
【0075】
したがって、放送言及部分抽出手段16は、着目しているある放送番組からの表現候補の集合に対して、上述した図5(a)〜(c)に示すような慣用表現データベース22に蓄積されている表現候補の集合の差分を取得することによって、着目している放送に対する放送言及部分を高精度に抽出することができる。
【0076】
ここで、図7は、表現候補の集合の差分により得られる放送言及部分の一例を示す図である。放送言及部分抽出手段16は、上述したように着目したある1つの放送回における放送言及部分と感想や要望、感想等の種類を表す表現として列挙された表現候補の集合から、別の放送回に対して同様の処理を行って得られる放送言及部分と感想や要望、感想等の種類を表す表現候補の集合との差分を抽出することにより、図7に示すように、着目した放送回の放送言及部分を特定することができる。
【0077】
<実行プログラム>
ここで、上述した情報抽出装置10は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインタフェイスを備えたコンピュータによって構成することができる。
【0078】
したがって、情報抽出装置10が有する入力手段11、出力手段12、蓄積手段13、放送反響データ生成手段14、表現候補抽出手段15、放送言及部分抽出手段16、送受信手段17、及び、制御手段18における各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
【0079】
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラムを生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、情報抽出処理を実現することができる。
【0080】
次に、本発明における実行プログラムによる処理手順についてフローチャートを用いて説明する。なお、以下の処理説明では、抽出する情報の一例として上述したように着目したある放送番組に対する放送言及部分を抽出するものとするが、本発明における抽出対象については特に限定されない。
【0081】
<情報抽出処理>
図8は、本実施形態における情報抽出処理手順の一例を示すフローチャートである。図8において、まず、視聴者等から電子メールやWebブラウザ画面上に設けられたアンケート画面等により反響文が入力されると(S21)、放送毎の識別情報を付加した放送反響データを生成し(S22)、生成された放送反響データを放送反響データベースに登録する(S23)。
【0082】
次に、放送反響データベースに登録されている放送反響データから上述したある特定の放送番組毎の反響全体を抽出し、抽出された放送反響データを放送番組毎に入力して、放送言及部分の表現候補の集合を抽出する(S24)。また、S24の処理により抽出された表現候補は、慣用表現データベースに登録する(S25)。
【0083】
次に、S25の処理により登録されている慣用表現データベースを用いて、着目している放送番組の表現候補から着目していない他の放送番組の表現候補との差分を抽出し(S26)、放送言及部分を抽出する(S27)。
【0084】
上述した情報抽出処理により、高精度に目的とする情報を抽出することができる。これにより、例えば、着目しているある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。高精度に目的とする情報を抽出することができる。
【0085】
<本発明を用いた評価分析結果>
ここで、上述した本発明手法を用いた評価分析結果について説明する。なお、以下の説明では、有意水準を0.5%と設定し、1放送番組に対して916文の反響文を用いて分析を行った。
【0086】
ここで、全反響文のうち、放送言及部分を正しく特定できた数(A)と、特定漏れを起こした数(B)と、誤特定を起こした数(C)とを用いて、precision=A/(A+C),recall=A/(A+B)で定義される精度を形態素単位及び文字(単語、連語)単位で評価分析した結果、precisionについては、形態素単位では50.94%、文字単位では52.71%の精度で抽出することができるようになった。また、recallは、形態素単位では18.57%、文字単位では17.98%の精度で抽出することができるようになった。
【0087】
上述したように本発明によれば、高精度に目的とする情報を抽出することができる。これにより、例えば、着目しているある放送番組において反響の多かった部分等を効率よく、高精度に特定することができる。
【0088】
また、評判表現の辞書を構築したり反響文の構文解析をすることなく、放送局等に寄せられた反響から放送言及部分を自動的に抽出することができる。
【0089】
これにより、例えば、放送(テレビ、ラジオ、インターネット、ワンセグ等を含む)を始めとするマスコミュニケーションに対する反響を抽出する場合に、評判の対象を自動的に抽出する場面に用いることができる。
【0090】
なお、本発明を適用して抽出される情報としては、上述した実施形態に示すように放送番組に対する反響文の放送言及部分の抽出に限定されず、例えば、新聞、雑誌、食品、電気製品、携帯電話等のあらゆる商品に対する反響文に対しても対象の情報を効率的かつ高精度に抽出することができる。
【0091】
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【図面の簡単な説明】
【0092】
【図1】本実施形態における情報抽出装置の一構成例を示す図である。
【図2】反響文を取得する一例を示す図である。
【図3】番組反響データベースの一例を示す図である。
【図4】表現候補抽出処理の一例を示すフローチャートである。
【図5】慣用表現データベースの一例を示す図である。
【図6】放送言及部分を抽出する様子を説明するための一例を示す図である。
【図7】表現候補の集合の差分により得られる放送言及部分の一例を示す図である。
【図8】本実施形態における情報抽出処理手順の一例を示すフローチャートである。
【符号の説明】
【0093】
10 情報抽出装置
11 入力手段
12 出力手段
13 蓄積手段
14 表現候補抽出手段
15 放送言及部分抽出手段
16 送受信手段
17 制御手段
21 放送反響データベース
22 慣用表現データベース
31 宛先
32 件名
33 本文
34 選択ボックス
35 投稿入力領域
41,42,43 集合

【特許請求の範囲】
【請求項1】
放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出装置において、
前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出手段と、
前記表現候補抽出手段により得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出手段とを有する、
ことを特徴とする情報抽出装置。
【請求項2】
前記表現候補抽出手段は、
前記反響データに含まれる単語に対してn−gramを用いて出現確率を求め、前記出現確率に基づいて前記単語の前後が連続することが必然か否かの検定を行い、必然か否かの検定を表す量である検定量が予め設定された有意水準を超えていれば、前記表現候補として前記反響データに含まれる単語又は連語を抽出する、
ことを特徴とする請求項1に記載の情報抽出装置。
【請求項3】
前記表現候補抽出手段は、抽出された表現候補の出現回数を生成し、前記検定量と共に慣用表現データベースとして蓄積し、
前記放送言及部分抽出手段は、前記慣用表現データベースに登録された複数の放送番組の表現候補の集合から、予め設定された放送番組に対する前記放送言及部分を抽出する、
ことを特徴とする請求項2に記載の情報抽出装置。
【請求項4】
放送された番組を視聴した視聴者からの反響文章から放送番組を特定し、対応する識別情報を付加した反響データを生成し、放送反響データベースとして登録する放送反響データ生成手段を有する、
ことを特徴とする請求項1乃至3の何れか1項に記載の情報抽出装置。
【請求項5】
放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出方法において、
前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出ステップと、
前記表現候補抽出ステップにより得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出ステップとを有する、
ことを特徴とする情報抽出方法。
【請求項6】
前記表現候補抽出ステップは、
前記反響データに含まれる単語に対してn−gramを用いて出現確率を求め、前記出現確率に基づいて前記単語の前後が連続することが必然か否かの検定を行い、必然か否かの検定を表す量である検定量が予め設定された有意水準を超えていれば、前記表現候補として前記反響データに含まれる単語又は連語を抽出する、
ことを特徴とする請求項5に記載の情報抽出方法。
【請求項7】
前記表現候補抽出ステップは、抽出された表現候補の出現回数を生成し、前記検定量と共に慣用表現データベースとして蓄積し、
前記放送言及部分抽出ステップは、前記慣用表現データベースに登録された複数の放送番組の表現候補の集合から、予め設定された放送番組に対する前記放送言及部分を抽出する、
ことを特徴とする請求項6に記載の情報抽出方法。
【請求項8】
放送された番組を視聴した視聴者からの反響文章から放送番組を特定し、対応する識別情報を付加した反響データを生成し、放送反響データベースとして登録する放送反響データ生成ステップを有する、
ことを特徴とする請求項5乃至7の何れか1項に記載の情報抽出方法。
【請求項9】
放送された番組に対する視聴者等からの意見や要望、感想等を含む反響データから、前記番組に対して言及された部分である放送言及部分の情報を抽出する情報抽出プログラムにおいて、
コンピュータを、
前記反響データに予め付加される放送番組毎の識別情報により、放送番組毎の前記放送言及部分となる候補である単語又は連語の出現回数又は出現確率に基づく表現を抽出する表現候補抽出手段、及び、
前記表現候補抽出手段により得られる放送番組毎の放送言及部分の候補となる前記表現候補の集合のうち、予め設定された放送番組の表現候補の集合から、少なくとも1つの他の放送番組の表現候補の集合との差分を抽出し、前記予め設定された放送番組に対する言及部分の情報を抽出する放送言及部分抽出手段として機能させるための情報抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate