説明

ニュース話題タイトル抽出装置及びニュース原稿インデックス付与装置

【課題】ニュース原稿のタイトルを分かりやすい自然言語文で提示する。
【解決手段】複数のニュース原稿を格納するファイル装置から、類似したニュース話題の集合に属するニュース原稿を取り出す取出手段と、取出手段によって取り出されたニュース原稿から特定パターンを抽出し、抽出した特定パターンに含まれる名詞句である特定パターン記述を1つのニュース話題から全て抽出し、抽出した特定パターン記述の特徴ベクトルの平均を取り、この平均ベクトルに最も類似した特徴ベクトルを持つ特定パターン記述を抽出する記述抽出手段と、記述抽出手段によって抽出された特定パターンが1つのニュース話題中において一定割合以上出現しているか否かを判断する判断手段と、判断手段によって特定パターンが一定割合以上出現していると判断された場合、その特定パターンに対応する特定パターン記述をニュース話題のタイトルとして抽出するタイトル抽出手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ニュースのアナウンス原稿から的確なタイトルを抽出するニュース話題タイトル抽出装置及びその抽出したタイトルを利用してニュース原稿にインデックスを付与するニュース原稿インデックス付与装置に関する。
【0002】
[発明の概要]
本発明は、ニュースのアナウンス原稿から的確なタイトルを抽出するニュース話題タイトル抽出装置及びその抽出したタイトルを利用してニュース原稿にインデックスを付与するニュース原稿インデックス付与装置に関する。ニュース話題タイトル抽出装置は、ニュース話題抽出装置(特願平11−65658号:未公開)から抽出されるニュース話題、またはこのニュース話題抽出装置によって抽出された1ヶ月毎のニュース話題(以下、「ニュース話題」を単に「話題」という場合がある。)の類似性を評価して、長期に渡り出現する話題を一つの話題として認識するニュース話題トラッキング装置からのニュース話題に対して自然言語解析を行うことにより、ニュースのアナウンス原稿のタイトルを分かりやすい自然言語文で提示する。ニュース原稿インデックス付与装置は、抽出されたタイトルを利用して、ニュース原稿に効果的にインデックスを自動付加することができる。
【背景技術】
【0003】
図9は、従来のニュース原稿に付与されたタイトルの一例を示す。図9に示すように、例えば[ニュース原稿]“バット殴打事件で牛窓警察署の捜査本部では午後七時過ぎから少年の逮捕について記者会見をしています。”に対し、[タイトル]“母親を殴ったことを認める”が付与されている。このように、ニュース原稿自体にもタイトル部が存在するものが多い。
【0004】
ここに、ニュースは作成時間に制限があるため、手作業により的確なタイトルを付けることは難しい。自動タイトル生成の従来手法では、ニュース話題を構成するニュース原稿の中で、代表する文中に出現する連続する単語(名詞句)を抽出することにより行われている。
【0005】
また、ニュース原稿へのインデックス付与では、1つの自然言語文から重要部分を抽出することが行われている。
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、従来のニュース話題タイトル提示手法では、抽出対象が連続する単語に限定されているので、動詞や助詞の存在により必要な情報が分断されてしまう可能性がある。
【0007】
また、従来のインデックス付与手法では、1文のみの情報から重要部分を抽出しているので、対象文に的確な表現が無ければ、インデックスに相応しい語句は抽出できない。
【0008】
本発明は、このような事情に鑑みてなされたもので、必要な語句が抽出されないという問題を生じさせずに、ニュース原稿のタイトルを分かりやすい自然言語文で提示できるニュース話題タイトル抽出装置を提供することを目的としている。
【0009】
また、本発明は、上記ニュース話題タイトル抽出装置が抽出したタイトルを利用して全てのニュース原稿にインデックスが付与できるニュース原稿インデックス付与装置を提供することを目的としている。
【課題を解決するための手段】
【0010】
上記目的を達成するために、本発明のニュース話題タイトル抽出装置は、複数のニュース原稿を電子化して格納するファイル装置から、類似したニュース話題の集合に属するニュース原稿を取り出す取出手段と、前記取出手段によって取り出されたニュース原稿から特定の表現パターンである特定パターンを抽出し、抽出した特定パターンに含まれる名詞句である特定パターン記述を1つのニュース話題から全て抽出し、抽出した特定パターン記述の特徴ベクトルの平均を取り、この平均ベクトルに最も類似した特徴ベクトルを持つ特定パターン記述を抽出する記述抽出手段と、前記記述抽出手段によって抽出された特定パターンが前記1つのニュース話題中において一定割合以上出現しているか否かを判断する判断手段と、前記判断手段によって特定パターンが一定割合以上出現していると判断された場合、その特定パターンに対応する特定パターン記述を前記ニュース話題のタイトルとして抽出するタイトル抽出手段とを備えたことを特徴としている。
【0011】
この構成によれば、ニュース原稿特有の特定表現を抽出して、その特定表現を利用してタイトルを抽出するので、必要な語句が抽出されないという問題は生じない。また、特定表現をタイトルとして利用可能かを判断する信頼性を評価して、信頼性がしきい値よりも高ければ、特定表現をタイトルとして利用できるので、話題を的確に表現する自然言語文が提示できる。
【0012】
また、前記記述抽出手段は、前記特徴ベクトルの“要素”を“特定パターン記述に含まれる単語”とし、前記特徴ベクトルの“要素の値”を“(特定パターン記述での単語の出現数)×log2(特定パターン記述数/単語が出現した特定パターン記述数) ”とすることを特徴としている。
【0013】
また、前記記述抽出手段は、前記類似の度合いを“(共通する要素の値の和)÷{(2つの話題ベクトルの要素の値の和)−(共通する要素の値の和)}”とすることを特徴としている。
【0014】
また、前記タイトル抽出手段は、前記判断手段によって特定パターンが一定割合以上出現していないと判断された場合、前記ニュース話題に含まれる単語の寄与度の合計が最も大きい名詞句を前記ニュース話題のタイトルとして抽出することを特徴としている。
【0015】
また、本発明のニュース原稿インデックス付与装置は、前記ニュース話題タイトル抽出装置によって抽出されたタイトルを前記ファイル装置に格納されるニュース原稿のうち前記タイトルと同じ話題に属する全てのニュース原稿にインデックスとして付与するインデックス付与手段を備えたことを特徴としている。
【0016】
この構成によれば、処理対象を1文ではなく、ニュース原稿から抽出された一定期間内のニュース話題集合を対象にして行うので、対象としたニュース文に的確な表現が無い場合でも、同じ話題に属するニュース文からインデックスの候補を抽出できる。
【発明の効果】
【0017】
以上説明したように、本発明によれば、ニュースに含まれる話題を的確に自然言語で表現するタイトルを抽出することが可能となる。また、抽出されたタイトルを利用して、ニュース原稿に効果的にインデックスを自動付加することが可能となる。
【図面の簡単な説明】
【0018】
【図1】本発明に係るニュース話題タイトル抽出装置及びニュース原稿インデックス付加装置の実施形態であるシステムの全体構成図である。
【図2】ニュース話題抽出装置の構成ブロック図である。
【図3】記事分類処理動作のフローチャートである。
【図4】ラベル付与・トピック抽出処理動作のフローチャートである。
【図5】ニュース話題タイトル抽出装置の処理手順を示すフローチャートである。
【図6】タイトル抽出の対象とした話題原稿(一部)とその特定パターン記述(話題タイトル)の一例を示す図である。
【図7】本発明に係るニュース話題タイトル抽出装置及びニュース原稿インデックス付加装置の実施形態であるシステムの全体構成図である。
【図8】ニュース話題トラッキング装置の処理手順を示すフローチャートである。
【図9】従来のニュース原稿に付けられたタイトルの一例を示す図である。
【発明を実施するための形態】
【0019】
図1は、本発明に係るニュース話題タイトル抽出装置及びニュース原稿インデックス付加装置の実施形態であるシステムの全体構成図である。
【0020】
図1において、ニュース番組で実際に利用される1日分のニュース原稿には、約200記事が含まれている。ファイル装置1には、そのような時系列に変化するニュース原稿の例えば十年分が電子化されて格納されている。
【0021】
ニュース話題抽出装置2は、本出願人の先の出願に係るもので(特願平11−65658号:未公開)、図2に示すように、形態素解析部21と、構文解析部22と、単語重要度演算部23と、類似度比較部24と、ニュース記事分類部25と、代表記事抽出部26と、重要名詞抽出部27と、記憶・ラベル付与処理部8と、トピック抽出処理部29とを備えており、ファイル装置1に格納されるニュース原稿にクラスタリング処理を施して、1ヶ月間に出現した類似したニュース話題の集合を抽出する。抽出した毎月のニュース話題は、ニュース話題タイトル抽出装置3に出力される。
【0022】
ニュース話題タイトル抽出装置3は、ニュース話題抽出装置2により抽出されたニュース話題のタイトルを抽出する。
【0023】
ニュース原稿インデックス付加装置4は、ニュース話題タイトル抽出装置3で抽出されたタイトルを、ファイル装置1に格納されるニュース原稿にインデックスとして付加する。
【0024】
《ニュース話題抽出装置2の動作説明》
初めに、ニュース話題抽出装置2の動作を図3に示す記事分類処理の動作フローチャート、図4に示すラベル付与・トピック抽出処理の動作フローチャートを参照して説明する。
【0025】
ファイル装置1から読み出された1つのニュース記事は、形態素解析部21及び構文解析部22において周知の形態素解析処理及び構文解析処理を受け、その記事から抽出された単語が単語重要度演算部23に入力される。単語重要度演算部23、類似度比較部24及びニュース記事分類部25では、図3に示す手順により、ニュース記事の分類処理が行われる。
【0026】
単語重要度演算部23では、1つのニュース記事に含まれる単語が入力されると(ステップST1)、χ 値を利用して記事に含まれる単語の例えば月単位の重要度を演算する(ステップST2)。具体的には、単語Wがある月に出現した頻度をn、期待値をeとすると、それらを式(1)に代入して単語の重要度Weight(W)を演算する。
【0027】
[数1]
Weight(w)=(n−e)/e ・・・n≧e
=0 ・・・n<e ・・・(1)
次に、類似度比較部24とニュース記事分類部25では、似た項目に分類された記事の集まりであるクラスタ(ニュース話題)を生成するクラスタリングを単語の重要度、出現頻度を利用して行う。まず、以下のように定義した記事ベクトルとクラスタベクトルとを利用して記事とクラスタとの類似度を計算する(ステップST3)。
【0028】
記事を特徴づける記事ベクトルは、記事に含まれる単語(例えば記事の第1文に含まれる単語)をベクトルの要素に、その単語の重要度を各ベクトル要素の値として定義する。また、クラスタを特徴づけるクラスタベクトルは、そのクラスタに属する記事に含まれる単語をベクトルの要素に、(各単語の重要度)と(クラスタ内での出現率)の積を各ベクトル要素の値として定義する。なお、出現率は、出現した記事の頻度をクラスタに含まれる全記事数で割った値である。そして、類似度は、式(2)によって求められる。
【0029】
[数2]
類似度=(共通する要素ベクトルの和×2)
/(記事、クラスタの要素ベクトルの値の和) ・・・(2)
このようにして、記事とクラスタとの類似度を評価し(ステップST4)、クラスタとの類似度が、ある閾値(例えば0.5)以上であれば、最も似ていると評価されたクラスタに統合する(ステップST5)。また、クラスタとの類似度が、閾値以下であれば、全てのクラスタについて同様の評価を行う(ステップST4→ステップST6→ステップST3→ステップST4)。その結果、全てのクラスタとの類似度が閾値以下であれば、その記事で新たなクラスタを構築する(ステップST7)。以上の処理を繰り返すことにより(ステップST8)、類似度の高いクラスタが得られる。つまり、ニュース原稿に含まれる記事が高精度に分類される。
【0030】
このようにして得られた各クラスタは、代表記事抽出部26、記憶・ラベル付与処理部28に送られるとともに、ニュース話題としてニュース話題タイトル抽出装置3に出力される。なお、比較の順番によっても結果は異なるが、以上説明した処理では、比較は日付け順に行っている。
【0031】
次に、代表記事抽出部26、重要名詞抽出部27、記憶・ラベル付与処理部28及びトピック抽出処理部29でのラベル付与・トピック抽出処理を図4のフローチャートを参照して説明する。
【0032】
代表記事抽出部26は、1つのクラスタが入力されると(ステップST10)、そのクラスタに含まれる記事中の単語の寄与度を計算し(ステップST11)、求めた寄与度に基づき代表記事を抽出する(ステップST12)。
【0033】
クラスタにおける単語の寄与度は、(単語の重要度)と(クラスタ内での単語の出現率)との積として定義してある。なお、クラスタ内での単語の出現率は、(クラスタ内で単語が出現した記事数)を(クラスタ全体記事数)で割った値である。そして、代表記事は、そのクラスタに含まれる単語(例えば第1文に含まれる単語)の寄与度の合計が最も大きい記事である。
【0034】
次に、重要名詞抽出部27は、得られた代表記事に含まれる全ての名詞句を対象に、そこに含まれる単語の寄与度の合計を計算し、寄与度が最も大きい名詞句を重要名詞句として抽出し、記憶・ラベル付与処理部28に出力する(ステップST13)。記憶・ラベル付与処理部28は、ニュース記事分類部6から入力したクラスタに重要名詞抽出部27から入力した名詞句をラベルとして付与し、記憶する(ステップST14)。
【0035】
全てのクラスタについて同様な処理が行われ、記憶・ラベル付与処理部28には、ラベルが付与されたクラスタが逐一記憶される(ステップST15)。そして、トピック抽出処理部29は、記憶・ラベル付与処理部28にデータベース化された、ラベル付きクラスタのそれぞれについて、代表記事に含まれる単語の寄与度の合計が大きいクラスタを順番に検索し、それに付けられているラベルを、順番にトピックの候補として抽出、提示する。
【0036】
《ニュース話題タイトル抽出装置3とニュース原稿インデックス付加装置4の動作説明》
図5のフローチャートを参照してニュース話題タイトル抽出装置3の動作を説明する。
【0037】
図5において、ニュース話題抽出装置2にて抽出されたニュースの話題集合に属するニュース原稿をファイル装置1から取り出し、その取り出したニュース原稿から、特定の表現パターン(以下、「特定パターン」という。)を抽出する(ステップST21)。ここでは、以下の特定パターンを利用する。
【0038】
《特定パターン(正規表現)》
1.、(.事件)[でにはが].
2.(.事件)[でにはが].
3.、(.事故)[でにはが].
4.(.事故)[でにはが].
5.、(.問題)[でにはが].
6.(.問題)[でにはが].
7.、(.)について.
8.(.)について.
9.、(.)に関連.
10.(.)に関連.
11.、(.)に関して.
12.(.)に関して.
次いで、特定パターンの丸括弧内の記述(以下、「特定パターン記述」という。)を1つの話題から全て抽出し、それを特徴ベクトルで表現する(ステップST22)。特徴ベクトルは、“要素”が特定パターン記述に含まれる単語”であり、“要素の値”が次の式(3)で示されるとした。
【0039】
[数3]
要素の値=(特定パターン記述での単語Wiの出現数)
×log2(特定パターン記述数/単語Wiが出現した特定パターン記述数)
・・・(3)
次に、この1つの話題に出現した全ての特定パターン記述の特徴ベクトルの平均を取り(ステップST23、ST24)、平均ベクトルに最も類似した特徴ベクトルを持つ特定パターン記述を抽出する(ステップST25)。
【0040】
類似度は、例えば次の式(4)で示されるとした。
【0041】
[数4]
類似度=(共通する要素の値の和)
÷{(2つの話題ベクトルの要素の値の和)−(共通する要素の値の和)}
・・・(4)
さらに、この抽出された特定パターン記述の信頼性を評価する(ステップST26)。信頼性は、1つの話題を構成する原稿数と、話題中で特定パターンが抽出できた原稿数の比率で評価することにより行われる。
【0042】
特定パターンが一定割合以上(例えば30%以上)出現していた場合、信頼性が高いと判断し、平均ベクトルに最も類似した特徴ベクトルを持つ特定パターン記述を、そのニュース話題のタイトルとする(ステップST27)。これは、重心に近い名詞句である。
【0043】
一方、特定パターンが一定割合以下の場合は、ニュース話題抽出装置2では、ニュース文中に出現する連続する単語(名詞句)を抽出しているので、そこで得られたラベルをタイトルとする(ステップST28)。
【0044】
このように、ニュース話題タイトル抽出処理では、ニュース原稿特有の特定表現を抽出し、その特定表現を利用してタイトルを抽出するので、必要な語句が抽出されないという問題は生じない。
【0045】
また、特定表現をタイトルとして利用可能かどうかを判断する信頼性を評価して、信頼性がしきい値よりも高ければ、特定表現をタイトルとして利用する一方、信頼性がしきい値よりも高くなければ、ニュース話題抽出装置2で得られたラベルをタイトルとするので、例えば図6に示すように話題を的確に表現する自然言語文が提示できる。
【0046】
図6は、タイトル抽出の対象とした話題原稿(一部)とその特定パターン記述(話題タイトル)の一例を示す。図6では、図9で示したニュース原稿が属する話題から抽出した話題タイトルが示されている。
【0047】
図6において、例えば[ニュース原稿]“バット殴打事件で牛窓警察署の捜査本部では午後七時過ぎから少年の逮捕について記者会見をしています。”に対し、[タイトル]“岡山県の十七歳の高校三年生によるバット殴打事件”が提示されている。図9では、“母親を殴ったことを認める”という[タイトル]が提示されていたのと比較して分かるように、本実施の形態では、話題を的確に表現したタイトルが提示できている。
【0048】
次に、ニュース原稿インデックス付加装置4では、ニュース話題タイトル抽出装置3により抽出された話題タイトルを、ファイル装置1に格納されるニュース原稿にインデックスとして付与する。
【0049】
このように、ニュース原稿インデックス付与処理では、処理対象は1文ではなく、ニュース話題抽出装置2により関連付けられたニュースの話題集合を対象にして行うので、全ての原稿は、必ず1つの話題に含まれる。したがって、対象としたニュース文に的確な表現が無い場合でも、同じ話題に属するニュース文からインデックスの候補を抽出でき、全てのニュース原稿にインデックスが付与できる。
【0050】
図7は本発明の他の実施形態を示すブロック図である。この実施の形態では、ニュース話題抽出装置2により関連付けられたニュースの話題集合から、長期にわたり出現する話題を1つの話題として認識するニュース話題トラッキング装置5を図1におけるニュース話題抽出装置2とニュース話題タイトル抽出装置3との間に設けて、図1と同様に適切なタイトル抽出とインデックス付与を行えるようにしたものである。
【0051】
この場合、ニューストラッキング装置5は、図8のフローチャートに示すように、ニュース話題抽出装置2にてクラスタリング処理により抽出された各月のニュース話題の中で、隣接する全ての月の話題間の類似性を評価し、類似度が一定以上(例えば、0.2以上)のとき、同一の話題と特定し関連づける(ステップST32)。
【0052】
ここで、前の月の話題との類似度比較処理(ステップST32〜ST34)で用いる類似度は、例えば次の式(5)で示されるとした。この定義式(5)は、ニュース話題抽出装置2にて抽出された話題はベクトル表現されているので、その話題ベクトルを利用したものである。
【0053】
[数5]
類似度=(共通する要素の値の和)
÷{(2つの話題ベクトルの要素の値の和)−(共通する要素の値の和)}
・・・(5)
この前の月の話題との類似度比較処理(ステップST32〜ST34)を繰り返し行って、全ての話題から関連する前後の月の話題へのリンクが張られる。
【0054】
そして、前の月の全ての話題についての類似度比較処理が終了すると(ステップST33:Yes)、そこで関連づけられた全ての話題を話題集合とする(ステップST35)。
【0055】
このように、トラッキング処理では、クラスタリング処理によってまとめられた類似した原稿のまとまりを対象とするので、1つのニュース原稿よりも情報量を多くすることができ、正確なトラッキングを行うことができる。
【0056】
従って、本実施形態では、ニュース話題タイトル抽出装置3は、ニュース話題トラッキング装置5から出力されるニュース話題を取り込んで話題タイトルを生成するようにしたので、ニュースに含まれる話題を、より一層的確に自然言語で表現するタイトルを抽出することが可能となる。また、抽出されたタイトルを利用して、ニュース原稿に効果的にインデックスを自動付加することが可能となる。
【符号の説明】
【0057】
1 ファイル装置
2 ニュース話題抽出装置
3 ニュース話題タイトル抽出装置
4 ニュース原稿インデックス付与装置
5 ニュース話題トラッキング装置

【特許請求の範囲】
【請求項1】
複数のニュース原稿を電子化して格納するファイル装置から、類似したニュース話題の集合に属するニュース原稿を取り出す取出手段と、
前記取出手段によって取り出されたニュース原稿から特定の表現パターンである特定パターンを抽出し、抽出した特定パターンに含まれる名詞句である特定パターン記述を1つのニュース話題から全て抽出し、抽出した特定パターン記述の特徴ベクトルの平均を取り、この平均ベクトルに最も類似した特徴ベクトルを持つ特定パターン記述を抽出する記述抽出手段と、
前記記述抽出手段によって抽出された特定パターンが前記1つのニュース話題中において一定割合以上出現しているか否かを判断する判断手段と、
前記判断手段によって特定パターンが一定割合以上出現していると判断された場合、その特定パターンに対応する特定パターン記述を前記ニュース話題のタイトルとして抽出するタイトル抽出手段と、
を備えたことを特徴とするニュース話題タイトル抽出装置。
【請求項2】
請求項1に記載のニュース話題タイトル抽出装置において、
前記記述抽出手段は、前記特徴ベクトルの“要素”を“特定パターン記述に含まれる単語”とし、前記特徴ベクトルの“要素の値”を“(特定パターン記述での単語の出現数)×log2(特定パターン記述数/単語が出現した特定パターン記述数) ”とすることを特徴とするニュース話題タイトル抽出装置。
【請求項3】
請求項1または2に記載のニュース話題タイトル抽出装置において、
前記記述抽出手段は、前記類似の度合いを“(共通する要素の値の和)÷{(2つの話題ベクトルの要素の値の和)−(共通する要素の値の和)}”とすることを特徴とするニュース話題タイトル抽出装置。
【請求項4】
請求項1から3のいずれかに記載のニュース話題タイトル抽出装置において、
前記タイトル抽出手段は、前記判断手段によって特定パターンが一定割合以上出現していないと判断された場合、前記ニュース話題に含まれる単語の寄与度の合計が最も大きい名詞句を前記ニュース話題のタイトルとして抽出することを特徴とするニュース話題タイトル抽出装置。
【請求項5】
請求項1から4のいずれかに記載のニュース話題タイトル抽出装置によって抽出されたタイトルを前記ファイル装置に格納されるニュース原稿のうち前記タイトルと同じ話題に属する全てのニュース原稿にインデックスとして付与するインデックス付与手段を備えたことを特徴とするニュース原稿インデックス付与装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2009−271947(P2009−271947A)
【公開日】平成21年11月19日(2009.11.19)
【国際特許分類】
【出願番号】特願2009−190926(P2009−190926)
【出願日】平成21年8月20日(2009.8.20)
【分割の表示】特願2000−302538(P2000−302538)の分割
【原出願日】平成12年10月2日(2000.10.2)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】