説明

トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム

【課題】トピック作成の作業負担を軽減し、且つ、トピックの質を均質化すること。
【解決手段】トピック作成支援装置1は、ニュース記事情報記憶手段2から見出しを構成する見出し情報を抽出し、抽出された見出し情報を文節で区切って、複数の文節要素に分割する。そして、トピック作成支援装置1は、分割された各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行い、重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する。そして、トピック作成支援装置1は、抽出された文節要素の文字数が13文字以下である場合には、抽出された文節要素を文章情報のトピック候補としてディスプレイ3に出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラムに関する。
【背景技術】
【0002】
近年、ポータルサイトのトップページ上において、ニュース記事やショッピング情報などのトピックが表示されている。このようなトピックが表示される領域は、画面上で範囲が限られており、文字数に制限が課せられている。
【0003】
一方、ポータルサイトのトップページには、ユーザがトップページ上のトピックを見ただけでサイトのトップページからポータルサイトの内部へ進もうというモチベーションを如何に持たせるかといった課題がある。このような課題を解決するための工夫として、人間の目が一度に内容を知覚することができる文字数(例えば、13文字)でトピックの文字数を制限することで、トピックに対する関心をユーザに抱かせ、ポータルサイトの内部へ進もうというモチベーションを持たせるようにするやり方が知られている。
【0004】
従来、このような文字数に制限があるトピックを生成する手法として、トピック作成者がニュース記事などの見出しに対して、必要な語句および不必要な語句を取捨選択することで、制限文字数内のトピックを生成していた。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−197097号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来のトピック生成手法では、トピック作成者がトピックを手動で生成しているので、トピック作成者の負担が大きいという課題があった。また、トピック作成者が違えば、必要な語句および不必要な語句の取捨選択の判断も異なるので、作成されるトピックの質にバラツキが生じるという課題があった。
【0007】
本発明は、上述のような従来技術の課題を解決するためになされたものであり、その目的は、トピック作成の作業負担を軽減し、且つ、トピックの質を均質化することである。
【課題を解決するための手段】
【0008】
上記の目的を踏まえ、本発明の一態様(1)は、トピック作成支援装置において、見出しおよび本文からなる文章情報を記憶する文章情報記憶手段から、前記見出しを構成する見出し情報を抽出する見出し抽出手段と、前記抽出手段によって抽出された見出し情報を文節で区切って、複数の文節要素に分割する分割手段と、前記分割手段によって分割された各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行う重み付け手段と、前記重み付け手段によって重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する文節要素抽出手段と、前記文節要素抽出手段によって抽出された文節要素を前記文章情報のトピックとして出力するトピック出力手段とを備えることを特徴とする。
【0009】
上記態様(1)を方法という見方から捉えた本発明の一態様(7)は、コンピュータを制御し、見出しおよび本文からなる文章情報のトピックの作成を支援するトピック作成支援方法において、見出しおよび本文からなる文章情報を記憶する文章情報記憶手段から、前記見出しを構成する見出し情報を抽出する見出し抽出手順と、前記見出し情報を文節で区切って、複数の文節要素ごとに分割する分割手順と、前記各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行う重み付け手順と、前記重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する文節要素抽出手順と、前記抽出された文節要素を前記文章情報のトピックとして出力するトピック出力手順とを含むことを特徴とする。
【0010】
上記態様(1)をコンピュータ・プログラムという見方から捉えた本発明の一態様(8)は、見出しおよび本文からなる文章情報のトピックの作成を支援する処理をコンピュータに実行させるトピック作成支援プログラムにおいて、見出しおよび本文からなる文章情報を記憶する文章情報記憶手段から、前記見出しを構成する見出し情報を抽出し、前記見出し情報を文節で区切って、複数の文節要素ごとに分割し、前記各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行い、前記重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出し、前記抽出された文節要素を前記文章情報のトピックとして出力する処理をコンピュータに実行させることを特徴とする。
【0011】
この発明によれば、見出しおよび本文からなる文章情報からトピックを自動で作成して出力するので、トピック作成の作業負担を軽減することができる。また、予め決められたルールに沿ってトピックを作成して出力するので、トピックの質を均質化することができる。
【0012】
本発明の他の態様(2)は、上記のいずれかの態様において、前記文節要素抽出手段によって抽出された文節要素が所定の文字数以下であるか判定する文字数判定手段と、前記文字数判定手段によって前記文節要素が所定の文字数よりも多いと判定された場合には、文章の意味に与える影響に応じて予め定められた省略化ルールに基づいて、該文節要素から文字または記号を省略する省略化手段をさらに備え、前記トピック出力手段は、前記省略化手段によって省略された文節要素を前記文章情報のトピックとして出力することを特徴とする。
【0013】
この発明によれば、文節要素が所定の文字数よりも多い場合には、自動的に文節要素を省略化するので、文節要素が所定の文字数を超えた場合であっても、確実にトピックの文字数を所定の文字数以下にすることができる。
【0014】
本発明の他の態様(3)は、上記のいずれかの態様において、前記文字数判定手段は、前記省略化手段によって複数の省略化ルールうちの一の省略化ルールに基づいて、該文節要素から文字または記号が省略されるたびに、該文節要素が所定の文字数以下であるか判定し、前記トピック出力手段は、前記文字数判定部によって前記文節要素が所定の文字数以下であると判定された場合には、前記省略化手段によって省略された文節要素を前記文章情報のトピックとして出力することを特徴とする。
【0015】
この発明によれば、一つの省略化ルールに基づいて省略化処理を行うたびに、予め定められた文字数を超えていないか判定する。このため、省略化処理により、トピックが省略されて文字数が短くなり過ぎることを防止できる結果、作成されるトピックの質を向上させることができる。
【0016】
本発明の他の態様(4)は、上記のいずれかの態様において、前記省略化手段は、複数の名詞が省略対象となった場合に、各名詞が検索クエリとして入力された回数である検索回数情報を取得し、該複数の名詞のうち、検索クエリとして入力された回数が最も多い名詞以外の名詞を省略することを特徴とする。
【0017】
この発明によれば、複数の名詞が省略対象となった場合に、検索クエリとして入力された回数が最も多い名詞以外の名詞を省略する。このため、注目度が高い名詞をトピックに含めることができる結果、作成されるトピックの質を向上させることができる。
【0018】
本発明の他の態様(5)は、上記のいずれかの態様において、前記重み付け手段は、複数の重み付け判定データごとに、前記分割手段によって分割された各文節要素に対する重み付けを行い、前記文節要素抽出手段は、前記重み付け手段によって複数の重み付け判定データごとに重み付けされた文節要素から、重み付けの度合いが大きい文節要素をそれぞれ抽出し、前記トピック出力手段は、前記文節要素抽出手段によって抽出された複数の文節要素を前記文章情報のトピックとしてそれぞれ出力することを特徴とする。
【0019】
この発明によれば、重み付けを変更し、複数のトピック候補を出力するので、複数のトピック候補のうちから最適なトピックをトピック作成者に選択させることができる結果、作成されるトピックの質を向上させることができる。
【0020】
本発明の他の態様(6)は、上記のいずれかの態様において、前記トピック出力手段は、前記文章情報のトピックと前記見出し情報との差分を検出し、前記文章情報のトピックとともに前記差分を出力することを特徴とする。
【0021】
この発明によれば、トピックと見出し情報との差分を表示するので、見出し情報から削除された文字をトピック作成者に把握させることができる結果、作成されるトピックの質を向上させることができる。
【発明の効果】
【0022】
本発明によれば、トピック作成の作業負担を軽減し、且つ、トピックの質を均質化することができる効果を奏する。
【図面の簡単な説明】
【0023】
【図1】図1は、本発明の一実施形態のトピック作成支援手法の概要図である。
【図2】図2は、本発明の一実施形態に係るトピックス作成支援装置の構成図である。
【図3】図3は、分割ルール情報の一例を示す図である。
【図4】図4は、重み付けルール情報の一例を示す図である。
【図5】図5は、省略化ルール情報の一例を示す図である。
【図6−1】図6−1は、省略化辞書情報の一例を示す図である。
【図6−2】図6−2は、省略化辞書情報の一例を示す図である。
【図7】図7は、検索回数情報の一例を示す図である。
【図8】図8は、トピックス候補の表示例を示す図である。
【図9】図9は、図2に示すトピックス作成支援装置の処理手順を示すフローチャートである。
【図10】図10は、重み付けルール情報を変更する処理の一例を示す図である。
【図11】図11は、複数のトピックス候補がある場合の表示例を示す図である。
【図12】図12は、原文見出しとトピック候補との差分を表示する場合の表示例を示す図である。
【図13】図13は、トピック候補の文字数に関する情報を表示する場合の表示例を示す図である。
【発明を実施するための形態】
【0024】
本発明を実施するための形態(以下、「実施形態」と呼ぶ。)について、図面を参照しつつ詳細に説明する。なお、以下では、本発明に係る一実施形態の概要を説明した後に、本発明に係る実施例を説明する。
【0025】
最初に、図1を用いて、本発明に係る一実施形態のトピック作成支援手法の概要について説明する。図1は、本発明の一実施形態のトピック作成支援手法の概要図である。図1に示すように、トピック作成支援装置1は、見出しおよび本文からなるニュース記事情報を記憶するニュース記事情報記憶手段2を有している。
【0026】
トピック作成支援装置1は、図1に示すように、トピック作成指示を受け付けると、ニュース記事情報記憶手段2から見出しを構成する見出し情報を抽出する。例えば、図1の例では、トピック作成支援装置1は、見出し情報として、「芸能ニュース速報!小林真夜アナウンサー独立で年収5倍も夢じゃない」という文章を抽出する。ここで、見出し情報は、新聞社や雑誌社などが入稿したニュース記事情報の本文に付随する見出しの文章であり、また、ポータルサイトのトップページに載せるための文字制限に関係なく作成された文章である。なお、図1の説明では、見出し情報のことを「原文見出し」と記載する。
【0027】
続いて、トピック作成支援装置1は、抽出された見出し情報を文節で区切って、複数の文節要素に分割する。例えば、トピック作成支援装置1は、見出し情報を複数の文節要素に分割するための分割ルールを記憶しており、分割ルールに基づいて、分割処理を行っている。例えば、トピック作成支援装置1は、分割ルールの例として、原文見出しに「!」や「?」が含まれる場合には、「!」または「?」で区切るという分割ルールを予め記憶しているものとする。
【0028】
このような場合に、トピック作成支援装置1は、原文見出しに「!」や「?」が含まれているか判定する。この結果、トピック作成支援装置1は、原文見出し「芸能ニュース速報!小林真夜アナウンサー独立で年収5倍も夢じゃない」に「!」が含まれていると判定し、「!」を境として、原文見出しを「!」以前の文章と「!」よりも後ろの文章とで分割する。つまり、図1に例示するように、トピック作成支援装置1は、文節要素A「芸能ニュース速報!」と、文節要素B「小林真夜アナウンサー独立で年収5倍も夢じゃない」との二つの文節要素に分割する。
【0029】
そして、トピック作成支援装置1は、分割された各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行う。例えば、トピック作成支援装置1は、重み付け判定データとして、固有名詞を含む文節要素が重み付けの度合いが大きいという判定データを予め記憶しているものとする。このような場合には、トピック作成支援装置1は、文節要素Aおよび文節要素Bに固有名詞が存在するかそれぞれ判定する。この結果、トピック作成支援装置1は、文節要素Bについて、固有名詞である「小林真夜」が含まれていると判定し、文節要素Aよりも文節要素Bが重み付けの度合いが大きくなるように、重み付け処理を行う。
【0030】
そして、トピック作成支援装置1は、重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する。図1の例では、上述したように、文節要素Aよりも文節要素Bが重み付けの度合いが大きいので、トピック作成支援装置1は、文節要素Bを抽出する。ここで、トピック作成支援装置1は、抽出された文節要素の文字数が所定の文字数(例えば、13文字)以下であるか判定する。この結果、トピック作成支援装置1は、抽出された文節要素の文字数が13文字以下である場合には、抽出された文節要素を文章情報のトピック候補としてディスプレイ3に出力する。
【0031】
また、トピック作成支援装置1は、抽出された文節要素の文字数が13文字を超えている場合には、文章の意味に与える影響に応じて予め定められた省略化ルールに基づいて、文節要素から文字または記号を省略する。図1の例では、トピック作成支援装置1は、出された文節要素Bの文字数が23文字であるので、文節要素Bの文字数が13文字を超えていると判定し、省略化ルールに基づいて、省略化処理を行う。
【0032】
例えば、トピック作成支援装置1は、省略化ルールとして、省略化できる名詞である省略化可能名詞を略語に変換するルールや、誇大的な表現で記載された文章である誇大表現を削除するルールを予め記憶しているものとする。このような場合に、トピック作成支援装置1は、文節要素から省略化可能名詞が存在するか判定する。そして、トピック作成支援装置1は、文節要素Bに省略化可能名詞「小林真夜」および「アナウンサー」が含まれていると判定し、「小林真夜」を「小林」に変換し、「アナウンサー」を「アナ」に変換する。なお、トピック作成支援装置1には、省略化可能名詞を略語に変換するための省略化辞書が予め記憶されている。また、トピック作成支援装置1は、文節要素Bに誇大表現「夢じゃない」があると判定し、「夢じゃない」の文字を削除する。
【0033】
そして、トピック作成支援装置1は、省略化された文節要素の文字数が所定の文字数以下であるか判定し、抽出された文節要素の文字数が13文字以下である場合には、抽出された文節要素を文章情報のトピック候補としてディスプレイ3に出力する。図1の例では、省略化された文節要素B「小林アナ独立で年収5倍も」の文字数が13文字以下であるか判定する。この結果、トピック作成支援装置1は、文節要素B「小林アナ独立で年収5倍も」の文字数が13文字以下であると判定し、ニュース記事のトピック候補としてディスプレイ3に出力する。
【0034】
このように、トピック作成支援装置1は、ニュース記事情報記憶手段2から見出しを構成する見出し情報を抽出し、抽出された見出し情報を文節で区切って、複数の文節要素に分割する。そして、トピック作成支援装置1は、分割された各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行い、重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する。続いて、トピック作成支援装置1は、抽出された文節要素の文字数が13文字を超えている場合には、文章の意味に与える影響に応じて予め定められた省略化ルールに基づいて、文節要素から文字または記号を省略する。そして、トピック作成支援装置1は、省略化された文節要素の文字数が所定の文字数以下であるか判定し、抽出された文節要素の文字数が13文字以下である場合には、抽出された文節要素を文章情報のトピック候補としてディスプレイ3に出力する。なお、文字数判定処理および省略化処理については、必ずしも行わなくてもよく、文節要素を抽出した後の文字数が文字数制限を超えている場合には、トピック作成者が判断して文字数を削除するようにしてもよい。
【0035】
このため、トピック作成支援装置1は、見出しおよび本文からなるニュース記事情報からトピックを自動で作成して出力するので、トピック作成の作業負担を軽減することが可能である。つまり、トピック作成者がトピックの作成を指示するだけで、トピック作成支援装置1が文字数制限内で作成されたトピック候補を自動で作成して出力するので、トピック作成者は、トピック候補をそのままトピックとして利用したり、トピック候補をもとに編集してトピックを作成することができる結果、トピック作成の作業負担を軽減することができる。
【0036】
また、トピック作成支援装置1は、予め決められたルールに沿ってトピック候補を出力するので、作成されるトピックの質を均質化することが可能である。つまり、トピック作成支援装置1は、予め定められた重み付け判定データに基づいて、文節要素に対して重み付けを行い、重み付けの度合いが大きい文節要素を抽出し、抽出された文節要素からトピック候補を出力するので、トピック作成者のスキルや経験に依存することなく、均質的なトピック候補を出力することができる。
【実施例1】
【0037】
以下の実施例1では、実施例に係るトピック作成支援装置の構成および処理の流れを順に説明し、最後に実施例による効果を説明する。
【0038】
[トピック作成支援装置の構成]
次に、図2を用いて、実施例に係るトピック作成支援装置10の構成を説明する。図2は、本発明の一実施形態に係るトピックス作成支援装置の構成図である。同図に示すように、このトピック作成支援装置10は、通信I/F(インターフェース)11、記憶部12、制御部13を備え、ネットワーク等を介して作成者端末20と接続される。以下にこれらの各部の処理を説明する。
【0039】
通信I/F11は、接続される作成者端末20との間でやり取りする各種情報に関する通信を制御する。例えば、通信I/F11は、作成者端末20からニュース記事のトピックを作成する旨の指示であるトピック作成指示を受信したり、作成者端末20にニュース記事のトピックを送信したりする。なお、通信I/F11は、例えばLANカード等のネットワークインターフェースカード、モデム等を含む。
【0040】
記憶部12は、制御部13による各種処理に必要なデータおよびプログラムを格納する。例えば、ニュース記事情報12a、分割ルール情報12b、重み付けルール情報12c、省略化ルール情報12d、省略化辞書情報12e、および検索回数情報12fを記憶する。なお、記憶部12は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(flash memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置である。
【0041】
ニュース記事情報12aは、見出しおよび本文からなるニュース記事に関する情報である。ここで、見出しとは、新聞社や雑誌社などが入稿したニュース記事の本文に付随する見出しの文章であり、ポータルサイトのトップページに表示させるための文字制限に関係なく作成された見出しの文章である。また、本文とは、ニュース記事の主たる内容をなす部分の文章である。
【0042】
分割ルール情報12bは、見出しを複数の文節要素に分割するためのルールに関する情報である。ここで、図3を用いて、分割ルールについて具体例を挙げて説明する。図3は、分割ルール情報の一例を示す図である。図3に例示するように、分割ルール情報12bは、分割の区切りとなる見出しに含まれる文字または記号の種別を示す「種別」と、区切りとなる文字または記号を示す「区切りとなる文字または記号」とが対応付けられている。
【0043】
つまり、図3に示した分割ルール情報12bの例では、句読点「、」、「。」、「.」、「,」などが見出しに含まれている場合には、かかる句読点を境に見出しを区切って複数の文節要素に分割することを意味している。なお、分割ルール情報12bを利用した分割処理の詳しい手法については、後述する分割手段13bの説明で詳述する。
【0044】
重み付けルール情報12cは、文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められたルールに関する情報である。ここで、図4を用いて、重み付けルールについて具体的な例を挙げて説明する。図4は、重み付けルール情報の一例を示す図である。図4に例示するように、重み付けルール情報12cは、重み付け処理で適用するルールの順番を示す「優先順位」と、スコアが付与される文節要素を特定するためのルールを示す「ルール」と、ルールに従って文節要素に付与される点数を示す「スコア」とが対応付けられている。つまり、重み付けルール情報12cは、「優先順位」が1である「ルール」を適用して、各文節要素にスコアを付与する重み付け処理を実行した後、優先順位が2、3・・・7の順に、対応する「ルール」が適用されて、各文節要素にスコアを付与する重み付け処理を繰り返し実行する。
【0045】
また、図4に例示した重み付けルール情報12cにおいて、優先順位「1」のルールである「固有名詞を含む文節」とは、文節要素に固有名詞が含まれている場合には、該当する文節要素にスコアとして「100」が付与されることを意味している。なお、重み付けルール情報12cを利用した重み付け処理の詳しい手法については、後述する重み付け手段13cの説明で詳述する。
【0046】
省略化ルール情報12dは、文章の意味に与える影響に応じて予め定められた、文節要素の内容を省略化するためのルールに関する情報である。ここで、図5を用いて、省略化ルールについて具体的な例を挙げて説明する。図5は、省略化ルール情報の一例を示す図である。図5に例示するように、省略化ルール情報12dは、省略化処理で適用するルールの順番を示す「優先順位」と、省略化される文字または記号を特定するためのルールを示す「ルール」とが対応付けられている。つまり、「優先順位」が1である「ルール」が適用されて、各文節要素に対して省略化処理が実行され、その後、優先順位が2、3・・・7の順に、対応するルールが適用されて、各文節要素を省略する処理が繰り返し実行される。
【0047】
また、図5に例示した省略化ルール情報12dにおいて、優先順位が「1」のルールである「略語化可能名詞」とは、後述する省略化辞書情報12eを用いて、省略化できる名詞である省略化可能名詞を略語に変換することを意味している。なお、省略化ルール情報12dを利用した省略化処理の詳しい手法については、後述する省略化手段13fの説明で詳述する。
【0048】
省略化辞書情報12eは、文章の意味に与える影響に応じて予め定められた、文節要素の内容を省略化するための辞書に関する情報である。ここで、図6−1および図6−2を用いて、省略化辞書について具体的な例を挙げて説明する。図6−1および図6−2は、省略化辞書情報の一例を示す図である。図6−1および図6−2に例示するように、省略化対象である「省略化可能名詞」、「不要文字」、「副詞」、「形容動詞」、「括弧」、「誇大表現」、「重複表現」、「名詞+との」、「名詞+など」、「名詞+を対象に」、「先頭句?までの文字」、「先頭句でない?よりも後ろの文字」に対応する省略化辞書がそれぞれ記憶部12に記憶されている。
【0049】
また、図6−1および図6−2に例示するように、省略化辞書情報12eは、「省略化可能名詞」に対応する省略化辞書は、「省略対象文字」と「省略後文字」とが対応付けてられている。例えば、省略化ルール情報12dは、省略対象文字として「木村たつや」と、省略後文字として「キムタツ」が対応付けられている。これは、文節要素に「木村たつや」の文字が含まれている場合には、「木村たつや」の文字を「キムタツ」に変換することを意味している。なお、省略化辞書情報12eを利用した省略化処理の詳しい手法については、後述する省略化手段13fの説明で詳述する。
【0050】
検索回数情報12fは、各固有名詞が検索クエリとして入力された回数に関する情報である。ここで、図7を用いて、検索回数情報12fについて具体的な例を挙げて説明する。図7は、検索回数情報の一例を示す図である。図7に例示するように、検索回数情報12fは、ポータルサイトの検索クエリとして入力された「固有名詞」と、例えばポータルサイトの検索クエリとして入力された回数である「検索回数」とが対応付けられている。例えば、図7の例では、固有名詞「山田太郎」が検索クエリとして入力された回数が「10000」回であることを示している。なお、検索回数情報12fは、省略化処理において、複数の固有名詞が省略対象となった場合に、いずれの名詞を削除するかを決定するために参照される情報である。この情報は、例えば、外部の検索サーバから取得されたデータであり、最新(例えば、数時間前、数日前)の情報が更新される。なお、検索回数情報12fを利用した省略化処理の詳しい手法については、後述する省略化手段13fの説明で詳述する。
【0051】
制御部13は、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する。例えば、見出し抽出手段13a、分割手段13b、重み付け手段13c、文節要素抽出手段13d、文字数判定手段13e、省略化手段13f、およびトピック候補出力手段13gを備える。なお、制御部13は、CPU(Central Processing Unit)である。
【0052】
見出し抽出手段13aは、見出しおよび本文からなるニュース記事情報12aを記憶する記憶部12から見出しを構成する見出し情報を抽出する。具体的には、見出し抽出手段13aは、作成者端末20からトピックを作成する旨の指示であるトピック作成指示を受け付けると、ニュース記事情報12aを記憶する記憶部12から見出しを構成する見出し情報を抽出する。例えば、見出し抽出手段13aは、見出し情報として、「芸能ニュース速報!小林真夜アナウンサー独立で年収5倍も夢じゃない」を抽出する。
【0053】
そして、見出し抽出手段13aは、抽出した見出し情報に全角の英数字が含まれているか判定し、全角の英数字が含まれている場合には、英数字を半角化する処理を行う。例えば、見出し抽出手段13aは、見出し情報として、「暴風雨で15人死亡=子供4人が壁倒壊の犠牲に」を抽出した場合に、「15」および「4」が全角の数字であると判定し、「15」および「4」を半角化して、「暴風雨で15人死亡=子供4人が壁倒壊の犠牲に」と変換する。そして、見出し抽出手段13aは、英数字を半角化する処理を行った後に、見出し情報を分割手段13bに通知する。
【0054】
分割手段13bは、抽出された見出し情報を文節で区切って、複数の文節要素に分割する。ここで、分割手段13bは、見出し情報を複数の文節要素に分割する前に、形態素解析を行う。具体的には、分割手段13bは、既存の形態素解析の手法を利用して、見出し情報の文章を各形態素に分解し、各形態素の品詞を解析する処理を行う。そして、分割手段13bは、形態素解析を行った結果、各形態素の品詞に関する情報を記憶部12の所定の領域に格納する。
【0055】
例えば、分割手段13bは、見出し情報として、「大きな地震が来ないことを祈ります。」を見出し抽出手段13aから受信した場合に、各形態素として、「大きな(おおきな)」、「地震(じしん)」、「が」、「来(こ)」、「な」、「い」、「こと」、「を」、「祈(いの)」、「り」、「ます」、「。」に分解する。そして、分割手段13bは、各形態素の品詞を解析し、「大きな(おおきな)」が連体詞、「地震(じしん)」が名詞、「が」が助詞、「来(こ)」が動詞、「な」が助動詞、「い」が活用語尾、「こと」が形式名詞、「を」が助詞、「祈(いの)」が動詞、「り」が活用語尾、「ます」が助動詞、「。」が記号であると判定する。そして、解析された各形態素の品詞に関する情報を記憶部12の所定の領域(例えば、RAMの一部領域)に格納する。
【0056】
続いて、分割手段13bは、形態素解析を行った後に、分割ルール情報12bを記憶部12から読み出し、分割ルール情報12bに基づいて、分割処理を行う。具体的には、分割手段13bは、分割ルール情報12bから分割ルールを一つ取得し、分割ルールに定義されている区切りとなる文字または記号が見出し情報に含まれているか判定する。この結果、分割手段13bは、区切りとなる文字または記号が見出し情報に含まれている場合には、区切りとなる文字または記号を境に見出しを区切って複数の文節要素に分割する。その後、分割手段13bは、分割ルール情報12bから分割ルールを順番に取得し、分割ルールに定義されている区切りとなる文字または記号が見出し情報に含まれているか判定する処理を繰り返す。
【0057】
ここで具体的な例を挙げて分割処理について具体的に説明する。例えば、分割手段13bは、見出し情報として「自主営業の海浜ホテルで強制執行、元従業員ら立ち退かせる」を見出し抽出手段13aから受信し、句読点「、」、「。」、「.」、または「,」が区切りとなる記号として定義されている分割ルールを分割ルール情報12bから取得する。このような場合に、分割手段13bは、句読点「、」、「。」、「.」、または「,」が見出し情報「自主営業の海浜ホテルで強制執行、元従業員ら立ち退かせる」に含まれているか判定する。この結果、分割手段13bは、句読点「、」が見出し情報に含まれていると判定して、「自主営業の海浜ホテルで強制執行、元従業員ら立ち退かせる」を「自主営業の海浜ホテルで強制執行、」と「元従業員ら立ち退かせる」とに分割する。
【0058】
また、例えば、分割手段13bは、見出し情報として、「生活苦 隣室で携帯充電 逆ギレ女逮捕」を見出し抽出手段13aから受信し、「全角空白」、「半角空白」が区切りとなる記号として定義されている分割ルールを分割ルール情報12bから取得する。このような場合に、分割手段13bは、「全角空白」または「半角空白」が見出し情報「生活苦 隣室で携帯充電 逆ギレ女逮捕」に含まれているか判定する。この結果、分割手段13bは、「全角空白」が見出し情報に含まれていると判定して、「生活苦 隣室で携帯充電 逆ギレ女逮捕」を「生活苦」と「隣室で携帯充電」と「逆ギレ女逮捕」とに分割する。
【0059】
また、例えば、分割手段13bは、見出し情報として、「今度の行列はホンモノ!ファーストフード店話題のバーガーに400人」を見出し抽出手段13aから受信し、記号「!」、「?」、『「の直前の文字または記号』、または『」』が区切りとなる記号として定義されている分割ルールを分割ルール情報12bから取得する。このような場合に、分割手段13bは、「!」、「?」、『「の直前の文字または記号』、または『」』が見出し情報「今度の行列はホンモノ!ファーストフード店話題のバーガーに400人」に含まれているか判定する。この結果、分割手段13bは、記号「!」が見出し情報に含まれていると判定して、「今度の行列はホンモノ!ファーストフード店話題のバーガーに400人」を「今度の行列はホンモノ!」と「ファーストフード店話題のバーガーに400人」とに分割する。
【0060】
また、例えば、分割手段13bは、見出し情報として、「大量補強のパイレーツが首位のドルフィンズに大勝」を見出し抽出手段13aから受信し、「名詞+が」が区切りとなる文字として定義されている分割ルールを分割ルール情報12bから取得する。このような場合に、分割手段13bは、「名詞+が」が見出し情報「大量補強のパイレーツが首位のドルフィンズに大勝」に含まれているか判定する。この結果、分割手段13bは、「名詞+が」が見出し情報に含まれていると判定して、「大量補強のパイレーツが首位のドルフィンズに大勝」を「大量補強のパイレーツが」と「首位のドルフィンズに大勝」とに分割する。
【0061】
また、例えば、分割手段13bは、見出し情報として、「渡り全面禁止など超党派で議員立法も」を見出し抽出手段13aから受信し、「名詞+など」が区切りとなる文字として定義されている分割ルールを分割ルール情報12bから取得する。このような場合に、分割手段13bは、「名詞+など」が見出し情報「渡り全面禁止など超党派で議員立法も」に含まれているか判定する。この結果、分割手段13bは、「名詞+など」が見出し情報に含まれていると判定して、「渡り全面禁止など超党派で議員立法も」を「渡り全面禁止など」と「超党派で議員立法も」とに分割する。
【0062】
その後、分割手段13bは、分割処理を行った後に、各文節要素を重み付け手段13cに送信する。なお、上記で説明した分割処理を行うために定義された分割ルールは、あくまで一例であり、上記で例示した分割ルール以外にも、区切りとなる文字または記号を定義してもよい。例えば、「%で」を区切りとなる文字として定義してもよいし、『「〜」』助詞または『助詞「〜」』を区切りとなる文字として定義してもよい。また、ニュース記事を入稿する新聞社や雑誌社などが見出しに付与している記号(例えば、/=、*、-//など)を区切りとなる記号として定義してもよい。
【0063】
重み付け手段13cは、分割された各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付けルール情報12cに基づいて、重み付けを行う。具体的には、重み付け手段13cは、分割手段13bから分割された複数の文節要素を受信すると、重み付けルール情報12cを記憶部12から読み出し、重み付けルール情報12cから優先順位が「1」の重み付けルールを取得し、重み付けルールに基づいて、各文節要素に対してスコアを付与する重み付け処理を行う。
【0064】
その後、重み付け手段13cは、重み付け処理が終わると、前回の重み付け処理で利用した重み付けルールの優先順位の値に1を加算した値の優先順位に対応する重み付けルールを重み付けルール情報12cから取得する。そして、重み付け手段13cは、取得した重み付けルールに基づいて、各文節要素に対してスコアを付与する重み付け処理を繰り返す。そして、重み付け手段13cは、各文節要素と、各文節要素のスコアを文節要素抽出手段13dに送信する。
【0065】
ここで具体的な例を挙げて重み付け処理について具体的に説明する。例えば、重み付け手段13cは、文節要素として「芸能ニュース速報!」と「小林真夜アナウンサー独立で年収5倍も夢じゃない」とを分割手段13bから受信する。また、重み付け手段13cは、優先順位「1」の重み付けルール「固有名詞を含む文節」を重み付けルール情報12cから取得した場合の重み付け処理について説明する。
【0066】
このような場合に、重み付け手段13cは、各文節要素「芸能ニュース速報!」、「小林真夜アナウンサー独立で年収5倍も夢じゃない」に固有名詞が存在するかそれぞれ判定する。この結果、重み付け手段13cは、「小林真夜アナウンサー独立で年収5倍も夢じゃない」について、固有名詞である「小林真夜」が含まれていると判定し、スコア「100」を付与する。その後、優先順位「2」〜「7」の重み付けルールを順次読み出し、各重み付けルールに従って、各文節要素にスコアを付与する。以下では、優先順位「2」〜「7」の重み付けルールを用いた重み付け処理の例を説明する。
【0067】
例えば、重み付け手段13cが文節要素として「自主営業の海浜ホテルで強制執行」と「元従業員ら立ち退かせる」とを分割手段13bから受信し、優先順位「2」の重み付けルール「サ変文節」を重み付けルール情報12cから取得した場合の重み付け処理の例について説明する。このような場合に、重み付け手段13cは、各文節要素「自主営業の海浜ホテルで強制執行」、または「元従業員ら立ち退かせる」がサ変で終わる文節要素であるかそれぞれ判定する。
【0068】
この結果、重み付け手段13cは、「自主営業の海浜ホテルで強制執行」について、サ変で終わる文節要素であると判定し、スコア「50」を付与する。なお、「サ変」とは、動詞の基本形に続く「し」、「する」、「すれ」、「しろ」などの動詞の活用である「サ行変格活用」のことであり、上記の例では、「自主営業の海浜ホテルで強制執行」のうち最後の「強制執行(する)」がサ変であると判定される。
【0069】
また、例えば、重み付け手段13cが文節要素として「後継者は父が決めること」と「総書記長男が北京入り」とを分割手段13bから受信し、優先順位「3」の重み付けルール「動詞ラ行五段活用を含む文節」を重み付けルール情報12cから取得した場合の重み付け処理について説明する。このような場合に、重み付け手段13cは、各文節要素「後継者は父が決めること」、または「総書記長男が北京入り」が動詞ラ行五段活用を含む文節要素であるかそれぞれ判定する。
【0070】
この結果、重み付け手段13cは、「総書記長男が北京入り」について、動詞ラ行五段活用を含む文節要素であると判定し、スコア「25」を付与する。なお、「動詞ラ行五段活用」とは、動詞の基本形に続く「ら」、「り」、「る」、「れ」などの動詞の活用であり、上記の例では、「総書記長男が北京入り」のうち最後の「入り」が動詞ラ行五段活用であると判定される。
【0071】
また、重み付け手段13cは、優先順位「4」の重み付けルール「価値判断を含む文節」を重み付けルール情報12cから取得した場合には、「〜はいけない」、「〜は良い」、「〜は悪い」などが含まれる文節要素に対して、スコア「12」を付与する。また、重み付け手段13cは、優先順位「5」の重み付けルール『「」』を重み付けルール情報12cから取得した場合には、『「〜」』を含む文節要素に対して、スコア「6」を付与する。
【0072】
また、重み付け手段13cは、優先順位「6」の重み付けルール「を で終わる文節」を重み付けルール情報12cから取得した場合には、最後が「〜を」で終わる文節要素に対して、スコア「3」を付与する。また、重み付け手段13cは、優先順位「7」の重み付けルール「死、傷を含む文節」を重み付けルール情報12cから取得した場合には、「死」または「傷」を含む文節要素に対して、スコア「1」を付与する。
【0073】
図2の説明に戻って、文節要素抽出手段13dは、重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する。具体的には、文節要素抽出手段13dは、重み付け手段13cから各文節要素と、各文節要素のスコアを受信する。そして、文節要素抽出手段13dは、受信した各文節要素のなかから、最もスコアが高い文節要素を抽出し、抽出した文節要素を文字数判定手段13eに送信する。
【0074】
文字数判定手段13eは、抽出された文節要素が所定の文字数以下であるか判定する。具体的には、文字数判定手段13eは、文節要素抽出手段13dまたは後述する省略化手段13fから文節要素を受信すると、受信した文節要素の文字数が13文字以内であるか判定する。この結果、文字数判定手段13eは、文節要素の文字数が13文字以下である場合には、トピック候補出力手段13gに文節要素を送信する。また、文字数判定手段13eは、文節要素の文字数が13文字を超えている場合には、省略化手段13fに文節要素を送信する。
【0075】
省略化手段13fは、文節要素が所定の文字数よりも多いと判定された場合には、文章の意味に与える影響に応じて予め定められた省略化ルールに基づいて、文節要素から文字または記号を省略する。具体的には、省略化手段13fは、文字数判定手段13eから文節要素を受信すると、省略化ルール情報12dおよび省略化辞書情報12eを記憶部12から読み出す。そして、省略化手段13fは、省略化ルール情報12dから優先順位が「1」の省略化ルールを選択し、省略化ルールに基づいて、文節要素から文字または記号を省略する。そして、省略化手段13fは、一つの省略化ルールに基づいて省略化処理を行った後、省略化した文節要素を文字数判定手段13eに送信する。
【0076】
その後、省略化手段13fは、文字数判定手段13eから文節要素を受信すると、前回の省略化処理で利用した省略化ルールの優先順位の値に1を加算した値の優先順位に対応する省略化ルールを省略化ルール情報12dから選択する。そして、省略化手段13dは、取得した省略化ルールに基づいて、文節要素から文字または記号を省略し、省略化した文節要素を文字数判定手段13eに送信する処理を繰り返す。つまり、トピック作成支援装置10は、文節要素の文字数が13文字以内になるまで、優先順位1、2、3・・・7の省略化ルールを順次適用して、省略化処理を行う。
【0077】
ここで具体的な例を挙げて省略化処理について具体的に説明する。例えば、省略化手段13fは、優先順位「1」の省略化ルール「省略化可能名詞」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象文字」が文節要素に含まれているか判定する。この結果、省略化手段13fは、「省略対象文字」が文節要素に含まれている場合には、省略化辞書情報12eを参照して、「省略対象文字」を「省略後文字」に変換する。
【0078】
具体例を挙げて説明すると、省略化手段13fは、図6−1の(a)に例示するように、文節要素に省略対象文字である「木村たつや」の文字が含まれている場合には、「木村たつや」に対応する省略後文字である「キムタツ」に省略する。つまり、氏名や肩書きなどの略語に変換したとしてもユーザが意味を認識できる文字については、削除したとしても文章の意味に与える影響が少ないので、削除して文字数を削減する。
【0079】
また、例えば、省略化手段13fは、優先順位「2」の省略化ルール「不要文字」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象文字」が文節要素に含まれているか判定する。この結果、省略化手段13fは、「省略対象文字」が文節要素に含まれている場合には、省略化辞書情報12eを参照して、省略対象文字を削除する。
【0080】
具体例を挙げて説明すると、省略化手段13fは、図6−1の(b)に例示するように、文節要素に省略対象文字である「注目の」や「話題の」の文字が含まれている場合には、「注目の」や「話題の」の文字を削除する。つまり、「注目の」や「話題の」などの文字については、削除したとしても文章の意味に与える影響が少ないので、削除して文字数を削減する。
【0081】
また、例えば、省略化手段13fは、優先順位「3」の省略化ルール「副詞」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である副詞が文節要素に含まれているか判定する。この結果、省略化手段13fは、「省略対象」である副詞が文節要素に含まれている場合には、省略化辞書情報12eを参照して、省略対象を削除する。
【0082】
具体例を挙げて説明すると、省略化手段13fは、文節要素に省略対象である「いよいよ」などの品詞が副詞の文字が含まれている場合には、「いよいよ」の文字を削除する。つまり、「いよいよ」などの副詞については、削除したとしても文章の意味に与える影響が少ないので、削除して文字数を削減する。なお、文節要素に副詞が含まれているか否かの判定については、上述した形態素解析の処理の結果として記憶部12に記憶した各形態素の品詞に関する情報を参照して判定する。
【0083】
また、例えば、省略化手段13fは、優先順位「4」の省略化ルール「形容動詞」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である形容動詞が文節要素に含まれているか判定する。この結果、省略化手段13fは、「省略対象」である形容動詞が文節要素に含まれている場合には、省略化辞書情報12eを参照して、省略対象を削除する。
【0084】
具体例を挙げて説明すると、省略化手段13fは、文節要素に省略対象である「そろって」などの品詞が形容動詞の文字が含まれている場合には、「そろって」の文字を削除する。つまり、「そろって」などの形容動詞については、削除したとしても文章の意味に与える影響が少ないので、削除して文字数を削減する。なお、上記した副詞と同様に、文節要素に形容動詞が含まれているか否かの判定については、記憶部12に記憶された各形態素の品詞に関する情報を参照して判定する。
【0085】
また、例えば、省略化手段13fは、優先順位「5」の省略化ルール「括弧」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である括弧が文節要素に含まれているか判定する。この結果、省略化手段13fは、「省略対象」である『「」』が文節要素に含まれている場合には、「」内の文字が4文字以内であるか判定する。この結果、「」内の文字が4文字以内である場合には、「」を削除する。
【0086】
具体例を挙げて説明すると、省略化手段13fは、文節要素『アニメの下請け「疲労」浮き彫りに』に対して省略化ルール「括弧」を適用した場合には、『「」』が文節要素に含まれており、かつ、「」内の文字が4文字以内であるので、「」を削除し、『アニメの下請け疲労浮き彫りに』と省略する。つまり、括弧については、削除したとしても文章の意味に与える影響が少ないので、括弧を削除して文字数を削減する。ただし、「」内の文字が4文字以上である場合には、括弧内の文字が人の発言の内容などの場合が多く、このような場合には、削除すると文章の意味変わってしまうケースがあるので、削除しないこととしている。
【0087】
また、例えば、省略化手段13fは、優先順位「6」の省略化ルール「誇大表現」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である誇大表現が文節要素に含まれているか判定する。この結果、省略化手段13fは、「省略対象」である誇大表現が文節要素に含まれている場合には、誇大表現を削除する。具体例を挙げて説明すると、省略化手段13fは、図6−1の(f)に例示するように、文節要素に省略対象文字である「も夢じゃない」の文字が含まれている場合には、「も夢じゃない」を「も」に省略する。つまり、誇大表現については、削除したとしても文章の意味に与える影響が少ないので、削除して文字数を削減する。
【0088】
また、例えば、省略化手段13fは、優先順位「7」の省略化ルール「重複表現」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である重複表現が文節要素に含まれているか判定する。この結果、省略化手段13fは、「省略対象」である「固有名詞+と+固有名詞」が文節要素に含まれている場合には、固有名詞が人名であるか人名以外であるかを判定する。
【0089】
この結果、固有名詞が人名以外である場合には、記憶部12から検索回数情報12fを読み出し、検索回数情報12fを参照して、二つの固有名詞の検索回数をそれぞれ取得する。そして、省略化手段13fは、取得した二つの固有名詞のうち、検索回数が多いのはいずれであるかを判定し、検索回数が少ない固有名詞を文節要素から削除し、検索回数が多い固有名詞に「など」を付加した文字を文節要素に残す。つまり、省略化手段13fは、「固有名詞+と+固有名詞」を「(検索回数が多い方の)固有名詞+など」に省略する。
【0090】
また、固有名詞が人名である場合には、記憶部12から検索回数情報12fを読み出し、検索回数情報12fを参照して、二つの固有名詞の検索回数をそれぞれ取得する。そして、省略化手段13fは、取得した二つの固有名詞のうち、検索回数が多いのはいずれであるかを判定し、検索回数が少ない固有名詞を文節要素から削除し、検索回数が多い固有名詞に「ら」を付加した文字を文節要素に残す。つまり、省略化手段13fは、「固有名詞+と+固有名詞」を「(検索回数が多い方の)固有名詞+ら」に省略する。このように、複数の固有名詞が省略対象となった場合に、検索クエリとして入力された回数が最も多い名詞以外の名詞を省略することで、注目度が高い名詞をトピックに含めることができる結果、作成されるトピックの質を向上させることができる。
【0091】
また、例えば、省略化手段13fは、優先順位「8」の省略化ルール「名詞+との」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である「名詞+との」が文節要素に含まれているか判定する。この結果、省略化手段13fは、「省略対象」である「名詞+との」が文節要素に含まれている場合には、名詞+とのを削除する。
【0092】
具体例を挙げて説明すると、省略化手段13fは、文節要素「安井美代子、城山裕との熱愛を生告白アッコ絶賛」に対して省略化ルール「名詞+との」を適用した場合には、「名詞+との」が文節要素に含まれているので、「城山裕との」を削除し、「安井美代子、熱愛を生告白アッコ絶賛」と省略する。つまり、「名詞+との」が文節要素内にある場合には、同種の複数の名詞(例えば、人物、場所の名詞)が文節要素に含まれていることが多く、「名詞+との」を削除したとしても文章の意味に与える影響が少ないので、「名詞+との」を削除して文字数を削減する。
【0093】
また、例えば、省略化手段13fは、優先順位「9」の省略化ルール「名詞+など」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である「名詞+など」が文節要素に含まれているか判定する。この結果、省略化手段13fは、「省略対象」である「名詞+など」が文節要素に含まれている場合には、名詞+などを削除する。
【0094】
具体例を挙げて説明すると、省略化手段13fは、文節要素「<渡辺氏>全面禁止など超党派で議員立法も」に対して省略化ルール「名詞+など」を適用した場合には、「名詞+など」が文節要素に含まれているので、「全面禁止など」を削除し、「<渡辺氏>超党派で議員立法も」と省略する。つまり、「名詞+など」が文節要素内にある場合には、その名詞が何かを説明するための一例として使われていることが多く、「名詞+など」を削除したとしても文章の意味が変わることが少ないので、「名詞+など」を削除して文字数を削減する。
【0095】
また、例えば、省略化手段13fは、優先順位「10」の省略化ルール「名詞+を対象に」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である「名詞+を対象に」が文節要素に含まれているか判定する。この結果、省略化手段13fは、「名詞+を対象に」が文節要素に含まれている場合には、「を対象」を削除する。
【0096】
具体例を挙げて説明すると、省略化手段13fは、文節要素に「社長を対象に」などの「名詞+を対象に」が含まれている場合には、「を対象」を削除して、「社長に」に省略する。つまり、「名詞+を対象に」が文節要素内にある場合には、「名詞+を対象に」を「名詞+に」に省略したとしても文章の意味に与える影響が少ないので、省略して文字数を削減する。
【0097】
また、例えば、省略化手段13fは、優先順位「11」の省略化ルール「先頭句?までの文字」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である「先頭句+?」が文節要素に含まれているか判定する。すなわち、先頭句に「?」が含まれているか判定する。この結果、省略化手段13fは、「先頭句+?」が文節要素に含まれている場合には、「先頭句+?」を削除する。
【0098】
具体例を挙げて説明すると、省略化手段13fは、文節要素に「日本車はお好き?ロバートさん日本車に乗り換え」などの「先頭句+?」が含まれている場合には、「先頭句+?」を削除して、「ロバートさん日本車に乗り換え」に省略する。つまり、「先頭句+?」が文節要素内にある場合には、先頭句の後ろに似た内容があったり、先頭句が不確かな情報であったりすることが多く、省略したとしても文章の意味に与える影響が少ないので、省略して文字数を削減する。
【0099】
また、例えば、省略化手段13fは、優先順位「12」の省略化ルール「先頭句でない?よりも後の文字」を省略化ルール情報12dから取得した場合には、省略化辞書情報12eに記憶された「省略対象」である「?より後ろの文字」が文節要素に含まれているか判定する。すなわち、文節要素に「?」があって、かつ、「?」の後ろに文字が存在するか判定する。この結果、省略化手段13fは、文節要素に「?」があって、かつ、「?」の後ろに文字が存在する場合には、「?」を含む文章が先頭句であるか否か判定する。この結果、省略化手段13fは、「?」を含む文章が先頭句でない場合には、「?より後ろの文字」を削除する。
【0100】
具体例を挙げて説明すると、「加藤学監督アキレス腱断裂か?選手より先に負傷者第1号」に対して省略化ルール「先頭句でない?よりも後の文字」を適用した場合には、文節要素に「?」があって、「?」の後ろに文字が存在して、かつ、「?」を含む文章が先頭句でないので、「?より後ろの文字」である「選手より先に負傷者第1号」を削除する。つまり、「先頭句でない?よりも後の文字」は、内容が重要であることが少なく、省略したとしても文章の意味に与える影響が少ないので、省略して文字数を削減する。
【0101】
図2の説明に戻って、トピック候補出力手段13gは、所定の文字数以内であると判定された文節要素をニュース記事のトピックとして出力する。具体的には、トピック候補出力手段13gは、文字数が13文字以内の文節要素を受信すると、受信した文節要素をトピック候補として作成者端末20に出力する。ここで、図8を用いて、文節要素をトピック候補として画面表示例を説明する。図8は、トピックス候補の表示例を示す図である。図8に例示するように、トピック候補出力手段13gは、トピック候補として「小林アナ独立で年収5倍も」を表示するとともに、「編集」ボタンを表示する。かかる「編集」ボタンは、マウスなどでクリックされると、トピック候補として表示した「小林アナ独立で年収5倍も」を編集できるページに移動する。
【0102】
なお、上記で説明した省略化処理を行うために定義された省略化ルールは、あくまで一例であり、上記で例示した省略化ルール以外にも、省略化する文字または記号を定義してもよい。例えば、文節要素に「名詞・名詞」が含まれている場合に、「・」の左側の名詞が人名または地名でない場合には、「名詞・」を削除し、「・」の左側の名詞が人名または地名である場合には、「・名詞」を削除するようにしてもよい。また、文頭の文節にある助詞「は」、「が」を削除するようにしてもよい。また、括弧に囲まれた文字を削除するようにしてもよい。
【0103】
[トピック作成支援装置による処理]
次に、図9を用いて、実施例1に係るトピック作成支援装置10による処理を説明する。図9は、図2に示すトピックス作成支援装置の処理手順を示すフローチャートである。
【0104】
図9に示すように、トピック作成支援装置10の見出し抽出手段13aは、作成者端末20からトピックを作成する旨の指示であるトピック作成指示を受け付けると(ステップS101肯定)、見出しおよび本文からなるニュース記事情報12aを記憶する記憶部12から見出しを構成する見出し情報を抽出する(ステップS102)。例えば、新聞社の端末からニュース記事情報12aが一日に数回入稿され、入稿されたニュース記事情報12aが記憶部12に蓄積される。そして、例えば、一日に複数回、作成者端末20からニュースを指定とともに、指定されたニュースのトピックを作成する旨の指示を受け付ける。
【0105】
そして、分割手段13bは、見出し情報を文節で区切って、複数の文節要素に分割する(ステップS103)。例えば、分割手段13bは、図3に示した分割ルール情報12bを用いて、分割処理を行う。続いて、重み付け手段13cは、分割された各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付けルール情報12cに基づいて、重み付けを行う(ステップS104)。例えば、重み付け手段13cは、図4に示した重み付けルール情報12cを用いて、各文節要素にスコアを付与する重み付け処理を行う。
【0106】
そして、文節要素抽出手段13dは、重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する(ステップS105)。例えば、文節要素抽出手段13dは、重み付け処理によって付与されたスコアが最も高い文節要素を抽出する。その後、文字数判定手段13eは、抽出された文節要素の文字数が13文字以内であるか判定する(ステップS106)。
【0107】
この結果、文節要素の文字数が13文字以内であると判定された場合には(ステップS106肯定)、トピック候補出力手段13gは、文節要素をトピック候補として作成者端末20に出力する(ステップS110)。一方、文節要素の文字数が13文字を超えていると判定された場合には(ステップS106否定)、省略化手段13fは、省略化ルール情報12dを読み出し、省略化ルール情報12dから省略化ルールを一つ選択し(ステップS107)、選択した省略化ルールに基づいて、文節要素を省略化する(ステップS108)。例えば、省略化手段13fは、最初に省略化処理を行う場合には、優先順位が「1」に対応する省略化ルールを省略化ルール情報12dから選択する。
【0108】
そして、文字数判定手段13eは、省略された文節要素の文字数が13文字以内であるか判定する(ステップS109)。この結果、文節要素の文字数が13文字を超えていると判定された場合には(ステップS109否定)、ステップS107に戻って、省略化ルール情報12dから省略化ルールを一つ選択する(ステップS107)。例えば、省略化手段13fは、前回の省略化処理で利用した省略化ルールの優先順位の値に1を加算した値の優先順位に対応する省略化ルールを省略化ルール情報12dから選択する。その後、文節要素の文字数が13文字以下になるまで、省略化手段13fが省略化ルールを選択し、省略化処理を行う処理を繰り返す(ステップS107〜ステップS109)。そして、S109において、文節要素の文字数が13文字以内であると判定された場合には(ステップS109肯定)、トピック候補出力手段13gは、文節要素をトピック候補として作成者端末20に出力する(ステップS110)。
【0109】
[実施例1の効果]
以上のように本実施形態に係るトピック作成支援装置10は、見出しおよび本文からなるニュース記事情報からトピックを自動で作成して出力するので、トピック作成の作業負担を軽減することが可能である。つまり、トピック作成者がトピックの作成を指示するだけで、トピック作成支援装置1が文字数制限内で作成されたトピック候補を自動で作成して出力するので、トピック作成者は、トピック候補をそのままトピックとして利用したり、トピック候補をもとに編集してトピックを作成することができる結果、トピック作成の作業負担を軽減することができる。
【0110】
また、トピック作成支援装置10は、予め決められたルールに沿ってトピック候補を出力するので、作成されるトピックの質を均質化することが可能である。つまり、トピック作成支援装置1は、予め定められた重み付け判定データに基づいて、文節要素に対して重み付けを行い、重み付けの度合いが大きい文節要素を抽出し、抽出された文節要素からトピック候補を出力するので、トピック作成者のスキルや経験に依存することなく、均質的なトピック候補を出力することができる。
【0111】
また、本実施形態に係るトピック作成支援装置10は、文節要素が所定の文字数よりも多い場合には、自動的に文節要素を省略化するので、文節要素が所定の文字数を超えた場合であっても、確実にトピックの文字数を所定の文字数以下にすることができる。つまり、トピック作成支援装置10は、抽出された文節要素の文字数が制限文字数以内であることを判定してから、文節要素をトピック候補として出力するので、ポータルサイトのトップページに表示できる文字数の条件を満たしたトピック候補を確実に出力することができる。
【0112】
また、本実施形態に係るトピック作成支援装置10は、一つの省略化ルールに基づいて省略化処理を行うたびに、予め定められた文字数を超えていないか判定する。このため、省略化処理により、トピックが省略されて文字数が短くなり過ぎることを防止できる結果、作成されるトピックの質を向上させることが可能である。
【0113】
また、本実施形態に係るトピック作成支援装置10は、複数の名詞が省略対象となった場合に、検索クエリとして入力された回数が最も多い名詞以外の名詞を省略する。例えば、トピックが表示されるポータルサイトの検索クエリとして入力された回数が多い名詞をトピック候補に残すことで、注目度が高い名詞をトピックに含めることができる結果、作成されるトピックの質を向上させることが可能である。なお、トピックが表示されるポータルサイト以外のサイトから検索クエリとして入力された回数を収集して、利用するようにしてもよい。
【実施例2】
【0114】
また、上述においては、一つの重み付けルール情報に基づいて重み付け処理を行う場合を説明したが、複数の重み付けルール情報に基づいて、重み付け処理をそれぞれ行ってもよい。そこで、以下では、複数の重み付けルール情報に基づいて、重み付け処理をそれぞれ行って、複数のトピックス候補を出力する場合として、図10および図11を用いて、トピック作成支援装置の処理について説明する。図10は、重み付けルール情報を変更する処理の一例を示す図である。図11は、複数のトピックス候補がある場合の表示例を示す図である。
【0115】
トピック作成支援装置10は、複数の重み付けルール情報12cを記憶部12に記憶している。例えば、トピック作成支援装置10は、図10の(a)、(b)に例示するように、優先順位「1」と「7」に対応するルールが互いに異なる重み付けルール情報12cを記憶している。図10の(a)に例示する重み付けルール情報12cは、優先順位「1」に対応するルールが「固有名詞を含む文節」であり、優先順位「7」に対応するルールが「死、傷を含む文節」である。また、図10の(b)に例示する重み付けルール情報12cは、優先順位「1」に対応するルールが「死、傷を含む文節」であり、優先順位「7」に対応するルールが「固有名詞を含む文節」である。
【0116】
続いて、図10の(a)、(b)に例示する複数の重み付けルール情報12cに基づいて実行される重み付け処理について説明する。また、ここでは、トピック作成支援装置10の重み付け手段13cが文節要素である「北海道で大規模な地震発生」と「死者0名重軽傷者23名」とに対して、重み付け処理を行う場合を例にして説明する。まず、図10に示すように、トピック作成支援装置10の重み付け手段13cは、図10の(a)に例示する重み付けルール情報12cを記憶部12から読み出し、重み付けルール情報12cから優先順位が「1」の重み付けルール「固有名詞を含む文節」を取得し、重み付けルールに基づいて、各文節要素に対して重み付け処理を行ってスコアを付与する。その後、優先順位「2」〜「7」の重み付けルールを順次読み出し、各重み付けルールに基づいて、各文節要素にスコアを付与する。
【0117】
ここで、各文節要素に付与されるスコアについて具体的に説明する。図10の(a)に例示する重み付けルール情報12cを適用して重み付け処理を行った場合に、文節要素である「北海道で大規模な地震発生」は、固有名詞「北海道」を含む文節に該当するので、スコアとして「100」が付与される。また、「死者0名重軽傷者23名」は、「死、傷」を含む文節に該当するので、スコアとして「1」が付与される。
【0118】
次に、重み付け手段13cは、図10の(b)に例示する重み付けルール情報12cを記憶部12から読み出し、重み付けルール情報12cを図10の(a)に例示する重み付けルール情報12cから図10の(b)に例示する重み付けルール情報12cに変更する。そして、重み付け手段13cは、図10の(b)に例示する重み付けルール情報12cから優先順位が「1」の重み付けルール「死、傷を含む文節」を取得し、重み付けルールに基づいて、各文節要素に対して重み付け処理を行ってスコアを付与する。その後、優先順位「2」〜「7」の重み付けルールを順次読み出し、各重み付けルールに基づいて、各文節要素にスコアを付与する。
【0119】
ここで、各文節要素に付与されるスコアについて具体的に説明する。図10の(b)に例示する重み付けルール情報12cを適用して重み付け処理を行った場合に、文節要素である「北海道で大規模な地震発生」は、固有名詞「北海道」を含む文節に該当するので、スコアとして「1」が付与される。また、「死者0名重軽傷者23名」は、「死、傷」を含む文節に該当するので、スコアとして「100」が付与される。
【0120】
このように、重み付け手段13cは、図10の(a)、(b)に例示する複数の重み付けルール情報12cに基づいて、重み付け処理をそれぞれ実行する。そして、重み付け手段13cは、各文節要素と、複数の重み付けルール情報12cに基づいて重み付けられた複数の文節要素のスコアを文節要素抽出手段13dに送信する。例えば、重み付け手段13cは、上記の例では、文節要素である「北海道で大規模な地震発生」と「死者0名重軽傷者23名」とを受信するとともに、図10の(a)に例示する重み付けルール情報12cのスコアを示す情報として、「北海道で大規模な地震発生:スコア100、死者0名重軽傷者23名:スコア1」、図10の(b)に例示する重み付けルール情報12cのスコアを示す情報として、「北海道で大規模な地震発生:スコア1、死者0名重軽傷者23名:スコア100」を送信する。
【0121】
文節要素抽出手段13dは、重み付け手段13cから各文節要素と、複数の文節要素のスコアを受信する。そして、文節要素抽出手段13dは、重み付け処理によるスコアが大きい文節要素をそれぞれ抽出する。上記の例を用いて説明すると、文節要素抽出手段13dは、文節要素である「北海道で大規模な地震発生」と「死者0名重軽傷者23名」とを受信するとともに、図10の(a)に例示する重み付けルール情報12cのスコアを示す情報として、「北海道で大規模な地震発生:スコア100、死者0名重軽傷者23名:スコア1」、図10の(b)に例示する重み付けルール情報12cのスコアを示す情報として、「北海道で大規模な地震発生:スコア1、死者0名重軽傷者23名:スコア100」を受信する。
【0122】
そして、文節要素抽出手段13dは、受信した各文節要素のなかから、最もスコアが高い文節要素を抽出し、抽出した文節要素を文字数判定手段13eに送信する。上記の例を用いて説明すると、文節要素抽出手段13dは、図10の(a)に例示する重み付けルール情報12cでは、「北海道で大規模な地震発生」のスコアが100であり、「死者0名重軽傷者23名」のスコアが1であるため、最もスコアが高い「北海道で大規模な地震発生」を抽出する。一方、要素抽出手段13dは、図10の(b)に例示する重み付けルール情報12cでは、「北海道で大規模な地震発生」のスコアが1であり、「死者0名重軽傷者23名」のスコアが100であるため、最もスコアが高い「死者0名重軽傷者23名」を抽出する。このため、文節要素抽出手段13dは、二つの抽出要素「北海道で大規模な地震発生」および「死者0名重軽傷者23名」を文字数判定手段13eに送信する。
【0123】
そして、文字数判定手段13eは、複数の文節要素を受信すると、受信した文節要素の文字数が13文字以内であるかそれぞれ判定する。この結果、文字数判定手段13eは、文節要素の文字数が13文字以下である場合には、トピック候補出力手段13gに文節要素を送信する。また、文字数判定手段13eは、文節要素の文字数が13文字を超えている場合には、省略化手段13fに文節要素を送信する。なお、上記の例では、「北海道で大規模な地震発生」と「死者0名重軽傷者23名」とは、13文字以内なので、トピック候補出力手段13gに送信する。
【0124】
そして、トピック候補出力手段13gは、複数の文節要素を受信すると、受信した各文節要素をトピック候補として作成者端末20に出力する。ここで、図11を用いて、トピック候補の画面表示例を説明する。図11に例示するように、トピック候補出力手段13gは、トピック候補として「北海道で大規模な地震発生」と「死者0名重軽傷者23名」とを表示するとともに、「編集」ボタンおよび「選択」ボタンを表示する。かかる「選択」ボタンは、「北海道で大規模な地震発生」または「死者0名重軽傷者23名」のいずれをトピックとして採用するかの選択を受け付けるボタンであり、マウスなどでクリックされると、「選択」ボタンに対応する文節要素が選択される。なお、かかる「編集」ボタンは、前述したように、マウスなどでクリックされると、トピック候補として表示した文節要素を編集できるページに移動する。
【0125】
このように、トピック作成支援装置10は、それぞれ異なる重み付けルール情報を適用することで、複数のトピック候補を出力する。このように、ニュース記事の内容を考慮し、複数の重み付けルール情報12cを予め記憶させることで、複数のトピック候補のうちから最適なトピックをトピック作成者に選択させることができる。
【0126】
すなわち、上記の例において、図10の(a)に示す重み付けルール情報では、優先順位が「1」に対応する重み付けルールが「固有名詞を含む文節」であるので、特に政治や芸能に関するニュース等について、トピックとして人の関心を集める人名などの固有名詞を優先的にトピック候補として出力することができる。
【0127】
また、図10の(b)に示す重み付けルール情報では、優先順位が「1」に対応する重み付けルールが「死、傷を含む文節」であるので、特に災害情報に関するニュース等について、トピックとして人の関心を集める災害状況を優先的にトピック候補として出力することができる。
【0128】
このように、本実施形態に係るトピック作成支援装置10は、重み付けを変更し、複数のトピック候補を出力するので、複数のトピック候補のうちから最適なトピックをトピック作成者に選択させることができる結果、作成されるトピックの質を向上させることが可能である。
【実施例3】
【0129】
また、上述においては、トピック候補の表示例について、図8および図11を用いて説明したが、トピック候補を表示するだけでなく、トピックの作成を支援する情報も一緒に表示するようにしてもよい。そこで、以下では、図12および図13を用いて、トピック候補とともに、トピックの作成を支援する情報も一緒に表示する場合の表示例について説明する。図12は、原文見出しとトピック候補との差分を表示する場合の表示例を示す図である。図13は、トピック候補の文字数に関する情報を表示する場合の表示例を示す図である。
【0130】
トピックス作成支援装置10は、図12に例示するように、トピック候補とともに、原文見出しとトピック候補との差分を出力するようにしてもよい。かかるトピックス作成支援装置10のトピック候補出力手段13gは、トピック候補と原文見出しとの差分を検出し、トピック候補とともに差分を出力する。具体的には、トピック候補出力手段13gは、文字数判定手段13eからトピック候補を受信すると、受信したトピック候補とニュース記事情報12aに記憶された原文見出しとの差分を検出し、トピック候補とともに、トピック候補と原文見出しとの差分を出力する。
【0131】
ここで、図12の例を用いて、トピック候補の表示例を具体的に説明する。図12の(a)に例示するように、トピック候補出力手段13gは、トピック候補である「小林アナ独立で年収5倍も」と、編集ページに移動させるための「編集」ボタンを表示するとともに、「原文見出しとの比較表示」ボタンを表示する。かかる「原文見出しとの比較表示」ボタンは、マウスなどでクリックされると、図12の(b)に例示するように、原文見出しとトピック候補とを比較して表示するページに移動する。
【0132】
例えば、図12の(b)の例では、「原文見出し」および「トピック候補」を表示するとともに、原文見出しからトピック候補から削除された文字に色を付して表示している。すなわち、図12の(b)に例示するように、トピック候補出力手段13gは、原文見出し「芸能ニュース速報!小林真夜アナウンサー独立で年収5倍も夢じゃない」と「小林アナ独立で年収5倍も」との差分を検出し、「芸能ニュース速報!小林真夜アナウンサー独立で年収5倍も夢じゃない」のうち、「芸能ニュース速報!」と「真夜」と「ウンサー」と「夢じゃない」の文字に色を付して表示している。
【0133】
このように、本実施形態に係るトピック作成支援装置10は、トピックと見出し情報との差分を表示するので、見出し情報から削除された文字をトピック作成者に把握させることができる結果、作成されるトピックの質を向上させることが可能である。
【0134】
また、トピックス作成支援装置10は、図13に例示するように、トピック候補とともに、トピック候補の文字数に関する情報を出力するようにしてもよい。かかるトピックス作成支援装置10のトピック候補出力手段13gは、トピック候補の文字数が13文字よりも多いか少ないか判定し、トピック候補とともに不足文字数または過剰文字数を出力する。具体的には、トピック候補出力手段13gは、文字数判定手段13eからトピック候補を受信すると、受信したトピック候補の文字数が13文字よりも多いか少ないか判定し、トピック候補とともに、トピック候補の文字数に関する情報を出力する。なお、上述した説明では、トピック候補の文字数が13文字を超えて出力されないこととなっているが、文字数判定手段13eで判定する文字数を13文字以上に変更した場合等には、トピック候補の文字数が13文字を超えて出力されることがある。
【0135】
ここで、図13の例を用いて、トピック候補の表示例を具体的に説明する。図13の(a)に例示するように、トピック候補出力手段13gは、トピック候補である「いよいよ開幕世界大会」と、編集ページに移動させるための「編集」ボタンとを表示するとともに、トピック候補の文字数に関する情報である「現在10文字 3文字追加可能」を表示させる。また、図13の(b)に例示するように、トピック候補出力手段13gは、トピック候補である「加藤学監督アキレス腱断裂か?」と、編集ページに移動させるための「編集」ボタンとを表示するとともに、トピック候補の文字数に関する情報である「現在14文字 1文字削除」を表示させる。
【0136】
このように、本実施形態に係るトピック作成支援装置10は、トピック候補とともに不足文字数または過剰文字数をトピック作成者に把握させることができる結果、トピック作成者が不足文字数または過剰文字数を参考にトピックの編集を行うことができ、作成されるトピックの質を向上させることが可能である。
【0137】
[その他の実施例]
また、上述においては、ニュース記事のトピック候補を作成する例を説明したが、これに限定されるものではなく、ショッピング情報や求人情報などのトピック候補を作成するようにしてもよい。
【0138】
また、上記の実施例では、ネットワーク上のトピック作成支援装置10によりトピック作成を支援する実施例を説明したが、本発明はこれに限定されず、トピック作成支援装置10の機能の一部または全てを作成者端末20が有するようにしてもよい。例えば、ニュース記事情報12aのみをネットワーク上の端末に配置し、作成者端末20上で見出し抽出、分割、重み付けなどの各処理を行ってもよい。
【0139】
また、上述で説明したトピック作成支援方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
【0140】
また、トピック作成支援プログラムに係るプログラムモジュールやプログラムデータは、ハードディスクドライブに記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ等を介してCPUによって読み出されてもよい。あるいは、情報送受信プログラムに係るプログラムモジュールやプログラムデータは、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェースを介してCPUによって読み出されてもよい。
【0141】
以上、本発明の実施例のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0142】
これらの実施例やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0143】
1、10 トピック作成支援装置
2 ニュース記事情報記憶手段
3 ディスプレイ
11 通信I/F
12 記憶部
12a ニュース記事情報
12b 分割ルール情報
12c 重み付けルール情報
12d 省略化ルール情報
12e 省略化辞書情報
12f 検索回数情報
13 制御部
13a 見出し抽出手段
13b 分割手段
13c 重み付け手段
13d 文節要素抽出手段
13e 文字数判定手段
13f 省略化手段
13g トピック候補出力手段
20 作成者端末

【特許請求の範囲】
【請求項1】
見出しおよび本文からなる文章情報を記憶する文章情報記憶手段から、前記見出しを構成する見出し情報を抽出する見出し抽出手段と、
前記見出し抽出手段によって抽出された見出し情報を文節で区切って、複数の文節要素に分割する分割手段と、
前記分割手段によって分割された各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行う重み付け手段と、
前記重み付け手段によって重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する文節要素抽出手段と、
前記文節要素抽出手段によって抽出された文節要素を前記文章情報のトピックとして出力するトピック出力手段と
を備えることを特徴とするトピック作成支援装置。
【請求項2】
前記文節要素抽出手段によって抽出された文節要素が所定の文字数以下であるか判定する文字数判定手段と、
前記文字数判定手段によって前記文節要素が所定の文字数よりも多いと判定された場合には、文章の意味に与える影響に応じて予め定められた省略化ルールに基づいて、該文節要素から文字または記号を省略する省略化手段をさらに備え、
前記トピック出力手段は、前記省略化手段によって省略された文節要素を前記文章情報のトピックとして出力することを特徴とする請求項1に記載のトピック作成支援装置。
【請求項3】
前記文字数判定手段は、前記省略化手段によって複数の省略化ルールうちの一の省略化ルールに基づいて、該文節要素から文字または記号が省略されるたびに、該文節要素が所定の文字数以下であるか判定し、
前記トピック出力手段は、前記文字数判定手段によって前記文節要素が所定の文字数以下であると判定された場合には、前記省略化手段によって省略された文節要素を前記文章情報のトピックとして出力することを特徴とする請求項2に記載のトピック作成支援装置。
【請求項4】
前記省略化手段は、複数の名詞が省略対象となった場合に、各名詞が検索クエリとして入力された回数である検索回数情報を取得し、該複数の名詞のうち、検索クエリとして入力された回数が最も多い名詞以外の名詞を省略することを特徴とする請求項2または3に記載のトピック作成支援装置。
【請求項5】
前記重み付け手段は、複数の重み付け判定データごとに、前記分割手段によって分割された各文節要素に対する重み付けを行い、
前記文節要素抽出手段は、前記重み付け手段によって複数の重み付け判定データごとに重み付けされた文節要素から、重み付けの度合いが大きい文節要素をそれぞれ抽出し、
前記トピック出力手段は、前記文節要素抽出手段によって抽出された複数の文節要素を前記文章情報のトピックとしてそれぞれ出力することを特徴とする請求項1〜4のいずれか一つに記載のトピック作成支援装置。
【請求項6】
前記トピック出力手段は、前記文章情報のトピックと前記見出し情報との差分を検出し、前記文章情報のトピックとともに前記差分を出力することを特徴とする請求項1〜5のいずれか一つに記載のトピック作成支援装置。
【請求項7】
コンピュータを制御し、見出しおよび本文からなる文章情報のトピックの作成を支援するトピック作成支援方法において、
見出しおよび本文からなる文章情報を記憶する文章情報記憶手段から、前記見出しを構成する見出し情報を抽出する見出し抽出手順と、
前記見出し情報を文節で区切って、複数の文節要素ごとに分割する分割手順と、
前記各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行う重み付け手順と、
前記重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出する文節要素抽出手順と、
前記抽出された文節要素を前記文章情報のトピックとして出力するトピック出力手順と
を含むことを特徴とするトピック作成支援方法。
【請求項8】
見出しおよび本文からなる文章情報のトピックの作成を支援する処理をコンピュータに実行させるトピック作成支援プログラムにおいて、
見出しおよび本文からなる文章情報を記憶する文章情報記憶手段から、前記見出しを構成する見出し情報を抽出し、
前記見出し情報を文節で区切って、複数の文節要素ごとに分割し、
前記各文節要素に対して、少なくとも品詞の特性或いは品詞の活用に応じて予め定められた重み付け判定データに基づいて、重み付けを行い、
前記重み付けされた文節要素のうち、重み付けの度合いが大きい文節要素を抽出し、
前記抽出された文節要素を前記文章情報のトピックとして出力する処理をコンピュータに実行させることを特徴とするトピック作成支援プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6−1】
image rotate

【図6−2】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−141772(P2012−141772A)
【公開日】平成24年7月26日(2012.7.26)
【国際特許分類】
【出願番号】特願2010−293761(P2010−293761)
【出願日】平成22年12月28日(2010.12.28)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】