説明

記事特徴語抽出装置、記事特徴語抽出方法及びプログラム

【課題】固有表現に基づいて入力記事に対応するタイトル用の特徴語を抽出する記事特徴語抽出装置、記事特徴語抽出方法及びプログラムを提供する。
【解決手段】入力記事に対応するタイトル用の特徴語を抽出する記事特徴語抽出装置1は、カテゴリが付された入力記事を受け付ける記事入力手段11と、カテゴリに分類された過去の記事とタイトルとを対応付けて記憶した過去記事記憶部22から入力記事にカテゴリが一致しかつ類似する類似記事を抽出する類似記事抽出手段12と、固有表現を記憶する固有表現記憶部24を用いて入力記事と類似記事タイトルとから固有表現を抽出する固有表現抽出手段13と、固有表現を汎化して入力記事及び類似記事タイトルに適用する固有表現汎化手段14と、汎化固有表現を適用後の入力記事及び類似記事タイトルから特徴語を抽出する特徴語抽出手段15と、特徴語を識別可能にした入力記事を出力する記事出力手段16と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力記事に対応するタイトル用の特徴語を抽出する記事特徴語抽出装置、記事特徴語抽出方法及びプログラムに関する。
【背景技術】
【0002】
従来、ユーザは、ネットワーク上でインターネットから様々な情報を得ることを行っている。インターネット上には大量の情報として、例えば、ニュース記事が蓄積されている。記事は、一般的に、カテゴリに分類され、また、その記事の内容が分かるようなタイトルに代表される比較的短い文書が付されている。記事に、カテゴリやタイトルが付されることで、ユーザは、欲する記事を効率よく得ることができる。しかし、日々発信されるニュース記事のタイトルを作成する作業は、煩雑である。そのため、これらの作業を補助する装置が開示されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2000−29882号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に記載の装置は、例えば、対象文書及び同分野の文書を言語解析して、その結果を基に重要語や例示語等を判断して要約文を作成する。このようなプロセスで示された重要語は、同一分野の文書のうち、出現頻度の高いものである。よって、記事において、一般に、その内容の特徴を示す地名や人名等の固有表現は、出現頻度が低いので、固有表現は、重要語にはなりにくい。
【0005】
本発明は、固有表現に基づいて、入力記事に対応するタイトル用の特徴語を抽出する記事特徴語抽出装置、記事特徴語抽出方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明者は、固有表現を汎化することで、類似記事のタイトルに一致する特徴語として固有表現を抽出する方法を見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。
【0007】
(1) 入力記事に対応するタイトル用の特徴語を抽出する記事特徴語抽出装置において、
カテゴリが付された入力記事を受け付ける記事入力手段と、
前記カテゴリに分類された過去の記事にそのタイトルを対応付けて記憶した過去記事記憶部から、前記記事入力手段が受け付けた前記入力記事にカテゴリが一致し、前記入力記事に類似する類似記事を抽出する類似記事抽出手段と、
固有表現を記憶する固有表現記憶部を用いて、前記入力記事と、前記類似記事の前記タイトルとから、各々前記固有表現を抽出する固有表現抽出手段と、
前記固有表現抽出手段により抽出した前記固有表現を汎化して、前記入力記事及び前記類似記事の前記タイトルに汎化固有表現を適用する固有表現汎化手段と、
前記固有表現汎化手段による前記汎化固有表現を適用後の前記入力記事及び前記類似記事の前記タイトルから、特徴語を抽出する特徴語抽出手段と、
を備える記事特徴語抽出装置。
【0008】
本発明のこのような構成によれば、入力記事と同じカテゴリの過去の記事である類似記事のタイトルとに含む各々の固有表現を汎化して特徴語を抽出することで、記事の内容の特徴を示す地名や人名等の固有表現が抽出できる。ここで、汎化とは、例えば、タグ付けやキーワードによる置換等をいう。このように、記事により異なる固有表現を汎化することで、上位概念で同一に捉えることができ、より精緻な類似の抽出を行うことができる。なお、本明細書では以降、「タイトル」とは、サブタイトル、要約を含むものとする。
【0009】
(2) 前記特徴語抽出手段により抽出した前記類似記事の前記タイトルの特徴語を、対応する前記入力記事の特徴語に置き換えて、前記入力記事に関する仮タイトルを作成して出力する仮タイトル出力手段を備える、
(1)に記載の記事特徴語抽出装置。
【0010】
本発明のこのような構成によれば、類似記事のタイトルの特徴語を、それに対応する入力記事の特徴語に置き換えた入力記事の仮タイトルを作成して、作成した仮タイトルを出力するので、入力記事のタイトルの作成を半自動化でき、仮タイトルを出力できる。よって、ユーザによるタイトル作成の効率を向上することができる。
【0011】
(3) 前記特徴語抽出手段は、前記入力記事と、前記類似記事の前記タイトルとに一致する単語、複合語及び文節を、前記特徴語として抽出する、
(1)又は(2)に記載の記事特徴語抽出装置。
【0012】
本発明のこのような構成によれば、入力記事と、類似記事のタイトルとに一致する単語、複合語や文節を抽出するので、記事に共通の単語、複合語や文節を抽出できる。
【0013】
(4) 前記固有表現記憶部は、機械学習を用いて抽出した前記固有表現のパターンを記憶し、
前記固有表現抽出手段は、前記固有表現のパターンに基づいて、前記入力記事と前記類似記事の前記タイトルとから各々前記固有表現を抽出する、
(1)から(3)までのいずれか1項に記載の記事特徴語抽出装置。
【0014】
本発明のこのような構成によれば、固有表現のパターンを予め記憶しておき、それを用いることで、固有表現か否かを簡単に判断でき、固有表現を抽出できる。
【0015】
(5) 前記類似記事抽出手段は、抽出対象の数を可変して複数の前記類似記事を抽出する、
(1)から(4)までのいずれか1項に記載の記事特徴語抽出装置。
【0016】
本発明のこのような構成によれば、類似記事として抽出する記事数を、任意の数に変更することができる。よって、類似記事の対象の数を増減させて、比較対象になる類似記事の数を変化させることで、抽出する特徴語に変化を与えることができる。
【0017】
(6) 前記特徴語抽出手段により抽出した特徴語を識別可能にした前記入力記事を出力する記事出力手段を備える、
(1)から(5)までのいずれか1項に記載の記事特徴語抽出装置。
【0018】
本発明のこのような構成によれば、入力記事を、特徴語を識別可能にして出力するので、入力記事の中の特徴語に、例えば、下線を付したり、太字にしたりすることで、特徴語をユーザに分かりやすい態様で出力することができる。
【0019】
(7) 前記特徴語抽出手段は、前記入力記事と、前記類似記事の前記タイトルとに一致する前記汎化固有表現を、前記特徴語として抽出し、
前記記事出力手段は、前記特徴語として抽出した前記汎化固有表現を前記固有表現に特化して前記入力記事を出力する、
(6)に記載の記事特徴語抽出装置。
【0020】
本発明のこのような構成によれば、入力記事と、類似記事のタイトルとに一致する汎化した固有表現を抽出して、固有表現を識別可能にして出力するので、入力記事と、類似記事のタイトルとを比較することで、タイトルとして馴染みの多い単語、複合語や文節を、特徴語として抽出できる。また、抽出した汎化固有表現は、元の固有表現に戻して識別可能に出力するので、分かりやすく固有表現を出力できる。
【0021】
(8) ユーザが作成した前記入力記事に関するタイトルの入力を受け付けるタイトル入力手段と、
前記タイトルと前記入力記事とを対応付けて前記過去記事記憶部に記憶する記事蓄積手段と、
を備える、
(1)から(7)までのいずれか1項に記載の記事特徴語抽出装置。
【0022】
本発明のこのような構成によれば、過去の記事に、本装置の出力により作成されたタイトル付きの記事を含めることができる。ユーザが付したタイトルに対応付けて、過去の記事を蓄積するので、出力した入力記事を、他の入力記事において特徴語を抽出する対象になる類似記事にすることができる。
【0023】
(9) コンピュータによって、入力記事に対応するタイトル用の特徴語を抽出する記事特徴語抽出方法であって、
カテゴリに分類された過去の記事とそのタイトルとを対応付けて記憶する過去記事記憶ステップと、
固有表現を記憶する固有表現記憶ステップと、
前記カテゴリが付された入力記事を受け付ける記事入力ステップと、
前記過去記事記憶ステップにより記憶された前記過去の記事から、前記記事入力ステップが受け付けた前記入力記事にカテゴリが一致し、前記入力記事に類似する類似記事を抽出する類似記事抽出ステップと、
前記入力記事と、前記類似記事の前記タイトルとから、前記固有表現記憶ステップにより記憶された前記固有表現を各々抽出する固有表現抽出ステップと、
前記固有表現抽出ステップにより抽出した前記固有表現を汎化して、前記入力記事及び前記類似記事の前記タイトルに汎化固有表現を適用する固有表現汎化ステップと、
前記固有表現汎化ステップによる前記汎化固有表現を適用後の前記入力記事及び前記類似記事の前記タイトルから、特徴語を抽出する特徴語抽出ステップと、
を含む記事特徴語抽出方法。
【0024】
(10) (9)に記載の記事特徴語抽出方法のステップをコンピュータに実行させるためのプログラム。
【発明の効果】
【0025】
本発明によれば、入力記事と同じカテゴリの過去の記事である類似記事に基づいて、タイトル用の特徴語を効率的に抽出することができる。特に、固有表現を汎化することで、類似記事のタイトルに一致する特徴語として固有表現を抽出するので、タイトルで重要である固有表現を特徴語として抽出することができる。
【図面の簡単な説明】
【0026】
【図1】本実施形態に係る記事特徴語抽出装置の機能構成を示す図である。
【図2】本実施形態に係る記事特徴語抽出装置のハードウェア構成を示す図である。
【図3】本実施形態に係る記事特徴語抽出装置による処理の例を示す図である。
【図4】本実施形態に係るメイン処理のフローチャートである。
【図5】本実施形態に係る類似記事抽出処理のフローチャートである。
【図6】本実施形態に係る固有表現の抽出及び汎化方法を示す図である。
【図7】本実施形態に係る具体例を示す図である。
【発明を実施するための形態】
【0027】
以下、本発明を実施するための形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
【0028】
(実施形態)
[記事特徴語抽出装置1の機能構成]
図1は、本実施形態に係る記事特徴語抽出装置1の機能構成を示す図である。記事特徴語抽出装置1は、入力記事に関するタイトル用の特徴語を抽出して、識別可能にされた特徴語を出力する装置である。入力記事には、予め分類されたカテゴリのうちの1つが対応付けられている。タイトル用とは、入力記事の内容を端的に表す、例えば、タイトル、サブタイトル、要約の作成で用いることができることをいう。また、特徴語とは、入力記事に関する特徴が表れた単語、複合語や文節をいう。
【0029】
記事特徴語抽出装置1は、入力部3、出力部5、制御部10、記憶部20を備える。入力部3は、例えば、キーボードやマウス等であり、記事特徴語抽出装置1の処理対象になる入力記事を入力する装置である。入力部3は、通信回線(図示せず)を介して接続された端末(図示せず)や文書サーバ等から入力された記事を受信する通信部であってもよい。出力部5は、例えば、ディスプレイ等であり、タイトル用の特徴語を抽出した後の入力記事を出力する装置である。出力部5は、通信回線を介して接続された端末等に処理後の入力記事を送信する通信部であってもよい。
【0030】
制御部10は、記事入力手段11、類似記事抽出手段12、固有表現抽出手段13、固有表現汎化手段14、特徴語抽出手段15、記事出力手段16、仮タイトル出力手段17、タイトル入力手段18、記事蓄積手段19を備える。記憶部20は、過去の記事を記憶する過去記事記憶部22、固有表現のパターンを記憶する固有表現記憶部24を備える。固有表現(Named Entity)とは、例えば、地名、人名、組織名等の固有名詞や日付、時間表現、金額表現、数量表現等をいう。各機能の詳細は、後述する。
【0031】
記事特徴語抽出装置1は、ハードウェアの数に制限はなく、必要に応じて一又は複数のハードウェアで構成してよい。また、記事特徴語抽出装置1は、複数のハードウェアで構成する場合には、例えば、通信回線を介して各ハードウェアを接続してもよい。上述した各機能毎に別サーバとし、各サーバ間での信号の送受信により、各サーバを連携させることで、本実施形態の機能を実現してもよい。
【0032】
[記事特徴語抽出装置1のハードウェア構成図]
図2は、本実施形態に係る記事特徴語抽出装置1のハードウェア構成を示す図である。本発明が実施される処理装置は標準的なものでよく、以下に、構成の一例を示す。
【0033】
記事特徴語抽出装置1は、制御部10を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F(I/F:インタフェース)1040、メインメモリ1050、BIOS(Basic Input Output System)1060、表示装置1022、I/Oコントローラ1070、キーボード及びマウス等の入力装置1100、ハードディスク1074、光ディスクドライブ1076、並びに半導体メモリ1078を備える。なお、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078はまとめて記憶部20と呼ぶ。
【0034】
制御部10は、記事特徴語抽出装置1を統括的に制御する部分であり、ハードディスク1074に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。
【0035】
通信I/F1040は、記事特徴語抽出装置1が、通信回線を介して他の装置と情報を送受信する場合のネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
【0036】
BIOS1060は、記事特徴語抽出装置1の起動時にCPU1010が実行するブートプログラムや、記事特徴語抽出装置1のハードウェアに依存するプログラム等を記録する。
【0037】
表示装置1022は、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
【0038】
I/Oコントローラ1070には、ハードディスク1074、光ディスクドライブ1076、及び半導体メモリ1078等の記憶装置である記憶部20を接続することができる。
【0039】
入力装置1100は、記事特徴語抽出装置1の管理者による入力の受け付けを行うものである。
【0040】
ハードディスク1074は、本ハードウェアを記事特徴語抽出装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び上述した過去記事記憶部22及び固有表現記憶部24等を記憶する。なお、記事特徴語抽出装置1は、外部に別途設けたハードディスク(図示せず)を外部記憶装置として利用することもできる。
【0041】
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、BD(Blu−ray(登録商標) Disc)ドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。
【0042】
なお、本発明でいうコンピュータとは、記憶装置、制御部等を備えた情報処理装置をいい、記事特徴語抽出装置1は、記憶部20、制御部10等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。
【0043】
[具体例1]
図3は、本実施形態に係る記事特徴語抽出装置1による処理の例を示す図である。図3(1)は、入力記事の本文30を示す。本文30のカテゴリである「温暖化」は、予めユーザにより指定されている。カテゴリは、記事を分類するためのトピックであり、例えば、政治、社会、経済、スポーツ、・・・等であり、入力記事は、カテゴリで分類される。カテゴリは、大項目、中項目、小項目等の階層形式になっていてもよく、その場合は、入力記事に指定するカテゴリは、小項目等の最小の単位のものを指定するのが望ましい。
【0044】
次に、制御部10は、本文30に類似する類似記事のタイトルと本文とを、過去記事記憶部22から抽出する。過去記事記憶部22は、記憶部20に有する。図3(2)に示すように、過去記事記憶部22は、カテゴリ22aと、タイトル22bと、本文22cとの項目を有し、1つのレコード(行)は、1つの記事を表す。
【0045】
図3(2)は、過去記事記憶部22から抽出された類似記事を示す。類似記事は、過去記事記憶部22のカテゴリ22aに記憶された入力記事と同一のカテゴリのデータの中から抽出する。この例では、入力記事と同じ「温暖化」のカテゴリのものが抽出されている。類似記事は、入力記事に対して、特徴語を抽出するのに比較対象にする記事である。抽出した類似記事は、タイトル31と本文32とからなる。タイトル31は、過去記事記憶部22のタイトル22bから、本文32は、過去記事記憶部22の本文22cから、それぞれ取得する。
【0046】
次に、制御部10は、入力記事の本文30と、類似記事のタイトル31とから、各々固有表現を抽出して汎化する。図3(3)は、本文30とタイトル31とに含む固有表現と、固有表現に対応する汎化固有表現とを示す。入力記事の本文30から抽出された固有表現は、「フランス」という地名や、「23日」という日付であり、固有表現部33に格納される。汎化部34は、固有表現部33に格納された固有表現を汎化した汎化固有表現を格納する。固有表現の汎化は、固有表現記憶部24に基づいて行われる。同様に、類似記事のタイトル31から抽出された固有表現は、固有表現部35に格納される。汎化部36は、固有表現部35に格納された固有表現を汎化した汎化固有表現を格納する。これらの固有表現部33,35、汎化部34,36は、一時的に記憶部20に記憶してよい。
【0047】
次に、固有表現が汎化された状態で、特徴語を抽出する。特徴語は、類似記事のタイトル31に含む汎化固有表現に一致する、入力記事の本文30の汎化固有表現を含む。汎化固有表現である特徴語は、この例では、「地名」、「日付」である。また、特徴語は、類似記事のタイトル31の汎化固有表現を除いた単語、複合語や文節であって、本文30に有するものを含む。特徴語は、この例では、「北極海」、「海氷面積」、「減少」、「発表」である。ここで、「海氷面積」は、単語「氷」を含む複合語である。
【0048】
図3(4)は、特徴語を識別可能にした入力記事の本文37と、入力記事の仮タイトル38とを示す。ここで、汎化固有表現によって抽出した特徴語は、特徴語リストとして出力してもよいが、図示するように、入力記事の本文37に含めた状態で、識別可能に出力するようにしてもよい。入力記事の本文37は、この例のように特徴語に下線を付してもよいし、あるいは、色付けしたり、強調文字にしたりして、ユーザに一見して識別可能な状態で出力することが望ましい。また、図中の仮タイトル38は、図3(2)の類似記事のタイトル31うち特徴語として抽出した箇所を、入力記事の特徴語として抽出したものに置き換えたものである。ここで、仮タイトル38は、置き換えが複数ある場合は、複数のタイトル候補として表示してもよい。この置き換えは、入力記事と類似記事のタイトルとの対応付け(特に固有表現の種別が同じものの対応付け)により行うことができる。このとき、ユーザには、類似記事のタイトル31と仮タイトル38とを並べて表示するようにしてもよい。また、このようにして作成された仮タイトル38を、ユーザは必要に応じて編集できるようにすることが望ましい。
【0049】
[フローチャート]
次に、図3で説明した処理の流れを説明する。図4は、本実施形態に係るメイン処理のフローチャートである。図5は、本実施形態に係る類似記事抽出処理のフローチャートである。図6は、本実施形態に係る固有表現の抽出及び汎化方法を示す図である。以降、図4から図6を参照しながら説明する。
【0050】
図4において、S1:制御部10(記事入力手段11)は、入力部3からカテゴリ付きの入力記事を受け付ける。記事特徴語抽出装置1の入力部3から入力された入力記事は、記憶部20に一時的に記憶してよい。
【0051】
S2:制御部10(類似記事抽出手段12)は、入力記事に類似する記事(類似記事)を、過去記事記憶部22から抽出する類似記事抽出処理を行う。
【0052】
ここで、類似記事抽出処理について、図5に基づき説明する。
【0053】
図5において、S11:類似記事抽出手段12は、入力記事のカテゴリと同一のカテゴリの記事を、過去記事記憶部22から抽出する。
【0054】
S12:類似記事抽出手段12は、入力記事と、抽出した同一のカテゴリの記事の本文及びそのタイトルとに対して形態素解析を行う。
【0055】
S13:類似記事抽出手段12は、形態素解析によって各記事の本文に含まれる各単語に対して、単語の出現頻度に基づく指標であるTF(Term Frequency)・IDF(Inverse Document Frequency)を用いて単語の重み付けを行う。これにより、他の記事にはあまり出現しないが、その記事の中で高頻度で用いられている単語の重み付けは大きくなる。
【0056】
S14:類似記事抽出手段12は、入力記事に含む単語であって、重み付けの上位のものを特徴語として抽出する。なお、特徴語は、複数個を抽出してよい。
【0057】
S15:類似記事抽出手段12は、抽出した特徴語を抽出した同一カテゴリの類似記事に対してOR検索して、スコアの高いものから順番にn件分の記事を抽出する。抽出する記事の件数(n)は、予め定めておいてもよいし、ユーザが入力部3から入力してもよい。また、制御部10がランダムに件数を決定してもよい。
【0058】
このように、類似記事として使用する上位n件を可変にすることで、抽出される特徴語を変化させることができる。
【0059】
図4に戻って、S3:制御部10(固有表現抽出手段13)は、入力記事と、抽出した類似記事のタイトルとから、固有表現を抽出する。
【0060】
S4:制御部10(固有表現汎化手段14)は、固有表現記憶部24の学習データに基づき、入力記事と類似記事のタイトルとに含む各々の固有表現を汎化する。なお、ここで、タイトルとは、その内容部分が所定の最大文字数に制限された見出しをいい、最大文字数は、例えば、13文字である。
【0061】
ここで、固有表現の抽出及び汎化について、図6の例に基づき説明する。
【0062】
図6(1)は、固有表現記憶部24に記憶された学習元データ40の一例である。学習元データ40は、文書を形態素解析をして、表記41、品詞42、活用43を付し、タグ44に正解のタグを付したものである。タグ44の「ORG」は、組織を、「PER」は、人名を表す汎化固有表現である。また、タグ44の「I−」は、「B−」に続くものであることを意味する記号である。タグ44の「O」は、固有表現ではないotherを示す記号である。
【0063】
また、固有表現記憶部24には、固有表現を判定するための素性50を用意する。素性50は、1つの例示であり、複数用意されてよい。そして、素性50を、学習元データ40の行45に示す「直弘」に用いたのものが、学習データ51である。素性50を、各形態素の全て、つまり、学習元データ40の全ての行について行っておく。そして、これらを学習データとして、パターンを固有表現記憶部24に記憶しておく。そうすることで、未知の文書が入力された場合に、どの単語等が固有表現であるのかの判断に用いることができる。
【0064】
図6(2)に示す文書の対象データ60が入力された場合に、行61の「哲」について素性50を用いた結果データ62である。結果データ62から、学習データ51の前後2単語の「氏」と「は」とが共通するので、「哲」は、人名のタグである「PER」が付されるのではないかと推測できる。そこで、行61の「哲」については、人名タグ「PER」を付すことで、固有表現にすることができる。
【0065】
図4に戻って、S5:制御部10(特徴語抽出手段15)は、入力記事と、類似記事のタイトルとの両者に含む特徴語を抽出する。具体的には、制御部10は、入力記事と、類似記事のタイトルとに含む汎化固有表現を抽出し、入力記事と、類似記事のタイトルとに一致する単語、複合語及び文節を抽出する。
【0066】
S6:制御部10(記事出力手段16)は、特徴語を識別可能にした入力記事を出力部5に出力する。その際、制御部10は、汎化固有表現を汎化する前の固有表現に戻して(特化して)、特徴語に下線を付す。このようにすることで、ユーザは、出力された入力記事から特徴語を識別できるので、例えば、記事の斜め読みに有効である。
【0067】
S7:制御部10(仮タイトル出力手段17)は、類似記事のタイトルの特徴語を入力記事の特徴語に置き換えて、入力記事に関する仮タイトルを作成して出力部5に出力する。その際、制御部10は、汎化固有表現を汎化する前の固有表現に戻して(特化して)、特徴語に下線を付してもよい。このように、制御部10によって、入力記事のタイトルの作成を半自動化できるので、ユーザによるタイトル作成の効率を向上することができる。
【0068】
S8:制御部10(タイトル入力手段18)は、ユーザにより作成された入力記事のタイトルを、入力部3から受け付ける。
【0069】
S9:制御部10(記事蓄積手段19)は、入力記事と、そのタイトルとを対応付けて過去記事記憶部22に記憶する。
【0070】
このように、記事特徴語抽出装置1は、入力記事と同じカテゴリの過去の記事である類似記事のタイトルに基づいて、タイトル用の特徴語を効率的に抽出することができる。特に、固有表現を汎化することで、記事特徴語抽出装置1は、類似記事のタイトルに一致する特徴語として固有表現を抽出するので、タイトルで重要である固有表現を特徴語として抽出することができる。
【0071】
[具体例2]
次に、実際の記事に基づく具体例を示す。図7は、本実施形態に係る具体例を示す図である。
【0072】
図7(1)は、入力記事の本文70を示す。入力記事のカテゴリは、「芸能」である。なお、最初に入力記事が与えられた状態では、本文70は、下線等は付されていない。
【0073】
図7(2)は、過去記事記憶部22に記憶され、カテゴリが「芸能」である記事の中から、入力記事に類似する記事とそのタイトルとを3つ抽出したものである。類似記事は、例えば、図5に示した方法で抽出することができる。ここでは、本文71とタイトル72とのペア、本文73とタイトル74とのペア、本文75とタイトル76とのペアの3つである。本文71,73,75は、いずれも本文70に類似している。
【0074】
図7(3)は、タイトルの固有表現を汎化したものである。タイトル72,74,76には、共通してタレント名が入っており、これを人名を表すタグ<PER>で汎化している。また、図7(4)は、入力記事の本文70の固有表現を汎化したものである。本文70に含むタレント名を、人名を表すタグ<PER>で汎化している。これらは、図6で示した学習データとして記憶されたパターンから、人名を表すものと判断できる。
【0075】
図7(5)は、本文70と、タイトル72,74,76との特徴語を抽出して、本文70に反映したものである。固有表現を汎化した状態で比較して特徴語を抽出することで、タイトルに相応しい固有表現を拾うことができる。
【0076】
本文70は、特徴語をユーザが識別しやすいような状態に変更されて、出力部5に表示されるので、ユーザは、本文70から特徴語を抜き出して、例えば、「イジ○○岡田氏、ろっ骨を骨折」という、記事の内容を端的に示すタイトルを、簡単に付すことができる。
【0077】
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。
【0078】
(変形形態)
本実施形態では、特徴語に下線を付して入力記事を出力していたが、ユーザに識別可能なものであれば、例えば、特徴語を他の単語、複合語や文節とは異なる表示態様にして出力してもよい。表示態様としては、色やフォントを異なるものにすることが考えられる。このように、特徴語を他の単語、複合語や文節とは異なる表示態様で出力することで、ユーザが識別可能に特徴語を把握できるので、例えば、記事の斜め読みに有効である。また、類似記事として使用する上位n件を可変にすることで、抽出させる特徴語も変化させることができるので、適切な件数(n)を選ぶことで、複数の斜め読み用の特徴語を表示させることが可能である。
【0079】
なお、本実施形態では、類似記事を抽出するのに、記事の本文を形態素解析をして、TF・IDFを用いて重み付けをすることで抽出したが、入力記事に類似する記事を出力できれば、他の方法であってもよい。
【0080】
また、本実施形態では、特徴語を強調した入力記事と共に、類似記事のタイトルの特徴語を入力記事の特徴語に置き換えた仮タイトルを作成して出力する例を示したが、これに限定されない。例えば、入力記事と、類似記事のタイトルとを出力して、識別可能にした入力記事の特徴語と、同じく識別可能にした類似記事のタイトルの特徴語とを線で結ぶことで、各々の対応する場所が示されるようにしてもよい。
【符号の説明】
【0081】
1 記事特徴語抽出装置
10 制御部
11 記事入力手段
12 類似記事抽出手段
13 固有表現抽出手段
14 固有表現汎化手段
15 特徴語抽出手段
16 記事出力手段
17 仮タイトル出力手段
18 タイトル入力手段
19 記事蓄積手段
20 記憶部
22 過去記事記憶部
24 固有表現記憶部

【特許請求の範囲】
【請求項1】
入力記事に対応するタイトル用の特徴語を抽出する記事特徴語抽出装置において、
カテゴリが付された入力記事を受け付ける記事入力手段と、
前記カテゴリに分類された過去の記事にそのタイトルを対応付けて記憶した過去記事記憶部から、前記記事入力手段が受け付けた前記入力記事にカテゴリが一致し、前記入力記事に類似する類似記事を抽出する類似記事抽出手段と、
固有表現を記憶する固有表現記憶部を用いて、前記入力記事と、前記類似記事の前記タイトルとから、各々前記固有表現を抽出する固有表現抽出手段と、
前記固有表現抽出手段により抽出した前記固有表現を汎化して、前記入力記事及び前記類似記事の前記タイトルに汎化固有表現を適用する固有表現汎化手段と、
前記固有表現汎化手段による前記汎化固有表現を適用後の前記入力記事及び前記類似記事の前記タイトルから、特徴語を抽出する特徴語抽出手段と、
を備える記事特徴語抽出装置。
【請求項2】
前記特徴語抽出手段により抽出した前記類似記事の前記タイトルの特徴語を、対応する前記入力記事の特徴語に置き換えて、前記入力記事に関する仮タイトルを作成して出力する仮タイトル出力手段を備える、
請求項1に記載の記事特徴語抽出装置。
【請求項3】
前記特徴語抽出手段は、前記入力記事と、前記類似記事の前記タイトルとに一致する単語、複合語及び文節を、前記特徴語として抽出する、
請求項1又は請求項2に記載の記事特徴語抽出装置。
【請求項4】
前記固有表現記憶部は、機械学習を用いて抽出した前記固有表現のパターンを記憶し、
前記固有表現抽出手段は、前記固有表現のパターンに基づいて、前記入力記事と前記類似記事の前記タイトルとから各々前記固有表現を抽出する、
請求項1から請求項3までのいずれか1項に記載の記事特徴語抽出装置。
【請求項5】
前記類似記事抽出手段は、抽出対象の数を可変して複数の前記類似記事を抽出する、
請求項1から請求項4までのいずれか1項に記載の記事特徴語抽出装置。
【請求項6】
前記特徴語抽出手段により抽出した特徴語を識別可能にした前記入力記事を出力する記事出力手段を備える、
請求項1から請求項5までのいずれか1項に記載の記事特徴語抽出装置。
【請求項7】
前記特徴語抽出手段は、前記入力記事と、前記類似記事の前記タイトルとに一致する前記汎化固有表現を、前記特徴語として抽出し、
前記記事出力手段は、前記特徴語として抽出した前記汎化固有表現を前記固有表現に特化して前記入力記事を出力する、
請求項6に記載の記事特徴語抽出装置。
【請求項8】
ユーザが作成した前記入力記事に関するタイトルの入力を受け付けるタイトル入力手段と、
前記タイトルと前記入力記事とを対応付けて前記過去記事記憶部に記憶する記事蓄積手段と、
を備える、
請求項1から請求項7までのいずれか1項に記載の記事特徴語抽出装置。
【請求項9】
コンピュータによって、入力記事に対応するタイトル用の特徴語を抽出する記事特徴語抽出方法であって、
カテゴリに分類された過去の記事とそのタイトルとを対応付けて記憶する過去記事記憶ステップと、
固有表現を記憶する固有表現記憶ステップと、
前記カテゴリが付された入力記事を受け付ける記事入力ステップと、
前記過去記事記憶ステップにより記憶された前記過去の記事から、前記記事入力ステップが受け付けた前記入力記事にカテゴリが一致し、前記入力記事に類似する類似記事を抽出する類似記事抽出ステップと、
前記入力記事と、前記類似記事の前記タイトルとから、前記固有表現記憶ステップにより記憶された前記固有表現を各々抽出する固有表現抽出ステップと、
前記固有表現抽出ステップにより抽出した前記固有表現を汎化して、前記入力記事及び前記類似記事の前記タイトルに汎化固有表現を適用する固有表現汎化ステップと、
前記固有表現汎化ステップによる前記汎化固有表現を適用後の前記入力記事及び前記類似記事の前記タイトルから、特徴語を抽出する特徴語抽出ステップと、
を含む記事特徴語抽出方法。
【請求項10】
請求項9に記載の記事特徴語抽出方法のステップをコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2010−191851(P2010−191851A)
【公開日】平成22年9月2日(2010.9.2)
【国際特許分類】
【出願番号】特願2009−37684(P2009−37684)
【出願日】平成21年2月20日(2009.2.20)
【出願人】(500257300)ヤフー株式会社 (1,128)
【Fターム(参考)】