年表自動作成システム、方法及びそのプログラム

【課題】テキストを含む複数のデータファイルをそれぞれのテキストの内容に応じて年別に振り分ける作業を支援する。
【解決手段】年表作成システム１は、データファイル内のテキストから年表現を抽出する年表現抽出部１７と、年表現に基づいて、各データファイル内のテキストが言及している言及年を特定する言及年特定部１９と、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定する代表文特定部２１と、画面処理部２５とを備える。画面処理部２５は、複数のデータファイル別の言及年及び代表文を承認して確定させるか否かを受け付ける承認画面と、承認画面で修正が必要とされたデータファイルの言及年、代表文、及びテキストの修正を受け付けて、修正後の言及年または代表文で確定させる編集画面と、確定された言及年別に、確定された代表文を表示させる年表画面とを出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数のテキストを、各テキストが言及している年に従って時系列の年表形式に並べるための技術に関する。
【背景技術】
【０００２】
年表を表示するための種々のシステムが提案されている。例えば、特許文献１には、予め生成されている年表データに基づいて、年表作成者または利用者の意図に沿った表示を可能とする年表提供装置が記載されている。特許文献２には、一般社会の事件と自分史とを対比させる年表表示システムが記載されている。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００８−１７６５８８号公報
【特許文献２】特開２００５−２２２３５６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ところで、例えば、複数のテキストを含むファイルを集めて年表を生成するとき、各テキストの内容と対応する年を特定しなければならない。この作業は、オペレータが、テキストを読んで振り分けなければならないので、ファイル数が増大するにつれて、作業量は膨大なものとなる。特許文献１，２では、年表を表示するためのデータは、予め年別に構成されている。
【０００５】
そこで、本発明の目的は、テキストを含む複数のデータファイルをそれぞれのテキストの内容に応じて年別に振り分ける作業を支援するための年表作成技術を提供する。
【課題を解決するための手段】
【０００６】
本発明の一つの実施態様に従う年表作成システムは、テキストを含む複数のデータファイルを記憶する記憶手段と、前記複数のデータファイル別に、各データファイル内のテキストを解析して、前記テキストから年を示す文字または数字の列を抽出する年表現抽出手段と、前記複数のデータファイル別に、前記年表現抽出手段が抽出した文字または数字の列に基づいて、各データファイル内のテキストが言及している言及年を特定する言及年特定手段と、前記複数のデータファイル別に、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定する代表文特定手段と、前記複数のデータファイルについて、前記代表文特定手段で特定された代表文を表示させる年表画面を出力する出力手段と、を備える。
【０００７】
好適な実施形態では、前記代表文特定手段は、前記言及年特定手段によって特定された言及年の年表現を含む文を代表文としてもよい。
【０００８】
好適な実施形態では、前記複数のデータファイル別に、前記言及年特定手段で特定された言及年及び前記代表文特定手段で特定された代表文を承認して確定させるか、または修正が必要であるかの入力を受け付ける承認画面を表示させる手段と、前記承認画面で修正が必要とされたデータファイルの、前記特定された言及年、前記特定された代表文、及びテキストを表示させて、前記言及年または前記代表文の修正を受け付けて、修正後の言及年または代表文で確定させる入力を受け付ける編集画面を表示させる手段と、をさらに備え、前記出力手段は、前記年表画面に、前記承認画面または前記編集画面において確定された言及年別に、前記承認画面または前記編集画面において確定された代表文を表示させるようにしてもよい。
【０００９】
好適な実施形態では、前記代表文特定手段は、各データファイル内のテキストに含まれる各文中の固有名詞の数、普通名詞の数、及び動詞の数に基づいて、前記代表文を特定してもよい。
【００１０】
好適な実施形態では、前記代表文特定手段は、各データファイル内のテキストに含まれる各文について、以下の式で算出した重要度の値が最も大きい文を代表文としてもよい。

【数１】

im_i :文iの重要度
ｄ_ij:文iにおける品詞j（固有名詞、普通名詞または動詞）の含有率
μ_j :一文中の品詞j（固有名詞、普通名詞または動詞）の含有率平均
【００１１】
好適な実施形態では、前記複数のデータファイルのそれぞれについて以下の（１）〜（６）のノイズ除去処理を行って、複数のテキストファイルを生成するノイズ除去手段をさらに備え、前記年表現抽出手段、前記言及年特定手段、及び前記代表文特定手段は、前記テキストファイルについてそれぞれの処理を行ってもよい。
（１）前記データファイルに含まれるテキスト中のいずれか二行をマッチングして、前記二行のいずれにも含まれる文字列を抽出する処理を、前記テキストのすべての行に対するすべての二行の組み合わせについて行って、一以上の文字列パターンを抽出する。
（２）前記データファイルにおける前記抽出された一以上のパターンのそれぞれの出現頻度を算出する。
（３）各文字列パターンの長さに前記算出された出現頻度を乗ずることにより、ノイズスコアを算出する。
（４）前記算出された各文字列パターンのノイズスコアに基づいて、各文字列パターンの偏差値を算出する。
（５）前記算出された偏差値が予め設定された値以上である文字列パターンを含む行は、ノイズ行であると判定する。
（６）前記ノイズ行を前記データファイルから削除して、テキストファイルを生成する。
【００１２】
好適な実施形態では、前記複数のデータファイルのそれぞれについて以下の（１）〜（３）のノイズ除去処理を行って、複数のテキストファイルを生成するノイズ除去手段をさらに備え、前記年表現抽出手段、前記言及年特定手段、及び前記代表文特定手段は、前記テキストファイルについてそれぞれの処理を行ってもよい。
（１）前記データファイルに含まれるテキスト中の各行について、英数字等の占める割合である英数字等濃度を算出する。
（２）前記算出された英数字等濃度が予め設定された閾値以上である行は、ノイズ行であると判定する。
（３）前記ノイズ行を前記データファイルから削除して、テキストファイルを生成する。
【図面の簡単な説明】
【００１３】
【図１】本発明の一実施形態に係る年表作成システム１の構成図である。
【図２】オリジナルデータファイル１１０の一例を示す。
【図３】ノイズ除去システム１３の機能構成を示すブロック図である。
【図４】定型文字列をノイズとして除去する様子を示す説明図である。
【図５】定型文字列ノイズ除去の手順を示すフローチャートである。
【図６】英数字等を多く含む行をノイズ行として除去する様子を示す説明図である。
【図７】英数字等ノイズ除去の手順を示すフローチャートである。
【図８】正解データの具体例を示す説明図である。
【図９】テスト文書データに対する英数字等ノイズ除去の手順を示すフローチャートである。
【図１０】閾値決定処理の手順を示すフローチャートである。
【図１１】Ｆ値算出の前提概念を示す説明図である。
【図１２】仮閾値・Ｆ値対応表の具体例を示す図である。
【図１３】仮閾値とＦ値との関係を示すグラフである。
【図１４】文書データのノイズ除去システムの変形例を示すブロック図である。
【図１５】文書データのノイズ除去システムの変形例を示すブロック図である。
【図１６】文書データのノイズ除去システムの変形例を示すブロック図である。
【図１７】テキストファイル１５０の一例を示す。
【図１８】本実施形態における年表現の出現回数を示す。
【図１９】代表文抽出処理の説明図である。
【図２０】年表データ２３０のデータ構造の一例を示す図である。
【図２１】承認画面３００の一例を示す図である。
【図２２】編集画面４００の一例を示す図である。
【図２３】年表画面５００の一例を示す図である。
【発明を実施するための形態】
【００１４】
以下、本発明の一実施形態に係る年表作成システムについて、図面を参照して説明する。
【００１５】
図１は、本実施形態に係る年表作成システム１の構成図である。年表作成システム１は、同図に示すように、システム本体１０と、入力装置３及び表示装置４を有する。
【００１６】
システム本体１０は、例えば汎用的なコンピュータシステムにより構成され、以下に説明する１０内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。このコンピュータプログラムは、コンピュータ読み取り可能な記録媒体に格納可能である。
【００１７】
システム本体１０は、オリジナルデータを記憶するオリジナルデータ記憶部１１と、オリジナルデータのノイズ除去を行うノイズ除去システム１３と、解析対象データ記憶部１５と、年表現抽出部１７と、言及年特定部１９と、代表文特定部２１と、年表データ記憶部２３と、画面処理部２５とを備える。
【００１８】
オリジナルデータ記憶部１１は、複数のオリジナルデータファイルを記憶する。各オリジナルデータファイルには、少なくともテキストデータが含まれている。図２にオリジナルデータファイル１１０の内容の一例を示す。同図の例では、オリジナルデータファイル１１０には、テキスト本文１１１に加えて、ヘッダ１１２、及びフッタ１１３が含まれている。オリジナルデータファイル１１０は、例えば、テキスト形式のファイルでよい。このテキスト形式のファイルは、例えば、ＰＤＦ、ＨＴＭＬ、ＤＯＣ等の様々な形式のファイルを、単純にテキスト形式に自動変換しただけのファイルでよい。
【００１９】
ノイズ除去システム１３は、オリジナルデータファイル１１０に対する前処理として、ノイズ除去処理を行う。例えば、詳細については後述するとおり、年表現抽出部１７，言及年特定部１９及び代表文特定部２１では、テキスト本文に対するテキスト解析処理を行うため、その前処理の一つとして、ノイズ除去システム１３は、オリジナルデータファイル１１０に含まれるテキスト本文１１１以外の要素をノイズとして除去する。例えば、図２に例示するオリジナルデータファイル１１０であれば、ノイズ除去システム１３は、ヘッダ１１２、及びフッタ１１３をノイズとして除去する。ノイズ除去システム１３は、ノイズ除去後に残ったテキスト本文１１１を含むテキストファイル１５０（図１７参照）を生成する。
【００２０】
ノイズ除去システム１３が行うノイズ除去処理について、詳細に説明する。
【００２１】
図３に示すように、このノイズ除去システム１３は、定型文字列ノイズ除去部４４と、中間データ記憶部４６と、英数字等ノイズ除去部４８と、テスト文書ＤＢ５０と、テスト用英数字等ノイズ除去部５１と、ノイズ除去後テスト文書ＤＢ５２と、正解データ記憶部５４と、Ｆ値計算部５５と、仮閾値・Ｆ値対応表記憶部５６と、閾値設定部５７とを備えている。
【００２２】
上記の定型文字列ノイズ除去部４４、英数字等ノイズ除去部４８、テスト用英数字等ノイズ除去部５１、F値計算部５５及び閾値設定部５７は、コンピュータのＣＰＵが、ＯＳ及び専用のアプリケーションプログラムに従い、必要な処理を実行することによって実現される。
【００２３】
図４（ａ）は、ノイズ除去処理の説明に用いるオリジナルデータファイル１１０の一例を示すものであり、各オリジナルデータファイル１１０のヘッダ部分には、「知的資産創造／****年**月号」という定型文字列が共通的に記載されており、フッタ部分には「当レポートに掲載されている…」及び「Copyright ２００７ Nomura…」の定型文字列が共通的に記載されている。
【００２４】
以下、図５のフローチャートに従い、このような定型文字列除去の手順を説明する。
【００２５】
まず、定型文字列ノイズ除去部４４は、オリジナルデータ記憶部１１から各オリジナルデータファイル１１０を読み込む（Ｓ６０）。
【００２６】
つぎに定型文字列ノイズ除去部４４は、図４（ｂ）に示すように、各オリジナルデータファイル中の数字を所定の共通シンボル（例えば“Ｄ”）に置き換えた正規表現データを生成する（Ｓ６１）。数字の部分は、シリアル番号や年月日など、形式的には異なった文字列であっても、概念的には共通のものとして捉えられる場合が多いため、それぞれの個性を捨象して正規表現化し、共通の文字列に置換される。例えば、「２００７年１月号→Ｄ年Ｄ月号」、「Web２.０→WebＤ.Ｄ」、「Copyright ２００７ Nomura→Copyright Ｄ Nomura」のように変換される。なお、「２００７」のような連続数字は、「ＤＤＤＤ」のように各数字が共通シンボルに置換されるのではなく、まとめて一文字の「Ｄ」に置換される。
【００２７】
つぎに定型文字列ノイズ除去部４４は、各オリジナルデータファイル中のいずれか二つの行をマッチングして、その二行のいずれにも含まれる文字列を抽出する。定型文字列ノイズ除去部４４は、このマッチングをオリジナルデータファイル中の全行のすべての組み合わせについて行い、抽出された文字列パターンの頻度（出現回数）を集計する（Ｓ６２）。図４（ｃ）はその一例を示すものであり、「Copyright Ｄ Nomura…」及び「当レポートに掲載されている…」の頻度がそれぞれ２００であり、「知的資産創造／Ｄ年Ｄ月号」の頻度が８０、「エンジン」及び「課税所得」の頻度がそれぞれ２であることが記載されている。
【００２８】
つぎに定型文字列ノイズ除去部４４は、各文字列毎にノイズスコアを算出する（Ｓ６３）。ここでノイズスコアとは、各文字列のパターン長×頻度によって求められる値であり、図４（ｃ）の例では、「Copyright Ｄ Nomura…」のノイズスコアが１,５００、「当レポートに掲載されている…」のノイズスコアが１,０００、「知的資産創造／Ｄ年Ｄ月号」のノイズスコアが８００、「エンジン」及び「課税所得」のノイズスコアがそれぞれ１６であることが記載されている。
【００２９】
つぎに定型文字列ノイズ除去部４４は、各文字列のノイズスコアの偏差値を算出する（Ｓ６４）。図４（ｃ）の例では、「Copyright Ｄ Nomura」のノイズスコア偏差値が６６.２、「当レポートに掲載されている…」のノイズスコア偏差値が５７.６３、「知的資産創造／Ｄ年Ｄ月号」のノイズスコア偏差値が５４.２０、「エンジン」及び「課税所得」のノイズスコア偏差値がそれぞれ４０.６６であることが記載されている。
【００３０】
つぎに定型文字列ノイズ除去部４４は、各文字列のノイズスコアの偏差値に基づいて、除去すべき定型文字列を決定する（Ｓ６５）。ここでは、ノイズスコア偏差値が５０以上の文字列を、除去すべき定型文字列として決定するが、この閾値となる偏差値は５０に限定されるものではない。
【００３１】
つぎに定型文字列ノイズ除去部４４は、ノイズスコアの偏差値が５０以上の除去対象となる定型文字列を、正規表現ファイル１１０Ｄから削除するのではなく、各オリジナルデータファイル１１０からを削除して、中間データファイル４６０を生成する（Ｓ６６）。このとき、中間データ記憶部４６にノイズ除去後の中間データファイル４６０を格納する（Ｓ６７）。
【００３２】
図４(ｄ)は、定型文字列ノイズ除去後の中間データファイル４６０の具体例を示すものであり、オリジナルデータファイル１１０から不要なヘッダとフッタが除去され、重要なテキスト本文が残されている。
【００３３】
このように、オリジナルデータファイルからヘッダやフッタのような定型文字列ノイズを除去するだけでも、後続のキーワード抽出処理を相当に効率化することができるが、このシステム１３はさらに、オリジナルデータファイル中における「非定型ではあっても関連度の算出には無益な文字列」をもノイズとして除去する機能を備えている。
【００３４】
例えば、図６（ａ）に示すようなオリジナルデータファイル１１０の場合、文中には統計データ（数値）６０が含まれている。この統計データ６０は、定型文字列ではないが後段のテキスト解析処理には不要な情報といえる。また、上記の検索処理は日本語を前提としているため、文書中に英文字やギリシャ文字、キリル文字等の外国文字、あるいは一部の記号が含まれていた場合も、事前に削除しておくことが望ましい。
【００３５】
以下、図７のフローチャートに従い、このような不要な英数字等の除去の手順を説明する。
【００３６】
まず、英数字等ノイズ除去部４８は、中間データ記憶部４６から各中間データファイルを読み込む（Ｓ７０）。
【００３７】
つぎに英数字等ノイズ除去部４８は、行単位で英数字等の濃度を算出する（Ｓ７１）。英数字等の濃度とは、当該行の全文字数中に占める不要な英数字等の割合を意味する。不要な英数字等（記号を含む）の具体的範囲は、事前にプログラム内に設定されている。
【００３８】
そして、この濃度が予め設定された閾値Ｄ以上である場合（Ｓ７２／Ｙ）、英数字等ノイズ除去部４８は当該行を削除対象行と認定し、削除する（Ｓ７３）。これに対し、濃度が閾値Ｄ未満である場合（Ｓ７２／N）、英数字等ノイズ除去部４８は当該行を非削除対象行であると認定し、そのまま維持する（Ｓ７４）。
【００３９】
英数字等ノイズ除去部４８は上記のＳ７１〜Ｓ７４の処理を各文書の全ての行に対して実行した後（Ｓ７５）、英数字過多の削除対象行（ノイズ行）を除去したテキストファイルを解析対象データ記憶部１５に格納する（Ｓ７６）。
【００４０】
図６（ｂ）は、英数字等ノイズ除去部４８によるノイズ削除の結果を示すものであり、元の文書中に含まれていた統計データ６０が削除され、テキスト本文のみが残されていることがわかる。
【００４１】
ところで、この英数字等の除去処理を的確に行うためには、上記の閾値Ｄの設定が極めて重要となる。この値が不適切であると、重要な行が削除されてしまったり、不要な行が残されたりする結果となる。
【００４２】
そこで、以下において閾値Ｄの設定方法について説明する。
【００４３】
まず事前準備として、正解データ記憶部５４に人間の判断に基づく正解データを蓄積しておく。この正解データは、図８に示すように、複数のテスト文書の各行について予め人間が内容を吟味し、○×等の記号で要不要（ノイズ行OR非ノイズ行）の判定結果を行毎に記録したものを指す。
【００４４】
また、テスト用英数字等ノイズ除去部５１は、正解データの作成に用いたのと同じ複数のテスト文書データに対し、所定の手順に従ってノイズ行を削除したノイズ除去済のテスト文書データを生成し、ノイズ除去後テスト文書ＤＢ５２に格納しておく。以下、図９のフローチャートに従い、このテスト文書データに対するノイズ除去処理に係る手順を説明する。
【００４５】
まずテスト用英数字等ノイズ除去部５１は、仮閾値として０.００をセットした上で（Ｓ８０）、図７のＳ７０〜Ｓ７５と実質的に同じ処理を実行する。すなわち、テスト文書ＤＢ５０からテスト文書データを読み込み（Ｓ８１）、各文書の行単位で英数字等の濃度を算出し（Ｓ８２）、各行の濃度が仮閾値以上の場合には当該行をノイズ行と認定して削除し（Ｓ８３、Ｓ８４）、仮閾値未満の場合には非ノイズ行と認定して当該行を維持する（Ｓ８５）。そして、一つのテスト文書データの全行について処理が終了すると（Ｓ８６）、このノイズ除去済のテスト文書データをノイズ除去後テスト文書ＤＢ５２に格納する（Ｓ８７）。
【００４６】
つぎにテスト用英数字等ノイズ除去部５１は、現在の仮閾値（０.００）に０.０１をプラスし（Ｓ８９）、同テスト文書についてＳ８２〜Ｓ８７の処理を繰り返し、その結果をノイズ除去後テスト文書ＤＢ５２に格納する。
【００４７】
テスト用英数字等ノイズ除去部５１は、上記の処理を仮閾値が１.００になるまで繰り返す（Ｓ８８）。この結果、ノイズ除去後テスト文書ＤＢ５２には、同一テスト文書データについて仮閾値＝０.００〜１.００までの、１０１通りのノイズ除去後テスト文書データが蓄積されることとなる。
【００４８】
対象となるテスト文書データが複数ある場合、テスト用英数字等ノイズ除去部５１は上記の処理をテスト文書データの数だけ繰り返す。
【００４９】
つぎにＦ値計算部５５が起動し、正解データ記憶部５４に格納された正解データとノイズ除去後テスト文書ＤＢ５２に格納された各ノイズ除去後のテスト文書データに基づいて、最適な閾値Ｄを決定する。以下、図１０のフローチャートに従い、この閾値決定処理について説明する。
【００５０】
まず、Ｆ値計算部５５は、正解データ記憶部５４からテスト文書毎の正解データを読み込んだ後（Ｓ９０）、正解データに含まれるノイズ行の数を算出する（Ｓ９１）。
【００５１】
つぎにF値計算部５５は、ノイズ除去後テスト文書ＤＢ５２から仮閾値毎（０.００〜１.００）のノイズ除去後テスト文書データを読み込む（Ｓ９２）。
【００５２】
つぎにＦ値計算部５５は、正解データと各ノイズ除去後テスト文書データを比較し、仮閾値毎にノイズ判定行数を算出すると共に（Ｓ９３）、ノイズ判定行の中で正解データのノイズ行と一致した行の数（正解数）を算出する（Ｓ９４）。
【００５３】
つぎにＦ値計算部５５は、仮閾値毎に「Ｆ値」を算出し、閾値・Ｆ値対応表記憶部５６に格納する（Ｓ９５）。図１１は、このＦ値算出の前提概念を示す図であり、人間が判定した正解データ中のノイズ行数を「Hum」とし、システム（テスト用英数字等ノイズ除去部５１）が判定した仮閾値毎のノイズ行数を「Sys」、両者の交わった領域であるシステムの正解数を「Col 」とした場合、Ｆ値は以下の要領で算出される。
【００５４】
Ｆ値＝（２×適合率×再現率）÷（適合率＋再現率）
ただし、適合率＝Col÷Sys
再現率＝Col÷Hum
【００５５】
ここで「適合率」はシステムによるノイズ判定の正確性を表す指標であり、「再現率」は正解データのノイズ行に対しどれだけの行数をノイズと判定出来ているかを表す網羅性の指標である。また、Ｆ値は適合率と再現率の調和平均であり、Ｆ値が高いほど判定性能が良いことを意味している。
【００５６】
図１２は、閾値・Ｆ値対応表記憶部５６に格納された対応表の一例を示すものであり、０.０１刻みの仮閾値毎にＦ値が登録されている。
【００５７】
つぎに閾値設定部５７が各仮閾値のＦ値をソートし、最もＦ値が高い仮閾値を正式な閾値Ｄと認定した後（Ｓ９６）、英数字等ノイズ除去部４８にこの閾値Ｄをセットする（Ｓ９７）。
【００５８】
図１３は、この閾値Ｄの決定の要領を示すグラフであり、縦軸にＦ値が設定され、横軸に仮閾値が設定されている。図示の通り、Ｆ値が最も高い仮閾値が、正式な閾値Ｄとして認定されている。
【００５９】
因みに、仮閾値が０.００に近い場合には、英数字等がほとんど含まれていないような行であってもノイズとして除去されてしまうため、人間の判断に基づく正解データとの一致数が低下することとなる。反対に、仮閾値が１.００に近い場合には、ほとんどが英数字等で構成される行に多少の漢字や平仮名、片仮名（例えば年、月、日）が混じっただけで非ノイズとして維持されてしまうため、やはり人間の判断に基づく正解データとの一致数が低下することとなる。
【００６０】
上記にあっては、正解データとノイズ除去後テスト文書データに基づいて仮閾値毎のＦ値を算出し、その高さによって閾値Ｄを決定する例を示したが、正解データに対する正答数または正答率を仮閾値毎に算出し、正答数の多寡あるいは正答率の高低によって閾値Ｄを決定することも当然に可能である。この場合、Ｆ値計算部５５の代わりに閾値決定部を設け、この閾値決定部に仮閾値毎の正答数または正答率の算出処理、算出結果を仮閾値と正答数または正答率との対応表に記録する処理を実行させればよい。また、閾値設定部５７はこの対応表を参照し、最も正答数の多い仮閾値、あるいは最も正答率の高い仮閾値を正式な閾値Ｄと認定し、英数字等ノイズ除去部４８にセットする。
【００６１】
上記にあっては、オリジナルデータ記憶部１１内に蓄積されたオリジナルデータファイル１１０に対して、まず定型文字列ノイズ除去部４４による定型文字列ノイズの除去処理を実行し、その後に英数字等ノイズ除去部４８による英数字等ノイズの除去処理を実行する例を示したが、この発明はこれに限定されるものではない。
【００６２】
例えば、図１４に示すように、オリジナルデータファイル１１０に対して、まず英数字等ノイズ除去部４８による英数字等ノイズの除去処理を実行し、英数字等ノイズ除去済の文書データを一旦中間データ記憶部４６に格納した後、定型文字列ノイズ除去部４４による定型文字列ノイズの除去処理を実行し、英数字等ノイズ及び定型文字列ノイズ除去済の文書データを解析対象データ記憶部１５に格納するように、本システム１３を構成することができる（図１４においては、英数字等ノイズ除去に係る閾値の算出・設定に関する構成は省略してある）。
【００６３】
また、定型文字列ノイズ除去システムあるいは英数字等ノイズ除去システムのように、それぞれ独立したシステムとして構成することも当然に可能である。
【００６４】
図１５は、オリジナルデータファイル１１０に対して、定型文字列ノイズ除去部４４による定型文字列ノイズの除去処理を実行し、定型文字列ノイズ除去済の文書データを中間データ記憶部４６に格納する例を示している。
【００６５】
これに対し図１６は、オリジナルデータファイル１１０に対して、英数字等ノイズ除去部４８による英数字等ノイズの除去処理を実行し、英数字等ノイズ除去済の文書データを中間データ記憶部４６に格納する例を示している（図１６においては、英数字等ノイズ除去に係る閾値の算出・設定に関する構成は省略してある）。
【００６６】
あらためて図１へ戻ると、解析対象データ記憶部１５は、以下の処理で解析処理が適用される解析対象データを記憶する。解析対象データは、例えば、ノイズ除去システム１３でノイズが除去されたテキスト本文からなるテキストファイル１５０（図１７参照）と、そのオリジナルデータファイル１１０とを含む。
【００６７】
年表現抽出部１７は、オリジナルデータファイル１１０別に、オリジナルデータファイル１１０内のテキスト（テキスト本文１１１）を解析して、そのテキストから年を示す文字または数字の列（年表現）を抽出する。本実施形態では、テキストファイル１５０がテキスト本文１１１を抽出してものであるから、年表現抽出部１７は、テキストファイル１５０から年を表す表現（年表現）を抽出する。
【００６８】
例えば、年表現抽出部１７は、正規表現（￥Ｄ｛４｝年）を用いて、テキストファイル１５０内のテキストから４桁の数字列を年表現として抽出する。あるいは、年表現抽出部１７は、元号と一桁または二桁の数字を年表現として抽出しても良い。さらには、年を一意に特定できる表現（例えば、「終戦の年」など）を年表現として抽出しても良い。
【００６９】
言及年特定部１９は、オリジナルデータファイル１１０別に、年表現抽出部１７が抽出した文字または数字の列（年表現）に基づいて、各オリジナルデータファイル１１０内のテキストが言及している言及年を特定する。
【００７０】
例えば、言及年特定部１９は、図１８に示すように、年表現抽出部１７で抽出された年表現の出現回数をカウントする。そして、言及年特定部１９は、同図のカウント結果に基づいて、最も出現回数の多い年表現の年を、このテキストが主題としている言及年と特定する。
【００７１】
代表文特定部２１は、オリジナルデータファイル１１０別に、オリジナルデータファイル１１０内のテキスト（テキスト本文１１１）からそれぞれのテキストを代表する代表文を特定する。本実施形態では、代表文特定部２１は、例えば、テキストファイル１５０内のテキストに含まれる各文中の固有名詞の数、普通名詞の数、及び動詞の数に基づいて代表文を特定する。代表文特定部２１は、テキスト本文１１１の全体の中から代表文を特定しても良いし、言及年特定部１９で特定された言及年の年表現を含む文の中から代表文を特定するようにしてもよい。
【００７２】
代表文特定部２１は、例えば、所定の辞書を用いて、それぞれの文を単語（形態素）に分解し、各単語の品詞を特定する。そして、代表文特定部２１は、各文における各品詞の含有率を計算する。各品詞の含有率は、一つの文を構成する単語の総数に対する各品詞の単語数である。例えば、５０単語から構成されている一文中に、普通名詞が５つ含まれていれば、その文における普通名詞の含有率は０．１（１０％）である。
【００７３】
代表文特定部２１は、上記の含有率に基づいて、以下の式を用いて各文の重要度を算出する。
【数２】

ｉｍ_ｉ：文_ｉの重要度
d_ｉ，ｊ：文_ｉにおける品詞jの含有率
μ_ｊ：一文における品詞jの含有率平均
【００７４】
ここで、μ_ｊは学習データから推定したものであっても良い。また、文の重要度ｉｍ_ｉの算出には一部の品詞のみを用いて行う。例えば、固有名詞、普通名詞（固有名詞以外の名詞）及び動詞のみを用いて、文の重要度ｉｍ_ｉを算出してもよい。以下、文の重要度ｉｍ_ｉ算出の具体例を示す。
【００７５】
固有名詞、普通名詞及び動詞のそれぞれの含有率平均が以下の通りであるとする。
【００７６】
μ_固有名詞＝０．０１
μ_名詞＝０．３
μ_動詞＝０．０２
また、ある文Ｓ１における固有名詞、普通名詞及び動詞のそれぞれの含有率が、それぞれ以下の通りであるとする。
【００７７】
文Ｓ１の固有名詞含有率：d_{Ｓ１，固有名詞}＝０．０２
文Ｓ１の名詞含有率：d_{Ｓ１，名詞}＝０．４２
文Ｓ１の動詞含有率：d_{Ｓ１，動詞}＝０．１
このとき、文Ｓ１の重要度ｉｍ_Ｓ１は、以下のようにして、０．８と算出される。
【数３】

あるテキストファイル１５０において、上記のようにして算出された各文の重要度が、例えば、図１９に示すようになった場合、代表文特定部２１は、最も重要度ｉｍが大きい一文を代表文として特定する。あるいは、代表文特定部２１は、重要度ｉｍが上位の複数の文を代表文としても良い。
【００７８】
年表データ記憶部２３は、年表データ２３０を記憶する。
【００７９】
図２０は、年表データ２３０のデータ構造の一例を示す図である。同図に示すように、年表データ２３０は、オリジナルデータファイル１１０別に、言及年特定部１９で特定された言及年２３１と、代表文特定部２１で特定された代表文２３２とが対応付けて記憶されている。さらに、年表データ２３０は、言及年２３１及び代表文２３２がユーザによる承認を得ているか否かを示すステータス２３３と、オリジナルデータファイル名２３４とをデータ項目として有する。
【００８０】
画面処理部２５は、年表データ記憶部２３に格納されている年表データ２３０に基づいて、承認画面、編集画面、及び年表画面などの画面を表示装置４に表示させる。
【００８１】
図２１は、承認画面３００の一例を示す図である。
【００８２】
承認画面３００は、オリジナルデータファイル１１０別に、言及年特定部１９で特定された言及年及び代表文特定部２１で特定された代表文を承認して確定させるか、または修正が必要であるかの入力を受け付ける画面である。
【００８３】
同図に示すように、承認画面３００には、オリジナルデータファイル１１０別の表示領域３１０に、言及年３１１、代表文３１２、及び年表データのステータス３１３が表示されている。さらに、表示領域３１０には、ユーザ操作受付部３１４が設けられている。なお、図２１において、言及年３１１、代表文３１２、ステータス３１３及びユーザ操作受付部３１４の符号は、それぞれ一カ所のみ示す。
【００８４】
ここで、同図のステータス３１３は、年表データ２３０の言及年３１１及び代表文３１２がユーザから承認を受けていない未承認の状態を示す「非公開」となっている。
【００８５】
ユーザ操作受付部３１４には、言及年３１１または代表文３１２を修正するために、編集画面４００を表示させるための「編集」と、表示領域３１０に表示されている言及年３１１及び代表文３１２の承認を受け付ける「公開」とが含まれている。従って、「公開」がユーザによって選択されると、言及年３１１、及び代表文３１２がユーザによって承認されて、確定する。「編集」がユーザによって選択されると、以下に説明する編集画面４００へ遷移する。
【００８６】
図２２は、編集画面４００の一例を示す図である。
【００８７】
同図に示すように、編集画面４００は、年表データの表示領域４１０及びオリジナルデータファイル１１０（またはテキストファイル１５０）の表示領域４２０を有する。
【００８８】
年表データの表示領域４１０には、承認画面３００で「編集」が選択されたオリジナルデータファイル１１０に関する年表データ２３０が表示される。すなわち、年表データの表示領域４１０には、言及年４１１、代表文４１２及びステータス４１３がそれぞれ表示されている。表示領域４２０には、年表データ２３０のオリジナルデータファイル名２３４に基づいて、オリジナルデータファイル１１０が表示される。
【００８９】
編集画面４００は、年表データの表示領域４１０に表示されている言及年４１１、代表文４１２またはステータス４１３の修正を受け付ける。この修正を行う際、ユーザは、表示領域４２０に表示されているオリジナルデータファイル１１０を参照することができる。
【００９０】
編集画面４００は、さらに、修正後の言及年または代表文で確定させる更新ボタン４３０を有する。ユーザが更新ボタン４３０を選択する操作を行うと、表示領域４１０に表示されている内容に従って、年表データ２３０が更新される。
【００９１】
この編集画面４００を用いることにより、自動的に抽出されたオリジナルデータファイルの言及年を、オペレータがオリジナルデータファイルの内容を参照して、簡単な操作で修正することができる。
【００９２】
図２３は、年表画面５００の一例を示す図である。
【００９３】
年表画面５００は、年表画面５００は、言及年５１０別に各オリジナルデータファイル１１０の代表文５２０が表示されている。つまり、年表画面５００は、オリジナルデータファイル１１０について、上述した承認画面３００または編集画面４００において確定された言及年別に、承認画面３００または編集画面４００において確定された代表文５２０を表示させる画面である。
【００９４】
本実施形態によれば、自動的に年代を割り付けることができる。さらに、自動割り付けされた年代を、オペレータが容易に修正することができる。
【００９５】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【符号の説明】
【００９６】
１年表作成システム
３入力装置
４表示装置
１０システム本体
１１オリジナルデータ記憶部
１３ノイズ除去システム
１５解析対象データ記憶部
１７年表現抽出部
１９言及年特定部
２１代表文特定部
２３年表データ記憶部
２５画面処理部
１１０オリジナルデータファイル
１１１テキスト本文
１１２ヘッダ
１１３フッタ
１５０テキストファイル
２３０年表データ

【特許請求の範囲】
【請求項１】
年表作成システムであって、
テキストを含む複数のデータファイルを記憶する記憶手段と、
前記複数のデータファイル別に、各データファイル内のテキストを解析して、前記テキストから年を示す文字または数字の列を抽出する年表現抽出手段と、
前記複数のデータファイル別に、前記年表現抽出手段が抽出した文字または数字の列に基づいて、各データファイル内のテキストが言及している言及年を特定する言及年特定手段と、
前記複数のデータファイル別に、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定する代表文特定手段と、
前記複数のデータファイルについて、前記代表文特定手段で特定された代表文を表示させる年表画面を出力する出力手段と、を備える年表作成システム。
【請求項２】
前記代表文特定手段は、前記言及年特定手段によって特定された言及年の年表現を含む文を代表文とする請求項１記載の年表作成システム。
【請求項３】
前記複数のデータファイル別に、前記言及年特定手段で特定された言及年及び前記代表文特定手段で特定された代表文を承認して確定させるか、または修正が必要であるかの入力を受け付ける承認画面を表示させる手段と、
前記承認画面で修正が必要とされたデータファイルの、前記特定された言及年、前記特定された代表文、及びテキストを表示させて、前記言及年または前記代表文の修正を受け付けて、修正後の言及年または代表文で確定させる入力を受け付ける編集画面を表示させる手段と、をさらに備え、
前記出力手段は、前記年表画面に、前記承認画面または前記編集画面において確定された言及年別に、前記承認画面または前記編集画面において確定された代表文を表示させる、請求項１または２記載の年表作成システム。
【請求項４】
前記代表文特定手段は、各データファイル内のテキストに含まれる各文中の固有名詞の数、普通名詞の数、及び動詞の数に基づいて、前記代表文を特定する、請求項１〜３に記載の年表作成システム。
【請求項５】
前記代表文特定手段は、各データファイル内のテキストに含まれる各文について、以下の式で算出した重要度の値が最も大きい文を代表文とする請求項４記載の年表作成システム。
【数４】

im_i :文iの重要度
ｄ_ij:文iにおける品詞j（固有名詞、普通名詞または動詞）の含有率
μ_j :一文中の品詞j（固有名詞、普通名詞または動詞）の含有率平均
【請求項６】
前記複数のデータファイルのそれぞれについて以下の（１）〜（６）のノイズ除去処理を行って、複数のテキストファイルを生成するノイズ除去手段をさらに備え、
前記年表現抽出手段、前記言及年特定手段、及び前記代表文特定手段は、前記テキストファイルについてそれぞれの処理を行う、請求項１〜５のいずれかに記載の年表作成システム。
（１）前記データファイルに含まれるテキスト中のいずれか二行をマッチングして、前記二行のいずれにも含まれる文字列を抽出する処理を、前記テキストのすべての行に対するすべての二行の組み合わせについて行って、一以上の文字列パターンを抽出する。
（２）前記データファイルにおける前記抽出された一以上のパターンのそれぞれの出現頻度を算出する。
（３）各文字列パターンの長さに前記算出された出現頻度を乗ずることにより、ノイズスコアを算出する。
（４）前記算出された各文字列パターンのノイズスコアに基づいて、各文字列パターンの偏差値を算出する。
（５）前記算出された偏差値が予め設定された値以上である文字列パターンを含む行は、ノイズ行であると判定する。
（６）前記ノイズ行を前記データファイルから削除して、テキストファイルを生成する。
【請求項７】
前記複数のデータファイルのそれぞれについて以下の（１）〜（３）のノイズ除去処理を行って、複数のテキストファイルを生成するノイズ除去手段をさらに備え、
前記年表現抽出手段、前記言及年特定手段、及び前記代表文特定手段は、前記テキストファイルについてそれぞれの処理を行う、請求項１〜５のいずれかに記載の年表作成システム。
（１）前記データファイルに含まれるテキスト中の各行について、英数字等の占める割合である英数字等濃度を算出する。
（２）前記算出された英数字等濃度が予め設定された閾値以上である行は、ノイズ行であると判定する。
（３）前記ノイズ行を前記データファイルから削除して、テキストファイルを生成する。
【請求項８】
コンピュータが行う年表作成のための処理であって、
テキストを含む複数のデータファイル別に、各データファイル内のテキストを解析して、前記テキストから年を示す文字または数字の列を抽出するステップと、
前記複数のデータファイル別に、前記抽出された文字または数字の列に基づいて、各データファイル内のテキストが言及している言及年を特定するステップと、
前記複数のデータファイル別に、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定するステップと、
前記複数のデータファイルについて、前記特定された代表文を表示させる年表画面を出力するステップと、を行う方法。
【請求項９】
年表作成処理のためのコンピュータプログラムであって、
コンピュータに、
テキストを含む複数のデータファイル別に、各データファイル内のテキストを解析して、前記テキストから年を示す文字または数字の列を抽出するステップと、
前記複数のデータファイル別に、前記抽出された文字または数字の列に基づいて、各データファイル内のテキストが言及している言及年を特定するステップと、
前記複数のデータファイル別に、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定するステップと、
前記複数のデータファイルについて、前記特定された代表文を表示させる年表画面を出力するステップと、を実行させるためのコンピュータプログラム。

【図１】