説明

年表自動作成システム、方法及びそのプログラム

【課題】テキストを含む複数のデータファイルをそれぞれのテキストの内容に応じて年別に振り分ける作業を支援する。
【解決手段】年表作成システム1は、データファイル内のテキストから年表現を抽出する年表現抽出部17と、年表現に基づいて、各データファイル内のテキストが言及している言及年を特定する言及年特定部19と、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定する代表文特定部21と、画面処理部25とを備える。画面処理部25は、複数のデータファイル別の言及年及び代表文を承認して確定させるか否かを受け付ける承認画面と、承認画面で修正が必要とされたデータファイルの言及年、代表文、及びテキストの修正を受け付けて、修正後の言及年または代表文で確定させる編集画面と、確定された言及年別に、確定された代表文を表示させる年表画面とを出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のテキストを、各テキストが言及している年に従って時系列の年表形式に並べるための技術に関する。
【背景技術】
【0002】
年表を表示するための種々のシステムが提案されている。例えば、特許文献1には、予め生成されている年表データに基づいて、年表作成者または利用者の意図に沿った表示を可能とする年表提供装置が記載されている。特許文献2には、一般社会の事件と自分史とを対比させる年表表示システムが記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−176588号公報
【特許文献2】特開2005−222356号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、例えば、複数のテキストを含むファイルを集めて年表を生成するとき、各テキストの内容と対応する年を特定しなければならない。この作業は、オペレータが、テキストを読んで振り分けなければならないので、ファイル数が増大するにつれて、作業量は膨大なものとなる。特許文献1,2では、年表を表示するためのデータは、予め年別に構成されている。
【0005】
そこで、本発明の目的は、テキストを含む複数のデータファイルをそれぞれのテキストの内容に応じて年別に振り分ける作業を支援するための年表作成技術を提供する。
【課題を解決するための手段】
【0006】
本発明の一つの実施態様に従う年表作成システムは、テキストを含む複数のデータファイルを記憶する記憶手段と、前記複数のデータファイル別に、各データファイル内のテキストを解析して、前記テキストから年を示す文字または数字の列を抽出する年表現抽出手段と、前記複数のデータファイル別に、前記年表現抽出手段が抽出した文字または数字の列に基づいて、各データファイル内のテキストが言及している言及年を特定する言及年特定手段と、前記複数のデータファイル別に、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定する代表文特定手段と、前記複数のデータファイルについて、前記代表文特定手段で特定された代表文を表示させる年表画面を出力する出力手段と、を備える。
【0007】
好適な実施形態では、前記代表文特定手段は、前記言及年特定手段によって特定された言及年の年表現を含む文を代表文としてもよい。
【0008】
好適な実施形態では、前記複数のデータファイル別に、前記言及年特定手段で特定された言及年及び前記代表文特定手段で特定された代表文を承認して確定させるか、または修正が必要であるかの入力を受け付ける承認画面を表示させる手段と、前記承認画面で修正が必要とされたデータファイルの、前記特定された言及年、前記特定された代表文、及びテキストを表示させて、前記言及年または前記代表文の修正を受け付けて、修正後の言及年または代表文で確定させる入力を受け付ける編集画面を表示させる手段と、をさらに備え、前記出力手段は、前記年表画面に、前記承認画面または前記編集画面において確定された言及年別に、前記承認画面または前記編集画面において確定された代表文を表示させるようにしてもよい。
【0009】
好適な実施形態では、前記代表文特定手段は、各データファイル内のテキストに含まれる各文中の固有名詞の数、普通名詞の数、及び動詞の数に基づいて、前記代表文を特定してもよい。
【0010】
好適な実施形態では、前記代表文特定手段は、各データファイル内のテキストに含まれる各文について、以下の式で算出した重要度の値が最も大きい文を代表文としてもよい。

【数1】

imi :文iの重要度
ij:文iにおける品詞j(固有名詞、普通名詞または動詞)の含有率
μj :一文中の品詞j(固有名詞、普通名詞または動詞)の含有率平均
【0011】
好適な実施形態では、前記複数のデータファイルのそれぞれについて以下の(1)〜(6)のノイズ除去処理を行って、複数のテキストファイルを生成するノイズ除去手段をさらに備え、前記年表現抽出手段、前記言及年特定手段、及び前記代表文特定手段は、前記テキストファイルについてそれぞれの処理を行ってもよい。
(1)前記データファイルに含まれるテキスト中のいずれか二行をマッチングして、前記二行のいずれにも含まれる文字列を抽出する処理を、前記テキストのすべての行に対するすべての二行の組み合わせについて行って、一以上の文字列パターンを抽出する。
(2)前記データファイルにおける前記抽出された一以上のパターンのそれぞれの出現頻度を算出する。
(3)各文字列パターンの長さに前記算出された出現頻度を乗ずることにより、ノイズスコアを算出する。
(4)前記算出された各文字列パターンのノイズスコアに基づいて、各文字列パターンの偏差値を算出する。
(5)前記算出された偏差値が予め設定された値以上である文字列パターンを含む行は、ノイズ行であると判定する。
(6)前記ノイズ行を前記データファイルから削除して、テキストファイルを生成する。
【0012】
好適な実施形態では、前記複数のデータファイルのそれぞれについて以下の(1)〜(3)のノイズ除去処理を行って、複数のテキストファイルを生成するノイズ除去手段をさらに備え、前記年表現抽出手段、前記言及年特定手段、及び前記代表文特定手段は、前記テキストファイルについてそれぞれの処理を行ってもよい。
(1)前記データファイルに含まれるテキスト中の各行について、英数字等の占める割合である英数字等濃度を算出する。
(2)前記算出された英数字等濃度が予め設定された閾値以上である行は、ノイズ行であると判定する。
(3)前記ノイズ行を前記データファイルから削除して、テキストファイルを生成する。
【図面の簡単な説明】
【0013】
【図1】本発明の一実施形態に係る年表作成システム1の構成図である。
【図2】オリジナルデータファイル110の一例を示す。
【図3】ノイズ除去システム13の機能構成を示すブロック図である。
【図4】定型文字列をノイズとして除去する様子を示す説明図である。
【図5】定型文字列ノイズ除去の手順を示すフローチャートである。
【図6】英数字等を多く含む行をノイズ行として除去する様子を示す説明図である。
【図7】英数字等ノイズ除去の手順を示すフローチャートである。
【図8】正解データの具体例を示す説明図である。
【図9】テスト文書データに対する英数字等ノイズ除去の手順を示すフローチャートである。
【図10】閾値決定処理の手順を示すフローチャートである。
【図11】F値算出の前提概念を示す説明図である。
【図12】仮閾値・F値対応表の具体例を示す図である。
【図13】仮閾値とF値との関係を示すグラフである。
【図14】文書データのノイズ除去システムの変形例を示すブロック図である。
【図15】文書データのノイズ除去システムの変形例を示すブロック図である。
【図16】文書データのノイズ除去システムの変形例を示すブロック図である。
【図17】テキストファイル150の一例を示す。
【図18】本実施形態における年表現の出現回数を示す。
【図19】代表文抽出処理の説明図である。
【図20】年表データ230のデータ構造の一例を示す図である。
【図21】承認画面300の一例を示す図である。
【図22】編集画面400の一例を示す図である。
【図23】年表画面500の一例を示す図である。
【発明を実施するための形態】
【0014】
以下、本発明の一実施形態に係る年表作成システムについて、図面を参照して説明する。
【0015】
図1は、本実施形態に係る年表作成システム1の構成図である。年表作成システム1は、同図に示すように、システム本体10と、入力装置3及び表示装置4を有する。
【0016】
システム本体10は、例えば汎用的なコンピュータシステムにより構成され、以下に説明する10内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。このコンピュータプログラムは、コンピュータ読み取り可能な記録媒体に格納可能である。
【0017】
システム本体10は、オリジナルデータを記憶するオリジナルデータ記憶部11と、オリジナルデータのノイズ除去を行うノイズ除去システム13と、解析対象データ記憶部15と、年表現抽出部17と、言及年特定部19と、代表文特定部21と、年表データ記憶部23と、画面処理部25とを備える。
【0018】
オリジナルデータ記憶部11は、複数のオリジナルデータファイルを記憶する。各オリジナルデータファイルには、少なくともテキストデータが含まれている。図2にオリジナルデータファイル110の内容の一例を示す。同図の例では、オリジナルデータファイル110には、テキスト本文111に加えて、ヘッダ112、及びフッタ113が含まれている。オリジナルデータファイル110は、例えば、テキスト形式のファイルでよい。このテキスト形式のファイルは、例えば、PDF、HTML、DOC等の様々な形式のファイルを、単純にテキスト形式に自動変換しただけのファイルでよい。
【0019】
ノイズ除去システム13は、オリジナルデータファイル110に対する前処理として、ノイズ除去処理を行う。例えば、詳細については後述するとおり、年表現抽出部17,言及年特定部19及び代表文特定部21では、テキスト本文に対するテキスト解析処理を行うため、その前処理の一つとして、ノイズ除去システム13は、オリジナルデータファイル110に含まれるテキスト本文111以外の要素をノイズとして除去する。例えば、図2に例示するオリジナルデータファイル110であれば、ノイズ除去システム13は、ヘッダ112、及びフッタ113をノイズとして除去する。ノイズ除去システム13は、ノイズ除去後に残ったテキスト本文111を含むテキストファイル150(図17参照)を生成する。
【0020】
ノイズ除去システム13が行うノイズ除去処理について、詳細に説明する。
【0021】
図3に示すように、このノイズ除去システム13は、定型文字列ノイズ除去部44と、中間データ記憶部46と、英数字等ノイズ除去部48と、テスト文書DB50と、テスト用英数字等ノイズ除去部51と、ノイズ除去後テスト文書DB52と、正解データ記憶部54と、F値計算部55と、仮閾値・F値対応表記憶部56と、閾値設定部57とを備えている。
【0022】
上記の定型文字列ノイズ除去部44、英数字等ノイズ除去部48、テスト用英数字等ノイズ除去部51、F値計算部55及び閾値設定部57は、コンピュータのCPUが、OS及び専用のアプリケーションプログラムに従い、必要な処理を実行することによって実現される。
【0023】
図4(a)は、ノイズ除去処理の説明に用いるオリジナルデータファイル110の一例を示すものであり、各オリジナルデータファイル110のヘッダ部分には、「知的資産創造/****年**月号」という定型文字列が共通的に記載されており、フッタ部分には「当レポートに掲載されている…」及び「Copyright 2007 Nomura…」の定型文字列が共通的に記載されている。
【0024】
以下、図5のフローチャートに従い、このような定型文字列除去の手順を説明する。
【0025】
まず、定型文字列ノイズ除去部44は、オリジナルデータ記憶部11から各オリジナルデータファイル110を読み込む(S60)。
【0026】
つぎに定型文字列ノイズ除去部44は、図4(b)に示すように、各オリジナルデータファイル中の数字を所定の共通シンボル(例えば“D”)に置き換えた正規表現データを生成する(S61)。数字の部分は、シリアル番号や年月日など、形式的には異なった文字列であっても、概念的には共通のものとして捉えられる場合が多いため、それぞれの個性を捨象して正規表現化し、共通の文字列に置換される。例えば、「2007年1月号→D年D月号」、「Web2.0→WebD.D」、「Copyright 2007 Nomura→Copyright D Nomura」のように変換される。なお、「2007」のような連続数字は、「DDDD」のように各数字が共通シンボルに置換されるのではなく、まとめて一文字の「D」に置換される。
【0027】
つぎに定型文字列ノイズ除去部44は、各オリジナルデータファイル中のいずれか二つの行をマッチングして、その二行のいずれにも含まれる文字列を抽出する。定型文字列ノイズ除去部44は、このマッチングをオリジナルデータファイル中の全行のすべての組み合わせについて行い、抽出された文字列パターンの頻度(出現回数)を集計する(S62)。図4(c)はその一例を示すものであり、「Copyright D Nomura…」及び「当レポートに掲載されている…」の頻度がそれぞれ200であり、「知的資産創造/D年D月号」の頻度が80、「エンジン」及び「課税所得」の頻度がそれぞれ2であることが記載されている。
【0028】
つぎに定型文字列ノイズ除去部44は、各文字列毎にノイズスコアを算出する(S63)。ここでノイズスコアとは、各文字列のパターン長×頻度によって求められる値であり、図4(c)の例では、「Copyright D Nomura…」のノイズスコアが1,500、「当レポートに掲載されている…」のノイズスコアが1,000、「知的資産創造/D年D月号」のノイズスコアが800、「エンジン」及び「課税所得」のノイズスコアがそれぞれ16であることが記載されている。
【0029】
つぎに定型文字列ノイズ除去部44は、各文字列のノイズスコアの偏差値を算出する(S64)。図4(c)の例では、「Copyright D Nomura」のノイズスコア偏差値が66.2、「当レポートに掲載されている…」のノイズスコア偏差値が57.63、「知的資産創造/D年D月号」のノイズスコア偏差値が54.20、「エンジン」及び「課税所得」のノイズスコア偏差値がそれぞれ40.66であることが記載されている。
【0030】
つぎに定型文字列ノイズ除去部44は、各文字列のノイズスコアの偏差値に基づいて、除去すべき定型文字列を決定する(S65)。ここでは、ノイズスコア偏差値が50以上の文字列を、除去すべき定型文字列として決定するが、この閾値となる偏差値は50に限定されるものではない。
【0031】
つぎに定型文字列ノイズ除去部44は、ノイズスコアの偏差値が50以上の除去対象となる定型文字列を、正規表現ファイル110Dから削除するのではなく、各オリジナルデータファイル110からを削除して、中間データファイル460を生成する(S66)。このとき、中間データ記憶部46にノイズ除去後の中間データファイル460を格納する(S67)。
【0032】
図4(d)は、定型文字列ノイズ除去後の中間データファイル460の具体例を示すものであり、オリジナルデータファイル110から不要なヘッダとフッタが除去され、重要なテキスト本文が残されている。
【0033】
このように、オリジナルデータファイルからヘッダやフッタのような定型文字列ノイズを除去するだけでも、後続のキーワード抽出処理を相当に効率化することができるが、このシステム13はさらに、オリジナルデータファイル中における「非定型ではあっても関連度の算出には無益な文字列」をもノイズとして除去する機能を備えている。
【0034】
例えば、図6(a)に示すようなオリジナルデータファイル110の場合、文中には統計データ(数値)60が含まれている。この統計データ60は、定型文字列ではないが後段のテキスト解析処理には不要な情報といえる。また、上記の検索処理は日本語を前提としているため、文書中に英文字やギリシャ文字、キリル文字等の外国文字、あるいは一部の記号が含まれていた場合も、事前に削除しておくことが望ましい。
【0035】
以下、図7のフローチャートに従い、このような不要な英数字等の除去の手順を説明する。
【0036】
まず、英数字等ノイズ除去部48は、中間データ記憶部46から各中間データファイルを読み込む(S70)。
【0037】
つぎに英数字等ノイズ除去部48は、行単位で英数字等の濃度を算出する(S71)。英数字等の濃度とは、当該行の全文字数中に占める不要な英数字等の割合を意味する。不要な英数字等(記号を含む)の具体的範囲は、事前にプログラム内に設定されている。
【0038】
そして、この濃度が予め設定された閾値D以上である場合(S72/Y)、英数字等ノイズ除去部48は当該行を削除対象行と認定し、削除する(S73)。これに対し、濃度が閾値D未満である場合(S72/N)、英数字等ノイズ除去部48は当該行を非削除対象行であると認定し、そのまま維持する(S74)。
【0039】
英数字等ノイズ除去部48は上記のS71〜S74の処理を各文書の全ての行に対して実行した後(S75)、英数字過多の削除対象行(ノイズ行)を除去したテキストファイルを解析対象データ記憶部15に格納する(S76)。
【0040】
図6(b)は、英数字等ノイズ除去部48によるノイズ削除の結果を示すものであり、元の文書中に含まれていた統計データ60が削除され、テキスト本文のみが残されていることがわかる。
【0041】
ところで、この英数字等の除去処理を的確に行うためには、上記の閾値Dの設定が極めて重要となる。この値が不適切であると、重要な行が削除されてしまったり、不要な行が残されたりする結果となる。
【0042】
そこで、以下において閾値Dの設定方法について説明する。
【0043】
まず事前準備として、正解データ記憶部54に人間の判断に基づく正解データを蓄積しておく。この正解データは、図8に示すように、複数のテスト文書の各行について予め人間が内容を吟味し、○×等の記号で要不要(ノイズ行OR非ノイズ行)の判定結果を行毎に記録したものを指す。
【0044】
また、テスト用英数字等ノイズ除去部51は、正解データの作成に用いたのと同じ複数のテスト文書データに対し、所定の手順に従ってノイズ行を削除したノイズ除去済のテスト文書データを生成し、ノイズ除去後テスト文書DB52に格納しておく。以下、図9のフローチャートに従い、このテスト文書データに対するノイズ除去処理に係る手順を説明する。
【0045】
まずテスト用英数字等ノイズ除去部51は、仮閾値として0.00をセットした上で(S80)、図7のS70〜S75と実質的に同じ処理を実行する。すなわち、テスト文書DB50からテスト文書データを読み込み(S81)、各文書の行単位で英数字等の濃度を算出し(S82)、各行の濃度が仮閾値以上の場合には当該行をノイズ行と認定して削除し(S83、S84)、仮閾値未満の場合には非ノイズ行と認定して当該行を維持する(S85)。そして、一つのテスト文書データの全行について処理が終了すると(S86)、このノイズ除去済のテスト文書データをノイズ除去後テスト文書DB52に格納する(S87)。
【0046】
つぎにテスト用英数字等ノイズ除去部51は、現在の仮閾値(0.00)に0.01をプラスし(S89)、同テスト文書についてS82〜S87の処理を繰り返し、その結果をノイズ除去後テスト文書DB52に格納する。
【0047】
テスト用英数字等ノイズ除去部51は、上記の処理を仮閾値が1.00になるまで繰り返す(S88)。この結果、ノイズ除去後テスト文書DB52には、同一テスト文書データについて仮閾値=0.00〜1.00までの、101通りのノイズ除去後テスト文書データが蓄積されることとなる。
【0048】
対象となるテスト文書データが複数ある場合、テスト用英数字等ノイズ除去部51は上記の処理をテスト文書データの数だけ繰り返す。
【0049】
つぎにF値計算部55が起動し、正解データ記憶部54に格納された正解データとノイズ除去後テスト文書DB52に格納された各ノイズ除去後のテスト文書データに基づいて、最適な閾値Dを決定する。以下、図10のフローチャートに従い、この閾値決定処理について説明する。
【0050】
まず、F値計算部55は、正解データ記憶部54からテスト文書毎の正解データを読み込んだ後(S90)、正解データに含まれるノイズ行の数を算出する(S91)。
【0051】
つぎにF値計算部55は、ノイズ除去後テスト文書DB52から仮閾値毎(0.00〜1.00)のノイズ除去後テスト文書データを読み込む(S92)。
【0052】
つぎにF値計算部55は、正解データと各ノイズ除去後テスト文書データを比較し、仮閾値毎にノイズ判定行数を算出すると共に(S93)、ノイズ判定行の中で正解データのノイズ行と一致した行の数(正解数)を算出する(S94)。
【0053】
つぎにF値計算部55は、仮閾値毎に「F値」を算出し、閾値・F値対応表記憶部56に格納する(S95)。図11は、このF値算出の前提概念を示す図であり、人間が判定した正解データ中のノイズ行数を「Hum」とし、システム(テスト用英数字等ノイズ除去部51)が判定した仮閾値毎のノイズ行数を「Sys」、両者の交わった領域であるシステムの正解数を「Col 」とした場合、F値は以下の要領で算出される。
【0054】
F値=(2×適合率×再現率)÷(適合率+再現率)
ただし、適合率=Col÷Sys
再現率=Col÷Hum
【0055】
ここで「適合率」はシステムによるノイズ判定の正確性を表す指標であり、「再現率」は正解データのノイズ行に対しどれだけの行数をノイズと判定出来ているかを表す網羅性の指標である。また、F値は適合率と再現率の調和平均であり、F値が高いほど判定性能が良いことを意味している。
【0056】
図12は、閾値・F値対応表記憶部56に格納された対応表の一例を示すものであり、0.01刻みの仮閾値毎にF値が登録されている。
【0057】
つぎに閾値設定部57が各仮閾値のF値をソートし、最もF値が高い仮閾値を正式な閾値Dと認定した後(S96)、英数字等ノイズ除去部48にこの閾値Dをセットする(S97)。
【0058】
図13は、この閾値Dの決定の要領を示すグラフであり、縦軸にF値が設定され、横軸に仮閾値が設定されている。図示の通り、F値が最も高い仮閾値が、正式な閾値Dとして認定されている。
【0059】
因みに、仮閾値が0.00に近い場合には、英数字等がほとんど含まれていないような行であってもノイズとして除去されてしまうため、人間の判断に基づく正解データとの一致数が低下することとなる。反対に、仮閾値が1.00に近い場合には、ほとんどが英数字等で構成される行に多少の漢字や平仮名、片仮名(例えば年、月、日)が混じっただけで非ノイズとして維持されてしまうため、やはり人間の判断に基づく正解データとの一致数が低下することとなる。
【0060】
上記にあっては、正解データとノイズ除去後テスト文書データに基づいて仮閾値毎のF値を算出し、その高さによって閾値Dを決定する例を示したが、正解データに対する正答数または正答率を仮閾値毎に算出し、正答数の多寡あるいは正答率の高低によって閾値Dを決定することも当然に可能である。この場合、F値計算部55の代わりに閾値決定部を設け、この閾値決定部に仮閾値毎の正答数または正答率の算出処理、算出結果を仮閾値と正答数または正答率との対応表に記録する処理を実行させればよい。また、閾値設定部57はこの対応表を参照し、最も正答数の多い仮閾値、あるいは最も正答率の高い仮閾値を正式な閾値Dと認定し、英数字等ノイズ除去部48にセットする。
【0061】
上記にあっては、オリジナルデータ記憶部11内に蓄積されたオリジナルデータファイル110に対して、まず定型文字列ノイズ除去部44による定型文字列ノイズの除去処理を実行し、その後に英数字等ノイズ除去部48による英数字等ノイズの除去処理を実行する例を示したが、この発明はこれに限定されるものではない。
【0062】
例えば、図14に示すように、オリジナルデータファイル110に対して、まず英数字等ノイズ除去部48による英数字等ノイズの除去処理を実行し、英数字等ノイズ除去済の文書データを一旦中間データ記憶部46に格納した後、定型文字列ノイズ除去部44による定型文字列ノイズの除去処理を実行し、英数字等ノイズ及び定型文字列ノイズ除去済の文書データを解析対象データ記憶部15に格納するように、本システム13を構成することができる(図14においては、英数字等ノイズ除去に係る閾値の算出・設定に関する構成は省略してある)。
【0063】
また、定型文字列ノイズ除去システムあるいは英数字等ノイズ除去システムのように、それぞれ独立したシステムとして構成することも当然に可能である。
【0064】
図15は、オリジナルデータファイル110に対して、定型文字列ノイズ除去部44による定型文字列ノイズの除去処理を実行し、定型文字列ノイズ除去済の文書データを中間データ記憶部46に格納する例を示している。
【0065】
これに対し図16は、オリジナルデータファイル110に対して、英数字等ノイズ除去部48による英数字等ノイズの除去処理を実行し、英数字等ノイズ除去済の文書データを中間データ記憶部46に格納する例を示している(図16においては、英数字等ノイズ除去に係る閾値の算出・設定に関する構成は省略してある)。
【0066】
あらためて図1へ戻ると、解析対象データ記憶部15は、以下の処理で解析処理が適用される解析対象データを記憶する。解析対象データは、例えば、ノイズ除去システム13でノイズが除去されたテキスト本文からなるテキストファイル150(図17参照)と、そのオリジナルデータファイル110とを含む。
【0067】
年表現抽出部17は、オリジナルデータファイル110別に、オリジナルデータファイル110内のテキスト(テキスト本文111)を解析して、そのテキストから年を示す文字または数字の列(年表現)を抽出する。本実施形態では、テキストファイル150がテキスト本文111を抽出してものであるから、年表現抽出部17は、テキストファイル150から年を表す表現(年表現)を抽出する。
【0068】
例えば、年表現抽出部17は、正規表現(¥D{4}年)を用いて、テキストファイル150内のテキストから4桁の数字列を年表現として抽出する。あるいは、年表現抽出部17は、元号と一桁または二桁の数字を年表現として抽出しても良い。さらには、年を一意に特定できる表現(例えば、「終戦の年」など)を年表現として抽出しても良い。
【0069】
言及年特定部19は、オリジナルデータファイル110別に、年表現抽出部17が抽出した文字または数字の列(年表現)に基づいて、各オリジナルデータファイル110内のテキストが言及している言及年を特定する。
【0070】
例えば、言及年特定部19は、図18に示すように、年表現抽出部17で抽出された年表現の出現回数をカウントする。そして、言及年特定部19は、同図のカウント結果に基づいて、最も出現回数の多い年表現の年を、このテキストが主題としている言及年と特定する。
【0071】
代表文特定部21は、オリジナルデータファイル110別に、オリジナルデータファイル110内のテキスト(テキスト本文111)からそれぞれのテキストを代表する代表文を特定する。本実施形態では、代表文特定部21は、例えば、テキストファイル150内のテキストに含まれる各文中の固有名詞の数、普通名詞の数、及び動詞の数に基づいて代表文を特定する。代表文特定部21は、テキスト本文111の全体の中から代表文を特定しても良いし、言及年特定部19で特定された言及年の年表現を含む文の中から代表文を特定するようにしてもよい。
【0072】
代表文特定部21は、例えば、所定の辞書を用いて、それぞれの文を単語(形態素)に分解し、各単語の品詞を特定する。そして、代表文特定部21は、各文における各品詞の含有率を計算する。各品詞の含有率は、一つの文を構成する単語の総数に対する各品詞の単語数である。例えば、50単語から構成されている一文中に、普通名詞が5つ含まれていれば、その文における普通名詞の含有率は0.1(10%)である。
【0073】
代表文特定部21は、上記の含有率に基づいて、以下の式を用いて各文の重要度を算出する。
【数2】

im:文の重要度
di,j:文における品詞jの含有率
μ: 一文における品詞jの含有率平均
【0074】
ここで、μは学習データから推定したものであっても良い。また、文の重要度imの算出には一部の品詞のみを用いて行う。例えば、固有名詞、普通名詞(固有名詞以外の名詞)及び動詞のみを用いて、文の重要度imを算出してもよい。以下、文の重要度im算出の具体例を示す。
【0075】
固有名詞、普通名詞及び動詞のそれぞれの含有率平均が以下の通りであるとする。
【0076】
μ固有名詞=0.01
μ名詞=0.3
μ動詞=0.02
また、ある文S1における固有名詞、普通名詞及び動詞のそれぞれの含有率が、それぞれ以下の通りであるとする。
【0077】
文S1の固有名詞含有率:dS1,固有名詞=0.02
文S1の名詞含有率:dS1,名詞=0.42
文S1の動詞含有率:dS1,動詞=0.1
このとき、文S1の重要度imS1は、以下のようにして、0.8と算出される。
【数3】

あるテキストファイル150において、上記のようにして算出された各文の重要度が、例えば、図19に示すようになった場合、代表文特定部21は、最も重要度imが大きい一文を代表文として特定する。あるいは、代表文特定部21は、重要度imが上位の複数の文を代表文としても良い。
【0078】
年表データ記憶部23は、年表データ230を記憶する。
【0079】
図20は、年表データ230のデータ構造の一例を示す図である。同図に示すように、年表データ230は、オリジナルデータファイル110別に、言及年特定部19で特定された言及年231と、代表文特定部21で特定された代表文232とが対応付けて記憶されている。さらに、年表データ230は、言及年231及び代表文232がユーザによる承認を得ているか否かを示すステータス233と、オリジナルデータファイル名234とをデータ項目として有する。
【0080】
画面処理部25は、年表データ記憶部23に格納されている年表データ230に基づいて、承認画面、編集画面、及び年表画面などの画面を表示装置4に表示させる。
【0081】
図21は、承認画面300の一例を示す図である。
【0082】
承認画面300は、オリジナルデータファイル110別に、言及年特定部19で特定された言及年及び代表文特定部21で特定された代表文を承認して確定させるか、または修正が必要であるかの入力を受け付ける画面である。
【0083】
同図に示すように、承認画面300には、オリジナルデータファイル110別の表示領域310に、言及年311、代表文312、及び年表データのステータス313が表示されている。さらに、表示領域310には、ユーザ操作受付部314が設けられている。なお、図21において、言及年311、代表文312、ステータス313及びユーザ操作受付部314の符号は、それぞれ一カ所のみ示す。
【0084】
ここで、同図のステータス313は、年表データ230の言及年311及び代表文312がユーザから承認を受けていない未承認の状態を示す「非公開」となっている。
【0085】
ユーザ操作受付部314には、言及年311または代表文312を修正するために、編集画面400を表示させるための「編集」と、表示領域310に表示されている言及年311及び代表文312の承認を受け付ける「公開」とが含まれている。従って、「公開」がユーザによって選択されると、言及年311、及び代表文312がユーザによって承認されて、確定する。「編集」がユーザによって選択されると、以下に説明する編集画面400へ遷移する。
【0086】
図22は、編集画面400の一例を示す図である。
【0087】
同図に示すように、編集画面400は、年表データの表示領域410及びオリジナルデータファイル110(またはテキストファイル150)の表示領域420を有する。
【0088】
年表データの表示領域410には、承認画面300で「編集」が選択されたオリジナルデータファイル110に関する年表データ230が表示される。すなわち、年表データの表示領域410には、言及年411、代表文412及びステータス413がそれぞれ表示されている。表示領域420には、年表データ230のオリジナルデータファイル名234に基づいて、オリジナルデータファイル110が表示される。
【0089】
編集画面400は、年表データの表示領域410に表示されている言及年411、代表文412またはステータス413の修正を受け付ける。この修正を行う際、ユーザは、表示領域420に表示されているオリジナルデータファイル110を参照することができる。
【0090】
編集画面400は、さらに、修正後の言及年または代表文で確定させる更新ボタン430を有する。ユーザが更新ボタン430を選択する操作を行うと、表示領域410に表示されている内容に従って、年表データ230が更新される。
【0091】
この編集画面400を用いることにより、自動的に抽出されたオリジナルデータファイルの言及年を、オペレータがオリジナルデータファイルの内容を参照して、簡単な操作で修正することができる。
【0092】
図23は、年表画面500の一例を示す図である。
【0093】
年表画面500は、年表画面500は、言及年510別に各オリジナルデータファイル110の代表文520が表示されている。つまり、年表画面500は、オリジナルデータファイル110について、上述した承認画面300または編集画面400において確定された言及年別に、承認画面300または編集画面400において確定された代表文520を表示させる画面である。
【0094】
本実施形態によれば、自動的に年代を割り付けることができる。さらに、自動割り付けされた年代を、オペレータが容易に修正することができる。
【0095】
上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。
【符号の説明】
【0096】
1 年表作成システム
3 入力装置
4 表示装置
10 システム本体
11 オリジナルデータ記憶部
13 ノイズ除去システム
15 解析対象データ記憶部
17 年表現抽出部
19 言及年特定部
21 代表文特定部
23 年表データ記憶部
25 画面処理部
110 オリジナルデータファイル
111 テキスト本文
112 ヘッダ
113 フッタ
150 テキストファイル
230 年表データ

【特許請求の範囲】
【請求項1】
年表作成システムであって、
テキストを含む複数のデータファイルを記憶する記憶手段と、
前記複数のデータファイル別に、各データファイル内のテキストを解析して、前記テキストから年を示す文字または数字の列を抽出する年表現抽出手段と、
前記複数のデータファイル別に、前記年表現抽出手段が抽出した文字または数字の列に基づいて、各データファイル内のテキストが言及している言及年を特定する言及年特定手段と、
前記複数のデータファイル別に、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定する代表文特定手段と、
前記複数のデータファイルについて、前記代表文特定手段で特定された代表文を表示させる年表画面を出力する出力手段と、を備える年表作成システム。
【請求項2】
前記代表文特定手段は、前記言及年特定手段によって特定された言及年の年表現を含む文を代表文とする請求項1記載の年表作成システム。
【請求項3】
前記複数のデータファイル別に、前記言及年特定手段で特定された言及年及び前記代表文特定手段で特定された代表文を承認して確定させるか、または修正が必要であるかの入力を受け付ける承認画面を表示させる手段と、
前記承認画面で修正が必要とされたデータファイルの、前記特定された言及年、前記特定された代表文、及びテキストを表示させて、前記言及年または前記代表文の修正を受け付けて、修正後の言及年または代表文で確定させる入力を受け付ける編集画面を表示させる手段と、をさらに備え、
前記出力手段は、前記年表画面に、前記承認画面または前記編集画面において確定された言及年別に、前記承認画面または前記編集画面において確定された代表文を表示させる、請求項1または2記載の年表作成システム。
【請求項4】
前記代表文特定手段は、各データファイル内のテキストに含まれる各文中の固有名詞の数、普通名詞の数、及び動詞の数に基づいて、前記代表文を特定する、請求項1〜3に記載の年表作成システム。
【請求項5】
前記代表文特定手段は、各データファイル内のテキストに含まれる各文について、以下の式で算出した重要度の値が最も大きい文を代表文とする請求項4記載の年表作成システム。
【数4】

imi :文iの重要度
ij:文iにおける品詞j(固有名詞、普通名詞または動詞)の含有率
μj :一文中の品詞j(固有名詞、普通名詞または動詞)の含有率平均
【請求項6】
前記複数のデータファイルのそれぞれについて以下の(1)〜(6)のノイズ除去処理を行って、複数のテキストファイルを生成するノイズ除去手段をさらに備え、
前記年表現抽出手段、前記言及年特定手段、及び前記代表文特定手段は、前記テキストファイルについてそれぞれの処理を行う、請求項1〜5のいずれかに記載の年表作成システム。
(1)前記データファイルに含まれるテキスト中のいずれか二行をマッチングして、前記二行のいずれにも含まれる文字列を抽出する処理を、前記テキストのすべての行に対するすべての二行の組み合わせについて行って、一以上の文字列パターンを抽出する。
(2)前記データファイルにおける前記抽出された一以上のパターンのそれぞれの出現頻度を算出する。
(3)各文字列パターンの長さに前記算出された出現頻度を乗ずることにより、ノイズスコアを算出する。
(4)前記算出された各文字列パターンのノイズスコアに基づいて、各文字列パターンの偏差値を算出する。
(5)前記算出された偏差値が予め設定された値以上である文字列パターンを含む行は、ノイズ行であると判定する。
(6)前記ノイズ行を前記データファイルから削除して、テキストファイルを生成する。
【請求項7】
前記複数のデータファイルのそれぞれについて以下の(1)〜(3)のノイズ除去処理を行って、複数のテキストファイルを生成するノイズ除去手段をさらに備え、
前記年表現抽出手段、前記言及年特定手段、及び前記代表文特定手段は、前記テキストファイルについてそれぞれの処理を行う、請求項1〜5のいずれかに記載の年表作成システム。
(1)前記データファイルに含まれるテキスト中の各行について、英数字等の占める割合である英数字等濃度を算出する。
(2)前記算出された英数字等濃度が予め設定された閾値以上である行は、ノイズ行であると判定する。
(3)前記ノイズ行を前記データファイルから削除して、テキストファイルを生成する。
【請求項8】
コンピュータが行う年表作成のための処理であって、
テキストを含む複数のデータファイル別に、各データファイル内のテキストを解析して、前記テキストから年を示す文字または数字の列を抽出するステップと、
前記複数のデータファイル別に、前記抽出された文字または数字の列に基づいて、各データファイル内のテキストが言及している言及年を特定するステップと、
前記複数のデータファイル別に、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定するステップと、
前記複数のデータファイルについて、前記特定された代表文を表示させる年表画面を出力するステップと、を行う方法。
【請求項9】
年表作成処理のためのコンピュータプログラムであって、
コンピュータに、
テキストを含む複数のデータファイル別に、各データファイル内のテキストを解析して、前記テキストから年を示す文字または数字の列を抽出するステップと、
前記複数のデータファイル別に、前記抽出された文字または数字の列に基づいて、各データファイル内のテキストが言及している言及年を特定するステップと、
前記複数のデータファイル別に、各データファイル内のテキストからそれぞれのテキストを代表する代表文を特定するステップと、
前記複数のデータファイルについて、前記特定された代表文を表示させる年表画面を出力するステップと、を実行させるためのコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate


【公開番号】特開2010−237871(P2010−237871A)
【公開日】平成22年10月21日(2010.10.21)
【国際特許分類】
【出願番号】特願2009−83653(P2009−83653)
【出願日】平成21年3月30日(2009.3.30)
【出願人】(000155469)株式会社野村総合研究所 (1,067)
【Fターム(参考)】