説明

文末句読点の欠落検出装置及び欠落検出プログラム

【課題】 文書中の各構成文の文末句読点が欠落している構成文を自動的に検出する。
【解決手段】 欠落検出装置13は、対象文書に存在する文末句読点を境に隣り合う二文を一文とした構成文からなる対比用文書を作成する対比用文書作成手段17と、対象文書及び対比用文書それぞれの構成文について、当該各構成文中の単語数や単語種類に着目して求められる複数の特徴量をベクトル要素とした特徴ベクトルを作成するベクトル作成手段20と、ベクトル作成手段20で作成された各特徴ベクトルに基づき、対比用文書の特徴ベクトルに近似する対象文書の特徴ベクトルを検出し、当該検出された特徴ベクトルの構成文を文末句読点が欠落している構成文と特定する欠落特定手段22とを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文末句読点の欠落検出装置及び欠落検出プログラムに係り、更に詳しくは、文書中の構成文からピリオド等の文末句読点が一部抜けている場合に、当該文末句読点が抜けている構成文を自動的に検出することのできる文末句読点の欠落検出装置及び欠落検出プログラムに関する。
【背景技術】
【0002】
従来、英文の綴りや文法等の誤りを検出する文書作成支援装置が知られている(特許文献1参照)。この支援装置は、学習者が英語で作成した文書中に複数存在する構成文を一文単位に分割する文切り出し部を備え、当該文切り出し部で分割された各構成文を用いて前記誤りを検出するようになっている。ここで、前記文切り出し部は、学習者が入力した文書中に存在するピリオド、カンマ、疑問符、感嘆符等の文末句読点の存在を検知することで、文書を一文単位に分割する。
【0003】
また、入力された文書を部分的に分割しながら翻訳する機械翻訳装置が知られている(特許文献2参照)。この機械翻訳装置は、入力された原文書に対して、当該原文書の各構成文を一文毎に切り出す一文切り出し部を備え、一文切り出し部で切り出された各構成文が長い場合に、予め記憶された分割規則に従って構成文の所定部分で分割した上で、各分割部分の翻訳処理を行うようになっている。ここでの一文切り出し部も、文書中に存在するピリオド、カンマ、疑問符、感嘆符等の文末句読点の存在に基づき、文書を一文単位に分割する。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平8−30598号公報
【特許文献2】特開平8−235180号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、前記支援装置及び前記機械翻訳装置にあっては、文末句読点が正確に付された文書に対する処理を前提としており、文末句読点が一部誤って欠落した文書を入力した場合に、正確な処理が行えなくなる虞がある。すなわち、前記特許文献1の支援装置では、文末句読点が一部欠落した文書を入力すると、当該文末句読点が欠落した構成文は、一文単位に分割することができない。このため、以降に続く誤り検出処理が適切に動作しなくなる。また、前記特許文献2の機械翻訳装置では、文末句読点が一部欠落した文書を入力すると、同様の理由で翻訳を正確に行えなくなる虞がある。従って、これら支援装置及び機械翻訳装置に入力された文書に対し、文末句読点が一部欠落している場合には、当該文末句読点が欠落した構成文を検出することが必要である。
【0006】
本発明は、このような課題に着目して案出されたものであり、その目的は、文書中の各構成文それぞれの最後に付すべき文末句読点が誤って一部欠落した場合に、当該文末句読点が欠落している構成文を自動的に検出することができる文末句読点の欠落検出装置及び欠落検出プログラムを提供することにある。
【課題を解決するための手段】
【0007】
前記目的を達成するため、本発明は、文末句読点が一部欠落している複数の構成文からなる対象文書に対し、前記文末句読点が欠落している構成文を検出する欠落検出装置であって、
前記対象文書に存在する文末句読点を境に隣り合う二文を一文とした構成文からなる対比用文書を作成する対比用文書作成手段と、前記対象文書及び前記対比用文書それぞれの構成文について、当該各構成文中の単語数や単語種類に着目して求められる複数の特徴量をベクトル要素とした特徴ベクトルを作成するベクトル作成手段と、当該ベクトル作成手段で作成された各特徴ベクトルに基づき、前記対比用文書の特徴ベクトルに近似する前記対象文書の特徴ベクトルを検出し、当該検出された特徴ベクトルの構成文を前記文末句読点が欠落している構成文と特定する欠落特定手段とを備える、という構成を採っている。
【0008】
また、品詞や活用形が単語毎に記憶された辞書データベースを備え、
前記ベクトル作成手段は、前記対象文書及び前記対比用文書から各構成文を一文ずつ切り出す切り出し部と、当該切り出し部で切り出された構成文毎に、当該各構成文中の各単語の品詞や活用形を前記辞書データベースのデータから特定する形態素解析部と、予め記憶されたルールに基づいて構成文の文数や単語をカウントするカウント部と、当該カウント部でのカウント結果から前記特徴量を算出する特徴量算出部とを有する、という構成を採ることができる。
【0009】
更に、前記特徴量は、一文当たりの文の長さの確率となる第1の特徴量と、大文字から始まる単語の総数となる第2の特徴量と、動詞である単語の総数となる第3の特徴量と、that節をとることのできる動詞の単語毎の数となる第4の特徴量と、接続詞である単語の総数となる第5の特徴量と、接続詞の単語毎の数となる第6の特徴量と、wh形の代名詞及び副詞である単語の総数となる第7の特徴量と、wh形の代名詞及び副詞の単語毎の数となる第8の特徴量と、一人称の人称代名詞からなる単語の総数である第9の特徴量と、一人称の人称代名詞の単語毎の数である第10の特徴量と、前置詞である単語の総数となる第11の特徴量と、前置詞の単語毎の数となる第12の特徴量との少なくとも一部からなる、という構成を採ることができる。
【0010】
また、前記欠落特定手段は、予め記憶されたパターン認識手法により、前記対象文書の特徴ベクトルが含まれる第1データ群と前記対比用文書の特徴ベクトルが含まれる第2データ群とに分類し、当該第2データ群にノイズとして含まれる前記対象文書の特徴ベクトルを検出し、当該検出された特徴ベクトルの構成文を前記文末句読点が欠落している構成文と特定する、という構成を採ることができる。
【0011】
更に、前記欠落特定手段は、前記対比用文書中の各構成文それぞれに求められた特徴ベクトルから一部を抽出し、当該抽出された特徴ベクトルを用いて前記文末句読点が欠落している構成文を特定する、という構成を採ることが好ましい。
【0012】
また、本発明は、文末句読点が一部欠落している複数の構成文からなる対象文書に対し、文末句読点が欠落している構成文を検出する処理をコンピュータに実行させるためのプログラムであって、
前記対象文書に存在する文末句読点を境に隣り合う二文を一文とした構成文からなる対比用文書を作成する対比用文書作成手段と、前記対象文書及び前記対比用文書それぞれの構成文について、当該各構成文中の単語数や単語種類に着目して求められる複数の特徴量をベクトル要素とした特徴ベクトルを作成するベクトル作成手段と、当該ベクトル作成手段で作成された各特徴ベクトルに基づき、前記対比用文書の特徴ベクトルに近似する前記対象文書の特徴ベクトルを検出し、当該検出された特徴ベクトルの構成文を前記文末句読点が欠落している構成文と特定する欠落特定手段として前記コンピュータを機能させる、という構成を採っている。
【発明の効果】
【0013】
本発明によれば、一部の構成文の文末句読点が欠落しているがその他の構成文は正確に文末句読点が付されている対象文書から、文末句読点を更に意図的に抜いた構成文からなる対比用文書を作成し、当該対比用文書から得られる特徴ベクトルを文末句読点の欠落基準として用いられることになり、当該欠落基準となる特徴ベクトルに近似する対象文書の構成文の特徴ベクトルを検出することで、文末句読点が欠落している構成文を自動的に検出可能になる。
【図面の簡単な説明】
【0014】
【図1】本実施形態に係る文末句読点の欠落検出システムの構成を表すブロック図。
【図2】(A)は、欠落検出装置での処理を説明するための対象文書のテキストデータを例示的に示す模式図であり、(B)は、欠落検出装置での処理を説明するための対比用文書のテキストデータを例示的に示す模式図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態について図面を参照しながら説明する。
【0016】
図1には、本実施形態に係る文末句読点の欠落検出システムの構成を表すブロック図が示されている。この図において、前記欠落検出システム10は、英語で作成された複数の構成文からなる対象文書が利用者により入力される入力装置11と、文末句読点が一部欠落した対象文書が入力装置11に入力されたときに、この対象文書から文末句読点が欠落している構成文を検出する文末句読点の欠落検出装置13とを備えて構成されている。ここで、文末句読点とは、文末に設けられ、隣り合う構成文同士を区切るカンマ、感嘆符、疑問符等の記号を意味する。
【0017】
前記入力装置11は、図示省略したキーボード等の機器により構成されているが、これに限定されるものでなく、紙媒体に記録された対象文書を画像データとして読み込み、当該画像データからテキストデータに変換するスキャナ装置、或いは、記憶媒体に記憶されたテキストデータを読み取り可能な装置等であっても良い。また、入力装置11として、インターネット回線等のネットワーク回線を使って欠落検出装置13に繋がる端末を用い、当該端末に入力された対象文書のデータを欠落検出装置13に送信することもできる。
【0018】
前記欠落検出装置13は、CPU等の演算処理装置、メモリやハードディスク等の記憶装置等からなるコンピュータによって構成され、当該コンピュータを後述する各手段として機能させるためのプログラムがインストールされている。
【0019】
この欠落検出装置13は、入力装置11で入力された対象文書を一時的に記憶する対象文書記憶手段15と、前記文末句読点の欠落部分を検出するための対比用文書を対象文書から作成する対比用文書作成手段17と、単語毎に品詞や活用形が記憶された辞書データベース18と、対象文書及び対比用文書それぞれの構成文について、後述する複数の特徴量をベクトル要素とした特徴ベクトルを作成するベクトル作成手段20と、ベクトル作成手段20で作成された特徴ベクトルに基づき、対象文書の構成文の中から文末句読点が欠落している構成文を特定する欠落特定手段22とを備えている。
【0020】
前記対比用文書作成手段17は、対象文書記憶手段15に記憶された対象文書中に存在する文末句読点を検出し、当該文末句読点を境に隣り合う二文を連ね、当該各文間の文末句読点を除去して一文に纏めた上で、その文末にピリオドがない場合は、ピリオドを付すことで対比用文書を作成するようになっている。従って、この対比用文書の構成文は、全て、文末句読点が途中で抜けている文になる。
【0021】
前記ベクトル作成手段20では、文中の単語数や単語種類に着目した特徴量が予め複数設定されており、当該各特徴量を構成文それぞれについて算出することで、各特徴量がベクトル要素となった特徴ベクトルが、対象文書及び対比用文書それぞれの構成文毎に求められる。すなわち、このベクトル作成手段20は、対象文書及び対比用文書から各構成文を一文ずつ切り出す切り出し部24と、切り出し部24で切り出された構成文毎に、当該各構成文中の各単語の品詞や活用形を前記辞書データベース18のデータから特定する形態素解析部25と、予め記憶されたルールに基づいて構成文の文数や単語をカウントするカウント部27と、カウント部27でのカウント結果から各特徴量を算出する特徴量算出部28とを備えている。
【0022】
前記切り出し部24では、対象文書中及び対比用文書中にそれぞれ存在する文末句読点の存在を検出して当該文末句読点を境に前後を分割するようになっており、これにより、各文書から一文単位の構成文に切り出される。
【0023】
前記形態素解析部25では、切り出し部24で切り出された各構成文すなわち対象文書中の各構成文と対比用文書中の各構成文それぞれについて、各構成文中のスペースの存在から各構成文の単語を特定し、当該各単語について、前後に存在する単語と辞書データベース18のデータとに基づいて品詞や活用形を特定するようになっている。
【0024】
前記カウント部27では、対象文書の構成文数がカウントされるとともに、対象文書及び対比用文書の各構成文それぞれについて、単語に関する以下の各数がカウントされる。つまり、当該単語に関しては、各構成文中に存在する単語の総数と、大文字から始まる単語の総数と、動詞である単語の総数と、that節をとることのできる動詞の単語毎の数と、接続詞である単語の総数と、接続詞の単語毎の数と、wh形の代名詞及び副詞である単語の総数と、wh形の代名詞及び副詞の単語毎の数と、一人称の人称代名詞からなる単語の総数と、一人称の人称代名詞の単語毎の数と、前置詞からなる単語の総数と、前置詞の単語毎の数とがカウントされる。
【0025】
なお、前記that節をとることのできる動詞の単語毎の数、接続詞の単語毎の数、wh形の代名詞及び副詞の単語毎の数、一人称の人称代名詞の単語毎の数、及び前置詞の単語毎の数は、それぞれ該当する単語が予めリスト化されて記憶されており、当該リスト化された単語それぞれの数が、構成文毎にカウントされることになる。例えば、リスト化された前置詞として、「in」、「on」、「of」、「at」・・・が記憶されているとすると、予め記憶された前置詞の単語毎の数としては、各構成文それぞれについて、「in」、「on」、「of」、「at」・・・の存在数がカウントされる。
【0026】
前記特徴量算出部28では、カウント部27でのカウント結果に基づき、対象文書及び対比用文書の各構成文それぞれについて、以下の第1〜第12の特徴量が求められる。
【0027】
前記第1の特徴量は、次式(1)により求められる一文当たりの文の長さの確率p(l)である。
【数1】

【0028】
ここで、「l」は、カウント部27でカウントされた各構成文中の単語の総数であり、「μ」は、対象文書における一文当たりの単語数の平均であり、次式(2)により求められる。また、「σ」は、対象文書における一文当たりの単語数の不偏分散であり、次式(3)により求められる。
【数2】

上式(2)、(3)中、「n」は、カウント部27でカウントされた対象文書中の構成文数であり、「I」は、対象文書中のi番目の構成文中に存在する単語数である。
【0029】
上式(1)から、対象文書及び対比用文書の各構成文それぞれについて、第1の特徴量である確率p(l)が求められる。なお、上式(2)、(3)で求められる平均μと分散σは、対比用文書の各構成文における確率p(l)を求めるときであっても、対象文書中の構成文数n、対象文書中のi番目の構成文中に存在する単語数lが用いられ、対象文書に応じて定まるようになっている。また、この確率p(l)は、各構成文それぞれについて1値ずつ求められ、第1の特徴量は、一次元のベクトル要素になる。
【0030】
前記第2〜第12の特徴量は、対象文書及び対比用文書の各構成文中の単語に関する数であり、カウント部27でカウントされた数がそのまま用いられる。
【0031】
すなわち、前記第2の特徴量は、大文字から始まる単語の総数となり、各構成文それぞれについて1値ずつ求められ、一次元のベクトル要素になる。
【0032】
前記第3の特徴量は、動詞である単語の総数となり、各構成文それぞれについて1値ずつ求められ、一次元のベクトル要素になる。
【0033】
前記第4の特徴量は、予め設定されたthat節をとることのできる動詞の単語毎の数となり、各構成文それぞれについて単語毎に各1値ずつ求められ、前記リスト中の単語数の次元のベクトル要素になる。
【0034】
前記第5の特徴量は、接続詞である単語の総数となり、各構成文それぞれについて1値ずつ求められ、一次元のベクトル要素になる。
【0035】
前記第6の特徴量は、予め設定された接続詞の単語毎の数となり、各構成文それぞれについて単語毎に各1値ずつ求められ、前記リスト中の単語数の次元のベクトル要素になる。
【0036】
前記第7の特徴量は、wh形の代名詞及び副詞である単語の総数となり、各構成文それぞれについて1値ずつ求められ、一次元のベクトル要素になる。
【0037】
前記第8の特徴量は、予め設定されたwh形の代名詞及び副詞の単語毎の数となり、各構成文それぞれについて単語毎に各1値ずつ求められ、前記リスト中の単語数の次元のベクトル要素になる。
【0038】
前記第9の特徴量は、一人称の人称代名詞である単語の総数となり、各構成文それぞれについて1値ずつ求められ、一次元のベクトル要素になる。
【0039】
前記第10の特徴量は、予め設定された一人称の人称代名詞の単語毎の数となり、各構成文それぞれについて単語毎に各1値ずつ求められ、前記リスト中の単語数の次元のベクトル要素になる。
【0040】
前記第11の特徴量は、前置詞である単語の総数となり、各構成文それぞれについて1値ずつ求められ、一次元のベクトル要素になる。
【0041】
前記第12の特徴量は、予め設定された前置詞の単語毎の数であり、各構成文それぞれについて単語毎に各1値ずつ求められ、前記リスト中の単語数の次元のベクトル要素になる。
【0042】
以上のように、第1〜第12の特徴量をベクトル要素とした特徴ベクトルは、数百次元程度となり、当該数百次元程度の特徴ベクトルが、対象文書及び対比用文書の各構成文それぞれに対して求められる。
【0043】
なお、特徴ベクトルの要素として、第1〜第12の特徴量をいずれかを省略することもできる。
【0044】
前記欠落特定手段22では、対比用文書中の各構成文の特徴ベクトルに近似する対象文書中の構成文の特徴ベクトルを検出し、当該検出された特徴ベクトルの構成文を文末句読点が欠落している構成文と特定する。すなわち、ここでは、ベクトル作成手段20で作成された各特徴ベクトルから、予め記憶されたパターン認識手法により、対象文書の特徴ベクトルが含まれる第1データ群と、対比用文書の特徴ベクトルが含まれる第2データ群とに分類し、当該第2データ群にノイズとして含まれる対象文書の特徴ベクトルを検出し、当該検出された特徴ベクトルの構成文を文末句読点が欠落している構成文と特定するようになっている。更に換言すれば、意図的に文末句読点を欠落させた対比用文書の各構成文からの特徴ベクトルから、文末句読点が欠落している可能性の高い特徴ベクトルの範囲が求められ、当該範囲に、対象文書の各構成文から求めた特徴ベクトルが含まれ得るか否かで、対象文書の各構成文の文末句読点の欠落が判断される。
【0045】
以上におけるパターン認識手法としては、サポートベクターマシン(SVM)、ナイーブベイズ、コサイン尺度、K近傍法等の公知手法を例示できる。これら手法については、本発明の本質でないため説明を省略する。
【0046】
次に、対象文書から文末句読点が欠落している構成文を特定する流れについて、具体例を用いながら説明する。
【0047】
先ず、利用者が入力装置11に図2(A)で示される文書データを入力すると、当該データが対象文書記憶手段15に記憶される。
【0048】
次に、対比用文書作成手段17で、対象文書中に存在するピリオド(文末句読点)を検出し、当該ピリオドを境に存在する二文を一文にすることで、図2(B)に示される対比用文書が作成される。
【0049】
そして、ベクトル作成手段20で、対象文書中の各構成文と対比用文書の各構成文それぞれについて、前記特徴ベクトルが求められる。具体的に、先ず、切り出し部24で、対象文書及び対比用文書それぞれについて、図2中に破線で示されるように、ピリオドの存在に基づいて構成文が切り出される。本例では、対象文書は4つの構成文に切り出され、対比用文書は3つの構成文に切り出される。更に、形態素解析部25で、対象文書の4つの構成文と対比用文書の3つの構成文それぞれについて、構成する各単語の形態素解析が行われる。また、カウント部27で、前記第1〜第12の特徴量を求めるための各数が、対象文書及び対比用文書の構成文毎にそれぞれカウントされ、当該構成文毎に、特徴量算出部28で第1〜第12の特徴量が算出されることにより、各構成文それぞれについて特徴ベクトルが求められる。
【0050】
次に、欠落特定手段22で、対象文書の各構成文それぞれについて求められた4つの特徴ベクトルが、対比用文書の各構成文それぞれについて求められた3つの特徴ベクトルに近似するか否かが判断される。この近似判断は、予め記憶されたサポートベクターマシーン(SVM)等のパターン認識手法が用いられる。前述例で言えば、図2(A)の対象文書中、前から3番目の構成文「I went to・・・very hard.」の特徴ベクトルが、対比用文書の各構成文の特徴ベクトルに近似すると判断され、これにより、当該構成文が文中にピリオドが抜けている可能性が高いと特定される。
【0051】
このように、ピリオドが抜けている可能性が高いと判断された構成文は、図示省略している他の装置に出力されることで、画面上に表示され、或いは音声により通知される等の処理が可能になる。
【0052】
以上によれば、対象文書の構成文から文末句読点を抜いた構成文からなる対比用文書を作成した上で、当該対比用文書の各特徴ベクトルをピリオドが抜けている構成文の特徴ベクトルとし、当該特徴ベクトルを基準に対象文書中の構成文のピリオド抜けが判断される。従って、ピリオド抜けの判断用の文書データベースを構築することなく、対象文書のみから、当該対象文書中におけるピリオド抜けの構成文を特定することができる。
【0053】
なお、前記ベクトル作成手段20では、対比用文書の各構成文それぞれについて特徴ベクトルを求めているが、そのうち予め設定した数のみをランダムに抽出し、当該抽出した特徴ベクトルを基に、対象文書の各構成文の特徴ベクトルの近似を判定することもできる。このようにすれば、対比用文書の構成文が膨大になったときの対比用文書の特徴ベクトルに関するノイズが低減することになり、前記近似判定の誤りを防止でき、文末句読点の欠落検出精度を高めることができる。
【0054】
また、前記実施形態では、欠落検出装置13での検出対象となる文書を英語の文書として説明しているが、本発明はこれに限らず、前述と同様のロジックにより、他言語の文書を検出対象とすることもできる。
【0055】
その他、本発明における各構成は前述例に限定されるものではなく、実質的に同様の作用を奏する限りにおいて、種々の変更が可能である。
【産業上の利用可能性】
【0056】
本発明は、学習者が作成した作文や論文等の文書に対する採点評価を自動的行う文書評価装置や、利用者が入力した文書を他言語に翻訳する自動翻訳装置等に付随して利用することができ、当該文書評価装置や自動翻訳装置の処理精度を向上させることに寄与する。
【符号の説明】
【0057】
10 欠落検出システム
13 欠落検出装置
17 対比用文書作成手段
18 辞書データベース
20 ベクトル作成手段
22 欠落特定手段
24 切り出し部
25 形態素解析部
27 カウント部
28 特徴量算出部

【特許請求の範囲】
【請求項1】
文末句読点が一部欠落している複数の構成文からなる対象文書に対し、前記文末句読点が欠落している構成文を検出する欠落検出装置であって、
前記対象文書に存在する文末句読点を境に隣り合う二文を一文とした構成文からなる対比用文書を作成する対比用文書作成手段と、前記対象文書及び前記対比用文書それぞれの構成文について、当該各構成文中の単語数や単語種類に着目して求められる複数の特徴量をベクトル要素とした特徴ベクトルを作成するベクトル作成手段と、当該ベクトル作成手段で作成された各特徴ベクトルに基づき、前記対比用文書の特徴ベクトルに近似する前記対象文書の特徴ベクトルを検出し、当該検出された特徴ベクトルの構成文を前記文末句読点が欠落している構成文と特定する欠落特定手段とを備えたことを特徴とする文末句読点の欠落検出装置。
【請求項2】
品詞や活用形が単語毎に記憶された辞書データベースを備え、
前記ベクトル作成手段は、前記対象文書及び前記対比用文書から各構成文を一文ずつ切り出す切り出し部と、当該切り出し部で切り出された構成文毎に、当該各構成文中の各単語の品詞や活用形を前記辞書データベースのデータから特定する形態素解析部と、予め記憶されたルールに基づいて構成文の文数や単語をカウントするカウント部と、当該カウント部でのカウント結果から前記特徴量を算出する特徴量算出部とを有することを特徴とする請求項1記載の文末句読点の欠落検出装置。
【請求項3】
前記特徴量は、一文当たりの文の長さの確率となる第1の特徴量と、大文字から始まる単語の総数となる第2の特徴量と、動詞である単語の総数となる第3の特徴量と、that節をとることのできる動詞の単語毎の数となる第4の特徴量と、接続詞である単語の総数となる第5の特徴量と、接続詞の単語毎の数となる第6の特徴量と、wh形の代名詞及び副詞である単語の総数となる第7の特徴量と、wh形の代名詞及び副詞の単語毎の数となる第8の特徴量と、一人称の人称代名詞からなる単語の総数である第9の特徴量と、一人称の人称代名詞の単語毎の数である第10の特徴量と、前置詞である単語の総数となる第11の特徴量と、前置詞の単語毎の数となる第12の特徴量との少なくとも一部からなることを特徴とする請求項2記載の文末句読点の欠落検出装置。
【請求項4】
前記欠落特定手段は、予め記憶されたパターン認識手法により、前記対象文書の特徴ベクトルが含まれる第1データ群と前記対比用文書の特徴ベクトルが含まれる第2データ群とに分類し、当該第2データ群にノイズとして含まれる前記対象文書の特徴ベクトルを検出し、当該検出された特徴ベクトルの構成文を前記文末句読点が欠落している構成文と特定することを特徴とする請求項1、2又は3記載の文末句読点の欠落検出装置。
【請求項5】
前記欠落特定手段は、前記対比用文書中の各構成文それぞれに求められた特徴ベクトルから一部を抽出し、当該抽出された特徴ベクトルを用いて前記文末句読点が欠落している構成文を特定することを特徴とする請求項1〜4の何れかに記載の文末句読点の欠落検出装置。
【請求項6】
文末句読点が一部欠落している複数の構成文からなる対象文書に対し、文末句読点が欠落している構成文を検出する処理をコンピュータに実行させるためのプログラムであって、
前記対象文書に存在する文末句読点を境に隣り合う二文を一文とした構成文からなる対比用文書を作成する対比用文書作成手段と、前記対象文書及び前記対比用文書それぞれの構成文について、当該各構成文中の単語数や単語種類に着目して求められる複数の特徴量をベクトル要素とした特徴ベクトルを作成するベクトル作成手段と、当該ベクトル作成手段で作成された各特徴ベクトルに基づき、前記対比用文書の特徴ベクトルに近似する前記対象文書の特徴ベクトルを検出し、当該検出された特徴ベクトルの構成文を前記文末句読点が欠落している構成文と特定する欠落特定手段として前記コンピュータを機能させることを特徴とする文末句読点の欠落検出プログラム。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2010−218318(P2010−218318A)
【公開日】平成22年9月30日(2010.9.30)
【国際特許分類】
【出願番号】特願2009−65308(P2009−65308)
【出願日】平成21年3月17日(2009.3.17)
【出願人】(502194735)株式会社教育測定研究所 (10)
【Fターム(参考)】