拾い読み支援システム、拾い読み支援方法及びプログラム

【課題】多数の文書の拾い読みを支援すること。
【解決手段】実施形態によれば、文書記憶部、表示部、入力部、分類情報記憶部、抽出部、特定部を含む。文書記憶部は、複数の文書を識別情報とともに記憶する。ユーザは、表示部の文書を閲覧し、文書と付与する分類タイプを入力部から指示する。分類情報記憶部は、ユーザ指示された文書の分類タイプを記憶する。抽出部は、同一の分類タイプが対応付けられている１又は複数の前記文書から、当該分類タイプについてハイライト表示すべき１又は複数の単語又はフレーズを抽出する。特定部は、ユーザから分類タイプが付与されていない文書の各々について、当該文書中で上記単語又はフレーズをハイライト表示すべき箇所を特定する。表示部は、文書を表示するにあたって、上記箇所で上記単語又はフレーズをハイライト表示する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、多数の文書の拾い読みを支援するための拾い読み支援システム、方法及びプログラムに関する。
【背景技術】
【０００２】
コンピュータが広く浸透し、通信速度・処理速度などの高速化、ハードディスク・メモリの大容量化などハードウェアの進化とともに、文書の電子化が進み、日常的に大量の情報を扱うことが多くなった。一般ユーザにとっては、情報検索など様々なソフトウェアの技術革新とともに、大量の情報から知りたい情報を利用するための支援を受けられるようになってきた。
【０００３】
しかし、例えば特許調査・文献調査・市場調査のように漏れなく網羅的に内容を調査しなければならないビジネスシーンなどでは、大量文書にユーザ自身が目を通す必要があり、検索や分類などの機械的処理で高精度に読むべき文書を少量に減らすことは難しい。また、時間的な制約があることが一般的で、通常は人手で或いは無意識的に、精読すべき箇所を選別するなどの拾い読みを行っている。あるいは、多数の文書を複数人で分担できるように、精読する前処理として、各人の専門分野などを元に拾い読みによって割り振りを行うなどを行っている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００８−１７１１６４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
多数の文書の拾い読みを支援する技術は知られていなかった。
【０００６】
本実施形態は、多数の文書の拾い読みを支援することの可能な拾い読み支援システム、拾い読み支援方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【０００７】
実施形態によれば、文書記憶部と、表示部と、入力部と、分類情報記憶部と、抽出部と、特定部とを備える。文書記憶部は、識別情報が対応付けられた複数の文書を記憶する。表示部は、前記複数の文書のうちの全部又は一部を、単語又はフレーズのハイライト表示を伴って又はハイライト表示を伴わずに表示する。入力部は、表示された前記文書のうちの特定の文書の指示及び予め定められた複数種類の分類タイプのうちから当該特定の文書に付与する特定の分類タイプの指示をユーザから入力する。分類情報記憶部は、前記識別情報と前記特定の分類タイプとを対応付けた分類情報を記憶する。抽出部は、同一の分類タイプが対応付けられている１又は複数の前記文書から、当該分類タイプについてハイライト表示すべき１又は複数の単語又はフレーズを抽出する。特定部は、前記文書の全部又は一部の各々について、前記抽出部により抽出された各々の単語又はフレーズが当該文書中に存在する場合に当該文書中でハイライト表示すべき箇所を特定する。
【図面の簡単な説明】
【０００８】
【図１】第１の実施形態に係る拾い読み支援システムの機能構成例を示す図。
【図２】文書データ記憶部に記憶される文書データの一例を示す図。
【図３】分類情報記憶部に記憶される文書分類情報（初期状態）の一例を示す図。
【図４】拾い読み単語抽出部により作成されるスコア付けされた単語リスト（初期状態）の一例を示す図。
【図５】拾い読み支援システムのシステム画面例及び動作例について説明するための図。
【図６】第１の実施形態の拾い読み支援システムの処理手順の一例を示すフローチャート。
【図７】ハイライト表示を伴わない文書表示例を示す図。
【図８】更新された文書分類情報の一例を示す図。
【図９】更新されたスコア付けされた単語リストの一例を示す図。
【図１０】拾い読み単語抽出部の処理手順の一例を示すフローチャート。
【図１１】ハイライト箇所特定部の処理手順の一例を示すフローチャート。
【図１２】テキスト表示部の処理手順の一例を示すフローチャート。
【図１３】ハイライト表示を伴う文書表示例を示す図。
【図１４】第２の実施形態に係る拾い読み支援システムの機能構成例を示す図。
【図１５】拾い読み単語抽出部の処理手順の一例を示すフローチャート。
【図１６】スコア付けされた単語リスト及び異言語間の単語置換の一例について説明するための図。
【図１７】テキスト表示部の処理手順の他の例を示すフローチャート。
【図１８】スコア付けされた単語リスト及び異言語間の単語置換の一例について説明するための図。
【図１９】異言語によるハイライト表示を伴う文書表示例を示す図。
【図２０】第３の実施形態に係る拾い読み支援システムの機能構成例を示す図。
【図２１】第４の実施形態に係る拾い読み支援システムの機能構成例を示す図。
【発明を実施するための形態】
【０００９】
以下、図面を参照しながら本発明の実施形態に係る拾い読み支援システムについて詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
【００１０】
（第１の実施形態）
従来、例えば特許調査・文献調査・市場調査をはじめとする文書調査などのように多数の文書を閲覧する際に、検索や分類などの機械的処理だけで高精度に読むべき文書を少量に減らすことは難しく、ユーザ自身が目で単語を走査し、拾い読みを行っていた。
【００１１】
第１の実施形態では、（例えば表示された文書をユーザが任意に閲覧してその分類タイプを判断した上で）ユーザが入力した幾つかの文書に対する分類を示す情報（分類タイプ）に基づいて、自動的に拾い読みのキーワード抽出を行い、ユーザが未分類の文書中のキーワードのハイライト表示を行うことによって、ユーザの拾い読みを支援する場合を例にとって説明する。
【００１２】
以下では、ユーザが文書に付与する分類タイプとして、当該文書が必要な文書であるか否かによって、少なくとも以下の２種類の文書タイプが設けられる具体例を中心に説明する。
（ａ）ユーザが必要であるとした文書を示す分類タイプ（以下、必要文書タイプ）、
（ｂ）ユーザが不要であるとした文書を示す分類タイプ（以下、不要文書タイプ）。
【００１３】
この例の場合には、ユーザは、所望の文書に対して、分類タイプとして、「必要文書タイプ」又は「不要文書タイプ」のいずれかを入力できる。
【００１４】
上記は一例であり、他にも様々な分類方法を使用することが可能である。
【００１５】
例えば、当該文書がいずれの担当者に関連するかによって分類する方法が可能である。例えば、Ａ〜Ｅの５人の担当者が設定される場合に、少なくとも以下の５種類の文書タイプが設けられる。
・担当者Ａに関連する文書を示す分類タイプ（担当者Ａ文書タイプ）、
・担当者Ｂに関連する文書を示す分類タイプ（担当者Ｂ文書タイプ）、
・担当者Ｃに関連する文書を示す分類タイプ（担当者Ｃ文書タイプ）、
・担当者Ｄに関連する文書を示す分類タイプ（担当者Ｄ文書タイプ）、
・担当者Ｅに関連する文書を示す分類タイプ（担当者Ｅ文書タイプ）。
【００１６】
この例の場合には、ユーザは、所望の文書に対して、分類タイプとして、「担当者Ａ文書タイプ」〜「担当者Ｅ文書タイプ」のいずれかを入力できる。
【００１７】
また、上記二つの例を併せて、例えば少なくとも以下の６種類の文書タイプを設けることも可能である。
・担当者Ａに関連する文書を示す分類タイプ（担当者Ａ文書タイプ）、
・担当者Ｂに関連する文書を示す分類タイプ（担当者Ｂ文書タイプ）、
・担当者Ｃに関連する文書を示す分類タイプ（担当者Ｃ文書タイプ）、
・担当者Ｄに関連する文書を示す分類タイプ（担当者Ｄ文書タイプ）、
・担当者Ｅに関連する文書を示す分類タイプ（担当者Ｅ文書タイプ）、
・ユーザが不要であるとした文書を示す分類タイプ（不要文書タイプ）。
【００１８】
なお、分類タイプの一つとして、更に、ユーザが未だ分類タイプを入力していない文書であることを示すタイプ（ここでは、未読文書タイプと呼ぶ）を設けることも可能である。例えば、上記具体例において、更に未読文書タイプを使用する場合には、ユーザが幾つかの文書に対して必要文書タイプを入力し、他の幾つかの文書に対して不要文書タイプを入力した場合に、残りの文書には、自動的に、「未読文書タイプ」が付与されることになる。
【００１９】
図１に、第１の実施形態の拾い読み支援システムの機能構成例を示す。
【００２０】
図１に示されるように本実施形態の拾い読み支援システムは、拾い読み支援システムの構成は、拾い読み単語抽出部１０１、ハイライト箇所特定部１０２、テキスト表示部１０３、ユーザ入力部１０４、文書データ記憶部１０５、分類情報記憶部１０６を備えている。
【００２１】
文書データ記憶部１０５は、複数の文書のデータを記憶する。
【００２２】
文書は、どのようなものであっても良い。例えば、文書は、何らかのドキュメント本文であっても良いし、そのドキュメント本文に対する要約文であっても良い。例えば、ドキュメント本文が特許明細書であり、文書データ記憶部１０５に記憶される各文書が、各特許明細書に対応する要約文である場合に、ユーザは、各要約文に対応する各特許文書を実際に読むかどうかを判断するために、各要約文を拾い読みすることがある。本実施形態では、文書の例として、特許明細書の要約文を例にとりつつ説明する。
【００２３】
図２に、文書データ記憶部１０５に記憶される文書データの一例を示す。図２の例では、各文書データに、文書識別子（以下、文書ＩＤ）（図中、０００１〜０００６）が付与されている。なお、文書データの記憶フォーマットは、図２に制限されない。
【００２４】
なお、文書データ記憶部１０５に記憶される文書データは、記録媒体から入力されたものであっても良いし、インターネットなどのネットワークを介してダウンロードされたものであっても良いし、キー入力された文書を含んでも良いし、他のどのような方法で得られたものであっても良い。
【００２５】
また、文書データ記憶部１０５に記憶される文書データは、例えば、文書ＩＤ又は他の何らかの基準によってソートされていても良いし、特にソートされていなくても良い。
【００２６】
テキスト表示部１０３は、文書データ記憶部１０５に記憶されている複数の文書（その文書数をＮとする）について、一度に所望の文書数ｄの文書を表示する。なお、ここでは、２≦ｄ≦Ｎとして説明するが、ｄ＝１の表示状態があっても構わない。
【００２７】
その際、表示の仕方に制限はなく、例えば、表示対象となった各々の文書について、その文書全体を表示する方法も可能であり、また、例えば、その文書の一部を表示する（例えば、その文書を、予め定められた上限となる文字数の部分まで表示し、残りの部分はユーザが所定の操作を行うことによって表示されるようになる）方法も可能である。また、一つの画面に同時に表示する文書数ｎをユーザが指示できるようにしても良いし、一つの文書について表示する上限文字数をユーザが指示できるようにしても良いし、その他にも様々な表示方法が可能である。
【００２８】
また、複数の文書のうちの一部の文書を表示する場合に、表示する文書の選択方法に制限はない。例えば、表示する文書を、文書ＩＤ又は他の何らかの基準によって選択しても良いし、ユーザが表示する文書を指示しても良い。
【００２９】
ユーザ入力部１０４は、ユーザが指定する文書の指示とその文書に対するユーザが指定する分類タイプの指示を入力する。例えば、ユーザは、テキスト表示部１０３に表示された文書のうちから、所定の方法で所望の文書を選択するとともに、その文書に対する所望の分類タイプを所定の方法で選択しても良い。なお、文書選択方法や分類タイプ選択方法に特に制限はない。
【００３０】
分類タイプは、分類方法が予め１種類に定められていても良いし（例えば、「必要文書タイプ」「不要文書タイプ」のいずれか）、分類方法が予め複数種類に定められていて、それらのうちからユーザが選択するようにしても良いし（例えば、「必要文書タイプ」「不要文書タイプ」のいずれか、又は、「担当者Ａ文書タイプ」）〜「担当者Ｅ文書タイプ」のいずれか）、いつでもユーザが自由な分類タイプを任意に設定可能であっても良いし、それらの組み合わせであっても良い。
【００３１】
分類情報記憶部１０６は、各々の文書ＩＤと、当該文書ＩＤに対する分類タイプとの対応を示す文書分類情報を記憶する。
【００３２】
図３（ａ）に、分類情報記憶部１０６に記憶される文書分類情報の例を示す。図３（ａ）の例は、分類タイプが何も入力されていない初期的な状態を示す。以下、一例として、文書分類情報において、「不要文書タイプ」については値「Ａ」が記憶され、「必要文書タイプ」については値「Ｂ」が記憶されるものとして説明する。
【００３３】
なお、前述の「未読文書タイプ」を使用しない場合には、図３（ａ）の例を使用すれば良い。また、「未読文書タイプ」を使用する場合には、図３（ｂ）のように文書分類情報の初期状態として全文書について、ユーザが入力する分類タイプ以外の値（例えば値「Ｃ」）を記憶しておき、値「Ｃ」が記憶されている文書は、「未読文書タイプ」として扱うようにしても良いし、または、図３（ａ）の例を使用して、値が何も記憶されていない（あるいは、値が「ｎｕｌｌ」である）文書は、「未読文書タイプ」として扱うようにしても良い。
【００３４】
いずれの場合においても、文書データ記憶部１０５に記憶されている文書の文書数がＮである場合に、文書分類情報においてユーザにより入力された分類タイプに対応する値が記憶される数ｃは、０≦ｃ≦Ｎである。
【００３５】
以下では、ｃ＝０の場合には、ハイライト表示を行わないものとし、また、ｃ＝Ｎに達した場合には、すべての文書についてユーザによる分類がなされたことを意味するので、それ以上の拾い読み単語抽出部１０１及びハイライト箇所特定部１０２の処理は、行わないものとする。ただし、「未読文書タイプ」を使用する場合に、ｃ＝０のときに、ハイライト表示を行うことも可能である。
【００３６】
また、以下では、まだユーザにより分類タイプが付与されていない（Ｎ−ｃ）個の文書のみを、ハイライト表示の対象とするものとして説明する。ただし、Ｎ個のすべての文書を、ハイライト表示の対象とすることも可能である。
【００３７】
拾い読み単語抽出部１０１は、文書分類情報において、少なくとも一つの文書について、ユーザにより入力された分類タイプが記憶されている場合に（すなわち、ｃ≧１である場合に）、文書分類情報中に対応する値が存在する分類タイプごとに、当該分類タイプに対応する文書から、当該分類タイプに特徴的な単語のリストを作成する。その際、各単語について、当該分類タイプに特徴的である程度を表すスコアを計算する。
【００３８】
図４に、拾い読み単語抽出部１０１がその処理において作成するスコア付けされた単語リスト（スコア付単語リスト）の例を示す。本具体例のように「必要文書タイプ」及び「不要文書タイプ」を使用する場合には、文書タイプごとにスコア付単語リストが作成される。図４（ａ）及び（ｂ）の例は、それぞれ、「不要文書タイプ」用のスコア付単語リスト及び「必要文書タイプ」用のスコア付単語リストの初期的な状態を示す。なお、「未読文書タイプ」を使用する場合には、更に、「未読文書タイプ」用のスコア付単語リストも設けられる。
【００３９】
各々の分類タイプごとに、そのスコア付単語リスト中の単語が、ハイライト表示されるものとして選択される。なお、例えば、スコア付単語リスト中の単語が予め定められた個数ｋを超えた場合には、スコア付単語リスト中でスコアが上位のｋ個を選択する方法、スコアが予め定められた閾値以上の単語のみ使用する方法など、あるいは、それらを組み合わせた方法なども可能であり、また、他の様々な方法が可能である。
【００４０】
なお、文書分類情報中に対応する値が存在しない分類タイプについては、その間、スコア付単語リストは作成されない。例えば、上記具体例において、文書分類情報中に、図３（ａ）については値「Ｂ」のみ存在する場合に、図３（ｂ）については、「Ｂ」及び「Ｃ」のみ存在する場合に、値「Ａ」に対応する「不要文書タイプ」については、スコア付単語リストは作成されない。
【００４１】
以下、各々の分類タイプごとに、ハイライト表示されるものとして選択された単語（又は又は用語又はフレーズ）を、「拾い読み単語候補」と呼ぶものとする。
【００４２】
ハイライト箇所特定部１０２は、ユーザが分類タイプを入力していない各々の文書について、当該文書中で各々の「拾い読み単語候補」が出現する箇所を探し（なお、「拾い読み単語候補」の全部又は一部が存在しないこともある）、当該文書中において出現する各々の「拾い読み単語候補」からハイライトすべき箇所を選択する。例えば、一つの文書において、同一の「拾い読み単語候補」について１箇所のみハイライト表示するものとした場合に、ある文書中にある「拾い読み単語候補」が複数存在するときに、いずれの箇所をハイライト表示するかを選択する。
【００４３】
ユーザが少なくとも一つの文書に対して分類タイプを入力した後は、テキスト表示部１０３は、ユーザが分類タイプを入力していない文書について、その文書中の単語のうち、拾い読み単語抽出部１０１により分類タイプごとに抽出された単語であって且つハイライト箇所特定部１０２により特定された箇所の単語をハイライト表示する。
【００４４】
その際、「拾い読み単語候補」をハイライト表示するにあたって、その分類タイプに対応するハイライト形態でハイライト表示するようにしても良い。例えば、フォントを変えることによって拾い読み単語候補を示す場合に、分類タイプごとに、文字の色等のフォントを変えても良いし、拾い読み単語候補を枠で囲んで示す場合に、分類タイプごとに、枠の形状、線種、色、枠内のハッチングの有無、ハッチングの種類等を変えても良いし、それらを組み合わせても良いし、また、他にも様々なハイライト形態が可能である。
【００４５】
また、例えば、必要文書タイプを一番に目立つハイライト形態、不要文書タイプを次に目立つハイライト形態、未読文書タイプをその次に目立つハイライト形態にするような方法も可能である。
【００４６】
ユーザ入力部１０４でユーザからの入力が起こると、分類情報記憶部１０６が更新され、拾い読み単語抽出部１０１、ハイライト箇所特定部１０２、テキスト表示部１０３の一連の処理が行われる。
【００４７】
なお、上記一連の処理は、ユーザ入力部１０４から一つの文書に係る文書分類情報を入力するごとに、これを契機として実行することとしても良いし、あるいは、ユーザ入力部１０４から文書分類情報が入力されただけでは、上記一連の処理を実行せず、（例えばユーザ入力部１０４から）上記一連の処理を実行するための所定の指示が入力されたときに、これを契機として上記一連の処理を実行することとしても良い。
【００４８】
ここで、図５のシステム画面例を参照しながら、本実施形態の全体的な動作例の概要について説明する。図５では、各文書が特許明細書に対応する要約文である場合を例にとって説明する。
【００４９】
なお、以下では、必要文書タイプを「○」、不要文書タイプを「×」でも表すものとする。
【００５０】
まず、テキスト表示部１０３が、図５のシステム画面（１２１）の内側に、各文書（図中、１２２参照）を表示する。なお、初期的な状態では、ユーザによる分類タイプの入力がなされておらず、実際には図５と異なり、「○」「×」は表示されておらず、ハイライト表示も行われていない。
【００５１】
図５の具体例は、システム画面（１２１）の内側に、各文書を５行２列に表示するものである。
【００５２】
次に、ユーザは、図５のシステム画面（１２１）中に表示された文書を任意に読む。
【００５３】
なお、図５の５行２列に表示する例において、１１以上の文書が存在する場合には、ユーザは、例えばスクロール又はページ更新をするなどして他の文書を表示させても良い。もちろん、文書の表示は、５行２列の表示に制限されない。
【００５４】
そして、ユーザは、分類タイプを入力すると判断した文書を選択するとともに、その文書についてユーザが判断した分類タイプを選択することによって、文書分類情報｛文書，分類タイプ｝を入力する。すなわち、システム側は、ユーザ入力部１０４において、ユーザが選択する｛文書，分類タイプ｝の入力を受け付ける。
【００５５】
例えば、ユーザが１２４で示される文書を読んで、この文書を不要と判断した場合（例えば、この要約文に対応する特許明細書の全文は読まなくて良いと判断した場合）、この文書データ（１２４）に対して不要文書タイプ記号「×」をユーザが選択する。
【００５６】
同様の、ユーザが１２５で示される文書を読んで、この文書を必要と判断した場合（例えば、この要約文に対応する特許明細書の全文は読む必要があると判断した場合）、この文書データ（１２４）に対して必要文書タイプ記号「○」をユーザが選択する。
【００５７】
なお、ユーザは、それら以外の文書には分類を付与していないとする。
【００５８】
この場合に、図５に示されるように、分類が付与された文書１２４，１２５についてそれぞれ付与された分類タイプを示す「×」「○」が表示されても良い。もちろん、他の付与された分類タイプを識別可能にしても良い。
【００５９】
さて、文書データ１２４，１２５に対して分類タイプが付与されたときに、システム内では、文書データ１２４の文書ＩＤ及び付与された分類タイプを示す文書分類情報と、文書データ１２５の文書ＩＤ及び付与された分類タイプを示す文書分類情報を受け取る。
【００６０】
そして、上記二つの文書分類情報をもとに、拾い読み単語抽出部１０１の処理、ハイライト箇所特定部１０２の処理、テキスト表示部１０３の処理からなる一連の処理を行って、図５に例示されるように、文書データ１２４，１２５以外の文書に対して、拾い読み単語をハイライト表示する。
【００６１】
なお、拾い読み単語抽出部１０１では、分類タイプごとにスコアを計算する。
【００６２】
例えば、図５中のタイプ分け凡例（１２３）のように、必要文書タイプ・不要文書タイプ・未読文書タイプの３分類でそれぞれスコアの高い語を用意することで、タイプごとに単語のハイライト方法を変えることができる。
【００６３】
異なるハイライト方法を適用する例として、例えば、前述のようにハイライト色を変更しても良い。例えば、必要文書タイプをピンク、不要文書タイプを黄色、未読文書タイプを緑で各タイプの拾い読み単語をハイライトしても良い。
【００６４】
図５では、タイプごとに単語のハイライト方法を変える様子を例示するために、必要文書タイプでハイライトする単語の部分についてはクロスハッチング枠で、不要文書タイプについては斜線ハッチング枠で、未読文書タイプについてはハッチングなしの枠で、それぞれハイライトを行う例を示した。
【００６５】
図５に例示するような表示状態において、ユーザは、単語にハイライトが付加された文書群を閲覧しながら、ハイライトされた単語を中心に拾い読みすることができ、更に、未分類の文書へ分類を付与していくことができる。その際、例えば、必要に応じてハイライトされた単語の周辺単語も合わせて読むこともできる。
【００６６】
図６に、本実施形態の拾い読み支援システムの処理手順の一例を示す。
【００６７】
ステップＳ１において、テキスト表示部１０３は、初期的に文書を表示する。
【００６８】
図７に、図２に例示した文書を表示した例を示す。
【００６９】
なお、この初期の段階では、分類情報記憶部１０６に記憶される文書分類情報は、図３（ａ）又は図３（ｂ）に例示したようになる。また、スコア付単語リストは、図４に例示したようになる。
【００７０】
ステップＳ２において、ユーザ入力部１０４は、ユーザから文書分類情報｛文書ＩＤ，分類タイプ｝の入力を受け付ける。
【００７１】
ステップＳ３において、入力された上記の文書分類情報｛文書ＩＤ，分類タイプ｝を、分類情報記憶部１０６に記録する。
【００７２】
ここでは、図２の文書ＩＤ＝０００１〜０００３の各文書に対して、それぞれ、「不要文書タイプ」「不要文書タイプ」「必要文書タイプ」がユーザにより入力されているものとすると、分類情報記憶部１０６に記憶された文書分類情報例は、図３（ａ）については図８（ａ）に例示するようになり、図３（ｂ）については図８（ｂ）に例示するようになる。
【００７３】
なお、ステップＳ４において、終了条件が成立したならば、処理を終了し、終了条件が成立していないならば、次のステップＳ５に進む。
【００７４】
終了条件には、種々のものが考えられる。例えば、文書データ記憶部１０５に記憶されている文書の文書数がＮである場合に、Ｎ個の文書すべてについて上記の文書分類情報｛文書ＩＤ，分類タイプ｝がユーザにより入力されたことを終了条件としても良いし、あるいは、上記の文書分類情報｛文書ＩＤ，分類タイプ｝がユーザにより入力された文書の数をｃとして、（Ｎ−ｃ）の値（すなわち、まだユーザにより分類タイプが付与されていない文書の数）が、予め定められた閾値を下回ったことを終了条件としても良い。もちろん、これらに制限されない。
【００７５】
さて、ステップＳ４において、終了条件が成立していないならば、以下の一連の処理が行われる。
【００７６】
ステップＳ５において、拾い読み単語抽出部１０１の処理を行って、スコア付単語リストを作成する。
【００７７】
例えば、「不要文書タイプ」用のスコア付単語リストが図９（ａ）に例示するようになり、「必要文書タイプ」用のスコア付単語リストが図９（ｂ）に例示するようになる。なお、ａ１，ａ２，ｂ１，ｂ２はそれぞれのスコア値を示している。また、各スコア付単語リストは、スコア順にソートされても良い。
【００７８】
ステップＳ６において、ハイライト箇所特定部１０２の処理を行って、各文書中のハイライト箇所を特定する。
【００７９】
ステップＳ７において、テキスト表示部１０３の処理を行って、テキスト表示（のハイライト状態）を更新する（例えば後で説明する図１３参照）。
【００８０】
以下、拾い読み単語抽出部１０１、ハイライト箇所特定部１０２、テキスト表示部１０３の各処理について順番に詳しく説明する。
【００８１】
まず、拾い読み単語抽出部１０１について説明する。
【００８２】
拾い読み単語抽出部１０１は、文書データと既知の分類とから、拾い読みに適した単語を抽出するモジュールである。
【００８３】
図１０に、拾い読み単語抽出部１０１の処理手順の一例を示す。
【００８４】
ステップＳ１１において、拾い読み単語抽出部１０１は、文書データ記憶部１０５及び分類情報記憶部１０６から、文書データとそれに対してユーザにより付与された分類を読み込む。
【００８５】
ステップＳ１２において、各文書の分類及び各文書の単語から、拾い読み単語としてのスコアを計算する。
【００８６】
ステップＳ１３において、スコア順に単語をソートし、上位の単語を拾い読み単語候補とし、ステップＳ１４において、拾い読み単語候補とそのスコアを出力する。
【００８７】
拾い読み単語のスコア計算として、例えば、次のような式で計算を行っても良い。ここでは、『ある文書Ｄ内に出現する単語ｔを見た場合、この文書Ｄが文書タイプＣであるとすぐに判断できるかどうか』、というスコアとして速判度（ｔ，Ｃ）を導入する。
速判度（ｔ，Ｃ）＝読みコスト（ｔ）×判別度（ｔ，Ｃ） …（１）
ここで、読みコストとは、人が単語を認識するのにかかるコストを指し、文字長や文字の複雑さなどに依存する。例えば、文字数の逆数（例：１／（文字数））などとする。また、ひらがな・カタカナなどの文字種は、漢字に比べて画数が少なく目につきやすいことを考慮して、スコアを上げるなどの工夫が考えられる（例：ｋ／（文字数））。
【００８８】
判別度とは、ある文書タイプＣの判別に使える単語であるかの度合いを指す。ある単語が、文書タイプＣらしい単語あるいは文書タイプＣらしくない単語であれば、判別度は高く、逆に、文書タイプＣなのかがわかりにくい単語であれば、判別度は低い。例えば、ｔｆ（ｔ）＊ｌｏｇ（ｄｆ（ｔ｜Ｃ）／ｄｆ（ｔ））＊ｓｃｏｒｅ＿ｐｏｓ（ｔ）といった式で計算する。ここで、ｔｆ（ｔ）は、単語ｔの文書D内での単語頻度、ｄｆ（ｔ｜Ｃ）は、文書タイプＣに分類された文書での、単語ｔの出る文書数、ｄｆ（ｔ）は、単語ｔの出る文書数、ｓｃｏｒｅ＿ｐｏｓ（ｔ）は、単語ｔの品詞のスコアで例えば単語tが名詞のときの名詞スコアを指す。このとき、名詞のスコアを高く設定するなどして、特定の品詞の単語のスコアが高くなるようにもできる。
【００８９】
次に、ハイライト箇所特定部１０２について説明する。
【００９０】
ハイライト箇所特定部１０２は、各々の文書について、当該文書中で拾い読み単語抽出部１０１により選択された拾い読み単語候補が出現する箇所を探し、当該文書中でハイライトすべき箇所を選択するモジュールである。
【００９１】
図１１に、ハイライト箇所特定部１０４の処理手順の一例を示す。
【００９２】
ここで、Ｌはハイライト語数の上限、Ｎは文書数、Ｍはハイライト単語候補の総数、Ｘは文書ｉ中のハイライト単語として記憶している単語数である。
【００９３】
まず、ハイライトする箇所が多いと拾い読みにならないため、ハイライト語数の上限Ｌを設定する。
【００９４】
ステップＳ２１において、ハイライト箇所特定部１０４は、文書データ記憶部１０５から文書データを読み込むとともに、拾い読み単語抽出部１０１の出力する単語リストとスコアを読み込む。
【００９５】
ステップＳ２２において、ｉに１を代入する。
【００９６】
ステップＳ２３〜Ｓ２５では、各文書について、各拾い読み単語候補が出現しているかを確認する。
【００９７】
ただし、文書データ記憶部１０５の総文書数をＮ、拾い読み単語候補の総数をＭとする。
【００９８】
文書ｉで、単語ｊがｐ回出現した場合、ステップＳ２７において、ハイライトする単語位置を、ｐ個の単語ｊの中から選択する。例えば、初出の箇所を選択する、近傍単語重要度で選択する、複合語に含まれない単語を選択するなどである。ここで、近傍単語重要度とは、単語ｔの近傍に出現する語の重要度を指す。ハイライト箇所には目が行くため、その近傍にも重要語がある方をよりスコアを高くするものである。なお、重要語の計算には、一般的にキーワード抽出として知られる計算式などを使って計算できる。例えば、近傍単語重要度（ｔｉ）を、その周辺の語ｔｊの重要度とｔｉまでの距離を使いスコア付けし、Σｊ｛ｔｆ（ｔｊ）＊ｌｏｇ（Ｎ／ｄｆ（ｔｊ））＊（１／｜ｊ−ｉ｜）｝といった式で表す。ここで、Ｎは、全文書数を表し、ｊ−ｉは単語ｔｉとｔｊの距離を表す。また、複合語を構成する１単語となっている場合には、１単語だけでは意味をなさない可能性があるため、スコアを低くするなどでもよい。
【００９９】
ステップＳ２８では、文書ｉに対しハイライトする単語とその出現位置を記憶し、ハイライト単語数Ｘがハイライト語数の上限Ｌ以下である間同様の操作を繰り返す。
【０１００】
ステップＳ２５において条件一致がＮｏになった場合、ステップＳ２３へ戻り、次の文書ｉ＋１に進み、ステップＳ２４〜Ｓ２８について同様の作業を繰り返す。
【０１０１】
ステップＳ２１で読み込んだ文書すべてにハイライト箇所特定が終わったならば、ステップＳ２９で各文書のハイライト単語とその位置を出力する。
【０１０２】
次に、テキスト表示部１０３について説明する。
【０１０３】
テキスト表示部１０３は、文書データ記憶部１０５の各文書データに対し、ハイライト箇所特定部１０２で特定したハイライト単語位置をハイライトして表示するモジュールである。
【０１０４】
図１２に、テキスト表示部１０３の処理手順の一例を示す。
【０１０５】
ステップＳ３１において、テキスト表示部１０３は、文書データ記憶部１０５の文書データを読み込むとともに、ハイライト箇所特定部１０２で出力するハイライトの単語とその位置を読み込む。
【０１０６】
ステップＳ３２において、文書データ中のハイライト箇所にハイライトを施して、各文書データを出力する。
【０１０７】
図５は、各文書データのハイライトの一例である。
【０１０８】
また、図１３に、各文書データの他のハイライト例を示す。図１３は、図７に例示された文書群のうち、最初の３文書に分類が付与された際の他の文書の表示例である。また、図５と同様、必要文書タイプはクロスハッチング枠で、不要文書タイプは斜線ハッチング枠で、未読文書タイプはハッチングなしの枠でそれぞれハイライトする例を示した。
【０１０９】
さて、上記のようなハイライト表示された後に、ユーザは更に未分類の文書に対して、分類を付与することができる。
【０１１０】
ユーザ入力部１０４は、テキスト表示部１０３で表示した各文書に対し、ユーザが付与する分類を受け付けるモジュールである。図５の各文書に対し、ユーザは分類を付与する（例：「○」「×」）。このとき、ユーザ入力部１０４がこの分類情報を受け取る。ユーザ入力部１０４がユーザの付与した分類を受け取ると、続けて１０１〜１０３の処理を行い、ハイライト単語の更新を行う。
【０１１１】
次に、処理の具体的な例を示す。
【０１１２】
図１３のような６つの文書１２０１〜１２０６が存在した場合で、最初の３つの文書１２０１〜１２０３に分類が付与された場合で考える。分類情報記憶部１０６には、文書１２０１に「×」、文書１２０２に「×」、文書１２０３に「○」が与えられている。
【０１１３】
この３文書と分類を元に、拾い読み単語抽出部１０１で、単語抽出を行う。式（１）のｓｃｏｒｅ＿ｐｏｓにおいて、名詞について１、それ以外について０である場合に、格文書から名詞を抽出する。文書１２０１から、「文書」「音声」「指示」「入力」「頻度」「状況」「合成」「売上げ」「スタイル」「出力」「装置」といった名詞を抽出する。同様に、文書１２０２、文書１２０３からも名詞を抽出する。そして、抽出された各々の名詞について、式（１）の計算をする。この例では文書数が少なく単語間でスコアがほとんど変わらないため、各名詞が出現する文書の分類に対応する拾い読み単語候補となる。文書１２０４で上記３文書に出てきた名詞は、「操作」「音声」「出力」である。このうち、「出力」は文書１２０１中で複合語でしか出てこないため、スコアを下げ、「操作」と「音声」をハイライトするとする。
【０１１４】
続いて、ハイライト箇所特定部で、文書１２０４中でハイライトする単語を選ぶ。「操作」は一回しか出現しないため、そのまま選択する。また、「音声」は、「音声出力処理方式」と「音声出力」の２箇所に出現する。この際には、例えば、いずれも複合語なので、より短い「音声出力」の方の「音声」をハイライトすることにし、２回目の「音声」をハイライト箇所とする。
【０１１５】
なお、上記では、具体例として日本語を用いて説明したが、本実施形態は他の言語の場合にも同様に適用可能である。
【０１１６】
本実施形態によれば、例えば特許調査・文献調査・市場調査などのように多数の文書を漏れなく網羅的に内容を調査したいようなケースにおいて、ユーザが多数の文書（例えばドキュメント本文又はその要約文）のうちの幾つかの文書を読みながら、例えば読んで確認すべき或いは精読すべき文書とそうでない文書等の分類や、分担して読む担当を分けるための分類などを付与し、ユーザによる分類が付与された文書をもとに、例えば未分類の文書から分類判断のための拾い読みに適した単語や、未分類の文書を弁別する根拠となりそうなキーワードなどを抽出し、適切な箇所にハイライト表示やマーカ付与を行って提示することによって、ユーザ自身が行っている拾い読みを効率的に行えるように支援することができる。
【０１１７】
（第２の実施形態）
第２の実施形態では、第１の言語で既に分類が付与されているときに、その分類を利用して、第１の言語とは異なる第２の言語の文書で拾い読み用のキーワードをハイライトする例を示す。
【０１１８】
例えば、第１の言語をユーザの母国語とし、第２の言語を外国語としても良いし、逆に、第２の言語をユーザの母国語とし、第１の言語を外国語としても良い。
【０１１９】
ここでは、第１の言語を英語、第２の言語を日本語とする場合を例に取りつつ説明する。
【０１２０】
図１４に、第２の実施形態に係る支援システムの機能構成例を示す。
【０１２１】
図１４に示されるように、拾い読み支援システムの構成は、拾い読み単語抽出部１０１、置換部２０１、二言語間辞書２０２、ハイライト箇所特定部１０２、テキスト表示部１０３、ユーザ入力部１０４、第１言語文書データ記憶部２０３、第１言語分類情報記憶部２０４、第２言語文書データ記憶部２０５、第２言語分類情報記憶部２０６を備える。
【０１２２】
第１言語文書データ記憶部２０３には、第１言語での文書データが保存されている。また、各文書に対応した分類がすでに付与されており、その分類情報が第１言語分類情報記憶部２０４に保存されている。
【０１２３】
拾い読み単語抽出部１０１は、基本的には第１の実施形態と同様にして、第１言語文書データ記憶部２０３及び第１言語分類情報記憶部２０４の情報を読み込み、拾い読み単語抽出を行う。第１言語分類情報記憶部２０４の内容は変化しないので、ここでの抽出は、１回のみ行えば良い。
【０１２４】
一方、第２言語文書データ記憶部２０５は、第１の実施形態の文書データ記憶部１０５に対応し、第２言語分類情報記憶部２０６は、第１の実施形態の分類情報記憶部１０６に対応する。拾い読み単語抽出部１０１は、第２言語文書データ記憶部２０５及び第２言語分類情報記憶部２０６について、第１の実施形態と同様の処理を繰り返し行うことになる。
【０１２５】
拾い読み単語抽出部１０１で出力された拾い読み単語候補とスコアは、置換部２０１に入力される。
【０１２６】
置換部２０１は、第１言語文書データ記憶部２０３及び第１言語分類情報記憶部２０４を対象として拾い読み単語抽出部１０１により抽出された第１言語による単語を、（文書データ上の第２言語の単語との対応を付けるために）第２言語の単語に置き換えるためのモジュールである。
【０１２７】
置換部２０１では、第１言語で記載された拾い読み単語候補から、二言語間辞書２０２を用いて第２言語への翻訳単語を検索し、第２言語の翻訳語を作成する。このとき、第２言語の翻訳語が複数ある単語の場合や、第２言語の翻訳語になる第１言語の単語が他にもある場合には、第１言語から第２言語へ翻訳すると曖昧性が生じている可能性があるため、このような場合にはこの単語の拾い読み単語スコアを下げるなどして、あいまい性のない他の単語を優先する。
【０１２８】
ハイライト箇所特定部１０２、テキスト表示部１０３、ユーザ入力部１０４の一連の処理は、基本的には第１の実施形態と同様である。ただし、ハイライト箇所特定部１０２とテキスト表示部１０３が読み込む文書データは、第２言語文書データ記憶部２０５、ユーザ入力部１０４で付与された分類情報を記憶するのは第２言語分類情報記憶部２０６である。
【０１２９】
第２の実施形態では、ユーザが分類したい文書データである第２言語の文書データに分類がまだ付与されていない状況でも、ユーザが既に分類を付与した第１言語のデータ、すなわち第１言語文書データ記憶部２０３と第１言語分類情報記憶部２０４から、拾い読み単語抽出部１０１の処理を行うことができる。
【０１３０】
また、第２言語分類情報記憶部２０６にデータが追加された後は、第２言語文書データ記憶部２０５と第２言語分類情報記憶部２０６のデータから拾い読み単語抽出部１０１の処理を行うこともできる。
【０１３１】
後者の場合には、置換部２０１が不要となる（図１の構成に切り替わる）。
【０１３２】
図１５に、拾い読み単語抽出部１０１の処理手順の一例を示す。
【０１３３】
まだ、ユーザにより文書に対して分類が付与されていない初期の状態において処理を行う場合には（ステップＳ４１でＹｅｓ）、拾い読み単語抽出部１０１は、第１言語文書データ記憶部２０３及び第１言語分類情報記憶部２０４の情報を用いて、第１言語のスコア付単語リストを作成する（ステップＳ４２）。図１６に、そのスコア付単語リストの一例を示す。なお、図１６（ａ）のスコア付単語リストは、置換部２０１及び二言語間辞書２０２により、単語が第１言語から第２言語へ置換される。図１６（ｂ）に、その一例を示す。なお、ｓ１はスコア値を示している。
【０１３４】
ユーザにより少なくとも一つの文書に対して分類が付与された後に処理を行う場合には（ステップＳ４１でＮｏ）、拾い読み単語抽出部１０１は、第２言語文書データ記憶部２０５及び第２言語分類情報記憶部２０６の情報を用いて、第２言語のスコア付単語リストを作成する（ステップＳ４３）。本具体例では、例えば、図９のようになる。そして、ステップＳ４２で既に作成されている第１言語のスコア付単語リスト（単語を置換したもの）と、このステップＳ４３で作成された第２言語のスコア付単語リストとを、マージする。
【０１３５】
なお、予め定められた条件が成立した場合には、ステップＳ４３を行わずに、第２言語のスコア付単語リストのみを使用するようにしても良い。
【０１３６】
予め定められた条件は、例えば、第２言語の全文書数をＮ、第２言語の文書に対してユーザにより分類タイプが付与された文書数をｃとして、ｃ／Ｎが予め定められた値を上回った場合、若しくは、ｃが予め定められた値を上回った場合、又は、最初に第２言語の文書に対してユーザにより分類タイプが付与されてから、所定の時間が経過した場合など、様々なものが可能である。
【０１３７】
（第２の実施形態の変形例１）
なお、上記において第１の言語を第２の言語と同じにすることも可能である。この場合には、置換部２０１及び二言語間辞書２０２が不要になる。
【０１３８】
（第２の実施形態の変形例２）
第２の実施形態の変形例２では、第２の実施形態で第２言語の文書中の単語をハイライト表示する代わりに、第１言語で単語を翻訳して表示する例を示す。
【０１３９】
第２の実施形態の変形例の機能構成例は、図１４と同様で構わない。
【０１４０】
ただし、置換部２０１からの出力は、拾い読み単語抽出部１０１から出力された第１言語の単語の第２言語への翻訳だけでなく、第１言語と第２言語への翻訳のセットにし、ハイライト箇所特定部１０２へと渡される。
【０１４１】
ハイライト箇所特定部１０２の処理は、第２の実施例と同様の処理を行うが、その際の出力は、第１言語と第２言語への翻訳のセットにしてテキスト表示部１０３へ渡される。
【０１４２】
テキスト表示部１０３の処理は、第２の実施形態と異なる。
【０１４３】
図１７に、テキスト表示部１０３の処理手順の一例を示す。
【０１４４】
ステップＳ５１において、テキスト表示部１０３は、第２言語文書データと、ハイライト箇所特定部１０２の出力であるハイライト単語・その単語の第１言語への翻訳語・ハイライト単語位置を入力する。
【０１４５】
ステップＳ５２において、第２言語文書データを表示するとともに、ハイライト箇所の単語を第１言語への翻訳単語に変換して文中に表示する。
【０１４６】
図１８に、第２の実施形態の変形例２のスコア付単語リストの例を示す。
【０１４７】
拾い読み単語抽出部１０１により生成される第１の言語のスコア付単語リストの例を、（ａ）に示す。第１の言語の単語を第２の言語に置換し、これを更にスコア付単語リストに追加した例を、（ｂ）に示す。なお、ｅ１はスコア値を示している。
【０１４８】
拾い読み単語抽出部１０１により生成される第２の言語のスコア付単語リストの例を、（ｃ）に示す。第２の言語の単語を第１の言語に置換し、これを更にスコア付単語リストに追加した例を、（ｄ）に示す。なお、ｊ１はスコア値を示している。
【０１４９】
図１９に、第２言語（日本語）の文書を表示する際に、各分類タイプについて抽出された単語について、第１言語（英語）でハイライトする例を示す。また、図１９では、更に、必要文書タイプは枠で、不要文書タイプは斜線ハッチング枠で、更なるハイライトを行い、未読文書タイプは第１言語（英語）でのハイライトのみとした例を示している。
【０１５０】
（第３の実施形態）
第３の実施形態では、拾い読みに使う単語をユーザ自身が選択する例を示す。
【０１５１】
図２０に、第３の実施形態に係る支援システムの機能構成例を示す。
【０１５２】
図２０は、最初にユーザが拾い読みに使う単語を幾つか入力し、それを元に初期動作を始める場合の例である。
【０１５３】
単語入力部３０１は、ユーザが拾い読みに使う単語の入力を受け付ける。この場合、ユーザによって入力された単語をそのまま拾い読み単語候補とし、この候補語を元にハイライト箇所特定部１０２でハイライト箇所を特定する。その他の処理は、第１の実施形態と同様である。なお、ユーザ入力部１０４でユーザ入力後、分類情報記憶部１０６の更新にともない拾い読み単語抽出部１０１、ハイライト箇所特定部１０２、テキスト表示部１０３の一連の処理が行われる際にも、単語入力部３０１から新たに単語入力をしても良い。
【０１５４】
（第４の実施形態）
第４の実施形態では、拾い読みに使う単語をユーザ自身が選択する例を示す。
【０１５５】
図２１に、第２の実施形態に係る支援システムの機能構成例を示す。
【０１５６】
図２１は、拾い読み単語抽出部１０１で計算された拾い読み単語候補中から、ユーザが拾い読みに使いたい単語を選択する場合の例である。
【０１５７】
拾い読み単語抽出部１０１、ハイライト箇所特定部１０２、テキスト表示部１０３、ユーザ入力部１０４の処理は、第１の実施形態と同様である。
【０１５８】
拾い読み単語選択部４０１では、拾い読み単語抽出部１０１で抽出された拾い読み単語候補をユーザに提示する。ユーザは、使いたい拾い読み単語あるいは使いたくない拾い読み単語を選択し、その選択を拾い読み単語選択部４０１が受け付ける。選択の結果、ユーザに拾い読み単語として使いたい単語の優先度を高くし、ハイライト箇所特定部１０２へスコア付の単語リストとして入力する。
【０１５９】
なお、これまでに説明してきた各実施形態や変形例は、任意に組み合わせて実施することが可能である。
【０１６０】
また、本実施形態（これまで説明してきた各実施形態や変形例又はそれらを任意に組み合わせたもののいずれによっても）、多数の文書の拾い読みを支援することができる。
【０１６１】
また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の拾い読み支援システムによる効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フレキシブルディスク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ±Ｒ、ＤＶＤ±ＲＷなど）、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をＣＰＵで実行させれば、上述した実施形態の拾い読み支援システムと同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワーク等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、ＬＡＮやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は１つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
【０１６２】
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
【０１６３】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【０１６４】
１０１…拾い読み単語抽出部、１０２…ハイライト箇所特定部、１０３…テキスト表示部、１０４…ユーザ入力部、１０５…文書データ記憶部、１０６…分類情報記憶部、２０１…置換部、２０２…二言語間辞書、２０３…第１言語文書データ記憶部、２０４…第１言語分類情報記憶部、２０５…第２言語文書データ記憶部、２０６…第２言語分類情報記憶部、３０１…単語入力部、４０１…拾い読み単語選択部。

【特許請求の範囲】
【請求項１】
識別情報が対応付けられた複数の文書を記憶するための文書記憶部と、
前記複数の文書のうちの全部又は一部を、単語又はフレーズのハイライト表示を伴って又はハイライト表示を伴わずに表示するための表示部と、
表示された前記文書のうちの特定の文書の指示及び予め定められた複数種類の分類タイプのうちから当該特定の文書に付与する特定の分類タイプの指示をユーザから入力するための入力部と、
前記識別情報と前記特定の分類タイプとを対応付けた分類情報を記憶する分類情報記憶部と、
同一の分類タイプが対応付けられている１又は複数の前記文書から、当該分類タイプについてハイライト表示すべき１又は複数の単語又はフレーズを抽出する抽出部と、
前記文書の全部又は一部の各々について、前記抽出部により抽出された各々の単語又はフレーズが当該文書中に存在する場合に当該文書中でハイライト表示すべき箇所を特定する特定部とを備えたことを特徴とする拾い読み支援システム。
【請求項２】
前記特定部は、前記特定の文書以外の前記文書の各々について、前記特定を行うことを特徴とする請求項１に記載の拾い読み支援システム。
【請求項３】
前記表示部は、前記ハイライト表示すべき箇所が特定される前は、前記複数の文書のうちの全部又は一部を、前記ハイライト表示を伴わずに表示し、前記ハイライト表示すべき箇所が特定された後は、前記複数の文書のうちの全部又は一部を表示するにあたって、当該文書中でハイライト表示すべき箇所が特定された前記単語又はフレーズを、当該分類タイプに対応するハイライト形態でハイライト表示することを特徴とする請求項１に記載の拾い読み支援システム。
【請求項４】
前記抽出部は、前記分類情報の内容が更新されたことを契機として、前記抽出部による前記抽出、前記特定部による前記特定及び前記表示部による表示内容の更新を行うことを特徴とする請求項１に記載の拾い読み支援システム。
【請求項５】
前記抽出部は、ユーザからの更新指示が入力されたことを契機として、前記抽出部による前記抽出、前記特定部による前記特定及び前記表示部による表示内容の更新を行うことを特徴とする請求項１に記載の拾い読み支援システム。
【請求項６】
前記表示部は、前記複数の文書のうちの全部又は一部を表示するにあたって、前記特定の文書の各々について、当該文書に付与された前記分類タイプを示す情報を併せて表示することを特徴とする請求項１に記載の拾い読み支援システム。
【請求項７】
前記文書記憶部に記憶された文書は、特定の言語で記述されたものであり、
前記拾い読み支援システムは、
識別情報が対応付けられた前記特定の言語とは異なる言語で記述された複数の文書を記憶するための異言語文書記憶部と、
前記異言語文書記憶部に記憶された全文書について前記識別情報と予めユーザにより付与された前記分類タイプとを対応付けた分類情報を記憶する異言語分類情報記憶部とを更に備え、
前記抽出部は、前記異言語文書記憶部に記憶された前記文書及び前記異言語分類情報記憶部に記憶された前記分類情報に基づく、前記ハイライト表示すべき１又は複数の前記特定の言語とは異なる言語による単語又はフレーズの抽出をも行い、
前記拾い読み支援システムは、
前記特定の言語とは異なる言語による単語又はフレーズを、前記特定の言語に置き換える置換部を更に備えたことを特徴とする請求項１に記載の拾い読み支援システム。
【請求項８】
前記抽出部は、所定の条件が成立するまでは、前記異言語文書記憶部に記憶された前記文書及び前記異言語分類情報記憶部に記憶された前記分類情報に基づいて抽出され前記置換部により前記特定の言語に置き換えられた前記単語又はフレーズのみ、又は、前記異言語文書記憶部に記憶された前記文書及び前記異言語分類情報記憶部に記憶された前記分類情報のみに基づいて抽出され前記置換部により前記特定の言語に置き換えられた前記単語又はフレーズと、前記文書記憶部に記憶された前記文書及び前記分類情報記憶部に記憶された前記分類情報に基づいて抽出された前記特定の言語による前記単語又はフレーズとをマージしたものを、前記抽出の結果とし、所定の条件が成立した後は、前記文書記憶部に記憶された前記文書及び前記分類情報記憶部に記憶された前記分類情報に基づいて抽出された前記特定の言語による前記単語又はフレーズのみを、前記抽出の結果とすることを特徴とする請求項７に記載の拾い読み支援システム。
【請求項９】
前記置換部は、複数の単語又はフレーズについて、前記特定の言語と前記特定の言語とは異なる言語との対応を登録した二言語間辞書を参照して、前記置き換えを行うものであり、
前記抽出部は、前記二言語間辞書において前記特定の言語と前記特定の言語とは異なる言語との対応が１対１対応である単語又はフレーズを優先的に抽出することを特徴とする請求項８に記載の拾い読み支援システム。
【請求項１０】
前記入力部を介して指示される前記分類タイプは、少なくとも適合文書に係る分類タイプ又は不適合文書に係る分類タイプを含むことを特徴とする請求項１に記載の拾い読み支援システム。
【請求項１１】
前記入力部を介して指示される前記分類タイプは、少なくとも複数人の担当者のそれぞれへの割り当て文書に係るそれぞれの分類タイプを含むことを特徴とする請求項１に記載の拾い読み支援システム。
【請求項１２】
単語又はフレーズをユーザから入力するための単語入力部を更に備え、
前記単語入力部を介して入力された前記単語又はフレーズを、前記抽出部により抽出された前記単語又はフレーズに加えて又はその代わりに利用することを特徴とする請求項１に記載の拾い読み支援システム。
【請求項１３】
前記抽出部は、前記単語又はフレーズの候補を抽出し、
前記拾い読み支援システムは、前記単語又はフレーズの候補を表示するとともに、該表示した候補のうち、前記単語又はフレーズの選択をユーザから入力するための単語選択部を更に備え、
前記抽出部は、前記単語又はフレーズの候補の一部を選択するにあたって、前記単語選択部を介して選択された前記単語又はフレーズをより選択され易くすることを特徴とする請求項１に記載の拾い読み支援システム。
【請求項１４】
前記文書は、目的とするドキュメント本文又はその要約文である請求項１に記載の拾い読み支援システム。
【請求項１５】
識別情報が対応付けられた複数の文書を記憶するための文書記憶部を備えた拾い読み支援システムの拾い読み支援方法であって、
前記複数の文書のうちの全部又は一部を、単語又はフレーズのハイライト表示を伴って又はハイライト表示を伴わずに表示し、
表示された前記文書のうちの特定の文書の指示及び予め定められた複数種類の分類タイプのうちから当該特定の文書に付与する特定の分類タイプの指示をユーザから入力し、
前記識別情報と前記特定の分類タイプとを対応付けた分類情報を記憶し、
同一の分類タイプが対応付けられている１又は複数の前記文書から、当該分類タイプについてハイライト表示すべき１又は複数の単語又はフレーズを抽出し、
前記文書の全部又は一部の各々について、前記抽出部により抽出された各々の単語又はフレーズが当該文書中に存在する場合に当該文書中でハイライト表示すべき箇所を特定することを特徴とする拾い読み支援方法。
【請求項１６】
識別情報が対応付けられた複数の文書を記憶するための文書記憶部を備えた拾い読み支援システムとしてコンピュータを機能させるためのプログラムであって、
識別情報が対応付けられた複数の文書を記憶するための文書記憶部と、
前記複数の文書のうちの全部又は一部を、単語又はフレーズのハイライト表示を伴って又はハイライト表示を伴わずに表示するための表示部と、
表示された前記文書のうちの特定の文書の指示及び予め定められた複数種類の分類タイプのうちから当該特定の文書に付与する特定の分類タイプの指示をユーザから入力するための入力部と、
前記識別情報と前記特定の分類タイプとを対応付けた分類情報を記憶する分類情報記憶部と、
同一の分類タイプが対応付けられている１又は複数の前記文書から、当該分類タイプについてハイライト表示すべき１又は複数の単語又はフレーズを抽出する抽出部と、
前記文書の全部又は一部の各々について、前記抽出部により抽出された各々の単語又はフレーズが当該文書中に存在する場合に当該文書中でハイライト表示すべき箇所を特定する特定部としてコンピュータを機能させるためのプログラム。

【図１】