説明

文書分析装置およびプログラム

【課題】ユーザにとって重要な文書が属するカテゴリの傾向を当該ユーザに提示することを可能とする。
【解決手段】重要文書指定部312は、ユーザの操作に応じて第1の文書を指定する。重要文書候補抽出部321は、第1の文書が属するカテゴリに属する第2の文書を特定する。重要文書候補抽出部321は、第1の文書と第2の文書との類似度を当該第1および第2の文書が属するカテゴリに基づいて算出し、当該類似度に基づいて第2の文書を重要文書候補として決定する。重要カテゴリ候補抽出部322は、カテゴリに属する重要文書候補として決定された第2の文書と第1の文書との類似度に基づいてカテゴリの重要度を算出し、当該重要度に基づいて当該カテゴリを重要カテゴリ候補として決定する。カテゴリ表示操作部311は、重要カテゴリ候補として決定されたカテゴリを提示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、ユーザにとって重要な文書が属するカテゴリの傾向を当該ユーザに対して提示する文書分析装置およびプログラムに関する。
【背景技術】
【0002】
近年の情報システムの高度化に伴い、例えば特許文献、新聞記事、ウェブページおよび書籍のような文書を電子化して大量に記憶(保存)することが可能となっている。
【0003】
そこで、このような大量の文書群を日々の業務に有効活用していくことが求められている。
【0004】
例えば過去の膨大な量の新聞記事を分類することによって多くの人が利用しやすいように整理する、または、研究開発している技術に関係のある自他社の特許群の傾向を分析して新たな研究開発分野を検討する、ということが考えられる。
【0005】
しかしながら、大量の文書群から関係のある文書を抽出する、当該文書群を内容が類似した文書毎(つまり、カテゴリ)に分類する、または、当該大量の文書群の内容の傾向等を分析する等の作業には多大な労力とコストかかる。
【0006】
そこで、これらの作業を支援するために、文書検索、文書分類および文書分析技術のような様々な技術が開発されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特許4240280号公報
【非特許文献】
【0008】
【非特許文献1】「情報検索と言語処理」 言語と計算5 東京大学出版会 pp39−43(1999) 徳永健伸、辻井潤一
【発明の概要】
【発明が解決しようとする課題】
【0009】
ここで、複数のカテゴリに分類されている大量の文書群の中から、例えばユーザに既に知られている当該ユーザにとって重要な文書(以下、既知の重要文書と表記)に基づいて当該ユーザにまだ知られていない当該ユーザにとって重要な文書(以下、未知の重要文書と表記)を検索する場合を想定する。
【0010】
この場合において、未知の重要文書がカテゴリ等に関係なく全ての文書群から検索されるような場合には、実際には重要でない文書であるにもかかわらず、例えば既知の重要文書に出現する単語が偶然出現するような文書が重要文書として検索される場合がある。
【0011】
ところで、複数のカテゴリに分類された文書群の中から例えばユーザが重要文書(当該ユーザにとって重要な文書)を選択(指定)するとき、当該ユーザは、1つのカテゴリにのみ着目して文書を閲覧することによって当該重要文書であるか否かの判断を行う場合が多い。つまり、ユーザが重要であると判断した文書(重要文書)が他にどのようなカテゴリに属しているかについて、当該ユーザが把握していることは少ない。
【0012】
したがって、例えばユーザによって指定されたカテゴリ(重要文書が含まれているとユーザが考えるカテゴリ)から未知の重要文書を検索するような場合には、ユーザによって指定されていないカテゴリ(つまり、重要文書が含まれているとユーザが気づいていないカテゴリ)から未知の重要文書を検索することができない。
【0013】
したがって、ユーザにとっての重要文書がどのようなカテゴリに多く属しているか等の傾向を把握することができれば、当該重要文書が含まれているとユーザが気づいていないカテゴリの発見とともに、当該傾向を用いて未知の重要文書を検索する(つまり、絞り込む)ことが可能となると考えられる。
【0014】
具体的には、自社の製品の基本となる技術について記述された重要な特許(文書)に基づいて当該製品にとって脅威となる他社の重要な特許を検索したいような場合に、重要な特許が「A社のB課題を解決する特許に多い」または「1995年にC社の出願が多い」という傾向を発見できれば、そのようなカテゴリに着目して絞り込むことで、他社の重要な特許を少ない労力で検索する(見つけ出す)ことが可能になると考えられる。
【0015】
そこで、ユーザにとって重要な文書が属するカテゴリの傾向を当該ユーザに提示することが可能な文書分析装置およびプログラムを提供することが目的とされる。
【課題を解決するための手段】
【0016】
実施形態に係る文書分析装置は、複数の文書が分類されるカテゴリ毎に、当該カテゴリを識別するためのカテゴリ識別情報および当該カテゴリに属する文書を対応づけて記憶する記憶手段を具備する。
【0017】
実施形態に係る文書分析装置は、ユーザの操作に応じて、前記記憶手段に記憶されている第1の文書を指定する重要文書指定手段を具備する。
【0018】
実施形態に係る文書分析装置は、前記指定された第1の文書に対応づけて前記記憶手段に記憶されているカテゴリ識別情報を特定する第1の特定手段を具備する。
【0019】
実施形態に係る文書分析装置は、前記第1の特定手段によって特定されたカテゴリ識別情報に対応づけて前記記憶手段に記憶されている第2の文書を特定する第2の特定手段を具備する。
【0020】
実施形態に係る文書分析装置は、前記指定された第1の文書と前記第2の特定手段によって特定された第2の文書との類似度を、当該第1の文書に対応づけて前記記憶手段に記憶されているカテゴリ識別情報および当該第2の文書に対応づけて前記記憶手段に記憶されているカテゴリ識別情報に基づいて算出する類似度算出手段を具備する。
【0021】
実施形態に係る文書分析装置は、前記類似度算出手段によって算出された類似度に基づいて、前記第2の特定手段によって特定された第2の文書を重要文書候補として決定する重要文書候補決定手段を具備する。
【0022】
実施形態に係る文書分析装置は、前記記憶手段に記憶されているカテゴリ識別情報によって識別されるカテゴリの重要度を、前記類似度算出手段によって算出された類似度のうち、当該カテゴリ識別情報に対応づけて前記記憶手段に記憶されている前記重要文書候補として決定された第2の文書と前記指定された第1の文書との類似度に基づいて算出する重要度算出手段を具備する。
【0023】
実施形態に係る文書分析装置は、前記重要度算出手段によって算出された重要度に基づいて、前記記憶手段に記憶されているカテゴリ識別情報によって識別されるカテゴリを重要カテゴリ候補として決定する重要カテゴリ候補決定手段を具備する。
【0024】
実施形態に係る文書分析装置は、前記重要カテゴリ候補として決定されたカテゴリを提示する提示手段を具備する。
【図面の簡単な説明】
【0025】
【図1】第1の実施形態に係る文書分析装置のハードウェア構成を示すブロック図。
【図2】図1に示す文書分析装置30の主として機能構成を示すブロック図。
【図3】図2に示す文書記憶部22に記憶されている文書のデータ構造の一例を示す図。
【図4】カテゴリの階層構造におけるルートのカテゴリに関する情報のデータ構造の一例を示す図。
【図5】カテゴリの階層構造における図4に示すカテゴリの子カテゴリに関する情報のデータ構造の一例を示す図。
【図6】カテゴリの階層構造における図5に示すカテゴリの子カテゴリに関する情報のデータ構造の一例を示す図。
【図7】カテゴリの階層構造における図4に示すカテゴリの子カテゴリに関する情報のデータ構造の一例を示す図。
【図8】カテゴリの階層構造における図7に示すカテゴリの子カテゴリに関する情報のデータ構造の一例を示す図。
【図9】カテゴリの階層構造における図8に示すカテゴリの子カテゴリに関する情報のデータ構造の一例を示す図。
【図10】本実施形態に係る文書分析装置30の処理手順を示すフローチャート。
【図11】カテゴリ表示操作部311によって表示される重要文書指定画面の一例を示す図。
【図12】図11に示す重要文書指定画面100において重要文書を指定する操作が行われた後の表示画面の一例を示す図。
【図13】重要文書候補抽出部321による重要文書候補抽出処理の処理手順を示すフローチャート。
【図14】重要文書候補抽出処理において実行されるカテゴリベクトル生成処理の処理手順を示すフローチャート。
【図15】重要カテゴリ候補抽出部322による重要カテゴリ候補抽出処理の処理手順を示すフローチャート。
【図16】カテゴリ表示操作部311によって重要カテゴリ候補が表示された場合の表示画面の一例を示す図。
【図17】関連重要カテゴリ候補抽出部323による関連重要カテゴリ候補抽出処理の処理手順を示すフローチャート。
【図18】カテゴリ表示操作部311によって関連重要カテゴリ候補が表示された場合の表示画面の一例を示す図。
【図19】図18に示す表示画面300において確認対象カテゴリが選択された場合の表示画面の一例を示す図。
【図20】第2の実施形態に係る文書分析装値の主として機能構成を示すブロック図。
【図21】本実施形態に係る文書分析装置40の処理手順を示すフローチャート。
【図22】重要文書集計部411による重要文書の集計結果の一例を示す図。
【発明を実施するための形態】
【0026】
以下、図面を参照して、各実施形態について説明する。
【0027】
(第1の実施形態)
図1は、第1の実施形態に係る文書分析装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書分析装置30を構成する。
【0028】
図2は、図1に示す文書分析装置30の主として機能構成を示すブロック図である。図2に示すように、文書分析装置30は、ユーザインタフェース部31および重要文書処理部32を含む。本実施形態において、これらの各部31および32は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が、例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
【0029】
また、文書分析装置30は、文書記憶部22およびカテゴリ記憶部23を含む。本実施形態において、文書記憶部22およびカテゴリ記憶部23は、例えば外部記憶装置20に格納される。
【0030】
文書記憶部22には、文書分析装置30における分析の対象となる複数の文書が格納されている。文書記憶部22に格納されている文書の各々は、例えば当該文書を識別するための文書番号(文書識別情報)および本文等を含む。
【0031】
カテゴリ記憶部23には、文書記憶部22に記憶されている複数の文書が分類される複数のカテゴリに関する情報が記憶されている。カテゴリ記憶部23には、カテゴリ毎に、当該カテゴリを識別するためのカテゴリ番号(カテゴリ識別情報)および当該カテゴリに分類されている文書(当該カテゴリに属する文書)を識別するための文書番号が記憶されている。なお、文書記憶部22に記憶されている複数の文書が分類される複数のカテゴリは、例えば階層構造を構成する。
【0032】
つまり、文書記憶部22およびカテゴリ記憶部23含む記憶部(図示せず)には、複数の文書が分類されるカテゴリ毎に、当該カテゴリを識別するためのカテゴリ識別情報および当該カテゴリに属する文書が対応づけて記憶されている。
【0033】
なお、文書記憶部22およびカテゴリ記憶部23は、例えばファイルシステムまたはデータベース等を用いて実現されても構わない。
【0034】
ユーザインタフェース部31は、カテゴリ表示操作部311、重要文書指定部312およびカテゴリ選択部313を含む。
【0035】
カテゴリ表示操作部311は、カテゴリ記憶部23を参照して、文書記憶部22に記憶されている複数の文書が分類されたカテゴリおよび当該カテゴリに属する文書をユーザに対して提示(表示)する。また、カテゴリ表示操作部311は、ユーザに対して提示されたカテゴリおよび文書に対する当該ユーザの操作を受け付ける機能を有する。これにより、ユーザは、カテゴリ表示操作部311によって提示されたカテゴリおよび文書を選択および指定することができる。
【0036】
カテゴリ表示操作部311は、例えばグラフィカル・ユーザ・インタフェース(GUI:Graphical User Interface)等の技術によって実現されても構わない。
【0037】
重要文書指定部312は、カテゴリ表示操作部311によって受け付けられたユーザの操作に応じて、文書記憶部22に記憶されている文書(第1の文書)を指定する。重要文書指定部312は、複数の文書を指定しても構わない。なお、重要文書指定部312によって指定される文書は、例えばユーザによって指定された当該ユーザにとって重要な文書(以下、重要文書と表記)である。
【0038】
カテゴリ選択部313は、カテゴリ表示操作部311によって受け付けられたユーザの操作に応じて、カテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリ(例えば、カテゴリ表示操作部311によって提示されたカテゴリ)を選択する機能を有する。
【0039】
重要文書処理部32は、重要文書候補抽出部321、重要カテゴリ候補抽出部322および関連重要カテゴリ候補抽出部323を含む。
【0040】
重要文書候補抽出部321は、重要文書指定部312によって指定された文書(重要文書)を用いて、文書記憶部22に記憶されている複数の文書の中から当該重要文書の候補(以下、重要文書候補と表記)を抽出する機能を有する。
【0041】
重要文書候補抽出部321は、重要文書指定部312によって指定された重要文書が属するカテゴリを特定する。この場合、重要文書候補抽出部321は、重要文書を識別するための文書番号に対応づけてカテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリを特定する。
【0042】
また、重要文書候補抽出部321は、特定されたカテゴリに属する文書(第2の文書)を特定する。この場合、重要文書候補抽出部321は、特定されたカテゴリを識別するためのカテゴリ番号に対応づけてカテゴリ記憶部23に記憶されている文書番号によって識別される文書を特定する。
【0043】
重要文書候補抽出部321は、重要文書と特定された文書との類似度を、当該重要文書を識別するための文書番号に対応づけてカテゴリ記憶部23に記憶されているカテゴリ番号および当該特定された文書を識別するための文書番号に対応づけてカテゴリ記憶部23に記憶されているカテゴリ番号に基づいて算出する。換言すれば、重要文書候補抽出部321は、重要文書と特定された文書との類似度を当該各文書が属するカテゴリに基づいて算出する。
【0044】
なお、重要文書候補抽出部321は、重要文書および特定された文書との類似度を算出する際、当該重要文書および特定された文書が属するカテゴリを表すカテゴリベクトル(後述する)を用いる。
【0045】
重要文書候補抽出部321は、算出された重要文書と特定された文書との類似度に基づいて、当該特定された文書を重要文書候補として決定する。
【0046】
重要カテゴリ候補抽出部322は、カテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリの中から、ユーザにとって重要な文書が属するカテゴリの候補(以下、重要カテゴリ候補と表記)を抽出する機能を有する。
【0047】
重要カテゴリ候補抽出部322は、重要文書候補抽出部321によって算出された類似度のうち、重要文書候補抽出部321によって重要文書候補として決定された文書(以下、単に重要文書候補と表記)と重要文書との類似度に基づいて、カテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリの重要度を算出する。なお、カテゴリの重要度は、当該カテゴリに属する重要文書候補と重要文書との類似度に基づいて算出される。
【0048】
重要カテゴリ候補抽出部322は、算出されたカテゴリの重要度に基づいて、当該カテゴリを重要カテゴリ候補として決定する。
【0049】
なお、重要カテゴリ候補抽出部322によって重要カテゴリ候補として決定されたカテゴリ(以下、単に重要カテゴリ候補と表記)は、カテゴリ表示操作部311を介してユーザに提示される。
【0050】
関連重要カテゴリ候補抽出部323は、重要カテゴリ候補抽出部322によって抽出(決定)された重要カテゴリ候補の中から例えばカテゴリ選択部313によって選択されたカテゴリと関連のあるカテゴリ(以下、関連重要カテゴリ候補と表記)を抽出する。この場合、関連重要カテゴリ候補抽出部322は、カテゴリ選択部313によって選択されたカテゴリに属する重要文書候補および重要カテゴリ候補に属する重要文書候補に基づいて、当該重要カテゴリ候補が関連重要カテゴリ候補であるか否かを判定する。
【0051】
なお、関連重要カテゴリ候補抽出部323によって抽出された関連カテゴリ候補は、カテゴリ表示操作部311によってユーザに提示される。
【0052】
図3は、図2に示す文書記憶部22に記憶されている文書のデータ構造の一例を示す。なお、図3に示す文書(文書記憶部22に記憶されている文書)は、例えば特許出願に係る文書(特許文書)であるものとする。
【0053】
図3に示すように、文書記憶部22に記憶されている文書には、文書番号、文書名、本文、出願人、出願日および重要度(を示す情報)が含まれる。文書番号は、文書を一意に識別するための文書識別情報である。文書名および本文は、文書番号によって識別される文書の名称(文書名)および当該文書の本文を示すテキストデータである。出願人は、文書番号によって識別される文書(特許文書)によってされた特許出願の出願人を示す。出願日は、文書番号によって識別される文書(特許文書)によってされた特許出願の出願日を示す。重要度は、文書番号によって識別される文書が例えば重要文書としてユーザによって指定(設定)されているか否かを示す。なお、文書に含まれる出願人および出願日は、当該文書(特許文書)の属性データである。
【0054】
図3に示す例では、文書記憶部22には、文書221が記憶されている。文書221には、文書番号「d0001」、当該文書221の文書名および本文、出願人「A社」、出願日「2006/01/25」および重要度「重要」が含まれている。
【0055】
これによれば、文書番号「d0001」によって識別される文書(特許文書)221によってされた特許出願の出願人はA社であり、当該文書221によってされた特許出願の出願日は2006年1月25日であることが示される。また、文書221が重要文書としてユーザによって指定されていることが示される。
【0056】
なお、図3に示す例では、文書221には重要度「重要」が含まれるものとして説明したが、文書に含まれる重要度には、「重要」以外に「不要」および「なし」が含まれる。重要度「不要」は、例えば文書番号によって識別される文書が不要な文書(不要文書)としてユーザによって指定されていることを示す。また、重要度「なし」は、例えば文書が重要文書であるか不要文書であるか等がユーザによって指定されていない(つまり、設定されていない)ことを示す。
【0057】
ここでは、重要度が「重要」、「不要」および「なし」の値をとるものとして説明したが、当該重要度は、重要である度合いに応じて例えば5段階の数値によって示されても構わない。
【0058】
図4〜図9は、図2に示すカテゴリ記憶部23に記憶されている階層構造を構成するカテゴリ(に関する情報)のデータ構造の一例を示す。図4〜図9に示すように、カテゴリ記憶部23には、カテゴリ毎に、カテゴリ番号、親カテゴリ番号、カテゴリ名および文書番号が対応づけて記憶されている。
【0059】
カテゴリ番号は、カテゴリを一意に識別するためのカテゴリ識別情報である。親カテゴリ番号は、カテゴリの階層構造においてカテゴリ番号によって識別されるカテゴリの上位に位置するカテゴリ(つまり、親カテゴリ)を識別するためのカテゴリ識別情報である。カテゴリ名は、カテゴリ番号によって識別されるカテゴリの名称を示すテキストデータである。文書番号は、カテゴリ番号によって識別されるカテゴリに属する(分類された)文書を識別するための文書識別情報である。
【0060】
図4は、カテゴリの階層構造におけるルートのカテゴリを示す。図4に示すカテゴリにおいては、カテゴリ番号「c01」がカテゴリ記憶部23に記憶されている。図4に示すカテゴリはルートのカテゴリであるため、親カテゴリを持たない(つまり、カテゴリ番号「c01」に対応づけて親カテゴリ番号は記憶されていない)。また、図4に示す例では文書番号が記憶されていないため、カテゴリ番号「c01」によって識別されるカテゴリ(ルートのカテゴリ)には、文書が分類されていない(つまり、当該カテゴリに属する文書は存在しない)ことが示される。
【0061】
図5は、カテゴリの階層構造における図4に示すカテゴリの子カテゴリ(カテゴリの階層構造において図4に示すカテゴリの下位に位置するカテゴリ)を示す。図5に示すカテゴリにおいては、カテゴリ番号「c02」、親カテゴリ番号「c01」およびカテゴリ名「出願人別」がカテゴリ記憶部23に対応づけて記憶されている。
【0062】
これによれば、カテゴリの階層構造においてカテゴリ番号「c02」によって識別されるカテゴリの上位に位置する親カテゴリは、親カテゴリ番号「c01」によって識別されるカテゴリ(つまり、図4に示すカテゴリ)であることが示される。また、カテゴリ番号「c02」によって識別されるカテゴリの名称(カテゴリ名)は、「出願人別」であることが示される。なお、図5に示す例では文書番号が記憶されていないため、カテゴリ番号「c02」によって識別されるカテゴリには、文書が分類されていない(つまり、当該カテゴリに属する文書は存在しない)ことが示される。
【0063】
図6は、カテゴリの階層構造における図5に示すカテゴリの子カテゴリを示す。図6に示すカテゴリにおいては、カテゴリ番号「c04」、親カテゴリ番号「c02」、カテゴリ名「T社」および文書番号「d15,d23,d36,…」がカテゴリ記憶部23に対応づけて記憶されている。
【0064】
これによれば、カテゴリの階層構造においてカテゴリ番号「c04」によって識別されるカテゴリの上位に位置する親カテゴリは、親カテゴリ番号「c02」によって識別されるカテゴリ(つまり、図5に示すカテゴリ)であることが示される。また、カテゴリ番号「c04」によって識別されるカテゴリの名称(カテゴリ名)は、「T社」であることが示される。更に、カテゴリ番号「c04」によって識別されるカテゴリには、文書番号「d15」、「d23」および「d36」によって識別される文書が属する(分類されている)ことが示される。
【0065】
なお、図6に示すように、カテゴリ記憶部23には、カテゴリに分類される文書が満たすべき条件が記憶されていても構わない。図6に示す例では、カテゴリ記憶部23には、条件「出願人=“T社”」が記憶されている。これによれば、上記したように文書に含まれる出願人がT社である文書でなければカテゴリ番号「c04」によって識別されるカテゴリには分類されないことが示される。つまり、例えば上記した図3に示す文書221は、当該文書221に含まれる出願人がA社であるため、カテゴリ番号「c04」によって識別されるカテゴリには分類されない。
【0066】
図6に示す例では、文書番号および条件が対応づけてカテゴリ記憶部23に記憶されているものとして説明したが、例えば文書番号は明示的に列挙せずに条件のみが記憶されていても構わない。
【0067】
図7は、カテゴリの階層構造における図4に示すカテゴリの子カテゴリを示す。図7に示すカテゴリにおいては、カテゴリ番号「c03」、親カテゴリ番号「c01」およびカテゴリ名「技術別」がカテゴリ記憶部23に対応づけて記憶されている。
【0068】
これによれば、カテゴリの階層構造においてカテゴリ番号「c03」によって識別されるカテゴリの上位に位置する親カテゴリは、親カテゴリ番号「c01」によって識別されるカテゴリ(つまり、図4に示すカテゴリ)であることが示される。また、カテゴリ番号「c03」によって識別されるカテゴリの名称(カテゴリ名)は、「技術別」であることが示される。なお、図7に示す例では、文書番号が記憶されていないため、カテゴリ番号「c03」によって識別されるカテゴリには、文書が分類されていない(つまり、当該カテゴリに属する文書は存在しない)ことが示される。
【0069】
図8は、カテゴリの階層構造における図7に示すカテゴリの子カテゴリを示す。図8に示すカテゴリにおいては、カテゴリ番号「c31」、親カテゴリ番号「c03」、カテゴリ名「対話分類」および文書番号「d07,d23,d58,…」がカテゴリ記憶部23に対応づけて記憶されている。
【0070】
これによれば、カテゴリの階層構造においてカテゴリ番号「c31」によって識別されるカテゴリの上位に位置する親カテゴリは、親カテゴリ番号「c03」によって識別されるカテゴリ(つまり、図7に示すカテゴリ)であることが示される。また、カテゴリ番号「c31」によって識別されるカテゴリの名称(カテゴリ名)は、「対話分類」であることが示される。更に、カテゴリ番号「c31」によって識別されるカテゴリには、文書番号「d07」、「d23」および「d58」によって識別される文書が属する(分類されている)ことが示される。
【0071】
図9は、カテゴリの階層構造における図8に示すカテゴリの子カテゴリを示す。図9に示すカテゴリにおいては、カテゴリ番号「c43」、親カテゴリ番号「c31」、カテゴリ名「教師あり分類」および文書番号「d15,d32,d69,…」がカテゴリ記憶部23に対応づけて記憶されている。
【0072】
これによれば、カテゴリの階層構造においてカテゴリ番号「c43」によって識別されるカテゴリの上位に位置する親カテゴリは、親カテゴリ番号「c31」によって識別されるカテゴリ(つまり、図8に示すカテゴリ)であることが示される。また、カテゴリ番号「c43」によって識別されるカテゴリの名称(カテゴリ名)は、「教師あり分類」であることが示される。更に、カテゴリ番号「c43」によって識別されるカテゴリには、文書番号「d15」、「d32」および「d69」によって識別される文書が属する(分類されている)ことが示される。
【0073】
なお、上記した図4〜図9に示すカテゴリに示すように、同一の文書が複数のカテゴリに属していても構わない。例えば文書番号「d15」によって識別される文書は、図6に示すカテゴリ番号「c04」によって識別されるカテゴリおよび図9に示すカテゴリ番号「c43」によって識別されるカテゴリの両方に属している(分類されている)。また、例えば文書番号「d23」によって識別される文書は、図6に示すカテゴリ番号「c04」によって識別されるカテゴリおよび図8に示すカテゴリ番号「c31」によって識別されるカテゴリの両方に属している(分類されている)。
【0074】
次に、図10のフローチャートを参照して、本実施形態に係る文書分析装置30の処理手順について説明する。
【0075】
まず、ユーザインタフェース部31に含まれるカテゴリ表示操作部311は、ユーザにとって重要な文書(重要文書)を指定(選択)するための画面(以下、重要文書指定画面と表記)を表示する(ステップS1)。
【0076】
この重要文書指定画面には、例えばカテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリおよび当該カテゴリ番号に対応づけてカテゴリ記憶部23に記憶されている文書番号によって識別される文書(に含まれる文書名および本文)が表示される。
【0077】
ここで、図11は、カテゴリ表示操作部311によって表示される重要文書指定画面の一例を示す。
【0078】
図11に示す重要文書指定画面100においては、領域101〜103が設けられている。
【0079】
領域101には、カテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリが、当該カテゴリの名称(つまり、カテゴリ名)とともに階層構造で表示される。
【0080】
領域102には、領域101において表示されているカテゴリの中でユーザによって指定されたカテゴリに属する文書の文書名が表示される。つまり、領域102には、ユーザによって指定されたカテゴリを識別するカテゴリ番号に対応づけてカテゴリ記憶部23に記憶されている文書番号によって識別される文書の各々に含まれる文書名の一覧が表示される。なお、文書名は、文書記憶部22に記憶されている文書の各々に含まれている。図11に示す重要文書指定画面100においては、領域101において表示されているカテゴリのうちのカテゴリ「対話分類」に属する文書の文書名が表示されている。
【0081】
領域103には、領域102において表示されている文書(の文書名)の中でユーザによって指定された文書に含まれる本文が表示される。なお、本文は、文書記憶部22に記憶されている文書に含まれている。図11に示す重要文書指定画面100においては、領域102において表示されている文書名の一覧のうちの文書名が「文書分類方法および装置」である文書の本文が表示されている。
【0082】
上記したような重要文書指定画面100が表示されると、ユーザは、当該重要文書指定画面100を参照することによってカテゴリ(分類結果)および文書の内容(文書名および本文等)を確認し、例えば文書分析装置30に対して重要文書(当該ユーザにとって重要な文書)を指定する操作を行うことができる。
【0083】
文書分析装置30に対して重要文書を指定する操作がユーザによって行われた場合、当該ユーザの操作は、カテゴリ表示操作部311によって受け付けられる。
【0084】
重要文書指定部312は、カテゴリ表示操作部311によって受け付けられたユーザの操作に応じて、文書記憶部22に記憶されている文書の中から重要文書を指定する(ステップS2)。
【0085】
なお、重要文書指定部312によって重要文書が指定されると、当該指定結果が文書記憶部22に記憶される。具体的には、文書記憶部22に記憶されている重要文書指定部312によって指定された重要文書に含まれる重要度が「重要」に変更される。これにより、重要文書指定部312によって指定された文書(重要文書)は、ユーザにとって重要な文書である旨が設定される。
【0086】
ここで、図12は、上記した図11に示す重要文書指定画面100において重要文書を指定する操作が行われた後の表示画面の一例を示す。
【0087】
重要文書指定画面100において例えば領域102に表示されている文書(の文書名)を重要文書として指定する操作がユーザによって行われた場合には、図12に示すように、当該文書名の例えば左側に当該文書が重要文書として指定(設定)された旨を示すマーク104が表示される。
【0088】
図12に示す例では、例えば文書名が「文書分類方法および装置」および「テキスト自動分類方式」である文書が重要文書として指定されたことが示されている。
【0089】
次に、重要文書処理部32に含まれる重要文書候補抽出部321は、重要文書指定部312によって指定された重要文書に基づいて、文書記憶部22に記憶されている文書の中から重要文書の候補(重要文書候補)を抽出する処理(以下、重要文書候補抽出処理と表記)を実行する(ステップS3)。
【0090】
重要文書候補抽出処理においては、重要文書指定部312によって指定された重要文書が属するカテゴリを表すベクトルと当該重要文書候補抽出処理の対象となる文書(後述する)が属するカテゴリを表すベクトルとの類似度が算出され、当該類似度に基づいて重要文書候補が決定される。なお、重要文書候補抽出処理の詳細については後述する。
【0091】
重要カテゴリ候補抽出部322は、重要文書候補抽出部321によって抽出された重要文書候補および重要文書候補抽出部321によって算出された類似度(当該重要文書候補と重要文書との類似度)に基づいて、カテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリの中からユーザにとって重要な文書が属するカテゴリの候補(重要カテゴリ候補)を抽出する処理(以下、重要カテゴリ候補抽出処理と表記)を実行する(ステップS4)。
【0092】
重要カテゴリ候補抽出処理においては、カテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリの各々の重要度が重要文書候補抽出部321によって算出された重要文書候補と重要文書との類似度に基づいて算出され、当該重要度に基づいて重要カテゴリ候補が決定される。
【0093】
カテゴリの重要度は、カテゴリの各々に属する重要文書候補と重要文書との類似度の和(合計値)に対する、当該カテゴリに属する重要文書候補と重要文書との類似度の割合として算出される。なお、重要カテゴリ候補抽出処理の詳細については後述する。
【0094】
次に、カテゴリ表示操作部311は、重要カテゴリ候補抽出部322によって抽出された重要カテゴリ候補を提示(表示)する(ステップS5)。この場合、カテゴリ表示操作部311は、上記した重要カテゴリ候補抽出処理において算出されたカテゴリ(重要カテゴリ候補)の重要度に応じて当該重要カテゴリ候補を表示する。なお、重要カテゴリ候補が表示される際の具体例については後述する。
【0095】
ここで、ユーザは、カテゴリ表示操作部311によって提示された重要カテゴリ候補のうちの1つを選択する操作を例えば文書分析装置30に対して行うことができる。この場合、ユーザは、例えば重要文書が含まれているかを確認したいカテゴリ(重要カテゴリ候補)を選択する。
【0096】
文書分析装置30に対して重要カテゴリ候補のうちの1つを選択する操作が行われた場合、当該ユーザの操作は、カテゴリ表示操作部311によって受け付けられる。
【0097】
カテゴリ選択部313は、カテゴリ表示操作部311によって受け付けられたユーザの操作に応じて、重要カテゴリ候補抽出部322によって抽出された重要カテゴリ候補のうちの1つを選択する(ステップS6)。以下、カテゴリ選択部313によって選択された重要カテゴリ候補を選択重要カテゴリ候補と称する。
【0098】
次に、関連重要カテゴリ候補抽出部323は、重要カテゴリ候補抽出部322によって抽出された重要カテゴリ候補(選択重要カテゴリ候補以外の重要カテゴリ候補)の中から当該選択重要カテゴリ候補と関連のある(関連が高い)重要カテゴリ候補(関連重要カテゴリ候補)を抽出する処理(以下、関連重要カテゴリ候補抽出処理と表記)を実行する(ステップS7)。
【0099】
関連重要カテゴリ候補抽出処理においては、選択重要カテゴリ候補に属する重要文書候補および当該選択重要カテゴリ候補以外の重要カテゴリ候補の各々に属する重要文書候補に基づいて、当該重要カテゴリ候補が関連重要カテゴリ候補であるか否かが判定される。なお、関連重要カテゴリ候補抽出処理の詳細については後述する。
【0100】
カテゴリ表示操作部311は、関連重要カテゴリ候補抽出部323によって抽出された関連重要カテゴリ候補を提示(表示)する(ステップS8)。この場合、カテゴリ表示操作部311は、関連重要カテゴリ候補とともに、当該関連重要カテゴリ候補に属する重要文書候補(および重要文書)の数を表示する。なお、関連重要カテゴリ候補に属する重要文書候補および重要文書の数は、当該関連重要カテゴリ候補を識別するためのカテゴリ番号と当該重要文書候補および重要文書を識別するための文書番号とを元にカテゴリ記憶部23を参照することによって特定される。
【0101】
ここで、ユーザは、カテゴリ表示操作部311によって提示された重要カテゴリ候補および関連重要カテゴリ候補のうち、例えば重要文書が存在するか否かを確認したいカテゴリを選択する操作を例えば文書分析装置30に対して行うことができる。
【0102】
文書分析装置30に対して重要文書が存在するか否かを確認したいカテゴリを選択する操作が行われた場合、当該ユーザの操作は、カテゴリ表示操作部311によって受け付けられる。
【0103】
ここで、カテゴリ表示操作部311は、重要文書が存在するか否かを確認したいカテゴリを選択する操作が受け付けられたか、つまり、ユーザによって当該カテゴリが選択されたか否かを判定する(ステップS9)。
【0104】
重要文書が存在するか否かを確認したいカテゴリを選択する操作が受け付けられたと判定された場合(ステップS9のYES)、カテゴリ選択部313は、カテゴリ表示操作部311によって受け付けられた当該操作に応じて、重要カテゴリ候補および関連重要カテゴリ候補の中からカテゴリ(ユーザが重要文書が存在するか否かを確認したいカテゴリ)を選択する。
【0105】
次に、カテゴリ表示操作部311は、カテゴリ選択部313によって選択されたカテゴリに属する文書を提示(表示)する(ステップS10)。この場合、カテゴリ表示操作部311は、カテゴリ選択部313によって選択されたカテゴリを識別するためのカテゴリ番号に対応づけてカテゴリ記憶部23に記憶されている文書番号によって識別される文書に含まれる例えば文書名を文書記憶部22から取得し、当該文書名の一覧を表示する。
【0106】
なお、カテゴリ選択部313によって選択されたカテゴリに属する文書(の文書名)が表示される場合、例えば重要文書指定部312によって指定された重要文書および重要文書候補抽出部321によって抽出された重要文書候補が上位に表示される。また、重要文書候補抽出部321によって抽出された重要文書候補は、重要文書との類似度(重要文書候補抽出部321によって算出された類似度)が高い順に表示される。
【0107】
ユーザは、カテゴリ表示操作部311によって表示された文書(ユーザが重要文書が存在するか否かを確認したいカテゴリに属する文書)を確認することによって、当該文書の中から重要文書を指定することができる。当該文書の中に、重要文書が存在すれば(ステップS11のYES)、ユーザは重要文書を指定し、文書分析装置30はステップS3以降の処理を繰り返す。重要文書が存在しなければ(ステップS11のNO)、文書分析装置30の処理は終了される。このように、重要文書指定部312によって指定された重要文書を元に、ユーザが重要文書を指定し、カテゴリ表示操作部311は再びカテゴリに属する文書の候補を提示する。このような処理を繰り返すことで、ユーザは重要文書の傾向が徐々に明確になっていく。
【0108】
一方、重要文書が存在するか否かを確認したいカテゴリを選択する操作が受け付けられていないと判定された場合(ステップS9のNO)、文書分析装置30の処理は終了される。
【0109】
次に、図13のフローチャートを参照して、重要文書候補抽出部321による重要文書候補抽出処理(図10に示すステップS3の処理)の処理手順について説明する。
【0110】
まず、ステップS21〜ステップS25の処理において、前述した重要文書指定部311によって指定された重要文書が属するカテゴリ(の頻度)を表すベクトル(カテゴリベクトル)が生成される。
【0111】
重要文書候補抽出部321は、重要文書指定部311によって指定された重要文書の集合(以下、重要文書集合Dd´と表記)のカテゴリベクトル(以下、カテゴリベクトルvdd´と表記)を空とする(ステップS21)。
【0112】
次に、重要文書候補抽出部321は、重要文書集合Dd´中の重要文書の各々について、以下のステップS22およびS23の処理を実行する。以下、この処理の対象となる重要文書を重要文書d´とする。
【0113】
重要文書候補抽出部321は、重要文書d´が属するカテゴリを表すカテゴリベクトルvd´を生成する処理(以下、カテゴリベクトル生成処理と表記)を実行する(ステップS22)。
【0114】
このカテゴリベクトル生成処理においては、例えばカテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリの各々を次元とするベクトルが生成される。なお、カテゴリベクトル生成処理の詳細については後述する。
【0115】
次に、重要文書候補抽出部321は、カテゴリベクトルvdd´にカテゴリベクトル生成処理において生成された重要文書d´のカテゴリベクトルvd´を加算する(ステップS23)。
【0116】
重要文書候補抽出部321は、重要文書集合Dd´中の全ての重要文書について上記したステップS22およびS23の処理が実行されたか否かを判定する(ステップS24)。
【0117】
重要文書集合Dd´中の全ての重要文書について処理が実行されていないと判定された場合(ステップS24のNO)、上記したステップS22に戻って処理が繰り返される。この場合、ステップS22およびS23の処理が実行されていない重要文書集合Dd´中の重要文書を重要文書d´として処理が実行される。
【0118】
このように、ステップS22およびS23の処理が重要文書集合Dd´中の重要文書の各々について繰り返されることによって当該重要文書集合Dd´のカテゴリベクトルvdd´が生成される。
【0119】
ステップS24において重要文書集合Dd´中の全ての重要文書について処理が実行されたと判定された場合、重要文書候補抽出部321は、生成されたカテゴリベクトルvdd´の各次元の値をノルム|vdd´|で割ることによって、当該カテゴリベクトルvdd´を正規化する(ステップS25)。この結果、カテゴリベクトルvdd´は、ノルムが1のベクトルとなる。
【0120】
次に、ステップS26の処理において、以下のステップS27〜S31の処理の対象となる文書(前述した重要文書候補抽出処理の対象となる文書)の集合(以下、対象文書集合Ddと表記)が特定される。
【0121】
重要文書候補抽出部321は、上記した重要文書集合Dd´中の重要文書の各々が属するカテゴリを特定する。この場合、重要文書候補抽出部321は、重要文書集合Dd´中の重要文書の各々を識別する文書番号に対応づけてカテゴリ記憶部23に記憶されているカテゴリ番号(によって識別されるカテゴリ)を特定する。
【0122】
重要文書候補抽出部321は、特定されたカテゴリ番号によって識別されるカテゴリのうちの少なくとも1つに属する文書の集合を対象文書集合Ddとして特定する(ステップS26)。この場合、重要文書候補抽出部321は、特定されたカテゴリ番号に対応づけてカテゴリ記憶部23に記憶されている文書番号によって識別される文書の集合を対象文書集合Ddとする。
【0123】
つまり、対象文書集合Ddは、重要文書集合Dd´中の重要文書の各々が属するカテゴリのうちの少なくとも1つに属する文書の集合である。
【0124】
次に、ステップS27〜S32の処理によって対象文書集合Dd中から重要文書候補となる文書が抽出される。
【0125】
重要文書候補抽出部321は、対象文書集合Dd中の文書の各々について、以下のステップS27〜S31の処理を実行する。以下、この処理の対象となる文書を対象文書dとする。
【0126】
重要文書候補抽出部321は、対象文書dが属するカテゴリを表すカテゴリベクトルvdを生成する処理(カテゴリベクトル生成処理)を実行する(ステップS27)。このステップS27においては、上記したステップS22におけるカテゴリベクトル生成処理と同様の処理が対象文書dに対して実行される。つまり、カテゴリベクトル生成処理によって、カテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリの各々を次元とするベクトルが生成される。
【0127】
重要文書候補抽出部321は、生成されたカテゴリベクトルvdの各次元の値をノルム|vd|で割ることによって、当該カテゴリベクトルvdを正規化する(ステップS28)。この結果、カテゴリベクトルvdは、ノルムが1のベクトルとなる。
【0128】
次に、重要文書候補抽出部321は、上記したステップS25において正規化されたカテゴリベクトルvdd´とステップS28において正規化されたカテゴリベクトルvdとの類似度(以下、類似度sと表記)を算出する(ステップS29)。この類似度sは、例えばカテゴリベクトルvdd´およびカテゴリベクトルvdの余弦値である。
【0129】
重要文書候補抽出部321は、算出された類似度sが予め定められた値(以下、閾値と表記)以上であるか否かを判定する(ステップS30)。
【0130】
類似度sが閾値以上であると判定された場合(ステップS30のYES)、重要文書候補抽出部321は、対象文書dを重要文書候補として決定する。
【0131】
この場合、重要文書候補抽出部321は、対象文書d(を識別するための文書番号)およびステップS29において算出された類似度sを対応づけてリスト(変数list)に格納する(ステップS31)。
【0132】
一方、類似度sが閾値以上でないと判定された場合(ステップS30のNO)、以下のステップS31の処理は実行されない。
【0133】
重要文書候補抽出部321は、対象文書集合Dd中の全ての文書について上記したステップS27〜S31の処理が実行されたか否かを判定する(ステップS32)。
【0134】
対象文書集合Dd中の全ての文書について処理が実行されていないと判定された場合(ステップS32のNO)、上記したステップS27に戻って処理が繰り返される。この場合、ステップS27〜S31の処理が実行されていない対象文書集合Dd中の文書を対象文書dとして処理が実行される。
【0135】
一方、対象文書集合Dd中の全ての文書について処理が実行されたと判定された場合(ステップS32のNO)、重要文書候補抽出処理は終了される。
【0136】
なお、上記したステップS31においてリストに格納された文書(の各々)が、重要文書候補抽出処理において抽出された重要文書候補である。このステップS31において重要文書候補および類似度が格納されたリスト(以下、重要文書候補リストと表記)は、以下に説明する重要カテゴリ候補抽出処理において用いられる。
【0137】
次に、図14のフローチャートを参照して、上述した重要文書候補抽出処理において実行されるカテゴリベクトル生成処理(図13に示すステップS22およびS27の処理)の処理手順について説明する。
【0138】
以下、カテゴリベクトル生成処理の対象となる文書を文書dとして説明する。なお、図13に示すステップS22においてカテゴリベクトル生成処理の対象となる文書とは重要文書d´である。また、図13に示すステップS27においてカテゴリベクトル生成処理の対象となる文書とは対象文書dである。
【0139】
まず、重要文書候補抽出部321は、文書dが属するカテゴリを表すカテゴリベクトル(以下、カテゴリベクトルvdと表記)を空とする(ステップS41)。
【0140】
次に、重要文書候補抽出部321は、文書dが属するカテゴリ(つまり、文書dを識別するための文書番号に対応づけてカテゴリ記憶部23に記憶されているカテゴリ識別番号によって識別されるカテゴリ)の各々について、以下のステップS42およびS43の処理を実行する。以下、この処理の対象となるカテゴリをカテゴリcとする。
【0141】
重要文書候補抽出部321は、文書記憶部22およびカテゴリ記憶部23を参照して、カテゴリcが不要なカテゴリ(以下、不要カテゴリと表記)であるか否かを判定する(ステップS42)。
【0142】
ここで、不要カテゴリとは、当該カテゴリに属する文書の全てについて重要度「不要」が設定されているカテゴリをいう。つまり、ステップS42の処理は、カテゴリcを識別するためのカテゴリ番号に対応づけてカテゴリ記憶部22に記憶されている文書番号を特定し、文書記憶部22に記憶されている当該文書番号によって識別される文書に含まれる重要度を参照することによって実行される。
【0143】
カテゴリcが不要カテゴリでないと判定された場合(ステップS42のNO)、重要文書候補抽出部321は、カテゴリcをカテゴリベクトルvdにおける1つの次元とし、当該次元の値を1とする(ステップS43)。
【0144】
次に、重要文書候補抽出部321は、文書dが属する全てのカテゴリについて上記したステップS42およびS43の処理が実行されたか否かを判定する(ステップS44)。
【0145】
文書dが属する全てのカテゴリについて処理が実行されていないと判定された場合(ステップS44のNO)、上記したステップS42に戻って処理が繰り返される。この場合、ステップS42およびS43の処理が実行されていない文書dが属するカテゴリをカテゴリcとして処理が実行される。
【0146】
一方、文書dが属する全てのカテゴリについて処理が実行されたと判定された場合(ステップS44のYES)、カテゴリベクトル生成処理は終了される。
【0147】
なお、上記したステップS42においてカテゴリcが不要カテゴリであると判定された場合には、ステップS43の処理は実行されず、ステップS44の処理が実行される。
【0148】
上記したカテゴリベクトル生成処理によって生成される文書dのカテゴリベクトル(当該文書dが属するカテゴリを表すカテゴリベクトル)vdは、当該文書dが属するカテゴリであって不要カテゴリでないカテゴリの各々を1つの次元とし、当該各次元の値が1であるベクトルである。
【0149】
ここで、上述した重要文書候補抽出処理について具体的に説明する。ここでは、重要文書指定部311によって第1〜第4の重要文書が指定されているものとする。また、第1の重要文書は、カテゴリA、B、C、DおよびEに属するものとする。第2の重要文書は、カテゴリA、C、F、GおよびHに属するものとする。第3の重要文書は、カテゴリB、C、E、GおよびIに属するものとする。第4の重要文書は、カテゴリA、C、E、GおよびIに属するものとする。
【0150】
この場合における重要文書集合Dd´のカテゴリベクトルvdd´(つまり、第1〜第4の重要文書の各々が属するカテゴリの頻度を表すカテゴリベクトル)は、「カテゴリA:3、カテゴリB:2、カテゴリC:4、カテゴリD:1、カテゴリE:3、カテゴリF:1、カテゴリG:3、カテゴリH:1、カテゴリI:2」となる。重要文書集合Dd´のカテゴリベクトルvdd´は、第1〜第4の重要文書の各々のカテゴリベクトル(vd´)の合計である。
【0151】
重要文書候補抽出処理においては、第1〜第4の重要文書の各々が属するカテゴリA〜Iのうちの少なくとも1つに属する文書の各々を対象文書として、当該対象文書のカテゴリベクトル(vd)が生成される。次に、対象文書のカテゴリベクトルvdと重要文書集合Dd´のカテゴリベクトルvdd´との類似度sが算出され、当該類似度sが閾値以上である場合に当該対象文書は重要文書候補として決定(抽出)される。
【0152】
ここで、重要文書候補抽出処理において第1〜第3の重要文書候補が抽出されたものとする。
【0153】
第1の重要文書候補は、カテゴリA、C、GおよびEに属する文書であって、当該第1の重要文書候補のカテゴリベクトルvdと重要文書集合Dd´のカテゴリベクトルvdd´との類似度は、例えば0.86で閾値以上である。したがって、第1の重要文書候補は、重要文書候補抽出処理において抽出される。
【0154】
第2の重要文書候補は、カテゴリA、C、F、GおよびEに属する文書であって、当該第2の重要文書候補のカテゴリベクトルvdと重要文書集合Dd´のカテゴリベクトルvdd´との類似度は、例えば0.83で閾値以上である。したがって、第2の重要文書候補は、重要文書候補抽出処理において抽出される。
【0155】
また、第3の重要文書候補は、カテゴリB、C、DおよびHに属する文書であって、当該第3の重要文書候補のカテゴリベクトルvdと重要文書集合Dd´のカテゴリベクトルvdd´との類似度は、例えば0.64で閾値以上である。したがって、第3の重要文書候補は、重要文書候補抽出処理において抽出される。
【0156】
つまり、重要文書候補抽出処理においては、重要文書が属するカテゴリと同じカテゴリに多く属する文書、すなわち重要文書と同じ観点に多く属する文書が重要文書候補として抽出される。
【0157】
よって、上記した第1〜第4の重要文書の各々が属するカテゴリA〜I以外のカテゴリに多く属するような文書は、当該文書のカテゴリベクトルvdと重要文書集合Dd´のカテゴリベクトルvdd´との類似度は低く、重要文書候補としては抽出されない。
【0158】
次に、図15のフローチャートを参照して、重要カテゴリ候補抽出部322による重要カテゴリ候補抽出処理(図10に示すステップS4の処理)の処理手順について説明する。
【0159】
重要カテゴリ候補抽出処理においては、後述するようにカテゴリ記憶部23に記憶されているカテゴリの各々の重要度が算出され、当該重要度に基づいて当該カテゴリの中から重要文書が属するカテゴリの候補(重要カテゴリ候補)が抽出される。
【0160】
なお、重要カテゴリ候補抽出処理においては、上記した重要文書候補リストが用いられる。重要文書候補リストには、上記したように重要文書候補(を識別するための文書番号)および当該重要文書候補のカテゴリベクトルと上記した重要文書集合のカテゴリベクトルとの類似度(以下、単に当該重要文書候補の類似度と表記)が対応づけて格納されている。
【0161】
まず、重要カテゴリ候補抽出部322は、カテゴリ記憶部23に記憶されているカテゴリ番号によって識別される全てのカテゴリの集合(以下、カテゴリ集合Dcと表記)のスコア(以下、スコアsdcと表記)を空とする(ステップS51)。このカテゴリ集合Dcのスコアsdcは、後述するようにカテゴリの重要度の算出に用いられる。
【0162】
次に、重要カテゴリ候補抽出部322は、カテゴリ集合Dc中のカテゴリの各々について、以下のステップS52〜S56の処理を実行する。以下、この処理の対象となるカテゴリをカテゴリcとする。
【0163】
重要カテゴリ候補抽出部322は、カテゴリcのスコア(以下、スコアscと表記)を空とする(ステップS52)。
【0164】
次に、重要カテゴリ候補抽出部322は、カテゴリcに属する文書の各々について、以下のステップS53およびS54の処理を実行する。なお、カテゴリcに属する文書とは、カテゴリcを識別するためのカテゴリ番号に対応づけてカテゴリ記憶部23に記憶されている文書番号によって識別される文書である。以下、この処理の対象となる文書を文書dとする。
【0165】
重要カテゴリ候補抽出部322は、文書dが重要文書候補リストに格納されているか、つまり、文書dが重要文書候補であるか否かを判定する(ステップS53)。
【0166】
文書dが重要文書候補であると判定された場合(ステップS53のYES)、重要カテゴリ候補抽出部322は、当該文書d(重要文書候補)に対応づけて重要文書候補リストに格納されている類似度(つまり、当該重要文書候補の類似度)をカテゴリcのスコアscに加算する(ステップS54)。
【0167】
一方、文書dが重要文書候補でないと判定された場合(ステップS53のNO)、ステップS54の処理は実行されない。
【0168】
重要カテゴリ候補抽出部322は、カテゴリcに属する全ての文書について上記したステップS53およびS54の処理が実行されたか否かを判定する(ステップS55)。
【0169】
カテゴリcに属する全ての文書について処理が実行されていないと判定された場合(ステップS55のNO)、上記したステップS53に戻って処理が繰り返される。この場合、ステップS53およびS54の処理が実行されていないカテゴリcに属する文書を文書dとして処理が実行される。
【0170】
このようにステップS53およびS54の処理がカテゴリcに属する文書の各々について繰り返されることによって当該カテゴリcのスコアscが算出される。つまり、カテゴリcのスコアscは、当該カテゴリcに属する重要文書候補の類似度の合計である。
【0171】
ステップS55においてカテゴリcに属する全ての文書について処理が実行されたと判定された場合、重要カテゴリ候補抽出部322は、カテゴリcのスコアscをカテゴリ集合Dcのスコアsdcに加算する(ステップS56)。
【0172】
次に、重要カテゴリ候補抽出部322は、カテゴリ集合Dc中の全てのカテゴリについて上記したステップS52〜S56の処理が実行されたか否かを判定する(ステップS57)。
【0173】
カテゴリ集合Dc中の全てのカテゴリについて処理が実行されていないと判定された場合(ステップS57のNO)、上記したステップS52に戻って処理が繰り返される。この場合、ステップS52〜S56の処理が実行されていないカテゴリをカテゴリcとして処理が実行される。
【0174】
このようにステップS52〜S56の処理がカテゴリ集合Dc中のカテゴリの各々について繰り返されることによって当該カテゴリ集合Dcのスコアsdcが算出される。つまり、カテゴリ集合Dcのスコアsdcは、当該カテゴリ集合Dc中のカテゴリの各々のスコア(sc)の合計である。
【0175】
ステップS57においてカテゴリ集合Dc中の全てのカテゴリについて処理が実行されたと判定された場合、重要カテゴリ候補抽出部322は、当該カテゴリ集合Dc中のカテゴリの各々について、以下のステップS58〜S61の処理を実行する。以下、この処理の対象となるカテゴリをカテゴリcとする。
【0176】
重要カテゴリ候補抽出部322は、上記したカテゴリ集合Dcのスコアsdcおよびカテゴリcのスコアscを用いて、当該カテゴリcの重要度を算出する(ステップS58)。ここで、カテゴリcの重要度は、sc/sdcによって算出されるものとする。つまり、カテゴリcの重要度は、カテゴリ集合Dcのスコアsdc(カテゴリ集合Dc中のカテゴリのスコアの合計値)に対する、当該カテゴリcのスコアscの割合である。
【0177】
次に、重要カテゴリ候補抽出部322は、算出されたカテゴリcの重要度が予め定められた値(以下、閾値と表記)以上であるか否かを判定する(ステップS59)。このステップS59の処理において用いられる閾値は、例えば0.4(40%)である。
【0178】
カテゴリcの重要度が閾値以上でないと判定された場合(ステップS59のNO)、以下のステップS62の処理が実行される。
【0179】
一方、カテゴリcの重要度が閾値以上であると判定された場合(ステップS59のYES)、重要カテゴリ候補抽出部322は、当該カテゴリcを重要カテゴリ候補として決定する(ステップS60)。
【0180】
次に、重要カテゴリ候補抽出部322は、算出されたカテゴリcの重要度に応じて、当該カテゴリc(重要カテゴリ候補として決定されたカテゴリc)をユーザに対して提示する際の背景色を決定する(ステップS61)。なお、重要カテゴリ候補抽出部322によって決定される背景色は、カテゴリcの重要度に応じて複数種類用意されているものとする。
【0181】
重要カテゴリ候補抽出部322は、例えばカテゴリcの重要度(割合)が0.8(80%)以上である場合、当該重要度が0.6以上0.8未満(60%以上80%未満)である場合、当該重要度が0.4以上0.6未満(40%以上60%未満)である場合の3段階で背景色を決定する。なお、背景色の種類の数およびカテゴリcの重要度の範囲等については、適宜、変更可能である。
【0182】
後述するように、この重要カテゴリ候補抽出部322によって決定された背景色によってカテゴリcに重要文書が属する程度(度合い)がユーザに対して提示される。
【0183】
次に、重要カテゴリ候補抽出部は、カテゴリ集合Dc中の全てのカテゴリについて上記したステップS58〜S61の処理が実行されたか否かを判定する(ステップS62)。
【0184】
カテゴリ集合Dc中の全てのカテゴリについて処理が実行されていないと判定された場合(ステップS62のNO)、上記したステップS58に戻って処理が繰り返される。この場合、ステップS58およびS59の処理が実行されていないカテゴリをカテゴリcとして処理が実行される。
【0185】
このようにステップS58〜S61の処理がカテゴリ集合Dc中のカテゴリの各々について繰り返されることによって、当該カテゴリ集合Dcの中から重要カテゴリ候補が決定(抽出)される。
【0186】
一方、カテゴリ集合Dc中の全てのカテゴリについて処理が実行されたと判定された場合(ステップS62のYES)、重要カテゴリ候補抽出処理は終了される。
【0187】
ここで、上述したように重要カテゴリ候補抽出処理が終了されると、カテゴリ表示操作部311によって当該重要カテゴリ候補抽出処理において抽出された重要カテゴリ候補がユーザに対して提示(表示)される。
【0188】
図16は、カテゴリ表示操作部311によって重要カテゴリ候補が表示された場合の表示画面の一例を示す。
【0189】
図16に示す表示画面200においては、カテゴリ記憶部23に記憶されているカテゴリ番号によって識別されるカテゴリが、当該カテゴリ名とともに階層構造で表示される。
【0190】
この表示画面200において表示されているカテゴリのうち、背景色があるカテゴリ201〜207が重要カテゴリ候補として抽出されたカテゴリである。なお、これらのカテゴリ201〜207以外のカテゴリは、重要カテゴリ候補として抽出されていないカテゴリである。
【0191】
図16に示す例では、重要カテゴリ候補であるカテゴリ201〜207は、上記したように例えば3段階で背景色(の例えば濃度)が異なる。この背景色は、例えばカテゴリ201〜207の重要度に比例して濃く表示されるものとする。
【0192】
ここでは、カテゴリ「操作」205は、カテゴリ201〜207の中で背景色が最も濃いため、重要度が高いカテゴリである。つまり、カテゴリ「操作」205は、カテゴリ201〜207の中では重要文書が属する程度(度合い)が高いカテゴリである
一方、カテゴリ「T社」201、カテゴリ「N社」203およびカテゴリ「1996年」207は、カテゴリ201〜207の中で背景色が最も薄いため、重要度が低いカテゴリである。つまり、カテゴリ「T社」201、カテゴリ「N社」203およびカテゴリ「1996年」207は、カテゴリ201〜207の中では重要文書が属する程度(度合い)が低いカテゴリである。
【0193】
ここで、上記したように重要カテゴリ候補が表示された画面(つまり、図16に示す表示画面200)においては、ユーザは、例えば文書分析装置30に対して当該重要カテゴリ候補(ここでは、カテゴリ201〜207)のうちの1つを選択する操作を行うことができる。
【0194】
このような操作がユーザによって行われた場合には、カテゴリ表示操作部311は当該操作を受け付け、カテゴリ選択部313はカテゴリ表示操作部311によって受け付けられた操作に応じて重要カテゴリ候補のうちの1つのカテゴリを選択する。
【0195】
カテゴリ選択部313によって1つの重要カテゴリ候補が選択されると、上述したように関連重要カテゴリ候補抽出部323によって関連重要カテゴリ候補抽出処理(図10に示すステップS7の処理)が実行される。
【0196】
次に、図17のフローチャートを参照して、関連重要カテゴリ候補抽出部323による関連重要カテゴリ候補抽出処理の処理手順について説明する。
【0197】
以下の説明では、カテゴリ選択部313によって選択された重要カテゴリ候補(カテゴリ表示操作部311によって表示された重要カテゴリ候補のうちの1つ)を選択重要カテゴリ候補ccとする。
【0198】
関連重要カテゴリ候補抽出部323は、重要カテゴリ候補抽出部322によって抽出された重要カテゴリ候補(つまり、カテゴリ表示操作部311によって表示された背景色が無色でないカテゴリ)のうちの選択重要カテゴリ候補cc以外の重要カテゴリ候補の各々について、以下のステップS71〜S73の処理を実行する。以下、この処理の対象となる重要カテゴリ候補を重要カテゴリ候補cとする。
【0199】
関連重要カテゴリ候補抽出部323は、重要カテゴリ候補cおよび選択重要カテゴリ候補ccの両方のカテゴリに属する重要候補文書および重要文書の数と、当該重要カテゴリ候補cに属する重要候補文書および重要文書の数と、当該選択重要カテゴリ候補ccに属する重要候補文書および重要文書の数とを用いて、当該重要カテゴリ候補cが統計的に有意であるか否かを判定する(ステップS71)。
【0200】
関連重要カテゴリ候補抽出部323は、例えばχ二乗検定で重要カテゴリ候補cが統計的に有意であるか否かを検定する。
【0201】
この場合のχ二乗検定によれば、χ二乗統計量(χ)が、自由度2の有意水準5%のχ二乗分布(3.84)や自由度2の有意水準1%のχ二乗分布(6.63)よりも小さい場合には統計的に有意となる。一方、χ二乗統計量(χ)が、自由度2の有意水準5%のχ二乗分布(3.84)や自由度2の有意水準1%のχ二乗分布(6.63)よりも大きい場合には統計的に有意とならない。なお、χ二乗統計量(χ)は、以下の数式により算出される。
【数1】

【0202】
この数式において、x11は、重要カテゴリ候補cおよび選択重要カテゴリ候補ccの両方に属する重要文書候補および重要文書の数である。a1は、重要カテゴリ候補cに属する重要文書候補および重要文書の数である。b1は、選択重要カテゴリ候補ccに属する重要文書候補および重要文書の数である。nは、全ての重要文書候補および重要文書の数である。また、x12はa1−x11であり、x21はb1−x11であり、x22はn−a1−x21である。
【0203】
χ二乗検定で重要カテゴリ候補cが統計的に有意であると判定された場合(ステップS71のYES)、関連重要カテゴリ候補抽出部323は、当該重要カテゴリ候補cを関連重要カテゴリ候補(選択重要カテゴリ候補ccと関連のあるカテゴリ)として決定する(ステップS72)。
【0204】
次に、関連重要カテゴリ候補抽出部323は、カテゴリ記憶部23を参照して、関連重要カテゴリ候補として決定された重要カテゴリ候補cおよび当該重要カテゴリ候補cに属する重要文書候補および重要文書(つまり、当該重要カテゴリ候補cを識別するためのカテゴリ番号に対応づけて当該カテゴリ記憶部23に記憶されている文書番号によって識別される重要文書候補および重要文書)の数を返り値リスト(以下、関連重要カテゴリ候補リストと表記)に格納する(ステップS73)。
【0205】
なお、ステップS73において関連重要カテゴリ候補リストに格納された重要カテゴリ候補が関連重要カテゴリ候補抽出処理によって抽出された関連重要カテゴリ候補となる。
【0206】
一方、上記したステップS71においてχ二乗検定で重要カテゴリ候補cが統計的に有意でないと判定された場合には、ステップS72およびS73の処理は実行されない。
【0207】
関連重要カテゴリ候補抽出部323は、選択重要カテゴリ候補cc以外の全ての重要カテゴリ候補について上記したステップS71〜S73の処理が実行されたか否かを判定する(ステップS74)。
【0208】
選択重要カテゴリ候補cc以外の全ての重要カテゴリ候補について処理が実行されていないと判定された場合(ステップS74のNO)、上記したステップS71に戻って処理が繰り返される。この場合、ステップS71〜S73の処理が実行されていない選択重要カテゴリ候補cc以外の重要カテゴリ候補を重要カテゴリ候補cとして処理が実行される。
【0209】
一方、選択重要カテゴリ候補cc以外の全ての重要カテゴリ候補について処理が実行されたと判定された場合(ステップS74のYES)、関連重要カテゴリ候補抽出処理は終了される。
【0210】
ここで、上述したように関連重要カテゴリ候補抽出処理が終了されると、関連重要カテゴリ候補リストに格納されている重要カテゴリ候補(関連重要カテゴリ候補抽出処理によって抽出された関連重要カテゴリ候補)と当該重要カテゴリ候補に属する重要文書候補および重要文書の数とがカテゴリ表示操作部311によってユーザに対して提示(表示)される。
【0211】
図18は、カテゴリ表示操作部311によって関連重要カテゴリ候補が表示された場合の表示画面の一例を示す。なお、図18に示す表示画面300は、上述した図16に示す表示画面200において例えばカテゴリ「操作性」205を選択する操作がユーザによって行われた後に関連重要カテゴリ候補抽出処理が実行され、当該関連重要カテゴリ候補抽出処理において抽出された関連重要カテゴリが表示された場合の画面である。
【0212】
図18に示す表示画面300においては、選択重要カテゴリ候補であるカテゴリ「操作性」205の付近の領域301に関連重要カテゴリ候補が表示される。
【0213】
図18に示す例では、カテゴリ「操作性」205と関連がある関連重要カテゴリ候補としてカテゴリ「H社」202、カテゴリ「対話分類」204およびカテゴリ「1995年」206が表示されている。
【0214】
なお、関連重要カテゴリ候補であるカテゴリ「H社」202、カテゴリ「対話分類」204およびカテゴリ「1995年」206の近傍には、当該カテゴリに属する重要文書候補および重要文書の数(件数)が表示されている。例えばカテゴリ「H社」202の上部には、当該カテゴリ「H社」202に属する重要文書候補および重要文書の数として「30件」が表示されている。
【0215】
ここで、ユーザは、このような表示画面300に表示されたカテゴリ「操作性」205と関連のあるカテゴリ(ここでは、「H社」202、カテゴリ「対話分類」204およびカテゴリ「1995年」206)を参照して、重要文書が存在するか否かを確認したいカテゴリ(以下、確認対象カテゴリと表記)を選択する操作を行うことができる。これにより、ユーザは、例えば上述した図16に示す表示画面200において選択した重要カテゴリ候補(ここでは、カテゴリ「操作性」205)のみから重要文書を探すか、または、当該カテゴリ「操作性」205と関連のあるカテゴリ(ここでは、「H社」202、カテゴリ「対話分類」204およびカテゴリ「1995年」206)からも重要文書を探すかを選択することができる。
【0216】
確認対象カテゴリを選択する操作が当該ユーザによって行われた場合、当該カテゴリに属する文書(の文書名)が表示される。
【0217】
ここで、図19は、図18に示す表示画面300において確認対象カテゴリとしてカテゴリ「操作性」205およびカテゴリ「H社」202が選択された場合の表示画面の一例を示す。
【0218】
図19に示す表示画面300においては、当該表示画面300の例えば右上に設けられた領域302に確認対象カテゴリとして選択されたカテゴリ「操作性」205およびカテゴリ「H社」202に属する文書の文書名の一覧が表示される。
【0219】
この場合、領域302においては、カテゴリ「操作性」205およびカテゴリ「H社」202に属する文書のうちの重要文書が最上位に表示され、次に重要文書候補が表示され、最後に他の文書(つまり、重要文書および重要文書候補以外の文書)が表示される。なお、重要文書候補は、上述した類似度(重要文書との類似度)の順に表示される。
【0220】
なお、ユーザは、図19に示す表示画面300に表示された重要文書候補等を参照することによって、文書分析装置30に対して当該重要文書候補を重要文書として指定する操作を行うことができる。文書分析装置30に対して重要文書候補を指定する操作がユーザによって行われた場合、文書記憶部22において上記したように当該指定された重要文書候補に含まれる重要度が「重要」に変更されることにより、当該重要文書候補は重要文書とされる。
【0221】
上記したように本実施形態においては、ユーザの操作に応じて指定された重要文書と重要文書候補抽出処理の対象となる文書との類似度が算出され、当該類似度に基づいて重要文書候補が抽出(決定)される。また、本実施形態においては、算出された類似度のうちのカテゴリに属する重要文書候補と重要文書との類似度に基づいて当該カテゴリの重要度が算出され、当該カテゴリの重要度に基づいて抽出(決定)された重要カテゴリ候補がユーザに対して提示される。
【0222】
これにより、本実施形態においては、ユーザにとって重要な文書が属するカテゴリの傾向を当該ユーザに提示することができるため、当該ユーザは当該重要な文書の傾向(つまり、当該重要な文書が含まれていそうなカテゴリ)に気づくことが可能となる。つまり、本実施形態においては、ユーザは漏れが少なく、効率よく重要な文書を探すことが可能となり、当該重要な文書の発見のための労力を削減することができる。
【0223】
また、本実施形態においては、カテゴリ(重要カテゴリ候補)の重要度に応じて当該カテゴリの背景色を変化させて当該カテゴリがユーザに対して提示(表示)される。これにより、本実施形態においては、ユーザはカテゴリに重要な文書が属する程度(度合い)によって重要文書が属しているかを確認すべきカテゴリを知ることができ、より効率よく重要文書を発見することが可能となる。
【0224】
また、本実施形態においては、ユーザの操作に応じて選択された重要カテゴリ候補に関連がある重要カテゴリ候補(関連重要カテゴリ候補)が抽出(決定)され、当該関連重要カテゴリ候補をユーザに対して提示することができる。これにより、本実施形態においては、ユーザの操作に応じて選択された重要カテゴリ候補だけでなく、当該重要カテゴリ候補に関連がある重要カテゴリ候補についてもユーザに対して提示することで、当該ユーザは漏れなく重要文書を発見することが可能となる。
【0225】
なお、本実施形態においては、ユーザの操作に応じて重要文書が指定されるものとして説明したが、例えば当該ユーザの操作に応じてカテゴリが指定されることによって当該カテゴリに属する全ての文書が重要文書として指定される構成であっても構わない。
【0226】
(第2の実施形態)
次に、図20を参照して、第2の実施形態について説明する。図20は、本実施形態に係る文書分析装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
【0227】
また、本実施形態に係る文書分析装置のハードウェア構成は、前述した第1の実施形態と同様であるため、適宜、図1を用いて説明する。
【0228】
図20に示すように、本実施形態に係る文書分析装置40は、重要文書処理部41を含む。本実施形態において、重要文書処理部41は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
【0229】
重要文書処理部41は、重要文書集計部411を含む。重要文書集計部411は、文書記憶部22に記憶されている文書のうちの重要文書について、ユーザによって指定された複数の分類軸でクロス集計を行う。重要文書処理部411は、ユーザによって指定された複数の分類軸の各々に該当する複数のカテゴリ(の全て)に属する重要文書の数を集計する。
【0230】
重要文書集計部411による集計の結果は、カテゴリ表示操作部311を介してユーザに対して提示される。
【0231】
次に、図21のフローチャートを参照して、本実施形態に係る文書分析装置40の処理手順について説明する。
【0232】
まず、前述したステップS1〜S10の処理に相当するステップS81〜S90の処理が実行される。
【0233】
なお、ユーザは、文書分析装置40を操作することによって、例えばステップS90において提示された文書(つまり、重要カテゴリ候補および関連重要カテゴリ候補に属する重要文書候補)の中から重要文書(第3の文書)を指定することができる。この場合、文書記憶部22において重要文書として指定された文書に含まれる重要度は「重要」に変更される。
【0234】
ここで、ユーザは、例えばステップS90において提示された文書の中から重要文書を指定し、全ての重要文書が確定した後に、当該重要文書の集計を指示するための操作を文書分析装置40に対して行うことができる。なお、重要文書の集計を指示するための操作において、ユーザは、例えば2つの分類軸を指定(選択)する。
【0235】
カテゴリ表示操作部311は、ユーザによって重要文書の集計を指示するための操作が行われた場合には、当該操作を受け付ける。
【0236】
カテゴリ表示操作部311は、重要文書の集計を指示するための操作が受け付けられたか、つまり、ユーザからの当該重要文書の集計の指示(以下、集計指示と表記)があるか否かを判定する(ステップS91)。
【0237】
ユーザからの集計指示があると判定された場合(ステップS91のYES)、重要文書集計部411は、文書記憶部22に記憶されている重要文書(重要度が「重要」である文書)を、当該集計指示においてユーザによって指定された2つの分類軸でクロス集計する(ステップS92)。
【0238】
この場合、重要文書集計部411は、カテゴリ記憶部23を参照して、ユーザによって指定された2つの分類軸(によって示される観点)のうちの一方の分類軸に該当するカテゴリの各々と他方の分類軸に該当するカテゴリの各々との両方に属する重要文書の数を、当該カテゴリの組み合わせ毎に集計する。
【0239】
ここで、分類軸とは、複数のカテゴリにおいて共通する観点を示す。例えば文書記憶部22に記憶されている文書(重要文書)が特許文書であるものとすると、分類軸には、例えば「出願人別」および「出願年別」等が指定される。分類軸「出願人別」に該当するカテゴリには、例えばカテゴリ「T社」および「H社」等が含まれる。また、分類軸「出願年別」に該当するカテゴリには、例えばカテゴリ「1995年」および「1996年」等が含まれる。
【0240】
具体的には、ユーザは、階層構造を構成する複数のカテゴリのうち、子カテゴリを持つカテゴリ(つまり、親カテゴリ)を分類軸として選択することができる。この場合における分類軸に該当するカテゴリとは、ユーザによって選択されたカテゴリ(親カテゴリ)の下位に位置する子カテゴリである。
【0241】
ここで、図22は、重要文書集計部411による重要文書の集計結果の一例を示す。図22においては、分類軸として「出願人別(縦軸)」および「出願年別(横軸)」が指定されている。
【0242】
図22に示す例では、分類軸「出願人別」に該当するカテゴリには、カテゴリ「T社」、「H社」、「N社」および「M社」が含まれている。一方、分類軸「出願年別」には、カテゴリ「1995年」、「1996年」、「1997年」および「1998年」等が含まれている。
【0243】
図22に示す重要文書の集計結果においては、例えばカテゴリ「T社」およびカテゴリ「1995年」の両方のカテゴリに属する重要文書の数が10であることが示されている。また、例えばカテゴリ「H社」およびカテゴリ「1996年」に両方のカテゴリに属する重要文書の数が30であることが示されている。また、カテゴリ「M社」に属する文書の中には重要文書が存在しないため、当該カテゴリ「M社」とカテゴリ「1995年」、「1996年」、「1997年」および「1998年」の各々との両方のカテゴリに属する重要文書の数が0であることが示されている。
【0244】
再び図21に戻ると、カテゴリ表示操作部311は、重要文書集計部411による集計結果をユーザに対して提示(表示)する(ステップS93)。
【0245】
上記した図22に示すような重要文書の集計結果がユーザに提示されることで、当該ユーザは、当該重要文書の傾向を容易に把握することが可能となる。
【0246】
具体的には、図22に示す重要文書の集計結果によれば、例えばカテゴリ「H社」およびカテゴリ「1996年」の両方に属する重要文書(つまり、H社によって1996年に出願された重要な特許文書)が最も多いことが容易に把握できる。
【0247】
なお、図22に示す重要文書の集計結果がユーザに対して提示(表示)される場合には、重要文書の数に応じて背景色を変更しても構わない。これによって、より重要文書の傾向を容易に把握することが可能となる。
【0248】
再び図21に戻ると、ステップS89において重要文書が存在するか否かを確認したいカテゴリを選択する操作が受け付けられていないと判定された場合には、上記したステップS91の処理が実行される。また、ステップS91においてユーザからの集計指示がないと判定された場合、処理は終了される。
【0249】
上記したように本実施形態においては、ユーザによって指定された2つの分類軸(の各々に該当する複数のカテゴリ)に属する重要文書の集計結果をユーザに対して提示することができるため、当該ユーザは、重要文書(が属するカテゴリ)の傾向を容易に把握することが可能となる。
【0250】
なお、本実施形態においては、文書記憶部22に記憶されている文書のうちの重要文書のみの集計(クロス集計)結果が例えば2軸マップ上に表示されるものとして説明したが、当該重要文書に加えて重要文書候補抽出部322によって抽出された重要文書候補の集計結果が表示されてもよく、更に、当該重要文書および重要文書候補以外の文書の集計結果が表示されても構わない。
【0251】
上述した第1および第2の実施形態によれば、ユーザにとって重要な文書が属するカテゴリの傾向を当該ユーザに提示することが可能な文書分析装置およびプログラムを提供することができる。
【0252】
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
【符号の説明】
【0253】
10…コンピュータ、20…外部記憶装置、22…文書記憶部、23…カテゴリ記憶部、30,40…文書分析装置、31…ユーザインタフェース部、32,41…重要文書処理部、311…カテゴリ表示操作部、312…重要文書指定部、313…カテゴリ選択部、321…重要文書候補抽出部、322…重要カテゴリ候補抽出部、323…関連重要カテゴリ候補抽出部、411…重要文書集計部。

【特許請求の範囲】
【請求項1】
複数の文書が分類されるカテゴリ毎に、当該カテゴリを識別するためのカテゴリ識別情報および当該カテゴリに属する文書を対応づけて記憶する記憶手段と、
ユーザの操作に応じて、前記記憶手段に記憶されている第1の文書を指定する重要文書指定手段と、
前記指定された第1の文書に対応づけて前記記憶手段に記憶されているカテゴリ識別情報を特定する第1の特定手段と、
前記第1の特定手段によって特定されたカテゴリ識別情報に対応づけて前記記憶手段に記憶されている第2の文書を特定する第2の特定手段と、
前記指定された第1の文書と前記第2の特定手段によって特定された第2の文書との類似度を、当該第1の文書に対応づけて前記記憶手段に記憶されているカテゴリ識別情報および当該第2の文書に対応づけて前記記憶手段に記憶されているカテゴリ識別情報に基づいて算出する類似度算出手段と、
前記類似度算出手段によって算出された類似度に基づいて、前記第2の特定手段によって特定された第2の文書を重要文書候補として決定する重要文書候補決定手段と、
前記記憶手段に記憶されているカテゴリ識別情報によって識別されるカテゴリの重要度を、前記類似度算出手段によって算出された類似度のうち、当該カテゴリ識別情報に対応づけて前記記憶手段に記憶されている前記重要文書候補として決定された第2の文書と前記指定された第1の文書との類似度に基づいて算出する重要度算出手段と、
前記重要度算出手段によって算出された重要度に基づいて、前記記憶手段に記憶されているカテゴリ識別情報によって識別されるカテゴリを重要カテゴリ候補として決定する重要カテゴリ候補決定手段と、
前記重要カテゴリ候補として決定されたカテゴリを提示する提示手段と
を具備することを特徴とする文書分析装置。
【請求項2】
前記重要度算出手段は、
前記記憶手段に記憶されているカテゴリ識別情報毎に、当該カテゴリ識別情報に対応づけて前記記憶手段に記憶されている前記重要文書候補として決定された第2の文書と前記指定された第1の文書との類似度を算出する第1の算出手段と、
前記第1の算出手段によってカテゴリ識別情報毎に算出された類似度の合計値を算出する第2の算出手段と、
前記第2の算出手段によって算出された類似度の合計値に対する、前記第1の算出手段によってカテゴリ識別情報毎に算出された類似度の割合を、当該カテゴリ識別情報によって識別されるカテゴリの重要度として算出する第3の算出手段と
を含み、
前記提示手段は、前記重要度として前記第3の算出手段によって算出された割合に応じて前記重要カテゴリ候補として決定されたカテゴリを提示する
ことを特徴とする請求項1記載の文書分析装置。
【請求項3】
ユーザの操作に応じて、前記重要カテゴリ候補として決定されたカテゴリを選択する選択手段と、
前記重要カテゴリ候補として決定されたカテゴリを識別するためのカテゴリ識別情報の各々に対応づけて前記記憶手段に記憶されている前記重要文書候補として決定された第2の文書に基づいて、前記選択されたカテゴリ以外の前記重要カテゴリ候補として決定されたカテゴリが前記ユーザによって選択されたカテゴリと関連のあるカテゴリであるかを判定する判定手段を更に具備し、
前記提示手段は、前記選択されたカテゴリと関連のあるカテゴリであると判定された前記選択されたカテゴリ以外の前記重要カテゴリ候補として決定されたカテゴリを、前記選択されたカテゴリと関連のあるカテゴリとして更に提示する
ことを特徴とする請求項1記載の文書分析装置。
【請求項4】
集計手段を更に具備し、
前記重要文書指定手段は、前記ユーザの操作に応じて、前記提示されたカテゴリを識別するためのカテゴリ識別情報に対応づけて前記記憶手段に記憶されている第3の文書を指定し、
前記集計手段は、前記記憶手段を参照して、前記ユーザによって指定された複数のカテゴリに属する前記指定された第1および第3の文書の数を集計し、
前記提示手段は、前記集計結果を更に提示する
ことを特徴とする請求項1記載の文書分析装置。
【請求項5】
複数の文書が分類されるカテゴリ毎に、当該カテゴリを識別するためのカテゴリ識別情報および当該カテゴリに属する文書を対応づけて記憶する記憶手段を有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書分析装置において、前記コンピュータによって実行されるプログラムであって、
前記コンピュータに、
ユーザの操作に応じて、前記記憶手段に記憶されている第1の文書を指定するステップと、
前記指定された第1の文書に対応づけて前記記憶手段に記憶されているカテゴリ識別情報を特定するステップと、
前記特定されたカテゴリ識別情報に対応づけて前記記憶手段に記憶されている第2の文書を特定するステップと、
前記指定された第1の文書と前記特定された第2の文書との類似度を、当該第1の文書に対応づけて前記記憶手段に記憶されているカテゴリ識別情報および当該第2の文書に対応づけて前記記憶手段に記憶されているカテゴリ識別情報に基づいて算出するステップと、
前記算出された類似度に基づいて、前記特定された第2の文書を重要文書候補として決定するステップと、
前記記憶手段に記憶されているカテゴリ識別情報によって識別されるカテゴリの重要度を、前記算出された類似度のうち、当該カテゴリ識別情報に対応づけて前記記憶手段に記憶されている前記重要文書候補として決定された第2の文書と前記指定された第1の文書との類似度に基づいて算出するステップと、
前記算出された重要度に基づいて、前記記憶手段に記憶されているカテゴリ識別情報によって識別されるカテゴリを重要カテゴリ候補として決定するステップと、
前記重要カテゴリ候補として決定されたカテゴリを提示するステップと
を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate


【公開番号】特開2012−37936(P2012−37936A)
【公開日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願番号】特願2010−174791(P2010−174791)
【出願日】平成22年8月3日(2010.8.3)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】