説明

文書要約作成システム、方法、及びプログラム

【課題】質問文に対する要約として抽出される候補範囲の任意な設定を可能とすること。
【解決手段】入力された検索条件に基づいて文書を検索し、入力された要約作成条件に基づいて、検索された文書から要約に相応しい範囲を抽出することによって文書の要約を作成する文書要約作成システムにおいて、入力された範囲設定条件に基づいて、検索された文書内において、要約として抽出される候補範囲を設定する候補範囲設定部35を備え、要約に相応しい箇所を抽出する場合には、候補範囲設定部35によって設定された候補範囲の何れかから抽出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、質問文の内容に基づいて、要約に相応しい範囲を文書から抽出することによって要約を作成する技術に適用されるものであって、特に、要約として抽出される候補となる候補範囲を調整することが可能な文書要約作成システム、方法、及びプログラムに関する。
【背景技術】
【0002】
従来、自然言語による質問文の内容に基づいて、要約として相応しい範囲を文書から抽出することによって要約を作成する文書要約作成システムでは、具体的に以下に示すような手順にしたがって要約が作成されている(例えば、特許文献1参照)。
【0003】
すなわち、まず、自然言語による質問文が形態素解析され、単語に分割される。さらに、分割された各単語に対して、辞書データと比較されることによって意味解析がなされ、特定の単語について、それが持つ意味(時間、人物、場所等)が特定される。
【0004】
次に、要約の対象となりうる複数の文書に対しても同様に形態素解析および意味解析がなされる。ここでは、文書単位が「改行単位」、「句点単位」などといった固定的な選択方法にしたがって要約ターゲット範囲、すなわち要約の候補となりうる範囲(以下、「候補範囲」と称する)が抽出される。そして、抽出された各候補範囲単位で、形態素解析および意味解析の結果が、質問文に対してなされた形態素解析および意味解析の結果と照合され、この照合の結果、一致度の高い候補範囲が、該質問文に対する要約として決定されている。
【特許文献1】特開2003−256425
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、このような従来の文書要約作成方法では、以下のような問題がある。
【0006】
すなわち、この方法では、候補範囲の選択方法が固定的である。つまり、「改行単位を一つの文書とみなす」といったような固定的な選択方法では、例えば、箇条書きのように、一つの意味単位毎に改行がなされている場合には、箇条書きによってまとめられた範囲全体を候補範囲として選択することができない。
【0007】
一例として、以下に示すような対象文書から、「従来の要約方法とは?」という質問文に対する要約文を抽出する場合について考える。
【0008】
(対象文書)
「従来の要約技術は、 <改行1>
1.自然言語による質問文を形態素解析し、単語に分割する。また、意味解析により特定の単語によってはそれが持つ意味(時間、人物、場所)を特定する。 <改行2>
2.要約対象文書群に対しても形態素解析、意味解析を行い、文書単位を「改行単位」、「句点単位」など固定的な選定手段で対象範囲と考え、各対象範囲単位で、質問文の形態素解析、意味解析結果と照らし合わせて、最も近い対象範囲を文書の要約と決定する。 <改行3>
というものである。」 <改行4>
上記した対象文書では、4つの改行があるが、各改行で区切られる範囲を1つの候補範囲とすることはないので、「従来の要約方法とは?」という質問文に対して、上記対象文書全体そのものが要約として適切であるにも関らず、それを要約として提示することはできない。
【0009】
本発明はこのような事情に鑑みてなされたものであり、質問文に対する要約として抽出される候補範囲を任意に設定することが可能な文書要約作成システム、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
上記の目的を達成するために、本発明では、以下のような手段を講じる。
【0011】
すなわち、本発明は、入力された検索条件に基づいて文書を検索し、入力された要約作成条件に基づいて、検索された文書から要約に相応しい範囲を抽出することによって前記文書の要約を作成する文書要約作成システム及び方法であり、入力された範囲設定条件に基づいて、検索された文書内において、要約として抽出される候補範囲を設定する。そして、要約に相応しい箇所を抽出する場合には、この設定された候補範囲の何れかから抽出する。ここで、範囲設定条件としては、例えば、検索する文書を限定する限定条件、および候補範囲の書式条件のうちの少なくとも何れかを含む。このような範囲設定条件は、対話型入力受付手段から入力されるようにしても良い。また、上述したシステム及び方法に係る本発明は、コンピュータに上記処理を実行させるためのプログラムとしても成立する。
【発明の効果】
【0012】
上述したような手段を講じた本発明によれば、様々な表現スタイルの文書からも、要約として適切な箇所を抽出することができるようになる。また、範囲設定条件を設定することによって、検索対象の文書の絞り込みや、候補範囲のきめ細かな指定ができるようになる。これらによって、より精度の高い要約を作成することが可能となる。
【発明を実施するための最良の形態】
【0013】
以下に、本発明を実施するための最良の形態について図面を参照しながら説明する。
【0014】
図1は、本発明の実施の形態に係る文書要約作成方法を適用した文書要約作成システムの一例を示す機能ブロック図である。
【0015】
すなわち、本発明の実施の形態に係る文書要約作成システム10は、インターネット等の通信ネットワーク12を介して互いに接続されたクライアント20及びサーバ30から構成されてなる。そして、サーバ30は、クライアント20から入力された検索条件に基づいて文書を検索し、また、クライアント20から入力された範囲設定条件に基づいて設定された検索文書内における候補範囲から、クライアント20から入力された要約作成条件に基づいて、要約に相応しい範囲を抽出することによって文書の要約を作成する。
【0016】
クライアント20は、通信ネットワーク12を介してサーバ30とのデータ授受を行う通信部22と、図示しないキーボードやマウス等の入力ツールを備え、ユーザがこれらを用いて検索条件、要約作成条件、及び範囲設定条件等のデータを入力する入力部24と、通信部22が受信したサーバ30からのデータや、入力部24から入力された検索条件、要約作成条件、及び範囲設定条件等のデータを表示する例えばディスプレイからなる表示部26とを備えている。入力部24から検索条件、要約作成条件、及び範囲設定条件等のデータを入力する場合には、表示部26から対話型式の入力画面を表示し、ユーザが、表示部26から表示されたこの対話型式の入力画面にしたがってデータを入力することも可能としている。
【0017】
図2は、要約作成条件、検索条件、及び範囲設定条件を入力部24からまとめて入力するために表示部26から表示される対話形式の入力画面40の一例を示す概念図である。
【0018】
すなわち、入力画面40は、要約作成条件入力欄42と、検索条件入力欄44と、範囲設定条件入力欄48とからなる。
【0019】
要約作成条件入力欄42は、適用チェック欄43aと、質問文入力欄43bとがある。要約作成条件を設定する場合には、適用チェック欄43aをチェックし(図2では、レ点で示している)、質問文入力欄43bに、要約作成のための自然言語からなる質問文を入力する。
【0020】
検索条件入力欄44は、検索対象とするデータベース名を特定する場合にチェックする適用チェック欄45aと、適用チェック欄45aがチェックされた場合に、データベース部37に含まれる複数のデータベース38(#1,#2,・・・#n)の中から、特定する検索対象のデータベース名を入力するためのデータベース名入力欄45bと、検索する文書のソース(例えば、URL名)を指定する場合にチェックする適用チェック欄46aと、適用チェック欄46aがチェックされた場合に、ソース名を入力するためのソース名入力欄46bと、キーワード、更新日付、ファイル型式等といった検索条件を指定する場合にチェックする適用チェック欄47aと、適用チェック欄47aがチェックされた場合に、検索条件を入力するための検索条件入力欄47bとを備えている。
【0021】
範囲設定条件入力欄48は、文書内において、要約として抽出される候補範囲を設定する範囲設定条件を入力するための欄であり、ベース選択欄49と、書式設定欄50とを備えている。候補範囲を、改行を優先して指定する場合には、ベース選択欄49における適用チェック欄49aをチェックし、句点を優先して指定する場合には、ベース選択欄49における適用チェック欄49bをチェックする。書式設定欄50は、ベース選択欄49にて指定した優先項目について、更に詳細な書式条件を設定する欄であって、書式条件として図中の51b,52b,・・・58bに示すような具体的項目に対し、適用する項目については対応する適用チェック欄51a,52a,・・・58aをチェックする。適用チェック欄53a,57a,58aをチェックした場合には、更に、対応する文字数を文字数入力欄53cに、対応する先頭からの行数を先頭行数入力欄57c、対応する後方からの行数を後方行数入力欄58cにそれぞれ入力することによって、具体的数値を指定する。なお、図2に示す書式設定欄50は、一例を示すものであって、更に別の項目を付加することによって、よりきめ細やかな範囲設定条件の入力を可能としても良い。
【0022】
サーバ30は、図2に示すような入力画面40を利用して入力部24から入力された検索条件、要約作成条件、及び範囲設定条件に基づいて文書の検索、及び検索した文書の要約の作成を行う部位であり、通信ネットワーク12を介してクライアント20とのデータ授受を行う通信部31と、文書データを格納している一つ又は複数のデータベース38(#1,#2,・・・#n)を備えているデータベース部37と、クライアント20から通信部31に送られた検索条件、要約作成条件、及び範囲設定条件に基づいてデータベース部37に備えられたデータベース38(#1,#2,・・・#n)から文書を検索するとともに、検索した文書の要約を作成する検索エンジン32とを備えている。
【0023】
図3は、検索エンジン32の詳細な機能構成例を示すブロック図である。検索エンジン32は、文書検索部33と、メモリ34と、候補範囲設定部35と、要約抽出部36とを備えてなる。
【0024】
文書検索部33は、クライアント20から通信部31に検索条件、要約作成条件、及び範囲設定条件が送られると、そのうちの検索条件に基づいて、該当する文書を、データベース部37に備えられた各データベース38(#1,#2,・・・#n)から検索し、検索した文書を、メモリ34に格納する。
【0025】
候補範囲設定部35は、文書検索部33によってメモリ34に格納された文書をメモリ34から取得する。そして、この取得した文書に対して、クライアント20から通信部31に送られた検索条件、要約作成条件、及び範囲設定条件のうちの範囲設定条件に基づいて、要約として抽出される候補範囲を設定し、この取得した文書を、設定した候補範囲にしたがって区切る。そして、このように候補範囲で区切られた文書をメモリ34に上書きして格納する。
【0026】
要約抽出部36は、クライアント20から通信部31に送られた検索条件、要約作成条件、及び範囲設定条件のうちの要約作成条件に基づいて、質問文入力欄43bに入力された自然文からなる質問文について、公知技術である形態素解析および意味解析を行う。形態素解析および意味解析については公知技術であるので、その詳細についての説明は省略する。
【0027】
更に、要約抽出部36は、メモリ34に格納された文書における各候補範囲に対しても、同様に形態素解析および意味解析を行う。そして、質問文について行った形態素解析および意味解析の結果と、各候補範囲について行った形態素解析および意味解析の結果とを照合し、この照合の結果、一致度の最も高い候補範囲を、要約に相応しい箇所として抽出し、抽出した候補範囲を通信部31に出力する。
【0028】
すると通信部31は、通信ネットワーク12を介して、要約抽出部36によって抽出された候補範囲に相当するデータをクライアント20に送信する。このデータは、クライアント20の通信部22によって受信され、更に表示部26から表示されるようにしている。これを見ることによって、ユーザは、指定した質問文に対する要約を得る。
【0029】
このような構成をなす本システム10は、例えば磁気ディスク等の記憶媒体に記憶されたプログラムや、インターネット等のネットワークを介してダウンロードしたプログラムを読み込み、このプログラムによって動作が制御されるコンピュータによって実現される。
【0030】
ここで記憶媒体としては、磁気ディスク、フロッピー(登録商標)ディスク、ハードディスク、光ディスク(CD−ROM、DVD等)、光磁気ディスク(MO等)、半導体メモリ等、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【0031】
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が同実施の形態を実現するための各処理の一部を実行してもよい。
【0032】
さらに、記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶又は一時記憶した記憶媒体も含まれる。
【0033】
また、記憶媒体は1つに限らず、複数の媒体から同実施の形態における処理が実行される場合もここでいう記憶媒体に含まれ、媒体構成は何らの構成であってもよい。
【0034】
なお、ここでいうコンピュータは、記憶媒体に記憶されたプログラムに基づき、同実施の形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。また、このコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
【0035】
次に、以上のように構成した同実施の形態に係る文書要約作成方法を適用した文書要約作成システム10の動作について図4に示すフローチャートを用いて説明する。
【0036】
ユーザは、同実施の形態に係る文書要約作成方法を適用した文書要約作成システム10を用いて要約を作成する場合には、まず、入力部24から要約作成条件、検索条件、及び範囲設定条件を入力する(S1)。
【0037】
要約作成条件入力欄42の適用チェック欄43aをチェックし、質問文入力欄43bに自然言語からなる質問文(例えば、「情報が生産性に影響を与えるまでのプロセスとは?」)を入力することによって、要約作成条件が指定される。
【0038】
また、検索条件入力欄44の適用チェック欄45a,46a,47aのうちの所望の箇所をチェックし、チェックした箇所に該当する欄(45b,46b,47bのうちの何れか)に必要なデータを入力することによって検索条件が指定される。例えば、適用チェック欄45aをチェックし、データベース名入力欄45bに、検索対象とするデータベース名(例えば、データベース38(#1,#2,・・・#n)のうちの何れか)を入力することによって、検索する文書が格納されているデータベース38が指定される。また、適用チェック欄46aをチェックし、ソース名入力欄46bに、ソース名(例えば、URL名)を入力することによって、検索する文書のソース(作成元)が指定される。更に、適用チェック欄47aをチェックし、検索条件入力欄47bに例えば、キーワード、更新日付、ファイル型式等を入力することによって、検索条件が指定される。
【0039】
更に、範囲設定条件入力欄48では、ベース選択欄49において、適用チェック欄49aか、適用チェック欄49bかの何れか一方をチェックすることによって、要約として抽出される候補範囲の設定条件として改行を優先するか、句点を優先するかが指定される。改行を優先した場合には、改行毎に候補範囲が設定される。この場合、箇条書きにおける各行がそれぞれ改行されている場合には、箇条書きにおける各行がそれぞれ候補範囲として設定される。一方、句点を優先した場合には、一文毎に候補範囲が設定される。この場合、箇条書きにおける各行がそれぞれ改行されていても、句点から句点までの範囲が候補範囲として設定されることから、箇条書き全体を一つの候補範囲として設定することができる。次に、書式設定欄50に設けられた適用チェック欄51a,52a,・・・58aのうち、所望の箇所をチェックし、適用チェック欄53a,57a,58aをチェックした場合には更に、対応する文字数を文字数入力欄53cに、対応する先頭からの行数を先頭行数入力欄57c、対応する後方からの行数を後方行数入力欄58cにそれぞれ入力することによって、候補範囲の詳細な範囲設定条件が指定される。
【0040】
このような条件入力を行う場合、ユーザは、表示部26から表示される図2にその一例を示すような対話型式の入力画面40を参照しながら、所望の入力を行うことによって実施することができる。
【0041】
このようにして入力部24から入力された条件は、入力部24から通信部22に送られ、通信部22から通信ネットワーク12を経由してサーバ30の通信部31へ送信され、更に通信部31から検索エンジン32へと送られる(S2)。
【0042】
検索エンジン32では、まず文書検索部33において、クライアント20から送信された要約作成条件、検索条件、及び範囲設定条件のうちの検索条件に基づいて、該当する文書が、指定されたデータベース38から検索される(S3)。例えば、検索条件として、データベース名入力欄45bに「データベース38(#1)」、ソース名入力欄46bに「nippon.com」、検索条件入力欄47bに「科学技術」が入力されている場合には、データベース38(#1)に格納されており、「nippon.com」によって作成され、「科学技術」というキーワードを含む文書が検索される。この検索された文書は、メモリ34に格納される。図5は、このようにして検索された文書の一例を示すものである。
【0043】
そして、候補範囲設定部35では、文書検索部33によってメモリ34に格納された文書において、クライアント20から通信部31に送られた検索条件、要約作成条件、及び範囲設定条件のうちの範囲設定条件に基づいて、要約として抽出される候補範囲が設定される(S4)。例えば、ベース選択欄49において、適用チェック欄49aがチェックされた場合には、図6に示すように、メモリ34に格納された文書において、改行間の各範囲が候補範囲K(#1〜#8)とされる。一方、適用チェック欄49bがチェックされた場合には、図7に示すように、メモリ34に格納された文書において、各文が候補範囲G(#1〜#7)とされる。また、更に詳細な範囲設定条件は、書式設定欄50にて設定された内容にしたがう。そして、このように候補範囲で区切られた文書がメモリ34に上書きして格納される。
【0044】
要約抽出部36では、クライアント20から通信部31に送られた検索条件、要約作成条件、及び範囲設定条件のうちの要約作成条件に基づいて、質問文入力欄43bに入力された自然言語からなる質問文について、形態素解析および意味解析が行われる(S5)。例えば、質問文入力欄43bに「情報が生産性に影響を与えるまでのプロセスとは?」なる質問文が入力された場合、形態素解析によってこの質問文から、“情報”、“生産性”、“影響”、“与える”、“プロセス”といった単語が抽出される。更に、抽出された各単語に対し、このシステム10が備えた図示しない辞書データと比較することによって、各単語が持つ意味が特定される。例えば“2004年”、“東京太郎”、“八王子”という単語が抽出された場合には、これらの単語が辞書データと比較されることによって、“2004年”は時間、“東京太郎”は人物、“八王子”は場所であると特定される。
【0045】
更に、要約抽出部36では、メモリ34に格納された文書における各候補範囲に対しても、同様に形態素解析および意味解析が行われる(S6)。そして、質問文について行った形態素解析および意味解析の結果と、各候補範囲について行った形態素解析および意味解析の結果とが照合される(S7)。
【0046】
このような照合が、全ての候補範囲を対象に行われる(S8)。そして、照合の結果、形態素解析および意味解析の結果が、質問文と一致する候補範囲がない場合(S9:No)には、要約に該当する候補範囲はないものと判定され、要約は作成されない(S11)。一方、質問文と一致する候補範囲がある場合(S9:Yes)には、その中から一致度の最も高い候補範囲が、要約として抽出される(S10)。
【0047】
この抽出された候補範囲は、要約抽出部36から通信部31へと出力され、更に通信部31から、通信ネットワーク12を介して、クライアント20に送信される。このデータは、クライアント20の通信部22によって受信され、更に表示部26から表示される。これを見ることによって、ユーザは、指定した質問文に対する要約を得ることができる。図8は、このようにして得られた要約の一例を示すものである。これは、図7に示すように設定された候補範囲G(#1〜#7)における候補範囲G(#5)である。候補範囲G(#5)には、“情報”、“生産性”、“影響”、“与える”といった単語が含まれており、質問文「“情報”が“生産性”に“影響”を“与える”までのプロセスとは?」との一致度が最も高くなっていることから要約として抽出されている。
【0048】
上述したように、同実施の形態に係る文書要約作成方法を適用した文書要約作成システムにおいては、上記のような作用により、要約として抽出される候補範囲を任意に設定することができる。その結果、様々な表現スタイルの文書からも、要約として適切な箇所を抽出することができるようになる。また、範囲設定条件を設定することによって、検索対象の文書の絞り込みや、候補範囲のきめ細かな指定ができる。これらによって、より精度良く要約を作成することが可能となる。
【0049】
以上、本発明を実施するための最良の形態について、添付図面を参照しながら説明したが、本発明はかかる構成に限定されない。特許請求の範囲の発明された技術的思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の技術的範囲に属するものと了解される。
【図面の簡単な説明】
【0050】
【図1】本発明の実施の形態に係る文書要約作成方法を適用した文書要約作成システムの一例を示す機能ブロック図。
【図2】要約作成条件、検索条件、及び範囲設定条件を入力するための対話形式の入力画面の一例を示す概念図。
【図3】検索エンジンの詳細な機能構成例を示すブロック図。
【図4】同実施の形態に係る文書要約作成方法を適用した文書要約作成システムの動作を示すフローチャート。
【図5】文書検索部によって検索された文書の一例を示す図。
【図6】候補範囲が設定された文書の一例を示す図。
【図7】候補範囲が設定された文書の別の例を示す図。
【図8】要約抽出部によって抽出された要約の一例を示す図。
【符号の説明】
【0051】
10…文書要約作成システム、12…通信ネットワーク、20…クライアント、22…通信部、24…入力部、26…表示部、30…サーバ、31…通信部、32…検索エンジン、33…文書検索部、34…メモリ、35…候補範囲設定部、36…要約抽出部、37…データベース部、38…データベース、40…入力画面、42…要約作成条件入力欄、44…検索条件入力欄、48…範囲設定条件入力欄、49…ベース選択欄、50…書式設定欄

【特許請求の範囲】
【請求項1】
入力された検索条件に基づいて文書を検索し、入力された要約作成条件に基づいて、前記検索された文書から要約に相応しい範囲を抽出することによって前記文書の要約を作成する文書要約作成システムにおいて、
入力された範囲設定条件に基づいて、前記検索された文書内において、前記要約として抽出される候補範囲を設定する候補範囲設定手段を備え、
前記要約に相応しい箇所を抽出する場合には、前記候補範囲設定手段によって設定された候補範囲の何れかから抽出するようにした文書要約作成システム。
【請求項2】
請求項1に記載の文書要約作成システムにおいて、
前記範囲設定条件は、前記検索する文書を限定する限定条件、および前記候補範囲の書式条件のうちの少なくとも何れかを含む文書要約作成システム。
【請求項3】
請求項1または請求項2に記載の文書要約作成システムにおいて、
前記範囲設定条件の入力を受け付ける対話型入力受付手段を更に備えた文書要約作成システム。
【請求項4】
入力手段から入力された検索条件に基づいて文書を検索し、前記入力手段から入力された要約作成条件に基づいて、前記検索された文書から要約に相応しい範囲を抽出することによって前記文書の要約を作成する文書要約作成方法において、
前記入力手段から入力された範囲設定条件に基づいて、前記検索された文書内において、前記要約として抽出される候補範囲を設定し、
前記要約に相応しい箇所を抽出する場合には、前記設定された候補範囲の何れかから抽出するようにした文書要約作成方法。
【請求項5】
請求項4に記載の文書要約作成方法において、
前記範囲設定条件は、前記検索する文書を限定する限定条件、および前記候補範囲の書式条件のうちの少なくとも何れかを含む文書要約作成方法。
【請求項6】
請求項4または請求項5に記載の文書要約作成方法において、
対話型入力受付手段を用いて前記範囲設定条件の入力を受け付けるようにした文書要約作成方法。
【請求項7】
入力された検索条件に基づいて、データベースに予め蓄積された文書の中から、前記検索条件を満足する文書を検索する機能、
入力された範囲設定条件に基づいて、前記検索された文書内において、前記文書の要約として抽出される候補範囲を設定する機能、
入力された要約作成条件に基づいて、前記設定された候補範囲の中から、前記文書の要約に相応しい範囲を抽出する機能
をコンピュータに実現させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate