説明

用例文検索装置および用例文検索方法

【課題】文書作成などに利用できる用例文検索は効率が悪い。
【解決手段】パターン抽出部40は、文書記憶部70に記憶された文書集合のうちユーザが指定した文書集合を読み出してテキストデータとするテキスト化部42、1文ごとに区切る変換を行う変換部44、系列パターンマイニングのアルゴリズムにより単語列パターンを抽出する抽出実施部46、抽出したパターンを出現頻度とそれを含む文章とに対応づけてパターン情報記憶部80に記憶させるパターン情報書き込み部48を含む。検索部60はユーザが入力したキーワードからパターンを検出する検索実施部62、検出したパターンのリストと頻度を表示するパターン出力部64、ユーザが選択したパターンを含む用例文を表示する用例文出力部66を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、検索技術に関し、特に語句の用例を参照するための用例文検索装置およびそれに適用される用例文検索方法に関する。
【背景技術】
【0002】
外国語などの文章を作成する際に語句の用例文を参照することは、正しい文書作成に対して有効な手段である。近年では文書を電子ファイルとして保存することが一般的になり、情報処理装置の処理速度や電子データの記憶容量などハードウェアの性能も向上しているため、それらを利用して、サーバなどに保存された多くの文書からキーワードを元に用例文を取得する用例文検索の技術が研究されている。例えばkwic(Keyword In Context)索引付けによる検索ツールとして、入力した語句から単語リストやその単語がどのような文脈で使用されたかを示すkwicコンコーダンスを作成するソフトウェアも提供されている。
【0003】
一方、ウェブサイトが提供する検索エンジンを利用して用例文検索を行うこともできる。この場合ユーザはキーワードを検索エンジンに入力することにより、検索結果として表示されたキーワード周辺の文字列を閲覧し、キーワードの用例を確認する。さらにキーワード周辺の文字列のパターンからマッチングを行い、頻出フレーズに相当する部分文字列を抽出、表示し、その部分文字列を含む文書を用例文として検索するシステムなども提供されている(例えば非特許文献1参照)。
【非特許文献1】藤本宏凉ら,ローカルコーパスからのテキストマイニングツール:PortableKiwi,言語処理学会第11回年次大会発表論文集
【発明の開示】
【発明が解決しようとする課題】
【0004】
ところがユーザが頻出フレーズについて調べようとした場合、例えばkwicコンコーダンスを用いると、フレーズに含まれるキーワードから作成された大量なコンコーダンスから自分でフレーズを確認していく作業が必要となる。また、キーワード周辺の情報から用例の部分的情報は取得できるが、コンコーダンスの表示が文単位でないと文章の全体的な把握が困難な場合がある。検索エンジンを利用して頻出フレーズを抽出するシステムにおいては、検索対象がウェブページであるため、分野に特化した検索ができず、表示結果が膨大となり検索の効率が悪い。また、フレーズマッチングのシステムを用いた場合、単純なキーワード検索では、キーワードの後方の文脈のみが考慮されるため、必要な情報が取得できない場合がある。
【0005】
本発明はこうした状況に鑑みてなされたものであり、その目的は、用例文に係る有用な情報をユーザが効率的に取得できる技術を提供することにある。
【課題を解決するための手段】
【0006】
本発明のある態様は、用例文検索装置に関する。この用例文検索装置は、ユーザが指定した文書集合から所定の規則に従い単語列パターンを抽出するパターン抽出部と、パターン抽出部が抽出した単語列パターンと、文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を記憶するパターン情報記憶部と、検索キーワード入力を受け付け、検索キーワードおよび検索キーワードと関連性を有する語句のいずれかを含む単語列パターンをパターン情報記憶部が記憶するパターン情報から検出する検索実施部と、検索実施部が検出した単語列パターンおよびそれに対応付けられた文章の少なくとも一部を出力するパターン情報出力部と、を備えることを特徴とする。
【0007】
ここで「単語列パターン」は所定の数の単語で構成され、順序情報を含んだ単語集合である。連続して同一である2つの単語集合を同一の単語列パターンとしてもよいし、不連続だが同一の単語集合が同一の順序で出現する2つの単語集合を同一の単語列パターンとしてもよい。したがって「所定の規則」とは、抽出する単語列パターンを構成する単語の数または数の範囲、連続同一を同一単語列パターンとするか不連続も許すか、文書集合に出現する頻度のしきい値、すなわち何度出現したら単語列パターンとして抽出するか、など、抽出に関連する条件であればいずれでもよく、また、抽出に利用する手法なども含んでよい。
【0008】
「検索キーワードと関連性を有する語句」とは、検索キーワードと同一の意味を有し異なる言語の語または句、検索キーワードの類義語、またはそれらの組み合わせなど、一般的に検索キーワードと対応付けることのできる語句のいずれでもよい。
【0009】
本発明の別の態様は、用例文検索方法に関する。この用例文検索方法は、検索キーワード入力を受け付けるステップと、あらかじめ記憶された、ユーザ指定の文書集合から所定の規則に従い抽出された単語列パターンと、文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を参照し、検索キーワードおよび検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを検出するステップと、検出された単語列パターンのうち少なくとも一部の単語列パターンに対応付けられた文章を出力するステップと、を含むことを特徴とする。
【0010】
本発明のさらに別の態様は、記録媒体に関する。この記録媒体は、文書集合から所定の規則に従い抽出された単語列パターンと、当該単語列パターンの文書集合における出現頻度と、文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けて記録することを特徴とする。
【0011】
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。
【発明の効果】
【0012】
本発明によれば、ユーザは所望の語句の用例などの情報を容易に確認することができる。
【発明を実施するための最良の形態】
【0013】
図1は本実施の形態における用例文検索装置の全体的な構成を示している。用例文検索装置10は、用例文検索装置10を統括的に制御するとともに、蓄積された文書から単語列パターン(以下、単にパターンとも呼ぶ)を抽出し、検索処理を行うプロセッサ15を含む。用例文検索装置10はさらに、ユーザが入力指示を行う入力装置20、文書データを蓄積して記憶する文書記憶部70、抽出したパターンの情報を記憶するパターン情報記憶部80と、検索結果を出力する出力装置30を含む。プロセッサ15、入力装置20、出力装置30、文書記憶部70、パターン情報記憶部80は、バス90によって相互にデータの伝送を行う。
【0014】
用例文検索装置10は文書作成装置、または情報処理装置を兼ねていてもよい。この場合、プロセッサ15は文書作成機能や電子メール作成機能を提供するアプリケーションソフトウェアをさらに実行してもよく、入力装置20、出力装置30は、それらのアプリケーションソフトウェアに適応した入力データ、出力データの処理をそれぞれ行う。
【0015】
入力装置20はキーボード、マウス、トラックボールなど一般的に用いられる入力装置のいずれか、またはその組み合わせでよく、文書記憶部70に記憶した文書集合からパターンを抽出する指示や、検索するキーワードなどの入力をユーザが行うためのインターフェースである。文書記憶部70およびパターン情報記憶部80は、ハードディスクや、DVD(Digital Versatile Disk)、CD(Compact Disk)などの記録媒体の読取装置、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)などのメモリなど、データ量や検索装置の形態に応じたハードウェアから適宜選択する。
【0016】
文書記憶部70は、用例文検索装置10にネットワークを介して接続したサーバなどに備えられていてもよい。文書記憶部70には、特定分野の論文や電子メールなどユーザが参照したいカテゴリに属し、完成された複数の文書データを記憶させる。例えば英語の論文を作成するユーザは、自分が過去に閲覧した同分野の英語論文データを蓄積していったり、同分野の論文誌に過去に発表された論文の電子データを入手して記憶させたりしてよい。本実施の形態では、同分野の論文やアブストラクト、あるいは同じ種類の文書など、同一のカテゴリに属する文書を文書集合としてパターンの抽出を行い、用例文の検索対象とすることにより、カテゴリで特有の言い回しや語句の用法、定型句などを効率よく検索できる。
【0017】
文書記憶部70にはカテゴリごとに複数の文書集合のデータを記憶させてもよい。この場合ユーザは、自分の作成したい文書のカテゴリなどに合わせて一の文書集合を選択して後に述べるパターン抽出を行う。パターン抽出に先立ち、文書データはテキストデータに変換されるため、文書記憶部70に記憶させる文書データは、当該変換処理に対応できるフォーマットを有する。
【0018】
図2はプロセッサ15の構成をより詳細に示している。プロセッサ15は、文書記憶部70に記憶された文書データ、またはユーザが選択した文書集合の文書データに含まれるパターンを抽出し、パターン情報ファイルを生成するパターン抽出部40、および、ユーザが入力したキーワードなどを含むパターンおよび用例文の検索を行う検索部60を含む。
【0019】
パターン抽出部40は、入力装置20におけるユーザの入力指示に従い、文書記憶部70に記憶された文書データを読み出し、テキストデータへ変換するテキスト化部42、テキストデータを1行1文の1つのテキストファイルに変換する変換部44、1行1文のテキストファイルから所定のアルゴリズムにより頻出するパターンを抽出する抽出実施部46、抽出したパターンとその頻度、およびそのパターンを含む文章とを対応付けたパターン情報を、パターン情報ファイルとしてパターン情報記憶部80に記憶させるパターン情報書き込み部48を含む。
【0020】
検索部60は、入力装置20におけるユーザの検索キーワード入力に従い、パターン情報記憶部80に記憶されたパターン情報ファイルのデータから検索キーワードを含むパターンを検出する検索実施部62、検索キーワードを含むパターンのリストとそれぞれの頻度を出力装置30に出力するパターン出力部64、および、入力装置20におけるユーザのパターン選択指示に従い、選択されたパターンを含む文章を用例文として出力装置30に出力する用例文出力部66を含む。
【0021】
図2において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メモリ、その他のLSIで構成することができ、ソフトウェア的には、言語処理機能のあるプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
【0022】
ここで抽出実施部46が行う、テキストデータからの単語列パターン抽出について説明する。今、次のような英文データがあるとする。
(1) Three types of thick branes e de Sitter and Sitter brane are considered.
(2) The cases of Dirac Proca and Maxwell fields are considered.
(3) Some issues related to quantum anomaly induced effects due to matter are considered.
(4) The example of a five dimensional BF theory with a boundary brane is considered.
【0023】
これらのデータにおいて、連続単語列“are considered.”が頻度3で、不連続単語列“brane 〜 considered.”が頻度2で出現している。したがってこれらは、この英文を含む文書のカテゴリでは使用頻度の高い定型のパターンと考えられる。抽出実施部46はこのような定型のパターンを、文書データから抽出する。
【0024】
上述のように連続するアイテム列(単語、品詞、属性等)の集合から、あるしきい値以上の頻度で頻出するアイテム列を抽出する手法は系列パターンマイニングと呼ばれる。例えば「ACD」、「ABC」、「CBA」、「AAB」というアイテム列の集合があるとする。系列パターンマイニングのアルゴリズムによると、このアイテム列集合から「A*B」というパターンの頻度は2、「A*C」というパターンの頻度は2、という情報を得ることができる。ここではパターンに含まれるアイテム列は連続、不連続のどちらでも設定でき、上記の例では不連続のパターンも含んでいる。系列パターンマイニングについては多くの研究がなされており、本実施の形態においてはこの系列パターンマイニングの手法のいずれかを導入できる。これにより、現実的な処理時間で頻出パターンを抽出できる。
【0025】
例えば系列パターンマイニングの手法として、n-gram PrefixSpanのアルゴリズムを導入してもよい(工藤拓ら、言語情報を利用したテキストマイニング、言語処理学会全国大会NLP−2002、2002)。この手法は、チャンキングや係り受け解析といった自然言語処理ツールを使用し、半構造化したデータから意味を反映したパターンを抽出する。
【0026】
次に上記の構成による本実施の形態の動作について説明する。図3はパターン文書記憶部70に記憶された文書データからパターンとそれに係る情報を抽出してパターン情報ファイルを生成し、パターン情報記憶部80に記憶させる手順を示している。まずユーザからの入力装置20に対する入力指示により、テキスト化部42は文書記憶部70に記憶された複数の文書を読み出し、記憶されたフォーマットからテキストデータへ変換する(S10)。文書記憶部70に複数のカテゴリの文書集合が記憶されている場合は、ユーザが指定した文書集合に対して変換処理を行う。次に変換部44は、テキストデータを1行1文の1つのテキストファイルへ変換する(S12)。生成されたテキストファイルは、パターン情報記憶部80に記憶させる。
【0027】
次に抽出実施部46は変換されたテキストファイルから、n-gram PrefixSpanなどの系列パターンマイニングのアルゴリズムによって頻出パターンを抽出する(S14)。ここではあるパターンを「頻出パターン」とする出現頻度のしきい値を、2度、5度、などあらかじめプログラム内で設定しておく。そしてそれ以上の頻度で抽出されたパターンを「頻出パターン」として記憶する。同様に、パターンとして抽出される単語列の長さも2単語以上、4単語以上などとプログラム内で設定する。あるいは長い単語列のパターンは頻度のしきい値を低くするなど、パターンとして抽出する単語列の長さと頻度のしきい値とを組み合わせて変化させてもよい。このような設定もプログラム内で行うことができる。
【0028】
抽出実施部46が抽出した頻出パターンは、パターン情報書き込み部48によってパターン情報記憶部80に記憶される(S16)。このとき、頻出パターンと、抽出を行った文書集合における頻度、および、当該頻出パターンを含む文章の識別情報などを対応付けて、パターン情報記憶部80に書き込む。識別情報は、例えばS12で生成しパターン情報記憶部80に保存したテキストファイル内の該当文章の格納領域を示すポインタなどでよい。パターン情報記憶部80には、一度のパターン抽出において抽出対象となった文書集合ごとにパターン情報ファイルを記憶させてよい。以上の手順により、ユーザが参照したい文書集合に含まれる頻出パターンと、それを含む文章などの情報を格納したデータベースが完成する。過去に生成されパターン情報記憶部80に保存されたパターン情報ファイルは、同じ文書集合の用例文検索においてはそのまま利用することができる。
【0029】
図4は文書作成時などにユーザが用例文検索を行う際の処理手順を示している。まずユーザは入力装置20により検索したいキーワードを入力する(S20)。この際、パターン情報記憶部80に複数のパターン情報ファイルが存在する場合は、あらかじめどのパターン情報ファイルから検索を行うかを指定する。すると検索実施部62は、指定されたパターン情報ファイルをパターン情報記憶部80から特定し、当該キーワードを含む頻出パターンを検出する(S22)。次にパターン出力部64は、検出されたパターンとその頻度とからなるデータを出力装置30に出力する(S24)。
【0030】
ユーザは必要に応じて出力されたパターンの中から、用例文を確認したいパターンを入力装置20によって選択する(S26)。すると用例文出力部66は、パターン情報記憶部80のパターン情報ファイルを参照して、選択されたパターンに対応付けられた識別情報に基づきパターン情報記憶部80のテキストファイルから当該パターンを含む文章を全て読み出し、用例文として出力装置30に出力する(S26)。これによりユーザは、参照したいカテゴリに属する文書において頻出するパターンを知ることができるとともに、パターンごとに用例文を確認することができる。
【0031】
図5は本実施の形態において出力装置30に相当する表示装置に表示される用例文検索画面の一例を示している。用例文検索画面100は、パターン情報記憶部80に記憶された複数のパターン情報ファイルから選択を行うファイル選択コマンド102、検索したいキーワードを入力するキーワード入力欄104、検索実行を指示入力する「検索」実行ボタン105、ファイル選択コマンド102によって選択されたパターン情報ファイルの名前を表示するデータベース表示欄106、検索結果のパターンとその頻度を表示するパターン/頻度表示欄108、および選択されたパターンを含む用例文を表示する用例文表示欄116を含む。
【0032】
ユーザがファイル選択コマンド102を入力装置20に含まれるマウスカーソルなどにより選択すると、プルダウンメニューによってパターン情報記憶部80に記憶されている複数のパターン情報ファイルの名前が一覧表示される。ユーザがそのうちのいずれかを選択すると、データベース表示欄106にそのパターン情報ファイルの名前が表示され、検索実施部62の検索対象となる。図5の例では、「論文」という名前のパターン情報ファイルを選択している。
【0033】
続いて図4のS20においてユーザがキーワードをキーワード入力欄104に入力する。図5の例では「consider」という単語が入力されている。そしてユーザが「検索」実行ボタン105により確定入力を行うと、検索実施部62は、パターン情報記憶部80に記憶された「論文」という名前のパターン情報ファイルから「consider」を含み頻出パターンとして記憶された全てのパターンを検出する。そしてパターン出力部64は、パターン/頻度表示欄108のパターン表示欄110に検出したパターンを、頻度表示欄112にそのパターンの頻度を表示する。図5の例ではパターン表示欄110に「we consider the」、「considering the」など、「consider」を含むパターンが頻度順に表示されている。
【0034】
次にユーザは図4のS26において、パターン/頻度表示欄108に表示されたパターンからマウスカーソルなどによってあるパターンを選択入力する。図5の例では「is considered」なるパターンが枠114で囲まれ、選択されていることを示している。すると用例文出力部66は、パターン情報記憶部80に記憶された文書のテキストファイルから、選択されたパターンを含む文章を文単位で全て読み出し、用例文表示欄116に表示する。この際、選択されたパターンが文章中のどこに出現しているかがわかるように枠118でパターンを囲ったり、太字で表示したりしてもよい。
【0035】
ある英文アブストラクトコーパスと、ある国際会議論文集の2つの文書集合を対象に、本実施の形態を実際に適用した。英文アブストラクトコーパスは総英文数65889、データ容量が8.0メガバイト、国際会議論文集は総英文数45115、データ容量が4.6メガバイトである。これらの文書集合のどちらにおいても、図3に示したパターン情報の生成処理を数十秒で完了して図4に示した検索処理を行うことができ、十分実用性が保証されていることが確認された。
【0036】
また、ある論文アブストラクトを検索対象として本実施の形態を適用した場合の検索結果例を表1および表2に示す。ここでのパターン抽出条件は、抽出する頻度のしきい値を5、抽出するパターンは最小2単語、最大6単語の連続した単語列とした。表1は「consider」を検索キーワードとした場合、表2は「study」を検索キーワードとした場合にパターン/頻度表示欄108に表示されるパターンおよび頻度を表している。ここでは文書中、「considered」といった過去形などの変化形は全て原形に正規化する処理をプログラム中で行っている。正規化するかどうかは、検索対象となる文書の量などによって例えば自動的に定めたり、ユーザが指定できるようにする。
【0037】
【表1】

【0038】
【表2】

【0039】
表1および表2から、この論文アブストラクトの文書集合においては、「consider」および「study」はともに受動表現が多用されることがわかる。また両者はほぼ同じ意味で用いられる場合があるが、ユーザは表1、表2から選択したパターンを含む用例文を参照することにより、どちらの表現を用いるかを選択することができる。
【0040】
以上述べた本実施の形態によれば、ユーザが参考にしたいカテゴリの文書集合からパターン情報を生成し、そのパターン情報のみに絞ってキーワード検索を行うことができるため、利用率の少ないパターンを排除しやすく、その集合において定型とされる頻出パターンを取得しやすい。したがって一般的には同じ意味を有する熟語だが、あるカテゴリでは一方はほとんど使われないなど、カテゴリによる用法、文法の偏り、カテゴリ独特の言い回し、定型句、それらが使用される文脈などの知識を効率よく取得し、自分の作成文書に生かすことができる。
【0041】
カテゴリは、例えば論文、電子メールなど比較的大きな分類や、論文を細分化した物理論文、工学論文などの分類、物理論文をさらに細分化した、ある学会の論文集や直近1年間で発表されたある論文誌の論文など、ユーザが容易に指定でき、パターン情報ファイルも容易に生成できる。したがって上述したカテゴリ特有の言い回しなどのほか、局所的、一時的な流行、傾向の把握や、内容的な検索など、ユーザの細かいニーズにも応じることのできる、臨機応変な検索機能が実現できる。
【0042】
またそのカテゴリにおけるパターンの使用状況を頻度などから概観しやすく、キーワードの語感や使用傾向を把握しやすい。さらに選択されたパターンを含む用例文のみを文単位で表示するため、必要最低限の用例文のみを効率的に取得できる。これによりユーザは、頻出パターンのより詳細な用例を調べることができ、それを模倣することにより正確な文章作成を効率的に行うことができる。
【0043】
また系列パターンマイニングのアルゴリズムを利用してパターンの抽出を行うため、あいまいなキーワードに対しても検索を行ってパターンのリストを表示でき、所望のパターンを特定することが可能である。特定に際しては、各パターンの用例文を参照することができるため、最適なパターンを選択しやすい。
【0044】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0045】
本実施の形態では入力したキーワードを含むパターンをパターン情報ファイルから検出したが、キーワードに基づきハードディスクなどに記憶した辞書のデータベースを検索し、その結果得られた語句を新たなキーワードとしてパターンを検索してもよい。これにより例えば日本語のキーワードを入力し、その日本語に対応する英語のパターンとその用例文を確認することができる。辞書としては和英、和仏などの言語変換辞書のほか、類義語辞書を導入することができる。これによりあいまいなキーワードに対して類義語拡張を行うことができる。
【0046】
本実施の形態では用例文検索に特化した装置の説明を行った。本発明の実施の態様はこれに限られず、同様の機能を提供するアプリケーションソフトウェアとして、パーソナルコンピュータなどにおいて他のアプリケーションソフトウェアと同様に実行するようにしてもよい。また文書作成アプリケーションや電子メールアプリケーションなど文章入力を行うアプリケーションに同様の機能を組み込むプラグインとしてもよく、ユーザがパターンや用例文を選択することにより、作成中の文書に自動的に当該パターンや用例文が書き込まれるようにしてもよい。
【0047】
またパターン抽出部40の機能と検索部60の機能は同一の装置に備えていなくてもよい。例えばパターン抽出部40によるパターン情報ファイルの生成をあらかじめ別の装置で行っておき、それを記録した記録媒体を検索部60の機能を有する装置において読み取り、検索を行ってもよいし、ネットワークを介してパターン情報ファイルをダウンロードして検索に用いてもよい。
【図面の簡単な説明】
【0048】
【図1】本実施の形態における用例文検索装置の全体的な構成を示す図である。
【図2】本実施の形態の用例文検索装置におけるプロセッサの構成をより詳細に示す図である。
【図3】本実施の形態においてパターンの情報を抽出し保存する手順を示すフローチャートである。
【図4】本実施の形態において用例文検索を行う際の処理手順を示すフローチャートである。
【図5】本実施の形態において用例文検索装置に表示される用例文検索画面の一例を示す図である。
【符号の説明】
【0049】
10 用例文検索装置、 15 プロセッサ、 20 入力装置、 30 出力装置、 40 パターン抽出部、 42 テキスト化部、 44 変換部、 46 抽出実施部、 48 パターン情報書き込み部、 60 検索部、 62 検索実施部、 64 パターン出力部、 66 用例文出力部、 70 文書記憶部、 80 パターン情報記憶部。

【特許請求の範囲】
【請求項1】
ユーザが指定した文書集合から所定の規則に従い単語列パターンを抽出するパターン抽出部と、
前記パターン抽出部が抽出した前記単語列パターンと、前記文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を記憶するパターン情報記憶部と、
検索キーワード入力を受け付け、前記検索キーワードおよび前記検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを前記パターン情報記憶部が記憶する前記パターン情報から検出する検索実施部と、
前記検索実施部が検出した単語列パターンおよびそれに対応付けられた前記文章の少なくとも一部を出力するパターン情報出力部と、
を備えることを特徴とする用例文検索装置。
【請求項2】
前記パターン抽出部は系列パターンマイニングの手法を用いて前記単語列パターンを抽出することを特徴とする請求項1に記載の用例文検索装置。
【請求項3】
文書集合から所定の規則に従い抽出された単語列パターンと、前記文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を記憶するパターン情報記憶部と、
検索キーワード入力を受け付け、前記検索キーワードおよび前記検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを前記パターン情報記憶部が記憶する前記パターン情報から検出する検索実施部と、
前記検索実施部が検出した単語列パターンおよびそれに対応付けられた前記文章の少なくとも一部を出力するパターン情報出力部と、
を備えることを特徴とする用例文検索装置。
【請求項4】
前記パターン情報記憶部は、複数の前記文書集合に対応する複数の前記パターン情報を記憶し、
前記検索実施部は、前記複数のパターン情報からの選択入力を受け付け、前記キーワードを含む単語列パターンを、選択されたパターン情報から検出することを特徴とする請求項3に記載の用例文検索装置。
【請求項5】
前記パターン情報出力部は、
前記検索実施部が検出した単語列パターンを出力するパターン出力部と、
前記パターン出力部が出力した前記単語列パターンからの選択入力を受け付け、選択された前記単語列パターンに対応付けられた前記文章を出力する文章出力部と、
を備えることを特徴とする請求項1または3に記載の用例文検索装置。
【請求項6】
前記パターン情報記憶部に記憶されるパターン情報においては、前記単語列パターンと、当該単語列パターンの前記文書集合における出現頻度とがさらに対応付けられ、
前記パターン出力部は、前記検索実施部が検出した単語列パターンごとに前記出現頻度をさらに出力することを特徴とする請求項5に記載の用例文検索装置。
【請求項7】
検索キーワード入力を受け付けるステップと、
あらかじめ記憶された、ユーザ指定の文書集合から所定の規則に従い抽出された単語列パターンと、前記文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を参照し、前記検索キーワードおよび前記検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを検出するステップと、
検出された前記単語列パターンのうち少なくとも一部の単語列パターンに対応付けられた前記文章を出力するステップと、
を含むことを特徴とする用例文検索方法。
【請求項8】
ユーザ指定の文書集合から所定の規則に従い抽出された単語列パターンと、前記文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を記憶する機能と、
検索キーワード入力を受け付け、前記検索キーワードおよび前記検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを前記パターン情報から検出する機能と、
検出された前記単語列パターンおよびそれに対応付けられた前記文章の少なくとも一部を出力する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。
【請求項9】
文書集合から所定の規則に従い抽出された単語列パターンと、当該単語列パターンの前記文書集合における出現頻度と、前記文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けて記録することを特徴とする記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2007−213157(P2007−213157A)
【公開日】平成19年8月23日(2007.8.23)
【国際特許分類】
【出願番号】特願2006−30103(P2006−30103)
【出願日】平成18年2月7日(2006.2.7)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】