説明

文章処理方法および装置

【課題】指定したアイディアを含む他分野の文章を容易に検索する。
【解決手段】入力部15Aで、任意の検索文章14Aとこの検索文章14Aに対応する分類コード14Bとを入力し、抽出部15Bで、複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されている文章DB14Cから、検索文章14Aと近似する特徴量を持つ被検索文章を抽出し、このうち、検索文章14Aの分類コード14Bとは異なる分類コードを持つ被検索文章を、選択部15Cで選択する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文章処理技術に関し、特に指定された文章と類似する文章を検索する文章検索技術に関する。
【背景技術】
【0002】
技術開発には、ニーズ先行のものとシーズ先行のものがある。ニーズ先行の開発では、生まれたアイディアの利用形態は比較的明確であるのに対して、基礎研究のようなシーズ先行の開発で生まれたアイディアは産業上の利用可能性が不明であることが多く、せっかくの技術アイディアが世の中で利用されないという弊害がある。
ある技術アイディアについて、他分野で利用可能性があるかないかを調査するためには、多くの技術文章を検索して当該アイディアと類似技術が使われたような例を抽出することがよく行われている。技術文章としては雑誌、論文、製品紹介記事などが一般的であるが、特許情報を使用することはあまり行われていない。その理由として以下が考えられる。
【0003】
特許情報は、従来から特許公報や特許公開公報などの特許文献を蓄積した特許データベースシステムとして完備され、特許実務を効率的に行うために開発された進歩してきた。この特許データベースシステムは、発明などの技術的なアイディアの新規性や進歩性を確認するために検索されることが主目的である。
具体的には、キーワードや、IPC(国際特許分類:International Patent Classification)、FI(ファイルインデックス)などの技術分類コードなどからなる検索式を作成し、これを特許データベースシステムに入力して検索を行い、抽出された先行特許出願の内容と比較して、新規性や進歩性を確認する。したがって、特許データベースシステムは、基本的には同じ分野の先行する類似アイディアを抽出するものであって、新規アイディアの他分野での利用可能性を見いだす目的には適していない。
【0004】
一方、最近は文章をその単語の組み合わせ出現頻度などの特徴量で分析する技術が発達し、文章上の特徴量に基づいて非常に膨大な文章の中から特徴量が近い文章を抽出したり、多くの文章を特徴量が近いものでグループ化するクラスタリングなど行うTMS(テキストマイニングシステム:Text Mining System)を用いた概念検索などが普及し始めている。
【0005】
上記の特許データベースシステムによる検索とは異なる検索手法が使用できるので、様々な活用が期待されている。概念検索では文章そのものを入力して、これに特徴量が近い文章を抽出することが可能である。したがって、TMSに大量の特許文献を蓄積すれば、これに新規アイディアを表現した文章を作成して入力するだけで、類似する特許出願を抽出することができる。
従来、この手法を用いて、出願目前のアイディアについて類似する先行出願を検索し、先行出願に付与された特許分類コードを新規のアイディアの分類コードとして自動的に付与することも行われている(例えば、特許文献1など参照)。
【0006】
【特許文献1】特開2006−227757号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかしながら、このような従来技術では、例えば、新規の技術アイディアの他分野での利用可能性を調べようとした場合、特許データベースシステムを使おうとすると、まずは検索する技術分野を決めなければならないが、予測されないような利用分野を探すのが目的であるから技術分野を特定すること自体が困難であった。
また、キーワードを入力する場合も、異分野や、類似技術の利用分野で同じような用語を使用している保証はなく、様々な用語を想像しながら入力する必要があり著しく困難であった。
【0008】
一方、TMSの概念検索を使って他分野での利用可能性を調べる場合、上記の特許データベースシステムと異なり技術分類やキーワードを特定せずに類似発明を含む特許文献を検索できる利点がある。しかしながら、TMSでは単に特徴量が近い文章を抽出するだけで、技術的な類似性を判断しているわけではない。したがって、その技術アイディアが通常含まれる技術分野やそうでない他の分野の類似文章が混合した状態で抽出されるので、その中から他分野のものを選別するためには実際に内容を読んで判断しなければならず、非常に困難な作業であった。
本発明はこのような課題を解決するためのものであり、任意のアイディアを含む他分野の文章を容易に検索することができる文章処理装置を提供することを目的としている。
【課題を解決するための手段】
【0009】
このような目的を達成するために、本発明にかかる文章処理方法は、演算処理部を有する情報処理装置で行われる文章処理方法であって、演算処理部により、任意の検索文章とこの検索文章に対応する分類コードとを入力するステップと、演算処理部により、複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されているデータベースから、検索文章と近似する特徴量を持つ被検索文章を抽出するステップと、演算処理部により、抽出された被検索文章のうち、検索文章の分類コードとは異なる分類コードを持つ被検索文章を選択するステップとを含む。
【0010】
また、本発明にかかる文章処理装置は、複数の被検索文章のそれぞれについて任意の検索文章とこの検索文章に対応する分類コードとを入力する入力部と、複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されているデータベースから、検索文章と近似する特徴量を持つ被検索文章を抽出する抽出部と、抽出された被検索文章のうち、検索文章の分類コードとは異なる分類コードを持つ被検索文章を選択する選択部とを備えている。
【0011】
また、本発明にかかる他の文章処理方法は、演算処理部を有する情報処理装置で行われる文章処理方法であって、演算処理部により、任意の検索文章とこの検索文章に対応する分類コードとを入力するステップと、演算処理部により、複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されているデータベースから、分類コードとは異なる分類コードを持つ被検索文章を選択するステップと、演算処理部により、検索文章と近似する特徴量を持つ被検索文章を、選択された被検索文章から抽出するステップとを含む。
【0012】
また、本発明にかかる他の文章処理装置は、任意の検索文章とこの検索文章に対応する分類コードとを入力する入力部と、複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されているデータベースから、分類コードとは異なる分類コードを持つ被検索文章を選択する選択部と、検索文章と近似する特徴量を持つ被検索文章を、選択された被検索文章から抽出する抽出部とを備えている。
【発明の効果】
【0013】
本発明によれば、新規に着想した任意の分野におけるアイディアに関し、この新規アイディアと類似したアイディアについて記載された他分野の文章を容易に抽出することができる。このため、抽出した文章に基づいて、新規アイディアに関する他分野での利用状況を把握することで、新規アイディアの着想者が想定していた分野の検知だけでは予測もできなかった全く別の利用方法を見出すことが可能となる。
【発明を実施するための最良の形態】
【0014】
次に、本発明の実施の形態について図面を参照して説明する。
[第1の実施の形態]
まず、図1を参照して、本発明の第1の実施の形態にかかる文章処理装置について説明する。図1は、本発明の第1の実施の形態にかかる文章処理装置の構成を示すブロック図である。
この文章処理装置10は、全体として、入力された情報に基づいて所定の情報処理を行うコンピュータなどの情報処理装置からなり、指定された文章と類似する文章を検索する文章検索機能を有している。
【0015】
文章処理装置10には、主な機能部として、入出力インターフェース部(以下、入出力I/F部という)11、操作入力部12、画面表示部13、記憶部14、および演算処理部15が設けられている。また、演算処理部15には、主な処理部として、入力部15A、抽出部15B、選択部15C、および出力部15Dが設けられている。
【0016】
本実施の形態は、入力部15Aで、任意の検索文章とこの検索文章に対応する分類コードとを入力し、抽出部15Bで、複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されているデータベースから、検索文章と近似する特徴量を持つ被検索文章を抽出し、選択部15Cで、抽出された被検索文章のうち、検索文章の分類コードとは異なる分類コードを持つ被検索文章を選択するようにしたものである。
【0017】
[文章処理装置]
次に、図1を参照して、本発明の第1の実施の形態にかかる文章処理装置の構成について詳細に説明する。
図1に示すように、文章処理装置10には、主な機能部として、入出力I/F部11、操作入力部12、画面表示部13、記憶部14、および演算処理部15が設けられている。以下では、記憶部14に予め格納されているデータベース(文章DB14C)を用いて文章検索処理を行う場合を例として説明するが、データベースについては、文章処理装置10とは別個の記憶装置に格納されているものを用いてもよく、例えば通信ネットワークを介して接続されている記憶装置のデータベースに対して、文章検索処理の際に文章処理装置10からアクセスするようなシステム構成であってもよい。
【0018】
入出力I/F部11は、専用のインターフェース回路からなり、図示しない外部装置、通信網、あるいは記録媒体との間で、検索文章20Aや分類コード20Bなどの各種データを入出力する機能を有している。
操作入力部12は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して演算処理部15へ出力する機能を有している。
画面表示部13は、LCDやPDPなどの画面表示装置からなり、演算処理部15からの指示に応じて、操作メニュー、入力された検索文章20Aや分類コード20B、処理結果である類似文章リストなどの各種情報を画面表示する機能を有している。
【0019】
記憶部14は、ハードディスクやメモリなどの記憶装置からなり、演算処理部15での処理に用いる各種処理情報やプログラム14Pを記憶する機能を有している。プログラム14Pは、入出力I/F部11を介して外部装置、通信網、あるいは記録媒体から読み込まれて、記憶部14に予め格納されている。
記憶部14に記憶される主な処理情報としては、検索文章14A、分類コード14B、文章データベース(以下、文章DBという)14C、抽出結果14D、選択結果14E、および類似文章リスト14Fがある。
【0020】
検索文章14Aは、検索の手かがり(キーワード)となる文章を示すテキストデータからなり、入出力I/F部11や操作入力部12から入力された検索文章20Aが、記憶部14に保存されたものである。例えば、特許文献を検索対象とする場合、検索文章14Aは、利用分野を調べたい技術アイディアを表現した文章を用いればよい。この検索文章14は、必ずしも文法上でいう文章形状をなしている必要はなく、1つ以上のキーワードであってもよい。
【0021】
分類コード14Bは、検索文章14Aの分類を示す分類識別情報からなり、入出力I/F部11や操作入力部12から入力された分類コード20Bが、記憶部14に保存されたものである。例えば、特許文献を検索対象とする場合、分類コード14Bとしては、IPCの他、FIやFタームなどの特許分類情報を用いればよい。
【0022】
文章DB14Cは、複数の被検索文章について、当該被検索文章に固有の文章識別情報と、当該被検索文章の分類コードと、当該被検索文章の特徴を示す特徴量との組みが、エントリとして予め登録されているデータベースである。文章識別情報については、例えば特許文献を検索対象とする場合、特許公開番号、特許登録番号、発明名称など、当該特許文献に固有の識別情報を用いればよい。
【0023】
抽出結果14Dは、文章DB14Cから抽出された、検索文章14Aの特徴を示す特徴量と近似する特徴量を持つ1つ以上の被検索文章に関する文章情報からなる抽出結果情報である。
選択結果14Eは、抽出結果14Dの各比検索文章のうちから選択された、分類コード14Bとは異なる分類コードを持つ1つ以上の被検索文章に関する文章情報からなる選択結果情報である。
類似文章リスト14Fは、処理結果として、選択結果14Eから生成した文章リストである。
【0024】
演算処理部15は、CPUなどのマイクロプロセッサとその周辺回路を有し、記憶部14のプログラム14Pを読み込んで実行することにより、上記ハードウェアとプログラム14Pとを協働させて各種処理部を実現する機能を有している。
演算処理部15には、主な処理部として、入力部15A、抽出部15B、選択部15C、および出力部15Dが設けられている。
【0025】
入力部15Aは、入出力I/F部11または操作入力部12から入力された、検索文章20Aおよび分類コード20Bを取得する機能と、これら検索文章20Aおよび分類コード20Bを記憶部14へ検索文章14Aおよび分類コード14Bとして保存する機能を有としている。
抽出部15Bは、検索文章14Aの特徴を示す特徴量を算出する機能と、当該特徴量と近似する特徴量を持つ被検索文章を記憶部14の文章DB14Cから抽出する機能と、抽出した蓄積文章に関する文章情報を抽出結果14Dとして記憶部14へ保存する機能とを有している。
【0026】
選択部15Cは、記憶部14の抽出結果14Dのうち、検索文章14Aの分類コード14Bとは異なる分類コードを持つ被検索文章を選択する機能と、選択した被検索文章に関する文章情報を選択結果14Eとして記憶部14へ保存する機能とを有している。
出力部15Dは、記憶部14の選択結果14Eから、処理結果を示す類似文章リスト14Fを生成する機能と、この類似文章リスト14Fを記憶部14へ保存する機能と、この類似文章リスト14Fを画面表示部13で画面表示する機能と、この類似文章リスト14Fを入出力I/F部11から図示しない外部装置、通信網、あるいは記録媒体へ出力する機能とを有している。
【0027】
[第1の実施の形態の動作]
次に、図2および図3を参照して、本発明の第1の実施の形態にかかる文章処理装置の動作について説明する。図2は、本発明の第1の実施の形態にかかる文章処理装置の文章検索動作を示すフロー図である。図3は、本発明の第1の実施の形態にかかる文章処理装置の文章検索処理を示すフローチャートである。
ここでは、複数の特許文献が、その特徴量およびIPCと関連付けて予め文章DB14Cに登録されており、検索文章20Aとして利用分野を調べたい技術アイディアを表現した文章が入力され、分類コード20Bとして検索文章20Aが属するIPCが入力される場合を例として説明する。
【0028】
文章処理装置10の演算処理部15は、操作入力部12で検出された文章検索開始を示すオペレータ操作に応じて、図3の文章検索処理を開始する。
まず、演算処理部15は、入力部15Aにより、入出力I/F部11または操作入力部12から入力された、検索文章20Aおよび分類コード20Bを取得して、記憶部14へ検索文章14Aおよび分類コード14Bとして保存する(ステップ100)。
【0029】
図4は、検索文章および分類コードの入力例である。検索文章20Aは、利用分野を調べたい技術アイディアを表現した文章(テキストデータ)からなる。また、分類コード20Bは、検索文章20Aが属するIPC(テキストデータ)からなる。
検索文章20Aについては、もっと短いものでも、長いものでもよいし、キーワード等でも構わない。また、分類コード20Bについては、FIやFタームなど、他の分類情報であってもよい。
【0030】
次に、演算処理部15は、抽出部15Bにより、検索文章14Aの特徴を示す特徴量を算出し(ステップ101)、この特徴量と近似する特徴量を持つ被検索文章(エントリ)を記憶部14の文章DB14Cから抽出し、後述の図5に示すように、抽出した被検索文章に関する文章情報を抽出結果14Dとして記憶部14へ保存する(ステップ102)。
この特徴量としては、単語の種類や出現頻度、係り受けの状態など、文章内容に関する特徴を示す公知のパラメータを用いればよい。また、特徴量の算出方法として、単語解析や構文解析など、各特徴量に応じた公知の手法を用いればよい。また、この特徴量により蓄積文書を抽出する際には、上記パラメータの類似性を示す公知の類似度を用いて、特徴量が近似の範囲にあるかどうかを判定すればよい。
【0031】
続いて、演算処理部15は、選択部15Cにより、記憶部14から抽出結果14Dを読み出し、この抽出結果14Dのうち、記憶部14の分類コード14Bとは異なる分類コードを持つ被検索文章(文章情報)を選択し、選択した被検索文章に関する文章情報を選択結果14Eとして記憶部14へ保存する(ステップ103)。
抽出結果14Dについては、ステップ102において、抽出部15Bにより文章DB14Cから被検索文章を抽出した際に、これら被検索文章の分類コードを含む抽出結果14Dを記憶部14へ保存しておけば、選択部15Cにおける被検索文章の選択処理を高速化できる。
【0032】
次に、演算処理部15は、出力部15Dにより、記憶部14から選択結果14Eを読み出して、処理結果を示す類似文章リスト14Fを生成し、この類似文章リスト14Fを記憶部14へ保存するとともに、画面表示部13で画面表示し(ステップ104)、一連の文章検索処理を終了する。
【0033】
図5は、抽出結果を示す構成例である。この抽出結果14Dにおいて、「類似度」は、リストアップされた各被検索文章と検索文章20Aとの類似性を示す尺度であり、例えば両文章の特徴量から公知の算出方法に基づき算出される。また、ここでは特許文献を検索対象とした例を示しており、被検索文章に関する文章情報として、特許公開番号からなる「文献番号」(文章識別情報)と、発明名称からなる「文献タイトル」と、筆頭IPCからなる「分類コード」とが、被検索文章ごとに表形式で記述されている。
【0034】
図4および図5の例によれば、入力された検索文章20Aの分類コード20Bが「C01B 31/02」であるので、選択部15Cは、図5の抽出結果14Dのうち、その2番目の文献タイトル「ナノカーボンの製造方法」の特許文献について、その分類コードが一致するので選択せず、その他を選択することになる。
実際、分類コードが一致する2番目の文献は、検索文章で表現されたものと同じナノテクノロジーに関するものである。これは異分野での利用可能性を発見するには役立たない。したがって、選択部15Cにおいてこれは選択されず、その他の文献が選択される。
【0035】
その他の文献を見ると、ナノチューブの技術とは無関係に見える「金属粒子」、「コネクター部品」、「ウエハホルダ」に関するものであり、検索文章20Aの技術と類似のものがこれらの分野で利用されている可能性を示している。具体的にどのような類似技術であるか、また、検索文章の技術が実際に適用可能であるか、などは選別された文献の内容を精査しなければならないが、本実施の形態によれば、利用分野を示唆する可能性が非常に高い文献を効率的に提供することができる。
【0036】
なお、分類コードは大分類から小分類へと階層的に構成されていることが多い。IPCの場合もそのような階層的構成になっている。分類コードを比較する場合にどこまでの階層を見るかは用途によって異なる。例えば、図5の例で、「C01B 31/02」まで見れば2番目の文献だけが一致するが、「C01B」まで見るのであれば1番目の文献も一致する。さらに大分類の「C」だけ見るのであれば、例示した特許文献であって選択部15Cで選択されるのは、4番目、5番目の文献だけになる。すなわち、選択される範囲をより遠い分野にしたいのであれば大分類までを比較範囲とし、比較的近い分野も含めるのであれば中・小分類までを比較範囲とすればよい。これはパラメータとしてその都度決定できる事項である。
【0037】
[第1の実施の形態の効果]
このように、本実施の形態は、入力部15Aで、任意の検索文章14Aとこの検索文章14Aに対応する分類コード14Bとを入力し、抽出部15Bで、複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されている文章DB14Cなどのデータベースから、検索文章14Aと近似する特徴量を持つ被検索文章を、記憶部14の文章DB14Cから抽出し、このうち、検索文章14Aの分類コード14Bとは異なる分類コードを持つ被検索文章を、選択部15Cで選択している。
【0038】
したがって、新規に着想した任意の技術分野における技術的アイディアに関し、この新規アイディアと類似した技術アイディアについて記載された他分野の特許文献を容易に抽出することができる。このため、抽出した特許文献に基づいて、新規アイディアに関する他分野での利用状況を把握することで、新規アイディアの着想者が想定していた技術分野の検知だけでは予測もできなかった全く別の利用方法を見出すことが可能となる。
【0039】
[第2の実施の形態]
次に、本発明の第2の実施の形態にかかる文章処理装置について説明する。
第1の実施の形態では、抽出部15Bで、検索文章14Aの特徴量と近似する特徴量を持つ被検索文章を、記憶部14の文章DB14Cから抽出し、このうち、分類コード14Bとは異なる分類コードを持つ被検索文章を、選択部15Cで選択する場合について説明した。
【0040】
本実施の形態では、選択部15Cで、分類コード14Bとは異なる分類コードを持つ被検索文章を文章DB14Cから選択し、このうち、検索文章14Aの特徴量と近似する特徴量を持つ被検索文章を、抽出部15Bで抽出する場合について説明する。
【0041】
したがって、本実施の形態は、第1の実施の形態と比較して、抽出部15Bと選択部15Cの処理順序が大きく異なるものの、抽出部15Bおよび選択部15Cの機能について大きく異なるものではないため、これら抽出部15Bおよび選択部15Cについての詳細な説明は省略する。なお、本実施の形態の文章処理装置における他の構成については、第1の実施の形態と同様であり、ここでの詳細な説明は省略する。
【0042】
[第2の実施の形態の動作]
次に、図6および図7を参照して、本発明の第2の実施の形態にかかる文章処理装置の動作について説明する。図6は、本発明の第2の実施の形態にかかる文章処理装置の文章検索動作を示すフロー図である。図7は、本発明の第2の実施の形態にかかる文章処理装置の文章検索処理を示すフローチャートである。
ここでは、第1の実施の形態と同様、複数の特許文献が、その特徴量およびIPCと関連付けて予め文章DB14Cに登録されており、検索文章20Aとして利用分野を調べたい技術アイディアを表現した文章が入力され、分類コード20Bとして検索文章20Aが属するIPCが入力される場合を例として説明する。
【0043】
文章処理装置10の演算処理部15は、操作入力部12で検出された文章検索開始を示すオペレータ操作に応じて、図7の文章検索処理を開始する。
まず、演算処理部15は、入力部15Aにより、入出力I/F部11または操作入力部12から入力された、検索文章20Aおよび分類コード20Bを取得して、記憶部14へ検索文章14Aおよび分類コード14Bとして保存する(ステップ200)。
【0044】
次に、演算処理部15は、選択部15Cにより、文章DB14Cから、記憶部14の分類コード14Bとは異なる分類コードを持つ被検索文章(エントリ)を選択し、選択した被検索文章に関する文章情報として、当該被検索文章の特徴量を含む文章情報を選択結果14Eとして記憶部14へ保存する(ステップ201)。
続いて、演算処理部15は、抽出部15Bにより、検索文章14Aの特徴を示す特徴量を算出し(ステップ202)、この特徴量と近似する特徴量を持つ被検索文章(文章情報)を、記憶部14の選択結果14Eから抽出し、抽出した被検索文章に関する文章情報を抽出結果14Dとして記憶部14へ保存する(ステップ203)。
【0045】
次に、演算処理部15は、出力部15Dにより、記憶部14から抽出結果14Dを読み出して、処理結果を示す類似文章リスト14Fを生成し、この類似文章リスト14Fを記憶部14へ保存するとともに、画面表示部13で画面表示し(ステップ204)、一連の文章検索処理を終了する。
【0046】
[第2の実施の形態の効果]
このように、本実施の形態は、選択部15Cで、分類コード14Bとは異なる分類コードを持つ被検索文章を文章DB14Cから選択した後、抽出部15Bで、このうち、検索文章14Aの特徴量と近似する特徴量を持つ被検索文章を抽出するようにしたので、出力結果は第1の実施の形態と全く同じであるが、分類コード14Bにより予め特許文献数を絞り込んだ後に特徴量の比較を行うため、抽出部15Bでの処理負担を大幅に削減できる。
【0047】
[実施の形態の特徴]
以上の各実施の形態では、便宜的に特許文献を使用した場合を例として説明したが、処理対象としては、特許文献でなくても、雑誌や論文や製品紹介記事などの他の文章でも、前述と同様に適用でき、同様の作用効果が得られる。この際、技術分類コードとしては、例えば雑誌・論文などのジャンル情報や商品・サービス種別などを表すコードを、各文章の分類コードとして用いればよい。
【0048】
また、このように特許文献以外の文章でも全く同様に本発明を実施できるため、前述したような技術的アイディアだけでなく、ビジネスアイディアや他の様々な着想について、それを表現した文章と分類コードを入力し、他の分類分野での状況を確認することも可能である。
また、テキストマイニングとして様々な手法が考案されているが、上記説明でも分かるように、本発明はテキストマイニングの個々の手法の差異に左右されるものではなく、広く適用が可能である。
【0049】
また、各実施の形態では、文章DB14に、被検索文章の内容(テキストデータ)そのものを含まない場合を例として説明したが、このように各被検出文章の特徴量を文章DB14に蓄積しておけば、抽出部15Bにおいて、検索文章14Aの特徴量に近似する特徴量を持つ被検索文章を文章DB14から抽出できることから、この抽出自体に被検索文章の内容を利用する必要はなく、文章DB14の情報量を大幅に削減できる。これに対して、文章DB14に被検索文章の内容(テキストデータ)を蓄積しておけば、類似文章リスト14Fにリストアップされた各被検索文章に、その内容を関連付けて出力することができ、検索結果を充実化することが可能となる。
【0050】
また、第1の実施の形態では、図5に示したように、抽出結果14Dとして、抽出した文章に関する文章情報に、文章識別情報のほか分類コードなどの他の情報を含む場合を例として説明したが、これに限定されるものではなく、抽出結果14Dとして、抽出した文章を示す文章識別情報のみのリストを用い、必要に応じてこの文章識別情報に基づき文章DB14C内の分類コードを参照するようにしてもよい。これにより、抽出結果14Dの情報量を削減できる。また、同様にして、選択結果14E、さらには第2の実施の形態の選択結果14Eや抽出結果14Dについても、文章識別情報のみのリストを用いてもよい。
【0051】
また、各実施の形態では、抽出結果14Dや選択結果14Eが、文章DB14Cとは別個の情報で構成した場合を例として説明したが、これに限定されるものではない。例えば、文章DB14内の各被検索文章のそれぞれに対応して、抽出・選択の有無(判定結果)を示すフラグ情報を設け、特徴量や分類コードに応じて抽出・選択した更新した各被検索文章のフラグ情報を、抽出結果14Dや選択結果14Eとして用いてもよい。これにより、抽出結果14Dや選択結果14Eの情報量を大幅に削減できる。
【図面の簡単な説明】
【0052】
【図1】本発明の第1の実施の形態にかかる文章処理装置の構成を示すブロック図である。
【図2】本発明の第1の実施の形態にかかる文章処理装置の文章検索動作を示すフロー図である。
【図3】本発明の第1の実施の形態にかかる文章処理装置の文章検索処理を示すフローチャートである。
【図4】検索文章および分類コードの入力例である。
【図5】抽出結果を示す構成例である。
【図6】本発明の第2の実施の形態にかかる文章処理装置の文章検索動作を示すフロー図である。
【図7】本発明の第2の実施の形態にかかる文章処理装置の文章検索処理を示すフローチャートである。
【符号の説明】
【0053】
10…文章処理装置、11…入出力I/F部、12…操作入力部、13…画面表示部、14…記憶部、14A…検索文章、14B…分類コード、14C…文章DB、14D…抽出結果、14E…選択結果、14F…類似文章リスト、14P…プログラム、15…演算処理部、15A…入力部、15B…抽出部、15C…選択部、15D…出力部、20A…検索文章、20B…分類コード。

【特許請求の範囲】
【請求項1】
演算処理部を有する情報処理装置で行われる文章処理方法であって、
前記演算処理部により、任意の検索文章とこの検索文章に対応する分類コードとを入力するステップと、
前記演算処理部により、複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されているデータベースから、前記検索文章と近似する特徴量を持つ被検索文章を抽出するステップと、
前記演算処理部により、抽出された前記被検索文章のうち、前記検索文章の分類コードとは異なる分類コードを持つ被検索文章を選択するステップと
を含むことを特徴とする文章処理方法。
【請求項2】
任意の検索文章とこの検索文章に対応する分類コードとを入力する入力部と、
複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されているデータベースから、前記検索文章と近似する特徴量を持つ被検索文章を抽出する抽出部と、
抽出された前記被検索文章のうち、前記検索文章の分類コードとは異なる分類コードを持つ被検索文章を選択する選択部と
を備えることを特徴とする文章処理装置。
【請求項3】
演算処理部を有する情報処理装置で行われる文章処理方法であって、
前記演算処理部により、任意の検索文章とこの検索文章に対応する分類コードとを入力するステップと、
前記演算処理部により、複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されているデータベースから、前記分類コードとは異なる分類コードを持つ被検索文章を選択するステップと、
前記演算処理部により、前記検索文章と近似する特徴量を持つ被検索文章を、選択された前記被検索文章から抽出するステップと
を含むことを特徴とする文章処理方法。
【請求項4】
任意の検索文章とこの検索文章に対応する分類コードとを入力する入力部と、
複数の被検索文章のそれぞれについて当該被検索文章の分類コードと当該被検索文章の特徴を示す特徴量との組が登録されているデータベースから、前記分類コードとは異なる分類コードを持つ被検索文章を選択する選択部と、
前記検索文章と近似する特徴量を持つ被検索文章を、選択された前記被検索文章から抽出する抽出部と
を備えることを特徴とする文章処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate