説明

文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体

【課題】係り受けの関係を考慮することにより、語句のみを検索した場合や、語句の変化に着目した場合には見落としやすい着眼点に基づいて文を抽出すること。
【解決手段】まず、解析部202は、文書中に含まれる所定の文における句の並びを解析する。次に、特定部204は、解析部202によって解析された句の並びについて、係り受けの関係を特定する。そして、表示部205は、特定部204によって特定された係り受けの関係を、文書から抽出した所定の文とともに表示する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、文書から文を抽出する文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体に関する。
【背景技術】
【0002】
従来は、文書中から所望の文を分析するにあたって、語句単体を検索したり、時系列上の語句の変化を手がかりにしたりしていた。時系列上での語句の変化を手がかりにして文書を分析する方法として、事象発生データの時系列上での変化とその発生時期の事象に相関関係があった場合に、データの変化に起因する事象と時期を見出し、データの変化を予測するものがあった(たとえば、特許文献1参照。)。
【0003】
【特許文献1】特開2001−306998号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、語句単体の検索により分析する場合、頻度の低い語句や係り受けの関係にある語句によって意味が変化する語句を抽出することができないという問題があった。また、文書を時系列上での語句の変化を手がかりにして分析する場合、語句の変化がほとんどないものなどに着眼して分析を行うのは困難であった。また、モデルパターンに定義されにくい頻度の低いものなどは、分析から漏れてしまうという問題があった。
【0005】
データの変化に起因する事象と時期を見出してデータの変化を予測する場合(たとえば、特許文献1参照。)、あらかじめモデルパターンを用意しておかなければならない。したがって、ある制限された範囲での分析には適しているかもしれないが、雑多なデータの分析には適していないという問題があった。また、出現頻度の高低や推移を着眼点とした分析では、出現頻度の低いものや推移があまりないものを見落としやすいという問題があった。
【0006】
この発明は、上述した従来技術による問題点を解消するため、係り受けの関係に注目して所望の文を抽出することができる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる文書処理装置は、文書中に含まれる所定の文における句の並びを解析する解析手段と、前記解析手段によって解析された句の並びについて、係り受けの関係を特定する特定手段と、前記特定手段によって特定された係り受けの関係を、前記所定の文とともに表示する表示手段と、を備えることを特徴とする。
【0008】
この請求項1の発明によれば、句の並びから係り受けの関係が特定されるので、語句の抽出にとどまらず係り受けの関係も明示される。その結果、語句を単独で検索した場合や、検索や語句の出現頻度からでは見落としやすい着眼点を、係り受けを利用することによって示唆することができる。
【0009】
また、請求項2の発明にかかる文書処理装置は、請求項1に記載の発明において、所定の語句を指定する指定手段と、前記指定手段によって指定された語句を含む文を、前記特
定手段によって係り受けの関係が特定された文書と異なる新たな文書から検索する検索手段を備え、前記解析手段は、前記検索手段によって検索された文における句の並びを解析することを特徴とする。
【0010】
この請求項2の発明によれば、語句を指定してその語句を含む文について係り受けの関係を解析することができる。指定した語句を含む文を検索するだけでなく、係り受けの関係も示すことができ、語句の検索だけでは見落としやすい着眼点を示唆することができる。また、1つの語句からの、多岐にわたる係り受けの関係を示すことができる。
【0011】
また、請求項3の発明にかかる文書処理装置は、請求項1または2に記載の発明において、前記特定手段によって特定された係り受けの関係について、前記新たな文書中における出現頻度を求める算出手段を備え、前記表示手段は、前記算出手段によって求められた前記出現頻度を表示することを特徴とする。
【0012】
この請求項3の発明によれば、係り受けの関係の出現頻度が表示されるので、出現頻度に関し、語句の検索によって示される傾向とは異なる、係り受けの関係からの着眼点を示唆することができる。たとえば、表示結果に基づき、出現頻度が高い係り受けの関係について文書を検討することができる。
【0013】
また、請求項4の発明にかかる文書処理装置は、請求項1〜3のうちいずれか一つに記載の発明において、係り受けの関係の情報を句の並びのそれぞれに対応させて記憶する記憶手段を備え、前記特定手段は、前記解析手段によって解析された句の並びを前記記憶手段から検索することにより、前記係り受けの関係を特定することを特徴とする。
【0014】
この請求項4の発明によれば、あらかじめ句の並びを記憶しておいて、記憶した句の並びを参照することにより、係り受けの関係を特定することができる。したがって、特別な解析を必要とせずに、データを参照するだけで係り受けの関係を特定することができる。
【0015】
また、請求項5の発明にかかる文書処理装置は、請求項1〜4のうちいずれか一つに記載の発明において、前記特定手段によって特定された係り受けの関係に含まれる句の組み合わせについて、評価を判定する判定手段と、前記判定手段によって判定された評価に基づいて、前記所定の文を評価する評価手段を備えることを特徴とする。
【0016】
この請求項5の発明によれば、係り受けの関係に応じて、文の好評や不評という評価を得ることができる。それにより、たとえば様々な回答が寄せられた文書中から、ある回答については好評、またある回答には不評と評価を分けることができる。語句の検索だけでは、本来異なるはずの評価を画一的にしてしまうのに対し、係り受けの関係に基づいて評価することにより、語句の組み合わせに応じて適切に評価することができる。
【0017】
また、請求項6の発明にかかる文書処理装置は、請求項5に記載の発明において、前記表示手段は、前記評価手段によって所定の評価がされた文を表示することを特徴とする。
【0018】
この請求項6の発明によれば、係り受けの関係に応じた評価に応じて文を表示することができる。係り受けの関係に応じて適切に評価されるので、所望の評価の文のみを抽出して表示することができる。たとえば好評な回答だけを表示したり、または不評な回答を表示したりすることができる。
【0019】
また、請求項7の発明にかかる文書処理装置は、請求項1〜6のうちいずれか一つに記載の発明において、前記特定手段は、二つの句を含む前記係り受けの関係を特定することを特徴とする。
【0020】
この請求項7の発明によれば、句の並びから二つの句を含む係り受けの関係が特定されるので、語句の抽出にとどまらず二つの句を含む係り受けの関係も明示される。その結果、語句を単独で検索した場合や、検索や語句の出現頻度からでは見落としやすい着眼点を、二つの句を含む係り受けを利用することによって示唆することができる。
【0021】
また、請求項8の発明にかかる文書処理装置は、請求項7に記載の発明において、前記特定手段は、前記二つの句を含む係り受けの関係に含まれる、それぞれの語句の前記所定の文における開始位置をさらに判断し、前記特定手段は、共通する語句および前記開始位置を含む、前記二つの句を含む係り受けの関係同士を結合することによって、三つの句を含む前記係り受けの関係を特定することを特徴とする。
【0022】
この請求項8の発明によれば、句の並びから三つの句を含む係り受けの関係が特定されるので、語句および二つの句を含む係り受けの関係の抽出にとどまらず、三つの句を含む係り受けの関係も明示される。その結果、語句および二つの句を含む係り受けの関係からでは見落としやすい着眼点を、三つの句を含む係り受けを利用することによって示唆することができる。
【0023】
また、請求項9の発明にかかる文書処理方法は、文書中に含まれる所定の文における句の並びを解析する解析工程と、前記解析工程によって解析された句の並びについて、係り受けの関係を特定する特定工程と、前記特定工程によって特定された係り受けの関係を、
前記所定の文とともに表示する表示工程と、を含むことを特徴とする。
【0024】
この請求項9の発明によれば、句の並びから係り受けの関係が特定されるので、語句の抽出にとどまらず係り受けの関係も明示される。その結果、語句を単独で検索した場合や、検索や語句の出現頻度からでは見落としやすい着眼点を、係り受けを利用することによって示唆することができる。
【0025】
また、請求項10の発明にかかる文書処理プログラムによれば、請求項9に記載の文書処理方法をコンピュータに実行させることができる。
【0026】
また、請求項11の発明にかかるコンピュータに読み取り可能な記録媒体は、請求項10に記載の文書処理プログラムをコンピュータが読み出して実行することができる。
【発明の効果】
【0027】
本発明にかかる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体によれば、語句を単独で検索した場合や、検索や語句の出現頻度からでは見落としやすい着眼点を、係り受けを利用することによって示唆することができる。また、係り受けの関係にある語句にも着目することにより、出現頻度の低い語句に注目して提示することができるという効果を奏する。
【発明を実施するための最良の形態】
【0028】
以下に添付図面を参照して、この発明にかかる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体の好適な実施の形態を詳細に説明する。
【0029】
図1は、この発明の実施の形態による文書処理装置のハードウエア構成の一例を示すブロック図である。図中、CPU101は装置全体を制御する。ROM102は基本入出力プログラムを記憶する。RAM103はCPU101のワークエリアとして使用される。
【0030】
また、HDD(ハードディスクドライブ)104はCPU101の制御にしたがってHD(ハードディスク)105に対するデータのリード/ライトを制御する。HD105はHDD104の制御にしたがって書き込まれたデータを記憶する。
【0031】
また、FDD(フレキシブルディスクドライブ)106はCPU101の制御にしたがってFD(フレキシブルディスク)107に対するデータのリード/ライトを制御する。FD107は、着脱自在であり、FDD106の制御にしたがって書き込まれたデータを記憶する。
【0032】
また、CD−RWドライブ108はCPU101の制御にしたがってCD−RW(または、CD−R、CD−ROM)109に対するデータのリード/ライトを制御する。CD−RW109は着脱自在であり、CD−RWドライブ108の制御にしたがって書き込まれたデータを記憶する。
【0033】
また、ディスプレイ110はカーソル、メニュー、ウィンドウ、あるいは文字や画像などの各種データを表示する。キーボード111は文字、数値、各種指示などの入力のための複数のキーを備える。マウス112は各種指示の選択や実行、処理対象の選択、マウスポインタの移動などを行う。
【0034】
また、ネットワークI/F113は、通信ケーブル114を介してLANやWANなどのネットワークに接続され、当該ネットワークとCPU101とのインターフェースとし
て機能する。バス100は上記各部を接続する。
【0035】
図2は、この発明の実施の形態にかかる文書処理装置の構成を機能的に示すブロック図である。文書処理装置は、文書データベース201、解析部202、係り受けデータベース203、特定部204、表示部205、指定部206、検索部207、算出部208、判定部209、評価部210によって構成される。以上の各構成は、図1に示したCPU101が、ROM102からプログラムを読み出しRAM103をワークエリアとして使用することにより実現される。
【0036】
文書データベース201は、文書のデータを記憶するデータベースである。文書は複数の文の集合によって構成される。解析部202は、文書データベース201に記憶される文書のうち、対象となる文書に含まれる文の1つを解析して、文に含まれる各語がどの句に該当するかを判定する。句は、動詞句、名詞句、副詞句、形容詞句、名詞句に接続する助詞、接続助詞、並立助詞、助詞、その他の句区分の句、すべての句、に分けられる。対象となる文書は、サンプルとなる1つの文書とすることができる。また、サンプルとなる文書について係り受けの関係が特定された後に、サンプルとなる文書についての結果をもとに複数の文書を解析することもできる。ここで、この複数の文書のうちの1つを対象の文書とすることもできる。
【0037】
係り受けデータベース203は、句の並びに対する係り受けの関係を記憶するデータベースである。係り受けデータベース203は、たとえば、「名詞句/名詞句に接続する助詞/動詞1/動詞2」、という句の並びを記憶し、これに対応して「動詞1−名詞」「動詞2」という係り受けの関係を記憶する。係り受けデータベース203は、以上のような句の並びと、これに対応する係り受けの関係を、すべて1対1対応で記憶し、このデータの集合をデータベースとして用意する。なお、句の並びと係り受けの関係の対応には、優先順位を割り当てておき、この優先順位を係り受けデータベース203に記憶することができる。
【0038】
特定部204は、解析部202から句の並びを解析された文を取得し、係り受けデータベース203を参照して、解析部202で解析された句の並びに該当する句の並びを検索する。該当する句の並びが得られた場合、対応する係り受けの関係を使用して、取得した文の係り受けの関係を特定する。たとえば、「状況に/応じて/選択できる/光量。」という文が入力された場合、この文の句の並びは、「名詞句/名詞句に接続する助詞/動詞1/動詞2」である。対応する係り受けの関係は、「動詞1−名詞」「動詞2」なので、入力文に対応する係り受けの関係は、「応じる(て)/状況」「選択(できる)」になる。また、特定部204は、係り受けデータベース203に記憶される優先順位にしたがって、句の並びを検索することができる。
【0039】
表示部205は、特定部204から係り受けの関係を取得し、係り受けの関係を入力文とともに表示する。上述の例の場合、「応じる(て)/状況」「選択(できる)」という係り受けの関係とともに、「状況に応じて選択できる光量。」という文を表示する。これにより、文書中に含まれる文のそれぞれについて、係り受けの関係が明示される。
【0040】
指定部206は、所定の語句を指定する。語句の指定は、単語そのものを入力することによって指定することができる。または選択肢として表示された複数の語句のうち、所望の語句を選択することによって語句を指定することができる。選択対象の語句は、サンプルとなる文書から係り受けの関係をあらかじめ取得しておき、その結果から提示することもできる。
【0041】
検索部207は、指定部206から語句の指定を受け、この指定された語句を含む文を
文書データベース201から検索する。そして、検索結果を解析部202に出力する。解析部202は、検索結果として出力された文を解析し、特定部204に出力する。指定する語句は、文書中の句の並びから選択することができる。そして、選択した語句を含む文を、対象となる文書から検索する。
【0042】
算出部208は、特定部204によって特定された係り受けの関係について、出現頻度をカウントする。すなわち、対象となる文書について係り受けの関係の出現頻度を合計し、係り受けの関係のそれぞれがどの程度の頻度で出現しているかを求める。出現頻度は、対象となる文書のそれぞれについて求め、その上で対象となるすべての文書について出現頻度を合計する。求められた出現頻度は、表示部205によって表示される。
【0043】
判定部209は、特定部204で係り受けの関係にあると特定された句の組み合わせについて好評か不評かの評価を判定する。たとえば、同じ「高い」でも「精度が高い」は好評、「値段が高い」は不評、「背が高い」はどちらでもない、と評価することができる。組み合わせごとに、好評、不評、どちらでもないの評価を予め記憶しておき、与えられた句の組み合わせを、記憶されている評価と比較することにより評価を出力する。
【0044】
評価部210は、判定部209から出力された評価にしたがって、文全体の評価を決定する。評価結果は表示部205に出力し、表示部205がその評価を出力する。ここで表示部205は、文書の上から順に文と係り受けの関係を表示することができるが、この評価結果の順に文を表示したり、好評と評価された文のみを表示したりすることができる。
【0045】
図3は、文の係り受けの関係を解析する処理を説明するフローチャートである。まず、解析部202は、文の句の並びを解析する(ステップS301)。次に、特定部204は、解析された句の並びを係り受けデータベース203と照合する(ステップS302)。次に、特定部204は、係り受けデータベース203で対応する句の並びについて、係り受けの関係を特定する(ステップS303)。
【0046】
次に、表示部205は、係り受けの関係を文とともに表示する(ステップS304)。そして、表示した文が文章の最後の文であるか否かを判定する(ステップS305)。最後の文の場合(ステップS305:Yes)、一連の処理を終了する。最後の文でない場合(ステップS305:No)、次の文に進み(ステップS306)、ステップS301に戻り次の文について同じ処理を繰り返す。
【0047】
図4は、係り受けの関係が特定された文についての処理を説明するフローチャートである。まず、ある文書データから、係り受けの関係を抽出する(ステップS401)。次に、抽出された係り受けの関係から、今後の分析に有益と思われる係り受けの語句を選択する(ステップS402)。このとき、選択した係り受けの関係をソースとして出力する。また、係り受けの語句の選択時の情報として、語句の好評・不評情報を提示してもよい。
【0048】
次に、別の文書データから、係り受けの関係を抽出する(ステップS403)。次に、ステップS402で選択した語句と、抽出した係り受けの関係を比較する(ステップS404)。比較した結果、選択した語句を含んでいる場合、その語句の係り受けの関係と、該当する文を表示する(ステップS405)。
【0049】
ここで、図4で説明した処理について、具体的な例を示す。過去にお客様の声から作った独自製品があり、現在好評な製品があった場合の、その製品のお客様の声からの抽出例を説明する。まず、そのお客様の声から係り受けの関係を抽出する。
【0050】
たとえば、「各健康機器メーカーからバラバラに出ている商品群をインターネットとP
Cで統合的に管理する商品。」という文を抽出する。この抽出した文の係り受けの関係は、「/バラバラ/各健康機器メーカー」である。次に、抽出された係り受けの関係から、キーとなりそうな語句をマークしておく。語句は、たとえば「バラバラ」とする。
【0051】
次に、あるお店に顧客の声として集まってきた別の文書データから、係り受けの関係を抽出する。次に、先にマークしておいた「バラバラ」が抽出した係り受けの関係に含まれているかを確認する。確認した結果、「バラバラ」を含む係り受けの関係と該当する文書を提示する。たとえば、次の3つの文が提示される。
【0052】
「(A) /バラバラ/材料
パウンドケーキを自分で作ろうと思って材料を買いに行くとトッピングなどの材料がバラバラになっていて、しかも一つ一つが割高。」
【0053】
以上の文が提示された場合、パウンドケーキに必要な材料を必要な分だけセットした商品の検討を行うことができる。すなわち、「バラバラなものを統合して使いやすくする」という過去の流れに沿った検討を行うことができる。
【0054】
「(B) /バラバラ/詰め替え用
商品によって詰め替え用がバラバラに置いてあると探すのも選ぶのも、結構面倒臭いんですよね。」
【0055】
以上の文が提示された場合、詰め替え用を商品といっしょにおいておく配置を検討することができる。すなわち、「バラバラなものを統合して使いやすくする」という過去の流れに沿った検討を行うことができる。
【0056】
「(C) /ばらばら/好み
1ケース入りのジュースって最初はうれしいけど、同じ物なのでだんだん飽きてきて、飲まなくなってしまうことがあるんです。みんながみんな同じ物が欲しいわけでもないので、後から買い足したり、何だかんだと大変なんです。うちは、4人家族ですが、子供達はジュース、パパはコーヒー、私はお茶というように好みがばらばらです。」
【0057】
以上の文が提示された場合、好きなものを好きな数ずつ組み合わせて購入できるサービスの検討を行うことができる。すなわち、「バラバラなものを好きなように組み合わせられる」という新しい検討を行うことができる。
【0058】
さらに、図4で説明した処理について別の例を示す。過去に、多くの苦情などの意見が集まった製品(食器洗い用洗剤)があったとして、その意見からの抽出例を説明する。まず、意見の中から係り受けの関係を抽出する。意見は、各健康機器メーカーからばらばらに出ている商品群をインターネットとPCで統合的に管理する商品に対するものとする。
【0059】
抽出された係り受けの関係は次の通りであったとする。数字は抽出件数を示す。「/よい/泡立ち」:150、「/使いやすい/パッケージ」:100、「/きれい/カレー」:80、「/ひどい/手荒れ」:60、「/ガサガサ/肌」:40、「/ピリピリする/肌」:15、「/痛む/肌」:10。そして、抽出された係り受けの関係から、キーとなりそうな語句をマークしておく。たとえば、「ひどい、ガサガサ、ピリピリする、痛む」をマークする。
【0060】
さらに、あるお店に顧客の声として集まってきた別の文書データから、係り受けの関係を抽出する。次に、先にマークしておいた語句が抽出した係り受けの関係に含まれているかを確認する。確認した結果、着目した語句を含む係り受けと該当する文書を提示する。
たとえば、次の文が提示される。
【0061】
「/ピリピリする/口:1
このリップクリームAは潤うけれど、つけたとき、少し口がピリピリします。」
【0062】
以上の文が提示された場合、リップクリームAについて、注意が必要なことが分かる。上述の文を抽出することにより、製品自体の問題なのか、ある体質の人にはよくないのか、ある条件のときに現象が発生するのかなど、原因を特定する必要があるという判断を下すことができる。以上の意見を踏まえて、リップクリームの製品の質やサービスの向上につなげることができる。体質上の課題であれば、その人たちをターゲットにした商品展開が考えられる。
【0063】
図5は、動詞句の係り受け解析を説明する説明図である。図2に示した係り受けデータベース203には、句の種類ごとに係り受けの関係が記憶されている。動詞句データ500は、この動詞句についての、句の並びと係り受けの関係を示すデータである。動詞句データ500は、シート501〜505を含む。
【0064】
ここで、説明のために句の種類を記号で説明する。Vは動詞句であり、たとえば、「動く」「印刷する」が挙げられる。Nは名詞句であり、「室内」「ボタン」が挙げられる。Aは副詞句または形容詞句である。Aは、さらにAdvbで示される副詞句や、Adjで示される形容詞句に分けられる。npは名詞句に接続する助詞である。cpは接続助詞である。cnjは並立助詞であり、「と」「や」が含まれる。prepは「の」に類する助詞であり、「の」「での」が含まれる。otherは上記以外の句区分のものである。Eはすべての句が該当する。
【0065】
シート501〜503は、句の並びが名詞句から始まるものについて、句の並びと係り受けの関係を示す。シート501は、名詞句の次に助詞「の、での」が続く「N_np」、シート502は、名詞句の次に名詞句に接続する助詞が続く「N_cp」、シート503は、名詞句の次に並列助詞が続く「N_cnj」といった句の並びについてのデータである。シート504は、句の並びが動詞から始まるものであり、シート505は、句の並びが副詞句または形容詞句から始まるものである。
【0066】
ここで、「状況に応じて選択できる光量。」という文510からの抽出例を説明する。まず、入力文を構成する句と句区分をイメージする。文510の句の並びは、「状況(N)/に(np)/応じて(V)/選択できる(V2)/光量(N)/。(other)」である。
【0067】
次に、句の並びが合致するものがあるかをさがし、抽出されるべきものを確認する。まず、シート501を確認する。文510の句の並びは、シート501に含まれる「N_np_V_V2」という句の並び520に合致する。そして、係り受け521「/V/N」、係り受け522「/V2/」が抽出される。つまり、「/応じる[←応じて]/状況」「/選択[←選択できる]/」が抽出される。
【0068】
さらに、ルールが終了した次の句「N」から始まるルールはあるが、その次の句「other」が来る句の並びがないため、ここで終了する。なお、「/選択[←選択できる]/光量」を抽出するようなルール記述はないので抽出されない。
【0069】
次に、「色が見本と違う。」という文530からの抽出例を説明する。まず、入力文を構成する句と句区分をイメージする。「色(N)/が(npまたはcp)/見本(N)/と(cnj)/違う(V)/。(other)」となる。
【0070】
次に、句の並びが合致するものがあるかをさがし、抽出されるべきものを確認する。まず、シート501を確認する。「N_np_N2」までは合致するがそれ以上合致するものがない。次に、シート502を確認する。「N_cp_N2」までは合致するがそれ以上合致するものがない。
【0071】
次に、シート503を確認し、「N_cnj」から始まるルールがないため、シート504から「V」から始まるルールをさがす。シート504を確認すると、「V_E」という句の並び541がある。このルールからは係り受け542「/V/」が抽出されるので、入力文からは、「/違う/」が抽出される。
【0072】
以上のように、「色が見本と違う。」から「/違う/」のみが抽出される。なお、「/違う/色」「/違う/見本」を抽出するようなルール記述がないので、「/違う/色」「/違う/見本」は抽出されない。
【0073】
次に、「写真を拡大して印刷する。」という文からの抽出例を説明する。まず、入力文を構成する句と句区分をイメージする。「写真(N)/を(np)/拡大して(V)/印刷する(V)/。(other)」となる。
【0074】
次に、句の並びが合致するものがあるかをさがし、抽出されるべきものを確認する。まず、シート501を確認する。シート501に含まれる「N_np_V_V2」という句の並び520に合致し、係り受け521「/V/N」、係り受け522「/V2/」が抽出される。この場合、句の並びが合致するルールはあるが、抽出結果が期待と異なり、「写真を拡大して印刷する。」からは「/印刷[←印刷する]/写真」が抽出されない。
【0075】
図6は、形容詞句の係り受け解析を説明する説明図である。図2に示した係り受けデータベース203には、句の種類ごとに係り受けの関係が記憶されている。形容詞句データ600は、この形容詞句についての、句の並びと係り受けの関係を示すデータである。形容詞句データ600は、シート601〜605を含む。
【0076】
シート601〜603は、句の並びが名詞句から始まるものについて、句の並びと係り受けの関係を示す。シート601は、名詞句の次に助詞「の、での」が続く「N_np」、シート602は、名詞句の次に名詞句に接続する助詞が続く「N_cp」、シート603は、名詞句の次に並列助詞が続く「N_cnj」といった句の並びについてのデータである。シート604は、句の並びが副詞句から始まるものであり、シート605は、句の並びが形容詞句から始まるものである。
【0077】
ここで、「とても美しい湖の色が好き。」という文610からの抽出例を説明する。まず、入力文を構成する句と句区分をイメージする。文610の句の並びは、「とても(Advb)/美しい(Adj)/湖(N)/の(prep)/色(N2)/が(npまたはcp)/好き(Adj2)/。(other)」である。
【0078】
次に、句の並びが合致するものがあるかをさがし、抽出されるべきものを確認する。まず、シート604を確認する。シート604に含まれる句の並び620「Advb_Adj_N_prep_N2」と合致し、係り受け621「/Advb/Adj/N」、係り受け622「/Advb/Adj/N2」が抽出される。つまり、「とても/美しい/湖」「とても/美しい/色」が抽出される。
【0079】
なお、「np」または「cp」から始まるルールはないので、次の句「Adj」から始まるルールをさがす。シート605に含まれる「Adj_E」が合致する。そこから、「
/Adj/」が抽出される。つまり、「/好き/」が抽出される。以上により、「とても/美しい/湖」「とても/美しい/色」「/好き/」が抽出される。
【0080】
次に、「美しい色の鮮やかな部屋。」という文630からの抽出例を説明する。まず、入力文を構成する句と句区分をイメージする。文630の句の並びは、「美しい(Adj)/色(N)/の(prep)/鮮やかな[鮮やか](Adj)/部屋(N2)/。(other)」となる。
【0081】
次に、句の並びが合致するものがあるかをさがし、抽出されるべきものを確認する。まず、シート605を確認する。シート605に含まれる句の並び641「Adj_N_prep_E」と合致し、係り受け642「/Adj/N」が抽出される。つまり、「/美しい/色」が抽出される。次の句「N」とさらにその次の句「other」という句の並びのルールはないため、何も抽出しない。以上により、「/美しい/色」は抽出されるが「/鮮やか/」は抽出されない。
【0082】
以下、本実施の形態における文書処理手順のさらに他の実施例として、ある企業の社員が行った「今後どのようなカメラがほしいか」といった内容のお客様のアンケート(以下、「当該アンケート」と示す)の中から、任意に選択した特定のアンケート文に基づいて、お客様が求めるカメラの発売を検討するために用いるアンケート文を抽出する実施例について図7を用いて説明する。
【0083】
図7は、本実施の形態における文書処理装置による文書処理手順のさらに他の実施例を示すフローチャートである。まず、文書処理装置は、文書データベース201から、当該アンケートに関するアンケート文を全て取得する(ステップS701)。なお、文書データベース201に格納されている当該アンケートに関するアンケート文の一例については図8を用いて後述する。
【0084】
次に、表示部205によって、ステップS701で取得したアンケート文を、ディスプレイ110の画面上に表示する(ステップS702)。
【0085】
次に、ステップS703でディスプレイ110の画面上に表示されたアンケート文の中から、アンケート文を抽出するときの基準となるアンケート文(以下、「基準アンケート文」と示す)を選択する(ステップS703)。基準となるアンケート文は、例えば、キーボード111やマウス112などを用いたユーザによる操作によって選択することができる。なお、ディスプレイ110の画面上に表示されたアンケート文の一例については図9を用いて後述する。
【0086】
次に、ステップS703で選択した基準アンケート文に対応する係り受けの関係および係り受けの関係に対応する語句を抽出する(ステップS704)。なお、具体的な、係り受けの関係を抽出する手順については、図3を用いて上述した文の係り受けの関係を解析する処理の説明と同様のため、ここでは説明を省略する。
【0087】
次に、表示部205によって、ステップS704で抽出した基準アンケート文に対応する係り受けの関係および係り受けの関係に対応する語句を、ディスプレイ110の画面上に表示する(ステップS705)。なお、ディスプレイ110の画面上に表示されたアンケート文に対応する係り受けの関係および係り受けの関係に対応する語句の一例については図10を用いて後述する。
【0088】
次に、ステップS701で取得した全てのアンケート文にそれぞれ対応する係り受けの関係および係り受けの関係に対応する語句を抽出する(ステップS706)。なお、全てのアンケート文にそれぞれ対応する係り受けの関係および係り受けの関係に対応する語句の一例については図11を用いて後述する。また、具体的な、係り受けの関係を抽出する手順については、図3を用いて上述した文の係り受けの関係を解析する処理の説明と同様のため、ここでは説明を省略する。
【0089】
次に、指定部206によって、ステップS703で抽出した係り受けの関係および係り受けの関係に対応する語句の中から、アンケート文を抽出するための抽出条件とする係り受けの関係および係り受けの関係に対応する語句を指定する(ステップS707)。
【0090】
次に、検索部207によって、ステップS701で取得したアンケート文の中から、ステップS707でアンケート文を抽出するための抽出条件として指定した、係り受けの関係および係り受けの関係に対応する語句と、ステップS706で抽出した係り受けの関係および係り受けの関係に対応する語句とが一致するアンケート文を抽出する(ステップS708)。
【0091】
次に、表示部205によって、ステップS708で抽出されたアンケート文をディスプレイ110の画面上に表示する(ステップS709)。なお、指定部206によって指定した抽出条件によって抽出され、表示部205によってディスプレイ110の画面上に表示されたアンケート文の一例については図12、図13および図14を用いて後述する。
【0092】
図8は、文書データベース201に格納されている当該アンケートに関するアンケート文の一例を示す図である。図8に示すように、表800は文810によって構成されている。表800および文810には当該アンケートに関する全てのアンケート文が格納されている。
【0093】
図9は、表示部205によって、ディスプレイ110の画面上に表示されたアンケート文の一例を示す図である。図9に示すように、画面900は、アンケート文一覧910と、ボタン920とによって構成されている。アンケート文一覧910には、上述した表800から取得した全てのアンケート文が一覧表示される。また、アンケート文一覧910は、チェックボックス911と、アンケート文表示欄912とによって構成されている。
【0094】
アンケート文表示欄912には、上述した表800から取得したアンケート文が表示される。チェックボックス911は、アンケート文表示欄912に表示されたそれぞれのアンケート文に対応しており、ユーザによって任意のチェックボックス911を選択することができる。ユーザは、いずれかのチェックボックス911を選択することによって、アンケート文表示欄912に表示されたアンケート文の中から、選択されたチェックボックス911に対応するアンケート文を基準アンケートとして選択することができる。そして、基準アンケートが選択されている状態で、ボタン920を押下することによって、基準アンケート文に対応する係り受けの関係および係り受けの関係に対応する語句を抽出することができる。
【0095】
例えば、図9においては、アンケート文「性能がよいカメラがほしい」に対応するチェックボックス911が選択されている。この状態からボタン920を押下することによって、アンケート文「性能がよいカメラがほしい」に対応する係り受けの関係および係り受けの関係に対応する語句を抽出することができる。
【0096】
図10は、表示部205によって、ディスプレイ110の画面上に表示されたアンケート文に対応する係り受けの関係および係り受けの関係に対応する語句の一例を示す図である。図10に示すように、画面1000は、文1010と、係り受けの関係一覧1020と、ボタン1030とによって構成されている。文1010には、上述した画面900によって選択された基準アンケート文が表示される。
【0097】
係り受けの関係一覧1020は、係り受けの関係欄1021と、対応する語句欄1022とによって構成されている。係り受けの関係欄1021には、上述した画面900によって選択された基準アンケート文に対応する係り受けの関係が一覧表示される。対応する語句欄1022には、上述した画面900によって選択された基準アンケート文に対応する係り受けの関係に対応する語句が一覧表示される。ボタン1030は、文1010に表示されているアンケート文を基準アンケート文としたアンケート文の抽出を行うときにユーザによって押下される。
【0098】
例えば、図10においては、文1010に、上述した画面900によって基準アンケート文として選択されたアンケート文「性能がよいカメラがほしい」が表示されている。また、係り受けの関係欄1021には、基準アンケート文「性能がよいカメラがほしい」に対応する係り受けの関係として「/形容詞/名詞」と、「/名詞/動詞」と、「/形容詞/名詞/動詞」が表示されている。さらに、対応する語句欄1022には、基準アンケート文「性能がよいカメラがほしい」に対応する係り受けの関係に対応する語句として「/よい/カメラ」と、「/カメラ/ほしい」と、「/よい/カメラ/ほしい」が表示されている。
【0099】
図11は、全てのアンケート文にそれぞれ対応する係り受けの関係および係り受けの関係に対応する語句の一例を示す図である。図11に示すように、表1100は、文810と、係り受けの関係欄1110と、対応する語句欄1120とによって構成されている。文810には、上述した表800より取得した当該アンケートに関する全てのアンケート文が格納される。係り受けの関係欄1110には、文810に格納されているそれぞれのアンケート文に対応する係り受けの関係が格納される。対応する語句欄1120には、文810に格納されているそれぞれのアンケート文に対応する係り受けの関係に対応する語句が格納される。
【0100】
この表1100は、特定部204によって一時的に生成されたものであり、例えばRAM103に一時的に格納される。そして、例えば、検索部207によって、アンケート文を抽出するために読み取られる。なお、例えば、HD105などに恒久的に格納するようにしてもよい。これによって、例えば、文書処理を行う度に、表1100を生成することなく、検索部207はHD105から表1100を読み取ることができる。
【0101】
図11において、例えば、検索部207は、アンケート文「外見がよいカメラがほしい」には、係り受けの関係として、「/形容詞/名詞」と、「/名詞/動詞」と、「/形容詞/名詞/動詞」が対応していると判断し、係り受けの関係に対応する語句として「/よい/カメラ」と、「/カメラ/ほしい」と、「/よい/カメラ/ほしい」が対応していると判断する。また、例えば、検索部207は、アンケート文「便利なカメラ」には、係り受けの関係として、「/形容詞/名詞」が対応していると判断し、係り受けの関係に対応する語句として「/便利な/カメラ」が対応していると判断する。
【0102】
また、図11に示すように、アンケート文「性能がよいカメラがほしい」には、係り受けの関係に対応する語句として「/よい/カメラ」、「/カメラ/ほしい」および「/よい/カメラ/ほしい」の3通りの語句が表1100に格納されている。本来、係り受けの関係および係り受けの関係に対応する語句を抽出する特定部204は、係り受けデータベース203に基づいて、アンケート文「性能がよいカメラがほしい」に対応する係り受けの関係に対応する語句として「/よい/カメラ」および「/カメラ/ほしい」の2通りの語句を抽出する。
【0103】
この「/よい/カメラ」に含まれる名詞「/カメラ」と、「/カメラ/ほしい」に含まれる名詞「/カメラ」は、共に、アンケート文「性能がよいカメラがほしい」の6文字目から開始される「カメラ」に対応している。この場合、特定部204は、「/よい/カメラ」と「/カメラ/ほしい」とを結合した「/よい/カメラ/ほしい」を新たに生成して、「/よい/カメラ」および「/カメラ/ほしい」に「/よい/カメラ/ほしい」を加えた3通りの語句を、アンケート文「性能がよいカメラがほしい」に対応する係り受けの関係に対応する語句として表1100に格納する。
【0104】
このように、特定部204は、二つの係り受けの関係に共通する語句が、アンケート文の開始位置においても共通する場合、二つの係り受けの関係を結合した係り受けの関係を新たに生成して、アンケート文に対応する係り受けの関係に対応する語句として扱う。
【0105】
また、図11に示すように、アンケート文「よいカメラじゃなく安いカメラがほしい」には、係り受けの関係に対応する語句として「/よい/カメラ」および「/カメラ/ほしい」の2通りの語句が表1100に格納されている。係り受けの関係および係り受けの関係に対応する語句を抽出する特定部204は、係り受けデータベース203に基づいて、アンケート文「よいカメラじゃなく安いカメラがほしい」に対応する係り受けの関係に対応する語句として「/よい/カメラ」および「/カメラ/ほしい」の2通りの語句を抽出する。
【0106】
この「/よい/カメラ」に含まれる名詞「/カメラ」は、アンケート文「よいカメラじゃなく安いカメラがほしい」の3文字目から開始される「カメラ」に対応している。しかし、「/カメラ/ほしい」に含まれる名詞「/カメラ」は、アンケート文「よいカメラじゃなく安いカメラがほしい」の12文字目から開始される「カメラ」に対応している。この場合、特定部204は、「/よい/カメラ」と、「/カメラ/ほしい」とを結合した、「/よい/カメラ/ほしい」を新たに生成せずに、「/よい/カメラ」および「/カメラ/ほしい」の2通りの語句を、アンケート文「よいカメラじゃなく安いカメラがほしい」に対応する係り受けの関係に対応する語句として表1100に格納する。
【0107】
このように、特定部204は、二つの係り受けの関係に共通する語句が、アンケート文の開始位置において共通していない場合、二つの係り受けの関係を結合した係り受けの関係を新たに生成しない。
【0108】
そして、例えば、この表1100に基づいて、「/よい/カメラ」と「/カメラ/ほしい」を抽出条件としたアンケート文の抽出処理を行った場合、アンケート文「性能がよいカメラがほしい」とともに、アンケート文「よいカメラじゃなく安いカメラがほしい」も抽出される。ユーザは「よいカメラがほしい」を主旨とするアンケート文の抽出を期待しているのに対して、「安いカメラがほしい」を主旨とするアンケート文「よいカメラじゃなく安いカメラがほしい」が抽出されてしまう。
【0109】
しかし、この表1100に基づいて、「/よい/カメラ/ほしい」を抽出条件としたアンケート文の抽出処理を行った場合、アンケート文「性能がよいカメラがほしい」は抽出されるが、アンケート文「よいカメラじゃなく安いカメラがほしい」は抽出されない。このように、文書編集装置は、3語の係り受けを抽出条件としたアンケート文の抽出処理を行うことによって、ユーザの期待により近いアンケート文を抽出することができる。
【0110】
図12は、指定部206によって指定した抽出条件によって抽出され、表示部205によってディスプレイ110の画面上に表示されたアンケート文の一例を示す図である。図12に示すように、画面1200は、抽出条件指定欄1210と、ボタン1220と、抽出結果表示欄1230とによって構成されている。抽出条件指定欄1210には、上述した画面1000に表示された、基準アンケート文に対応する係り受けの関係および係り受けの関係に対応する語句が表示されている。そして、表示された係り受けの関係および係り受けの関係に対応する語句の中から、アンケート文の抽出条件とする係り受けの関係および係り受けの関係に対応する語句を選択することができる。ボタン1220は、抽出条件指定欄1210によって選択した抽出条件による、アンケート文の抽出を行うときにユーザによって押下される。抽出結果表示欄1230には、抽出条件指定欄1210によって選択した抽出条件による、アンケート文の抽出処理によって抽出されたアンケート文が一覧表示される。
【0111】
図12において、例えば、抽出条件指定欄1210においては、係り受けの関係の「/形容詞/名詞」と「/名詞/動詞」が、抽出条件として選択されている。そして、抽出結果表示欄1230には、この抽出条件によるアンケート文の抽出処理によって抽出されたアンケート文として、「性能がよいカメラがほしい」と、「外見がよいカメラがほしい」と、「色が白いカメラがほしい」と、「外見がよいデジカメがほしい」と、「外見がよいカメラを手に入れたい」と、「よいカメラじゃなく安いカメラがほしい」の6件のアンケート文が表示されている。
【0112】
図13は指定部206によって指定した抽出条件によって抽出され、表示部205によってディスプレイ110の画面上に表示されたアンケート文の一例を示す図である。図13に示すように、画面1300は、図12を用いて上述した画面1200の状態から、アンケート文のさらなる絞り込みを行うために、係り受けの関係に対応する語句の「/よい/カメラ」と、「/カメラ/ほしい」が抽出条件としてさらに選択されている。
【0113】
そして、抽出結果表示欄1230には、この抽出条件によるアンケート文の抽出処理によって抽出されたアンケート文として、「性能がよいカメラがほしい」と、「外見がよいカメラがほしい」と、「よいカメラじゃなく安いカメラがほしい」の3件のアンケート文が表示されている。
【0114】
図14は指定部206によって指定した抽出条件によって抽出され、表示部205によってディスプレイ110の画面上に表示されたアンケート文の一例を示す図である。図14に示すように、画面1400は、図13を用いて上述した画面1300の状態から、アンケート文のさらなる絞り込みをおこなうために、係り受けの関係の「/形容詞/名詞/動詞」と、係り受けの関係に対応する語句の「/よい/カメラ/ほしい」が抽出条件としてさらに選択されている。
【0115】
そして、抽出結果表示欄1230には、この抽出条件によるアンケート文の抽出処理によって抽出されたアンケート文として、「性能がよいカメラがほしい」と、「外見がよいカメラがほしい」の2件のアンケート文が表示されている。ある企業の社員は、この2件のアンケート文によって、「性能および外見がよいカメラ」をお客様が求めるカメラとして発売を検討することができる。
【0116】
以上のように、本実施例によれば、任意に選択した基準アンケート文に基づいて、基準アンケート文に対応する係り受けの関係および係り受けの関係に対応する語句と、同一の係り受けの関係および係り受けの関係に対応する語句を有するアンケート文を抽出することができる。そして、任意の一つまたは複数の係り受けの関係および係り受けの関係に対応する語句を抽出条件とした、アンケート文の抽出処理を行うことができる。さらに、抽出されたアンケート文によって、お客様が求めるカメラの発売を検討することができる。
【0117】
次に、本実施の形態における文書処理手順のさらに他の実施例として、当該アンケートの中から、係り受けの関係および係り受けの関係に対応する語句の出現頻度に基づいて、お客様が求めるカメラの発売を検討するために用いるアンケート文を抽出する実施例について図15を用いて説明する。
【0118】
図15は、本実施の形態における文書処理装置による文書処理手順のさらに他の実施例を示すフローチャートである。まず、文書処理装置は、文書データベース201から、当該アンケートに関するアンケート文を全て取得する(ステップS1501)。なお、文書データベース201に格納されている当該アンケートに関するアンケート文の一例については、図8を用いて上述した説明と同様のため、ここでは説明を省略する。
【0119】
次に、ステップS1501で取得した全てのアンケート文にそれぞれ対応する係り受けの関係および係り受けの関係に対応する語句を抽出する(ステップS1502)。なお、全てのアンケート文にそれぞれ対応する係り受けの関係および係り受けの関係に対応する語句の一例については、図11を用いて上述した説明と同様のため、ここでは説明を省略する。また、具体的な、係り受けの関係を抽出する手順については、図3を用いて上述した文の係り受けの関係を解析する処理の説明と同様のため、ここでは説明を省略する。
【0120】
次に、算出部208によって、ステップS1502で抽出した係り受けの関係および係り受けの関係に対応する語句に基づいて、係り受けの関係および係り受けの関係に対応する語句の出現頻度を算出する(ステップS1503)。
【0121】
次に、表示部205によって、ステップS1503で算出された係り受けの関係および係り受けの関係に対応する語句の出現頻度をディスプレイ110の画面上に表示する(ステップS1504)。なお、算出部208によって算出され、表示部205によってディスプレイ110の画面上に表示された係り受けの関係および係り受けの関係に対応する語句の出現頻度の一例については図16を用いて後述する。
【0122】
次に、指定部206によって、ステップS1504でディスプレイ110の画面上に表示された係り受けの関係および係り受けの関係に対応する語句の中から、アンケート文を抽出するための抽出条件とする係り受けの関係および係り受けの関係に対応する語句を選択する(ステップS1505)。
【0123】
次に、検索部207によって、ステップS1501で取得したアンケート文の中から、ステップS1505でアンケート文を抽出するための抽出条件として選択した、係り受けの関係および係り受けの関係に対応する語句と、ステップS1502で抽出した係り受けの関係および係り受けの関係に対応する語句とが一致するアンケート文を抽出する(ステップS1506)。
【0124】
次に、表示部205によって、ステップS1506で抽出されたアンケート文をディスプレイ110の画面上に表示する(ステップS1507)。なお、指定部206によって指定した抽出条件によって抽出され、表示部205によってディスプレイ110の画面上に表示されたアンケート文の一例については図17を用いて後述する。
【0125】
図16は、算出部208によって算出され、表示部205によってディスプレイ110の画面上に表示された係り受けの関係および係り受けの関係に対応する語句の出現頻度の一例を示す図である。図16に示すように、画面1600は、出現頻度表示欄1610と、出現頻度表示欄1620と、出現頻度表示欄1630とによって構成されている。
【0126】
出現頻度表示欄1610は、句の種類ごとに、句に対応する語句の出現頻度および順位が表示されている。例えば、図16においては、「/名詞」句に対応する語句「/カメラ」を、係り受けの関係に対応する語句に含むアンケート文が、当該アンケート文の中に9件含まれることを示す。また、例えば、図16においては、「/動詞」句に対応する語句「/ほしい」を、係り受けの関係に対応する語句に含むアンケート文が、当該アンケート文の中に6件含まれることを示す。
【0127】
出現頻度表示欄1620は、2語の係り受けの関係の種類ごとに、係り受けの関係に対応する語句の出現頻度および順位が表示されている。例えば、図16においては、係り受けの関係「/形容詞/名詞」に対応する語句「/よい/カメラ」を、係り受けの関係に対応する語句に含むアンケート文が、当該アンケート文の中に4件含まれることを示す。また、例えば、図16においては、係り受けの関係「/名詞/動詞」に対応する語句「/カメラ/ほしい」を、係り受けの関係に対応する語句に含むアンケート文が、当該アンケート文の中に5件含まれることを示す。
【0128】
出現頻度表示欄1630は、3語の係り受けの関係の種類ごとに、係り受けの関係に対応する語句の出現頻度および順位が表示されている。例えば、図16においては、係り受けの関係「/形容詞/名詞/動詞」に対応する語句「/よい/カメラ/ほしい」を、係り受けの関係に対応する語句に含むアンケート文が、当該アンケート文の中に2件含まれることを示す。
【0129】
画面1600において、係り受けの関係に対応する語句は、それぞれの係り受けの関係に対応する語句ごとに、ユーザによって選択可能なボタン上に表示されている。ユーザは、任意の係り受けの関係に対応する語句が表示されているボタンを押下することによって、任意の係り受けの関係に対応する語句を抽出条件とした、アンケート文の抽出を行うことができる。
【0130】
なお、本実施例においては、任意の一つの係り受けの関係に対応する語句を抽出条件として選択することができる構成としているが、任意の複数の係り受けの関係に対応する語句を抽出条件として選択することができる構成としてもよい。さらに、選択した複数の係り受けの関係に対応する語句に対する、AND条件またはOR条件を選択することができる構成としてもよい。
【0131】
図17は、指定部206によって指定した抽出条件によって抽出され、表示部205によってディスプレイ110の画面上に表示されたアンケート文の一例を示す図である。図17に示すように、画面1700は、抽出条件表示欄1710と、抽出結果表示欄1720とによって構成されている。抽出条件表示欄1710には、上述した画面1600によって抽出条件として選択された、係り受けの関係および係り受けの関係に対応する語句が表示されている。抽出結果表示欄1720には、抽出条件表示欄1710に表示された抽出条件による、アンケート文の抽出処理によって抽出されたアンケート文が一覧表示される。
【0132】
図17において、例えば、抽出条件表示欄1710においては、係り受けの関係の「/形容詞/名詞」と、係り受けの関係に対応する語句の「/よい/カメラ」が、上述した画面1600によって選択された抽出条件として表示されている。そして、抽出結果表示欄1720には、この抽出条件によるアンケート文の抽出処理によって抽出されたアンケート文として、「性能がよいカメラがほしい」と、「外見がよいカメラがほしい」と、「外見がよいカメラを手に入れたい」と、「よいカメラじゃなく安いカメラがほしい」の4件のアンケート文が表示されている。この4件のアンケート文によって、ある企業の社員は、「何がよいカメラをお客様が求めているのか」を検討することができる。
【0133】
以上のように、本実施例によれば、係り受けの関係および係り受けの関係に対応する語句の出現頻度に基づいて、係り受けの関係および係り受けの関係に対応する語句を選択して、選択した係り受けの関係および係り受けの関係に対応する語句を抽出条件とした、アンケート文の抽出処理を行うことができる。そして、抽出されたアンケート文によって、お客様が求めるカメラの発売を検討することができる。
【0134】
以上説明したように、文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体によれば、係り受けの関係を考慮した所望の文を抽出することができる。語句のみを検索した場合や、語句の変化に着目した場合には見落としやすい着眼点に基づいて文を抽出することができる。また、係り受けの関係に着目することにより、語句単体で検索した場合とは異なる傾向を見つけることができる場合がある。たとえばアンケートにおいて、全部の回答を確認することなく、苦情を含む意見や新しい意見などの特定の傾向をもつ回答を、係り受けの関係に着目することにより集めることができる。
【0135】
なお、本実施の形態で説明した文書処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
【産業上の利用可能性】
【0136】
以上のように、本発明にかかる文書処理装置、文書処理方法、文書処理プログラムおよびコンピュータに読み取り可能な記録媒体は、所望の文の抽出に有用であり、特に、多くの回答が寄せられた中から所望の回答を得るのに適している。
【図面の簡単な説明】
【0137】
【図1】この発明の実施の形態による文書処理装置のハードウエア構成の一例を示すブロック図である。
【図2】この発明の実施の形態にかかる文書処理装置の構成を機能的に示すブロック図である。
【図3】文の係り受けの関係を解析する処理を説明するフローチャートである。
【図4】係り受けの関係が特定された文についての処理を説明するフローチャートである。
【図5】動詞句の係り受け解析を説明する説明図である。
【図6】形容詞句の係り受け解析を説明する説明図である。
【図7】文書処理装置による文書処理手順のさらに他の実施例を示すフローチャートである。
【図8】当該アンケートに関するアンケート文の一例を示す図である。
【図9】画面上に表示されたアンケート文の一例を示す図である。
【図10】画面上に表示されたアンケート文に対応する係り受けの関係および係り受けの関係に対応する語句の一例を示す図である。
【図11】全てのアンケート文にそれぞれ対応する係り受けの関係および係り受けの関係に対応する語句の一例を示す図である。
【図12】画面上に表示されたアンケート文の一例を示す図である。
【図13】画面上に表示されたアンケート文の一例を示す図である。
【図14】画面上に表示されたアンケート文の一例を示す図である。
【図15】文書処理装置による文書処理手順のさらに他の実施例を示すフローチャートである。
【図16】画面上に表示された係り受けの関係および係り受けの関係に対応する語句の出現頻度の一例を示す図である。
【図17】画面上に表示されたアンケート文の一例を示す図である。
【符号の説明】
【0138】
101 CPU
102 ROM
103 RAM
201 文書データベース
202 解析部
203 係り受けデータベース
204 特定部
205 表示部
206 指定部
207 検索部
208 算出部
209 判定部
210 評価部

【特許請求の範囲】
【請求項1】
文書中に含まれる所定の文における句の並びを解析する解析手段と、
前記解析手段によって解析された句の並びについて、係り受けの関係を特定する特定手段と、
前記特定手段によって特定された係り受けの関係を、前記所定の文とともに表示する表示手段と、
を備えることを特徴とする文書処理装置。
【請求項2】
所定の語句を指定する指定手段と、
前記指定手段によって指定された語句を含む文を、前記特定手段によって係り受けの関係が特定された文書と異なる新たな文書から検索する検索手段を備え、
前記解析手段は、前記検索手段によって検索された文における句の並びを解析することを特徴とする請求項1に記載の文書処理装置。
【請求項3】
前記特定手段によって特定された係り受けの関係について、前記新たな文書中における出現頻度を求める算出手段を備え、
前記表示手段は、前記算出手段によって求められた前記出現頻度を表示することを特徴とする請求項1または2に記載の文書処理装置。
【請求項4】
係り受けの関係の情報を句の並びのそれぞれに対応させて記憶する記憶手段を備え、
前記特定手段は、前記解析手段によって解析された句の並びを前記記憶手段から検索することにより、前記係り受けの関係を特定することを特徴とする請求項1〜3のうちいずれか一つに記載の文書処理装置。
【請求項5】
前記特定手段によって特定された係り受けの関係に含まれる句の組み合わせについて、評価を判定する判定手段と、
前記判定手段によって判定された評価に基づいて、前記所定の文を評価する評価手段を備えることを特徴とする請求項1〜4のうちいずれか一つに記載の文書処理装置。
【請求項6】
前記表示手段は、前記評価手段によって所定の評価された文を表示することを特徴とする請求項5に記載の文書処理装置。
【請求項7】
前記特定手段は、二つの句を含む前記係り受けの関係を特定することを特徴とする請求項1〜6のうちいずれか一つに記載の文書処理装置。
【請求項8】
前記特定手段は、前記二つの句を含む係り受けの関係に含まれる、それぞれの語句の前記所定の文における開始位置をさらに判断し、
前記特定手段は、共通する語句および前記開始位置を含む、前記二つの句を含む係り受けの関係同士を結合することによって、三つの句を含む前記係り受けの関係を特定することを特徴とする請求項7に記載の文書処理装置。
【請求項9】
文書中に含まれる所定の文における句の並びを解析する解析工程と、
前記解析工程によって解析された句の並びについて、係り受けの関係を特定する特定工程と、
前記特定工程によって特定された係り受けの関係を、前記所定の文とともに表示する表示工程と、
を含むことを特徴とする文書処理方法。
【請求項10】
請求項9に記載の文書処理方法をコンピュータに実行させることを特徴とする文書処理プログラム。
【請求項11】
請求項10に記載の文書処理プログラムを記録したことを特徴とするコンピュータに読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate


【公開番号】特開2006−323811(P2006−323811A)
【公開日】平成18年11月30日(2006.11.30)
【国際特許分類】
【出願番号】特願2005−345828(P2005−345828)
【出願日】平成17年11月30日(2005.11.30)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】