説明

文書データ解析装置および方法

【課題】係り受け関係同士の関係に着目して、文書データ解析を支援する。
【解決手段】係り受け関係検索条件入力部16は、取り出したい係り受け関係を指定するものである。通常の検索では、キーワードおよびその検索位置(係り部か受け部か、またはその双方)を指定する。係り受け関係検索部17は係り受け関係集合記憶部15の基礎意味チャンク集合記憶部15aを参照して該当する係り受け関係を抽出し、表示部19は検索結果の係り受け関係集合を表示する。左演算/右演算の検索では、左演算/右演算のいずれかの指定、キーワードおよびその検索位置を指定する。係り受け関係検索部17は係り受け関係集合記憶部15のメタ意味チャンク記憶部15bを参照して係り元または係り先の係り受け関係を抽出し、表示部19は検索結果の係り受け関係集合を表示する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、係り受け関係に着目して文章把握を支援する文書データ解析技術に関する。
【背景技術】
【0002】
自由形式で回答するアンケート、苦情文書(メール)等の多量の文書を解析してそれら多量の文書に内在する真実を抽出することが行なわれている。このような抽出作業は、熟練した作業者が多くの時間をかけて行なわれるのが通常であり、費用または即時性のうえで問題があった。
【0003】
計算機による言語処理を利用してこのような作業を支援することが望まれる。
【0004】
なお、この発明と関連するものとしては特許文献1がある。特許文献1は、質問文の係り受けを解析し、質問文の係り受けを抽出し、また、質問文に対する回答があることが期待される一群の文の係り受けを解析し、質問文の係り受けと一致度が高い係り受けを含む文を一群の文から抽出して回答として提示することを開示している。しかしながら、この特許文献1は、文章把握を支援するものではなく、さらに、係り受け関係同士が持つ係り受け関係についてはまったく着目していない。
【0005】
なお、上述の背景技術やその問題点は、この発明の背景の一部を説明するものにすぎず、この発明は上述の背景技術や問題点に限定されるものではないことを理解されたい。
【特許文献1】特開2005−346160公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
この発明は、以上の事情等を考慮してなされたものであり、係り受け関係に着目して文章把握を支援する文書データ解析技術を提供することを目的としている。
【課題を解決するための手段】
【0007】
この発明の原理的な構成例においては、文の係り受け関係に着目して一群の文の解析支援を行う。係り受け関係は、具体的には、共通の受け部で束ねられた0個以上の係り部と1個の受け部とからなる関係(以下では基礎意味チャンクと呼ぶこともある)として検索される。そして、検索結果などとして得られている現在の基礎意味チャンク集合を対象に、その集合内の各要素である基礎意味チャンクに対して、(1)連用修飾する基礎意味チャンク集合や連体修飾する基礎意味チャンク集合を求める(以下では「左演算」とも呼ぶ)。または(2)連用修飾される基礎意味チャンク集合や連体修飾される基礎意味チャンク集合を求める(以下では「右演算」とも呼ぶ)。このことにより、文に記述された意味内容の原因となる項目や結果として導かれる項目を導きだすことができる。
【0008】
なお、文を右から左に横書きした場合に、「左演算」は、その名が示すように、述部(受け部)から係り部に戻るような方向(左方向)にある係り受け関係を取り出す操作を行うのに対して、「右演算」は、述部とその右方向の受け部とからなる係り受け関係を取り出す操作を行う。
【0009】
図1は、この原理的な構成例を模式的に示しており、図1においては、係り受け関係集合記憶部1が、係り受け関係の集合を記憶している。左演算/右演算部2は、上述のとおり、(1)連用修飾する基礎意味チャンク集合や連体修飾する基礎意味チャンク集合を求めたり(「左演算」)、(2)連用修飾される基礎意味チャンク集合や連体修飾される基礎意味チャンク集合を求める(「右演算」)ものである。表示部3は、左演算/右演算の結果を表示するものである。すなわち、右中央の基礎意味チャンク集合Aの1つの係り受け関係を指定して左演算して、右上の基礎意味チャンク集合B1の1つの係り受け関係を取得して表示する。また、右中央の基礎意味チャンク集合A中の1つの係り受け関係を指定して右演算して、右下の基礎意味チャンク集合B2の1つの係り受け関係を取得して表示する。図2は、「きちんとマナーを守って使っている人は使っていると思う。」という文を例に挙げて、「思う」を受け部とする、右下の基礎意味チャンクから順次に左演算を行っていく例を示している。B1では、「いる」が係り部で、「思う」が受け部である。これを左演算すると、「使う」が係り部で「いる」が受け部の係り受け関係が取り出される(A)。さらにAの係り受け関係を左演算すると、「人」が係り部で「使う」が受け部の係り受け関係が取り出される(B1)。B1から右演算を行ってA、B2を順次に取り出すこともできる。また、Aから左演算でB1を、右演算でB2を取り出すこともできる。この例では、評価を表す「思う」を契機として、その意味内容や結果を導くことができる。この例では、マナーを守るためには話題のものを使わなければならないという評価が導き出される。
【0010】
上述の従来技術においては、係り受け関係を用いて、質問文と検索対象との対応を取っている。しかし、係り受け関係同士が持つ係り受け関係についてはまったく着目していない。この発明の原理的な構成例では、係り受け関係同士が持つ係り受け関係に注目して、原因や理由をたどることができる。
【0011】
さらに、この発明を説明する。
【0012】
この発明によれば、上述の課題を解決するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。なお、ここでは、理解を容易にするために、実施例(図3)の各部に付した参照符号を補充的に記載するが、この発明の技術的な範囲がこれにより限定されないことに留意されたい。
【0013】
すなわち、この発明の一側面によれば、上述の課題を解決するために、文書データ解析装置(100)に:一群の文から抽出された係り受け関係を記憶する係り受け関係記憶手段(15)と;所定の検索語を含む第1の係り受け関係に対して係り受けにより関連付けられた第2の係り受け関係を、上記係り受け関係記憶手段から抽出する抽出手段(17)と;上記抽出手段により抽出された第2の係り受け関係および該当する文の少なくとも一方を表示する表示手段(19)とを設けるようにしている。
【0014】
文書データ分析装置は、典型的には、スタンドアローンのコンピュータシステム、ネットワークに接続されたコンピュータシステム群(クライアント・サーバシステム)等により構成できるが、これに限定されない。
【0015】
係り受け関係は、典型的には係り部と受け部とからなる。例えば、連用形の係り受けでは、典型的には、係り部は主語や目的語であり、受け部は述部である。係り受け関係が、他の係り受け関係の係り部になり、複合的な係り受け関係を形成する。このような複合的な係り受け関係の間にある係り受けを用いて1の係り受け関係から他の係り受け関係を抽出する。例えば、図2の例では、「使っている」という係り受け関係から、「いると思う」という係り受け関係を抽出したり、逆に、「いると思う」という係り受け関係から「使っている」という係り受け関係を抽出する。
【0016】
この構成においては、係り受け関係同士が持つ上位の係り受け関係に注目して、当該上位の係り受け関係の論理関係例えば原因や理由をたどることができる。図2の例では、例えば、「いると思う」という係り受け関係から「使っている」を抽出して、判断内容が「使っている」というものであることを理解できる。
【0017】
また、この構成においては、上記所定の検索語を指定する検索語指定手段をさらに設けても良い。受け部または係り部のいずれを検索箇所とするかを指定しても良い。
【0018】
また、上記係り受け関係記憶手段は、係り受け関係と、当該係り受け関係と係り受けにより関連付けられた係り受け関係とからなる組を記憶してもよい。このようにすると目的の係り受け関係の抽出を当該組を参照して容易に行うことができる。
【0019】
また、上記抽出手段は、上記所定の検索語を含む係り受け関係の要素をなす係り受け関係、または、上記所定の検索語を含む係り受け関係を係り受け関係の要素とする係り受け関係を抽出するものでよい。
【0020】
また、上記表示手段は、上記抽出手段により抽出された係り受け関係を係り語および受け語に分けて表示してもよい。
【0021】
また、上記表示手段は、上記抽出手段により抽出された係り受け関係を当該係り語または当該受け語に基づいてソートして表示してもよい。
【0022】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品もこの発明の技術的な範囲に含まれることも当然である。
【0023】
この発明の上述の側面および他の側面は特許請求の範囲に記載され以下実施例を用いて詳述される。
【発明の効果】
【0024】
この発明によれば、係り受け関係に着目して文章把握を支援することができる。
【発明を実施するための最良の形態】
【0025】
以下、この発明の実施例について説明する。
【0026】
図3は、この発明の実施例の文書データ分析装置を全体として示している。この例では、コンピュータ200上のソフトウェアとして実現している。ソフトウェアは周知の手法により記録媒体201を用いたり、通信回線を用いてコンピュータ200にインストールできる。図ではスタンドアローンの構成となっているが、ネットワークにより接続されたサーバ装置およびクライアント装置で構成しても良い。
【0027】
図3において、文書データ分析装置100は、文書入力部10、形態素解析部11、構文解析部12、構文解析結果データ記憶部13、係り受け関係抽出部14、係り受け関係集合記憶部15、係り受け関係検索条件入力部16、係り受け関係検索部17、係り受け関係ソート部18、表示部19等を含んで構成されている。この例では、一群の文からなる文書データから係り受け関係の集合を抽出して係り受け関係集合記憶部15に記憶するようにしているけれども、外部から係り受け関係集合を取得して係り受け関係集合記憶部15に記憶するようにしても良い。
【0028】
この実施例では、文書データから抽出した係り受け関係のデータ(以下に述べるように基礎意味チャンクといい、用言節等の受け部分を共通にする範囲で一まとめにされたものである)を、係り受け関係に着目して係り語、受け語、その他の語で検索し、典型的には、係り語や受け語を対比させて表示し、さらに係り受け関係同士の係り受け関係に着目して、文の把握を支援する。
【0029】
文書入力部10は、一群のアンケートや一群の電子メール等の文書データ(コーパスともいう)を入力するものであり、文書データは後続の形態素解析等を行なうために適宜に前処理されてもよい。文書入力部10は、文書データを入力できるものであればどのようなものでもよく、例えば、ファイルシステム、外部記憶装置、通信回線、I/O装置等から構成される。文書入力部10は、アンケートや電子メール等のメッセージを受信するシステムであってもよいし、文字認識装置、音声認識装置等であってもよい。文書データの例は例えば図5に示すようなものであり、この例では、化粧品のアンケート結果から取得した文が文の番号を割り当てられて管理されている。
【0030】
形態素解析部11は、周知の任意の形態素解析手法で形態素解析辞書を参照して文を形態素に分解するものである。形態素解析は例えば図6に示すように行なわれる。
【0031】
構文解析部12は、周知の任意の構文解析手法で、構文規則に基づいて、形態素解析結果を構文解析する。すなわち、図4に示すように、一群の文のデータ(コーパス)が文書入力部10により入力される(S10)。形態素解析部11は、1つの文のデータを処理対象として取り出し、形態素解析を行い、構文解析部12は形態素解析結果に基づいて構文解析を行なう(S11〜S13)。構文解析結果は構文解析結果データ記憶部13に登録され、すべての文について以上の処理を繰り返す(S14、S15)。構文解析結果は例えば図7に示すようなものであり、理解を容易にするためにこれを木構造で表すと図8に示すようになる。
【0032】
係り受け関係抽出部14は、係り受け関係抽出規則を構文解析結果のデータに適用して係り受け関係集合を抽出して、係り受け関係集合記憶部15に記録するものである。係り受け関係抽出規則は例えば図10に示すようなものであり、図中、「*」は任意個のサブ木(分の構文解析木の部分をなす要素)である。この例では連用の係り受け関係を抽出するものであるが、連体の係り受け関係についても同様である。係り受け関係抽出規則を用いて例えば図11に矢印で示すように係り受け関係を抽出できる。この例では連用の係り受け関係を示している。
【0033】
係り受け関係抽出部14は、図9に示すように、抽出規則を入力し(S20)、該当する係り受け関係を構文解析結果のデータから抽出して(S21)、係り受け関係集合記憶部15に記憶する(S22)。
【0034】
抽出された係り受け関係のデータは、用言節等の受け部分を共通にする範囲で一まとめにされた態様で表現される。係り部は0個または複数個である。以下では、このようなデータを基礎意味チャンクとも呼ぶ。基礎意味チャンクは、例えばプログラミング言語Prologのファクト形式のデータ構造で表され、図12はこのようなデータ構造の例を示す。このデータ構造では、基礎意味チャンクとチャンク述部の2種類のデータからなる。図12の例では、「1」は文番号を示し、「紹介,する,た」は用言節の形態素列を終止形で並べたものであり、「23,31」はその出現位置を示すバイトオフセットであり、「太郎,は」、「5,11」、「花子,を」、「17,23」、「次郎,に」、「11,17」はそれぞれ受け部分の形態素列およびそれぞれの出現位置を示すバイトオフセットである。「3」は係り受けの個数を示す。「紹介_例文」はコーパスの名称である。
【0035】
係り受け関係集合記憶部15は係り受け関係集合(基礎意味チャンク集合)を記憶するものである。この例では、係り受け関係集合記憶部15は、図13に示すように、基礎意味チャンク集合記憶部15aおよびメタ意味チャンク記憶部15bを有している。基礎意味チャンク集合記憶部15aは基礎意味チャンク集合を記憶するものである。メタ意味チャンク記憶部15bは、基礎意味チャンク同士が係り受け関係を有する場合にその対応関係を記憶するものであり、例えば図14のようなデータ構造を有している。図14の例では「ある」という受け語を持つ基礎意味チャンクと「思う」という受け語を持つ基礎意味チャンクとの対応関係を示している。図中、左乱の四角で囲まれた列の数字は「ある」という受け語を持つ基礎意味チャンクのIDを示し、その右側の2列の数字は出現位置のバイトオフセットおよびバイト数である。その右側の四角で囲まれた列の数字は「思う」という受け語を持つ基礎意味チャンクのIDを示し、その右側の2列の数字は出現位置のバイトオフセットおよびバイト数である。基礎意味チャンク(係り受け関係)同士の間の係り受け関係は例えば図15に示すように基礎意味チャンク集合(係り受け関係集合)から抽出することができる。すなわち、図15に示すように、係り受け関係を1つずつ取り出し(S30)、係り受け関係aの受け部(述部)が係り部となる係り受け関係bがあるかどうかを判別して、あれば係り受け関係a、bの関係をメタ意味チャンク記憶部15bに登録する(S31〜S33)。すべての係り受け関係について処置が終了したらソート等の後処理を行ってもよい。
【0036】
係り受け関係検索条件入力部16は、取り出したい係り受け関係を指定するものである。具体的なインタフェース例は例えば図18により示されるが、検索用キーワード、キーワードを適用する部分(例えば、係り部、受け部のいずれか)、通常の検索か、左演算/右演算の検索かの指定、ソート等の検索条件を入力する。通常の検索は、当該キーワードを係り部または受け部(指定されたもの)に含む係り受け関係(集合)が検索される。左演算/右演算の検索は、図1に示されるものである。すなわち、左演算の検索は、現在の係り受け関係集合(通常の検索で取得される係り受け関係集合。以下同様)の係り部が構成する係り受け関係を検索するものであり、より具体的には、現在の基礎意味チャンク集合の述部(受け部)を修飾する述部を含む基礎意味チャンクを検索するものである。右演算の検索は、現在の係り受け関係集合が係り部をなす係り受け関係を検索するものであり、より具体的には、現在の基礎意味チャンク集合の述部(係り部)が修飾する先の述部を含む基礎意味チャンクを検索するものである。
【0037】
通常の検索は例えば図15に示すように行われる。まず、通常の検索条件が入力される(S40)。通常の検索条件は、キーワードおよびその検索位置(係り部か受け部か、またはその双方)の指定である。係り受け関係検索部17は係り受け関係集合記憶部15(基礎意味チャンク集合記憶部15a)を参照して該当する係り受け関係を抽出する(S41)。表示部19は検索結果の係り受け関係集合を表示する(S42)。表示はディスプレイへの表示でも印刷出力でもよい。なお、検索条件にソート指定(係り部または受け部をソートキーとする)がある場合には、係り受け関係ソート部18が検索結果の係り受け関係集合をソートする。
【0038】
左演算/右演算の検索は、例えば図17に示すように行われる。まず、左演算/右演算の検索条件が入力される(S50)。左演算/右演算の検索条件は、左演算/右演算のいずれかの指定、キーワードおよびその検索位置(係り部か受け部か、またはその双方)の指定である。先に通常の検索をおこなっている場合には、キーワードおよびその検索位置の指定はそのまま流用される。係り受け関係検索部17は係り受け関係集合記憶部15のメタ意味チャンク記憶部15bを参照して該当する係り受け関係(左演算の場合、係り元の述部を含む係り受け関係、右演算の場合係り先の述部を含む係り受け関係)を抽出する(S51)。表示部19は検索結果の係り受け関係集合を表示する(S52)。表示はディスプレイへの表示でも印刷出力でもよい。なお、検索条件にソート指定(係り部または受け部をソートキーとする)がある場合には、係り受け関係ソート部18が検索結果の係り受け関係集合をソートする。
【0039】
以下、種々の検索態様を説明する。まず、受け語に「思う」を指定して検索する例を、図18〜図36のインタフェース画面例を用いて説明する。
【0040】
図18では、「思う」を「受け」に入力して「検索の実行」をクリックしている。これにより検索が実行される。具体的には、図19において、検索結果を表すボタン(楕円で示す)をクリックして係り受け関係のリストを図20に示すように表示する。この例では、文(メッセージ)が983個あり(図19)、係り受け関係(基礎意味チャンク)が1397個あることがわかる。係り受け関係は、係り語(助詞、その他)と受け語(述部)と対比させて表示され、また、係り受け関係に該当する文も併せて表示されている。
【0041】
つぎに左演算を行う。図21において、左演算の対象の係り受け関係集合をラジオボタンで指定し(左上の楕円のマーク)、その後、係り元のチャンク(左演算)のボタンをクリックする。そうすると図22に示すように、486個のメッセージが該当し、さらに、検索結果を表すボタン(楕円で示す)をクリックして係り受け関係のリストを図23に示すように表示する。この例では、「思う」の係もとの係り受け関係(基礎意味チャンク)が544個あることがわかる。
【0042】
つぎにソートを行う。この例では、図24に示すように「受け語のソートを優先」で「再ソート」ボタンをクリックしてソートを行う。図25に示すようにソート結果を示すボタン(楕円で示す)をクリックして、図26に示すように受け語を優先してソートした係り受け関係のリストを表示する。受け語のソートを優先させることにより「思う」の係り元の述部に着目することができる。例えば、図の例では、「ある」が「思う」に係る場合をまとめて見ることができる。もちろん、リストをスクロールさせて所望の述部が「思う」に係る場合をまとめて見ることができる。
【0043】
また、図27に示すように「係り語のソートを優先」で「再ソート」ボタンをクリックしてソートを行ってもよい。図28に示すようにソート結果を示すボタン(楕円で示す)をクリックして、図29に示すように係り語を優先してソートした係り受け関係のリストを表示する。係り語のソートを優先させることにより「思う」が関連する主体に着目することができる。例えば、図の例では、「人」が「思う」に関連することが多いことを理解できる。
【0044】
つぎに右演算を行う。図30において、右演算の対象の係り受け関係集合をラジオボタンで指定し、その後、係り先のチャンク(右演算)のボタンをクリックする。このようにして右演算が実行される。さらに、図31〜図33に示すように「受け語のソートを優先」で「再ソート」ボタンをクリックしてソートを行ったり、図34に示すように「係り語のソートを優先」で「再ソート」ボタンをクリックしてソートを行う。図35に示すようにソート結果を示すボタン(楕円で示す)をクリックして、図36に示すように係り語を優先してソートした係り受け関係のリストを表示する。図36の例では、「思うが」に続けて自分の意見が述べられていることがわかる。
【0045】
つぎに受け語に「欲しい」または「ほしい」を指定して検索する例を用いて説明する。
【0046】
図37では、「欲しい*」を「受け」に入力して「検索の実行」をクリックしている。「*」は同義語登録されている場合には同義語も含めて検索することを示す。この例では、「欲しい」および「ほしい」が同義語登録されているので、「欲しい*」により「欲しい」および「ほしい」の検索が同時に行われる。この検索の場合にも「思う」の検索と同様に左演算の検索右演算の検索が行える。図38〜図40は左演算の検索の例を示している。右演算の検索も同様に行われる。
【0047】
なお、「思う」、「欲しい」等は評価を表すものであり、例えば、左演算を行うことにより評価の内容を把握することができる。評価を表す語としては、このほかに、「期待する」、「感じる」、「希望する」、「想像する」、「想定する」、「信じる」、「希望する」等があり、これらを用いて検索して左演算を行うことにより評価に関連する文を引き出すことができる。
【0048】
つぎに受け語でなく係り語に検索語、例えば「携帯」を指定して検索する例を用いて説明する。
【0049】
図41では、「携帯」を「係り」に入力して「検索の実行」をクリックして検索を実行する。そして、図42において、検索結果を表すボタン(楕円で示す)をクリックして係り受け関係のリストを図43に示すように表示する。この例では、文(メッセージ)が871個あり(図42)、係り受け関係(基礎意味チャンク)が1230個あることがわかる。係り受け関係は、係り語(助詞、その他)と受け語(述部)と対比させて表示され、また、係り受け関係に該当する文も併せて表示されている。
【0050】
さらに図44において「集計表の作成」ボタンをクリックすると、図45に示すように係り受け関係の頻度の集計表が表される。なお、この集計では、最低頻度を指定して足切りをしている。この例では、例えば、「携帯」、「を」、「持つ」という係り受け関係が97件あることがわかる。集計表の取得には頻度を計数する処理が必要であるが、これは適宜な実行手段で実行可能であり、係り受け関係検索部17で行っても良い。
【0051】
さらに、図46に示すように、現在の係り受け関係の検索結果に対して、受け語に「持つ」または「使う」を含むという条件を付して「検索の実行」ボタンをクリックすると、絞込みを行うことができる。もちろん、絞込みの検索語は、1つでも複数(論理和)でも良い。この検索結果のボタン(図47の楕円のマーク)をクリックすると図48に示すような係り受け関係のリストが表示される。さらに図49に示すように、上述の検索結果をラジオボタンで指定したのち、「係り先のチャンク」ボタンをクリックして右演算の検索を行ない、図10dに示すように検索結果のボタン(楕円のマーク)をクリックして図51の係り受け関係のリストをえることができる。このリストから、「携帯を使う」、「携帯を持つ」ことを話題とした様々な表現があることがわかる。
【0052】
なお、上述の実施例では、係り受け関係同士の係り受け関係をメタ意味チャンク記憶部15bに記憶して左演算/右演算の検索結果を簡易に取得するようにしたが、図52に示すように係り受け関係検索部17に第1の検索部17aおよび第2の検索部17bを設けて、第1の検索部17aで通常の検索を行ない、第1の検索部17aの検索結果を利用して第2の検索部17bで左演算/右演算の検索を行うようにしても良い。例えば図53に示すように、第1の検索部17aの通常の検索結果の集合を用い、この集合から係り受け関係を1つずつ取り出しながら、左演算/右演算の関係にある係り受け関係を係り受け関係集合記憶部15(基礎意味チャンク集合記憶部15a)を参照して取り出して左演算/右演算の検索結果の集合に付加していく(S60〜S62)。通常の検索結果の集合のすべてについてこの処理を実行することにより左演算/右演算の検索結果を最終的に取得できる(S63)。
【0053】
なお、この発明は上述の実施例に限定されるものではなくその趣旨を逸脱しない範囲で種々の変更が可能である。
【図面の簡単な説明】
【0054】
【図1】この発明の原理的な構成例を説明する模式図である。
【図2】上述構成例の動作例を説明する図である。
【図3】この発明の実施例の構成を説明するブロック図である。
【図4】上述実施例の構文解析結果取得動作例を説明するフローチャートである。
【図5】上述実施例の文書データの例を説明する図である。
【図6】上述実施例の形態素解析の例を説明する図である。
【図7】上述実施例の構文解析結果の例を説明する図である。
【図8】上述実施例の構文解析結果の木構造表現を説明する図である。
【図9】上述実施例の係り受け関係抽出の動作例を説明するフローチャートである。
【図10】上述実施例の係り受け関係抽出規則の例を説明する図である。
【図11】上述実施例の係り受け関係の抽出結果の例を説明する図である。
【図12】上述実施例の係り受け関係のデータ構造の例を説明する図である。
【図13】上述実施例の係り受け関係集合記憶部を説明する図である。
【図14】上述実施例の係り受け関係の間の関係のデータ構造を説明する図である。
【図15】上述実施例の係り受け関係の間の関係を抽出する動作例を説明するフローチャートである。
【図16】上述実施例の通常の係り受け関係の検索動作例を説明するフローチャートである。
【図17】上述実施例の左演算/右演算の係り受け関係の検索動作例を説明するフローチャートである。
【図18】b01 上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図19】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図20】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図21】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図22】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図23】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図24】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図25】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図26】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図27】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図28】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図29】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図30】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図31】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図32】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図33】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図34】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図35】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図36】上述実施例で「思う」を受け語に指定した検索例を説明する図である。
【図37】上述実施例で「欲しい」を受け語に指定した検索例を説明する図である。
【図38】上述実施例で「欲しい」を受け語に指定した検索例を説明する図である。
【図39】上述実施例で「欲しい」を受け語に指定した検索例を説明する図である。
【図40】上述実施例で「欲しい」を受け語に指定した検索例を説明する図である。
【図41】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図42】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図43】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図44】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図45】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図46】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図47】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図48】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図49】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図50】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図51】上述実施例で「携帯」を係り語に指定した検索例を説明する図である。
【図52】上述実施例の変形例を説明する図である。
【図53】上述実施例の変形例を説明する図である。
【符号の説明】
【0055】
10 文書入力部
11 形態素解析部
12 構文解析部
13 構文解析結果データ記憶部
14 関係抽出部
15 係り受け関係集合記憶部
15a 基礎意味チャンク集合記憶部
15b メタ意味チャンク記憶部
16 関係検索条件入力部
17 関係検索部
17a 第1の検索部
17b 第2の検索部
18 関係ソート部
19 表示部
100 文書データ分析装置
200 コンピュータ
201 記録媒体

【特許請求の範囲】
【請求項1】
一群の文から抽出された係り受け関係を記憶する係り受け関係記憶手段と、
所定の検索語を含む第1の係り受け関係に対して係り受けにより関連付けられた第2の係り受け関係を、上記係り受け関係記憶手段から抽出する抽出手段と、
上記抽出手段により抽出された第2の係り受け関係および該当する文の少なくとも一方を表示する表示手段とを有することを特徴とする文書データ解析装置。
【請求項2】
上記所定の検索語を指定する検索語指定手段をさらに有する請求項1記載の文書データ構造解析装置。
【請求項3】
上記係り受け関係記憶手段は、係り受け関係と、当該係り受け関係と係り受けにより関連付けられた係り受け関係とからなる組を記憶する請求項1または2記載の文書データ解析装置。
【請求項4】
上記抽出手段は、上記所定の検索語を含む第1の係り受け関係の要素をなす第2の係り受け関係、または、上記所定の検索語を含む第1の係り受け関係を係り受け関係の要素とする第2の係り受け関係を抽出する請求項1〜3のいずれかに記載の文書データ解析装置。
【請求項5】
上記表示手段は、上記抽出手段により抽出された係り受け関係を係り語および受け語に分けて表示する請求項〜4のいずれかに記載の文書データ解析装置。
【請求項6】
上記表示手段は、上記抽出手段により抽出された係り受け関係を当該係り語または当該受け語に基づいてソートして表示する請求項5記載の文書データ解析装置。
【請求項7】
一群の文の係り受け関係を記憶する係り受け関係記憶手段と、
所定の検索語を含む係り受け関係を上記係り受け関係記憶手段を参照して検索する第1の検索手段と、
上記第1の検索手段により検索された係り受け関係と係り受けにより関連付けられる係り受け関係を上記係り受け関係記憶手段を参照して検索する第2の検索手段と、
上記第2の検索手段により検索された係り受け関係および該当する文の少なくとも一方を表示する表示手段とを有することを特徴とする文書データ解析装置。
【請求項8】
一群の文から係り受け関係を抽出する係り受け関係抽出手段をさらに有する請求項7記載の文書データ解析装置。
【請求項9】
指定手段が検索語を指定するステップと、
抽出手段が、一群の文の係り受け関係を記憶する係り受け関係記憶手段から、上記指定された検索語を含む第1の係り受け関係に対して係り受けにより関連付けられた第2の係り受け関係を抽出するステップと、
表示手段が、上記抽出手段により抽出された第2の係り受け関係および該当する文の少なくとも一方を表示するステップとを有することを特徴とする文書データ解析方法。
【請求項10】
指定手段が検索語を指定するステップと、
抽出手段が、一群の文の係り受け関係を記憶する係り受け関係記憶手段から、上記指定された検索語を含む第1の係り受け関係に対して係り受けにより関連付けられた第2の係り受け関係を抽出するステップと、
表示手段が、上記抽出手段により抽出された第2の係り受け関係および該当する文の少なくとも一方を表示するステップとをコンピュータに実行させるために用いられることを特徴とする文書データ解析用コンピュータプログラム。

【図1】
image rotate

【図3】
image rotate

【図4】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図52】
image rotate

【図53】
image rotate

【図2】
image rotate

【図5】
image rotate

【図14】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate

【図32】
image rotate

【図33】
image rotate

【図34】
image rotate

【図35】
image rotate

【図36】
image rotate

【図37】
image rotate

【図38】
image rotate

【図39】
image rotate

【図40】
image rotate

【図41】
image rotate

【図42】
image rotate

【図43】
image rotate

【図44】
image rotate

【図45】
image rotate

【図46】
image rotate

【図47】
image rotate

【図48】
image rotate

【図49】
image rotate

【図50】
image rotate

【図51】
image rotate


【公開番号】特開2007−317139(P2007−317139A)
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2006−149026(P2006−149026)
【出願日】平成18年5月29日(2006.5.29)
【出願人】(000005496)富士ゼロックス株式会社 (21,908)
【Fターム(参考)】