情報処理装置、データベース更新方法およびデータベース更新用プログラム

【課題】データベースの最適化に係る作業を効率化し、ユーザの負担を軽減することを課題とする。
【解決手段】文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続される情報処理装置に、データベースから、解析キーの構成を把握するための基準となる１または複数の解析キーを、単位解析キーとして抽出する単位解析キー抽出部２５と、単位解析キーを用いて、データベースに含まれる解析キーの構成を把握する構成把握部２６と、構成把握部２６によって把握された構成に従って、単位解析キーに関連づけられた情報を用いて、データベースに含まれる解析キーに関連づけられる情報を更新するデータベース更新部２９と、を備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、文書データを解析する際に用いられる解析キーを更新するための技術に関する。
【背景技術】
【０００２】
従来、受け付けた階層型分類辞書に対する更新提案を提案履歴記憶部に格納するとともに、受け付けた更新提案と近似する近似提案を提案履歴記憶部に格納されている過去の更新提案を検索して抽出し、抽出された近似提案を提示する分類辞書更新方法がある（特許文献１を参照）。
【０００３】
また、入力されたテキスト情報からキーワードを抽出するキーワード抽出部、キーワードの出現に関する統計量を求めるキーワード統計部、キーワードの出現に関する統計量に基づいて抽出されたキーワードの評価値を算出するキーワード評価値算出部、算出された評価値に基づいてこのキーワードを登録するか否かまたは削除するか否かを判定する判定部、判定部が行った判定の結果によって辞書データベースに対してキーワードの登録または削除を行う辞書登録削除部、および辞書データベースを備える辞書作成装置がある（特許文献２を参照）。
【０００４】
更に、自然言語解析技術に関し、特に、自然言語からなる文の各単語に対して、文脈に合った意味を示す意味タグや該当する意味に対応する概念を示す意味クラスなどを付与する単語意味付与装置がある（特許文献３を参照）。その他、辞書を構築または更新するための技術が種々提案されている（特許文献４および５を参照）。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００６−３０９４４６号公報
【特許文献２】再表２００５／０６６８３７号公報
【特許文献３】特開２００９−１８１４０８号公報
【特許文献４】特開２００８−２３４４２９号公報
【特許文献５】特開２００５−１７４１１６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
従来、辞書データを用いて文書データ等の対象データを解析するための技術がある。このような技術を用いて精度の高い解析結果を得るには、辞書データが含まれるデータベース（辞書）のメンテナンスが必要である。しかし、データベースを整理し、最適化する場合には、ユーザがデータベースの構造および整理の対象となる各データを意識する必要があり、辞書データの最適化作業は、煩雑でユーザへの負担が大きいものであった。
【０００７】
本発明は、上記した問題に鑑み、データベースの最適化に係る作業を効率化し、ユーザの負担を軽減することを課題とする。
【課題を解決するための手段】
【０００８】
本発明は、以下の構成を備えることで、上記した課題を解決することとした。即ち、本発明は、文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続される情報処理装置であって、前記データベースから、解析キーの構成を把握
するための基準となる１または複数の解析キーを、単位解析キーとして抽出する単位解析キー抽出手段と、前記単位解析キーを用いて、前記データベースに含まれる解析キーの構成を把握する構成把握手段と、前記構成把握手段によって把握された構成に従って、前記単位解析キーに関連づけられた情報を用いて、前記データベースに含まれる解析キーに関連づけられる情報を更新するデータベース更新手段と、を備える情報処理装置である。
【０００９】
ここで、解析キーとは、文書データを解析するためのキーとなる情報であり、例えば、文書データの文字列を検索する際の検索キーとして用いられる情報である。解析用データは、解析キーを含み、更に当該解析キーに関連する情報（解析キーの属性情報や意味情報等）を含み得る。
【００１０】
また、解析キーは、他の解析キーを包含し得る。このため、本発明に係る情報処理装置は、解析キーの構成を把握するための基準となる解析キーを、単位解析キーとして抽出し、この単位解析キーを用いて、単位解析キーを包含する解析キーの構成を把握する。そして、本発明は、このようにして把握された構成に従ってデータベースを更新することで、データベースの最適化に係る作業を効率化し、ユーザの負担を軽減することを可能とした。
【００１１】
また、前記単位解析キー抽出手段は、前記データベースから、自身を検索キーとして用いた場合にのみ索出される解析キーを、前記単位解析キーとして抽出してもよい。
【００１２】
換言すれば、前記単位解析キー抽出手段は、前記データベースから、自身以外の解析キーを検索キーとして用いた場合には索出されない解析キーを、前記単位解析キーとして抽出することが出来る。このような単位解析キーは、他の解析キーを包含しないため、解析キーの構成を把握するための最小単位として用いることが出来る。
【００１３】
また、前記情報処理装置は、前記データベースに蓄積されている解析キーを用いて、該データベースを検索するデータベース検索手段を更に備え、前記単位解析キー抽出手段は、前記データベース検索手段による検索の結果、自身を検索キーとして用いた場合にのみ索出される解析キーを、前記単位解析キーとして抽出してもよい。
【００１４】
また、前記情報処理装置は、前記構成把握手段によって把握された構成において、前記単位解析キーの何れにも該当しない文字列を、追加単位解析キーとして更に抽出する追加単位解析キー抽出手段を更に備えてもよい。
【００１５】
このような追加単位解析キー抽出手段を更に備えることで、検索等の方法によって抽出されなかった単位解析キーを抽出することが可能となる。なお、この際、文字列自体として意味を有さない文字列（例えば、接続詞「が」や「は」等）については、追加単位解析キーとして抽出する対象から除外されてもよい。
【００１６】
また、前記情報処理装置は、前記追加単位解析キーの意味情報として、前記単位解析キーの何れにも該当しない文字列に基づいて生成された意味情報を設定する、追加単位解析キー設定手段を更に備えてもよい。
【００１７】
また、前記データベース更新手段は、前記単位解析キーに関連づけられた、該単位解析キーの意味情報を用いて、前記データベースに含まれる解析キーに関連づけられる、該解析キーの意味情報を更新してもよい。
【００１８】
また、前記解析キーは、正規表現を用いて定義されてもよい。正規表現で定義された解析キーが用いられることによって、解析キーを用いて文書データ等の対象データの解析を
行う場合に、対象データの表記揺れに影響されずに必要な特徴部分を索出することが出来る。なお、このような特徴部分の索出をより正確に行うために、解析キーには、口語体や主語の省略等の表記揺れに影響されない特徴を正規表現化したものが用いられることが好ましい。
【００１９】
更に、本発明は、コンピュータが実行する方法、又はコンピュータに実行させるプログラムとしても把握することが可能である。また、本発明は、そのようなプログラムをコンピュータその他の装置、機械等が読み取り可能な記録媒体に記録したものでもよい。ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。
【発明の効果】
【００２０】
本発明によれば、データベースの最適化に係る作業を効率化し、ユーザの負担を軽減することが可能となる。
【図面の簡単な説明】
【００２１】
【図１】実施形態に係る文書データ解析装置のハードウェア構成を示す図である。
【図２】実施形態に係る文書データ解析装置の概念的構成を示す図である。
【図３】実施形態に係る文書データ解析装置の機能構成の概略を示す図である。
【図４】実施形態に係る辞書データテーブルの構成を示す図である。
【図５】実施形態に係る単位解析キーテーブルの構成を示す図である。
【図６】実施形態に係る文書データ解析処理の流れを示すフローチャートである。
【図７】実施形態における、辞書データテーブルを用いた検索処理の結果を示す図である。
【図８Ａ】実施形態に係るデータベース更新処理の流れを示すフローチャートＡである。
【図８Ｂ】実施形態に係るデータベース更新処理の流れを示すフローチャートＢである。
【図８Ｃ】実施形態に係るデータベース更新処理の流れを示すフローチャートＣである。
【図９】実施形態に係る適合程度判定部による判定結果と、それに対応する処理の内容と、の関係を示す表である。
【図１０】実施形態に係るデータベース更新処理を実行した場合に、更新用データテーブルに含まれる更新用データを用いて辞書データベース内の各テーブルが更新される様子を示す図である。
【図１１】実施形態に係るデータベース最適化処理の流れを示すフローチャートである。
【発明を実施するための形態】
【００２２】
以下、本発明に係る情報処理装置を、文書データ解析装置１として実施する場合の実施の形態について、図面に基づいて説明する。本実施形態に係る文書データ解析装置１は、例えば、コールセンタにおいてオペレータが入力し蓄積された受付ログの解析に用いることが出来る。コールセンタでは、顧客からの問い合わせ等の電話が受け付けられ、オペレータは、顧客対応の記録をコンピュータに入力する。オペレータによって入力され、蓄積される受付ログは、一部が文章で入力されている。但し、本実施形態に係る文書データ解析装置１は、コールセンタの受付ログ以外にも、様々な文章（例えば、アンケート結果等）を解析する目的で用いることが出来る。
【００２３】
但し、本発明に係る情報処理装置は、文書データ解析装置１に限定されない。本発明に
係る情報処理装置は、文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続される情報処理装置であればよい。
【００２４】
＜システムの構成＞
図１は、本実施形態に係る文書データ解析装置１のハードウェア構成を示す図である。文書データ解析装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、主記憶装置としてのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の補助記憶装置１４、表示装置１５としてのディスプレイ、および、入力装置１６としてのキーボードやマウス等を備えるコンピュータ（情報処理装置）である。また、文書データ解析装置１は、辞書データベースに接続される。
【００２５】
図２は、本実施形態に係る文書データ解析装置１の概念的構成を示す図である。本実施形態に係る文書データ解析装置１によれば、従来のテキスト分析による知識獲得手法では抽出できなかった、複数の文で構成される文書から文の前後関係を考慮した形や人の直感的な言語の特徴表現も正規表現化して言語解析辞書に登録可能となり、分析の幅が広がり、アンケートなど省略形の多い文書の分析・分類・知識獲得にも対応することが可能となる。また、本実施形態に係る文書データ解析装置１は、正規表現の特徴パターンによる文書解析機能を備えているため、従来の形態素に細かく区切られた後に抽出された係り受け関係のパターン分析よりも、実表記パターンの関係をより的確に抽出し、人による直感的な表現パターンを容易に抽出することを可能としている。本実施形態の説明では、このような文書データ解析装置１に、データベース更新処理およびデータベース最適化処理を適用した場合の処理の詳細について説明する。
【００２６】
図３は、本実施形態に係る文書データ解析装置１の機能構成の概略を示す図である。図１に示された構成を有するコンピュータは、補助記憶装置１４に記録されているプログラムが、ＲＡＭ１３に読み出され、ＣＰＵ１１によって実行されることによって、更新用解析キー取得部２１、データベース検索部２２、適合程度判定部２３、更新処理内容決定部２４、単位解析キー抽出部２５、構成把握部２６、追加単位解析キー抽出部２７、追加単位解析キー設定部２８、データベース更新部２９および文書データ解析部３０を備える文書データ解析装置１として機能する。
【００２７】
また、辞書データベースは、通常の文字列または正規表現を用いて予め定義された複数の解析キー、解析キーに対応する属性情報、および解析キー自体の意味を示す意味情報、を含む各種テーブル（解析キーが属性毎にまとめられたテーブル、および単位解析キーテーブル等）を保持する。なお、辞書は、分野ごとに異なるものが用意され、文書データの属する分野に応じて適切な分野の辞書が優先的に用いられることが好ましい。
【００２８】
図４は、本実施形態に係る辞書データテーブルの構成を示す図である。辞書データテーブルは、解析キーを識別するための解析キーＩＤと、通常の文字列または正規表現による文字列で定義された１の解析キーと、この解析キーに対応する属性情報と、この解析キー自体の意味を示す意味情報と、を有するパターンが蓄積された辞書データであり、解析対象の文書データの分野毎に異なるものが用意されることが好ましい。原則として、解析キーは正規表現で定義されており、この正規表現にマッチする文章の属性情報が、夫々の解析キーに関連付けられている。例えば、「.*知り(たい|たかった)」という正規表現にマ
ッチする文章は、応対および意見に分類され、その文章の意味は「知りたい」である。このため、解析キー「.*知り(たい|たかった)」には、属性情報１「応対」、属性情報２「
意見」および意味情報「知りたい」が関連付けられる。
【００２９】
更新用解析キー取得部２１は、辞書データベースの更新に用いられる解析キーである更新用解析キーを含む更新用データを取得する。なお、本実施形態において、解析キーは、正規表現を用いて定義される。更新用データの具体例については、図１０を参照。
【００３０】
データベース検索部２２は、所定の検索キーを用いて辞書データベースを検索する。ここで用いられる検索キーとしては、例えば、更新用解析キーの他、同一の辞書データベースに蓄積されている解析キーが挙げられる。
【００３１】
適合程度判定部２３は、解析用データに含まれる情報と、更新用解析キーに関連付けられた情報との適合程度を判定する。より具体的には、適合程度判定部２３は、データベース検索部２２によって、辞書データベースから、更新用解析キーを含む解析用データが索出されなかった場合に、適合程度を判定する。なお、適合程度判定部２３は、解析用データに含まれる解析キー、当該解析キーの属性情報および意味情報の少なくとも何れかと、更新用解析キーに関連付けられた解析キー、当該解析キーの属性情報および意味情報の少なくとも何れかとの適合程度を判定する。なお、判定の結果は、「完全一致」、「部分一致」、「不一致」および「判定不要」等を示す情報を用いて保持される。図９に示された表では、完全一致は「○」、部分一致は「△」、不一致は「×」、判定不要は「？」の記号をもって表示されている。
【００３２】
更新処理内容決定部２４は、適合程度判定部２３による判定結果に応じて、更新用解析キーを用いて辞書データベースを更新する際の更新処理の内容を決定する。ここで決定される更新処理の内容としては、例えば、更新用解析キーを辞書データベースに追加する際の追加位置が挙げられる。なお、適合程度判定部２３による判定結果および判定結果に対応する処理内容については、図９を参照。なお、図９は、２つの属性情報を有する解析キーの更新処理を例示しているが、属性情報の数は、２つに限定されない。
【００３３】
単位解析キー抽出部２５は、辞書データベースから、解析キーの構成を把握するための基準となる１または複数の解析キーを、単位解析キーとして抽出する。本実施形態では、単位解析キー抽出部２５は、データベース検索部２２による検索の結果、自身を検索キーとして用いた場合にのみ索出される解析キーを、単位解析キーとして抽出する。ここで、自身を検索キーとして用いた場合にのみ索出される解析キーとは、換言すれば、自身以外の解析キーを検索キーとして用いた場合には索出されない解析キーである。
【００３４】
図５は、本実施形態に係る単位解析キーテーブルの構成を示す図である。単位解析キー抽出部２５は、図４に示された辞書から、解析キーの構成を把握するための基準となる解析キーを抽出する。そして、単位解析キー抽出部２５によって抽出された解析キーは、単位解析キーとして、図５に示される単位解析キーテーブルに登録される。
【００３５】
構成把握部２６は、単位解析キーを用いて、辞書データベースに含まれる解析キーの構成を把握する。
【００３６】
追加単位解析キー抽出部２７は、構成把握部２６によって把握された構成において、単位解析キーの何れにも該当しない文字列を、追加単位解析キーとして更に抽出する。
【００３７】
追加単位解析キー設定部２８は、構成把握部２６によって把握された構成における、単位解析キーの何れにも該当しない文字列に基づいて、追加単位解析キーの意味情報を生成し、設定する。
【００３８】
データベース更新部２９は、更新処理内容決定部２４によって決定された更新処理の内容に従って、更新用解析キーおよび当該更新用解析キーに関連付けられた情報をもって、
辞書データベースを更新する。例えば、データベース更新部２９は、更新処理内容決定部２４によって決定された追加位置に、更新用解析キーおよび当該更新用解析キーに関連付けられた情報を含む解析用データを追加することで、辞書データベースを更新する。
【００３９】
また、データベース更新部２９は、構成把握部２６によって把握された構成に従って、単位解析キーに関連づけられた情報を用いて、辞書データベースに含まれる解析キーに関連づけられる情報を更新する。例えば、データベース更新部２９は、単位解析キーに関連づけられた、当該単位解析キーの意味情報を用いて、辞書データベースに含まれる解析キーに関連づけられる、当該解析キーの意味情報を更新する。
【００４０】
文書データ解析部３０は、辞書データベースに蓄積された解析キーを用いて、文書データを解析し、文書データに関連する属性情報や意味情報等を取得する。
【００４１】
＜処理の流れ＞
次に、本実施形態に係る文書データ解析装置１によって実行される処理の流れを説明する。なお、本実施形態において示される処理の順序および具体的な処理内容は、本発明を実施するうえで採用できる一例であり、実際の処理順序および具体的な処理内容には、本発明を実施するために当業者が採用可能な様々な処理順序および具体的な処理内容が採用されてよい。
【００４２】
図６は、本実施形態に係る文書データ解析処理の流れを示すフローチャートである。本フローチャートに示された処理は、ユーザによる文書データ解析処理の実行の指示が受け付けられたことを契機として開始される。但し、本フローチャートに示された処理は、予め設定されたスケジュールに従って、または定期的に実行されてもよい。
【００４３】
ステップＳ１０１では、文書データの入力が受け付けられる。文書データ解析部３０は、ＬＡＮ等のネットワークや、ＵＳＢメモリ、ＣＤ−ＲＯＭ等の可搬記録媒体等を介して文書データの入力を受け付ける。本実施形態において処理の対象となる文書データは、例えば、コールセンタにおける受付ログであり、受付ログには、コール単位、または一連の案件単位で、オペレータが入力した文章が文字コードを用いたデータとして含まれる。以下、受付ログに含まれるコール単位又は案件単位のデータを、「ケース」と称する。
【００４４】
各ケースには、ケースを識別するためのケースＩＤ、及びオペレータによって入力されたケースの属性情報が含まれる。属性情報とは、ケースの属性を示すための情報であり、例えば、「クレーム」、「意見要望」、「おほめ」等、ケースに係るコール又は案件の意味内容を判断可能とするために、電話対応を行ったオペレータによって設定される情報である。但し、属性情報は、必ずしも全てのケースに設定されているものではなく、受付ログ中には、オペレータによる設定忘れ等の原因で、属性情報が設定されていないケースも存在し得る。入力された文書データがＲＡＭに記録され、入力受付が完了すると、処理はステップＳ１０２へ進む。
【００４５】
ステップＳ１０２では、文書における表記が統制される。文書データ解析部３０は、表記統制用辞書（図示は省略する）を用いた検索・置換処理を実行することで、文書における表記を統制する。表記統制用辞書には、表記の揺れや頻出する誤記を定義した解析キーが、通常の文字列または正規表現文字列で含まれており、また、この解析キーに対応する置換文字列、即ち表記統制後の文字列が含まれている。このような表記統制用辞書を用いて、文書データに対して検索・置換処理が適用されることで、文書中の表記が統制され、表記揺れや誤字のない（または、表記揺れや誤字が低減された）文書データが生成される。
【００４６】
ここで、統制とは、文章中で用いられる表現を一定の基準の下に画一化することをいう。具体的には、誤記の修正、複数の表記方法がある語句の統一（例えば、「ファックス」、「ファクシミリ」等の文字列を全て「ＦＡＸ」に置換する）、同義語の統制（例えば、「手早く」、「素早く」、「迅速に」等の文字列を「すぐに」に置換する）、接頭語の削除、もってまわった言い回しの補正、である調への統一、簡素化、意味を持たない文末の削除および補正、等が行われる。表記の統制が終了すると、処理はステップＳ１０３へ進む。
【００４７】
ステップＳ１０３では、辞書データテーブルを用いた検索処理が行われる。文書データ解析部３０は、ステップＳ１０２で生成された、表記統制済みの文書データを、辞書データテーブルに含まれる解析キーで検索し、索出された文字列（以下、「索出文字列」という）、索出文字列が含まれる対象ケースのケースＩＤ、文書中の索出文字列の位置、索出に係る解析キー、索出文字列の属性情報、意味情報等を夫々関連付けて、解析結果としてＲＡＭに保持する。その後、本フローチャートに示された処理は終了する。
【００４８】
図７は、本実施形態における、辞書データテーブルを用いた検索処理の結果を示す図である。なお、正規表現による検索の場合、システムに指定された区切り文字をデータの区切りとして、正規表現と一致する文字列を発見することで検索が行われる。区切り文字は自由に指定可能であり、例えば、「。」や改行を区切り文字として指定できる。また、索出文字列の位置は、文書の先頭からの文字数、バイト数や論理行数等を用いて特定することが出来る。
【００４９】
以下、図６および図７を用いて説明した文書データ解析処理において用いられる、辞書データテーブルのメンテナンスのために実行されるデータベース更新処理およびデータベース最適化処理について、図８Ａから図１１を用いて説明する。
【００５０】
図８Ａから図８Ｃは、本実施形態に係るデータベース更新処理の流れを示すフローチャートである。本フローチャートに示された処理は、ユーザによって作成された辞書データベースへ統合される更新用データテーブルが、文書データ解析装置１に入力され、ユーザによる、更新用データテーブルの辞書データベースへの統合指示が受け付けられたことを契機として開始される。但し、本フローチャートに示された処理は、予め設定されたスケジュールに従って、または定期的に実行されてもよい。なお、本フローチャートに示された処理は、更新用データテーブルに含まれる更新用データ毎に実行される。
【００５１】
ステップＳ２０１以降に示された処理の実行に先立って、更新用解析キー取得部２１は、ＬＡＮ等のネットワークや、ＵＳＢメモリ、ＣＤ−ＲＯＭ等の可搬記録媒体等を介して、更新用解析キーを含む更新用データテーブルを取得する。更新用データテーブルは、予めユーザによって作成された、更新用解析データの集合である。但し、本実施形態によれば、以下に説明するデータベース更新処理において、適切な更新処理の内容が判定されるため、ユーザは、辞書データベースの構成や現在の内容を気にすることなく、更新用データを作成することが出来る。
【００５２】
ステップＳ２０１およびステップＳ２０２では、更新用データの内容が整理される。ここで、更新用データとは、辞書データベースへのデータの追加または辞書データベース内の情報の上書き等に用いられるデータである。更新用解析キー取得部２１は、更新用データに含まれる解析キーがＮＵＬＬであるデータを削除し（ステップＳ２０１）、解析キーが完全に重複するデータを、最後に追加された１データを残して削除する（ステップＳ２０２）ことによって、更新用データの内容を整理する。
【００５３】
この際、後述する検索の精度を向上させるために、更新用データに係る書式や表現、デ
ータの保持順序等を、所定のルールに従って整理し、画一化する統制処理が行われてもよい。例えば、本実施形態において、解析キーは正規表現を用いて定義されているが、正規表現で記述された解析キーの表現を、所定のルールに従って統制することによって、より精度の高い検索結果を得ることが可能な解析キーとすることが出来る。より具体的には、ＯＲ条件で結合される文字列の指定順序を、所定のルールに従った順序とすることによって、「.*知り(たい|たかった)」と「.*知り(たかった|たい)」が一致すべき解析キーであることを明らかにし、後の検索によって正しい検索結果が索出されるようにすることが出来る。
【００５４】
ステップＳ２０３およびステップＳ２０４では、更新用データに含まれる解析キー（以下、「更新用解析キー」と称する）を用いた、適合程度の判定および更新処理内容の決定が行われる。適合程度判定部２３は、更新用解析キーを用いて、データベース検索部２２に辞書データベースに蓄積された全てのデータに含まれる解析キーを検索させ、解析用データに含まれる情報と更新用データに含まれる情報との適合程度を判定する（ステップＳ２０３）。ここでは、更新用解析キーの文字列（例えば、「.*知り(たい|たかった)」）
を用いた検索が行われ、データベース検索部２２は、完全一致する解析キーのみ索出する。なお、ここで「完全一致」とは、比較対象となる情報同士が、過不足なく一致していることを指す。
【００５５】
適合程度判定部２３による適合程度の判定が行われると、更新処理内容決定部２４は、適合程度の判定結果に応じて、辞書データベースの更新処理の内容を決定する（ステップＳ２０４）。完全一致する解析キーが索出された場合、処理はステップＳ２０５へ進む。更新用解析キーに完全一致しない（不一致である）解析キーに関する処理は、ステップＳ２０９へ進む。例えば、更新用解析キーが「.*知り(たい|たかった)」であった場合、解
析キー「.*知り(たい|たかった)」のみが完全一致する解析キーとして索出される。その
他の解析キー（例えば、「.*説明(が|は)?((ない|なし)」や「.*知り(たい|たかった).*(が|のに).*説明(が|は)?((ない|なし)」）は、完全一致とはみなされない。
【００５６】
ステップＳ２０５およびステップＳ２０６では、属性情報および意味情報が比較される。適合程度判定部２３は、更新用解析キーに完全一致した解析キーを有するデータに含まれる属性情報および意味情報が、更新用データの属性情報および意味情報に一致するか否かを判定する（ステップＳ２０５）。適合程度判定部２３による適合程度の判定が行われると、更新処理内容決定部２４は、適合程度の判定結果に応じて、辞書データベースの更新処理の内容を決定する（ステップＳ２０６）。属性情報および意味情報が、更新用データの属性情報および意味情報に一致すると判定された場合、処理はステップＳ２０７へ進む。一方、属性情報および意味情報が、更新用データの属性情報および意味情報に一致しない（即ち、属性情報および意味情報の少なくとも一方が更新用データに含まれるものと異なる）場合、処理はステップＳ２０８へ進む（ステップＳ２０６）。
【００５７】
ステップＳ２０７では、辞書データベースへの更新用データの追加がキャンセルされる。データベース更新部２９は、ステップＳ２０５において、属性情報および意味情報が、更新用データの属性情報および意味情報に一致すると判定された更新用データを、辞書データベースに追加することなく、破棄または放置する。即ち、ステップＳ２０４において辞書データベースから完全一致する解析キーが索出され、ステップＳ２０５において属性情報および意味情報が、更新用データの属性情報および意味情報に一致すると判定された更新用データは、同一のデータが既に辞書データベースに登録済みであるため、辞書データベースへの追加が行われない。その後、本フローチャートに示された処理は終了する。
【００５８】
図９は、本実施形態に係る適合程度判定部２３による判定結果と、それに対応する処理の内容と、の関係を示す表である。図９には、適合程度判定部２３による判定結果に対応
してステップＳ２０７において実行される処理（更新用データを「登録しない」こと、即ち、辞書データベースへの更新用データの追加がキャンセルされること）が、表のＮｏ．０の行に示されている。なお、図９には、属性情報が「属性１」および「属性２」の２つのみ示されているが、属性情報の数は、２つに限定されない。これは、図１０についても同様である。
【００５９】
また、図１０は、本実施形態に係るデータベース更新処理を実行した場合に、更新用データテーブルに含まれる更新用データを用いて辞書データベース内の各テーブルが更新される様子を示す図である。図１０を参照すると、図９の表のＮｏ．０に相当する更新用データであるＩＤ１のデータが、辞書データベースに既に存在するデータと完全に一致しているため、登録されないことが分かる。
【００６０】
ステップＳ２０８では、更新用データの内容を用いて、辞書データベースに登録済みのデータが更新される。データベース更新部２９は、ステップＳ２０５において、属性情報および意味情報が、更新用データの属性情報および意味情報に一致しないと判定されたデータの属性情報および意味情報をもって、ステップＳ２０４で索出された登録済みのデータの属性情報および意味情報を上書き更新する。但し、更新用データの属性情報および意味情報がＮＵＬＬである場合には、更新用データの属性情報および意味情報は、登録済みのデータの属性情報および意味情報に上書きされない。その後、本フローチャートに示された処理は終了する。
【００６１】
なお、図９には、適合程度判定部２３による判定結果に対応してステップＳ２０８において実行される処理（登録済みのデータの上書き更新）が、表のＮｏ．１の行に示されている。また、図１０を参照すると、図９の表のＮｏ．１に相当する更新用データであるＩＤ２および３のデータが、辞書データベース登録済みのデータに対して上書きされることが分かる。
【００６２】
ステップＳ２０９およびステップＳ２１０では、更新用データに含まれる属性情報（以下、「更新用属性情報」と称する）を用いた、辞書データベースの検索が行われる。適合程度判定部２３は、更新用データに含まれる更新用属性情報を用いて、データベース検索部２２に辞書データベース内のデータ（但し、ステップＳ２０４の処理において完全一致したデータは除く）に含まれる属性情報を検索させ、解析用データに含まれる情報と更新用データに含まれる情報との適合程度を判定する（ステップＳ２０９）。ここでは、更新用属性情報の文字列（例えば、「意見」）を用いた検索が行われ、データベース検索部２２は、一致する属性情報を１つ以上有するデータを索出する。
【００６３】
適合程度判定部２３による適合程度の判定が行われると、更新処理内容決定部２４は、適合程度の判定結果に応じて、辞書データベースの更新処理の内容を決定する（ステップＳ２１０）。一致する属性情報を１つ以上有するデータが索出された場合、処理はステップＳ２１１へ進む。更新用属性情報に一致する属性情報を有するデータが索出されなかった場合、処理はステップＳ２１９へ進む。例えば、更新用属性情報１が「応対」であり、更新用属性情報２が「意見」であった場合、属性情報１または属性情報２の少なくとも一方が「応対」または「意見」であるデータが索出される。その後、処理はステップＳ２１１へ進む。
【００６４】
ステップＳ２１１およびステップＳ２１２では、更新用データの意味情報を用いた、適合程度の判定および更新処理内容の決定が行われる。適合程度判定部２３は、データベース検索部２２に、ステップＳ２０９において索出された、完全一致する属性情報を１つ以上有するデータ群から、更新用データの意味情報に文字列として最長一致する意味情報を有するデータを索出させることで、解析用データに含まれる情報と更新用データに含まれ
る情報との適合程度を判定する（ステップＳ２１１）。
【００６５】
適合程度判定部２３による適合程度の判定が行われると、更新処理内容決定部２４は、適合程度の判定結果に応じて、辞書データベースの更新処理の内容を決定する（ステップＳ２１２）。索出されたデータの意味情報が、更新用データの意味情報に完全一致している場合、処理はステップＳ２１３へ進む。索出されたデータの意味情報が、更新用データの意味情報に部分一致している場合、処理はステップＳ２１４へ進む。一方、更新用データの意味情報に一致する意味情報を含むデータが索出されなかった（不一致であった）場合、処理はステップＳ２１５へ進む。
【００６６】
ここで、部分一致とは、索出されたデータの意味情報と、更新用データの意味情報との間で、複数ある意味情報のうち全ては一致していないが１以上が一致している場合の他、完全一致はしていないが所定の下限長（閾値）以上の文字数一致している場合を含む。また、不一致とは、索出されたデータの意味情報と、更新用データの意味情報との間で、一致する意味情報が１つもない場合の他、所定の下限長（閾値）未満の文字列のみ一致している場合を含む。
【００６７】
ステップＳ２１３では、更新用データが辞書データベースに追加される。データベース更新部２９は、索出されたデータの意味情報が、更新用データの意味情報に完全一致している場合、更新用データを、ステップＳ２１１において索出された、意味情報が完全一致するデータ群の末尾に追加する。その後、本フローチャートに示された処理は終了する。
【００６８】
なお、図９には、適合程度判定部２３による判定結果に対応してステップＳ２１３において実行される処理（更新用データが、意味情報が完全一致するデータ群の末尾に追加されること）が、表のＮｏ．２、３、８、９、１４および１５の行に示されている。また、図１０を参照すると、図９の表のＮｏ．２、３、８、９、１４および１５に相当する更新用データであるＩＤ４、５、１０、１１、１６および１７のデータが、意味情報が完全一致するデータ群の末尾に追加されることが分かる。
【００６９】
ステップＳ２１４では、更新用データが辞書データベースに追加される。データベース更新部２９は、索出されたデータの意味情報が、更新用データの意味情報に部分一致している場合、更新用データを、ステップＳ２１１において索出された、意味情報が部分一致するデータ群の末尾に追加する。その後、本フローチャートに示された処理は終了する。
【００７０】
なお、図９には、適合程度判定部２３による判定結果に対応してステップＳ２１４において実行される処理（更新用データが、意味情報が部分一致するデータ群の末尾に追加されること）が、表のＮｏ．４、５、１０、１１、１６および１７の行に示されている。また、図１０を参照すると、図９の表のＮｏ．４、５、１０、１１、１６および１７に相当する更新用データであるＩＤ６、７、１２、１３、１８および１９のデータが、意味情報が部分一致するデータ群の末尾に追加されることが分かる。
【００７１】
ステップＳ２１５およびステップＳ２１６では、同一属性情報内で「解析キー」が比較される。適合程度判定部２３は、ステップＳ２０９において索出された、完全一致する属性情報を１つ以上有するデータに含まれる解析キーと、更新用解析キーとを比較することで、解析用データに含まれる情報と更新用データに含まれる情報との適合程度を判定する（ステップＳ２１５）。
【００７２】
適合程度判定部２３による適合程度の判定が行われると、更新処理内容決定部２４は、適合程度の判定結果に応じて、辞書データベースの更新処理の内容を決定する（ステップＳ２１６）。比較の結果、ステップＳ２０９において索出されたデータに、更新用解析キ
ーに部分一致する解析キーがある場合、処理はステップＳ２１７へ進む。一方、比較の結果、ステップＳ２０９において索出されたデータに、更新用解析キーに一致する解析キーがない場合、処理はステップＳ２１８へ進む。
【００７３】
ステップＳ２１７では、更新用データが辞書データベースに追加される。データベース更新部２９は、ステップＳ２０９において索出されたデータに、更新用解析キーに部分一致する解析キーがある場合、更新用データを、部分一致に係るデータ群の末尾に追加する（ステップＳ２１７）。その後、本フローチャートに示された処理は終了する。
【００７４】
なお、図９には、適合程度判定部２３による判定結果に対応してステップＳ２１７において実行される処理（更新用データが、部分一致に係るデータ群の末尾に追加されること）が、表のＮｏ．６、１２および１８の行に示されている。また、図１０を参照すると、図９の表のＮｏ．６、１２および１８に相当する更新用データであるＩＤ８、１４および２０のデータが、辞書データベース内の更新用解析キーが部分一致するデータ群の末尾に追加されることが分かる。
【００７５】
ステップＳ２１８では、更新用データが辞書データベースに追加される。データベース更新部２９は、ステップＳ２０９において索出されたデータに、更新用解析キーに一致する解析キーがない場合、更新用データを、同一の属性情報を有するデータ群の末尾に追加する（ステップＳ２１８）。その後、本フローチャートに示された処理は終了する。
【００７６】
なお、図９には、適合程度判定部２３による判定結果に対応してステップＳ２１８において実行される処理（更新用データが、同一の属性情報を有するデータ群の末尾に追加されること）が、表のＮｏ．７、１３および１９の行に示されている。また、図１０を参照すると、図９の表のＮｏ．７、１３および１９に相当する更新用データであるＩＤ９、１５および２１のデータが、辞書データベース内の同一の属性情報を有するデータ群の末尾に追加されることが分かる。
【００７７】
ステップＳ２１９およびステップＳ２２０では、更新用データに含まれる意味情報（以下、「更新用意味情報」と称する）を用いた、適合程度の判定および更新処理内容の決定が行われる。適合程度判定部２３は、更新用データに含まれる更新用意味情報を用いて、データベース検索部２２に、辞書データベース内のデータ（但し、ステップＳ２０４の処理において完全一致したデータは除く）に含まれる意味情報を検索させ、解析用データに含まれる情報と更新用データに含まれる情報との適合程度を判定する（ステップＳ２１９）。ここでは、更新用意味情報の文字列（例えば、「知りたい」）を用いた検索が行われる。
【００７８】
適合程度判定部２３による適合程度の判定が行われると、更新処理内容決定部２４は、適合程度の判定結果に応じて、辞書データベースの更新処理の内容を決定する（ステップＳ２２０）。索出されたデータの意味情報が、更新用データの意味情報に完全一致している場合、処理はステップＳ２２１へ進む。索出されたデータの意味情報が、更新用データの意味情報に部分一致している場合、処理はステップＳ２２２へ進む。一方、更新用データの意味情報に一致する意味情報を含むデータが索出されなかった（不一致）場合、処理はステップＳ２２３へ進む。
【００７９】
ステップＳ２２１からステップＳ２２３では、更新用データが辞書データベースに追加される。なお、ステップＳ２２１およびステップＳ２２２に係る処理の内容はステップＳ２１３およびステップＳ２１４と概略同様であるため、説明を省略する。
【００８０】
なお、図９には、適合程度判定部２３による判定結果に対応してステップＳ２２１にお
いて実行される処理（更新用データが、意味情報が完全一致するデータ群の末尾に追加されること）が、表のＮｏ．２０および２１の行に示されており、適合程度判定部２３による判定結果に対応してステップＳ２２２において実行される処理（更新用データが、意味情報が部分一致するデータ群の末尾に追加されること）が、表のＮｏ．２２および２３の行に示されている。また、図１０を参照すると、図９の表のＮｏ．２０および２１に相当する更新用データであるＩＤ２２および２３のデータが、意味情報が完全一致するデータ群の末尾に追加され、図９の表のＮｏ．２２および２３に相当する更新用データであるＩＤ２４および２５のデータが、意味情報が部分一致するデータ群の末尾に追加されることが分かる。
【００８１】
ステップＳ２２３では、更新用データが辞書データベースに追加される。データベース更新部２９は、索出されたデータの意味情報が、更新用データの意味情報に一致していない場合、更新用データを、辞書データベース内の最後のテーブルの末尾に追加する（ステップＳ２２３）。即ち、本実施形態では、分類不能である解析キーを含むデータを蓄積するためのテーブルとして、辞書データベース内の最後のテーブルが用いられる。
【００８２】
なお、図９には、適合程度判定部２３による判定結果に対応してステップＳ２２３において実行される処理（更新用データが最後のテーブルの末尾に追加されること）が、表のＮｏ．２４および２５の行に示されている。また、図１０を参照すると、図９の表のＮｏ．２４および２５に相当する更新用データであるＩＤ２６および２７のデータが、辞書データベース内の最後のテーブルの末尾に追加されることが分かる。
【００８３】
本実施形態に係る文書データ解析装置１によれば、更新用データに含まれる情報と、更新の対象である辞書データベースに含まれる内容とのパターン一致から、辞書データの追加・更新に係る位置を特定し、辞書データベースを更新することが出来る。なお、本実施形態では、図８Ａから図８Ｃのフローチャートに示された処理を実行することによって更新処理の内容が決定されるが、このような方法に代えて、属性情報、意味情報、および解析キーについて適合程度の判定を行い、図９に示されたような表を参照することによって、更新処理の内容を判定する方法が採用されてもよい。
【００８４】
図１１は、本実施形態に係るデータベース最適化処理の流れを示すフローチャートである。本フローチャートに示された処理は、ユーザによるデータベース最適化処理の実行の指示が受け付けられたことを契機として開始される。但し、本フローチャートに示された処理は、予め設定されたスケジュールに従って、または定期的に実行されてもよい。
【００８５】
ステップＳ３０１では、辞書データベースに含まれる解析キーを用いて、辞書データベースが検索される。データベース検索部２２は、辞書データベースに蓄積されている解析キーを用いて、辞書データベースを検索することで、検索に用いられる解析キー（以下、「検索用解析キー」とも称する）を含む解析キーを抽出する。データベース検索部２２は、辞書データベースに含まれる全ての解析キーについて、検索用解析キーの選択と検索を繰り返す。このため、データベース検索部２２は、ステップＳ３０１における処理の結果、辞書データベースに含まれる全ての解析キーについて、解析キー毎に、辞書データベースの検索結果を得る。その後、処理はステップＳ３０２へ進む。
【００８６】
ステップＳ３０２では、単位解析キーが抽出される。単位解析キー抽出部２５は、ステップＳ３０１における検索の結果、自身を検索キーとして用いた場合にのみ索出された１または複数の解析キーを、単位解析キーとして抽出する。ここで、自身を検索キーとして用いた場合にのみ索出される解析キーとは、換言すれば、自身以外の解析キーを検索キーとして用いた場合には索出されない解析キーである。単位解析キーは、解析キーの構成を把握するための基準となる解析キーであり、他の解析キーを包含しないため、解析キーの
構成を把握するための最小単位として用いることが出来る。抽出された単位解析キーはテーブルにまとめられ、単位解析キーテーブル（単位解析キー辞書、最小単位辞書）が生成される。
【００８７】
ステップＳ３０３では、単位解析キーに基づいて、解析キーの構成が把握される。構成把握部２６は、単位解析キーを用いて辞書データベース内を検索し、辞書データベースに含まれる解析キーの構成を把握する。換言すれば、構成把握部２６は、辞書データベースに含まれる解析キー毎に、単位解析キーの使用パターンを把握する。ここで、使用パターンとは、解析キーにおける、単位解析キーの一致の状況（完全一致、部分一致および部分一致する箇所）を示す情報である。例えば、解析キーが「.*知り(たい|たかった).*(が|
のに).*説明(が|は)?((ない|なし)」である場合、構成把握部２６は、単位解析キーを用
いた検索によって、解析キー「.*知り(たい|たかった).*(が|のに).*説明(が|は)?((ない|なし)」が、単位解析キー「.*知り(たい|たかった)」、単位解析キー「.*(が|のに)」および単位解析キー「.*説明(が|は)?((ない|なし)」の３つの単位解析キーによって構成されていることを把握する。把握された構成は、単位解析キーの識別情報の組み合わせによって管理することが出来る。その後、処理はステップＳ３０４へ進む。
【００８８】
ステップＳ３０４では、追加単位解析キーが抽出および設定される。追加単位解析キー抽出部２７は、ステップＳ３０２において生成された単位解析キーテーブルに含まれる単位解析キーの何れにも該当しない文字列を、追加単位解析キーとして抽出する。ここで、追加単位解析キー抽出部２７は、このような解析キーを抽出するために、ステップＳ３０３において把握された解析キー構成を参照する。例えば、解析キーが「.*知り(たい|たかった).*(電話した).*説明(が|は)?(ない|なし)」であり、単位解析キー「.*知り(たい|たかった)」および単位解析キー「.*説明(が|は)?(ない|なし)」は単位解析キーテーブルに存在するが、「.*(電話した)」という単位解析キーが存在しない場合、追加単位解析キー抽出部２７は、「.*(電話した)」を、追加単位解析キーとして新たに抽出する。
【００８９】
そして、追加単位解析キー設定部２８は、解析キー中の、単位解析キーの何れにも該当しない文字列から意味情報を生成し、これを新たに抽出された追加単位解析キーの意味情報として設定する。例えば、解析キー中の、単位解析キーの何れにも該当しない文字列が「.*(電話した)」である場合、追加単位解析キーの意味情報として、正規表現のための表現を除いた文字列「電話した」が生成され、設定される。
【００９０】
但し、解析キー中の、単位解析キーの何れにも該当しない文字列が、接続詞「が」や「は」等、文字列自体として意味を有さない（直接意味を持たない）文字列である場合がある。本実施形態では、このような場合、追加単位解析キー抽出部２７は、単位解析キーを情報の記述の単位（最小単位）とするために、このような文字列を追加単位解析キーとして抽出しない。
【００９１】
なお、解析キーに含まれる単位解析キーの使用頻度が所定の閾値よりも低い場合には、このような解析キー全体を追加単位解析キーとして抽出することとしてもよい。この場合、追加単位解析キー抽出部２７は、ステップＳ３０２において生成された単位解析キーテーブルに含まれる単位解析キーの何れにも該当しない文字列を含む解析キーを、追加単位解析キーとして抽出する。例えば、解析キーが「.*知り(たい|たかった).*(が|のに).*説明(が|は)?((ない|なし)」であり、単位解析キー「.*知り(たい|たかった)」および単位
解析キー「.*説明(が|は)?((ない|なし)」は単位解析キーテーブルに存在するが、「.*(
が|のに)」という単位解析キーが存在しない場合、「.*(が|のに)」は、文字列自体とし
て意味を有さない文字列である。但し、単位解析キー「.*知り(たい|たかった)」および
単位解析キー「.*説明(が|は)?((ない|なし)」の使用頻度が所定の閾値よりも低い場合、追加単位解析キー抽出部２７は、「.*知り(たい|たかった).*(が|のに).*説明(が|は)?((
ない|なし)」を、追加単位解析キーとして新たに抽出してもよい。
【００９２】
そして、単位解析キーの何れにも該当しない文字列を含む解析キーが追加単位解析キーとして抽出された場合、追加単位解析キー設定部２８は、新たに抽出された追加単位解析キーの意味情報として、追加単位解析キーに含まれる他の単位解析キーの意味情報を設定する。例えば、追加単位解析キーが「.*知り(たい|たかった).*(が|のに).*説明(が|は)?((ない|なし)」であり、単位解析キー「.*知り(たい|たかった)」および単位解析キー「.*説明(が|は)?((ない|なし)」を含む場合、追加単位解析キーの意味情報として、これら
の単位解析キーの意味情報「知りたい」および「説明がない」が設定される。
【００９３】
ステップＳ３０５では、辞書データベースが更新される。データベース更新部２９は、辞書データベースに含まれる解析キーの意味情報を、ステップＳ３０３において把握された構成に含まれる単位解析キーに関連づけられた意味情報を用いて更新する。例えば、解析キーが「.*知り(たい|たかった).*説明(が|は)?((ない|なし)」であり、単位解析キー
「.*知り(たい|たかった)」および単位解析キー「.*説明(が|は)?((ない|なし)」を含む
場合、解析キーの意味情報として、これらの単位解析キーの意味情報「知りたい」および「説明がない」が追加または上書きされる。その後、本フローチャートに示された処理は終了する。
【００９４】
本実施形態に係る文書データ解析装置１によれば、情報の記述の単位（最小単位）である単位解析キーとその意味情報を取得し、解析キーを、単位解析キーの意味情報で表現し構造化することによって、意味情報に基づいた辞書の最適化が行われる。このため、本実施形態に係る文書データ解析装置１によれば、意味構造的な見地から最適化された正規表現辞書の構築が可能となり、辞書メンテナンスに関わる作業を効率化することが出来る。また、本実施形態に係る文書データ解析装置１によれば、辞書管理者は、正規表現辞書の登録内容の追加、修正、更新に関わる作業において、辞書内容の意味を容易に理解出来る。
【符号の説明】
【００９５】
１文書データ解析装置
２３適合程度判定部
２４更新処理内容決定部
２５単位解析キー抽出部
２６構成把握部
２９データベース更新部
３０文書データ解析部

【特許請求の範囲】
【請求項１】
文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続される情報処理装置であって、
前記データベースから、解析キーの構成を把握するための基準となる１または複数の解析キーを、単位解析キーとして抽出する単位解析キー抽出手段と、
前記単位解析キーを用いて、前記データベースに含まれる解析キーの構成を把握する構成把握手段と、
前記構成把握手段によって把握された構成に従って、前記単位解析キーに関連づけられた情報を用いて、前記データベースに含まれる解析キーに関連づけられる情報を更新するデータベース更新手段と、
を備える情報処理装置。
【請求項２】
前記単位解析キー抽出手段は、前記データベースから、自身を検索キーとして用いた場合にのみ索出される解析キーを、前記単位解析キーとして抽出する、
請求項１に記載の情報処理装置。
【請求項３】
前記データベースに蓄積されている解析キーを用いて、該データベースを検索するデータベース検索手段を更に備え、
前記単位解析キー抽出手段は、前記データベース検索手段による検索の結果、自身を検索キーとして用いた場合にのみ索出される解析キーを、前記単位解析キーとして抽出する、
請求項２に記載の情報処理装置。
【請求項４】
前記構成把握手段によって把握された構成において、前記単位解析キーの何れにも該当しない文字列を、追加単位解析キーとして更に抽出する追加単位解析キー抽出手段を更に備える、
請求項１から３の何れか一項に記載の情報処理装置。
【請求項５】
前記追加単位解析キーの意味情報として、前記単位解析キーの何れにも該当しない文字列に基づいて生成された意味情報を設定する、追加単位解析キー設定手段を更に備える、
請求項４に記載の情報処理装置。
【請求項６】
前記データベース更新手段は、前記単位解析キーに関連づけられた、該単位解析キーの意味情報を用いて、前記データベースに含まれる解析キーに関連づけられる、該解析キーの意味情報を更新する、
請求項１から５の何れか一項に記載の情報処理装置。
【請求項７】
前記解析キーは、正規表現を用いて定義される、請求項１から６の何れか一項に記載の情報処理装置。
【請求項８】
文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続されるコンピュータが、
前記データベースから、解析キーの構成を把握するための基準となる１または複数の解析キーを、単位解析キーとして抽出する単位解析キー抽出ステップと、
前記単位解析キーを用いて、前記データベースに含まれる解析キーの構成を把握する構成把握ステップと、
前記構成把握ステップにおいて把握された構成に従って、前記単位解析キーに関連づけられた情報を用いて、前記データベースに含まれる解析キーに関連づけられる情報を更新するデータベース更新ステップと、
を実行するデータベース更新方法。
【請求項９】
文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続されるコンピュータに、
前記データベースから、解析キーの構成を把握するための基準となる１または複数の解析キーを、単位解析キーとして抽出する単位解析キー抽出ステップと、
前記単位解析キーを用いて、前記データベースに含まれる解析キーの構成を把握する構成把握ステップと、
前記構成把握ステップにおいて把握された構成に従って、前記単位解析キーに関連づけられた情報を用いて、前記データベースに含まれる解析キーに関連づけられる情報を更新するデータベース更新ステップと、
を実行させるためのデータベース更新用プログラム。

【図１】