知識情報収集システム、知識検索システム及び知識情報収集方法

【課題】収集された知識情報に含まれる表情報を自然言語で知識データベースへ登録することを可能とする。
【解決手段】表情報解析モジュール１１２ａは、収集制御モジュール１１１によって収集された知識情報に表情報が含まれている場合、当該表情報を解析する。自然言語付加モジュール１１２ｂは、表情報解析モジュール１１２ａの表情報解析結果を自然言語に変換する。テキスト抽出モジュール１１４は、自然言語付加モジュール１１２ｂによって変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、知識ＤＢ１２１への知識情報登録を行う登録モジュール１３へ送出する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、ナレッジマネジメントシステムで用いられる知識データベースに登録すべき情報を外部データソースから収集し、また知識データベースに登録された情報を検索するのに好適な、知識情報収集システム、知識検索システム及び知識情報収集方法に関する。
【背景技術】
【０００２】
近年、知識情報の共有支援を図るためのナレッジマネジメントシステムが開発されている。このナレッジマネジメントシステムは、個人のノウハウなどの知識情報を知識データベースに蓄積して管理するためのものであり、自然言語検索などの検索機能と組み合わせることにより、蓄積された知識情報の効率的な活用を実現する。
【０００３】
このようなナレッジマネジメントシステムでは、知識情報をいかに効率よく収集するかが重要なポイントとなる。そこで最近は、外部データソースとしてのネットワーク、例えばインターネットから、ファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集するための知識情報収集システムが開発されている（例えば、特許文献１参照）。この特許文献１に記載された知識情報収集システムにおいては、設定ファイルに設定された知識情報収集のための条件（知識情報収集条件）に従って、インターネットから、文書情報が次のように収集される。
【０００４】
まず、知識情報収集システムは、設定ファイルとＷｅｂ収集モジュールとを有する。設定ファイルには、ユーザ（例えば管理者である管理ユーザ）の操作によって、情報収集の対象となるリンクの段数及びリンク毎の収集ファイル個数の少なくとも一方が、起点ＵＲＬ（Uniform Resource Locator）と共に設定される。Ｗｅｂ収集モジュールは、起点ＵＲＬ及びリンクの段数が設定ファイルに設定されている場合、当該起点ＵＲＬから設定されたリンクの段数の上限を超えない範囲で、全てのリンクを辿ってインターネットから文書情報（ページ情報）を収集する。また、起点ＵＲＬ及びリンクの段数に加えて、リンク毎の収集ファイル個数が設定されている場合、Ｗｅｂ収集モジュールは、起点ＵＲＬから設定されたリンクの段数の上限を超えず、かつ設定されたリンク毎の収集ファイル個数を超えない範囲で、全てのリンクを辿ってインターネットから文書情報を収集する。
【特許文献１】特開２００３−３０３１９７号公報（段落０００８，００１０，００８６乃至００８９）
【発明の開示】
【発明が解決しようとする課題】
【０００５】
上記したように、特許文献１に記載された知識情報収集技術（以下、先行技術と称する）によれば、設定ファイルを用いて、ネットワーク上からの情報収集の対象となるリンクの段数等を任意に指定することで、起点ＵＲＬから指定のリンクの段数の上限を超えない範囲で、全てのリンクを辿って文書情報が収集される。
【０００６】
このように先行技術では、あるＵＲＬの情報を収集することができるが、元情報がどのように書かれているかは考慮されていない。このため先行技術においては、元情報中に表があっても、表内に記述されている単語は単純なテキストとして、知識データベースに格納されるだけであり、自然言語検索をする場合の精度に対する工夫はなされていない。したがって先行技術には、収集された知識情報が表形式で書かれている場合に、知識データベースを対象とする自然言語検索の精度が芳しくなく、且つ表示される要約が利用者に分かりにくいという問題がある。
【０００７】
本発明は上記事情を考慮してなされたものでその目的は、収集された知識情報に含まれる表情報を自然言語で知識データベースへ登録することができる知識情報収集システム及び方法を提供することにある。
【０００８】
本発明の他の目的は、知識情報収集システムによって収集された知識情報が登録された知識データベースを有効に利用することで、ユーザにとって分かりやすい要約を提示できる知識検索システムを提供することにある。
【課題を解決するための手段】
【０００９】
本発明の１つの観点によれば、知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソース上から収集する知識情報収集システムが提供される。この知識情報収集システムは、収集された知識情報に表情報が含まれている場合、当該表情報を解析する表情報解析手段と、この表情報解析手段の表情報解析結果を自然言語に変換する自然言語変換手段と、収集された知識情報からテキストデータを抽出するテキスト抽出手段であって、上記自然言語変換手段によって変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、上記知識データベースへの知識情報登録を行う登録手段へ送出するテキスト抽出手段とを備える。
【００１０】
このような構成においては、収集された知識情報に含まれている表情報を自然言語として当該知識情報（から抽出されたテキストデータ）に付して知識データベースに登録することが可能となるため、自然言語検索の精度の向上が期待できる。
【００１１】
ここで、表を構成する、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリ毎に、そのカテゴリに適用し得る表現を保持する解析辞書を追加し、上記表情報解析手段は、表情報から、前記解析辞書に保持されている表現に合致する、対象の表現、要素種別の表現及び要素値の表現を抽出し、上記自然言語変換手段は上記表情報解析手段によって抽出された対象の表現、要素種別の表現及び要素値の表現を含む自然言語を作成する構成とするならば、表情報から自然言語に容易に変換できる。
【００１２】
また、本発明の他の観点によれば、上記知識情報収集システムによって収集された知識情報が登録される知識データベースと、ユーザにより指定された自然言語検索条件に従って自然言語検索処理を行って上記知識データベースから当該検索条件に合致した検索結果を取得する検索手段であって、検索結果に表情報を含む知識情報がある場合、当該知識情報に付されている上記表情報から変換された自然言語を、当該知識情報の要約としてユーザに提示する検索手段とを備えた知識検索システムが提供される。
【００１３】
このような構成においては、検索結果に表情報を含む知識情報がある場合、ユーザに提示される検索結果としての当該知識情報の要約に、表情報から変換された自然言語が用いられるため、ユーザは目的の検索結果を探し易くなる。
【発明の効果】
【００１４】
本発明によれば、収集された知識データベースに登録すべき知識情報に表情報が含まれている場合、その表情報を自然言語に変換して当該知識データベースに登録することが可能となるため、自然言語検索の精度の向上が可能となる。
【００１５】
また本発明によれば、検索結果に表情報を含む知識情報がある場合、ユーザに提示する当該知識情報の要約に、表情報から変換された自然言語を用いることにより、ユーザにとって分かり易い要約を提示することができる。
【発明を実施するための最良の形態】
【００１６】
以下、本発明の一実施形態につき図面を参照して説明する。
図１は本発明の一実施形態に係るナレッジマネジメントシステムの構成を示すブロック図である。このナレッジマネジメントシステムは、知識情報の収集、分析及び検索等のサービスを提供する。ナレッジマネジメントシステムは、Ｗｅｂ情報収集システム１１、知識検索システム１２、登録モジュール１３及び設定ファイル１４を含む。Ｗｅｂ情報収集システム１１、登録モジュール１３及び設定ファイル１４は、ナレッジマネジメントシステムが提供するサービスの１つである知識情報の収集を行うための知識情報収集システムを構築する。
【００１７】
Ｗｅｂ情報収集システム１１は、外部データソースとしてのネットワーク、例えばインターネット／イントラネット２０上のＷｅｂサーバ等からユーザに有用なＷｅｂ情報（ページ情報）を収集してテキスト部分を抽出する。Ｗｅｂ情報収集システム１１は、収集制御モジュール１１１、表情報自然言語変換機構１１２及びテキスト抽出モジュール１１４から構成される。
【００１８】
表情報自然言語変換機構１１２は、表情報解析モジュール１１２ａ、自然言語付加モジュール１１２ｂ及び解析用辞書１１２ｃと、変換設定ファイル１１３とを備える。表情報解析モジュール１１２ａは、収集された情報から表情報を検出して当該表情報を解析する。自然言語付加モジュール１１２ｂは、表情報解析モジュール１１２ａによって解析された結果を自然言語に変換する。解析用辞書１１２ｃは、表情報解析モジュール１１２ａによる表情報解析と、自然言語付加モジュール１１２ｂによる自然言語への変換に用いられる。変換設定ファイル１１３は、表情報解析モジュール１１２ａによる表情報解析と、自然言語付加モジュール１１２ｂによる自然言語への変換の条件等を保持するのに用いられる。
【００１９】
図２は、表情報の示す表の一例を示す。ここでは、自動車ＡＢＣの商品内容が表形式で示されている。一般に、表は、タイトル（表名）と、セルの行列とから構成される。表のタイトル（表名）等を「対象」と呼ぶ。表内のセルは、項目が設定される項目セルと、データ（要素値）が設定されるデータセル（要素値セル）とに大別される。項目セルは、「対象」を補足する「副対象」項目セルと、要素値の種別を表す「要素種別」項目セルとに分類される。つまり、表は、「対象」と、「副対象」と、「要素種別」と、「要素値」とによって表すことができる。但し、「副対象」（「副対象」項目）を持たない表もある。図２の表の例では、「Ｘ」「Ｙ」が記載されたセルが「副対象」項目セルであり、「車両価格」「駆動方式」「全長」「全幅」「全高」「室内長」「室内幅」「室内高」が記載されたセルが「要素種別」項目セルである。
【００２０】
図３は解析用辞書１１２ｃのデータ構造例を示す。解析用辞書１１２ｃは、表を表現する要素、つまり表の構成要素である、「対象」「副対象」「要素種別」及び「要素値」の４つのカテゴリ（表現カテゴリ）毎に、適用し得る表現（文字列）例を保持している。但し、「要素値」は、複数の要素値型（データ型）に分類され、要素値型によっては、その要素値型に固有の表現形式を示す情報を保持している。図３の解析用辞書１１２ｃの例では、要素値型は、「○×」型、「数値」型、「非数値」型に分類される。ここでは、「○×」型の場合、つまり要素値が記号「○」または「×」の場合、それぞれ文字列「あり」「無し」を「要素値の表現」とすることが示されている。また、「数値」型の場合、つまり要素値が数値の場合、対応する要素値（＝数値）に一致する「数字」を「要素値の表現」とすることが示されている。同様に、「非数値」型の場合、つまり要素値が非数値の場合、対応する要素値（＝非数値）をそのまま「要素値の表現」とすることが示されている。
【００２１】
再び図１を参照すると、知識検索システム１２は、知識ＤＢ１２１及び検索エンジン１２２から構成される。知識ＤＢ１２１は、Ｗｅｂ情報収集システム１１内の収集制御モジュール１１１によって収集されたページ情報から、テキスト抽出モジュール１１４によって抽出された文書情報（テキスト）を蓄積しておくのに用いられる。検索エンジン１２２は、ユーザ１０２の操作に応じてＷｅｂブラウザ１６から入力された検索要求の示す検索条件に従って知識ＤＢ１２１を対象に全文検索または自然言語検索を行う。
【００２２】
次に、図１のシステムにおける情報収集と検索の概要について説明する。
【００２３】
管理ユーザ（管理者）は、図示せぬクライアント端末上で動作するＷｅｂブラウザ１５を通して、起点ＵＲＬ、インターネット／イントラネット２０上からの情報収集の対象となるリンクの段数、収集ページ数の上限等、Ｗｅｂ情報収集のための条件（知識情報収集条件）を指定するための入力操作を行う。この入力操作で指定された知識情報収集条件は、設定ファイル１４に設定される。
【００２４】
収集制御モジュール１１１は、設定ファイル１４に設定された知識情報収集条件に従って、インターネット／イントラネット２０から知識情報を収集する。つまり設定ファイル１４は、知識条件設定手段として用いられる。以下の説明では、収集制御モジュール１１１によって収集される知識情報が、ＨＴＭＬ（HyperText Markup Language）文書情報であるものとする。
【００２５】
表情報自然言語変換機構１１２は、収集制御モジュール１１１によって収集された知識情報に表情報が含まれている場合、その表情報を解析し、当該表情報から自然言語を作成するための表情報自然言語変換処理を行う。この表情報自然言語変換機構１１２の動作の詳細は後述する。
【００２６】
テキスト抽出モジュール１１４は、収集制御モジュール１１１によって収集された知識情報からテキスト情報を抽出する。テキスト抽出モジュール１１４は、抽出されたテキスト情報を、表情報自然言語変換機構１１２によって作成された自然言語と組み合わせて、登録モジュール１３へ送る。登録モジュール１３は、テキスト抽出モジュール１１４から送られたテキスト情報を知識ＤＢ１２１へ登録する。
【００２７】
ユーザ１０２は、図示せぬクライアント端末上で動作するＷｅｂブラウザ１６を通して、検索条件を指定するための入力操作を行う。この入力操作で指定された検索条件は、Ｗｅｂブラウザ１６により知識検索システム１２に送られる。知識検索システム１２内の検索エンジン１２２は、Ｗｅｂブラウザ１６から送られた検索条件に従って、知識ＤＢ１２１に格納されている情報から検索結果を得る。検索エンジン１２２は、この検束結果をＷｅｂブラウザ１６を介してユーザ１０２に提示する。
【００２８】
次に、表情報自然言語変換機構１１２による表情報自然言語変換処理の手順について、図４のフローチャートを参照して説明する。
まず表情報自然言語変換機構１１２の表情報解析モジュール１１２ａは、収集制御モジュール１１１によって収集された知識情報、例えばＨＴＭＬ文書情報を解析して、当該文書情報に表情報に含まれているかを判定する（ステップＳ１）。本実施形態では、表を示すタグ（例えばＨＴＭＬの<TABLE>）があるか否かにより、表情報であるか否かが判定される。
【００２９】
さて、収集された文書情報が、「ＡＢＣについて」というタイトルの文書情報であり、当該文書情報に図２の表を示す表情報が含まれているものとする。この場合、表情報解析モジュール１１２ａは、図３に示されている解析用辞書１１２ｃを参照して、当該表情報から、「対象の表現」を取得する（ステップＳ２）。ここでは、表情報から、解析用辞書１１２ｃに「対象」カテゴリの「表現」として保持されている文字列に一致する文字列を抽出することにより、「対象の表現」が取得される。具体的には、「ＡＢＣ」が「対象の表現」として抽出される。この他に、ＨＴＭＬの<TITLE>タグで示される要素の内容を、「対象」カテゴリの「表現」として取得することも可能である。
【００３０】
次に表情報解析モジュール１１２ａは、表の１列を示すタグ（例えばＨＴＭＬの<TR>タグ）から表情報の列数を取得し、その列数分だけ、次のステップＳ４を繰り返す（ステップＳ３）。
【００３１】
また表情報解析モジュール１１２ａは、表の項目を示すタグ（例えばＨＴＭＬの<TD>タグ）から、列の項目数を取得し、その項目数分だけ、次のステップＳ５及びＳ６を繰り返す（ステップＳ４）。なお、本実施形態で適用される表は、第１列に項目が存在することを前提としている。
【００３２】
以下、ステップＳ５及びＳ６と、ステップＳ６に続いて自然言語付加モジュール１１２ｂによって実行されるステップＳ７の処理について説明する。
表情報解析モジュール１１２ａはステップＳ５において、対象となる項目が存在する第ｉ行（ここではｉ＝２）の第１列のセルから単語を取り出す。表情報解析モジュール１１２ａは、取り出された単語をキーに解析用辞書１１２ｃを参照することにより、当該単語が「要素種別の表現」であるかを判別し、「要素種別の表現」であれば、当該単語を「要素種別の表現」として取り出す。図２の表の例では、ｉ＝２の場合、「車両価格」が「要素種別の表現」として取り出される。
【００３３】
次に、表情報解析モジュール１１２ａはステップＳ６において、対象となる項目が存在する第ｉ行の第ｊ列（ここでは、ｊ＝２）のセルから単語を取り出す。表情報解析モジュール１１２ａは、取り出された単語をキーに解析用辞書１１２ｃを参照することにより、当該単語が「要素値の表現」であるかを判別し、「要素値の表現」であれば、当該単語を「要素値の表現」として取り出す。図２の表の例では、ｉ＝２，ｊ＝２の場合、「１２３万円」が「要素値の表現」として取り出される。
【００３４】
また、図４のフローチャートでは省略されているが、図２の表のように、第１列の第１行のセルに「要素種別の表現」が存在しない場合、第ｊ列の第１行のセルから単語が取り出されて、「副対象の表現」であるかが判別される。そして、「副対象の表現」であれば、当該単語が「副対象の表現」として取り出される。ここでは、「Ｘ」が「副対象の表現」として取り出される。
【００３５】
自然言語付加モジュール１１２ｂは、表情報解析モジュール１１２ａによってステップＳ２で取得された「対象の表現」と、ステップＳ５及びＳ６でそれぞれ取り出された「要素種別の表現」及び「要素値の表現」に基づいて、例えば『「対象の表現」の（「副対象の表現」）の「要素種別の表現」は「要素値の表現」です』という自然言語を作成する。上記の例では、「ＡＢＣのＸの車両価格は１２３万円です」という自然言語が作成される。
【００３６】
ステップＳ５乃至Ｓ７は、列を切り替えながら、最終列まで繰り返される。この動作が、項目数分行を変えながら繰り返される。これにより図２の表の例では、上記自然言語の他に、「ＡＢＣのＸの駆動方式はＦＦです」「ＡＢＣのＺの駆動方式はＡＷＤです」「ＡＢＣのＸの全幅は１７６０mmです」などが作成される。
【００３７】
また、解析用辞書１１２ｃに含まれる「要素種別の表現」または「要素値の表現」に合致するものが表内に存在しない、次のケース１乃至３においても、以下の手順で自然言語を作成することが可能である。
【００３８】
＜ケース１＞
まず、解析用辞書１１２ｃに含まれる「要素種別の表現」に合致するものが表内に見つからないケース１の動作について、図５のフローチャートを参照して説明する。
【００３９】
表情報解析モジュール１１２ａは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する（ステップＳ１１）。もし、「対象の表現」と一致するものがあるならば、表情報解析モジュール１１２ａは、表の２列目以降において、１行目或は２行目から最終行（つまり、少なくとも２行目から最終行）までのセルに、「要素値」カテゴリに含まれる「表現」が出現するかを判定する（ステップＳ１２）。
【００４０】
表情報解析モジュール１１２ａは、ステップＳ１１及びＳ１２の判定条件を満たす場合、ステップＳ１２の判定条件を満たす列で一番左側に位置する列に対し、その左側に隣接する列のセルの内容を「要素種別の表現」とみなす（ステップＳ１３）。
【００４１】
この際、ステップＳ１２の判定条件を満たす列の１行目のセルに、「要素値」カテゴリに含まれる表現がないならば（ステップＳ１４）、表情報解析モジュール１１２ａは、当該セルの内容を「副対象の表現」とみなす（ステップＳ１５）。
【００４２】
＜ケース２＞
次に、解析用辞書１１２ｃに含まれる「要素値の表現」に合致するものが表内に見つからないケース２の動作について、図６のフローチャートを参照して説明する。
【００４３】
表情報解析モジュール１１２ａは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する（ステップＳ２１）。もし、「対象の表現」と一致するものがあるならば、表内に「要素種別の表現」が出現する列の右列以降を、それぞれ「要素値」のセルを含む列と見なす（ステップＳ２２）。
【００４４】
この際、表情報解析モジュール１１２ａは、「要素種別の表現」が出現する列の１行目のセルが「要素種別の表現」に合致しないならば（ステップＳ２３）、１行目をタイトル行と見なし、１行目で「要素種別の表現」が出現する列の右列以降のセルの内容を「副対象の表現」と見なす。
【００４５】
＜ケース３＞
次に、解析用辞書１１２ｃに含まれる「要素種別の表現」及び「要素値の表現」が共に表内に見つからないケース３の動作について、図７のフローチャートを参照して説明する。
【００４６】
表情報解析モジュール１１２ａは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する（ステップＳ３１）。もし、「対象の表現」と一致するものがあるならば、表情報解析モジュール１１２ａは、表の２列目以降において、１行目或は２行目から最終行までのセルに、「数字のみ」または「数字＋一定文字数以下の短い文字列」の表現が出現するかを判定する（ステップＳ３２）。
【００４７】
表情報解析モジュール１１２ａは、ステップＳ３１及びＳ３２の判定条件を満たす場合、ステップＳ３２の判定条件を満たす列で一番左側に位置する列に対し、その左側に隣接する列のセルの内容を「要素種別の表現」とみなす（ステップＳ３３）。
【００４８】
この際、ステップＳ３２の判定条件を満たす列の１行目のセルに、「数字のみ」または「数字＋短い文字列」の表現がないならば（ステップＳ３４）、表情報解析モジュール１１２ａは、当該セルの内容を「副対象の表現」とみなす（ステップＳ３５）。
【００４９】
これにより、解析用辞書１１２ｃに含まれる「要素種別の表現」または「要素値の表現」に合致するものが表内に存在しない場合にも、当該「要素種別の表現」または「要素値の表現」、更には「副対象の表現」が既出されたセルを推定できるため、自然言語を作成することが可能である。
【００５０】
ここでは、上記ケース１乃至３の処理に関し、いずれのケースの処理を適用するか否かを、管理ユーザ１０１が変換設定ファイル１１３に従って選択することができる。
【００５１】
更に、上記ケース１，２，３のそれぞれステップＳ１１，Ｓ２１，Ｓ３１の判定で、表が出現する直前の文において「対象の表現」と一致するものが含まれないと判定された場合に、以前に「対象の表現」が見つかった文において、（Ａ）「対象の表現出現直前までの記述」及び（Ｂ）「対象の表現出現直後の記述」を記憶しておくことにより、（Ａ）と（Ｂ）に挟まれた表現を「対象の表現」と見なすことも可能である。この動作についても、管理ユーザ１０１が変換設定ファイル１１３に従って選択することができる。
【００５２】
なお、要素種別の項目と副対象の項目の配列が逆の場合に対処するには、上述の説明の列と行とを入れ替えて処理すれば良い。
【００５３】
前述したように、自然言語付加モジュール１１２ｂによって作成された自然言語は、テキスト抽出モジュール１１４によって知識情報から抽出されたテキスト情報と組み合わされて、登録モジュール１３へ送られる。ここでは、タイトルが「ＡＢＣについて」の文書情報から抽出されたテキスト情報に、自然言語付加モジュール１１２ｂによって作成された自然言語が付されて、登録モジュール１３へ送られる。登録モジュール１３は、この自然言語が付されたテキスト情報を知識ＤＢ１２１へ登録する。このように、知識情報に含まれている表情報を自然言語に変換して知識ＤＢ１２１に登録した場合、単に表情報から単語を抽出する場合と比べて、自然言語検索の精度を向上することができる。
【００５４】
例えば、図２の表を示す表情報を収集した場合、先行技術では、「自動車ＡＢＣの商品内容」「Ｘ」「Ｙ」「車両価格」「１２３万円」「１３８万円」「駆動方式」「ＦＦ」「ＡＷＤ」「全幅」「１７６０mm」…とそれぞれが１つの単語として収集されるだけである。このため、「ＡＢＣの全幅は？」といった自然言語検索では、「全幅」そのものの値はあるものの、全幅とその値が結びついてないため検索精度は必ずしも良くない。これに対して本実施形態では、「ＡＢＣのＸの全幅は１７６０mmです」などの自然言語が作成されて元の知識情報（文書情報）から抽出されたテキスト情報と合わせて知識ＤＢ１２１に登録される。このため、先行技術と比べて自然言語検索の精度を向上することができる。
【００５５】
図８は、自然言語検索の検索画面例を示す。この検索画面は、検索エンジン１２２によりＷｅｂブラウザ１６を介してユーザ１０２に提示される。ユーザ１０２は、検索画面に配置された検索条件入力フィールド５１に、任意の検索条件を入力するための操作を行う。図８の例は、自然言語検索のために「ＡＢＣの金額は？」という検索条件が検索条件入力フィールド５１に入力されて、検索ボタン５２が押された場合を想定している。この場合、検索エンジン１２２は、「ＡＢＣの金額は？」に合致する知識情報を知識ＤＢ１２１から検索し、その検索結果の一覧を図８に示す検索画面の検索結果表示領域に配置する。この検索結果の一覧に、タイトルが「ＡＢＣについて」の文書情報が含まれているものとする。この場合、検索エンジン１２２は、タイトルが「ＡＢＣについて」の文書情報に含まれている図２に示す表から変換された自然言語のうち、検索条件に合致した自然言語「ＡＢＣのＸの車両価格は１２３万円です」を、図８に示すように、タイトルが「ＡＢＣについて」の文書情報の要約４３として提示する。つまり、検索結果の要約に自然言語が表示される。これにより、ユーザ１０２は、検索結果一覧から目的の検索結果を容易に探すことができる。
【００５６】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
【図面の簡単な説明】
【００５７】
【図１】本発明の一実施形態に係るナレッジマネジメントシステムの構成を示すブロック図。
【図２】表の一例を示す図。
【図３】図１中の解析用辞書１１２ｃのデータ構造例を示す図。
【図４】表情報自然言語変換機構１１２による表情報自然言語変換処理の手順を示すフローチャート。
【図５】解析用辞書１１２ｃに含まれる「要素種別の表現」が表内に見つからない場合の処理手順を示すフローチャート。
【図６】解析用辞書１１２ｃに含まれる「要素値の表現」が表内に見つからない場合の処理手順を示すフローチャート。
【図７】解析用辞書１１２ｃに含まれる「要素種別の表現」及び「要素値の表現」が共に表内に見つからない場合の処理手順を示すフローチャート。
【図８】自然言語検索の検索画面例を示す図。
【符号の説明】
【００５８】
１１…Ｗｅｂ情報収集システム、１２…知識検索システム、１３…登録モジュール、１４…設定ファイル、２０…インターネット／イントラネット、１１１…収集制御モジュール、１１２…表情報自然言語変換機構、１１２ａ…表情報解析モジュール、１１２ｂ…自然言語付加モジュール、１１２ｃ…解析用辞書、１１３…変換設定ファイル、１１４…テキスト抽出モジュール、１２１…知識ＤＢ（データベース）、１２２…検索エンジン。

【特許請求の範囲】
【請求項１】
知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソースから収集する知識情報収集システムにおいて、
収集された知識情報に表情報が含まれている場合、当該表情報を解析する表情報解析手段と、
前記表情報解析手段の表情報解析結果を自然言語に変換する自然言語変換手段と、
収集された知識情報からテキストデータを抽出するテキスト抽出手段であって、前記自然言語変換手段によって変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、前記知識データベースへの知識情報登録を行う登録手段へ送出するテキスト抽出手段と
を具備することを特徴とする知識情報収集システム。
【請求項２】
表を構成する、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリ毎に、そのカテゴリに適用し得る表現を保持する解析辞書を更に具備し、
前記表情報解析手段は、表情報から、前記解析辞書に保持されている表現に合致する、対象の表現、要素種別の表現及び要素値の表現を抽出し、
前記自然言語変換手段は前記表情報解析手段によって抽出された対象の表現、要素種別の表現及び要素値の表現を含む自然言語を作成する
ことを特徴とする請求項１記載の知識情報収集システム。
【請求項３】
請求項１記載の知識情報収集システムによって収集された知識情報が登録される知識データベースと、
ユーザにより指定された自然言語検索条件に従って自然言語検索処理を行って前記知識データベースから当該検索条件に合致した検索結果を取得する検索手段であって、検索結果に表情報を含む知識情報がある場合、当該知識情報に付されている前記表情報から変換された自然言語を、当該知識情報の要約としてユーザに提示する検索手段と
を具備することを特徴とする知識検索システム。
【請求項４】
知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソースから収集する知識情報収集方法において、
収集された知識情報に表情報が含まれているかを判定するステップと、
収集された知識情報に表情報が含まれている場合、当該表情報を解析するステップと、
前記表情報の解析結果を自然言語に変換するステップと、
前記変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、前記知識データベースに登録させるステップと
を具備することを特徴とする知識情報収集方法。

【図１】