説明

知識情報収集システム、知識検索システム及び知識情報収集方法

【課題】収集された知識情報に含まれる表情報を自然言語で知識データベースへ登録することを可能とする。
【解決手段】表情報解析モジュール112aは、収集制御モジュール111によって収集された知識情報に表情報が含まれている場合、当該表情報を解析する。自然言語付加モジュール112bは、表情報解析モジュール112aの表情報解析結果を自然言語に変換する。テキスト抽出モジュール114は、自然言語付加モジュール112bによって変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、知識DB121への知識情報登録を行う登録モジュール13へ送出する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ナレッジマネジメントシステムで用いられる知識データベースに登録すべき情報を外部データソースから収集し、また知識データベースに登録された情報を検索するのに好適な、知識情報収集システム、知識検索システム及び知識情報収集方法に関する。
【背景技術】
【0002】
近年、知識情報の共有支援を図るためのナレッジマネジメントシステムが開発されている。このナレッジマネジメントシステムは、個人のノウハウなどの知識情報を知識データベースに蓄積して管理するためのものであり、自然言語検索などの検索機能と組み合わせることにより、蓄積された知識情報の効率的な活用を実現する。
【0003】
このようなナレッジマネジメントシステムでは、知識情報をいかに効率よく収集するかが重要なポイントとなる。そこで最近は、外部データソースとしてのネットワーク、例えばインターネットから、ファイル形式の異なる様々な種類の文書ファイルを知識情報として効率よく収集するための知識情報収集システムが開発されている(例えば、特許文献1参照)。この特許文献1に記載された知識情報収集システムにおいては、設定ファイルに設定された知識情報収集のための条件(知識情報収集条件)に従って、インターネットから、文書情報が次のように収集される。
【0004】
まず、知識情報収集システムは、設定ファイルとWeb収集モジュールとを有する。設定ファイルには、ユーザ(例えば管理者である管理ユーザ)の操作によって、情報収集の対象となるリンクの段数及びリンク毎の収集ファイル個数の少なくとも一方が、起点URL(Uniform Resource Locator)と共に設定される。Web収集モジュールは、起点URL及びリンクの段数が設定ファイルに設定されている場合、当該起点URLから設定されたリンクの段数の上限を超えない範囲で、全てのリンクを辿ってインターネットから文書情報(ページ情報)を収集する。また、起点URL及びリンクの段数に加えて、リンク毎の収集ファイル個数が設定されている場合、Web収集モジュールは、起点URLから設定されたリンクの段数の上限を超えず、かつ設定されたリンク毎の収集ファイル個数を超えない範囲で、全てのリンクを辿ってインターネットから文書情報を収集する。
【特許文献1】特開2003−303197号公報(段落0008,0010,0086乃至0089)
【発明の開示】
【発明が解決しようとする課題】
【0005】
上記したように、特許文献1に記載された知識情報収集技術(以下、先行技術と称する)によれば、設定ファイルを用いて、ネットワーク上からの情報収集の対象となるリンクの段数等を任意に指定することで、起点URLから指定のリンクの段数の上限を超えない範囲で、全てのリンクを辿って文書情報が収集される。
【0006】
このように先行技術では、あるURLの情報を収集することができるが、元情報がどのように書かれているかは考慮されていない。このため先行技術においては、元情報中に表があっても、表内に記述されている単語は単純なテキストとして、知識データベースに格納されるだけであり、自然言語検索をする場合の精度に対する工夫はなされていない。したがって先行技術には、収集された知識情報が表形式で書かれている場合に、知識データベースを対象とする自然言語検索の精度が芳しくなく、且つ表示される要約が利用者に分かりにくいという問題がある。
【0007】
本発明は上記事情を考慮してなされたものでその目的は、収集された知識情報に含まれる表情報を自然言語で知識データベースへ登録することができる知識情報収集システム及び方法を提供することにある。
【0008】
本発明の他の目的は、知識情報収集システムによって収集された知識情報が登録された知識データベースを有効に利用することで、ユーザにとって分かりやすい要約を提示できる知識検索システムを提供することにある。
【課題を解決するための手段】
【0009】
本発明の1つの観点によれば、知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソース上から収集する知識情報収集システムが提供される。この知識情報収集システムは、収集された知識情報に表情報が含まれている場合、当該表情報を解析する表情報解析手段と、この表情報解析手段の表情報解析結果を自然言語に変換する自然言語変換手段と、収集された知識情報からテキストデータを抽出するテキスト抽出手段であって、上記自然言語変換手段によって変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、上記知識データベースへの知識情報登録を行う登録手段へ送出するテキスト抽出手段とを備える。
【0010】
このような構成においては、収集された知識情報に含まれている表情報を自然言語として当該知識情報(から抽出されたテキストデータ)に付して知識データベースに登録することが可能となるため、自然言語検索の精度の向上が期待できる。
【0011】
ここで、表を構成する、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリ毎に、そのカテゴリに適用し得る表現を保持する解析辞書を追加し、上記表情報解析手段は、表情報から、前記解析辞書に保持されている表現に合致する、対象の表現、要素種別の表現及び要素値の表現を抽出し、上記自然言語変換手段は上記表情報解析手段によって抽出された対象の表現、要素種別の表現及び要素値の表現を含む自然言語を作成する構成とするならば、表情報から自然言語に容易に変換できる。
【0012】
また、本発明の他の観点によれば、上記知識情報収集システムによって収集された知識情報が登録される知識データベースと、ユーザにより指定された自然言語検索条件に従って自然言語検索処理を行って上記知識データベースから当該検索条件に合致した検索結果を取得する検索手段であって、検索結果に表情報を含む知識情報がある場合、当該知識情報に付されている上記表情報から変換された自然言語を、当該知識情報の要約としてユーザに提示する検索手段とを備えた知識検索システムが提供される。
【0013】
このような構成においては、検索結果に表情報を含む知識情報がある場合、ユーザに提示される検索結果としての当該知識情報の要約に、表情報から変換された自然言語が用いられるため、ユーザは目的の検索結果を探し易くなる。
【発明の効果】
【0014】
本発明によれば、収集された知識データベースに登録すべき知識情報に表情報が含まれている場合、その表情報を自然言語に変換して当該知識データベースに登録することが可能となるため、自然言語検索の精度の向上が可能となる。
【0015】
また本発明によれば、検索結果に表情報を含む知識情報がある場合、ユーザに提示する当該知識情報の要約に、表情報から変換された自然言語を用いることにより、ユーザにとって分かり易い要約を提示することができる。
【発明を実施するための最良の形態】
【0016】
以下、本発明の一実施形態につき図面を参照して説明する。
図1は本発明の一実施形態に係るナレッジマネジメントシステムの構成を示すブロック図である。このナレッジマネジメントシステムは、知識情報の収集、分析及び検索等のサービスを提供する。ナレッジマネジメントシステムは、Web情報収集システム11、知識検索システム12、登録モジュール13及び設定ファイル14を含む。Web情報収集システム11、登録モジュール13及び設定ファイル14は、ナレッジマネジメントシステムが提供するサービスの1つである知識情報の収集を行うための知識情報収集システムを構築する。
【0017】
Web情報収集システム11は、外部データソースとしてのネットワーク、例えばインターネット/イントラネット20上のWebサーバ等からユーザに有用なWeb情報(ページ情報)を収集してテキスト部分を抽出する。Web情報収集システム11は、収集制御モジュール111、表情報自然言語変換機構112及びテキスト抽出モジュール114から構成される。
【0018】
表情報自然言語変換機構112は、表情報解析モジュール112a、自然言語付加モジュール112b及び解析用辞書112cと、変換設定ファイル113とを備える。表情報解析モジュール112aは、収集された情報から表情報を検出して当該表情報を解析する。自然言語付加モジュール112bは、表情報解析モジュール112aによって解析された結果を自然言語に変換する。解析用辞書112cは、表情報解析モジュール112aによる表情報解析と、自然言語付加モジュール112bによる自然言語への変換に用いられる。変換設定ファイル113は、表情報解析モジュール112aによる表情報解析と、自然言語付加モジュール112bによる自然言語への変換の条件等を保持するのに用いられる。
【0019】
図2は、表情報の示す表の一例を示す。ここでは、自動車ABCの商品内容が表形式で示されている。一般に、表は、タイトル(表名)と、セルの行列とから構成される。表のタイトル(表名)等を「対象」と呼ぶ。表内のセルは、項目が設定される項目セルと、データ(要素値)が設定されるデータセル(要素値セル)とに大別される。項目セルは、「対象」を補足する「副対象」項目セルと、要素値の種別を表す「要素種別」項目セルとに分類される。つまり、表は、「対象」と、「副対象」と、「要素種別」と、「要素値」とによって表すことができる。但し、「副対象」(「副対象」項目)を持たない表もある。図2の表の例では、「X」「Y」が記載されたセルが「副対象」項目セルであり、「車両価格」「駆動方式」「全長」「全幅」「全高」「室内長」「室内幅」「室内高」が記載されたセルが「要素種別」項目セルである。
【0020】
図3は解析用辞書112cのデータ構造例を示す。解析用辞書112cは、表を表現する要素、つまり表の構成要素である、「対象」「副対象」「要素種別」及び「要素値」の4つのカテゴリ(表現カテゴリ)毎に、適用し得る表現(文字列)例を保持している。但し、「要素値」は、複数の要素値型(データ型)に分類され、要素値型によっては、その要素値型に固有の表現形式を示す情報を保持している。図3の解析用辞書112cの例では、要素値型は、「○×」型、「数値」型、「非数値」型に分類される。ここでは、「○×」型の場合、つまり要素値が記号「○」または「×」の場合、それぞれ文字列「あり」「無し」を「要素値の表現」とすることが示されている。また、「数値」型の場合、つまり要素値が数値の場合、対応する要素値(=数値)に一致する「数字」を「要素値の表現」とすることが示されている。同様に、「非数値」型の場合、つまり要素値が非数値の場合、対応する要素値(=非数値)をそのまま「要素値の表現」とすることが示されている。
【0021】
再び図1を参照すると、知識検索システム12は、知識DB121及び検索エンジン122から構成される。知識DB121は、Web情報収集システム11内の収集制御モジュール111によって収集されたページ情報から、テキスト抽出モジュール114によって抽出された文書情報(テキスト)を蓄積しておくのに用いられる。検索エンジン122は、ユーザ102の操作に応じてWebブラウザ16から入力された検索要求の示す検索条件に従って知識DB121を対象に全文検索または自然言語検索を行う。
【0022】
次に、図1のシステムにおける情報収集と検索の概要について説明する。
【0023】
管理ユーザ(管理者)は、図示せぬクライアント端末上で動作するWebブラウザ15を通して、起点URL、インターネット/イントラネット20上からの情報収集の対象となるリンクの段数、収集ページ数の上限等、Web情報収集のための条件(知識情報収集条件)を指定するための入力操作を行う。この入力操作で指定された知識情報収集条件は、設定ファイル14に設定される。
【0024】
収集制御モジュール111は、設定ファイル14に設定された知識情報収集条件に従って、インターネット/イントラネット20から知識情報を収集する。つまり設定ファイル14は、知識条件設定手段として用いられる。以下の説明では、収集制御モジュール111によって収集される知識情報が、HTML(HyperText Markup Language)文書情報であるものとする。
【0025】
表情報自然言語変換機構112は、収集制御モジュール111によって収集された知識情報に表情報が含まれている場合、その表情報を解析し、当該表情報から自然言語を作成するための表情報自然言語変換処理を行う。この表情報自然言語変換機構112の動作の詳細は後述する。
【0026】
テキスト抽出モジュール114は、収集制御モジュール111によって収集された知識情報からテキスト情報を抽出する。テキスト抽出モジュール114は、抽出されたテキスト情報を、表情報自然言語変換機構112によって作成された自然言語と組み合わせて、登録モジュール13へ送る。登録モジュール13は、テキスト抽出モジュール114から送られたテキスト情報を知識DB121へ登録する。
【0027】
ユーザ102は、図示せぬクライアント端末上で動作するWebブラウザ16を通して、検索条件を指定するための入力操作を行う。この入力操作で指定された検索条件は、Webブラウザ16により知識検索システム12に送られる。知識検索システム12内の検索エンジン122は、Webブラウザ16から送られた検索条件に従って、知識DB121に格納されている情報から検索結果を得る。検索エンジン122は、この検束結果をWebブラウザ16を介してユーザ102に提示する。
【0028】
次に、表情報自然言語変換機構112による表情報自然言語変換処理の手順について、図4のフローチャートを参照して説明する。
まず表情報自然言語変換機構112の表情報解析モジュール112aは、収集制御モジュール111によって収集された知識情報、例えばHTML文書情報を解析して、当該文書情報に表情報に含まれているかを判定する(ステップS1)。本実施形態では、表を示すタグ(例えばHTMLの<TABLE>)があるか否かにより、表情報であるか否かが判定される。
【0029】
さて、収集された文書情報が、「ABCについて」というタイトルの文書情報であり、当該文書情報に図2の表を示す表情報が含まれているものとする。この場合、表情報解析モジュール112aは、図3に示されている解析用辞書112cを参照して、当該表情報から、「対象の表現」を取得する(ステップS2)。ここでは、表情報から、解析用辞書112cに「対象」カテゴリの「表現」として保持されている文字列に一致する文字列を抽出することにより、「対象の表現」が取得される。具体的には、「ABC」が「対象の表現」として抽出される。この他に、HTMLの<TITLE>タグで示される要素の内容を、「対象」カテゴリの「表現」として取得することも可能である。
【0030】
次に表情報解析モジュール112aは、表の1列を示すタグ(例えばHTMLの<TR>タグ)から表情報の列数を取得し、その列数分だけ、次のステップS4を繰り返す(ステップS3)。
【0031】
また表情報解析モジュール112aは、表の項目を示すタグ(例えばHTMLの<TD>タグ)から、列の項目数を取得し、その項目数分だけ、次のステップS5及びS6を繰り返す(ステップS4)。なお、本実施形態で適用される表は、第1列に項目が存在することを前提としている。
【0032】
以下、ステップS5及びS6と、ステップS6に続いて自然言語付加モジュール112bによって実行されるステップS7の処理について説明する。
表情報解析モジュール112aはステップS5において、対象となる項目が存在する第i行(ここではi=2)の第1列のセルから単語を取り出す。表情報解析モジュール112aは、取り出された単語をキーに解析用辞書112cを参照することにより、当該単語が「要素種別の表現」であるかを判別し、「要素種別の表現」であれば、当該単語を「要素種別の表現」として取り出す。図2の表の例では、i=2の場合、「車両価格」が「要素種別の表現」として取り出される。
【0033】
次に、表情報解析モジュール112aはステップS6において、対象となる項目が存在する第i行の第j列(ここでは、j=2)のセルから単語を取り出す。表情報解析モジュール112aは、取り出された単語をキーに解析用辞書112cを参照することにより、当該単語が「要素値の表現」であるかを判別し、「要素値の表現」であれば、当該単語を「要素値の表現」として取り出す。図2の表の例では、i=2,j=2の場合、「123万円」が「要素値の表現」として取り出される。
【0034】
また、図4のフローチャートでは省略されているが、図2の表のように、第1列の第1行のセルに「要素種別の表現」が存在しない場合、第j列の第1行のセルから単語が取り出されて、「副対象の表現」であるかが判別される。そして、「副対象の表現」であれば、当該単語が「副対象の表現」として取り出される。ここでは、「X」が「副対象の表現」として取り出される。
【0035】
自然言語付加モジュール112bは、表情報解析モジュール112aによってステップS2で取得された「対象の表現」と、ステップS5及びS6でそれぞれ取り出された「要素種別の表現」及び「要素値の表現」に基づいて、例えば『「対象の表現」の(「副対象の表現」)の「要素種別の表現」は「要素値の表現」です』という自然言語を作成する。上記の例では、「ABCのXの車両価格は123万円です」という自然言語が作成される。
【0036】
ステップS5乃至S7は、列を切り替えながら、最終列まで繰り返される。この動作が、項目数分行を変えながら繰り返される。これにより図2の表の例では、上記自然言語の他に、「ABCのXの駆動方式はFFです」「ABCのZの駆動方式はAWDです」「ABCのXの全幅は1760mmです」などが作成される。
【0037】
また、解析用辞書112cに含まれる「要素種別の表現」または「要素値の表現」に合致するものが表内に存在しない、次のケース1乃至3においても、以下の手順で自然言語を作成することが可能である。
【0038】
<ケース1>
まず、解析用辞書112cに含まれる「要素種別の表現」に合致するものが表内に見つからないケース1の動作について、図5のフローチャートを参照して説明する。
【0039】
表情報解析モジュール112aは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する(ステップS11)。もし、「対象の表現」と一致するものがあるならば、表情報解析モジュール112aは、表の2列目以降において、1行目或は2行目から最終行(つまり、少なくとも2行目から最終行)までのセルに、「要素値」カテゴリに含まれる「表現」が出現するかを判定する(ステップS12)。
【0040】
表情報解析モジュール112aは、ステップS11及びS12の判定条件を満たす場合、ステップS12の判定条件を満たす列で一番左側に位置する列に対し、その左側に隣接する列のセルの内容を「要素種別の表現」とみなす(ステップS13)。
【0041】
この際、ステップS12の判定条件を満たす列の1行目のセルに、「要素値」カテゴリに含まれる表現がないならば(ステップS14)、表情報解析モジュール112aは、当該セルの内容を「副対象の表現」とみなす(ステップS15)。
【0042】
<ケース2>
次に、解析用辞書112cに含まれる「要素値の表現」に合致するものが表内に見つからないケース2の動作について、図6のフローチャートを参照して説明する。
【0043】
表情報解析モジュール112aは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する(ステップS21)。もし、「対象の表現」と一致するものがあるならば、表内に「要素種別の表現」が出現する列の右列以降を、それぞれ「要素値」のセルを含む列と見なす(ステップS22)。
【0044】
この際、表情報解析モジュール112aは、「要素種別の表現」が出現する列の1行目のセルが「要素種別の表現」に合致しないならば(ステップS23)、1行目をタイトル行と見なし、1行目で「要素種別の表現」が出現する列の右列以降のセルの内容を「副対象の表現」と見なす。
【0045】
<ケース3>
次に、解析用辞書112cに含まれる「要素種別の表現」及び「要素値の表現」が共に表内に見つからないケース3の動作について、図7のフローチャートを参照して説明する。
【0046】
表情報解析モジュール112aは、表が出現する直前の文中に「対象の表現」と一致するものがあるかを判定する(ステップS31)。もし、「対象の表現」と一致するものがあるならば、表情報解析モジュール112aは、表の2列目以降において、1行目或は2行目から最終行までのセルに、「数字のみ」または「数字+一定文字数以下の短い文字列」の表現が出現するかを判定する(ステップS32)。
【0047】
表情報解析モジュール112aは、ステップS31及びS32の判定条件を満たす場合、ステップS32の判定条件を満たす列で一番左側に位置する列に対し、その左側に隣接する列のセルの内容を「要素種別の表現」とみなす(ステップS33)。
【0048】
この際、ステップS32の判定条件を満たす列の1行目のセルに、「数字のみ」または「数字+短い文字列」の表現がないならば(ステップS34)、表情報解析モジュール112aは、当該セルの内容を「副対象の表現」とみなす(ステップS35)。
【0049】
これにより、解析用辞書112cに含まれる「要素種別の表現」または「要素値の表現」に合致するものが表内に存在しない場合にも、当該「要素種別の表現」または「要素値の表現」、更には「副対象の表現」が既出されたセルを推定できるため、自然言語を作成することが可能である。
【0050】
ここでは、上記ケース1乃至3の処理に関し、いずれのケースの処理を適用するか否かを、管理ユーザ101が変換設定ファイル113に従って選択することができる。
【0051】
更に、上記ケース1,2,3のそれぞれステップS11,S21,S31の判定で、表が出現する直前の文において「対象の表現」と一致するものが含まれないと判定された場合に、以前に「対象の表現」が見つかった文において、(A)「対象の表現出現直前までの記述」及び(B)「対象の表現出現直後の記述」を記憶しておくことにより、(A)と(B)に挟まれた表現を「対象の表現」と見なすことも可能である。この動作についても、管理ユーザ101が変換設定ファイル113に従って選択することができる。
【0052】
なお、要素種別の項目と副対象の項目の配列が逆の場合に対処するには、上述の説明の列と行とを入れ替えて処理すれば良い。
【0053】
前述したように、自然言語付加モジュール112bによって作成された自然言語は、テキスト抽出モジュール114によって知識情報から抽出されたテキスト情報と組み合わされて、登録モジュール13へ送られる。ここでは、タイトルが「ABCについて」の文書情報から抽出されたテキスト情報に、自然言語付加モジュール112bによって作成された自然言語が付されて、登録モジュール13へ送られる。登録モジュール13は、この自然言語が付されたテキスト情報を知識DB121へ登録する。このように、知識情報に含まれている表情報を自然言語に変換して知識DB121に登録した場合、単に表情報から単語を抽出する場合と比べて、自然言語検索の精度を向上することができる。
【0054】
例えば、図2の表を示す表情報を収集した場合、先行技術では、「自動車ABCの商品内容」「X」「Y」「車両価格」「123万円」「138万円」「駆動方式」「FF」「AWD」「全幅」「1760mm」…とそれぞれが1つの単語として収集されるだけである。このため、「ABCの全幅は?」といった自然言語検索では、「全幅」そのものの値はあるものの、全幅とその値が結びついてないため検索精度は必ずしも良くない。これに対して本実施形態では、「ABCのXの全幅は1760mmです」などの自然言語が作成されて元の知識情報(文書情報)から抽出されたテキスト情報と合わせて知識DB121に登録される。このため、先行技術と比べて自然言語検索の精度を向上することができる。
【0055】
図8は、自然言語検索の検索画面例を示す。この検索画面は、検索エンジン122によりWebブラウザ16を介してユーザ102に提示される。ユーザ102は、検索画面に配置された検索条件入力フィールド51に、任意の検索条件を入力するための操作を行う。図8の例は、自然言語検索のために「ABCの金額は?」という検索条件が検索条件入力フィールド51に入力されて、検索ボタン52が押された場合を想定している。この場合、検索エンジン122は、「ABCの金額は?」に合致する知識情報を知識DB121から検索し、その検索結果の一覧を図8に示す検索画面の検索結果表示領域に配置する。この検索結果の一覧に、タイトルが「ABCについて」の文書情報が含まれているものとする。この場合、検索エンジン122は、タイトルが「ABCについて」の文書情報に含まれている図2に示す表から変換された自然言語のうち、検索条件に合致した自然言語「ABCのXの車両価格は123万円です」を、図8に示すように、タイトルが「ABCについて」の文書情報の要約43として提示する。つまり、検索結果の要約に自然言語が表示される。これにより、ユーザ102は、検索結果一覧から目的の検索結果を容易に探すことができる。
【0056】
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
【図面の簡単な説明】
【0057】
【図1】本発明の一実施形態に係るナレッジマネジメントシステムの構成を示すブロック図。
【図2】表の一例を示す図。
【図3】図1中の解析用辞書112cのデータ構造例を示す図。
【図4】表情報自然言語変換機構112による表情報自然言語変換処理の手順を示すフローチャート。
【図5】解析用辞書112cに含まれる「要素種別の表現」が表内に見つからない場合の処理手順を示すフローチャート。
【図6】解析用辞書112cに含まれる「要素値の表現」が表内に見つからない場合の処理手順を示すフローチャート。
【図7】解析用辞書112cに含まれる「要素種別の表現」及び「要素値の表現」が共に表内に見つからない場合の処理手順を示すフローチャート。
【図8】自然言語検索の検索画面例を示す図。
【符号の説明】
【0058】
11…Web情報収集システム、12…知識検索システム、13…登録モジュール、14…設定ファイル、20…インターネット/イントラネット、111…収集制御モジュール、112…表情報自然言語変換機構、112a…表情報解析モジュール、112b…自然言語付加モジュール、112c…解析用辞書、113…変換設定ファイル、114…テキスト抽出モジュール、121…知識DB(データベース)、122…検索エンジン。

【特許請求の範囲】
【請求項1】
知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソースから収集する知識情報収集システムにおいて、
収集された知識情報に表情報が含まれている場合、当該表情報を解析する表情報解析手段と、
前記表情報解析手段の表情報解析結果を自然言語に変換する自然言語変換手段と、
収集された知識情報からテキストデータを抽出するテキスト抽出手段であって、前記自然言語変換手段によって変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、前記知識データベースへの知識情報登録を行う登録手段へ送出するテキスト抽出手段と
を具備することを特徴とする知識情報収集システム。
【請求項2】
表を構成する、少なくとも、要素値、当該要素値に対応する項目の種類を表す要素種別、及び表名に相当する対象の各カテゴリ毎に、そのカテゴリに適用し得る表現を保持する解析辞書を更に具備し、
前記表情報解析手段は、表情報から、前記解析辞書に保持されている表現に合致する、対象の表現、要素種別の表現及び要素値の表現を抽出し、
前記自然言語変換手段は前記表情報解析手段によって抽出された対象の表現、要素種別の表現及び要素値の表現を含む自然言語を作成する
ことを特徴とする請求項1記載の知識情報収集システム。
【請求項3】
請求項1記載の知識情報収集システムによって収集された知識情報が登録される知識データベースと、
ユーザにより指定された自然言語検索条件に従って自然言語検索処理を行って前記知識データベースから当該検索条件に合致した検索結果を取得する検索手段であって、検索結果に表情報を含む知識情報がある場合、当該知識情報に付されている前記表情報から変換された自然言語を、当該知識情報の要約としてユーザに提示する検索手段と
を具備することを特徴とする知識検索システム。
【請求項4】
知識条件設定手段により設定された知識情報収集条件をもとに、知識データベースに登録すべき知識情報を外部データソースから収集する知識情報収集方法において、
収集された知識情報に表情報が含まれているかを判定するステップと、
収集された知識情報に表情報が含まれている場合、当該表情報を解析するステップと、
前記表情報の解析結果を自然言語に変換するステップと、
前記変換された自然言語を、対応する表情報を含む知識情報から抽出されたテキストデータに付して、前記知識データベースに登録させるステップと
を具備することを特徴とする知識情報収集方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2006−106872(P2006−106872A)
【公開日】平成18年4月20日(2006.4.20)
【国際特許分類】
【出願番号】特願2004−289070(P2004−289070)
【出願日】平成16年9月30日(2004.9.30)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】