説明

集合知データベースシステムにおける項目情報処理装置

【課題】複数のユーザからネットワークを通じて提供され、ウィキペデイア等の集合知データベースシステム内に登録されている項目に関する情報を処理する際、項目の編集の要否を正確に判定しユーザに通知する。
【解決手段】集合知データベースシステム内の複数の項目について、各項目に関する情報の中から、文章中の用語とリンク先情報を項目の属性として抽出する。抽出された各項目の属性を用いて、2つの項目同士の類似度を算出する。算出した類似度に応じて前記2つの項目に関する情報の統合を促すように通知する。項目の分割については、1つの項目について、項目に関する情報である文章を段落毎に分割し、段落毎の類似度を属性を用いて計算し、この類似度を用いて段落のクラスタ分析を行う。クラスタ数が1より大きい場合、項目のクラスタ単位の分割を促すように通知する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置に関する。
【背景技術】
【0002】
今日、多数のユーザが保持する情報を、インターネット等の電子ネットワークを通じて寄せ集めたデータベースに関して、データベースの不足情報の補完や誤りの修正を経てより確実な情報の集合体とすることを目的とした集合知データベースシステムがある。例えば、“Wikipedia”(ウィキペディア)が挙げられる。
【0003】
集合知データベースシステムにおいて説明される実際の対象を「オブジェクト」と呼ぶ。集合知データベースシステムでは、情報提供者であるユーザが保持する「オブジェクト」に関する情報に関して、ネットワークを通じた特定のサイト上で、あるいはこのサイトからリンク先が辿れるサイト上で、ユーザ自身がリンクアドレス情報を含ませた文章を記述することができる。記述された文章やリンクアドレス情報は、様々なユーザによって適宜編集される。この「オブジェクト」について記述された文章やリンクアドレス情報は、1つの項目として設けられる。1つの項目に対して1つの「オブジェクト」を対応させることにより、集合知データベースシステムはユーザにとって利用しやすいシステムとなる。
【0004】
しかし、集合知データベースシステムは、多くのユーザの知識を寄せ集めた集合体であるので、以下のようにユーザにとって利用し難い点がある。
【0005】
(1)複数の異なる「オブジェクト」に対して同じ項目が設けられる。
例えば、「オブジェクト」がある人物であり、同姓同名の人物がいる場合、同じ項目に、異なる人間に関する情報が重なって記述される場合がある。
あるいは、情報提供をするユーザの理解の不完全さにより、互いに「オブジェクト」が異なるにもかかわらず、1つの項目が作成される場合がある。
【0006】
(2)1つの「オブジェクト」に複数の項目が設けられる。
例えば「オブジェクト」がある人物であり、その人物が日本人である場合、同じ人物であっても、項目名称の表記はアルファベット表記、カナ表記、漢字表記等あり、各表記に応じて異なる項目が設けられる。また、項目名称について、外来語等をカナ表記にした場合、長音記号の有無によって異なる項目となる場合もある。
あるいは、情報提供をするユーザの理解の不完全さにより、実は同じ「オブジェクト」であるにもかかわらず、2つの項目が設けられる、あるいは、単に別名であるにもかかわらず、別々の項目が設けられる、あるいは、微細な助詞の差異や有無により、既に登録されている項目を十分に調べることなく、同一の「オブジェクト」について新たな項目を設ける場合がある。この場合、項目「A」の他に項目「B」が作成される。つまり、同じ「オブジェクト」の情報が2つの項目に分散してしまう。
あるいは、人物の名称は、その人物の母国語で記述すべきである、あるいは、人物の名称は、使用される場所の表記を用いるべきである等、ユーザ毎に流儀を持って項目の名称を定める場合、同一人物であるにもかかわらず、一方のユーザは人物の名称を「A」と定め、他方のユーザは人物の名称を「A’」と定め、項目を新設する場合もある。
【0007】
このように、「オブジェクト」が同一にも係わらず、複数の項目を設ける場合や、「オブジェクト」が異なるにもかかわらず、1つの項目に関する情報として、異なる「オブジェクト」の情報が記述されるケースがある。
【0008】
一方、マルチメディアに関し、特に、マルチメディアメタデータを生成するために、コミュニティによって生成された、ウィキペデイア等のデータ情報源を用いる技術が知られている。具体的には、まず、ウィキペデイア等のコミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する。次に、ウェブページから複数の用語を抽出する。コンテンツに関連するコンテンツメタデータに、抽出した複数の用語を追加する。この後、コンテンツメタデータから特定のカテゴリデータを抽出し、特定のカテゴリデータをカテゴリテータセットに取り込み、前記カテゴリデータセットと関係データに基づくカテゴリデータセットの次元数を減少させる。最後に、前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義する。このように、コミュニティによって生成された、ウィキペデイア等のデータ情報源を用いて、マルチメディアメタデータを生成することができる。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2008−4080号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、上記公知の方法におけるコンテンツメタデータは、ウィキペデイア等のデータ情報源(集合知データベースシステム)に基づいて生成されるため、ウィキペデイア等のデータ情報源が正しく編集されない限り、質のよいメタデータを生成することはできない。
【0011】
そこで、本発明は、複数のユーザからネットワークを通じて提供され、ウィキペデイア等の集合知データベースシステム内に登録されている項目を編集するとき、項目の編集の要否を正確に判定することのできる項目情報処理装置を提供することを目的とする。
【課題を解決するための手段】
【0012】
上記目的は、複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する以下に示す項目情報処理装置で実現され得る。
その際、
(A)前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含む。
第1の態様である、項目の統合処理を行う項目情報処理装置は、
(B)前記集合知データベースシステム内の選択された2つの項目について、該2つの項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
(C)前記属性抽出部にて抽出された前記属性を用いて、前記2つの項目同士の類似度を算出する属性演算部と、
(D)前記類似度に基づいて前記2つの項目の統合の要否を判定する編集処理部と、
(E)前記編集処理部の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有する。
【0013】
また、第2の態様である項目情報処理装置は、
(F)前記集合知データベースシステムに登録されている全項目を処理対象項目として項目毎に、項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
(G)前記全項目からつくられる2つの項目の全組み合わせそれぞれについて、組み合わせに用いる項目の前記属性を用いて、項目間の類似度を取得する属性演算部と、
(H)取得した類似度が予め定められた閾値より高い項目の2つ以上の組み合わせであって、お互いの組み合わせが互いに共通する項目を共有するとき、前記2つ以上の組み合わせに用いる項目を1つの項目に統合することを要すると判定する編集処理部と、
(I)前記編集処理部の判定結果に応じて、項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有する。
【0014】
一方、第3の態様である項目の分割処理を行う項目情報処理装置は、
(J)前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割する段落分割部と、
(K)前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出する属性抽出部と、
(L)前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する属性演算部と、
(M)前記類似度の算出結果に基づいて、前記選択された項目の分割の要否を判定する編集処理部と、
(N)前記編集処理部の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有する。
【発明の効果】
【0015】
上述の項目情報処理装置および項目情報処理方法は、項目の編集(統合、分割)処理の要否を正確に判定しユーザに通知することができる。したがって、ユーザにとって扱い易い集合知データベースシステムが実現でき、より多くのユーザにより利用され得る。
【図面の簡単な説明】
【0016】
【図1】項目情報処理装置を用いた項目情報処理システムの一実施形態の概略の構成を示す図である。
【図2】図1に示す項目情報処理システムにおいて行う統合処理の概要を説明する図である。
【図3】図1に示す項目情報処理システムにおいて行う分割処理の概要を説明する図である。
【図4】(a)および(b)は、図1に示す項目情報処理装置が行うリンクアドレス情報の抽出結果および単語の抽出結果の例を示す図である。
【図5】図2に示す統合処理の流れを説明するフローチャートである。
【図6】(a)および(b)は、図5に示す統合処理において統合対象となる項目の例と、作成された統合項目案の例を示す図である。
【図7】図6(b)とは異なる統合項目案の他の例を示す図である。
【図8】図3に示す分割処理の流れを説明するフローチャートである。
【図9】(a)および(b)は、図8に示す分割処理において分割対象となる項目の例と、作成された分割項目案の例を示す図である。
【発明を実施するための形態】
【0017】
以下、本発明の項目情報処理装置について実施形態に基づいて詳細に説明する。図1は、項目情報処理装置を用いた項目情報処理システムの一実施形態の概略構成図である。
【0018】
図1に示す項目情報処理システム10は、“Wikipedia”(ウィキペディア)等の集合知データベースシステムに登録されている項目とその項目に関する情報とを編集処理するか否かを判定するシステムである。集合知データベースシステムは、集合知データベースサーバ14とユーザ端末16とを備える。一方、項目情報処理システム12は、集合知データベースシステムに加えて、項目情報処理装置12およびシステム管理者端末18を含む。
ここで、編集は、項目の統合および分割を含む。項目の統合および分割に応じて、項目に関する情報の統合および分割も行われる。集合知データベースシステムに登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、この文章に付随して記されているリンク先情報と、を含む。リンク先情報は、集合知データベースシステム内の内部リンク先情報および集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方を含む。
項目の統合、分割の要否の判定は、類似度を計算することによって行われる。この類似度は、項目に関する情報に含まれる属性を用いて算出される。属性とは、項目を特徴付けるものであり、項目に関する情報に含まれる用語、内部リンクアドレス情報、外部リンクアドレス情報を含む。
【0019】
(項目情報処理システムの統合処理の概要)
図2は、項目情報処理システム10において行う編集処理のうち、統合処理を説明する図である。統合処理は、主に項目情報処理装置にて行われる統合の要否の判定と統合項目案の作成を含む。図2に示す統合処理は、お互いの項目同士が実は同じ「オブジェクト」であるにもかかわらず、集合知データベースシステムにおいて項目Aと項目Bとが登録されて設けられている場合の統合処理の概要を説明している。
まず、項目情報処理システム10の項目情報処理装置12は、項目Aに関する情報を集合知データベースシステムから選択して、外部リンクアドレス情報、内部リンクアドレス情報、用語を抽出する。一方、項目Bについても、項目Bに関する情報を集合知データベースシステムから取り出して、外部リンクアドレス情報、内部リンクアドレス情報、用語を抽出する。項目情報処理装置12は、抽出した外部リンクアドレス情報、内部リンクアドレス情報、用語を用いて、類似度の計算を行う。類似度の結果が予め定めた閾値を越える場合、項目情報処理装置12が、統合項目案を作成するとともに、ユーザあるいはシステム管理者に項目Aと項目Bの統合の催促を通知する。項目情報処理装置12は、ユーザあるいはシステム管理者から統合承認の返答を受け、さらに、統合項目案の承認を受けると、作成した統合項目案は確定し、この統合項目案が、集合知データベースサーバ14における新たな項目として登録される。
【0020】
(項目情報処理システムの分割処理の概要)
図3は、分割処理を説明する図である。分割処理は、主に項目情報処理装置12にて行われる分割の要否の判定と分割項目案の作成を含む。図3に示す分割処理は、互いに異なる複数の「オブジェクト」であるにもかかわらず、1つの項目Aに複数の「オブジェクト」に関する情報が含まれている場合の分割処理の概要を説明している。
まず、項目情報処理システム10の項目情報処理装置12は、項目Aに関する情報を集合知データベースシステムから選択して、この情報を段落単位に分割する。項目Aの段落は、段落1〜3を含む場合を想定する。この場合、項目情報処理装置12は、段落1〜3においてそれぞれ、外部リンクアドレス情報、内部リンクアドレス情報、用語を抽出する。抽出した外部リンクアドレス情報、内部リンクアドレス情報、用語を用いて、項目情報処理装置12は、段落1と段落2、段落2と段落3、及び段落3と段落1との間の類似度の計算を行い、さらにこの類似度の算出結果に基づいて、段落のクラスタ分析を行う。クラスタ分析では、項目情報処理装置12は、類似度の計算結果に基づいて段落の分割すべき数に当たるクラスタ数を求め、このクラスタ数が1より大きい場合、項目の分割を要すると判定する。このとき、項目情報処理装置12が、分割項目案を作成するとともに、ユーザあるいはシステム管理者に分割の催促を通知する。ユーザあるいはシステム管理者から分割承認の返答を受け、更に、分割項目案も承認されると、分割項目案は確定し、集合知データベースサーバ14に新たな項目として登録される。
【0021】
(項目情報処理システムの構成)
項目情報処理システム10は、図1に示されるように、項目情報処理装置12と、集合知データベースサーバ14と、複数のユーザ端末16と、システム管理者端末18と、を有する。
項目情報処理装置12は、集合知データベースサーバ14に登録されている項目の編集の要否を判定し、統合項目案、分割項目案の作成を行う。項目情報処理装置12は、ネットトワーク20を介して、集合知データベースサーバ14およびユーザ端末16に接続され、さらに、システム管理者端末18に接続されている。
【0022】
項目情報処理装置12は、CPU(演算処理ユニット)22、メモリ24、通信部26を備えるコンピュータである。メモリ24に記憶されたプログラムが起動することにより、以下の各部分がモジュールとして形成される。すなわち、プログラムが起動した項目情報処理装置12は、属性抽出部28、属性演算部30、編集処理部32および段落分割部34をソフトウェアモジュールとして有する。
【0023】
属性抽出部28は、集合知データベースサーバ14内に登録されている複数の項目について、各項目に関する情報の中から、文書中の複数の用語と、外部リンクアドレス情報および内部アドレスリンク情報とを、属性として抽出する。抽出された属性は、メモリ24に記録される。
【0024】
図4(a)は、項目に関する情報から、リンク先アドレス情報を抽出した一例を示している。図4(a)に示す項目に関する情報(上側枠内)は、“CP violation”を項目とする”Wikipedia”に示されるデータの一例である。このデータは、外部リンクアドレス情報および内部リンクアドレス情報が所定の書式で記述されているので、外部リンクアドレス情報および内部リンクアドレス情報を容易に抽出することができる。図4(a)の下側枠内には、抽出した結果が示されている。これらのリンクアドレス情報は、項目の属性を表すものとして後述する類似度の算出に用いられる。
【0025】
各項目に関する情報内の文章から抽出される複数の用語については、まず、文章を単語単位で分解する。図4(b)は、項目に関する情報内の文章を単語に分解した一例を示している。この処理は、形態素解析プログラム(例えば“茶筅”)を用いて行われる。これら分解して取り出された各単語については、重要な用語として予め設定されている用語群を検索し、検索の結果、合致する単語がある場合、この単語が項目の属性として用いる用語とされる。この用語群には、例えば、固有名詞や各ジャンルに分けられた専門用語や普通名詞等が含まれている。したがって、この場合、属性として用いる用語は、固有名詞、専門用語、普通名詞を含む。
【0026】
属性演算部30は、属性抽出部28にて抽出された各項目の属性を用いて、2つの項目同士の類似度を算出する。
類似度の算出は、公知の方法が用いられる。例えば、「ベクトル空間法を利用した類似度計算」,渋谷翔吾,廣安知之,三木光範著、
(http://nlp.nagaokaut.ac.jp/%E9%A1%9E%E4%BC%BC%E5%BA%A6:2009年5月28日検索)に示される方法を用いる。属性抽出部28が抽出した属性をべクトルで表して類似度の計算を行うことができる。
類似度は、二つの項目A,B(あるいは各項目に関する情報内の段落)を入力とすることにより求められる0以上1以下の一つの実数で表される。二つの項目(あるいは段落)A,Bから一つの実数を求める関数をSimilar(A,B)と表すとき、このSimilar( , )は次の(条件1)〜(条件3)を備える。
(条件1):任意の項目(あるいは段落)A,Bに対して、Similar(A,B)の値は最大1、最小0の範囲の実数値を取る。
(条件2):任意の項目(あるいは段落)A,Bに対して、項目(あるいは段落)A,Bの入力の順番を入れ替えても値は等しい。Similar(A,B)=Similar(B,A)
(条件3):任意の項目(あるいは段落)A,Bに対して、二つの入力として同一の項目(あるいは段落)Aを与えた場合、その値は必ず1になる(だが逆に値が1であってもその二つの入力が同一であるとは限らない)。
【0027】
(類似度の算出法1)
このような類似度の定義に対して、例えば、外部リンクアドレス情報あるいは内部リンクアドレス情報を属性としたときの類似度の計算は、以下のように行われる。
類似度の計算をしたい二つの項目(あるいは段落)のうち項目Di(i番目の項目)から外部リンクアドレス情報、内部リンクアドレス情報の二種のみを抽出して、外部リンクアドレス情報、内部リンクアドレス情報を要素とする集合{νi}を作成する。同様にしてもう一方の項目(あるいは段落)Dj(j番目の項目)から集合{νj}を作成する。ここで、集合{νi}、集合{νj}は、項目(あるいは段落)Di,Djの外部リンクアドレス情報、内部リンクアドレス情報の二種のみを抽出してリストとして列挙した集合である。さらに、集合{νi}と集合{νj}とをマージして重複要素を除いたものを集合{νu}とする。
ここで各項目(あるいは各段落)Diを特徴付ける「特徴ベクトル」として以下の集合{φi }を導入する。つまり、集合{νu}の要素と一致するものが項目Diの中にいくつ含まれているかをカウントしそのカウント結果を集合{φi}とする。ここでφik (集合{φi }のk番目の要素)= 「項目Diに含まれている、集合{νu}のk番目の要素と一致する個数」である。この方法で項目Diと項目Dj各々の特徴ベクトル{φi}と{φj}を求める。これにより、下記式(1)で定まる量「Sim1」を、項目Diと項目Djの類似度とする。
【0028】
【数1】

【0029】
すなわち、式(1)は、「二つの項目で記述されているリンクが一致している個数が多いほど類似度が高い」ことを示す。勿論、「Sim1」は、上記Similar関数の満たすべき条件1〜条件3を満足している。
類似度の計算は、上述したように「項目Diに含まれている、集合{νu}のk番目の要素と一致する個数」を用いて行うが、このとき用いる「個数」は、外部リンクアドレス情報、内部リンクアドレス情報が完全に一致している場合の整数の値である。しかし、これ以外に、下記のように、外部リンクアドレス情報、内部リンクアドレス情報の一部が一致するとき、0〜1の値を付与してもよい。例えば、外部リンクアドレス情報同士の類似度の場合、アドレスが完全に一致していれば値1が、外部リンクアドレス情報内のファイル名部分のみが異なり、他の部分が一致していれば値0.7が、外部リンクアドレス情報内のサーバ部分だけが一致しているならば値0.3が付与されてもよい。
内部リングアドレス情報同士の類似度の場合、例えば、同じ項目をリンクしていれば値1が、内部リングアドレス情報に対してリンク先のジャンルが定義されていてこのジャンルが一致していれば値0.8が付与されてもよい。上記式(1)中の分母の|φi|,|φj|は、{φi},{φj}の全要素数である。
【0030】
(類似度の算出法2)
類似度の算出例2は、用語、外部リンクアドレス情報、および内部リンクアドレス情報を用いて類似度を算出する例である。
類似度を算出したい二つの項目のうち項目Diから、予め定められた用語群のリストTに掲載されている用語と合致する単語、外部リンクアドレス情報、内部リンクアドレス情報を抽出して集合{δi}が作成される。同様にしてもう一つの項目Djから集合{δj}が作成される。ここで、集合{δi}、集合{δj}は、用語、外部リンクアドレス情報、および内部リンクアドレス情報を抽出してリストとして列挙したものである。
項目Diと項目Djとの間の類似度は、項目Diから算出された特徴ベクトルψiと、項目Djから算出された特徴ベクトルψjとを用いて下記式(2)を用いて算出される。ここで、特徴ベクトルψiのk番目の要素ψikの値は、上述した集合{δi}のm番目の要素と、集合T’(T’は、例1と同様にして作成された集合{νu}と、予め有効な用語として定められた用語群{T}との和集合である)を構成するk番目の要素との間の類似度を算出し、この算出結果を、mを0から集合{δi}の要素数まで変化させながら合計することによって求められた値である。特徴ベクトルψjも同様に求められる。
このような特徴ベクトルψi,ψjを効率よく求めるために、和集合T’を構成する要素相互間の類似度を予め計算しておくとよい。すなわち、i番目の要素T’iとj番目の要素T’jとの類似度の値を予め算出しておくとよい。
【0031】
【数2】

【0032】
ここで、上記式(2)の各要素間の類似度の値Sim( , )の値は例えば以下のように定める。
・外部リンクアドレス情報同士の類似度の場合、例えば、外部リンクアドレス情報が完全に一致していれば値1を、ファイル名部分のみが異なり、それ以外の部分が一致していれば値0.7を、サーバ部分だけが一致しているならば値0.3を付与する。
・内部リングアドレス情報同士の類似度の場合、例えば、同じ項目をリンクしていれば値1を、内部リングアドレス情報においてリンク先のジャンルが定義されていてこのジャンルが一致していれば値0.8を付与する。
・さらに、用語同士の類似度の場合、用語同士が完全に一致していれば値1を、用語にジャンルが予め定義されていてこのジャンルが一致していれば値0.8を付与する。
・それ以外の場合、値0を付与する。
以上のように、属性演算部30は類似度を算出する。算出された類似度は、メモリ24に記録される。
【0033】
編集処理部32は、属性演算部30により算出された類似度に基づいて、項目の統合および項目の分割の要否を判定する。さらに、編集処理部32は、統合処理において項目の統合を要すると判定した場合、2つの項目同士を1つの項目に統合した統合項目案を作成する。すなわち、算出した類似度が予め定めた閾値を越えるとき、統合項目案を作成する。統合項目案の作成では、2つの項目の内、一方の項目を主となる項目とし、他方の項目を従となる項目とし、従となる項目に関する情報を主となる項目に関する情報にマージする。勿論、主となる項目に関する情報中に融合するように従となる項目に関する情報を含ませてもよい。作成された統合項目案は、ユーザあるいはシステム管理者に通知される。この通知に対して、ユーザおよびシステム管理者から統合の返答および統合項目案の返答を待っているとき、統合項目案は仮統合中として、ユーザに公開される。
【0034】
編集処理部32は、また、2つの項目同士の統合が確定したとき、統合した新たな項目に対して統合処理対象情報を付与する。統合処理対象情報は、今後行う統合処理の対象項目となること示す情報である。すなわち、統合処理対象情報は、項目の属性の抽出、類似度の計算を今後行うとき、項目を選択する基準として用いられる。編集処理部32は、さらに、2つの項目同士の統合が確定したとき、統合した新たな項目に、今後行う分割処理の対象項目であることを示す分割処理対象情報も付与する。統合した項目は、今後分割することもあるからである。
なお、項目に付与された統合処理対象情報は、集合知データベースサーバ14内に登録されている全項目との間で類似度の算出が行われた結果、算出した類似度がいずれも閾値を越えないとき(統合を要しないと判定したとき)、この項目から、統合処理対象情報が除去される。したがって、この項目は、今後統合処理の対象とならない。
【0035】
一方、分割処理の場合、編集処理部32は、類似度の計算後、この類似度の結果に基づいて項目の分割の要否を判定する。具体的には、算出した類似度に基づいてクラスタ分析を行う。編集処理部32は、クラスタ分析において、段落がいくつのクラスタに分かれるかを調べ、このクラスタ数に応じて、項目の分割の要否を判定する。クラスタ分析は、公知の方法が用いられる。例えば、「文書クラスタリングの基礎」,大西 祥代,廣安 知之,三木 光範著,
(http://mikilab.doshisha.ac.jp/dia/research/report/2007/0913/004/report20070913004.html:2009年5月28日検索)で提唱する方法が用いられる。あるいは、公知の自己組織化マップを用いたクラスタ分析が用いられる。自己組織化マップを用いたクラスタ分析は、例えば、「自己組織化マップ(Self-Organizing Maps)の基礎」、伊藤冬子,廣安 知之,三木 光範著,
(http://mikilab.doshisha.ac.jp/dia/research/report/2005/0822/007/report20050822007.html:2009年5月28日検索)にその方法が説明されている。
【0036】
編集処理部32は、分割処理において項目の分割を要すると判定した場合、項目を分割した分割項目案を作成する。すなわち、クラスタ分析の結果、クラスタ数が1を超える場合、分割項目案を作成する。分割項目案の作成では、新たな項目を新設して分割する。このような分割項目案は、ユーザあるいはシステム管理者に通知される。分割項目案をユーザあるいはシステム管理者に通知し、ユーザおよびシステム管理者から分割の返答および分割項目案の返答を待っているとき、分割項目案は仮分割中として、ユーザに公開される。
編集処理部32は、また、項目の分割が確定したとき、分割した新たな項目に、今後行う統合処理の対象項目であることを示す統合処理対象情報を付与する。分割した項目は、将来統合することもあるからである。このとき、分割処理対象情報は付与されない。分割された項目を更に細かく分割することはない。
【0037】
段落分割部34は、項目の分割処理の場合、項目に関する情報内の文章の各段落をそれぞればらばらに分割する。項目の統合処理の場合、段落分割部34は機能しない。
段落分割部34は、分割処理対象情報が以前付与され、現在この分割処理対象情報が付与されている項目を選択して、段落の分割処理を行う。分割処理対象情報は、分割処理を行うための項目を選択する基準として用いられる。
【0038】
通信部26は、統合処理の場合、算出された類似度が予め設定された閾値より高い場合、2つの項目の統合を促すように、ユーザ端末16またはシステム管理者端末18に通知する。通信部26は、分割処理の場合、クラスタ数が1より大きい場合、項目の分割を促すように、ユーザ端末16またはシステム管理者端末18に通知する。
通信部26は、項目の統合を促す場合、同時に編集処理部32で作成された統合項目案をユーザ端末16、システム管理者18に送る。この場合、ユーザあるいはシステム管理者は、統合の催促の通知を受けると、統合の承認の可否と、統合項目案の承認の可否とを、項目情報処理装置12に返信することができる。編集処理部32は、通信部26が受信した返答に応じて、統合項目案は確定する。あるいは、通信部26が統合は承認するが統合項目案は認められないとの返答を受け、ユーザあるいはシステム管理者から提案された代替案を受信した場合、編集処理部32は受信した代替案が統合項目として確定する。あるいは、通信部26が項目の統合を承認しないとの返答を受けた場合、統合項目案は削除され、元の項目とこの項目に関する情報を維持する。
【0039】
また、通信部26は、項目の分割を促す場合、同時に編集処理部32で作成された分割項目案をユーザ端末16、システム管理者18に送る。この場合、ユーザあるいはシステム管理者は、分割の催促の通知を受けると、分割の承認の可否と、分割項目案の承認の可否とを、項目情報処理装置12に返答することができる。編集処理部32は、通信部26が受信した返答に応じて、分割項目案は確定する。あるいは、分割は承認するが、分割項目案は認められないとの返答を通信部26が受け、ユーザあるいはシステム管理者から提案された代替案を受信した場合、編集処理部32は受信した代替案が分割項目として確定する。あるいは、通信部26が項目の分割を承認しないとの返答を受けた場合、分割項目案は削除され、元の項目とこの項目に関する情報を維持する。
【0040】
集合知データベースサーバ14は、CPU(演算処理ユニット)42、メモリ44、通信部46、データベース48を備えるコンピュータであり、メモリ44に記憶されたプログラムが起動することにより、集合知データベースシステムとして機能する。
集合知データベースサーバ14は、ユーザ端末16からアクセスされて項目の検索指示を受けることにより、データベース48に登録されている項目を検索する。また、ユーザ端末16あるいはシステム管理者端末18のアクセスを受けて、データベース48に登録されている項目および項目に関する情報は編集(統合、分割)される。
【0041】
ユーザ端末16は、項目に関する情報を、集合知データベースサーバ14に送信し、さらに、項目の統合あるいは項目の分割の催促の通知を受け、この通知に対する返答を項目情報処理装置12に行う通信部を有する。
システム管理者端末18も、項目の統合あるいは分割の催促の通知を受け、この通知に対する返答を項目情報処理装置12に行う通信部を有する。
【0042】
(項目の統合処理方法)
図5は、項目情報処理システム10が行う項目の統合処理のフローを示す図である。以下で述べる統合処理は、断続的にあるいは定期的に行われる。
まず、項目情報処理装置12の属性抽出部28は、集合知データベースサーバ14のデータベース48から統合処理対象情報が付与されている項目を1つ選択する(ステップS10)。この項目を項目aとする。統合処理対象情報は、新しい項目が新設された場合、あるいは、後述する項目の統合や分割によって新たな項目が設定されたとき、この項目に付与される情報である。
次に、属性抽出部28は、項目a以外の他の項目(項目bとする)を選択する(ステップS20)。項目bは、統合処理対象情報の付与の有無に係わらずデータベース48に登録されている項目の中から選択される。
【0043】
次に、属性抽出部28は、項目aと項目bの属性を抽出する(ステップS30)。属性は、上述したように、用語と、外部リンクアドレス情報と、内部リンクアドレス情報とを含む。用語の抽出は、まず公知の形態素プログラムを用いて項目に関する情報(文章)を単語に分解し、分解した複数の単語について、項目情報処理装置12において予め設定されている用語群の中の用語に合致する単語を検索し、合致する単語を項目の属性となる用語として抽出する。一方、外部リンクアドレス情報および内部リンクアドレス情報は、項目に関する情報内に所定の書式で記述されているので、所定の書式を検索することにより、すべての外部リンクアドレス情報および内部リンクアドレス情報を抽出することができる。予め設定されている用語群の各用語は、項目の説明文章を特徴付ける言葉として定められたもので、各用語には、各用語が属するジャンルが定められている。このジャンルは、上述したように類似度の計算の際に用いられる。
【0044】
次に、属性演算部30は、抽出された属性を用いて項目aと項目bとの間の類似度を算出する(ステップS40)。類似度の算出は、上述した式(1)あるいは式(2)で定義されるSim1あるいはSim2の関数を用いて行われる。算出された類似度の結果は、メモリ24に記憶される。
【0045】
次に、編集処理部32は、算出された類似度が予め設定されている閾値より大きいか否かを判定する(ステップS50)。類似度が閾値より大きい場合、編集処理部32は、統合を要すると判定し、項目aと項目bを統合した項目cを統合項目案として作成する(ステップS60)。
項目を統合するとき、主となる項目に関する情報の後段に、他方の従となる項目に関する情報をマージすることにより、自動的に統合項目案を作成する。主となる項目および従となる項目の設定は、各項目の外部リンクアドレス情報の個数、内部リンクアドレス情報の個数、および属性として扱われる用語の個数のそれぞれを重み付け加算した値を求め、この値の大きい方の項目を主となる項目とする。
項目cでは、従となる項目の情報をマージした部分には、例えばマーカが付加されてユーザ等に表示される。また、主となる項目に関する情報中の文章が複数の段落で構成されている場合、段落毎に従となる項目に関する情報を配置してもよい。またその配置場所を段落毎に変えてもよい。
なお、ステップS50における判定において、類似度が閾値以下である場合、後述するステップS80に進む。
【0046】
次に、通信部26は、ユーザ端末16に項目aと項目bの統合を促す通知を送る(ステップS70)。この通知は、システム管理者端末18に送られてもよい。この通知とともに、項目cが統合項目案として送付される。ユーザは、後述するように、統合の催促の通知を受けて、統合の承認の可否を判断する。承認の可否は、通知に対する返答として、ユーザ端末16から送信される。
次に、項目bについて、データベース48に登録されている項目a以外の項目を、全て選択したか否かが判定される(ステップS80)。判定の結果が否定である場合、項目bとして選択された項目が変更され、新たな項目が項目bとされ(ステップS90)、ステップS30に戻る。判定の結果が肯定である場合、項目bの選択は終了する。これにより、項目aの統合処理は終わる。このとき、統合処理対象情報が付与されている項目aから、統合処理対象情報が消去される。今後、統合処理を行うとき、ステップS10において、この項目aは選択されない。
【0047】
次に、データベース24に登録されている、統合処理対象情報の付与されている項目全てについて選択したか否かが判定される(ステップS100)。判定結果が肯定の場合、統合処理は終了する。判定結果が否定の場合、項目aとして選択されている項目が変更されて新たな項目が項目aとして選択され(ステップS110)、ステップS20に戻る。
【0048】
上記ステップS10〜S100を繰り返し、ステップS50の判定が肯定の場合、通信部26は、ユーザ端末16へ項目の統合を促す通知(ステップS70)をするが、通知の後、この通知に対する返答をユーザ端末16から受ける。編集処理部32は、この返答において、ユーザが統合を承認したか否かを判定する(ステップS120)。ユーザが項目の統合と統合項目案(項目c)を承認した場合、統合は確定し(ステップS130)、統合項目案がデータベース48に登録される。なお、ユーザは統合を承認したが、統合項目案は承認しない場合、編集処理部32は、ユーザから返信された代替案を統合した項目として確定し、データベース48に登録する。統合の対象とされた項目aおよび項目bは、登録から削除される。しかし、この項目aおよび項目bはデータベース48から消去されない。今後、必要に応じて過去に登録された項目a、項目bとして復元可能とするためである。この後、編集処理部32は、統合されて作られた項目に統合処理対象情報および分割処理対象情報を付与する(ステップS140)。統合処理対象情報および分割処理対象情報を項目に付与するのは、項目情報処理装置12が、統合処理および分割処理を今後行うとき、処理対象項目として容易に選択できるようにするためである。
一方、ユーザが統合を承認しない場合、復元処理が施される(ステップS150)。復元処理では、統合項目案が消去され、統合の対象とされた項目aおよび項目bの登録がそのまま維持される。
以上の一連の統合処理は、定期的にあるいは断続的に行われる。
【0049】
図6(a)は、データベース48に登録されている例として、項目「ラパ・ヌイ」と項目「イースター島」と、これらの項目に関する情報が示されている。「ラパ・ヌイ」と「イースター島」は、実際は同じ「オブジェクト」であるため、項目が2つ設定されるのは本来適切でない。実際、項目「ラパ・ヌイ」と項目「イースター島」の類似度は、予め設定された閾値より大きくなり、項目の統合を要すると判定され、統合の催促が項目情報処理装置12からユーザ端末16あるいはシステム管理者端末18に通知される。
【0050】
図6(b)は、項目「ラパ・ヌイ」と項目「イースター島」を統合した統合項目案の一例を示している。この例では、項目「ラパ・ヌイ」を主となる項目とし、項目「イースター島」を従となる項目とし、項目「ラパ・ヌイ」に関する情報に後続して、項目「イースター島」に関する情報を結合している。このような統合項目案がユーザ端末16あるいはシステム管理者18に送られる。また、情報の最初の部分には、「本記述は項目「ラパ・ヌイ」と項目「イースター島」を仮に統合したもの・・・・「承認」クリックしてください。」と記されている。このような統合項目案は、仮統合中としてユーザに公開される。
図7は、項目「ラパ・ヌイ」と項目「イースター島」の統合を、結合ではなく、融合した例である。このような融合された文章はユーザやシステム管理者によって仮編集されて、統合項目案として作成されてもよい。
【0051】
以上の統合処理の方法は、所定のプログラムを項目情報処理装置(コンピュータ)12のメモリ24から呼び出して実行することにより、実現される。
すなわち、所定のプログラムは、項目演算処理装置12のCPU(演算処理ユニット)22が、集合知データベースサーバ14から選択された2つの項目について、各項目に関する情報の中から、用語とリンク先情報とを、属性として抽出し、メモリ24に記憶する手順と、CPU22が、抽出された項目の属性を用いて、2つの項目同士の類似度を算出する手順と、CPU22が、算出した類似度に基づいて項目の統合の要否を判定する手順と、CPU22が、項目の統合の要否の判定結果に応じて2つの項目に関する情報の統合を促すように、ユーザ又はシステム管理者に通知する信号を生成する手順と、を記録したプログラムである。
【0052】
以上のように、項目の統合処理では、用語の他に、リンクアドレス情報を用いるので、リンクアドレス情報を用いず用語のみを用いた類似度の計算を行った場合に比べて項目の統合の要否を正確に判定することができる。
また、項目情報処理装置12は、算出した類似度に応じて、2つの項目同士を1つの項目に統合した統合項目案を作成するので、ユーザの統合項目案の作成の負担を軽減し、集合知データベースシステムへの参加を促進する。
項目情報処理装置12は、2つの項目同士の統合が確定したとき、統合した新たな項目に、統合処理対象情報を付与するので、今後の統合処理において選択すべき項目を容易に識別することができる。
さらに、項目情報処理装置12は、項目の統合を要しないと判定したとき、選択された項目から統合処理対象情報を消去するので、今後の統合処理において行う類似度の計算の負担を軽減することができる。
項目情報処理装置12は、2つの項目同士の統合が確定したとき、統合した新たな項目に分割処理対象情報を付与するので、今後の分割処理において選択すべき項目を容易に識別することができる。
【0053】
(変形例)
図1に示す項目情報処理システム10の変形例として、以下のものが挙げられる。
項目情報処理システム10において、統合処理を行うとき、項目情報処理装置12の属性抽出部32は、集合知データベースサーバ14に登録されている全項目を処理対象項目として項目毎に属性を抽出する。属性演算部30は、全項目から得られる2つの項目の全組み合わせについて、それぞれ類似度を取得する。編集処理部32は、取得した類似度が予め定められた閾値より高い項目の2つ以上の組み合わせであって、お互いの組み合わせが互いに共通する項目を共有するとき、2つ以上の組み合わせに用いる項目を1つの項目に統合することを要すると判定する。通信部26は、編集処理部32の判定結果に応じて、項目の統合を促す内容を、ユーザまたはシステム管理者に通知する。すなわち、類似度が予め定められている閾値を越え、お互いの組み合わせが互いに共通する項目を共有するとき、これらの項目を1つの項目として統合する。
このように、3以上の項目を統合するような場合、効率よく項目の統合を実行することができる。
【0054】
(項目の分割処理方法)
図8は、項目情報処理システム10が行う項目の分割処理のフローを示す図である。以下で述べる分割処理は、上述した統合処理と同様に、断続的に、あるいは定期的に行われる。
【0055】
まず、項目情報処理装置12の属性抽出部28は、集合知データベースサーバ14のデータベース48から分割処理対象情報が付与されている項目を1つ選択する(ステップS210)。この項目を項目Aとする。分割処理対象情報は、新しい項目が新設された場合や、上述した項目の統合によって新たな項目が設定された場合、分割処理の対象となる項目であることを表す情報である。
次に、段落分割部34は、選択された項目Aに関する情報内の文章を段落毎に分割する(ステップS220)。段落は、項目Aに関する情報内で記述されている文章を改行によって区分けした単位であるので、この改行により、段落毎の分割を容易に行うことができる。
【0056】
次に、属性抽出部28は、分割した段落毎に、各段落の属性を抽出し、属性演算部30は、各段落間の類似度を算出する(ステップS230)。属性の抽出は、統合処理における項目の属性の抽出と同様の方法で行う。用語の抽出については、まず公知の形態素プログラムを用いて項目に関する情報(文章)を単語に分解し、分解した単語に関して、項目情報処理装置12において予め設定された用語群内の用語に合致する単語を検索し、合致する単語を項目の属性として抽出する。一方、外部リンクアドレス情報および内部リンクアドレス情報については、項目に関する情報内に所定の書式で記述されているので、書式を検索することにより、すべての外部リンクアドレス情報および内部リンクアドレス情報を属性として抽出することができる。
各段落間の類似度の算出は、項目の属性を用いた類似度の計算と同様に、各段落の属性を用いて上述した式(1)、式(2)を用いて類似度を計算する。類似度の計算結果は、メモリ24に記憶される。
【0057】
次に、編集処理部32は段落に関するクラスタ分析を行う(ステップS240)。クラスタ分析では、算出した各段落間の類似度の結果を用いて、段落をクラスタに分ける。クラスタ分析の方法は、上述した方法で行われる。クラスタ分析により、1つあるいは複数のクラスタに分けられる。
次に、編集処理部32は、クラスタ数が1より大きいか、すなわち、クラスタ数が2以上か又は1かを判定する(ステップS250)。クラスタ数が2以上とは、クラスタが2つ以上存在することを意味する。したがって、クラスタ単位で段落を分割する。クラスタ数が2であれば項目は2つに分割され、クラスタ数が3以上であれば項目は3以上に分割される。
【0058】
ステップS250の判定が肯定の場合、すなわち、クラスタ数が2以上である場合、編集処理部32は、クラスタ数に応じて項目を新設し、クラスタに属する段落の情報を引用することで、新設した項目(項目C)に関する情報を作成する(ステップS260)。こうして分割項目案が作成される。一方、ステップS250の判定が否定の場合、すなわち、項目の分割は不要と判定された場合、後述するステップS280に進む。
次に、通信部26は、ユーザ端末16に対して、項目Aの分割の催促の通知を行う(ステップS270)。このとき、ステップS260で作成した分割項目案を同時に送信し、分割と分割項目案の承認を求める。
【0059】
次に、編集処理部32は、項目Aについて、データベース48に登録されている分割処理対象情報の付与されているすべての項目が選択されたか否かを判定する(ステップS280)。すべての項目が選択されていない場合、項目Aとして選択されている項目が他の項目に変更されて項目Aとして選択される(ステップS290)、ステップS220に戻る。
【0060】
上記ステップS210〜S290を繰り返し、ステップS250の判定が肯定の場合、通信部26は、ユーザ端末16へ項目の分割を促す通知(ステップS270)をするが、通知の後、この通知に対する返答をユーザ端末16から受ける。この返答により、編集処理部32は、ユーザが分割を承認したか否かを判定する(ステップS300)。
ユーザが分割および分割項目案を承認した場合、分割は確定し(ステップS310)、クラスタに応じて新設した分割項目案がデータベース48内に登録される。なお、ユーザは分割を承認したが、分割項目案は承認しない場合、編集処理部32は、ユーザから返信された代替案を分割した項目として確定し、データベース48に登録する。一方、分割の対象となる項目A内の分割項目案に引用された文章およびリンクアドレス情報は、項目Aから除去される。項目内の情報の一部が除去された項目Aは登録が維持される。この後、編集処理部32は、新設した分割項目案に統合処理対象情報を付与する(ステップS320)。分割の対象となった項目Aには、統合処理情報が付与され、分割処理情報は付与されない。項目Aはすでに分割を受けた残りの項目であるので、分割処理対象情報は付与されない。統合処理対象情報を付与するのは、項目Aを、統合処理を今後行うときの処理対象の項目とするためである。
一方、ステップS300において、ユーザが分割を承認しない場合、復元処理が施される(ステップS330)。復元処理では、項目Cが消去され、項目Aの登録が維持される。このとき項目Aの統合処理対象情報は除去される。
【0061】
図9(a)は、データベース48に登録されている例として、項目「ウイルス」と、これらの項目に関する情報が示されている。項目「ウイルス」は、他の生物の細胞を利用して、自己を複製させることのできる微小な構造体で、生物にインフルエンザ等の病気を引き起こすものを表す「オブジェクト」と、コンピュータウイルスを表す「オブジェクト」とが含まれている。すなわち、1つの項目に2つの異なる「オブジェクト」が含まれている。このため、上述の分割処理を行うことにより、クラスタ数が2となり、項目の分割の催促が項目情報処理装置12から通知される。
【0062】
図9(b)は、分割項目案として新たな項目Cが「ウイルス(2)」として新設された例を示す。項目「ウイルス(1)」では、項目「ウイルス」に関する情報からコンピュータウイルスに関する段落が除去されている。
このような分割項目案がユーザ端末16に送られる。また、情報の最初の部分には、「本記述は項目「ウイルス」を項目「ウイルス(1)」と「ウイルス(2)」とに仮に分離したもの・・・・「承認」クリックしてください。」と記されている。このような分割項目案は、仮分割中としてユーザに公開される。この分割項目案をユーザは確認しながら、分割項目案が適切か否かの返答をすることができる。
【0063】
以上の分割処理の方法は、所定のプログラムを項目情報処理装置(コンピュータ)12のメモリ24から呼び出して実行することにより、実現される。
すなわち、所定のプログラムは、項目情報処理装置(コンピュータ)12のCPU(演算処理ユニット)22が、集合知データベースサーバ14内の選択された項目に関する文章を段落毎に分割し、メモリ24に記憶させる手順と、CPU22が、分割した複数の段落のそれぞれについて、用語とリンク先情報を属性として抽出し、メモリ24に記憶させる手順と、CPU22が、分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の属性を用いて、段落間の類似度を算出する手順と、CPU22が、算出した類似度に基づいて項目の分割の要否を判定する手順と、CPU22が、項目の分割の要否の判定結果に応じて選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する信号を生成する手順と、を記録したプログラムである。
【0064】
以上のように、項目の分割処理では、リンクアドレス情報と用語を用いるので、リンクアドレス情報を用いず用語を用いた類似度の計算を行った場合に比べて項目の分割の要否を正確に判定することができる。
また、項目情報処理装置12は、算出した類似度に基づいて分割した複数の段落のクラスタ分析を行い、このクラスタ分析の結果に基づいて項目の分割の要否を判定するので、項目の分割数を知ることができ、客観的かつより正確に分割の要否を判定することができる。
項目情報処理装置12は、分割処理対象情報が現在付与されている項目を分割処理の対象とする項目として選択するので、複数の項目の中から項目を容易に選択することができる。
項目情報処理装置12は、クラスタ分析の結果に応じて分割対象となる項目の分割項目案を作成するので、ユーザの統合項目案の作成の負担を軽減し、集合知データベースシステムへの参加を促進する。
項目情報処理装置12は、項目の分割が確定したとき、分割した新たな項目に、統合処理対象情報を付与するので、今後の統合処理において選択すべき項目を容易に識別することができる。
【0065】
以上の実施形態に関し、以下の付記を開示する。
【0066】
(付記1)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された2つの項目について、該2つの項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記属性抽出部にて抽出された前記属性を用いて、前記2つの項目同士の類似度を算出する属性演算部と、
前記類似度に基づいて前記2つの項目の統合の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
【0067】
(付記2)
前記編集処理部は、算出した前記類似度に応じて、前記2つの項目同士を1つの項目に統合した統合項目案を作成する、付記1に記載の項目情報処理装置。
【0068】
(付記3)
前記属性抽出部で選択される前記2つの項目の一方の項目は、項目の統合処理の対象項目であることを示す統合処理対象情報が付与されている項目であり、
前記編集処理部は、前記通知に対する前記ユーザまたはシステム管理者からの統合承認の返答内容に応じて前記2つの項目同士の統合が確定したとき、統合した新たな項目に、前記統合処理対象情報を付与する、付記1または2に記載の項目情報処理装置。
【0069】
(付記4)
前記属性演算部は、前記統合処理対象情報が付与された項目について、前記集合知データベースシステム内に登録されている全項目との間で類似度を算出した結果、前記編集処理部が、項目の統合を要しないと判定したとき、前記選択された項目から前記統合処理対象情報を消去する、付記3に記載の項目情報処理装置。
【0070】
(付記5)
前記編集処理部は、前記通知に対する前記ユーザまたはシステム管理者からの返答内容に応じて前記2つの項目同士の統合が確定したとき、統合した新たな項目に、項目の分割処理の対象項目であることを示す分割処理対象情報を付与する、付記1〜4のいずれか1項に記載の項目情報処理装置。
【0071】
(付記6)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目について処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステムに登録されている全項目を処理対象項目とし、項目毎に、項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記全項目からつくられる2つの項目の全組み合わせのそれぞれについて、組み合わせに用いる項目の前記属性を用いて、項目間の類似度を取得する属性演算部と、
取得した類似度が予め定められた閾値より高い項目の2つ以上の組み合わせであって、お互いの組み合わせが互いに共通する項目を共有するとき、前記2つ以上の組み合わせに用いる項目を1つの項目に統合することを要すると判定する編集処理部と、
前記編集処理部の判定結果に応じて、項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
【0072】
(付記7)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割する段落分割部と、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出する属性抽出部と、
前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する属性演算部と、
前記類似度の算出結果に基づいて、前記選択された項目の分割の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
【0073】
(付記8)
前記編集処理部は、算出した前記類似度に基づいて前記分割した複数の段落のクラスタ分析を行い、該クラスタ分析の結果に基づいて前記選択された項目の分割の要否を判定する、付記7に記載の項目情報処理装置。
【0074】
(付記9)
前記段落分割部で選択される項目は、項目の分割処理の対象項目であることを示す分割処理対象情報が付与されている項目である、付記7または8に記載の項目情報処理装置。
【0075】
(付記10)
前記編集処理部は、前記クラスタ分析の結果に応じて分割対象となる項目の分割項目案を作成する、付記7〜9のいずれか1項に記載の項目情報処理装置。
【0076】
(付記11)
前記編集処理部は、前記通知に対する、前記ユーザまたはシステム管理者からの分割承認の返答内容に応じて前記項目の分割が確定したとき、分割した新たな項目に、項目の統合処理の対象項目であることを示す統合処理対象情報を付与する、付記7〜10のいずれか1項に記載の項目情報処理装置。
【0077】
(付記12)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する、集合知データベースサーバ、項目情報処理装置およびユーザ端末を備える項目情報処理システムであって、
前記集合知データベースサーバは、
ユーザ端末および項目情報処理装置と通信を行う第2の通信部と、前記項目を登録するデータベースと、を有し、
前記データベース内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースサーバ内の内部リンク先情報および前記集合知データベースサーバ外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記項目情報処理装置は、
前記データベース内の選択された2つの項目について、各項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記属性抽出部にて抽出された各項目の前記属性を用いて、前記2つの項目同士の類似度を算出する属性演算部と、
前記類似度に基づいて前記2つの項目の統合の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有し、
前記ユーザ端末は、項目に関する情報を、前記集合知データベースサーバに送信し、さらに、前記通知の受信を行い、前記通知に対する返答を前記項目情報処理装置に行う第3の通信部を有する、ことを特徴とする項目情報処理システム。
【0078】
(付記13)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する、集合知データベースサーバ、項目情報処理装置およびユーザ端末を備える項目情報処理システムであって、
前記集合知データベースサーバは、
ユーザ端末および項目情報処理装置と通信を行う第2の通信部と、前記項目を登録するデータベースと、を有し、
前記データベース内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースサーバ内の内部リンク先情報および前記集合知データベースサーバ外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記項目情報処理装置は、
前記データベース内の選択された項目に関する文章を複数の段落に分割する段落分割部と、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出する属性抽出部と、
前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する属性演算部と、
前記類似度の算出結果に基づいて、前記選択された項目の分割の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、有し、
前記ユーザ端末は、項目に関する情報を、前記集合知データベースサーバに送信し、さらに、前記通知の受信を行い、前記通知に対する返答を前記項目情報処理装置に行う第3の通信部を有する、ことを特徴とする項目情報処理システム。
【0079】
(付記14)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理方法であって、
前記集合知データベースシステム内に登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された2つの項目について、各項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出するステップと、
抽出された項目の前記属性を用いて、前記2つの項目同士の類似度を算出するステップと、
前記類似度に基づいて前記2つの項目の統合の要否を判定するステップと、
前記統合の要否の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知するステップと、を有することを特徴とする項目情報処理方法。
【0080】
(付記15)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理方法であって、
前記集合知データベースシステム内に登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割するステップと、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出するステップと、
前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出するステップと、
前記算出した類似度に基づいて、前記項目の分割の要否を判定するステップと、
前記分割の要否の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知するステップと、を有することを特徴とする項目情報処理方法。
【0081】
(付記16)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目をコンピュータが処理するとき、
前記集合知データベースシステム内に登録されている項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記コンピュータの演算処理ユニットが、前記集合知データベースシステム内の選択された2つの項目について、各項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出し、前記コンピュータのメモリに記憶させる手順と、
前記演算処理ユニットが、抽出された前記属性を用いて、前記2つの項目同士の類似度を算出する手順と、
前記演算処理ユニットが、前記類似度に基づいて前記2つの項目の統合の要否を判定する手順と。
前記演算処理ユニットが、前記統合の要否の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザ又はシステム管理者に通知する信号を生成する手順と、をコンピュータに実行させる、コンピュータが実行可能なプログラム。
【0082】
(付記17)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目をコンピュータが処理するとき、
前記集合知データベースシステム内に登録されている項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記コンピュータの演算処理ユニットが、前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割し、前記コンピュータのメモリに記憶させる手順と、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出し、前記コンピュータのメモリに記憶させる手順と、
前記演算処理ユニットが、分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する手順と、
前記演算処理ユニットが、算出した前記類似度に基づいて前記選択された項目の分割の要否を判定する手順と、
前記演算処理ユニットが、前記分割の要否の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する信号を生成する手順と、をコンピュータに実行させる、コンピュータが実行可能なプログラム。
【0083】
以上、本発明の項目情報処理装置について詳細に説明したが、本発明の項目情報処理装置は上記実施形態に限定されず、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよいのはもちろんである。
【符号の説明】
【0084】
10 項目情報処理システム
12 項目情報処理装置
14 集合知データベースサーバ
16 ユーザ端末
18 システム管理者端末
20 ネットトワーク
22,42 CPU
24,44 メモリ
26,46 通信部
28 属性抽出部
30 属性演算部
32 編集処理部
34 段落分割部
48 データベース

【特許請求の範囲】
【請求項1】
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された2つの項目について、該2つの項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記属性抽出部にて抽出された前記属性を用いて、前記2つの項目同士の類似度を算出する属性演算部と、
前記類似度に基づいて前記2つの項目の統合の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
【請求項2】
前記編集処理部は、算出した前記類似度に応じて、前記2つの項目同士を1つの項目に統合した統合項目案を作成する、請求項1に記載の項目情報処理装置。
【請求項3】
前記属性抽出部で選択される前記2つの項目の一方の項目は、項目の統合処理の対象項目であることを示す統合処理対象情報が付与されている項目であり、
前記編集処理部は、前記通知に対する前記ユーザまたはシステム管理者からの統合承認の返答内容に応じて前記2つの項目同士の統合が確定したとき、統合した新たな項目に、前記統合処理対象情報を付与する、請求項1または2に記載の項目情報処理装置。
【請求項4】
前記属性演算部は、前記統合処理対象情報が付与された項目について、前記集合知データベースシステム内に登録されている全項目との間で類似度を算出した結果、前記編集処理部が、項目の統合を要しないと判定したとき、前記選択された項目から前記統合処理対象情報を消去する、請求項3に記載の項目情報処理装置。
【請求項5】
前記編集処理部は、前記通知に対する前記ユーザまたはシステム管理者からの返答内容に応じて前記2つの項目同士の統合が確定したとき、統合した新たな項目に、項目の分割処理の対象項目であることを示す分割処理対象情報を付与する、請求項1〜4のいずれか1項に記載の項目情報処理装置。
【請求項6】
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目について処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステムに登録されている全項目を処理対象項目とし、項目毎に、項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記全項目からつくられる2つの項目の全組み合わせのそれぞれについて、組み合わせに用いる項目の前記属性を用いて、項目間の類似度を取得する属性演算部と、
取得した類似度が予め定められた閾値より高い項目の2つ以上の組み合わせであって、お互いの組み合わせが互いに共通する項目を共有するとき、前記2つ以上の組み合わせに用いる項目を1つの項目に統合することを要すると判定する編集処理部と、
前記編集処理部の判定結果に応じて、項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
【請求項7】
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割する段落分割部と、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出する属性抽出部と、
前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する属性演算部と、
前記類似度の算出結果に基づいて、前記選択された項目の分割の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
【請求項8】

前記編集処理部は、算出した前記類似度に基づいて前記分割した複数の段落のクラスタ分析を行い、該クラスタ分析の結果に基づいて前記選択された項目の分割の要否を判定する、請求項7に記載の項目情報処理装置。
【請求項9】
前記段落分割部で選択される項目は、項目の分割処理の対象項目であることを示す分割処理対象情報が付与されている項目である、請求項7または8に記載の項目情報処理装置。
【請求項10】
前記編集処理部は、前記クラスタ分析の結果に応じて分割対象となる項目の分割項目案を作成する、請求項7〜9のいずれか1項に記載の項目情報処理装置。
【請求項11】
前記編集処理部は、前記通知に対する、前記ユーザまたはシステム管理者からの分割承認の返答内容に応じて前記項目の分割が確定したとき、分割した新たな項目に、項目の統合処理の対象項目であることを示す統合処理対象情報を付与する、請求項7〜10のいずれか1項に記載の項目情報処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−8599(P2011−8599A)
【公開日】平成23年1月13日(2011.1.13)
【国際特許分類】
【出願番号】特願2009−152545(P2009−152545)
【出願日】平成21年6月26日(2009.6.26)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】