情報検索方法および情報検索プログラム

【課題】検索対象語に関してより詳細で、かつ正確な情報を取得可能とする。
【解決手段】文書（Ｗｅｂページ）の文書集合Ｕから人名ｎａｍｅを含むものを抽出し（Ｓ１１）、文書集合Ｓの要素をＵＲＬのホスト群が一致するもの同士をまとめ、Ｗｅｂページの集合Ｈを構成する（Ｓ１２）。次に、集合Ｈの各々に属するＷｅｂページの内容を形態素解析し、人名ｎａｍｅ以外の人名を抽出する（Ｓ１３）。次に、「活動の場」ｗｓに対するＷｅｂページの集合をノードとし、関連度に応じた重みｒを付けたリンクを生成してグラフＧを作成する（Ｓ１４）。次に、グラフＧからノード間の関連性に従って、ノード同士をシードに分別し（Ｓ１５、Ｓ１６）、さらに、近接していないノードに関しても、最も関連性の高いシードに帰属させる（Ｓ１８）。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、情報検索方法および情報検索プログラムなどに関する。
【背景技術】
【０００２】
文字というシンボルを用いることにより言葉の記録・流通が効率化されたが、その文字をコード化し、計算機によって処理可能なものとすることにより、非常に効率的に情報処理を行うことができるようになってきた。
【０００３】
現在では、公的機関の報告書や新聞記事などをも含む多くの文書は、紙を使用した印刷物だけでなく、文字コードによって記述されたデータの集まり（これは「電子化された文書」とも呼ばれている）としても提供されている。この電子化により情報流通や保存（アーカイブ）が効率化されている。また、これらの電子化された文書中に、ある文字列が出現するか否かを判定することにより、必要な文書を効率的に捜し出すこともできる。
【０００４】
さらに、これらの文書集合を解析することにより知識（単純な検索によって得られる情報、すなわち、どの語がどの文書に出現するという事実以上の情報）を抽出する技術も開発されている（非特許文献１）。具体的には、ある語が出現する文書群を類似したものどうしに分別（クラスタリング）することで、その語のもつ多義性を調べることや、語Ａが出現する文書（群）と語Ｂが出現する文書（群）とを比較することにより語Ａと語Ｂの意味的な近さを推し量る、といったことができる。
【０００５】
文書集合より知識を抽出するために、既存技術は、文書を（文法を含む何らかのルールによって構成された）文字の集まりとして抽象化しその特徴を解析する。最も単純であり、かつよく用いられるのは、文書を単純に語の集合(Bag-of-words)として抽象化し、文書中に特徴的なパターンで出現する語により、その文書を特徴付けるという手法である。この他にも、意味抽出の精度を向上させるため、語間の文法的関係を解析する手法などもあるが、いずれにしても、文字の集合体という抽象的対象の性質を（文法などの文の成り立ちに関する知識を用いて）調べることが既存技術の基本的なアプローチである。
【非特許文献１】インターネット＜ＵＲＬ：http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/16-6.html＞
【発明の開示】
【発明が解決しようとする課題】
【０００６】
上述した従来技術によるアプローチでは、ある語（を表す文字列）が指し示すものがどのようなものであるかに関わらず、同じように処理できるという特徴を持つ。例えば、ある語が指し示すものを他の語により説明しようとするならば、既存技術では、文書集合からその語を含む文書を抽出し、その文書群において特徴的な語を選び出す。しかしながら、従来技術では、特徴的な語（特徴語）の選出は、出現頻度などの計量に基づいて行なわれだけであり、それが概念的にどのような範疇に属するものなのかなどということは考慮されないため、検索対象語に関して正確な情報を取得することができないという問題があった。
【０００７】
本発明は、このような事情を考慮してなされたものであり、その目的は、検索対象語に関してより詳細で、かつ正確な情報を取得することができる情報検索方法を提供することにある。
【課題を解決するための手段】
【０００８】
上述した課題を解決するために、本発明の情報検索方法は、検索対象に関する情報を複数の情報源から検索する情報検索方法であって、検索対象を指し示す文字列（人名）が出現する情報源（Ｗｅｂページ）を抽出し、前記情報源から前記文字列以外の同一概念に属する文字列を抽出し、前記文字列以外の同一概念に属する文字列の共出関係に基づいて、前記情報源の相互関係（グラフ）を決定し、前記情報源の相互関係に基づいて、前記検索対象の同一性を判定して前記情報源を分類することを特徴とする。
【０００９】
本発明は、上記の発明において、前記情報源をノードとし、関連性がある情報源同士を、情報源同士の関連度に応じた重みを付けた無指向リンクで結ぶことにより、前記情報源の相互関係を表し、前記情報源同士を結ぶ無指向リンクに基づいて、前記情報源を分類することを特徴とする。
【００１０】
本発明は、上記の発明において、前記文字列は、前記検索対象の固有名詞であることを特徴とする。
【００１１】
本発明は、上記の発明において、前記文字列は、情報源での任意の文字列の出現頻度と該任意の文字列が特定の情報源で出現する偏在性とに基づいて、前記文字列と同一概念に属する他の文字列として求められることを特徴とする。
【００１２】
上述した課題を解決するために、本発明の情報検索プログラムは、検索対象に関する情報を複数の情報源から検索する情報検索プログラムであって、検索対象を指し示す文字列が出現する情報源を抽出するステップと、前記情報源から前記文字列以外の同一概念に属する文字列を抽出するステップと、前記文字列以外の同一概念に属する文字列の共出関係に基づいて、前記情報源の相互関係を決定するステップと、前記情報源の相互関係に基づいて、前記検索対象の同一性を判定して前記情報源を分類するステップとをコンピュータに実行させることを特徴とする。
【発明の効果】
【００１３】
この発明によれば、検索対象を指し示す文字列が出現する情報源を抽出し、情報源から文字列以外の同一概念に属する文字列を抽出し、文字列以外の同一概念に属する文字列の共出関係に基づいて、情報源の相互関係を決定し、情報源の相互関係に基づいて、検索対象の同一性を判定して情報源を分類する。これにより、検索対象に関する情報源と検索対象以外の情報源とを高い確度で分離することが可能となり、検索対象語に関してより詳細で、かつ正確な情報を取得することができる。
【００１４】
また、本発明によれば、情報源をノードとし、関連性がある情報源同士を、情報源同士の関連度に応じた重みを付けた無指向リンクで結ぶことにより、情報源の相互関係を表し、前記情報源同士を結ぶ無指向リンクに基づいて、前記情報源を分類する。これにより、検索対象に関する情報源と検索対象以外の情報源とを高い確度で分離することが可能となり、検索対象語に関してより詳細で、かつ正確な情報を取得することができる。
【００１５】
この発明によれば、前記文字列を、前記検索対象の固有名詞とする。これにより、複数の情報源に同姓同名の文字列が存在した場合でも、検索対象である人物に関する情報源とその人物以外の情報源とを高い確度で分離することが可能となり、検索対象語に関してより詳細で、かつ正確な情報を取得することができる。
【００１６】
また、本発明によれば、前記文字列を、情報源での任意の文字列の出現頻度と該任意の文字列が特定の情報源で出現する偏在性とに基づいて文字列と同一概念に属する他の文字列として求めることができる。これにより、人名の場合に必要とした辞書の保守を不要とすることができ、検索対象に関する情報源と検索対象以外の情報源とを高い確度で分離することが可能となり、検索対象語に関してより詳細で、かつ正確な情報を取得することができる。
【発明を実施するための最良の形態】
【００１７】
以下、本発明の一実施形態による情報検索方法を、図面を参照して説明する。
【００１８】
Ａ．同姓同名人物の分離
Ａ−１．概要
文書集合より知識を抽出する作業の例として、Ｗｅｂという文書集合を用いて、ある人物に関する情報を収集するというタスクを考える。このときの手がかりは、文書中に出現する当該人物の名前を表す文字列である。しかし、この人物と文字列の対応付けは、１対１でなく、一般には同一の文字列に複数の人物が対応する（同姓同名）。したがって、本タスクを処理するには、同姓同名人物の識別というサブタスクを処理しなければならない。ここでは、同姓同名分離タスクの本発明による処理手順を実施例として示す。なお、すでに文脈から明らかであると思われるが、ここでは、同姓同名を人名の綴りが同一であることとし、読みが同じであるか否かは問わない。文書集合中の（複数の）文書（Ｗｅｂページ）に出現する文字列が指し示す人物の同一性を判定して分類するのが本タスクである。
【００１９】
同姓同名人物分離タスクは、以下の２つのステップからなる（名前をｎａｍｅとする）：
Ｓａ１．文書集合Ｕから文字列ｎａｍｅを含む文書を選び出し、Ｕの部分集合Ｓを作る。
Ｓａ２．Ｓの要素を同一人物ごとに分別する。
【００２０】
現時点では、文書に出現する文字列ｎａｍｅをそれぞれ実在する人物に直接対応付けるという、高度な知識を必要とする処理を機械的に行うのは困難である。そこで代替案として、上記ステップＳａ２のためには、以下のようなデータマイニング的手法を考える。
【００２１】
すなわち、Ｕの要素間に何らかの類似性の尺度を導入し、その尺度に基づいて似通ったもの同士をグループ化する。そして、得られたそれぞれのグループを個別の人物に対応させる。従来技術を用いたグループ化の方法としては、文書毎に抽出した特徴語群の類似性に基づくクラスタリングや、語の出現に関する機械学習による文書分類などがある。
【００２２】
しかし、これらの従来技術による方法で把握される文書の特徴から直ちに個々人が識別されるわけではない。文書を特徴付ける語が広い概念を指すものである場合、それが人物（に対応する文書）識別のために役立つ可能性は低くなる。逆に高い特殊性を持つ語により特徴付けられた文書は、他文書から孤立してしまう。したがって、適度な特殊性をもつ語というものが個人の識別に適していると考えられるが、適切な特殊性の度合とは、どの程度であるか、そもそも、特殊性をどのように測るべきか、などといった検討が必要である。
【００２３】
また、適切な特殊性の度合というものは、状況に応じて変化させなければならない。例えば、同姓同名の人物中、同じ分野で活躍している人が複数存在する場合には、そうでない場合より、より高い分解能が必要になる。さらに言えば、多くの場合、人物は、多面性をもっており、個人の複数の特徴で、概念体系的には関係が認められない特徴（を付与された文書）が別々のものでなく同一人物に帰属するものであることを検出できるような工夫も必要である。つまり、ある人物が全く関連のない複数の異なる業界に属する場合があり、この場合、異なる業界に関する文書内に出現する人物を同一人物であると検出しなければならない。
【００２４】
これらの要求条件に応えるために、本発明の実施形態では、特徴語を統計的な計量のみに基づいて決定するのではなく、説明対象である人物という概念の特徴をも考慮する。概念の特徴とは、それ自体を説明する情報だけでなく、関係のある概念にどのようなものが存在するのか、また、それら概念間にどのような関連性があるのか、といった情報も含む。これらの概念的特徴を文書集合に投影し、文書の分類などの処理を行う。本実施形態では、人と関係の深い関連概念として、その所属する組織やプロジェクトといった「活動の場」を選び、この二者の関係を文書集合に適用し、同姓同名人物の分離を行う。その手順は、以下の通りである。なお、以下では、「活動の場」は、ｗｓ（ｗｏｒｋｓｐａｃｅ）と呼ぶことにする。
【００２５】
Ｓｂ１．ｎａｍｅが登場するｗｓの抽出
Ｓｂ２．上記ｗｓからｎａｍｅ以外の人物の抽出
Ｓｂ３．人物の共出関係に基づくｗｓの相互関係の把握
Ｓｂ４．上記相互関係に基づくｗｓの分類
【００２６】
上記ステップＳｂ４において最終的に分類されたｗｓ群のそれぞれが１人の人物に対応する。この手法の基本的な考えは、人は他者とのつながり（人間関係）によって識別され、そのつながりは活動の場において形成されるというものである。これは、通常、我々が実社会において行っている対象（ここでは人、組織など）の把握と理解の方法であるが、それを文書集合に適用することで、従来技術では得られなかった深い知識の獲得が可能になる。
以下，各手順についてそれぞれ説明する．
【００２７】
Ａ−２．ｗｓの抽出
現在、多くの組織やプロジェクトがその活動の一環としてＷｅｂサーバを立ち上げている。よって、本実施形態では、Ｗｅｂサーバをｗｓとみなす。このとき、ｗｓは以下のように抽出できる。
【００２８】
文書集合Ｕから文字列ｎａｍｅを含む文書を選び出すことで構成されたＵの部分集合Ｓの要素を、ＵＲＬのホスト部が同一であるもの同士をまとめて得られるＷｅｂページの集合がｗｓである。すなわち、ｗｓＨは、Ｓの部分集合で、
・ｈ_ｉ，ｈ_２∈Ｈならば、ｈ_１とｈ_２のホスト部は等しく、
・ｈ∈Ｈのホスト部と等しいホスト部を持つｓ∈Ｓがあればｓ∈Ｈ
が成り立つようなものである。
【００２９】
Ａ−３．ｗｓからの人物の抽出
ｗｓＨに登場する人物（の名前）の抽出は次のように行う。すなわち、Ｈの要素であるＷｅｂページの内容を形態素解析し、姓と名が連続して出現した場合に、それらをつなぎ合わせてある人物の姓名であるとする。
このようにしてＨより得られた（ｎａｍｅ以外の）人名の集合を、以下、Ｐ（Ｈ）と書くことにする。
【００３０】
Ａ−４．ｗｓの相互関係把握
異なるｗｓＨ_１，Ｈ_２がそれぞれに登場する人物を共有する（これを、人物がＨ_１とＨ_２共出する、と呼ぶ）とき、すなわち、
【００３１】
【数１】

【００３２】
が正であるとき，Ｈ_１とＨ_２には関連性があるとする。
ｗｓをノードとし、関連性があるｗｓＨ_１、Ｈ_２を重みｒ（Ｈ_１，Ｈ_２）を付けた無指向リンクで結ぶと、ｗｓの相互関係を表すグラフが得られる。このグラフをＧ（Ｕ，ｎａｍｅ）とする。
【００３３】
Ａ−５．ｗｓの分類
Ｇ（Ｕ，ｎａｍｅ）の構造をもとに、ｗｓを分類する。
まず、連結成分の間には関連性を示すリンクが全く存在しないので、これを互いに分離する。次に、以下の手順で連結成分内を分解する。
【００３４】
初めに、互いに緻密な関係にある部分、例えばクラスタ係数が「１」であるノードとそのリンク先とを抽出し、分解のシードとする。シードが複数ない場合（０個を含む）には、その連結成分全体を１つのシードとする。シードが複数存在する場合には、まず、互いに近接しているシード、すなわち、リンクでつながれたシード同士をまとめて１つのシードとする。このようにして得られたシード群に適当に番号を振り、｛Ｃ_ｉ｝_{ｉ＝ｉ，…，Ｍ}としておく。
ここで、ｗｓの集合Ｗ_ｉに対して、
【００３５】
【数２】

【００３６】
【数３】

【００３７】
と定義する。ここで、ｗとＷ_ｉとの距離とは、これらのＧ（Ｕ，ｎａｍｅ）上の最短経路長のことである。
【００３８】
Ｗ_０を、シードを構成する全ｗｓの集合とし、上記定義に従い順次Ｗ_ｉを構成する。そして、各ステップで得られたＤ_ｉのそれぞれの要素ｄを｛Ｄ_ｊ｝のいずれに追加していく。Ｃ_ｊの選択には、以下の数量を用いる。
【００３９】
【数４】

【００４０】
ここで、ｌ（ｎ_１，ｎ_２）は、２つのノードｎ_１，ｎ_２を結ぶリンクの重みであり、リンクが存在しないときは、０とする。ｄは、ｇ（ｄ，Ｃ_ｊ）が最も大きいＣ_ｊを選んで、そこに追加する。これは、最も関連性の高いＣ_ｊを選ぶことに相当する。
以上のステップを、Ｄ_ｉが空になるまで繰り返す。その結果得られた{Ｃ_ｉ}が、各人物に対応するｗｓである。
【００４１】
Ａ−６．具体例
ここで、上述したｗｓの分類の一例について図を参照して説明する。ここで、図１は、本発明の実施形態による情報検索方法に基づいて、グラフ構造をもとにｗｓを分割する手順を説明するためのフローチャートである。
【００４２】
まず、文書（Ｗｅｂページ）の集合である文書集合Ｕ、人名ｎａｍｅが入力されると（Ｓ１０）、文書（Ｗｅｂページ）の文書集合Ｕから人名ｎａｍｅを含むものを抽出し、文書集合Ｓ（部分集合）を作成する（Ｓ１１）。次に、文書集合Ｓの要素をＵＲＬのホスト群が一致するもの同士をまとめ、図２に示すように、「活動の場」ｗｓに対応するＷｅｂページの集合Ｈを構成する（Ｓ１２）。図２の例では、ＵＲＬ「http://server1/index.html」、ＵＲＬ「http://server1/foo/l」、ＵＲＬ「http://server1/bar/baz.html」をまとめ、集合Ｈとして「server1」を構成する。また、ＵＲＬ「http://server2/one.html」、ＵＲＬ「http://server2/two.html」のホストをまとめ、集合Ｈとして「server2」を構成する。さらに、ＵＲＬ「http://server3/list.html」、…をまとめ、集合Ｈとして「server3」を構成する。
【００４３】
次に、集合Ｈの各々に属するＷｅｂページの内容を形態素解析し、人名ｎａｍｅ以外の人名を抽出し、集合Ｈから得られた人名ｎａｍｅ以外の人名の集合をＰ（Ｈ）とする（Ｓ１３）。図２に示す例では、集合Ｈ「server1」のＰ（Ｈ）は、人名「山田○○」、「佐藤△△」、「鈴木□□」、…などを含む。また、集合Ｈ「server2」のＰ（Ｈ）は、人名「山田○○」、「田中××」、…などを含み、集合Ｈ「server3」のＰ（Ｈ）は、人名「佐藤△△」、「鈴木□□」、「田中××」、…などを含む。
【００４４】
次に、「活動の場」ｗｓに対するＷｅｂページの集合Ｈ「server1」、「server2」、「server3」、…を、各々、ノード１、２、３、…に対応付ける。なお、図２の集合Ｈに記載の（１）、（２）、（３）、…は図３のノードの番号に対応する。ノード１、２、３、…の間に、前述した数式（１）の条件が満たされるとき、重みｒを付けたリンクを生成してグラフＧを作成する。ここで、重みｒとはＰ（Ｈ）に含まれる人名において人名が一致する数である（Ｓ１４）。図２に示す例では、集合Ｈ「server1」のノード１と集合Ｈ「server2」のノード２との間の重みｒが「１」となり、集合Ｈ「server1」のノード１と集合Ｈ「server3」のノード３との間の重みｒが「２」となる。さらに、集合Ｈ「server2」のノード２と集合Ｈ「server3」のノード３との間の重みｒが「１」となる。以下、図示していないノードに付いても同様に重み付けする（図２の例では、ノード４〜９、Ａ、Ｂが相当）。また、図２に示す例において作成したグラフＧを、図３（ａ）に示す。
【００４５】
次に、グラフＧの各連結成分ｇに対して、連結成分ｇ中のシード（クラスタ係数が１のノードと、そこからリンク先のノードとからなる、ノードの集まり）を抽出する（Ｓ１５）。なお、連結成分ｇにシードが存在しなければ、連結成分ｇの全ノードを１つのシードとする。次に、シード同士が近接している場合、それらを統合し、改めて１つのシードとし、得られたシードに順に番号ｊを付け、それぞれをＣ_ｊとする（Ｓ１６）。そして、Ｗを｛Ｃ_ｊ｝の和集合、すなわちＷ＝∪Ｃ_ｊとする（Ｓ１６）。
【００４６】
図３（ｂ）で示しているのはシードに対応する部分である。上部にはノード１、２、３からなるシードが存在し、下部にはノード８、９、Ａ、Ｂからなるシードが存在する。下部のシード中には、実際には、クラスタ係数が１である３つのノード９、Ａ、Ｂが存在している。いずれも、それらノードとそのリンク先からなるノードとの集合は、｛８，９，Ａ，Ｂ｝で、３つのシードが完全に重なり合っており、結果的に、これらは１つのシードとして統合される。上部、下部のシードに属するノードの集合を順にＣ_１、Ｃ_２とする。図３（ｃ）に示すように、Ｃ_１とＣ_２を合わせたものがＷ_０である。Ｗ_０より距離が１だけ離れているノード集合がＤ_１である。
【００４７】
次に、Ｗに含まれないノードを順次｛Ｃ_ｊ｝のうち、最も関連性の高いものに帰属させる（Ｓ１８）。具体的には、Ｄ＝｛Ｗ｜ＷはＧのノードでＷからの距離が１｝とし、Ｄの各要素ｄに対し、ｑ（ｄ，Ｃ_ｊ）が最大となるＣ_ｊを選び（複数可）、Ｃ_ｊ＝Ｃ_ｊ∪（ｄ）とする。そして、Ｄが空になるまで、Ｗ＝Ｗ∪Ｄとしてこの処理を繰り返す。
【００４８】
図３（ｄ）に示すように、ノード４、５については、Ｃ_１にのみ繋がっているため、Ｃ_１に帰属させる。一方、ノード７については、Ｃ_１とＣ_２の双方に繋がりがある（ノード２−ノード７、ノード７−ノード８）。いま、ノード２−ノード７の繋がり（リンクの重み）の方がノード７−ノード８のつながりより強いとすると、ノード７もまたＣ_１に属することになる。同様に、ノード６についても、Ｃ_１に属することになる。最終的には、図３（ｅ）に示すように、ノードは２つに分別される。そして、｛Ｃ_ｊ｝を出力して終了する（Ｓ１９）。
【００４９】
Ａ−７．人名の統計的特徴をもつ語による代用
上述した実施形態では、ｗｓから人名を取り出すために形態素解析を利用しており、人名をどれだけ正確に抽出できるかは形態素解析の性能、特に辞書にどれだけ人名が登録されているかに依存する。よって、本処理の精度を高く保つためには辞書の保守という作業が必要になる。
【００５０】
辞書を用いることなく人名を抽出することは非常に困難であるが、人名という文字列が持つデータとしての特徴が把握できれば、同特徴を持つ語により人名を模擬することができる。これにより、辞書の保守が必要なくなる。
【００５１】
図４は、人名と普通名詞との出現に関する違いを示したものである。ある語がｘ個のＷｅｂページに出現し、そのページはｙ個の異なるＷｅｂサーバに含まれているとき、点（ｘ，ｙ）をプロットした。グラフは、両対数で示している。普通名詞については、ｌｏｇｘとｌｏｇｙがほぼ比例関係にあるが、人名はその関係から外れてグラフ下方に位置している。これは、同じ数のページに出現していても、一般に、人名の方が特定のサーバに限って出現する傾向、すなわち、偏在性があることを示している。この偏在性は、次式で測ることができる。
【００５２】
【数５】

【００５３】
一方、従来の情報検索では、ある語が文書においてどのくらい特徴的であるかを、当該語の文書内出現頻度（ＴＦ）と他文書における出現し難さを表す数量（ＩＤＦ）との積で計算していた（ＴＦ・ＩＤＦ）。ｗｓから人名の代わりとなる語を選び出す際にもこの考え方を適用する。上記ＰＳＲは、ＩＤＦに対応する数量なので、ＴＦとＰＳＲ（ＴＦ・ＰＳＲ）との積により特徴語としての妥当性を測る。
【００５４】
人名に代わる特徴語のｗｓからの抽出方法は以下の通りである。まず、ｗｓ毎の特徴語の数の上限Ｎを予め決めておく。ｗｓのページに出現する語毎にＴＦ・ＰＳＲを計算する。全ての語をこの値の大きい順に整列させ、上位Ｎ個を当該ｗｓの特徴語として採用する。
【００５５】
上記「ｗｓの相互関係把握」以降の処理は、人名の場合と全く同様である。本方法により実際に同姓同名分離を行った結果、約８割を正しく処理できた。処理精度は、人名には及ばないが、辞書を保守する必要がないという点で人名を用いる場合よりも優れている。
【００５６】
Ａ−８．その他の例
前項の例は、ある概念と関係の深い別の概念との（実世界での）関係を文書集合に適用して知識を抽出するという本発明の１つの具体化であるが、注目する概念を別に選べば、その対象に関する知識を前例と同じように得ることができる。
【００５７】
例えば、実世界において、種々の商品が人々によって利用されている消費生活の様子、いわばライフスタイルは、商品を指し示す語である商品名が、個人の生活空間（個人のウェブページ、特にウェブログなど）において、どのように出現するかを調べることで解析できる。これは、かつて、商品科学研究所とＣＤＩ（Communication Design Institute）が「家の中にある物により（社会を）語らしめる」という考えに基づいて、一般世帯の家財を網羅的に調べあげた研究、「疋田正博：生活財生態学『生活文化研究の視点と手法から文化ニーズを考える』、インターネット＜ＵＲＬ：http://www.cdij.org/pf/seikatu.html, 2004＞」に相当するものと考えられる。
この他にも、実世界における概念間の関係を文書集合に適用することにより、多種多様な解析が可能となる。
【００５８】
上述した実施形態の効果をみるため、同姓同名人物分離の実験を、実データを用いて行った。以下、確認された効果について述べる。まず、個々の同姓同名人物を識別する能力は、従来の統計的処理にのみ基づく手法では平均約７割強であるのに対し、本発明では９割を越えることが分かった。また、前述したように、人物の多面性の扱いが同姓同名分離固有の課題であるが、文書の内容に基づいて分類を行う従来手法では、これをうまく解決できないことは既に説明した。
【００５９】
一方、本発明では、例えば人名「ＡＢ」という名前を持つ同姓同名人物の分離を行った場合、野球界で活躍している人物と芸能界で活躍している人物とが同一であると認識することができる。これは、野球界を引退した後、芸能界で活躍している人が多いという事実が、文書集合の中の人名「ＡＢ」をとりまく人間関係の中にも見い出すことができるからである。高い識別の能力のみならず、本発明では、いままでにないこのような効果が得られる。
【００６０】
上述した実施形態によれば、対象がどのような概念に属するものであるかを考慮し、その概念と関連のある他の概念およびそれら概念間の関係を文書集合に当てはめることにより、より詳しい知識の抽出を可能とする。また、本実施形態では、対象の実世界における位置付け（概念体系、人々がそれをどのように見て解釈しているかという社会的評価や、自然の理りとしてどのような性質を持つか、など）に関する情報をも利用することにより、対象に関してより深く正確な知識を獲得することができる。
【００６１】
上述の情報検索方法は、コンピュータシステムにより実現している。そして、上述した情報検索方法の処理過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【図面の簡単な説明】
【００６２】
【図１】本発明の実施形態による情報検索方法に基づいて、グラフ構造をもとにｗｓを分割する手順を説明するためのフローチャートである。
【図２】本実施形態による情報検索方法の処理過程を説明するための概念図である。
【図３】本実施形態による情報検索方法により作成されたグラフ構造の一例を示す概念図である。
【図４】人名と普通名詞との出現に関する違いを示す図である。
【符号の説明】
【００６３】
Ｓ１０文書集合Ｕ、人名ｎａｍｅの入力ステップ
Ｓ１１文書集合Ｓの作成ステップ
Ｓ１２Ｗｅｂページの集合Ｈの構成ステップ
Ｓ１３人名ｎａｍｅ以外の人名の集合Ｐ（Ｈ）の生成ステップ
Ｓ１４ノードとノードを結ぶリンクからなるグラフＧの作成ステップ
Ｓ１５シードの抽出ステップ

【特許請求の範囲】
【請求項１】
検索対象に関する情報を複数の情報源から検索する情報検索方法であって、
検索対象を指し示す文字列が出現する情報源を抽出し、
前記情報源から前記文字列以外の同一概念に属する文字列を抽出し、
前記文字列以外の同一概念に属する文字列の共出関係に基づいて、前記情報源の相互関係を決定し、
前記情報源の相互関係に基づいて、前記検索対象の同一性を判定して前記情報源を分類することを特徴とする情報検索方法。
【請求項２】
前記情報源をノードとし、関連性がある情報源同士を、情報源同士の関連度に応じた重みを付けた無指向リンクで結ぶことにより、前記情報源の相互関係を表し、
前記情報源同士を結ぶ無指向リンクに基づいて、前記情報源を分類することを特徴とする請求項１記載の情報検索方法。
【請求項３】
前記文字列は、前記検索対象の固有名詞であることを特徴とする請求項１または２記載の情報検索方法。
【請求項４】
前記文字列は、情報源での任意の文字列の出現頻度と該任意の文字列が特定の情報源で出現する偏在性とに基づいて、前記文字列と同一概念に属する他の文字列として求められることを特徴とする請求項１または２記載の情報検索方法。
【請求項５】
検索対象に関する情報を複数の情報源から検索する情報検索プログラムであって、
検索対象を指し示す文字列が出現する情報源を抽出するステップと、
前記情報源から前記文字列以外の同一概念に属する文字列を抽出するステップと、
前記文字列以外の同一概念に属する文字列の共出関係に基づいて、前記情報源の相互関係を決定するステップと、
前記情報源の相互関係に基づいて、前記検索対象の同一性を判定して前記情報源を分類するステップと
をコンピュータに実行させることを特徴とする情報検索プログラム。

【図１】