情報比較プログラム、情報比較装置
【課題】ユーザ自身の基準に照らして信頼できる情報はどれであるかを予め選択でき、選択した情報と他の情報と比較することで、情報の妥当性をユーザが容易に把握できるようにするためのプログラムとコンピュータ装置を提供する。
【解決手段】事物Tに関する情報を組成Cとラベル集合Bという概念で定義し、ユーザの指定により決められる比較対象となる事物情報Ttと、ラベル集合Bを構成するラベルlに基づいて検索・抽出される比較基準となる事物情報Tsとを、組成Cを構成する分量qと出現頻度に基づく重みwによって比較して一致度Scを求め出力する情報比較プログラムを構成した。
【解決手段】事物Tに関する情報を組成Cとラベル集合Bという概念で定義し、ユーザの指定により決められる比較対象となる事物情報Ttと、ラベル集合Bを構成するラベルlに基づいて検索・抽出される比較基準となる事物情報Tsとを、組成Cを構成する分量qと出現頻度に基づく重みwによって比較して一致度Scを求め出力する情報比較プログラムを構成した。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、数多くの情報からある情報がユーザ自身にとって妥当な情報かどうかを判断する際に指標となるように、情報を比較するプログラムと、このプログラムに従って作動するコンピュータ装置に関するものである。
【背景技術】
【0002】
近年のIT技術の高度化とそれに伴う情報量の増大によって、数多ある情報の中からユーザ自身にとって本当に意味のある情報を探し出すための労力が却って多大となっている。特に、コンピュータ装置の操作に不慣れな一般の利用者には、どの情報をどのように見ていけばよいかということにさえも戸惑うことも珍しくない。しかしながら、そのような一般利用者にとっても、信頼性の低い情報や自分の役に立たない情報は不必要であるものの、なるべく多様な意見や見方については知りたいというニーズは少なからず存在する。
【0003】
インターネットを利用してアクセスできるWebコンテンツは、その量や多様性の面からは非常に膨大であり、その質に関しては、本当に役に立つ高質な情報と、嘘やデマのような質の低い情報が玉石混淆の状態で存在しているという問題がある。現状では、多様な検索エンジンを利用することができるようになっており、キーワードを含む文字検索による情報の収集は容易となっているが、ユーザがそれらの検索結果から情報の質を効果的に見分ける手段は、ユーザ自身が情報を閲覧して判断する方法以外には、実質的に存在しているとは言い難い。
【0004】
情報の信頼性については、Webページのどのような要素が利用者の当該ページに対する信頼度に影響を与えるかについての大規模な被験者実験とその分析結果が報告されている(非特許文献1参照)。また、Webページのテキストデータを対象として、利用者に信頼性判断の基礎となる分析結果を提示することで、利用者自身による情報の信頼性判断を支援することを目的とした研究報告もなされている。これらの報告では、「誰々がどうした」といった述語項構造を処理の基本単位とした自然言語処理に基づくアプローチがとられており、情報内容、情報発信者、情報外観、社会的評価の4つの基準から分析結果を提示することで、利用者が様々な観点から分析結果を俯瞰して情報の信頼性を効率よく判断することにつなげるようにする手法が提案されている(非特許文献2,3参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】”What makes Web sites credible?”, B.J. Fogg, J. Marshall, O. Laraki, A. Osipovich, C. Varma, N. Fang, J. Paul, A.Rangnekar, J. Shon, P. Swani, M. Treinen, a report pn a large quantitativestudy, Proc. of ACM SIGCHI conference on Human factors in computing systems,pp. 61-68, 2001
【非特許文献2】「構造的言語処理による情報分析研究」,黒橋禎夫,言語処理学会 第13回年次大会(NLP2007)ワークショップ(W2),pp.17-18,2007
【非特許文献3】”Evaluation Data and PrototypeSystem WISDOM for Information Credibility Analysis”, H. Miyamori, S. Akamine,Y. Kato, K. Kaneiwa, K. Sumi, K. Inui, S. Kurohashi, Internet Research, Vol.18, No. 2, pp. 155-164, 2008
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、非特許文献1の研究では、より信頼度の高いWebページ作りのための指針が導出されているものの、Webページが閲覧者にとってどの程度信頼できるのかという自動分析がなされているわけではない。また、非特許文献2や非特許文献3の研究では、分析結果はクエリに関連したWebページ群に基づいたものではあるが、利用者の情報に対する信頼性に関する様々な観点という要素については考慮されておらず、同じクエリに対してはどの利用者にも一様な分析結果が提示されるのみである。
【0007】
以上のような問題に鑑みて、本発明の主たる目的は、利用者の情報信頼性に対する様々な観点の違いを考慮して、利用者各自が自分の基準に照らして信頼できる情報はどれであるかを予め選択でき、その選択した情報と他の情報と比較することで、当該他の情報の妥当性を利用者が容易に把握できるようにするためのプログラムと、当該プログラムに従って作動するコンピュータ装置を提供することにある。
【課題を解決するための手段】
【0008】
本発明は、ある事物に関する情報を構成する要素であって分量と出現頻度が付与された要素の集合である組成と、その事物を説明する分量及び出現頻度に関する情報を持たない書誌的情報であるラベルの集合からなるラベル集合とから構成される事物情報を比較対象とし、他の事物情報を比較基準として、コンピュータを作動させることにより、比較対象の事物情報と比較基準の事物情報とを比較するプログラムであり、以下の点を特徴とするものである。なお、この情報比較プログラムにより作動するコンピュータ装置である情報比較装置も、本発明に含まれるものであることを付言する。
【0009】
すなわち、本発明の情報比較プログラムは、1つ以上の事物情報の指定を受け付けて比較対象となる事物情報を決定する比較対象決定ステップと、1つ以上のラベルの指定を受け付けるラベル受付ステップと、ラベル受付ステップで受け付けたラベルに基づいて、複数の事物情報を記憶している1つ以上のデータベースから該当するラベルを含むラベル集合を有する1つ以上の事物情報における少なくとも組成を抽出する事物情報抽出ステップと、この抽出された1つの事物情報の組成又は2つ以上の事物情報の組成の値を平準化した平準化組成を比較基準となる事物情報の組成として決定する比較基準決定ステップと、比較対象となる事物情報の組成に含まれる要素と比較基準決定ステップで決定された比較基準となる事物情報の組成に含まれる要素とにおいて共通する要素である共通要素、比較対象となる事物情報の組成のみに含まれる比較対象ユニーク要素、比較基準となる事物情報の組成にのみ含まれる比較基準ユニーク要素、の3種類の要素のうち何れか1種以上を抽出する要素抽出ステップと、この抽出された共通要素、比較対象ユニーク要素、比較基準ユニーク要素の何れか1種以上について、これらの各要素に含まれる1つ以上の分量を用いて定義される値と1つ以上の出現頻度を用いて定義される値とに基づいて求められる値のうち、共通要素から得られた値、比較対象ユニーク要素から得られた値、比較基準ユニーク要素から得られた値の1つ以上の組み合わせにより、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度を算出する一致度算出ステップと、この算出された一致度を出力する一致度出力ステップと、を有して構成される。
【0010】
本発明において「事物情報」とは、ある事やある物(総称して「事物」という)を表現した情報であって、ここでは前述の通り、「組成」と「ラベル集合」によって定義される。「組成」とは、その事物を構成している情報のうち、分量に関する情報と、その要素が出現する頻度(出現頻度)に関する情報とを含む要素を1つ以上含んでいる。出現頻度は、数値として表す場合に、その要素の「重み」として捉えることもできる。「ラベル」とは、組成中の要素のような分量と出現頻度を含まない情報であって、例えばその事物の作成者、名称、表題、登場人物、日時などの書誌的情報を意味し、このようなラベルの集合を「ラベル集合」と称するものとする。事物情報は、1つのデータベースに集約して記憶させておいてもよいし、複数のデータベースに分散して記憶させておいてもよい。
【0011】
比較対象決定ステップでは、ユーザにより指定された事物情報を受け付けて比較対象となる事物情報であることを決定する。この場合、比較対象となる事物情報については、データベースから選択された事物情報をユーザにより指定されることにより利用してもよいし、ユーザが本発明のプログラム又は当該プログラムを格納したコンピュータ装置を利用する際に、独自に入力したものを利用してもよい。このとき比較対象となる事物情報は、指定された(独自に入力された事物情報を含む)1つの情報であってもよいし、複数の事物情報を集約して生成された1つの事物情報であってもよい。
【0012】
ラベル受付ステップでは、例えばユーザが希望するラベルを1つ以上指定した場合に、そのラベルを検索のキーワードとして指定する。ユーザが指定できるラベルは、予めデフォルトで決められていてもよいし、その都度選択可能なラベルが複数生成されてユーザに提示されるようにしてもよい。また、ユーザが任意に入力するキーワードもラベルとして取り扱い得るようにすることもできる。事物情報抽出ステップでは、この指定されたラベルに基づいてデータベースを検索し、該当するラベルをラベル要素に含んでいる事物情報を抽出する。なお、ラベルには上述したような事物情報のラベル集合中のラベルだけでなく、事物情報を記述したデータのファイル名や当該データの存在位置(URL等)も含めて検索対象とすることができる。また、後述する一致度の算出結果や、その算出結果に基づいてユーザに提供される比較結果等もラベルに含めて、次回以降の検索対象としてもよい。さらには、組成の一部(要素名や分量)も検索対象として、その組成の一部と共通するかある程度の一致度を有する組成を備えた事物情報を抽出できるようにもすることができる。その場合、当該組成の一部をラベルにも該当する情報として取り扱ってもよい。
【0013】
比較基準決定ステップでは、検索の結果抽出された事物情報を比較対象となる事物情報として決定するが、比較対象決定ステップと同様に、比較基準となる事物情報についても、1つの事物情報である場合、若しくは複数の事物情報である場合があり得る。1つの事物情報を比較基準とする場合は、その事物情報における組成を比較対象とすればよいし、複数の事物情報に基づいて比較基準となる事物情報を生成する場合は、それらの事物情報の組成を平準化したもの(「平準化組成」と称する)を比較対象とすればよい。なお、本発明において「平準化」とは、相加平均、相乗平均、調和平均、加重平均、中央値、最頻値等の統計学的な手法を適宜用いて、複数の組成を均すことをいう。
【0014】
要素抽出ステップでは、比較対象となる事物情報と比較基準となる事物情報に共通して含まれる組成中の要素(「共通要素」と称する)、比較対象となる事物情報のみに含まれる組成中の要素(「比較対象ユニーク要素」と称する)、比較基準となる事物情報のみに含まれる組成中の要素(「比較基準ユニーク要素」と称する)、の3種類の要素のうちの少なくとも1種以上を抽出する。
【0015】
このようにして抽出された1種類以上3種類までの要素について、分量から定義される値と出現頻度から定義される値を利用して所定の定義(若しくは演算式)に基づく値を求め、これら3種類の要素から求められた値を1つ以上組み合わせて所定の演算式で計算することで、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度を算出する。なお、分量から定義される値と出現頻度から定義される値を求める際には、抽出された3種類の要素のそれぞれにおける全ての要素を利用する必要は必ずしもなく、ある条件を満たす一部の要素のみを用いることも許容される。そして、このようにして算出された一致度は、一致度出力ステップにより、画面表示や印刷や別のコンピュータ装置若しくは別のプログラムへアウトプットされることとなる。また、一致度を算出する演算式を工夫することで、比較対象となる事物情報の組成と比較基準となる事物情報の組成との「不一致度」を求めるようにすることも可能である。
【0016】
本発明の情報比較プログラム又は情報比較装置によれば、このような事物に関する情報同士を比較するに際して、上述の通り「組成」と「ラベル集合」という概念を導入し、ユーザの指定により決められる比較対象となる事物情報と、ラベルに基づいて検索・抽出される比較基準となる事物情報とを、組成(分量と出現頻度)によって比較して両者の一致度を求めることで、比較対象である事物情報の比較基準である事物情報に対する妥当性判断の基準として、この一致度をユーザに提供することができるようになる。すなわち、ユーザ自身にとって必要な意味のある情報として、ユーザが選んだ事物情報がそれと関連のある(共通のラベルを有する)他の事物情報とどの程度似ているのか(若しくはどの程度かけ離れているのか)という情報を提供することができる。
【0017】
特に本発明では、事物情報抽出ステップにおいて抽出した比較基準となる事物情報が2つ以上である場合は、比較基準決定ステップにおいて、これら複数の事物情報の組成の値を平準化するに際して、複数の事物情報の組成における要素の和集合を求め、平準化組成を、この和集合に含まれている各要素における分量の和の平均と、この和集合に含まれている各要素の出現頻度の和の平均とによって定義し、比較基準となる事物情報の組成として決定するようにすれば、1つの比較対象となる事物情報(複数の事物情報を集約して1つの事物情報と見なす場合も含む)の組成と、複数の事物情報から集約された比較基準となる事物情報の組成とを容易に比較することができるようになる。ここで、「平均」とは、上述した「平準化」と同様に、相加平均、相乗平均、調和平均、加重平均等の統計学的な手法を適宜用いて得られる平均値を意味する。
【0018】
また本発明では、上述のように1つの比較対象となる事物情報(複数の事物情報を集約して1つの事物情報と見なす場合も含む)の組成と、1つの事物情報の組成又は複数の事物情報を集約しそれらの組成を平準化して得られる1つの比較対象となる事物情報の組成(平準化組成)とを比較するだけでなく、1つの比較対象となる事物情報(複数の事物情報を集約して1つの事物情報と見なす場合も含む)の組成と、複数の比較対象となる事物情報の組成とを個別に比較し、それらの結果をとりまとめて比較対象と比較基準の一致度を求めることも可能である。
【0019】
その場合、本発明の情報比較プログラムは、1つ以上の事物情報の指定を受け付けて比較対象となる事物情報を決定する比較対象決定ステップと、1つ以上のラベルの指定を受け付けるラベル受付ステップと、この受け付けたラベルに基づいて、複数の事物情報を記憶する1つ以上のデータベースから該当するラベルをラベル集合に有する複数の事物情報における少なくとも組成を抽出する事物情報抽出ステップと、これらの抽出された複数の事物情報の組成をそれぞれ比較基準となる事物情報の組成として決定する比較基準決定ステップと、それぞれ決定された比較対象となる事物情報の組成に含まれる要素と比較基準となるそれぞれの複数の事物情報の組成に含まれる要素とにおいて共通する要素である共通要素と、比較対象となる事物情報の組成のみに含まれる比較対象ユニーク要素と、比較基準となる事物情報の組成にのみ含まれる比較基準ユニーク要素の何れか1種以上を抽出する要素抽出ステップと、これらの抽出された共通要素、比較対象ユニーク要素、比較基準ユニーク要素のうち何れか1種以上について、これらの各要素に含まれる1つ以上の分量を用いて定義される値と1つ以上の出現頻度を用いて定義される値とに基づいて求められる値のうち、共通要素から得られた値、比較対象ユニーク要素から得られた値、比較基準ユニーク要素から得られた値の1つ以上の組み合わせにより、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度をそれぞれ算出し、それらの一致度を事物情報抽出ステップで抽出した事物情報の組成の数で平準化することにより、比較対象となる事物情報の組成と比較対象となる複数の事物情報の組成との一致度を算出する一致度算出ステップと、この算出された一致度を出力する一致度出力ステップとを有する構成となる。なお、この情報比較プログラムにより作動するコンピュータ装置である情報比較装置も、本発明に含まれるものである
【0020】
このような情報比較プログラム又は情報比較装置であっても、前述した情報比較プログラムとは一致度の求め方が若干異なるものの、作用効果としては同様に、比較対象である事物情報の比較基準である事物情報に対する妥当性判断の基準として、この一致度をユーザに提供することができるようになる。
【0021】
以上のような各種の情報比較プログラムにおいては、前述した通り、比較対象となる事物情報が複数である場合も、それらの事物情報を1つに集約して取り扱うことが可能である。すなわち、比較対象決定ステップにおいて、指定を受け付けた事物情報が複数である場合、この比較対象決定ステップでは、それら受け付けた複数の事物情報の組成を平準化した平準化組成を、比較対象となる事物情報の組成として決定するものとすることができる。この場合、上述した比較基準となる事物情報が複数である場合と同様に、比較対象決定ステップでは、複数の事物情報の組成の値を平準化するに際して、複数の事物情報の組成における要素の和集合を求め、平準化組成を、この和集合に含まれている各要素における分量の和の平均と、この和集合に含まれている各要素の出現頻度の和の平均とによって定義し、比較対象となる事物情報の組成として決定するようにすればよい。ここで「平準化」と「平均」は、上述した意義と同じである。
【発明の効果】
【0022】
本発明によれば、事物に関する情報を「組成」と「ラベル集合」という概念で定義し、ユーザの指定により決められる比較対象となる事物情報と、ラベルに基づいて検索・抽出される比較基準となる事物情報とを、組成によって比較して一致度を求めることにより、比較対象である事物情報が比較基準である事物情報に対してどの程度妥当であるかの判断基準をユーザに提供することができるものである。したがって、本発明を利用するユーザは、自らが選んだ事物に関する情報を、それと関係がある他の情報と比較して両者の組成がどの程度一致しているのか(若しくはどの程度不一致であるのか)を容易に知ることができるので、ユーザ個々にとってその都度毎に情報の妥当性に関して信頼性が高く有益な情報か否かを判断することが容易になる。
【図面の簡単な説明】
【0023】
【図1】本発明の一実施形態である情報比較プログラムで用いられる事物情報の構成を表す概念図
【図2】同プログラムが有する処理工程の構成を示す概略図
【図3】同プログラムにおいて複数の事物情報の組成の平均を求める工程を示すフローチャート
【図4】同プログラムにおいて比較対象となる事物情報と比較基準となる事物情報との一致度を求める工程を示すフローチャート
【図5】同プログラムにおいて用いられる比較対象となる事物情報と比較基準となる事物情報の組成の関係を示す概念図
【図6】同プログラムにおいて比較対象となる事物情報と比較基準となる事物情報との一致度を求める工程の一変形例を示すフローチャート
【図7】同プログラムにおいて比較対象となる事物情報と比較基準となる事物情報との一致度を求める工程の一変形例を示すフローチャート
【図8】同プログラムにおいて比較対象となる事物情報と比較基準となる事物情報との一致度を求める工程の一変形例を示すフローチャート
【図9】同プログラムにおける情報処理工程を概略的に示すフローチャート
【図10】同プログラムにおける情報処理工程の一変形例を概略的に示すフローチャート
【図11】同プログラムにおける情報処理工程の一変形例を概略的に示すフローチャート
【図12】本発明を適用した一実施例である料理レシピの比較システムにおける情報収集、インデキシングの処理工程を概略的に示す図。
【図13】同システムにおいて用いられるデータベースにおける材料一覧の記述例を示す図
【図14】同システムにおいてユーザのコンピュータに表示されるWebページの画面例を示す図
【図15】同システムにおいて利用されるサイトAにおける料理レシピの平均を一覧にして示す図
【図16】同システムにおいて利用されるサイトBにおける料理レシピとサイトAにおける料理レシピの平均との比較結果を一覧にして示す図
【発明を実施するための形態】
【0024】
以下、本発明の一実施形態を、図面を参照しつつ説明する。
【0025】
本実施形態は、事物情報同士の一致度を求めて出力する情報比較プログラムと、このプログラムに従って作動するコンピュータからなる情報比較装置の一例である。本実施形態では説明の簡略化のため、情報比較装置を構成するコンピュータとして、CPU、メモリ、記憶媒体、ディスプレイ等を備えた一般的な汎用コンピュータ(図示省略)を用い、記憶媒体に本実施形態の情報比較プログラムが格納され、またこの記憶媒体が事物情報のデータベースとしても機能し、当該プログラムを適宜メモリに読み込んでCPUにより情報が処理されるものとしている。しかしながら本発明の構成は必ずしもこの限りではなく、例えば事物情報はインターネットに接続されたWeb上の複数のコンピュータ(データベース)に分散して記憶されているものであってもよい。また、情報比較プログラムは、ユーザが利用する汎用コンピュータからASP(Application Service Provider)として機能する外部のコンピュータに格納されているものを利用する形態や、ユーザの汎用コンピュータにおけるWebブラウザからアクセスしたWebサーバにより提供されるWebアプリケーションとして機能する形態であってもよい。
【0026】
前提として、本実施形態で扱われる事物情報Tは、次式(1)により定義される。
【0027】
【数1】
ここで、次式(2)(3)のように、分量と出現頻度(重みと言い換えることもできる)を持たず事物情報Tを説明する書誌的事項であるラベルli(i番目のlを意味する)の集合をラベル集合Bとし、分量qi(i番目のqを意味する)と出現頻度に基づいて定められる重みwi(i番目のwを意味する)を有する要素fi(i番目のfを意味する)の集合を組成Cと定義する。次式(2)(3)において、NbとNcは、それぞれラベル集合Bと組成Cの要素数である。すなわち、図1にも示すように、事物情報Tは、ラベル集合Bと組成Cとにより定義される情報である。
【0028】
【数2】
【0029】
【数3】
【0030】
本実施形態の情報比較プログラムは、図2に示すように、比較対象決定ステップS1、ラベル受付ステップS2、事物情報抽出ステップS3、比較基準決定ステップS4、要素抽出ステップS5、一致度算出ステップS6、一致度出力ステップS7の各工程を有している。したがて、本実施形態の情報比較装置は、当該プログラムの命令により作動することで、前述の各ステップS1〜S7に相当する機能手段を有していることになる。
【0031】
比較対象決定ステップS1では、例えばデータベースDBに格納されている事物情報のうちユーザによる選択・入力で決定される事物情報Tの組成Cを、比較対象となる事物情報Ttの組成Ctとして決定する。ここで、1つの事物情報Tの組成Cを比較対象となる事物情報Ttの組成Ctとする場合は、組成Ctとして元の組成Cをそのまま利用すればよいが、複数の事物情報Tの組成Cを1つに集約して比較対象となる事物情報Ttの組成Ctとする場合には、例えば図3に示すような工程によりそれらの組成Cを平準化して平準化組成を求め、その集約後の事物情報Tの平準化組成を比較対象となる事物情報Ttの組成Ctとする。
【0032】
ここで、M個の事物情報Tt1,Tt2,…TtMの組成の和CTt1…TtMは次式(4)の通り定義される。
【0033】
【数4】
式(4)中、fuiは、事物情報Tt1,Tt2,…TtMに含まれるユニークな要素を表し、quiは、事物情報Tt1,Tt2,…TtMに含まれる各要素fuiの分量qの和を表し、wuiは、事物情報Tt1,Tt2,…TtMに含まれる各要素fuiの重みwの和を表している。
【0034】
具体的には、本プログラムにおいて比較対象決定ステップS1ではまず、抽出された複数の事物情報Tt1,Tt2,…TtMの組成Ct1,Ct2,…CtMについて、それら各組成の要素の和集合{fi}を生成する(図3;ステップS11)。和集合は、例えば次式(5)により求められる。なお、図3のフローチャートは、複数の事物情報Tの組成Cの平準化組成(本実施形態では平均)Cavgを求める場合を一般化した工程を示している。
【0035】
【数5】
ここで、式(5)中のftjiは、j番目の事物情報Tにおけるi番目の要素fを表している。次に、比較基準対象ステップS1では、各事物情報Tの組成Cの同じ要素f名を持つ要素f同士の分量qを加算し、和集合{fi}の各要素fに対する分量qの集合{qi}を算出する(ステップS12)。この分量1の集合{qi}は、例えば次式(6)により求められる。
【0036】
【数6】
ここで、式(6)中のqtjiは、j番目の事物情報Tにおけるi番目の要素fの分量qを表している。次に、比較基準決定ステップS4では、各事物情報Tの組成Cの同じ要素f名を持つ要素f同士の重みwを加算し、和集合{fi}の各要素fに対する分量wの集合{wi}を算出する(ステップS13)。この分量wの集合{wi}は、例えば次式(7)により求められる。
【0037】
【数7】
ここで、(7)式中のwtjiは、j番目の事物情報Tにおけるi番目の要素fの分量wを表している。
【0038】
そして、比較基準決定ステップS4は、和集合{fi}の各要素fに対応する分量qの和集合{qi}を、加算対象の事物情報数Mで割り、和集合{fi}の各要素fに対応する分量qの集合{qi}を更新し(ステップS14)、また、和集合{fi}の各要素fに対応する重みwの和集合{wi}を、加算対象の事物情報数Mで割り、和集合{fi}の各要素fに対応する重みwの集合{wi}を更新することで(ステップS15)、次式(8)で示されるように、平準化組成(組成Cの平均)Cavg,Tt1…TtMを算出し(ステップS16)、この平準化組成Cavg,Tt1…TtMを比較対象となる事物情報Ttの組成Ctとして決定する。
【0039】
【数8】
【0040】
次に、情報比較プログラムは、ラベル受付ステップS2において、決定した事物情報Ttのラベル集合Bに含まれるラベルlを例えばディスプレイ表示等により提示して1つ以上のラベルlの選択を促し、若しくはユーザに適宜のラベルlの入力を促し、選択又は入力されたラベルlを受け付ける。そして情報比較プログラムは、事物情報抽出ステップS3において、この受け付けたラベルlをキーワードとして事物情報TのデータベースDBを検索し、該当する1又は複数のラベルlをラベル集合Bに含む事物情報T(事物情報の集合{Tti})を抽出する。
【0041】
比較基準決定ステップS4では、前ステップS3で抽出された事物情報Tの組成Cを比較基準となる事物情報Tsの組成Csとして決定する。ここで、抽出された事物情報Tが1つだけであれば、その事物情報Tの組成Cを比較基準となる事物情報Tsの組成Csとすればよい。一方、抽出された事物情報Tが複数である場合は、図3及び式(4)〜(8)で示したものと同様の工程によって求められた平準化組成Cavgを比較基準となる事物情報Tsの組成Csとして決定する。
【0042】
次に、要素抽出ステップS5では、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csの両方に共通して存在する共通要素fl、比較対象となる事物情報Ttの組成Ctのみに存在する比較対象ユニーク要素fm、比較基準となる事物情報Tsの組成Csのみに存在する比較基準ユニーク要素fnを抽出する(図4;ステップS21)。ここで、要素抽出ステップS5から次の一致度出力ステップS7までの工程の具体例を図4に示す。これら共通要素fl、比較対象ユニーク要素fm、比較基準ユニーク要素fnの関係は、例えば図5に示されるようなものである。同図において、Nt,Nsは、それぞれ比較対象となる事物情報Tt,比較基準となる事物情報Tsに含まれる要素fの個数であり、Nl,Nm,Nsはそれぞれ要素fl、fm、fnの要素数である。なお、以下の工程においては、本実施形態では抽出された共通要素fl、比較対象ユニーク要素fm、比較基準ユニーク要素fnを全て利用した態様を示しているが、必ずしもこの限りではなく、各要素fl,fm,fnについて、ある特定の条件を満たす要素のみを利用することもできる。
【0043】
そして、一致度算出ステップS6では、前ステップS5で抽出した共通要素fl、比較対象ユニーク要素fm、比較基準ユニーク要素fnを用いて、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csの一致度を算出する。具体的には、図4に示すように、まず共通要素flの分量qと重みwから構成される不一致度D1を算出し(ステップS22)、比較対象ユニーク要素fmの分量qと重みwから構成される不一致度D2を算出し(ステップS23)、比較基準ユニーク要素fnの分量qと重みwから構成される不一致度D3を算出し(ステップS24)、これらの不一致度D1,D2,D3を、予め与えられた係数α,β,γで各々重みづけて加算した値(次式(9))から定まる値を一致度Scとして算出する(ステップS25、次式(10))。このようにして算出された一致度Scは、一致度出力ステップS7により出力される(ステップS26)。出力された一致度は、ユーザにとって比較結果として把握しやすい表示形式に変換するなどしてさらに出力することができる。
【0044】
【数9】
【0045】
【数10】
ここで、式(9)は、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとの差Dcを定義するものである。同式(9)において、右辺第1項は、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとに共通して含まれる要素(共通要素fl)に関する差異を表しており、比較対象となる事物情報Ttにおける要素ftiが比較基準となる事物情報Tsにおける要素fsiがどの程度異なる分量で含まれるかで測っている。また、同式右辺第2項と第3項は、それぞれ比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csのみにそれぞれ含まれる要素数に応じた差異を表している。係数α,β,γを適宜に割り当てて差Dcを計算することで、比較対象となる事物情報Ttの組成Ctが比較基準となる事物情報Tsの組成Csと比べてどの程度かけ離れているか、各項に対して適切な重み付けをしながら把握することができる。また、式(10)は、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとの類似度Scを定義するものである。類似度Scは0〜1の間の値を取り、1に近いほど類似性が高く、0に近いほど類似性が低いことを表している。
【0046】
以上のように、本実施形態の情報比較プログラム及び情報比較装置では、ある事物情報Ttがユーザにより指定されたとき、予めそのユーザが信頼できる基準として選択された事物情報の集合から事物情報Ttと同じクラスに属する他の事物情報の集合、換言すれば、事物情報Ttとのラベル集合Btと同じラベルlを有しているか、若しくはそのラベルlを含んでいるラベル集合Bを有している事物情報の集合{Tti}をラベルlを利用して抽出したうえで、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csの差Dcや一致度Scを計算し出力することで、ユーザによる比較対象とした事物情報Ttの妥当性判断の指標となる情報を提示することが可能である。
【0047】
なお、本発明は上述した実施形態に限定されるものではない。特に、一致度Scの算出手法は次のように種々変更することができる。例えば、上記実施形態では、不一致度D1,D2,D3の全てを利用して事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとの差Dcと一致度Scを求めたが、不一致度D1,D2,D3を必ずしも線形結合して1つの値Dc,Scを求めなくてもよく、不一致度D1,D2,D3を独立して扱っても構わない。図6〜図8は、不一致度D1,D2,D3をそれぞれ別個に用いて一致度Scを求める工程を示したフローチャートである。これら各図において、ステップS31,S34(以上図6)、ステップS41,S44(以上図7)、ステップS51,S54(以上図8)は、それぞれ図4におけるステップS21,S26と同様の工程である。ただし、ステップS31,S41,S51においては、以下の演算工程で全ての要素(共通要素、比較対象ユニーク要素、比較基準ユニーク要素)を使わないときは、これらのうち必要な要素のみを抽出すればよい。また、図6のステップS32は図2のステップS22と同様の工程であり、図7のステップS42は図2のステップS23と同様の工程であり、図8のステップS52は図2のステップS24と同様の工程である。特に図6においては、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとに共通して含まれる共通要素flの分量と重みから構成される不一致度D1から定まる値を一致度Scとして算出している。また、図7においては、比較対象となる事物情報Ttの組成Ctにのみ含まれる比較対象ユニーク要素fmの分量と重みから構成される不一致度D2から定まる値を一致度Scとして算出している。また、図8においては、比較基準となる事物情報Tsの組成Csにのみ含まれる比較対象ユニーク要素fnの分量と重みから構成される不一致度D3から定まる値を一致度Scとして算出している。このように、不一致度D1,D2,D3を独立して扱うことにより、それぞれに独立した判断基準を設けることができ、それに基づいた情報(組成)の一致又は不一致の判別指標を提示することが可能となる。なお、ここでは、まず不一致度D1,D2,D3を求めてから一致度を算出した例を示したが、一致度を先に求めてから不一致度を算出することも可能である。
【0048】
また、上述した実施形態における工程を概略すると、図9に示すフローチャートで示すように、比較対象となるある事物情報Ttとそれに類似した事物情報Tsを比較基準として比較する工程として表される。この場合、比較対象となるある事物情報Ttを特定した後、その事物情報Ttと同クラスに属する事物情報T1,T2,…TMをデータベースDBから取得し(ステップS61)、その同クラスに属する事物情報T1,T2,…TMの組成C1,C2,…CMの平均Cavg,Tt1…TtM}を計算し(ステップS62)、さらに事物情報Ttの組成Ctと平均Cavg,Tt1…TtM}との一致度Scを計算することで(ステップS63)、この一致度Scに応じた比較結果を生成(ステップS64)して出力(ステップS65)することとなる。すなわち、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとの比較においては、1つの事物情報Tの組成C(又は複数の事物情報Tの平準化組成Cavg)を比較対象となる事物情報Ttの組成Ctとし、複数の事物情報Tの平準化組成Cavgを比較基準となる事物情報Tsの組成Csとし、この組成Ct,Cs同士を比較した。本発明ではこのような工程以外にも、比較対象となる事物情報Ttと比較基準となる事物情報Tsとを比較することができる。
【0049】
図10に示すフローチャートは、1つの事物情報Tの組成C(又は複数の事物情報Tの平準化組成Cavg)からなる比較対象となる事物情報Ttの組成Ctと比較対象となる複数の事物情報Tsの組成Csとを個別に比較して一致度を求めた後、それらの一致度を平準化(又は平均)して比較対象と比較基準の一致度Scを出力する工程を示している。すなわち、比較対象となるある事物情報Ttを特定した後、その事物情報Ttと同クラスに属する事物情報T1,T2,…TMをデータベースDBから取得し(ステップS71)、それらの事物情報T1,T2,…TMの組成C1,C2,…CM各々について、事物情報Ttの組成Ctとの一致度Sc1,Sc2…ScMを計算し(ステップS72)、一致度Sc1,Sc2…ScMから構成される一致度Scを計算して(ステップS73)、その一致度Scに応じた比較結果を生成(ステップS74)して出力(ステップS75)するようにすればよい。
【0050】
また、図11に示すフローチャートは、1つの事物情報Tの組成C(又は複数の事物情報Tの平準化組成Cavg)からなる比較対象となる事物情報Ttの組成Ctと、その事物情報Ttに類似した事物情報Tの代表Taとを比較して両者の一致度Scを出力する工程を示している。ここで、事物情報Ttに類似した事物情報Tの代表Taとは、複数の事物情報Tの組成Cの平均に最も近い組成Cを有する事物情報Tのことを意味している。すなわち、比較対象となるある事物情報Ttを特定した後、その事物情報Ttと同クラスに属する事物情報T1,T2,…TMをデータベースDBから取得し(ステップS81)、その同クラスに属する事物情報T1,T2,…TMの組成C1,C2,…CMの平均(平準化組成)Cavg,Tt1…TtMを計算する(ステップS82)。そして、平均Cavg{1…M}と最も一致度の高い組成を有する事物情報TaをデータベースDBから取得して(ステップS83)、その事物情報Taを比較基準となる事物情報とし、比較対象となる事物情報Ttの組成Ctと比較基準とした事物情報Taの組成Caとの一致度Scを計算して(ステップS84)、その一致度Scに応じた比較結果を生成(ステップS85)して出力(ステップS86)するようにすればよい。
【0051】
その他、各部の具体的プロセスや構成についても上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で種々変形が可能である。
【実施例】
【0052】
ここで、本発明を試験的に実装した情報比較システムの一実施例について説明する。本実施例は、料理レシピをコンテンツとして、ユーザが選択したレシピに対して、ユーザが比較基準としたい他のレシピとの比較を行うものである。本実施例は、上記実施形態のように1台の汎用コンピュータ上で実現される情報比較システムの例を示しているが、例えばユーザの汎用コンピュータとサーバコンピュータをインターネットに接続させて、ユーザが汎用コンピュータ上のWebブラウザを通じてサーバコンピュータに格納されている情報比較プログラムを利用できるように構成することも可能である。料理レシピのデータベースは、サーバコンピュータに設けてもよいし、サーバコンピュータが利用可能なWeb上又はLAN上の記憶媒体に設けてもよい。特に、Web上で利用可能なコンピュータの記憶媒体に記録されている料理レシピの情報はそれぞれ様々な形式で記載されていると考えられるため、その場合は予め又は情報比較の都度、サーバコンピュータに必要な料理レシピの情報を集めて一定の形式に統一しておくことが望ましい。本実施例ではこのように、Web上で利用できる料理レシピを提供している複数のWebサイト(料理の講師と一般投稿者によるレシピが利用可能な「サイトA」,一般投稿者のみによるレシピが利用可能な「サイトB」)を利用してそれらサイトA,サイトBから料理レシピを抽出しておき、サーバコンピュータにおいて所定形式に整えてデータベースとしているものとする。
【0053】
一般的に料理レシピは、タイトル、著者、日付などの書誌的情報の他に、必要な材料一覧及び作り方が記述されている。特に、材料一覧は、材料名とその分量から構成されているため、各レシピを事物情報、材料を各構成要素、分量を各構成要素の分量と捉えると、本発明を適用し易い一例であるといえる。そこで本実施例では、料理レシピの書誌的情報(ラベル)の集合をラベル集合とし、レシピの材料一覧自体を組成として取り扱うものとする。図12に、本実施例におけるWebサイトA,Bからの情報収集、インデキシングの処理工程を概略的に示す。
【0054】
まず、ラベル集合に含まれるラベル(書誌的情報)の抽出(図12;ステップSa)として、タイトル、著者、著者タイプ(「講師」又は「一般投稿者」)、日付、総分量と単位(「N人分」といった記述における「N」と「人分」)を抽出する。ここでは特定のWebサイトA,Bのページを対象としているため、予め確認したdivタグのid属性やclass属性等を参照することにより各情報を検出する。また、レシピに関するキーワードや、サイトにおける当該レシピの分類カテゴリ、サイト閲覧者が付与可能なタグワード等についてもラベルとして抽出する。キーワードについては、予め収集した料理のキーワードリスト(1200弱の料理名からなる)を作成し、各レシピのタイトルにキーワードリスト中の語が含まれていればその語をキーワードとして登録する。また、分類カテゴリとタグワードについては、予め確認したdivタグのid属性やclass属性等を参照することにより検出する。
【0055】
次に、材料一覧の記述範囲を検出する(ステップSb)。材料一覧の記述範囲についても、本実施例は特定のWebサイトA,Bを利用しているため、予め確認した予め確認したdivタグのid属性やclass属性等を参照することにより検出できる。
【0056】
最後に、検出した材料一覧の範囲に記述されたテキストから、組成を抽出する(ステップSc)。図13に、材料一覧の記述例を示す。ここで、組成を構成する各要素は、材料名,備考,分量,単位から構成されるとした。1つのレシピのみについては、1回のみ出現する(出現頻度1)材料についての「重み」は「1」であるが、複数回出現する材料(調味料等)についての重みはその出現回数に依存する。
【0057】
このように抽出された組成に基づき、まず分量と単位を統語パターンから検出する。料理レシピの記載方法は前述したように様々であり、また料理レシピに特徴的な記述方法が存在するため、これらを統一してデータとして利用し易くすべく、ここでは1行ごとに以下の5種類のパターンにマッチするかどうかを調べ、各場合に応じて分量と単位を抽出する。
(1)あいまいな分量の定型的記述
「適量」や「適宜」、「少々」等の定型的記述Pを検出し、分量=1,単位=P、とした。
(2)大小+数値+強弱からなる記述
「大1弱」等の記述を検出し、大は大さじ、小は小さじと解釈し、分量=数値,単位=大さじ又は小さじ、とした。
(3)前置単位Up+数値+強弱、又は数値+アルファベット単位Ua+強弱からなる記述
「カップ2」や「10cc強」等の記述を検出し、分量=数値,単位=Up又はUa、とした。
(4)容器単位Ub+数値+日本語単位Ujからなる記述
「3枚」や「お茶碗2杯」等の記述を検出し、分量=数値,単位=Uj又はUj+Ua、とした。
(5)上記以外でシンボルマーク(“●”等)で始まる記述
分量=1,単位=適量、とした。
【0058】
次に、統語パターンでマッチした部分の前に該当する部分から材料名と備考を抽出する。括弧()で記述された部分を材料名として抽出した。さらに、表記揺れ等の影響を最小限とするため、以下の処理を行った。
(1)省略形の補完
例えば、「濃い口」は「濃い口しょうゆ」として補完する。
(2)「各」の展開
分量で検出した「各+数値」をそれぞれの材料名の分量と単位に分解する。例えば、(材料名=あわ・大麦,分量=各1/4,単位=カップ)を(材料名=あわ,分量=1/4,単位=カップ),(材料名=大麦,分量=1/4,単位=カップ)に展開する。
(3)材料名のかな変換
形態素解析を行い、材料名をかなに変換する。
(4)分量の正規化
あいまいな分量表記の統一と分数による数表記の数値変換を行う。例えば、「少し」→「少々」に統一。「1/2」→「0.5」に変換。
(5)単位の正規化
あいまいな単位表記の統一とアルファベット文字による単位へ変換可能な表記の変換を行う。例えば、「コ」→「個」に統一、「キログラム」→「g」に変換。
(6)単位の変換
異なる単位間で変換可能な単位を変換する。例えば、(材料名=酒,分量=1,単位=小さじ)を(材料名=酒,分量=5,単位=g)に変換。
以上により、抽出したラベル(書誌的情報)と組成(=材料名、備考、分量、単位)をデータベースDBに登録する。
【0059】
図14に、料理レシピの妥当性判断を支援するシステム実装例のWebページの画面例を示す。ユーザは、閲覧中の料理レシピに関するあるWebページが自分に合った味付けの料理と期待できそうか確認したい場合、ユーザはそのWebページのURLを画面のURLボックスに入力し、比較ボタンを押す。結果の画面では、比較結果のメッセージ(「オーソドックスな味付けのようです」や「酢が多めのようです」等)と、比較結果のグラフが表示される。同図の画面例において、グラフの縦軸は各材料に対応し、横軸は同じ料理の他のレシピの平均を1とした場合にそれと比較した現在のレシピの各材料の分量の割合を示す。本実施例では、比較基準となるレシピとして、サイトAの講師のレシピがデフォルトとして登録されているが、デフォルトの登録はユーザの好みに応じて適宜編集できるようにすることができる。
【0060】
ここで、料理の講師と一般投稿者によるレシピの利用が可能なWebサイトAと、一般投稿者のみによるレシピの利用が可能なWebサイトBのWebページを対象として行った、本実施例のシステムの実証試験について説明する。
【0061】
まず。サイトBにおけるある酢豚のレシピを選択して比較対象とし、サイトAの講師による酢豚のレシピを比較基準として、両者を比較する場合を考える。
【0062】
サイトAの講師による酢豚レシピ6件分の組成の平均を図15に示す。平均分量は各材料の分量の平均であり、重みはレシピ1件あたりの材料名の平均出現回数を示す(但し、重みが0.2よりも小さい材料については省略している)。この試験では、レシピ1件中に同じ材料名が複数回出現した場合、出現した回数分カウントしており、分量も区別なく加算して平均を求めている。また、適量についての分量はあくまで仮想的な分量としての平均であり、適量自体の曖昧さを考慮して解釈する必要がある。重みの高い順にどの酢豚のレシピにも不可欠な材料が並んで示されていると解釈することができる。
【0063】
次に、サイトBにおけるある酢豚レシピと前述したサイトAにおける酢豚レシピの平均との差の結果を図16に示す。本試験では、サイトBの酢豚レシピ(ある一般投稿者により投稿されたレシピ)はサイトAの講師による酢豚レシピの平均と比較して、片栗粉、水、酢、サラダ油の割合が高いことが分かる。なお、サイトBのレシピにのみ記載された材料(組成)である比較対象ユニーク要素と、サイトAのレシピにのみ記載された材料(組成)である比較基準ユニーク要素の各割合は計算できないため、空欄としている。このような比較結果を図14に示したようなWebページとして画面表示すれば、ユーザは自分が選択した料理レシピと他のレシピとを比較した結果を容易に把握することができるため、比較基準となる料理レシピがユーザ自身にとって信頼性のある情報であれば、その情報を基準とした自ら選択した情報の妥当性を的確に判断することができるようになる。
【0064】
以上のように、本発明は上述した実施例のような料理レシピの例に限らず、またWeb上の情報に限らず、書誌的情報の集合であるラベル集合と、要素とその分量及び重み(出現頻度)からなる組成とから構成された種々の情報を、他の関連のある情報とユーザの信頼性という観点を含めつつ比較することで、ユーザによる情報の妥当性判断の指標を提供することができるものである。
【産業上の利用可能性】
【0065】
本発明は、書誌的情報の集合であるラベル集合と、要素とその分量及び重み(出現頻度)からなる組成とから構成された多数の情報を扱う場合であれば、それらの情報を比較する情報比較サイトの構築や、情報比較ソフトウェアの制作、又はコンピュータ装置による専用の情報比較装置の製造といった分野に寄与するものである。
【符号の説明】
【0066】
DB…事物情報のデータベース
T…事物情報
B…ラベル集合
C…組成
l…ラベル
q…分量
w…重み(出現頻度に基づく重み)
【技術分野】
【0001】
本発明は、数多くの情報からある情報がユーザ自身にとって妥当な情報かどうかを判断する際に指標となるように、情報を比較するプログラムと、このプログラムに従って作動するコンピュータ装置に関するものである。
【背景技術】
【0002】
近年のIT技術の高度化とそれに伴う情報量の増大によって、数多ある情報の中からユーザ自身にとって本当に意味のある情報を探し出すための労力が却って多大となっている。特に、コンピュータ装置の操作に不慣れな一般の利用者には、どの情報をどのように見ていけばよいかということにさえも戸惑うことも珍しくない。しかしながら、そのような一般利用者にとっても、信頼性の低い情報や自分の役に立たない情報は不必要であるものの、なるべく多様な意見や見方については知りたいというニーズは少なからず存在する。
【0003】
インターネットを利用してアクセスできるWebコンテンツは、その量や多様性の面からは非常に膨大であり、その質に関しては、本当に役に立つ高質な情報と、嘘やデマのような質の低い情報が玉石混淆の状態で存在しているという問題がある。現状では、多様な検索エンジンを利用することができるようになっており、キーワードを含む文字検索による情報の収集は容易となっているが、ユーザがそれらの検索結果から情報の質を効果的に見分ける手段は、ユーザ自身が情報を閲覧して判断する方法以外には、実質的に存在しているとは言い難い。
【0004】
情報の信頼性については、Webページのどのような要素が利用者の当該ページに対する信頼度に影響を与えるかについての大規模な被験者実験とその分析結果が報告されている(非特許文献1参照)。また、Webページのテキストデータを対象として、利用者に信頼性判断の基礎となる分析結果を提示することで、利用者自身による情報の信頼性判断を支援することを目的とした研究報告もなされている。これらの報告では、「誰々がどうした」といった述語項構造を処理の基本単位とした自然言語処理に基づくアプローチがとられており、情報内容、情報発信者、情報外観、社会的評価の4つの基準から分析結果を提示することで、利用者が様々な観点から分析結果を俯瞰して情報の信頼性を効率よく判断することにつなげるようにする手法が提案されている(非特許文献2,3参照)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】”What makes Web sites credible?”, B.J. Fogg, J. Marshall, O. Laraki, A. Osipovich, C. Varma, N. Fang, J. Paul, A.Rangnekar, J. Shon, P. Swani, M. Treinen, a report pn a large quantitativestudy, Proc. of ACM SIGCHI conference on Human factors in computing systems,pp. 61-68, 2001
【非特許文献2】「構造的言語処理による情報分析研究」,黒橋禎夫,言語処理学会 第13回年次大会(NLP2007)ワークショップ(W2),pp.17-18,2007
【非特許文献3】”Evaluation Data and PrototypeSystem WISDOM for Information Credibility Analysis”, H. Miyamori, S. Akamine,Y. Kato, K. Kaneiwa, K. Sumi, K. Inui, S. Kurohashi, Internet Research, Vol.18, No. 2, pp. 155-164, 2008
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、非特許文献1の研究では、より信頼度の高いWebページ作りのための指針が導出されているものの、Webページが閲覧者にとってどの程度信頼できるのかという自動分析がなされているわけではない。また、非特許文献2や非特許文献3の研究では、分析結果はクエリに関連したWebページ群に基づいたものではあるが、利用者の情報に対する信頼性に関する様々な観点という要素については考慮されておらず、同じクエリに対してはどの利用者にも一様な分析結果が提示されるのみである。
【0007】
以上のような問題に鑑みて、本発明の主たる目的は、利用者の情報信頼性に対する様々な観点の違いを考慮して、利用者各自が自分の基準に照らして信頼できる情報はどれであるかを予め選択でき、その選択した情報と他の情報と比較することで、当該他の情報の妥当性を利用者が容易に把握できるようにするためのプログラムと、当該プログラムに従って作動するコンピュータ装置を提供することにある。
【課題を解決するための手段】
【0008】
本発明は、ある事物に関する情報を構成する要素であって分量と出現頻度が付与された要素の集合である組成と、その事物を説明する分量及び出現頻度に関する情報を持たない書誌的情報であるラベルの集合からなるラベル集合とから構成される事物情報を比較対象とし、他の事物情報を比較基準として、コンピュータを作動させることにより、比較対象の事物情報と比較基準の事物情報とを比較するプログラムであり、以下の点を特徴とするものである。なお、この情報比較プログラムにより作動するコンピュータ装置である情報比較装置も、本発明に含まれるものであることを付言する。
【0009】
すなわち、本発明の情報比較プログラムは、1つ以上の事物情報の指定を受け付けて比較対象となる事物情報を決定する比較対象決定ステップと、1つ以上のラベルの指定を受け付けるラベル受付ステップと、ラベル受付ステップで受け付けたラベルに基づいて、複数の事物情報を記憶している1つ以上のデータベースから該当するラベルを含むラベル集合を有する1つ以上の事物情報における少なくとも組成を抽出する事物情報抽出ステップと、この抽出された1つの事物情報の組成又は2つ以上の事物情報の組成の値を平準化した平準化組成を比較基準となる事物情報の組成として決定する比較基準決定ステップと、比較対象となる事物情報の組成に含まれる要素と比較基準決定ステップで決定された比較基準となる事物情報の組成に含まれる要素とにおいて共通する要素である共通要素、比較対象となる事物情報の組成のみに含まれる比較対象ユニーク要素、比較基準となる事物情報の組成にのみ含まれる比較基準ユニーク要素、の3種類の要素のうち何れか1種以上を抽出する要素抽出ステップと、この抽出された共通要素、比較対象ユニーク要素、比較基準ユニーク要素の何れか1種以上について、これらの各要素に含まれる1つ以上の分量を用いて定義される値と1つ以上の出現頻度を用いて定義される値とに基づいて求められる値のうち、共通要素から得られた値、比較対象ユニーク要素から得られた値、比較基準ユニーク要素から得られた値の1つ以上の組み合わせにより、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度を算出する一致度算出ステップと、この算出された一致度を出力する一致度出力ステップと、を有して構成される。
【0010】
本発明において「事物情報」とは、ある事やある物(総称して「事物」という)を表現した情報であって、ここでは前述の通り、「組成」と「ラベル集合」によって定義される。「組成」とは、その事物を構成している情報のうち、分量に関する情報と、その要素が出現する頻度(出現頻度)に関する情報とを含む要素を1つ以上含んでいる。出現頻度は、数値として表す場合に、その要素の「重み」として捉えることもできる。「ラベル」とは、組成中の要素のような分量と出現頻度を含まない情報であって、例えばその事物の作成者、名称、表題、登場人物、日時などの書誌的情報を意味し、このようなラベルの集合を「ラベル集合」と称するものとする。事物情報は、1つのデータベースに集約して記憶させておいてもよいし、複数のデータベースに分散して記憶させておいてもよい。
【0011】
比較対象決定ステップでは、ユーザにより指定された事物情報を受け付けて比較対象となる事物情報であることを決定する。この場合、比較対象となる事物情報については、データベースから選択された事物情報をユーザにより指定されることにより利用してもよいし、ユーザが本発明のプログラム又は当該プログラムを格納したコンピュータ装置を利用する際に、独自に入力したものを利用してもよい。このとき比較対象となる事物情報は、指定された(独自に入力された事物情報を含む)1つの情報であってもよいし、複数の事物情報を集約して生成された1つの事物情報であってもよい。
【0012】
ラベル受付ステップでは、例えばユーザが希望するラベルを1つ以上指定した場合に、そのラベルを検索のキーワードとして指定する。ユーザが指定できるラベルは、予めデフォルトで決められていてもよいし、その都度選択可能なラベルが複数生成されてユーザに提示されるようにしてもよい。また、ユーザが任意に入力するキーワードもラベルとして取り扱い得るようにすることもできる。事物情報抽出ステップでは、この指定されたラベルに基づいてデータベースを検索し、該当するラベルをラベル要素に含んでいる事物情報を抽出する。なお、ラベルには上述したような事物情報のラベル集合中のラベルだけでなく、事物情報を記述したデータのファイル名や当該データの存在位置(URL等)も含めて検索対象とすることができる。また、後述する一致度の算出結果や、その算出結果に基づいてユーザに提供される比較結果等もラベルに含めて、次回以降の検索対象としてもよい。さらには、組成の一部(要素名や分量)も検索対象として、その組成の一部と共通するかある程度の一致度を有する組成を備えた事物情報を抽出できるようにもすることができる。その場合、当該組成の一部をラベルにも該当する情報として取り扱ってもよい。
【0013】
比較基準決定ステップでは、検索の結果抽出された事物情報を比較対象となる事物情報として決定するが、比較対象決定ステップと同様に、比較基準となる事物情報についても、1つの事物情報である場合、若しくは複数の事物情報である場合があり得る。1つの事物情報を比較基準とする場合は、その事物情報における組成を比較対象とすればよいし、複数の事物情報に基づいて比較基準となる事物情報を生成する場合は、それらの事物情報の組成を平準化したもの(「平準化組成」と称する)を比較対象とすればよい。なお、本発明において「平準化」とは、相加平均、相乗平均、調和平均、加重平均、中央値、最頻値等の統計学的な手法を適宜用いて、複数の組成を均すことをいう。
【0014】
要素抽出ステップでは、比較対象となる事物情報と比較基準となる事物情報に共通して含まれる組成中の要素(「共通要素」と称する)、比較対象となる事物情報のみに含まれる組成中の要素(「比較対象ユニーク要素」と称する)、比較基準となる事物情報のみに含まれる組成中の要素(「比較基準ユニーク要素」と称する)、の3種類の要素のうちの少なくとも1種以上を抽出する。
【0015】
このようにして抽出された1種類以上3種類までの要素について、分量から定義される値と出現頻度から定義される値を利用して所定の定義(若しくは演算式)に基づく値を求め、これら3種類の要素から求められた値を1つ以上組み合わせて所定の演算式で計算することで、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度を算出する。なお、分量から定義される値と出現頻度から定義される値を求める際には、抽出された3種類の要素のそれぞれにおける全ての要素を利用する必要は必ずしもなく、ある条件を満たす一部の要素のみを用いることも許容される。そして、このようにして算出された一致度は、一致度出力ステップにより、画面表示や印刷や別のコンピュータ装置若しくは別のプログラムへアウトプットされることとなる。また、一致度を算出する演算式を工夫することで、比較対象となる事物情報の組成と比較基準となる事物情報の組成との「不一致度」を求めるようにすることも可能である。
【0016】
本発明の情報比較プログラム又は情報比較装置によれば、このような事物に関する情報同士を比較するに際して、上述の通り「組成」と「ラベル集合」という概念を導入し、ユーザの指定により決められる比較対象となる事物情報と、ラベルに基づいて検索・抽出される比較基準となる事物情報とを、組成(分量と出現頻度)によって比較して両者の一致度を求めることで、比較対象である事物情報の比較基準である事物情報に対する妥当性判断の基準として、この一致度をユーザに提供することができるようになる。すなわち、ユーザ自身にとって必要な意味のある情報として、ユーザが選んだ事物情報がそれと関連のある(共通のラベルを有する)他の事物情報とどの程度似ているのか(若しくはどの程度かけ離れているのか)という情報を提供することができる。
【0017】
特に本発明では、事物情報抽出ステップにおいて抽出した比較基準となる事物情報が2つ以上である場合は、比較基準決定ステップにおいて、これら複数の事物情報の組成の値を平準化するに際して、複数の事物情報の組成における要素の和集合を求め、平準化組成を、この和集合に含まれている各要素における分量の和の平均と、この和集合に含まれている各要素の出現頻度の和の平均とによって定義し、比較基準となる事物情報の組成として決定するようにすれば、1つの比較対象となる事物情報(複数の事物情報を集約して1つの事物情報と見なす場合も含む)の組成と、複数の事物情報から集約された比較基準となる事物情報の組成とを容易に比較することができるようになる。ここで、「平均」とは、上述した「平準化」と同様に、相加平均、相乗平均、調和平均、加重平均等の統計学的な手法を適宜用いて得られる平均値を意味する。
【0018】
また本発明では、上述のように1つの比較対象となる事物情報(複数の事物情報を集約して1つの事物情報と見なす場合も含む)の組成と、1つの事物情報の組成又は複数の事物情報を集約しそれらの組成を平準化して得られる1つの比較対象となる事物情報の組成(平準化組成)とを比較するだけでなく、1つの比較対象となる事物情報(複数の事物情報を集約して1つの事物情報と見なす場合も含む)の組成と、複数の比較対象となる事物情報の組成とを個別に比較し、それらの結果をとりまとめて比較対象と比較基準の一致度を求めることも可能である。
【0019】
その場合、本発明の情報比較プログラムは、1つ以上の事物情報の指定を受け付けて比較対象となる事物情報を決定する比較対象決定ステップと、1つ以上のラベルの指定を受け付けるラベル受付ステップと、この受け付けたラベルに基づいて、複数の事物情報を記憶する1つ以上のデータベースから該当するラベルをラベル集合に有する複数の事物情報における少なくとも組成を抽出する事物情報抽出ステップと、これらの抽出された複数の事物情報の組成をそれぞれ比較基準となる事物情報の組成として決定する比較基準決定ステップと、それぞれ決定された比較対象となる事物情報の組成に含まれる要素と比較基準となるそれぞれの複数の事物情報の組成に含まれる要素とにおいて共通する要素である共通要素と、比較対象となる事物情報の組成のみに含まれる比較対象ユニーク要素と、比較基準となる事物情報の組成にのみ含まれる比較基準ユニーク要素の何れか1種以上を抽出する要素抽出ステップと、これらの抽出された共通要素、比較対象ユニーク要素、比較基準ユニーク要素のうち何れか1種以上について、これらの各要素に含まれる1つ以上の分量を用いて定義される値と1つ以上の出現頻度を用いて定義される値とに基づいて求められる値のうち、共通要素から得られた値、比較対象ユニーク要素から得られた値、比較基準ユニーク要素から得られた値の1つ以上の組み合わせにより、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度をそれぞれ算出し、それらの一致度を事物情報抽出ステップで抽出した事物情報の組成の数で平準化することにより、比較対象となる事物情報の組成と比較対象となる複数の事物情報の組成との一致度を算出する一致度算出ステップと、この算出された一致度を出力する一致度出力ステップとを有する構成となる。なお、この情報比較プログラムにより作動するコンピュータ装置である情報比較装置も、本発明に含まれるものである
【0020】
このような情報比較プログラム又は情報比較装置であっても、前述した情報比較プログラムとは一致度の求め方が若干異なるものの、作用効果としては同様に、比較対象である事物情報の比較基準である事物情報に対する妥当性判断の基準として、この一致度をユーザに提供することができるようになる。
【0021】
以上のような各種の情報比較プログラムにおいては、前述した通り、比較対象となる事物情報が複数である場合も、それらの事物情報を1つに集約して取り扱うことが可能である。すなわち、比較対象決定ステップにおいて、指定を受け付けた事物情報が複数である場合、この比較対象決定ステップでは、それら受け付けた複数の事物情報の組成を平準化した平準化組成を、比較対象となる事物情報の組成として決定するものとすることができる。この場合、上述した比較基準となる事物情報が複数である場合と同様に、比較対象決定ステップでは、複数の事物情報の組成の値を平準化するに際して、複数の事物情報の組成における要素の和集合を求め、平準化組成を、この和集合に含まれている各要素における分量の和の平均と、この和集合に含まれている各要素の出現頻度の和の平均とによって定義し、比較対象となる事物情報の組成として決定するようにすればよい。ここで「平準化」と「平均」は、上述した意義と同じである。
【発明の効果】
【0022】
本発明によれば、事物に関する情報を「組成」と「ラベル集合」という概念で定義し、ユーザの指定により決められる比較対象となる事物情報と、ラベルに基づいて検索・抽出される比較基準となる事物情報とを、組成によって比較して一致度を求めることにより、比較対象である事物情報が比較基準である事物情報に対してどの程度妥当であるかの判断基準をユーザに提供することができるものである。したがって、本発明を利用するユーザは、自らが選んだ事物に関する情報を、それと関係がある他の情報と比較して両者の組成がどの程度一致しているのか(若しくはどの程度不一致であるのか)を容易に知ることができるので、ユーザ個々にとってその都度毎に情報の妥当性に関して信頼性が高く有益な情報か否かを判断することが容易になる。
【図面の簡単な説明】
【0023】
【図1】本発明の一実施形態である情報比較プログラムで用いられる事物情報の構成を表す概念図
【図2】同プログラムが有する処理工程の構成を示す概略図
【図3】同プログラムにおいて複数の事物情報の組成の平均を求める工程を示すフローチャート
【図4】同プログラムにおいて比較対象となる事物情報と比較基準となる事物情報との一致度を求める工程を示すフローチャート
【図5】同プログラムにおいて用いられる比較対象となる事物情報と比較基準となる事物情報の組成の関係を示す概念図
【図6】同プログラムにおいて比較対象となる事物情報と比較基準となる事物情報との一致度を求める工程の一変形例を示すフローチャート
【図7】同プログラムにおいて比較対象となる事物情報と比較基準となる事物情報との一致度を求める工程の一変形例を示すフローチャート
【図8】同プログラムにおいて比較対象となる事物情報と比較基準となる事物情報との一致度を求める工程の一変形例を示すフローチャート
【図9】同プログラムにおける情報処理工程を概略的に示すフローチャート
【図10】同プログラムにおける情報処理工程の一変形例を概略的に示すフローチャート
【図11】同プログラムにおける情報処理工程の一変形例を概略的に示すフローチャート
【図12】本発明を適用した一実施例である料理レシピの比較システムにおける情報収集、インデキシングの処理工程を概略的に示す図。
【図13】同システムにおいて用いられるデータベースにおける材料一覧の記述例を示す図
【図14】同システムにおいてユーザのコンピュータに表示されるWebページの画面例を示す図
【図15】同システムにおいて利用されるサイトAにおける料理レシピの平均を一覧にして示す図
【図16】同システムにおいて利用されるサイトBにおける料理レシピとサイトAにおける料理レシピの平均との比較結果を一覧にして示す図
【発明を実施するための形態】
【0024】
以下、本発明の一実施形態を、図面を参照しつつ説明する。
【0025】
本実施形態は、事物情報同士の一致度を求めて出力する情報比較プログラムと、このプログラムに従って作動するコンピュータからなる情報比較装置の一例である。本実施形態では説明の簡略化のため、情報比較装置を構成するコンピュータとして、CPU、メモリ、記憶媒体、ディスプレイ等を備えた一般的な汎用コンピュータ(図示省略)を用い、記憶媒体に本実施形態の情報比較プログラムが格納され、またこの記憶媒体が事物情報のデータベースとしても機能し、当該プログラムを適宜メモリに読み込んでCPUにより情報が処理されるものとしている。しかしながら本発明の構成は必ずしもこの限りではなく、例えば事物情報はインターネットに接続されたWeb上の複数のコンピュータ(データベース)に分散して記憶されているものであってもよい。また、情報比較プログラムは、ユーザが利用する汎用コンピュータからASP(Application Service Provider)として機能する外部のコンピュータに格納されているものを利用する形態や、ユーザの汎用コンピュータにおけるWebブラウザからアクセスしたWebサーバにより提供されるWebアプリケーションとして機能する形態であってもよい。
【0026】
前提として、本実施形態で扱われる事物情報Tは、次式(1)により定義される。
【0027】
【数1】
ここで、次式(2)(3)のように、分量と出現頻度(重みと言い換えることもできる)を持たず事物情報Tを説明する書誌的事項であるラベルli(i番目のlを意味する)の集合をラベル集合Bとし、分量qi(i番目のqを意味する)と出現頻度に基づいて定められる重みwi(i番目のwを意味する)を有する要素fi(i番目のfを意味する)の集合を組成Cと定義する。次式(2)(3)において、NbとNcは、それぞれラベル集合Bと組成Cの要素数である。すなわち、図1にも示すように、事物情報Tは、ラベル集合Bと組成Cとにより定義される情報である。
【0028】
【数2】
【0029】
【数3】
【0030】
本実施形態の情報比較プログラムは、図2に示すように、比較対象決定ステップS1、ラベル受付ステップS2、事物情報抽出ステップS3、比較基準決定ステップS4、要素抽出ステップS5、一致度算出ステップS6、一致度出力ステップS7の各工程を有している。したがて、本実施形態の情報比較装置は、当該プログラムの命令により作動することで、前述の各ステップS1〜S7に相当する機能手段を有していることになる。
【0031】
比較対象決定ステップS1では、例えばデータベースDBに格納されている事物情報のうちユーザによる選択・入力で決定される事物情報Tの組成Cを、比較対象となる事物情報Ttの組成Ctとして決定する。ここで、1つの事物情報Tの組成Cを比較対象となる事物情報Ttの組成Ctとする場合は、組成Ctとして元の組成Cをそのまま利用すればよいが、複数の事物情報Tの組成Cを1つに集約して比較対象となる事物情報Ttの組成Ctとする場合には、例えば図3に示すような工程によりそれらの組成Cを平準化して平準化組成を求め、その集約後の事物情報Tの平準化組成を比較対象となる事物情報Ttの組成Ctとする。
【0032】
ここで、M個の事物情報Tt1,Tt2,…TtMの組成の和CTt1…TtMは次式(4)の通り定義される。
【0033】
【数4】
式(4)中、fuiは、事物情報Tt1,Tt2,…TtMに含まれるユニークな要素を表し、quiは、事物情報Tt1,Tt2,…TtMに含まれる各要素fuiの分量qの和を表し、wuiは、事物情報Tt1,Tt2,…TtMに含まれる各要素fuiの重みwの和を表している。
【0034】
具体的には、本プログラムにおいて比較対象決定ステップS1ではまず、抽出された複数の事物情報Tt1,Tt2,…TtMの組成Ct1,Ct2,…CtMについて、それら各組成の要素の和集合{fi}を生成する(図3;ステップS11)。和集合は、例えば次式(5)により求められる。なお、図3のフローチャートは、複数の事物情報Tの組成Cの平準化組成(本実施形態では平均)Cavgを求める場合を一般化した工程を示している。
【0035】
【数5】
ここで、式(5)中のftjiは、j番目の事物情報Tにおけるi番目の要素fを表している。次に、比較基準対象ステップS1では、各事物情報Tの組成Cの同じ要素f名を持つ要素f同士の分量qを加算し、和集合{fi}の各要素fに対する分量qの集合{qi}を算出する(ステップS12)。この分量1の集合{qi}は、例えば次式(6)により求められる。
【0036】
【数6】
ここで、式(6)中のqtjiは、j番目の事物情報Tにおけるi番目の要素fの分量qを表している。次に、比較基準決定ステップS4では、各事物情報Tの組成Cの同じ要素f名を持つ要素f同士の重みwを加算し、和集合{fi}の各要素fに対する分量wの集合{wi}を算出する(ステップS13)。この分量wの集合{wi}は、例えば次式(7)により求められる。
【0037】
【数7】
ここで、(7)式中のwtjiは、j番目の事物情報Tにおけるi番目の要素fの分量wを表している。
【0038】
そして、比較基準決定ステップS4は、和集合{fi}の各要素fに対応する分量qの和集合{qi}を、加算対象の事物情報数Mで割り、和集合{fi}の各要素fに対応する分量qの集合{qi}を更新し(ステップS14)、また、和集合{fi}の各要素fに対応する重みwの和集合{wi}を、加算対象の事物情報数Mで割り、和集合{fi}の各要素fに対応する重みwの集合{wi}を更新することで(ステップS15)、次式(8)で示されるように、平準化組成(組成Cの平均)Cavg,Tt1…TtMを算出し(ステップS16)、この平準化組成Cavg,Tt1…TtMを比較対象となる事物情報Ttの組成Ctとして決定する。
【0039】
【数8】
【0040】
次に、情報比較プログラムは、ラベル受付ステップS2において、決定した事物情報Ttのラベル集合Bに含まれるラベルlを例えばディスプレイ表示等により提示して1つ以上のラベルlの選択を促し、若しくはユーザに適宜のラベルlの入力を促し、選択又は入力されたラベルlを受け付ける。そして情報比較プログラムは、事物情報抽出ステップS3において、この受け付けたラベルlをキーワードとして事物情報TのデータベースDBを検索し、該当する1又は複数のラベルlをラベル集合Bに含む事物情報T(事物情報の集合{Tti})を抽出する。
【0041】
比較基準決定ステップS4では、前ステップS3で抽出された事物情報Tの組成Cを比較基準となる事物情報Tsの組成Csとして決定する。ここで、抽出された事物情報Tが1つだけであれば、その事物情報Tの組成Cを比較基準となる事物情報Tsの組成Csとすればよい。一方、抽出された事物情報Tが複数である場合は、図3及び式(4)〜(8)で示したものと同様の工程によって求められた平準化組成Cavgを比較基準となる事物情報Tsの組成Csとして決定する。
【0042】
次に、要素抽出ステップS5では、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csの両方に共通して存在する共通要素fl、比較対象となる事物情報Ttの組成Ctのみに存在する比較対象ユニーク要素fm、比較基準となる事物情報Tsの組成Csのみに存在する比較基準ユニーク要素fnを抽出する(図4;ステップS21)。ここで、要素抽出ステップS5から次の一致度出力ステップS7までの工程の具体例を図4に示す。これら共通要素fl、比較対象ユニーク要素fm、比較基準ユニーク要素fnの関係は、例えば図5に示されるようなものである。同図において、Nt,Nsは、それぞれ比較対象となる事物情報Tt,比較基準となる事物情報Tsに含まれる要素fの個数であり、Nl,Nm,Nsはそれぞれ要素fl、fm、fnの要素数である。なお、以下の工程においては、本実施形態では抽出された共通要素fl、比較対象ユニーク要素fm、比較基準ユニーク要素fnを全て利用した態様を示しているが、必ずしもこの限りではなく、各要素fl,fm,fnについて、ある特定の条件を満たす要素のみを利用することもできる。
【0043】
そして、一致度算出ステップS6では、前ステップS5で抽出した共通要素fl、比較対象ユニーク要素fm、比較基準ユニーク要素fnを用いて、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csの一致度を算出する。具体的には、図4に示すように、まず共通要素flの分量qと重みwから構成される不一致度D1を算出し(ステップS22)、比較対象ユニーク要素fmの分量qと重みwから構成される不一致度D2を算出し(ステップS23)、比較基準ユニーク要素fnの分量qと重みwから構成される不一致度D3を算出し(ステップS24)、これらの不一致度D1,D2,D3を、予め与えられた係数α,β,γで各々重みづけて加算した値(次式(9))から定まる値を一致度Scとして算出する(ステップS25、次式(10))。このようにして算出された一致度Scは、一致度出力ステップS7により出力される(ステップS26)。出力された一致度は、ユーザにとって比較結果として把握しやすい表示形式に変換するなどしてさらに出力することができる。
【0044】
【数9】
【0045】
【数10】
ここで、式(9)は、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとの差Dcを定義するものである。同式(9)において、右辺第1項は、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとに共通して含まれる要素(共通要素fl)に関する差異を表しており、比較対象となる事物情報Ttにおける要素ftiが比較基準となる事物情報Tsにおける要素fsiがどの程度異なる分量で含まれるかで測っている。また、同式右辺第2項と第3項は、それぞれ比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csのみにそれぞれ含まれる要素数に応じた差異を表している。係数α,β,γを適宜に割り当てて差Dcを計算することで、比較対象となる事物情報Ttの組成Ctが比較基準となる事物情報Tsの組成Csと比べてどの程度かけ離れているか、各項に対して適切な重み付けをしながら把握することができる。また、式(10)は、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとの類似度Scを定義するものである。類似度Scは0〜1の間の値を取り、1に近いほど類似性が高く、0に近いほど類似性が低いことを表している。
【0046】
以上のように、本実施形態の情報比較プログラム及び情報比較装置では、ある事物情報Ttがユーザにより指定されたとき、予めそのユーザが信頼できる基準として選択された事物情報の集合から事物情報Ttと同じクラスに属する他の事物情報の集合、換言すれば、事物情報Ttとのラベル集合Btと同じラベルlを有しているか、若しくはそのラベルlを含んでいるラベル集合Bを有している事物情報の集合{Tti}をラベルlを利用して抽出したうえで、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csの差Dcや一致度Scを計算し出力することで、ユーザによる比較対象とした事物情報Ttの妥当性判断の指標となる情報を提示することが可能である。
【0047】
なお、本発明は上述した実施形態に限定されるものではない。特に、一致度Scの算出手法は次のように種々変更することができる。例えば、上記実施形態では、不一致度D1,D2,D3の全てを利用して事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとの差Dcと一致度Scを求めたが、不一致度D1,D2,D3を必ずしも線形結合して1つの値Dc,Scを求めなくてもよく、不一致度D1,D2,D3を独立して扱っても構わない。図6〜図8は、不一致度D1,D2,D3をそれぞれ別個に用いて一致度Scを求める工程を示したフローチャートである。これら各図において、ステップS31,S34(以上図6)、ステップS41,S44(以上図7)、ステップS51,S54(以上図8)は、それぞれ図4におけるステップS21,S26と同様の工程である。ただし、ステップS31,S41,S51においては、以下の演算工程で全ての要素(共通要素、比較対象ユニーク要素、比較基準ユニーク要素)を使わないときは、これらのうち必要な要素のみを抽出すればよい。また、図6のステップS32は図2のステップS22と同様の工程であり、図7のステップS42は図2のステップS23と同様の工程であり、図8のステップS52は図2のステップS24と同様の工程である。特に図6においては、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとに共通して含まれる共通要素flの分量と重みから構成される不一致度D1から定まる値を一致度Scとして算出している。また、図7においては、比較対象となる事物情報Ttの組成Ctにのみ含まれる比較対象ユニーク要素fmの分量と重みから構成される不一致度D2から定まる値を一致度Scとして算出している。また、図8においては、比較基準となる事物情報Tsの組成Csにのみ含まれる比較対象ユニーク要素fnの分量と重みから構成される不一致度D3から定まる値を一致度Scとして算出している。このように、不一致度D1,D2,D3を独立して扱うことにより、それぞれに独立した判断基準を設けることができ、それに基づいた情報(組成)の一致又は不一致の判別指標を提示することが可能となる。なお、ここでは、まず不一致度D1,D2,D3を求めてから一致度を算出した例を示したが、一致度を先に求めてから不一致度を算出することも可能である。
【0048】
また、上述した実施形態における工程を概略すると、図9に示すフローチャートで示すように、比較対象となるある事物情報Ttとそれに類似した事物情報Tsを比較基準として比較する工程として表される。この場合、比較対象となるある事物情報Ttを特定した後、その事物情報Ttと同クラスに属する事物情報T1,T2,…TMをデータベースDBから取得し(ステップS61)、その同クラスに属する事物情報T1,T2,…TMの組成C1,C2,…CMの平均Cavg,Tt1…TtM}を計算し(ステップS62)、さらに事物情報Ttの組成Ctと平均Cavg,Tt1…TtM}との一致度Scを計算することで(ステップS63)、この一致度Scに応じた比較結果を生成(ステップS64)して出力(ステップS65)することとなる。すなわち、比較対象となる事物情報Ttの組成Ctと比較基準となる事物情報Tsの組成Csとの比較においては、1つの事物情報Tの組成C(又は複数の事物情報Tの平準化組成Cavg)を比較対象となる事物情報Ttの組成Ctとし、複数の事物情報Tの平準化組成Cavgを比較基準となる事物情報Tsの組成Csとし、この組成Ct,Cs同士を比較した。本発明ではこのような工程以外にも、比較対象となる事物情報Ttと比較基準となる事物情報Tsとを比較することができる。
【0049】
図10に示すフローチャートは、1つの事物情報Tの組成C(又は複数の事物情報Tの平準化組成Cavg)からなる比較対象となる事物情報Ttの組成Ctと比較対象となる複数の事物情報Tsの組成Csとを個別に比較して一致度を求めた後、それらの一致度を平準化(又は平均)して比較対象と比較基準の一致度Scを出力する工程を示している。すなわち、比較対象となるある事物情報Ttを特定した後、その事物情報Ttと同クラスに属する事物情報T1,T2,…TMをデータベースDBから取得し(ステップS71)、それらの事物情報T1,T2,…TMの組成C1,C2,…CM各々について、事物情報Ttの組成Ctとの一致度Sc1,Sc2…ScMを計算し(ステップS72)、一致度Sc1,Sc2…ScMから構成される一致度Scを計算して(ステップS73)、その一致度Scに応じた比較結果を生成(ステップS74)して出力(ステップS75)するようにすればよい。
【0050】
また、図11に示すフローチャートは、1つの事物情報Tの組成C(又は複数の事物情報Tの平準化組成Cavg)からなる比較対象となる事物情報Ttの組成Ctと、その事物情報Ttに類似した事物情報Tの代表Taとを比較して両者の一致度Scを出力する工程を示している。ここで、事物情報Ttに類似した事物情報Tの代表Taとは、複数の事物情報Tの組成Cの平均に最も近い組成Cを有する事物情報Tのことを意味している。すなわち、比較対象となるある事物情報Ttを特定した後、その事物情報Ttと同クラスに属する事物情報T1,T2,…TMをデータベースDBから取得し(ステップS81)、その同クラスに属する事物情報T1,T2,…TMの組成C1,C2,…CMの平均(平準化組成)Cavg,Tt1…TtMを計算する(ステップS82)。そして、平均Cavg{1…M}と最も一致度の高い組成を有する事物情報TaをデータベースDBから取得して(ステップS83)、その事物情報Taを比較基準となる事物情報とし、比較対象となる事物情報Ttの組成Ctと比較基準とした事物情報Taの組成Caとの一致度Scを計算して(ステップS84)、その一致度Scに応じた比較結果を生成(ステップS85)して出力(ステップS86)するようにすればよい。
【0051】
その他、各部の具体的プロセスや構成についても上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で種々変形が可能である。
【実施例】
【0052】
ここで、本発明を試験的に実装した情報比較システムの一実施例について説明する。本実施例は、料理レシピをコンテンツとして、ユーザが選択したレシピに対して、ユーザが比較基準としたい他のレシピとの比較を行うものである。本実施例は、上記実施形態のように1台の汎用コンピュータ上で実現される情報比較システムの例を示しているが、例えばユーザの汎用コンピュータとサーバコンピュータをインターネットに接続させて、ユーザが汎用コンピュータ上のWebブラウザを通じてサーバコンピュータに格納されている情報比較プログラムを利用できるように構成することも可能である。料理レシピのデータベースは、サーバコンピュータに設けてもよいし、サーバコンピュータが利用可能なWeb上又はLAN上の記憶媒体に設けてもよい。特に、Web上で利用可能なコンピュータの記憶媒体に記録されている料理レシピの情報はそれぞれ様々な形式で記載されていると考えられるため、その場合は予め又は情報比較の都度、サーバコンピュータに必要な料理レシピの情報を集めて一定の形式に統一しておくことが望ましい。本実施例ではこのように、Web上で利用できる料理レシピを提供している複数のWebサイト(料理の講師と一般投稿者によるレシピが利用可能な「サイトA」,一般投稿者のみによるレシピが利用可能な「サイトB」)を利用してそれらサイトA,サイトBから料理レシピを抽出しておき、サーバコンピュータにおいて所定形式に整えてデータベースとしているものとする。
【0053】
一般的に料理レシピは、タイトル、著者、日付などの書誌的情報の他に、必要な材料一覧及び作り方が記述されている。特に、材料一覧は、材料名とその分量から構成されているため、各レシピを事物情報、材料を各構成要素、分量を各構成要素の分量と捉えると、本発明を適用し易い一例であるといえる。そこで本実施例では、料理レシピの書誌的情報(ラベル)の集合をラベル集合とし、レシピの材料一覧自体を組成として取り扱うものとする。図12に、本実施例におけるWebサイトA,Bからの情報収集、インデキシングの処理工程を概略的に示す。
【0054】
まず、ラベル集合に含まれるラベル(書誌的情報)の抽出(図12;ステップSa)として、タイトル、著者、著者タイプ(「講師」又は「一般投稿者」)、日付、総分量と単位(「N人分」といった記述における「N」と「人分」)を抽出する。ここでは特定のWebサイトA,Bのページを対象としているため、予め確認したdivタグのid属性やclass属性等を参照することにより各情報を検出する。また、レシピに関するキーワードや、サイトにおける当該レシピの分類カテゴリ、サイト閲覧者が付与可能なタグワード等についてもラベルとして抽出する。キーワードについては、予め収集した料理のキーワードリスト(1200弱の料理名からなる)を作成し、各レシピのタイトルにキーワードリスト中の語が含まれていればその語をキーワードとして登録する。また、分類カテゴリとタグワードについては、予め確認したdivタグのid属性やclass属性等を参照することにより検出する。
【0055】
次に、材料一覧の記述範囲を検出する(ステップSb)。材料一覧の記述範囲についても、本実施例は特定のWebサイトA,Bを利用しているため、予め確認した予め確認したdivタグのid属性やclass属性等を参照することにより検出できる。
【0056】
最後に、検出した材料一覧の範囲に記述されたテキストから、組成を抽出する(ステップSc)。図13に、材料一覧の記述例を示す。ここで、組成を構成する各要素は、材料名,備考,分量,単位から構成されるとした。1つのレシピのみについては、1回のみ出現する(出現頻度1)材料についての「重み」は「1」であるが、複数回出現する材料(調味料等)についての重みはその出現回数に依存する。
【0057】
このように抽出された組成に基づき、まず分量と単位を統語パターンから検出する。料理レシピの記載方法は前述したように様々であり、また料理レシピに特徴的な記述方法が存在するため、これらを統一してデータとして利用し易くすべく、ここでは1行ごとに以下の5種類のパターンにマッチするかどうかを調べ、各場合に応じて分量と単位を抽出する。
(1)あいまいな分量の定型的記述
「適量」や「適宜」、「少々」等の定型的記述Pを検出し、分量=1,単位=P、とした。
(2)大小+数値+強弱からなる記述
「大1弱」等の記述を検出し、大は大さじ、小は小さじと解釈し、分量=数値,単位=大さじ又は小さじ、とした。
(3)前置単位Up+数値+強弱、又は数値+アルファベット単位Ua+強弱からなる記述
「カップ2」や「10cc強」等の記述を検出し、分量=数値,単位=Up又はUa、とした。
(4)容器単位Ub+数値+日本語単位Ujからなる記述
「3枚」や「お茶碗2杯」等の記述を検出し、分量=数値,単位=Uj又はUj+Ua、とした。
(5)上記以外でシンボルマーク(“●”等)で始まる記述
分量=1,単位=適量、とした。
【0058】
次に、統語パターンでマッチした部分の前に該当する部分から材料名と備考を抽出する。括弧()で記述された部分を材料名として抽出した。さらに、表記揺れ等の影響を最小限とするため、以下の処理を行った。
(1)省略形の補完
例えば、「濃い口」は「濃い口しょうゆ」として補完する。
(2)「各」の展開
分量で検出した「各+数値」をそれぞれの材料名の分量と単位に分解する。例えば、(材料名=あわ・大麦,分量=各1/4,単位=カップ)を(材料名=あわ,分量=1/4,単位=カップ),(材料名=大麦,分量=1/4,単位=カップ)に展開する。
(3)材料名のかな変換
形態素解析を行い、材料名をかなに変換する。
(4)分量の正規化
あいまいな分量表記の統一と分数による数表記の数値変換を行う。例えば、「少し」→「少々」に統一。「1/2」→「0.5」に変換。
(5)単位の正規化
あいまいな単位表記の統一とアルファベット文字による単位へ変換可能な表記の変換を行う。例えば、「コ」→「個」に統一、「キログラム」→「g」に変換。
(6)単位の変換
異なる単位間で変換可能な単位を変換する。例えば、(材料名=酒,分量=1,単位=小さじ)を(材料名=酒,分量=5,単位=g)に変換。
以上により、抽出したラベル(書誌的情報)と組成(=材料名、備考、分量、単位)をデータベースDBに登録する。
【0059】
図14に、料理レシピの妥当性判断を支援するシステム実装例のWebページの画面例を示す。ユーザは、閲覧中の料理レシピに関するあるWebページが自分に合った味付けの料理と期待できそうか確認したい場合、ユーザはそのWebページのURLを画面のURLボックスに入力し、比較ボタンを押す。結果の画面では、比較結果のメッセージ(「オーソドックスな味付けのようです」や「酢が多めのようです」等)と、比較結果のグラフが表示される。同図の画面例において、グラフの縦軸は各材料に対応し、横軸は同じ料理の他のレシピの平均を1とした場合にそれと比較した現在のレシピの各材料の分量の割合を示す。本実施例では、比較基準となるレシピとして、サイトAの講師のレシピがデフォルトとして登録されているが、デフォルトの登録はユーザの好みに応じて適宜編集できるようにすることができる。
【0060】
ここで、料理の講師と一般投稿者によるレシピの利用が可能なWebサイトAと、一般投稿者のみによるレシピの利用が可能なWebサイトBのWebページを対象として行った、本実施例のシステムの実証試験について説明する。
【0061】
まず。サイトBにおけるある酢豚のレシピを選択して比較対象とし、サイトAの講師による酢豚のレシピを比較基準として、両者を比較する場合を考える。
【0062】
サイトAの講師による酢豚レシピ6件分の組成の平均を図15に示す。平均分量は各材料の分量の平均であり、重みはレシピ1件あたりの材料名の平均出現回数を示す(但し、重みが0.2よりも小さい材料については省略している)。この試験では、レシピ1件中に同じ材料名が複数回出現した場合、出現した回数分カウントしており、分量も区別なく加算して平均を求めている。また、適量についての分量はあくまで仮想的な分量としての平均であり、適量自体の曖昧さを考慮して解釈する必要がある。重みの高い順にどの酢豚のレシピにも不可欠な材料が並んで示されていると解釈することができる。
【0063】
次に、サイトBにおけるある酢豚レシピと前述したサイトAにおける酢豚レシピの平均との差の結果を図16に示す。本試験では、サイトBの酢豚レシピ(ある一般投稿者により投稿されたレシピ)はサイトAの講師による酢豚レシピの平均と比較して、片栗粉、水、酢、サラダ油の割合が高いことが分かる。なお、サイトBのレシピにのみ記載された材料(組成)である比較対象ユニーク要素と、サイトAのレシピにのみ記載された材料(組成)である比較基準ユニーク要素の各割合は計算できないため、空欄としている。このような比較結果を図14に示したようなWebページとして画面表示すれば、ユーザは自分が選択した料理レシピと他のレシピとを比較した結果を容易に把握することができるため、比較基準となる料理レシピがユーザ自身にとって信頼性のある情報であれば、その情報を基準とした自ら選択した情報の妥当性を的確に判断することができるようになる。
【0064】
以上のように、本発明は上述した実施例のような料理レシピの例に限らず、またWeb上の情報に限らず、書誌的情報の集合であるラベル集合と、要素とその分量及び重み(出現頻度)からなる組成とから構成された種々の情報を、他の関連のある情報とユーザの信頼性という観点を含めつつ比較することで、ユーザによる情報の妥当性判断の指標を提供することができるものである。
【産業上の利用可能性】
【0065】
本発明は、書誌的情報の集合であるラベル集合と、要素とその分量及び重み(出現頻度)からなる組成とから構成された多数の情報を扱う場合であれば、それらの情報を比較する情報比較サイトの構築や、情報比較ソフトウェアの制作、又はコンピュータ装置による専用の情報比較装置の製造といった分野に寄与するものである。
【符号の説明】
【0066】
DB…事物情報のデータベース
T…事物情報
B…ラベル集合
C…組成
l…ラベル
q…分量
w…重み(出現頻度に基づく重み)
【特許請求の範囲】
【請求項1】
ある事物に関する情報を構成する要素であって分量と出現頻度が付与された要素の集合である組成と、当該事物を説明する前記分量及び前記出現頻度に関する情報を持たない書誌的情報であるラベルの集合からなるラベル集合と、から構成される事物情報を比較対象とし、他の事物情報を比較基準として、コンピュータを作動させることにより、前記比較対象の事物情報と前記比較基準の事物情報とを比較するプログラムであって、
1つ以上の事物情報の指定を受け付けて前記比較対象となる事物情報を決定する比較対象決定ステップと、
1つ以上の前記ラベルの指定を受け付けるラベル受付ステップと、
前記ラベル受付ステップで受け付けたラベルに基づいて、複数の前記事物情報を記憶する1つ以上のデータベースから該当するラベルを含むラベル集合を有する1つ以上の事物情報における少なくとも組成を抽出する事物情報抽出ステップと、
前記事物情報抽出ステップで抽出した1つの事物情報の組成又は2つ以上の事物情報の組成の値を平準化した平準化組成を、前記比較基準となる事物情報の組成として決定する比較基準決定ステップと、
前記比較対象決定ステップで決定した比較対象となる事物情報の組成に含まれる要素と前記比較基準決定ステップで決定した比較基準となる事物情報の組成に含まれる要素とにおいて共通する要素である共通要素と、前記比較対象となる事物情報の組成のみに含まれる比較対象ユニーク要素と、前記比較基準となる事物情報の組成にのみ含まれる比較基準ユニーク要素の、何れか1種以上を抽出する要素抽出ステップと、
前記要素抽出ステップで抽出した共通要素、比較対象ユニーク要素、比較基準ユニーク要素の何れか1種以上について、これらの各要素に含まれる1つ以上の分量を用いて定義される値と1つ以上の出現頻度を用いて定義される値とに基づいて求められる値のうち、前記共通要素から得られた値、比較対象ユニーク要素から得られた値、比較基準ユニーク要素から得られた値の1つ以上の組み合わせにより、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度を算出する一致度算出ステップと、
前記一致度算出ステップで算出した一致度を出力する一致度出力ステップと
を有することを特徴とする情報比較プログラム。
【請求項2】
前記事物情報抽出ステップにおいて抽出した前記比較基準となる事物情報が2つ以上である場合、
前記比較基準決定ステップは、当該2つ以上の事物情報の組成の値を平準化するに際して、
前記複数の事物情報の組成における要素の和集合を求め、
前記平準化組成を、前記和集合に含まれている各要素における分量の和の平均と、当該和集合に含まれている各要素の出現頻度の和の平均とによって定義し、比較基準となる事物情報の組成として決定するものである請求項1に記載の情報比較プログラム。
【請求項3】
ある事物に関する情報を構成する要素であって分量と出現頻度が付与された要素の集合である組成と、当該事物を説明する前記分量及び前記出現頻度に関する情報を持たない書誌的情報であるラベルの集合からなるラベル集合と、から構成される事物情報を比較対象とし、他の事物情報を比較基準として、コンピュータを作動させることにより、前記比較対象の事物情報と前記比較基準の事物情報とを比較するプログラムであって、
1つ以上の事物情報の指定を受け付けて前記比較対象となる事物情報を決定する比較対象決定ステップと、
1つ以上の前記ラベルの指定を受け付けるラベル受付ステップと、
前記ラベル受付ステップで受け付けたラベルに基づいて、複数の前記事物情報を記憶する1つ以上のデータベースから該当するラベルを含むラベル集合を有する複数の事物情報における少なくとも組成を抽出する事物情報抽出ステップと、
前記事物情報抽出ステップで抽出した複数の事物情報の組成をそれぞれ比較基準となる事物情報の組成として決定する比較基準決定ステップと、
前記比較対象決定ステップで決定した比較対象となる事物情報の組成に含まれる要素と前記比較基準決定ステップで決定した比較基準となるそれぞれの複数の事物情報の組成に含まれる要素とにおいて共通する要素である共通要素と、前記比較対象となる事物情報の組成のみに含まれる比較対象ユニーク要素と、前記比較基準となる事物情報の組成にのみ含まれる比較基準ユニーク要素の、何れか1種以上を抽出する要素抽出ステップと、
前記要素抽出ステップで抽出した共通要素、比較対象ユニーク要素、比較基準ユニーク要素の何れか一種以上について、これらの各要素に含まれる1つ以上の分量を用いて定義される値と1つ以上の出現頻度を用いて定義される値とに基づいて求められる値のうち、前記共通要素から得られた値、比較対象ユニーク要素から得られた値、比較基準ユニーク要素から得られた値の1つ以上の組み合わせにより、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度をそれぞれ算出し、それらの一致度を前記事物情報抽出ステップで抽出した事物情報の組成の数で平準化することにより、前記比較対象となる事物情報の組成と前記比較基準となる複数の事物情報の組成との一致度を算出する一致度算出ステップと、
前記一致度算出ステップで算出した一致度を出力する一致度出力ステップと
を有することを特徴とする情報比較プログラム。
【請求項4】
前記比較対象決定ステップにおいて、指定を受け付けた事物情報が複数である場合、当該比較対象決定ステップは、それら受け付けた複数の事物情報の組成を平準化した平準化組成を、前記比較対象となる事物情報の組成として決定するものである請求項1乃至3の何れかに記載の情報比較プログラム。
【請求項5】
前記比較対象決定ステップは、前記2つ以上の事物情報の組成の値を平準化するに際して、
前記複数の事物情報の組成における要素の和集合を求め、
前記平準化組成を、前記和集合に含まれている各要素における分量の和の平均と、当該和集合に含まれている各要素の出現頻度の和の平均とによって定義し、比較対象となる事物情報の組成として決定するものである請求項4に記載の情報比較プログラム。
【請求項6】
ある事物に関する情報を構成する要素であって分量と出現頻度が付与された要素の集合である組成と、当該事物を説明する前記分量及び前記出現頻度に関する情報を持たない書誌的情報であるラベルの集合からなるラベル集合と、から構成される事物情報を比較対象とし、他の事物情報を比較基準として、前記比較対象の事物情報と前記比較基準の事物情報とを比較する請求項1乃至5の何れかに記載の情報比較プログラムに従って作動するコンピュータ装置により構成される情報比較装置。
【請求項1】
ある事物に関する情報を構成する要素であって分量と出現頻度が付与された要素の集合である組成と、当該事物を説明する前記分量及び前記出現頻度に関する情報を持たない書誌的情報であるラベルの集合からなるラベル集合と、から構成される事物情報を比較対象とし、他の事物情報を比較基準として、コンピュータを作動させることにより、前記比較対象の事物情報と前記比較基準の事物情報とを比較するプログラムであって、
1つ以上の事物情報の指定を受け付けて前記比較対象となる事物情報を決定する比較対象決定ステップと、
1つ以上の前記ラベルの指定を受け付けるラベル受付ステップと、
前記ラベル受付ステップで受け付けたラベルに基づいて、複数の前記事物情報を記憶する1つ以上のデータベースから該当するラベルを含むラベル集合を有する1つ以上の事物情報における少なくとも組成を抽出する事物情報抽出ステップと、
前記事物情報抽出ステップで抽出した1つの事物情報の組成又は2つ以上の事物情報の組成の値を平準化した平準化組成を、前記比較基準となる事物情報の組成として決定する比較基準決定ステップと、
前記比較対象決定ステップで決定した比較対象となる事物情報の組成に含まれる要素と前記比較基準決定ステップで決定した比較基準となる事物情報の組成に含まれる要素とにおいて共通する要素である共通要素と、前記比較対象となる事物情報の組成のみに含まれる比較対象ユニーク要素と、前記比較基準となる事物情報の組成にのみ含まれる比較基準ユニーク要素の、何れか1種以上を抽出する要素抽出ステップと、
前記要素抽出ステップで抽出した共通要素、比較対象ユニーク要素、比較基準ユニーク要素の何れか1種以上について、これらの各要素に含まれる1つ以上の分量を用いて定義される値と1つ以上の出現頻度を用いて定義される値とに基づいて求められる値のうち、前記共通要素から得られた値、比較対象ユニーク要素から得られた値、比較基準ユニーク要素から得られた値の1つ以上の組み合わせにより、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度を算出する一致度算出ステップと、
前記一致度算出ステップで算出した一致度を出力する一致度出力ステップと
を有することを特徴とする情報比較プログラム。
【請求項2】
前記事物情報抽出ステップにおいて抽出した前記比較基準となる事物情報が2つ以上である場合、
前記比較基準決定ステップは、当該2つ以上の事物情報の組成の値を平準化するに際して、
前記複数の事物情報の組成における要素の和集合を求め、
前記平準化組成を、前記和集合に含まれている各要素における分量の和の平均と、当該和集合に含まれている各要素の出現頻度の和の平均とによって定義し、比較基準となる事物情報の組成として決定するものである請求項1に記載の情報比較プログラム。
【請求項3】
ある事物に関する情報を構成する要素であって分量と出現頻度が付与された要素の集合である組成と、当該事物を説明する前記分量及び前記出現頻度に関する情報を持たない書誌的情報であるラベルの集合からなるラベル集合と、から構成される事物情報を比較対象とし、他の事物情報を比較基準として、コンピュータを作動させることにより、前記比較対象の事物情報と前記比較基準の事物情報とを比較するプログラムであって、
1つ以上の事物情報の指定を受け付けて前記比較対象となる事物情報を決定する比較対象決定ステップと、
1つ以上の前記ラベルの指定を受け付けるラベル受付ステップと、
前記ラベル受付ステップで受け付けたラベルに基づいて、複数の前記事物情報を記憶する1つ以上のデータベースから該当するラベルを含むラベル集合を有する複数の事物情報における少なくとも組成を抽出する事物情報抽出ステップと、
前記事物情報抽出ステップで抽出した複数の事物情報の組成をそれぞれ比較基準となる事物情報の組成として決定する比較基準決定ステップと、
前記比較対象決定ステップで決定した比較対象となる事物情報の組成に含まれる要素と前記比較基準決定ステップで決定した比較基準となるそれぞれの複数の事物情報の組成に含まれる要素とにおいて共通する要素である共通要素と、前記比較対象となる事物情報の組成のみに含まれる比較対象ユニーク要素と、前記比較基準となる事物情報の組成にのみ含まれる比較基準ユニーク要素の、何れか1種以上を抽出する要素抽出ステップと、
前記要素抽出ステップで抽出した共通要素、比較対象ユニーク要素、比較基準ユニーク要素の何れか一種以上について、これらの各要素に含まれる1つ以上の分量を用いて定義される値と1つ以上の出現頻度を用いて定義される値とに基づいて求められる値のうち、前記共通要素から得られた値、比較対象ユニーク要素から得られた値、比較基準ユニーク要素から得られた値の1つ以上の組み合わせにより、比較対象となる事物情報の組成と比較基準となる事物情報の組成との一致度をそれぞれ算出し、それらの一致度を前記事物情報抽出ステップで抽出した事物情報の組成の数で平準化することにより、前記比較対象となる事物情報の組成と前記比較基準となる複数の事物情報の組成との一致度を算出する一致度算出ステップと、
前記一致度算出ステップで算出した一致度を出力する一致度出力ステップと
を有することを特徴とする情報比較プログラム。
【請求項4】
前記比較対象決定ステップにおいて、指定を受け付けた事物情報が複数である場合、当該比較対象決定ステップは、それら受け付けた複数の事物情報の組成を平準化した平準化組成を、前記比較対象となる事物情報の組成として決定するものである請求項1乃至3の何れかに記載の情報比較プログラム。
【請求項5】
前記比較対象決定ステップは、前記2つ以上の事物情報の組成の値を平準化するに際して、
前記複数の事物情報の組成における要素の和集合を求め、
前記平準化組成を、前記和集合に含まれている各要素における分量の和の平均と、当該和集合に含まれている各要素の出現頻度の和の平均とによって定義し、比較対象となる事物情報の組成として決定するものである請求項4に記載の情報比較プログラム。
【請求項6】
ある事物に関する情報を構成する要素であって分量と出現頻度が付与された要素の集合である組成と、当該事物を説明する前記分量及び前記出現頻度に関する情報を持たない書誌的情報であるラベルの集合からなるラベル集合と、から構成される事物情報を比較対象とし、他の事物情報を比較基準として、前記比較対象の事物情報と前記比較基準の事物情報とを比較する請求項1乃至5の何れかに記載の情報比較プログラムに従って作動するコンピュータ装置により構成される情報比較装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【公開番号】特開2010−218497(P2010−218497A)
【公開日】平成22年9月30日(2010.9.30)
【国際特許分類】
【出願番号】特願2009−67471(P2009−67471)
【出願日】平成21年3月19日(2009.3.19)
【出願人】(504322611)学校法人 京都産業大学 (27)
【Fターム(参考)】
【公開日】平成22年9月30日(2010.9.30)
【国際特許分類】
【出願日】平成21年3月19日(2009.3.19)
【出願人】(504322611)学校法人 京都産業大学 (27)
【Fターム(参考)】
[ Back to top ]