説明

アノテーションデータ解析装置、アノテーションデータ解析プログラムおよびそのプログラムを記録した記録媒体

【課題】データに付与されたアノテーションがデータの内容と関連があるか判別できるアノテーションデータ解析技術を提供する。
【解決手段】アノテーションデータ解析装置1は、単語がトピックに帰属する帰属度を全トピックについて算出してデータ帰属トピック集合52を推定するデータ帰属トピック推定部31と、アノテーションがトピックに帰属する帰属度を全トピックについて算出してアノテーション帰属トピック集合53を推定するアノテーション帰属トピック推定部32と、トピック毎のアノテーション生成確率に基づいて、関連性がある確率と関連性がない確率とをアノテーション毎に算出して関連性集合54を推定する関連性推定部33と、各集合52〜55を入力として目的関数の収束を判定し、目的関数が収束していない場合、ハイパーパラメータを更新式により更新するパラメータ推定部34とを有する繰り返し制御部22を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アノテーション(注釈、タグ)が付与されている文書データなど、各データが離散値のベクトルとして表現することが可能なデータを示すアノテーションデータの集合を解析する技術に関する。
【背景技術】
【0002】
近年、ソーシャルアノテーションービスが注目されている。ソーシャルアノテーションサービスでは、ユーザがコンテンツ(データの内容)に自由にアノテーションを付与できる。このようなソーシャルアノテーションサービスとしては、例えば、ウェブページ、写真、ブログ記事、動画、音楽、科学論文など、様々なコンテンツを扱うサービスが提供されている。
【0003】
従来、例えば、アノテーションが付与された画像データとしてのアノテーションデータの解析法が知られている(非特許文献1参照)。非特許文献1に記載の解析法は、隠れディリクレ配列法(LDA:latent Dirichlet allocation)を改良した手法であり、correspondence latent Dirichlet allocation(Corr-LDA)と呼ばれている。このアノテーションは、写真(画像)のキャプションであり、画像の領域と、キャプション中の単語とが対応付けられている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】David M. Blei and Michael I. Jordan, ”Modeling Annotated Data”, SIGIR'03: Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, p.127-134, 2003
【発明の概要】
【発明が解決しようとする課題】
【0005】
ソーシャルアノテーションサービスで付与されたアノテーションには、内容に関連のないアノテーションが数多く含まれる。例えば、写真の場合、その写真を撮ったカメラの機種名や、「2008」「11月」などの撮った日付など、内容自身を表してはいないアノテーションがユーザによって付与されている。他の例としては、「あとで読む」などリマインダーとして用いるためのものや、「すごい」など評価を表すもの、またそのコンテンツの所有者を表すものなどがある。
【0006】
内容に関連のないアノテーションは、情報検索の場合にノイズとなる場合がある。また、自動画像アノテーションや文書分類など、機械学習問題の学習データとして用いる場合にもノイズとなる。そのため、内容に関連のないアノテーションを除去することができれば、情報検索、機械学習の性能を向上させることが期待できる。ところが、従来の非特許文献1に記載のアノテーションデータ解析法では、各アノテーションの内容の関連性をモデル化しておらず、内容に関連のないアノテーションの除去に用いることはできない。
【0007】
そこで、本発明は、以上のような問題点を鑑みてなされたものであり、データに付与されたアノテーションがデータの内容と関連があるか否かを判別することのできるアノテーションデータ解析技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明は、前記課題を解決するために創案されたものであり、本発明のアノテーションデータ解析装置は、構成要素が離散値のベクトルとして表現されたデータと、前記データに付与されるアノテーションとの組みを示すアノテーションデータを確率モデルに基づいて解析するアノテーションデータ解析装置であって、解析対象として与えられる前記アノテーションデータの集合を示すアノテーションデータ集合を入力する入力部と、前記入力されたアノテーションデータ集合と、推定対象のパラメータ群とを含む情報を記憶する記憶部と、前記記憶された情報に基づいて所定の演算を行う演算部と、前記演算結果として、前記アノテーションのうち、データの内容との関連がないアノテーションの情報を出力する出力部とを備え、前記記憶部が、前記推定対象のパラメータ群として、前記アノテーションデータ集合に含まれる前記構成要素が帰属するトピックの集合を示すデータ帰属トピック集合と、前記アノテーションデータ集合に含まれる前記アノテーションが帰属するトピックの集合を示すアノテーション帰属トピック集合と、前記アノテーションデータ集合に含まれる前記アノテーションと、当該アノテーションが付与されたデータの内容との関連の有無を表す関連性の集合を示す関連性集合と、前記確率モデルにおける複数のハイパーパラメータと、を記憶し、前記演算部が、前記推定対象の各集合の要素を初期化する初期化部と、前記推定対象の各集合および複数のハイパーパラメータの推定処理および更新処理を、前記推定対象の各集合が前記アノテーションデータ集合を尤もらしく説明できている度合いを表す尤度を最大化する予め定められた目的関数が収束するまで繰り返す繰り返し制御部とを備え、前記繰り返し制御部が、各データに含まれる各構成要素が所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記データ帰属トピック集合を推定するデータ帰属トピック推定部と、各データに付与された各アノテーションが所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記アノテーション帰属トピック集合を推定するアノテーション帰属トピック推定部と、前記トピック毎に前記アノテーションが生成される確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出した結果に基づいて新たな関連性を割り当てることで前記関連性集合を推定する関連性推定部と、前記推定された各集合および複数のハイパーパラメータを入力として前記尤度を算出し、算出した尤度に基づいて前記目的関数の収束を判定し、前記目的関数が収束していない場合、前記入力に用いたハイパーパラメータを所定の更新式により更新するパラメータ推定部とを備えることを特徴とする。
【0009】
かかる構成によれば、アノテーションデータ解析装置は、記憶手段に、与えられたアノテーションデータ集合を記憶すると共に、推定すべきパラメータとして、データ帰属トピック集合と、アノテーション帰属トピック集合と、関連性集合と、複数のハイパーパラメータとを記憶する。ここで、アノテーションデータ解析装置が解析対象とするデータは、例えば、文書データなど、構成要素が離散値のベクトルとして表現されたデータである。つまり、解析対象とするデータは、連続値のベクトルとして表現されるものではない。なお、連続値のベクトルは、確率分布の概念を連続値の場合に拡張したものであって、確率変数の分布が確率密度関数を用いて記述されるベクトルである。また、解析対象とするデータが、例えば、文書データである場合、データの構成要素は単語を指し、アノテーションは例えばユーザにより文書に付与された注釈を示す。トピックは、解析対象とするデータに埋め込まれるクラスやベクトルで表すことが可能である。トピックは、例えばデータのジャンルを表す。
【0010】
そして、アノテーションデータ解析装置は、繰り返し制御部によって、推定対象の各集合および複数のハイパーパラメータの推定処理および更新処理を目的関数が収束するまで繰り返す。ここで、データ帰属トピック推定部は、データに含まれる各構成要素が所定のトピックに帰属する帰属度を算出し、アノテーション帰属トピック推定部は、データに付与された各アノテーションが所定のトピックに帰属する帰属度を算出する。これらは、データの構成要素のトピックと、アノテーションのトピックとが一致すれば、アノテーションとデータの内容との関連性があると判定するために求めるものである。このために、目的関数には、アノテーションのトピックが、データの構成要素のトピックと同じ比率の多項分布から生成されるという仮定を用いることができる。そして、関連性推定部は、トピック毎のアノテーション生成確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出するので、各アノテーションを、付与されたデータの内容との関連性で2つに分類できる。したがって、目的関数が収束したときに、アノテーションデータ解析装置の記憶手段に記憶されているデータ帰属トピック集合、アノテーション帰属トピック集合、関連性集合および複数のハイパーパラメータは、与えられたアノテーションデータ集合に対して最適値となっている。そのため、関連性集合において関連性なしと割り当てられたアノテーションの情報を抽出し、与えられたアノテーションデータ集合から、このアノテーションを削除すれば、そのアノテーションが付与されていたデータから、内容と関連のないアノテーションを除去することができる。
【0011】
また、本発明のアノテーションデータ解析装置は、前記繰り返し制御部が、前記推定対象の各集合の要素を割り当てた回数を予め定められた基準で逐次集計し、前記基準で集計された集合を、割当回数集合として前記記憶部に格納し、前記割当回数集合が、前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連がないとされた回数の集合と、前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連があるとされ、かつ、当該アノテーションがトピックに割り当てられたトピック毎の回数の集合との和を示す関連性割当回数集合を含み、前記関連性推定部が、前記関連性割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータと、内容と関係がある確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、前記読み込んだパラメータ群を用いて、割り当て対象とするデータに付与されたアノテーションについて当該データの内容と関連性がないことを表す第1関連度と、関連性があることを表す第2関連度とをそれぞれ算出する関連度算出部と、前記第1関連度および第2関連度のいずれを採用するかを確率モデルに基づいて決定し、前記割り当て対象とするデータに対して、前記決定された関連度に対応した新たな関連性を割り当てる関連性決定部とを備えることが好ましい。
【0012】
かかる構成によれば、アノテーションデータ解析装置は、繰り返し制御部によって、推定対象の各集合の要素を割り当てた回数を逐次集計した結果を、関連性割当回数集合として記憶部に格納する。そして、アノテーションデータ解析装置は、関連性推定部によって、推定処理の演算を行う時点で集計されていた関連性割当回数集合を用いて、トピック毎のアノテーション生成確率と、内容と関係がある確率とを反映した第1および第2関連度を算出し、算出した第1および第2関連度の一方を確率モデルに基づいて決定し、新たな関連性を割り当てる。したがって、アノテーションとその内容に関して、与えられたアノテーションデータ集合に対して尤もらしい関連性を推定できる。
【0013】
また、本発明のアノテーションデータ解析装置は、前記演算部が、前記アノテーションデータ集合に含まれるアノテーションデータのうちアノテーションが組み合わされていないデータに対してアノテーションを付与するアノテーション付与部をさらに備え、前記割当回数集合が、前記アノテーションデータ集合に含まれるデータでトピックを割り当てられた前記データの構成要素の数の集合であるトピック割当回数集合をさらに含み、前記アノテーション付与部が、前記関連性割当回数集合と、前記トピック割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、前記読み込んだパラメータ群を用いて、アノテーションに割り当てられるトピックの種類の数の割合を示すアノテーショントピック比率を推定するアノテーショントピック比率推定部と、前記読み込んだパラメータ群を用いて、アノテーションがデータの内容と関連性がある確率を表す関連ありアノテーション生成確率を推定する関連アノテーション生成確率推定部と、トピック毎の前記アノテーショントピック比率と前記関連ありアノテーション生成確率との積の総和である関連ありアノテーション付与確率を、アノテーション別に算出する関連アノテーション付与確率算出部と、前記アノテーション別に算出された関連ありアノテーション付与確率の上位から予め定められた数だけのアノテーションを決定するアノテーション決定部とを備えることが好ましい。
【0014】
かかる構成によれば、アノテーションデータ解析装置は、アノテーション付与部によって、アノテーション付与処理の演算を行う時点で集計されていた関連性割当回数集合およびトピック割当回数集合を用いて、アノテーショントピック比率と関連ありアノテーション生成確率とを推定し、これら推定値から算出した関連ありアノテーション付与確率に基づいて、付与すべきアノテーションを決定する。したがって、決定されたアノテーションは、対象とするデータの内容に対して尤もらしい関連性があるアノテーションとなる。これにより、当初からアノテーションが付与されていなかったデータにアノテーションを付与することができる。
【0015】
また、本発明のアノテーションデータ解析プログラムは、前記いずれかのアノテーションデータ解析装置を構成する各部として、コンピュータを機能させるためのプログラムである。このように構成されることにより、このプログラムをインストールされたコンピュータは、このプログラムに基づいた各機能を実現することができる。
【0016】
また、本発明のコンピュータ読み取り可能な記録媒体は、前記アノテーションデータ解析プログラムが記録されたことを特徴とする。このように構成されることにより、この記録媒体を装着されたコンピュータは、この記録媒体に記録されたプログラムに基づいた各機能を実現することができる。
【発明の効果】
【0017】
本発明によれば、アノテーションデータ集合を解析することにより、アノテーションが内容と関連があるか否かを自動的に判別できる。その結果、情報検索や機械学習の性能を向上させることができる。
【図面の簡単な説明】
【0018】
【図1】本発明の実施形態に係るアノテーションデータ解析装置の構成を示すブロック図である。
【図2】図1に示したパラメータ集合の一例を示す図である。
【図3】図1に示したアノテーションデータ解析装置による処理の流れを示すフローチャートである。
【図4】図1に示したデータ帰属トピック推定部の構成を示す機能ブロック図である。
【図5】図1に示したアノテーション帰属トピック推定部の構成を示す機能ブロック図である。
【図6】図1に示した関連性推定部の構成を示す機能ブロック図である。
【図7】図1に示したパラメータ推定部の構成を示す機能ブロック図である。
【図8】図1に示したアノテーション付与部の構成を示す機能ブロック図である。
【図9】本発明の実施形態に係るアノテーションデータ解析装置により内容と関連のあるアノテーションを予測したときの予測誤差を示すグラフである。
【図10】本発明の実施形態に係るアノテーションデータ解析装置によりアノテーションと内容との関連性を予測したときの予測精度を示すグラフである。
【図11】本発明の実施形態に係るアノテーションデータ解析装置によりアノテーションと内容との関連性を予測したときに関連性ありと推定した比率を示すグラフである。
【発明を実施するための形態】
【0019】
以下、本発明のアノテーションデータ解析装置を実施するための形態(以下、「実施形態」という)について図面を参照して説明する。
【0020】
[アノテーションデータ解析装置の構成の概要]
図1に示すアノテーションデータ解析装置1は、構成要素が離散値のベクトルとして表現されたデータと、データに付与されるアノテーションとの組みを示すアノテーションデータを確率モデルに基づいて解析する装置である。ここで、構成要素が離散値のベクトルとして表現されたデータとは、例えば、文書データ、画像データ、購買データなどである。例えば、文書データの場合、構成要素とは単語を指す。以下では、簡単のためデータを文書データとして説明する。
【0021】
このアノテーションデータ解析装置1は、図1に示すように、演算部2と、入力部4と、記憶部6と、出力部8とを備えている。各部2,4,6,8はバスライン11に接続されている。
【0022】
演算部2は、例えば、CPU(Central Processing Unit)およびRAM(Random Access Memory)から構成される主制御装置である。この演算部2は、図1に示すように、初期化部21と、繰り返し制御部22と、アノテーション付与部23と、メモリ24とを含んで構成される。このうち、繰り返し制御部22は、データ帰属トピック推定部31と、アノテーション帰属トピック推定部32と、関連性推定部33と、パラメータ推定部34とを備える。
【0023】
演算部2は、記憶部6から、初期化プログラム41、データ帰属トピック推定プログラム42、アノテーション帰属トピック推定プログラム43、関連性推定プログラム44、パラメータ推定プログラム45およびアノテーション付与プログラム46をそれぞれ読み込み、メモリ24に格納し、実行することで、前記した初期化部21と、データ帰属トピック推定部31と、アノテーション帰属トピック推定部32と、関連性推定部33と、パラメータ推定部34と、アノテーション付与部23とをそれぞれ実現する。なお、これら初期化部21、データ帰属トピック推定部31、アノテーション帰属トピック推定部32、関連性推定部33、パラメータ推定部34およびアノテーション付与部23の詳細については後記する。
【0024】
入力部4は、例えば、キーボード、マウス、ディスクドライブ装置などから構成される。記憶部6は、例えば、一般的なハードディスク装置などから構成され、プログラム格納部40と、データ格納部50と、を含む。
【0025】
プログラム格納部40には、演算部2で用いられるプログラムとして、初期化プログラム41と、データ帰属トピック推定プログラム42と、アノテーション帰属トピック推定プログラム43と、関連性推定プログラム44と、パラメータ推定プログラム45と、アノテーション付与プログラム46と、を記憶させておくことが可能である。また、データ格納部50には、演算部2で用いられる各種データとして、入力アノテーションデータ51、データ帰属トピック集合52、アノテーション帰属トピック集合53、関連性集合54、パラメータ集合55を記憶する。ここで、入力アノテーションデータ51は入力部4を介して入力され、記憶部6のデータ格納部50に記憶される構成とすることが可能である。また、データ帰属トピック集合52、アノテーション帰属トピック集合53、関連性集合54、パラメータ集合55は、演算部2の演算処理結果を示すデータであり、その詳細については後記する。
【0026】
出力部8は、例えば、グラフィックボード(出力インタフェース)およびそれに接続されたモニタである。モニタは、例えば、液晶ディスプレイ等から構成され、アノテーションデータ解析を行った結果等を表示する。
【0027】
[アノテーションデータ解析装置で扱うデータの概要]
(入力アノテーションデータ51)
入力アノテーションデータ51は、学習データ集合Dとして与えられるものである。ここでは、入力データとして、D個の文書データの集合が与えられたとする。各文書データは、内容を表すための複数の単語を含んでいる。なお、文書の言語は任意である。d(d=1〜D)番目の文書(以下、文書dと呼ぶ)は、式(1a)〜(1d)、式(2a),(2b)、式(3a),(3b)で示すように、単語集合とアノテーション集合のペアで表現される。以下の数式中において、アルファベットの書体がイタリックの場合には変数を示し、ボールドの場合には集合を示す。なお、アルファベットの大文字と小文字は指し示す内容が異なる。
【0028】
【数1】

【0029】
式(2a)において、wdは、文書dにおいて、内容を表す文書に含まれる単語の集合を表す。また、式(2a)において、wdnは、文書dにおいて、内容を表す文書に含まれるn番目の単語を示す。Ndは、文書dにおいて、内容を表す文書に含まれる単語を順番に並べたときの単語数である。例えば、単語数Nd=300ならば、文書dにおいて、内容を表す文書は300単語で構成される。ここでは、単語wdnを、式(2b)に示すように、扱う単語として予め定められた語彙数Wのうちの何番目の単語であるかによって識別することとした。単語wdnを特に区別しない場合には、単に単語wと表記する。また、1≦w≦Wである。つまり、単語wは、便宜上、数値で表される。なお、語彙数Wは例えば数万〜数十万である。文書dには、例えば、日本語であれば「は」、英語であれば「a」のように、同じ単語が複数回出現するのが通常である。
【0030】
式(3a)において、tdは、文書dに付与されたアノテーションの集合を表す。また、式(3a)において、tdmは、文書dにおいて、既に付与されているm番目のアノテーションを示す。Mdは、文書dに付与されたアノテーション数である。ここでは、アノテーションtdmを、式(3b)に示すように、予め定められたアノテーション語彙数Tのうちの何番目の単語であるかによって識別することとした。例えば、アノテーション数Md=3ならば、アノテーションは、td1,td2,td3で表される。アノテーションtdmを特に区別しない場合には、単にアノテーションtと表記する。また、1≦t≦Tである。つまり、アノテーションtは、便宜上、数値で表される。なお、アノテーション語彙数Tは、単語の語彙数Wより小さければよく、例えば、10〜100とする。
【0031】
(データ帰属トピック集合52)
各文書データは、文書データ集合の中で分類される。この分類により、文書間の関係が理解されるように可視化する場合もある。なお、可視化する空間は2次元または3次元空間である。本実施形態では、文書データを、例えば、トピック毎に分類するものとする。トピックは、文書の内容を示すデータに埋め込まれるクラスやベクトルで表すことが可能である。トピックは、例えばジャンルを表し、文書データ集合を可視化する場合に、そのデータ構造を直感的に理解させることができる。ここでは、データに埋め込まれるトピックと、データに付与されるアノテーション(ラベル)とを区別することとする。例えば、トピックの種類が、政治トピック、経済トピック、法律トピック、文学トピック、科学トピック、芸術トピックであれば、トピック数は6である。また、ある文書A中の「国会」という単語は、“政治トピック”に属する。
対象とする文書データに含まれる単語が帰属するトピックの集合を式(4a)の集合Zで表す。
【0032】
【数2】

【0033】
この式(4a)で示された集合Zは、推定する必要がある未知パラメータであり、データ帰属トピック集合52として計算される。トピックzdnを特に区別しない場合には、単にトピックzと表記する。また、1≦z≦Zである。つまり、トピックzは、便宜上、数値で表される。
【0034】
(アノテーション帰属トピック集合53)
対象とする文書データに付与されたアノテーションが帰属するトピックの集合を式(5a)の集合Cで表す。
【0035】
【数3】

【0036】
この式(5a)で示された集合Cは、推定する必要がある未知パラメータであり、アノテーション帰属トピック集合53として計算される。トピックcdmを特に区別しない場合には、単にトピックcと表記する。また、1≦c≦Zである。つまり、トピックcは、便宜上、数値で表される。c=zの場合、トピックcとトピックzは、同じトピックを意味する。例えば、前記した6種類のトピックがあって、ある文書Aの1番目のアノテーションが「国会」、2番目のアノテーションが「経済」であれば、「国会」というアノテーションは、“政治トピック”に属し、「経済」というアノテーションは、“経済トピック”に属する。
【0037】
(関連性集合54)
対象とする文書データに付与されたアノテーションと、その文書データの内容との関連性を式(6)の集合Rで表す。
【0038】
【数4】

【0039】
この式(6a)で示された集合Rは、推定する必要がある未知パラメータであり、関連性集合54として計算される。なお、「関連あり」のときにrdm=0、「関連なし」のときにrdm=1としてもよいことはもちろんである。また、「関連あり」と「関連なし」を異なる数値に対応させるのであれば、0と1のペアに限定されない。ここまでに数式に現れた記号の意味を表1にまとめて記載する。
【0040】
【表1】

【0041】
(パラメータ集合55)
パラメータ集合55の一例を図2に示す。詳細は、後記するが、パラメータ集合55は、推定されるパラメータ群と、集計されるパラメータ群に大別できる。
推定されるパラメータ群は、繰り返し制御部22における確率分布の計算のスムージングのために導入したハイパーパラメータα、β、γ、ηである。これらは推定する必要がある未知パラメータであり、パラメータ推定部34で推定される。
集計されるパラメータ群は、繰り返し制御部22における演算処理の結果として、前記したデータ帰属トピック集合52、アノテーション帰属トピック集合53、関連性集合54の各要素を割り当てた回数の集合(以下、割当回数集合という)を示す。割当回数集合A1,A2,A3は、文書毎、かつ、トピック毎に集計されたものである。また、割当回数集合A4は、アノテーション毎、かつ、トピック毎に集計されたものである。
【0042】
[アノテーションデータ解析装置の処理の概要]
(処理の全体の流れ)
図3は、図1に示したアノテーションデータ解析装置による処理の流れを示すフローチャートである。まず、アノテーションデータ解析装置1は、入力アノテーションデータ51(学習データ)を読み込む(ステップS1)。次に、アノテーションデータ解析装置1は、式(4a)に示すデータトピック集合Z、式(5a)に示すアノテーショントピック集合C、式(6a)に示す関連性集合Rをランダムに初期化する(ステップS2)。つまり、データトピック集合Z、アノテーショントピック集合C、関連性集合Rのそれぞれの初期状態は、集合の各要素がランダムな値を有した集合として設定される。
【0043】
続いて、アノテーションデータ解析装置1は、データ帰属トピック推定部31においてデータ帰属トピック集合52を推定する処理(ステップS3)、アノテーション帰属トピック推定部32においてアノテーション帰属トピック集合53を推定する処理(ステップS4)、関連性推定部33において関連性集合54を推定する処理(ステップS5)、パラメータ推定部34においてパラメータ集合55を推定する処理(ステップS6)を一連の演算処理として、この一連の演算処理を、例えば、後記する式(7)の目的関数が収束するまで繰り返し(ステップS7:No)、目的関数が収束したときに、そのときの関連性集合54にて「rdm=0」が割り当てられたアノテーションtdmの情報を出力する(ステップ8)。つまり、rdm=0が割り当てられている文書データdのm番目のアノテーションは、内容との関連がないものであると決定できる。これにより、入力アノテーションデータ51から、内容と関連のないアノテーションを削除できる。
【0044】
(目的関数)
ステップS7において値の収束が判別される目的関数は、「データ帰属トピック集合52、アノテーション帰属トピック集合53、関連性集合54が、どのくらい入力アノテーションデータ51を尤もらしく説明できているかを表す尤度」を示す関数である。つまり、「目的関数が収束するまで繰り返す」とは、「データ帰属トピック集合52、アノテーション帰属トピック集合53、関連性集合54の計算された時点における推定値が、どのくらい入力アノテーションデータ51を尤もらしく説明できているかを表す尤度が収束するまで繰り返す」ことを意味する。ここで、尤度が収束した状態、すなわち、尤度が高くなる状態とは、例えば、次の(1)〜(5)のような状態になることである。
【0045】
(1)データ(単語)のトピックとそのデータに付与されているアノテーションのトピックが同じであれば、アノテーションと文書の内容とに関連性があり(rdm=1)、尤度は高くなる。
(2)ある文書dに含まれる各単語wに割り当てられるトピックzの種類の数が少ない場合、尤度は高くなる。
(3)ある文書dに付与されたアノテーションtに割り当てられるトピックcの種類の数が少ない場合に、尤度は高くなる。
(4)あるトピックzが付与される単語wが特定の単語集合である場合、尤度は高くなる。つまり、数が少ない単語集合のみにトピックzが付与される場合には、尤度が高くなる。例えば、3つの単語(単語1、単語2、単語3)があったときに、あるトピックAが、単語1、単語2、単語3に付与される場合に、尤度は低いが、あるトピックAが、単語1にだけ付与される場合に、尤度は高くなる。
(5)同様に、あるトピックcが付与されるアノテーションtが特定のアノテーション集合である場合に、尤度は高くなる。
【0046】
この尤度計算において、一例として、式(7)に示すP(W,T,Z,C,R|α,β,γ,η)を尤度として採用することができる。
【0047】
【数5】

【0048】
式(7)の右辺は、5つの確率分布の積を表している。以下では、それぞれの確率分布を第1の確率分布〜第5の確率分布とよび、それらの具体的な表式を示す。
【0049】
<第1の確率分布>
第1の確率分布P(Z|α)は、第1の条件の下では、式(8)で表すことができる。第1の条件は、文書毎のトピック生成分布として多項分布(Multinomial distribution)、その事前分布としてパラメータ(ハイパーパラメータ)αを持つディリクレ分布(Dirichlet distribution)を用いるという条件である。
【0050】
【数6】

【0051】
<第2の確率分布>
第2の確率分布P(W|Z,β)は、第2の条件の下では、式(9a)で表すことができる。第2の条件は、トピック毎の単語生成分布として多項分布、その事前分布としてパラメータ(ハイパーパラメータ)βを持つディリクレ分布を用いるという条件である。
【0052】
【数7】

【0053】
<第3の確率分布>
第3の確率分布P(T|C,R,γ)は、第3の条件の下では、式(10a)で表すことができる。第3の条件は、トピック毎のアノテーション生成分布として多項分布、その事前分布としてパラメータ(ハイパーパラメータ)γを持つディリクレ分布を用いるという条件である。
【0054】
【数8】

【0055】
<第4の確率分布>
第4の確率分布P(R|η)は、第4の条件の下では、式(11)で表すことができる。第4の条件は、内容と関係がある確率をベルヌーイ分布、その事前分布としてパラメータηを持つベータ分布を用いるという条件である。
【0056】
【数9】

なお、m1は、文書dに関するアノテーション数Mdと同じものである。ただし、文書dを前提として、関連性の観点から、m1をm0と共に用いることとした。
【0057】
<第5の確率分布>
第5の確率分布P(C|Z)は、第5の条件の下では、式(12)で表すことができる。第5の条件は、アノテーションのトピックは、単語のトピックと同じ比率の多項分布から生成されるという仮定を用いるという条件である。
【0058】
【数10】

【0059】
[アノテーションデータ解析装置の構成の詳細]
次に、演算部2の各部の構成の詳細を説明する。以下では、マルコフ連鎖モンテカルロ法に基づいて、データ帰属トピック推定、アノテーション帰属トピック推定、関連性推定、パラメータ推定を行う場合について記述する。
【0060】
<初期化部>
初期化部21は、推定対象の各集合52,53,54の要素を初期化するものである。初期化部21は、前記した式(4a)に示すデータトピック集合Z、式(5a)に示すアノテーショントピック集合C、式(6a)に示す関連性集合Rをランダムに初期化する。
【0061】
<繰り返し制御部>
繰り返し制御部22は、推定対象の各集合52,53,54およびハイパーパラメータα,β,γ,ηの推定処理および更新処理を、推定対象の各集合52,53,54が入力アノテーションデータ51を尤もらしく説明できている度合いを表す尤度を最大化する予め定められた目的関数が収束するまで繰り返すものである。
【0062】
≪データ帰属トピック推定部≫
図4は、図1に示したデータ帰属トピック推定部の構成を示す機能ブロック図である。
データ帰属トピック推定部31は、各文書データに含まれる各単語が所定のトピックに帰属する帰属度を全トピックについて算出した結果に基づいて新たなトピックを割り当てることでデータ帰属トピック集合52を推定するものである。このために、データ帰属トピック推定部31は、図4に示すように、第1パラメータ読込部311と、第1帰属割当部312と、第1帰属書込部313とを備えている。
【0063】
第1パラメータ読込部311は、パラメータ集合55から、次の式(13)に示す割当回数集合A1と、式(14)に示す割当回数集合A2と、式(15)に示す割当回数集合A3と、前記したハイパーパラメータα,βを読み込み、第1帰属割当部312に出力する。
【0064】
【数11】

【0065】
式(13)に示す割当回数集合(トピック割当回数集合)A1は、文書dでトピックzを割り当てられた単語数nzdの集合である。
式(14)に示す割当回数集合A2は、単語wにトピックzが割り当てられた数nzwの集合である。
式(15)に示す割当回数集合A3は、文書dにおいてトピックzが割り当てられたアノテーション数

の集合である。
【0066】
第1帰属割当部312は、第1帰属度算出部314と、第1正規化部315と、第1乱数発生部316と、第1帰属トピック決定部317とを備えている。
【0067】
第1帰属度算出部314は、各文書d=1,…,Dに含まれる各単語w(n=1,…,Nd)がどのトピック(z=1,…,Z)に帰属するかを表す帰属度を計算する。
帰属度は、入力として、
1)文書のトピック比率、
2)トピック毎の単語生成確率、
3)アノテーションのトピック比率、
4)アノテーション帰属トピック数
をとり、これらの値を考慮したものである必要がある。
【0068】
ここで、
1)文書のトピック比率は、ある文書dに含まれる各単語wに割り当てられるトピックの種類の数の割合である。
2)トピック毎の単語生成確率は、トピック毎の単語生成分布のことであり、ここでは、多項分布を仮定している。
3)アノテーションのトピック比率は、ある文書dに付与された各アノテーションに割り当てられるトピックの種類の数の割合である。
4)アノテーション帰属トピック数は、文書dにおいてトピックzが割り当てられたアノテーション数を表す

のことである。
【0069】
本実施形態では、第1帰属度算出部314は、例えば、次の式(16)により帰属度を算出することとした。
【0070】
【数12】

【0071】
第1正規化部315、第1乱数発生部316、第1帰属トピック決定部317は、協働して、以下のようにしてルーレットを回すようにトピックを割り当てる。
第1正規化部315は、トピック数Zの個数だけ求めた各帰属度の計算結果をすべて足して「1」になるように正規化する。つまり、各帰属度から帰属確率を求める。
第1乱数発生部316は、0〜1の乱数を1つ発生させる。
第1帰属トピック決定部317は、第1帰属度算出部314で計算された帰属度に基づいて、新たなトピックzjを割り当てる。この第1帰属トピック決定部317は、前記した式(13)に示す割当回数集合(トピック割当回数集合)A1と、前記した式(14)に示す割当回数集合A2とを集計し、記憶部6のパラメータ集合55に格納する。
【0072】
具体的には、Z=3の場合、k=1、k=2、k=3である。これらを、各帰属度の合計が1になるように正規化するとき、例えば、k=1のとき帰属度「0.5」、k=2のとき帰属度「0.3」、k=3のとき帰属度「0.2」になったとする。発生させた乱数が、0〜0.5の場合、k=1とする。発生させた乱数が、0.5〜0.8の場合、k=2とする。発生させた乱数が、0.8〜1.0の場合、k=3とする。これにより、第1帰属トピック決定部317は、新たなトピックzjを割り当てることができる。
【0073】
第1帰属書込部313は、第1帰属トピック決定部317で決定されたzjをデータ帰属トピック集合52として記憶部6に格納する。
【0074】
≪アノテーション帰属トピック推定部≫
図5は、図1に示したアノテーション帰属トピック推定部の構成を示す機能ブロック図である。アノテーション帰属トピック推定部32は、各文書データに付与された各アノテーションが所定のトピックに帰属する帰属度を全トピックについて算出した結果に基づいて新たなトピックを割り当てることでアノテーション帰属トピック集合53を推定するものである。このために、アノテーション帰属トピック推定部32は、第2パラメータ読込部321と、第2帰属割当部322と、第2帰属書込部323とを備えている。
【0075】
第2パラメータ読込部321は、パラメータ集合55から、前記した式(13)に示す割当回数集合A1と、式(17)に示す割当回数集合A4と、ハイパーパラメータγを読み込み、第2帰属割当部322に出力する。
【数13】

【0076】
式(17)に示す割当回数集合(関連性割当回数集合)A4は、z′≠0の場合にアノテーションtがその文書の内容と関連があり、かつ、トピックz′に割り当てられた回数の集合と、z′=0の場合にアノテーションtがその文書の内容と関連がないとされた回数の集合とを示す集合である。
【0077】
第2帰属割当部322は、第2帰属度算出部324と、第2正規化部325と、第2乱数発生部326と、第2帰属トピック決定部327とを備える。
第2帰属度算出部324は、各文書d=1,…,Dの各アノテーションm=1,…,Mdがどのトピックに帰属するかを表す帰属度を計算する。
帰属度は、入力として、前記した3)アノテーションのトピック比率に加え、
5)トピック毎のアノテーション生成確率、
6)関連性集合Rにおける関連性rdmをとり、これらの値を考慮したものである必要がある。
【0078】
ここで、5)トピック毎のアノテーション生成確率は、トピック毎のアノテーション生成分布のことであり、ここでは、多項分布を仮定している。
6)関連性rdmは、第2パラメータ読込部321で読み込む前記した式(17)に示す割当回数集合A4に基づくものである。
【0079】
関連性がある場合(ri=1)、3)アノテーションのトピック比率と、5)トピック毎のアノテーション生成確率の両方を考慮する。この場合、第2帰属度算出部324は、例えば、式(18)により帰属度を計算することができる。
【0080】
【数14】

【0081】
一方、関連性がない場合(ri=0)、3)アノテーションのトピック比率のみを考慮する。この場合、第2帰属度算出部324は、例えば、式(19)により帰属度を計算することができる。
【0082】
【数15】

【0083】
第2正規化部325、第2乱数発生部326、第2帰属トピック決定部327は、前記した第1正規化部315、第1乱数発生部316、第1帰属トピック決定部317と同様な処理を行うものなので、説明を省略する。これらにより、第2帰属トピック決定部327は、第2帰属度算出部324で計算された帰属度に基づいて、新たなトピックciを割り当てる。そして、第2帰属書込部323は、推定したトピックciをアノテーション帰属トピック集合53に格納する。なお、第2帰属トピック決定部327は、前記した式(15)に示す割当回数集合A3を集計し、記憶部6のパラメータ集合55に格納する。
【0084】
≪関連性推定部≫
図6は、図1に示した関連性推定部の構成を示す機能ブロック図である。
関連性推定部33は、トピック毎にアノテーションが生成される確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出した結果に基づいて新たな関連性を割り当てることで関連性集合54を推定するものである。このために、関連性推定部33は、第3パラメータ読込部331と、関連性割当部332と、関連性書込部333とを備える。
【0085】
第3パラメータ読込部331は、パラメータ集合55から、前記した式(17)に示す割当回数集合(関連性割当回数集合)A4と、前記したハイパーパラメータγ、ηを読み込み、関連性割当部332に出力する。
【0086】
関連性割当部332は、関連度算出部334と、第3正規化部335と、第3乱数発生部336と、関連性決定部337とを備える。
関連度算出部334は、各文書d=1,…,Dの各アノテーションm=1,…,Mdについて内容との関連性があるか否かを表す関連度を計算する。
関連度は、入力として、
前記した5)トピック毎のアノテーション生成確率に加え、
7)関連性がある確率
をとり、これらの値を考慮したものである必要がある。
【0087】
ここで、7)関連性がある確率は、例えば、式(21b)で表され、一方、関連性がない確率は、例えば、式(20b)で表される。
【0088】
関連度算出部334は、読み込んだパラメータ群を用いて、割り当て対象とするデータに付与されたアノテーションについて当該データの内容との関連性がないことを表す関連度(第1関連度)を例えば式(20a)により算出し、関連性があることを表す関連度(第2関連度)を例えば式(21a)により算出する。
【0089】
【数16】

【0090】
なお、式(20b)からスムージングのηを除外すれば、分母が「アノテーション数」、分子が「関連なしとされたアノテーション数」となるので、式(20b)は関連性がない確率を示す。また、式(21b)からスムージングのηを除外すれば、分母が「アノテーション数」、分子が「関連ありとされたアノテーション数」となるので、式(21b)は、関連性がある確率を示す。
【0091】
第3正規化部335と、第3乱数発生部336と、関連性決定部337は、協働して、以下のようにしてルーレットを回すようにトピックを割り当てる。
本実施形態では、関連度算出部334は、あるi=(d,m)について、まず、式(20a)と式(21a)の両方の関連度を計算する。
第3正規化部335は、関連度の2つの計算結果を足して「1」になるように正規化する。例えば、式(20a)の正規化の結果が“0.9”となり、式(21a)の正規化の結果が“0.1”となったとする。関連性決定部337は、第3乱数発生部336で発生した乱数が例えば“0.9”より小さければ、新たな関連性ri=0とし、乱数が“0.9”より大きければ、新たな関連性ri=1とする。これにより、関連性決定部337は、関連度算出部334で計算された関連度に基づいて、新たな関連性riを割り当てる。そして、関連性書込部333は、推定した関連性ri(0または1)を関連性集合54に格納する。なお、この関連性決定部337は、前記した式(17)に示す割当回数集合(関連性割当回数集合)A4を集計し、記憶部6のパラメータ集合55に格納する。
【0092】
≪パラメータ推定部≫
図7は、図1に示したパラメータ推定部の構成を示す機能ブロック図である。
パラメータ推定部34は、推定された各集合52,53,54およびハイパーパラメータα,β,γ,ηを入力として、推定対象の各集合52,53,54が入力アノテーションデータ51を尤もらしく説明できている度合いを表す尤度を算出する。また、パラメータ推定部34は、算出した尤度に基づいて目的関数の収束を判定し、目的関数が収束していない場合、入力に用いたハイパーパラメータα,β,γ,ηを所定の更新式により更新する。このために、パラメータ推定部34は、第4パラメータ読込部341と、パラメータ割当部342と、パラメータ書込部343とを備える。
【0093】
第4パラメータ読込部341は、パラメータ集合55から、前記した式(13)に示す割当回数集合A1と、前記した式(14)に示す割当回数集合A2と、前記した式(15)に示す割当回数集合A3と、前記した式(17)に示す割当回数集合A4と、ハイパーパラメータα,β,γ,ηを読み込み、パラメータ割当部342に出力する。
【0094】
パラメータ割当部342は、尤度算出部344と、収束判定部345と、パラメータ更新部346とを備える。
尤度算出部344は、前記した目的関数、すなわち、式(7)の「集合が、入力として受け付けた各データをどのくらい尤もらしく説明できているか」を表す尤度を、最大にするように、例えば準ニュートン法などの最適化法を用いて求めることとした。
収束判定部345は、前記した式(7)の目的関数が収束したか否かを判別する。
パラメータ更新部346は、収束判定部345の判別の結果、収束していなければ、例えば、式(22)〜式(26)の更新式により、各パラメータを更新し、データ帰属トピック推定部31、アノテーション帰属トピック推定部32、関連性推定部33、パラメータ推定部34による一連の処理を繰り返す制御を行う。なお、ハイパーパラメータα,β,γ,ηの初期値は0以外の値に予め設定されている。
【0095】
【数17】

【0096】
パラメータ書込部343は、収束判定部345の判別の結果、収束していれば、推定に用いたパラメータα、β、γ、ηをパラメータ集合55の最終結果格納領域に格納する。
【0097】
このようにパラメータ集合55が最終的に決定したときに、記憶部6の関連性集合54に、「関連性なし(rdm=0)」が割り当てられているrdmから、dとmの情報を抽出し、記憶部6の入力アノテーションデータ51において、文書dのm番目のアノテーションtdmを削除すれば、この文書dに付与されているMd個のアノテーションの中から、内容と関連のないアノテーションを除去することができる。
【0098】
<アノテーション付与部>
図8は、図1に示したアノテーション付与部の構成を示す機能ブロック図である。
アノテーション付与部23は、入力アノテーションデータ51に含まれるアノテーションデータのうちアノテーションが組み合わされていないデータに対してアノテーションを付与するものである。このために、アノテーション付与部23は、第5パラメータ読込部231と、関連アノテーション推定部232と、アノテーション書込部233とを備えている。
【0099】
第5パラメータ読込部231は、パラメータ集合55から、前記した式(13)に示す割当回数集合A1と、前記した式(17)に示す割当回数集合(関連性割当回数集合)A4と、前記したハイパーパラメータγを読み込み、関連アノテーション推定部232に出力する。
【0100】
関連アノテーション推定部232は、アノテーショントピック比率推定部234と、関連アノテーション生成確率推定部235と、関連アノテーション付与確率算出部236と、アノテーション決定部237とを備える。
アノテーショントピック比率推定部234は、読み込んだパラメータ群を用いて、アノテーションに割り当てられるトピックの種類の数の割合を示すアノテーショントピック比率を推定するものである。ここでは、式(28)により推定することとした。
関連アノテーション生成確率推定部235は、読み込んだパラメータ群を用いて、アノテーションがデータの内容と関連性がある確率を表す関連ありアノテーション生成確率を推定するものである。ここでは、式(29)により推定することとした。
関連アノテーション付与確率算出部236は、トピック毎のアノテーショントピック比率と関連ありアノテーション生成確率との積の総和である関連ありアノテーション付与確率を、アノテーション別に算出するものである。ここでは、式(27)により推定することとした。
【0101】
【数18】

【0102】
アノテーション決定部237は、アノテーション別に算出された関連ありアノテーション付与確率の上位から予め定められた数だけのアノテーションを決定するものである。そして、アノテーション書込部233は、決定されたアノテーションをアノテーション帰属トピック集合53に格納する。
【0103】
具体的には、関連アノテーション付与確率算出部236が、学習データ集合Dのある文書dについて、あるアノテーションtにおいて、トピックzを1〜Zまで変え、かつ、アノテーションtを1〜Tまで変えて、式(27)に示すP(t|d,D)を求める。すると、式(27)に示すP(t|d,D)が合計T個求まる。仮に、この学習データ集合Dのある文書dについて、1つのアノテーションtを付与したいならば、アノテーション決定部237は、求められたT個のP(t|d,D)のうち、最大の確率となるときのアノテーションtを付与する。また、2つのアノテーションtを付与したいならば、アノテーション決定部237は、求められたT個のP(t|d,D)のうち、第1位および第2位の確率となるときのアノテーションtをそれぞれ付与する。
【0104】
なお、アノテーションデータ解析装置1は、一般的なコンピュータを、アノテーションデータ解析装置1を構成する前記した各部として機能させるプログラム(アノテーションデータ解析プログラム)により動作させることで実現することができる。このプログラムは、通信回線を介して提供することも可能であるし、CD−ROM等の記録媒体に書き込んで配布することも可能である。
【0105】
本実施形態によれば、アノテーションデータ解析装置1は、繰り返し制御部22によって、推定対象の各集合52,53,54およびハイパーパラメータα,β,γ,ηの推定処理および更新処理を目的関数が収束するまで繰り返す中で、関連性推定部33によって、トピック毎のアノテーション生成確率に基づいて、各アノテーションを、付与されたデータの内容との関連性があるものと、関連性がないものとに分類できる。したがって、目的関数が収束したときに、アノテーションデータ解析装置1の記憶部6に記憶されている関連性集合54において関連性なし(rdm=0)と割り当てられたアノテーションの情報を抽出し、入力アノテーションデータ51から、このアノテーションを削除すれば、そのアノテーションが付与されていた文書データから、内容と関連のないアノテーションを除去することができる。
【0106】
以上、本発明の実施形態について説明したが、本発明はこれに限定されるものではなく、その趣旨を変えない範囲で実施することができる。例えば、アノテーションデータ解析装置1が、前記したステップS7において値の収束を判別するための目的関数としては、式(7)の尤度(関数)に限定されるものではない。前記した式(7)の尤度の代わりに、事後確率など同等の性質を持つ値を用いることも可能である。
【0107】
また、本実施形態では、アノテーションデータ解析装置1の繰り返し制御部22の行う処理について、マルコフ連鎖モンテカルロ法に基づいて記述したが、代わりに、変分ベイズ法等を用いることも可能である。
【0108】
また、本実施形態では、簡単のためデータを文書データとして説明したが、離散データであれば、画像データ、購買データなど任意のデータに適用可能である。解析対象とするデータが、例えば、画像データである場合、データの構成要素は画像の一部の領域を指し、アノテーションは、例えば画像作成者が画像に付与したキャプションを示す。
【0109】
また、本実施形態では、アノテーション付与部23を備えるベストモードで説明したが、本発明は、これに限らず、アノテーション付与部23を備えない構成とすることもできる。なお、本実施形態のように、アノテーション付与部23を備える場合、あるデータにおいて、関連なしと割り当てられたアノテーションを削除した後に、関連性があるアノテーションを新たに付与することも可能である。
【実施例】
【0110】
本発明による内容との関連性を考慮したアノテーションデータ自動解析の効果を確認するために、本実施形態に係るアノテーションデータ解析装置1によって複数の実験(実験1〜実験4)を行った。
【0111】
[学習データ]
一例として20カテゴリに予め分類された文書データ集合を基に、大別して2種類の学習データ(以下、データ1、データ2と呼ぶ)を作成した。まず、基にした文書データ集合において、文書が分類された20個のカテゴリを、「内容と関連のあるアノテーション」と想定した。そして、「内容と関係のないアノテーション」をランダムに各文書に付与することで、学習データを作成した。
【0112】
<データ1>
データ1では、全アノテーションの語彙数Tのうち、後から付与した「内容と関係のないアノテーション」の語彙数(関連なしアノテーション語彙数)を“10”に固定した。そして、各文書dに付与するアノテーション数Mdのうち、後から付与した「内容と関係のないアノテーション」の数(関連なしアノテーション数)を“1”から“10”まで変化させた。つまり、各文書における関連なしアノテーションの付与数を、“1”から“10”まで変化させた。なお、関連なしアノテーションを付与しない文書(付与数=0)も取り扱った。
【0113】
<データ2>
データ2では、各文書dに付与するアノテーション数Mdのうち、後から付与した「内容と関係のないアノテーション」の数(関連なしアノテーション数)を“1”に固定した。そして、全アノテーションの語彙数Tのうち、後から付与した「内容と関係のないアノテーション」の語彙数(関連なしアノテーション語彙数)を“1”から“10”まで変化させた。つまり、関連なしアノテーション語彙数を、“1”から“10”まで変化させた。なお、関連なしアノテーション語彙数=0の場合も取り扱った。
【0114】
[実験1]
実験1は、内容と関連のあるアノテーションを予測したものである。ここでは、内容と関連のあるアノテーションに対する予測精度を、アノテーションデータ解析における予測誤差(パープレキシティ)で評価した。
本発明において、内容との関連性があるアノテーションが付与される確率は、前記した式(27)で計算できる。本発明においてデータ1を用いたときの実験結果を実施例1とする。また、本発明においてデータ2を用いたときの実験結果を実施例2とする。
【0115】
<本発明との比較対象の従来手法>
比較手法として、最大エントロピー法(MaxEnt)と、Correspondence-LDA(Corr-LDA)とをそれぞれ用いた。
MaxEntは識別的教師あり学習法である。
Corr-LDAは関連性を考慮しない手法である(非特許文献1参照)。
MaxEntにおいてデータ1を用いたときの実験結果を比較例1aとする。
MaxEntにおいてデータ2を用いたときの実験結果を比較例2aとする。
Corr-LDAにおいてデータ1を用いたときの実験結果を比較例1bとする。
Corr-LDAにおいてデータ2を用いたときの実験結果を比較例2bとする。
【0116】
<実験結果>
実施例1と、比較例1a,1bとの比較結果を図9(a)に示す。図9(a)は、学習データとしてデータ1を用いた場合の結果を示すグラフであり、横軸は、各文書における関連なしアノテーションの付与数を表し、縦軸は、予測誤差(パープレキシティ)を表している。なお、パープレキシティの値が小さいほど、予測精度が高い良い結果を示す。図9(a)に示すように、実施例1(Proposed:実線)は、比較例1a(MaxEnt:破線)、比較例1b(Corr-LDA:一点鎖線)よりも、パープレキシティが小さくなった。
【0117】
実施例2と、比較例2a,2bとの比較結果を図9(b)に示す。図9(b)は、学習データとしてデータ2を用いた場合の結果を示すグラフであり、横軸は、関連なしアノテーション語彙数を表し、縦軸は、予測誤差(パープレキシティ)を表している。図9(b)に示すように、実施例2(Proposed:実線)は、比較例2a(MaxEnt:破線)、比較例2b(Corr-LDA:一点鎖線)よりも、パープレキシティが小さくなった。
【0118】
実験1の結果により、内容とは関連のないアノテーションがあるすべての場合において、本発明(Proposed)の予測誤差が最も低く、高い精度で内容と関係のあるアノテーションを予測できていることがわかる。
【0119】
[実験2]
実験2は、内容との関連性を正確に予測できるかを測定した。ここでは、内容と関連があるアノテーションに対する予測精度(F値)で評価した。
本発明は、文書データの単語のトピックと、アノテーションのトピックとが一致すれば、アノテーションと文書データの内容との関連性があるとしている。
本発明においてデータ1を用いたときの実験結果を実施例3とする。また、本発明においてデータ2を用いたときの実験結果を実施例4とする。
【0120】
<本発明との比較対象の方法>
比較対象の方法として、アノテーション中に含まれる単語が文書中に含まれる場合、関連性があるとする手法(以下、Baselineという)を用いた。
Baselineにおいてデータ1を用いたときの実験結果を比較例3とする。
Baselineにおいてデータ2を用いたときの実験結果を比較例4とする。
【0121】
<実験結果>
実施例3と、比較例3との比較結果を図10(a)に示す。図10(a)は、学習データとしてデータ1を用いた場合の結果を示すグラフであり、横軸は、各文書における関連なしアノテーションの付与数を表し、縦軸は、予測精度(F値)を表している。なお、F値が大きいほど、予測精度が高い良い結果を示す。図10(a)に示すように、実施例3(Proposed:実線)は、比較例3(Baseline:破線)よりも、F値が格段に大きくなった。
【0122】
実施例4と、比較例4との比較結果を図10(b)に示す。図10(b)は、学習データとしてデータ2を用いた場合の結果を示すグラフであり、横軸は、関連なしアノテーション語彙数を表し、縦軸は、予測精度(F値)を表している。図10(b)に示すように、実施例4(Proposed:実線)は、比較例4(Baseline:破線)よりも、F値が格段に大きくなった。
【0123】
実験2の結果により、内容とは関連のないアノテーションがあるすべての場合において、本発明(Proposed)の予測精度が高く、関連性を正確に予測できていることがわかる。
【0124】
[実験3]
実験3は、関連性を正確に予測できるかを測定した。ここでは、アノテーションと内容との関連性があるものと推定された比率を真の比率で評価した。
本実施形態では、関連性がある確率を前記した式(21b)で表した。同様に、実施例では、本発明により推定された関連性ありの比率を式(30)のλ^(以下、単にラムダという)で表す。なお、本明細書において、「^」は、直前の文字を修飾するためにその文字の真上に表示される記号を意味する。
【0125】
【数19】

【0126】
本発明においてデータ1を用いたときの実験結果を実施例5とする。
また、本発明においてデータ2を用いたときの実験結果を実施例6とする。
比較対象は、真の値(以下、Trueという)である。
Trueにおいてデータ1を用いたときの実験結果を比較例5とする。
Trueにおいてデータ2を用いたときの実験結果を比較例6とする。
【0127】
<実験結果>
実施例5と、比較例5との比較結果を図11(a)に示す。図11(a)は、学習データとしてデータ1を用いた場合の結果を示すグラフであり、横軸は、各文書における関連なしアノテーションの付与数を表し、縦軸は、関連性ありの比率(ラムダ)を表している。なお、ラムダの最大値は1である。図11(a)に示すように、実施例5(Estimated:実線)は、比較例5(True:破線)と同様な傾向となった。また、実施例5と比較例5との差分は僅かであった。
【0128】
実施例6と、比較例6との比較結果を図11(b)に示す。図11(b)は、学習データとしてデータ2を用いた場合の結果を示すグラフであり、横軸は、関連なしアノテーション語彙数を表し、縦軸は、関連性ありの比率(ラムダ)を表している。図11(b)に示すように、実施例6(Estimated:実線)は、比較例6(True:破線)と同様な傾向にあり、実施例6と比較例6との差分は僅かであった。
【0129】
実験3の結果により、本発明(Estimate)においてアノテーションと内容との関連性があるものと推定された比率は、真の比率とほぼ同じであり、高い予測精度で推定できていることがわかる。
【0130】
[実験4]
<実験内容>
実験4では、データ1およびデータ2の代わりに、実際のソーシャルアノテーションサービス(ソーシャルブックマークサービス)のデータを、学習データとして用いた。ここで、文書データはウェブページである。本実施形態に係るアノテーションデータ解析装置1によって、入力アノテーションデータ51として、ユーザが自由にアノテーションを付与したウェブページ(文書データ)を用いた。
【0131】
<実験結果>
目的関数が収束したときに、内容と関連のない場合に付与されやすいアノテーションを抽出した。すなわち、記憶部6の関連性集合54に、「関連性なし(rdm=0)」が割り当てられているrdmから、dとmの情報を抽出した。抽出結果のアノテーションは、「あとでよむ」、「?」、「気になる」、「記事」、「メモ」、「未読」などであった。これら実験4で抽出されたアノテーションは、実際に内容と関連のないアノテーションであった。すなわち、本発明は、実際のソーシャルアノテーションサービス(ソーシャルブックマークサービス)のデータを用いた場合においても、内容と関連のないアノテーションを高い予測精度で推定できることがわかった。
【符号の説明】
【0132】
1 アノテーションデータ解析装置
2 演算部
4 入力部
6 記憶部
8 出力部
11 バスライン
21 初期化部
22 繰り返し制御部
23 アノテーション付与部
231 第5パラメータ読込部
232 関連アノテーション推定部
233 アノテーション書込部
234 アノテーショントピック比率推定部
235 関連アノテーション生成確率推定部
236 関連アノテーション付与確率算出部
237 アノテーション決定部
24 メモリ
31 データ帰属トピック推定部
311 第1パラメータ読込部
312 第1帰属割当部
313 第1帰属書込部
314 第1帰属度算出部
315 第1正規化部
316 第1乱数発生部
317 第1帰属トピック決定部
32 アノテーション帰属トピック推定部
321 第2パラメータ読込部
322 第2帰属割当部
323 第2帰属書込部
324 第2帰属度算出部
325 第2正規化部
326 第2乱数発生部
327 第2帰属トピック決定部
33 関連性推定部
331 第3パラメータ読込部
332 関連性割当部
333 関連性書込部
334 関連度算出部
335 第3正規化部
336 第3乱数発生部
337 関連性決定部
34 パラメータ推定部
341 第4パラメータ読込部
342 パラメータ割当部
343 パラメータ書込部
344 尤度算出部
345 収束判定部
346 パラメータ更新部
40 プログラム格納部
41 初期化プログラム
42 データ帰属トピック推定プログラム
43 アノテーション帰属トピック推定プログラム
44 関連性推定プログラム
45 パラメータ推定プログラム
46 アノテーション付与プログラム
50 データ格納部
51 入力アノテーションデータ
52 データ帰属トピック集合
53 アノテーション帰属トピック集合
54 関連性集合
55 パラメータ集合

【特許請求の範囲】
【請求項1】
構成要素が離散値のベクトルとして表現されたデータと、前記データに付与されるアノテーションとの組みを示すアノテーションデータを確率モデルに基づいて解析するアノテーションデータ解析装置であって、
解析対象として与えられる前記アノテーションデータの集合を示すアノテーションデータ集合を入力する入力部と、
前記入力されたアノテーションデータ集合と、推定対象のパラメータ群とを含む情報を記憶する記憶部と、
前記記憶された情報に基づいて所定の演算を行う演算部と、
前記演算結果として、前記アノテーションのうち、データの内容との関連がないアノテーションの情報を出力する出力部とを備え、
前記記憶部は、
前記推定対象のパラメータ群として、
前記アノテーションデータ集合に含まれる前記構成要素が帰属するトピックの集合を示すデータ帰属トピック集合と、
前記アノテーションデータ集合に含まれる前記アノテーションが帰属するトピックの集合を示すアノテーション帰属トピック集合と、
前記アノテーションデータ集合に含まれる前記アノテーションと、当該アノテーションが付与されたデータの内容との関連の有無を表す関連性の集合を示す関連性集合と、
前記確率モデルにおける複数のハイパーパラメータと、を記憶し、
前記演算部は、
前記推定対象の各集合の要素を初期化する初期化部と、
前記推定対象の各集合および複数のハイパーパラメータの推定処理および更新処理を、前記推定対象の各集合が前記アノテーションデータ集合を尤もらしく説明できている度合いを表す尤度を最大化する予め定められた目的関数が収束するまで繰り返す繰り返し制御部とを備え、
前記繰り返し制御部は、
各データに含まれる各構成要素が所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記データ帰属トピック集合を推定するデータ帰属トピック推定部と、
各データに付与された各アノテーションが所定のトピックに帰属する帰属度を予め定められた全トピックについて算出した結果に基づいて新たなトピックを割り当てることで前記アノテーション帰属トピック集合を推定するアノテーション帰属トピック推定部と、
前記トピック毎に前記アノテーションが生成される確率に基づいて、関連性がある確率と関連性がない確率との両方をアノテーション毎に算出した結果に基づいて新たな関連性を割り当てることで前記関連性集合を推定する関連性推定部と、
前記推定された各集合および複数のハイパーパラメータを入力として前記尤度を算出し、算出した尤度に基づいて前記目的関数の収束を判定し、前記目的関数が収束していない場合、前記入力に用いたハイパーパラメータを所定の更新式により更新するパラメータ推定部と、
を備えることを特徴とするアノテーションデータ解析装置。
【請求項2】
前記繰り返し制御部は、前記推定対象の各集合の要素を割り当てた回数を予め定められた基準で逐次集計し、前記基準で集計された集合を、割当回数集合として前記記憶部に格納し、
前記割当回数集合は、
前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連がないとされた回数の集合と、
前記アノテーションデータ集合に含まれるアノテーションが、付与されたデータの内容との関連があるとされ、かつ、当該アノテーションがトピックに割り当てられたトピック毎の回数の集合との和を示す関連性割当回数集合を含み、
前記関連性推定部は、
前記関連性割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータと、内容と関係がある確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、
前記読み込んだパラメータ群を用いて、割り当て対象とするデータに付与されたアノテーションについて当該データの内容と関連性がないことを表す第1関連度と、関連性があることを表す第2関連度とをそれぞれ算出する関連度算出部と、
前記第1関連度および第2関連度のいずれを採用するかを確率モデルに基づいて決定し、前記割り当て対象とするデータに対して、前記決定された関連度に対応した新たな関連性を割り当てる関連性決定部とを備えることを特徴とする請求項1に記載のアノテーションデータ解析装置。
【請求項3】
前記演算部は、
前記アノテーションデータ集合に含まれるアノテーションデータのうちアノテーションが組み合わされていないデータに対してアノテーションを付与するアノテーション付与部をさらに備え、
前記割当回数集合は、前記アノテーションデータ集合に含まれるデータでトピックを割り当てられた前記データの構成要素の数の集合であるトピック割当回数集合をさらに含み、
前記アノテーション付与部は、
前記関連性割当回数集合と、前記トピック割当回数集合と、前記トピック毎に前記アノテーションが生成される確率の事前分布を示すハイパーパラメータとを含むパラメータ群を読み込むパラメータ読込部と、
前記読み込んだパラメータ群を用いて、アノテーションに割り当てられるトピックの種類の数の割合を示すアノテーショントピック比率を推定するアノテーショントピック比率推定部と、
前記読み込んだパラメータ群を用いて、アノテーションがデータの内容と関連性がある確率を表す関連ありアノテーション生成確率を推定する関連アノテーション生成確率推定部と、
トピック毎の前記アノテーショントピック比率と前記関連ありアノテーション生成確率との積の総和である関連ありアノテーション付与確率を、アノテーション別に算出する関連アノテーション付与確率算出部と、
前記アノテーション別に算出された関連ありアノテーション付与確率の上位から予め定められた数だけのアノテーションを決定するアノテーション決定部とを備えることを特徴とする請求項2に記載のアノテーションデータ解析装置。
【請求項4】
請求項1乃至請求項3のいずれか一項に記載のアノテーションデータ解析装置を構成する各部としてコンピュータを機能させるためのアノテーションデータ解析プログラム。
【請求項5】
請求項4に記載のアノテーションデータ解析プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate