説明

ルール発見プログラム、ルール発見方法およびルール発見装置

【課題】 マルチメディアデータ内のルール生成に有効な特徴部分を自動で探索して、ルールを発見できるようにする。
【解決手段】 複数のサンプルデータ7a,7b,7cが入力されると、探索手段2により、マルチメディアデータ7aa,7ba,7caを構成するデータ配列上の評価対象位置が選択され、選択パターン8aが生成される。次に、集約手段3により、選択パターン8aの評価対象位置が集約され、所定数の評価対象領域8b,8cが生成される。さらに、ルール候補生成手段4により、複数のマルチメディアデータに共通の関係を示すルール候補8dが生成される。生成されたルール候補8dは、ルール候補評価手段5により評価される。そして、出力手段6により、所定の判定基準を満たしているルール候補が、ルール9として出力される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は複数の情報間の関係を発見するためのルール発見プログラム、ルール発見方法およびルール発見装置に関し、特にマルチメディアデータとそのマルチメディアデータに付随するテキストデータとの間の関係を発見するルール発見プログラム、ルール発見方法およびルール発見装置に関する。
【背景技術】
【0002】
現在、様々な分野で、マルチメディアデータに基づく状況分析が行われている。例えば、製造する部品を撮影し、その部品の画像を解析することで、部品が良品か不良品かを判断することができる。このような画像等のマルチメディアデータに基づく各種状況判断(病気の診断等)は、画像解析、映像解析、ボリュームデータ解析、時系列情報解析、流体解析、機械部品性能解析、医療画像診断、脳機能解明、市場分析などの幅広い分野において利用されている。
【0003】
マルチメディアデータに基づく状況分析を行う場合、マルチメディアデータに表されている対象物の性質と、マルチメディアデータの内容との関係が予めルール(科学的な法則)で示されていれば、マルチメディアデータを解析するときの効率が向上する。例えば、部品の写真画像があるとき、その部品の良否を判定するときに、画像内のどの部分に注目すべきかが予め分かっていれば、画像に基づく良否判定が容易となる。
【0004】
そこで、マルチメディアデータと、対象物の性質を表すテキストデータとの間の関係に関する知識発見支援(イメージマイニング)装置が必要となる。その場合、マルチメディアデータの中から、テキストデータ(例えば、部品の「良」「不良」)との間に強い関係が認められる部分を特定する必要がある。
【0005】
そのとき、関係の判定を行う部分として、マルチメディアデータ内の特徴的な部分を指定することもできる。このような、マルチメディアデータから予め決められた特徴(画像の場合には画像特徴)を抽出する方法は数多く知られている。ただし、画像特徴は、色などの比較的汎用的な特徴から、画像中のある部分の形といった分野に特化した特徴まで無数に存在するため、予め適切な(テキストデータとの間に強い関係を有する)画像特徴を指定しておくことは難しい。
【0006】
そこで、画像と画像に付随する文字データ(テキスト)のペアが複数組与えられたときに、画像特徴とテキスト特徴との関係についての知識(ルール)を発見する処理において、作業者が画像を目で見て画像特徴を抽出する作業を支援する方法が提案されている。その際、画像とテキストとの関係についてアソシエーションルール(事象間のつながりの強さに関する規則)を設定し、そのアソシエーションルールの評価結果を表示させることもできる(例えば、特許文献1参照)。
【特許文献1】特開2003−67401号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、上記特許文献は、画像の特徴を決めるのに,人手を介した作業を伴うため、人的コストが必要、かつ発見されるルールが主観に依存する可能性や人には見つけにくいルールの発見漏れが生じる可能性があった。そこで、画像にウェーブレット変換を施し、ウェーブレット変換で生成された係数の中から、テキストデータの特徴を判別可能な係数を抽出する発明がなされ、本出願人により出願されている(特願2003−433233号)。
【0008】
ただし、当該発明では、個々の係数とテキストデータとの関係のみを分析しており、画像内の離れた複数の位置のデータとテキストデータとの間に強い関係が存在していたとしても、その関係を示すルールを抽出することができない。例えば、領域Aのデータとテキストデータとの間には関係が認められず、領域Bのデータとテキストデータとの間にも関係が認められない場合であっても、領域Aと領域Bとのデータの合計値と、テキストデータとの間に強い関係が存在する場合もあり得る。
【0009】
しかも、マルチメディアデータは、多数の単位データ(画像であれば、画素毎の輝度)で構成されている。そのため、それぞれの単位データを個別の変数として扱ったのでは、変数の組合せのパターンが膨大になってしまう。このように、膨大量の変数の組合せとテキストデータとの関係を、実時間内に、しらみつぶしに探すことにより、正確に求めるのは難しかった。
【0010】
本発明はこのような点に鑑みてなされたものであり、マルチメディアデータ内のルール生成に有効な特徴部分を自動で探索して、関係を示すルールを発見できるルール発見プログラム、ルール発見方法およびルール発見装置を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明では上記課題を解決するために、図1に示すようなルール発見プログラムが提供される。本発明に係るルール発見プログラムは、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するためのものである。この発見プログラムを実行するコンピュータは、図1に示すような機能を有する。
【0012】
入力受付手段1は、マルチメディアデータ7aa,7ba,7caとテキストデータ7ab,7bb,7cbとの組からなる複数のサンプルデータ7a,7b,7cの入力を受け付ける。探索手段2は、入力受付手段1が受け付けたサンプルデータ7a,7b,7cのマルチメディアデータ7aa,7ba,7caを構成するデータ配列上の評価対象位置を選択し、選択された評価対象位置を示す選択パターン8aを生成する処理を、選択される評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う。集約手段3は、探索手段2で生成された選択パターン8aの評価対象位置を集約し、所定数の評価対象領域8b,8cを生成する。ルール候補生成手段4は、複数のマルチメディアデータそれぞれに対し、評価対象領域8b,8c内のデータの特徴を数値化して特徴データを生成し、評価対象領域8b,8c毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補8dを生成する。ルール候補評価手段5は、ルール候補生成手段4で生成されたルール候補8dで示される関係の正確さを評価する。出力手段6は、ルール候補評価手段5の評価結果が所定の判定基準を満たしているルール候補を、ルール9として出力する。
【0013】
このような関係発見プログラムを実行するコンピュータによれば、入力受付手段1により、マルチメディアデータ7aa,7ba,7caとテキストデータ7ab,7bb,7cbとの組からなる複数のサンプルデータ7a,7b,7cの入力が受け付けられる。すると、探索手段2により、入力受付手段1が受け付けたサンプルデータ7a,7b,7cのマルチメディアデータ7aa,7ba,7caを構成するデータ配列上の評価対象位置が選択され、選択された評価対象位置を示す選択パターン8aが生成される。この処理は、所定の探索終了条件が満たされるまで、探索手段2で繰り返される。次に、集約手段3により、探索手段2で生成された選択パターン8aの評価対象位置が集約され、所定数の評価対象領域8b,8cが生成される。さらに、ルール候補生成手段4により、複数のマルチメディアデータそれぞれに対し、評価対象領域8b,8c内のデータの特徴を数値化して特徴データが生成され、評価対象領域8b,8c毎の複数の特徴データとテキストデータとの間の、複数のマルチメディアデータに共通の関係を示すルール候補8dが生成される。生成されたルール候補8dは、ルール候補評価手段5により、そのルール候補8dで示される関係の正確さが評価される。そして、出力手段6により、ルール候補評価手段5の評価結果が所定の判定基準を満たしているルール候補が、ルール9として出力される。
【0014】
また、上記課題を解決するために、コンピュータにより、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見方法において、入力受付手段が、前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付け、探索手段が、前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行い、集約手段が、前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成し、ルール候補生成手段が、複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成し、ルール候補評価手段が、前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価し、出力手段が、前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する、ことを特徴とするルール発見方法が提供される。
【0015】
さらに、上記課題を解決するために、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見装置において、前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段と、前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段と、前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段と、複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段と、前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段と、前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段と、を有することを特徴とするルール発見装置が提供される。
【発明の効果】
【0016】
本発明では、評価対象位置の選択パターンを繰り返し生成し、選択パターン中の評価対象位置を集約して評価対象領域を生成することで、特徴データの数を絞り込んでルール候補を生成し、所定の判定基準を満たしたルール候補をルールとして出力するようにした。そのため、多数のデータの配列で構成されるマルチメディアデータであっても、特徴部分と指定する領域を自動選択し、的確なルールを発見することができる。
【発明を実施するための最良の形態】
【0017】
以下、本発明の実施の形態を図面を参照して説明する。
まず、実施の形態に適用される発明の概要について説明し、その後、実施の形態の具体的な内容を説明する。
【0018】
図1は、実施の形態に適用される発明の概念図である。図1に示すような、本発明は、入力受付手段1、探索手段2、集約手段3、ルール候補生成手段4、ルール候補評価手段5、および出力手段6を有している。
【0019】
入力受付手段1は、マルチメディアデータ7aa,7ba,7caとテキストデータ7ab,7bb,7cbとの組からなる複数のサンプルデータ7a,7b,7cの入力を受け付ける。
【0020】
探索手段2は、入力受付手段1が受け付けたサンプルデータ7a,7b,7cのマルチメディアデータ7aa,7ba,7caを構成するデータ配列上の評価対象位置を選択し、選択された評価対象位置を示す選択パターン8aを生成する。
【0021】
なお、マルチメディアデータ7aa,7ba,7caを構成するデータ配列上の評価対象位置は、例えば、マルチメディアデータ7aa,7ba,7caが画像データであれば、画素の位置で表される。画素の位置は、x軸とy軸の座標値で表せる。
【0022】
また、探索手段2は、選択パターン8aの生成処理を、選択される評価対象位置の組合せを変えながら、所定の探索終了条件が満たされるまで繰り返す。例えば、生成した選択パターンの数が所定数を超えるまで、選択パターン8aの生成処理を繰り返す。
【0023】
集約手段3は、探索手段2で生成された選択パターン8aの評価対象位置を集約し、所定数(例えば、2つ)の評価対象領域8b,8cを生成する。例えば、集約手段3は、隣接する評価対象位置同士を集約する。
【0024】
ルール候補生成手段4は、複数のマルチメディアデータ7aa,7ba,7caそれぞれに対し、評価対象領域8b,8c内のデータの特徴を数値化して特徴データを生成し、評価対象領域8b,8c毎の複数の特徴データとテキストデータ7ab,7bb,7cbとの間の関係を示すルール候補8dを生成する。特徴データは、例えば、評価対象領域8b,8c内のデータの平均値を用いる。ルール候補8dは、例えば、重回帰分析により求めることができる。なお、重回帰分析とは、いくつかの変数X1,X2,...,Xn(説明変数)と別の変数Y(目的変数)との関係を式で表し、目的変数の変動が説明変数の変動によってどの程度影響されるかを分析する手法である。
【0025】
ルール候補評価手段5は、ルール候補生成手段4で生成されたルール候補8dで示される関係の正確さを評価する。例えば、ルール候補8dが重回帰分析で求め出された場合、ルール候補8dで表せる予測式の重相関係数の値により、ルール候補8dを評価することができる。
【0026】
出力手段6は、ルール候補評価手段5の評価結果が所定の判定基準を満たしているルール候補を、ルール9として出力する。例えば、ルール9には、そのルール9の生成に使用された評価対象領域8b,8cを示す評価対象領域情報9a,9b、及びマルチメディアデータ7aa,7ba,7caそれぞれに関する評価対象領域8b,8c内の特徴データとテキストデータ7ab,7bb,7cbとの間の関係を示す予測式9cが含まれる。
【0027】
このような構成により、入力受付手段1により、複数のサンプルデータ7a,7b,7cの入力が受け付けられる。すると、探索手段2により、入力受付手段1が受け付けたサンプルデータ7a,7b,7cのマルチメディアデータ7aa,7ba,7caを構成するデータ配列上の評価対象位置が選択され、選択された評価対象位置を示す選択パターン8aが生成される。この処理は、所定の探索終了条件が満たされるまで、探索手段2で繰り返される。次に、集約手段3により、探索手段2で生成された選択パターン8aの評価対象位置が集約され、所定数の評価対象領域8b,8cが生成される。さらに、ルール候補生成手段4により、複数のマルチメディアデータ7aa,7ba,7caそれぞれに対し、評価対象領域8b,8c内のデータの特徴を数値化して特徴データが生成され、評価対象領域8b,8c毎の複数の特徴データとテキストデータとの間の、マルチメディアデータ7aa,7ba,7caに共通の関係を示すルール候補8dが生成される。生成されたルール候補8dは、ルール候補評価手段5により、そのルール候補8dで示される関係の正確さが評価される。そして、出力手段6により、ルール候補評価手段5の評価結果が所定の判定基準を満たしているルール候補が、ルール9として出力される。
【0028】
これにより、サンプルデータ7a,7b,7cからルール9を自動抽出することが可能となる。このとき、集約手段3により、評価対象位置の集約を行っているため、元のマルチメディアデータを構成する単位データの数が膨大であっても、有効なルール候補を生成することができる。
【0029】
このように、サンプルデータ7a,7b,7cからルール9を自動抽出できることで、人的コストの削減が可能となる。また、マルチメディアデータの複数の領域とテキストデータとの関係を導き出すことができることで、人間には発見しにくいマルチメディアデータ特徴の抽出の可能性が向上につながる。さらに、所定の規則に沿って、ルール候補を評価するため、客観的な判定を行うことができる。
【0030】
以下、マルチメディアデータとして画像データを用いた場合の例を用いて、本発明の実施の形態について詳細に説明する。
[第1の実施の形態]
第1の実施の形態では、ある工業製品の設計段階を想定して説明を行う。具体的には、パーソナルコンピュータ(PC)の筐体の強度と、型に材料を流したときの温度分布との関係を解析する場合の例を用いて説明する。
【0031】
図2は、PC筐体の形状に応じた温度分布画像を示す図である。PC20の筐体の型を設計する場合、筐体の強度を考慮する必要がある。筐体の強度は、筐体の型に材料を流し込む際の温度分布の影響を受ける。そこで、筐体の強度が高くなる温度分布に関するルールの発見を行うものとする。その場合、筐体の型に材料を流し込む際の温度分布を示す温度分布画像30を、シミュレータによって算出する。
【0032】
温度分布画像30には、型に流し込まれた材料の温度が、例えば、色合い(あるいは明るさ)で表現されている。そのとき、温度分布画像30の中で、筐体の強度に影響を及ぼす領域30a,30bを発見する必要がある。例えば、領域30aの温度が高温であり、30bの温度が低温の場合に、筐体の強度が高くなるという因果関係が判明すれば、そのような温度分布となるように筐体の形状を設計すればよい。
【0033】
図3は、実施の形態のシステム構成を示す図である。図3に示すように、温度分布シミュレータ21とルール発見装置100とが接続されている。温度分布シミュレータ21は、筐体の形状に基づいて、その筐体の型に材料を流し込んだときの温度分布を計算することができる。そして、温度分布シミュレータ21は、温度分布画像31a,32a,33aを生成する。温度分布画像31a,32a,33aは、温度の高さを色合いや明るさで表現したものである。例えば、温度分布画像31a,32a,33aにおいて、温度が高い部分ほど赤に近い色で表され、温度が低いほど青色に近い色で表される。
【0034】
ルール発見装置100は、型の形状データに応じて生成された温度分布画像31a,32a,33aと、その型から生成される筐体の強度31b,32b,33bとからなる複数のサンプルデータ31,32,33から、温度分布画像31a,32a,33aと強度31b,32b,33bとの因果関係を表す予測式を生成する。その予測が、型設計時のルールとして使用できる。
【0035】
このようなシステムを利用して、筐体の設計者は、設計した型の性能を判断するためのルールを取得することができる。そのために、設計者は、まず、さまざまな形状の筐体のサンプルを表すモデルデータを用意する。そして、設計者は、温度分布シミュレータ21に対して、筐体のモデルデータを入力する。
【0036】
温度分布シミュレータ21は、入力されたモデルデータに基づいて、筐体の型に材料を流し込む際の温度分布を算出し、温度分布画像31a,32a,33aを生成する。生成された温度分布画像31a,32a,33a、温度分布シミュレータ21からルール発見装置100に入力される。
【0037】
また、設計者は、設計した筐体の強度31b,32b,33bを測定し、その強度31b,32b,33bをルール発見装置100に入力する。ルール発見装置100は、各筐体に対する温度分布画像と強度との組を、サンプルデータ31,32,33として保持する。そして、ルール発見装置100は、サンプルデータ31,32,33に基づいて、ルールを生成する。
【0038】
図4は、ルール発見装置のハードウェア構成例を示す図である。ルール発見装置100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、および通信インタフェース106が接続されている。
【0039】
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムが格納される。
【0040】
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号を、バス107を介してCPU101に送信する。
【0041】
通信インタフェース106は、ネットワーク10に接続されている。通信インタフェース106は、ネットワーク10を介して、他のコンピュータとの間でデータの送受信を行う。
【0042】
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図4には、ルール発見装置100のハードウェア構成を示しているが、温度分布シミュレータ21も同様のハードウェア構成で実現することができる。
【0043】
次に、ルール発見装置100によるルール生成方法について詳細に説明する。
図5は、ルール発見装置の機能を示すブロック図である。ルール発見装置100は、入力受付部110、探索部120、集約部130、ルール候補生成部140、ルール候補評価部150、および出力部160を有している。
【0044】
入力受付部110は、温度分布シミュレータ21から与えられた筐体毎の温度分布画像と、筐体の強度の組からなる複数のサンプルデータの入力を受け付ける。そして、入力受付部110では、受け付けたサンプルデータの全てあるいは一部を、入力データとして探索部120に渡す。なお、入力受付部110では、温度分布画像として選択した画像の一部を、探索部120に渡すこともできる。
【0045】
また、入力受付部110は、設計者の事前知識などの制約条件を、操作入力により受付可能なインタフェースも備える。例えば、入力受付部110は、後述するように、ルール(重回帰分析の予測式など)に利用する変数の個数の上限などの操作入力を受け付ける。このような事前知識は、解析すべき問題に応じて設計者によって設定される。
【0046】
探索部120は、温度分布画像を構成する画素のうち、ルール候補に使用する画素の位置(評価対象位置)を複数選択し、評価対象位置の組合せを示す情報(選択パターン)を生成する。探索部120は、所定の探索終了条件が満たされるまで、選択パターンの生成処理を繰り返す。
【0047】
例えば、探索部120による選択パターンの生成処理は、全ての組合せを探索しつくした場合か、または、予め決めておいた上限回数に探索回数が達したときに探索を終了する。また、ルール候補評価部150による評価結果が一定以上のルール候補が発見された時点で、探索部120による選択パターンの生成処理を終了させることもできる。
【0048】
このように、探索終了条件を定義するのは、画素の全ての組合せを計算すると、2のN乗(Nは画素数)の選択パターンが生じ、探索空間が膨大となるためである。例えば、探索空間が大きくなるほど処理時間が長くなり、非実用的になってしまう。
【0049】
そこで、全数探索(しらみつぶし探索)ではなく、近似探索を実施することが考えられる。近似探索の具体例としては、遺伝的アルゴリズム(GA)が挙げられる。GAの他にも、貪欲法やニューラルネットワークなどの組合せ探索法を利用することも可能である。本実施の形態では、GAによって画素の組合せを探索するものとする。なお、本実施の形態で行われるGA処理の詳細は後述する。
【0050】
集約部130は、画像の最小単位(画像では画素に相当)に対して、複数の画素を選択し、何らかの基準に従い、選択された画素の値を集約した変数で表現する。
ルール候補生成部140は、集約部130で抽出された変数を用いてマルチメディアデータとテキストデータとの関係を記述するルール候補を生成する。具体的には、ルール候補生成部140は、温度分布画像それぞれから、集約された評価対象領域に対応する画素の値の平均を算出し、重回帰分析によって予測式を生成し、ルール候補とする。
【0051】
なお、画素の値としては、温度分布画像において温度の高さが明るさで示されていれば、各画素の輝度を示す数値である。また、温度分布画像において、温度の高さが色合い(赤が濃いほど高温、青が濃いほど低温)で示される場合、その色合いを数値に変換した値が、画素の値として用いられる。そのとき、高温を示す色ほど数値が高くなるように変換する(温度分布画像を生成した際に、温度から色合いを算出する計算の逆の計算を行えばよい)。
【0052】
ルール候補評価部150は、ルール候補生成部140で得られたルール候補を、そのルール候補に付随する情報から評価を実施する。具体的には、ルール候補生成部140が重回帰分析で生成したルール候補を、ルール候補評価部150は重相関係数によって評価する。
【0053】
重相関係数は−1〜1の値をとり、その絶対値が1に近いほど、サンプルデータに対する予測式の誤差が少ないことを表している。そこで、ルール候補評価部150は、重相関係数の値を評価値として利用し、ルール候補をルールとして抽出するかどうかの判断基準とする。例えば、ルール候補評価部150は、重相関係数の絶対値が予め設定しておいた閾値(0.5)以上の場合に、ルールとして抽出する。また、重回帰分析を用いる場合には、説明変数間の相関係数も重要となるため、説明変数間の相関係数を評価項目の1つとして利用することもできる。
【0054】
出力部160は、計算により所定の閾値以上の評価が得られたルールを出力する。出力するルールは複数の場合もある。具体的なルールとしては、重回帰分析の場合には、予測式、重相関係数、説明変数を構成する画素の選択状況などが出力されるルールに相当する。説明変数を構成する画素の選択状況については、可視化して表示するとわかりやすい。このようにして得られたルールは、設計者によって製品の設計に反映することが検討される。
【0055】
次に、GAについて詳細に説明する。
GAでの実装では、選択画素の組合せを1つの個体とする。第1世代では、異なる画素が選択された個体を所定数(例えば、32個体程度)用意する。そして、探索部120が、生成された個体に対し、交叉や突然変異といった遺伝子の変形を数世代繰返し、評価基準の値が高くなる画素選択を探索していく。なお、近似探索手法の場合、得られるのは最適解ではなく局所最適解である。
【0056】
図6は、GAを用いた画素の選択の世代交代方法を示す図である。図6では、4×4の画素、個体数が4個の単純な場合の例で説明する。各個体の画素には、その画素の選択の有無を示す情報が遺伝子として設定されている。図中、選択された画像を網掛けで示し、非選択の画素を白色で示している。
【0057】
ここで、第n世代の個体を生成するものとする。この場合、探索部120により、第n世代(nは自然数)の個体生成の元となる初期の遺伝子(選択画素の組合せ)が決定される。例えば、第n−1世代の個体の中から、各個体の適合度に応じた確率で所定数の個体を選択する。このとき、同一個体が複数回選択されることを許すものとする。そして、選択された各個体の遺伝子を、第n世代の個体の初期の遺伝子とする。
【0058】
次に、探索部120は、初期の遺伝子が確定した各個体に対して、交叉を行う。具体的には、探索部120は、まず、個体の集合から、2つずつの組(個体対)を生成する。次に、探索部120は、生成された各個体対について、遺伝子を交換する領域(画素の集合)を決定する。そして、探索部120は、個体対を構成する各個体の互いに対応する画素の遺伝子(各画素の選択の有無)を入れ替える。
【0059】
例えば、図6の例では、個体#1と個体#2とにより個体対が生成され、個体#3と個体#4とにより個体対が生成されている。個体#1と個体#2との個体対では、右半分の画素が遺伝子の交換対象領域であり、個体#3と個体#4との個体対では、左半分の画素が遺伝子の交換対象領域である。そして、個体1と個体2の右半分の画素の遺伝子が入れ替わり、個体3と個体4の左半分の画素の遺伝子が入れ替わる。なお、遺伝子の入れ換えを行う領域の決定方法は、別の方法でもよい。
【0060】
次に、探索部120は、突然変異処理を行う。突然変異処理において、探索部120は、ランダムな確率(例えば、0.01)で画素を選択し、選択された画素の遺伝子(選択または非選択)を入れ替える。最後に、探索部120は、それぞれの個体に対して、適合度を計算する。本実施の形態では、それぞれの個体の画素の選択状態に対する重回帰分析で得られた重相関係数を、適合度として利用する。
【0061】
世代交代を行い第n+1世代を生成する際には、適合度の高い個体ほど、次の世代として高い確率で選ばれる。この例では、個体#1から順に適合度が「0.1,0.6,0.4,0.9」なので、次の世代に選ばれる確率は個体#1から順に「5%,30%,20%,45%」である。図6では、個体#4、個体#2、個体#4、個体#3が選ばれた結果を示している。
【0062】
以降同様に、交叉、突然変異、と同様の処理を繰り返し。予め定めておいた世代交代の回数(例えば、5,000回)を超えた時点で終了する。それまでに得られた適合度(重相関係数)の値が高いルール候補が、ルールとして出力される。
【0063】
なお、各個体のルール候補を生成する場合、選択された位置の各画素の値を、重回帰分析の注目変数としてしまうと、変数の数が過大となる。そこで、選択された画素位置の集約処理が行われる。
【0064】
次に、集約部130における評価対象位置の集約処理を含めた重回帰分析の流れについて説明する。
図7は、評価対象位置の集約と重回帰分析との繰り返し処理手順を示す図である。この例では、4×4画素の3つの温度分布画像41,42,43をサンプルデータとした場合の例である。
【0065】
第1の状態(ST1)では、温度分布画像41の評価対象位置の選択の様子を示す。図7では、4×4の画素に対して、選択された画素を網掛けで示す。
次に、評価対象位置の集約処理を行う。第2の状態(ST2)には、評価対象位置集約後の状態を示す。図7の例では「隣接している画素は1つの変数で表す」という基準で集約が行われている。この場合、集約された評価対象位置に対応する画素の値(例えば、輝度)の平均値を、変数の値とする。この基準により、評価対象位置が集約されると、4×4の画素それぞれを変数とした場合より少ない個数の変数に集約される。図7の例では、評価対象位置が3つの評価対象領域41a,41b,41cに集約される。
【0066】
ここで、評価対象領域の数に上限を設けることもできる。上限を設けた場合、上限値以内の評価対象領域のみを選択し、それ以外の評価対象領域から得られる変数を、処理対象から除外する。
【0067】
第3の状態(ST3)は、選択された評価対象領域41b,41cを示している。この例では、上限を2に設定している。また、評価対象領域に含まれている画素の数が多いものを優先的に選択している。その結果、画素数が多い評価対象領域41b,41cが選択され、画素数の少ない評価対象領域41aが処理対象から除外されている。
【0068】
次に、選択された評価対象領域41b,41cから、変数が計算される。この例では、各集合に含まれ画素の明るさの平均値が、説明変数x1,x2となる。第4の状態(ST4)には、算出された変数の値が示されている。この例では、説明変数x1の値が12.3であり、説明変数x2の値が32.5である。
【0069】
このような、評価対象領域の決定、説明変数の値の算出を、他の温度分布画像42,43に対しても同様に行う。その様子が第5の状態(ST5)に示されている。そして、各温度分布画像41,42,43から取得された説明変数に基づいて、ルール候補生成部140により、重回帰分析が行われる。
【0070】
第6の状態(ST6)には、重回帰分析結果が示されている。重回帰分析では、サンプルデータ毎の目的変数yと説明変数x1,x2とが取得され、y=a+b×x1+c×x2(a,b,cは、実数)という形式(k次元空間上の直線:kは目的変数と説明変数との和)の予測式が生成される。ここで、目的変数yは強度の数値である。
【0071】
予測式は、説明変数x1と説明変数x2とから目的変数yを予測するための式である。各サンプルデータの説明変数を予測式に代入したときの目的変数の誤差が、できるだけ少なくなるようにa,b,cの値が計算される。
【0072】
予測式からは、その予測式に対する説明変数の一致度合いを数値化した重相関係数が得られる。重相関係数は、絶対値が大きいほど、予測式が適していることを示している。そこで、重相関係数が予め設定された閾値以上なら、予測式が出力される。なお、予測式および重相関係数の導出方法の詳細は「圓川隆夫“多変量のデータ解析”,朝倉書店,P22-43 1988年4月25日」に詳しい。
【0073】
このような、評価対象位置の集約と重回帰分析とが、GAによって生成された所定個数の個体(選択パターン)に対して行われる。そして、所定の探索終了条件が満たされるまで、選択される評価対象位置を変えて、GAによる選択パターンの生成処理が繰り返される。
【0074】
なお、重回帰分析は、説明変数がサンプル数より多いと得られる予測式は意味を成さない。しかし、画像データの場合、一般的にサンプル数より画素数(説明変数)の方が多くなるため、画素をそのまま説明変数として利用することは難しい。そこで、サンプル数より説明変数を少なくするための評価対象位置の集約処理が有用となる。
【0075】
次に、ルール発見処理の手順を説明する。
図8は、第1の実施の形態のルールの生成処理を示すフローチャートである。以下、図8に示す処理をステップ番号に沿って説明する。
【0076】
[ステップS11]入力受付部110は、筐体形状に応じた型に材料を流したときの温度分布画像と、その筐体の強度とを含む複数のサンプルデータを読み込む。
[ステップS12]探索部120は、GAを行うための第1世代の個体を生成する。具体的には、探索部120は、温度分布画像を構成する画素から1以上の画素を選択し、各画素の選択の有無を遺伝子で示した個体を、所定の数(例えば、32個)だけ生成する。
【0077】
[ステップS13]探索部120は、世代交代の回数が、予め設定された所定回数に達したか否かを判断する。所定回数に達した場合、処理が終了する。所定回数に達していなければ、処理がステップS14に進められる。
【0078】
[ステップS14]探索部120は、GAにより次世代の個体を、所定数生成する。
[ステップS15]探索部120は、生成済みの個体について評価したか否かを判断する。生成済みの全ての個体について評価が終了していれば、処理がステップS13に進められる。未評価の個体があれば、処理がステップS16に進められる。
【0079】
[ステップS16]集約部130は、未評価の個体を1つ選択する。
[ステップS17]集約部130は、選択した個体の隣接する評価対象位置同士を集約する。
【0080】
[ステップS18]ルール候補生成部140は、集約によって生成された評価対象領域のうち、範囲が広い(対応する画素数の多い)ものを所定数(例えば、2個)選択する。そして、ルール候補生成部140は、サンプルデータ全てについて、選択した評価対象領域の値と強度と関係を示すルール候補を生成する。
【0081】
具体的には、ルール候補生成部140は、評価対象領域から所定数選択後、各サンプルデータから、選択された評価対象領域に相当する位置の各画素の輝度の平均値を求める。そして、ルール候補生成部140は、求めた値を、各サンプルデータの説明変数とする。また、ルール候補生成部140は、各サンプルデータに含まれる強度の値を、そのサンプルデータの目的変数とする。全てのサンプルデータの説明変数と目的変数とが決定されると、ルール候補生成部140は、それらの変数を用いて重回帰分析を行い予測式を生成する。その予測式が、ルール候補となる。
【0082】
[ステップS19]ルール候補評価部150は、ルール候補生成部140によって生成されたルール候補を評価する。具体的には、ルール候補評価部150は、ステップS18で生成された予測式の重相関係数を算出する。
【0083】
[ステップS20]出力部160は、ルール候補評価部150で算出された評価値(重相関係数)が、予め設定された閾値以上か否かを判断する。評価値が閾値以上であれば、処理がステップS21に進められる。評価値が閾値未満であれば、処理がステップS15に進められ、別の個体に対する評価が行われる。
【0084】
[ステップS21]出力部160は、評価対象となった個体の選択された評価対象領域の範囲を示す情報とルール候補とを、特徴抽出ルールとして出力する。出力された特徴抽出ルールは、HDD等の記憶装置に保存される。その後、処理がステップS15に進められ、他の個体の評価が行われる。
【0085】
このようにして、評価の高い個体のみが出力される。そして、その個体に対して生成されたルール生成時の選択画素の位置等の情報が、ルール発見装置100の画面に表示される。
【0086】
図9は、ルール表示画面の例を示す図である。ルール表示画面50には、温度分布画像51が表示される。温度分布画像51には、PCの筐体形状51aが表示され、その筐体形状51a内に、その筐体の型に材料を流し込んだときの温度分布が色分けして表示されている。
【0087】
そして、温度分布と筐体の強度との関係を示す予測式と、その予測式の確からしさを示す重相関係数とが表示されている。また、温度分布画像51内には、予測式に含まれる説明変数x1,x2の生成元となる領域51b,51cが示されている。
【0088】
このように、本実施の形態では、マルチメディアデータとその属性データの複数のペアからルールを自動抽出することが可能であるため、特徴量を予め人手で決める必要がなくなり人的コストを軽減できる。また、自動で抽出されるルールは人間の主観に依存しない点や、これまで人手では見つけるのが難しかったルールも抽出することができるようになる点が、本発明の特長である。そのため、これまでより客観的かつ網羅的にルールを発見でき、質の高いルールを効率的に得られる効果がある。
【0089】
[第2の実施の形態]
次に、第2の実施の形態について説明する。第2の実施の形態は、評価対象位置を集約する際に、隣接する評価対象位置に対応する画素間の値のばらつきが少ない場合にのみ、隣接する評価対象位置の集約を行うようにしたものである。
【0090】
なお、第2の実施の形態の機能の構成は、図5に示した第1の実施の形態と同様である。但し、集約部130とルール候補生成部140との処理について、第1の実施の形態と異なる部分がある。そこで、図5に示した各要素の符号を用いて、第1の実施の形態と異なる処理について以下に説明する。
【0091】
図10は、第2の実施の形態のルールの生成処理を示すフローチャートである。なお、図10に示す処理のうち、ステップS31〜S37については、それぞれ図8に示すステップS11〜17の処理と同じである。また、ステップS40〜42の処理は、図8に示すステップS19〜ステップS21の処理と同じである。そこで、第1の実施の形態と異なるステップS38,S39の処理について、以下に説明する。
【0092】
[ステップS38]集約部130は、まず、ステップS37で集約された評価対象領域の1つを選択する。次に、集約部130は、サンプルデータに含まれる温度分布画像それぞれについて、選択した評価対象領域に対応する位置の画素の値の標準偏差を求める。そして、集約部130は、各温度分布画像から算出された標準偏差の平均値を求める。同様に、集約部130は、ステップS37で集約された評価対象領域を順次選択することで、全ての評価対象領域それぞれの標準偏差の平均値を算出する。
【0093】
さらに、集約部130は、評価対象領域の標準偏差の平均値と、予め設定された標準偏差閾値とを比較する。そして、集約部130は、標準偏差の平均値が閾値以上の評価対象領域については、集約を解除する。
【0094】
[ステップS39]ルール候補生成部140は、ステップS38で集約が解除されていない評価対象領域のなかから、範囲の広い(対応する画素数の多い)ものを所定数(例えば、2個)選択する。そして、ルール候補生成部140は、サンプルデータ全てについて、選択した評価対象領域の値と強度と関係を示すルール候補を生成する。ルール候補生成処理の詳細は、第1の実施の形態におけるステップS18と同様である。
【0095】
このようにして、評価対象位置に対応する画素の値のばらつきが少ない場合には集約し、画素の値のばらつきが多い場合には集約しないようにすることができる。これにより、温度が近い領域内の画素から評価対象領域が生成され、1つの説明変数が算出される。その結果、説明変数によって、各温度分布画像内の評価対象領域に対応する領域の温度の特徴を、的確に表すことができる。
【0096】
すなわち、説明変数の算出では、画素の値の平均を取る。そのため、画素の値のばらつきが大きいと、説明変数の値が、評価対象領域で示される領域の特徴を的確に表せない。例えば、高温の領域と低温の領域とを半分ずつ含む評価対象領域が生成されると、その評価対象領域の説明変数には、平均的な温度を示す数値が設定されてしまい、評価対象領域に対応する領域の特徴を表しているとは言えない。画素の値のばらつきが多い評価対象領域の集約状態を、ルール候補生成前に解除することで、画素の値のばらつきの少ない評価対象領域からのみ説明変数が生成され、温度分布画像の特徴を的確に反映させたルール候補が生成できる。
【0097】
[第3の実施の形態]
次に、第3の実施の形態について説明する。第3の実施の形態は、探索手段による粗密探索を行うものである。粗密探索とは、最初に粗い範囲で解探索を行い、所定値以上の評価が得られた画素の組合せについて、詳細な解探索を行うものである。
【0098】
具体的には、画素を探索の基本単位として考えるのではなく、まずは、粗く探索するために、複数の画素をまとめて1ユニットとして探索の基本単位とする。例えば、5×5の画素を1ユニットとする。そして、他の処理は同様に実施し、粗い探索での解(評価が所定の基準値以上のルール候補)が得られる。
【0099】
次に、この粗い探索で高い評価が得られたルール候補に基づいて、選択されたユニット内の密な探索を行う。密な探索では、画素単位の探索を行うが、探索の範囲は、粗い探索で解として得られたルール候補の選択ユニットに相当する部分だけである。密な探索で得られた解が最終的なルールとなる。
【0100】
なお、第3の実施の形態の機能の構成は、図5に示した第1の実施の形態と同様である。但し、探索部120、集約部130、およびルール候補生成部140の処理について、第1の実施の形態と異なる部分がある。そこで、図5に示した各要素の符号を用いて、第1の実施の形態と異なる処理について以下に説明する。
【0101】
図11は、第3の実施の形態のルールの生成処理を示すフローチャートである。以下、図11に示す処理をステップ番号に沿って説明する。
[ステップS51]入力受付部110は、筐体形状に応じた型に材料を流したときの温度分布画像と、その筐体の強度とを含む複数のサンプルデータを読み込む。
【0102】
[ステップS52]探索部120は、複数の画素を纏めて、1ユニットとする。例えば、5×5の画素を1ユニットとする。
[ステップS53]探索部120は、GAを行うための第1世代の個体を生成する。具体的には、探索部120は、温度分布画像を構成するユニットから1以上のユニットを選択し、各ユニットの選択の有無を遺伝子で示した個体を、所定の数(例えば、32個)だけ生成する。
【0103】
[ステップS54]探索部120は、GA世代交代の回数が、予め設定された所定回数に達したか否かを判断する。所定回数に達した場合、処理が終了する。所定回数に達していなければ、処理がステップS55に進められる。
【0104】
[ステップS55]探索部120は、GAにより次世代の個体(ユニット単位)を所定数生成する。
[ステップS56]探索部120は、生成済みの個体について評価したか否かを判断する。生成済みの全ての個体について評価が終了していれば、処理がステップS54に進められる。未評価の個体があれば、処理がステップS57に進められる。
【0105】
[ステップS57]集約部130は、未評価の個体を1つ選択する。
[ステップS58]集約部130は、選択した個体の隣接ユニット同士を集約する。
[ステップS59]ルール候補生成部140は、集約によって生成されたユニット集合のうち、構成ユニット数の多いものを所定数(例えば、2個)選択する。そして、ルール候補生成部140は、サンプルデータ全てについて、選択した評価対象領域の値と強度と関係を示すルール候補を生成する。
【0106】
[ステップS60]ルール候補評価部150は、ルール候補生成部140によって生成されたルール候補を評価する。具体的には、ルール候補評価部150は、ステップS18で生成された予測式の重相関係数を算出する。
【0107】
[ステップS61]探索部120は、ルール候補評価部150で算出された評価値(重相関係数)が、予め設定された閾値以上か否かを判断する。評価値が閾値以上であれば、処理がステップS62に進められる。評価値が閾値未満であれば、処理がステップS56に進められ、別の個体に対する評価が行われる。
【0108】
[ステップS62]探索部120は、評価対象となった個体の選択されたユニット集合とルール候補とを処理対象に指定して、画素単位解析処理の実行を開始する。画素単位解析処理が終了すると、処理がステップS56に進められ、他の個体の評価が行われる。
【0109】
図12は、画素単位解析処理の手順を示すフローチャートである。以下、図12に示す処理をステップ番号に沿って説明する。なお、図12のフローチャートの説明において、固体と呼んだ場合、この画素単位解析処理内で生成された固体(画素単位の選択の有無が定義されている)のみを指している。
【0110】
[ステップS71]探索部120は、ステップS62で処理対象として指定されたユニット集合に含まれる各ユニットを、画素の単位に戻す。以降の処理では、処理対象として指定されたユニット集合に対応する範囲の画素のみが、GAによる画素選択の際の選択対象となる。
【0111】
[ステップS72]探索部120は、GAを行うための第1世代の個体を生成する。具体的には、探索部120は、温度分布画像のうち、処理対象として指定されたユニット集合に対応する領域内の画素から1以上の画素を選択し、各画素の選択の有無を遺伝子で示した個体を、所定の数(例えば、32個)だけ生成する。
【0112】
[ステップS73]探索部120は、画素単位解析処理内での世代交代の回数が、予め設定された所定回数に達したか否かを判断する。所定回数に達した場合、処理が図11のステップS56に進められる。所定回数に達していなければ、処理がステップS74に進められる。
【0113】
[ステップS74]探索部120は、GAにより次世代の個体を、所定数生成する。
[ステップS75]探索部120は、生成済みの個体について評価したか否かを判断する。生成済みの全ての個体について評価が終了していれば、処理がステップS73に進められる。未評価の個体があれば、処理がステップS76に進められる。
【0114】
[ステップS76]集約部130は、未評価の個体を1つ選択する。
[ステップS77]集約部130は、選択した個体の隣接画素同士を集約する。
[ステップS78]ルール候補生成部140は、集約によって生成された評価対象領域のうち、構成画素数の多いものを所定数(例えば、2個)選択する。そして、ルール候補生成部140は、サンプルデータ全てについて、選択した評価対象領域の値と強度と関係を示すルール候補を生成する。
【0115】
[ステップS79]ルール候補評価部150は、ルール候補生成部140によって生成されたルール候補を評価する。具体的には、ルール候補評価部150は、ステップS78で生成された予測式の重相関係数を算出する。
【0116】
[ステップS80]出力部160は、ルール候補評価部150で算出された評価値(重相関係数)が、予め設定された閾値以上か否かを判断する。評価値が閾値以上であれば、処理がステップS81に進められる。評価値が閾値未満であれば、処理がステップS75に進められ、別の個体に対する評価が行われる。このときの閾値は、図11のステップS61における閾値よりも高い値とする。
【0117】
[ステップS81]出力部160は、評価対象となった個体の選択された評価対象領域の範囲を示す情報とルール候補とを、特徴抽出ルールとして出力する。出力された特徴抽出ルールは、HDD等の記憶装置に保存される。その後、処理がステップS75に進められ、他の個体の評価が行われる。
【0118】
このようにして、粗密探索を組合せて、特徴抽出ルールを生成することができる。これにより、処理効率を向上させることができる。例えば、元の温度分布画像が高精細な画像の場合、選択する画素の組合せのパターンが膨大な数になる。その全パターンの中から、局所最適解を導き出すには、処理量が膨大となる。粗密探索では、先に粗い範囲で解探索を行い、評価値が高い場合のみ精細な探索を行うため、効率的な解探索が可能となる。
【0119】
なお、上記の実施の形態では、画像に基づいて、ルールを生成しているが、他のマルチメディアデータにおいても、同様の処理を行うことができる。例えば、サウンドデータであれば、所定の再生時間単位のデータ(例えば、その時間の音の平均強度を示すデータ)を、処理単位を探索部120での選択単位とすることができる。そして、データを集約する際には、選択された複数のデータの再生される時間が連続していた場合、それらのデータを集約する。
【0120】
また、上記の説明では、説明を簡単にするために、2次元平面の画像を用いているが、3次元の立体モデル(ボリュームデータなど)とテキストデータとのルールを生成することもできる。その場合、例えば、3次元空間を所定サイズの立方体に分割し、その立方体内の立体モデルを示すデータを、探索部120での選択単位とする。また、集約部130では、3次元の各軸方向に隣接する立方体が選択されていた場合に、それらの立方体を集約する。
【0121】
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、ルール発見装置100が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
【0122】
プログラムを流通させる場合には、例えば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【0123】
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
【0124】
(付記1) 複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータと関係を表す法則を発見するルール発見プログラムにおいて、
コンピュータを、
前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段、
として機能させることを特徴とするルール発見プログラム。
【0125】
(付記2) 前記ルール候補生成手段は、重回帰分析により前記ルール候補を評価することを特徴とする付記1記載のルール発見プログラム。
(付記3) 前記探索手段は、過去に生成した前記選択パターンによって生成された前記ルール候補の評価結果に基づいて、評価の高い前記選択パターンを優先的に抽出し、抽出した前記選択パターンで選択されていた評価対象データの組合せを変更して新たな前記選択パターンを生成することを特徴とする付記1記載のルール発見プログラム。
【0126】
(付記4) 前記探索手段は、遺伝的アルゴリズムにより、新たな前記選択パターンを生成することを特徴とする付記3記載のルール発見プログラム。
(付記5) 前記探索手段は、前記マルチメディアデータのデータ配列上の位置を、複数のデータを含むユニット単位に分割し、前記ユニット単位で前記評価対象位置の選択を行うことを特徴とする付記1記載のルール発見プログラム。
【0127】
(付記6) 前記探索手段は、前記ユニット単位での選択を行った前記選択パターンのうち、生成されたルール候補の評価が所定値以上の前記選択パターンについて、選択されたユニット内の評価対象位置の選択を行い、新たな選択パターンを生成することを特徴とする付記5記載のルール発見プログラム。
【0128】
(付記7) 前記集約手段は、隣接する前記評価対象位置同士を集約することを特徴とする付記1記載のルール発見プログラム。
(付記8) 前記集約手段は、前記マルチメディアデータにおける生成された前記評価対象領域内の単位での値のばらつきを計算し、所定値よりもばらつきが大きい場合、集約を解消することを特徴とする付記1記載のルール発見プログラム。
【0129】
(付記9) 前記ルール候補生成手段は、所定数の前記評価対象領域を選択し、選択された前記評価対象領域の特徴データとテキストデータとの関係から、前記ルール候補を生成することを特徴とする付記1記載のルール発見プログラム。
【0130】
(付記10) 前記ルール候補生成手段は、含まれる前記評価対象位置の範囲が広い前記評価対象領域を優先的に選択することを特徴とする付記9記載のルール発見プログラム。
【0131】
(付記11) コンピュータにより、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見方法において、
入力受付手段が、前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付け、
探索手段が、前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行い、
集約手段が、前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成し、
ルール候補生成手段が、複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成し、
ルール候補評価手段が、前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価し、
出力手段が、前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する、
ことを特徴とするルール発見方法。
【0132】
(付記12) 複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見装置において、
前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段と、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段と、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段と、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段と、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段と、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段と、
を有することを特徴とするルール発見装置。
【0133】
(付記13) 複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見プログラムを記録したコンピュータ読み取り可能な記録媒体において、
コンピュータを、
前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段、
として機能させることを特徴とするルール発見プログラムを記録したコンピュータ読み取り可能な記録媒体。
【図面の簡単な説明】
【0134】
【図1】実施の形態に適用される発明の概念図である。
【図2】PC筐体の形状に応じた温度分布画像を示す図である。
【図3】実施の形態のシステム構成を示す図である。
【図4】ルール発見装置のハードウェア構成例を示す図である。
【図5】ルール発見装置の機能を示すブロック図である。
【図6】GAを用いた画素の選択の世代交代方法を示す図である。
【図7】評価対象位置の集約と重回帰分析との繰り返し処理手順を示す図である。
【図8】第1の実施の形態のルールの生成処理を示すフローチャートである。
【図9】ルール表示画面の例を示す図である。
【図10】第2の実施の形態のルールの生成処理を示すフローチャートである。
【図11】第3の実施の形態のルールの生成処理を示すフローチャートである。
【図12】画素単位解析処理の手順を示すフローチャートである。
【符号の説明】
【0135】
1 入力受付手段
2 探索手段
3 集約手段
4 ルール候補生成手段
5 ルール候補評価手段
6 出力手段
7a,7b,7c サンプルデータ
7aa,7ba,7bc マルチメディアデータ
7ab,7bb,7cb テキストデータ
8a 選択パターン
8b,8c 評価対象領域
8d ルール候補
9 ルール
9a,9b 評価対象領域情報
9c 予測式

【特許請求の範囲】
【請求項1】
複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見プログラムにおいて、
コンピュータを、
前記マルチメディアデータとテキストデータとの組からなる複数の前記サンプルデータの入力を受け付ける入力受付手段、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段、
として機能させることを特徴とするルール発見プログラム。
【請求項2】
前記ルール候補生成手段は、重回帰分析により前記ルール候補を評価することを特徴とする請求項1記載のルール発見プログラム。
【請求項3】
前記探索手段は、過去に生成した前記選択パターンによって生成された前記ルール候補の評価結果に基づいて、評価の高い前記選択パターンを優先的に抽出し、抽出した前記選択パターンで選択されていた評価対象データの組合せを変更して新たな前記選択パターンを生成することを特徴とする請求項1記載のルール発見プログラム。
【請求項4】
前記探索手段は、遺伝的アルゴリズムにより、新たな前記選択パターンを生成することを特徴とする請求項3記載のルール発見プログラム。
【請求項5】
前記探索手段は、前記マルチメディアデータのデータ配列上の位置を、複数のデータを含むユニット単位に分割し、前記ユニット単位で前記評価対象位置の選択を行うことを特徴とする請求項1記載のルール発見プログラム。
【請求項6】
前記探索手段は、前記ユニット単位での選択を行った前記選択パターンのうち、生成されたルール候補の評価が所定値以上の前記選択パターンについて、選択されたユニット内の評価対象位置の選択を行い、新たな選択パターンを生成することを特徴とする請求項5記載のルール発見プログラム。
【請求項7】
前記集約手段は、隣接する前記評価対象位置同士を集約することを特徴とする請求項1記載のルール発見プログラム。
【請求項8】
前記集約手段は、前記マルチメディアデータにおける生成された前記評価対象領域内の単位での値のばらつきを計算し、所定値よりもばらつきが大きい場合、集約を解消することを特徴とする請求項1記載のルール発見プログラム。
【請求項9】
コンピュータにより、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見方法において、
入力受付手段が、前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付け、
探索手段が、前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行い、
集約手段が、前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成し、
ルール候補生成手段が、複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成し、
ルール候補評価手段が、前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価し、
出力手段が、前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する、
ことを特徴とするルール発見方法。
【請求項10】
複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見装置において、
前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段と、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段と、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段と、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段と、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段と、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段と、
を有することを特徴とするルール発見装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2006−127323(P2006−127323A)
【公開日】平成18年5月18日(2006.5.18)
【国際特許分類】
【出願番号】特願2004−317268(P2004−317268)
【出願日】平成16年10月29日(2004.10.29)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】