ルール発見プログラム、ルール発見方法およびルール発見装置

【課題】マルチメディアデータ内のルール生成に有効な特徴部分を自動で探索して、ルールを発見できるようにする。
【解決手段】複数のサンプルデータ７ａ，７ｂ，７ｃが入力されると、探索手段２により、マルチメディアデータ７ａａ，７ｂａ，７ｃａを構成するデータ配列上の評価対象位置が選択され、選択パターン８ａが生成される。次に、集約手段３により、選択パターン８ａの評価対象位置が集約され、所定数の評価対象領域８ｂ，８ｃが生成される。さらに、ルール候補生成手段４により、複数のマルチメディアデータに共通の関係を示すルール候補８ｄが生成される。生成されたルール候補８ｄは、ルール候補評価手段５により評価される。そして、出力手段６により、所定の判定基準を満たしているルール候補が、ルール９として出力される。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は複数の情報間の関係を発見するためのルール発見プログラム、ルール発見方法およびルール発見装置に関し、特にマルチメディアデータとそのマルチメディアデータに付随するテキストデータとの間の関係を発見するルール発見プログラム、ルール発見方法およびルール発見装置に関する。
【背景技術】
【０００２】
現在、様々な分野で、マルチメディアデータに基づく状況分析が行われている。例えば、製造する部品を撮影し、その部品の画像を解析することで、部品が良品か不良品かを判断することができる。このような画像等のマルチメディアデータに基づく各種状況判断（病気の診断等）は、画像解析、映像解析、ボリュームデータ解析、時系列情報解析、流体解析、機械部品性能解析、医療画像診断、脳機能解明、市場分析などの幅広い分野において利用されている。
【０００３】
マルチメディアデータに基づく状況分析を行う場合、マルチメディアデータに表されている対象物の性質と、マルチメディアデータの内容との関係が予めルール（科学的な法則）で示されていれば、マルチメディアデータを解析するときの効率が向上する。例えば、部品の写真画像があるとき、その部品の良否を判定するときに、画像内のどの部分に注目すべきかが予め分かっていれば、画像に基づく良否判定が容易となる。
【０００４】
そこで、マルチメディアデータと、対象物の性質を表すテキストデータとの間の関係に関する知識発見支援（イメージマイニング）装置が必要となる。その場合、マルチメディアデータの中から、テキストデータ（例えば、部品の「良」「不良」）との間に強い関係が認められる部分を特定する必要がある。
【０００５】
そのとき、関係の判定を行う部分として、マルチメディアデータ内の特徴的な部分を指定することもできる。このような、マルチメディアデータから予め決められた特徴（画像の場合には画像特徴）を抽出する方法は数多く知られている。ただし、画像特徴は、色などの比較的汎用的な特徴から、画像中のある部分の形といった分野に特化した特徴まで無数に存在するため、予め適切な（テキストデータとの間に強い関係を有する）画像特徴を指定しておくことは難しい。
【０００６】
そこで、画像と画像に付随する文字データ（テキスト）のペアが複数組与えられたときに、画像特徴とテキスト特徴との関係についての知識（ルール）を発見する処理において、作業者が画像を目で見て画像特徴を抽出する作業を支援する方法が提案されている。その際、画像とテキストとの関係についてアソシエーションルール（事象間のつながりの強さに関する規則）を設定し、そのアソシエーションルールの評価結果を表示させることもできる（例えば、特許文献１参照）。
【特許文献１】特開２００３−６７４０１号公報
【発明の開示】
【発明が解決しようとする課題】
【０００７】
しかし、上記特許文献は、画像の特徴を決めるのに，人手を介した作業を伴うため、人的コストが必要、かつ発見されるルールが主観に依存する可能性や人には見つけにくいルールの発見漏れが生じる可能性があった。そこで、画像にウェーブレット変換を施し、ウェーブレット変換で生成された係数の中から、テキストデータの特徴を判別可能な係数を抽出する発明がなされ、本出願人により出願されている（特願２００３−４３３２３３号）。
【０００８】
ただし、当該発明では、個々の係数とテキストデータとの関係のみを分析しており、画像内の離れた複数の位置のデータとテキストデータとの間に強い関係が存在していたとしても、その関係を示すルールを抽出することができない。例えば、領域Aのデータとテキストデータとの間には関係が認められず、領域Bのデータとテキストデータとの間にも関係が認められない場合であっても、領域Aと領域Bとのデータの合計値と、テキストデータとの間に強い関係が存在する場合もあり得る。
【０００９】
しかも、マルチメディアデータは、多数の単位データ（画像であれば、画素毎の輝度）で構成されている。そのため、それぞれの単位データを個別の変数として扱ったのでは、変数の組合せのパターンが膨大になってしまう。このように、膨大量の変数の組合せとテキストデータとの関係を、実時間内に、しらみつぶしに探すことにより、正確に求めるのは難しかった。
【００１０】
本発明はこのような点に鑑みてなされたものであり、マルチメディアデータ内のルール生成に有効な特徴部分を自動で探索して、関係を示すルールを発見できるルール発見プログラム、ルール発見方法およびルール発見装置を提供することを目的とする。
【課題を解決するための手段】
【００１１】
本発明では上記課題を解決するために、図１に示すようなルール発見プログラムが提供される。本発明に係るルール発見プログラムは、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するためのものである。この発見プログラムを実行するコンピュータは、図１に示すような機能を有する。
【００１２】
入力受付手段１は、マルチメディアデータ７ａａ，７ｂａ，７ｃａとテキストデータ７ａｂ，７ｂｂ，７ｃｂとの組からなる複数のサンプルデータ７ａ，７ｂ，７ｃの入力を受け付ける。探索手段２は、入力受付手段１が受け付けたサンプルデータ７ａ，７ｂ，７ｃのマルチメディアデータ７ａａ，７ｂａ，７ｃａを構成するデータ配列上の評価対象位置を選択し、選択された評価対象位置を示す選択パターン８ａを生成する処理を、選択される評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う。集約手段３は、探索手段２で生成された選択パターン８ａの評価対象位置を集約し、所定数の評価対象領域８ｂ，８ｃを生成する。ルール候補生成手段４は、複数のマルチメディアデータそれぞれに対し、評価対象領域８ｂ，８ｃ内のデータの特徴を数値化して特徴データを生成し、評価対象領域８ｂ，８ｃ毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補８ｄを生成する。ルール候補評価手段５は、ルール候補生成手段４で生成されたルール候補８ｄで示される関係の正確さを評価する。出力手段６は、ルール候補評価手段５の評価結果が所定の判定基準を満たしているルール候補を、ルール９として出力する。
【００１３】
このような関係発見プログラムを実行するコンピュータによれば、入力受付手段１により、マルチメディアデータ７ａａ，７ｂａ，７ｃａとテキストデータ７ａｂ，７ｂｂ，７ｃｂとの組からなる複数のサンプルデータ７ａ，７ｂ，７ｃの入力が受け付けられる。すると、探索手段２により、入力受付手段１が受け付けたサンプルデータ７ａ，７ｂ，７ｃのマルチメディアデータ７ａａ，７ｂａ，７ｃａを構成するデータ配列上の評価対象位置が選択され、選択された評価対象位置を示す選択パターン８ａが生成される。この処理は、所定の探索終了条件が満たされるまで、探索手段２で繰り返される。次に、集約手段３により、探索手段２で生成された選択パターン８ａの評価対象位置が集約され、所定数の評価対象領域８ｂ，８ｃが生成される。さらに、ルール候補生成手段４により、複数のマルチメディアデータそれぞれに対し、評価対象領域８ｂ，８ｃ内のデータの特徴を数値化して特徴データが生成され、評価対象領域８ｂ，８ｃ毎の複数の特徴データとテキストデータとの間の、複数のマルチメディアデータに共通の関係を示すルール候補８ｄが生成される。生成されたルール候補８ｄは、ルール候補評価手段５により、そのルール候補８ｄで示される関係の正確さが評価される。そして、出力手段６により、ルール候補評価手段５の評価結果が所定の判定基準を満たしているルール候補が、ルール９として出力される。
【００１４】
また、上記課題を解決するために、コンピュータにより、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見方法において、入力受付手段が、前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付け、探索手段が、前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行い、集約手段が、前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成し、ルール候補生成手段が、複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成し、ルール候補評価手段が、前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価し、出力手段が、前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する、ことを特徴とするルール発見方法が提供される。
【００１５】
さらに、上記課題を解決するために、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見装置において、前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段と、前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段と、前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段と、複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段と、前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段と、前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段と、を有することを特徴とするルール発見装置が提供される。
【発明の効果】
【００１６】
本発明では、評価対象位置の選択パターンを繰り返し生成し、選択パターン中の評価対象位置を集約して評価対象領域を生成することで、特徴データの数を絞り込んでルール候補を生成し、所定の判定基準を満たしたルール候補をルールとして出力するようにした。そのため、多数のデータの配列で構成されるマルチメディアデータであっても、特徴部分と指定する領域を自動選択し、的確なルールを発見することができる。
【発明を実施するための最良の形態】
【００１７】
以下、本発明の実施の形態を図面を参照して説明する。
まず、実施の形態に適用される発明の概要について説明し、その後、実施の形態の具体的な内容を説明する。
【００１８】
図１は、実施の形態に適用される発明の概念図である。図１に示すような、本発明は、入力受付手段１、探索手段２、集約手段３、ルール候補生成手段４、ルール候補評価手段５、および出力手段６を有している。
【００１９】
入力受付手段１は、マルチメディアデータ７ａａ，７ｂａ，７ｃａとテキストデータ７ａｂ，７ｂｂ，７ｃｂとの組からなる複数のサンプルデータ７ａ，７ｂ，７ｃの入力を受け付ける。
【００２０】
探索手段２は、入力受付手段１が受け付けたサンプルデータ７ａ，７ｂ，７ｃのマルチメディアデータ７ａａ，７ｂａ，７ｃａを構成するデータ配列上の評価対象位置を選択し、選択された評価対象位置を示す選択パターン８ａを生成する。
【００２１】
なお、マルチメディアデータ７ａａ，７ｂａ，７ｃａを構成するデータ配列上の評価対象位置は、例えば、マルチメディアデータ７ａａ，７ｂａ，７ｃａが画像データであれば、画素の位置で表される。画素の位置は、ｘ軸とｙ軸の座標値で表せる。
【００２２】
また、探索手段２は、選択パターン８ａの生成処理を、選択される評価対象位置の組合せを変えながら、所定の探索終了条件が満たされるまで繰り返す。例えば、生成した選択パターンの数が所定数を超えるまで、選択パターン８ａの生成処理を繰り返す。
【００２３】
集約手段３は、探索手段２で生成された選択パターン８ａの評価対象位置を集約し、所定数（例えば、２つ）の評価対象領域８ｂ，８ｃを生成する。例えば、集約手段３は、隣接する評価対象位置同士を集約する。
【００２４】
ルール候補生成手段４は、複数のマルチメディアデータ７ａａ，７ｂａ，７ｃａそれぞれに対し、評価対象領域８ｂ，８ｃ内のデータの特徴を数値化して特徴データを生成し、評価対象領域８ｂ，８ｃ毎の複数の特徴データとテキストデータ７ａｂ，７ｂｂ，７ｃｂとの間の関係を示すルール候補８ｄを生成する。特徴データは、例えば、評価対象領域８ｂ，８ｃ内のデータの平均値を用いる。ルール候補８ｄは、例えば、重回帰分析により求めることができる。なお、重回帰分析とは、いくつかの変数Ｘ１，Ｘ２，．．．，Ｘｎ（説明変数）と別の変数Ｙ（目的変数）との関係を式で表し、目的変数の変動が説明変数の変動によってどの程度影響されるかを分析する手法である。
【００２５】
ルール候補評価手段５は、ルール候補生成手段４で生成されたルール候補８ｄで示される関係の正確さを評価する。例えば、ルール候補８ｄが重回帰分析で求め出された場合、ルール候補８ｄで表せる予測式の重相関係数の値により、ルール候補８ｄを評価することができる。
【００２６】
出力手段６は、ルール候補評価手段５の評価結果が所定の判定基準を満たしているルール候補を、ルール９として出力する。例えば、ルール９には、そのルール９の生成に使用された評価対象領域８ｂ，８ｃを示す評価対象領域情報９ａ，９ｂ、及びマルチメディアデータ７ａａ，７ｂａ，７ｃａそれぞれに関する評価対象領域８ｂ，８ｃ内の特徴データとテキストデータ７ａｂ，７ｂｂ，７ｃｂとの間の関係を示す予測式９ｃが含まれる。
【００２７】
このような構成により、入力受付手段１により、複数のサンプルデータ７ａ，７ｂ，７ｃの入力が受け付けられる。すると、探索手段２により、入力受付手段１が受け付けたサンプルデータ７ａ，７ｂ，７ｃのマルチメディアデータ７ａａ，７ｂａ，７ｃａを構成するデータ配列上の評価対象位置が選択され、選択された評価対象位置を示す選択パターン８ａが生成される。この処理は、所定の探索終了条件が満たされるまで、探索手段２で繰り返される。次に、集約手段３により、探索手段２で生成された選択パターン８ａの評価対象位置が集約され、所定数の評価対象領域８ｂ，８ｃが生成される。さらに、ルール候補生成手段４により、複数のマルチメディアデータ７ａａ，７ｂａ，７ｃａそれぞれに対し、評価対象領域８ｂ，８ｃ内のデータの特徴を数値化して特徴データが生成され、評価対象領域８ｂ，８ｃ毎の複数の特徴データとテキストデータとの間の、マルチメディアデータ７ａａ，７ｂａ，７ｃａに共通の関係を示すルール候補８ｄが生成される。生成されたルール候補８ｄは、ルール候補評価手段５により、そのルール候補８ｄで示される関係の正確さが評価される。そして、出力手段６により、ルール候補評価手段５の評価結果が所定の判定基準を満たしているルール候補が、ルール９として出力される。
【００２８】
これにより、サンプルデータ７ａ，７ｂ，７ｃからルール９を自動抽出することが可能となる。このとき、集約手段３により、評価対象位置の集約を行っているため、元のマルチメディアデータを構成する単位データの数が膨大であっても、有効なルール候補を生成することができる。
【００２９】
このように、サンプルデータ７ａ，７ｂ，７ｃからルール９を自動抽出できることで、人的コストの削減が可能となる。また、マルチメディアデータの複数の領域とテキストデータとの関係を導き出すことができることで、人間には発見しにくいマルチメディアデータ特徴の抽出の可能性が向上につながる。さらに、所定の規則に沿って、ルール候補を評価するため、客観的な判定を行うことができる。
【００３０】
以下、マルチメディアデータとして画像データを用いた場合の例を用いて、本発明の実施の形態について詳細に説明する。
［第１の実施の形態］
第１の実施の形態では、ある工業製品の設計段階を想定して説明を行う。具体的には、パーソナルコンピュータ（ＰＣ）の筐体の強度と、型に材料を流したときの温度分布との関係を解析する場合の例を用いて説明する。
【００３１】
図２は、ＰＣ筐体の形状に応じた温度分布画像を示す図である。ＰＣ２０の筐体の型を設計する場合、筐体の強度を考慮する必要がある。筐体の強度は、筐体の型に材料を流し込む際の温度分布の影響を受ける。そこで、筐体の強度が高くなる温度分布に関するルールの発見を行うものとする。その場合、筐体の型に材料を流し込む際の温度分布を示す温度分布画像３０を、シミュレータによって算出する。
【００３２】
温度分布画像３０には、型に流し込まれた材料の温度が、例えば、色合い（あるいは明るさ）で表現されている。そのとき、温度分布画像３０の中で、筐体の強度に影響を及ぼす領域３０ａ，３０ｂを発見する必要がある。例えば、領域３０ａの温度が高温であり、３０ｂの温度が低温の場合に、筐体の強度が高くなるという因果関係が判明すれば、そのような温度分布となるように筐体の形状を設計すればよい。
【００３３】
図３は、実施の形態のシステム構成を示す図である。図３に示すように、温度分布シミュレータ２１とルール発見装置１００とが接続されている。温度分布シミュレータ２１は、筐体の形状に基づいて、その筐体の型に材料を流し込んだときの温度分布を計算することができる。そして、温度分布シミュレータ２１は、温度分布画像３１ａ，３２ａ，３３ａを生成する。温度分布画像３１ａ，３２ａ，３３ａは、温度の高さを色合いや明るさで表現したものである。例えば、温度分布画像３１ａ，３２ａ，３３ａにおいて、温度が高い部分ほど赤に近い色で表され、温度が低いほど青色に近い色で表される。
【００３４】
ルール発見装置１００は、型の形状データに応じて生成された温度分布画像３１ａ，３２ａ，３３ａと、その型から生成される筐体の強度３１ｂ，３２ｂ，３３ｂとからなる複数のサンプルデータ３１，３２，３３から、温度分布画像３１ａ，３２ａ，３３ａと強度３１ｂ，３２ｂ，３３ｂとの因果関係を表す予測式を生成する。その予測が、型設計時のルールとして使用できる。
【００３５】
このようなシステムを利用して、筐体の設計者は、設計した型の性能を判断するためのルールを取得することができる。そのために、設計者は、まず、さまざまな形状の筐体のサンプルを表すモデルデータを用意する。そして、設計者は、温度分布シミュレータ２１に対して、筐体のモデルデータを入力する。
【００３６】
温度分布シミュレータ２１は、入力されたモデルデータに基づいて、筐体の型に材料を流し込む際の温度分布を算出し、温度分布画像３１ａ，３２ａ，３３ａを生成する。生成された温度分布画像３１ａ，３２ａ，３３ａ、温度分布シミュレータ２１からルール発見装置１００に入力される。
【００３７】
また、設計者は、設計した筐体の強度３１ｂ，３２ｂ，３３ｂを測定し、その強度３１ｂ，３２ｂ，３３ｂをルール発見装置１００に入力する。ルール発見装置１００は、各筐体に対する温度分布画像と強度との組を、サンプルデータ３１，３２，３３として保持する。そして、ルール発見装置１００は、サンプルデータ３１，３２，３３に基づいて、ルールを生成する。
【００３８】
図４は、ルール発見装置のハードウェア構成例を示す図である。ルール発見装置１００は、ＣＰＵ(Central Processing Unit)１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０７を介してＲＡＭ(Random Access Memory)１０２、ハードディスクドライブ（ＨＤＤ:Hard Disk Drive）１０３、グラフィック処理装置１０４、入力インタフェース１０５、および通信インタフェース１０６が接続されている。
【００３９】
ＲＡＭ１０２には、ＣＰＵ１０１に実行させるＯＳ(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、ＣＰＵ１０１による処理に必要な各種データが格納される。ＨＤＤ１０３には、ＯＳやアプリケーションプログラムが格納される。
【００４０】
グラフィック処理装置１０４には、モニタ１１が接続されている。グラフィック処理装置１０４は、ＣＰＵ１０１からの命令に従って、画像をモニタ１１の画面に表示させる。入力インタフェース１０５には、キーボード１２とマウス１３とが接続されている。入力インタフェース１０５は、キーボード１２やマウス１３から送られてくる信号を、バス１０７を介してＣＰＵ１０１に送信する。
【００４１】
通信インタフェース１０６は、ネットワーク１０に接続されている。通信インタフェース１０６は、ネットワーク１０を介して、他のコンピュータとの間でデータの送受信を行う。
【００４２】
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図４には、ルール発見装置１００のハードウェア構成を示しているが、温度分布シミュレータ２１も同様のハードウェア構成で実現することができる。
【００４３】
次に、ルール発見装置１００によるルール生成方法について詳細に説明する。
図５は、ルール発見装置の機能を示すブロック図である。ルール発見装置１００は、入力受付部１１０、探索部１２０、集約部１３０、ルール候補生成部１４０、ルール候補評価部１５０、および出力部１６０を有している。
【００４４】
入力受付部１１０は、温度分布シミュレータ２１から与えられた筐体毎の温度分布画像と、筐体の強度の組からなる複数のサンプルデータの入力を受け付ける。そして、入力受付部１１０では、受け付けたサンプルデータの全てあるいは一部を、入力データとして探索部１２０に渡す。なお、入力受付部１１０では、温度分布画像として選択した画像の一部を、探索部１２０に渡すこともできる。
【００４５】
また、入力受付部１１０は、設計者の事前知識などの制約条件を、操作入力により受付可能なインタフェースも備える。例えば、入力受付部１１０は、後述するように、ルール（重回帰分析の予測式など）に利用する変数の個数の上限などの操作入力を受け付ける。このような事前知識は、解析すべき問題に応じて設計者によって設定される。
【００４６】
探索部１２０は、温度分布画像を構成する画素のうち、ルール候補に使用する画素の位置（評価対象位置）を複数選択し、評価対象位置の組合せを示す情報（選択パターン）を生成する。探索部１２０は、所定の探索終了条件が満たされるまで、選択パターンの生成処理を繰り返す。
【００４７】
例えば、探索部１２０による選択パターンの生成処理は、全ての組合せを探索しつくした場合か、または、予め決めておいた上限回数に探索回数が達したときに探索を終了する。また、ルール候補評価部１５０による評価結果が一定以上のルール候補が発見された時点で、探索部１２０による選択パターンの生成処理を終了させることもできる。
【００４８】
このように、探索終了条件を定義するのは、画素の全ての組合せを計算すると、２のＮ乗（Ｎは画素数）の選択パターンが生じ、探索空間が膨大となるためである。例えば、探索空間が大きくなるほど処理時間が長くなり、非実用的になってしまう。
【００４９】
そこで、全数探索（しらみつぶし探索）ではなく、近似探索を実施することが考えられる。近似探索の具体例としては、遺伝的アルゴリズム（ＧＡ）が挙げられる。ＧＡの他にも、貪欲法やニューラルネットワークなどの組合せ探索法を利用することも可能である。本実施の形態では、ＧＡによって画素の組合せを探索するものとする。なお、本実施の形態で行われるＧＡ処理の詳細は後述する。
【００５０】
集約部１３０は、画像の最小単位（画像では画素に相当）に対して、複数の画素を選択し、何らかの基準に従い、選択された画素の値を集約した変数で表現する。
ルール候補生成部１４０は、集約部１３０で抽出された変数を用いてマルチメディアデータとテキストデータとの関係を記述するルール候補を生成する。具体的には、ルール候補生成部１４０は、温度分布画像それぞれから、集約された評価対象領域に対応する画素の値の平均を算出し、重回帰分析によって予測式を生成し、ルール候補とする。
【００５１】
なお、画素の値としては、温度分布画像において温度の高さが明るさで示されていれば、各画素の輝度を示す数値である。また、温度分布画像において、温度の高さが色合い（赤が濃いほど高温、青が濃いほど低温）で示される場合、その色合いを数値に変換した値が、画素の値として用いられる。そのとき、高温を示す色ほど数値が高くなるように変換する（温度分布画像を生成した際に、温度から色合いを算出する計算の逆の計算を行えばよい）。
【００５２】
ルール候補評価部１５０は、ルール候補生成部１４０で得られたルール候補を、そのルール候補に付随する情報から評価を実施する。具体的には、ルール候補生成部１４０が重回帰分析で生成したルール候補を、ルール候補評価部１５０は重相関係数によって評価する。
【００５３】
重相関係数は−１〜１の値をとり、その絶対値が１に近いほど、サンプルデータに対する予測式の誤差が少ないことを表している。そこで、ルール候補評価部１５０は、重相関係数の値を評価値として利用し、ルール候補をルールとして抽出するかどうかの判断基準とする。例えば、ルール候補評価部１５０は、重相関係数の絶対値が予め設定しておいた閾値（０．５）以上の場合に、ルールとして抽出する。また、重回帰分析を用いる場合には、説明変数間の相関係数も重要となるため、説明変数間の相関係数を評価項目の１つとして利用することもできる。
【００５４】
出力部１６０は、計算により所定の閾値以上の評価が得られたルールを出力する。出力するルールは複数の場合もある。具体的なルールとしては、重回帰分析の場合には、予測式、重相関係数、説明変数を構成する画素の選択状況などが出力されるルールに相当する。説明変数を構成する画素の選択状況については、可視化して表示するとわかりやすい。このようにして得られたルールは、設計者によって製品の設計に反映することが検討される。
【００５５】
次に、ＧＡについて詳細に説明する。
ＧＡでの実装では、選択画素の組合せを１つの個体とする。第１世代では、異なる画素が選択された個体を所定数（例えば、３２個体程度）用意する。そして、探索部１２０が、生成された個体に対し、交叉や突然変異といった遺伝子の変形を数世代繰返し、評価基準の値が高くなる画素選択を探索していく。なお、近似探索手法の場合、得られるのは最適解ではなく局所最適解である。
【００５６】
図６は、ＧＡを用いた画素の選択の世代交代方法を示す図である。図６では、４×４の画素、個体数が４個の単純な場合の例で説明する。各個体の画素には、その画素の選択の有無を示す情報が遺伝子として設定されている。図中、選択された画像を網掛けで示し、非選択の画素を白色で示している。
【００５７】
ここで、第ｎ世代の個体を生成するものとする。この場合、探索部１２０により、第ｎ世代（ｎは自然数）の個体生成の元となる初期の遺伝子（選択画素の組合せ）が決定される。例えば、第ｎ−１世代の個体の中から、各個体の適合度に応じた確率で所定数の個体を選択する。このとき、同一個体が複数回選択されることを許すものとする。そして、選択された各個体の遺伝子を、第ｎ世代の個体の初期の遺伝子とする。
【００５８】
次に、探索部１２０は、初期の遺伝子が確定した各個体に対して、交叉を行う。具体的には、探索部１２０は、まず、個体の集合から、２つずつの組（個体対）を生成する。次に、探索部１２０は、生成された各個体対について、遺伝子を交換する領域（画素の集合）を決定する。そして、探索部１２０は、個体対を構成する各個体の互いに対応する画素の遺伝子（各画素の選択の有無）を入れ替える。
【００５９】
例えば、図６の例では、個体＃１と個体＃２とにより個体対が生成され、個体＃３と個体＃４とにより個体対が生成されている。個体＃１と個体＃２との個体対では、右半分の画素が遺伝子の交換対象領域であり、個体＃３と個体＃４との個体対では、左半分の画素が遺伝子の交換対象領域である。そして、個体１と個体２の右半分の画素の遺伝子が入れ替わり、個体３と個体４の左半分の画素の遺伝子が入れ替わる。なお、遺伝子の入れ換えを行う領域の決定方法は、別の方法でもよい。
【００６０】
次に、探索部１２０は、突然変異処理を行う。突然変異処理において、探索部１２０は、ランダムな確率（例えば、０．０１）で画素を選択し、選択された画素の遺伝子（選択または非選択）を入れ替える。最後に、探索部１２０は、それぞれの個体に対して、適合度を計算する。本実施の形態では、それぞれの個体の画素の選択状態に対する重回帰分析で得られた重相関係数を、適合度として利用する。
【００６１】
世代交代を行い第ｎ＋１世代を生成する際には、適合度の高い個体ほど、次の世代として高い確率で選ばれる。この例では、個体＃１から順に適合度が「０．１，０．６，０．４，０．９」なので、次の世代に選ばれる確率は個体＃１から順に「５％，３０％，２０％，４５％」である。図６では、個体＃４、個体＃２、個体＃４、個体＃３が選ばれた結果を示している。
【００６２】
以降同様に、交叉、突然変異、と同様の処理を繰り返し。予め定めておいた世代交代の回数（例えば、５，０００回）を超えた時点で終了する。それまでに得られた適合度（重相関係数）の値が高いルール候補が、ルールとして出力される。
【００６３】
なお、各個体のルール候補を生成する場合、選択された位置の各画素の値を、重回帰分析の注目変数としてしまうと、変数の数が過大となる。そこで、選択された画素位置の集約処理が行われる。
【００６４】
次に、集約部１３０における評価対象位置の集約処理を含めた重回帰分析の流れについて説明する。
図７は、評価対象位置の集約と重回帰分析との繰り返し処理手順を示す図である。この例では、４×４画素の３つの温度分布画像４１，４２，４３をサンプルデータとした場合の例である。
【００６５】
第１の状態（ＳＴ１）では、温度分布画像４１の評価対象位置の選択の様子を示す。図７では、４×４の画素に対して、選択された画素を網掛けで示す。
次に、評価対象位置の集約処理を行う。第２の状態（ＳＴ２）には、評価対象位置集約後の状態を示す。図７の例では「隣接している画素は１つの変数で表す」という基準で集約が行われている。この場合、集約された評価対象位置に対応する画素の値（例えば、輝度）の平均値を、変数の値とする。この基準により、評価対象位置が集約されると、４×４の画素それぞれを変数とした場合より少ない個数の変数に集約される。図７の例では、評価対象位置が３つの評価対象領域４１ａ，４１ｂ，４１ｃに集約される。
【００６６】
ここで、評価対象領域の数に上限を設けることもできる。上限を設けた場合、上限値以内の評価対象領域のみを選択し、それ以外の評価対象領域から得られる変数を、処理対象から除外する。
【００６７】
第３の状態（ＳＴ３）は、選択された評価対象領域４１ｂ，４１ｃを示している。この例では、上限を２に設定している。また、評価対象領域に含まれている画素の数が多いものを優先的に選択している。その結果、画素数が多い評価対象領域４１ｂ，４１ｃが選択され、画素数の少ない評価対象領域４１ａが処理対象から除外されている。
【００６８】
次に、選択された評価対象領域４１ｂ，４１ｃから、変数が計算される。この例では、各集合に含まれ画素の明るさの平均値が、説明変数ｘ１，ｘ２となる。第４の状態（ＳＴ４）には、算出された変数の値が示されている。この例では、説明変数ｘ１の値が１２．３であり、説明変数ｘ２の値が３２．５である。
【００６９】
このような、評価対象領域の決定、説明変数の値の算出を、他の温度分布画像４２，４３に対しても同様に行う。その様子が第５の状態（ＳＴ５）に示されている。そして、各温度分布画像４１，４２，４３から取得された説明変数に基づいて、ルール候補生成部１４０により、重回帰分析が行われる。
【００７０】
第６の状態（ＳＴ６）には、重回帰分析結果が示されている。重回帰分析では、サンプルデータ毎の目的変数ｙと説明変数ｘ１，ｘ２とが取得され、ｙ＝ａ＋ｂ×ｘ１＋ｃ×ｘ２（ａ，ｂ，ｃは、実数）という形式（ｋ次元空間上の直線：ｋは目的変数と説明変数との和）の予測式が生成される。ここで、目的変数ｙは強度の数値である。
【００７１】
予測式は、説明変数ｘ１と説明変数ｘ２とから目的変数ｙを予測するための式である。各サンプルデータの説明変数を予測式に代入したときの目的変数の誤差が、できるだけ少なくなるようにａ，ｂ，ｃの値が計算される。
【００７２】
予測式からは、その予測式に対する説明変数の一致度合いを数値化した重相関係数が得られる。重相関係数は、絶対値が大きいほど、予測式が適していることを示している。そこで、重相関係数が予め設定された閾値以上なら、予測式が出力される。なお、予測式および重相関係数の導出方法の詳細は「圓川隆夫“多変量のデータ解析”，朝倉書店，P22-43 1988年4月25日」に詳しい。
【００７３】
このような、評価対象位置の集約と重回帰分析とが、ＧＡによって生成された所定個数の個体（選択パターン）に対して行われる。そして、所定の探索終了条件が満たされるまで、選択される評価対象位置を変えて、ＧＡによる選択パターンの生成処理が繰り返される。
【００７４】
なお、重回帰分析は、説明変数がサンプル数より多いと得られる予測式は意味を成さない。しかし、画像データの場合、一般的にサンプル数より画素数（説明変数）の方が多くなるため、画素をそのまま説明変数として利用することは難しい。そこで、サンプル数より説明変数を少なくするための評価対象位置の集約処理が有用となる。
【００７５】
次に、ルール発見処理の手順を説明する。
図８は、第１の実施の形態のルールの生成処理を示すフローチャートである。以下、図８に示す処理をステップ番号に沿って説明する。
【００７６】
［ステップＳ１１］入力受付部１１０は、筐体形状に応じた型に材料を流したときの温度分布画像と、その筐体の強度とを含む複数のサンプルデータを読み込む。
［ステップＳ１２］探索部１２０は、ＧＡを行うための第１世代の個体を生成する。具体的には、探索部１２０は、温度分布画像を構成する画素から１以上の画素を選択し、各画素の選択の有無を遺伝子で示した個体を、所定の数（例えば、３２個）だけ生成する。
【００７７】
［ステップＳ１３］探索部１２０は、世代交代の回数が、予め設定された所定回数に達したか否かを判断する。所定回数に達した場合、処理が終了する。所定回数に達していなければ、処理がステップＳ１４に進められる。
【００７８】
［ステップＳ１４］探索部１２０は、ＧＡにより次世代の個体を、所定数生成する。
［ステップＳ１５］探索部１２０は、生成済みの個体について評価したか否かを判断する。生成済みの全ての個体について評価が終了していれば、処理がステップＳ１３に進められる。未評価の個体があれば、処理がステップＳ１６に進められる。
【００７９】
［ステップＳ１６］集約部１３０は、未評価の個体を１つ選択する。
［ステップＳ１７］集約部１３０は、選択した個体の隣接する評価対象位置同士を集約する。
【００８０】
［ステップＳ１８］ルール候補生成部１４０は、集約によって生成された評価対象領域のうち、範囲が広い（対応する画素数の多い）ものを所定数（例えば、２個）選択する。そして、ルール候補生成部１４０は、サンプルデータ全てについて、選択した評価対象領域の値と強度と関係を示すルール候補を生成する。
【００８１】
具体的には、ルール候補生成部１４０は、評価対象領域から所定数選択後、各サンプルデータから、選択された評価対象領域に相当する位置の各画素の輝度の平均値を求める。そして、ルール候補生成部１４０は、求めた値を、各サンプルデータの説明変数とする。また、ルール候補生成部１４０は、各サンプルデータに含まれる強度の値を、そのサンプルデータの目的変数とする。全てのサンプルデータの説明変数と目的変数とが決定されると、ルール候補生成部１４０は、それらの変数を用いて重回帰分析を行い予測式を生成する。その予測式が、ルール候補となる。
【００８２】
［ステップＳ１９］ルール候補評価部１５０は、ルール候補生成部１４０によって生成されたルール候補を評価する。具体的には、ルール候補評価部１５０は、ステップＳ１８で生成された予測式の重相関係数を算出する。
【００８３】
［ステップＳ２０］出力部１６０は、ルール候補評価部１５０で算出された評価値（重相関係数）が、予め設定された閾値以上か否かを判断する。評価値が閾値以上であれば、処理がステップＳ２１に進められる。評価値が閾値未満であれば、処理がステップＳ１５に進められ、別の個体に対する評価が行われる。
【００８４】
［ステップＳ２１］出力部１６０は、評価対象となった個体の選択された評価対象領域の範囲を示す情報とルール候補とを、特徴抽出ルールとして出力する。出力された特徴抽出ルールは、ＨＤＤ等の記憶装置に保存される。その後、処理がステップＳ１５に進められ、他の個体の評価が行われる。
【００８５】
このようにして、評価の高い個体のみが出力される。そして、その個体に対して生成されたルール生成時の選択画素の位置等の情報が、ルール発見装置１００の画面に表示される。
【００８６】
図９は、ルール表示画面の例を示す図である。ルール表示画面５０には、温度分布画像５１が表示される。温度分布画像５１には、ＰＣの筐体形状５１ａが表示され、その筐体形状５１ａ内に、その筐体の型に材料を流し込んだときの温度分布が色分けして表示されている。
【００８７】
そして、温度分布と筐体の強度との関係を示す予測式と、その予測式の確からしさを示す重相関係数とが表示されている。また、温度分布画像５１内には、予測式に含まれる説明変数ｘ１，ｘ２の生成元となる領域５１ｂ，５１ｃが示されている。
【００８８】
このように、本実施の形態では、マルチメディアデータとその属性データの複数のペアからルールを自動抽出することが可能であるため、特徴量を予め人手で決める必要がなくなり人的コストを軽減できる。また、自動で抽出されるルールは人間の主観に依存しない点や、これまで人手では見つけるのが難しかったルールも抽出することができるようになる点が、本発明の特長である。そのため、これまでより客観的かつ網羅的にルールを発見でき、質の高いルールを効率的に得られる効果がある。
【００８９】
［第２の実施の形態］
次に、第２の実施の形態について説明する。第２の実施の形態は、評価対象位置を集約する際に、隣接する評価対象位置に対応する画素間の値のばらつきが少ない場合にのみ、隣接する評価対象位置の集約を行うようにしたものである。
【００９０】
なお、第２の実施の形態の機能の構成は、図５に示した第１の実施の形態と同様である。但し、集約部１３０とルール候補生成部１４０との処理について、第１の実施の形態と異なる部分がある。そこで、図５に示した各要素の符号を用いて、第１の実施の形態と異なる処理について以下に説明する。
【００９１】
図１０は、第２の実施の形態のルールの生成処理を示すフローチャートである。なお、図１０に示す処理のうち、ステップＳ３１〜Ｓ３７については、それぞれ図８に示すステップＳ１１〜１７の処理と同じである。また、ステップＳ４０〜４２の処理は、図８に示すステップＳ１９〜ステップＳ２１の処理と同じである。そこで、第１の実施の形態と異なるステップＳ３８，Ｓ３９の処理について、以下に説明する。
【００９２】
［ステップＳ３８］集約部１３０は、まず、ステップＳ３７で集約された評価対象領域の１つを選択する。次に、集約部１３０は、サンプルデータに含まれる温度分布画像それぞれについて、選択した評価対象領域に対応する位置の画素の値の標準偏差を求める。そして、集約部１３０は、各温度分布画像から算出された標準偏差の平均値を求める。同様に、集約部１３０は、ステップＳ３７で集約された評価対象領域を順次選択することで、全ての評価対象領域それぞれの標準偏差の平均値を算出する。
【００９３】
さらに、集約部１３０は、評価対象領域の標準偏差の平均値と、予め設定された標準偏差閾値とを比較する。そして、集約部１３０は、標準偏差の平均値が閾値以上の評価対象領域については、集約を解除する。
【００９４】
［ステップＳ３９］ルール候補生成部１４０は、ステップＳ３８で集約が解除されていない評価対象領域のなかから、範囲の広い（対応する画素数の多い）ものを所定数（例えば、２個）選択する。そして、ルール候補生成部１４０は、サンプルデータ全てについて、選択した評価対象領域の値と強度と関係を示すルール候補を生成する。ルール候補生成処理の詳細は、第１の実施の形態におけるステップＳ１８と同様である。
【００９５】
このようにして、評価対象位置に対応する画素の値のばらつきが少ない場合には集約し、画素の値のばらつきが多い場合には集約しないようにすることができる。これにより、温度が近い領域内の画素から評価対象領域が生成され、１つの説明変数が算出される。その結果、説明変数によって、各温度分布画像内の評価対象領域に対応する領域の温度の特徴を、的確に表すことができる。
【００９６】
すなわち、説明変数の算出では、画素の値の平均を取る。そのため、画素の値のばらつきが大きいと、説明変数の値が、評価対象領域で示される領域の特徴を的確に表せない。例えば、高温の領域と低温の領域とを半分ずつ含む評価対象領域が生成されると、その評価対象領域の説明変数には、平均的な温度を示す数値が設定されてしまい、評価対象領域に対応する領域の特徴を表しているとは言えない。画素の値のばらつきが多い評価対象領域の集約状態を、ルール候補生成前に解除することで、画素の値のばらつきの少ない評価対象領域からのみ説明変数が生成され、温度分布画像の特徴を的確に反映させたルール候補が生成できる。
【００９７】
［第３の実施の形態］
次に、第３の実施の形態について説明する。第３の実施の形態は、探索手段による粗密探索を行うものである。粗密探索とは、最初に粗い範囲で解探索を行い、所定値以上の評価が得られた画素の組合せについて、詳細な解探索を行うものである。
【００９８】
具体的には、画素を探索の基本単位として考えるのではなく、まずは、粗く探索するために、複数の画素をまとめて１ユニットとして探索の基本単位とする。例えば、５×５の画素を１ユニットとする。そして、他の処理は同様に実施し、粗い探索での解（評価が所定の基準値以上のルール候補）が得られる。
【００９９】
次に、この粗い探索で高い評価が得られたルール候補に基づいて、選択されたユニット内の密な探索を行う。密な探索では、画素単位の探索を行うが、探索の範囲は、粗い探索で解として得られたルール候補の選択ユニットに相当する部分だけである。密な探索で得られた解が最終的なルールとなる。
【０１００】
なお、第３の実施の形態の機能の構成は、図５に示した第１の実施の形態と同様である。但し、探索部１２０、集約部１３０、およびルール候補生成部１４０の処理について、第１の実施の形態と異なる部分がある。そこで、図５に示した各要素の符号を用いて、第１の実施の形態と異なる処理について以下に説明する。
【０１０１】
図１１は、第３の実施の形態のルールの生成処理を示すフローチャートである。以下、図１１に示す処理をステップ番号に沿って説明する。
［ステップＳ５１］入力受付部１１０は、筐体形状に応じた型に材料を流したときの温度分布画像と、その筐体の強度とを含む複数のサンプルデータを読み込む。
【０１０２】
［ステップＳ５２］探索部１２０は、複数の画素を纏めて、１ユニットとする。例えば、５×５の画素を１ユニットとする。
［ステップＳ５３］探索部１２０は、ＧＡを行うための第１世代の個体を生成する。具体的には、探索部１２０は、温度分布画像を構成するユニットから１以上のユニットを選択し、各ユニットの選択の有無を遺伝子で示した個体を、所定の数（例えば、３２個）だけ生成する。
【０１０３】
［ステップＳ５４］探索部１２０は、ＧＡ世代交代の回数が、予め設定された所定回数に達したか否かを判断する。所定回数に達した場合、処理が終了する。所定回数に達していなければ、処理がステップＳ５５に進められる。
【０１０４】
［ステップＳ５５］探索部１２０は、ＧＡにより次世代の個体（ユニット単位）を所定数生成する。
［ステップＳ５６］探索部１２０は、生成済みの個体について評価したか否かを判断する。生成済みの全ての個体について評価が終了していれば、処理がステップＳ５４に進められる。未評価の個体があれば、処理がステップＳ５７に進められる。
【０１０５】
［ステップＳ５７］集約部１３０は、未評価の個体を１つ選択する。
［ステップＳ５８］集約部１３０は、選択した個体の隣接ユニット同士を集約する。
［ステップＳ５９］ルール候補生成部１４０は、集約によって生成されたユニット集合のうち、構成ユニット数の多いものを所定数（例えば、２個）選択する。そして、ルール候補生成部１４０は、サンプルデータ全てについて、選択した評価対象領域の値と強度と関係を示すルール候補を生成する。
【０１０６】
［ステップＳ６０］ルール候補評価部１５０は、ルール候補生成部１４０によって生成されたルール候補を評価する。具体的には、ルール候補評価部１５０は、ステップＳ１８で生成された予測式の重相関係数を算出する。
【０１０７】
［ステップＳ６１］探索部１２０は、ルール候補評価部１５０で算出された評価値（重相関係数）が、予め設定された閾値以上か否かを判断する。評価値が閾値以上であれば、処理がステップＳ６２に進められる。評価値が閾値未満であれば、処理がステップＳ５６に進められ、別の個体に対する評価が行われる。
【０１０８】
［ステップＳ６２］探索部１２０は、評価対象となった個体の選択されたユニット集合とルール候補とを処理対象に指定して、画素単位解析処理の実行を開始する。画素単位解析処理が終了すると、処理がステップＳ５６に進められ、他の個体の評価が行われる。
【０１０９】
図１２は、画素単位解析処理の手順を示すフローチャートである。以下、図１２に示す処理をステップ番号に沿って説明する。なお、図１２のフローチャートの説明において、固体と呼んだ場合、この画素単位解析処理内で生成された固体（画素単位の選択の有無が定義されている）のみを指している。
【０１１０】
［ステップＳ７１］探索部１２０は、ステップＳ６２で処理対象として指定されたユニット集合に含まれる各ユニットを、画素の単位に戻す。以降の処理では、処理対象として指定されたユニット集合に対応する範囲の画素のみが、ＧＡによる画素選択の際の選択対象となる。
【０１１１】
［ステップＳ７２］探索部１２０は、ＧＡを行うための第１世代の個体を生成する。具体的には、探索部１２０は、温度分布画像のうち、処理対象として指定されたユニット集合に対応する領域内の画素から１以上の画素を選択し、各画素の選択の有無を遺伝子で示した個体を、所定の数（例えば、３２個）だけ生成する。
【０１１２】
［ステップＳ７３］探索部１２０は、画素単位解析処理内での世代交代の回数が、予め設定された所定回数に達したか否かを判断する。所定回数に達した場合、処理が図１１のステップＳ５６に進められる。所定回数に達していなければ、処理がステップＳ７４に進められる。
【０１１３】
［ステップＳ７４］探索部１２０は、ＧＡにより次世代の個体を、所定数生成する。
［ステップＳ７５］探索部１２０は、生成済みの個体について評価したか否かを判断する。生成済みの全ての個体について評価が終了していれば、処理がステップＳ７３に進められる。未評価の個体があれば、処理がステップＳ７６に進められる。
【０１１４】
［ステップＳ７６］集約部１３０は、未評価の個体を１つ選択する。
［ステップＳ７７］集約部１３０は、選択した個体の隣接画素同士を集約する。
［ステップＳ７８］ルール候補生成部１４０は、集約によって生成された評価対象領域のうち、構成画素数の多いものを所定数（例えば、２個）選択する。そして、ルール候補生成部１４０は、サンプルデータ全てについて、選択した評価対象領域の値と強度と関係を示すルール候補を生成する。
【０１１５】
［ステップＳ７９］ルール候補評価部１５０は、ルール候補生成部１４０によって生成されたルール候補を評価する。具体的には、ルール候補評価部１５０は、ステップＳ７８で生成された予測式の重相関係数を算出する。
【０１１６】
［ステップＳ８０］出力部１６０は、ルール候補評価部１５０で算出された評価値（重相関係数）が、予め設定された閾値以上か否かを判断する。評価値が閾値以上であれば、処理がステップＳ８１に進められる。評価値が閾値未満であれば、処理がステップＳ７５に進められ、別の個体に対する評価が行われる。このときの閾値は、図１１のステップＳ６１における閾値よりも高い値とする。
【０１１７】
［ステップＳ８１］出力部１６０は、評価対象となった個体の選択された評価対象領域の範囲を示す情報とルール候補とを、特徴抽出ルールとして出力する。出力された特徴抽出ルールは、ＨＤＤ等の記憶装置に保存される。その後、処理がステップＳ７５に進められ、他の個体の評価が行われる。
【０１１８】
このようにして、粗密探索を組合せて、特徴抽出ルールを生成することができる。これにより、処理効率を向上させることができる。例えば、元の温度分布画像が高精細な画像の場合、選択する画素の組合せのパターンが膨大な数になる。その全パターンの中から、局所最適解を導き出すには、処理量が膨大となる。粗密探索では、先に粗い範囲で解探索を行い、評価値が高い場合のみ精細な探索を行うため、効率的な解探索が可能となる。
【０１１９】
なお、上記の実施の形態では、画像に基づいて、ルールを生成しているが、他のマルチメディアデータにおいても、同様の処理を行うことができる。例えば、サウンドデータであれば、所定の再生時間単位のデータ（例えば、その時間の音の平均強度を示すデータ）を、処理単位を探索部１２０での選択単位とすることができる。そして、データを集約する際には、選択された複数のデータの再生される時間が連続していた場合、それらのデータを集約する。
【０１２０】
また、上記の説明では、説明を簡単にするために、２次元平面の画像を用いているが、３次元の立体モデル（ボリュームデータなど）とテキストデータとのルールを生成することもできる。その場合、例えば、３次元空間を所定サイズの立方体に分割し、その立方体内の立体モデルを示すデータを、探索部１２０での選択単位とする。また、集約部１３０では、３次元の各軸方向に隣接する立方体が選択されていた場合に、それらの立方体を集約する。
【０１２１】
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、ルール発見装置１００が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などがある。光磁気記録媒体には、ＭＯ（Magneto-Optical disk）などがある。
【０１２２】
プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【０１２３】
プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
【０１２４】
（付記１）複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータと関係を表す法則を発見するルール発見プログラムにおいて、
コンピュータを、
前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段、
として機能させることを特徴とするルール発見プログラム。
【０１２５】
（付記２）前記ルール候補生成手段は、重回帰分析により前記ルール候補を評価することを特徴とする付記１記載のルール発見プログラム。
（付記３）前記探索手段は、過去に生成した前記選択パターンによって生成された前記ルール候補の評価結果に基づいて、評価の高い前記選択パターンを優先的に抽出し、抽出した前記選択パターンで選択されていた評価対象データの組合せを変更して新たな前記選択パターンを生成することを特徴とする付記１記載のルール発見プログラム。
【０１２６】
（付記４）前記探索手段は、遺伝的アルゴリズムにより、新たな前記選択パターンを生成することを特徴とする付記３記載のルール発見プログラム。
（付記５）前記探索手段は、前記マルチメディアデータのデータ配列上の位置を、複数のデータを含むユニット単位に分割し、前記ユニット単位で前記評価対象位置の選択を行うことを特徴とする付記１記載のルール発見プログラム。
【０１２７】
（付記６）前記探索手段は、前記ユニット単位での選択を行った前記選択パターンのうち、生成されたルール候補の評価が所定値以上の前記選択パターンについて、選択されたユニット内の評価対象位置の選択を行い、新たな選択パターンを生成することを特徴とする付記５記載のルール発見プログラム。
【０１２８】
（付記７）前記集約手段は、隣接する前記評価対象位置同士を集約することを特徴とする付記１記載のルール発見プログラム。
（付記８）前記集約手段は、前記マルチメディアデータにおける生成された前記評価対象領域内の単位での値のばらつきを計算し、所定値よりもばらつきが大きい場合、集約を解消することを特徴とする付記１記載のルール発見プログラム。
【０１２９】
（付記９）前記ルール候補生成手段は、所定数の前記評価対象領域を選択し、選択された前記評価対象領域の特徴データとテキストデータとの関係から、前記ルール候補を生成することを特徴とする付記１記載のルール発見プログラム。
【０１３０】
（付記１０）前記ルール候補生成手段は、含まれる前記評価対象位置の範囲が広い前記評価対象領域を優先的に選択することを特徴とする付記９記載のルール発見プログラム。
【０１３１】
（付記１１）コンピュータにより、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見方法において、
入力受付手段が、前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付け、
探索手段が、前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行い、
集約手段が、前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成し、
ルール候補生成手段が、複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成し、
ルール候補評価手段が、前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価し、
出力手段が、前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する、
ことを特徴とするルール発見方法。
【０１３２】
（付記１２）複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見装置において、
前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段と、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段と、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段と、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段と、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段と、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段と、
を有することを特徴とするルール発見装置。
【０１３３】
（付記１３）複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見プログラムを記録したコンピュータ読み取り可能な記録媒体において、
コンピュータを、
前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段、
として機能させることを特徴とするルール発見プログラムを記録したコンピュータ読み取り可能な記録媒体。
【図面の簡単な説明】
【０１３４】
【図１】実施の形態に適用される発明の概念図である。
【図２】ＰＣ筐体の形状に応じた温度分布画像を示す図である。
【図３】実施の形態のシステム構成を示す図である。
【図４】ルール発見装置のハードウェア構成例を示す図である。
【図５】ルール発見装置の機能を示すブロック図である。
【図６】ＧＡを用いた画素の選択の世代交代方法を示す図である。
【図７】評価対象位置の集約と重回帰分析との繰り返し処理手順を示す図である。
【図８】第１の実施の形態のルールの生成処理を示すフローチャートである。
【図９】ルール表示画面の例を示す図である。
【図１０】第２の実施の形態のルールの生成処理を示すフローチャートである。
【図１１】第３の実施の形態のルールの生成処理を示すフローチャートである。
【図１２】画素単位解析処理の手順を示すフローチャートである。
【符号の説明】
【０１３５】
１入力受付手段
２探索手段
３集約手段
４ルール候補生成手段
５ルール候補評価手段
６出力手段
７ａ，７ｂ，７ｃサンプルデータ
７ａａ，７ｂａ，７ｂｃマルチメディアデータ
７ａｂ，７ｂｂ，７ｃｂテキストデータ
８ａ選択パターン
８ｂ，８ｃ評価対象領域
８ｄルール候補
９ルール
９ａ，９ｂ評価対象領域情報
９ｃ予測式

【特許請求の範囲】
【請求項１】
複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見プログラムにおいて、
コンピュータを、
前記マルチメディアデータとテキストデータとの組からなる複数の前記サンプルデータの入力を受け付ける入力受付手段、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段、
として機能させることを特徴とするルール発見プログラム。
【請求項２】
前記ルール候補生成手段は、重回帰分析により前記ルール候補を評価することを特徴とする請求項１記載のルール発見プログラム。
【請求項３】
前記探索手段は、過去に生成した前記選択パターンによって生成された前記ルール候補の評価結果に基づいて、評価の高い前記選択パターンを優先的に抽出し、抽出した前記選択パターンで選択されていた評価対象データの組合せを変更して新たな前記選択パターンを生成することを特徴とする請求項１記載のルール発見プログラム。
【請求項４】
前記探索手段は、遺伝的アルゴリズムにより、新たな前記選択パターンを生成することを特徴とする請求項３記載のルール発見プログラム。
【請求項５】
前記探索手段は、前記マルチメディアデータのデータ配列上の位置を、複数のデータを含むユニット単位に分割し、前記ユニット単位で前記評価対象位置の選択を行うことを特徴とする請求項１記載のルール発見プログラム。
【請求項６】
前記探索手段は、前記ユニット単位での選択を行った前記選択パターンのうち、生成されたルール候補の評価が所定値以上の前記選択パターンについて、選択されたユニット内の評価対象位置の選択を行い、新たな選択パターンを生成することを特徴とする請求項５記載のルール発見プログラム。
【請求項７】
前記集約手段は、隣接する前記評価対象位置同士を集約することを特徴とする請求項１記載のルール発見プログラム。
【請求項８】
前記集約手段は、前記マルチメディアデータにおける生成された前記評価対象領域内の単位での値のばらつきを計算し、所定値よりもばらつきが大きい場合、集約を解消することを特徴とする請求項１記載のルール発見プログラム。
【請求項９】
コンピュータにより、複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見方法において、
入力受付手段が、前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付け、
探索手段が、前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行い、
集約手段が、前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成し、
ルール候補生成手段が、複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成し、
ルール候補評価手段が、前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価し、
出力手段が、前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する、
ことを特徴とするルール発見方法。
【請求項１０】
複数のマルチメディアデータと、各マルチメディアデータに付随するテキストデータとの関係を表す法則を発見するルール発見装置において、
前記マルチメディアデータとテキストデータとの組からなる複数のサンプルデータの入力を受け付ける入力受付手段と、
前記入力受付手段が受け付けた前記サンプルデータの前記マルチメディアデータを構成するデータ配列上の評価対象位置を選択し、選択された前記評価対象位置を示す前記選択パターンを生成する処理を、選択する前記評価対象位置の組合せを変えながら所定の探索終了条件が満たされるまで繰り返し行う探索手段と、
前記探索手段で生成された前記選択パターンの前記評価対象位置を集約し、所定数の評価対象領域を生成する集約手段と、
複数の前記マルチメディアデータそれぞれに対し、前記評価対象領域内のデータの特徴を数値化して特徴データを生成し、前記評価対象領域毎の複数の特徴データとテキストデータとの間の、複数の前記マルチメディアデータに共通の関係を示すルール候補を生成するルール候補生成手段と、
前記ルール候補生成手段で生成された前記ルール候補で示される関係の正確さを評価するルール候補評価手段と、
前記ルール候補評価手段の評価結果が所定の判定基準を満たしている前記ルール候補を、ルールとして出力する出力手段と、
を有することを特徴とするルール発見装置。

【図１】