説明

散布図におけるデータ点の分布領域描画方法及び散布図におけるデータ点の分布領域描画プログラム

【課題】対になった2つの変数をもつ複数のデータに対して、その散布図におけるデータ点の分布領域を確率楕円とは異なる方法で描画する。
【解決手段】対になった2つの変数をもつ複数のデータを選択する。そのデータの散布図上に複数の任意の点を設定する。設定した任意の点ごとに、その任意の点から最大距離にあるデータ点を求め、それらのデータ点をデータ点分布の代表点として選定する。それらの代表点を結線して分布領域表示線を描画する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、散布図におけるデータ点の分布領域描画方法及びそれをコンピュータに実行させるためのプログラムに関するものである。
【背景技術】
【0002】
散布図は、2つの変数が対になった複数のデータの関係を表すことを目的としてよく用いられている。また、2つの変数が対になった複数のデータについて回帰直線や回帰曲線を求めてそれらのデータの関係を数値化することもできる。散布図におけるデータ点の特徴を表現する方法として、例えば特許文献1〜3に開示されているものがある。
また、散布図において、各データ点を層別する情報がある場合などは、データ点を表す印の色や形を変えて表現することで、1つの散布図に複数の層のデータ点の分布を表現することもできる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
上述のように、散布図は2つの変数が対になった複数のデータの相関関係を表すのに適している。
しかし、1つの散布図に表示する層の数が多く、データ点も多い場合、データ点を表す印は重なり合い、各層における分布の特徴の認識が困難であった。
また、複数の層を表示した散布図ではなくても、図自体が小さくなるとデータ点を表す印も小さくなり、分布の特徴の認識が困難になる。
このような不具合を克服するために層ごとに確率楕円を描画する方法もあるが、確率楕円は実際の分布を精度よく表現するものではない。
【0004】
本発明の目的は、確率楕円とは異なる方法でデータ点の分布領域を描画できる散布図におけるデータ点の分布領域描画方法及び散布図におけるデータ点の分布領域描画プログラムを提供することである。
【課題を解決するための手段】
【0005】
本発明は、対になった2つの変数をもつ複数のデータに対して、その散布図上に少なくとも2点以上の任意の点を設定し、設定した任意の点ごとに、その任意の点から最大距離にあるデータ点を求め、それらのデータ点をデータ点分布の代表点として選定する分布代表点選定ステップと、上記代表点を結線して分布領域表示線を描画する分布領域描画ステップと、を含んだ散布図におけるデータ点の分布領域描画方法である。
ここで、散布図とは、対になった2つの変数をもつデータを用い、2つの変数の値を平面上の座標の縦軸と横軸にとり、2つ以上のデータを点として表したものを言う。散布図は相関図とも呼ばれる。
【0006】
本発明の分布領域描画方法において、上記分布代表点選定ステップは、3つ以上の上記任意の点を用いるようにする例を挙げることができる。
また、上記分布代表点選定ステップは、2つの上記任意の点を用いて上記代表点を2つ選定した後、その2つの代表点を通る直線で分割される領域ごとに、上記直線から最も遠いデータ点を代表点として追加するようにしてもよい。
【0007】
本発明の分布領域描画方法において、上記分布領域描画ステップは、上記代表点を上記分布領域表示線が交差しない順番に結線して上記分布領域表示線を描画する例を挙げることができる。ただし、分布領域描画ステップは、各代表点から他のすべての代表点に線を結んで分布領域表示線を描画してもよい。
【0008】
本発明の散布図におけるデータ点の分布領域描画プログラムは、本発明の分布領域描画方法の各ステップをコンピュータに実行させるためのプログラムである。
【発明の効果】
【0009】
本発明の散布図におけるデータ点の分布領域描画方法は、対になった2つの変数をもつ複数のデータに対して、その散布図上に少なくとも2点以上の任意の点を設定し、設定した任意の点ごとに、その任意の点から最大距離にあるデータ点を求め、それらのデータ点をデータ点分布の代表点として選定する分布代表点選定ステップと、上記代表点を結線して分布領域表示線を描画する分布領域描画ステップと、を含むようにしたので、対になった2つの変数をもつ複数のデータを散布図に表示した際にデータ点の分布領域の位置や形状を分布領域表示線で表すことができ、その相関関係及び分布領域をひと目で判断できる。本発明の分布領域描画方法は2つ以上の層のデータ点を重ねて1つの散布図に表現する際に特に有効である。
【0010】
本発明の分布領域描画方法において、上記分布代表点選定ステップは、3つ以上の上記任意の点を用いるようにすれば、分布代表点選定ステップで3つ以上の代表点を選定して分布領域描画ステップでデータ点の分布領域の輪郭を表す分布領域表示線を描画できるようになる。
【0011】
また、上記分布代表点選定ステップは、2つの上記任意の点を用いて上記代表点を2つ選定した後、その2つの代表点を通る直線で分割される領域ごとに、上記直線から最も遠いデータ点を代表点として追加するようにすれば、分布代表点選定ステップで4つの代表点を選定でき、分布領域描画ステップでデータ点の分布領域の輪郭を表す分布領域表示線を描画できるようになる。
【0012】
本発明の分布領域描画方法において、分布領域描画ステップは、代表点を分布領域表示線が交差しない順番に結線して分布領域表示線を描画するようにすれば、データ点の分布領域の輪郭のみを分布領域表示線として描画することができる。ただし、各代表点から他のすべての代表点に線を結んで分布領域表示線を描画した場合であっても、データ点の分布領域を表現することができる。
【0013】
本発明の散布図におけるデータ点の分布領域描画プログラムは、本発明の分布領域描画方法の各ステップをコンピュータに実行させるようにしたので、コンピュータを用いて本発明の分布領域描画方法を実施することができる。
【図面の簡単な説明】
【0014】
【図1】一実施例を説明するためのフローチャートである。
【図2】同実施例で用いたデータの一部を表す図表である。
【図3】図2のデータを点として表した散布図に、同実施例で用いる任意の点を示した図である。
【図4】同実施例で求めた分布領域表示線を描画した結果を示す図である。
【図5】分布領域表示線が交差しない代表点の通過順の求め方の一例を説明するための図である。
【図6】2つの任意の点を設定して分布領域表示線を描画した結果を示す図である。
【図7】3つの任意の点を設定して分布領域表示線を描画した結果を示す図である。
【図8】任意の点の位置の決め方の一例を説明するための図であり、複数のデータ点のX座標、Y座標の最大値、最小値を用いて散布図を9分割した図である。
【図9】任意の点の位置の決め方の別の方法の例を説明するための図であり、データ点の分布領域に分割中心点(×印)を設定し、その点から散布図を放射線状に6分割した図である。
【図10】任意の点の位置の決め方のさらに別の方法の例を図11とともに説明するための図である。
【図11】図10の続きを説明するための図である。
【図12】他の実施例を説明するためのフローチャートである。
【図13】同実施例で求めた分布領域表示線を描画した結果を示す図である。
【図14】図4に示した代表点に対して、各代表点から他のすべての代表点に線を結んで分布領域表示線を描画した結果を示す図である。
【図15】図2に示した数値データAと数値データBの散布図を属性Z1,Z2で層として表示した散布図である。
【図16】図15に示したデータ点に対して、図1から図4を参照して説明した実施例と同様の工程で属性Z1,Z2ごとに分布領域表示線を求めた結果を示す図である。
【図17】図2に示した数値データAに対する数値データBと数値データCの散布図を層として表示した散布図である。
【図18】図17に示したデータ点に対して、図1から図4を参照して説明した実施例と同様の工程で数値データB,Cごとに分布領域表示線を求めた結果を示す図である。
【発明を実施するための形態】
【0015】
図1は、本発明の一実施例を説明するためのフローチャートである。図2はこの実施例で用いたデータの一部を表す図表である。図3は、図2のデータを点(丸印)として表した散布図に、この実施例で散布図上に設定した4つの任意の点(四角印)を図示した図である。図4は、図2のデータを点として表した散布図に、この実施例で散布図上に設定した4つの任意の点と分布領域表示線を図示した図である。図1から図4を参照してこの実施例を説明する。
【0016】
ステップS1:グラフ化の対象となる関連する2種類の数値データを選択する。ここでは、図2に示す表の数値データAと数値データBを選択するとして説明を進める。なお、ここではデータの属性は無視した。
【0017】
ステップS2:数値データAをX軸に数値データBをY軸に展開した散布図上に2つ以上の任意の点を設定する。この実施例では4つの任意の点A1〜A4(四角印)を設定した(図3参照)。
【0018】
ステップS3:設定した各任意A1〜A4の点ごとに、任意の点から最も離れた位置のデータ点を代表点T1〜T4としてそれぞれ求める(分布代表点選定ステップ)。図3及び図4では、代表点T1〜T4となるデータ点を白抜きの丸印で図示し、代表点以外のデータ点を黒塗りの丸印で図示している。
【0019】
ステップS4:代表点T1〜T4を通過する線を描画することにより分布領域表示線を描画する(分布領域描画ステップ)。
【0020】
図5を用いて分布領域表示線が交差しない代表点の通過順の求め方の一例を説明する。
分布領域内の任意の位置に基準点(+印で示す)を設定する。Y軸に平行で基準点を始点とする線を線Aとし、基準点から各代表点を通過する線を線B1〜B4とする。線Aと線B1〜B4のなす角度θ1〜4を求め、代表点のうち対応する角度θ1〜4が小さいものから順に結線することで、分布領域表示線が交差しない代表点の通過順を求めることができる。ただし、分布領域表示線が交差しない代表点の通過順の求め方はこれに限定されるものではない。
【0021】
分布領域表示線は代表点を直線で結線したものでもよいが、図4に示すように代表点T1〜T4を通る滑らかな曲線を描画することが好ましい。このような曲線は、例えば、Visual BasicのDrawClosedCurve関数等を用いることにより指定した点を通る滑らかな曲線を描画することができる。
このように本発明の分布領域描画方法はデータ点分布領域を線で囲んで表現することができる。
【0022】
なお、設定する任意の点は4つに限定されるものではない。任意の点の個数は2つ以上あれば、4つより多くても少なくてもよい。
本発明を用いて、2つの任意の点(四角印)を設定して分布領域表示線を描画した結果を図6に示す。また、3つの任意の点(四角印)を設定して分布領域表示線を描画した結果を図7に示す。
【0023】
図6に示すように、2つの任意の点A1,A2を用いる場合には代表点が2つになるので、分布領域表示線は直線になる。図7に示すように、3つの任意の点A1,A2,A3を用いれば、代表点が3つになるので、領域を表す分布領域表示線を描画できる。
また、図6、図7に示すように、任意の点はデータ点の分布領域内に設定することもできる。
【0024】
図6、図7の実施例のように、任意の点が4箇所より少なくなると、データ点の分布領域の表現力は劣るが、分布領域表示線は、データ点の分布領域が散布図中のどの辺りにどのように分布しているかは表現できている。
【0025】
任意の点は散布図上のどこに設けても構わない。ただし、何らかの方法で任意の点の設定位置を決めることができれば、コンピュータを用いてデータの処理を自動ですることができる。
【0026】
図8を用いて任意の点の位置の決め方の一例を説明する。
図8は、複数のデータ点のX座標、Y座標の最大値、最小値を用いて散布図を9分割した図である。
任意の点の位置の決め方の一例として、領域11〜領域18の8つの領域内に各1つの任意の点を設定する方法を挙げることができる。
また、領域11、領域13、領域15、領域17の4つの領域内に各1つの任意の点を設定する方法でもよい。
【0027】
図9を用いて任意の点の位置の決め方の別の方法の例を説明する。
図9は、データ点の分布領域内に分割中心点(×印)を設定し、その点から散布図を放射線状に6分割した図である。
任意の点の位置の決め方として、例えば領域21〜領域26の6つの領域内に各1つの任意の点を設定する方法を挙げることができる。ただし、任意の点を設定する領域は、領域21〜領域26のうち、いずれか2つ以上であればよい。
【0028】
任意の点の位置の決め方の別の方法の例を図10、図11を用いて説明する。
まず、乱数を用いて任意の点A1(黒塗りの四角印)を設定する。任意の点A1から最も遠いデータ点を代表点とするとともに、任意の点A2−T1(白抜きの四角印)とする(図10参照)。
データ点でもある任意の点A2−T1から最も遠いデータ点を代表点T2とする。求めた2つの代表点A2−T1,T2を通る直線により散布図を領域31と領域32に分割する(図11参照)。各領域31,32内にそれぞれ1つの任意の点を設定する。
【0029】
なお、任意の点は、求まる代表点が重複しない位置に設定することが望ましい。
例えば、乱数を用い、散布図内の座標を無作為に選択して最初の代表点を求める。さらに乱数を用い散布図内の座標を無作為に選択して次の代表点を求める。その代表点が既に求めた代表点と重複していないかを確認する。重複していれば、さらに乱数を用い散布図内の座標を無作為に選択し、代表点を求める。これをくり返して、あらかじめ必要とする数だけ代表点を求める方法もある。
【0030】
図12は、本発明の他の実施例を説明するためのフローチャートである。図13は、図2のデータを点として表した散布図に、この実施例で散布図上に設定した任意の点と分布領域表示線を図示した図である。図2、図10〜図13を参照して本発明の第2の実施例を説明する。
【0031】
ステップS11:グラフ化の対象となる関連する2種類の数値データを選択する。ここでは、図2に示す表の数値データAと数値データBを選択するとして説明を進める。なお、ここではデータの属性は無視した。
【0032】
ステップS12:数値データAをX軸に数値データBをY軸に展開した散布図上に複数の任意の点を設定する。この実施例では、まず、乱数を用いて任意の点A1(黒塗りの四角印)を設定する。任意の点A1から最も遠いデータ点を代表点とするとともに、任意の点A2−T1(白抜きの四角印)とする(図10参照)。
【0033】
ステップS13:任意の点A2−T1から最も離れた位置のデータ点を代表点T2(白抜きの三角印)として求める。求めた代表点A2−T1,T2を通る直線で2つの領域(領域31と領域32)に分割する(図11参照)。
【0034】
ステップS14:領域31,32ごとに、分割に用いた直線から最も遠いデータ点を代表点T3,T4(白抜きの丸印)として求める(分布代表点選定ステップ、図13参照)。図10、図11、図13では、代表点A2−T1,T2,T3,T4以外のデータ点を黒塗りの丸印で図示している。
【0035】
ステップS15:各代表点を通過する線を描画することにより分布領域表示線を描画する(分布領域描画ステップ、図13参照)。分布領域表示線が交差しない代表点の通過順の求め方は、例えば図5を用いて説明した方法と同様である。
【0036】
分布領域表示線は代表点を直線で結線したものでもよいが、図13に示すように代表点を通る滑らかな曲線を描画することが好ましい。このような曲線は、例えば、Visual BasicのDrawClosedCurve関数等を用いることにより指定した点を通る滑らかな曲線を描画することができる。
このように本発明の分布領域描画方法はデータ点分布領域を線で囲んで表現することができる。
【0037】
上記の第2の実施例では、任意の点A1を配置し、任意の点A1に基づいて2つ目の任意の点A2−T1を設定しているが、2つ目の任意の点は例えば乱数を用いて任意の位置に配置されるものであってもよい。
例えば、2つ目の任意の点が、その2つ目の任意の点に基づいて図10、図11、図13の代表点T2が選定される位置に配置されたらならば、任意の点A1に基づいて代表点A2−T1を選定し、その2つ目の任意の点に対して代表点T2を選定し、その後、ステップS13での領域分割、ステップS14での代表点T3,T4の選定、及びステップS15での分布領域表示線の描画を行なうことにより、図13と同じ結果が得られる。
【0038】
また、上記ステップS13で領域を2つに分割した際、例えば三日月形のデータ点の分布など、データ点の分布状態によっては、一方の領域に代表点に該当するデータ点が存在しない場合がある。この場合、代表点に該当するデータ点が存在しない領域については、代表点がないものとして処理を行なえばよい。
【0039】
上記の実施例では、代表点を分布領域表示線が交差しない順番に結線して分布領域表示線を描画しているが、本発明はこれに限定されるものではなく、各代表点から他のすべての代表点に線を結んで分布領域表示線を描画してもよい。
例えば、図3に示した代表点に対して、図14に示すように、各代表点から他のすべての代表点に線を結んで分布領域表示線を描画してもよい。この場合でも、データ点の分布領域の輪郭を適切に表現することができる。図14では代表点と代表点を直線で結んでいるが、分布領域表示線の輪郭を現す線は図4と同様に曲線であってもよい。
【0040】
図15は、図2に示した数値データAと数値データBの散布図を属性Z1,Z2で層として表示したものである。図15中で、属性Z1のデータ点は丸印で示され、属性Z2のデータ点は四角印で示されている。
図15に示すように、属性Z1,Z2のデータ点の分布領域が重なっている場合、属性Z1,Z2のデータ点の分布領域はわかりにくい。
【0041】
図16は、図15に示したデータ点に対して図1から図4を参照して説明した実施例を用いて属性Z1,Z2ごとに分布領域表示線を求めた結果を示す図である。実線は属性Z1のデータ点の分布領域表示線を示し、破線は属性Z2のデータ点の分布領域表示線を示している。
図16を見ると分かるように、属性Z1,Z2ごとに分布領域表示線を求めることにより、属性Z1,Z2のデータ点の分布領域が分かりやすくなる。
【0042】
図17は、図2に示した数値データAに対する数値データBと数値データCの散布図を層として表示したものである。図17中で、数値データBのデータ点は丸印で示され、数値データCのデータ点は四角印で示されている。
図17において、数値データB,Cのデータ点の分布領域が重なっているので、数値データB,Cのデータ点の分布領域はわかりにくい。
【0043】
図18は、図17に示したデータ点に対して図1から図4を参照して説明した実施例を用いて数値データB,Cごとに分布領域表示線を求めた結果を示す図である。実線は数値データBのデータ点の分布領域表示線を示し、破線は数値データCのデータ点の分布領域表示線を示している。
図18を見ると分かるように、数値データB,Cごとに分布領域表示線を求めることにより、数値データB,Cのデータ点の分布領域が分かりやすくなる。
このように、本発明の分布領域描画方法は2つ以上の層のデータ点を重ねて1つの散布図に表現する際に特に有効である。
【0044】
上記で説明した実施例の各ステップは、各ステップを処理するためのプログラムを作製し、コンピュータを用いてそのプログラムを実行させることによって実現できる。
【0045】
以上、本発明の実施例を説明したが、本発明はこれらに限定されるものではなく、特許請求の範囲に記載された本発明の範囲内で種々の変更が可能である。
例えば、各実施例の説明において描画された散布図を用いたが、本発明の各ステップにおいて描画済みの散布図が必要なわけではない。すなわち、対になった2つの変数をもつ複数のデータがあれば各ステップの処理を行なえる。
また、各実施例の説明において、描画された散布図にデータ点分布の代表点を求めるために設定された任意の点を図示したが、本発明の各ステップにおいて、この任意の点の図示も必ずしも必要ではない。
【0046】
また、本発明において、代表点を求めるのに用いる任意の点の数は2点以上でありその数に限定はない。
【産業上の利用可能性】
【0047】
本発明は、2つの変数が対になった複数のデータを散布図に表す際に適用できる。
【符号の説明】
【0048】
A1,A2,A3,A4 任意の点
A2−T1 代表点を兼ねる任意の点
T1,T2,T3,T4 代表点
【先行技術文献】
【特許文献】
【0049】
【特許文献1】特許第3639636号公報
【特許文献2】特許第3944439号公報
【特許文献3】特開2007−248198号公報
【特許文献4】特許第3888938号公報

【特許請求の範囲】
【請求項1】
対になった2つの変数をもつ複数のデータに対して、その散布図上に少なくとも2点以上の任意の点を設定し、設定した任意の点ごとに、その任意の点から最大距離にあるデータ点を求め、それらのデータ点をデータ点分布の代表点として選定する分布代表点選定ステップと、
前記代表点を結線して分布領域表示線を描画する分布領域描画ステップと、を含んだ散布図におけるデータ点の分布領域描画方法。
【請求項2】
前記分布代表点選定ステップは、3つ以上の前記任意の点を用いる請求項1に記載の分布領域描画方法。
【請求項3】
前記分布代表点選定ステップは、2つの前記任意の点を用いて前記代表点を2つ選定した後、その2つの代表点を通る直線で分割される領域ごとに、前記直線から最も遠いデータ点を代表点として追加する請求項1に記載の分布領域描画方法。
【請求項4】
前記分布領域描画ステップは、前記代表点を前記分布領域表示線が交差しない順番に結線して前記分布領域表示線を描画する請求項1から3のいずれか一項に記載の分布領域描画方法。
【請求項5】
請求項1から4のいずれか一項に記載の各ステップをコンピュータに実行させるための、散布図におけるデータ点の分布領域描画プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate