説明

データ分類システム、データ分類方法およびプログラム

【課題】データの文字列が完全に一致しない場合や表現が異なる場合においても、データを分類することができるデータ分類システム、データ分類方法およびプログラムを提供する。
【解決手段】データ分類システム100は、データ取得部11、文字列抽出部12、判定部13、変換部14および分類部15を含む処理装置1と、データ情報21、辞書情報22、変換ルール23およびカテゴリ情報24などを記憶する記憶部2、入力部3および出力部4を備える。データ取得部11は、検索可能な文字列を含むデータを取得する。文字列抽出部12は、データに含まれる所定の文字列を抽出する。変換部14は、変換ルール23に基づき所定の文字列を変換する。判定部13は、所定の文字列または変換した文字列と基準の文字列との類似度をカテゴリ情報24に基づき判定する。分類部15は、所定の文字列を対応するカテゴリ情報24のカテゴリにグルーピングする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ分類システム、データ分類方法およびプログラムに関する。
【背景技術】
【0002】
従来、コンピュータを用いて多くのデータベースのデータを分類することが行われてきた。しかしながら、同じ事を示すデータであっても、データが完全に一致しなければ同一グループとして認識されないことがあった。データ分類を正確に行うために、同一グループであることをシステムに登録したり、自動で分類したデータを手動で確認したり、と手間がかかるという問題が生じていた。その結果、できるだけデータの分類を効率よく正確に行うため、以下に開示する先行文献のような様々な工夫がなされてきた。
【0003】
特許文献1には、入力したかな文字列の単語の、カタカナ表記をひらがな表記に変換処理する文書処理装置が記載されている。
【0004】
特許文献2には、テキストの分類パターンを生成し、分類パターンをもとにテキストのクラスタリングを実行することで、同じ意味的性質の単語で異なる表現の単語が用いられている文書であっても、テキストの分類を一貫性を持って行える事例ベース構築方法が記載されている。
【0005】
特許文献3には、自動分類システムが自動分類するための前情報となるカテゴリとそれに割り当てられているサンプル文書を入力し、検索回数の集計した結果をもとに各カテゴリに対する単語の重要度を算出する単語重要度算出方法が記載されている。
【0006】
特許文献4には、照合対象となるデータを選択し、特定の照合項目で照合することによりデータの一致度を決定する顧客データベース等の生成を行うデータベース生成装置が記載されている。
【0007】
特許文献5には、関連語が表記単語に類似しているか否か判定し、類似の場合に関連語を異表記辞書に追加することで、より多くの語彙を持つ異表記辞書を作成することができる異表記辞書作成装置が記載されている。
【0008】
特許文献6には、ユーザの検索結果に関連付けてカタログ情報をグループ別に登録することで、ユーザにとって使い勝手のよいカタログデータベースとなる技術が記載されている。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開平04−97477号公報
【特許文献2】特開2001−229177号公報
【特許文献3】特開2003−167891号公報
【特許文献4】特開2003−173345号公報
【特許文献5】特開2004−110633号公報
【特許文献6】特開2009−289122号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
関連する技術では、使用用途が限定されており、汎用性に欠けることがある。例えば、特許文献4では、住所情報など特定の項目に限定されており、一般的なデータベースに用いるためには、その都度、必要なルールなどの情報を入力する必要があった。このように、充分な分類を行うためには、新たにグループ分類のためのルールを設けたり、目視確認するなど一部を自動ではなく手動にしたり、手間がかかるおそれがあった。
【0011】
また、関連する技術において、過去に分類した結果を用いて分類する方法や、特定の単語の出現頻度を基に分類ルールを設定して分類を行う方法が記載されている。例えば、特許文献2では、テキストを分類することで、類似する語句を含めて判断しており、基になるテキストには所定の長さが必要であり、テキストの長さによっては利用することができないという問題があった。特許文献3や特許文献6では、所定の単語が所定の割合以上出てくる必要があり、単語の使用頻度が少ない場合は利用できないおそれがあった。このように、分析するデータが少ない場合や過去のデータが充分でない場合などは、分類基準があいまいとなり、分類が不充分となるおそれがあった。
【0012】
文字列が完全に一致しない単語の場合、全く異なる単語で同じ意味を有する単語の場合、同じ単語を指していてひらがな、カタカナ、漢字の表記方法が異なっている単語の場合、などの文字列が完全に一致しない場合であっても、これらの単語は同一グループに分類されることが好ましい。これらの課題を解決するために、特許文献1ではカタカナをひらがなに変換する技術、特許文献5では関連語(類似する単語)を追加する技術、が用いられていたが、誤表記などの表記の揺れについては考慮しておらず、同一グループへ分類される割合は高くはなかった。
【0013】
本発明は、上述のような事情に鑑みてなされたもので、データの文字列が完全に一致しない場合や表現が異なる場合においても、データを分類することができるデータ分類システム、データ分類方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
本発明の第1の観点に係るデータ分類システムは、
検索可能な文字列を含むデータを取得するデータ取得手段と、
前記データに含まれる所定の文字列を抽出する抽出手段と、
文字列を変換する変換ルールを記憶するルール記憶手段と、
前記変換ルールに基づき前記所定の文字列を変換する変換手段と、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶手段と、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定手段と、
前記判定手段で判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類手段と、
を備えることを特徴とする。
【0015】
本発明の第2の観点に係るデータ分類方法は、
データベースにおけるデータの分類をデータ分類システムが行う方法であって、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を備えることを特徴とする。
【0016】
本発明の第3の観点に係るプログラムは、
コンピュータに、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を実行させることを特徴とする。
【発明の効果】
【0017】
本発明のデータ分類システム、データ分類方法およびプログラムによれば、データの文字列が完全に一致しない場合や表現が異なる場合においても、データを分類することができる。
【図面の簡単な説明】
【0018】
【図1】本発明の実施の形態1に係るデータ分類システムの構成の一例を示すブロック図である。
【図2】実施の形態1に係るデータの対象テーブルの一例を示す図である。
【図3】実施の形態1に係るカテゴリ情報の一例を示す図である。
【図4】実施の形態1に係る辞書情報の一例を示す図である。
【図5】実施の形態1に係る単語情報の一例を示す図である。
【図6】実施の形態1に係るデータ分類の動作の順序の一例を示す図である。
【図7】実施の形態1に係るデータ分類システムのデータ分類動作の一例を示すフローチャートである。
【図8】実施の形態1に係るデータ分類システムの文字列変換動作の一例を示すフローチャートである。
【図9】本発明の実施の形態2に係るデータ分類システムの構成の一例を示すブロック図である。
【図10】実施の形態2に係るカテゴリ情報の一例を示す図である。
【図11】実施の形態2に係るデータ分類の動作の順序の一例を示す図である。
【図12】実施の形態2に係るデータ分類システムのデータ分類動作の一例を示すフローチャートである。
【図13】本発明の実施の形態に係るデータ分類システムの物理的な構成例を示すブロック図である。
【発明を実施するための形態】
【0019】
以下、本発明を実施するための形態について図を参照して詳細に説明する。なお図中、同一または同等の部分には同一の符号を付す。
【0020】
(実施の形態1)
図1は、本発明の実施の形態1に係るデータ分類システムの構成の一例を示すブロック図である。データ分類システム100は、処理装置1、記憶部2、入力部3および出力部4を備える。
【0021】
処理装置1は、データ取得部11、文字列抽出部12、判定部13、変換部14および分類部15を備える。記憶部2は、データ分類システム100に必要なさまざまな情報やルールを記憶する。記憶部2で記憶する情報やルールは、具体的には、データ情報21、辞書情報22、変換ルール23およびカテゴリ情報24を指す。
【0022】
データ情報21は、データ分類を行う対象のデータを指す。データ情報21は、文字列を検索可能なデータであり、テキストの形式で取得可能なデータであることが好ましい。光学文字認識によりテキストの形式で取得可能となるデータであってもよい。
【0023】
辞書情報22は、予めデータの形式で取得しておいた国語辞典などの辞書データや、その都度インターネットやオンラインなどで外部から取得した辞書データの情報を指す。対象となる情報には、漢和辞典や英語辞典だけでなく、百科事典などの辞書データも含む。
【0024】
変換ルール23は、所定の文字列を変換するルールを指す。例えば表記方法は、漢字、ひらがな、カタカナ、アルファベットなどがあり、最終的にひらがなの表記に変換するというルールを定める。また、同意語や類義語がある場合に、一般的に使用頻度の高い語句に置き換えたり、データ情報21に含まれる割合の高い語句に置き換えるなどのルールを定めてもよい。例えば、「紅」、「朱」、「丹」、「緋」などの文字は全て「赤」という文字に置き換えることができ、また、「レッド」、「RED」、「red」も全て「赤」という文字に置き換えることができる。また、最終的にひらがなの表記に変換するため、「赤」、「紅」、「朱」、「丹」、「緋」、「レッド」、「RED」、「red」は全て、最終的には「あか」に変換する。
【0025】
カテゴリ情報24は、条件式および条件値を含むデータをいう。条件式とは、条件値を満たすかどうかの判断基準を示すものである。条件値は、分類するカテゴリの名称であるカテゴリ名をいい、辞書情報22に含まれる単語(用語)の一部に該当する。辞書情報22に含まれる単語(用語)を、基準の文字列ともいう。条件式は、本発明では、データ情報21に含まれる所定の文字列、またはその所定の文字列を変換ルール23に基づいて変換した文字列が、条件値(基準の文字列)とどのくらい類似するかを表す類似度で設定する。
【0026】
データ取得部11は、データ分類を行う対象のデータを取得する。記憶部2は、データ情報21に取得したデータを記憶する。
【0027】
文字列抽出部12は、データ情報21に含まれる所定の文字列を抽出する。具体的には、データに含まれる文章などから、名詞などの単語を抽出する。抽出する単語は名詞だけでなく、名詞を含むフレーズなどであってもよい。具体的には、文字列抽出部12は、記憶部2の辞書情報22を参照して所定の文字列の抽出を行う。
【0028】
判定部13は、所定の文字列の類似度をカテゴリ情報24に基づき判定する。判定するために、所定の文字列を変換する必要がある場合は、制御部(図示せず)を介して変換部14へ指示を出す。そして変換部14で所定の文字列を変換させた後に、その変換後の文字列で、再度判定を行う。類似度の判定は、記憶部2のカテゴリ情報24に記憶したカテゴリ名となる条件値(基準の文字列)と、所定の文字列または変換した文字列を比較し、類似度が所定の値以上となればよい。
【0029】
変換部14は、制御部により所定の文字列の変換の指示を受け、文字列の変換を行う。変換は、記憶部2の変換ルール23に基づいて行う。まず、変換部14は辞書情報22とカテゴリ情報24を参照し、所定の文字列がカテゴリ情報24に含まれていれば、そのまま所定の文字列をカテゴリ名として用いる。また、辞書情報22で同意語および/または類義語があり、その同意語および/または類義語がカテゴリ情報24に含まれていれば、その同意語および/または類義に変換した文字列、すなわち変換後の文字列をカテゴリ名として用いる。さらに必要であれば、変換部14は、所定の文字列または変換後の文字列をひらがなへ変換する。
【0030】
分類部15は、判定部13で判定した類似度に基づき、カテゴリに分類する。所定の文字列または変換後の文字列と、カテゴリ情報24に含まれる条件値(基準の文字列)とを比較した類似度が所定値を満たしていれば、カテゴリ名が条件値(基準の文字列)で表されるカテゴリに分類する。類似度が所定値を満たしていなければ、所定の文字列または変換後の文字列で表される新たなカテゴリに分類する。
【0031】
判定部13で行う判定の基準となる類似度は、例えば、95%以上類似するなどの高い割合で設定することが好ましい。ただし、外来語など、表記の間違いを行いやすい文字列に対しては、85%以上など、数値を下げて設定する。ここで類似度を100%(単語が一致する)としないのは、例えば、「シュミレーション(シミュレーションの誤記)」と「シミュレーション」や、「コンピュータ(コンピューターの長音符の省略)」と「コンピューター」、など異なる表記であって同じ単語を表す文字列を、同じ単語として判断するためである。これにより、揺れ表記を含めて判定を行うことができる。その他にも、いずれも使用されることのある語句である長音符(ー)がある語句とない語句、間違えて表記しやすい小文字と大文字(「っ」と「つ」など)、濁音および半濁音と清音、を考慮して判断することができる。また、記号やスペースの有無、異なる記号(「・」、「、」、「’」)の表記の違いも考慮することができる。
【0032】
図2は、実施の形態1に係るデータの対象テーブルの一例を示す図である。図2(a)は一般例であり、図2(b)は「ハマチ」などの魚を例にした対象テーブルである。例えば、データ取得部11で取得したデータは、対象テーブルの形式で記憶する。項目数は少なくとも2つ備える。2つとは、所定の文字列を含む単語の項目と、そのIDもしくは割り当てられた番号を含む項目である。項目は必要に応じて増えていき、例えば、リンクする先の情報であったり、分類するカテゴリ(カテゴリ名)であったり、と情報に合わせて項目を追加していく。
【0033】
図3は、実施の形態1に係るカテゴリ情報の一例を示す図である。図3(a)は一般例であり、図3(b)は「ぶり」を例にしたカテゴリ情報である。条件式と条件値は、カテゴリの分類に関するルールの1つを示す。データ分類システム100は、用語をカテゴリに分類する際に、カテゴリ情報の条件値(カテゴリ名)の記載と用語が一致すれば、その条件値のカテゴリに分類する。条件値と一致しない場合であっても、いずれかの条件値に分類できる場合はそのカテゴリに分類し、さらにいずれの条件値にも分類できない場合は新しいカテゴリに分類する。
【0034】
図4は、実施の形態1に係る辞書情報の一例を示す図である。図4(a)は一般例であり、図4(b)、(c)は「ハマチ」などの魚を例にした辞書情報である。辞書情報は、例えば、既に構築されている情報をネットワークなどを介して取得してもよいし、また、データの形式で取得してもよい。図4(b)、(c)では、「ハマチ」を表す同じ魚を表す言葉である「ブリ」、「イナダ」が、変換後の用語として記載されている。
【0035】
図5は、実施の形態1に係る単語情報の一例を示す図であり、辞書情報の一例に該当する。図5(a)は一般例であり、図5(b)は「鰤」などの魚を例にした辞書情報である。単語情報は辞書情報と同様に、ネットワークを介したりデータで取得したりすることができ、漢字をひらがなに変換するための基本情報として用いられる。図5(b)では、「鰤」の読み方である「ぶり」が記載されている。
【0036】
図6は、実施の形態1に係るデータ分類の動作の順序の一例を示す図である。図1ないし図6を用いて、データ分類システム100の動作について説明する。
【0037】
データ取得部11は、入力部3を介して処理装置1へ入力された所定の文字列を含むデータを取得する。記憶部2は、その所定の文字列を含むデータをデータ情報21に記憶する。
【0038】
文字列抽出部12は、辞書情報22を参照し、データに含まれる所定の文字列を抽出する。このとき、記憶部2の辞書情報22が用いられる。データ情報21に保存されたデータを、図2(b)の対象テーブルに示すデータの形式の形で保存する。
【0039】
判定部13は、まず、新カテゴリ名を設定するために、項目の追加を行う。ここでは図2(b)の項目2の「ハマチ」、「鰤」にカテゴリを追加するための爛を設ける。図6(a)に示すように、データ情報21の図2(b)の形式で保存されたデータに、対象テーブル項目である項目nに新カテゴリ名を入れて、項目の追加を行う。
【0040】
変換部14は、カテゴリ情報24を参照し、カテゴリ情報24に「ハマチ」の単語はなく「ブリ」の単語はあることを確認する。また、辞書情報22を参照し、「ハマチ」を「ブリ」に変換可能であることを確認する。そして、図6(b)に示すように、「ハマチ」を「ブリ」に変換する。
【0041】
また、変換部14は、図5(b)に示す単語情報となる辞書情報22を参照して、図6(c)に示すように、「鰤」を「ぶり」に変換する。その後、図6(b)で変換した「ブリ」をひらがなに表記である「ぶり」に直し、図6(d)に示す対象テーブルの形式に変換する。
【0042】
判定部13は、基準の文字列と所定の文字列との類似度を判定する。まず、抽出した所定の文字列がカテゴリを示す単語に該当するかを確認し、その選択した基準の文字列と所定の文字列とを比較して類似度を判定する。判定部13は、カテゴリ情報24の条件値(基準の文字列)の単語「ぶり」と、変換部14で「ハマチ」および「鰤」を変換した新カテゴリ名「ぶり」との比較を行う。「ハマチ」および「鰤」について、共に、カテゴリ情報24の条件値(基準の文字列)と、変換後の文字列である新カテゴリ名とが一致し、類似度は所定の値を満たすので条件式も満たすことが分かる。
【0043】
分類部15は、判定部13で判定した類似度に基づき、「ハマチ」および「鰤」を、「ぶり」のカテゴリに分類し、データ分類を終える。そのカテゴリ名は、記憶部2のデータ情報21に併せて記憶しておく。
【0044】
図7は、実施の形態1に係るデータ分類システムのデータ分類動作の一例を示すフローチャートである。
【0045】
データ取得部11は、入力部3に入力されたデータを取得し、記憶部2のデータ情報21に記憶する(ステップS11)。文字列抽出部12は、辞書情報22を参照しながら、取得したデータより所定の文字列の抽出を行う(ステップS12)。
【0046】
変換部14は、所定の文字列を変換ルール23に基づき、必要があれば文字列の変換を行い、カテゴリ名を決定する(ステップS13)。具体的には、変換ルール23に基づき、所定の文字列を、同意語や類義語への変換したり、ひらがな表記への変換を行う。そして、判定部13でカテゴリ情報24のカテゴリ名となる条件値(基準の文字列)と条件式を参照し、類似度の判定を行う(ステップS14)。
【0047】
判定部13で判定した類似度に基づき、類似度が所定の値より大きければ(ステップS15;YES)、その条件値(基準の文字列)のカテゴリに分類し(ステップS16)、終了する。類似度が所定の値より小さければ(ステップS15;NO)、所定の文字列または変換後の文字列で表す新カテゴリに分類し(ステップS17)、終了する。ステップS17の新カテゴリは、カテゴリ情報24に記載されていなかった条件値の基準の文字列であり、辞書情報22に記載されてはいるが新たなカテゴリのものや、新しい言葉や造語、揺れ表記で修正できる範囲を超えた誤記の単語などの、辞書情報22に記載されてなく分類不能な文字列で表すカテゴリのものを含む。
【0048】
図8は、実施の形態1に係るデータ分類システムの文字列変換動作の一例を示すフローチャートである。図8の文字列変換動作は、図7に示すデータ分類動作1の文字列の変換動作(ステップS13)の部分にあたる。
【0049】
判定部13は、まず、記憶部2のカテゴリ情報24を確認する(ステップS21)。文字列抽出部12にて抽出した所定の文字列が、カテゴリ情報24の条件値(基準の文字列)に該当しなければ(ステップS22;NO)、辞書情報22を参照し、同意語および/または類義語があるか確認する。その所定の文字列が同意語および/または類義語を有しており、その変換対象の語句がカテゴリ情報24の条件値(基準の文字列)に該当すれば(ステップS23;YES)、変換ルール23に基づき所定の文字列を変換し(ステップS24)、ステップS25へ進む。文字列抽出部12にて抽出した所定の文字列が、カテゴリ情報24の条件値(基準の文字列)に該当する場合(ステップS22;YES)は、そのままステップS25へ進む。文字列抽出部12にて抽出した所定の文字列がカテゴリ情報24の条件値(基準の文字列)に該当せず(ステップS22;NO)、かつ、同意語および/または類義語となる変換する対象がない場合(ステップS23;NO)についても、そのままステップS25へ進む。
【0050】
抽出した所定の文字列または変換後の文字列に、漢字やカタカナが含まれてなく、ひらがな表記であれば(ステップS25;YES)、文字列の変換動作を終了する。また、抽出所定の文字列または変換後の文字列に、漢字やカタカナが含まれており、ひらがな表記でなければ(ステップS25;NO)、漢字やカタカナの部分をひらがなへ変換し(ステップS26)、文字列の変換動作を終了する。なお、漢字をひらがなへ変換する場合は、辞書情報22を参照し、読み方をひらがなで入力する。
【0051】
(実施の形態2)
図9は、本発明の実施の形態2に係るデータ分類システムの機能を説明する図である。実施の形態2では、異なるカテゴリではあるがカテゴリ同士が関連する場合、もしくは分類方法によっては同一カテゴリに属する場合に、同じカテゴリに分類することができる。
【0052】
異なるカテゴリとして分類した場合であっても、実際は同一のカテゴリに属することがあり、例えば、「電気釜」のカテゴリと「炊飯ジャー」のカテゴリは、共に「炊飯器」のカテゴリに属することができる。また、異なるカテゴリであるが、分類の方法によっては同じカテゴリとして分類することがあり、例えば、「炊飯器」のカテゴリと「冷蔵庫」のカテゴリは異なるカテゴリのものであるが、共に「白物家電」のカテゴリとして分類することができる。
【0053】
実施の形態2に係るデータ分類システム100の基本的な構造は、実施の形態1に係るデータ分類システム100と同じである。実施の形態2では、処理装置1にカテゴリ判定部16およびカテゴリ更新部17を追加して備える。また、記憶部2はカテゴリ分類ルール25を記憶する。
【0054】
カテゴリ判定部16は、データ情報21にあるデータのそれぞれについて分類部15で分類したカテゴリが一致しない場合に、カテゴリの確認を行う。確認とは、同一もしくは類似のカテゴリの有無を確認することで、辞書情報22、カテゴリ情報24およびカテゴリ分類ルール25をもとに判断する。カテゴリ判定部16は、分類したそれぞれのカテゴリについて、辞書情報22をもとにして同意語および/または類義語がないかを確認し、かつ、カテゴリ情報24およびカテゴリ分類ルール25を満たすかを確認する。
【0055】
カテゴリ分類ルール25とは、カテゴリの分類に関するルールを指す。例えば、分類の際に、辞書情報22をもとに選択された同意語や類義語などは全て同一グループとしてカテゴリに分類する方法や、カテゴリサイズをもとにカテゴリに分類する方法や、カテゴリ特徴をもとにカテゴリに分類する方法がある。
【0056】
適用するカテゴリ分類ルール25の選択の際に、データ情報21を参照して、保存されたデータの分類傾向に基づき、最も好ましいルールを選択してもよい。例えば複数のデータを参照し、使用頻度の高い用語のカテゴリサイズをもとにカテゴリに分類する。また、データ分類システム100を利用するユーザに対して、出力部4を介してルール選択の指示を行い、入力部3により入力されたルールを実行してもよい。
【0057】
カテゴリサイズとは、カテゴリの単位の大きさをいう。例えば「大阪市」という単語は、「大阪市」、「大阪府」、「関西圏」、「日本」などの、複数の大きさの異なるカテゴリに属する。上述の例では、カテゴリサイズは、昇順のサイズの順で記載されている。
【0058】
カテゴリの分類に関するルールの1つである、カテゴリサイズをもとに分類する方法には、最も小さいサイズのカテゴリに分類する方法、類似したサイズのカテゴリに分類する方法、などが挙げられる。既に、「横浜市」を「関東圏」というカテゴリに分類しており、類似したサイズのカテゴリに分類するというルールを適用した場合、「大阪市」について、同じカテゴリサイズの「関西圏」をカテゴリとして選択する。最も小さいサイズのカテゴリに分類するというルールであれば、「大阪市」、「横浜市」はそのままそれぞれのカテゴリが適用される。また、カテゴリ特徴をもとにカテゴリの分類を行う場合に「横浜市」を「都道府県庁所在地」として分類していれば、「大阪市」も「都道府県庁所在地」として分類する。
【0059】
カテゴリ更新部17は、カテゴリ判定部16で確認し、共通する同意語および/または類義語であって、カテゴリ情報24およびカテゴリ分類ルール25を満たすカテゴリ名に、カテゴリ名を更新する。
【0060】
図10は、実施の形態2に係るカテゴリ情報の一例を示す図である。図10(a)は一般例であり、図10(b)は「いなだ」、「わらさ」などの魚を例にしたカテゴリ情報である。図3に示したカテゴリ情報と比較すると、条件式と条件値は同じであるが、カテゴリ名の項目が追加されている。
【0061】
図11は、実施の形態2に係るデータ分類の動作の順序の一例を示す図である。図2、図4、図5および図9ないし図11を用いて、データ分類システム100の動作について説明する。
【0062】
データ取得部11は、入力部3を介して処理装置1へ入力された所定の文字列を含むデータを取得し、記憶部2のデータ情報21へ記憶する。
【0063】
文字列抽出部12は、辞書情報22を参照し、データに含まれる所定の文字列を抽出する。このとき、記憶部2の辞書情報22が用いられる。データ情報21に保存されたデータを、図2(b)の対象テーブルに示すデータの形式の形で保存する。
【0064】
判定部13は、まず、新カテゴリ名を設定するために、項目の追加を行う。ここでは図2(b)の項目2の「ハマチ」、「鰤」にカテゴリを追加するための爛を設ける。図11(a)に示すように、データ情報21の図2(b)の形式で保存されたデータに、対象テーブル項目である項目nに新カテゴリ名を入れて、項目の追加を行う。
【0065】
変換部14は、カテゴリ情報24を参照し、カテゴリ情報24の条件値に「ハマチ」の単語はなく「イナダ」の単語はあることを確認する。また、図4(c)に示す辞書情報22を参照して、図11(b)に示すように、「ハマチ」を「イナダ」に変換する。さらに、図5(b)に示す単語情報となる辞書情報22を参照して、図11(c)に示すように、「鰤」を「ぶり」に変換する。そして、「イナダ」をひらがなに表記である「いなだ」に直し、図11(d)に示す対象テーブルの形式に変換する。
【0066】
判定部13は、基準の文字列と所定の文字列とを比較し、類似度を判定する。まず、カテゴリ情報24を参照して抽出した所定の文字列がカテゴリを示す条件値(基準の文字列)の単語に該当するかを確認し、その基準の文字列と所定の文字列とを比較して類似度を判定する。「いなだ」と「ぶり」は、それぞれカテゴリ情報24に記載されたカテゴリ名の、基準の文字列である「いなだ」と「ぶり」に一致し、類似度は所定の値を満たす。
【0067】
一旦、分類部15は、図11(d)に示す対象テーブルの形式である「いなだ」と「ぶり」のそれぞれのカテゴリに仮分類する。
【0068】
次に、カテゴリ判定部16は、それぞれのカテゴリについて、同意語および/または類義語がないかを確認し、かつ、カテゴリ分類ルール25を満たすかを確認する。ここでは、カテゴリ分類ルール25は、同一のカテゴリ名となる場合に統一するものとしておく。
【0069】
カテゴリ判定部16は、図10(b)より、「いなだ」は「ぶり」とほぼ同一のカテゴリとして置き換え可能であることを確認する。また、「いなだ」と「ぶり」は、ともにカテゴリ情報24の条件値(基準の文字列)にあり、かつ、同一のカテゴリ「ぶり」に属するのでカテゴリ分類ルール25を満たすことを確認する。
【0070】
カテゴリ更新部17は、カテゴリ判定部16の結果に基づき、共通する同意語および/または類義語であり、かつ、カテゴリ情報24およびカテゴリ分類ルール25を満たすカテゴリ名である「ぶり」にカテゴリ名を更新し、図11(e)に示す対象テーブルの形式に変換する。
【0071】
分類部15は、カテゴリ更新部17で、「ハマチ」および「鰤」が共に「ぶり」のカテゴリとしてカテゴリの更新が行われたことに基づき、「ハマチ」および「鰤」を、仮分類していた「いなだ」と「ぶり」のカテゴリ(図11(d)参照)から、「ぶり」のカテゴリ(図11(e)参照)に分類し直し、データ分類を終える。そのカテゴリ名は、記憶部2のデータ情報21に併せて記憶しておく。
【0072】
図12は、実施の形態2に係るデータ分類システムのデータ分類動作の一例を示すフローチャートである。
【0073】
データ取得部11は、入力部3に入力されたデータを取得し、記憶部2のデータ情報21に記憶する(ステップS11)。文字列抽出部12は、辞書情報22を参照しながら、取得したデータより所定の文字列の抽出を行う(ステップS12)。
【0074】
変換部14は、所定の文字列を変換ルール23に基づき必要があれば文字列の変換を行い、カテゴリ名を仮決定する(ステップS31)。具体的には、変換ルール23に基づき、所定の文字列を、同意語や類義語への変換したり、ひらがな表記への変換を行う。そして、判定部13でカテゴリ情報24の条件値(カテゴリ名)と条件式を参照し、類似度の判定を行う(ステップS14)。
【0075】
判定部13で判定した類似度に基づき、類似度が所定の値より大きければ(ステップS15;YES)、その条件値(基準の文字列)のカテゴリに仮分類し(ステップS32)、ステップS34へ進む。類似度が所定の値より小さければ(ステップS15;NO)、所定の文字列または変換後の文字列で表す新カテゴリに仮分類し(ステップS33)、ステップS34へ進む。
【0076】
次に、カテゴリ判定部16は、データ分類を行うそれぞれのデータについて、カテゴリ名が一致しているか確認する(ステップS34)。カテゴリ名が一致していれば(ステップS34;YES)、そのままそのカテゴリに分類し(ステップS38)、終了する。
【0077】
カテゴリ名が一致していなければ(ステップS34;NO)、比較したそれぞれのカテゴリ名について辞書情報22を参照し、変換対象となる同意語および/または類義語がないかを確認する(ステップS35)。変換対象があり(ステップS35;YES)、かつ、カテゴリ情報24に記載があり、カテゴリ分類ルール25を満たしていれば(ステップS36;YES)、それぞれのカテゴリについて、同一のカテゴリ名で更新する(ステップS37)。そして、その更新したカテゴリに分類し(ステップS38)、終了する。
【0078】
カテゴリ名が不一致であり(ステップS34;NO)、変換すべき対象がないもの(ステップS35;NO)、または変換すべき対象はあるが(ステップS35;YES)、カテゴリ分類ルール25を満たさないもの(ステップS36;NO)は、カテゴリ名の更新をすることなく、そのままのカテゴリに分類し(ステップS38)、終了する。そのままのカテゴリに分類とは、仮カテゴリ名をそのままカテゴリ名として、カテゴリに分類することをいう。
【0079】
以上説明したように、本実施の形態のデータ分類システムによれば、データの文字列が完全に一致しない場合や表現が異なる場合においても、データを分類することができる。
【0080】
カテゴリに分類しようとするデータが完全に一致していなくても、同じ意味であれば同一のカテゴリに分類することができる。同じ意味合いで用いられているが単語が異なるものは多く、日本語と外来語で呼び方が異なるもの、時代により呼び方が異なるもの、地域により呼び方が異なるものなどがあり、その両方とも使用される単語の場合、同じカテゴリに分類することで、明確に分類することができる。
【0081】
また、カタカナや漢字をひらがなに変換してカテゴリに分類することで、より分類を行いやすくすることができる。特に、漢字をひらがなに変換することで、「行う」と「行なう」などのように送り仮名が異なる表記方法を用いたものについても、「おこなう」として同じ文字列であることが分かり、容易にカテゴリに分類することができる。
【0082】
さらに、揺れ表記を含めて類似度を判定することで、軽微な間違いや表記のずれを含めて分類することができ、分類を行いやすくする。例えば、いずれも使用されることのある語句である長音符(ー)がある語句とない語句、間違えて表記しやすい小文字と大文字、濁音および半濁音と清音、を考慮して判断することができる。また、記号やスペースの有無、異なる記号(「・」、「、」、「’」)の表記の違いも考慮することができる。
【0083】
関連する技術では、従来、カテゴリに分類した後に、重複するカテゴリがないかの確認や、未分類のもの(新カテゴリとして分類されるものを指す)の確認の作業が必要であったが、本発明を用いることにより分類が容易、かつ、高度に行われ、確認作業にかかる時間を省略することが可能となる。また、重複するカテゴリがなくなり、カテゴリが明確になるなど、好ましい分類を行うことができる。
【0084】
さらに、一旦カテゴリに分類した後に、分類ルールを用いて再分類が可能であり、カテゴリをまとめたり、異なる基準でカテゴリに分類したり、など、ユーザの希望に沿った分類を行うことが可能となる。
【0085】
図13は、本発明の実施の形態に係るデータ分析システムの物理的な構成例を示すブロック図である。データ分析システム100は、図13に示すように、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35および送受信部36を備える。主記憶部32、外部記憶部33、操作部34、表示部35および送受信部36はいずれも内部バス30を介して制御部31に接続されている。
【0086】
制御部31はCPU(Central Processing Unit)等から構成され、外部記憶部33に記憶されている制御プログラム39に従って、前述の通信処理を実行する。制御部は、処理装置1として機能する。
【0087】
主記憶部32はRAM(Random-Access Memory)等から構成され、外部記憶部33に記憶されている制御プログラム39をロードし、制御部31の作業領域として用いられる。記憶部2は、主記憶部32に構成される。
【0088】
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、前記の処理を制御部31に行わせるための制御プログラム39を予め記憶し、また、制御部31の指示に従って、この制御プログラム39が記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。記憶部2は、主外部記憶部33に構成される。
【0089】
操作部34はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス30に接続するインタフェース装置から構成されている。操作部34を介して、データ情報21や変換ルール23、カテゴリ分類ルール25などが入力され、制御部31に供給される。
【0090】
表示部35は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)などから構成され、出力部4を介して分類したカテゴリを表示するなど、その他データ分類に関する情報などを表示する。
【0091】
送受信部36は、網終端装置または無線送受信機およびそれらと接続するシリアルインタフェースまたはLAN(Local Area Network)インタフェースから構成されている。送受信部36は、入力部3および出力部4として機能する。
【0092】
図1または図9に示すデータ分析システム100のデータ取得部11、文字列抽出部12、判定部13、変換部14、分類部15、カテゴリ判定部16およびカテゴリ更新部17を含む処理装置1、記憶部2、入力部3および出力部4の処理は、制御プログラム39が、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35および送受信部36などを資源として用いて処理することによって実行する。
【0093】
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更および修正が可能である。
【0094】
データ分析システム100の制御部31、主記憶部32、外部記憶部33、操作部34、表示部35および送受信部36などから構成されるデータ分析システム100の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行するデータ分析システム100を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することでデータ分析システム100を構成してもよい。
【0095】
また、データ分析システム100の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
【0096】
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
【0097】
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0098】
(付記1)
検索可能な文字列を含むデータを取得するデータ取得手段と、
前記データに含まれる所定の文字列を抽出する抽出手段と、
文字列を変換する変換ルールを記憶するルール記憶手段と、
前記変換ルールに基づき前記所定の文字列を変換する変換手段と、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶手段と、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定手段と、
前記判定手段で判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類手段と、
を備えることを特徴とするデータ分類システム。
【0099】
(付記2)
辞書情報を取得する情報取得手段を備え、
前記変換手段で変換する際に用いる変換ルールは、前記情報取得手段で取得した辞書情報を用いて前記所定の文字列を同意語および/または類義語に変換するルールであることを特徴とする付記1に記載のデータ分類システム。
【0100】
(付記3)
前記変換手段で変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび/または漢字をひらがなに変換するルールであることを特徴とする付記1または2に記載のデータ分類システム。
【0101】
(付記4)
前記分類手段でグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定手段と、
前記カテゴリ判定手段で判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および/または類義語に変換し、該カテゴリを更新するカテゴリ更新手段と、
を備えることを特徴とする付記1ないし3のいずれかに記載のデータ分類システム。
【0102】
(付記5)
データベースにおけるデータの分類をデータ分類システムが行う方法であって、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を備えることを特徴とするデータ分類方法。
【0103】
(付記6)
辞書情報を取得する情報取得ステップを備え、
前記変換ステップで変換する際に用いる変換ルールは、前記情報取得ステップで取得した辞書情報を用いて前記所定の文字列を同意語および/または類義語に変換するルールであることを特徴とする付記5に記載のデータ分類方法。
【0104】
(付記7)
前記変換ステップで変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび/または漢字をひらがなに変換するルールであることを特徴とする付記5または6に記載のデータ分類方法。
【0105】
(付記8)
前記分類ステップでグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定ステップと、
前記カテゴリ判定ステップで判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および/または類義語に変換し、該カテゴリを更新するカテゴリ更新ステップと、
を備えることを特徴とする付記5ないし7のいずれかに記載のデータ分類方法。
【0106】
(付記9)
コンピュータに、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を実行させることを特徴とするプログラム。
【符号の説明】
【0107】
1 処理装置
2 記憶部
3 入力部
4 出力部
11 データ取得部
12 文字列抽出部
13 判定部
14 変換部
15 分類部
16 カテゴリ判定部
17 カテゴリ更新部
21 データ情報
22 辞書情報
23 変換ルール
24 カテゴリ情報
25 カテゴリ分類ルール
31 制御部
32 主記憶部
33 外部記憶部
34 操作部
35 表示部
36 送受信部
39 制御プログラム
100 データ分類システム

【特許請求の範囲】
【請求項1】
検索可能な文字列を含むデータを取得するデータ取得手段と、
前記データに含まれる所定の文字列を抽出する抽出手段と、
文字列を変換する変換ルールを記憶するルール記憶手段と、
前記変換ルールに基づき前記所定の文字列を変換する変換手段と、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶手段と、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定手段と、
前記判定手段で判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類手段と、
を備えることを特徴とするデータ分類システム。
【請求項2】
辞書情報を取得する情報取得手段を備え、
前記変換手段で変換する際に用いる変換ルールは、前記情報取得手段で取得した辞書情報を用いて前記所定の文字列を同意語および/または類義語に変換するルールであることを特徴とする請求項1に記載のデータ分類システム。
【請求項3】
前記変換手段で変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび/または漢字をひらがなに変換するルールであることを特徴とする請求項1または2に記載のデータ分類システム。
【請求項4】
前記分類手段でグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定手段と、
前記カテゴリ判定手段で判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および/または類義語に変換し、該カテゴリを更新するカテゴリ更新手段と、
を備えることを特徴とする請求項1ないし3のいずれか1項に記載のデータ分類システム。
【請求項5】
データベースにおけるデータの分類をデータ分類システムが行う方法であって、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を備えることを特徴とするデータ分類方法。
【請求項6】
辞書情報を取得する情報取得ステップを備え、
前記変換ステップで変換する際に用いる変換ルールは、前記情報取得ステップで取得した辞書情報を用いて前記所定の文字列を同意語および/または類義語に変換するルールであることを特徴とする請求項5に記載のデータ分類方法。
【請求項7】
前記変換ステップで変換する際に用いる変換ルールは、前記所定の文字列に含まれるカタカナおよび/または漢字をひらがなに変換するルールであることを特徴とする請求項5または6に記載のデータ分類方法。
【請求項8】
前記分類ステップでグルーピングした前記カテゴリの、他のカテゴリとの類似度を判定するカテゴリ判定ステップと、
前記カテゴリ判定ステップで判定した前記他のカテゴリとの類似度が所定の値に満たない場合に、カテゴリ分類ルールに基づき、前記カテゴリを同意語および/または類義語に変換し、該カテゴリを更新するカテゴリ更新ステップと、
を備えることを特徴とする請求項5ないし7のいずれか1項に記載のデータ分類方法。
【請求項9】
コンピュータに、
検索可能な文字列を含むデータを取得するデータ取得ステップと、
前記データに含まれる所定の文字列を抽出する抽出ステップと、
文字列を変換する変換ルールを記憶するルール記憶ステップと、
前記変換ルールに基づき前記所定の文字列を変換する変換ステップと、
類似度を判定する基準の文字列と、該基準の文字列との類似度を判定する条件と、前記基準の文字列の語を含むカテゴリを表す分類文字列と、を含むカテゴリ情報を記憶するカテゴリ記憶ステップと、
前記所定の文字列または前記所定の文字列を変換したのちの文字列と、前記カテゴリ情報の基準の文字列との類似度を判定する判定ステップと、
前記判定ステップで判定した類似度に基づき、前記所定の文字列を対応する前記カテゴリ情報のカテゴリにグルーピングする分類ステップと、
を実行させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate