説明

学習方法、学習装置、および検索方法、検索装置

【課題】検索クエリの語句に基づいた検索を効率良く行う。
【解決手段】単語分割部52は、検索クエリの語句を単語毎に分割する。素性取得部54は、各単語について、注目単語の直前と直後の自立語を含む素性を抽出して素性ベクトルを得る。重要単語抽出部60は、これらの素性ベクトルに基づいて、重要単語についてタグが付与されており、サンプルデータの語句の各単語の素性とからなる学習データを参照しながら、学習SVM(サポート・ベクトル・マシン)手法を用いて、検索クエリの語句から重要な単語を抽出する。検索実行部64は、抽出した重要な単語のみを用いて検索する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習手法を用いた学習技術および検索技術に関する。
【背景技術】
【0002】
機械学習は、さまざまな分野で利用されている。機械学習では、学習データを入力とし、統計処理手法を用いることによって、データの特徴を説明するための規則を出力する。機械学習において、たとえば特許文献1に記載したように、「教師あり学習」と呼ばれる手法があり、この手法により、人間が期待する解を機械に与え、その解に至るように学習のパラメータを調整する。教師あり学習の手法では、学習データ中の各データに、データの評価があらかじめ人手によって付与されている。学習データ中の各データの特徴(「素性」とも呼ぶ)とその評価の間の対応関係を学習することによって、非学習データが与えられたときにその評価をすることができる。
【0003】
たとえば、文章テキストの中の語句から、所望の単語種に属する単語を目的単語として抽出する分野において、教師あり学習の手法が用いられる。具体的には、学習データとなる語句に含まれる各単語の素性を求めるとともに、これらの単語のうち、目的単語に該当する単語にあらかじめタグと呼ばれる識別子を与えることによって評価しておく。そして、各単語の素性と、その単語に対する評価(目的単語であるか否か)との対応関係について学習し、語句に含まれる目的単語の抽出規則を得る。そして、この抽出規則に基づいて、非学習データとなる語句から目的単語を抽出する。
【0004】
ここで、いかなる素性を用いるかによって、抽出規則を得るための学習、ひいては学習により得られた抽出規則を用いた抽出処理の計算量および結果が異なり、工夫が要求される。
【0005】
また、検索の分野において、検索クエリとして入力された語句に基づいて、この語句に含まれた単語と一致する単語を有する文章を検索することが行われている。その際、検索クエリの語句に、その検索クエリの語句の全体的な意味合いに特に関係のない一般的な単語が含まれていると、これらの単語もキーワードとして用いる場合、ユーザが所望する文書が検索結果に含まれなかったり、検索クエリの語句と関係性の低い文章がヒットしたりするなど、検索の効率が良くないという問題がある。
【特許文献1】特開2005−181928号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明は上記事情に鑑みてなされたものであり、その第1の目的は、機械学習手法を用いて、語句から目的単語を抽出するための抽出規則の学習方法を工夫し、この抽出規則を用いた抽出処理を効率良く行えるようにすることにあり、その第2の目的は、検索クエリの語句に基づいた検索を効率よくできるようにするところにある。
【課題を解決するための手段】
【0007】
本発明のある態様は、学習装置に関する。この装置は、語句から目的とする単語種に属する目的単語を抽出するための抽出規則を、機械学習手法を用いて学習する学習装置であって、単語分割部と、単語素性取得部と、学習部とを備える。単語分割部は、学習対象の語句を単語ごとに分割し、各単語の素性を取得する単語素性取得部は、注目単語の直前および/または直後の自立語に関する情報を含む素性を取得し、学習部は、目的単語に該当する単語に対して識別子たとえばタグが付与された各単語と、各単語の素性とを学習データとして学習する。
【0008】
ここで、「自立語」とは、単独で文節を構成できる単語を意味し、たとえば名詞、動詞などとすることができる。
【0009】
本発明の別の態様は、検索装置に関する。この装置は、検索クエリの語句を単語ごとに分割する検索単語分割部と、検索において重要とされる重要単語を抽出するための素性を、検索単語分割部により得られた各単語に対して取得する検索単語素性取得部と、機械学習手法によって、学習対象の語句に含まれた各単語の素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する重要単語抽出部と、重要単語抽出部により抽出された重要単語について、他の単語より重みを強くして検索を実行する検索実行部とを備える。
【0010】
本発明のさらなる別の態様も、検索装置に関する。この装置は、検索クエリの語句を単語ごとに分割する検索単語分割部と、検索において重要とされる重要単語を抽出するための素性を、検索単語分割部により得られた各単語に対して取得する検索単語素性取得部と、機械学習手法によって、学習対象の語句に含まれた各単語の素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する重要単語抽出部と、重要単語抽出部により抽出された重要単語のみを用いて検索を実行する検索実行部とを備える。
【0011】
本発明の検索装置において、重要単語抽出部は、本発明の別の態様となる学習装置により、重要単語を目的単語として得られた抽出規則を用いるようにしてもよい。
【0012】
なお、本発明の表現を方法、装置、システム、プログラムを記憶した記憶媒体、プログラムなどの間で変換したものも、本発明の態様としては有効である。
【発明の効果】
【0013】
本発明の学習技術によれば、目的単語を抽出するための抽出規則を得るために、目的単語の特徴を表す素性として、単語の直前および/または自立語を含む素性を用いることによって、学習により得られた抽出規則を用いた抽出処理の計算量を軽減する点、または抽出の精度向上において有利である。
【0014】
本発明の検索技術によれば、機械学習の手法を用いて、検索クエリの語句から重要な単語を抽出し、重要な単語のみを用いて検索を行う、または重要な単語について、他の単語より重みを強くして検索を行うことによって、効率の良い検索を実現することができる。
【発明を実施するための最良の形態】
【0015】
図1は、本発明の実施の形態となる検索装置の構成を示すブロック図である。この検索装置は、入力部10、検索部50、データベース70を備える。なお、ここで、検索装置は、コンピュータなどの情報機器であり、図1では、検索処理に関わる要素のみを示し、情報機器が一般に備える要素については省略している。
【0016】
入力部10は、ユーザが検索クエリなどを入力するためのデバイスであり、たとえばキーボードやマウス、タッチパネルなどとすることができる。データベース70は、検索部50に供する学習データ(その詳細については後述する)を保持している。検索部50は、データベース70に保持された学習データを用いて、入力部10を介してユーザが入力した検索クエリに基づいて検索を行う。
【0017】
検索部50は、図示しないインターネットなどによりネットワーク上の検索リソースに接続しており、これらの検索リソースから検索を行う。
【0018】
図2は、検索部50の構成を示すブロック図である。検索部50は、機械学習手法を利用して、入力部10を介してユーザが入力した検索クエリから、検索において重要な単語を抽出し、抽出した重要単語を用いて検索を行う。ここで、例として、検索部50はサポートベクターマシン(support vector machine。以下SVMという)手法を用いる。
【0019】
図2に示すように、検索部50は、単語分割部52、素性取得部54、重要単語抽出部60、検索実行部64を備える。図2に示す構成は、検索を行うプログラムをコンピュータ上で実行することにより実現される。このプログラムは、CD−ROMなどの記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされる。
【0020】
単語分割部52は、入力部10を介してユーザが入力した検索クエリとなる語句を、単語毎に分割する。ここで、単語分割部52は、たとえば形態素解析手法によって、単語の分割を行う。
【0021】
図3に示す例のように、検索クエリとなる語句「・・・の凹所にセンサ用素子を接合し、・・・を特徴とするセンサ装置。」は、単語分割部52により、・・・、「凹」、「所」、「に」、「センサ」、「用」、「素子」、「を」、・・・などの単語に分割される。
【0022】
素性取得部54は、単語分割部52により取得された各単語の素性を取得する。ここで、「素性」は、検索部50の重要単語抽出部60により、検索クエリから重要単語を抽出する際に用いる単語の特徴である。
【0023】
図4は、本実施の形態において、図3に示す検索クエリを例とした場合に用いる単語の素性の一部を示す。またここで、注目単語の例として、「センサ」を用いる。
【0024】
図示のように、語句「・・・の凹所にセンサ用素子・・・」における注目単語「センサ」について、その素性は、直前の単語「に」、直後の単語「用」、直前の自立語「所」、直後の自立語「用」を含む。
【0025】
図4に示す素性の他に、注目単語自身、品詞、あるいは「漢字」や、「ひらがな」などのような文字種も素性として用いてもよい。
【0026】
素性取得部54は、単語分割部52により得られた各単語に対して、図4に示す素性を取得する。
【0027】
素性取得部54は、このように得られた各素性を用いて、単語毎にこれらの要素を要素とするベクトル(以下素性ベクトルという)を、重要単語抽出部60に出力する。
【0028】
重要単語抽出部60は、素性取得部54により得られた各単語の素性、具体的には素性ベクトルを用いて、データベース70に保持された学習データを学習しながら、検索クエリに含まれる各単語から、重要な単語を抽出する。ここで、重要単語抽出部60の詳細について説明する前に、データベース70に保持された学習データについて説明する。
【0029】
データベース70に保持された学習データは、多数のサンプルデータに対して、図5のフローチャートに示す処理を施して得たものである。
【0030】
ここで、サンプルデータは、様々な語句となる。各語句に対して、図5に示す処理がそれぞれ施される(S10)。まず、語句は、単語毎に分割される。単語の分割に用いる手法は、たとえば形態素解析である。
【0031】
分割された各単語に対して、その素性が取得される(S12)。ここで、単語の素性は、検索部50の素性取得部54により取得する素性と同じであり、図4に示す各々の要素を含む。また、単語毎に、各々の素性によってこの単語の素性ベクトルが構成される。
【0032】
本実施の形態では、「教師あり学習」手法の一つであるSVM手法を用いるので、ここで、人手によって各語句に含まれた重要な単語が指定される。指定された単語は、識別子となるタグが付与される(S14)。
【0033】
このような処理の結果、単語の素性ベクトルが得られ、重要な単語についてはタグが付与される。すなわち、一つの単語tについて、n次元(n:素性の個数)の素性ベクトルxと、この単語が重要単語なのか否かを示す正・負のラベルyのペア(x,y)が得られ、このペアは、1つの事例となる。
【0034】
サンプルデータに対して得られた各事例は、学習データとしてデータベース70に保持される。
【0035】
重要単語抽出部60の説明に戻る。前述したように、本実施の形態において、重要単語抽出部60は、SVMの手法を用いて重要な単語を抽出するものである。SVMは、正・負例を正しく分離する超平面w・x+b,(w,x∈R)を求める二値線形分類器である。ここでその概要について説明する。図6において、破線は求める分離超平面に平行で等距離にある超平面で、その間の距離をマージン(margin)と呼ぶ。SVMは、正・負例を正しく分離する数多くの超平面の中から、マージンが最大となる分離超平面を求めるアルゴリズである。マージンの最大化‖w‖最小化であり、これは式(1)を式(2)の条件で最大化する双対問題と等価であることが知られている。
【0036】
【数1】

【0037】
【数2】

【0038】
K(a,b)=Φ(a)・Φ(b) (3)
ここで式(1)のK(xi,yi)をKernel関数と呼び、式(3)で示す2つのベクトルa,b∈Rを関数Φ(x)で写像した空間での内積を表す。最終的に未知の事例に対する正・負の分類は、超平面からの位置(式(4)の関数値が正ならば正例、負であれば負例)により決定される。
【0039】
【数3】

【0040】
重要単語抽出部60は、このようなSVMを用いて、データベース70に保持された各事例と、検索クエリの語句の各単語に対して、素性取得部54により得られた素性ベクトルとを用いて、検索クエリの語句の各単語のうちの重要な単語を抽出して、検索実行部64に供する。
【0041】
検索実行部64は、重要単語抽出部60により得られた重要な単語のみを用いて検索を実行する。
【0042】
図7は、図1に示す実施の形態の検索装置において行われる処理の過程を示すフローチャートである。検索部50は、ユーザが入力した検索クエリの語句に基づいて検索を行うのにあたり、まず、単語分割部52により、検索クエリの語句を単語ごとに分割する(S100)。素性取得部54は、各単語に対してその素性を取得し、素性ベクトルを得る(S102)。重要単語抽出部60は、ステップS102において得られた各々の素性ベクトルに基づいて、データベース70に保持された学習データを参照しながら、SVMの手法で検索クエリの各単語から重要な単語を抽出する(S104)。検索実行部64は、ステップS104において得られた重要な単語のみを用いて検索を行い、検索の結果を図示しないモニタなどの表示装置に表示してユーザに供する(S106)。
【0043】
このように、図1に示す実施の形態の検索装置は、注目単語の直前および直後の自立語も、重要な単語を抽出する際の素性として用いる。こうすることによって、助詞や、助動詞など、自立語以外の非自立語が多い語句から重要な単語を抽出する際において、注目単語の前後の単語を素性として使ったとしても、注目単語の前後の単語がすべて非自立語となってしまう可能性があるため、抽出の精度が欠けてしまうという問題を解決することができる。
【0044】
また、図1に示す実施の形態の検索装置は、検索クエリの語句に含まれるすべての単語ではなく、その中の重要な単語を抽出して、重要な単語のみを用いて検索を行っているので、不必要な文書を検索結果から減らし、本来検索結果として必要とされる文章のヒット率を相対的に向上させることができる。
【0045】
さらに、重要な単語のみを用いて検索しているので、処理する単語の数が減り、処理速度が向上する効果も得ることができる。
【0046】
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、本発明の主旨から逸脱しない限り、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
【0047】
たとえば、本実施例は、検索装置であるが、本発明における重要単語の抽出手法ならびにそのための学習手法は、検索の分野に限らず、語句から目的とされる単語を抽出する際に用いられるいかなる機械学習にも適用することができる。
【0048】
また、機械学習の手法としても、SVMに限らず、ニューラル・ネットワークなどのいかなる手法を用いてもよい。
【0049】
また、本発明にかかる検索装置は、機械学習の手法により抽出した重要単語について、他の単語より強い重みをつけて検索を行うものであり、本実施例においては、重要単語抽出部60は、検索クエリの語句から抽出された重要な単語のみを用いて検索を実行するようにしている。これは、たとえば検索における単語の重みが「0」と「1」の範囲内とした場合に、重要な単語に対して「1」の重み、他のすべての単語に対して「0」の重みをつけて検索を実行することに相当する。機械学習の手法によって重要単語を抽出し、抽出された重要な単語について「0.8」の重み、他の単語についてこれより小さいたとえば「0.2」の重みをつけて検索を行うようにしてもよい。さらに、機械学習の手法により得られた単語を最も重要な単語とし、他の手法たとえば名詞、動詞などの品詞を抽出する手法により得られた単語を次に重要な単語とするようにして、最も重要な単語については最も強い重み、次に重要な単語についてはこの重みより弱い重みをつけて検索するようにしてもよい。この場合、いかなる手法によっても抽出されなかった単語については、その重みを最も弱くすればよい。なお、この「最も弱い重み」は、「0」を含み、すなわち、これらの単語を、検索に使用しないようにしてもよい。
【図面の簡単な説明】
【0050】
【図1】本発明の実施の形態にかかる検索装置の構成を示すブロック図である。
【図2】図1に示す検索装置における検索部の構成を示すブロック図である。
【図3】単語の分割の例を示す図である。
【図4】単語の素性の一部を例示する図である。
【図5】図1に示す検索装置におけるデータベースに保持された学習データを得るための処理を説明するためのフローチャートである。
【図6】SVMを説明するための図である。
【図7】図1に示す検索装置による検索処理の過程を示すフローチャートである。
【符号の説明】
【0051】
10 入力部、 50 検索部、 52 単語分割部、 54 素性取得部、 60 重要単語抽出部、 64 検索実行部、 70 データベース。

【特許請求の範囲】
【請求項1】
語句から目的とする単語種に属する目的単語を抽出するための抽出規則を、機械学習手法を用いて学習する学習装置であって、
学習対象の語句を単語ごとに分割する単語分割部と、
該単語分割部により得られた各単語の素性を取得する単語素性取得部と、
目的単語に該当する単語に対して識別子が付与された前記各単語と、各単語の前記素性とを学習データとして学習する学習部とを備え、
前記単語素性取得部は、注目単語の直前および/または直後の自立語に関する情報を含む前記素性を取得することを特徴とする学習装置。
【請求項2】
検索クエリの語句を単語ごとに分割する検索単語分割部と、
検索において重要とされる重要単語を抽出するための素性を、前記検索単語分割部により得られた各単語に対して取得する検索単語素性取得部と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する重要単語抽出部と、
重要単語抽出部により抽出された重要単語について、他の単語より重みを強くして検索を実行する検索実行部とを備えることを特徴とする検索装置。
【請求項3】
検索クエリの語句を単語ごとに分割する検索単語分割部と、
検索において重要とされる重要単語を抽出するための素性を、前記検索単語分割部により得られた各単語に対して取得する検索単語素性取得部と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する重要単語抽出部と、
重要単語抽出部により抽出された重要単語のみを用いて検索を実行する検索実行部とを備えることを特徴とする検索装置。
【請求項4】
前記重要単語抽出部は、請求項1に記載の学習装置により、前記重要単語を目的単語として得られた抽出規則を用いることを特徴とする請求項2または3に記載の検索装置。
【請求項5】
語句から目的とする単語種に属する目的単語を抽出するための抽出規則を、機械学習手法を用いて学習する学習方法において、
学習対象の語句を単語ごとに分割する手順と、
該分割により得られた各単語に対して、注目単語の直前および/または直後の自立語に関する情報を含む素性を取得する手順と、
目的単語に該当する単語に対して識別子が付与された前記各単語と、各単語の前記素性とを学習データとして学習する手順とを有することを特徴とする学習方法。
【請求項6】
検索クエリの語句を単語ごとに分割する手順と、
検索において重要とされる重要単語を抽出するための素性を、前記分割によって得られた各単語に対して取得する手順と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する手順と、
抽出された重要単語について、他の単語より重みを強くして検索を実行する手順とを有することを特徴とする検索方法。
【請求項7】
検索クエリの語句を単語ごとに分割する手順と、
検索において重要とされる重要単語を抽出するための素性を、前記分割によって得られた各単語に対して取得する手順と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する手順と、
抽出された重要単語のみを用いて検索を実行する手順とを有することを特徴とする検索方法。
【請求項8】
請求項5に記載の学習方法により、前記重要単語を目的単語として得られた抽出規則を用いて重要単語を抽出することを特徴とする請求項6または7に記載の検索方法。
【請求項9】
語句から目的とする単語種に属する目的単語を抽出するための抽出規則を、機械学習手法を用いて学習する処理をコンピュータに実行せしめるプログラムであって、
該プログラムは、学習対象の語句を単語ごとに分割する処理と、
該分割により得られた各単語に対して、注目単語の直前および/または直後の自立語に関する情報を含む素性を取得する処理と、
目的単語に該当する単語に対して識別子が付与された前記各単語と、各単語の前記素性とを学習データとして学習する処理とをコンピュータに実行せしめることを特徴とするプログラム。
【請求項10】
検索クエリの語句を単語ごとに分割する処理と、
検索において重要とされる重要単語を抽出するための素性を、前記分割によって得られた各単語に対して取得する処理と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する処理と、
抽出された重要単語について、他の単語より重みを強くして検索を実行する処理とをコンピュータに実行せしめることを特徴とするプログラム。
【請求項11】
検索クエリの語句を単語ごとに分割する処理と、
検索において重要とされる重要単語を抽出するための素性を、前記分割によって得られた各単語に対して取得する処理と、
機械学習手法によって、学習対象の語句に含まれた各単語の前記素性について学習して得た重要単語の抽出規則を用いて、検索語句から重要単語を抽出する処理と、
抽出された重要単語のみを用いて検索を実行する処理とをコンピュータに実行せしめることを特徴とするプログラム。
【請求項12】
前記重要単語を抽出する処理は、請求項9に記載のプログラムにより実行せしめられる処理において、前記重要単語を目的単語として得られた抽出規則を用いることを特徴とする請求項10または11に記載のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2007−156932(P2007−156932A)
【公開日】平成19年6月21日(2007.6.21)
【国際特許分類】
【出願番号】特願2005−352758(P2005−352758)
【出願日】平成17年12月6日(2005.12.6)
【出願人】(390024350)株式会社ジャストシステム (123)
【Fターム(参考)】