属性特定装置、属性特定方法、及びプログラム

【課題】入力された単語の属性を精度良く特定する。
【解決手段】文書数取得部１０４は、検索エンジン２００を用いて、入力された単語と関連属性記憶部１１０が記憶する関連語とが係り受け関係にある文書の数を関連属性記憶部１１０が記憶する関連語毎に取得する。属性特定部１０６は、文書数取得部１０４が取得した文書数が最も多い関連語に関連付けられた属性を関連属性記憶部１１０から読み出し、当該属性を前記入力された単語の属性とする。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、入力された単語の属性を特定する属性特定装置、属性特定方法、及びプログラムに関する。
【背景技術】
【０００２】
機械翻訳やデータマイニングなどの自然言語処理を行う際に、単語の属性を用いて処理を行うことがある。単語の属性の例としては、単語のカテゴリ（場所、料理、人名など）を示す情報等が挙げられる。そのため、自然言語処理に用いる、単語と属性とを関連付けた辞書データが求められている。
【０００３】
従来、自然言語処理に用いる辞書データを作成する方法として、文書における単語同士の共起頻度によって２つの単語を関連付ける方法が用いられている（例えば、特許文献１、２を参照）。例えば、収集した文書内に「特許」という単語と「出願」という単語の組み合わせが頻出する場合は、「特許」と「出願」とが関連すると判定し、辞書データに登録する。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平８−１６１３４３号公報
【特許文献２】特開平１１−２０３３１１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかしながら、共起頻度によって単語の関連性を判断する方法を用いる場合、２つの単語同士の関連性は推定できるものの、単語のカテゴリなどの属性を推定することができないため、単語と属性とを関連付けた辞書データの作成が困難であるという問題があった。
【課題を解決するための手段】
【０００６】
本発明は上記の課題を解決するためになされたものであり、入力された単語の属性を特定する属性特定装置であって、単語に係り受けする形態素と当該形態素が係り受けする単語の属性とを関連付けて記憶する関連属性記憶部と、所定の文書集合において、入力された単語と前記関連属性記憶部が記憶する形態素とが係り受け関係にある文の数、当該文を含むページのページ数、または当該文を含む文書の数である係り受けヒット数を、前記形態素毎に取得する係り受けヒット数取得部と、前記係り受けヒット数取得部が取得した係り受けヒット数が最も多い形態素に関連付けられた属性を前記関連属性記憶部から読み出し、当該属性を前記入力された単語の属性とする属性特定部とを備えることを特徴とする。
【０００７】
また、本発明においては、前記係り受けヒット数取得部は、前記入力された単語と前記形態素とが所定の単語間距離以下で共起する文書の数を、前記係り受けヒット数として取得することが好ましい。
【０００８】
また、本発明においては、前記係り受けヒット数取得部は、複数の検索エンジンを用いて、それぞれの検索エンジンから係り受けヒット数を取得し、前記属性特定部は、前記係り受けヒット数取得部が取得した係り受けヒット数が最も多い形態素に関連付けられた属性を前記検索エンジン毎に前記関連属性記憶部から読み出し、前記属性のうち読み出された数が最も多い属性を前記入力された単語の属性とすることが好ましい。
【０００９】
また、本発明においては、前記文書集合において前記関連属性記憶部が記憶する形態素の数、当該形態素を含むページのページ数、または当該形態素を含む文書の数である形態素ヒット数を、前記形態素毎に取得する形態素ヒット数取得部と、前記形態素ヒット数取得部が取得した形態素ヒット数が多いほど値が小さくなるように前記形態素の形態素重みを算出する形態素重み算出部とを備え、前記属性特定部は、前記係り受けヒット数取得部が取得した係り受けヒット数に前記形態素重み算出部が算出した形態素重みを乗算した値が最も大きい形態素に関連付けられた属性を、前記関連属性記憶部から読み出し、当該属性を前記入力された単語の属性とすることが好ましい。
【００１０】
また、本発明においては、単語と当該単語の属性とを関連付けて記憶する属性記憶部と、所定の文書集合において、前記属性記憶部が記憶する単語と前記関連属性記憶部が記憶する形態素とが係り受け関係にある文の数、当該文を含むページのページ数、または当該文を含む文書の数を前記形態素毎に取得し、当該数に基づいて前記形態素と属性との関連度を算出する関連度算出部とを備え、前記関連属性記憶部は、１つの属性に関連付けて複数の形態素を記憶しており、前記係り受けヒット数取得部は、所定の文書集合において、前記関連属性記憶部が記憶する同じ属性に関連付けられた形態素のうち、前記関連度算出部が算出した関連度が最も高い形態素と前記入力された単語とが係り受け関係にある文のヒット数を取得することが好ましい。
【００１１】
また、本発明は、単語に係り受けする形態素と当該形態素が係り受けする単語の属性とを関連付けて記憶する関連属性記憶部を備え、入力された単語の属性を特定する属性特定装置を用いた属性特定方法であって、係り受けヒット数取得部は、所定の文書集合において、入力された単語と前記関連属性記憶部が記憶する形態素とが係り受け関係にある文の数、当該文を含むページのページ数、または当該文を含む文書の数である係り受けヒット数を、前記形態素毎に取得し、属性特定部は、前記係り受けヒット数取得部が取得した係り受けヒット数が最も多い形態素に関連付けられた属性を前記関連属性記憶部から読み出し、当該属性を前記入力された単語の属性とすることを特徴とする。
【００１２】
また、本発明は、単語に係り受けする形態素と当該形態素が係り受けする単語の属性とを関連付けて記憶する関連属性記憶部を備えるコンピュータを、所定の文書集合において、入力された単語と前記関連属性記憶部が記憶する形態素とが係り受け関係にある文の数、当該文を含むページのページ数、または当該文を含む文書の数である係り受けヒット数を、前記形態素毎に取得する係り受けヒット数取得部、前記係り受けヒット数取得部が取得した係り受けヒット数が最も多い形態素に関連付けられた属性を前記関連属性記憶部から読み出し、当該属性を前記入力された単語の属性とする属性特定部として機能させるプログラムである。
【発明の効果】
【００１３】
本発明によれば、属性特定装置は、入力された単語に係り受けする頻度の高い形態素を特定し、当該形態素が係り受けする単語の属性を入力された単語の属性とする。これにより、入力された単語の属性を精度良く特定することができる。
【図面の簡単な説明】
【００１４】
【図１】本発明の一実施形態による属性特定装置の構成を示す概略ブロック図である。
【図２】属性記憶部及び関連属性記憶部が記憶する情報の例を示す図である。
【図３】本実施形態による属性特定装置の属性特定動作を示すフローチャートである。
【図４】本実施形態による属性特定装置の関連度更新動作を示すフローチャートである。
【発明を実施するための形態】
【００１５】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図１は、本発明の一実施形態による属性特定装置１００の構成を示す概略ブロック図である。
属性特定装置１００は、単語入力部１０１、属性読み出し部１０２、単語属性出力部１０３、文書数取得部１０４（係り受けヒット数取得部、単語ヒット数取得部、形態素ヒット数取得部）、重み算出部１０５（検索重み算出部、形態素重み算出部）、属性特定部１０６、属性記録部１０７、関連度算出部１０８、属性記憶部１０９、関連属性記憶部１１０を備える。
【００１６】
単語入力部１０１は、利用者による属性の特定対象となる単語の入力を取得する。
属性読み出し部１０２は、単語入力部１０１が取得した単語に関連付けられた属性が属性記憶部１０９に記憶されているか否かを判定する。単語入力部１０１が取得した単語に関連付けられた属性が属性記憶部１０９に記憶されている場合、当該属性を単語属性出力部１０３に出力する。他方、単語入力部１０１が取得した単語に関連付けられた属性が属性記憶部１０９に記憶されていない場合、単語入力部１０１が取得した単語を文書数取得部１０４に出力する。
単語属性出力部１０３は、属性読み出し部１０２が読み出した属性または属性特定部１０６が特定した属性を出力する。
【００１７】
文書数取得部１０４は、単語入力部１０１が取得した単語と関連属性記憶部１１０が記憶する関連語とから検索キーワードを生成し、検索エンジン２００から当該検索キーワードを含む文書数を取得する。なお、検索エンジン２００とは、インターネット上に存在する文書の中から、入力された検索キーワードを含む文書を検索し、当該文書の一覧及び文書数を出力するソフトウェアである。また、本実施形態において「関連語」とは、ある属性を有する単語に連なって使用され、当該単語に係り受けする頻度が高い形態素を含む語句のことを示す。
重み算出部１０５は、文書数取得部１０４が取得した文書数から、検索エンジン２００毎の重み及び関連属性記憶部１１０が記憶する関連語毎の重みを算出する。なお、重みとは、相対的な重要性を表す係数のことである。
【００１８】
属性特定部１０６は、文書数取得部１０４が取得した文書数及び重み算出部１０５が算出した重みを用いて、単語入力部１０１が取得した単語の属性を特定する。
属性記録部１０７は、単語入力部１０１が取得した単語と属性特定部１０６が特定した属性とを関連付けて属性記憶部１０９に記録する。
関連度算出部１０８は、文書数取得部１０４が取得した文書数を用いて関連属性記憶部１１０が記憶する関連語と属性との関連度を算出する。
【００１９】
図２は、属性記憶部１０９及び関連属性記憶部１１０が記憶する情報の例を示す図である。
属性記憶部１０９は、図２（Ａ）に示すように、単語と当該単語の属性とを関連付けて記憶する。
関連属性記憶部１１０は、図２（Ｂ）に示すように、単語の属性と関連語と当該単語・属性間の関連度とを、関連付けて記憶する。なお、形態素とは、意味を有する文字列の最小単位のことであり、例えば、活用しない品詞（名詞、助詞など）、活用する品詞（動詞、形容詞など）の語根、接辞（接頭辞、接尾辞など）が挙げられる。また、形態素と関連語の例としては、属性「料理」の単語に係り受けする頻度が高い形態素「食べ（動詞の語根）」を含む関連語として「を食べる」が挙げられる。また、関連語は形態素そのものであっても良く、例えば属性「人名」の単語に係り受けする頻度が高い形態素「さん（接尾辞）」を含む関連語として「さん」を用いることができる。なお、関連語は、単語と結合されることで、形態素と単語とが係り受け関係を有することとなる。
【００２０】
次に、本実施形態による属性特定装置１００が、入力された単語の属性を特定する際の動作について説明する。
図３は、本実施形態による属性特定装置１００の属性特定動作を示すフローチャートである。
まず、利用者がキーボード等の入力装置を介して、属性特定装置１００に単語を入力すると、単語入力部１０１は、利用者が入力した単語を取得する（ステップＳ１）。なお、単語の取得は、入力装置を介するものに限られず、例えば単語を設定したファイルから１つずつ読み取るようにしても良い。次に、属性読み出し部１０２は、単語入力部１０１が取得した単語に関連付けられた属性が属性記憶部１０９に記憶されているか否かを判定する（ステップＳ２）。属性読み出し部１０２は、単語入力部１０１が取得した単語に関連付けられた属性が属性記憶部１０９に記憶されていると判定した場合（ステップＳ２：ＹＥＳ）、属性記憶部１０９から該当する属性を読み出し、単語属性出力部１０３に出力する。そして、単語属性出力部１０３は、属性読み出し部１０２が出力した属性を、ディスプレイなどの表示装置に出力し（ステップＳ３）、処理を終了する。
【００２１】
他方、属性読み出し部１０２は、単語入力部１０１が取得した単語に関連付けられた属性が属性記憶部１０９に記憶されていないと判定した場合（ステップＳ２：ＮＯ）、取得した単語を文書数取得部１０４に出力する。次に、文書数取得部１０４は、関連属性記憶部１１０から各属性に関連付けられた関連語のうち、関連度が最も高い関連語を属性毎に読み出す（ステップＳ４）。例えば、図２に示す例では、属性「料理」に関連付けられた関連語が「を食べる」と「を作る」であり、関連度は、それぞれ「０．９」と「０．５」である。そのため、文書数取得部１０４は、関連度が最も高い関連語「を食べる」を読み出す。以降、属性「場所」、「人名」等についても同様の処理を行う。
【００２２】
次に、文書数取得部１０４は、取得した単語に対して属性特定部１０６から読み出した関連語をそれぞれ結合して検索キーワードを作成する（ステップＳ５）。例えば、入力された単語が「スカイツリー」であり、関連属性記憶部１１０から読み出した関連語が「を食べる」、「へ行く」であった場合、文書数取得部１０４は、それぞれ「スカイツリーを食べる」、「スカイツリーへ行く」という検索キーワードを作成することとなる。
【００２３】
次に、文書数取得部１０４は、作成した検索キーワードを複数の検索エンジン２００に入力し、各検索エンジン２００から当該検索キーワードと一致する文字列を含む文書の数を取得する（ステップＳ６）。つまり、文書数取得部１０４は、入力された単語と関連語とが単語間距離０で共起する文書の数を、入力された単語と関連属性記憶部１１０が記憶する関連語に含まれる形態素とが係り受け関係にある文を含む文書書の数として取得する。例えば、ステップＳ５で作成した検索キーワードが「スカイツリーを食べる」、「スカイツリーへ行く」である場合、それぞれを検索エンジンＡで検索すると、「スカイツリーを食べる」を含む文書の数として４、「スカイツリーへ行く」を含む文書の数として１１６００が得られることとなる。
そして、文書数取得部１０４は、取得した文書数を、関連語と検索エンジン２００との組み合わせに関連付けて属性特定部１０６に出力する。また、文書数取得部１０４は、入力された単語を属性特定部１０６に出力する。
【００２４】
また、文書数取得部１０４は、ステップＳ４で読み出した関連語それぞれを検索キーワードとして各検索エンジン２００に入力し、各検索エンジン２００から当該関連語を含む文書の数を取得する（ステップＳ７）。次に、重み算出部１０５は、文書数取得部１０４が取得した、関連語を含む文書の数の逆数を算出し、当該逆数を文書数取得部１０４が取得した関連語それぞれの重み（関連語重み）とする（ステップＳ８）。例えば、ステップＳ４で読み出した関連語が「を食べる」、「へ行く」である場合において、それぞれを検索エンジンＡで検索すると、「を食べる」を含む文書の数として２１６０００００、「へ行く」を含む文書の数として３２９０００００が得られることとなる。この場合、重み算出部１０５は、「を食べる」の関連語重みを、１／２１６０００００とし、「へ行く」の関連語重みを１／３２９０００００とする。
そして、重み算出部１０５は、算出した関連語重みを、検索キーワードとした関連語と検索エンジン２００との組み合わせに関連付けて属性特定部１０６に出力する。
【００２５】
また、文書数取得部１０４は、ステップＳ１で取得した単語を検索キーワードとして各検索エンジン２００に入力し、各検索エンジン２００から当該単語を含む文書の数を取得する（ステップＳ９）。次に、重み算出部１０５は、文書数取得部１０４が取得した、単語を含む文書の数を、当該単語における検索エンジン２００の重み（検索重み）とする（ステップＳ１０）。そして、重み算出部１０５は、算出した検索重みを、検索エンジン２００に関連付けて属性特定部１０６に出力する。
【００２６】
次に、属性特定部１０６は、関連語と検索エンジン２００の組み合わせ毎に、文書数取得部１０４がステップＳ６で取得した文書数と重み算出部１０５が算出した関連語重みを乗算した値を算出する（ステップＳ１１）。具体的には、検索キーワードが「スカイツリーへ行く」である場合、属性特定部は、「検索キーワード『スカイツリーへ行く』を含む文書の数」に、「関連語『へ行く』を含む文書の数から算出した関連語重み」を乗算した値を算出する。上述した例を用いると、「スカイツリーを食べる」に対して算出される値は、４／２１６０００００＝０．００１８×１０^−６、「スカイツリーへ行く」に対して算出される値は、１１６００／３２９０００００＝３．５２×１０^−６となる。
【００２７】
次に、属性特定部１０６は、検索エンジン２００毎に、ステップＳ１１で算出した値が最も大きい関連語に関連付けられた属性を、関連属性記憶部１１０から読み出す（ステップＳ１２）。上述した例の場合、ステップＳ１１で算出した値のうち「スカイツリーへ行く」に対して算出された値が最も大きいため、属性特定部１０６は、関連語「へ行く」に関連付けられた属性「場所」を読み出す。
【００２８】
次に、属性特定部１０６は、検索エンジン２００毎に読み出された属性のうち、最も多い属性が複数存在するか否かを判定する（ステップＳ１３）。最も多い属性が複数存在する場合とは、例えば５つの検索エンジン２００を用いて検索を行った場合において、ステップＳ１２で検索エンジン２００毎に読み出された属性の個数が、「料理」２つ、「場所」２つ、「人名」１つであるときなどが挙げられる。
【００２９】
属性特定部１０６は、検索エンジン２００毎に読み出された属性のうち、最も多い属性が１つだけ存在すると判定した場合（ステップＳ１３：ＮＯ）、当該最も多い属性を、入力された単語の属性とする（ステップＳ１４）。他方、属性特定部１０６は、検索エンジン２００毎に読み出された属性のうち、最も多い属性が複数存在すると判定した場合（ステップＳ１３：ＹＥＳ）、属性毎に、当該属性を読み出す元となった検索エンジンの検索重みの総和を算出する（ステップＳ１５）。次に、属性特定部１０６は、当該算出した値が最も大きくなる属性を、入力された単語の属性とする（ステップＳ１６）。
【００３０】
ここで、ステップＳ１５、ステップＳ１６の動作について具体例を用いて説明する。５つの検索エンジン２００−１〜２００−５を用いて検索を行ったものとする。
このとき、検索重みが「０．６」である検索エンジン２００−１の検索結果から読み出された属性が「料理」であった。また、検索重みが「０．８」である検索エンジン２００−２の検索結果から読み出された属性が「場所」であった。また、検索重みが「０．２」である検索エンジン２００−３の検索結果から読み出された属性が「料理」であった。また、検索重みが「０．３」である検索エンジン２００−４の検索結果から読み出された属性が「人名」であった。また、検索重みが「０．７」である検索エンジン２００−５の検索結果から読み出された属性が「場所」であった。
このとき、「料理」の検索重みの総和は、０．６＋０．２＝０．８であり、「場所」の検索重みの総和は、０．８＋０．７＝１．５であり、「人名」の検索重みの総和は、０．３である。したがって、属性特定部１０６は、検索重みの総和が最も大きい属性「場所」を、入力された単語の属性とする。
【００３１】
属性特定部１０６は、ステップＳ１４またはステップＳ１６で入力された単語の属性を特定すると、属性記録部１０７は、入力された単語と特定した属性とを関連付けて属性記憶部１０９に記録する（ステップＳ１７）。また、単語属性出力部１０３は、属性特定部１０６がステップＳ１６で特定した属性を、ディスプレイなどの表示装置に出力し（ステップＳ１８）、処理を終了する。
【００３２】
次に、本実施形態による属性特定装置１００が、属性と関連語との関連度を更新する際の動作について説明する。
図４は、本実施形態による属性特定装置１００の関連度更新動作を示すフローチャートである。
属性特定装置１００は、定期的に関連属性記憶部１１０が記憶する属性と関連語との関連度を更新する。関連度の更新を開始すると、文書数取得部１０４は、関連属性記憶部１１０から１つの関連語と当該関連語が連なる単語の属性とを読み出す（ステップＳ１０１）。なお、ステップＳ１０１からステップＳ１０６の処理は、関連属性記憶部１１０が記憶する関連語毎に繰り返す。次に、文書数取得部１０４は、属性記憶部１０９が記憶する単語と当該単語の属性とを読み出す（ステップＳ１０２）。なお、ステップＳ１０２からステップＳ１０４の処理は、属性記憶部１０９が記憶する単語毎に繰り返す。
【００３３】
次に、文書数取得部１０４は、ステップＳ１０１で読み出した関連語とステップＳ１０２で読み出した単語とを結合して検索キーワードを作成する（ステップＳ１０３）。次に、文書数取得部１０４は、作成した検索キーワードを複数の検索エンジン２００に入力し、各検索エンジン２００から当該検索キーワードと完全一致する文字列を含む文書の数を取得する（ステップＳ１０４）。そして、文書数取得部１０４は、取得した文書数を、単語と、当該単語の属性と、関連語と、当該関連語が連なる単語の属性との組み合わせに関連付けて、関連度算出部１０８に出力する。
【００３４】
ステップＳ１０２からステップＳ１０４の処理を属性記憶部１０９が記憶する単語毎に実行すると、関連度算出部１０８は、まず、ある関連語と当該関連語の属性と同じ属性の複数単語の検索キーワードを含む文書数をそれぞれ取得し、当該文書数を単語数・検索エンジン数等で平均化した値Ａを算出する。また、関連度算出部１０８は、ある関連語と当該関連語の属性と異なる属性の複数単語の検索キーワードを含む文書数をそれぞれ取得し、当該文書数を単語数・検索エンジン数等で平均化した値Ｂを算出する。そして、関連度算出部１０８は、値Ａを値Ｂで除算した値を、関連語と属性との関連度とする（ステップＳ１０５）。
【００３５】
ここで、ステップＳ１０５の具体例として、ステップＳ１０１で関連属性記憶部１１０から読み出した関連語が「を食べる（属性「料理」の関連語）」であり、検索キーワードとして「餃子を食べる（属性「料理」の単語＋属性「料理」の関連語）」、「東京タワーを食べる（属性「場所」の単語＋属性「料理」の関連語）」、「宮沢賢治を食べる（属性「人名」の単語＋属性「料理」の関連語）」を用いた場合について説明する。
まず、関連度算出部１０８は、関連語と単語の属性が一致するキーワードを含む文書の数を取得する。本例では、関連度算出部１０８は、「餃子を食べる」を含む文書の数を取得する。検索エンジン２００−１、２００−２で検索を行った結果、「餃子を食べる」の文書数がそれぞれ２５０００００件と１３８００００件であった場合、これらの平均値である１９４００００を値Ａとする。
また、関連度算出部１０８は、関連語と単語の属性が一致しないキーワードを含む文書の数を取得する。本例では、関連度算出部１０８は、「東京タワーを食べる」及び「宮沢賢治を食べる」を含む文書の数を取得する。検索エンジン２００−１、２００−２で検索を行った結果、「東京タワーを食べる」の文書数がそれぞれ４件と７件であり、「宮沢賢治を食べる」の文書数がそれぞれ７件と５件であった場合、これらの平均値である５．７５を値Ｂとする。
そして値Ａである１９４００００を値Ｂである５．７５で除算した３３７３９１を、関連語「を食べる」と属性「料理」の関連度とする。
【００３６】
ここで、ステップＳ１０５の計算によって関連度を算出する理由を説明する。関連語と属性との関連度が高い場合、属性が一致する単語と当該関連語とで係り受けする数が多くなるため、検索キーワードを含む文書数と関連度との間には正の相関がある。他方、関連語と属性との関連度が高い場合、属性が一致しない単語と当該関連語とで係り受けする数が少なくなるため、検索キーワードを含む文書数と関連度との間には負の相関がある。そのため、単語と関連語との属性が一致する検索キーワードを含む文書数の平均値と、単語と関連語との属性が一致しない検索キーワードを含む文書数の平均値の逆数とを乗算することで、関連語と属性との関連度を算出することができる。
【００３７】
関連度算出部１０８は、ステップＳ１０５で関連度を算出すると、関連属性記憶部１１０が記憶する関連語の関連度を算出した関連度に書き換える（ステップＳ１０６）。ステップＳ１０１からステップＳ１０６の処理を関連属性記憶部１１０が記憶する関連語毎に実行すると、属性特定装置１００は、関連度更新動作を終了する。
【００３８】
このように、本実施形態によれば、属性特定装置１００は、入力された単語に係り受けする頻度の高い関連語を特定し、当該関連語が連なる単語の属性を入力された単語の属性とする。これにより、属性特定装置１００は、入力された単語の属性を精度良く特定することができる。
【００３９】
また、本実施形態によれば、文書数取得部１０４は、検索エンジン２００を用いてインターネット上に存在する文書の集合から、入力された単語と関連語とが係り受け関係にある文書数を取得する。これにより、属性特定装置１００は、単一文書ソースから共起情報を取得する場合と比較して判定の偏りの発生を少なくすることができる。また、新語などが発生した場合にも、新たに文書ソースを収集しなおす必要がないため、単語と属性の関係の判定を容易に行うことができる。
【００４０】
また、本実施形態によれば、文書数取得部１０４は、複数の検索エンジン２００を用いて、それぞれの検索エンジン２００から文書数を取得し、属性特定部１０６は、文書数取得部１０４が取得した文書数が最も多い関連語に関連付けられた属性を、検索エンジン２００毎に関連属性記憶部１１０から読み出す。そして属性特定部１０６は、読み出された数が最も多い属性を、入力された単語の属性とする。これにより、属性特定装置１００は、検索エンジン２００における検索結果の偏りの影響を抑えることができる。
【００４１】
また、本実施形態によれば、文書数取得部１０４は、関連属性記憶部１１０が記憶する形態素が含まれる文書の数を、関連語毎に取得し、重み算出部１０５は、文書数取得部１０４が取得した文書数が多いほど値が小さくなるように関連語重みを算出する。そして、属性特定部１０６は、文書数取得部１０４がステップＳ６で取得した文書数に重み算出部１０５が算出した関連語重みを乗算した値が最も大きい関連語に関連付けられた属性を、関連属性記憶部１１０から読み出す。つまり、属性特定部１０６は、ある関連語が入力された単語に連なる確率に基づいて単語の属性を特定する。これにより、属性特定装置１００は、関連語の絶対数に影響されずに単語の属性を特定することができ、また異なる属性の単語に連なることができる関連語の重みを小さくすることができる。
【００４２】
また、本実施形態によれば、関連度算出部１０８は、文書数に基づいて関連語と属性との関連度を算出し、文書数取得部１０４は、関連属性記憶部１１０が記憶する同じ属性に関連付けられた形態素のうち、関連度算出部１０８が算出した関連度が最も高い関連語と入力された単語とを結合した検索キーワードを生成する。これにより、属性特定装置１００は、属性との関連度が高い関連語のみを用いて検索を行うことができるために検索数が減少し、属性の判定に要する時間を短くすることができる。
【００４３】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態では、関連属性記憶部１１０が関連語と当該関連語が連なる単語の属性とを関連付けて記憶し、また文書数取得部１０４が入力された単語と関連語とを結合した検索キーワードに完全一致する（入力された単語と関連語との単語間距離が０で共起する）文書の数を取得する場合を説明したが、これに限られない。例えば、検索エンジン２００が近傍検索（２つの文字列が所定の単語間距離以内で出現する文書を検索する検索方式）に対応している場合は、以下に示す方法を用いて処理を行っても良い。
【００４４】
関連属性記憶部１１０は、関連語の代わりに単語に係り受けする形態素を記憶する。
文書数取得部１０４は、入力された単語と関連属性記憶部１１０が記憶する形態素とが所定の単語間距離（例えば、２単語以内や、５文字以内など）以下で共起する文書の数を取得する。これにより、文書数取得部１０４は、入力された単語と形態素との単語間距離が近い文書の数を取得することができる。入力された単語と形態素との単語間距離が近いということは、入力された単語と形態素とが係り受け関係にある確率が高いことを示す。したがって、上記実施形態と同様に、入力された単語の属性を精度良く特定することができる。また、関連語でなく形態素を用いることで、関連語を用いる上記実施形態と異なり、単語と形態素とを接続する助詞や助動詞が異なる文書も取得することができる。
【００４５】
また、例えば、検索エンジン２００が係り受け解析を伴う検索（２つの形態素が係り受け関係にある文書を検索する検索方式）に対応している場合は、以下に示す方法を用いて処理を行っても良い。
【００４６】
関連属性記憶部１１０は、関連語の代わりに単語に係り受けする形態素を記憶する。
文書数取得部１０４は、入力された単語と関連属性記憶部１１０が記憶する形態素とが係り受け関係にある文書の数を取得する。係り受け関係を指定して検索することができる場合、入力された単語と形態素とが係り受け関係にない文書を取得することがなく、また単語と形態素とを接続する助詞や助動詞が異なる文書も取得することができる。
【００４７】
また、本実施形態では、重み算出部１０５は、関連語を含む文書数の逆数を算出することで関連語重みを算出する場合を説明したが、これに限られず、文書数取得部１０４が取得した文書数が多いほど値が小さくなるのであれば、他の算出方法を用いても良い。
【００４８】
また、本実施形態では、重み算出部１０５は、入力された単語を含む検索エンジン２００毎の文書数を検索重みとする場合を説明したが、これに限られず、文書数取得部１０４が取得した文書数が多いほど値が大きくなるのであれば、他の算出方法を用いても良い。
【００４９】
なお、本実施形態では、関連語（形態素）が単語に係り受けする文を含む文書の数を用いて単語の属性を特定する場合を説明したが、これに限られない。例えば、関連語（形態素）が単語に係り受けする文の数、または当該文を含むページのページ数を用いて単語の属性を特定しても良い。
【００５０】
上述の属性特定装置１００は内部に、コンピュータシステムを有している。そして、上述した各処理部の動作は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
【００５１】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【符号の説明】
【００５２】
１００…属性特定装置１０１…単語入力部１０２…属性読み出し部１０３…単語属性出力部１０４…文書数取得部１０５…重み算出部１０６…属性特定部１０７…属性記録部１０８…関連度算出部１０９…属性記憶部１１０…関連属性記憶部２００…検索エンジン

【特許請求の範囲】
【請求項１】
入力された単語の属性を特定する属性特定装置であって、
単語に係り受けする形態素と当該形態素が係り受けする単語の属性とを関連付けて記憶する関連属性記憶部と、
所定の文書集合において、入力された単語と前記関連属性記憶部が記憶する形態素とが係り受け関係にある文の数、当該文を含むページのページ数、または当該文を含む文書の数である係り受けヒット数を、前記形態素毎に取得する係り受けヒット数取得部と、
前記係り受けヒット数取得部が取得した係り受けヒット数が最も多い形態素に関連付けられた属性を前記関連属性記憶部から読み出し、当該属性を前記入力された単語の属性とする属性特定部と
を備えることを特徴とする属性特定装置。
【請求項２】
前記係り受けヒット数取得部は、前記入力された単語と前記形態素とが所定の単語間距離以下で共起する文書の数を、前記係り受けヒット数として取得する
ことを特徴とする請求項１に記載の属性特定装置。
【請求項３】
前記係り受けヒット数取得部は、複数の検索エンジンを用いて、それぞれの検索エンジンから係り受けヒット数を取得し、
前記属性特定部は、前記係り受けヒット数取得部が取得した係り受けヒット数が最も多い形態素に関連付けられた属性を前記検索エンジン毎に前記関連属性記憶部から読み出し、前記属性のうち読み出された数が最も多い属性を前記入力された単語の属性とする
ことを特徴とする請求項１または請求項２に記載の属性特定装置。
【請求項４】
前記文書集合において前記関連属性記憶部が記憶する形態素の数、当該形態素を含むページのページ数、または当該形態素を含む文書の数である形態素ヒット数を、前記形態素毎に取得する形態素ヒット数取得部と、
前記形態素ヒット数取得部が取得した形態素ヒット数が多いほど値が小さくなるように前記形態素の形態素重みを算出する形態素重み算出部と
を備え、
前記属性特定部は、前記係り受けヒット数取得部が取得した係り受けヒット数に前記形態素重み算出部が算出した形態素重みを乗算した値が最も大きい形態素に関連付けられた属性を、前記関連属性記憶部から読み出し、当該属性を前記入力された単語の属性とする
ことを特徴とする請求項１から請求項３の何れか１項に記載の属性特定装置。
【請求項５】
単語と当該単語の属性とを関連付けて記憶する属性記憶部と、
所定の文書集合において、前記属性記憶部が記憶する単語と前記関連属性記憶部が記憶する形態素とが係り受け関係にある文の数、当該文を含むページのページ数、または当該文を含む文書の数を前記形態素毎に取得し、当該数に基づいて前記形態素と属性との関連度を算出する関連度算出部とを備え、
前記関連属性記憶部は、１つの属性に関連付けて複数の形態素を記憶しており、
前記係り受けヒット数取得部は、所定の文書集合において、前記関連属性記憶部が記憶する同じ属性に関連付けられた形態素のうち、前記関連度算出部が算出した関連度が最も高い形態素と、前記入力された単語とが係り受け関係にある文のヒット数を取得する
ことを特徴とする請求項１から請求項４の何れか１項に記載の属性特定装置。
【請求項６】
単語に係り受けする形態素と当該形態素が係り受けする単語の属性とを関連付けて記憶する関連属性記憶部を備え、入力された単語の属性を特定する属性特定装置を用いた属性特定方法であって、
係り受けヒット数取得部は、所定の文書集合において、入力された単語と前記関連属性記憶部が記憶する形態素とが係り受け関係にある文の数、当該文を含むページのページ数、または当該文を含む文書の数である係り受けヒット数を、前記形態素毎に取得し、
属性特定部は、前記係り受けヒット数取得部が取得した係り受けヒット数が最も多い形態素に関連付けられた属性を前記関連属性記憶部から読み出し、当該属性を前記入力された単語の属性とする
ことを特徴とする属性特定方法。
【請求項７】
単語に係り受けする形態素と当該形態素が係り受けする単語の属性とを関連付けて記憶する関連属性記憶部を備えるコンピュータを、
所定の文書集合において、入力された単語と前記関連属性記憶部が記憶する形態素とが係り受け関係にある文の数、当該文を含むページのページ数、または当該文を含む文書の数である係り受けヒット数を、前記形態素毎に取得する係り受けヒット数取得部、
前記係り受けヒット数取得部が取得した係り受けヒット数が最も多い形態素に関連付けられた属性を前記関連属性記憶部から読み出し、当該属性を前記入力された単語の属性とする属性特定部
として機能させるプログラム。

【図１】