説明

読み推定装置、読み推定方法、および読み推定プログラム

【課題】誤った読み仮説と読み推定対象単語の表記がたまたま同一文書内に現れていることが原因で読み推定の精度が劣ることを防止し、高精度で読み推定を行うこと。
【解決手段】読み仮説生成部101は、読み推定対象単語に対し、複数の読み仮説を生成する。また、共起スコア計算部103は、複数の読み仮説の各々について、予め準備された文書群における読み推定対象単語との共起関係を用いて共起スコアを求める。そして、仮説選択部105は、共起スコアに基づき、複数の読み仮説から1つ以上の読み仮説を選択する。ここで、共起スコア計算部103は、読み推定対象単語および読み仮説の双方が現れる文書の数のみならず、該文書内における読み推定対象単語と読み仮説との間の距離を上記共起関係として求め、当該求めた共起関係に基づき共起スコアを求める。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、読み推定装置、読み推定方法、および読み推定プログラムに関するものである。
【背景技術】
【0002】
音声認識や音声合成のためには、漢字、アルファベット、または記号を含む単語に読み仮名を付与する必要があり、従来の読み推定システムとして、下記の特許文献1に示すような装置が存在する。この装置では、入力された文書から辞書に存在しない未登録語を抽出し、その読みと表記及びその読みから表記への条件付確率を対応付けたテーブルと、読みとその出現確率とを対応付けたテーブルとを記憶する。そして、これらテーブルを用いて未登録語の表記に対応する条件付確率が最大となる読み候補を生成し、読み候補と未登録語の表記とのペアを検索キーワードとして文書検索を行う。検索の結果、該キーワードを含む文書数を求め、この文書数に基づいて読み候補から未登録語の読みを選択する。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−204732号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記装置による単語読み推定では、読み候補と未登録語の表記とのペアを検索キーワードとして文書検索を行い、該キーワードを含む文書の数を求め、当該求めた文書の数に基づいた読み候補の絞込みが可能となる。しかしながら、誤った読み候補と未登録語の表記がたまたま同一文書内に現れる場合があり、上記装置による単語読み推定では、このような場合に対した有効な解決策が示されていない。すなわち、上記装置による単語読み推定では、読み候補および未登録語の表記がともに記載されている文書の数のみに基づいて単語読み推定を行うため、誤った読み候補と未登録語の表記がたまたま同一文書内に現れた場合には、誤った読み候補が読み推定の最終結果として選択されてしまうおそれがある。
【0005】
そこで、本発明は上記に鑑みてなされたもので、誤った読み候補と未登録語の表記がたまたま同一文書内に現れていることが原因で未登録語の読み推定の精度が劣ることを防止し、高精度で未登録語の読み推定を行うことが可能な読み推定装置、読み推定方法、および読み推定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明の読み推定装置は、読み推定対象単語に対し、複数の読み仮説を生成する読み仮説生成手段と、前記複数の読み仮説の各々について、予め準備された文書群における前記読み推定対象単語との共起関係を用いて共起スコアを求めるものであり、前記読み推定対象単語および前記読み仮説の双方が現れる文書の数、および該文書内における前記読み推定対象単語と前記読み仮説との間の距離を前記共起関係として求め、当該求めた共起関係に基づき前記共起スコアを求める共起スコア計算手段と、前記共起スコアに基づき、前記複数の読み仮説から1つ以上の読み仮説を選択する仮説選択手段と、を備える。
【0007】
また、本発明の読み推定方法は、読み仮説生成手段が、読み推定対象単語に対し、複数の読み仮説を生成する読み仮説生成ステップと、共起スコア計算手段が、前記複数の読み仮説の各々について、予め準備された文書群における前記読み推定対象単語との共起関係を用いて共起スコアを求めるステップであり、前記共起スコア計算手段が、前記読み推定対象単語および前記読み仮説の双方が現れる文書の数、および該文書内における前記読み推定対象単語と前記読み仮説との間の距離を前記共起関係として求め、当該求めた共起関係に基づき前記共起スコアを求める共起スコア計算ステップと、仮説選択手段が、前記共起スコアに基づき、前記複数の読み仮説から1つ以上の読み仮説を選択する仮説選択ステップと、を備える。
【0008】
また、本発明の読み推定プログラムは、コンピュータを読み推定装置として動作させる読み推定プログラムであって、前記コンピュータを、読み推定対象単語に対し、複数の読み仮説を生成する読み仮説生成手段と、前記複数の読み仮説の各々について、予め準備された文書群における前記読み推定対象単語との共起関係を用いて共起スコアを求めるものであり、前記読み推定対象単語および前記読み仮説の双方が現れる文書の数、および該文書内における前記読み推定対象単語と前記読み仮説との間の距離を前記共起関係として求め、当該求めた共起関係に基づき前記共起スコアを求める共起スコア計算手段と、前記共起スコアに基づき、前記複数の読み仮説から1つ以上の読み仮説を選択する仮説選択手段と、として機能させる。
【0009】
このような本発明の読み推定装置、読み推定方法、および読み推定プログラムによれば、読み仮説生成手段は、読み推定対象単語に対し、複数の読み仮説を生成する。また、共起スコア計算手段は、複数の読み仮説の各々について、予め準備された文書群における読み推定対象単語との共起関係を用いて共起スコアを求める。そして、仮説選択手段は、共起スコアに基づき、複数の読み仮説から1つ以上の読み仮説を選択する。ここで、共起スコア計算手段は、読み推定対象単語および読み仮説の双方が現れる文書の数のみならず、該文書内における読み推定対象単語と読み仮説との間の距離を上記共起関係として求め、当該求めた共起関係に基づき共起スコアを求める。このように、本発明において読み推定の尺度となる共起スコアが計算される際には、文書内における読み推定対象単語と読み仮説との間の距離が共起関係計算のためのパラメータとして反映される。このため、誤った読み仮説(誤った読み候補)と読み推定対象単語(未登録語)の表記がたまたま同一文書内に現れていることが原因で読み推定の精度が劣ることが防止され、高精度で読み推定を行うことが可能となる。なお、例えば、距離が近い程、読み推定対象単語と読み仮説との間に強い共起関係があるものとして、共起スコアを計算してもよい。
【0010】
本発明において、前記共起スコア計算手段は、前記読み推定対象単語および前記読み仮説を含む特定のパターンが現れる文書の数、および該文書内における前記特定のパターンの出現回数を前記共起関係として更に求め、当該求めた共起関係に基づき前記共起スコアを求めてもよい。
【0011】
この発明によれば、読み推定の尺度となる共起スコアが計算される際に、読み推定対象単語および読み仮説を含む特定のパターンが現れる文書の数、および該文書内における特定のパターンの出現回数が共起関係計算のための更なるパラメータとして反映される。このため、誤った読み仮説と読み推定対象単語の表記がたまたま同一文書内に現れていることが原因で読み推定の精度が劣ることが防止され、高精度で読み推定対象単語の読み推定を行うことが可能となる。なお、例えば、上記の特定のパターンが現れる文書の数および特定のパターンの出現回数が多い程、読み推定対象単語と読み仮説との間に強い共起関係があるものとして、共起スコアを計算してもよい。
【0012】
本発明において、前記読み仮説生成手段は、前記複数の読み仮説の各々に対する仮説スコアを更に生成し、前記読み仮説の各々について、前記仮説スコアおよび前記共起スコアに基づき合成スコアを求める合成スコア計算手段を更に備え、前記仮説選択手段は、前記合成スコアに基づき、前記複数の読み仮説から1つ以上の読み仮説を選択してもよい。
【0013】
この発明によれば、仮説スコアを読み推定の更なるパラメータとして導入することにより、読み推定を更に高精度で行うことが可能となる。
【0014】
本発明において、前記共起スコア計算手段は、前記予め準備された文書群において、前記読み推定対象単語が現れる文書の数、および前記読み仮説が現れる文書の数を前記共起関係として更に求め、当該求めた共起関係に基づき前記共起スコアを求めてもよい。
【0015】
この発明によれば、読み推定の尺度となる共起スコアまたは合成スコアが計算される際に、読み推定対象単語および読み仮説の双方が現れる文書の数のみならず、読み推定対象単語が単独で現れる文書の数、および読み仮説が単独で現れる文書の数が共起関係計算のための更なるパラメータとして反映される。これにより、読み推定を更に高精度で行うことが可能となる。
【0016】
本発明において、前記共起スコア計算手段は、前記予め準備された文書群において、前記読み推定対象単語および前記読み仮説の双方が現れる文書の数C、前記読み推定対象単語が現れる文書の数C、および前記読み仮説が現れる文書の数Cを用いて、式(1)に従い共起文書数スコアSを求め、前記共起関係として当該求めた共起文書数スコアSに基づき前記共起スコアを求めてもよい。
【数1】

【0017】
この発明によれば、読み推定の尺度となる共起スコアまたは合成スコアが計算される際に、読み推定対象単語および読み仮説の双方が現れる文書の数のみならず、読み推定対象単語が単独で現れる文書の数、および読み仮説が単独で現れる文書の数を共起関係計算のための更なるパラメータとして反映させるための具体的な方法が提供される。
【0018】
本発明において、前記距離は、前記読み推定対象単語と前記読み仮説との間に存在する段落、文、形態素、または文字の数によって定義されてもよい。
【0019】
この発明によれば、読み推定対象単語および読み仮説の双方が現れる文書内において、読み推定対象単語と読み仮説との間の距離を定義するための具体的な方法が提供される。
【0020】
本発明において、前記特定のパターンは、予め定められた特定の文字または特定の記号を間に挟んで、前記読み推定対象単語および前記読み仮説の双方が同一文書中に現れるパターンであってもよい。
【0021】
この発明によれば、読み推定対象単語および読み仮説の双方が現れる文書内において、読み推定対象単語および読み仮説を含んで構成される特定のパターンを定義するための具体的な方法が提供される。
【0022】
本発明において、前記特定のパターンは、同一文書中において、予め定められた特定のタグで挟まれた区間内に、前記読み推定対象単語および前記読み仮説の双方が現れるパターンであってもよい。
【0023】
この発明によれば、読み推定対象単語および読み仮説の双方が現れる文書内において、読み推定対象単語および読み仮説を含んで構成される特定のパターンを定義するための具体的な方法が提供される。
【0024】
本発明において、前記予め準備された文書群から、前記特定の文字、前記特定の記号、または前記特定のタグと、前記読み推定対象単語との双方が現れる文字列を抽出する文字列抽出手段を更に備え、前記共起スコア計算手段は、当該抽出した文字列をもとに、前記共起関係を求めてもよい。
【0025】
この発明によれば、文字列抽出手段が所定の条件を満たす一部の読み候補を抽出すると、共起スコア計算手段は当該抽出した読み候補のみを対象に共起関係を求める。これにより、共起スコア計算手段が演算対象とする読み候補が、文字列抽出手段によって一次的にフィルタリングされることとなる。したがって、共起スコア計算手段の演算対象を減らすことができ、多数の読み仮説に対して文書検索を行う必要がなく、装置全体としての処理時間を短縮でき、ネットワーク負荷を削減することができる。
【0026】
本発明において、前記予め準備された文書群は、インターネット上に存在するウェブページ群であってもよい。
【0027】
この発明によれば、インターネット上に存在する膨大な量のウェブページ群を用いて、共起関係の計算を高精度で行うことが可能となる。
【0028】
本発明において、前記共起スコア計算手段は、ウェブ検索エンジンを用いて前記ウェブページ群を検索することにより、前記共起関係を求めてもよい。
【0029】
この発明によれば、インターネット上に存在する膨大な量のウェブページ群を用いて共起関係の計算を高精度で行うための具体的な方法が提供される。
【0030】
本発明において、前記共起スコア計算手段は、文字列の曖昧マッチングに基づき、前記文書群に前記読み仮説が現れているか否かを判断してもよい。
【0031】
この発明によれば、共起スコア計算手段による検索方法に柔軟性を付与することができる。
【0032】
本発明において、前記共起スコア計算手段は、前記共起スコアの計算対象である前記読み仮説を、前記曖昧マッチングによる結果に置き換えてもよい。
【0033】
この発明によれば、曖昧マッチングの結果を利用して読み仮説に対する補正を行うことができる。
【発明の効果】
【0034】
本発明によれば、誤った読み仮説と読み推定対象単語の表記がたまたま同一文書内に現れていることが原因で読み推定の精度が劣ることが防止され、高精度で読み推定を行うことが可能となる。
【図面の簡単な説明】
【0035】
【図1】本発明の第1実施形態に係る読み推定装置1の構成概要図である。
【図2】読み推定装置1のハードウェア構成図である。
【図3】共起スコア計算部103の具体的なモジュール構成の一例を示すブロック図である。
【図4】読み推定装置1の動作を示すフローチャートである。
【図5】本発明の第2実施形態に係る読み推定装置1Aの構成概要図である。
【発明を実施するための形態】
【0036】
以下、添付図面を参照して本発明にかかる読み推定装置、読み推定方法、および読み推定プログラムの好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
【0037】
[第1実施形態]
(読み推定装置1の全体構成)
まず、本発明の第1実施形態に係る読み推定装置1の全体的な構成について、図1を参照しながら説明する。図1は、読み推定装置1の構成概要図である。図1に示すように、読み推定装置1は、外部から読み不明単語(読み推定対象単語、未登録語)の入力を受け、当該単語の読みを推定した結果を出力する装置である。読み推定対象単語は表記のみの形で与えられ、対応する読みが不明であるものをいう。
【0038】
図2は読み推定装置1のハードウェア構成図である。図2に示すように、読み推定装置1は、物理的には、CPU11、ROM12およびRAM13等の主記憶装置、キーボードおよびマウス等の入力デバイス14、ディスプレイ等の出力デバイス15、外部の他の装置との間でデータの送受信を行うための通信モジュール16、ハードディスク等の補助記憶装置17などを含む通常のコンピュータシステムとして構成される。後述する読み推定装置1の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のコンピュータソフトウェア(後述の読み推定プログラムを含む)を読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出しおよび書き込みを行うことで実現される。
【0039】
図1に戻り、読み推定装置1は、機能的には、読み仮説生成部101(特許請求の範囲における「読み仮説生成手段」および「読み仮説生成ステップ」に相当)、文書群保持部102、共起スコア計算部103(特許請求の範囲における「共起スコア計算手段」および「共起スコア計算ステップ」に相当)、最終スコア計算部104(特許請求の範囲における「合成スコア計算手段」および「合成スコア計算ステップ」に相当)、および仮説選択部105(特許請求の範囲における「仮説選択手段」および「仮説選択ステップ」に相当)を備えて構成される。以下、読み推定装置1の各構成要素について詳細に説明する。
【0040】
(読み仮説生成部101)
読み仮説生成部101は、外部から与えられた読み推定対象単語に対して複数の読み仮説を生成するとともに、当該複数の読み仮説の各々に対する仮説スコアを生成するものである。読み仮説生成部101は、生成した読み仮説を共起スコア計算部103に出力し、生成した仮説スコアを最終スコア計算部104に出力する。
【0041】
(文書群保持部102)
文書群保持部102は、事前に収集された複数の文書からなる文書群を保持しており、共起スコア計算部103の要求に基づき、保持している文書群を共起スコア計算部103に提供するものである。文書群保持部102に予め準備された文書群は、インターネット(WWW)上に存在するウェブページ群であってもよい。この場合には、インターネット上に存在する膨大な量のウェブページ群を用いて、本実施形態による共起関係の計算を高精度で行うことが可能となる。
【0042】
(共起スコア計算部103)
共起スコア計算部103は、読み仮説生成部101から入力された複数の読み仮説の各々について、予め準備された文書群における読み推定対象単語との共起関係を用いて共起スコアを求めるものである。すなわち、共起スコア計算部103は、予め準備された文書群において、読み推定対象単語および読み仮説の双方が現れる文書の数、および該文書内における読み推定対象単語と読み仮説との間の距離を上記共起関係として求め、当該求めた共起関係に基づき上記共起スコアを求める。ここで、「読み推定対象単語と読み仮説との間の距離」とは、読み推定対象単語と読み仮説との間に存在する段落、文、形態素、または文字の数によって定義されるパラメータである。
【0043】
また、共起スコア計算部103は、読み推定対象単語および読み仮説を含む特定のパターンが現れる文書の数、および該文書内における特定のパターンの出現回数を上記共起関係として更に求め、当該求めた共起関係に基づき上記共起スコアを求める。ここで、「読み推定対象単語および読み仮説を含む特定のパターン」とは、予め定められた特定の文字または特定の記号を間に挟んで、読み推定対象単語および読み仮説の双方が同一文書中に現れるパターンであっても良く、同一文書中において、予め定められた特定のタグで挟まれた区間内に、読み推定対象単語および読み仮説の双方が現れるパターンであってもよい。共起スコア計算部103は、求めた共起スコアを最終スコア計算部104に出力する。
【0044】
図3は、以上で説明した共起スコア計算部103の具体的なモジュール構成の一例を示すブロック図である。共起スコア計算部103は、図3に示されるように、共起文書数スコア計算部301、文書内距離スコア計算部302、特定共起表現スコア計算部303のうち1つ以上と、スコア合算部304を備えて構成される。
【0045】
共起文書数スコア計算部301は、文書群保持部102が保持する文書群から、読み推定対象単語および読み仮説の双方が現れる文書の数Cを共起関係として計数し、共起文書数スコアとしてスコア合算部304に出力する。読み推定対象単語および読み仮説の双方を含む文書の検出には、文字列マッチングまたは文書に対する形態素解析の結果を用いることができる。また、共起文書数スコア計算部301は、文書群保持部102が保持する文書群から、読み推定対象単語が単独で現れる文書の数Cと、読み仮説が単独で現れる文書の数Cとを共起関係として更に係数し、読み推定対象単語および読み仮説の双方を含む文書の数Cと、読み推定対象単語のみを含む文書の数Cと、読み仮説のみを含む文書の数Cとを用いて、共起文書数スコアを求めてもよい。この場合、共起文書数スコアは、例えば下記の式(1)におけるSとして求めることができる。
【数2】

【0046】
文書内距離スコア計算部302は、文書群保持部102が保持する文書群から、読み推定対象単語および読み仮説の双方を含む文書を検出し、検出された各々の文書内における読み推定対象単語と読み仮説との間の距離を共起関係として求める。文書内距離スコア計算部302は、検出された各々の文書内における読み推定対象単語と読み仮説の距離から単一文書内での距離スコアを求め、スコア合算部304に出力する。ここで、「単一文書内での距離スコア」は、各々の文書に対して求められる距離の最小値または平均値を計算することにより求めることができる。
【0047】
特定共起表現スコア計算部303は、文書群保持部102が保持する文書群から、読み推定対象単語および読み仮説の双方からなる特定のパターンを含む文書数、または文書群中にパターン文字列(上記特定のパターンを含む文字列)が現れる回数を共起関係として計数し、その数を特定共起表現スコアとしてスコア合算部304に出力する。特定共起表現スコア計算部303は、「特定のパターン」として、括弧記号やスラッシュなどの、予め定められた特定の文字や記号のみを間に挟んで読み推定対象単語および読み仮説の双方が同一文書中に現れるパターン(例えば、読み推定対象単語が『明日』、読み仮説が『あした』である場合には、『あした/明日』や『明日[あした』など)を検出し、係数してもよい。また、特定共起表現スコア計算部303は、文書がHTMLなどのマークアップ言語で記述されている場合に、同一文書中の、予め定められた特定のタグで挟まれた区間内に読み推定対象単語および読み仮説の双方が現れるパターン(例えば、<title>あしたの明日はあさって</title>)を検出し、係数してもよい。
【0048】
スコア合算部304は、共起文書数スコア計算部301から入力された共起文書数スコア、文書内距離スコア計算部302から入力された文書内距離スコア、および特定共起表現スコア計算部303から入力された特定共起表現スコアの何れか1つ以上を共起関係として用いて共起スコアを計算し、それを最終スコア計算部104へ出力する。スコア合算部304は、共起文書数スコア、文書内距離スコア、特定共起表現スコアの何れか1つをそのまま、または定数倍して共起スコアとしてもよい。また、スコア合算部304は、共起文書数スコア、文書内距離スコア、特定共起表現スコアの何れか2つ以上の、例えば、重み付き和、重み付き積、重み付き対数和、または重み付き対数積を共起スコアとして計算してもよい。
【0049】
文書群保持部102に予め準備された文書群がインターネット(WWW)上に存在するウェブページ群である場合には、共起文書数スコア計算部301、文書内距離スコア計算部302、または特定共起表現スコア計算部303は、ウェブ検索エンジンを用いて上記ウェブページ群を検索することにより、それぞれのスコアを共起関係として求めることができる。ウェブ検索エンジンを用いることにより、読み推定対象単語および読み仮説の双方が現れる文書の数、読み推定対象単語が単独で現れる文書の数、および読み仮説が単独で現れる文書の数を容易に検出することができる。
【0050】
共起文書数スコア計算部301、文書内距離スコア計算部302、および特定共起表現スコア計算部303の何れか1つ以上は、文書群保持部102が保持する文書群から読み仮説を検出または計数する際、文字列の完全一致ではなく、文字列の曖昧マッチングに基づき、上記文書群に読み仮説が現れているか否かを判断してもよい。これにより、共起スコア計算部103による検索方法に柔軟性を付与することができる。なお、文字列の曖昧なマッチングには、例えば文字列の間の編集距離を用いることができる。また、この際に、共起文書数スコア計算部301、文書内距離スコア計算部302、および特定共起表現スコア計算部303の何れか1つ以上は、共起スコアの計算対象である読み仮説を、上記曖昧マッチングによる検出結果に置き換えてもよい。これにより、曖昧マッチングの結果を利用して読み仮説に対する補正を行うことができる。
【0051】
(最終スコア計算部104)
最終スコア計算部104は、読み仮説生成部101から入力された仮説スコア、および共起スコア計算部103から入力された共起スコアに基づき、最終スコア(特許請求の範囲における「合成スコア」に相当)を求めるものである。最終スコア計算部104は、求めた最終スコアを仮説選択部105に出力する。
【0052】
(仮説選択部105)
仮説選択部105は、最終スコア計算部104から入力された最終スコアに基づき、読み推定対象単語に対する複数の読み仮説から1つ以上の読み仮説を選択するものである。なお、図示まではしないが、読み仮説生成部101が仮説スコアを生成せず、読み推定装置1が最終スコア計算部104を有さないで構成された場合には、共起スコア計算部103が求めた共起スコアを仮説選択部105に出力し、仮説選択部105は、当該共起スコアに基づき、読み推定対象単語に対する複数の読み仮説から1つ以上の読み仮説を選択する。仮説選択部105は、当該選択した1つ以上の読み仮説を読み推定結果として最終的に出力する。
【0053】
(読み推定装置1の動作)
続いて、読み推定装置1により行われる動作について、図4を参照しながら説明する。図4は、読み推定装置1の動作を示すフローチャートである。
【0054】
最初に、ステップS201において読み仮説生成部101が、読み推定対象単語を外部から取得する(ステップS201)。以下、読み推定単語が「田中」である場合の処理を例示する。
【0055】
次に、ステップS202において読み仮説生成部101が、読み推定対象単語から複数の読み仮説を生成し、読み推定対象単語とともに共起スコア計算部103に出力する。読み推定対象単語から読み仮説を生成する方法としては、すでに多数の方法が公に知られているため、本実施形態ではその詳細な説明は省略する。読み仮説生成部101は、例えば下記の参考文献に記載されている方法を用いて読み仮説の生成を行ってもよい。
<参考文献>
参考文献1.特開2004−151847号公報
参考文献2.特開2007−171275号公報
なお、読み仮説生成部101が複数の読み推定方法を用いてそれぞれ1つ以上の読み仮説を生成し、それらを集めて複数の読み仮説としてもよい。前述の例「田中」の場合には、たとえば「たなか」「でんちゅう」といった複数の読み仮説が生成される。
【0056】
更に、ステップ202において読み仮説生成部101が、生成した複数の読み仮説の各々に対して、仮説の確信度を表す仮説スコアを生成してもよい。仮説スコアを求める方法としても、すでに多数の方法が公に知られているため、本実施形態ではその詳細な説明を省略する。読み仮説生成部101は、例えば上記の参考文献に記載されている方法を用いて仮説スコアを求めてもよい。前述の例「田中」の場合には、たとえば「たなか」:0.5、「でんちゅう」:0.8といったように、読み仮説の各々に仮説スコアが付与されてもよい。
【0057】
次に、ステップ203において共起スコア計算部103が、読み仮説生成部101から与えられた複数の読み仮説から、まだ最終スコアが付与されていない読み仮説を1つ選択する。
【0058】
次に、ステップ204において共起スコア計算部103が、文書群保持部102に保持された文章群の中における読み推定対象単語の表記と、上記ステップ203にて選択された読み仮説との間の共起関係を調べ、共起スコアを計算する。共起スコア計算部103の内部では、上述したように、共起文書数スコア、文書内距離スコア、特定共起表現スコアなどが計算され、これらに基づき共起スコアが計算される。共起スコア計算部103は、計算した共起スコアを最終スコア計算部104に出力する。一例として、前述の語「田中」において、「たなか」:1.0、「でんちゅう」:0.1と共起スコアが計算されたものとする。
【0059】
次に、ステップ205において最終スコア計算部104が、ステップ204にて入力された共起スコアから最終スコアを計算し、それをステップ203にて選択された読み仮説に付与する。最終スコア計算部104は、共起スコアそのもの、またはその定数倍を最終スコアとしてもよい。または、最終スコア計算部104は、共起スコアに加えて、ステップ202にて読み仮説生成部101により生成された仮説スコアを最終スコアの計算に利用してもよい。共起スコアと仮説スコアとを用いた最終スコアの計算には、例えば、重み付き和、重み付き積、重み付き対数和、または重み付き対数積を用いることができる。例として、前述の語「田中」について、共起スコアと仮説スコアの和として最終スコアが計算され、その値が「たなか」:1.5、「でんちゅう」:0.9となったものとする。
【0060】
次に、ステップ206では、ステップ202で生成された複数の読み仮説の全てに最終スコアが付与されたか否かを確認し、まだ最終スコアが付与されていない読み仮説が存在する場合には(ステップ206:NO)、上述したステップ203からステップ205までの処理を実行する。なお、図示はしないが、ステップ206を実行するために別途の判断手段を設けてもよい。
【0061】
ステップ203からステップ206までの処理の繰り返しにより、全ての読み仮説に最終スコアが付与されたことが判断された後に(ステップ206:YES)、ステップ207において仮説選択部105が、全ての読み仮説に付与された最終スコアを比較し、ステップ202にて生成された複数の読み仮説から読み推定結果を1つ以上選択し、それを読み推定装置1の最終的な出力とする。前述の例の場合には、読み仮説の中から、最終スコアを最大とする読み「たなか」が選択される。
【0062】
以上、第1実施形態にかかる読み推定装置1について説明した。文書群が十分に大量である場合には、文書群の中に読み推定対象単語と正しい読みの双方を含む文書が多数存在することが期待できる。また、単語とその読みは文書内で近い距離に存在する場合が多いため、読み推定対象単語と読み仮説とが近い距離に存在する場合は、その読み仮説が読み推定対象単語の正しい読みである可能性が高い。また、読み推定対象単語の表記と読みは特定のパターンに従って文書中に現れる場合が多いため、読み推定対象単語と読み仮説が特定のパターンに従って同一文書中に現れた場合には、その読み仮説が読み推定対象単語の正しい読みである可能性が高い。従って、文書群が十分に大量であれば、正しい読み仮説に対する共起スコアは、誤った仮説に対する共起スコアよりほとんどの場合において高い値となる。従って、本実施形態による共起スコアを利用して計算された最終スコアを用いて読み仮説の選択を行うことにより、例えば仮説スコアのみから読みの推定を行った場合と比較して、高い精度で読みの推定を行うことができる。
【0063】
[第2実施形態]
引き続き、本発明の第2実施形態に係る読み推定装置1Aについて、図5を参照しながら説明する。図5は、読み推定装置1Aの構成概要図である。図5に示すように、読み推定装置1Aは、図1に示した第1実施形態の読み推定装置1の構成要素を、読み仮説生成部101を除いて全て含み、文字列抽出部106、仮説スコア計算部107を更に含む構成となっている。以下では、主に、第1実施形態との相違点について説明する。
【0064】
文字列抽出部106は、文書群保持部102に予め準備された文書群から、特定の文字、特定の記号、または特定のタグと、読み推定対象単語との双方が現れる文字列を抽出するものである。文字列抽出部106は、ひらがな文字またはカタカナ文字が読み推定対象単語の近く、または上記特定の文字、記号、タグなどを挟んで存在する文字列を抽出してもよい。特定の文字または特定の記号は、上述した例えば「/」や「[」である。また、特定のタグは、上述した例えば「<title>」や「</title>」である。このようにして、文字列抽出部106は、対象単語の読み候補となりうるかな文字列を文書群保持部102に予め準備された文書群から抽出する。前記読み候補は、第1実施形態の読み仮説生成部101で生成される仮説数が非常に多くなる場合にも、数が少ないことが特徴である。文字列抽出部106は、このような少数の読み候補を仮説スコア計算部107に出力する。そして、仮説スコア計算部107は、文字列抽出部106から入力した読み候補を読み仮説として取り扱い、第1実施形態で説明した仮説スコアを計算する。また、共起スコア計算部103Aは、文字列抽出部106から入力した読み候補に対し、第1実施形態で説明した共起スコアを計算する。最終スコア計算部104Aは、仮説スコア計算部107から得られた仮説スコアと、共起スコア計算部103Aから得られた共起スコアを用いて、第1実施形態で説明した最終スコアを計算する。
【0065】
[読み推定プログラム]
以上で述べた読み推定装置1,1Aに係る説明は、コンピュータを読み推定装置1,1Aとして動作させる読み推定プログラムに係る説明として捉えることができる。重複するため詳細な説明は省略するが、読み推定プログラムは、コンピュータを、以上で述べた読み仮説生成部101、文書群保持部102、共起スコア計算部103,103A、最終スコア計算部104,104A、仮説選択部105、文字列抽出部106、および仮説スコア計算部107として機能させる。読み推定プログラムは、例えば、記録媒体に格納されて提供される。なお、記録媒体としては、フレキシブルディスク、CD−ROM、DVD等の記録媒体、あるいはROM等の記録媒体、あるいは半導体メモリ等が例示される。
【0066】
(本実施形態の作用および効果)
続いて、第1実施形態にかかる読み推定装置1、第2実施形態にかかる読み推定装置1A、読み推定装置1,1Aによる処理(特許請求の範囲における「読み推定方法」に相当)、およびコンピュータを読み推定装置1,1Aとして動作させる読み推定プログラムによる作用および効果について説明する。
【0067】
読み推定装置1によれば、読み仮説生成部101は、読み推定対象単語に対し、複数の読み仮説を生成する。また、共起スコア計算部103は、複数の読み仮説の各々について、予め準備された文書群における読み推定対象単語との共起関係を用いて共起スコアを求める。そして、仮説選択部105は、共起スコアに基づき、複数の読み仮説から1つ以上の読み仮説を選択する。ここで、共起スコア計算部103は、読み推定対象単語および読み仮説の双方が現れる文書の数のみならず、該文書内における読み推定対象単語と読み仮説との間の距離を上記共起関係として求め、当該求めた共起関係に基づき共起スコアを求める。このように、本実施形態において読み推定の尺度となる共起スコアが計算される際には、文書内における読み推定対象単語と読み仮説との間の距離が共起関係計算のためのパラメータとして反映される。このため、誤った読み仮説と読み推定対象単語の表記がたまたま同一文書内に現れていることが原因で読み推定の精度が劣ることが防止され、高精度で読み推定を行うことが可能となる。なお、例えば、距離が近い程、読み推定対象単語と読み仮説との間に強い共起関係があるものとして、共起スコアを計算してもよい。
【0068】
また、読み推定装置1によれば、読み推定の尺度となる共起スコアが計算される際に、読み推定対象単語および読み仮説を含む特定のパターンが現れる文書の数、および該文書内における特定のパターンの出現回数が共起関係計算のための更なるパラメータとして反映される。このため、誤った読み仮説と読み推定対象単語の表記がたまたま同一文書内に現れていることが原因で読み推定の精度が劣ることが防止され、高精度で読み推定を行うことが可能となる。なお、例えば、上記の特定のパターンが現れる文書の数および特定のパターンの出現回数が多い程、読み推定対象単語と読み仮説との間に強い共起関係があるものとして、共起スコアを計算してもよい。
【0069】
また、読み推定装置1によれば、共起スコアのみならず、仮説スコアを読み推定の更なるパラメータとして導入することにより、読み推定を更に高精度で行うことが可能となる。
【0070】
また、読み推定装置1によれば、読み推定の尺度となる共起スコアまたは合成スコアが計算される際に、読み推定対象単語および読み仮説の双方が現れる文書の数のみならず、読み推定対象単語が単独で現れる文書の数、および読み仮説が単独で現れる文書の数が共起関係計算のための更なるパラメータとして反映される。これにより、読み推定を更に高精度で行うことが可能となる。また、そのための具体的な方法が提供される(例えば式(1)を参照)。
【0071】
また、読み推定装置1によれば、読み推定対象単語および読み仮説の双方が現れる文書内において、読み推定対象単語と読み仮説との間の距離を定義するための具体的な方法が提供される。
【0072】
また、読み推定装置1によれば、読み推定対象単語および読み仮説の双方が現れる文書内において、読み推定対象単語および読み仮説を含んで構成される特定のパターンを定義するための具体的な方法が提供される。
【0073】
また、読み推定装置1によれば、インターネット上に存在する膨大な量のウェブページ群を用いて、共起関係の計算を高精度で行うことが可能となる。また、そのための具体的な方法が提供される。
【0074】
また、読み推定装置1Aによれば、文字列抽出部106が所定の条件を満たす一部の読み候補を抽出すると、仮説スコア計算部107および共起スコア計算部103は当該抽出した読み候補のみを対象に共起関係を求める。これにより、仮説スコア計算部107および共起スコア計算部103が演算対象とする読み候補が、文字列抽出部106によって一次的にフィルタリングされることとなる。したがって、仮説スコア計算部107および共起スコア計算部103の演算対象を減らすことができ、多数の読み仮説に対して文書検索を行う必要がなく、装置全体としての処理時間を短縮でき、ネットワーク負荷を削減することができる。
【符号の説明】
【0075】
1…読み推定装置、1,1A…読み推定装置、101…仮説生成部、102…文書群保持部、103…共起スコア計算部、104…最終スコア計算部、105…仮説選択部、106…文字列抽出部、301…共起文書数スコア計算部、302…文書内距離スコア計算部、303…特定共起表現スコア計算部、304…スコア合算部。

【特許請求の範囲】
【請求項1】
読み推定対象単語に対し、複数の読み仮説を生成する読み仮説生成手段と、
前記複数の読み仮説の各々について、予め準備された文書群における前記読み推定対象単語との共起関係を用いて共起スコアを求めるものであり、前記読み推定対象単語および前記読み仮説の双方が現れる文書の数、および該文書内における前記読み推定対象単語と前記読み仮説との間の距離を前記共起関係として求め、当該求めた共起関係に基づき前記共起スコアを求める共起スコア計算手段と、
前記共起スコアに基づき、前記複数の読み仮説から1つ以上の読み仮説を選択する仮説選択手段と、
を備える、読み推定装置。
【請求項2】
前記共起スコア計算手段は、前記読み推定対象単語および前記読み仮説を含む特定のパターンが現れる文書の数、および該文書内における前記特定のパターンの出現回数を前記共起関係として更に求め、当該求めた共起関係に基づき前記共起スコアを求める、
請求項1に記載の読み推定装置。
【請求項3】
前記読み仮説生成手段は、前記複数の読み仮説の各々に対する仮説スコアを更に生成し、
前記読み仮説の各々について、前記仮説スコアおよび前記共起スコアに基づき合成スコアを求める合成スコア計算手段を更に備え、
前記仮説選択手段は、前記合成スコアに基づき、前記複数の読み仮説から1つ以上の読み仮説を選択する、
請求項1または2に記載の読み推定装置。
【請求項4】
前記共起スコア計算手段は、前記予め準備された文書群において、前記読み推定対象単語が現れる文書の数、および前記読み仮説が現れる文書の数を前記共起関係として更に求め、当該求めた共起関係に基づき前記共起スコアを求める、
請求項1〜3の何れか1項に記載の読み推定装置。
【請求項5】
前記共起スコア計算手段は、前記予め準備された文書群において、前記読み推定対象単語および前記読み仮説の双方が現れる文書の数C、前記読み推定対象単語が現れる文書の数C、および前記読み仮説が現れる文書の数Cを用いて、式(1)に従い共起文書数スコアSを求め、前記共起関係として当該求めた共起文書数スコアSに基づき前記共起スコアを求める、
【数1】

請求項4に記載の読み推定装置。
【請求項6】
前記距離は、前記読み推定対象単語と前記読み仮説との間に存在する段落、文、形態素、または文字の数によって定義される、
請求項1〜5の何れか1項に記載の読み推定装置。
【請求項7】
前記特定のパターンは、予め定められた特定の文字または特定の記号を間に挟んで、前記読み推定対象単語および前記読み仮説の双方が同一文書中に現れるパターンである、
請求項2〜6の何れか1項に記載の読み推定装置。
【請求項8】
前記特定のパターンは、同一文書中において、予め定められた特定のタグで挟まれた区間内に、前記読み推定対象単語および前記読み仮説の双方が現れるパターンである、
請求項2〜6の何れか1項に記載の読み推定装置。
【請求項9】
前記予め準備された文書群から、前記特定の文字、前記特定の記号、または前記特定のタグと、前記読み推定対象単語との双方が現れる文字列を抽出する文字列抽出手段を更に備え、
前記共起スコア計算手段は、当該抽出した文字列をもとに、前記共起関係を求める、
請求項7または8に記載の読み推定装置。
【請求項10】
前記予め準備された文書群は、インターネット上に存在するウェブページ群である、
請求項1〜9の何れか1項に記載の読み推定装置。
【請求項11】
前記共起スコア計算手段は、ウェブ検索エンジンを用いて前記ウェブページ群を検索することにより、前記共起関係を求める、
請求項10に記載の読み推定装置。
【請求項12】
前記共起スコア計算手段は、文字列の曖昧マッチングに基づき、前記文書群に前記読み仮説が現れているか否かを判断する、
請求項1〜11の何れか1項に記載の読み推定装置。
【請求項13】
前記共起スコア計算手段は、前記共起スコアの計算対象である前記読み仮説を、前記曖昧マッチングによる結果に置き換える、
請求項12に記載の読み推定装置。
【請求項14】
読み仮説生成手段が、読み推定対象単語に対し、複数の読み仮説を生成する読み仮説生成ステップと、
共起スコア計算手段が、前記複数の読み仮説の各々について、予め準備された文書群における前記読み推定対象単語との共起関係を用いて共起スコアを求めるステップであり、前記共起スコア計算手段が、前記読み推定対象単語および前記読み仮説の双方が現れる文書の数、および該文書内における前記読み推定対象単語と前記読み仮説との間の距離を前記共起関係として求め、当該求めた共起関係に基づき前記共起スコアを求める共起スコア計算ステップと、
仮説選択手段が、前記共起スコアに基づき、前記複数の読み仮説から1つ以上の読み仮説を選択する仮説選択ステップと、
を備える、読み推定方法。
【請求項15】
コンピュータを読み推定装置として動作させる読み推定プログラムであって、
前記コンピュータを、
読み推定対象単語に対し、複数の読み仮説を生成する読み仮説生成手段と、
前記複数の読み仮説の各々について、予め準備された文書群における前記読み推定対象単語との共起関係を用いて共起スコアを求めるものであり、前記読み推定対象単語および前記読み仮説の双方が現れる文書の数、および該文書内における前記読み推定対象単語と前記読み仮説との間の距離を前記共起関係として求め、当該求めた共起関係に基づき前記共起スコアを求める共起スコア計算手段と、
前記共起スコアに基づき、前記複数の読み仮説から1つ以上の読み仮説を選択する仮説選択手段と、
として機能させる、読み推定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−3317(P2012−3317A)
【公開日】平成24年1月5日(2012.1.5)
【国際特許分類】
【出願番号】特願2010−135089(P2010−135089)
【出願日】平成22年6月14日(2010.6.14)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】