説明

言語モデル生成装置、その方法及びそのプログラム

【課題】音声認識対象の内容と類似するコーパスを効率よく収集して言語モデルを作成する。
【解決手段】Web(world wide web)ページの集合を含むコーパス内のテキストを分析する。当該分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する。抽出された少なくとも1つの単語から単語セットを生成する。生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得する。
取得されたWebページから、音声認識のための言語モデルを作成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、言語モデル生成装置、その方法及びそのプログラムに関し、特にインターネット上に存在するWebページから、音声認識対象の内容と類似するコーパスを効率よく収集して言語モデルを作成する言語モデル生成装置、その方法及びそのプログラムに関する。
【背景技術】
【0002】
音声認識のための言語モデルの作成にあたり、音声認識対象の単語情報を補完する方法として、インターネット上のWebページから当該対象の内容に類似する情報を収集して言語モデルを作成する手段がある。
【0003】
一般に、指定された検索ワードに基づいてWWW(World Wide Web)を検索する検索システムによって検索が行われると、検索結果として得られるページには、所定の評価基準に応じた順位に沿って並べられたWebページへのリンクが出力される。評価の指標としては、検索ワードに対する出現頻度、HTMLのメタデータ、ページリンク数、ユーザ参照数の高いページからリンクされたか否か等が用いられる。言語モデルの生成は、当該検索結果ページからリンクされるリンク先のWebページを取得して行われる。しかしながら、リンク先のWebページとしては、音声認識対象と類似する内容を含む一方で、複数の話題を含んでいたり、その他の専門分野について言及していたりするWebページが提示されることが多く、取得するWebページの選定を行わずに言語モデルが作成されると、音声認識の認識精度劣化に繋がってしまう。
【0004】
このため、Webページの選定、及びWebページの選定に係る単語抽出のための種々の技術が提案されている。
【0005】
例えば非特許文献1には、品詞情報が名詞である単語を音声認識の認識結果の単語列から抽出し、その単語を検索ワードとしてインターネット上のニュースサイトを検索し、類似するWebページの収集を行う技術が記載されている。また非特許文献2に記載の技術では,医療関連のコーパスを収集するため、医療という単語のみを検索ワードに使用し、検索結果のリンク先の2階層下の情報までを収集している。非特許文献3に記載の技術では、認識結果において出現頻度が上位5位までの単語を検索ワードとして抽出している。
【0006】
また、特許文献1には、言語モデルの生成に際して、出現頻度が大きい単語を含む単語連鎖が不当に高い言語確率を持つことを防ぐための技術が記載されている。特許文献2には、映像内の文字列を用いてネットワーク上の情報を検索させるシステムにおいて、文字列の背景色に応じて検索の優先度を変更する技術が記載されている。また、特許文献3に記載されている音声認識や音声規則合成などを設計できるユーザインタフェース設計ツールでは、設計者が文字認識部品の設定を行うことができ、この認識モードを「平仮名」等に設定することができる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2002−229588号公報(段落[0103])
【特許文献2】特開2010−039647号公報(段落[0044])
【特許文献3】特開平09−114623号公報(段落[0107],図13)
【非特許文献】
【0008】
【非特許文献1】伊藤,西崎,関口,“Web上の類似記事を利用した音声文書の認識性能の改善”,信学技法,電子情報通信学会,NLC2005−65,SP2005−98(2005−12),p.49−53
【非特許文献2】西村,長友,小松,黒田,李,猿渡,鹿野,“Webからの音声認識用言語モデル自動生成ツールの開発”,音声言語情報処理35−8(2001.2.3),p.43−47
【非特許文献3】高橋,森元,入江,“Web上の類似記事自動収集による音声認識用言語モデルの適応と学習用ニュース記事コーパスの分析”,福岡大学工業集報77,平成18年9月,p.37−44
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、非特許文献1に記載の技術では、品詞を名詞に絞り込んでも、固有名詞である人名として表現されるような「かおり」、「はじめ」、形式名詞としての「こと」等の平仮名からなる名詞単語での検索によって、該当単語を含む多種多様のWebページが検索されてしまう可能性がある。このため、このようなWebページを音声認識の言語モデルの学習コーパスとして使用してしまうと、認識精度の劣化に繋がりかねない。また、非特許文献2の手法を用いて検索結果上位から2階層分の情報を収集したとしても、2階層先のWebページの情報には、必ずしも目的のWebページとは限らないため、認識精度の劣化に繋がりかねない。また非特許文献3では、上位5位までの頻出単語出を検索ワードとして使用しているが、高頻度で出現する単語には、「は」「と」「を」等の助詞や「する」等のサ変変格動詞の活用といったあらゆる文書に高頻度で出現する語が含まれ得るため、これらを検索ワードとしても目的の検索結果が得られない。また、単語の言い換え、表記の揺らぎで同義語も含まれている可能性があるため、検索結果が偏ってしまい、目的とする情報が検索結果のリンク先からは十分な量のコーパスを収集できない。
【0010】
また特許文献1には、単語抽出に際して、文章の特徴を表す特徴語を精度よく選択する技術は記載されていない。特許文献2では、言語モデルの生成に適した優先度を文字列に付与する技術は開示されていない。特許文献3では、平仮名や漢字等の文字の形式は認識させるが、音声認識対象の内容に応じてテキストを認識することはできない。
【0011】
そこで、本発明は、インターネット上に存在するWebページから、音声認識対象の内容と類似するコーパスを効率よく収集して言語モデルを作成する言語モデル生成装置、その方法及びそのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0012】
本発明の第1の観点によれば、Web(world wide web)ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する抽出手段と、前記抽出手段が抽出した前記少なくとも1つの単語から単語セットを生成する単語セット生成手段と、前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するWebページ取得手段と、前記Webページ取得手段が取得したWebページから、音声認識のための言語モデルを作成する言語モデル作成手段と、を備えることを特徴とする言語モデル生成装置が提供される。
【0013】
また、本発明の第2の観点によれば、Web(world wide web)ページの集合を含むコーパス内のテキストを分析するステップと、前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出するステップと、前記抽出された前記少なくとも1つの単語から単語セットを生成するステップと、前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するステップと、前記取得されたWebページから、音声認識のための言語モデルを作成するステップと、を有することを特徴とする言語モデル生成方法が提供される。
【0014】
更に、本発明の第3の観点によれば、言語モデル作成装置のコンピュータにおいて用いられる言語モデル作成プログラムであって、当該コンピュータに、Web(world wide web)ページの集合を含むコーパス内のテキストを分析する手順と、前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する手順と、前記抽出された少なくとも1つの単語から単語セットを生成する手順と、前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得する手順と、前記取得されたWebページから、音声認識のための言語モデルを作成する手順と、を行わせることを特徴とする言語モデル生成プログラムが提供される。
【発明の効果】
【0015】
本発明によれば、Webページを含むコーパスを分析し、所定の文書形式に適合する単語を抽出して、当該抽出された単語から作成された単語セットを検索クエリーとしてインターネット情報検索エンジンに検索を行わせて、検索結果のリンク先から取得されたWebページを基に言語モデルを生成するため、音声認識対象の内容と類似するコーパスを効率よく収集して言語モデルを作成することができる。
【図面の簡単な説明】
【0016】
【図1】本発明の第1の実施形態に係る言語モデル作成システムの構成の一例を示すブロック図である。
【図2】本発明の第1の実施形態に係る単語セット生成処理の一例を示すフローチャートである。
【図3】本発明の一実施形態に係るコーパス分析部が獲得する形態素解析結果の一例を示す図である。
【図4】本発明の一実施形態に係る文書形式選択部によって定義あるいは選択された「文書形式」の例を示す表である。
【図5】本発明の一実施形態に係る出現頻度の計算結果の一例を示す図である。
【図6】本発明の第1の実施形態に係る単語セットの一例を示す図である。
【図7】本発明の第2の実施形態に係る単語セット生成処理の一例を示すフローチャートである。
【図8】本発明の第2の実施形態に係る単語セットの一例を示す図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について図面を参照して詳細に説明する。
【0018】
(第1の実施形態)
図1は、本発明の第1の実施形態に係る言語モデル作成システムの構成の一例を示すブロック図である。
【0019】
図1に示す言語モデル作成システムでは、言語モデル作成装置300が、言語モデル作成タスクコーパス100から所定の音声認識タスクに応じた言語モデルを作成する。
【0020】
言語モデル作成タスクコーパス100は、HTML及びXML等の文書記述言語で記述された多様な文書(Web(World Wide Web)ページ)を含む言語資源であり、言語モデル作成装置300の学習コーパスとして使用される。本実施形態では、言語モデル作成タスクコーパス100は、音声認識の対象タスクに類似する言語表現を含むものとする。
【0021】
言語モデル作成装置300は、単語抽出装置200、Webページ取得部105、Webページ整形部106、及び言語モデル作成部107を含む。また単語抽出装置200は、コーパス分析部101、文書形式選択部102、単語抽出部103、及び単語セット生成部104を含む。
【0022】
単語抽出装置200のコーパス分析部101は、言語モデル作成タスクコーパス100内の各文書の記述内容に対して、文書の形態素解析を含む分析処理を行う。形態素解析には、例えばMecabシステム(京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニット 提供,http://mecab.sourceforge.net/参照)、茶筌システム(奈良先端科学技術大学院大学情報科学研究科自然言語処理学講座提供,http://chasen-legacy.sourceforge.jp/参照)といった既存の形態素解析技術が用いられてもよい。
【0023】
コーパス分析部101による形態素解析の結果は、例えば図3(後述)のように表される。図3に示すように、テキストの形態素解析結果は、当該テキストに含まれる各単語の「表記」、「読み」、及び「品詞」の情報を含む。
【0024】
単語抽出装置200の文書形式選択部102は、単語抽出部103による単語抽出のルールを設定する。文書形式選択部102の動作によって、音声認識させたい内容やスタイルに合わせた「文書形式」が定義あるいは選択される。文書形式選択部102によって定義される「文書形式」の一例が、図4(後述)に示されている。図4に示す例では、尊敬語、謙譲語が含まれる「形式的な文書」、大阪弁、博多弁等の方言が含まれる「方言を含む文書」、日常会話的な文書が含まれる「口語的な文書」といった「文書形式」が定義されている。また、音声認識させたい内容やスタイルを変更する場合には、文書形式選択部102によって文書形式の定義が変更される。
【0025】
単語抽出装置200の単語抽出部103は、コーパス分析部101による分析結果から、文書形式選択部102が設定したルール(文書形式)に従って、音声認識の目的に結び付く検索結果が得られるような特徴的な単語を抽出する。
【0026】
例えば議事録のような形式的な文書においては、「です」、「ます」といった付属語、及び「が」、「は」といった接続詞等のひらがなから構成される単語よりも、漢字、カタカナ、あるいは漢字仮名交じり、アルファベットで構成される単語が、特徴的な単語として単語抽出部103によって抽出される。また、議事録が例えば関西地方の方言を含む場合は、関西地方の方言「あらへん」を含む文字列が、あるいは議事録が九州地方の方言を含む場合は、九州地方の方言「そげな」を含む文字列が特徴的な単語として抽出される。更に日常会話の場合、「だよね」、「だね」、「えーっと」等の口語に特徴的なみられる文字列を抽出する。また、Googleが公開しているWeb上の膨大なテキスト情報から得られた単語の頻度情報(http://googlejapan.blogspot.com/2007/11/n-gram.HTMLを参照)等を参照して、出現確率が高い単語を選ぶ方法が用いられてもよい。
【0027】
単語抽出装置200の単語セット生成部104は、単語抽出部103によって抽出された複数単語の組み合わせを単語セットとして生成する。一例として、単語セット生成部104は、「同期」、「売り上げ」「サービス」といった関連する単語の組み合わせを、単語セットとして生成する。以上のようにして単語抽出装置200によって生成された単語セットは、Webページ取得部105によってWebページの取得に用いられる。
【0028】
Webページ取得部105は、所定の検索エンジンを介してWebページ(の集合)にアクセスする機能を有する。Webページ取得部105は、単語セット生成部104が生成した単語セットを絞り込み検索するよう検索クエリーを生成し、当該クエリーによって検索エンジンに検索処理を行わせ、検索結果を取得する。この検索結果には、検索クエリーに応じたWebページへのリンクが含まれている。Webページ取得部105は、このリンクを介して、各Webページのデータを取得する。
【0029】
Webページ整形部106は、Webページ取得部105が取得したWebページデータから、音声認識用の言語モデルの作成には不必要な記号(例えば鍵括弧、三角印、星印)、HTMLタグ(例えば<br>、<head>)を除去し、文章部分を抽出する。
【0030】
言語モデル作成部107では、Webページ整形部106が抽出した文章部分を言語モデル作成用のコーパスとして使用し、言語モデルを作成する。音声認識用の言語モデルの作成には、例えばJuliusシステム(京都大学 河原研究室、情報処理振興事業協会(IPA)、奈良先端科学技術大学院大学 鹿野研究室、名古屋工業大学 Julius開発チーム、http://julius.sourceforge.jp/)、及びHTKシステム(University of Cambridge、http://htk.eng.cam.ac.uk/)などの既存のツールが用いられてもよい。生成された言語モデルは、種々の音声認識処理に用いられる。
【0031】
なお、言語モデル生成装置300の一部又は全部の機能は、プロセッサ、プログラムメモリ、及びワークメモリを備えた情報処理装置(例えばパーソナルコンピュータ)において、プログラムメモリに記憶されたプログラムをプロセッサが読み込んで実行することでソフトウェア的に実現されてもよい。あるいは言語モデル生成装置300の一部又は全部の機能は、ハードウェアによって実装されてもよく、ハードウェアとソフトウェアの協働によって実現されてもよい。また、文書形式選択部102にキーボードやマウス等の入力装置が有線又は無線接続され、ユーザによる入植装置の操作に応じて文書形式が定義又は選択されてもよい。
【0032】
続いて、上述の単語抽出装置200の動作について詳細に説明する。
【0033】
図2は、本発明の第1の実施形態に係る単語セット生成処理の一例を示すフローチャートである。
【0034】
本実施形態に係る単語抽出処理では、まず、コーパス分析部101が言語モデル作成タスクコーパス100の記述内容を形態素解析し、形態素解析結果を獲得する(ステップS21)。形態素解析結果には、例えば図3に示すように、テキストを構成する各単語の「表記(文字列)」、「読み」、及び「品詞」を示す情報が含まれる。
【0035】
図3は、本発明の一実施形態に係るコーパス分析部101が獲得する形態素解析結果の一例を示す図である。図3に示す例では、「今日はいい天気です。」というテキストの形態素解析の結果、6つの単語「今日」、「は」、「いい」、「天気」、「です」、及び「。」が検出されている。
【0036】
このうち単語「今日」については、表記「今日」、読み「キョウ」、及び品詞「名詞」の各情報が検出される。同様に単語「は」について、表記「は」、読み「ハ」、及び品詞「助詞」の情報を含む形態素解析結果が、単語「いい」について、表記「いい」、読み「ヨイ」、及び品詞「形容詞」の情報を含む形態素解析結果が、単語「天気」について、表記「天気」、読み「テンキ」、及び品詞「名詞」の情報を含む形態素解析結果が、単語「です」について、表記「です」、読み「デス」、及び品詞「助動詞」の情報を含む形態素解析結果が検出される。句点「。」については、品詞「補助記号」の情報が獲得されている。
【0037】
また図3に示す例では、「明日も晴れです。」というテキストの形態素解析の結果、5つの単語「明日」、「も」、「はれ」、「です」、及び「。」が検出されている。
【0038】
このうち単語「明日」については、表記「明日」、読み「アス」、及び品詞「名詞」の各情報が検出される。同様に単語「も」について、表記「も」、読み「モ」、及び品詞「助詞」の情報を含む形態素解析結果が、単語「晴れ」について、表記「晴れ」、読み「ハレ」、及び品詞「名詞」の情報を含む形態素解析結果が、単語「です」について、表記「です」、読み「デス」、及び品詞「助動詞」の情報を含む形態素解析結果が検出される。句点「。」については、品詞「補助記号」の情報が獲得されている。
【0039】
単語抽出部103は、図3に示すような形態素解析の結果から、所定の順序で1つの単語を選択し(ステップS22)、以降の処理によって単語セット生成の対象の単語とするか否かを判定する。選択の順番は、例えばテキスト内での出現順に従えばよい。
【0040】
単語抽出部103は、選択した単語の「表記」及び「読み」が、文書形式選択部102によって定義された文書形式におけるいずれかの文字列の「表記」及び「読み」情報と、一致するか否かを判定する(ステップS23)。
【0041】
図4は、本発明の一実施形態に係る文書形式選択部102によって定義あるいは選択された「文書形式」の例を示す表である。図4に示す例では、「形式文書」の文書形式を定義するための表記(文字列)として、「存じます」(読み:「ゾンジマス」)、「申し上げます」(読み:「モウシアゲマス」)、及び「うけたまわりました」(読み:「ウケタマワリマシタ」)の3つの表記文字列が定義されている。
【0042】
また図4に示す例では、「方言」の文書形式を定義するための表記(文字列)として、「あかん」(読み:「アカン」)、「じゃけん」(読み:「ジャケン」)、「ばってん」(読み:「バッテン」)、及び「せえへん」(読み:「セエヘン」)の4つの表記文字列が定義されている。
【0043】
更に図4に示す例では、「口語」の文書形式を定義するための表記(文字列)として、「えーっと」(読み:「エーット」)、「だよね」(読み:「ダヨネ」)、「そうそう」(読み:「ソウソウ」)、及び「そうかも」(読み:「ソウカモ」)の4つの表記文字列が定義されている。
【0044】
単語抽出部103はステップS22で選択した単語の「表記」と「読み」が、文書形式選択部102によって定義されたこれらの文字列の「表記」及び「読み」と一致するか否かをステップS23で判定する。
【0045】
選択された単語の「表記」と「読み」が、「文書形式」において設定された文字列の「表記」及び「読み」と一致する場合(ステップS23でYES)、当該選択された単語は、単語セット生成の対象として設定され、その出現頻度(出現回数)が計算される(ステップS24)。
【0046】
図5は、本発明の一実施形態に係る出現頻度の計算結果の一例を示す図である。
【0047】
図5に示される例では、ステップS22同じ単語が何度選択されたかが「出現頻度」として表されている。この例では、「表記」が「同期」、「読み」が「ヨミ」である単語の出現頻度として数値“32”が与えられている。
【0048】
同様に「前年」(読み:「ゼンネン」)の出現頻度として“31”が、「減少」(読み:「ゲンショウ」)の出現頻度として“19”が、「事業」(読み:「ジギョウ」)の出現頻度として“16”が、「売り上げ」(読み:「ウリアゲ」)の出現頻度として“16”が得られている(以降同様)。
【0049】
一方、選択された単語の「表記」と「読み」が、「文書形式」において設定された「表記」及び「読み」と一致しない場合(ステップS23でNO)、単語抽出部103は、当該選択された単語の「品詞」情報が名詞を表すか否かを判定する(ステップS25)。
【0050】
選択された単語の「品詞」情報が名詞を表さない場合(ステップS25でNO)、当該単語は、単語セットの選択対象から除外される(ステップS26)。
【0051】
選択された単語の「品詞」情報が名詞を表す場合(ステップS25でYES)、単語抽出部103は、当該選択された単語が平仮名以外の表記を含むか否かを判定する(ステップS27)。
【0052】
選択された単語が平仮名のみで構成される場合(ステップS27でNO)、当該単語は、単語セットの選択対象から除外される(ステップS26)。
【0053】
一方、選択された単語が平仮名以外の表記を含む場合には(ステップS27でYES)、図5に示すような当該単語の出現頻度が計算される(ステップS24)。
【0054】
その後、単語抽出部103は、形態素解析の結果得られた全単語について、単語セット生成の対象とするかの判断を終了したか否かを判定する(ステップS28)。未だに選択されていない単語があれば(ステップS28でNO)、処理はステップS22に戻り、他の単語が選択されて以降の処理が繰り返される。
【0055】
一方、単語抽出部103が、形態素解析の結果の全ての単語の選択を終了していれば(ステップS28でYES)、単語セット生成部104は、ステップS24で算出した出現頻度に基づいて、以下の式(1)に従って各単語の単語情報量Ixを算出する(ステップS29)。
【0056】
【数1】

ただし、ステップS29で単語情報量Ixが算出されるのは、ステップS26において除外されていない各単語についてである。
【0057】
式(1)において、Txは各単語の出現頻度のべき乗を表す。この単語情報量Ixの値が大きい単語は、言語モデル作成タスクコーパス100の特徴を現す単語である、すなわち言語モデル作成タスクコーパス100との類似が大きい単語であるとみなされる。
【0058】
単語セット生成部104は、単語情報量Ixの値が所定の閾値より高い単語を、所定の数だけ抽出する(ステップS30)。単語の抽出は、単語情報量Ixの大きさの順に行われてもよいが、所定数の単語がランダムに選択されてもよい。
【0059】
単語セット生成部104は、抽出された単語から、図6に示すような単語セットを生成する(ステップS31)。
【0060】
図6は、本発明の第1の実施形態に係る単語セットの一例を示す図である。
【0061】
図6に示す例では、「業績」、「前年」、「同期」、「分野」及び「売り上げ」の5つの単語の組み合わせが、単語セットとされている。これらの5単語は、図5において、出現頻度が高い単語であり、言語モデル作成タスクコーパスの特徴を強く表すものとみなされる。
【0062】
単語抽出装置200では、以上のような単語セット生成処理が行われ、生成された単語セットがWebページ取得部105へ送られる。
【0063】
前述の通り、Webページ取得部105は、この単語セットを検索クエリーとして検索エンジンへ入力し、この単語セットに関連性がある検索結果を得る。Webページ整形部106は、Webページ取得部105が獲得したWebページから記号類や、HTMLタグの除去を行い、文章部分の抽出を行う。言語モデル作成部107は、Webページ整形部106が抽出した文章部分を、音声認識用の言語モデル作成コーパスとして使用し、言語モデルを作成する。
【0064】
以上の通り、本実施形態に係る言語モデル作成システムによれば、単語抽出装置200によって得られた単語による絞り込み検索が行われるため、検索結果の上位ランクに、音声認識の対象タスクに類似する、あるいは関連性の高い言語表現を含むWebページの検索結果の一覧を表示させることができる。この検索結果一覧ページからのリンクを利用してWebページデータを取得することで、より精度の高い言語モデル作成用のコーパスを獲得することが可能となる。
【0065】
次に、本発明に係る言語モデル作成システムの他の実施形態について説明する。以下の実施形態において、第1の実施形態と対応する部分には対応する符号を付し、その詳細な説明は省略する。
【0066】
(第2の実施形態)
本発明の第2の実施形態に係る言語モデル作成システムの構成は、図1に示す第1の実施形態と同様であるので、その説明を省略する。
【0067】
第1の実施形態に係る単語セット生成処理では、一例として、5単語の組み合わせの単語セットを1セット生成している。本実施形態では、言語モデル作成コーパス100の文章量や内容に応じて単語セット内の単語数と生成するセット数を調整して、より効率的にWebページ選別する。
【0068】
図7は、本発明の第2の実施形態に係る単語セット生成処理の一例を示すフローチャートである。
【0069】
本実施形態に係る単語抽出処理では、まず、コーパス分析部101が言語モデル作成タスクコーパス100の記述内容を形態素解析し、形態素解析結果を獲得する(ステップS71)。形態素解析結果には、第1の実施形態と同様に、例えば図3に示すように、テキストを構成する各単語の「表記(文字列)」、「読み」、及び「品詞」を示す情報が含まれる。
【0070】
単語抽出部103は、図3に示すような形態素解析の結果から、所定の順序で1つの単語を選択し(ステップS72)、以降の処理によって単語セット生成の対象の単語とするか否かを判定する。選択の順番は、例えばテキスト内での出現順に従えばよい。
【0071】
単語抽出部103は、選択した単語の「表記」及び「読み」が、文書形式選択部102によって定義された文書形式におけるいずれかの文字列の「表記」及び「読み」情報と、一致するか否かを判定する(ステップS73)。文書形式選択部102による文書形式の定義は、第1の実施形態と同様に、例えば図4に示すように与えられる。
【0072】
単語抽出部103はステップS72で選択した単語の「表記」と「読み」が、文書形式選択部102によって定義されたこれらの文字列の「表記」及び「読み」と一致するか否かをステップS73で判定する。
【0073】
選択された単語の「表記」と「読み」が、「文書形式」において設定された文字列の「表記」及び「読み」と一致する場合(ステップS73でYES)、当該選択された単語は、単語セット生成の対象として設定され、その出現頻度(出現回数)が計算される(ステップS74)。各単語の出現頻度の一例は、第1の実施形態と同様に、図5に示されている。
【0074】
一方、選択された単語の「表記」と「読み」が、「文書形式」において設定された「表記」及び「読み」と一致しない場合(ステップS73でNO)、単語抽出部103は、当該選択された単語の「品詞」情報が名詞を表すか否かを判定する(ステップS75)。
【0075】
選択された単語の「品詞」情報が名詞を表さない場合(ステップS75でNO)、当該単語は、単語セットの選択対象から除外される(ステップS76)。
【0076】
選択された単語の「品詞」情報が名詞を表す場合(ステップS75でYES)、単語抽出部103は、当該選択された単語が平仮名以外の表記を含むか否かを判定する(ステップS77)。
【0077】
選択された単語が平仮名のみで構成される場合(ステップS77でNO)、当該単語は、単語セットの選択対象から除外される(ステップS76)。
【0078】
一方、選択された単語が平仮名以外の表記を含む場合には(ステップS77でYES)、図5に示すような当該単語の出現頻度が計算される(ステップS74)。
【0079】
その後、単語抽出部103は、形態素解析の結果得られた全単語について、単語セット生成の対象とするかの判断を終了したか否かを判定する(ステップS78)。未だに選択されていない単語があれば(ステップS78でNO)、処理はステップS72に戻り、他の単語が選択されて以降の処理が繰り返される。
【0080】
一方、単語抽出部103が、形態素解析の結果の全ての単語の選択を終了していれば(ステップS78でYES)、単語セット生成部104は、ステップS24で算出した出現頻度に基づいて、第1の実施形態と同様に(1)に従って各単語の単語情報量Ixを算出する(ステップS79)。
【0081】
単語セット生成部104は、単語情報量Ixの値が所定の閾値より高い単語を、所定の数だけ抽出する(ステップS80)。単語の抽出は、単語情報量Ixの大きさの順に行われてもよいが、所定数の単語がランダムに選択されてもよい。
【0082】
単語セット生成部104は、抽出された単語から、n個の単語を含む単語セットをmセット生成する(ステップS81)。
【0083】
変数m及びnの値は、ユーザが単語抽出装置200に接続された入力装置を介して設定してもよいが、コーパス分析部101による言語モデル作成タスクコーパス100の文章量の分析結果に基づいて、設定されてもよい。
【0084】
例えば言語モデル作成コーパス100の文章量が少ない場合は、ステップS80において抽出される単語数が減少してしまい、絞り込み検索の範囲が狭くなりすぎて音声認識対象に類似したWebページの獲得がうまくいかず、音声認識の精度が向上しないことがある。このような場合には、例えば図8のように3つの単語を含む単語セットを5組生成して、検索にバリエーションを持たせることで、絞り込み検索の範囲を広げることができる。
【0085】
図8は、本発明の第2の実施形態に係る単語セットの一例を示す図である。
【0086】
図8に示す例では、「業績」、「前年」、及び「サービス」の3つの単語の組み合わせが、単語セット1として生成されている。また単語セット2には、「分野」、「業績」、及び「売り上げ」の3単語が、単語セット3には、「四半期」、「売り上げ」、及び「業績」の3単語が、単語セット4には「サービス」、「売り上げ」、及び「業績」の3単語が、単語セット5には「四半期」、「サービス」、及び「投資」の3単語が含まれている。これらの単語セット1〜5に含まれる各単語は、例えばステップS80で抽出された単語情報量の大きい単語からランダムに選択される。あるいは、ユーザが選択方法を事前に指定しておいてもよい。
【0087】
これにより、絞り込み検索の範囲を広げ、音声認識の精度向上に繋がるWebページを取得することが可能となる。
【0088】
単語抽出装置200では、以上のような単語セット生成処理が行われ、生成された単語セットがWebページ取得部105へ送られる。
【0089】
前述の通り、Webページ取得部105は、この単語セットを検索クエリーとして検索エンジンへ入力し、この単語セットに関連性がある検索結果を得る。Webページ整形部106は、Webページ取得部105が獲得したWebページから記号類や、HTMLタグの除去を行い、文章部分の抽出を行う。言語モデル作成部107は、Webページ整形部106が抽出した文章部分を、音声認識用の言語モデル作成コーパスとして使用し、言語モデルを作成する。
【0090】
以上の通り、本実施形態に係る言語モデル作成システムによれば、単語抽出装置200によって得られた複数の単語セットによる絞り込み検索が行われるため、言語モデル作成タスクコーパス100が包含する文章量が少ない場合であっても、より精度の高い言語モデル作成用のコーパスを獲得することが可能となる。
【0091】
すなわち、本実施形態に係る言語モデル作成システムによれば、少量の言語モデル作成タスクコーパス100からであっても、適切な単語を抽出し、当該言語モデルタスクコーパス100と類似し、音声認識対象の内容を含む言語コーパスをインターネット上のWebページから効率的に収集することができる。
【0092】
本発明の各実施形態によれば、音声認識技術における言語モデル作成において必要十分な情報を効率的にインターネット上から収集することが可能となり、かつ音声認識精度の良い言語モデルの作成が可能となる。
【0093】
本発明の各実施形態によれば、音声認識させたい内容を含む少量のコーパスデータを準備するだけで、対象タスクに類似した言語モデルや地方方言などの発話スタイルにも対応した言語モデルを効率的に作成することができる。また、精度の良い言語モデルを作成するために必要な大量のデータを準備するためのコストも削減できる。
【0094】
本発明の各実施形態においては、文章の特徴を現す単語情報量Ixを算出し、単語情報量Ixに基づいて各テキストにおいて特徴的である単語を抽出している。また、音声認識させたい文章の特徴を現す単語を優先して抽出し、言語モデルを作成している。このため、精度よく言語モデルを作成することが可能となる。
【0095】
また、本発明の各実施形態では、平仮名、カタカナ、及び漢字等の文字のスタイルを認識して、平仮名のみを含む単語を単語セット生成の対象から排除しているが、例え平仮名のみを含む単語であっても、文書形式(図4参照)に定義されている文字列であれば、単語セットの生成対象として抽出が可能である。文書形式の定義に基づいて単語や文章を抽出することによって、尊敬語や謙譲語を含む発話、方言を含む発話などの発話スタイルを決定する効果を期待できる。
【0096】
また、単語セット生成処理において、文書形式に定義がされていない単語については、単語自体が意味を持ち合わせている名詞を抽出し、更に平仮名のみの文字列を排除するという処理を行っているため、Web検索時の曖昧性を排除することができ、目的の情報を効率的に取得することができる。
【0097】
なお、本発明の各実施形態に係る単語抽出装置200及び言語モデル作成装置300は、ハードウェアにより実現することもできるが、コンピュータを単語抽出装置200及び言語モデル作成装置300として機能させるためのプログラムをコンピュータ読み取り可能な記憶媒体に記憶させ、コンピュータが当該プログラムを読み込んで実行することによっても実現することができる。
【0098】
本発明の各実施形態に係る単語抽出装置200をハードウェア的に又はソフトウェア的に実現して、既存の言語モデル作成手段と組み合わせることで、言語モデル作成装置300と同等の機能を提供することができる。
【0099】
上述の各実施形態では、言語モデル作成タスクコーパス100をWeb文書の集合としたが、コーパスの内容はこれに限定されるものではない。
【0100】
また、上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
【0101】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0102】
(付記1)
Web(world wide web)ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、
前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する抽出手段と、
前記抽出手段が抽出した前記少なくとも1つの単語から単語セットを生成する単語セット生成手段と、
前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するWebページ取得手段と、
前記Webページ取得手段が取得したWebページから、音声認識のための言語モデルを作成する言語モデル作成手段と、
を備えることを特徴とする言語モデル生成装置。
【0103】
(付記2)
前記文書形式を定義する文字列を設定する設定手段を更に備え、
前記抽出手段は、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語を抽出することを特徴とする付記1に記載の言語モデル生成装置。
【0104】
(付記3)
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、及び読み情報を検出し、
前記抽出手段は、前記テキスト内の単語ごとに表記と読みとを、前記文字列の表記と読みと比較し、前記文字列の表記と読みと適合する単語を抽出することを特徴とする付記2に記載の言語モデル生成装置。
【0105】
(付記4)
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、読み、及び品詞の情報を検出し、
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語を抽出対象から排除することを特徴とする付記3に記載の言語モデル生成装置。
【0106】
(付記5)
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場合は、当該単語を抽出することを特徴とする付記4に記載の言語モデル生成装置。
【0107】
(付記6)
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットを生成することを特徴とする付記1乃至5のいずれか1に記載の言語モデル生成装置。
【0108】
(付記7)
前記単語セット生成手段は、前記単語抽出手段が抽出した単語から所定数の単語を含む単語セットを所定数生成することを特徴とする付記1乃至6のいずれか1に記載の言語モデル生成装置。
【0109】
(付記8)
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットを前記所定数生成することを特徴とする付記1乃至7のいずれか1に記載の言語モデル生成装置。
【0110】
(付記9)
Web(world wide web)ページの集合を含むコーパス内のテキストを分析するステップと、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出するステップと、
前記抽出された前記少なくとも1つの単語から単語セットを生成するステップと、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するステップと、
前記取得されたWebページから、音声認識のための言語モデルを作成するステップと、
を有することを特徴とする言語モデル生成方法。
【0111】
(付記10)
前記文書形式を定義する文字列を設定するステップを更に備え、
前記少なくとも1つの単語の抽出においては、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語を抽出することを特徴とする付記9に記載の言語モデル生成方法。
【0112】
(付記11)
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス内のテキストの分析においては、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、及び読み情報が検出され、
前記少なくとも1つの単語の抽出においては、前記テキスト内の単語ごとに表記と読みとが、前記文字列の表記と読みと比較され、前記文字列の表記と読みと適合する単語が抽出されることを特徴とする付記10に記載の言語モデル生成方法。
【0113】
(付記12)
前記コーパス内のテキストの分析においては、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、読み、及び品詞の情報が検出され、
前記少なくとも1つの単語の抽出においては、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語が抽出対象から排除されることを特徴とする付記11に記載の言語モデル生成方法。
【0114】
(付記13)
前記少なくとも1つの単語の抽出においては、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場に、当該単語が抽出されることを特徴とする付記12に記載の言語モデル生成方法。
【0115】
(付記14)
前記単語セットの生成においては、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットが生成されることを特徴とする付記9乃至13のいずれか1に記載の言語モデル生成方法。
【0116】
(付記15)
前記単語セットの生成においては、前記抽出された単語から所定数の単語を含む単語セットが所定数生成されることを特徴とする付記9乃至14のいずれかに記載の言語モデル生成方法。
【0117】
(付記16)
前記単語セットの生成においては、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットが前記所定数生成されることを特徴とする付記9乃至15のいずれか1に記載の言語モデル生成方法。
【0118】
(付記17)
言語モデル作成装置のコンピュータにおいて用いられる言語モデル作成プログラムであって、当該コンピュータに、
Web(world wide web)ページの集合を含むコーパス内のテキストを分析する手順と、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する手順と、
前記抽出された前記少なくとも1つの単語から単語セットを生成する手順と、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得する手順と、
前記取得されたWebページから、音声認識のための言語モデルを作成する手順と、
を行わせることを特徴とする言語モデル生成プログラム。
【0119】
(付記18)
前記コンピュータに前記文書形式を定義する文字列を設定する手順を更に行わせ、
前記少なくとも1つの単語を抽出する手順では、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語が抽出されることを特徴とする付記17に記載の言語モデル生成プログラム。
【0120】
(付記19)
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス内のテキストを分析する手順では、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、及び読み情報が検出され、
前記少なくとも1つの単語を抽出する手順では、前記テキスト内の単語ごとに表記と読みとが、前記文字列の表記と読みと比較され、前記文字列の表記と読みと適合する単語が抽出されることを特徴とする付記18に記載の言語モデル生成プログラム。
【0121】
(付記20)
前記コーパス内のテキストを分析する手順では、前記コーパス内のテキストの形態素解析が行われ、前記テキスト内の単語ごとに表記、読み、及び品詞の情報が検出され、
前記少なくとも1つの単語を抽出する手順では、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語が抽出対象から排除されることを特徴とする付記19に記載の言語モデル生成プログラム。
【0122】
(付記21)
前記少なくとも1つの単語を抽出する手順では、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場合は、当該単語が抽出されることを特徴とする付記20に記載の言語モデル生成プログラム。
【0123】
(付記22)
前記単語セットを生成する手順では、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットが生成されることを特徴とする付記17乃至21のいずれか1に記載の言語モデル生成プログラム。
【0124】
(付記23)
前記単語セットを生成する手順では、前記抽出された単語から所定数の単語を含む単語セットが所定数生成されることを特徴とする記17乃至22のいずれか1に記載の言語モデル生成プログラム。
【0125】
(付記24)
前記単語セットを生成する手順では、前記抽出された各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットが前記所定数生成されることを特徴とする付記17乃至23のいずれか1に記載の言語モデル生成プログラム。
【符号の説明】
【0126】
100 言語モデル作成タスクコーパス
101 コーパス分析部
102 文書形式選択部
103 単語抽出部
104 単語セット生成部
105 Webページ取得部
106 Webページ整形部
107 言語モデル作成部
200 単語抽出装置
300 言語モデル作成装置

【特許請求の範囲】
【請求項1】
Web(world wide web)ページの集合を含むコーパス内のテキストを分析するコーパス分析手段と、
前記コーパス分析手段による分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する抽出手段と、
前記抽出手段が抽出した前記少なくとも1つの単語から単語セットを生成する単語セット生成手段と、
前記単語セット生成手段によって生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するWebページ取得手段と、
前記Webページ取得手段が取得したWebページから、音声認識のための言語モデルを作成する言語モデル作成手段と、
を備えることを特徴とする言語モデル生成装置。
【請求項2】
前記文書形式を定義する文字列を設定する設定手段を更に備え、
前記抽出手段は、前記分析結果から得られる各単語を前記文字列と比較し、前記文字列と一致する場合に、当該単語を抽出することを特徴とする請求項1に記載の言語モデル生成装置。
【請求項3】
前記文字列は、当該文字列の表記と読みの情報を含み、
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、及び読み情報を検出し、
前記抽出手段は、前記テキスト内の単語ごとに表記と読みとを、前記文字列の表記と読みと比較し、前記文字列の表記と読みと適合する単語を抽出することを特徴とする請求項2に記載の言語モデル生成装置。
【請求項4】
前記コーパス分析手段は、前記コーパス内のテキストの形態素解析を行い、前記テキスト内の単語ごとに表記、読み、及び品詞の情報を検出し、
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞であるか否かを判定し、当該単語の品詞が名詞でない場合に、当該単語を抽出対象から排除することを特徴とする請求項3に記載の言語モデル生成装置。
【請求項5】
前記抽出手段は、前記文字列と一致しない単語の品詞が名詞である場合に、当該単語が平仮名以外を含むか否かを判定し、平仮名以外の文字を含む場合は、当該単語を抽出することを特徴とする請求項4に記載の言語モデル生成装置。
【請求項6】
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語から、前記単語セットを生成することを特徴とする請求項1乃至5のいずれか1項に記載の言語モデル生成装置。
【請求項7】
前記単語セット生成手段は、前記単語抽出手段が抽出した単語から所定数の単語を含む単語セットを所定数生成することを特徴とする請求項1乃至6のいずれか1項に記載の言語モデル生成装置。
【請求項8】
前記単語セット生成手段は、前記抽出手段が抽出した各単語について、前記コーパスとの類似を表す単語情報量を算出し、単語情報量の値が所定値以上である単語からランダムに前記所定数の単語を含む単語セットを前記所定数生成することを特徴とする請求項1乃至7のいずれか1項に記載の言語モデル生成装置。
【請求項9】
Web(world wide web)ページの集合を含むコーパス内のテキストを分析するステップと、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出するステップと、
前記抽出された前記少なくとも1つの単語から単語セットを生成するステップと、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得するステップと、
前記取得されたWebページから、音声認識のための言語モデルを作成するステップと、
を有することを特徴とする言語モデル生成方法。
【請求項10】
言語モデル作成装置のコンピュータにおいて用いられる言語モデル作成プログラムであって、当該コンピュータに、
Web(world wide web)ページの集合を含むコーパス内のテキストを分析する手順と、
前記分析結果に基づいて、音声認識対象に応じて設定された文書形式に適合する少なくとも1つの単語を抽出する手順と、
前記抽出された少なくとも1つの単語から単語セットを生成する手順と、
前記生成された単語セットをインターネット上の検索エンジンへの検索クエリーとし、当該検索エンジンに検索処理を行わせ、検索結果のリンク先のWebページを取得する手順と、
前記取得されたWebページから、音声認識のための言語モデルを作成する手順と、
を行わせることを特徴とする言語モデル生成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate