説明

音声認識装置および音声認識方法

【課題】特に声調言語の音声認識について、処理量が少なく、かつ認識性能の高い音声認識装置を提供する。
【解決手段】入力音声から基本周波数を抽出する一方、この入力音声についての音響解析を行う。そして、音声認識によって得られた複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力する。また、この出力されたラベル列から、予め保持しているパターンリストに基づいて、少なくとも一つのラベルを選択する。そして、入力音声から抽出された基本周波数に基づいて選択されたラベルについての声調を示す声調情報を抽出し、抽出した声調情報とパターンリストの内容とに基づいて、選択されたラベルを修正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、声調を考慮した音声認識装置および音声認識方法に関する。
【背景技術】
【0002】
中国語などのいわゆる声調言語は、声調(Tone)を用いて言葉の意味を区別する。例えば、図18に示すように、中国語には基本的に4つの声調(第1声〜第4声:Tone1〜Tone4)が存在する。声調言語では、図19に示すように、同じ音節であっても声調によって言葉の意味が異なるため、声調を考慮せずに音声を認識する方法では正確に音声を認識することが困難である。
【0003】
このような声調言語について、より正確に音声認識を行う方法として、例えば非特許文献1に記載の音声認識方法が提案されている。この音声認識方法では、標準中国語の連続数字認識の精度を向上させるために声調情報を利用している。図24は、非特許文献1の音声認識方法における処理を示す図である。まず、入力された音声から基本周波数が抽出される(S91)。一方で、入力された音声はMFCC(Mel Frequency Cepstrum Coefficient)を用いて解析され、出力される複数の認識結果のうち、尤度の高い順にN個の候補が選択される(S92)。なお、選択された各認識結果には、認識された単語と音節の区切りを示す時間情報が含まれる。
【0004】
また、この時間情報とS91における処理で得られた基本周波数の情報を用いて、N個(Nは正の整数)の認識結果のそれぞれについて、非選択的に、各認識結果に含まれるすべての数字について声調を識別する(S93)。そして、認識された単語と識別した声調情報との照合結果に応じて、N個の認識結果のスコアをそれぞれ書き換える(S94)。その結果、スコアが1位となった候補を最終的な音声認識結果として出力する(S95)。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Chao Wang and Stephanie Seneff, "A Study of Tones and Tempo in Continuous Mandarin Digit Strings and Their Application in Telephone Quality Speech Recognition", ICSLP, 1998, p.635−638
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、非特許文献1に記載の音声認識方法では、S93における処理でN個の認識結果に含まれるすべての数字について声調識別を行っているが、声調の中には識別精度の低いものが存在する。例えば、一般的に、中国語の4つの声調のうち第3声の識別率は最も低い。よって、そのような声調についても声調識別を行うと、結果的に音声認識の精度が低下する恐れがある。
【0007】
また、非特許文献1に記載の音声認識方法では、尤度の高い順にN個の認識結果について声調情報を考慮してこれらの認識結果の順位を修正するが、修正した結果、正しい認識結果が1位になって最終的な音声認識結果として出力されるためには、当然のことながら、この正しい認識結果がN個の候補に含まれる必要がある。Nの値を大きくするにしたがって正しい認識結果がN個の候補に含まれる確率は高まるが、声調識別を行って認識結果の順位を修正する際の処理量はNの大きさに比例して増加する。
そこで、本発明は、特に声調言語について、処理量が少なく、かつ認識性能の高い音声認識装置および音声認識方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記問題を解決するために、本発明は、入力音声から基本周波数を抽出する基本周波数抽出手段と、前記入力音声についての複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力するラベル列出力手段と、前記ラベル列から少なくとも一つのラベルを選択するラベル選択手段と、前記基本周波数抽出手段において抽出された前記基本周波数に基づいて前記ラベル選択手段において選択されたラベルについての声調を示す声調情報を抽出し、抽出した声調情報と所定の条件とに基づいて、前記選択されたラベルを修正するラベル修正手段と、を有する音声認識装置を提案する。
【0009】
つまり、複数の音声認識結果からいずれか一つのみを選択し、さらに、選択した音声認識結果を示すラベル列から、一以上のラベルを選択し、そのラベルのみ声調情報の識別およびラベルの修正を行う。これにより、全体の処理量は低く抑えられ、かつ選択的にラベルの修正を行うことにより、認識性能の高い音声認識が可能となる。
【0010】
また、音声認識装置は、第1のラベル列を、第1のラベル列とは異なる第2のラベル列に変換するためのパターンリストを保持するパターンリスト保持手段をさらに有し、前記ラベル選択手段は、前記パターンリストに基づいて前記少なくとも一つのラベルを選択し、前記ラベル修正手段における前記所定の条件とは、前記パターンリストの内容に基づく条件であってもよい。
この構成によれば、パターンリストに基づいてラベル列から一以上のラベルを選択し、声調情報の識別およびラベルの修正を行うため、ラベル列中の必要なラベルの修正のみが実行される。これにより、全体の処理量が少なく、認識性能の高い音声認識が可能である。
【0011】
また、前記パターンリストに含まれる前記第1のラベル列と前記第2のラベル列は、異なる声調であってもよい。
この構成によれば、明確に声調の違いを判断できるラベルのみ修正の対象となるため、誤認識を低減することができる。
また、前記ラベル列出力手段は、前記複数の音声認識結果に含まれる各ラベルの声調を示す声調情報と前記基本周波数とに基づき、前記複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力するようになっていてもよい。
【0012】
すなわち、ラベル列出力手段では、音声認識結果に含まれるすべてのラベルの声調情報を利用することで、非選択的な声調識別が行われる。一方、ラベル選択手段およびラベル修正手段では、特定のラベルのみを選択して利用することで、選択的な声調識別が行われる。これにより、選択的な声調識別において処理されない部分については非選択的な声調識別での処理が適応されることで、両声調識別の相乗効果が期待できる。
さらに、前記ラベル列出力手段は、前記複数の音声認識結果に含まれる各ラベルの前記声調情報で示される声調と、前記基本周波数に基づく前記各ラベルの声調と、を照合することで各音声認識結果の尤もらしさを示すスコアを算出し、算出された前記スコアが最も高い音声認識結果を示すラベル列を出力するようになっていてもよい。
【0013】
さらに、前記修正候補ラベルの発話継続時間長と、当該修正候補ラベルの発話を開始してから当該修正候補ラベルの基本周波数の時系列情報を時間微分した値が特定の条件を満たすまでの時間長と、に基づく統計情報を記憶した統計情報記憶手段を更に備え、前記ラベル列出力手段は、更に、前記ラベル列を構成するラベルの発話開始時間と発話終了時間とを出力し、前記所定の条件とは、前記ラベル列を構成するラベルのうち前記ラベル選択手段が選択したラベルの前記発話開始時間と前記発話終了時間をそれぞれ時刻t1、時刻t2とし、前記基本周波数抽出手段によって抽出された前記入力音声の前記時刻t1と前記時刻t2との間における基本周波数の時系列において、前記基本周波数の時系列情報を時間微分した値が特定の条件を満たす時刻を時刻t3、とした時の、前記時刻t1、前記時刻t2、前記時刻t3、および、前記統計情報記憶手段に記憶されている前記統計情報に基づく条件であってもよい。
【0014】
この構成によれば、ラベルの基本周波数の時系列情報のうち、声調の識別に有意な部分を利用して声調の識別を行うため、より正確な音声認識結果を得ることができる。
更に、前記特定の条件を、基本周波数の時系列情報を時間微分した値が負から正又は正から負に変化することであることとしてもよい。
この構成によれば、特に後述する第2声〜第4声の識別を精度良く行うことが出来る。
【0015】
さらに、前記修正候補ラベルの発話継続時間長と、当該修正候補ラベルの基本周波数の時系列情報を時間微分した値が0より小さい所定の値以上0より大きい所定の値以下である区間の開始点と終了点までの時間長と、に基づく統計情報を記憶した統計情報記憶手段を更に備え、前記ラベル列出力手段は、更に、前記ラベル列を構成するラベルの発話開始時間と発話終了時間とを出力し、前記所定の条件とは、前記ラベル列を構成するラベルのうち、前記ラベル選択手段が選択したラベルの前記発話開始時間と前記発話終了時間をそれぞれ時刻t1、時刻t2とし、前記基本周波数抽出手段によって抽出された前記入力音声の前記時刻t1と前記時刻t2との間における基本周波数の時系列において、前記基本周波数の時系列情報を時間微分した値が0より小さい所定の値以上0より大きい所定の値以下である区間の開始時間と終了時間をそれぞれ時刻t4、時刻t5とした時の、前記時刻t1、前記時刻t2、前記時刻t4、前記時刻t5、および、前記統計情報記憶手段に記憶されている前記統計情報に基づく条件であってもよい。
この構成によれば、ラベルの基本周波数の時系列情報のうち、声調の識別に有意な部分を利用して声調の識別を行うため、より正確な音声認識結果を得ることができる。特に後述する第1声の識別に有効である。
【0016】
また、前記入力音声は中国語であってもよい。
また、本発明は、入力音声から基本周波数を抽出する基本周波数抽出ステップと、前記入力音声についての複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力するラベル列出力ステップと、前記ラベル列から少なくとも一つのラベルを選択するラベル選択ステップと、前記基本周波数抽出ステップにおいて抽出された前記基本周波数に基づいて前記ラベル選択手段において選択されたラベルについての声調を示す声調情報を抽出し、抽出した声調情報と所定の条件とに基づいて、前記選択されたラベルを修正するラベル修正ステップと、を有する音声認識方法を提案する。
【0017】
つまり、複数の音声認識結果からいずれか一つのみを選択し、さらに、選択した音声認識結果を示すラベル列から、一以上のラベルを選択し、そのラベルのみ声調情報の識別およびラベルの修正を行う。これにより、全体の処理量は低く抑えられ、かつ選択的にラベルの修正を行うことにより、認識性能の高い音声認識が可能となる。
【発明の効果】
【0018】
本発明によれば、処理量が少なく、かつ高い精度で音声認識を行うことが可能である。
【図面の簡単な説明】
【0019】
【図1】第1の実施形態に係る音声認識装置の構成例を示す図である。
【図2】音声認識装置の各構成の出力イメージを示す図である。
【図3】エラーパターンリストの具体例を示す図である。
【図4】音声認識装置の処理の流れを示すフロー図である。
【図5】音声認識結果の具体例を示す図である。
【図6】時間境界情報の具体例を示す図である。
【図7】ピッチ情報の時系列の具体例を示す図である。
【図8】音声認識結果の具体例を示す図である。
【図9】時間境界情報の具体例を示す図である。
【図10】ピッチ情報の時系列の具体例を示す図である。
【図11】エラーパターンリストの生成方法を示すフロー図である。
【図12】エラーパターンの分類を示す図である。
【図13】エラーパターンの具体例を示す図である。
【図14】検証可能エラーパターンリストを示す図である。
【図15】本発明と非特許文献1に記載の音声認識方法の性能と演算量の比較結果を示す図である。
【図16】本発明と非特許文献1に記載の音声認識方法の性能と演算量の比較結果を示す図である。
【図17】非特許文献1において性能改善のデータから計算された改善率を説明する図である。
【図18】中国語における各声調のピッチパターンを示す図である。
【図19】中国語における各声調の具体例を示す図である。
【図20】第2の実施形態に係る音声認識装置の構成例を示す図である。
【図21】性能比較実験で使用されたコーパスを示す図である。
【図22】声調核セグメントの散布図である。
【図23】性能比較実験の実験結果を示す図である。
【図24】liu(第4声)の声調核の区間を示す図である。
【図25】非特許文献1の音声認識方法における処理を示す図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施の形態について、図面を参照しながら説明する。以下の説明において参照する各図では、他の図と同等部分は同一符号によって示す。
また、以下に説明する実施形態においては、中国語の数字の発音について音声認識を行う場合を一例として説明する。なお、中国語の0〜9の数字は、図19に示すように、「1、3、7、8」は第1声(Tone1)、「0」は第2声(Tone2)、「5、9」は第3声(Tone3)、「0、2、4、6」は第4声(Tone4)に分類される。
【0021】
(第1の実施形態)
(音声認識装置の構成)
図1は、本実施形態に係る音声認識装置の構成例を示す図である。また、図2は、各構成の出力イメージを示す図である。図1に示すように、音声認識装置1は、基本周波数抽出部101と、ラベル列出力部102と、ラベル選択部103と、ラベル修正部104と、結果出力部105と、エラーパターンリスト保持部106と、を有する。
【0022】
また、以下に説明する各構成の機能は、音声認識装置1が備える図示せぬCPU(Central Processing Unit)が、ハードディスクやROM(Read Only Memory)等の記憶装置に記憶されたプログラムをRAM(Random Access Memory)等のメモリ上に読み出して実行することにより実現される機能である。また、エラーパターンリスト保持部106は、ハードディスク等の記憶装置に設けられたデータベース又はデータ記憶領域であり、エラーパターンリスト11はこのデータベース等に記憶されるデータである。
【0023】
基本周波数抽出部101は、入力音声から基本周波数を抽出する。具体的には、微少な時間単位ごとに基本周波数が抽出され、この結果、図2(A)のように入力音声全体のピッチ情報(基本周波数情報)が時系列で取得される。なお、抽出された基本周波数の情報は、例えば音声認識装置1のRAM等の記憶装置に記憶される。
ラベル列出力部102は、入力音声についての複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力する。なお、「ラベル」とは、入力音声を音節で区切った1単位をいい、本実施形態においては、一つの数字が一つのラベルに該当する。また、「ラベル列」は、少なくとも一つのラベルを含む。また、「入力音声についての複数の音声認識結果」とは、入力音声の音声波形を音響解析し、例えばMFCCなどの特徴量を用いて音声認識を行った結果をいう。
【0024】
例えば、ラベル列出力部102では、入力音声の音声波形からMFCC等を用いて数字の認識がなされて、少なくとも一つの数字(すなわち、ラベル)を含む数字列(すなわち、ラベル列)が、例えば尤度の高い順番でN個出力される(図2(B))。なお、この出力結果には、N個の数字列に含まれている各数字の発話タイミングを示す発話の開始時間と終了時間(すなわち、時間境界情報)も含まれている。そして、出力されたN個の候補から、例えば尤度の一番高い数字列が一つだけ選択される(図2(C))。
より具体的には、ラベル列出力部102は、例えば入力音声をデジタル化した後、MFCC等を用いて音声認識処理を行い、複数の音声認識結果(ラベル列)をRAM等の記憶装置に記憶し、さらにこれらの複数の認識結果から一つを選択して、選択した結果を記憶装置に記憶する。
【0025】
また、エラーパターンリスト保持部106は、第1のラベル列を、第1のラベル列とは異なる第2のラベル列に変換するためのエラーパターンリスト11を保持する。
図3は、エラーパターンリスト11の具体例を示す図である。エラーパターンリスト11は、図3に示すように、第1のラベル列(図3における認識結果ラベル)と、これとは異なる第2のラベル列(図3における正解ラベル)とを関連付けたものである。なお、図3の具体例においては、各ラベルは中国語の数字を示し、各ラベルの横に付されている括弧内の数字は各ラベルの声調(第1声〜第4声)を示す(以下、本明細書を通じて同様である)。
【0026】
ラベル選択部103は、ラベル列出力部102で出力されたラベル列から少なくとも一つのラベルを選択する。具体的には、ラベル選択部103は、エラーパターンリスト11に基づいて少なくとも一つのラベルを選択する。例えば、ラベル選択部103は、ラベル列出力部102で出力されたラベル列にエラーパターンリスト11の認識結果ラベルが含まれているか否かを判断し、含まれている場合には、そのラベルを選択する(図2(D))。
【0027】
具体的には、ラベル選択部103は、例えばラベル列出力部102で保存されたラベル列をRAM等の記憶装置から読み出すとともに、ハードディスク等の記憶装置からエラーパターンリスト11を読み出し、ラベル列とエラーパターンリスト11の内容を照合してラベル列から少なくとも一つのラベルを選択し、選択した結果をRAM等の記憶装置に記憶する。
【0028】
ラベル修正部104は、基本周波数抽出部101において抽出された基本周波数に基づいてラベル選択部103において選択されたラベルについての声調を示す声調情報を抽出し、抽出した声調情報と所定の条件とに基づいて、選択されたラベルを修正する。また、「所定の条件」とは、エラーパターンリスト11の内容に基づく条件である。具体的には、ラベル修正部104は、ラベル選択部103で選択されたラベルの声調情報と、エラーパターンリスト11においてこのラベルと関連付けられている正解ラベルの声調情報とを比較する。例えば、図2(C)の数字列「1,6,3,4,7」から選択された数字が「6」であるとすると、「6」の時間境界情報は、t2、t3である。そこで、基本周波数抽出部101で抽出されたピッチ情報の時系列におけるt2〜t3の区間のピッチ情報を切り出し、このピッチ情報で示されるピッチパターン(図2(C))と、エラーパターンリスト11の認識結果ラベル「6(liu)」に対応する正解ラベルの声調とを比較する。
【0029】
ここで、例えば両者の声調情報が一致する場合には、ラベル選択部103で選択された数字「6」を正解ラベルの数字に修正する。そして、このラベルを修正した数字列が、最終的な音声認識結果となる。
具体的には、ラベル修正部104は、例えばラベル選択部103で保存されたラベルを読み出すとともに、基本周波数抽出部101で保存された基本周波数の情報をRAM等の記憶装置から読み出すことで、このラベルの声調情報を抽出する。さらに、この抽出した結果と、ハードディスク等の記憶装置から読み出したエラーパターンリスト11の内容を照合し、照合した結果に基づいてラベルを修正し、修正した結果のラベル列をRAM等の記憶装置に記憶する。
結果出力部105は、ラベル修正部104で修正済みのラベル列を最終的な音声認識結果として外部の装置等に出力する。
【0030】
(音声認識装置の動作)
本実施形態にかかる音声認識装置1の動作について、図4を用いて説明する。図4は、本実施形態に係る音声認識装置1における処理の流れを示すフロー図である。
基本周波数抽出部101において入力音声から基本周波数を抽出する一方で、ラベル列出力部102において、入力音声について音声波形に基づいて音声認識を行った結果である複数の音声認識結果からいずれか一つを選択する。この選択した音声認識結果が、図4に示す認識結果リスト10である。
【0031】
次に、ラベル選択部103において、エラーパターンリスト保持部106に保持されているエラーパターンリスト11を参照して、認識結果リスト10に声調の検証対象であるエラーパターンが含まれているかどうかを検索する(ステップS101)。含まれている場合には、そのラベル(すなわち、認識結果ラベル)と、ラベルの入力音声における時間境界を示す時間境界情報と、エラーパターンリスト11において認識結果ラベルと関連付けられている正解ラベルと、を関連付けて保存する(符号12)。
【0032】
次に、ラベル修正部104において、保存された認識結果ラベルとラベルの時間境界情報とから、検証対象区間を特定する(ステップS102)。そして、基本周波数抽出部101で抽出された入力音声のピッチ情報の時系列13、保存されていた認識結果ラベル、ラベルの時間境界、正解ラベル12に基づいて、検証対象区間のピッチセグメントの型と、正解ラベルのピッチセグメントの型が一致するかどうかを判断する(ステップS103)。一致する場合には(ステップS104)、認識結果ラベルを正解ラベルに書き換える(ステップS105)。一致しない場合には、処理を終了する。
【0033】
尚、発話開始時間から発話終了時間の間の全区間をピッチセグメントの型の検証対象区間としても良いが、発話開始直後の時間区間における基本周波数や発話終了直前の時間区間における基本周波数は検証対象ラベルの前後のラベルの影響を受けて変化することがあるため、当該前後のラベルの影響を受けにくい区間をピッチセグメントの型の検証対象区間とすることが好ましい。本願発明者らが鋭意検討した結果、検証対象ラベルの基本周波数の時系列情報を時間微分した値によって、前後のラベルの影響を受けにくい区間を識別できることを見出した。
【0034】
特に、検証対象ラベルの基本周波数の時系列情報を時間微分した値が負から正又は正から負に変化する時刻を極値点とした時の、当該検証対象ラベルの発話開始時間から発話終了時間の時間区間内における極値点以降の区間が前のラベルの影響を受けにくい区間であり、当該検証対象ラベルの発話開始時間から発話終了時間の時間区間内における、発話開始時間から極値点までの区間が後ろのラベルの影響を受けにくい区間であり、当該検証対象ラベルの発話開始時間から発話終了時間の時間区間内における、極値点と極値点との間の区間が前後のラベルの影響を受けにくい区間であることを見出した。
【0035】
本明細書では、この検証対象ラベルの前のラベル及び/又は後のラベルの影響を受けにくい区間をラベルの「声調核」とする。より具体的には、検証対象ラベルの発話開始時間後における最初の極値点から発話終了時間までの区間、検証対象ラベルの発話開始時間後から発話終了時間前の最後の極値点までの区間、あるいは、発話開始時間から発話終了時間の時間区間内における極値点と極値点との間の区間、などを「声調核」という。図24はliu(4)の声調核の区間の一例を示す図である。
【0036】
上記声調核の概念は、識別対象のラベルが第2声調から第4声調のいずれであるかを識別するのに極めて有効である。第2声調、第3声調、第4声調のラベルは、図18に示されるように発話中に周波数が上下するため、極値点が存在し、これを利用することができる。また、図18に示されるように、第1声調は発話中の周波数がほぼ一定であるので、基本周波数の時系列情報を時間微分した値が0に近い値となる。
よって、識別対象のラベルが第1声調であるかを識別する場合は当該識別対象ラベルの基本周波数の時系列情報を時間微分した値が0より小さい所定の値以上0より大きい所定の値以下である区間を声調核とし、この区間をピッチセグメントの型の検証対象区間とすることが好ましい。
【0037】
(具体例1)
以下、具体例を挙げて、本実施形態に係る音声認識装置について説明する。本具体例では、発話された入力音声と、音声波形から認識された認識結果に含まれるラベル列とが、ラベル数は同じであるがラベルが一部異なっている場合について説明する。
本具体例では、図5に示すように、入力音声(正解)は、「0,3,1,7」であるが、ラベル列出力部102において出力されたラベル列(認識結果)は、「6,3,1,7」であったとする。また、認識結果の各ラベル(各数字)の時間境界情報である発話開始時刻と発話終了時刻は、図6に示す通りである。例えば、「6(liu)」は、入力音声において0.202秒から0.452秒の間に発音がなされたことを示す。また本例では、図3に示すエラーパターンリスト11を用いる。
【0038】
以上のような条件の下、音声認識装置1は、ラベル選択部103において、認識結果である /liu(4) san(1) yi(1) qi(1)/ の中に、図3に示すエラーパターンリスト11の最初のエラーパターンである /jiu(3) wu(3)/ が含まれているか判断する(図4のステップS101)。含まれていないため、次のエラーパターンである /wu(3)/ が認識結果に含まれているか判断する。ここでも含まれていないため、次のエラーパターンである /liu(4)/ が認識結果に含まれているか判断する。認識結果には /liu(4)/ が含まれているため、図6の時間境界情報から /liu(4)/ の時間境界情報として「開始時刻0.202s、終了時刻0.452s」を取得する。そして、認識結果ラベル /liu(4)/ 、取得した時間境界情報、エラーパターンリスト11において /liu(4)/ に対応する正解ラベル /ling(2)/を保存する。
【0039】
そして、保存した時間境界情報から、入力音声における検証対象区間を0.202〜0.452sであると特定する(図4のステップS102)。
次に、ラベル修正部104において、基本周波数抽出部101にて抽出した基本周波数に基づいて得られる入力音声のピッチ情報時系列13と検証対象区間とに基づいて得られる認識結果ラベル /liu(4)/ のピッチセグメントの型が、正解ラベル /ling(2)/ のピッチセグメントの型と一致するか判断する(図4のステップS103)。例えば、図7は入力音声のピッチ情報時系列13の具体例を示す図であるが、このピッチ情報時系列13によれば、検証対象区間である0.202〜0.452sの区間のピッチセグメントの型は「上昇」型である。また、 /ling(2)/ も第2声であり声調は「上昇」型であるので、両者のピッチセグメントは一致する(図4のステップS104)。よって、 /liu(4)/ を /ling(2)/ に修正し、最終的な認識結果は /ling(2) san(1) yi(1) qi(1)/ (0,3,1,7)となる(図4のステップS105)。
【0040】
つまり、本来、liuは第4声であるので、本例のように、音声認識で /liu(4)/ と認識された検証対象区間においてその声調は「下降」型になっているはずであるが、実際のピッチセグメントの型は「上昇」型になっており、この結果によれば、 /liu/ の部分の音声認識は誤っていた可能性が高い。本実施形態の音声認識装置は、声調情報を参照して最終的な認識結果を導き出すため、より正確な音声認識が可能である。
【0041】
(具体例2)
以下、別の具体例について説明する。本具体例では、発話された入力音声と、音声波形から認識された認識結果のラベル列とが、ラベル数が異なっている場合について説明する。
本具体例では、図8に示すように、入力音声(正解)は、「1,3,9,7」であるが、ラベル列出力部102において出力されたラベル列(認識結果)は、「1,3,9,5,7」であったとする。また、認識結果の各ラベル(各数字)の時間境界情報である開始時刻と終了時刻は、図9に示す通りである。また本例においても、図3に示すエラーパターンリスト11を用いる。
【0042】
以上のような条件の下、音声認識装置1は、ラベル選択部103において、認識結果である /yi(1) san(1) jiu(3) wu(3) qi(1)/ の中に、エラーパターンリスト11の最初のエラーパターンである /jiu(3) wu(3)/ が含まれているか判断する(図4のステップS101)。認識結果には /jiu(3) wu(3)/ が含まれているので、図9の時間境界情報から /jiu(3) wu(3)/ の時間境界情報として「開始時刻0.596s、終了時刻0.826s」を取得する。そして、認識結果ラベル /jiu(3) wu(3)/ 、取得した時間境界情報、エラーパターンリスト11においてこの認識結果ラベルに対応する正解ラベル /jiu(3)/ を保存する。
【0043】
そして、保存した時間境界情報から、入力音声における検証対象区間を0.596〜0.826sであると特定する(図4のステップS102)。
次に、ラベル修正部104において、基本周波数抽出部101にて抽出した基本周波数に基づいて得られる入力音声のピッチ情報時系列13と検証対象区間とに基づいて得られる認識結果ラベル /jiu(3) wu(3)/ のピッチセグメントの型が、正解ラベル /jiu(3)/ のピッチセグメントの型と一致するか判断する(図4のステップS103)。例えば、図10は入力音声のピッチ情報時系列13の具体例を示す図であるが、このピッチ情報時系列13によれば、検証対象区間である0.596〜0.826sの区間のピッチセグメントの型は「下降」型である。また、 /jiu(3)/ も第3声であり声調は「下降」型であるので、両者のピッチセグメントは一致するため(図4のステップS104)、 /jiu(3) wu(3)/ を /jiu(3)/ に修正する(図4のステップS105)。
【0044】
なお、 /yi(1) san(1) jiu(3) wu(3) qi(1)/ の /jiu(3) wu(3)/ 以外の部分について、エラーパターンリスト11の2番目のエラーパターン /wu(3)/ 、又は3番目のエラーパターン /liu(4)/ が含まれているか判断し、上記と同様の処理を行う。
このような処理の結果、音声認識装置1における最終的な認識結果は /yi(1) san(1) jiu(3) qi(1)/(1,3,9,7)となる(図4のステップS105)。
【0045】
以上のように、本実施形態に係る音声認識装置1は、予めエラーパターンリスト11によってエラーパターンを規定しておき、この内容に基づいてラベルの修正を行う。また、後述するように、エラーパターンリスト11では、音声認識装置1で誤認識テストを行い、この結果、エラーの多い順にエラーパターンが決定される。よって、ラベル選択部103およびラベル修正部104においては、エラー発生率の高いラベルが選択され修正されるので、全体として音声認識の精度が高まる。
【0046】
(エラーパターンリストの生成方法)
以下、図11を用いて、エラーパターンリスト11の生成方法について説明する。図11は、エラーパターンリスト11の生成方法を示すフロー図である。まず、具体的な処理の説明の前に、図11に示す誤認識結果リスト14と検証可能エラーパターンリスト15について説明する。
【0047】
誤認識結果リスト14は、音声認識装置で確認できたエラーパターンをリストアップしたものである。誤認識結果リスト14に挙げられるエラーパターンは、図12に示すように分類することができる。図12において、A、D、I、Sは数字ラベルであり、 /ling(2), dong(4), yi(1), yao(1), er(4), san(1), si(1), wu(3), liu(4), qi(1), ba(1), jiu(3)/ のいずれかのラベルを表す。この誤認識結果リスト14は、音声認識装置の種類や設定によって変化するが、図12は、ある特定の音声認識装置1で得られたエラーパターンとその発生数の例を示す。
【0048】
また、エラーパターンの分類としては、「挿入」、「削除」、「置換」の3種類が存在する。「挿入」とは、発話された音声である正解ラベルは一桁の数字であったものが、音声認識の認識結果としては二桁の数字で認識される場合を想定したエラーパターンである。また、「削除」とは、正解ラベルは二桁の数字であったものが、認識結果としては一桁で認識される場合を想定したエラーパターンであり、「置換」とは、正解ラベルが別のラベルに認識される場合を想定したエラーパターンである。
図12に示す各エラーパターンについて、A、D、I、Sを具体的な数字ラベルに展開したものが誤認識結果リスト14である。また、誤認識結果リスト14をエラー発生数の多い順でソートした場合の上位5件のエラーパターンを図13に示す。
【0049】
また、図14は、検証可能エラーパターンリスト15を示す図である。上述したように、基本的には、エラーパターンは図12のように分類することが可能であるが、ラベルの声調によってはラベル修正部104で認識結果ラベルのピッチパターンと正解ラベルのピッチパターンとの照合が困難なものが存在する。図14に示す表の「声調条件」の欄は、各エラーパターン分類について照合の困難なエラーパターンなどを排除した結果、声調の検証対象とする条件を示す。具体的には、以下の通りである。
【0050】
「挿入」の場合の「声調条件」は、ラベルAとラベルIが両者とも第3声の場合のみ声調を検証することを示す。第3声の数字が二桁連続する場合、一桁目の数字の第3声が第2声に変化する現象が一般に知られており(Tone Sandhi)、この場合、一桁目のピッチセグメントは上昇型となる。つまり、認識結果ラベルが二桁でTone Sandhiの条件を満たしている場合、一桁目のピッチセグメントは第2声になるため、上昇型のはずである。また、正解ラベルの数字が一桁で第3声である場合、第3声の前半部のピッチセグメントは下降型となる。つまり、両者はピッチセグメントの型が明らかに異なるため、認識結果ラベルが誤りであるかどうかの検証が可能である。
【0051】
「削除」の場合の「声調条件」は、ラベルAとラベルDが両者とも第3声の場合のみ声調を検証することを示す。認識結果ラベルが一桁で第3声の数字であれば、第3声の前半部は下降型のはずである。しかし、発話された入力音声の数字が二桁でTone Sandhiの条件を満たしている場合、一桁目のピッチセグメントは第2声になり、上昇型となる。つまり、両者のピッチセグメントの型が明らかに異なるため、認識結果ラベルが誤りであるかどうかの検証が可能である。
【0052】
「置換」の場合の「声調条件」は、ラベルAとラベルDの声調が異なる場合のみ声調を検証することを示す。認識結果ラベルSと正解ラベルAの声調が異なる場合にはピッチセグメントの「上昇」、「平板」、「下降」の型が異なるので、認識結果ラベルが誤りであるかどうかの検証が可能である。なお、第3声と第4声のラベルは、両者とも下降型のピッチセグメントを含んでおり区別し難いため、正解ラベルと認識結果ラベルの組み合わせが第3声と第4声であるエラーパターンについては声調の検証対象から除くようになっていてもよい。
【0053】
また、さらに、第3声の基本周波数抽出は音声入力時の背景雑音に脆弱であるため、認識結果ラベルSと正解ラベルAのいずれかが第3声である場合には声調の検証対象から除くようになっていてもよい。ラベル修正によってかえって音声認識の精度が低下することを防ぐことができる。
また、さらに、第1声と第2声はピッチパターンの傾きが他の声調と比較して小さく、区別し難いため、認識結果ラベルSと正解ラベルAの組み合わせが第1声と第2声である場合には声調の検証対象から除くようになっていてもよい。ラベル修正によってかえって音声認識の精度が低下することを防ぐことができる。
【0054】
ここで、図11のフロー図を用いてエラーパターンリスト11の生成方法について具体的に説明する。音声認識装置1の誤認識結果リスト14のエラーパターンをエラー数の多い順でソートする(ステップS201)。このソートされた複数のエラーパターンからエラーパターンを一つ読み出す(ステップS202)。図14に示す検証可能エラーパターンリスト15を参照して、読み出したエラーパターンが検証可能なエラーパターンのいずれかと一致するか否か判断する(ステップS203)。一致する場合には、このエラーパターンをエラーパターンリスト11に保存する(ステップS204)。終了条件を満たすまでステップS202からステップS204の処理を繰り返す(ステップS205)。
【0055】
なお、ステップS205の終了条件としては、例えば、ステップS201でソートしたエラーパターンを予め決定された数だけ読み出した場合や、エラーパターンをエラーパターンリスト11に追加するたびに認識性能評価を行い、性能が目標値に到達した場合や性能改善率が一定値以下になった場合、等が挙げられる。
以上の処理により、図3に示すエラーパターンリスト11が生成される。
【0056】
また、上記の生成方法により生成されたエラーパターンリスト11はエラー発生数の多い順にエラーパターンがリストアップされる結果、ラベル選択部103での処理(図4のステップS101)においては、エラーが発生する頻度の高い順番にエラーパターンと音声認識の結果との照合が行われて、ラベルの修正が行われる。つまり、エラー発生率の高い順にラベルの修正が行われるため、音声認識の精度がより高くなる。
【0057】
(本発明と従来技術の比較)
図15および図16は、音声認識の性能と演算量について、本発明と非特許文献1に記載の音声認識方法とを比較した結果を示す図である。図15は雑音が小さい状況下での比較結果を示し、図16は雑音が大きい状況下での比較結果を示す。
図15および図16のグラフにおいて、棒グラフはSER(String Error Rate)を表す。SERとは、認識対象として入力された音声文の全数中、誤認識された文数の比率である。また、折れ線グラフはCostを表す。Costとは、演算量であり、1-best_optimalのCostを1とした場合の比率で表される。SERとCostは、小さいほど理想的である。
【0058】
10-best_optimalは、10-best rescoring(非特許文献1の音声認識方法)の理想的状況、すなわち、認識結果の上位10個の候補に正解があり、その正解が必ず第1位となるようにスコアが書き換えられると仮定した場合の性能等を示す。Deduced 10-best rescoringは、非特許文献1において性能改善のデータから計算された図17に示す改善率(30%)を用いて、本実験の結果から推測した性能等を示す。より具体的には、Deduced 10-best rescoringのSERは以下の式により算出されたものである。
Deduced 10-best rescoring SER
=1-best_optimal SER−(1-best_optimal SER−10-best_optimal SER)×改善率
・・・式(1)
図15および図16に示すグラフによれば、Deduced 10-best rescoringとProposal(本発明)では、本発明の音声認識装置の方が性能改善および演算量の点で優れていることが分かる。
【0059】
(応用例)
本実施形態においては、中国語の数字を認識する場合について説明したが、地名などを認識する場合にも適用可能である。例えば、“国会”/guo(2) hui(4)/(意味は国会、議会)と“国徴”/guo(2) hui(1)/(意味はエンブレム)や、“眼鏡”/yan(3) jing(4)/(意味はメガネ)と“眼睛”/yan(3) jing(1)/(意味は目)の違いは声調しかない。本発明に係る音声認識装置によれば、「下降」と「平板」のピッチセグメントの型を判断することにより、両者を正しく認識することができる
また、本実施形態に係る音声認識装置は、中国語のみならず、タイ語やベトナム語などの他の声調言語にも適用可能である。
【0060】
(第2の実施形態)
以下、本発明の第2の実施形態について説明する。
(音声認識装置の構成)
図20は、本実施形態に係る音声認識装置の構成例を示す図である。図20に示される音声認識装置1は、ラベル列出力部102において、入力音声についての複数の音声認識結果に含まれる各ラベルの声調を示す声調情報と基本周波数抽出部101で抽出される基本周波数とに基づき、複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力する点が特徴である。
【0061】
例えば、ラベル列出力部102は、数字認識部で認識された複数の音声認識結果に含まれる各ラベルの声調と、基本周波数抽出部101で抽出された基本周波数に基づく各ラベルの声調とを照合することで各音声認識結果の尤もらしさを示すスコアを算出し、算出されたスコアが最も高い音声認識結果を示すラベル列を出力する。
具体的には、ラベル列出力部102は、非特許文献1に記載されている音声認識結果のスコアリング方法により、最終的にスコアが1位となった音声認識結果を選択し、この音声認識結果を示すラベル列を出力する。
まず、基本周波数抽出部101で入力音声から基本周波数が抽出されるとともに、入力音声はMFCCを用いて解析され、出力される複数の認識結果のうち、尤度の高い順にN個の候補が選択される(S92)。なお。選択された各認識結果には、認識された単語と音節の区切りを示す時間情報が含まれる。
【0062】
また、この時間情報と基本周波数抽出部101における処理で得られた基本周波数の情報とを用いて、N個の認識結果のそれぞれについて、非選択的に、各認識結果に含まれるすべての数字について声調識別が実行される(S93)。そして、認識された単語と、識別された声調情報との照合結果に応じて、N個の各認識結果の尤もらしさ(正確さ)を示すスコアがそれぞれ書き換えられる(S94)。その結果、スコアが1位となった候補がラベル列出力部102の出力として出力される(S95)。
なお、第1の実施形態に係る音声認識装置と同様に、本実施形態に係る音声認識装置も、中国語の数字のみならず、地名などを認識する場合にも適用可能である。また、中国語のみならず、タイ語やベトナム語などの他の声調言語にも適用可能である。
【0063】
(本発明と従来技術の比較)
以下、非特許文献1の音声認識方法(以下、「従来法」という)、第1の実施形態の音声認識方法(以下、「提案法」という)、第2の実施形態の音声認識方法(以下、「融合法」という)における音声認識の性能を比較するための実験結果を示す。
(実験条件)
本実験で使用した音声コーパスは、図21に示されるように、雑音のない環境で録音された標準中国語連続数字音声に走行車内の雑音を重畳した音声である。また、重畳する雑音のSNR(signal-noise ratio)は9dBA、20dBAとした。また、基本周波数抽出部101では、基本周波数を、公知の手法(関 高浩,岩野公司,古井貞煕,“ハフ変換による雑音に頑健な基本周波数抽出法”,情処研報,2001-SLP-38-2, vol.2001, no.100, pp.9-14, 2001-10)によって抽出した。
【0064】
(比較方法)
まず、MFCCを用いてBaselineをコーパスAで学習し(S92およびラベル列出力部102の数字認識部で処理)、コーパスBとコーパスCで評価した。
次に、従来法をBaselineの後処理として実施した。具体的には、Baseline処理結果の上位10候補の時間境界情報と基本周波数情報とから特徴量を生成し、ニューラルネットワークで声調認識を行い、声調スコアを算出した。そして、各候補の尤度と声調スコアを統合してN-best rescoringを行った。ここで、尤度と声調スコアとを統合する際に用いる重みはコーパスBで最適化した。
【0065】
次に、提案法もBaselineの後処理として実施した。本実験では声調の識別精度を高めるために、コーパスBの認識結果から声調核の統計的な分布を先験的な知識として蓄え、コーパスBとコーパスCの評価で利用した。具体的には、以下のような手順となる。
本実験では声調の識別精度を高めるために、上述した「声調核」の概念を導入し実験を行った。具体的には、以下のような手順となる。
【0066】
<統計情報の学習フェイズ>
まず、各ラベルの声調と声調核に関する統計情報を収集し、図示しない統計情報記憶部に記憶させた。具体的には、学習用音声を用いて、各ラベルの発話継続時間内における声調核の相対位置と声調核区間における基本周波数の波形の型(第1声〜第4声の4つの型:平板である・上昇である)とを紐付けた統計情報を収集し記憶させた。ここで発話継続時間内における極値点の相対位置とは、各ラベルの発話開始時間と発話終了時間で区切られる発話継続時間長をL、各ラベルの発話を開始してから声調核の開始時間までの時間長をT1、各ラベルの発話を開始してから声調核の終了時間までの時間長をT2、とした時の、T1/LとT2/Lの値を指す。図22はliu(4)の声調核に関する統計情報であり、横軸をT1/Lの値、縦軸をT2/Lの値としている。
このように、極値点の相対位置として、発話継続時間長Lと、時間長T1およびT2との比を採用することによって、各ラベルの発話速度が変化することで発話継続時間長Lの長さが変わる場合の影響を吸収することができる。
【0067】
<入力音声の音声認識フェイズ>
まず、ラベル列出力部102で出力される数字列とその時間境界情報を取得する。
次に、ラベル選択部103が、当該取得した数字列に含まれる数字の中からエラーパターンリスト11の認識結果ラベルとマッチしている数字を声調識別対象のラベルとして選択する。
次に、ラベル修正部104は、基本周波数抽出部101により抽出された基本周波数の時系列情報から声調識別対象ラベルの声調核を抽出する。
【0068】
最後に、ラベル修正部104は、統計情報記憶部に記憶された修正候補のラベル(図3の正解ラベル)の声調核に関する統計情報とラベル選択部103にて選択された声調識別対象ラベルの声調核の相対位置及び声調核中における基本周波数の波形の型が一致しているかを調べ、一致している場合には声調識別対象ラベルを修正候補ラベルに修正する。
以上のように、従来法と提案法を実施した後、最後に、従来法と提案法を融合して、融合法を実施した。
【0069】
(実験結果)
各評価条件における数字誤認識率(WER)と誤認識削減率(ER)を図23に示す。すべての評価条件において、提案法は従来法に比べ大幅な性能向上が見られる。また、低SNRの場合に従来法ではERが大きく劣化するが、提案法は性能を保っており、提案法は両SNRで頑健であることがわかる。また、融合法のERの改善結果より、従来法と提案法が相補的に機能していることがわかる。
【0070】
すなわち、従来法では、入力音声のすべての声調情報を利用するが(S92〜S95)、提案法では、誤認識しやすいラベルの声調情報のうち識別性の高いものだけを選択して利用する(ラベル選択部103、ラベル修正部104)。よって、従来法と提案法とが融合された融合法においては、提案法において処理されない部分については従来法の処理が適応されることで、従来法と提案法の相乗効果が期待できる。また、融合法では、従来法(S92〜S95)におけるスコアリングの精度が高ければ高いほど、最終的な認識結果も精度が高くなると考えられる。
【符号の説明】
【0071】
1 音声認識装置
10 認識結果リスト
11 検証対象のエラーパターンリスト
12 認識結果ラベル、ラベルの時間境界情報、正解ラベル
13 入力音声のピッチ情報時系列
14 誤認識結果リスト
15 検証可能エラーパターンリスト
101 基本周波数抽出部
102 ラベル列出力部
103 ラベル選択部
104 ラベル修正部
105 結果出力部
106 エラーパターンリスト保持部

【特許請求の範囲】
【請求項1】
入力音声から基本周波数を抽出する基本周波数抽出手段と、
前記入力音声についての複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力するラベル列出力手段と、
前記ラベル列から少なくとも一つのラベルを選択するラベル選択手段と、
前記基本周波数抽出手段において抽出された前記基本周波数に基づいて前記ラベル選択手段において選択されたラベルについての声調を示す声調情報を抽出し、抽出した声調情報と所定の条件とに基づいて、前記選択されたラベルを当該ラベルの修正候補のラベルである修正候補ラベルに修正するラベル修正手段と、
を有する音声認識装置。
【請求項2】
第1のラベル列を、第1のラベル列とは異なる第2のラベル列に変換するためのパターンリストを保持するパターンリスト保持手段をさらに有し、
前記ラベル選択手段は、前記パターンリストに基づいて前記少なくとも一つのラベルを選択し、前記ラベル修正手段における前記所定の条件とは、前記パターンリストの内容に基づく条件であることを特徴とする請求項1に記載の音声認識装置。
【請求項3】
前記パターンリストに含まれる前記第1のラベル列と前記第2のラベル列は、異なる声調であることを特徴とする請求項2に記載の音声認識装置。
【請求項4】
前記ラベル列出力手段は、前記複数の音声認識結果に含まれる各ラベルの声調を示す声調情報と前記基本周波数とに基づき、前記複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力することを特徴とする請求項1から3のいずれか一項に記載の音声認識装置。
【請求項5】
前記ラベル列出力手段は、前記複数の音声認識結果に含まれる各ラベルの前記声調情報で示される声調と、前記基本周波数に基づく前記各ラベルの声調と、を照合することで各音声認識結果の尤もらしさを示すスコアを算出し、算出された前記スコアが最も高い音声認識結果を示すラベル列を出力することを特徴とする請求項4に記載の音声認識装置。
【請求項6】
前記修正候補ラベルの発話継続時間長と、当該修正候補ラベルの発話を開始してから当該修正候補ラベルの基本周波数の時系列情報を時間微分した値が特定の条件を満たすまでの時間長と、に基づく統計情報を記憶した統計情報記憶手段を更に備え、
前記ラベル列出力手段は、更に、前記ラベル列を構成するラベルの発話開始時間と発話終了時間とを出力し、
前記所定の条件とは、
前記ラベル列を構成するラベルのうち前記ラベル選択手段が選択したラベルの前記発話開始時間と前記発話終了時間をそれぞれ時刻t1、時刻t2とし、
前記基本周波数抽出手段によって抽出された前記入力音声の前記時刻t1と前記時刻t2との間における基本周波数の時系列において、前記基本周波数の時系列情報を時間微分した値が特定の条件を満たす時刻を時刻t3、とした時の、
前記時刻t1、前記時刻t2、前記時刻t3、および、前記統計情報記憶手段に記憶されている前記統計情報に基づく条件であることを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。
【請求項7】
前記特定の条件が、基本周波数の時系列情報を時間微分した値が負から正又は正から負に変化することであることを特徴とする請求項6に記載の音声認識装置。
【請求項8】
前記修正候補ラベルの発話継続時間長と、当該修正候補ラベルの基本周波数の時系列情報を時間微分した値が0より小さい所定の値以上0より大きい所定の値以下である区間の開始点と終了点までの時間長と、に基づく統計情報を記憶した統計情報記憶手段を更に備え、
前記ラベル列出力手段は、更に、前記ラベル列を構成するラベルの発話開始時間と発話終了時間とを出力し、
前記所定の条件とは、
前記ラベル列を構成するラベルのうち、前記ラベル選択手段が選択したラベルの前記発話開始時間と前記発話終了時間をそれぞれ時刻t1、時刻t2とし、
前記基本周波数抽出手段によって抽出された前記入力音声の前記時刻t1と前記時刻t2との間における基本周波数の時系列において、前記基本周波数の時系列情報を時間微分した値が0より小さい所定の値以上0より大きい所定の値以下である区間の開始時間と終了時間をそれぞれ時刻t4、時刻t5とした時の、
前記時刻t1、前記時刻t2、前記時刻t4、前記時刻t5、および、前記統計情報記憶手段に記憶されている前記統計情報に基づく条件であることを特徴とする請求項1から5のいずれか一項に記載の音声認識装置。
【請求項9】
前記入力音声は中国語であることを特徴とする請求項1から8のいずれか一項に記載の
音声認識装置。
【請求項10】
入力音声から基本周波数を抽出する基本周波数抽出ステップと、
前記入力音声についての複数の音声認識結果からいずれか一つを選択し、選択した音声認識結果を示すラベル列を出力するラベル列出力ステップと、
前記ラベル列から少なくとも一つのラベルを選択するラベル選択ステップと、
前記基本周波数抽出ステップにおいて抽出された前記基本周波数に基づいて前記ラベル選択手段において選択されたラベルについての声調を示す声調情報を抽出し、抽出した声調情報と所定の条件とに基づいて、前記選択されたラベルを修正するラベル修正ステップと、
を有する音声認識方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate


【公開番号】特開2012−78775(P2012−78775A)
【公開日】平成24年4月19日(2012.4.19)
【国際特許分類】
【出願番号】特願2011−48296(P2011−48296)
【出願日】平成23年3月4日(2011.3.4)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 社団法人日本音響学会,日本音響学会 2010年秋季研究発表会 講演論文集 講演要旨・講演論文CD−ROM,平成22年9月7日発行
【出願人】(000000033)旭化成株式会社 (901)
【Fターム(参考)】