説明

音響電気変換システムおよび音響電気変換方法

【課題】簡易的な処理によって音声認識を可能にする音響電気変換システムを提供する。
【解決手段】音響電気変換システム100は、回折格子7を備え、音圧により振動する振動板2と、回折格子に光を照射する光源1と、回折格子で回折した光を電気信号に変換する半導体位置検出素子3であって、この半導体位置検出素子の受光面に照射される光の位置を検出する半導体位置検出素子とを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響電気変換システムおよび音響電気変換方法に関する。
【背景技術】
【0002】
従来、音声認識に必要な音声処理や音声分析には、FFT(Fast Fourier Transform)等の複雑なプロセスが必要であった。
【0003】
音声認識の従来例として、まず、音声パターンがコンデンサマイクロフォンまたはダイナミックマイクロフォンに入力される。この音声パターンの特徴を抽出するために、時間領域の音声信号を周波数領域に変換する。次に、時間軸における正規化のマッチングを行う。その後、音声パターンと基準パターンとの比較を行い、それらの類似度を判定する。この類似度の判定のために、FFT等の様々な手法が用いられる。
【特許文献1】特開2005−45463号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、FFT等の手法は、複雑な計算を必要とするため、音声認識システムの全体の構成が複雑になり、コスト高になる。また、用途に応じて計算を簡略化すると、音声認識システムの汎用性が損なわれる。
【0005】
そこで、本発明の目的は、簡易的な処理によって正確な音声認識を可能にする音響電気変換システムを提供することである。
【課題を解決するための手段】
【0006】
本発明による実施形態に従った音響電気変換システムは、回折格子を備え、音圧により振動する振動板と、前記回折格子に光を照射する光源と、前記回折格子で回折した光を電気信号に変換する半導体位置検出素子であって、該半導体位置検出素子の受光面に照射される光の位置を検出する半導体位置検出素子とを備えている。
【0007】
本発明による実施形態に従った音響電気変換方法は、回折格子を備え音圧により振動する振動板と、光源と、前記回折格子で回折した光を電気信号に変換する半導体位置検出素子とを備えた音響電気変換システムを用いた音響電気変換方法であって、
前記振動板に光を照射している間に、音声を前記振動板へ入力し、前記回折格子で回折することによって得られるスポット光を前記半導体位置検出素子において電気信号に変換し、前記半導体位置検出素子の受光面に照射されるスポット光の前記音声による変位を検出することを具備する。
【発明の効果】
【0008】
本発明により音響電気変換システムは、簡易的な処理によって正確な音声認識を可能にする。
【発明を実施するための最良の形態】
【0009】
以下、図面を参照して本発明に係る実施形態を説明する。本実施形態は、本発明を限定するものではない。図面は模式的なものであり、各部分の厚みと幅との関係、部分間の大きさの比率などは現実のものとは異なる。また、図面の相互間において同じ部分を指す場合であっても、互いの寸法や比率が異なって示されている部分もある。
【0010】
図1は、本発明に係る実施形態に従った音響電気変換システム(以下、単にシステムという)100の構成を示す図である。システム100は、光源1と、振動板2と、半導体位置検出素子(以下、検出素子という)3とを備えている。
【0011】
振動板2は、回折格子を備え、音圧により振動する。光源1は、振動板2の回折格子に光を照射する。検出素子3は、振動板2の回折格子で回折した光を受け、この光を電気信号に変換する。検出素子3は、検出素子3の受光面に照射されるスポット光の位置を検出するように構成されている。
【0012】
図2は、振動板2の構成を示す平面図である。振動板2は、マトリックス状に配列された複数の振動部Qを有する。振動部Qは、支持基板の表面に格子状に形成された固定部4a,4bに、2本の折れ曲がり構造の弾性接続部5a,5bを介して懸架されている。各振動部Qには、回折格子7が形成されている。弾性接続部5aはスリット6a,6bに挟まれて、1箇所のL型折れ曲がり部を有している。一方、弾性接続部5bはスリット6a,6bに挟まれて、2箇所のL型折れ曲がり部を有している。
【0013】
振動板2に音圧が入力されると、振動板2は、図1に示すように弾性接続部5a,5bと固定部4a,4bとの境界を支点として振動する。振動板2が静止しているとき、即ち、音声入力の無いとき、検出素子3の受光面には、図3に示すような回折像が現れる。回折像の中心に示された最大かつ最大強度の光がスポット光8である。音声が入力されると、振動板2と検出素子3との間の距離が変化する。これにより、スポット光8が検出素子3の受光面において変位する。
【0014】
図4は、検出素子3の構造を示す断面図である。検出素子3は、例えば、PSD(Position Sensitive Detector)である。以下、検出素子3をPSD3とも呼ぶ。PSD3は、N型高抵抗半導体基板10の主面にP型半導体層30を有し、半導体基板10の裏面にN型半導体層20を有する。半導体層20および30は、電荷が通過する抵抗層として作用する。半導体層30の両端には信号取出し用の一対の電極XおよびXが設けられている。半導体層30は、PSDの受光面であり、半導体基板10とPN接合を形成している。このPN接合が光起電力効果により光電流を生成する。
【0015】
PSD3の受光面にスポット光が入射すると、入射位置には光量に比例した電荷が発生する。この電荷は光電流として半導体層30に到達し、電極XおよびXから取り出される。図4におけるスポット光の入射位置と電極X、Xから取り出される電流IX、IXとの関係は、式1から式4のように表すことができる。これらの式からスポット光の位置XAまたはXBを算出することができる。この効果によりスポット光の位置に対応する電流値または電圧値がデジタル形式またはアナログ形式で得られる。
【0016】
PSDの中心を原点とした場合、
【数1】

【数2】

が成り立つ。
【0017】
PSDの端点を原点とした場合、
【数3】

【数4】

が成り立つ。
【0018】
ここで、Iは全光電流(IX+IX)を示す。IXは電極Xからの出力電流を示す。LXは抵抗長(受光面の長さ)を示す。XはPSD3の電気的中心から入射位置までの距離を示す。XはPSD3の出力電極Xから入射位置までの距離を示す。
【0019】
PSD3の位置分解能はPSD3の受光面上で検出できるスポット光の最小変位と定義される。位置分解能は、受光面上における原点からスポット光までの距離で表され、PSD3の抵抗長と信号雑音比とによって決定される。位置分解能の詳細な式については省略する。
【0020】
一般に、PSDを用いて高分解能で光の変位を検出するためには、微細なスポット光の導入が必要となる。本実施形態による音響電気変換素子では、振動板2に形成された回折格子が光をセルフフォーカスするため、レンズ、光ファイバ、光ガイド等の追加の要素を必要とすることなく、PSD3の受光面に微細なスポット光を与えることができる。従って、光源1、振動板2および検出素子(PSD)3のみの非常にシンプルな構成で音響電気変換システムを実現することができる。これにより、音響電気変換システムを小型化することができる。
【0021】
また、光源1、振動板2および検出素子(PSD)3はディスクリートに構成されてもよい。しかし、振動板2を構成する基板に検出素子(PSD)3を組み込んでもよい。これにより、振動板2および検出素子3を同一の半導体製造工程で製造することができる。また、振動板2と検出素子(PSD)3とを張り合わせてもよい。これにより、音響電気変換システムをよりコンパクトにすることができる。
【0022】
PSDには、一次元の位置を検出するものと、二次元の位置を検出するものとがある。本実施形態によるシステム100には、一次元のPSDまたは二次元のPSDのいずれを用いてもよい。二次元のPSDを用いた場合、システム100はスポット光の変位をより正確に検出することができる。
フォトダイオードは光強度の変化で光を検出する。フォトダイオードを適応した光検出型マイクロフォンでは、認識すべき光波以外の光要素がしばしば雑音の原因となっていた。また、汎用の音響素子であるコンデンサマイクロフォンは、外気の湿気などが電気的な雑音を招いていた。
【0023】
これに対し、PSDはスポット光の位置(光束の重心位置)を直接検出する。このスポット光の光強度は、PSDがスポット光として認識することができれば足りる。従って、PSDがスポット光として認識することができる限りにおいて、システム100は外乱光(例えば、太陽光、蛍光灯の光等)の影響を受けない。このようなPSDを音響電気変換システムに採用することによって、究極的にノイズの少ない音響電気変換システムを提供することができる。
【0024】
図5から図10は、検出素子3からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図である。ここで、検出素子3は、二次元のPSDであり、2つの端子対から光電流(X1,X2)および(Y1,Y2)を出力する。なお、図5から図10に示す回路構成は、一例であり、これらに限定されない。
【0025】
図5に示すI/V変換アンプ40は、PSD3の出力端子から光電流(X1,X2)および(Y1,Y2)を受け、上記式1および式2、あるいは、式3および式4を用いて受光面におけるスポット光の位置を算出する。(X1,X2)によってX座標が決定され、(Y1,Y2)によってY座標が決定される。I/V変換アンプ40は、この光電流を電圧に変換する。このとき、出力電圧はアナログ信号である。
【0026】
図6に示すI/V変換アンプ40は、(X1,X2)および(Y1,Y2)を電圧に変換してADC50へ出力する。ADC50は、I/V変換アンプ40からのアナログ信号をデジタル信号へ変換する。アンプ70は、ADC50からのデジタル信号を増幅する。DAC80は、アンプ70で増幅されたデジタル信号をアナログ信号に変換し出力する。このように、図6に示す構成は、アナログ信号をデジタル信号へ変換後、このデジタル信号を増幅し、さらにこのデジタル信号をアナログ信号へ変換する。これにより、さらに明瞭なアナログ信号(音声信号)を取り出すことができる。
【0027】
図7に示すI/V変換アンプ40は、(X1,X2)および(Y1,Y2)を電圧に変換して出力する。ADC50は、I/V変換アンプ40からのアナログ信号をデジタル信号へ変換し出力する。このように、システム100は、スポット光の変位をデジタル信号として出力してもよい。
【0028】
図8に示す構成では、図7のADC50に識別回路としてのデジタルマッチング回路90が接続されている。記憶部100がデジタルマッチング回路90に接続されている。記憶部100は、所定の音声に関してPSD3の受光面における光の変位を、基準デジタル信号として予め格納している。記憶部100は、様々な周波数の基準デジタル信号、あるいは、様々な周波数を組み合わせた基準デジタル信号を格納していることが好ましい。この基準デジタル信号は、個人を認証するために予め採取された当該個人の声に対応するデジタル信号でよい。
【0029】
デジタルマッチング回路90は、未知の音声に関してPSD3の受光面における光の変位を、検出対象デジタル信号としてADC50から受け取る。さらに、デジタルマッチング回路90は、検出対象デジタル信号を基準デジタル信号と比較する。検出対象デジタル信号が基準デジタル信号と適合する場合には、デジタルマッチング回路90は、未知の音声が基準デジタル信号に対応する所定の音声であると判定する。デジタルマッチング回路90は、検出対象デジタル信号が基準デジタル信号と適合する場合に、適合を示す信号を出力すればよい。
【0030】
図9に示す構成では、I/V変換アンプ40にフレームメモリ60が接続されている。フレームメモリ60は、I/V変換アンプ40からのアナログ信号を得て、図11(A)〜図11(D)に示すイメージに対応するデータとして記憶する。
【0031】
図10に示す構成では、図9のフレームメモリ60にパターンマッチング回路91が接続されている。記憶部100がパターンマッチング回路91に接続されている。記憶部100は、所定の音声に関してPSD3の受光面における光の二次元的な変位を基準変位として予め格納している。記憶部100は、様々な周波数の基準変位、あるいは、様々な周波数を組み合わせた基準変位を格納していることが好ましい。この基準変位は、個人を認証するために予め採取された当該個人の声に対応するスポット光の変位でよい。
【0032】
パターンマッチング回路91は、未知の音声に関してPSD3の受光面における光の二次元的な変位をADC50から受け取る。さらに、パターンマッチング回路91は、ADC50からの変位を記憶部100に格納された基準変位と比較する。ADC50からの変位が基準変位と適合する場合には、パターンマッチング回路91は、未知の音声が基準変位に対応する所定の音声であると判定する。パターンマッチング回路91は、ADC50からの変位が基準変位と適合する場合に、適合を示す信号を出力すればよい。
【0033】
図11(A)〜図11(D)は、図5のI/V変換アンプ40の出力を平面座標に模式的に表示したグラフである。図11(A)〜図11(D)に示された軌跡は、入力された音波の音圧、入力された音波の周波数および振動板の機械的なバネ特性により一意的に決まる。入力された音波が混調波の場合、その構成周波数成分、エネルギー分布および振動板の機械的なバネ特性により一意的に決まる。
【0034】
音声入力が無い場合には、スポット光の変位は無く、図11(A)のグラフの原点0に静止する。音声が入力されると、PSDの受光面におけるスポット光の変位の軌跡が、図11(A)〜図11(D)のグラフとして表示される。例えば、音声の周波数がf0であるときには、図11(A)または図11(B)のように表される。音声の周波数がf1であるときには、図11(C)または図11(D)のように表される。このとき、図11(A)および図11(C)のようにドット状の軌跡であってもよく、あるいは、図11(B)および図11(D)のように連続的な軌跡であってもよい。
【0035】
従来の音声処理は、FFT等を用いて音声を音波に分解する必要がった。しかし、本実施形態によるシステム100は、音波が混在する信号、即ち、音声のビート自体を二次元座標またはデジタル信号で表現し、それによって音声を検出する。なお、システム100は、可聴帯域の音声に限らず、超音波など様々な音響信号も検出することができる。
【0036】
図11(A)〜図11(D)に示したイメージは時間的分解能を有しない。しかし、これらのイメージを時系列的に表示することにより、システム100は音声の時間的な変位をも検出することが可能である。すなわち、変換回路は、受光面におけるスポット光の変位の時間的変化を3次元座標として表してもよい。これにより、音声の時間的な変化が分かるので、利便性が増し、応用範囲が広がる。
【0037】
図12(A)〜図12(D)は、音声に対応する光電流X、X、YおよびYのそれぞれについての時間的変化を示すグラフである。図12(A)〜図12(D)のように、システム100は、X、X、YおよびYの時間的な軌跡を表してもよい。この場合、音声の入力開始前および終了後において、X、X、YおよびYがすべてゼロであるとき、即ち、音声入力が無いときの時間的分解能が得られる。図12(A)〜図12(D)では、X軸およびY軸を個別に表示しているが、勿論、X軸およびY軸を同じ時間軸に表示してもよい。
【0038】
本実施形態によるシステム100は、音声認識および個人認証等に利用することができる。人が発する音声(ビート)は、同一の単語であっても、発声器官や顔の形状によって異なる。このため、人の音声は、その個人を特定するための情報となる。本実施形態によるシステム100は、このビートを周波数分解することなく、このビート自体を生体情報として検出することができる。例えば、システム100は入国審査等において個人を認証するために利用され得る。
【0039】
図13は、図1に示す構成に図8に示す回路を組み合わせた音響電気変換システムの構成図である。図13に示すシステムは、スポット光の変位をデジタル変換する。よって、このシステムは、デジタル−to−デジタルで簡便に基準信号と検出対象信号とを比較することができる。類似度判定部は、図8のI/V変換アンプ40、ADC50およびデジタルマッチング回路90に相当し、リファレンス部は図8の記憶部100に相当する。なお、リファレンス部(記憶部100)は、類似度判定部のデジタルマッチング回路90内に組み込んでもよい。
【0040】
図8のI/V変換アンプ40、ADC50およびデジタルマッチング回路90に代えて、図10のI/V変換アンプ40、フレームメモリ60およびパターンマッチング回路91を類似度判定部として採用してもよい。この場合、リファレンス部は図10の記憶部100に相当する。これにより、図11(A)〜図11(D)または図12(A)〜図12(D)に示すイメージデータを用いて、画像マッチング法で比較することができる。なお、リファレンス部(記憶部100)は、類似度判定部のパターンマッチング回路91内に組み込んでもよい。
【0041】
PSDからの信号をアナログ信号として出力する場合、特別な音声処理を必要としないので、アナログ信号を用いて音声を録音することも可能である。即ち、図10のような回路を採用した音響電気変換システムは、汎用性が高く、録音システムおよび音声認識システムとして利用することができる。
【0042】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0043】
【図1】本発明に係る実施形態に従った音響電気変換システム100の構成を示す図。
【図2】振動板2の構成を示す平面図。
【図3】振動板2からの回折像を示す図。
【図4】検出素子3の構造を示す断面図。
【図5】検出素子3からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図6】検出素子3からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図7】検出素子3からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図8】検出素子3からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図9】検出素子3からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図10】検出素子3からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図11】図5のI/V変換アンプ40の出力を平面座標に模式的に表示したグラフ。
【図12】音声に対応する光電流X、X、YおよびYのそれぞれについての時間的変化を示すグラフ。
【図13】図1に示す構成に図8に示す回路を組み合わせた音響電気変換システムの構成図
【符号の説明】
【0044】
100・・・音響電気変換システム
1・・・光源
2・・・振動板
3・・・半導体位置検出素子

【特許請求の範囲】
【請求項1】
回折格子を備え、音圧により振動する振動板と、
前記回折格子に光を照射する光源と、
前記回折格子で回折した光を電気信号に変換する半導体位置検出素子であって、該半導体位置検出素子の受光面に照射される光の位置を検出する半導体位置検出素子とを備えた音響電気変換システム。
【請求項2】
前記半導体位置検出素子の受光面における光の変位を平面座標に表す変換回路をさらに備えたことを特徴とする請求項1に記載の音響電気変換システム。
【請求項3】
前記半導体位置検出素子の受光面における光の変位の時間的変化を3次元座標に表す変換回路を備えたことを特徴とする請求項1または請求項2に記載の音響電気変換システム。
【請求項4】
前記半導体位置検出素子の受光面における光の変位をデジタル信号として出力する変換回路をさらに備えたことを特徴とする請求項1から請求項3のいずれか一項に記載の音響電気変換システム。
【請求項5】
所定の音声に関して前記受光面における光の二次元的な変位を予め格納する記憶部と、
未知の音声に関して前記受光面における光の二次元的な変位を、前記記憶部に格納された変位と比較し、前記未知の音声を識別する識別回路とをさらに備えたことを特徴とする請求項1から請求項4のいずれか一項に記載の音響電気変換システム。
【請求項6】
前記変換回路は、
前記半導体位置検出素子からの電気信号をデジタル信号に変換するAD変換器と、
所定の音声に関して前記受光面における光の変位に対応する基準デジタル信号を予め格納する記憶部と、
未知の音声に関して前記受光面における光の変位に対応する検出対象デジタル信号を前記基準デジタル信号と比較し、前記未知の音声を識別する識別回路とをさらに備えたことを特徴とする請求項1から請求項5のいずれか一項に記載の音響電気変換システム。
【請求項7】
前記半導体位置検出素子は、PSDであることを特徴とする請求項1から請求項6のいずれか一項に記載の音響電気変換システム。
【請求項8】
回折格子を備え音圧により振動する振動板と、光源と、前記回折格子で回折した光を電気信号に変換する半導体位置検出素子とを備えた音響電気変換システムを用いた音響電気変換方法であって、
前記振動板に光を照射している間に、音声を前記振動板へ入力し、
前記回折格子で回折することによって得られるスポット光を前記半導体位置検出素子において電気信号に変換し、前記半導体位置検出素子の受光面に照射されるスポット光の前記音声による変位を検出することを具備した音響電気変換方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2007−104003(P2007−104003A)
【公開日】平成19年4月19日(2007.4.19)
【国際特許分類】
【出願番号】特願2005−287411(P2005−287411)
【出願日】平成17年9月30日(2005.9.30)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】