音響電気変換システムおよび音響電気変換方法

【課題】簡易的な処理によって音声認識を可能にする音響電気変換システムを提供する。
【解決手段】音響電気変換システム１００は、回折格子７を備え、音圧により振動する振動板２と、回折格子に光を照射する光源１と、回折格子で回折した光を電気信号に変換する半導体位置検出素子３であって、この半導体位置検出素子の受光面に照射される光の位置を検出する半導体位置検出素子とを備えている。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、音響電気変換システムおよび音響電気変換方法に関する。
【背景技術】
【０００２】
従来、音声認識に必要な音声処理や音声分析には、ＦＦＴ（Fast Fourier Transform）等の複雑なプロセスが必要であった。
【０００３】
音声認識の従来例として、まず、音声パターンがコンデンサマイクロフォンまたはダイナミックマイクロフォンに入力される。この音声パターンの特徴を抽出するために、時間領域の音声信号を周波数領域に変換する。次に、時間軸における正規化のマッチングを行う。その後、音声パターンと基準パターンとの比較を行い、それらの類似度を判定する。この類似度の判定のために、ＦＦＴ等の様々な手法が用いられる。
【特許文献１】特開２００５−４５４６３号公報
【発明の開示】
【発明が解決しようとする課題】
【０００４】
しかしながら、ＦＦＴ等の手法は、複雑な計算を必要とするため、音声認識システムの全体の構成が複雑になり、コスト高になる。また、用途に応じて計算を簡略化すると、音声認識システムの汎用性が損なわれる。
【０００５】
そこで、本発明の目的は、簡易的な処理によって正確な音声認識を可能にする音響電気変換システムを提供することである。
【課題を解決するための手段】
【０００６】
本発明による実施形態に従った音響電気変換システムは、回折格子を備え、音圧により振動する振動板と、前記回折格子に光を照射する光源と、前記回折格子で回折した光を電気信号に変換する半導体位置検出素子であって、該半導体位置検出素子の受光面に照射される光の位置を検出する半導体位置検出素子とを備えている。
【０００７】
本発明による実施形態に従った音響電気変換方法は、回折格子を備え音圧により振動する振動板と、光源と、前記回折格子で回折した光を電気信号に変換する半導体位置検出素子とを備えた音響電気変換システムを用いた音響電気変換方法であって、
前記振動板に光を照射している間に、音声を前記振動板へ入力し、前記回折格子で回折することによって得られるスポット光を前記半導体位置検出素子において電気信号に変換し、前記半導体位置検出素子の受光面に照射されるスポット光の前記音声による変位を検出することを具備する。
【発明の効果】
【０００８】
本発明により音響電気変換システムは、簡易的な処理によって正確な音声認識を可能にする。
【発明を実施するための最良の形態】
【０００９】
以下、図面を参照して本発明に係る実施形態を説明する。本実施形態は、本発明を限定するものではない。図面は模式的なものであり、各部分の厚みと幅との関係、部分間の大きさの比率などは現実のものとは異なる。また、図面の相互間において同じ部分を指す場合であっても、互いの寸法や比率が異なって示されている部分もある。
【００１０】
図１は、本発明に係る実施形態に従った音響電気変換システム（以下、単にシステムという）１００の構成を示す図である。システム１００は、光源１と、振動板２と、半導体位置検出素子（以下、検出素子という）３とを備えている。
【００１１】
振動板２は、回折格子を備え、音圧により振動する。光源１は、振動板２の回折格子に光を照射する。検出素子３は、振動板２の回折格子で回折した光を受け、この光を電気信号に変換する。検出素子３は、検出素子３の受光面に照射されるスポット光の位置を検出するように構成されている。
【００１２】
図２は、振動板２の構成を示す平面図である。振動板２は、マトリックス状に配列された複数の振動部Ｑを有する。振動部Ｑは、支持基板の表面に格子状に形成された固定部４ａ，４ｂに、２本の折れ曲がり構造の弾性接続部５ａ，５ｂを介して懸架されている。各振動部Ｑには、回折格子７が形成されている。弾性接続部５ａはスリット６ａ，６ｂに挟まれて、１箇所のＬ型折れ曲がり部を有している。一方、弾性接続部５ｂはスリット６ａ，６ｂに挟まれて、２箇所のＬ型折れ曲がり部を有している。
【００１３】
振動板２に音圧が入力されると、振動板２は、図１に示すように弾性接続部５ａ，５ｂと固定部４ａ，４ｂとの境界を支点として振動する。振動板２が静止しているとき、即ち、音声入力の無いとき、検出素子３の受光面には、図３に示すような回折像が現れる。回折像の中心に示された最大かつ最大強度の光がスポット光８である。音声が入力されると、振動板２と検出素子３との間の距離が変化する。これにより、スポット光８が検出素子３の受光面において変位する。
【００１４】
図４は、検出素子３の構造を示す断面図である。検出素子３は、例えば、ＰＳＤ（Position Sensitive Detector）である。以下、検出素子３をＰＳＤ３とも呼ぶ。ＰＳＤ３は、Ｎ型高抵抗半導体基板１０の主面にＰ型半導体層３０を有し、半導体基板１０の裏面にＮ型半導体層２０を有する。半導体層２０および３０は、電荷が通過する抵抗層として作用する。半導体層３０の両端には信号取出し用の一対の電極Ｘ_１およびＸ_２が設けられている。半導体層３０は、ＰＳＤの受光面であり、半導体基板１０とＰＮ接合を形成している。このＰＮ接合が光起電力効果により光電流を生成する。
【００１５】
ＰＳＤ３の受光面にスポット光が入射すると、入射位置には光量に比例した電荷が発生する。この電荷は光電流として半導体層３０に到達し、電極Ｘ_１およびＸ_２から取り出される。図４におけるスポット光の入射位置と電極Ｘ_１、Ｘ_２から取り出される電流ＩＸ_１、ＩＸ_２との関係は、式１から式４のように表すことができる。これらの式からスポット光の位置ＸＡまたはＸＢを算出することができる。この効果によりスポット光の位置に対応する電流値または電圧値がデジタル形式またはアナログ形式で得られる。
【００１６】
ＰＳＤの中心を原点とした場合、
【数１】

【数２】

が成り立つ。
【００１７】
ＰＳＤの端点を原点とした場合、
【数３】

【数４】

が成り立つ。
【００１８】
ここで、Ｉ_０は全光電流(ＩＸ_１＋ＩＸ_２)を示す。ＩＸ_２は電極Ｘ_２からの出力電流を示す。ＬＸは抵抗長(受光面の長さ)を示す。Ｘ_ＡはＰＳＤ３の電気的中心から入射位置までの距離を示す。Ｘ_ＢはＰＳＤ３の出力電極Ｘ_１から入射位置までの距離を示す。
【００１９】
ＰＳＤ３の位置分解能はＰＳＤ３の受光面上で検出できるスポット光の最小変位と定義される。位置分解能は、受光面上における原点からスポット光までの距離で表され、ＰＳＤ３の抵抗長と信号雑音比とによって決定される。位置分解能の詳細な式については省略する。
【００２０】
一般に、ＰＳＤを用いて高分解能で光の変位を検出するためには、微細なスポット光の導入が必要となる。本実施形態による音響電気変換素子では、振動板２に形成された回折格子が光をセルフフォーカスするため、レンズ、光ファイバ、光ガイド等の追加の要素を必要とすることなく、ＰＳＤ３の受光面に微細なスポット光を与えることができる。従って、光源１、振動板２および検出素子（ＰＳＤ）３のみの非常にシンプルな構成で音響電気変換システムを実現することができる。これにより、音響電気変換システムを小型化することができる。
【００２１】
また、光源１、振動板２および検出素子（ＰＳＤ）３はディスクリートに構成されてもよい。しかし、振動板２を構成する基板に検出素子（ＰＳＤ）３を組み込んでもよい。これにより、振動板２および検出素子３を同一の半導体製造工程で製造することができる。また、振動板２と検出素子（ＰＳＤ）３とを張り合わせてもよい。これにより、音響電気変換システムをよりコンパクトにすることができる。
【００２２】
ＰＳＤには、一次元の位置を検出するものと、二次元の位置を検出するものとがある。本実施形態によるシステム１００には、一次元のＰＳＤまたは二次元のＰＳＤのいずれを用いてもよい。二次元のＰＳＤを用いた場合、システム１００はスポット光の変位をより正確に検出することができる。
フォトダイオードは光強度の変化で光を検出する。フォトダイオードを適応した光検出型マイクロフォンでは、認識すべき光波以外の光要素がしばしば雑音の原因となっていた。また、汎用の音響素子であるコンデンサマイクロフォンは、外気の湿気などが電気的な雑音を招いていた。
【００２３】
これに対し、ＰＳＤはスポット光の位置（光束の重心位置）を直接検出する。このスポット光の光強度は、ＰＳＤがスポット光として認識することができれば足りる。従って、ＰＳＤがスポット光として認識することができる限りにおいて、システム１００は外乱光(例えば、太陽光、蛍光灯の光等)の影響を受けない。このようなＰＳＤを音響電気変換システムに採用することによって、究極的にノイズの少ない音響電気変換システムを提供することができる。
【００２４】
図５から図１０は、検出素子３からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図である。ここで、検出素子３は、二次元のＰＳＤであり、２つの端子対から光電流（Ｘ１，Ｘ２）および（Ｙ１，Ｙ２）を出力する。なお、図５から図１０に示す回路構成は、一例であり、これらに限定されない。
【００２５】
図５に示すＩ／Ｖ変換アンプ４０は、ＰＳＤ３の出力端子から光電流（Ｘ１，Ｘ２）および（Ｙ１，Ｙ２）を受け、上記式１および式２、あるいは、式３および式４を用いて受光面におけるスポット光の位置を算出する。（Ｘ１，Ｘ２）によってＸ座標が決定され、（Ｙ１，Ｙ２）によってＹ座標が決定される。Ｉ／Ｖ変換アンプ４０は、この光電流を電圧に変換する。このとき、出力電圧はアナログ信号である。
【００２６】
図６に示すＩ／Ｖ変換アンプ４０は、（Ｘ１，Ｘ２）および（Ｙ１，Ｙ２）を電圧に変換してＡＤＣ５０へ出力する。ＡＤＣ５０は、Ｉ／Ｖ変換アンプ４０からのアナログ信号をデジタル信号へ変換する。アンプ７０は、ＡＤＣ５０からのデジタル信号を増幅する。ＤＡＣ８０は、アンプ７０で増幅されたデジタル信号をアナログ信号に変換し出力する。このように、図６に示す構成は、アナログ信号をデジタル信号へ変換後、このデジタル信号を増幅し、さらにこのデジタル信号をアナログ信号へ変換する。これにより、さらに明瞭なアナログ信号(音声信号)を取り出すことができる。
【００２７】
図７に示すＩ／Ｖ変換アンプ４０は、（Ｘ１，Ｘ２）および（Ｙ１，Ｙ２）を電圧に変換して出力する。ＡＤＣ５０は、Ｉ／Ｖ変換アンプ４０からのアナログ信号をデジタル信号へ変換し出力する。このように、システム１００は、スポット光の変位をデジタル信号として出力してもよい。
【００２８】
図８に示す構成では、図７のＡＤＣ５０に識別回路としてのデジタルマッチング回路９０が接続されている。記憶部１００がデジタルマッチング回路９０に接続されている。記憶部１００は、所定の音声に関してＰＳＤ３の受光面における光の変位を、基準デジタル信号として予め格納している。記憶部１００は、様々な周波数の基準デジタル信号、あるいは、様々な周波数を組み合わせた基準デジタル信号を格納していることが好ましい。この基準デジタル信号は、個人を認証するために予め採取された当該個人の声に対応するデジタル信号でよい。
【００２９】
デジタルマッチング回路９０は、未知の音声に関してＰＳＤ３の受光面における光の変位を、検出対象デジタル信号としてＡＤＣ５０から受け取る。さらに、デジタルマッチング回路９０は、検出対象デジタル信号を基準デジタル信号と比較する。検出対象デジタル信号が基準デジタル信号と適合する場合には、デジタルマッチング回路９０は、未知の音声が基準デジタル信号に対応する所定の音声であると判定する。デジタルマッチング回路９０は、検出対象デジタル信号が基準デジタル信号と適合する場合に、適合を示す信号を出力すればよい。
【００３０】
図９に示す構成では、Ｉ／Ｖ変換アンプ４０にフレームメモリ６０が接続されている。フレームメモリ６０は、Ｉ／Ｖ変換アンプ４０からのアナログ信号を得て、図１１（Ａ）〜図１１（Ｄ）に示すイメージに対応するデータとして記憶する。
【００３１】
図１０に示す構成では、図９のフレームメモリ６０にパターンマッチング回路９１が接続されている。記憶部１００がパターンマッチング回路９１に接続されている。記憶部１００は、所定の音声に関してＰＳＤ３の受光面における光の二次元的な変位を基準変位として予め格納している。記憶部１００は、様々な周波数の基準変位、あるいは、様々な周波数を組み合わせた基準変位を格納していることが好ましい。この基準変位は、個人を認証するために予め採取された当該個人の声に対応するスポット光の変位でよい。
【００３２】
パターンマッチング回路９１は、未知の音声に関してＰＳＤ３の受光面における光の二次元的な変位をＡＤＣ５０から受け取る。さらに、パターンマッチング回路９１は、ＡＤＣ５０からの変位を記憶部１００に格納された基準変位と比較する。ＡＤＣ５０からの変位が基準変位と適合する場合には、パターンマッチング回路９１は、未知の音声が基準変位に対応する所定の音声であると判定する。パターンマッチング回路９１は、ＡＤＣ５０からの変位が基準変位と適合する場合に、適合を示す信号を出力すればよい。
【００３３】
図１１（Ａ）〜図１１（Ｄ）は、図５のＩ／Ｖ変換アンプ４０の出力を平面座標に模式的に表示したグラフである。図１１（Ａ）〜図１１（Ｄ）に示された軌跡は、入力された音波の音圧、入力された音波の周波数および振動板の機械的なバネ特性により一意的に決まる。入力された音波が混調波の場合、その構成周波数成分、エネルギー分布および振動板の機械的なバネ特性により一意的に決まる。
【００３４】
音声入力が無い場合には、スポット光の変位は無く、図１１（Ａ）のグラフの原点０に静止する。音声が入力されると、ＰＳＤの受光面におけるスポット光の変位の軌跡が、図１１（Ａ）〜図１１（Ｄ）のグラフとして表示される。例えば、音声の周波数がｆ０であるときには、図１１（Ａ）または図１１（Ｂ）のように表される。音声の周波数がｆ１であるときには、図１１（Ｃ）または図１１（Ｄ）のように表される。このとき、図１１（Ａ）および図１１（Ｃ）のようにドット状の軌跡であってもよく、あるいは、図１１（Ｂ）および図１１（Ｄ）のように連続的な軌跡であってもよい。
【００３５】
従来の音声処理は、ＦＦＴ等を用いて音声を音波に分解する必要がった。しかし、本実施形態によるシステム１００は、音波が混在する信号、即ち、音声のビート自体を二次元座標またはデジタル信号で表現し、それによって音声を検出する。なお、システム１００は、可聴帯域の音声に限らず、超音波など様々な音響信号も検出することができる。
【００３６】
図１１（Ａ）〜図１１（Ｄ）に示したイメージは時間的分解能を有しない。しかし、これらのイメージを時系列的に表示することにより、システム１００は音声の時間的な変位をも検出することが可能である。すなわち、変換回路は、受光面におけるスポット光の変位の時間的変化を３次元座標として表してもよい。これにより、音声の時間的な変化が分かるので、利便性が増し、応用範囲が広がる。
【００３７】
図１２（Ａ）〜図１２（Ｄ）は、音声に対応する光電流Ｘ_１、Ｘ_２、Ｙ_１およびＹ_２のそれぞれについての時間的変化を示すグラフである。図１２（Ａ）〜図１２（Ｄ）のように、システム１００は、Ｘ_１、Ｘ_２、Ｙ_１およびＹ_２の時間的な軌跡を表してもよい。この場合、音声の入力開始前および終了後において、Ｘ_１、Ｘ_２、Ｙ_１およびＹ_２がすべてゼロであるとき、即ち、音声入力が無いときの時間的分解能が得られる。図１２（Ａ）〜図１２（Ｄ）では、Ｘ軸およびＹ軸を個別に表示しているが、勿論、Ｘ軸およびＹ軸を同じ時間軸に表示してもよい。
【００３８】
本実施形態によるシステム１００は、音声認識および個人認証等に利用することができる。人が発する音声（ビート）は、同一の単語であっても、発声器官や顔の形状によって異なる。このため、人の音声は、その個人を特定するための情報となる。本実施形態によるシステム１００は、このビートを周波数分解することなく、このビート自体を生体情報として検出することができる。例えば、システム１００は入国審査等において個人を認証するために利用され得る。
【００３９】
図１３は、図１に示す構成に図８に示す回路を組み合わせた音響電気変換システムの構成図である。図１３に示すシステムは、スポット光の変位をデジタル変換する。よって、このシステムは、デジタル−ｔｏ−デジタルで簡便に基準信号と検出対象信号とを比較することができる。類似度判定部は、図８のＩ／Ｖ変換アンプ４０、ＡＤＣ５０およびデジタルマッチング回路９０に相当し、リファレンス部は図８の記憶部１００に相当する。なお、リファレンス部（記憶部１００）は、類似度判定部のデジタルマッチング回路９０内に組み込んでもよい。
【００４０】
図８のＩ／Ｖ変換アンプ４０、ＡＤＣ５０およびデジタルマッチング回路９０に代えて、図１０のＩ／Ｖ変換アンプ４０、フレームメモリ６０およびパターンマッチング回路９１を類似度判定部として採用してもよい。この場合、リファレンス部は図１０の記憶部１００に相当する。これにより、図１１（Ａ）〜図１１（Ｄ）または図１２（Ａ）〜図１２（Ｄ）に示すイメージデータを用いて、画像マッチング法で比較することができる。なお、リファレンス部（記憶部１００）は、類似度判定部のパターンマッチング回路９１内に組み込んでもよい。
【００４１】
ＰＳＤからの信号をアナログ信号として出力する場合、特別な音声処理を必要としないので、アナログ信号を用いて音声を録音することも可能である。即ち、図１０のような回路を採用した音響電気変換システムは、汎用性が高く、録音システムおよび音声認識システムとして利用することができる。
【００４２】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【００４３】
【図１】本発明に係る実施形態に従った音響電気変換システム１００の構成を示す図。
【図２】振動板２の構成を示す平面図。
【図３】振動板２からの回折像を示す図。
【図４】検出素子３の構造を示す断面図。
【図５】検出素子３からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図６】検出素子３からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図７】検出素子３からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図８】検出素子３からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図９】検出素子３からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図１０】検出素子３からの出力を処理する変換回路および音声の識別を行う識別回路の構成を示す図。
【図１１】図５のＩ／Ｖ変換アンプ４０の出力を平面座標に模式的に表示したグラフ。
【図１２】音声に対応する光電流Ｘ_１、Ｘ_２、Ｙ_１およびＹ_２のそれぞれについての時間的変化を示すグラフ。
【図１３】図１に示す構成に図８に示す回路を組み合わせた音響電気変換システムの構成図
【符号の説明】
【００４４】
１００・・・音響電気変換システム
１・・・光源
２・・・振動板
３・・・半導体位置検出素子

【特許請求の範囲】
【請求項１】
回折格子を備え、音圧により振動する振動板と、
前記回折格子に光を照射する光源と、
前記回折格子で回折した光を電気信号に変換する半導体位置検出素子であって、該半導体位置検出素子の受光面に照射される光の位置を検出する半導体位置検出素子とを備えた音響電気変換システム。
【請求項２】
前記半導体位置検出素子の受光面における光の変位を平面座標に表す変換回路をさらに備えたことを特徴とする請求項１に記載の音響電気変換システム。
【請求項３】
前記半導体位置検出素子の受光面における光の変位の時間的変化を３次元座標に表す変換回路を備えたことを特徴とする請求項１または請求項２に記載の音響電気変換システム。
【請求項４】
前記半導体位置検出素子の受光面における光の変位をデジタル信号として出力する変換回路をさらに備えたことを特徴とする請求項１から請求項３のいずれか一項に記載の音響電気変換システム。
【請求項５】
所定の音声に関して前記受光面における光の二次元的な変位を予め格納する記憶部と、
未知の音声に関して前記受光面における光の二次元的な変位を、前記記憶部に格納された変位と比較し、前記未知の音声を識別する識別回路とをさらに備えたことを特徴とする請求項1から請求項４のいずれか一項に記載の音響電気変換システム。
【請求項６】
前記変換回路は、
前記半導体位置検出素子からの電気信号をデジタル信号に変換するＡＤ変換器と、
所定の音声に関して前記受光面における光の変位に対応する基準デジタル信号を予め格納する記憶部と、
未知の音声に関して前記受光面における光の変位に対応する検出対象デジタル信号を前記基準デジタル信号と比較し、前記未知の音声を識別する識別回路とをさらに備えたことを特徴とする請求項1から請求項５のいずれか一項に記載の音響電気変換システム。
【請求項７】
前記半導体位置検出素子は、ＰＳＤであることを特徴とする請求項1から請求項６のいずれか一項に記載の音響電気変換システム。
【請求項８】
回折格子を備え音圧により振動する振動板と、光源と、前記回折格子で回折した光を電気信号に変換する半導体位置検出素子とを備えた音響電気変換システムを用いた音響電気変換方法であって、
前記振動板に光を照射している間に、音声を前記振動板へ入力し、
前記回折格子で回折することによって得られるスポット光を前記半導体位置検出素子において電気信号に変換し、前記半導体位置検出素子の受光面に照射されるスポット光の前記音声による変位を検出することを具備した音響電気変換方法。

【図１】