説明

話速変換プログラム、方法及び装置

【課題】破裂音や促音に異聴が生じないように話速を変換する。
【解決手段】本話速変換方法は、音声データにおいて、促音及び破裂音の前の無音区間を含む閉鎖を除き、文と文の間の無音区間を含むポーズを特定する特定ステップと、音声データにおいて、ポーズに当該ポーズ以外の区間より加重的に速度変換処理を施すステップとを含む。このようにポーズと閉鎖を区別して特定することによって、ポーズ以外の区間に大きな負担を掛けずに話速変換を行うことができるようになり、破裂音や促音の異聴が生じなくなる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話速変換技術に関する。
【背景技術】
【0002】
例えば、特開平10−260694号公報には、音声のディジタル信号を、ピッチ(音声の高さ)を変えずに速度だけ変換して再生する話速変換装置に関し、話速変換した場合でも要点部分は聞き取り可能な速度で再生し、概要の把握を可能にするとともに、全体の再生時間を大幅に短縮するための技術が開示されている。具体的には、音声信号の、所定期間毎の特徴を表すパラメータ値を算出するパラメータ計算部と、各所定期間の音声信号を再生する際の話速を、パラメータ計算部が算出したパラメータ値に応じて算出する話速計算部と、話速計算部が算出した各所定期間の前記話速に基づいて当該各所定期間の再生データを生成し、当該再生データを接続して音声信号を再生する話速変換部とを設けるものである。しかし、無音区間には着目していない。
【0003】
また、特開平6−67685号公報には、文字列からなるテキストを音声に変換して発声する音声合成装置に関し、自然さを失わずに決められた時間でぴったり発声が終了するようにした音声合成装置が開示されている。具体的には、音韻変換部とパラメータ計算部と音声合成部と音声波形合成部とからなる、文書の文字列の読み上げを行う音声合成装置において、発声時間を指定する入力手段と、伸縮処理部とを備え、伸縮処理部は、パラメータ計算部において計算した、時間に関するパラメータを変化させ、文字列の読み上げが、指定された発声時間で行われるように構成する。また、人間が発声する場合、発声速度を変化させたとき、一律に変化するのではなく、例えば、音声を有音区間と無音区間とに分けたとき、無音区間の方が伸縮率が大きいように、音声の構成要素の種類によって伸縮率が異なることは経験上判っており、自然さを保つためには全体を同じ伸縮率で変化させるのではなく、構成要素の種類による伸縮率の違いを考慮して時間パラメータの値を決めることが望ましい、とされる。しかし、無音区間について詳細に考察されているわけではない。
【特許文献1】特開平10−260694号公報
【特許文献2】特開平6−67685号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上で述べた特開平6−67685号公報のように、無音区間と有音区間で単純に伸縮率を変えるような構成を採用すると、問題が生ずる。この問題については図1を用いて説明する。図1は、「今日は、いい天気です。明日もいい天気でしょう。」と発声した場合のポーズと閉鎖の位置を示すものであり、図1(a)は音声波形、(b)はスペクトログラフを示す。図1(a)及び(b)から、「今日は、」と「いい天気です」の間に、節と節の間の息継ぎに相当する無音区間である閉鎖と、「天気」の「て」に含まれる破裂音(p,t,k)の前に発生する閉鎖と、「天気」の「き」に含まれる破裂音の前に発生する閉鎖と、文と文の間に生ずるポーズと、「天気」の「て」に含まれる破裂音の前に発生する閉鎖と、「天気」の「き」に含まれる破裂音の前に発生する閉鎖と、文の終わりの無音区間のポーズとが含まれる。上で述べた技術では、無音区間のポーズも閉鎖も何ら区別はないので、図1(c)に示すように、ポーズ及び閉鎖を含む無音区間については、話速を3倍(X3)とし、有音区間については話速を2倍(X2)にするというような処理を行うことになる。
【0005】
しかし、破裂音や促音の前に生ずる無音区間についても話速が大きく変わると、破裂音や促音に異聴が発生する。従来技術では、このような問題については考慮されていない。
【0006】
従って、本発明の目的は、破裂音や促音に異聴が生じないように話速を変換するための技術を提供することである。
【課題を解決するための手段】
【0007】
本発明の第1の態様に係る話速変換方法は、音声データにおいて、促音及び破裂音の前の無音区間を含む閉鎖を除き、文と文の間の無音区間を含むポーズを特定する特定ステップと、音声データにおいて、ポーズに当該ポーズ以外の区間より加重的に速度変換処理を施すステップとを含む。このようにポーズと閉鎖を区別して特定することによって、ポーズ以外の区間に大きな負担を掛けずに話速変換を行うことができるようになり、破裂音や促音に異聴が生じなくなる。
【0008】
なお、上で述べた特定ステップにおいて、ポーズと閉鎖を無音区間の長さによって判別するようにしてもよい。例えば400ミリ秒程度の閾値で判別するようにしても良い。
【0009】
また、上で述べた音声データは、音声合成によって生成された音声データである場合もある。音源については、基本的にはどのようなものであってもよい。
【0010】
さらに、閉鎖が、文と文の間の無音区間より短い、節と節の間の無音区間を含むようにしてもよい。例えば句読点の位置では、閉鎖として取り扱って、加重的な話速変換の対象から外すようにしても良い。
【0011】
本発明の第2の態様に係る話速変換方法は、テキストから音声データを合成すると共に、促音及び破裂音の前の無音区間を含む閉鎖を除き、文と文の間の無音区間を含むポーズの位置データを生成する生成ステップと、音声データにおいてポーズの位置データからポーズを特定し、特定された上記ポーズに当該ポーズ以外の区間より加重的に速度変換処理を施すステップとを含む。音声合成処理では、ポーズを自ら生成しているので、当該ポーズの位置データを出力するようにすれば、正確に閉鎖を除外することができ、容易にポーズに対して加重的な話速変換を施すことができるようになる。
【0012】
なお、音声合成処理を行う処理部においては、文と文の間の無音区間より短い、節と節の間の無音区間についても自ら生成しているため把握可能であり、この無音区間についても閉鎖ではなくポーズとして取り扱うことができるようになる。このようにすれば、ポーズ以外の区間に負荷を掛けずに話速変換を行うことができるようになる。すなわち、破裂音や促音に異聴を生じづらくなる。
【0013】
なお、本発明に係る話速変換方法を実行させるためのプログラムを作成することができ、この場合、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等の記憶媒体又は記憶装置に格納される。また、当該プログラムはネットワークを介してデジタル信号として配信されることもある。なお、処理途中のデータについては、コンピュータのメモリに一時保管される。
【発明の効果】
【0014】
本発明によれば、破裂音や促音に異聴が生じないように話速を変換できるようになる。
【発明を実施するための最良の形態】
【0015】
[実施の形態1]
本発明の第1の実施の形態に係る話速変換装置の機能ブロック図を図2に示す。本実施の形態に係る話速変換装置は、話速変換部1と、無音検出部3と、ポーズ判定部5と、話速計算部7とを有する。話速計算部7は、無音検出部3及びポーズ判定部5の処理結果に基づき所定期間毎に入力音声データの再生速度を算出する。
【0016】
話速変換部1は、話速計算部7によって算出された各所定期間の再生速度に基づいて再生データを生成し、各所定期間の再生データを接続し、ピッチを変えずに話速だけを変えた音声データを出力する。より詳しくは、入力された音声データを一定時間毎にフレーム分割し、話速計算部7によって算出された話速に応じて、フレーム毎の再生データを生成するための出力フレームの長さを、(入力フレームの長さ/話速)に順次設定する。さらに、入力フレームの相互相関などを算出し、隣り合うフレームの音声信号がスムーズに繋がるようにフレームのずらし幅を決定する。そして、接続しようとする目標フレームの1つ前のフレームの終わりに単調減少する窓をかけ、また目標フレームの初めに単調増加する窓をかけて隣り合うフレームの接続部分を足し合わせることにより、各フレームをスムーズに接続する。
【0017】
また、無音検出部3は、入力音声データのうち無音区間を抽出する。さらにポーズ判定部5は、無音検出部3が検出した無音区間が例えば400ms以上であるかを判断し、無音区間が400ms以上であればポーズと判定する。400msは、実験的に求めたものであって、促音や破裂音の前の閉鎖や、節と節の間に生ずる短い息継ぎ区間は、この閾値によって除外される。当然ながらポーズに該当するフレームと、ポーズ以外の区間に該当するフレームとは区別される。
【0018】
話速計算部7は、ポーズ判定部5によって判定されたポーズとポーズ以外の区間とを区別して、例えばユーザによって指示された話速に応じてポーズについての話速とポーズ以外の区間の話速を算出して話速変換部1に指示する。例えば、話速変換すべき音声の全長をlt、ポーズ以外の区間の長さの総和をlv、各ポーズの長さの総和をlp、ユーザによって指定された話速をα、話速αと指定された場合のポーズ以外の区間の話速をαv、ポーズの話速をαpとすると、以下の式が成立する。
lt/α=lv/αv+lp/αp (1)
ここで、ポーズの話速をポーズ以外の区間の話速の2倍と設定する。なお、これは話速を速くする場合であって、遅くする場合には1/2とするような設定とする。
αp=2αv (2)
【0019】
ここで(2)式を(1)式に代入すると以下のようになる。
lt/α=lv/αv+lp/2αv (3)
(3)式をαvで解くと、以下のようになる。
αv=(2lv+lp)×α/2×lt (4)
(4)式にα、lv及びlpを代入すればαvが求まり、(2)式に従えばαpも求まる。
【0020】
そして、例えば特定のフレームがポーズと判定されていればポーズの話速を話速変換部1に出力し、特定のフレームがポーズ以外の区間と判定されていればポーズ以外の区間の話速を話速変換部1に出力する。話速変換部1は、フレーム毎に話速を得ることができるので、上で述べたように出力フレームの長さを設定することができる。
【0021】
図2に示した話速変換装置の処理内容をまとめると図3のようになる。まず、無音検出部3及びポーズ判定部5によって入力音声データを解析し(ステップS1)、例えば各フレームについてポーズに該当するのか、ポーズ以外に該当するのかを判断する。無音区間に該当しないフレームの場合(ステップS3:Noルート)、すなわち有音区間の場合には、話速変換の優先度が低い区間として特定する(ステップS7)。すなわち、この区間についてはあまり伸縮させないようにする。このようにすることによって音質の劣化や異聴を防止することができる。
【0022】
一方、無音区間であっても(ステップS3:Yesルート)、ポーズと特定できるほど無音区間が長くない、すなわち400ms未満である場合には(ステップS5:Noルート)、閉鎖と判断して有音区間と同様に話速変換の優先度が低い区間として特定する(ステップS7)。無音区間であって(ステップS3:Yesルート)、且つポーズと特定できるほど無音区間が長い場合、すなわち400ms以上無音区間である場合にはポーズと判断して(ステップS5:Yesルート)、話速変換の優先度が高い区間として特定する(ステップS9)。すなわち、この区間については音質の劣化や異聴に影響をあまり及ぼさないので、伸縮を大きくする。
【0023】
そして、話速計算部7は、話速変換の優先度に応じた話速を決定する(ステップS11)。すなわち、話速変換の優先度が低い区間と高い区間については、それぞれ設定すべき話速を、話速計算部7が例えば上で述べたような方式にて算出し、それぞれに設定する。但し、話速を速くする場合には優先度の高い区間には第1の所定値を設定し、優先度の低い区間には第1の所定値より小さな第2の所定値を設定したり、話速を遅くする場合には優先度の高い区間には第3の所定値を設定し、優先度の低い区間には第3の所定値より大きな第4の所定値を設定すると言ったように簡易な話速設定を行うようにしても良い。
【0024】
所定期間毎に上で述べたようなポーズ及びポーズ以外の区間の判定を行って話速を決定すれば、話速変換部1は、話速変換の優先度に応じた話速に変換する話速変換を入力音声データに対して実施し、話速変換後の音声データを出力する(ステップS13)。
【0025】
以上のような処理を行えば、図4に示すような話速変換が実施されるようになる。図4には、図1に示した例と同様に、「今日は、いい天気です。明日もいい天気でしょう。」を発音した場合の音声波形(図4(a))とスペクトログラフ(図4(b))が示されている。これらは同じであるが、図4(c)に示した話速変化の模式図は図1(c)とは異なる。図1(c)では、閉鎖についてもポーズと同様に話速が設定されてしまっているが、図4(c)では、閉鎖については有音区間と同様に話速が2倍(X2)となっており、ポーズにおける話速(3倍(X3))よりも遅くなっている。節と節の間の無音区間に係る第1の閉鎖はともかくとして、促音や破裂音の前の閉鎖については周囲の有音区間と同様の話速に変換されるので、異聴は生じなくなる。このようにポーズについては加重的に話速変換が実施され、ポーズ以外の区間についてはポーズよりも話速変換が緩やかになるので、話速変換を実施しても聞きやすい音声が出力されるようになる。なお、図4における話速の設定は一例であって必ずこのような値になるわけではない。
【0026】
[実施の形態2]
図5に第2の実施の形態に係る話速変換装置の機能ブロック図を示す。図2に示した第1の実施の形態に係る話速変換装置と同様の構成部分については同じ参照番号を付している。図2との違いは、音声データが入力されるのではなく、音声合成のためのテキストが入力され、当該テキストに対して音声合成を実施する音声合成部9が追加されている点である。残りの構成は図2と同様である。
【0027】
単純に音声合成部9が追加されるような構成であるから、第1の実施の形態において説明した事項は同じであり、処理内容も音声合成部9による音声合成処理のみが追加された形となる。
【0028】
このような話速変換装置であっても、第1の実施の形態と同様の効果を奏する。
【0029】
[実施の形態3]
図6に第3の実施の形態に係る話速変換装置の機能ブロック図を示す。本実施の形態に係る話速変換装置は、テキストから音声データを生成すると共に当該音声データに設けたポーズの位置情報を出力する音声合成部11と、ポーズの位置情報を用いて話速計算を行う話速計算部15と、話速計算部15によって算出された話速に基づき音声合成部11によって出力された合成音声データに対して話速変換処理を実施する話速変換部13とを有する。
【0030】
音声合成部11は、周知の方法を用いてテキストから音声データを生成するが、その際文と文との間や節と節の間に息継ぎを表すポーズを挿入する。通常であれば、そのポーズの位置情報を出力することはないが、本実施の形態ではこのポーズの位置情報を話速計算部15に出力する。第1の実施の形態とは異なり、400ms以上の無音区間というような測定が必要ないので、節と節の間の短い無音区間についてもポーズとして特定することができる。
【0031】
話速計算部15は、音声合成部11からのポーズの位置情報によってポーズとポーズ以外の区間との区別を行って、第1の実施の形態と同様にポーズとポーズ以外の区間の話速を計算し、例えば各フレームに話速を設定する。話速変換部13は、第1の実施の形態と同様の処理を実施する。
【0032】
次に、図6に示した話速変換装置の処理内容をまとめると図7のようになる。まず、音声合成部11は、入力されたテキストから音声データを生成しつつ、文と文の間及び節と節の間に挿入した無音区間をポーズとしてポーズの位置情報を話速計算部15に出力する(ステップS21)。
【0033】
話速計算部15は、ポーズの位置情報に基づき、例えば各フレームについてポーズに該当するのか、ポーズ以外に該当するのかを特定する。ポーズに該当しないフレームの場合(ステップS23:Noルート)、すなわち有音区間及び促音や破裂音の前の無音区間である閉鎖の場合には、話速変換の優先度が低い区間として特定する(ステップS25)。すなわち、この区間についてはあまり伸縮させないようにする。このようにすることによって音質の劣化や異聴を防止することができる。
【0034】
一方、ポーズに該当するフレームの場合には(ステップS23:Yesルート)、話速変換の優先度が高い区間として特定する(ステップS27)。すなわち、この区間については音質の劣化や異聴に影響をあまり及ぼさないので、伸縮を大きくする。
【0035】
そして、話速計算部15は、話速変換の優先度に応じた話速を決定する(ステップS29)。すなわち、話速変換の優先度が低い区間と高い区間について、それぞれ設定すべき話速を、話速計算部15が例えば上で述べたような方式にて算出し、それぞれに設定する。但し、優先度に応じた固定値を設定するようにしても良い。
【0036】
所定期間毎にポーズの位置情報に基づき話速を決定すれば、話速変換部13は、話速変換の優先度に応じた話速に変換する話速変換を入力音声データに対して実施し、話速変換後の音声データを出力する(ステップS31)。
【0037】
以上のような処理を行えば、図8に示すような話速変換が実施されるようになる。図8には、図1及び図4に示した例と同様に、「今日は、いい天気です。明日もいい天気でしょう。」を発音した場合の音声波形(図8(a))とスペクトログラフ(図8(b))が示されている。これらは同じであるが、図8(c)に示した話速変化の模式図は図1(c)とも図4(c)とも異なる。図1(c)では、閉鎖についてもポーズと同様に話速が設定されてしまい、図4(c)では、「今日は、」と「いい天気です」の間も閉鎖と判断され有音区間と同様に話速が2倍(X2)となっているが、図8(c)では、「今日は、」と「いい天気です」の間は音声合成部11によってポーズと設定されるため、話速が3倍(X3)となっている。このようにすれば、促音や破裂音の前の閉鎖については周囲の有音区間と同様の話速に変換されるので異聴は生じなくなり、第1の実施の形態よりポーズの範囲が広くなるため、ポーズ以外の区間についての話速の伸縮が第1の実施の形態より小さくなり、話速変換による音質の劣化が緩和されることが期待される。
【0038】
なお、「今日は、」と「いい天気です」の間のような節と節の間の無音区間については、本実施の形態でもポーズ以外の無音区間と取り扱っても良い。その場合には図4に示したのと同様の結果を得ることができる。
【0039】
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図2、図5及び図6に話速変換装置の機能ブロック図を示したが、必ずしも実際のプログラムモジュールと一致しない場合もある。
【0040】
なお、話速変換装置は、例えばコンピュータ装置であって、図9に示すように当該コンピュータ装置においては、メモリ2501(記憶部)とCPU2503(処理部)とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS)及びWebブラウザを含むアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。このようなコンピュータは、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
【0041】
図2、図5及び図6で示した機能ブロック図における各処理部は、データを一時保管するバッファを有しており、当該バッファを用いて処理を実施する。また、このバッファはメモリ2501に設けられるか、例えば仮想記憶としてHDD2505に設けられる場合もある。
【図面の簡単な説明】
【0042】
【図1】(a)は音声波形図、(b)はスペクトログラフ、(c)は従来技術によって話速変換を実施した場合の話速の変化を示す図である。
【図2】本発明の第1の実施の形態に係る話速変換装置の機能ブロック図である。
【図3】本発明の第1の実施の形態に係る処理フローを示す図である。
【図4】(a)は音声波形図、(b)はスペクトログラフ、(c)は本発明の第1の実施の形態によって話速変換を実施した場合の話速の変化を示す図である。
【図5】本発明の第2の実施の形態に係る話速変換装置の機能ブロック図である。
【図6】本発明の第3の実施の形態に係る話速変換装置の機能ブロック図である。
【図7】本発明の第3の実施の形態に係る処理フローを示す図である。
【図8】(a)は音声波形図、(b)はスペクトログラフ、(c)は本発明の第3の実施の形態によって話速変換を実施した場合の話速の変化を示す図である。
【図9】コンピュータの機能ブロック図である。
【符号の説明】
【0043】
1,13 話速変換部 3 無音検出部
5 ポーズ判定部 7,15 話速計算部
9,11 音声合成部

【特許請求の範囲】
【請求項1】
音声データにおいて、促音及び破裂音の前の無音区間を含む閉鎖を除き、文と文の間の無音区間を含むポーズを特定する特定ステップと、
前記音声データにおいて、前記ポーズに当該ポーズ以外の区間より加重的に速度変換処理を施すステップと、
をコンピュータに実行させるための話速変換プログラム。
【請求項2】
前記特定ステップにおいて、前記ポーズと前記閉鎖を無音区間の長さによって判別する
請求項1記載の話速変換プログラム。
【請求項3】
前記音声データが、音声合成によって生成された音声データである
請求項1又は2記載の話速変換プログラム。
【請求項4】
前記閉鎖が、前記文と文の間の無音区間より短い、節と節の間の無音区間を含む
請求項1乃至3のいずれか1つ記載の話速変換プログラム。
【請求項5】
テキストから音声データを合成すると共に、促音及び破裂音の前の無音区間を含む閉鎖を除き、文と文の間の無音区間を含むポーズの位置データを生成する生成ステップと、
前記音声データにおいて前記ポーズの位置データからポーズを特定し、特定された前記ポーズに当該ポーズ以外の区間より加重的に速度変換処理を施すステップと、
をコンピュータに実行させるための話速変換プログラム。
【請求項6】
前記ポーズが、前記文と文の間の無音区間より短い、節と節の間の無音区間を含む
請求項5記載の話速変換プログラム。
【請求項7】
音声データにおいて、促音及び破裂音の前の無音区間を含む閉鎖を除き、文と文の間の無音区間を含むポーズを特定する特定ステップと、
前記音声データにおいて、前記ポーズに当該ポーズ以外の区間より加重的に速度変換処理を施すステップと、
を含み、コンピュータにより実行される話速変換方法。
【請求項8】
テキストから音声データを合成すると共に、促音及び破裂音の前の無音区間を含む閉鎖を除き、文と文の間の無音区間を含むポーズの位置データを生成する生成ステップと、
前記音声データにおいて前記ポーズの位置データからポーズを特定し、特定された前記ポーズに当該ポーズ以外の区間より加重的に速度変換処理を施すステップと、
を含み、コンピュータにより実行される話速変換方法。
【請求項9】
音声データにおいて、促音及び破裂音の前の無音区間を含む閉鎖を除き、文と文の間の無音区間を含むポーズを特定する特定手段と、
前記音声データにおいて、前記ポーズに当該ポーズ以外の区間より加重的に速度変換処理を施す手段と、
を有する話速変換装置。
【請求項10】
テキストから音声データを合成すると共に、促音及び破裂音の前の無音区間を含む閉鎖を除き、文と文の間の無音区間を含むポーズの位置データを生成する生成手段と、
前記音声データにおいて前記ポーズの位置データからポーズを特定し、特定された前記ポーズに当該ポーズ以外の区間より加重的に速度変換処理を施す手段と、
を有する話速変換装置。

【図2】
image rotate

【図3】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図9】
image rotate

【図1】
image rotate

【図4】
image rotate

【図8】
image rotate


【公開番号】特開2008−203421(P2008−203421A)
【公開日】平成20年9月4日(2008.9.4)
【国際特許分類】
【出願番号】特願2007−37913(P2007−37913)
【出願日】平成19年2月19日(2007.2.19)
【出願人】(595061705)株式会社アニモ (5)