説明

再生装置

【課題】違和感の少ない短縮された音声信号を作る。
【解決手段】音声データを一区切り毎にブロック化して音声固まりを作り、その音声信号が有声音か無声音か無音かを識別して、音声が始まった位置を始端点とする。有声音の場合には終端に近い複数の音声波形のピーク値から推定近似線を用いて時間軸上にみなし終端点を決定し、無声音の場合にはレベル検出により終端点を決定することにより、有声音に含まれる無音部分と、無声音に含まれる聴感上では短縮できる無声部分と無音部分、音声データが存在しない無音とをカットし、再び音声信号をつなぎ合わせる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を構成する有声音と無声音と無音とからなる音を再生もしくは録音再生する装置に関するものであり、特には再生音声を短時間で聞いたり、はっきり聞くための機能に関係し、または音声信号を保存する記憶装置の容量低減に関するもので、複雑な演算を行わずにかつ音質劣化を最小限に抑えることができる再生装置に関する。
【背景技術】
【0002】
再生装置に搭載されている機能として、再生音声を短時間で聞いたり、はっきり聞くための話速変換技術にはいろいろな方式が用いられている。まず、単純に時間軸に対して再生速度を速めた場合、再生された音声は速度を速めた比率に比例してその周波数が高くなってしまい、かん高く聞きづらいものになってしまう。また、単純に入力が設定した検知レベル以下の箇所を時間軸上でスキップさせて再生させる場合は、低レベルの領域がない音声信号に対してはスキップさせることができなかった。そのため、この問題を解決するために、特許文献1に開示されているように、音声の入力信号のピッチ周期を抽出し、そのピッチ周期に応じてピッチ2周期分の音声データに重み窓関数をかけて時間軸圧縮を行うデジタル信号処理よる時間軸伸長圧縮技術が採用されている。
また特許文献2に記載されているように、音声区間と無音区間との識別を行い、有声音および無音と判別された音声信号については時間軸を圧縮し、無声音と判別された音声信号については時間軸を圧縮しないか、もしくは時間軸の圧縮比率に比べて低い圧縮率で時間軸圧縮を行う構成になっている。中には、音声区間と無音区間との識別を行い、無音区間は削除させ音声区間をピッチ同期による伸長圧縮制御を行ったり、または再生速度に応じて間引く処理を切り替えるように構成したものもある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平1−233835号公報
【特許文献2】特開平7−129198号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
このような従来の再生装置において、解決しようとする問題点は、音声区間と無音区間とを一様に時間軸伸長圧縮をする場合は、聞き取りたい部分の明瞭度が悪化したり、時間軸伸長圧縮された無音データを含んだ音声データが生成されてしまう。また、有声音の時間軸伸長圧縮では、周期性のある2ピッチ分の音声信号を1ピッチに圧縮する場合、前部の周期P1に重み関数Wを掛け、後部の周期P2には反対の重み関数1−Wを掛けて、それぞれを加算して1つとするような複雑な信号処理を必要とするために、処理負担が大きく、高速演算を実行する必要があった。
【0005】
本発明は、高速演算を必要とするような複雑な信号処理方法を用いずに、音声として聞き取る上で必要最低限の有声音と、無声音とを残すことで、明瞭度を確保して、違和感の少ない短縮された音声信号を作り出す再生装置を提供することを目的としてなされたものである。
【課題を解決するための手段】
【0006】
本発明の請求項1に記載の発明は、音声を構成する有声音と無声音と無音とからなる音を再生もしくは録音再生する装置であって、レベル検出により音声信号データが存在することを検出し始端点を決定する始端点用レベル検出回路と、音声データの一ブロックが有声音か無声音あるいは無音かを識別する音声性質識別回路と、前記音声性質識別回路で識別された音声データを一区切り毎にブロック化して音声固まりを決める音声ブロック化回路と、前記音声性質識別回路で判定された音声データブロックが有声音の場合には、その音声波形の終端に近い複数の波形のピーク値を検出する音声信号ピーク検出回路と、前記複数のピーク値の包絡線によって作る推定近似線からみなし終端点を推定するみなし終端点推定回路と、前記音声性質識別回路で判定された音声データブロックが無声音の場合には、レベル検出により音声データが終了したことを検出する終端点用レベル検出回路と、前記みなし終端点推定回路や終端点用レベル検出回路で決定された始端点と終端点の情報を元に元の音声信号のデータをカットする音声区間カット回路と、カットした後の音声データをつなぎ合わせて生成し直す音声接合回路とを備え、有声音の場合には前記みなし終端点推定回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無声音の場合には前記終端点用レベル検出回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無音の区間はすべてをカットする制御を行い再びつなぎ合わせたものであり、言葉と言葉の間隙や1つの言葉の中に発生する無音部分および無声音に含まれる聴感上では短縮できる無声部分を削除して、違和感の少ない短縮された音声信号を作り出すことができるという作用を有する。
請求項2に記載の発明は、前記音声信号結合回路から出力される音声出力を保存する記憶回路を備えたものであり、音声データをカットすることにより、記憶するために必要な記憶容量を低減できるという作用を有する。
【発明の効果】
【0007】
本発明の再生装置は、有声音の場合には、音声ブロックの終わりに近い音声信号のピーク値の包絡線によって作る推定近似線からみなし終端点を推定し、その推定したみなし終端点から次の音声ブロックの固まりの始端点までの期間の音声データをカットし、無声音の場合にはレベル検出より決定された終端点から次の音声ブロックの固まりの始端点までの期間の音声データをカットし、無音の区間はすべてをカットする制御を行い再びつなぎ合わせて音声信号を生成するように構成したため、言葉と言葉の間隙や1つの言葉の中に発生する無音部分および無声音に含まれる聴感上では短縮できる無声部分を削除した音声信号を生成できるので、違和感の少ない短縮された音声信号を作り出すことができるという利点がある。
また、作り出された音声信号を、短縮された音声信号の形で記憶回路に保存することにより、記憶するために必要な記憶容量を低減できるという有利な効果が得られる。
【図面の簡単な説明】
【0008】
【図1】実施の形態1にかかる再生装置の信号処理部分のブロック構成図
【図2】実施の形態1にかかる再生装置の音声識別され区間割された音声信号波形を示す図
【図3】実施の形態1にかかる再生装置の信号合成後の音声出力波形を示す図
【図4】実施の形態1にかかる再生装置のみなし終端点を推定算出するための近似線関係図
【発明を実施するための形態】
【0009】
以下、本発明の再生装置を実施すための最良の形態について、図1から図4を用いて詳細に説明する。
【0010】
(実施の形態1)
図1は本発明の第1の実施の形態における再生装置の信号処理部分のブロック構成図を示し、図2は同じく第1の実施の形態における音声識別され区間割された音声信号波形図、
図3は同じく第1の実施の形態における信号合成後の音声出力波形、図4は同じく第1の実施の形態におけるみなし終端点を推定算出するための近似線関係図である。
図1において、1は音声入力、2は始端点用レベル検出回路、3は音声性質識別回路、4は音声ブロック化回路、5は有声音の信号経路、6は無声音の信号経路、7は無音の信号経路、8は音声信号ピーク検出回路、9はみなし終端点推定回路、10は終端点用レベル検出回路、11は音声区間カット回路、12は音声信号接合回路、13は音声出力で構成している。
【0011】
以上のように構成された第1の実施の形態における信号処理部分のブロック構成図について、図2、図3と図4を付加して以下その動作について説明する。
【0012】
まず、再生装置全体から、本発明の特徴となる信号の処理部分を抜き出したものが、図1の信号処理部分のブロック構成図である。また時間軸上に音声信号波形の一例を示したものが、図2の音声識別され区間割された音声信号波形図である。アナログ信号で構成される音声信号が音声入力1から入力される。始端点用レベル検出回路2は、この音声信号のレベル検出を行っており、決められたしきい値以上のレベルを検知した場合、音声信号の入力があったと判断する。入力があったと判断した時点で、この時間軸上に、始端点としてマークする。図2に示す音声信号波形図のポイントA、ポイントD、ポイントGに相当する。この時に設定するしきい値レベルにより、無音として判断するレベルが変化することとなり、しきい値レベルを上げ過ぎると音声の開始部分で頭切れを起こしてしまう可能性があるため、検出するための適切なレベルに設定することが重要なファクターとなる。この時点では音声信号の始まり、つまり始端点は確定できるが、その後に続く音声信号が有声音なのか、無声音なのかはわかっていない。始端点用レベル検出回路2で始端点を付けられた音声信号は、音声性質識別回路3へ送られる。音声性質識別回路3では、音声信号が有声音か無声音あるいは無音かを識別するが、いろいろな周波数成分で構成される音声信号の1波形毎に判断していては、処理が煩雑となってしまい高い信号処理能力も必要となってしまう。本発明は、言葉と言葉の間隙や1つの言葉の中に発生する無音部分を加工することを前提としているため、音声ブロック化回路4で、音声データを一区切り毎にブロック化して音声固まりを決定する。音声データをブロック化する方法として、いろいろな方法あるが、簡易な方法としては信号レベルの有無で分割する方法がある。また周波数成分とレベルおよび音声信号の包絡線形状により高精度でブロック化すると、音の頭切れなどの発生を防ぐことができる。
音声性質識別回路3では、そのブロック化された音声信号の固まりの周波数成分や音声レベルを判断して、音声データの一ブロックが有声音か無声音あるいは無音かを識別する。
図2の上段部に示す音声ブロック化回路による分類のように、ポイントAまでは無音、ポイントAからDは有声音、ポイントDからGまでは無声音、ポイントGからKまでを有声音というようにまず分類を実施する。無音を判別するには、音声信号の有る無しを判断することで無音を認識できる。有声音か無声音かを判断するためには、その音声信号を構成する周波数と音声レベルとで判断が必要であり、一般的に高い周波数の低いレベルの波形が連続している場合は無声音であり、レベル変動を伴って低い周波数の波形で構成されているものは、有声音である。無声音、有声音を識別する方法に関しては、非常にたくさんの技術的資料や特許などが公開されており、本発明の主目的ではないため、ここでは省略する。
【0013】
音声性質識別回路3により、有声音、無声音、無音の3種類に分類された音声データは、それぞれ異なった処理に進む。有声音の場合、その音声波形の終端に近い複数の波形のピーク値を検出する音声信号ピーク検出回路8と、複数のピーク値の包絡線によって作る推定近似線からみなし終端点を推定するみなし終端点推定回路9により、次の3つに分ける。1つ目は、ブロック化回路では有声音と識別されたが無声音の性質を持つポイントAからB、ポイントGからHの区間と、2つ目は、完全に有声音として分類されるポイントBからC、ポイントHからJの区間と、3つ目は、みなし終端点としてマークされたポイントCとポイントJにより区切られたポイントCからD、ポイントJからKの区間から成る無音部分とに細分化される。ここで、みなし終端点の決定方法については、本発明の要旨であるため、後ほど詳細に述べる。無声音の場合、終端点用レベル検出回路10はレベル検出により音声データが終了したことを検出し、終端点Fをマークする。これにより、無声音に含まれる不要と判断できる無声音であるポイントDからEの区間、完全に無声音として分類できるポイントEからFの区間、無音とみなすことができるFからGの区間に細分化できる。
【0014】
有声音ブロックの細分化と無声音ブロックの細分化との手法が異なるのは、その音声信号の特性に起因する。無声音はレベルが低く、周波数の高い連続波形で構成される。この波形の終端部は緩やかにレベル低下をしながら無音へと収束していく。終端点の判断は曖昧であり、しきい値によるレベル検出により終端点Fを決める必要がある。また低レベルでなだらかに収束しているため、音がなくなった直後から時間軸でデータカットを行い、次の音声ブロックの頭に接続しても、比較的に違和感のない音声を作ることができるためである。
【0015】
音声区間カット回路11は、みなし終端点推定回路9や終端点用レベル検出回路10で決定された始端点と終端点の情報を元に音声信号のデータをカットする操作を行う。詳細な分類を行った後のブロックは、有声音、有声音に含まれる無声音部分、有声音に含まれる無音部分、無声音、無声音に含まれる無声音的な部分、完全に音を含まない無音となる。ここで、有声音に含まれる無音部分であるポイントCからDの区間とポイントJからKの区間、無声音に含まれるカットしても音質におおきな影響がでない不要な無声音部分であるポイントDからEの区間、無声音に含まれる無音部分であるポイントFからGの区間の音声データをカットする。そのカットした音声信号データを受けて、音声信号接合回路12は、終端点として決められた波高レベルが0の位置と始端点として決められた波高レベルが0の位置とを直結させて音声データを接合させる。図3が、図2の音声信号波形図をカットし接続した音声出力の一例である。
本第1の実施例では、有声音内に含まれる無声音部分と有声音間のわずかな無音部分についてはカットが行われていないが、更に短縮された音声信号を作り出すために検出しカットすることも可能である。この場合、図2に記載しているポイントMからBの区間、ポイントNからHの区間のカットを行うこととなる。
ここで、図4を用いて、先に述べた有声音の場合のみなし終端点の決定方法について説明する。無声音の場合は低いレベルで緩やかにレベルの減衰から音声が収束するが、有声音の場合は、それとは大きく異なった減衰となり、特に標準的な有声音のほとんどの減衰は、以下の特徴を持っている。まず減衰を開始する複数のピーク値の推定近似線の延長線上と時間軸との交点の角度をα、更に減衰が進んで終端側に寄った複数のピーク値によって作られる近似線の延長線上と時間軸との交点の角度をβとすると、β>αとなっている。つまり2段目の推定近似線の前に現れる減衰を開始した箇所の推定近似線の延長線上と時間軸との交点以降に音声信号が残ってしまうことはない。この交点をみなし終端点として、先の音声信号をカットするポイントとして使用すると、違和感のない合成後の音を再現できる。なぜこのポイントが良いのかは明確にはわからないが、多数の音声信号の加工を行い、試聴を繰り返し行った結果からその効果を確認した。また、複数の音声信号の波形を実際に確認し、推定近似線を形成するピーク値は、3〜5ポイントを用いた場合、良好な終端点を求めやすいデータとなった。
また、音声信号はその性質上、それを構成する周波数成分およびピーク値は、リニアではなく、振られた成分を持っている。そのため、厳格に波形のピーク点を追い求めて近似線を引いた場合、求めようとするみなし終端点を見つけられない場合が考えられる。このように、みなし終端点を算出する時のピーク値に対しては、あいまい度を含んだ判定方法が必要となる。
本第1の実施形態の説明では、図形による推定近似線を用いて行ったが、その具体的な近似の作成方法として、1次線形補間による近似線の作成を用いることにより、デジタル的な処理で終端点をもとめることもできる。
【産業上の利用可能性】
【0016】
本発明の再生装置は、有声音の場合にはみなし終端点推定回路で決定された終端点から始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無声音の場合には終端点用レベル検出回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無音の区間はすべてをカットする制御を行い再びつなぎ合わせることにより、言葉と言葉の間隙や1つの言葉の中に発生する無音部分および無声音に含まれる聴感上では短縮できる無声部分を削除して、違和感の少ない短縮された音声信号を作り出すことができ、話速変換としての早聞き用として用いることや、その音声データを記録する装置においては、記憶するために必要な記憶容量を低減する用途にも適用できる。
【符号の説明】
【0017】
1 音声入力
2 始端点用レベル検出回路
3 音声性質識別回路
4 音声ブロック化回路
5 有声音の信号経路
6 無声音の信号経路
7 無音の信号経路
8 音声信号ピーク検出回路
9 みなし終端点推定回路
10 終端点用レベル検出回路
11 音声区間カット回路
12 音声信号接合回路
13 音声出力

【特許請求の範囲】
【請求項1】
音声を構成する有声音と無声音と無音とからなる音を再生もしくは録音再生する装置であって、
レベル検出により音声信号データが存在することを検出し始端点を決定する始端点用レベル検出回路と、
音声データの一ブロックが有声音か無声音あるいは無音かを識別する音声性質識別回路と、
前記音声性質識別回路で識別された音声データを一区切り毎にブロック化して音声固まりを決める音声ブロック化回路と、
前記音声性質識別回路で判定された音声データブロックが有声音の場合には、その音声波形の終端に近い複数の波形のピーク値を検出する音声信号ピーク検出回路と、
前記複数のピーク値の包絡線によって作る推定近似線からみなし終端点を推定するみなし終端点推定回路と、
前記音声性質識別回路で判定された音声データブロックが無声音の場合には、レベル検出により音声データが終了したことを検出する終端点用レベル検出回路と、
前記みなし終端点推定回路や終端点用レベル検出回路で決定された始端点と終端点の情報を元に音声信号のデータをカットする音声区間カット回路と、
カットした後の音声データをつなぎ合わせて生成し直す音声接合回路とを備え、
有声音の場合には前記みなし終端点推定回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無声音の場合には前記終端点用レベル検出回路で決定された終端点から前記始端点用レベル検出回路で決定される次の固まりの始端点までの期間の音声データをカットし、無音の区間はすべてをカットする制御を行い再びつなぎ合わせることにより、言葉と言葉の間隙や1つの言葉の中に発生する無音部分および無声音に含まれる聴感上では短縮できる無声部分を削除して、違和感の少ない短縮された音声信号を作り出すことを特徴とする再生装置。
【請求項2】
前記音声信号結合回路から出力される音声出力を保存する記憶回路を備え、
音声データをカットすることにより、記憶するために必要な記憶容量を低減したことを特徴とする請求項1記載の再生装置。
【請求項3】
前記みなし終端点推定回路は、一次線形補間により推定される近似線を用いてみなし終端点を求めることを特徴とする請求項1記載の再生装置。
【請求項4】
信号を判別して処理を行う時間と前期音声区間カット回路との処理のずれが起きないようにするため、音声入力と音声区間カット回路との間に、遅延回路を付加したことを特徴とする請求項1記載の再生装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2010−266778(P2010−266778A)
【公開日】平成22年11月25日(2010.11.25)
【国際特許分類】
【出願番号】特願2009−119513(P2009−119513)
【出願日】平成21年5月18日(2009.5.18)
【出願人】(000005821)パナソニック株式会社 (73,050)