説明

音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路

【課題】 音声含有率の変動に応じた最適な速度比制御を行って、より聴き取りやすい再生音質を実現すること。
【解決手段】 音声/非音声判別部11において音声区間と非音声区間とを判別し、音声情報算出部12において音声情報として算出用フレーム長に対する音声含有率を算出し、音声含有率の平均値および標準偏差を算出する。そして、速度比算出部14において、上記音声情報を用いて、音声区間の速度比をフレーム毎に算出し、当該音声区間の速度比を用いて再生時間が目標の再生時間となるように非音声区間の速度比を算出する。そして、算出された音声区間および非音声区間の速度比に基づいて、音声速度変換部15において、入力される音声信号の再生速度を変換して出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路に関し、より特定的には、再生速度を変換して再生する音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路に関する。
【背景技術】
【0002】
従来、予め記録された音声を再生する音声再生装置において、声の高さを変えることなく、より高速に再生する方法が知られている(例えば、特許文献1参照)。特許文献1に開示された音声再生装置では、音声信号全体を指定速度で再生するとき、音声区間については部分的に再生速度比を低速化している。これにより、特許文献1に開示された従来の音声再生装置は、情報の欠落が少なく、聴き取りやすい再生音声を提供することができる。
【特許文献1】特開2001−222300号公報
【0003】
以下、図11を参照して、上記特許文献1に開示された従来の音声再生装置9について、具体的に説明する。図11は、従来の音声再生装置9の構成を示すブロック図である。図11において、従来の音声再生装置9は、音響分析部91、話速変換部92、非音声区間長制御部93、および合成部94を備える。
【0004】
音響分析部91は、入力される音声データに対して、予め設定されているパワー閾値に基づき音声区間および非音声区間を判別する。そして、音響分析部91は、音声区間および非音声区間の時間情報をそれぞれ求める。図11に示す従来の音声再生装置9では、音響分析部91において判別された音声区間および非音声区間に対して、異なる再生処理を適用する。音響分析部91で判別された音声区間の音声データおよび上記各時間情報は、話速変換部92に出力される。音響分析部91で判別された非音声区間の音声データは、非音声区間長制御部93に出力される。
【0005】
話速変換部92は、まず音声区間の音声データと上記各時間情報とに基づいて、一定時間長以上の非音声区間に挟まれた音声区間を特定する。そして、話速変換部92は、当該音声区間の冒頭部分の速度比を所定速度比より遅く、末尾に向けて次第に所定速度比に戻すような速度比制御を行う。速度比が制御された音声区間の音声データは、合成部94に出力される。また、話速変換部92は、波形の伸長処理によって生じる音声区間の遅延時間情報を非音声区間長制御部93に出力する。
【0006】
一方、非音声区間長制御部93では、話速変換部92から出力された上記遅延時間情報に基づいて、非音声区間の音声データに対して削除および圧縮する処理を適宜行う。つまり、非音声区間長制御部93では、目標の指定速度比に合うように、かつ、話速変換部92で生じた音声区間の遅延を解消するような処理が行われる。非音声区間長制御部93において処理された非音声区間の音声データは、合成部94に出力される。
【0007】
合成部94は、話速変換部92から出力された音声区間の音声データと、非音声区間長制御部93から出力された非音声区間の音声データとを合成する。そして、合成部94は、速度比が変換された音声区間と非音声区間とが合成された音声データを変換音声データとして、最終的な再生音声を出力する。
【0008】
上記従来の音声再生装置9では、例えば指定速度としてm倍速(mは1以上の正数)が与えられたとき、音声区間の冒頭部分ではm倍速より遅い速度比で再生する。そして、従来の音声再生装置9は、音声区間の末尾に向かって次第に再生速度比を速くする。ここで、一般的に音声区間の冒頭部分には、重要な情報が含まれている場合が多い。したがって、従来の音声再生装置9によれば、音声区間の冒頭部分にある重要な情報を欠落させることなく、聴きとりやすい再生を実現することができる。このように従来の音声再生装置9では、音声区間については聴き取りやすい処理が、非音声区間については指定速度比に適応するような処理がそれぞれ行われている。
【発明の開示】
【発明が解決しようとする課題】
【0009】
ここで、高速再生時には、音声の発話速度が速くなり、ユーザにとって内容を理解するための負荷が大きくなる。さらに、番組全体の中で音声区間が偏って集中すると(音声が連続的に発声されると)、ユーザにとってさらに理解が困難になる。しかしながら、上記従来の音声再生装置9では、一つの音声区間の中で再生速度比を変更することのみを想定している。つまり、上記従来の音声再生装置9では、例えばテレビ番組などの全体を通して、同一の速度比制御処理が適用される。したがって、従来の音声再生装置9においては、音声区間が偏って集中する部分で相対的に音声の内容の聴き取りが困難になるという本質的課題があった。
【0010】
それ故、本発明の目的は、テレビなどの番組全体を考慮した最適な速度比制御を行って、より聴き取りやすい再生を実現する音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、および集積回路を提供することを目的とする。
【課題を解決するための手段】
【0011】
第1の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声再生装置であって、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える。
【0012】
第2の発明は、上記第1の発明において、速度比算出部は、ユーザの操作に応じて短縮された再生時間を設定し、算出した音声区間の速度比に基づいて、音声信号の再生時間が設定された再生時間となるように非音声区間の速度比を算出することを特徴とする。
【0013】
第3の発明は、上記第2の発明において、速度比算出部は、設定された再生時間内において非音声区間の速度比を一定に算出することを特徴とする。
【0014】
第4の発明は、上記第1の発明において、所定時間長は、1以上の単位時間長を含み、速度比算出部は、所定時間長に対して算出された速度比を当該所定時間長に含まれる何れか1つの単位時間長における音声区間の速度比に設定することを特徴とする。
【0015】
第5の発明は、上記第1の発明において、音声再生装置は、入力される音声信号のうち、少なくとも所定時間長分の音声信号を含むように当該音声信号を順次更新しながら記録するバッファと、バッファに記録された音声信号に対して速度変換処理を行って出力する速度変換部とを、さらに備え、判別部は、バッファに記録された所定時間長の音声信号に対して音声区間と非音声区間とを判別し、音声情報算出部は、さらに、音声情報として音声含有率に関する統計値を算出して、予め記憶されている統計値を単位時間毎に順次更新し、速度比算出部は、単位時間ごとに更新される統計値および当該更新時の所定時間長に設定された音声含有率に応じて音声区間の速度比を算出し、速度変換部は、バッファで順次更新される音声信号に対して、単位時間ごとに算出された音声区間の速度比を用いて順次速度変換処理を行うことを特徴とする。
【0016】
第6の発明は、上記第1の発明において、音声情報算出部は、音声情報として音声含有率に関する統計値をさらに算出し、速度比算出部は、統計値および音声含有率に応じて音声区間の速度比を算出することを特徴とする。
【0017】
第7の発明は、上記第5または6の発明において、統計値は、所定時間長毎の音声含有率の平均値および標準偏差であることを特徴とする。
【0018】
第8の発明は、上記第7の発明において、速度比算出部は、所定時間長における音声含有率の平均値に対する変動差および標準偏差に応じた係数を速度比の基準値に乗じて、音声区間の速度比を算出することを特徴とする。
【0019】
第9の発明は、上記第8の発明において、音声情報算出部は、それぞれ時間長が異なる所定時間長を複数設定してそれぞれ音声含有率を算出し、速度比算出部は、所定時間長それぞれより少なくとも短い単位時間長において、当該単位時間長に含まれる音声区間の速度比を、当該単位時間長を共通して含むそれぞれの所定時間長の音声含有率に対応する係数の総和を速度比の基準値に乗じて算出することを特徴とする。
【0020】
第10の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声再生方法であって、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを含む。
【0021】
第11の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生するコンピュータで実行される音声再生プログラムを記録した当該コンピュータで読み取り可能な記録媒体であって、コンピュータに、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体である。
【0022】
第12の発明は、入力される音声信号に設定された等倍の再生速度を速度変換して加速させる集積回路であって、音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える。
【0023】
第13の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声録音再生装置であって、入力される音声信号を記録する情報記録部と、情報記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える。
【0024】
第14の発明は、上記第13の発明において、情報記録部には、音声信号が記録される際に判別部が判別した結果が記録され、音声情報算出部は、情報記録部に記録された結果に基づいて、音声情報を算出することを特徴とする。
【0025】
第15の発明は、上記第13の発明において、情報記録部には、音声信号が記録される際に、判別部が判別した結果および音声情報が記録され、速度比算出部は、情報記録部に記録された音声情報を用いて、音声区間の速度比を算出することを特徴とする。
【0026】
第16の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声録音再生方法であって、入力される音声信号を記録する情報記録ステップと、情報記録ステップに記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを含む。
【0027】
第17の発明は、入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生するコンピュータで実行される音声録音再生プログラムを記録した記録媒体であって、コンピュータに、入力される音声信号を記録部に記録する情報記録ステップと、記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、音声区間および非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、所定時間長の音声含有率が相対的に高いときに当該所定時間長における音声区間の速度比を当該基準値より小さく設定し、所定時間長の音声含有率が相対的に低いときに当該所定時間長における音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体である。
【発明の効果】
【0028】
第1の発明によれば、音声含有率の変動に応じた音声区間の速度比を算出することで、入力された音声信号の速度変換後の再生音質を音声含有率の変動に応じた了解性の優れたものにすることができる。
【0029】
第2の発明によれば、設定されて再生時間となるように、重要な音声情報が含まれていない非音声区間の速度比を音声区間の速度比とは別に算出することで、音声区間の速度比をユーザが聴取可能な範囲内の速度比に調整することができる
【0030】
第3の発明によれば、重要な音声情報が含まれていない非音声区間の速度比を一定の速度比とすることで、能率のよい速度変換をした再生が可能となる。
【0031】
第4の発明によれば、例えば単位時間長を数多く含み、所定時間長が長い場合には、設定される音声区間の速度比が音声含有率の変動に対して大局的でより正確性の高い値となる。また例えば、所定時間長が短く、含まれる単位時間長が少ない場合には、設定される音声区間の速度比が音声含有率の変動に対して敏感でより追従性のよい値となる。つまり、設定される音声区間の速度比に対して、音声含有率の変動に対する正確性または追従性を自由に選択することができる。
【0032】
第5の発明によれば、統計値を単位時間毎に更新することで、音声信号の入力に応じて即時に速度変換処理をして再生することができる。
【0033】
第6の発明によれば、音声区間の速度比の算出に対して、統計値を用いることで、より実際の音声含有率の変動に即した音声区間の速度比を算出することができ、結果的に速度変換後の再生音質をより了解性のある自然なものにすることができる。
【0034】
第7の発明によれば、音声区間の存在の偏り度合いを考慮した音声区間の速度比を算出することができる。
【0035】
第8の発明によれば、音声区間の存在の偏り度合いに即した音声区間の速度比を算出することができる。
【0036】
第9の発明によれば、単位時間長に含まれる音声区間の速度比を、当該単位時間長を共通して含むそれぞれの所定時間長の音声含有率に対応する係数の総和を速度比の基準値に乗じて算出することで、音声含有率の敏感な変動および大局的な変動の双方に対応した最適な音声区間の速度比を算出することができる。
【0037】
第13の発明によれば、音声含有率の変動に応じた音声区間の速度比を算出することで、記録した音声信号の速度変換後の再生音質を音声含有率の変動に応じた了解性の優れたものにすることができる。
【0038】
第14の発明によれば、音声信号を記録後、速度変換した再生が行われる前までの処理時間を判別部における処理時間分だけ短縮することができる。
【0039】
第15の発明によれば、音声信号を記録後、速度変換した再生が行われる前までの処理時間を判別部および音声情報算出部における処理時間分だけ短縮することができ、音声信号を記録後、即時に速度変換をした再生を行うことができる。
【発明を実施するための最良の形態】
【0040】
(第1の実施形態)
図1を参照して、本発明における第1の実施形態に係る音声再生装置について説明する。図1は、本発明における第1の実施形態に係る音声再生装置1の構成を示すブロック図である。図1において、音声再生装置1は、音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15を有する。なお、本実施形態に係る音声再生装置1は、記録メディアなどに録音された音声信号を速度変換して再生する前に一旦、録音された音声信号全体について読み出し可能であることを想定した装置である。ここで、録音対象としては、例えばテレビやラジオ番組が挙げられる。また記録メディアは、例えば映画などが予め収録されたDVD等の記録メディアであってもよい。以下の説明では、一例として、第1の実施形態に係る音声再生装置1が、録音されたテレビ番組の音声信号に対して速度変換処理を行うとする。
【0041】
記録メディアなどに録音された音声信号が読み出され、音声/非音声判別部11に入力される。音声/非音声判別部11は、入力された音声信号のパワーの包絡値や周期性などの分析を行う。そして、音声/非音声判別部11は入力された音声信号に対して音声区間および非音声区間を時間軸上で判別する。音声信号の時間軸上で判別された音声区間および非音声区間の情報(以下、判別情報という)は、速度変換した再生を行う前に音声情報算出部12に出力される。
【0042】
音声情報算出部12は、音声/非音声区間の判別情報に基づいて、音声区間および非音声区間の速度比を算出するために必要な音声情報を算出する。音声情報としては、音声含有率、音声含有率の平均値、および標準偏差などがある。具体的には、音声情報算出部12は、録音された番組全体を通して音声含有率を算出した後に、音声含有率の平均値と標準偏差とを算出する。音声情報算出部12で算出された音声含有率、音声含有率の平均値、および標準偏差は、音声情報記録部13にそれぞれ記録される。以下、音声含有率、音声含有率の平均値、および標準偏差について説明する。
【0043】
音声含有率は、所定数(少なくとも1つ以上)のフレームに対して音声区間が含まれる時間比率を示すものである。音声含有率はフレーム毎に算出される。ここでフレームとは、入力される音声信号を単位時間で区切った区間であり、当該フレームの時間長をフレーム長とする。当該フレームには、音声区間および/または非音声区間が含まれる。また、音声含有率の算出に用いられる少なくとも1つ以上のフレームを算出用フレームとし、その時間長を算出用フレーム長とする。以下の説明では、一例として、1フレームの時間長(1フレーム長)を1分とする。また、音声含有率を算出するための算出用フレーム長をn(nは正数)分とする。つまり、1フレーム長を1分としたので、算出用フレームはn個のフレームから構成されることとなる。また、録音された番組全体のフレーム数がN(Nは正数)個あるとする。そして、フレームナンバーをk(k=1〜N)として、フレームナンバーがkのときのフレームを「第kフレーム」とする。このとき、第kフレームの音声含有率Ris_n(k)は、数式(1)で表現される。
【数1】

つまり、数式(1)によって算出される第kフレームの音声含有率Ris_n(k)は、算出用フレーム長に対して音声区間が含まれる時間比率を示す。
【0044】
ここで、図2〜図4を参照して、上記音声含有率Ris_n(k)の算出例を挙げる。図2〜図4では、一例として、テレビ放送のドキュメンタリ番組(30分間)の音声含有率を算出するとし、1分、5分、および10分の3種類の算出用フレーム長で算出している。図2は、算出用フレーム長が1分のときの音声含有率Ris_1(k)の算出例を示す図である。図3は、算出用フレーム長が5分のときの音声含有率Ris_5(k)の算出例を示す図である。図4は、算出用フレーム長が10分のときの音声含有率Ris_10(k)の算出例を示す図である。なお、図2〜図4において、横軸はフレームナンバー(k)を示し、縦軸は音声含有率(%)を示す。また、図2〜図4において、1フレーム長は1分とし、番組全体のフレーム数Nは30とする。
【0045】
図2において、第1フレーム(k=1)の音声含有率Ris_1(1)は、算出用フレーム長を1分としたので、数式(1)より第1フレームの音声含有率そのものとなる。図3においては、数式(1)より算出される第1フレームの音声含有率Ris_5(1)は、図2の第1〜第5フレームの音声含有率を平均したものである。図4においては、数式(1)より算出される第1フレームの音声含有率Ris_10(1)は、図2の第1〜第10フレームの音声含有率を平均したものである。
【0046】
図2〜図4に示すように、各算出用フレーム長で音声含有率の変動の様子が異なることが分かる。具体的には、算出用フレーム長が短い場合(図2)には、音声含有率のフレーム間の変動差が比較的大きくなる。つまり、算出用フレーム長が短い場合には、音声含有率の実際の変動が敏感に反映されたものとなる。これに対し、図3および図4に示すように、算出用フレーム長が長くなるにつれて、音声含有率のフレーム間の変動差が比較的小さくなる。これは、上述したように、算出用フレーム長が長くなるにつれて各フレームの音声含有率が平均化されるためである。つまり、算出用フレーム長が長い場合には、平均化によって小さい変動差が吸収され、音声含有率の変動が大局的に反映される。また、各算出用フレーム長の分散および標準偏差も、音声含有率の変動差の違いにより、異なる値となる。
【0047】
次に音声含有率の平均値および標準偏差について説明する。音声含有率の平均値は、音声含有率Ris_n(k)を番組全体において平均した値である。上述した図2でいえば、Ris_1(1)からRis_1(30)の音声含有率を平均した値である。つまり、算出用フレーム長n(nは正数)で表現すれば、音声含有率の平均値は、Ris_n(1)からRis_n(N)までの音声含有率の平均である。また、標準偏差は、音声含有率Ris_n(k)と音声含有率の平均値とを用いて算出される値である。ここで、上記図2〜図4に示した音声含有率Ris_n(k)の値をもとに、各算出用フレーム長について、それぞれ音声含有率の平均値と標準偏差とを求めると図5に示すような値となる。図5は、各算出用フレーム長の音声含有率の平均値および標準偏差の算出結果を示す図である。図5において、算出用フレーム長が1分である音声含有率の平均値A1は0.506と、算出用フレーム長が5分である音声含有率の平均値A5は0.498と、算出用フレーム長が10分である音声含有率の平均値A10は0.488となる。また、図5において、平均値A1に対する標準偏差S1は0.161と、平均値A5に対する標準偏差S5は0.073と、平均値A10に対する標準偏差S10は0.028となる。
【0048】
このように、図5に示すように、標準偏差においては、算出用フレーム長が短い場合には、変動差が大きく(ばらつきが大きく)なるために標準偏差の値が大きくなる。算出用フレーム長が長い場合には、変動差が小さく(ばらつきが小さく)なるために標準偏差の値が小さくなる。つまり、標準偏差は、算出用フレーム長の長さによって大きな影響を受ける値であり、一般的には番組全体における音声区間の存在の偏りを示す値と考えることができる。
【0049】
次に、入力される音声信号を速度変換して再生する段階において、速度比算出部14は、音声情報記録部13に記録された音声情報(音声含有率、音声含有率の平均値、および標準偏差)を用いて、音声区間の存在の偏りに応じた音声区間の速度比をフレーム毎に算出する。そして、速度比算出部14は、上記音声区間の速度比とユーザなどが入力する所望再生時間とに基づいて、非音声区間の速度比を算出する。そして、速度比算出部14は、音声/非音声判別部11において判別された判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。なお、ここでは算出された各フレームの音声区間の速度比は、当該フレーム内に存在する音声区間に一律に適用されるとする。また、非音声区間の速度比は、後述するように例えば一定の速度比でフレーム内の非音声区間に適用されるとする。
【0050】
ここで、速度比の算出方法を説明する前に、音声区間の速度比の最適性について説明する。記録時間より短い時間で音声信号を聴取するために、記録時間に対する再生時間長の設定値である目標再生時間比Rt(0<Rt<1)が与えられたとする。例えばユーザが記録時間に対して半分の再生時間で聴取しようとすると、目標再生時間比RtはRt=0.5となる。このような目標再生時間比Rtは、数式(2)で表現される。数式(2)において、音声含有率の平均値をA0と、音声含有率が一定であるときの音声区間の速度比をSRs0と、および音声含有率が一定であるときの非音声区間の速度比をSRns0とする。
【数2】

数式(2)より、目標再生時間比Rtおよび音声含有率の平均値が与えられれば、音声区間の速度比SRs0および非音声区間の速度比SRns0のうち、いずれか一方が決まれば残りの他方が算出されることが分かる。
【0051】
数式(2)に示す音声区間の速度比SRs0は、一般的に通常速(等倍速)である1.0に近い値ほど聴き取りやすい。音声区間の速度比SRs0の値が大きくなるほど、単位時間当たりの情報量が増大するので、ユーザにとって聴取が難しくなる。また、音声区間の速度比SRs0の値が2.0程度になると、ユーザが聴き取りに集中しなければ内容を理解することが困難となる。このように、音声区間の速度比SRs0が大きい場合、長時間の聴取にかなりの困難さが生じてくる。したがって、音声区間の速度比SRs0は、目標再生時間比Rtにある程度左右されることなく、ユーザの聴取可能な範囲内で設定されるのが最適である。これに基づき、通常は音声区間の速度比SRs0が1〜1.8程度となる範囲を利用する。また、一定速度比であれば、実用上は音声区間の速度比SRs0を1.3〜1.5とすることが多い。
【0052】
本実施形態においては、上記音声区間の速度比SRs0の最適な設定範囲を考慮しつつ、上述したように標準偏差が番組全体における音声区間の存在の偏りの度合いを示すと考え、音声含有率と音声含有率の平均値との差と、標準偏差とを用いて音声区間の速度比SRs0を可変する。すなわち、速度比SRs0を基準値として、音声区間が集中して音声含有率が上記音声含有率の平均値より高い部分に関しては当該基準値より音声区間の速度比を小さく設定し、逆に音声含有率が上記音声含有率の平均値より低い部分に関しては当該基準値より音声区間の速度比を大きく設定する。
【0053】
ここで、番組全体のフレーム数をNと、算出用フレーム長がn分のときの標準偏差をSnと、算出用フレーム長がn分のときの第kフレームにおける音声含有率をRis_n(k)と、第kフレームにおける音声区間の速度比をSRs(k)と、算出用フレーム長がn分のときの音声含有率の平均値をAnと、算出用フレーム長ごとに異なる重み係数をCnと、非音声区間の速度比をSRnsと、および音声含有率が一定と仮定したときの基準値の速度比をSRs0とする。なお、非音声区間の速度比SRnsは、ここではフレームの音声含有率に依存せず一定値とする。このとき、音声含有率の存在の偏りに応じた音声区間の速度比SRs(k)は、例えば数式(3)と表現される。
【数3】

【0054】
さらに、音声区間の速度比SRs(k)を音声含有率の大局的な変動および短期的な変動の双方が反映した値として算出する場合には、それぞれ時間長が異なる複数種類の算出用フレーム長の音声情報を用いて算出する。つまり、複数種類の算出用フレーム長の音声情報を多重に用いて音声区間の速度比を算出する。ここで、M種類の算出用フレーム長の音声情報を用いるとすると、第kフレームの音声区間の速度比SRs(k)は、数式(4)となる。
【数4】

数式(4)において、Cnは、算出用フレーム長ごとに異なる重み係数であり、各算出用フレーム長の音声含有率の偏差を音声区間の速度比SRs0に反映させる度合いを示すものである。
【0055】
ここで、多重の音声情報として、算出用フレーム長が1分、5分、10分のときの各音声情報を用いたとき、音声区間の速度比SRs(k)は、数式(5)となる。
【数5】

ここで、数式(5)により音声情報を多重に用いた速度比の算出結果の一例を図6に示す。図6は、音声情報を多重に用いた速度比の算出結果の一例を示す図である。なお、図6に示す算出例は、数式(5)においてSRs0=1.5、C1=1、C2=10、C3=20として算出し、短期的変動よりも長期的な変動に重点を置いた速度比を算出することを意図した例である。また、A1、A5、A10、S1、S5、S10、Ris_1(k)、Ris_5(k)、およびRis_10(k)は、それぞれ図2〜図5に示した値である。また、図6では、数式(5)により音声情報を多重に用いた速度比の他に、数式(3)を用いて算出フレーム長(1分、5分、および10分)に基づく音声情報から算出された各速度比を比較のために示している。
【0056】
図6において、菱形のプロットで描かれたグラフは、音声情報を多重に用いて算出された音声区間の速度比を示す。また、丸のプロットで描かれたグラフは、算出用フレーム長が1分のときの音声情報のみを用いて算出された音声区間の速度比を示す。四角のプロットで描かれたグラフは、算出用フレーム長が5分のときの音声情報のみを用いて算出された音声区間の速度比を示す。三角のプロットで描かれたグラフは、算出用フレーム長が10分のときの音声情報のみを用いて算出された音声区間の速度比を示す。
【0057】
図6に示すように、音声情報を多重に用いて算出された音声区間の速度比は、それぞれ単独の算出用フレーム長の音声情報のみを用いて算出された速度比と比べて、音声含有率の短期的な変動および長期的な変動の双方が反映された値であることが分かる。つまり、多重の音声情報を用いて算出された音声区間の速度比は、番組全体を通して音声区間の存在の偏りに応じた速度比であり、最適な速度比である。
【0058】
速度比算出部14は、上述した方法で音声区間の速度比SRsを算出後、入力される再生時間から設定される目標再生時間比Rtを達成するように非音声区間の速度比SRnsを算出する。なお、非音声区間の速度比SRnsは、上述したように例えば可変とせず一定の速度比とする。これは、有益な情報の大部分が音声区間に含まれていることに基づくものである。これにより、本実施形態に係る音声再生装置は、能率良い再生を実現できる。以下、非音声区間の速度比SRnsの算出方法について説明する。
【0059】
目標再生時間比Rtは、数式(4)に基づいて算出されたフレーム毎の音声区間の速度比SRs(k)を用いて、数式(6)と表現される。なお、Ris(k)は、音声含有率を求める算出用フレーム長の最も短いものとする。上述の例で考えると、3種類の算出用フレーム長のうち最も短いのは、1分の算出用フレーム長である。
【数6】

【0060】
したがって、非音声区間の速度比SRnsは、数式(6)を整理して数式(7)となる。
【数7】

なお、数式(7)からも分かるように、音声区間の速度比SRs(k)がフレーム毎に算出されるのに対して、非音声区間の速度比SRnsは、フレームには依存せず(kには依存せず)一定速度比として算出される。ここで、非音声区間の速度比SRnsの算出例を挙げる。例えば音声区間の速度比が1分、5分、10分の多重な音声情報を用いて算出されるとする。また、数式(4)において、SRs0を1.5と、重み係数をC1=1、C2=10、C3=20とする。このとき、図6に示したように、音声情報を多重に用いて算出された音声区間の速度比SRs(k)は1.23〜1.68の範囲の値となる。ここで、目標再生時間比Rtを例えば0.5とする。このとき、非音声区間の速度比SRnsは、数式(7)より、3.177となる。つまり、非音声区間の速度比SRnsは、音声区間の速度比(例えば図6に示す1.23〜1.68)より高速の速度比に設定される。このように、速度比算出部14は、音声情報記録部13に記録された音声情報を用いて、音声含有率の変動に応じた音声区間の速度比をフレーム毎に算出し、非音声区間の速度比をフレームに関係なく一定の速度比で算出する。そして、算出された音声区間および非音声区間の速度比の情報は、音声速度変換部15に出力される。
【0061】
音声速度変換部15は、速度比算出部14において算出された音声区間および非音声区間の速度比の情報に基づいて、入力される記録メディアなどに録音された音声信号に対して、速度変換処理を行う。速度変換処理の方法としては、例えば入力される音声信号を時間軸上にて圧縮伸長して速度変換を行う方法などがある。しかし、この方法に限定されず、その他の公知方法を用いて速度変換処理が行われてもよい。このように、本実施形態の音声速度変換部15において速度変換された音声信号は、音声/非音声判別部11の判別結果と音声含有率に応じて動的に可変する速度比で変換された音声信号である。
【0062】
次に、図7を参照して、本実施形態に係る音声再生装置1の処理の流れについて説明する。図7は、本実施形態に係る音声再生装置1の処理の流れを示すフローチャートである。図7において、まず、ユーザが例えば記録メディアに記録された番組全体の記録時間に対して目標とする再生時間を設定する(ステップS1)。これにより、目標再生時間比Rt(0<Rt<1)が設定される。次に、記録メディアなどに録音された番組全体が読み出され、音声/非音声判別部11において、再生前に番組全体を通して音声区間および非音声区間を判別する(ステップS2)。そして、音声情報算出部12において、ステップS2で判別された音声/非音声区間の情報に基づいて、複数種類の算出用フレーム長について音声含有率がそれぞれ算出される(ステップS3)。次に、音声情報算出部12において、ステップS3で算出された各算出用フレーム長の音声含有率を用いて、音声含有率の平均値および標準偏差がそれぞれ算出される(ステップS4)。そして、ステップS3およびS4で算出された音声情報(音声含有率、音声含有率の平均値および標準偏差)が音声情報記録部13に記録される(ステップS5)。ここまでが再生前に行われる処理である。番組全体を通して音声情報が算出された後、速度変換をする再生が開始される。再生される段階で、速度比算出部14は、音声情報記録部13に記録された音声情報に基づいて、音声区間の存在の偏りに応じた音声区間の速度比をフレーム毎に算出する(ステップS6)。次に、速度比算出部14において、ステップS6で算出された音声区間の速度比と、ステップS1で設定された目標再生時間比Rtとに基づいて、非音声区間の速度比が算出される(ステップS7)。そして、音声/非音声判別部11において判別された音声/非音声区間の判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。ステップS7の次に、ステップS6およびS7で算出された音声区間および非音声区間の速度比の情報に基づいて、入力される記録メディアなどに録音された音声信号に対して、速度変換処理を行う(ステップS8)。以上で本実施形態に係る音声再生装置1の処理の流れについての説明を終了する。
【0063】
以上のように、本実施形態に係る音声再生装置によれば、音声含有率を音声信号全体に対して算出後、統計値として音声含有率の平均値と標準偏差とを算出して番組中の音声区間の存在の偏り度合いを予め求め、これらの音声情報を用いて音声区間の速度比を算出することで、音声含有率の変動に応じて動的に可変する音声区間の速度比を算出することができる。つまり、本実施形態に係る音声再生装置は、音声が集中する部分には速度比を低減し、音声が集中していない部分には速度比を増加させる処理を行う。これにより、本実施形態に係る音声再生装置によれば、テレビ番組や映画など全体を通して音声の了解性を保つことができる。また、非音声区間の速度比は、所定の再生時間となるように音声区間の速度比に基づいて一定速度比として算出される。これにより、能率のよい再生速度での再生が可能となる。また、各算出用フレーム長の音声情報を多重して平均値などの統計値を求めることで、音声含有率の長期的な変動や短期的な変動に対して、追従性の高い、より滑らかな速度比の制御を実現することが可能となる。
【0064】
なお、上述した速度比算出部14では、各算出用フレーム長の音声情報を多重して音声区間の速度比SRs(k)を算出したが、これに限定されない。例えば、音声区間の速度比SRs(k)が単独の算出用フレーム長のみ用いて算出されたものでもよい。時間長が長い算出用フレーム長を用いて算出した場合には、算出された音声区間の速度比は、変化する音声含有率に対して大局的な値であり、より正確性のある値となる。時間長が短い算出用フレーム長を用いて算出した場合には、算出された音声区間の速度比は、変動する音声含有率に対してより追従性のよい値となる。
【0065】
また、上述した速度比算出部14では、音声区間の速度比を算出するための音声情報として、音声含有率Ris_n(k)、音声含有率の平均値An、標準偏差Snを用いるとしたが、これに限定されない。例えば、上記標準偏差の代わりに、分散や偏差平均など、標準偏差と同等の統計値が用いられてもよい。つまり、音声区間の速度比を算出するための音声情報としては、音声含有率Ris_n(k)以外に、音声含有率の平均値Anおよび標準偏差と同等の統計値が含まれる。
【0066】
また、上述した速度比算出部14では、音声区間の速度比をフレーム毎に算出するとしたが、フレーム内の音声区間1つ1つに対して、さらに文頭、文中、文末などの区分に分け、各区分で速度比を可変してもよい。例えば、ある音声区間の文頭では、速度比算出部14で算出された音声区間の速度比に対してやや速度比を小さくする。そして、文末になるにつれて速度比が大きくなるように設定する。これにより、重要な情報を多く含む文頭部分がユーザにとってより聴き取りやすいものとなる。このように、速度比算出部14は、1つの音声区間中の各区分について速度比を可変するものであってもよい。
【0067】
なお、上述した第1の実施形態で説明した音声/非音声判別部11、音声情報算出部12、速度比算出部14、および音声速度変換部15は、例えば音声信号を入力とし、音声速度変換部15で速度変換された音声信号を出力とする一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した動作をコンピュータに実行させるプログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納されたプログラムをコンピュータが読み出して実行することによって、本発明の実現が可能となる。この場合、上記情報処理装置に接続されたキーボードなどの入力部を用いて、ユーザが所望する再生時間を入力する。また、音声情報算出部12で算出される音声情報は、例えば情報処理装置内のハードディスクなどに記録される。また、上記プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、プログラムを他の媒体や通信回線を通じて上記情報処理装置に供給してもかまわない。また、音声情報算出部12で算出される音声情報は情報処理装置内のハードディスクに記録されるとしたが、情報処理装置内のメモリや情報処理装置外の他の記録媒体に記録されてもよい。
【0068】
(第2の実施形態)
図8を参照して、本発明における第2の実施形態に係る音声再生装置について説明する。図8は、本発明における第2の実施形態に係る音声再生装置2の構成を示すブロック図である。図8において、音声再生装置2は、入力バッファ21、音声/非音声判別部11、音声情報逐次更新部22、速度比算出部14、および音声速度変換部15を有する。
【0069】
なお、本実施形態に係る音声再生装置2は、例えばテレビ番組や映画などの音声信号全体が既に記録メディアなどに録音済みであり、録音された音声信号全体のうち一部(所定時間分)の音声信号を一時的に保存しながら逐次的に音声情報を算出して、音声信号の入力に応じて即座に速度変換した再生を行うことを想定した装置である。そのため、本実施形態に係る音声再生装置2は、上述した第1の実施形態に係る音声再生装置1に対して、入力バッファ21を新たに有し、音声情報逐次更新部2において音声情報を逐次更新する点で大きく異なる。以下、異なる点を中心に説明する。また、音声/非音声判別部11、速度比算出部14、および音声速度変換部15は、上述した第1の実施形態と同様であるので、同一の符号を付して、詳細な説明を省略する。
【0070】
記録メディアなどに録音された音声信号が入力バッファ21に入力される。入力バッファ21は、入力された音声信号を適宜バッファする。つまり、入力バッファ21では、音声情報逐次更新部22で音声情報を逐次更新するために必要な所定時間分の音声信号のデータが一時的に記録される。一時的に保存された所定時間分の音声信号は、音声/非音声判別部11および音声速度変換部15にそれぞれ出力される。音声/非音声判別部11は、入力された所定時間分の音声信号に対して音声区間および非音声区間を判別する。音声/非音声判別部11において判別された音声/非音声区間の情報は、音声情報逐次更新部22および速度比算出部14にそれぞれ出力される。
【0071】
音声情報逐次更新部22は、音声/非音声区間の判別情報に基づいて音声情報を逐次更新する。なお、第1の実施形態では数式(3)および数式(4)において、音声含有率Ris_n(k)を音声信号全体について一旦算出した後に、統計値である音声含有率の平均値Anおよび標準偏差Snを算出していた。これに対し、本実施形態では、音声信号の入力に応じて即座に速度変換した再生を行うために、統計値である上記音声含有率の平均値Anおよび標準偏差Snの初期値を予め記録部(図示しない)などにそれぞれ記録設定して、当該統計値を記録部などに逐次記録しながら更新していく。以下、音声情報である音声含有率の平均値および標準偏差の更新方法について説明する。
【0072】
音声含有率の平均値Anは、更新に際して初期値が設定される。そして、音声含有率の平均値Anは、音声信号が入力される毎に初期値を元に逐次更新される。上記初期値は、例えば再生する番組のジャンルなどによって異なり、当該ジャンルに合わせて適宜設定される。例えば、頻繁にアナウンサが話す機会の多いテレビのニュース番組などの場合は、音声含有率の平均値が85%程度となる。また、話者の話す機会が少ない様々な映像シーンを多用するドキュメンタリ番組などの場合は、音声含有率の平均値が50%程度になる。
【0073】
ここで、入力バッファに記録される音声信号の所定時間分を例えば上述した算出用フレーム長(n分)とする。そして、入力バッファは、算出用フレーム長(n分)分の音声信号を確保しながら、例えば1フレーム分の音声信号を順次記録更新していくとする。また、音声情報逐次更新部22は、例えば音声/非音声判別部11で1フレーム分の音声/非音声区間が判別される毎に、音声情報の平均値Anの逐次更新を行うとする。この場合、音声含有率の平均値Anはフレーム毎に更新され、kフレーム目の逐次更新される音声含有率の平均値の更新値(以下、音声含有率の更新平均値とする)をAn(k)とする。このとき、音声含有率の更新平均値An(k)は、数式(8)で表現される。
【数8】

なお、数式(8)において、α1およびβ1は音声含有率の更新平均値An(k)の更新速度を規定するパラメータである。すなわち、α1の値が大きいほどkフレームの1つ前のフレームの更新平均値An(k−1)の占める割合が高くなり、更新平均値An(k)の更新速度が緩やかになる。また、β1の値が大きいほどkフレームの音声含有率Ris_n(k)の占める割合が高くなり、更新平均値An(k)の更新速度が速くなる。数値例としては、例えばα1=0.98、β1=0.02としてもよい。
【0074】
また、標準偏差Snも上記音声含有率の平均値と同様に、更新に際して初期値が設定される。そして、標準偏差Snは、フレーム毎に初期値を元に逐次更新される。上記初期値は、音声含有率の平均値Anと同様に、例えば再生する番組のジャンルなどによって異なり、当該ジャンルに合わせて適宜設定される。具体的には標準偏差Snは、上記初期値と、更新平均値An(k)と、kフレームの音声含有率Ris_n(k)とを用いて更新される。ここで、kフレーム目の標準偏差の更新値をSn(k)とすると、標準偏差の更新値Sn(k)は、数式(9)で表現される。
【数9】

なお、数式(9)において、α2およびβ2は標準偏差の更新値Sn(k)の更新速度を規定するパラメータである。数値例としては、例えばα2=0.98、β2=0.02としてもよい。
【0075】
次に、速度比算出部14は、音声含有率Ris_n(k)と、フレーム毎に更新された音声含有率の更新平均値An(k)および標準偏差の更新値Sn(k)とに基づいて、上述した第1の実施形態と同様に、数式(3)〜数式(5)に基づいて音声区間の速度比SRs(k)を算出する。また、速度比算出部14は、算出した音声区間の速度比SRs(k)と目標再生時間比Rtとに基づいて非音声区間の速度比SRnsを算出する。そして、速度比算出部14は、音声/非音声判別部11から入力される音声/非音声区間の判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。音声速度変換部15は、速度比算出部14において算出された音声区間および非音声区間の速度比の情報に基づいて、入力バッファ21から入力される音声信号に対してフレーム毎に逐次速度変換処理を行う。
【0076】
以上のように、本実施形態に係る音声再生装置2は、統計値である音声含有率の平均値および標準偏差を逐次更新する。これにより、本実施形態に係る音声再生装置2は、音声情報を番組全体に対して事前に算出することなく、音声信号の入力に応じて即時に速度変換処理を行うことができる。
【0077】
なお、上述した第2の実施形態で説明した音声再生装置2は、音声/非音声判別部11、音声情報逐次更新部22、速度比算出部14、および音声速度変換部15は、例えば音声信号を入力とし、音声速度変換部15で速度変換された音声信号を出力とする一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した動作をコンピュータに実行させるプログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納されたプログラムをコンピュータが読み出して実行することによって、本発明の実現が可能となる。また、上記情報処理装置に接続されるキーボードなどの入力部において、ユーザが所望する再生時間や上述した初期値を入力する。また、入力バッファ21は、例えば情報処理装置内のハードディスク内で構成される。また、上記プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、プログラムを他の媒体や通信回線を通じて上記情報処理装置に供給してもかまわない。また、入力バッファ21を例えば情報処理装置内のハードディスク内で構成されるとしたが、情報処理装置内のメモリや情報処理装置外の他の記録媒体で構成されてもよい。
【0078】
(第3の実施形態)
図9を参照して、本発明における第3の実施形態に係る音声録音再生装置について説明する。図9は、本発明における第3の実施形態に係る音声録音再生装置3の構成を示すブロック図である。図9において、音声録音再生装置3は、音声/非音声判別部11、情報記録部31、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15を有する。
【0079】
なお、本実施形態に係る音声録音再生装置3は、情報記録部31に音声を記録して再生する音声録音再生装置であって、入力される音声信号を情報記録部31に記録すると同時に、音声/非音声判別部11で判別された音声区間や非音声区間の情報も情報記録部31に記録することを特徴とする装置である。以下、この特徴を中心に説明する。また、音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15は、上述した第1の実施形態と同様であるので、同一の符号を付して、詳細な説明を省略する。
【0080】
録音対象となる音声信号が音声/非音声判別部11および情報記録部31にそれぞれ入力される。音声/非音声判別部11は、入力された音声信号に対して音声区間および非音声区間を判別する。音声/非音声判別部11において判別された音声/非音声区間の判別情報は、情報記録部31に出力される。情報記録部31において、入力された録音対象である音声信号と音声/非音声区間の判別情報とがそれぞれ記録される。
【0081】
音声情報算出部12は、情報記録部31に記録された音声信号全体についての音声/非音声区間の情報を読み出して、音声情報を算出する。具体的には、音声情報算出部12は、記録された音声信号全体を通して音声含有率を算出した後に、音声含有率の平均値および標準偏差を算出する。そして、音声情報算出部12で算出された音声含有率、音声含有率の平均値、および標準偏差は、音声情報記録部13にそれぞれ記録される。
【0082】
そして、再生される段階において、速度比算出部14は、音声情報記録部13に記録された音声情報を用いて、音声含有率の変動に応じた音声区間の速度比をフレーム毎に算出する。また、速度比算出部14は、音声区間の速度比と目標再生時間比Rtとに基づいて非音声区間の速度比を算出する。そして、記録された音声/非音声区間の判別情報に対して、フレーム毎の速度比を設定して音声速度変換部15へ出力する。音声速度変換部15は、速度比算出部14において算出された音声区間および非音声区間の速度比の情報に基づいて、情報記録部31に記録された音声信号に対して速度変換処理を行う。
【0083】
以上のように、本実施形態に係る音声録音再生装置3は、入力される音声信号を情報記録部31に記録するとともに、音声/非音声判別部11で判別された音声区間や非音声区間の情報も情報記録部31に記録している。これにより、本実施形態に係る音声録音再生装置3によれば、音声信号全体を記録した段階で音声信号全体についての音声区間や非音声区間の判別が終了しているため、再生前に行われる音声情報の算出時間を短縮することができる。
【0084】
なお、上述した情報記録部31において、音声/非音声判別部11で判別された音声区間や非音声区間の判定情報に加え、さらに音声情報算出部12で算出された音声情報が記録されてもよい。この場合、図10に示すように、音声情報記録部13は省略される。図10は、情報記録部31に音声区間や非音声区間の情報と音声情報とを記録する音声録音再生装置4の構成を示すブロック図である。図10において、音声録音再生装置4は、音声/非音声判別部11、情報記録部31、音声情報算出部12、速度比算出部14、および音声速度変換部15を有する。
【0085】
図10において、情報記録部31では、入力された録音対象である音声信号と、音声/非音声判別部11において判別された音声/非音声区間の情報と、音声情報算出部12で算出された音声情報とがそれぞれ記録される。つまり、音声録音再生装置4は、記録とともに音声/非音声区間の判別情報および音声情報が情報記録部31に記録される。これにより、音声録音再生装置4によれば、記録後において再生時間が入力されれば、即時に速度比を算出することができる。その結果、音声録音再生装置4は、速度変換した再生音声を短時間で出力することができる。
【0086】
なお、上述した第3の実施形態で説明した音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、および音声速度変換部15は、例えば音声信号を入力とし、音声速度変換部15で速度変換された音声信号を出力とする一般的なコンピュータシステム等の情報処理装置で実現可能である。この場合、上述した動作をコンピュータに実行させるプログラムを所定の情報記録媒体に格納し、当該情報記録媒体に格納されたプログラムをコンピュータが読み出して実行することによって、本発明の実現が可能となる。また、上記情報処理装置に接続されるキーボードなどの入力部において、ユーザが所望する再生時間が入力される。また、情報記録部31および音声情報記録部13は、例えば情報処理装置内のハードディスク内で構成される。また、上記プログラムを格納する情報記録媒体は、例えば、ROMまたはフラッシュメモリのような不揮発性半導体メモリやCD−ROM、DVD、あるいはそれらに類する光学式ディスク状記録媒体である。また、プログラムを他の媒体や通信回線を通じて上記情報処理装置に供給してもかまわない。また、情報記録部31および音声情報記録部13を例えば情報処理装置内のハードディスク内で構成されるとしたが、情報処理装置内のメモリや情報処理装置外の他の記録媒体で構成されてもよい。
【0087】
また、上述した第1〜第3の実施形態で説明した音声/非音声判別部11、音声情報算出部12、音声情報記録部13、速度比算出部14、音声情報逐次更新部22および音声速度変換部15は、例えば音声信号、再生時間情報、および上述した初期値などを入力とし、音声速度変換部15で速度変換された音声信号を出力とする集積回路でも実現可能である。この場合、第1の実施形態における音声情報記録部13、第2の実施形態における入力バッファ21、第3の実施形態における音声情報記録部13および情報記録部31は、例えば集積回路内のメモリで構成される。そして、上述した機能を果たす電気回路を1つの小型パッケージに集積して、音声信号の処理等を行う音声信号処理回路DSP(Digital Signal Processor)等を構成することによって、本発明の実現が可能となる。なお、第1の実施形態における音声情報記録部13、第2の実施形態における入力バッファ21、第3の実施形態における音声情報記録部13および情報記録部31は、上記集積回路とは別の他の記録媒体で構成されてもよい。
【産業上の利用可能性】
【0088】
本発明に係る音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、および集積回路は、音声含有率の変動に応じた最適な速度比制御を行って、より聴き取りやすい再生を実現するDVDプレーヤ、HDDプレーヤ、CDプレーヤ等にも有用である。
【図面の簡単な説明】
【0089】
【図1】本発明における第1の実施形態に係る音声再生装置1の構成を示すブロック図
【図2】算出用フレーム長が1分のときの音声含有率Ris_1(k)の算出例を示す図
【図3】算出用フレーム長が5分のときの音声含有率Ris_5(k)の算出例を示す図
【図4】算出用フレーム長が10分のときの音声含有率Ris_10(k)の算出例を示す図
【図5】各算出用フレーム長の音声含有率の平均値および標準偏差の算出結果を示す図
【図6】多重の音声情報を用いた速度比の算出結果の一例を示す図
【図7】本実施形態に係る音声再生装置1の処理の流れを示すフローチャート
【図8】本発明における第2の実施形態に係る音声再生装置2の構成を示すブロック図
【図9】本発明における第3の実施形態に係る音声録音再生装置3の構成を示すブロック図
【図10】情報記録部31に音声区間や非音声区間の情報と音声情報とを記録する音声録音再生装置4の構成を示すブロック図
【図11】従来の音声再生装置9の構成を示すブロック図
【符号の説明】
【0090】
1、2 音声再生装置
3、4 音声録音再生装置
11 音声/非音声判別部
12 音声情報算出部
13 音声情報記録部
14 速度比算出部
15 音声速度変換部
21 入力バッファ
22 音声情報逐次更新部
31 情報記録部

【特許請求の範囲】
【請求項1】
入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声再生装置であって、
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える、音声再生装置。
【請求項2】
前記速度比算出部は、ユーザの操作に応じて前記短縮された再生時間を設定し、前記算出した音声区間の速度比に基づいて、前記音声信号の再生時間が設定された再生時間となるように前記非音声区間の速度比を算出することを特徴とする、請求項1に記載の音声再生装置。
【請求項3】
前記速度比算出部は、前記設定された再生時間内において前記非音声区間の速度比を一定に算出することを特徴とする、請求項2に記載の音声再生装置。
【請求項4】
前記所定時間長は、1以上の単位時間長を含み、
前記速度比算出部は、前記所定時間長に対して算出された速度比を当該所定時間長に含まれる何れか1つの単位時間長における前記音声区間の速度比に設定することを特徴とする、請求項1に記載の音声再生装置。
【請求項5】
前記音声再生装置は、
前記入力される音声信号のうち、少なくとも前記所定時間長分の音声信号を含むように当該音声信号を順次更新しながら記録するバッファと、
前記バッファに記録された音声信号に対して速度変換処理を行って出力する速度変換部とを、さらに備え、
前記判別部は、前記バッファに記録された前記所定時間長の音声信号に対して前記音声区間と前記非音声区間とを判別し、
前記音声情報算出部は、さらに、前記音声情報として音声含有率に関する統計値を算出して、予め記憶されている統計値を単位時間毎に順次更新し、
前記速度比算出部は、前記単位時間ごとに更新される前記統計値および当該更新時の前記所定時間長に設定された音声含有率に応じて前記音声区間の速度比を算出し、
前記速度変換部は、前記バッファで順次更新される音声信号に対して、前記単位時間ごとに算出された前記音声区間の速度比を用いて順次速度変換処理を行うことを特徴とする、請求項1に記載の音声再生装置。
【請求項6】
前記音声情報算出部は、前記音声情報として音声含有率に関する統計値をさらに算出し、
前記速度比算出部は、前記統計値および前記音声含有率に応じて前記音声区間の速度比を算出することを特徴とする、請求項1に記載の音声再生装置。
【請求項7】
前記統計値は、前記所定時間長毎の音声含有率の平均値および標準偏差であることを特徴とする、請求項5または6に記載の音声再生装置。
【請求項8】
前記速度比算出部は、前記所定時間長における前記音声含有率の前記平均値に対する変動差および前記標準偏差に応じた係数を前記速度比の基準値に乗じて、前記音声区間の速度比を算出することを特徴とする、請求項7に記載の音声再生装置。
【請求項9】
前記音声情報算出部は、それぞれ時間長が異なる前記所定時間長を複数設定してそれぞれ前記音声含有率を算出し、
前記速度比算出部は、前記所定時間長それぞれより少なくとも短い単位時間長において、当該単位時間長に含まれる前記音声区間の速度比を、当該単位時間長を共通して含むそれぞれの前記所定時間長の音声含有率に対応する前記係数の総和を前記速度比の基準値に乗じて算出することを特徴とする、請求項8に記載の音声再生装置。
【請求項10】
入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声再生方法であって、
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを含む、音声再生方法。
【請求項11】
入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生するコンピュータで実行される音声再生プログラムを記録した当該コンピュータで読み取り可能な記録媒体であって、
前記コンピュータに、
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別ステップと、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体。
【請求項12】
入力される音声信号に設定された等倍の再生速度を速度変換して加速させる集積回路であって、
前記音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える、集積回路。
【請求項13】
入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声録音再生装置であって、
前記入力される音声信号を記録する情報記録部と、
前記情報記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間とを判別する判別部と、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出部と、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出部とを備える、音声録音再生装置。
【請求項14】
前記情報記録部には、前記音声信号が記録される際に前記判別部が判別した結果が記録され、
前記音声情報算出部は、前記情報記録部に記録された結果に基づいて、音声情報を算出することを特徴とする、請求項13に記載の音声録音再生装置。
【請求項15】
前記情報記録部には、前記音声信号が記録される際に、前記判別部が判別した結果および前記音声情報が記録され、
前記速度比算出部は、前記情報記録部に記録された音声情報を用いて、前記音声区間の速度比を算出することを特徴とする、請求項13に記載の音声録音再生装置。
【請求項16】
入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生する音声録音再生方法であって、
前記入力される音声信号を記録する情報記録ステップと、
前記情報記録ステップに記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを含む、音声録音再生方法。
【請求項17】
入力される音声信号に設定された等倍の再生速度を速度変換し再生時間を短縮して当該音声信号を再生するコンピュータで実行される音声録音再生プログラムを記録した記録媒体であって、
前記コンピュータに、
前記入力される音声信号を記録部に記録する情報記録ステップと、
前記記録部に記録される前の音声信号に対して音声を含む音声区間と音声を含まない非音声区間と判別する判別ステップと、
前記音声区間および前記非音声区間に関する音声情報として、所定時間長に対する当該音声区間が含まれる比率を示す音声含有率を少なくとも算出する音声情報算出ステップと、
前記等倍の再生速度から速度変換する比率が1以上の速度比を基準値として、前記所定時間長の音声含有率が相対的に高いときに当該所定時間長における前記音声区間の速度比を当該基準値より小さく設定し、前記所定時間長の音声含有率が相対的に低いときに当該所定時間長における前記音声区間の速度比を当該基準値より大きく設定する速度比算出ステップとを実行させるためのプログラムを記録した、コンピュータに読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2007−25039(P2007−25039A)
【公開日】平成19年2月1日(2007.2.1)
【国際特許分類】
【出願番号】特願2005−204211(P2005−204211)
【出願日】平成17年7月13日(2005.7.13)
【出願人】(000005821)松下電器産業株式会社 (73,050)
【Fターム(参考)】