説明

音声編集装置

【課題】収録音声の不具合箇所を検出し、不具合箇所を合成音声により修正することにより、再度音声を収録する必要のない音声編集装置を提供する。
【解決手段】音声編集装置100は、編集情報生成部200と音声合成部300と音声編集部400とから構成される。編集情報生成部200は、収録音声700の不具合箇所を検出し、不具合箇所の修正に用いる合成音声を生成するのに必要な音声合成情報500と、不具合箇所の位置情報を含む収録音声変更情報600とを生成する。音声合成部300は、音声合成情報500に基づいて合成音声を生成する。音声編集部400は、収録音声変更情報600に基づいて、収録音声700の不具合箇所を上記合成音声により修正する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声編集装置に関し、特に録音された音声を合成音声で編集する技術に関する。
【背景技術】
【0002】
この種の音声編集装置の一例が特許文献1に記載されている。特許文献1に記載の音声編集装置は、車載用ナビゲーション装置や公共施設における自動放送装置などの自動音声案内システムにおいて、録音音声のうち編集情報で指定された箇所を合成音声で置換することにより音声の編集を行う。具体的には、例えば、「この先、中野付近で、渋滞があります」というテキストに対応する録音音声データが記録されている場合において、「中野」の箇所を「品川」に編集することを指示する編集情報が入力されると、音声編集装置は、「品川」に対応する合成音声を生成し、録音音声データ「この先、」および「付近で、渋滞があります」と接続して、「この先、品川付近で、渋滞があります」という音声を出力する。
【0003】
他方、本発明に関連する技術として、以下のような技術がある。
【0004】
特許文献2には、音声データとテキストデータとが混在する情報源を入力とし、テキストデータについて、音声合成手段を用いて合成音声を生成し、この合成音声と音声データとを所定の順序に従って編成した音声コンテンツを生成する技術が記載されている。
【0005】
特許文献3には、音声を人手により或いは音声認識装置を用いてテキスト化した際の音声文字化誤りを検出する装置が記載されている。具体的には、或る音声についての書き起こし作業により「今日の号から天気は下り坂に・・・」のようなテキストが得られた場合、そのテキストから逆に合成音声を生成し、この合成音声と元の音声とを比較することにより、テキスト中の音声文字化誤り箇所「号」を検出する。
【0006】
特許文献4には、ユーザが発声中に言い誤った直後に言い直し発声を行った場合や、言い淀み後に本来入力したい発声を行った場合に、言い直しや本来入力したい発声のみを正しく受理できる音声認識システムが記載されている。例えば、ユーザが「大阪から、いや、新大阪から東京まで」と発声した場合、「いや」という特定語彙を検出し、「大阪から、いや」に対応する音声区間を棄却し、「新大阪から東京まで」に対応する音声区間だけを音声認識対象とする。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2009−157220号公報
【特許文献2】WO2008/001500号公報
【特許文献3】特開2001−134276号公報
【特許文献4】特開2007−057844号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
プロフェッショナルユース、コンシューマユースを問わず、話者が発声した音声を録音して利用するシーンは数多く存在する。例えば、プロフェッショナルユースではテレビやラジオの番組制作、講義や講演音声の収録、コンシューマユースでは留守番電話、ホームビデオでの撮影等が挙げられる。
【0009】
上述したようなシーンでは、録音された音声に発声誤りや言いよどみ、雑音の重畳等が含まれる場合がある。この場合、直後に言い直していたり、重畳している雑音がごく短時間であったりするのであれば、市販の音響編集アプリケーションや機材を用いて手動で修正したり、特許文献4に記載の技術を応用して自動的に修正することが可能である。しかし、言い誤ったまま発声を続けたり、雑音が大きかったりする場合には、音声を修正するためには再度音声を収録する必要が生じてしまい、非常に負担を強いるものとなっていた。
【0010】
録音された音声の一部を合成音声で置換する技術が特許文献1に記載されている。しかし、特許文献1は、録音された音声に発声誤りや言いよどみ、雑音の重畳等が含まれていることは想定していない。すなわち、録音音声中の言語的あるいは音響的に不具合な箇所を合成音声で置き換える考えは、特許文献1には記載されていない。また、特許文献2は、合成音声と音声データとを所定の順序に従って編成する技術であり、録音された音声の一部を合成音声で置換する技術ではない。また、特許文献3は、音声文字化誤り箇所を検出する技術であり、録音された音声中の発声誤りや言いよどみ、雑音の重畳等を検出する技術ではない。
【0011】
本発明の目的は、上述したような課題、すなわち録音された音声中の不具合箇所を修正するためには再度音声を収録する必要がある、という課題を解決する音声編集装置を提供することにある。
【課題を解決するための手段】
【0012】
本発明の一形態にかかる音声編集装置は、収録音声の不具合箇所を検出し、上記不具合箇所の修正に用いる合成音声を生成するのに必要な音声合成情報と、上記不具合箇所の位置情報を含む収録音声変更情報とを生成する編集情報生成手段と、上記音声合成情報に基づいて合成音声を生成する音声合成手段と、上記収録音声変更情報に基づいて、上記収録音声の不具合箇所を上記合成音声により修正する音声編集手段とを備える。
【発明の効果】
【0013】
本発明は上述したように構成されているため、録音された音声中の不具合箇所を修正するために再度音声を収録する必要がなく、収録音声の修正に要する利用者の負担を軽減することができる。
【図面の簡単な説明】
【0014】
【図1】本発明の第1の実施形態のブロック図である。
【図2】本発明の第1の実施形態の動作の流れを示すフローチャートである。
【図3】本発明の第2の実施形態のブロック図である。
【図4】本発明の第2の実施形態における言語的不具合検出部のブロック図である。
【図5】本発明の第2の実施形態における収録音声の例とその正しい内容を示す図である。
【図6】本発明の第2の実施形態における音声合成情報の具体的な生成方法の説明図である。
【図7】本発明の第2の実施形態における音声編集部の具体的な編集方法の説明図である。
【図8】本発明の第3の実施形態のブロック図である。
【図9】本発明の第3の実施形態における言語的不具合検出部の検出結果の一例を示す図である。
【図10】本発明の第3の実施形態におけるユーザインターフェース画面の一例を示す図である。
【発明を実施するための形態】
【0015】
次に本発明の実施の形態について図面を参照して詳細に説明する。
【0016】
[第1の実施形態]
図1を参照すると、本発明の第1の実施形態に係る音声編集装置100は、収録音声700を入力して編集を行い、編集済み音声800を出力する機能を有する。この音声編集装置100は、編集情報生成部200と、音声合成部300と、音声編集部400とから構成される。
【0017】
編集情報生成部200は、収録音声700を解析して収録音声700に存在する不具合な箇所を検出する機能を有する。具体的には、編集情報生成部200は、収録音声700中の音響的に不具合な箇所または言語的に不具合な箇所を検出する。編集情報生成部200は、音響的に不具合な箇所を検出する場合、収録音声700を分析して得られる音声特徴量に基づいて、例えばテンポ、基本周波数、パワー、S/N比等の所定の音響的パラメータが所定の閾値を超えるほど急変している箇所を、音響的に不具合な箇所として検出する。また、編集情報生成部200は、言語的に不具合な箇所を検出する場合、収録音声700を例えば音声認識装置によってテキスト化し、そのテキスト中から、読み間違いや言い誤りなど文法的に正しくない箇所や意味的に正しくない箇所を不具合な箇所として検出する。また、編集情報生成部200は、例えばフィラーや言い淀みなど、文法的および意味的に好ましくない箇所を不具合な箇所として検出する。
【0018】
さらに編集情報生成部200は、検出した不具合な箇所を修正するための音声を合成するために必要な音声合成情報と、不具合な箇所の位置情報を含む収録音声変更情報とを生成する機能を有する。編集情報生成部200は、生成した音声合成情報および収録音声変更情報を音声合成情報500および収録音声変更情報600として出力する。あるいは編集情報生成部200は、生成した音声合成情報および収録音声変更情報を図示しない表示装置に表示し、図示しない入力装置を通じて入力される利用者指示に従って音声合成情報および収録音声変更情報の変更を行い、この変更後の音声合成情報および収録音声変更情報を音声合成情報500および収録音声変更情報600として出力する。
【0019】
音声合成部300は、音声合成情報500に従って、収録音声700の話者と同一または近似した音声を合成する機能を有する。音声合成部300は、合成した音声を音声編集部400へ出力する。
【0020】
音声編集部400は、収録音声変更情報600に基づいて、収録音声700の不具合な箇所を合成音声により修正する機能を有する。
【0021】
次に本実施形態の動作を説明する。図2は本実施形態の動作の流れを示すフローチャートである。
【0022】
音声編集装置100の編集情報生成部200は、収録音声700が入力されると(S101)、収録音声700中の音響的あるいは言語的に不具合な箇所を検出する(S102)。次に編集情報生成部200は、上記検出した不具合な箇所の修正に使用する音声を合成するための音声合成情報500と、その不具合な箇所の位置情報を含む収録音声変更情報600とを生成する(S103)。そして、編集情報生成部200は、音声合成情報500を音声合成部300へ出力し、収録音声変更情報600を音声編集部400へ出力する。
【0023】
音声合成部300は、音声合成情報500に従って、音声を合成し、合成した音声を音声編集部400へ出力する(S104)。
【0024】
音声編集部400は、収録音声700のうち、収録音声変更情報600で示される箇所を切り取ったり、音声合成部300により生成された合成音声で置換することにより、編集済み音声800を生成し、出力する(S105)。
【0025】
このように本実施形態によれば、録音された音声中の不具合な箇所を修正するために再度音声を収録する必要がなく、収録音声の修正に要する利用者の負担を軽減することができる。
【0026】
[第2の実施形態]
図3を参照すると、本発明の第2の実施形態に係る音声編集装置101は、収録音声701を入力して編集を行い、編集済み音声801を出力する機能を有する。この音声編集装置101は、編集情報生成部201と、音声合成部301と、音声編集部401とから構成される。
【0027】
編集情報生成部201は、収録音声701を解析して収録音声701から音響的な不具合箇所および言語的な不具合箇所を検出する機能と、検出した不具合箇所を修正するための音声を合成するために必要な音声合成情報501と、不具合箇所の位置情報を含む収録音声変更情報601とを生成する機能とを有する。この編集情報生成部201は、音声認識部210と、音声分析部220と、変更箇所決定部230と、合成情報生成部240と、収録音声変更情報生成部250とから構成される。
【0028】
音声認識部210は、収録音声701を入力し、入力した収録音声に対して音声認識処理を行ってテキストに変換し、このテキストを変更箇所決定部230へ出力する。
【0029】
音声分析部220は、収録音声701を入力し、入力した収録音声に対して音声分析処理を行って音響的な特徴量を抽出し、この音響的な特徴量を変更箇所決定部230および合成情報生成部240へ出力する。収録音声701から抽出する音響的な特徴量としては、テンポ(全体平均、局所的な値)、基本周波数(全体平均、局所的な値、ピッチパターン等)、パワー(全体平均、局所的な値)、スペクトル情報(全体平均、局所的な値)、S/N比(全体平均、局所的な値)などが考えられる。また音響的な特徴量の抽出方法としては、ケプストラム分析、LPC分析、LSP分析等が考えられる。音声分析部220から変更箇所決定部230へ出力する音響的な特徴量の種類と、音声分析部220から合成情報生成部240へ出力する音響的な特徴量の種類とは、同一であってもよいし、異なっていてもよい。
【0030】
変更箇所決定部230は、収録音声701中の音響的な不具合箇所を検出する音響的不具合検出部231と、収録音声701中の言語的な不具合箇所を検出する言語的不具合検出部232と、統合部233とから構成される。
【0031】
音響的不具合検出部231は、収録音声701から抽出された音響的な特徴量に基づいて、収録音声701中の音響的な不具合箇所を検出する機能を有する。音響的な不具合箇所とは、例えば、テンポ、基本周波数、パワー、S/N比等の急激な変化が生じており、音声を聞く際に聞き取り難い等の問題が発生すると考えられる箇所のことである。音響的不具合検出部231は、例えば、テンポ、基本周波数、パワー、S/N比等の音響的な特徴量の少なくとも1つが、例えば全体平均に比べて閾値だけ相違している箇所を音響的な不具合箇所として検出する。音響的不具合検出部231は、1以上の音響的な不具合箇所を検出した場合、それぞれの不具合箇所ごとに、その不具合箇所を特定する情報を統合部233へ出力する。不具合箇所を特定する情報としては、例えば、収録音声701をテキスト化したテキスト上における位置や、収録音声701上における位置が考えられる。
【0032】
言語的不具合検出部232は、収録音声701をテキスト化したテキストに基づいて、収録音声701中の言語的な不具合箇所を検出すると共に正しいテキストを推定する機能を有する。言語的な不具合箇所とは、読み間違いや言い誤りなど文法的あるいは意味的に正しくない箇所や、フィラーや言い淀みなど文法的および意味的に好ましくない箇所のことである。言語的不具合検出部232は、このような言語的な不具合箇所を収録音声701をテキスト化したテキストから検出し、また正しいテキストを推定する。
【0033】
言語的不具合検出部232の構成の一例を図4に示す。図4を参照すると、言語的不具合検出部232は、音声認識部210により生成された収録音声701のテキストを変更前テキスト2323として入力し、変更後テキスト2324を出力するテキスト変更部2321と、変更前テキスト2323と変更後テキスト2324の差分(相違点)を抽出する差分抽出部2322とから構成される。
【0034】
テキスト変更部2321は、変更前テキスト2323から、読み間違い、言い誤りなどの文法的に誤っている箇所や、フィラーや言い淀みなどの文法的に好ましくない箇所を検出し、これらの箇所を文法的に正しい内容、文法的に好ましい内容に変更したテキストを、変更後テキスト2324として出力する。テキスト変更部2321は、例えばフィラーについては、変更前テキスト2323とフィラー候補を収集した辞書とのマッチングにより抽出し、該当部分のフィラーを削除する。また、テキスト変更部2321は、言い淀み、読み間違い、言い誤りについては、音韻列の類似度や単語の前後環境により正解を推定する方法を用いて、誤り箇所と正解とを推定する。そして、テキスト変更部2321は、言い淀み箇所は削除し、読み間違いや言い誤り箇所は正解で置き換える。
【0035】
差分抽出部2322は、変更前テキスト2323と変更後テキスト2324との差分を抽出する。差分抽出部2322は、1以上の差分を検出した場合、それぞれの差分ごとに、変更前テキスト2323上での位置と正解テキストとを統合部233へ出力する。
【0036】
再び図3を参照すると、統合部233は、音響的不具合検出部231の検出結果と言語的不具合検出部232の検出結果とに基づいて、変更箇所音韻情報261および変更箇所位置情報262を生成し、合成情報生成部240および収録音声変更情報生成部250へ出力する。
【0037】
統合部233は、例えば、収録音声701をテキスト化したテキスト中の例えば「A社」の部分に音響的不具合があることが音響的不具合検出部231で検出された場合、その音響的不具合に関して、「A社」の音韻情報を変更箇所音韻情報261として出力し、その不具合箇所の位置情報を変更箇所位置情報262として出力する。変更箇所の位置情報は、例えば、変更箇所の文頭からのモーラ数で表現される。あるいは、統合部233は、音響的な不具合箇所の前の幾つかの語から、後の幾つかの語までの所定範囲の箇所の音韻情報を示す変更箇所音韻情報261と、上記所定範囲を示す変更箇所位置情報262とを生成する。
【0038】
また統合部233は、例えば、収録音声701をテキスト化したテキスト中に例えばフィラーの「ええと」があることが言語的不具合検出部232で検出された場合、その言語的不具合に関して、「ええと」の箇所を示す変更箇所位置情報262を生成し、対応する変更箇所音韻情報261は生成しない。あるいは、統合部233は、その言語的不具合に関して、「ええと」の前の幾つかの語から「ええと」の後の幾つかの語までの所定範囲の箇所の音韻から「ええと」の音韻を取り除いた音韻情報を示す変更箇所音韻情報261と、
上記所定範囲を示す変更箇所位置情報262とを生成する。
【0039】
また統合部233は、例えば、収録音声701をテキスト化したテキスト中に読み間違いの「そうさつ」があり、正解テキストとして「そうさい」が推定されている場合、その言語的不具合に関して、例えば、「そうさい」の音韻情報を示す変更箇所音韻情報261と、「そうさつ」の箇所を示す変更箇所位置情報262とを生成する。あるいは、統合部233は、その言語的不具合に関して、例えば、「さうさつ」の前の幾つかの語から「そうさつ」の後の幾つかの語までの所定範囲の箇所の音韻中の「そうさつ」部分を「さうそい」の音韻に置き換えた音韻情報を示す変更箇所音韻情報261と、上記所定範囲を示す変更箇所位置情報262とを生成する。
【0040】
さらに統合部233は、音響的不具合箇所と言語的不具合箇所とが重複する箇所に関しては、音響的不具合箇所は無視し、言語的不具合箇所に関してのみ処理を行う。その理由は、言語的不具合を修正する際に音響的不具合は自然と解消するためである。例えば、収録音声701をテキスト化したテキスト中に読み間違いの「そうさつ」があり、正解テキストとして「そうさい」が推定されていると同時に「そうさつ」部分に音響的不具合があることが検出されている場合、例えば、「そうさい」の音韻情報を示す変更箇所音韻情報261と、「そうさつ」の箇所を示す変更箇所位置情報262とを生成する。
【0041】
なお、統合部233は、例えば、文の中央部では広範囲を変更してもよいが、文末では可能な限り変更範囲を狭くするといったように、変更箇所の文中での位置等から編集方法や編集範囲を変更するようにしてもよい。
【0042】
合成情報生成部240は、変更箇所音韻情報261に従って、音声合成処理のための音声合成情報501を生成し、音声合成部301に出力する。ここで、音声合成情報とは、音声合成部301における音声合成処理の際に必要となる、生成する合成音声の音韻情報、および合成音声のテンポ、基本周波数、スペクトル情報、継続時間長情報等の特徴量情報である。生成する合成音声の音韻情報には、変更箇所音韻情報261によって与えられる音韻情報が使用される。音韻情報は、発音記号列として音声合成情報501に含めてもよいし、漢字仮名混じり文として音声合成情報501に含めてもよい。また、合成音声のテンポや基本周波数などの特徴量情報は、音声分析部220から与えられる音響的な特徴量に基づいて生成される。即ち、テンポや基本周波数などの特徴量を収録音声701と同一或いは近いものにすることにより、収録音声と合成音声とが滑らかに(聴覚上違和感なく)結合されるようにする。
【0043】
収録音声変更情報生成部250は、変更箇所位置情報262に従って、収録音声変更情報601を生成する。収録音声変更情報601は、少なくとも変更箇所位置情報262を含み、さらに加えて、変更箇所の変更前音節情報、変更箇所の前後に係る音節情報等を含めてもよい。なお、収録音声変更情報601として、変更箇所位置情報262のみを利用する場合は、変更箇所位置情報262をそのまま収録音声変更情報601とすればよい。この場合、収録音声変更情報生成部250は省略することができる。
【0044】
音声合成部301は、音声合成情報501から、編集箇所の合成音声を生成する。音声合成部301は、音声合成情報501が漢字仮名交じり文であった場合は、形態素解析処理により読み情報やアクセント情報が付与された発音記号列を生成してから、音声合成用データベースを用いて音声を合成する。音声合成用データベースには、音声を合成する元になる音声波形、音声波形に対応する音節あるいは音素のデータ、各音節あるいは音素の韻律特徴パラメータなどが記録されている。音声合成処理に使用する音声合成用データベースは、収録音声と同一話者による音声合成用データベースが予め用意されていれば、それを用いる。収録音声と同一話者による音声合成用データベースが予め用意されていなければ、収録音声701のデータ量が充分に多い場合には収録音声701から音声合成用データベースを作成して用いてもよい。また、他の話者の音声合成用データベースを用いて合成音声を生成した後、声質を収録音声501の話者に近くなるように変換するようにしてもよい。
【0045】
音声編集部401は、収録音声701、音声合成部301によって生成された合成音声、および収録音声変更情報601を入力し、収録音声変更情報601で指示された通りに収録音声と合成音声を結合、編集し、編集済み音声801として出力する。
【0046】
次に本実施形態の動作を説明する。
【0047】
まず、収録音声701が、音声編集装置201の音声認識部210および音声分析部220に入力される。収録音声701は、マイクロフォンや電話機で収録された音声であり、パソコンやサーバー等に搭載された記録装置(ハードディスクドライブ、メモリ等)、ICレコーダー、CDやカセットテープ等の記録媒体に記録されている。
【0048】
一例として、図5に示すように、「A社はええと赤字は株式、ば売却益でそうさつ可能であると発表しまった」という発声の収録音声データ(以下、音声データAと記す)が、パソコンの記録装置に記録されているものとする。ここで、正しくは図5に示す通り、音声データAは本来「A社は、赤字は株式売却益で相殺可能であると発表しました」と発声されるべきものであったとする。つまり、音声データAには、「ええと」というフィラー、「株式、ば売却益」という言い淀み、「そうさつ」という読み間違い、「発表しまった」といういい誤りが含まれている。
【0049】
音声認識部210は、音声認識技術を利用して、入力された収録音声をテキストに変換し、変更箇所決定部230へ出力する。ここでは、入力された上記音声データAが、発声内容どおり「A社はええと赤字は株式、ば売却益でそうさつ可能であると発表しまった」というテキスト(以下、テキストAと記す)に変換されたものとする。
【0050】
音声分析部220は、入力された収録音声を分析し、音響的な特徴量を抽出し、変更箇所決定部230および合成情報生成部240へ出力する。ここでは、音声分析部200は、音声データAを分析して、全体の平均話速(Tm)、全体の平均基本周波数(Pm)、音節ごとの話速(Ton)、および音節ごとの基本周波数(Pon)、音節ごとのパワー、音節ごとのS/N比を抽出するものとする。また音声分析部200は、音節ごとの基本周波数(Pon)、音節ごとのパワー、音節ごとのS/N比を変更箇所決定部230へ出力し、全体の平均話速(Tm)、全体の平均基本周波数(Pm)、音節ごとの話速(Ton)、および音節ごとの基本周波数(Pon)を合成情報生成部240へ出力するものとする。
【0051】
音響的不具合検出部231は、上記テキストAと上記音響的な特徴量とから、音響的な不都合箇所を検出する。音響的不具合検出部231は、入力された音響的な特徴量から、急に声が大きくなる箇所(音声波形のパワーが上がり、かつS/N比が低い箇所)、急に声が裏返る箇所(基本周波数が高くなる箇所)、電話の音等の雑音が混入している箇所(S/N比が大きくなる箇所)等を検出する。ここでは、「A社」の部分が音響的な不具合箇所として検出されて、統合部233に検出結果が出力されたものとする。
【0052】
言語的不具合検出部232は、上記テキストAを変更前テキスト2323として入力する。また、言語的不具合検出部232のテキスト変更部2321は、変更前テキスト2323の誤り部分を推定して、正しい内容であるテキスト(テキストBと記す)を変更後テキスト2324として生成する。テキストBの内容は、図5に正しい内容として記載した「A社は、赤字は株式売却益で相殺可能であると発表しました」となる。次に、言語的不具合検出部232の差分抽出部2322は、テキストAとテキストBとの差分を抽出する。ここでは、テキストAの「ええと」、「、ば」、「そうさつ」、「しまった」に該当する箇所が差分として抽出される。そして、差分抽出部2322は、個々の差分ごとの検出結果を統合部233に出力する。検出結果は、不具合箇所の情報と、正解テキストがある場合には正解テキストとが含まれる。
【0053】
統合部233は、音響的な不具合箇所の「A社」に関しては、例えば、「A社」の音韻情報を含む変更箇所音韻情報261と、「A社」の位置を示す変更箇所位置情報262とを対にして生成する。また、統合部233は、言語的な不具合箇所の「ええと」に関しては、例えば、「ええと」の箇所を示す変更箇所位置情報262を生成し、正解テキストが付随していないため対応する変更箇所音韻情報261は生成しない。また、統合部233は、言語的な不具合箇所の「、ば」に関して、例えば、「、ば」の箇所を示す変更箇所位置情報262を生成し、正解テキストが付随していないため対応する変更箇所音韻情報261は生成しない。また、統合部233は、言語的な不具合箇所の「そうさつ」に関しては、例えば、「さうさい」の音韻情報を示す変更箇所音韻情報261と「そうさつ」の箇所を示す変更箇所位置情報262の対を生成する。また、統合部233は、言語的な不具合箇所の「しまった」に関しては、例えば、「ました」の音韻情報を示す変更箇所音韻情報261と、「まった」の箇所を示す変更箇所位置情報262との対を生成する。
【0054】
合成情報生成部240は、変更箇所音韻情報261および収録音声701の音声特徴量情報から、音声合成処理のための音声合成情報(以下、合成データSDと記す)を生成し、音声合成情報501として音声合成部301に出力する。今の例では、合成情報生成部240は、「ええと」、「、ば」に関しては、対応する変更箇所音韻情報261が無いため、これらに関する音声合成情報は生成しない。他方、「A社」、「そうさつ」、「まった」に関しては、対応する変更箇所音韻情報261として、「A社」、「そうさい」、「ました」が存在するため、音声合成情報を生成する。
【0055】
「まった」の部分を例に、音声合成情報の具体的な生成方法を説明する。前提として、図6(a)に示す通り、音声データAの特徴量として、平均話速Tm、平均基本周波数Pm、音節ごとの話速Ton(1)〜Ton(8)、音節ごとの基本周波数Pon(1)〜Pon(9)が抽出されているものとする。図6(a)における曲線は、基本周波数パターンを示している。この場合、音声合成情報は、図6(b)に示す通り、音節列情報として「ました」、音節ごとの話速はTon(6)〜Ton(8)、音節ごとの基本周波数はPon(1)〜Pon(6)となる。
【0056】
上記の例では、音声合成情報として、変更対象となる「ました」の部分だけの情報を持っているが、変更対象の付近、例えば「発表しました」の部分に関する情報を持っておくことも考えられる。また、文全体の情報を持つようにしても構わない。
【0057】
また、上記の例では、音声合成情報として、収録音声の特徴量Tm、Pm、Ton、Ponを変更せずに使用したが、音節の変更に対応する規則等を用いて変更あるいは推定した特徴量T’m、P’m、T’on、P’onを使用してもよい。特に、変更対象となる音節数が多い場合等は、特徴量は変更あるいは推定されることが望ましい。
【0058】
収録音声変更情報生成部250は、入力された変更箇所位置情報262から収録音声変更情報601を生成する。前述したように、収録音声変更情報601は、少なくとも変更箇所位置情報を含み、加えて、変更箇所の変更前音節情報、変更箇所の前後に係る音節情報等を含めることが考えられる。
【0059】
音声合成部301は、入力された音声合成情報から、編集箇所の合成音声を生成する。ここでは、収録音声701と同一話者による音声合成用データベースを用いて、音声合成処理を行うものとする。この結果、例えば、「(発表)しまった」に該当する箇所については、それに対応する合成データSDに基づいて、収録音声701の話者と同一あるいは近似した音声の「ました」という内容の合成音声(以下、合成音声SVと記す)が生成される。
【0060】
音声編集部401には、収録音声701、合成音声、収録音声変更情報601が入力され、収録音声変更情報601で示された情報通りに収録音声701と合成音声が結合、編集され、編集済み音声801が生成される。音声編集部401は、収録音声変更情報601に対応する合成音声が存在しない場合、収録音声701中の当該収録音声変更情報601で示される変更位置の音声を切り取る処理を行う。この結果、収録音声701中の「ええと」というフィラーや、「、ば」という言い淀み部分は取り除かれる。
【0061】
また、音声編集部401は、収録音声変更情報601に対応する合成音声が存在する場合、収録音声701中の当該収録音声変更情報601で示される変更位置の音声が合成音声に置き換えられる。「(発表)しまった」の部分に係る具体的な編集方法を図7に示す。音声合成部301で生成された合成音声SVが、それと対となる変更箇所位置情報262に従って、音声データAの「発表しまった」の「まった」の部分と置換される形で、音声データAの「発表し」と音声合成SVの「ました」が結合される。「そうさつ」の部分についても同様に、合成音声「そうさい」で編集される。
【0062】
音声データと合成音声を結合する際には、波形の不連続による異音等の発生を抑制するために、波形のスムージング処理を行うことが望ましい。スムージング処理としては、結合箇所で波形の振幅を合わせる、波形を線形補完する、合成音声と収録音声の波形を重畳してから振幅を調整する等の方法が考えれれる。また、修正部分について、音韻情報が異なる場合は、当然基本周波数パターンも異なるが、スプライン関数等を使うことで基本周波数パターンを推定することができる。さらに、「ええと」や「、ば」に相当する音声データを切り取る際にも、切り取った後の波形のスムージング処理を行うことが望ましい。
【0063】
以上の例では、音声合成の単位として音節(CV単位)を用いているが、音素単位、半音素単位、CVC単位、VCV単位等を用いても構わない。
【0064】
以上の例では、音声合成処理を音声編集処理の前段で行っているが、音声合成処理を音声編集処理と平行して行うことも可能である。
【0065】
以上の例では、収録音声と合成音声を結合しているが、収録音声変更情報生成部250で、全文に渡って変更すると決定された場合は、全文が変更後テキストの内容を持つ合成音声が編集済み音声として出力される。
【0066】
以上の例では、収録音声701を自動的にテキスト化するために音声認識部210を構成に加えているが、音声を聴取しての書き起こし等、収録音声701に対して手動でテキスト化を行ってもよい。
【0067】
以上の例では、収録音声701の言語的不具合箇所を検出するための基準テキスト(変更後テキスト)を自動的に生成するためにテキスト変更部2321を構成に加えているが、原稿や台本等、予め用意された正解テキストを基準テキスト(変更後テキスト)として用いてもよい。
【0068】
このように本実施形態によれば、収録音声中の不具合な箇所を修正するために再度音声を収録する必要がなく、また、収録音声中の不具合箇所の検出、合成音声の生成、編集がすべて自動化されているため、収録音声の修正に要する利用者の負担を大幅に軽減することができる。
【0069】
[第3の実施形態]
図8を参照すると、本発明の第3の実施形態に係る音声編集装置102は、図3に示した第2の実施形態に係る音声編集装置101と比較して、さらに出力部901と入力部902とを備えている点、変更箇所決定部230の代わりに変更箇所決定部230Aを備えている点で相違する。
【0070】
出力部901は、液晶ディスプレイ等で構成され、音声編集装置102から利用者に対してユーザインターフェース画面を提示する機能を有する。入力部902は、キーボードやマウス等で構成され、利用者から音声編集装置102に対して編集情報や指示を入力する機能を有する。
【0071】
変更箇所決定部230Aは、収録音声701中の音響的な不具合箇所を検出する音響的不具合検出部231Aと、収録音声701中の言語的な不具合箇所を検出する言語的不具合検出部232Aと、対話処理部234とから構成される。
【0072】
音響的不具合検出部231Aは、音響的不具合検出部231と同様に、音声分析部220から与えられる収録音声701の音響的な特徴量に基づいて、収録音声701中の音響的な不具合箇所を検出する機能を有する。音響的不具合検出部231Aは、1以上の音響的な不具合箇所を検出した場合、それぞれの不具合箇所ごとに、その不具合箇所の位置情報を対話処理部234へ出力する。
【0073】
言語的不具合検出部232Aは、音声認識部210から与えられる収録音声701をテキスト化したテキストに基づいて、収録音声701中の言語的な不具合箇所の検出とその正解テキストの推定を行う機能を有する。例えば、言語的不具合検出部232Aは、変更前テキスト2323から、読み間違い、言い誤りなどの文法的に誤っている箇所や、フィラーや言い淀みなどの文法的に好ましくない箇所を検出し、これらの箇所を変更箇所候補として出力する。同時に、変更箇所候補に対応して、文法的に正しい内容、文法的に好ましい内容に変更するための変更テキスト候補を推定し、出力する。言語的不具合検出部232Aは、例えばフィラーについては、変更前テキスト2323とフィラー候補を収集した辞書とのマッチングにより抽出し、フィラーの箇所とそのフィラーを削除することなどを示す変更候補とを生成する。また、言語的不具合検出部232Aは、言い淀み、読み間違い、言い誤りについては、音韻列の類似度や単語の前後環境により正解を推定する方法を用いて、誤り箇所と正解とを推定する。
【0074】
第2の実施形態で例に挙げたテキストAの場合、言語的不具合検出部232Aは、例えば図9に示すような検出結果を対話処理部234へ出力する。図9の例では、例えば変更箇所候補「そうさつ」に対して、「相殺」、「総裁」、「惣菜」、「(変更しない)」の4つの変更テキスト候補が推定されている。
【0075】
対話処理部234は、音声認識部210から与えられる収録音声701のテキスト、音声分析部220から与えられる音声特徴量、音響的不具合検出部231Aの検出結果、および言語的不具合検出部232Aの検出結果から、ユーザインターフェース画面を生成して出力部901を通じて利用者に提示する機能と、入力部902を通じて利用者から入力される指示に応じて、不具合箇所の変更、修正に用いる合成音声の変更などを行う機能とを備えている。そして、対話処理部234は、利用者との対話処理により最終的に決定した変更箇所音韻情報261および変更箇所位置情報262を合成情報生成部240および収録音声変更情報生成部250へ出力する。
【0076】
対話処理部234が生成するユーザインターフェース画面の例を図10に示す。図10に示すユーザインターフェース画面は、変更前テキスト、編集情報候補、変換前テキストの読み、アクセント句境界位置、アクセント位置、合成音声が使用される箇所、平均話速、平均基本周波数を利用者に提示し、これらの情報について利用者が変更できるインターフェースとなっている。さらに、本ユーザインターフェース画面は、形態素解析等の技術を使用してテキストを読みに変換する「読みつけ」ボタンを備えており、テキストの変更を読みに反映することができるようになっている。なお、「収録/合成」の項目では、白い帯の部分が収録音声を、黒い帯の部分が合成音声を使用することを表しており、白黒の帯の境界を移動させることで、合成音声で置換する範囲を変更することが可能となっている。図10では、「そうさつ」を「相殺」に、「(発表し)まった」を「(発表)ました」に変更した例を示している。
【0077】
図10の例では、「読みつけ」ボタンでテキストを読みに変換するようにしているが、テキストが変換された際に、自動的に読みを更新するようにしても構わない。さらに、より詳細に音声を編集するために、母音の無声化、各音節の話速、複数の制御点を持つ基本周波数パターン、音声のパワー等を編集可能とすることも考えられる。この場合は、夫々の情報をグラフィカルユーザインターフェース(GUI)で可視化することが望ましい。
【産業上の利用可能性】
【0078】
本発明は、例えば、テレビ番組やラジオ番組の制作システム、ホームビデオの編集システム、留守番電話システム等、音声を編集する装置やシステム全般に適用することができる。
【符号の説明】
【0079】
100 音声編集装置
101 音声編集装置
102 音声編集装置
200 編集情報生成部
201 音声編集装置
201 編集情報生成部
210 音声認識部
220 音声分析部
230 変更箇所決定部
230A 変更箇所決定部
231 音響的不具合検出部
231A 音響的不具合検出部
232 言語的不具合検出部
232A 言語的不具合検出部
233 統合部
234 対話処理部
240 合成情報生成部
250 収録音声変更情報生成部
261 変更箇所音韻情報
262 変更箇所位置情報
300 音声合成部
301 音声合成部
400 音声編集部
401 音声編集部
500 音声合成情報
501 音声合成情報
600 収録音声変更情報
601 収録音声変更情報
700 収録音声
701 収録音声
800 音声
801 音声
901 出力部
902 入力部
2321 テキスト変更部
2322 差分抽出部
2323 変更前テキスト
2324 変更後テキスト

【特許請求の範囲】
【請求項1】
収録音声の不具合箇所を検出し、前記不具合箇所の修正に用いる合成音声を生成するのに必要な音声合成情報と、前記不具合箇所の位置情報を含む収録音声変更情報とを生成する編集情報生成手段と、
前記音声合成情報に基づいて合成音声を生成する音声合成手段と、
前記収録音声変更情報に基づいて、前記収録音声の不具合箇所を前記合成音声により修正する音声編集手段とを備えることを特徴とする音声編集装置。
【請求項2】
前記編集情報生成手段は、前記収録音声を分析して得られる音声特徴量から音響的な不具合箇所を検出し、前記音響的な不具合箇所の修正に用いる合成音声として前記検出した不具合箇所と同じ音韻を持つ合成音声を生成するのに必要な音声合成情報を生成することを特徴とする請求項1に記載の音声編集装置。
【請求項3】
前記編集情報生成手段は、前記収録音声をテキスト化したテキストに基づいて言語的な不具合箇所を検出すると共に正しいテキストを推定し、前記言語的な不具合箇所の修正に用いる合成音声として前記推定した正しいテキストと同じ音韻を持つ合成音声を生成するのに必要な音声合成情報を生成することを特徴とする請求項1または2に記載の音声編集装置。
【請求項4】
前記編集情報生成手段は、前記収録音声をテキスト化したテキストと基準テキストとを比較して、言語的な不具合箇所を検出すると共に正しいテキストを推定し、前記言語的な不具合箇所の修正に用いる合成音声として前記推定した正しいテキストと同じ音韻を持つ合成音声を生成するのに必要な音声合成情報を生成することを特徴とする請求項1乃至3の何れかに記載の音声編集装置。
【請求項5】
前記編集情報生成手段は、前記収録音声をテキスト化したテキストと関連付けて、前記検出した不具合箇所と該不具合箇所の修正に用いる合成音声を生成するのに必要な音声合成情報とをディスプレイに表示し、前記音声合成情報と前記不具合箇所の位置情報とを、入力装置から入力される利用者からの指示に従って変更することを特徴とする請求項1乃至4の何れかに記載の音声編集装置。
【請求項6】
前記音声合成手段は、前記収録音声と同じ話者の音声合成用データベースを用いて前記合成音声を生成することを特徴とする請求項1乃至5の何れかに記載の音声編集装置。
【請求項7】
前記音声編集手段は、前記収録音声を分析して得られる音声特徴量に基づいて、前記収録音声と前記合成音声とを滑らかに結合することを特徴とする請求項1乃至6の何れかに記載の音声編集装置。
【請求項8】
収録音声の不具合箇所を検出し、前記不具合箇所の修正に用いる合成音声を生成するのに必要な音声合成情報と、前記不具合箇所の位置情報を含む収録音声変更情報とを生成し、
前記音声合成情報に基づいて合成音声を生成し、
前記収録音声変更情報に基づいて、前記収録音声の不具合箇所を前記合成音声により修正する
ことを特徴とする音声編集方法。
【請求項9】
コンピュータを、
収録音声の不具合箇所を検出し、前記不具合箇所の修正に用いる合成音声を生成するのに必要な音声合成情報と、前記不具合箇所の位置情報を含む収録音声変更情報とを生成する編集情報生成手段と、
前記音声合成情報に基づいて合成音声を生成する音声合成手段と、
前記収録音声変更情報に基づいて、前記収録音声の不具合箇所を前記合成音声により修正する音声編集手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2011−242637(P2011−242637A)
【公開日】平成23年12月1日(2011.12.1)
【国際特許分類】
【出願番号】特願2010−115192(P2010−115192)
【出願日】平成22年5月19日(2010.5.19)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】