説明

音声記録装置、方法及びプログラム

【課題】音声信号を記録する音声記録装置において、ユーザの作業負荷を軽減することができる音声記録装置、方法及びプログラムを提供する。
【解決手段】音声記録装置は、音声信号を記憶する音声記憶部と、音声信号について音声認識する音声認識部と、音声記憶部に記憶された音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを音声認識を用いて推定する編集内容推定部と、編集内容推定部によって推定された編集内容に従って、音声記憶部に記憶された音声信号を編集し、編集結果を記録する音声編集部を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号を記録する音声記録装置、方法及びプログラムに関する。
【背景技術】
【0002】
ユーザが発声した音声を記録する音声記録装置の一種として、入力された音声信号について音声認識処理を行い、認識結果を音声信号とともに記録する装置がある。このような音声記録装置は、記録された音声信号の内容をテキストの形態でもユーザに提供できるため、音声の内容を把握しやすいという利点がある。このような機能を有する装置が例えば特許文献1に記載されている。特許文献1のような装置では、ユーザが音声信号を入力する際に、内容を予め整理した上で、発話する文を作成してから発声しなければならない。これは、一般的な音声認識処理では一定の音声認識精度を得るために文発話を前提とした言語モデルを用いるためである。
【0003】
一方、ユーザが自由に発話した音声について音声認識処理を行う装置も考案されている。しかし、この場合、音声認識結果のテキストには誤りが多い為、これを修正するための仕組みが必要となる。例えば、特許文献2には、入力された音声の音声認識結果をテキストで表示する際に、認識エラーとなった部分については他の部分と識別可能な所定の形式で表示し、エラー箇所に対するユーザの修正入力を受け付ける装置が記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平10−340179号公報
【特許文献2】特開平7−160289号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記特許文献1の装置では、音声認識の精度を低下させないために、ユーザは音声入力する内容を予め整理して、文形式の発話を行わなければならないため、ユーザの負担が大きいという問題がある。ユーザが、記録する内容を整理せず、発話する文を作成せずに発声する場合として、例えば、ユーザが記録したい内容を表す語句を思いつくままに発声する場合がある。このとき、入力された一連の音声は、文の断片に相当する語句(文ではない)が連なった状態となっていることがある。よって、例えば、記録したユーザが他のユーザがあとでこれらの音声を聞いても、内容を十分に把握できないおそれがある。また、文発話を前提とする言語モデルを用いる音声認識処理では、このような音声を正確に認識することが難しい。よって、例えば、記録したユーザや他のユーザがあとでこれらの音声を認識結果であるテキストデータの形態で参照しても、内容を十分に把握できないおそれがある。
【0006】
特許文献2の装置では、認識エラーを全てユーザが手入力して修正しなければならないため、ユーザの負担が大きいという問題がある。
【0007】
本発明は、上記問題点に鑑みてなされたもので、音声信号を記録する音声記録装置において、ユーザの作業負荷を軽減することができる音声記録装置、方法及びプログラムを提供することを目的とする。
【0008】
また、本発明は、音声信号を記録する音声記録装置において、内容を把握し易いように音声信号を編集することができる音声記録装置、方法及びプログラムを提供することを他の目的とする。
【課題を解決するための手段】
【0009】
本発明は、音声信号を記憶する音声記憶手段と、音声信号について音声認識する音声認識手段と、前記音声記憶手段に記憶された前記音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを前記音声認識手段による音声認識を用いて推定する編集内容推定手段と、前記編集内容推定手段によって推定された編集内容に従って、前記音声記憶手段に記憶された前記音声信号を編集し、編集結果を記録する音声編集手段と、を備えることを特徴とする音声記録装置である。
【0010】
本発明は、記録された音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを音声認識を用いて推定し、前記推定された編集内容に従って、前記記録された音声信号を編集し、編集結果を記録することを特徴とする音声記録方法である。
【0011】
本発明は、コンピュータに、記録された音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを音声認識を用いて推定する処理、前記推定された編集内容に従って、前記記録された音声信号を編集し、編集結果を記録する処理、を実行させるためのプログラムである。
【発明の効果】
【0012】
本発明によれば、音声信号を記録する音声記録装置において、ユーザの作業負荷を軽減することができる。
【図面の簡単な説明】
【0013】
【図1】図1は本発明の第1の実施形態に係る音声記録装置のブロック図である。
【図2】図2は提示部が出力装置に表示させる画面の一例である。
【図3】図3は提示部が表示装置に表示させる画面の一例である。
【図4】図4は提示部が表示装置に表示させる画面の一例である。
【図5】図5は編集内容推定部の機能を示すブロック図である。
【図6】図6は表現リストデータの一例を示す図である。
【図7】図7はユーザが編集指示を入力する場合の操作について説明するための図である。
【図8】図8は第1の実施形態に係る音声記録装置の動作を説明するためのフローチャートである。
【図9】図9は本発明の第2の実施形態に係る音声記録装置のブロック図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について図面を参照して説明する。本発明は、音声を記録するとともに、その音声の内容を取得する音声記録装置に適用可能である。画面上での操作機能を有する携帯端末等における、メモアプリケーションや電子メールアプリケーション等、音声の記録処理を伴うアプリケーションにも適用可能である。
【0015】
(第1の実施形態)
本発明の第1の実施形態に係る音声記録装置は、外部から入力装置を介して操作信号及び音声信号が入力され、推定した編集内容あるいは入力された操作指示に従って編集した音声信号とそれに対応する音声認識結果とを出力装置を介して出力するように構成されている。
【0016】
図1は、本発明の第1の実施形態に係る音声記録装置100のブロック図である。図示されるように、音声記録装置100は、音声入力部101と、音声記憶部102と、操作受付部103と、提示部104と、音声認識部105と、音声認識結果記憶部106と、音声編集部107と、編集内容推定部108と、検知部109と、を備える。
【0017】
音声入力部101は、外部から入力装置を介して音声信号を受け取り、その音声信号を音声記憶部102に出力する。音声入力部101は、連続する音声信号を、ひとつの音声データとして出力する。
【0018】
音声入力部101は、例えば、音量が所定値より小さい信号(無音)が一定時間継続した場合に、その区間を音声信号の区切りとして、その区間の前後を異なる音声データと認識して記録する。また、音声入力部101は、一般的な自動音声検出方式によって音声信号を分割してもよい。
【0019】
また、音声入力部101は、ユーザがスイッチを入れている間の音声信号をひとつの音声データとして記録する等のように、ユーザの指示により音声データの開始および終了を定めるようにしてもよい。このユーザの指示は、後述する操作受付部103に操作信号として入力され、音声データの開始と終了を示す指示として受け付ける。操作受付部103が、この音声データの開始と終了の指示を音声入力部101に通知することで、音声入力部101から音声記憶部102への音声信号の出力を制御することができる。
【0020】
音声記憶部102は、処理対象の音声信号を記憶する。音声入力部101より音声信号が入力される度、入力された音声信号を記憶する。その際、音声記憶部102は、音声信号の他に、音声の入力された時刻や入力した話者等の情報を併せて記憶してもよい。時刻情報は、音声記録装置100内部の時計から取得してもよく、外部から時刻情報を受信する時刻受信部を備えてもよい。話者の情報については、入力装置を介してユーザなどが入力操作した情報を受け付ける受付部をさらに備えてもよい。
【0021】
音声記憶部102は、音声編集部107より編集された音声信号が入力された場合、その編集された音声信号を記憶する。音声記憶部102は、編集前の音声信号と編集後の音声信号とを対応付ける情報も記憶してもよい。
【0022】
音声認識部105は、入力された音声信号について音声認識処理を行い、処理結果を音声認識結果記憶部106に記憶する。音声認識部105に入力される音声信号は、音声入力部101が受け付けた音声信号、音声記憶部102に記憶された音声信号、音声編集部107により編集された音声信号を含む。音声認識部105は、音声認識結果として、音声信号が表す語句を示すテキストデータを出力する。音声認識部105は、音声認識結果を提示部104に出力してもよく、また、音声認識結果を音声認識結果記憶部106に記憶したことを提示部104に通知してもよい。
【0023】
音声認識部105は、音声認識処理において、入力された音声信号に対して、音声認識を行うためのモデル(例えば、音響モデル、言語モデル、単語辞書等を含む)の与えるスコアに基づいて、音声信号に適合する単語列を探索する等の一般的な処理を行う。音声認識部105は、音響モデルとして隠れマルコフモデルを用いてもよく、言語モデルとして単語トライグラムを用いてもよい。これらのモデルは予め音声記録装置100の記憶装置に記憶される。音声記録装置100の記憶装置に記憶されたモデルの変更や更新を行うこともできる。
【0024】
音声認識部105は、音声認識結果として、音声信号に対応する語句の候補を表現する単語列を出力してもよい。音声認識結果として、複数の単語列を含む単語グラフやNベスト単語列の形式で表現したものを出力してもよい。音声認識部105は、音声認識結果の各単語が、認識した音声信号のどの区間に対応するかを表す時間情報を含むように表現した結果情報を出力してもよい。
【0025】
音声認識部105は、編集した音声信号の認識結果を求める際に、編集前の音声信号結果を用いてもよい。例えば、編集前の音声認識結果の単語グラフを、言語モデルを用いてリスコアリングしてもよい。
【0026】
音声認識結果記憶部106は、音声認識部105による音声認識結果を、認識対象の音声データと対応付けて記憶する。音声編集部107より音声データに対する編集が繰り返される度に、音声編集部107より得られる編集後の音声データと編集履歴(編集時刻、編集内容等)を対応付けて記憶してもよい。
【0027】
提示部104は、音声記憶部102に記憶されている音声や音声認識結果記憶部106に記憶されている音声認識処理結果等をユーザに提示するための画像情報を生成して、表示装置等の出力装置に出力する。出力装置は、スピーカ、データ記憶媒体の読み書き装置、インターネットやLAN等のネットワークと接続するためのインタフェース機器等を含む。
【0028】
提示部104は、各音声データを識別できる画像(アイコン)を用いた表示を行う。これにより、ユーザが各音声データを区別できるようにする。画面に表示される画像は、操作の受け付けも可能なアイコン、メニュー、操作ボタンを含む。ユーザは、画面に表示されたアイコン、メニュー、操作ボタンを操作することで、編集に関する指示等を容易に行うことができる。
【0029】
提示部104が出力装置に表示させる画面の一例を図2に示す。音声入力部101から入力された音声が音声記憶部102に格納される度に、画面表示されるアイコンが増加してもよい。例えば、1〜3番目の音声データS1〜S3が入力された後に4番目の音声データS4が入力された場合は、3番目の音声データS3のアイコンの下に表示してもよい。各画像の配置は任意に設定可能であり、図2の例では、音声データの入力順に上から下に各アイコンを表示しているが、下から上に又は左から右にアイコンを表示してもよい。また、所定数で折り返して表示してもよい。
【0030】
提示部104が表示装置に表示させる画面の他の例を図3、図4に示す。図3の画面例では、提示部104は、音声記憶部102に格納された音声データS1〜S3のアイコンとともに、音声認識結果記憶部106に記憶されている音声認識結果を示すテキストR1〜R3をさらに表示する。図4の画面例では、音声データS1〜S3のアイコンとともに、操作指示C1、C2の操作ボタンをさらに表示する。
【0031】
操作受付部103は、ユーザからの操作指示を入力装置を介して受け付け、操作対象や操作内容の情報を音声編集部107に通知する。入力装置は、表示装置の画面上に配置されたタッチパネル、キーボード、マウス、操作ボタン、タブレット等を含む。また、入力装置は、音声を入力するマイクロホン、データ記録媒体の読み書き装置、インターネットやLAN等のネットワークと接続するためのインタフェース機器等を含む。
【0032】
操作受付部103は、入力された操作指示に基づいて、操作対象の音声データを音声編集部107に通知する。
【0033】
音声編集部107は、音声データについて編集処理を行い、編集結果を音声記憶部102に記録する。編集処理は、編集内容推定部108から通知される編集内容、あるいは操作受付部103から通知されるユーザによる指示に基づいて行う。また、音声編集部107は、編集内容推定部108から通知された編集内容の推定結果を提示部104を介して画面表示させ、ユーザからの入力指示に応じて、編集処理を行うようにしてもよい。編集処理は、音声データの並べ替え(順序変更)と、音声データの補完と、音声データの削除と、を含む。
【0034】
編集内容推定部108は、音声記憶部102に記憶された音声データと音声認識結果記憶部106に記憶された音声認識結果を取得し、音声データに対する編集内容を推定し、推定結果を音声編集部107に通知する。編集内容の推定対象となる音声データは、編集内容推定部108が選択してもよく、ユーザによる指定入力を受け付けてもよい。編集内容推定部108が選択する場合、音声入力部101から出力される音声データや音声記憶部102に記憶されている音声データから、予め設定された所定の基準(例えば、所定時間内に入力(記録)された音声データ、所定数の連続する音声データ等)に基づいて、処理対象となる音声データを選択してもよい。新しく音声入力部101から入力された音声と、それ以前に音声記憶部102に記憶された音声のうち、時間的に最後に位置するものとを選択するようにしてもよい。
【0035】
編集内容推定部108は、図5に示すように、順序推定部108−10と、補完表現推定部108−20と、を含む。
【0036】
順序推定部108−10は、編集内容の推定対象の複数の音声データについてそれらの順序を推定するものであり、順序候補生成部108−11と、順序評価部108−12と、を含む。順序候補生成部108−11は、処理対象の複数の音声データについて、それらを並べ替えた順序候補を生成する。順序評価部108−12は、各候補の評価スコアを算出し、評価スコアの高い順序候補を選択して出力する。
【0037】
例えば、処理対象の音声データとしてS1、S2が選択された場合、順序候補生成部108−11は、音声データを並べ替えた順序候補として、「S1、S2」と「S2、S1」の2つの順序候補を生成する。例えば3つの音声データが選択された場合には、同様にして6通りの順序候補を生成する。
【0038】
順序評価部108−12は、音声認識部105と同様の音声認識処理により各候補の評価スコアを求める。順序候補「S1、S2」と「S2、S1」のそれぞれを、一続きの音声として音声認識処理を行うことにより、音声データの音響的・言語的な尤もらしさを反映した認識スコア(対数尤度)を算出し、これを評価スコアとする。そして、例えば「S1、S2」の評価スコアが「−300」で、「S2、S1」の評価スコアが「−100」と算出された場合、スコアの良い後者(S2、S1)が順序推定結果として出力される。
【0039】
なお、順序推定部108−10は、各順序候補の音声認識結果であるテキストについて評価スコアを算出し、これを用いて適正な順序を推定してもよい。具体的には、処理対象の音声データS1、S2について、順序候補「S1、S2」と「S2、S1」を生成し、これらについて音声認識処理を行い、「S1、S2」については音声認識結果「R1、R2」、「S2、S1」については音声認識結果「R2、R1」を得る。そして、「R1、R2」と「R2、R1」のそれぞれを一続きの単語列として、音声認識部105の音声認識処理で使用する言語モデルに対する尤度を算出し、これを評価スコアとしてもよい。音声認識結果が単語グラフの場合、2つの単語グラフを接続した単語グラフについて、音声認識処理で一般的なリスコアリング処理を行った際のスコアを評価スコアとしてもよい。
【0040】
補完表現推定部108−20は、編集内容の推定対象の複数の音声データについて補完表現を推定するものであり、補完表現候補生成部108−21と、補完表現評価部108−22と、補完音声生成部108−23と、を含む。補完表現候補生成部108−21は、補完表現の候補を生成する。補完表現評価部108−22は、生成された各候補の評価スコアを算出し、評価スコアの良い候補を選択する。補完音声生成部108−23は、選択された補完表現に相当する音声信号を生成して出力する。
【0041】
例えば、処理対象の音声データとしてS1、S2が選択された場合、補完表現候補生成部108−21は、「S1、S2」の音声認識結果「R1、R2」に補完用の語句(T1、T2・・・)を挿入した補完表現候補「R1、T1、R2」、「R1、T2、R2」・・・を生成する。また、補完表現候補は、補完用語句が複数の音声データの先頭や末尾に挿入されるパターンも含む。この場合、先頭の音声データや末尾の音声データだけを処理対象として指定してもよい。補完用の語句は図示せぬ記憶部に予め記憶された表現リストデータから取得してもよい。表現リストデータを図6に例示する。補完用語句は、例えば「で」、「に」などの助詞を含んでもよい。
【0042】
そして、補完表現評価部108−22は、生成された補完表現候補「R1、T1、R2」、「R1、T2、R2」・・・のそれぞれを一続きの単語列として、評価スコアを算出する。音声認識部105の音声認識処理で使用する言語モデルに対する尤度を算出し、これを評価スコアとしてもよい。例えば「R1、T1、R2」の評価スコアが「−50」で、「R1、T2、R2」の評価スコアが「−70」と算出された場合、スコアの良い前者(R1、T1、R2)が補完推定結果として出力される。なお、この評価スコアは、上述の順序評価部108−12による評価スコアと同様の処理により求められるため、順序評価部108−12による評価と補完表現評価部108−22による評価とを同時に行うこともできる。
【0043】
そして、補完音声生成部108−23は、補完推定結果の「R1、T1、R2」について音声信号を生成する。例えば、テキストデータを入力し、音声信号を出力する一般的な音声合成システムを用いて生成してもよい。補完された語句に相当する音声データを「Sc」とすると、補完表現の音声データは「S1、Sc、S2」となる。
【0044】
なお、補完表現推定部108−20は、処理対象の音声データ「S1、S2」に、予め用意された補完用語句の音声データ(例えば、「Sc」、「Sd」・・・)を挿入し、挿入された音声データ(例えば、「S1、Sc、S2」、「S1、Sd、S2」・・・)のそれぞれを一続きの音声として音声認識処理を行うことにより、音声データの音響的・言語的な尤もらしさを反映した認識スコア(対数尤度)を算出し、これを評価スコアとしてもよい。そして、評価スコアが高いものを補完表現の音声データとして推定してもよい。
【0045】
また、編集内容推定部108は、編集内容の推定対象の複数の音声データについて、データの削除に関する推定を行う削除表現推定部をさらに備える。削除表現推定部は、処理対象の音声データについて、そこから削除する表現の候補を推定する。例えば、図示せぬ記憶部に予め記憶された削除リストデータを参照し、処理対象の音声データに対応する音声認識結果に含まれる語句のうち、この削除リストデータに存在する語句と合致するものを削除候補としてもよい。削除リストデータには、文中で不要と考えられる語句が登録されており、例えば「えー」などのフィラーを含む。あるいは、音声データに対応する音声認識結果に対して、音声認識結果の確からしさを表す信頼度を用いて、その値が所定の閾値よりも小さい場合に、該当する音声データを削除するようにしてもよい。
【0046】
このように、編集内容推定部108が、音声信号に対する編集内容を推定する機能を提供することにより、ユーザが記録したい音声信号を容易に作成、編集することができる。操作受付部103を介して受け付ける操作指示の数を減らすことができる。
【0047】
検知部109は、音声入力部101から入力された音声が音声記憶部102に記憶されたことを検知し、編集内容推定部108に通知する。音声信号入力の検知のタイミングは、音声入力部101が音声信号を受け付けたときでもよく、音声記憶部102に音声信号が記録されたときでもよい。例えば、検知部109は、入力確認用のフラグなどを用いて音声入力を確認してもよい。
【0048】
次に、ユーザが編集指示を入力する場合の操作について図7を参照して具体的に説明する。例えば、ユーザが、音声データS1、S2、S3について、音声データS2とS3の順序を入れ替える編集を指示する場合、ユーザは、音声データS1、S2、S3順に画像情報が画面表示されている状態で、音声データの順序を入れ替えるための所定操作を行う。操作内容は任意に設定可能であり、例えば、音声データS2のアイコンを選択し、音声データS3のアイコンの下(画面上で、時間的に後ろを意味する位置)に移動してもよく、音声データS3のアイコンを音声データS2のアイコンの上へ移動してもよく、音声データS2、S3のアイコンを同時に選択してこれらを入れ替えるための所定操作を行ってもよい。
【0049】
また、ユーザが、音声データS2、S3の順序を入れ替えた後に、音声データS3の後ろに音声を挿入する編集を指示する場合、ユーザは、音声データを挿入するための所定操作を行う。操作内容は任意に設定可能であり、挿入位置を指定する操作(例えば、画面上の音声データS3の後ろをポインタやユーザの指で指定する等)と挿入される音声を指定する操作(例えば、表現リストデータから挿入する語句を選択する等)を含んでもよい。図7に例示する画面上では、挿入される音声データS4のアイコンが、指定された位置に挿入される。
【0050】
また、ユーザが、いずれかの音声データを削除する編集を指示する場合、ユーザは、音声データを削除するための所定操作を行う。操作内容は任意に設定可能であり、例えば、削除対象の音声データのアイコンを画面の外に出すように移動してもよい。
【0051】
操作受付部103は、上述の各操作指示を受け付けて、各操作指示に対応する編集指示内容を音声編集部107に通知する。音声編集部107は通知に基づく音声編集を行う音声認識部105は、編集された音声について音声認識を行い、認識結果を出力する。ここで、音声認識部105は、編集後の音声信号を一続きの音声として自動的につなげて音声認識してもよい。
【0052】
このように操作受付部103と音声編集部107が、入力された音声を示す画像情報を画面上で操作する機能を提供することにより、ユーザが記録したい音声信号を容易に作成、編集することができる。音声認識部105が、編集後の音声信号を認識することにより、音声認識精度を高めることができる。さらに、提示部104が、編集後の音声と音声認識結果を示す画像情報を出力装置に出力して画面表示させることで、ユーザが記録した音声及びその内容を把握しやすくできる。
【0053】
例えば、音声認識部105が、一般的な文で学習した単語連鎖モデルを言語モデルとして用いる場合に、ユーザが「月例の打ち合わせです」、「えー、第三会議室」の順に発話した音声を入力したとする。本実施形態の音声記録装置100の上述の機能により、「えー、第三会議室」、「で」、「月例の打ち合わせです」の順に並べ替えと挿入を行うことで、音声認識で用いられる言語モデルに適した文となり、正しく認識できるようになる。
【0054】
次に、本実施形態に係る音声記録装置100の動作について図8のフローチャートを参照して説明する。
【0055】
音声記録装置100の制御部はユーザの起動操作等により起動されると、記憶デバイス等から必要なデータを読み出し、音声入力部101、操作受付部103、提示部104、音声認識部105、音声編集部107及び編集内容推定部108からデータを参照できるように、音声記憶部102及び音声認識結果記憶部106にデータを展開する等の初期化処理を行う(ステップS101)。そして、入力装置からの通知(音声信号や操作指示信号の入力)を受け付ける状態で待機する(ステップS102)。
【0056】
音声入力部101は、入力装置からの通知に応じて、音声信号を受け付けて音声記憶部102に記憶する。提示部104は、音声記憶部102に新たに記憶された音声に関する情報を取得し、画面に表示する画像情報を生成して表示装置に出力する(ステップS103)。例えば図2に示すような、音声データを示すアイコンが画面に表示される。
【0057】
音声認識部105は、ステップS103で音声記憶部102に新たに記憶された音声信号を取得し、音声認識処理を行い、音声認識結果を音声認識結果記憶部106に記憶する。提示部104は、音声認識結果記憶部106に新たに記憶された音声認識結果に関する情報を取得し、画面に表示する画像情報を生成して表示装置に出力する(ステップS104)。
【0058】
一方、編集内容推定部108は、所定の通知に応じて、編集対象の音声信号を選択する(ステップS105)。この通知は、入力装置から所定の操作信号が入力されたときに、操作受付部103により発行されるものと、音声記憶部102に新たな音声信号が記憶されたとき等に検知部109により発行されるものを含む。
【0059】
編集内容推定部108は、編集対象の音声データに対して、その編集内容を推定する(ステップS106)。
【0060】
音声編集部107は、編集内容推定部108による編集推定内容に従って、処理対象の音声データについて編集処理を行い、編集後の音声データを音声記憶部102に記憶する(ステップS107)。編集された音声データは、編集内容推定部108による推定内容に基づいて編集された音声データと、ユーザにより入力された指示に従って編集された音声データを含む。音声編集部107は、編集前の音声信号と編集後の音声信号とを対応付ける情報も併せて音声記憶部102に記憶してもよい。また、編集前の音声信号に上書きして記憶してもよい。編集前後の音声信号の記憶方法(編集前の音声信号を残すか上書きするか等)は、任意に設定可能である。
【0061】
音声認識部105は、ステップS107で音声記憶部102に新たに記憶された編集後の音声データを取得して、音声認識処理を行い、音声認識処理結果を音声認識結果記憶部106に記憶する。提示部104は、音声認識結果記憶部106に新たに記憶された編集後の音声に対応する音声認識結果の情報を取得し、画面に表示する画像情報を生成して表示装置に出力する(ステップS108)。
【0062】
音声記録装置100は、終了信号が入力されることにより、上述の一連の処理を終了する。操作受付部103が、ユーザによる終了指示の入力を受け付けたときに、終了信号を出力してもよい。また、一定時間以上、音声入力部101が、音声入力を受け付けなかった場合等に、終了信号を出力してもよい。
【0063】
以上のように、本実施形態に係る音声記録装置によれば、発話者が文発話の形式を意識せずに自由に発話したとしても、適正な編集内容を推定して編集し、編集後の音声データについて音声認識を行うため、記録する音声を、音として聞いても文字として読んでも分かりやすいものとする。これにより、ユーザの作業負荷を軽減し、かつ、音声認識の認識精度の低下を防ぐことができる。また、音声を入力する際に、入力した音声信号を編集するための操作画面を提示し、音声信号を編集される度に音声認識処理を行い、認識結果を音声データと併せて提示することにより、ユーザの編集作業を支援する。また、入力された音声を編集して提示することにより、記録する内容をユーザが整理することを支援できる。
【0064】
(第2の実施形態)
図9は、本発明の第2の実施形態に係る音声記録装置200のブロック図である。第2の実施形態では、音声記録装置200が、第1の実施形態の音声記録装置100における音声入力部101と操作受付部103と提示部104と音声編集部107と編集内容推定部108を備え、音声記録装置200とは異なる装置(サーバ400)が、音声記録装置100における音声記憶部102と音声認識部105と音声認識結果記憶部106と検知部109を備える点において第1の実施形態と異なる。
【0065】
音声記録装置200は、インタフェース部(I/F)201を備え、ネットワーク3を介してサーバ400と接続して通信を行う。
【0066】
サーバ400は、インタフェース部(I/F)部401を備え、ネットワーク3を介して音声記録装置200に接続して通信を行う。
【0067】
音声記録装置200は、音声記憶部102に記憶される音声信号と、音声認識結果記憶部106に記憶される音声認識結果を、入力あるいは出力する際に、ネットワーク3を介して通信により受け渡す。なお、音声記録装置200とサーバ400との間の通信手段は、USB等のシリアル通信やパラレル通信等も含む。
【0068】
また、サーバ400は、音声記憶部102に記憶された音声信号、音声認識結果記憶部106に記憶された音声認識結果を、所定のタイミング(例えば、認識処理毎、定期的、音声記録装置200から要求に応じて等)、音声記録装置200に送信する。音声記録装置200は、図示しない音声記憶部や音声認識結果記憶部を備えてもよく、サーバ400から受信したデータをこれらに記憶してもよい。
【0069】
以上、第2の実施形態によれば、音声認識処理を他のコンピュータで行わせて処理を分散することができる。音声記録装置200の構成をコンパクトにすることができるので、携帯型の端末装置などで容易に構成することができる。
【0070】
以上、好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。
【0071】
例えば、本発明を、音声信号を含む映像信号を記録する音声記録装置に適用してもよい。映像に含まれる音声が表す語句(音声認識結果)は、映像中に含まれる字幕画像や、映像検索用のインデックス情報として用いられる。この場合、本実施形態は、ユーザが音声を含む映像を編集して、新たな映像を記録する装置に適用できる。
【0072】
また、上記説明では、音声編集部107により音声信号そのものについて編集処理を行う場合を説明したが、これに限定されず、例えば、音声信号そのものはそのまま記憶しておき、音声の特徴量列を切り貼りする等の編集処理を行うよう構成してもよい。画面上に各音声の特徴量列を示す画像情報を表示し、ユーザによる音声の特徴量列の並べ替え(順序変更)、分割、挿入、削除、または結合等の編集操作を受け付ける構成としてもよい。または、音声信号の編集処理、音声の特徴量列の編集処理、および音声信号の時刻情報またはインデックスの編集処理を組み合わせて行うことができる構成としてもよい。
【0073】
また、上記説明では、提示部103がタッチパネル等のディスプレイ装置に各種情報を出力していたが、これに限定されず、例えば、音声信号をスピーカ等の音声出力装置に出力してユーザに提示したり、音声信号の波形画像を印刷装置に出力してユーザに提示したりしてもよい。例えば、音声信号をスピーカ等から音声出力し、ユーザが音声を聞きながら操作スイッチを操作して編集対象となる音声信号の指定や編集操作を行う構成とすることもできる。
【0074】
また、上記説明では、音声信号を提示部104より視覚的にタッチパネル等の表示装置に表示し、操作受付部103が、タッチパネル等を介してユーザの編集操作を受け付ける構成としていたが、これに限定されず、例えば、音声信号の記録時間に基づいて、編集対象となる音声信号を指定することもできる。この場合、音声信号を視覚的に表示しなくてもよい。例えば、音声信号の波形とともに、記録時間を印刷すれば、編集対象となる音声信号の記録時間を指定することもできる。
【0075】
上述した本発明の実施形態に係る音声記録装置は、CPU(Central Processing Unit)等の制御部、メモリやハードディスク等の記憶部、通信部等を備えるコンピュータにより実現してもよい。音声入力部101、操作受付部103、提示部104、音声認識部105、音声編集部107、編集内容推定部108及び検知部109は、CPUが記憶部に格納された動作プログラム等を読み出して実行することにより実現されてもよく、また、ハードウェアで構成されてもよい。上述した実施の形態の一部の機能のみをコンピュータプログラムにより実現することもできる。音声記憶部102、音声認識結果記憶部106は、音声記録装置が備える記憶装置により実現してもよい。上記コンピュータプログラムは、コンピュータで読み取り可能な記憶媒体に記録されてもよい。コンピュータプログラムは、記録媒体からメモリにロードされてもよいし、ネットワークを通じてコンピュータにダウンロードされ、メモリにロードされてもよい。
【0076】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
【0077】
(付記1)
音声信号を記憶する音声記憶手段と、
音声信号について音声認識する音声認識手段と、
前記音声記憶手段に記憶された前記音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを前記音声認識手段による音声認識を用いて推定する編集内容推定手段と、
前記編集内容推定手段によって推定された編集内容に従って、前記音声記憶手段に記憶された前記音声信号を編集し、編集結果を記録する音声編集手段と、
を備えることを特徴とする音声記録装置。
【0078】
(付記2)
前記音声認識手段は、編集後の音声データについて音声認識処理を行い、音声認識結果を記録する
ことを特徴とする付記1に記載の音声記録装置。
【0079】
(付記3)
前記編集内容推定手段は、前記音声記憶手段に記憶された音声信号を構成する複数の音声データについて、各音声データを並べ替えた順序候補を生成し、生成した各順序候補について音声認識処理による評価スコアを算出し、算出した評価スコアに基づいて音声データの適正な順序を推定する、
ことを特徴とする付記1又は2に記載の音声記録装置。
【0080】
(付記4)
前記編集内容推定手段は、前記音声記憶手段に記憶された音声信号を構成する複数の音声データについて音声認識処理を行い、各音声データに対応する音声認識結果の間に補完用語句を挿入した補完表現候補を生成し、生成した各補完表現候補について評価スコアを算出し、算出した評価スコアに基づいて音声データの適正な補完を推定する、
ことを特徴とする付記1から3のいずれか1項に記載の音声記録装置。
【0081】
(付記5)
前記編集内容推定手段は、前記音声記憶手段に記憶された音声信号を構成する各音声データの音声認識結果に基づいて、所定条件に合致する音声データを削除対象として推定する、
ことを特徴とする付記1から4のいずれか1項に記載の音声記録装置。
【0082】
(付記6)
記録された音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを音声認識を用いて推定し、
前記推定された編集内容に従って、前記記録された音声信号を編集し、編集結果を記録する
ことを特徴とする音声記録方法。
【0083】
(付記7)
編集後の音声データについて音声認識処理を行い、音声認識結果を記録することを特徴とする付記6に記載の音声記録方法。
【0084】
(付記8)
前記音声データの編集内容の推定において、前記記録された音声信号を構成する複数の音声データについて、各音声データを並べ替えた順序候補を生成し、生成した各順序候補について音声認識処理による評価スコアを算出し、算出した評価スコアに基づいて音声データの適正な順序を推定する、
ことを特徴とする付記6又は7に記載の音声記録方法。
【0085】
(付記9)
前記音声データの編集内容の推定において、前記記録された音声信号を構成する複数の音声データについて音声認識処理を行い、各音声データに対応する音声認識結果の間に補完用語句を挿入した補完表現候補を生成し、生成した各補完表現候補について評価スコアを算出し、算出した評価スコアに基づいて音声データの適正な補完を推定する、
ことを特徴とする付記6から8のいずれか1項に記載の音声記録方法。
【0086】
(付記10)
前記音声データの編集内容の推定において、前記記録された音声信号を構成する各音声データの音声認識結果に基づいて、所定条件に合致する音声データを削除対象として推定する、
ことを特徴とする付記6から9のいずれか1項に記載の音声記録方法。
【0087】
(付記11)
コンピュータに、
記録された音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを音声認識を用いて推定する処理、
前記推定された編集内容に従って、前記記録された音声信号を編集し、編集結果を記録する処理、
を実行させることを特徴とするプログラム。
【0088】
(付記12)
編集後の音声データについて音声認識処理を行い、音声認識結果を記録する処理をさらに実行させることを特徴とする付記11に記載の音声記録方法。
【0089】
(付記13)
前記編集内容推定処理は、前記記録された音声信号を構成する複数の音声データについて、各音声データを並べ替えた順序候補を生成し、生成した各順序候補について音声認識処理による評価スコアを算出し、算出した評価スコアに基づいて音声データの適正な順序を推定する、
ことを特徴とする付記11又は12に記載のプログラム。
【0090】
(付記14)
前記編集内容推定処理は、前記記録された音声信号を構成する複数の音声データについて音声認識処理を行い、各音声データに対応する音声認識結果の間に補完用語句を挿入した補完表現候補を生成し、生成した各補完表現候補について評価スコアを算出し、算出した評価スコアに基づいて音声データの適正な補完を推定する、
ことを特徴とする付記11から13のいずれか1項に記載のプログラム。
【0091】
(付記15)
前記編集内容推定処理は、前記記録された音声信号を構成する各音声データの音声認識結果に基づいて、所定条件に合致する音声データを削除対象として推定する、
ことを特徴とする付記11から14のいずれか1項に記載のプログラム。
【符号の説明】
【0092】
100 音声記録装置
101 音声入力部
102 音声記憶部
103 操作受付部
104 提示部
105 音声認識部
106 音声認識結果記憶部
107 音声編集部
108 編集内容推定部
109 通知部
108−10 順序推定部
108−11 順序候補生成部
108−12 順序評価部
108−20 補完表現推定部
108−21 補完表現候補生成部
108−22 補完表現評価部
108−23 補完音声生成部
200 音声記録装置
201 インタフェース部
400 サーバ
401 インタフェース部

【特許請求の範囲】
【請求項1】
音声信号を記憶する音声記憶手段と、
音声信号について音声認識する音声認識手段と、
前記音声記憶手段に記憶された前記音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを前記音声認識手段による音声認識を用いて推定する編集内容推定手段と、
前記編集内容推定手段によって推定された編集内容に従って、前記音声記憶手段に記憶された前記音声信号を編集し、編集結果を記録する音声編集手段と、
を備えることを特徴とする音声記録装置。
【請求項2】
前記音声認識手段は、編集後の音声データについて音声認識処理を行い、音声認識結果を記録する
ことを特徴とする請求項1に記載の音声記録装置。
【請求項3】
前記編集内容推定手段は、前記音声記憶手段に記憶された音声信号を構成する複数の音声データについて、各音声データを並べ替えた順序候補を生成し、生成した各順序候補について音声認識処理による評価スコアを算出し、算出した評価スコアに基づいて音声データの適正な順序を推定する、
ことを特徴とする請求項1又は2に記載の音声記録装置。
【請求項4】
前記編集内容推定手段は、前記音声記憶手段に記憶された音声信号を構成する複数の音声データについて音声認識処理を行い、各音声データに対応する音声認識結果の間に補完用語句を挿入した補完表現候補を生成し、生成した各補完表現候補について評価スコアを算出し、算出した評価スコアに基づいて音声データの適正な補完を推定する、
ことを特徴とする請求項1から3のいずれか1項に記載の音声記録装置。
【請求項5】
前記編集内容推定手段は、前記音声記憶手段に記憶された音声信号を構成する各音声データの音声認識結果に基づいて、所定条件に合致する音声データを削除対象として推定する、
ことを特徴とする請求項1から4のいずれか1項に記載の音声記録装置。
【請求項6】
記録された音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを音声認識を用いて推定し、
前記推定された編集内容に従って、前記記録された音声信号を編集し、編集結果を記録する
ことを特徴とする音声記録方法。
【請求項7】
コンピュータに、
記録された音声信号に対する編集内容として、音声信号の並べ替えと補完と削除の少なくとも一つを音声認識を用いて推定する処理、
前記推定された編集内容に従って、前記記録された音声信号を編集し、編集結果を記録する処理、
を実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−190088(P2012−190088A)
【公開日】平成24年10月4日(2012.10.4)
【国際特許分類】
【出願番号】特願2011−50956(P2011−50956)
【出願日】平成23年3月9日(2011.3.9)
【出願人】(000004237)日本電気株式会社 (19,353)
【Fターム(参考)】