書き起こし支援システムおよび書き起こし支援方法

【課題】作業効率を向上させることが可能な書き起こし支援システムおよび書き起こし支援方法を提供する。
【解決手段】実施形態の書き起こし支援システムは、第１記憶部と、再生部と、第２記憶部と、テキスト作成部と、設定部とを備える。第１記憶部は音声データを記憶する。再生部は音声データを再生する。第２記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。設定部は、作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置に設定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、書き起こし支援システムおよび書き起こし支援方法に関する。
【背景技術】
【０００２】
従来、書き起こし作業の効率化を図るための様々な技術が知られている。例えば、音声データに対して音声認識処理を実行することにより得られた音声テキストデータを構成する複数の文字列の各々と、音声データの位置（再生位置）とを対応付けて画面上に表示させるという技術が知られている。この技術では、画面上の文字列が選択されると、その文字列に対応する再生位置から音声データが再生されるので、ユーザー（書き起こし作業者）は、文字列を選択して音声データを聞きながら当該文字列の修正を行う。
【０００３】
上述した技術では、音声テキストデータを構成する複数の文字列の各々と、音声データの再生位置とを対応付けて画面上に表示させる必要があるので、表示制御の構成が複雑になるという問題がある。したがって、構成の簡素化を図るという観点からは、音声認識結果の修正作業を行う書き起こし方式よりも、音声データを再生しながら、聞き取れた範囲をテキスト化していく書き起こし方式の方が好ましい。
【０００４】
この場合、ユーザーは、音声データの一時停止、巻き戻しを繰り返しながら書き起こし作業を行うことになる。ここで、一時停止を解除して音声データの再生を再開する場合（書き起こし作業を再開する場合）は、音声データのうち書き起こしが完了した位置から再生が再開されることが望ましい。そこで、一時停止時における音声データの位置から所定量だけ巻き戻した位置を、再生が開始される位置を示す再生開始位置として設定するという技術が考えられる。
【０００５】
しかしながら、一時停止時における音声データの位置と、音声データのうち書き起こしが完了した位置との差は常に一定であるとは限らないので、書き起こしが完了した位置から音声データの再生を再開させることは困難である。そのため、ユーザーは、音声データの巻き戻しや早送りを繰り返しながら位置合わせを行う場合が多いので、ユーザーの作業効率が低下してしまうという問題がある。
【先行技術文献】
【特許文献】
【０００６】
【特許文献１】特開２００５−２２８１７８号公報
【特許文献２】特許第４５５８３０８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
本発明が解決しようとする課題は、ユーザーの作業効率を向上させることが可能な書き起こし支援システムを提供することである。
【課題を解決するための手段】
【０００８】
実施形態の書き起こし支援システムは、第１記憶部と、再生部と、第２記憶部と、テキスト作成部と、推定部と、設定部とを備える。第１記憶部は音声データを記憶する。再生部は音声データを再生する。第２記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。設定部は、作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置を設定する。
【０００９】
また、実施形態の書き起こし支援システムは、第１記憶部と、再生部と、第２記憶部と、テキスト作成部と、推定部と、取得部と、算出部と、再生制御部と、を備える。第１記憶部は音声データを記憶する。再生部は音声データを再生する。第２記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。取得部は、再生部によって再生が行われている音声データの現在の再生位置を示す再生音声位置情報を取得する。算出部は、作成済み音声位置情報と再生音声位置情報とから、テキストの作成が音声データの再生に対してどの程度遅れているのかを示す遅延量を算出する。再生制御部は、遅延量が所定の範囲内に収まるように、再生部による再生を可変に制御する。
【００１０】
また、実施形態の書き起こし支援方法は、再生ステップと作成ステップと推定ステップと設定ステップとを備える。再生ステップは、音声データを再生する。作成ステップは、ユーザーの操作入力に応じてテキストを作成する。推定ステップは、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。設定ステップは、作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置を設定する。さらに、実施形態の書き起こし支援方法は、再生ステップと作成ステップと推定ステップと取得ステップと算出ステップと再生制御ステップとを備える。再生ステップは、音声データを再生する。作成ステップは、ユーザーの操作入力に応じてテキストを作成する。推定ステップは、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。取得ステップは、再生ステップにより再生されている音声データの現在の位置を示す再生音声位置情報を取得する。算出ステップは、作成済み音声位置情報と再生音声位置情報とから、テキストの作成が音声データの再生に対してどの程度遅れているのかを示す遅延量を算出する。再生制御ステップは、遅延量が所定の範囲内に収まるように、再生ステップによる再生を可変に制御する。
【図面の簡単な説明】
【００１１】
【図１】第１実施形態の書き起こし支援システムの概略構成例を示すブロック図。
【図２】音声インデックスの一例を示す図。
【図３】第２実施形態の書き起こし支援システムの概略構成例を示すブロック図。
【図４】３種類の閾値の一例を示す図。
【図５】再生制御処理の一例を示すフローチャート。
【発明を実施するための形態】
【００１２】
以下、添付図面を参照しながら、本発明に係る書き起こし支援システムの実施の形態を詳細に説明する。なお、以下の各実施形態では、書き起こし支援システムとして、音声データを再生する機能、および、ユーザーの操作に応じてテキストを作成するテキスト作成機能を有するＰＣ（Personal Computer）を例に挙げて説明するが、これに限定されるものではない。以下の各実施形態では、書き起こし作業を行う場合、ユーザーは、収録された音声データを再生しながらキーボードを操作してテキスト入力を行い、音声データをテキスト化していく。
【００１３】
（Ａ：第１実施形態）
図１は、第１実施形態の書き起こし支援システム１００の概略構成例を示すブロック図である。図1に示すように、書き起こし支援システム１００は、第１記憶部１０と、再生部２０と、インデックス生成部３０と、第２記憶部４０と、テキスト作成部５０と、推定部６０と、設定部７０と、再生指示受付部８０と、再生制御部９０とを含む。
【００１４】
第１記憶部１０は、音声データを記憶する。音声データは、例えばwav、mp3などの形式の音声ファイルである。音声データの取得方法は任意であり、例えばインターネット等のネットワーク経由で取得することもできるし、マイクロフォンなどを用いて取得することもできる。再生部２０は、音声データを再生する手段であり、例えばスピーカ、ＤＡコンバータおよびヘッドフォンなどから構成される機器である。
【００１５】
インデックス生成部３０は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置（再生位置）を示す音声位置情報とを対応付けた音声インデックスを生成する。一例として、「先ほどの内容、今日議題にございました件ですが」という音声データの音声インデックスを作成する場合を想定する。この場合、まずインデックス生成部３０は、音声データに対して公知の音声認識処理を実行して音声テキストデータを生成する。音声認識処理は、公知の様々な技術を利用することができる。次に、インデックス生成部３０は、音声認識処理により得られた音声テキストデータを、文よりも小さい単位に分割する。例えば、単語・形態素・文節などの単位で分割することができるが、この分割方法は任意である。ここでは、一例として、分割単位を形態素とする。そして、インデックス生成部３０は、音声テキストデータを構成する複数の形態素の各々と、音声データの音声位置情報とを対応付ける。これにより、図２に示されるような音声インデックスが生成される。音声認識処理では、音声データを１０〜２０ｍｓ程度の一定間隔で処理する。音声位置情報との対応付けは、処理対象となっている音声データとそれに対応する認識結果を音声認識処理の過程で取得することで実現できる。
【００１６】
図２の例では、音声データの音声位置情報は、音声データの先頭からその位置まで再生するのに要する時間を示す時間情報を用いて表される（単位はミリ秒）。例えば図２の「今日」に対応する位置情報は「１１００ｍｓ−１４００ｍｓ」であるが、これは、音声データを再生した場合に、「今日」という音声の再生開始位置が１１００ｍｓで、再生終了位置が１４００ｍｓであることを意味している。言い換えれば、音声データを再生した場合に、当該音声データの先頭から１１００ｍｓ経過した時点を始点とし、先頭から１４００ｍｓ経過した時点を終点とする期間が、「今日」という音声が再生される期間であることを意味している。
【００１７】
再び図１に戻って説明を続ける。第２記憶部４０は、インデックス生成部３０で生成された音声インデックスを記憶する。なお、音声インデックスは、書き起こし作業の開始前に既に作成されていてもよいし、書き起こし作業中にリアルタイムで作成されてもよい。
【００１８】
テキスト作成部５０は、ユーザーの操作入力に応じてテキストを作成する。本実施形態では、ユーザーは、キーボードなどの操作デバイスを操作することによりテキストを入力し、テキスト作成部５０は、その入力に従ってテキストを作成する。以下では、説明の便宜上、テキスト作成部５０で作成されたテキストを「入力済みテキスト」と呼ぶ。
【００１９】
推定部６０は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置（つまりは書き起しが完了した位置）を示す作成済み音声位置情報を推定する。本実施形態では、推定部６０は、音声インデックスに含まれる複数の文字列のうち入力済みテキストを構成する文字列と一致する文字列を特定し、その特定した文字列のうち、入力済みテキストを構成する文字列の終端の文字列（最後の文字列）と一致する文字列に対応する音声位置情報を音声インデックスから読み出す。そして、推定部６０は、その読み出した音声位置情報から、作成済み音声位置情報を推定する。具体的な内容については後述する。
【００２０】
設定部７０は、推定部６０で推定された作成済み音声位置情報に基づいて、音声データのうち再生が開始される位置を示す再生開始位置を設定する。本実施形態では、設定部７０は、推定部６０で推定された作成済み音声位置情報が示す位置を、再生開始位置に設定する。再生指示受付部８０は、音声データの再生を指示する再生指示を受け付ける。例えばユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された再生用ボタンを選択することで、再生指示を入力することができるが、これに限らず、再生指示の入力方法は任意である。なお、本実施形態では、ユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された停止用ボタン、巻き戻し用ボタン、早送り用ボタンなどを選択することで、各種の指示を入力することができる。そして、その入力に応じて音声データの再生が制御される。
【００２１】
再生制御部９０は、再生指示受付部８０で再生指示を受け付けた場合、設定部７０で設定された再生開始位置から音声データを再生するように再生部２０を制御する。再生制御部９０は、例えばＰＣのオペレーションシステムやドライバが有するオーディオ機能で実現されるが、電子回路などのハードウェア回路でも実現可能である。
【００２２】
本実施形態では、上述の第１記憶部１０、再生部２０および第２記憶部４０はハードウェア回路で構成される。一方、上述のインデックス生成部３０、テキスト作成部５０、推定部６０、設定部７０、再生指示受付部８０および再生制御部９０の各々は、ＰＣに搭載されたＣＰＵがＲＯＭなどに格納された制御プログラムを実行することにより実現されるが、これに限らず、例えばインデックス生成部３０、テキスト作成部５０、推定部６０、設定部７０、再生指示受付部８０および再生制御部９０のうちの少なくとも一部がハードウェア回路で構成されてもよい。
【００２３】
次に、具体例として、ユーザーが「先ほどの内容、今日議題にございました件ですが」という音声データを書き起こす場合を想定する。ここでは、ユーザーは、「先ほどの内容、」までを書き起こしており、音声データの再生は、その先の任意の場所で一時停止しているものとする。また、この例では、書き起こし作業の開始前において、図２に示す音声インデックスが既に生成されており、当該音声インデックスは第２記憶部４０に格納されているものとする。
【００２４】
この場合、推定部６０は、図２に示す音声インデックスに基づいて、音声データのうち、入力済みテキスト「先ほどの内容、」というテキストの作成が完了した位置を示す作成済み音声位置情報を推定する。より具体的には以下のとおりである。まず推定部６０は、音声インデックスに含まれる文字列のうち、入力済みテキスト「先ほどの内容、」を構成する文字列「先」「ほど」「の」「内容」と一致する文字列「先」「ほど」「の」「内容」を特定する。次に、推定部６０は、特定した文字列「先」「ほど」「の」「内容」のうち、入力済みテキストを構成する文字列の終端の文字列と一致する文字列「内容」に対応する音声位置情報「７００ｍｓ−１１００ｍｓ」を音声インデックスから読み出す。次に、推定部６０は、その読み出した音声位置情報から作成済み音声位置情報を推定する。この例では、推定部６０は、終端の文字列「内容」に対応する音声位置情報「７００ｍｓ−１１００ｍｓ」の終点「１１００ｍｓ」を、作成済み音声位置情報として推定する。
【００２５】
そして、設定部７０は、推定部６０で推定された作成済み音声位置情報「１１００ｍｓ」を再生開始位置に設定する。これにより、書き起こし作業を再開する場合に、ユーザーがマウスやキーボードなどを操作して再生指示を入力すると、「１１００ｍｓ」の再生位置から音声データの再生が開始される。
【００２６】
以上に説明したように、本実施形態の書き起こし支援システム１００は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定し、その作成済み音声位置情報が示す音声データの位置を再生開始位置に設定するので、ユーザーは、音声データの巻き戻しや早送りを繰り返しながら、書き起こしが完了した位置に再生開始位置を合わせる必要はない。すなわち、本実施形態によれば、作業効率を向上させることが可能な書き起こし支援システムを提供できるという有利な効果を奏する。
【００２７】
（Ｂ：第２実施形態）
次に、第２実施形態について説明する。第２実施形態では、音声データの再生に対する書き起こしの遅延の程度を示す遅延量が所定の範囲内に収まるように、再生方法が可変に制御される。以下では、第１実施形態と共通する部分については、同一の符号を付して適宜に説明を省略する。
【００２８】
図３は、第２実施形態の書き起こし支援システム２００の概略構成例を示すブロック図である。図３に示すように、書き起こし支援システム２００は、第１記憶部１０と、再生部２０と、インデックス生成部３０と、第２記憶部４０と、テキスト作成部５０と、推定部６０と、再生指示受付部８０と、再生位置取得部１１０と、算出部１２０と、再生制御部１３０とを含む。
【００２９】
再生位置取得部１１０は、再生部２０によって再生されている音声データの現在の再生位置を示す再生音声位置情報を取得する。本実施形態では、再生位置取得部１１０は、再生制御部１３０から再生音声位置情報を取得する。なお、例えば再生位置取得部１１０が設けられずに、再生制御部１３０の機能の中に、再生位置取得部１１０の機能が含まれる構成であってもよい。要するに、書き起こし支援システム２００は、再生音声位置情報を取得する取得部を備えていればよい。
【００３０】
算出部１２０は、推定部６０で推定された作成済み音声位置情報と、再生位置取得部１１０で取得された再生音声位置情報とから、遅延量を算出する。本実施形態では、算出部１２０は、推定部６０で推定された作成済み音声位置情報と、再生位置取得部１１０で取得された再生音声位置情報との差を、遅延量として算出する。なお、遅延量の算出タイミングは任意であり、例えばテキスト作成部５０でテキストが作成されるたびに（テキストの入力が行われるたびに）、遅延量が算出される構成であってもよいし、所定の周期ごとに（例えば1秒ごとに）遅延量が算出される構成であってもよい。
【００３１】
再生制御部１３０は、算出部１２０で算出された遅延量に応じて、再生部２０による再生を可変に制御する再生制御処理を実行する。より具体的には、再生制御部１３０は、算出部１２０で算出された遅延量と、予め設定された３種類の閾値Ａ、Ｂ、Ｃ（Ａ＞Ｂ＞Ｃ）とを順番に比較し、その比較結果に応じた制御を行う。図４は、予め設定された３種類の閾値の一例であるが、これに限定されるものではない。
【００３２】
以下、図５を参照しながら、再生制御部１３０が実行する再生制御処理を説明する。図５は、再生制御処理の一例を示すフローチャートである。まず、再生制御部１３０は、算出部１２０で算出された遅延量と閾値Ａとを比較して、遅延量が閾値Ａ以上であるか否かを判定する（ステップＳ１）。遅延量が閾値Ａ以上であると判定した場合（ステップＳ１の結果：ＹＥＳ）、再生制御部１３０は、遅延量限界時処理を実行する（ステップＳ２）。遅延量限界時処理とは、遅延量が、音声データの再生を先に進めることができないレベルまで到達したと判断された場合の処理である。遅延量限界時処理の一例として、本実施形態の再生制御部１３０は、音声データの再生を、現在の再生位置で一時停止するように再生部２０を制御する。すなわち、音声データの再生が自動的に停止するので、ユーザーは、停止操作を行わずに書き起こし作業を進めることができる。
【００３３】
また、遅延量限界時処理の他の例として、再生制御部１３０は、所定の警告音を出力するように再生部２０を制御した後、音声データの再生位置を、推定部６０により推定された作成済み音声位置情報が示す位置に戻して再生を続けるように再生部２０を制御することもできる。これにより、音声データの再生位置が、テキストの作成が完了した位置に戻されて再生が続けられるので、ユーザーは、音声データの一時停止や巻き戻しを行うことなく、聞き逃した単語を確かめながら書き起こし作業を続けることができる。また、この例では、音声データの再生位置が、テキストの作成が完了した位置に戻される直前に、ユーザーに対して所定の警告音が出力（報知）されるので、ユーザーは、音声データの再生位置が変更されることを事前に察知できる。したがって、音声データの再生位置が不意に変更されてユーザーが戸惑うことを防止できる。
【００３４】
上述のステップＳ１において、遅延量が閾値Ａを下回ると判定した場合（ステップＳ１の結果：ＮＯ）、再生制御部１３０は、算出部１２０で算出された遅延量と閾値Ｂとを比較して、遅延量が閾値Ｂ以上であるか否かを判定する（ステップＳ３）。遅延量が閾値Ｂ以上であると判定した場合（ステップＳ３の結果：ＹＥＳ）、再生制御部１３０は、遅延量増大時処理を実行する（ステップＳ４）。遅延量増大時処理とは、書き起こし作業が、音声データの再生に対して遅れ始めていると判断された場合の処理である。遅延量増大時処理の一例として、本実施形態の再生制御部１３０は、音声データの再生速度が通常の再生速度に比べて低下するように再生部２０を制御する。これにより、遅延量を減少させることができるので、ユーザーは、音声データの再生を止めることなく、書き起こし作業を継続できる。
【００３５】
また、遅延量増大時処理の他の例として、再生制御部１３０は、音声データのうち音声を含む音声部分の再生速度は通常の再生速度に維持される一方、音声データのうち音声を含まない無音部分の再生速度は通常の再生速度に比べて低下するように再生部２０を制御することもできる。なお、この制御方法は、公知の様々な技術を利用することができる。音声部分の再生速度を低下させた場合は、音声が聞き取りにくくなるのに対して、この制御方法によれば、音声部分の再生速度を通常の再生速度に維持しつつ、無音部分の再生速度を低下させるので、音声が聞き取りづらくなることを防止しつつ遅延量を減少させることができる。
【００３６】
上述のステップＳ３において、遅延量が閾値Ｂを下回ると判定した場合（ステップＳ３の結果：ＮＯ）、再生制御部１３０は、算出部１２０で算出された遅延量と閾値Ｃとを比較して、遅延量が閾値Ｃ未満であるか否かを判定する（ステップＳ５）。遅延量が閾値Ｃ未満であると判定した場合（ステップＳ５の結果：ＹＥＳ）、再生制御部１３０は、遅延解消時処理を実行する（ステップＳ６）。遅延解消時処理とは、音声データの再生に対する書き起こし作業の遅延が解消していると判断された場合の処理である。本実施形態では、再生制御部１３０は、音声データの再生位置を、作成済み音声位置情報が示す位置に戻して再生を続けるように再生部２０を制御する。これにより、ユーザーは特段の操作を行わずに、書き起こし作業を継続できる。一方、遅延量が閾値Ｃ以上（かつ閾値Ｂ未満）であると判定した場合（ステップＳ５の結果：ＮＯ）は、何の処理も行われずに再生制御処理は終了する。なお、例えば上述の遅延解消時処理が設定されず、遅延量限界時処理および遅延量増大時処理のみが設定される構成であってもよい。この構成の場合、予め設定される閾値は、閾値Ａおよび閾値Ｂとなる。
【００３７】
以上に説明したように、本実施形態では、再生制御部１３０は、遅延量が所定の範囲内（ユーザーが書き起こし作業を継続可能な範囲内）に収まるように、再生部２０による再生を可変に制御するので、ユーザーは、一時停止や巻き戻しなどの特段の操作を行うことなく、書き起こし作業を継続できる。すなわち、本実施形態によれば、作業効率を向上させることが可能な書き起こし支援システムを提供できるという有利な効果を奏する。
【００３８】
（Ｃ：変形例）
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。以下に変形例を記載する。以下の変形例は、任意に組み合わせることが可能である。
【００３９】
（１）変形例１
上述の第１実施形態では、設定部７０は、推定部６０で推定された作成済み音声位置情報が示す音声データの位置を、再生開始位置に設定しているが、これに限らず、例えば設定部７０は、作成済み音声位置情報が示す位置よりも所定量だけ前の位置を、再生開始位置に設定することもできる。これにより、書き起こしが完了した位置よりも前の位置から再生が再開されるので、ユーザーは、音声データを聞き取り易くなるという利点がある。
【００４０】
同様に、第２実施形態の遅延量限界時処理および遅延解消時処理において、再生制御部１３０は、音声データの再生位置を、作成済み音声位置情報が示す位置よりも所定量だけ前の位置に戻して再生を続けるように再生部２０を制御することもできる。
【００４１】
（２）変形例２
上述の第２実施形態の再生制御処理において、再生制御部１３０は、３つの判定（ステップＳ１、ステップＳ３、ステップＳ５）を順番に行っているが、これに限らず、３つの判定のうちの何れか１つまたは２つの判定を実行するものであってもよい。
【００４２】
（３）変形例３
上述の遅延量の単位は時間であるが、これに限らず、遅延量の単位は任意であり、例えば文字数を遅延量の単位とすることもできる。
【００４３】
例えば、「先ほどの内容、今日議題にございました件ですが」という音声データが再生される場合を想定する。再生位置取得部１１０で取得された再生音声位置情報が「１８００ｍｓ」である場合、図２に示す音声インデックスを参照すると、音声データの現在の再生位置は、「先ほどの内容、今日議題に」の「に」であることが分かる。一方、入力済みテキストが「先ほどの内容、」である場合は、テキストの作成が完了した位置から、再生位置情報が示す音声データの位置に至るまでの間に存在する形態素は、「今日」「議題」「に」であることが分かる。したがって、これらの文字数を加算した７文字が、遅延量であると捉えることができる。そして、閾値Ａ、Ｂ、Ｃを文字数単位で用意して、上述の再生制御処理を実行することができる。
【００４４】
（４）変形例４
また、上述の第１実施形態では、書き起こし支援システムとして、ＰＣが採用されているが、これに限定されるものではない。例えば、音声データを再生する機能を有する第１装置（テープレコーダー等）と、テキスト作成機能を有する第２装置とを含むシステムが、書き起こし支援システムとして採用されてもよい。そして、上述した各部（第１記憶部１０、再生部２０、インデックス生成部３０、第２記憶部４０、テキスト作成部５０、推定部６０、設定部７０、再生指示受付部８０、再生制御部９０）が、第１装置および第２装置の何れかに含まれていればよい。第２実施形態についても同様であり、上述した各部（第１記憶部１０、再生部２０、インデックス生成部３０、第２記憶部４０、テキスト作成部５０、推定部６０、再生指示受付部８０、再生位置取得部１１０、算出部１２０、再生制御部１３０）が、第１装置および第２装置の何れかに含まれていればよい。
【００４５】
（５）変形例５
上述の各実施形態では、書き起こし作業の対象となる言語は日本語であるが、これに限らず、書き起こし作業の対象となる言語の種類は任意である。例えば書き起こし作業の対象となる言語は英語であってもよいし、中国語であってもよい。英語音声の書き起こし作業の場合、第１実施形態に関しては日本語と同一の構成となる。第２実施形態に関しては、文字数による遅延量計算のほかに、英語では単語数か音素数を遅延量とすることが有効である。英語テキスト中の単語数を得ることは一般的な技術で可能である。音素数を得るには、例えばテキスト音声合成に用いる単語辞書を用いれば良い。このような場合は、閾値も単語数単位、または音素数単位で与えられる。また、中国語音声の書き起こし作業の場合は、日本語の場合と同一の構成となる。第２実施形態における遅延量には、文字数として、中国語表記の文字数をそのまま用いることが可能である。
【符号の説明】
【００４６】
１０第１記憶部
２０再生部
３０インデックス生成部
４０第２記憶部
５０テキスト作成部
６０推定部
７０設定部
８０再生指示受付部
９０再生制御部
１００書き起こし支援システム
１１０再生位置取得部
１２０算出部
１３０再生制御部
２００書き起こし支援システム

【特許請求の範囲】
【請求項１】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、
前記音声データを記憶する第１記憶部と、
前記音声データを再生する再生部と、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する第２記憶部と、
ユーザーの操作入力に応じてテキストを作成するテキスト作成部と、
前記音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定部と、
前記作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置を設定する設定部と、を備える、
書き起こし支援システム。
【請求項２】
前記音声データの再生を指示する再生指示を受け付けた場合、前記再生開始位置から前記音声データを再生するように前記再生部を制御する再生制御部をさらに備える、
請求項１に記載の書き起こし支援システム。
【請求項３】
前記推定部は、前記音声インデックスに含まれる複数の文字列のうち、前記作成部で作成された前記テキストを構成する文字列と一致する文字列を特定し、その特定した文字列のうち、前記テキストを構成する文字列の終端の文字列と一致する文字列に対応する音声位置情報から、前記作成済み音声位置情報を推定する、
請求項１に記載の書き起こし支援システム。
【請求項４】
前記設定部は、前記前記作成済み音声位置情報が示す位置を前記再生開始位置に設定する、
請求項１に記載の書き起こし支援システム。
【請求項５】
前記設定部は、前記前記作成済み音声位置情報が示す位置よりも所定量だけ前の位置を、前記再生開始位置に設定する、
請求項１に記載の書き起こし支援システム。
【請求項６】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、
前記音声データを記憶する第１記憶部と、
前記音声データを再生する再生部と、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す位置情報とが対応付けられた音声インデックスを記憶する第２記憶部と、
ユーザーの操作入力に応じてテキストを作成するテキスト作成部と、
前記音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定部と、
前記再生部によって再生されている前記音声データの現在の位置を示す再生音声位置情報を取得する取得部と、
前記作成済み音声位置情報と前記再生音声位置情報とから、前記テキストの作成が前記音声データの再生に対してどの程度遅れているのかを示す遅延量を算出する算出部と、
前記遅延量が所定の範囲内に収まるように、前記再生部による再生を可変に制御する再生制御部と、を備える、
書き起こし支援システム。
【請求項７】
前記再生制御部は、前記遅延量が第１の閾値以上の場合は、前記音声データの再生を、現在の再生位置で一時停止するように前記再生部を制御する、
請求項６に記載の書き起こし支援システム。
【請求項８】
前記再生制御部は、前記遅延量が第１の閾値以上の場合は、所定の警告音を出力するように前記再生部を制御した後、前記音声データの再生位置を、前記作成済み音声位置情報が示す位置に戻して再生を続けるように前記再生部を制御する、
請求項６に記載の書き起こし支援システム。
【請求項９】
前記再生制御部は、前記遅延量が第２の閾値以上の場合は、前記音声データの再生速度が通常の再生速度に比べて低下するように前記再生部を制御する、
請求項６に記載の書き起こし支援システム。
【請求項１０】
前記再生制御部は、前記遅延量が第２の閾値以上の場合は、前記音声データのうち音声を含む音声部分の再生速度は通常の再生速度に維持される一方、前記音声データのうち音声を含まない無音部分の再生速度は前記通常の再生速度に比べて低下するように前記再生部を制御する、
請求項６に記載の書き起こし支援システム。
【請求項１１】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援方法であって、
前記音声データを再生する再生ステップと、
ユーザーの操作入力に応じてテキストを作成する作成ステップと、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定ステップと、
前記作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置を設定する設定ステップと、を備える、
書き起こし支援方法。
【請求項１２】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援方法であって、
前記音声データを再生する再生ステップと、
ユーザーの操作入力に応じてテキストを作成する作成ステップと、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定ステップと、
前記再生ステップにより再生されている前記音声データの現在の位置を示す再生音声位置情報を取得する取得ステップと、
前記作成済み音声位置情報と前記再生音声位置情報とから、前記テキストの作成が前記音声データの再生に対してどの程度遅れているのかを示す遅延量を算出する算出ステップと、
前記遅延量が所定の範囲内に収まるように、前記再生ステップによる再生を可変に制御する再生制御ステップと、を備える、
書き起こし支援方法。

【図１】