説明

書き起こし支援システムおよび書き起こし支援方法

【課題】作業効率を向上させることが可能な書き起こし支援システムおよび書き起こし支援方法を提供する。
【解決手段】実施形態の書き起こし支援システムは、第1記憶部と、再生部と、第2記憶部と、テキスト作成部と、設定部とを備える。第1記憶部は音声データを記憶する。再生部は音声データを再生する。第2記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。設定部は、作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置に設定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、書き起こし支援システムおよび書き起こし支援方法に関する。
【背景技術】
【0002】
従来、書き起こし作業の効率化を図るための様々な技術が知られている。例えば、音声データに対して音声認識処理を実行することにより得られた音声テキストデータを構成する複数の文字列の各々と、音声データの位置(再生位置)とを対応付けて画面上に表示させるという技術が知られている。この技術では、画面上の文字列が選択されると、その文字列に対応する再生位置から音声データが再生されるので、ユーザー(書き起こし作業者)は、文字列を選択して音声データを聞きながら当該文字列の修正を行う。
【0003】
上述した技術では、音声テキストデータを構成する複数の文字列の各々と、音声データの再生位置とを対応付けて画面上に表示させる必要があるので、表示制御の構成が複雑になるという問題がある。したがって、構成の簡素化を図るという観点からは、音声認識結果の修正作業を行う書き起こし方式よりも、音声データを再生しながら、聞き取れた範囲をテキスト化していく書き起こし方式の方が好ましい。
【0004】
この場合、ユーザーは、音声データの一時停止、巻き戻しを繰り返しながら書き起こし作業を行うことになる。ここで、一時停止を解除して音声データの再生を再開する場合(書き起こし作業を再開する場合)は、音声データのうち書き起こしが完了した位置から再生が再開されることが望ましい。そこで、一時停止時における音声データの位置から所定量だけ巻き戻した位置を、再生が開始される位置を示す再生開始位置として設定するという技術が考えられる。
【0005】
しかしながら、一時停止時における音声データの位置と、音声データのうち書き起こしが完了した位置との差は常に一定であるとは限らないので、書き起こしが完了した位置から音声データの再生を再開させることは困難である。そのため、ユーザーは、音声データの巻き戻しや早送りを繰り返しながら位置合わせを行う場合が多いので、ユーザーの作業効率が低下してしまうという問題がある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2005−228178号公報
【特許文献2】特許第4558308号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明が解決しようとする課題は、ユーザーの作業効率を向上させることが可能な書き起こし支援システムを提供することである。
【課題を解決するための手段】
【0008】
実施形態の書き起こし支援システムは、第1記憶部と、再生部と、第2記憶部と、テキスト作成部と、推定部と、設定部とを備える。第1記憶部は音声データを記憶する。再生部は音声データを再生する。第2記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。設定部は、作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置を設定する。
【0009】
また、実施形態の書き起こし支援システムは、第1記憶部と、再生部と、第2記憶部と、テキスト作成部と、推定部と、取得部と、算出部と、再生制御部と、を備える。第1記憶部は音声データを記憶する。再生部は音声データを再生する。第2記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。取得部は、再生部によって再生が行われている音声データの現在の再生位置を示す再生音声位置情報を取得する。算出部は、作成済み音声位置情報と再生音声位置情報とから、テキストの作成が音声データの再生に対してどの程度遅れているのかを示す遅延量を算出する。再生制御部は、遅延量が所定の範囲内に収まるように、再生部による再生を可変に制御する。
【0010】
また、実施形態の書き起こし支援方法は、再生ステップと作成ステップと推定ステップと設定ステップとを備える。再生ステップは、音声データを再生する。作成ステップは、ユーザーの操作入力に応じてテキストを作成する。推定ステップは、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。設定ステップは、作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置を設定する。さらに、実施形態の書き起こし支援方法は、再生ステップと作成ステップと推定ステップと取得ステップと算出ステップと再生制御ステップとを備える。再生ステップは、音声データを再生する。作成ステップは、ユーザーの操作入力に応じてテキストを作成する。推定ステップは、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。取得ステップは、再生ステップにより再生されている音声データの現在の位置を示す再生音声位置情報を取得する。算出ステップは、作成済み音声位置情報と再生音声位置情報とから、テキストの作成が音声データの再生に対してどの程度遅れているのかを示す遅延量を算出する。再生制御ステップは、遅延量が所定の範囲内に収まるように、再生ステップによる再生を可変に制御する。
【図面の簡単な説明】
【0011】
【図1】第1実施形態の書き起こし支援システムの概略構成例を示すブロック図。
【図2】音声インデックスの一例を示す図。
【図3】第2実施形態の書き起こし支援システムの概略構成例を示すブロック図。
【図4】3種類の閾値の一例を示す図。
【図5】再生制御処理の一例を示すフローチャート。
【発明を実施するための形態】
【0012】
以下、添付図面を参照しながら、本発明に係る書き起こし支援システムの実施の形態を詳細に説明する。なお、以下の各実施形態では、書き起こし支援システムとして、音声データを再生する機能、および、ユーザーの操作に応じてテキストを作成するテキスト作成機能を有するPC(Personal Computer)を例に挙げて説明するが、これに限定されるものではない。以下の各実施形態では、書き起こし作業を行う場合、ユーザーは、収録された音声データを再生しながらキーボードを操作してテキスト入力を行い、音声データをテキスト化していく。
【0013】
(A:第1実施形態)
図1は、第1実施形態の書き起こし支援システム100の概略構成例を示すブロック図である。図1に示すように、書き起こし支援システム100は、第1記憶部10と、再生部20と、インデックス生成部30と、第2記憶部40と、テキスト作成部50と、推定部60と、設定部70と、再生指示受付部80と、再生制御部90とを含む。
【0014】
第1記憶部10は、音声データを記憶する。音声データは、例えばwav、mp3などの形式の音声ファイルである。音声データの取得方法は任意であり、例えばインターネット等のネットワーク経由で取得することもできるし、マイクロフォンなどを用いて取得することもできる。再生部20は、音声データを再生する手段であり、例えばスピーカ、DAコンバータおよびヘッドフォンなどから構成される機器である。
【0015】
インデックス生成部30は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置(再生位置)を示す音声位置情報とを対応付けた音声インデックスを生成する。一例として、「先ほどの内容、今日議題にございました件ですが」という音声データの音声インデックスを作成する場合を想定する。この場合、まずインデックス生成部30は、音声データに対して公知の音声認識処理を実行して音声テキストデータを生成する。音声認識処理は、公知の様々な技術を利用することができる。次に、インデックス生成部30は、音声認識処理により得られた音声テキストデータを、文よりも小さい単位に分割する。例えば、単語・形態素・文節などの単位で分割することができるが、この分割方法は任意である。ここでは、一例として、分割単位を形態素とする。そして、インデックス生成部30は、音声テキストデータを構成する複数の形態素の各々と、音声データの音声位置情報とを対応付ける。これにより、図2に示されるような音声インデックスが生成される。音声認識処理では、音声データを10〜20ms程度の一定間隔で処理する。音声位置情報との対応付けは、処理対象となっている音声データとそれに対応する認識結果を音声認識処理の過程で取得することで実現できる。
【0016】
図2の例では、音声データの音声位置情報は、音声データの先頭からその位置まで再生するのに要する時間を示す時間情報を用いて表される(単位はミリ秒)。例えば図2の「今日」に対応する位置情報は「1100ms−1400ms」であるが、これは、音声データを再生した場合に、「今日」という音声の再生開始位置が1100msで、再生終了位置が1400msであることを意味している。言い換えれば、音声データを再生した場合に、当該音声データの先頭から1100ms経過した時点を始点とし、先頭から1400ms経過した時点を終点とする期間が、「今日」という音声が再生される期間であることを意味している。
【0017】
再び図1に戻って説明を続ける。第2記憶部40は、インデックス生成部30で生成された音声インデックスを記憶する。なお、音声インデックスは、書き起こし作業の開始前に既に作成されていてもよいし、書き起こし作業中にリアルタイムで作成されてもよい。
【0018】
テキスト作成部50は、ユーザーの操作入力に応じてテキストを作成する。本実施形態では、ユーザーは、キーボードなどの操作デバイスを操作することによりテキストを入力し、テキスト作成部50は、その入力に従ってテキストを作成する。以下では、説明の便宜上、テキスト作成部50で作成されたテキストを「入力済みテキスト」と呼ぶ。
【0019】
推定部60は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置(つまりは書き起しが完了した位置)を示す作成済み音声位置情報を推定する。本実施形態では、推定部60は、音声インデックスに含まれる複数の文字列のうち入力済みテキストを構成する文字列と一致する文字列を特定し、その特定した文字列のうち、入力済みテキストを構成する文字列の終端の文字列(最後の文字列)と一致する文字列に対応する音声位置情報を音声インデックスから読み出す。そして、推定部60は、その読み出した音声位置情報から、作成済み音声位置情報を推定する。具体的な内容については後述する。
【0020】
設定部70は、推定部60で推定された作成済み音声位置情報に基づいて、音声データのうち再生が開始される位置を示す再生開始位置を設定する。本実施形態では、設定部70は、推定部60で推定された作成済み音声位置情報が示す位置を、再生開始位置に設定する。再生指示受付部80は、音声データの再生を指示する再生指示を受け付ける。例えばユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された再生用ボタンを選択することで、再生指示を入力することができるが、これに限らず、再生指示の入力方法は任意である。なお、本実施形態では、ユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された停止用ボタン、巻き戻し用ボタン、早送り用ボタンなどを選択することで、各種の指示を入力することができる。そして、その入力に応じて音声データの再生が制御される。
【0021】
再生制御部90は、再生指示受付部80で再生指示を受け付けた場合、設定部70で設定された再生開始位置から音声データを再生するように再生部20を制御する。再生制御部90は、例えばPCのオペレーションシステムやドライバが有するオーディオ機能で実現されるが、電子回路などのハードウェア回路でも実現可能である。
【0022】
本実施形態では、上述の第1記憶部10、再生部20および第2記憶部40はハードウェア回路で構成される。一方、上述のインデックス生成部30、テキスト作成部50、推定部60、設定部70、再生指示受付部80および再生制御部90の各々は、PCに搭載されたCPUがROMなどに格納された制御プログラムを実行することにより実現されるが、これに限らず、例えばインデックス生成部30、テキスト作成部50、推定部60、設定部70、再生指示受付部80および再生制御部90のうちの少なくとも一部がハードウェア回路で構成されてもよい。
【0023】
次に、具体例として、ユーザーが「先ほどの内容、今日議題にございました件ですが」という音声データを書き起こす場合を想定する。ここでは、ユーザーは、「先ほどの内容、」までを書き起こしており、音声データの再生は、その先の任意の場所で一時停止しているものとする。また、この例では、書き起こし作業の開始前において、図2に示す音声インデックスが既に生成されており、当該音声インデックスは第2記憶部40に格納されているものとする。
【0024】
この場合、推定部60は、図2に示す音声インデックスに基づいて、音声データのうち、入力済みテキスト「先ほどの内容、」というテキストの作成が完了した位置を示す作成済み音声位置情報を推定する。より具体的には以下のとおりである。まず推定部60は、音声インデックスに含まれる文字列のうち、入力済みテキスト「先ほどの内容、」を構成する文字列「先」「ほど」「の」「内容」と一致する文字列「先」「ほど」「の」「内容」を特定する。次に、推定部60は、特定した文字列「先」「ほど」「の」「内容」のうち、入力済みテキストを構成する文字列の終端の文字列と一致する文字列「内容」に対応する音声位置情報「700ms−1100ms」を音声インデックスから読み出す。次に、推定部60は、その読み出した音声位置情報から作成済み音声位置情報を推定する。この例では、推定部60は、終端の文字列「内容」に対応する音声位置情報「700ms−1100ms」の終点「1100ms」を、作成済み音声位置情報として推定する。
【0025】
そして、設定部70は、推定部60で推定された作成済み音声位置情報「1100ms」を再生開始位置に設定する。これにより、書き起こし作業を再開する場合に、ユーザーがマウスやキーボードなどを操作して再生指示を入力すると、「1100ms」の再生位置から音声データの再生が開始される。
【0026】
以上に説明したように、本実施形態の書き起こし支援システム100は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定し、その作成済み音声位置情報が示す音声データの位置を再生開始位置に設定するので、ユーザーは、音声データの巻き戻しや早送りを繰り返しながら、書き起こしが完了した位置に再生開始位置を合わせる必要はない。すなわち、本実施形態によれば、作業効率を向上させることが可能な書き起こし支援システムを提供できるという有利な効果を奏する。
【0027】
(B:第2実施形態)
次に、第2実施形態について説明する。第2実施形態では、音声データの再生に対する書き起こしの遅延の程度を示す遅延量が所定の範囲内に収まるように、再生方法が可変に制御される。以下では、第1実施形態と共通する部分については、同一の符号を付して適宜に説明を省略する。
【0028】
図3は、第2実施形態の書き起こし支援システム200の概略構成例を示すブロック図である。図3に示すように、書き起こし支援システム200は、第1記憶部10と、再生部20と、インデックス生成部30と、第2記憶部40と、テキスト作成部50と、推定部60と、再生指示受付部80と、再生位置取得部110と、算出部120と、再生制御部130とを含む。
【0029】
再生位置取得部110は、再生部20によって再生されている音声データの現在の再生位置を示す再生音声位置情報を取得する。本実施形態では、再生位置取得部110は、再生制御部130から再生音声位置情報を取得する。なお、例えば再生位置取得部110が設けられずに、再生制御部130の機能の中に、再生位置取得部110の機能が含まれる構成であってもよい。要するに、書き起こし支援システム200は、再生音声位置情報を取得する取得部を備えていればよい。
【0030】
算出部120は、推定部60で推定された作成済み音声位置情報と、再生位置取得部110で取得された再生音声位置情報とから、遅延量を算出する。本実施形態では、算出部120は、推定部60で推定された作成済み音声位置情報と、再生位置取得部110で取得された再生音声位置情報との差を、遅延量として算出する。なお、遅延量の算出タイミングは任意であり、例えばテキスト作成部50でテキストが作成されるたびに(テキストの入力が行われるたびに)、遅延量が算出される構成であってもよいし、所定の周期ごとに(例えば1秒ごとに)遅延量が算出される構成であってもよい。
【0031】
再生制御部130は、算出部120で算出された遅延量に応じて、再生部20による再生を可変に制御する再生制御処理を実行する。より具体的には、再生制御部130は、算出部120で算出された遅延量と、予め設定された3種類の閾値A、B、C(A>B>C)とを順番に比較し、その比較結果に応じた制御を行う。図4は、予め設定された3種類の閾値の一例であるが、これに限定されるものではない。
【0032】
以下、図5を参照しながら、再生制御部130が実行する再生制御処理を説明する。図5は、再生制御処理の一例を示すフローチャートである。まず、再生制御部130は、算出部120で算出された遅延量と閾値Aとを比較して、遅延量が閾値A以上であるか否かを判定する(ステップS1)。遅延量が閾値A以上であると判定した場合(ステップS1の結果:YES)、再生制御部130は、遅延量限界時処理を実行する(ステップS2)。遅延量限界時処理とは、遅延量が、音声データの再生を先に進めることができないレベルまで到達したと判断された場合の処理である。遅延量限界時処理の一例として、本実施形態の再生制御部130は、音声データの再生を、現在の再生位置で一時停止するように再生部20を制御する。すなわち、音声データの再生が自動的に停止するので、ユーザーは、停止操作を行わずに書き起こし作業を進めることができる。
【0033】
また、遅延量限界時処理の他の例として、再生制御部130は、所定の警告音を出力するように再生部20を制御した後、音声データの再生位置を、推定部60により推定された作成済み音声位置情報が示す位置に戻して再生を続けるように再生部20を制御することもできる。これにより、音声データの再生位置が、テキストの作成が完了した位置に戻されて再生が続けられるので、ユーザーは、音声データの一時停止や巻き戻しを行うことなく、聞き逃した単語を確かめながら書き起こし作業を続けることができる。また、この例では、音声データの再生位置が、テキストの作成が完了した位置に戻される直前に、ユーザーに対して所定の警告音が出力(報知)されるので、ユーザーは、音声データの再生位置が変更されることを事前に察知できる。したがって、音声データの再生位置が不意に変更されてユーザーが戸惑うことを防止できる。
【0034】
上述のステップS1において、遅延量が閾値Aを下回ると判定した場合(ステップS1の結果:NO)、再生制御部130は、算出部120で算出された遅延量と閾値Bとを比較して、遅延量が閾値B以上であるか否かを判定する(ステップS3)。遅延量が閾値B以上であると判定した場合(ステップS3の結果:YES)、再生制御部130は、遅延量増大時処理を実行する(ステップS4)。遅延量増大時処理とは、書き起こし作業が、音声データの再生に対して遅れ始めていると判断された場合の処理である。遅延量増大時処理の一例として、本実施形態の再生制御部130は、音声データの再生速度が通常の再生速度に比べて低下するように再生部20を制御する。これにより、遅延量を減少させることができるので、ユーザーは、音声データの再生を止めることなく、書き起こし作業を継続できる。
【0035】
また、遅延量増大時処理の他の例として、再生制御部130は、音声データのうち音声を含む音声部分の再生速度は通常の再生速度に維持される一方、音声データのうち音声を含まない無音部分の再生速度は通常の再生速度に比べて低下するように再生部20を制御することもできる。なお、この制御方法は、公知の様々な技術を利用することができる。音声部分の再生速度を低下させた場合は、音声が聞き取りにくくなるのに対して、この制御方法によれば、音声部分の再生速度を通常の再生速度に維持しつつ、無音部分の再生速度を低下させるので、音声が聞き取りづらくなることを防止しつつ遅延量を減少させることができる。
【0036】
上述のステップS3において、遅延量が閾値Bを下回ると判定した場合(ステップS3の結果:NO)、再生制御部130は、算出部120で算出された遅延量と閾値Cとを比較して、遅延量が閾値C未満であるか否かを判定する(ステップS5)。遅延量が閾値C未満であると判定した場合(ステップS5の結果:YES)、再生制御部130は、遅延解消時処理を実行する(ステップS6)。遅延解消時処理とは、音声データの再生に対する書き起こし作業の遅延が解消していると判断された場合の処理である。本実施形態では、再生制御部130は、音声データの再生位置を、作成済み音声位置情報が示す位置に戻して再生を続けるように再生部20を制御する。これにより、ユーザーは特段の操作を行わずに、書き起こし作業を継続できる。一方、遅延量が閾値C以上(かつ閾値B未満)であると判定した場合(ステップS5の結果:NO)は、何の処理も行われずに再生制御処理は終了する。なお、例えば上述の遅延解消時処理が設定されず、遅延量限界時処理および遅延量増大時処理のみが設定される構成であってもよい。この構成の場合、予め設定される閾値は、閾値Aおよび閾値Bとなる。
【0037】
以上に説明したように、本実施形態では、再生制御部130は、遅延量が所定の範囲内(ユーザーが書き起こし作業を継続可能な範囲内)に収まるように、再生部20による再生を可変に制御するので、ユーザーは、一時停止や巻き戻しなどの特段の操作を行うことなく、書き起こし作業を継続できる。すなわち、本実施形態によれば、作業効率を向上させることが可能な書き起こし支援システムを提供できるという有利な効果を奏する。
【0038】
(C:変形例)
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。以下に変形例を記載する。以下の変形例は、任意に組み合わせることが可能である。
【0039】
(1)変形例1
上述の第1実施形態では、設定部70は、推定部60で推定された作成済み音声位置情報が示す音声データの位置を、再生開始位置に設定しているが、これに限らず、例えば設定部70は、作成済み音声位置情報が示す位置よりも所定量だけ前の位置を、再生開始位置に設定することもできる。これにより、書き起こしが完了した位置よりも前の位置から再生が再開されるので、ユーザーは、音声データを聞き取り易くなるという利点がある。
【0040】
同様に、第2実施形態の遅延量限界時処理および遅延解消時処理において、再生制御部130は、音声データの再生位置を、作成済み音声位置情報が示す位置よりも所定量だけ前の位置に戻して再生を続けるように再生部20を制御することもできる。
【0041】
(2)変形例2
上述の第2実施形態の再生制御処理において、再生制御部130は、3つの判定(ステップS1、ステップS3、ステップS5)を順番に行っているが、これに限らず、3つの判定のうちの何れか1つまたは2つの判定を実行するものであってもよい。
【0042】
(3)変形例3
上述の遅延量の単位は時間であるが、これに限らず、遅延量の単位は任意であり、例えば文字数を遅延量の単位とすることもできる。
【0043】
例えば、「先ほどの内容、今日議題にございました件ですが」という音声データが再生される場合を想定する。再生位置取得部110で取得された再生音声位置情報が「1800ms」である場合、図2に示す音声インデックスを参照すると、音声データの現在の再生位置は、「先ほどの内容、今日議題に」の「に」であることが分かる。一方、入力済みテキストが「先ほどの内容、」である場合は、テキストの作成が完了した位置から、再生位置情報が示す音声データの位置に至るまでの間に存在する形態素は、「今日」「議題」「に」であることが分かる。したがって、これらの文字数を加算した7文字が、遅延量であると捉えることができる。そして、閾値A、B、Cを文字数単位で用意して、上述の再生制御処理を実行することができる。
【0044】
(4)変形例4
また、上述の第1実施形態では、書き起こし支援システムとして、PCが採用されているが、これに限定されるものではない。例えば、音声データを再生する機能を有する第1装置(テープレコーダー等)と、テキスト作成機能を有する第2装置とを含むシステムが、書き起こし支援システムとして採用されてもよい。そして、上述した各部(第1記憶部10、再生部20、インデックス生成部30、第2記憶部40、テキスト作成部50、推定部60、設定部70、再生指示受付部80、再生制御部90)が、第1装置および第2装置の何れかに含まれていればよい。第2実施形態についても同様であり、上述した各部(第1記憶部10、再生部20、インデックス生成部30、第2記憶部40、テキスト作成部50、推定部60、再生指示受付部80、再生位置取得部110、算出部120、再生制御部130)が、第1装置および第2装置の何れかに含まれていればよい。
【0045】
(5)変形例5
上述の各実施形態では、書き起こし作業の対象となる言語は日本語であるが、これに限らず、書き起こし作業の対象となる言語の種類は任意である。例えば書き起こし作業の対象となる言語は英語であってもよいし、中国語であってもよい。英語音声の書き起こし作業の場合、第1実施形態に関しては日本語と同一の構成となる。第2実施形態に関しては、文字数による遅延量計算のほかに、英語では単語数か音素数を遅延量とすることが有効である。英語テキスト中の単語数を得ることは一般的な技術で可能である。音素数を得るには、例えばテキスト音声合成に用いる単語辞書を用いれば良い。このような場合は、閾値も単語数単位、または音素数単位で与えられる。また、中国語音声の書き起こし作業の場合は、日本語の場合と同一の構成となる。第2実施形態における遅延量には、文字数として、中国語表記の文字数をそのまま用いることが可能である。
【符号の説明】
【0046】
10 第1記憶部
20 再生部
30 インデックス生成部
40 第2記憶部
50 テキスト作成部
60 推定部
70 設定部
80 再生指示受付部
90 再生制御部
100 書き起こし支援システム
110 再生位置取得部
120 算出部
130 再生制御部
200 書き起こし支援システム












【特許請求の範囲】
【請求項1】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、
前記音声データを記憶する第1記憶部と、
前記音声データを再生する再生部と、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する第2記憶部と、
ユーザーの操作入力に応じてテキストを作成するテキスト作成部と、
前記音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定部と、
前記作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置を設定する設定部と、を備える、
書き起こし支援システム。
【請求項2】
前記音声データの再生を指示する再生指示を受け付けた場合、前記再生開始位置から前記音声データを再生するように前記再生部を制御する再生制御部をさらに備える、
請求項1に記載の書き起こし支援システム。
【請求項3】
前記推定部は、前記音声インデックスに含まれる複数の文字列のうち、前記作成部で作成された前記テキストを構成する文字列と一致する文字列を特定し、その特定した文字列のうち、前記テキストを構成する文字列の終端の文字列と一致する文字列に対応する音声位置情報から、前記作成済み音声位置情報を推定する、
請求項1に記載の書き起こし支援システム。
【請求項4】
前記設定部は、前記前記作成済み音声位置情報が示す位置を前記再生開始位置に設定する、
請求項1に記載の書き起こし支援システム。
【請求項5】
前記設定部は、前記前記作成済み音声位置情報が示す位置よりも所定量だけ前の位置を、前記再生開始位置に設定する、
請求項1に記載の書き起こし支援システム。
【請求項6】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、
前記音声データを記憶する第1記憶部と、
前記音声データを再生する再生部と、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す位置情報とが対応付けられた音声インデックスを記憶する第2記憶部と、
ユーザーの操作入力に応じてテキストを作成するテキスト作成部と、
前記音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定部と、
前記再生部によって再生されている前記音声データの現在の位置を示す再生音声位置情報を取得する取得部と、
前記作成済み音声位置情報と前記再生音声位置情報とから、前記テキストの作成が前記音声データの再生に対してどの程度遅れているのかを示す遅延量を算出する算出部と、
前記遅延量が所定の範囲内に収まるように、前記再生部による再生を可変に制御する再生制御部と、を備える、
書き起こし支援システム。
【請求項7】
前記再生制御部は、前記遅延量が第1の閾値以上の場合は、前記音声データの再生を、現在の再生位置で一時停止するように前記再生部を制御する、
請求項6に記載の書き起こし支援システム。
【請求項8】
前記再生制御部は、前記遅延量が第1の閾値以上の場合は、所定の警告音を出力するように前記再生部を制御した後、前記音声データの再生位置を、前記作成済み音声位置情報が示す位置に戻して再生を続けるように前記再生部を制御する、
請求項6に記載の書き起こし支援システム。
【請求項9】
前記再生制御部は、前記遅延量が第2の閾値以上の場合は、前記音声データの再生速度が通常の再生速度に比べて低下するように前記再生部を制御する、
請求項6に記載の書き起こし支援システム。
【請求項10】
前記再生制御部は、前記遅延量が第2の閾値以上の場合は、前記音声データのうち音声を含む音声部分の再生速度は通常の再生速度に維持される一方、前記音声データのうち音声を含まない無音部分の再生速度は前記通常の再生速度に比べて低下するように前記再生部を制御する、
請求項6に記載の書き起こし支援システム。
【請求項11】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援方法であって、
前記音声データを再生する再生ステップと、
ユーザーの操作入力に応じてテキストを作成する作成ステップと、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定ステップと、
前記作成済み音声位置情報に基づいて、再生を開始する位置を示す再生開始位置を設定する設定ステップと、を備える、
書き起こし支援方法。
【請求項12】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援方法であって、
前記音声データを再生する再生ステップと、
ユーザーの操作入力に応じてテキストを作成する作成ステップと、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定ステップと、
前記再生ステップにより再生されている前記音声データの現在の位置を示す再生音声位置情報を取得する取得ステップと、
前記作成済み音声位置情報と前記再生音声位置情報とから、前記テキストの作成が前記音声データの再生に対してどの程度遅れているのかを示す遅延量を算出する算出ステップと、
前記遅延量が所定の範囲内に収まるように、前記再生ステップによる再生を可変に制御する再生制御ステップと、を備える、
書き起こし支援方法。



【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate