書き起こし支援システムおよび書き起こし支援方法

【課題】音声データのうち書き起こしが完了した位置を特定可能な書き起こし支援システムを提供する。
【解決手段】実施形態の書き起こし支援システムは、音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、第１記憶部と、再生部と、第２記憶部と、テキスト作成部と、推定部とを備える。第１記憶部は、音声データを記憶する。再生部は、音声データを再生する。第２記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とを対応付けた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明の実施形態は、音声データをテキスト化する書き起こし作業を支援するための書き起こし支援システムおよび書き起こし支援方法に関する。
【背景技術】
【０００２】
従来、書き起こし作業の効率化を図るための様々な技術が知られている。例えば、音声データに対して音声認識処理を実行することにより得られた音声テキストデータを構成する複数の文字列の各々と、音声データの位置（再生位置）とを対応付けて画面上に表示させるという技術が知られている。この技術では、画面上の文字列が選択されると、その文字列に対応する再生位置から音声データが再生されるので、ユーザー（書き起こし作業者）は、文字列を選択して音声データを聞きながら当該文字列の修正を行う。
【０００３】
上述した技術では、音声テキストデータを構成する複数の文字列の各々と、音声データの再生位置とを対応付けて画面上に表示させる必要があるので、表示制御の構成が複雑になるという問題がある。また、書き起こし作業では、フィラーや文法的な誤りを含む音声データをそのまま書き起こすことは少なく、整文作業を行うのが一般的である。すなわち、音声データと、ユーザーが書き起こそうとする文章との間には大きな差異があるので、上述した技術のように、音声データの音声認識結果を修正する作業を行うことは、必ずしも効率的ではない。したがって、構成の簡素化を図るという観点からは、音声認識結果の修正作業を行う書き起こす方式よりも、音声データを再生しながら、聞き取れた範囲をテキスト化していく書き起こし方式の方が好ましい。この場合、ユーザーは、音声データの一時停止、巻き戻しを繰り返しながら書き起こし作業を行うことになる。ここで、一時停止を解除して音声データの再生を再開する場合（書き起こし作業を再開する場合）は、音声データのうち書き起こしが完了した位置から再生が再開されることが望ましい。
【０００４】
しかしながら、従来においては、音声データのうち書き起こしが完了した位置を特定することは困難であるという問題がある。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００５−２２８１７８号公報
【特許文献２】特許第４５５８３０８号
【発明の概要】
【発明が解決しようとする課題】
【０００６】
本発明が解決しようとする課題は、音声データのうち書き起こしが完了した位置を特定可能な書き起こし支援システムおよび書き起こし支援方法を提供することである。
【課題を解決するための手段】
【０００７】
実施形態の書き起こし支援システムは、音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、第１記憶部と、再生部と、第２記憶部と、テキスト作成部と、推定部とを備える。第１記憶部は、音声データを記憶する。再生部は、音声データを再生する。第２記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。
【０００８】
実施形態の書き起こし支援方法は、音声データをテキスト化する書き起こし作業を支援する書き起こし支援方法であって、再生ステップと、テキスト作成ステップと、推定ステップとを備える。再生ステップは、音声データを再生する。テキスト作成ステップは、ユーザーの操作入力に応じてテキストを作成する。推定ステップは、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。
【図面の簡単な説明】
【０００９】
【図１】実施形態の書き起こし支援システムの概略構成例を示すブロック図。
【図２】音声テキストデータの一例を示す図。
【図３】音声インデックスの一例を示す図。
【図４】テキスト作成処理の一例を示すフローチャート。
【図５】推定処理の一例を示すフローチャート。
【発明を実施するための形態】
【００１０】
以下、添付図面を参照しながら、本発明に係る書き起こし支援システムの実施の形態を詳細に説明する。なお、以下の各実施形態では、書き起こし支援システムとして、音声データを再生する機能、および、ユーザーの操作に応じてテキストを作成するテキスト作成機能を有するＰＣ（Personal Computer）を例に挙げて説明するが、これに限定されるものではない。以下の各実施形態では、書き起こし作業を行う場合、ユーザーは、収録された音声データを再生しながらキーボードを操作してテキスト入力を行い、音声データをテキスト化していく。
【００１１】
図１は、本実施形態の書き起こし支援システム１００の概略構成例を示すブロック図である。図１に示すように、書き起こし支援システム１００は、第１記憶部１１と、再生部１２と、音声認識部１３と、インデックス生成部１４と、第２記憶部１５と、入力受付部１６と、テキスト作成部１７と、推定部１８と、設定部１９と、再生指示受付部２０と、再生制御部２１とを含む。
【００１２】
第１記憶部１１は、音声データを記憶する。音声データは、例えばwav、mp3などの形式の音声ファイルである。音声データの取得方法は任意であり、例えばインターネット等のネットワーク経由で取得することもできるし、マイクロフォンなどを用いて取得することもできる。再生部１２は、音声データを再生する手段であり、例えばスピーカ、ＤＡコンバータおよびヘッドフォンなどから構成される機器である。
【００１３】
音声認識部１３は、音声データに対して音声認識処理を実行してテキスト化する。音声認識処理により得られたテキストデータを音声テキストデータと呼ぶ。音声認識処理は、公知の様々な技術を利用することができる。本実施形態では、音声認識部１３により生成された音声テキストデータは、単語・形態素・文節などの文よりも小さい単位で分割され、ラティスと呼ばれる認識候補（分割単位の候補）をつないだネットワーク構造で表される。音声テキストデータの形態はこれに限られない。例えば音声認識処理の最適な認識結果を表す一次元構造（１つのパス）で音声テキストデータを表すこともできる。図２は、「先ほどの内容、今日議題にございました件ですが」という音声データに対して音声認識処理を実行して得られた音声テキストデータの一例を示す図である。図２の例では、分割単位は形態素である。
【００１４】
再び図１に戻って説明を続ける。インデックス生成部１４は、音声認識部１３により生成された音声テキストデータを構成する複数の文字列の各々と、音声データの位置（再生位置）を示す音声位置情報とを対応付けた音声インデックスを生成する。例えば、音声認識部１３により図２に示す音声テキストデータが生成された場合を想定する。この場合、インデックス生成部１４は、音声テキストデータを構成する複数の形態素の各々と、音声データの音声位置情報とを対応付ける。これにより、図３に示されるような音声インデックスが生成される。音声認識処理では、音声データを１０〜２０ｍｓ程度の一定間隔で処理する。音声位置情報との対応付けは、処理対象となっている音声データとそれに対応する認識結果を音声認識処理の過程で取得することで実現できる。
【００１５】
図３の例では、音声データの音声位置情報は、音声データの先頭からその位置まで再生するのに要する時間を示す時間情報を用いて表される（単位はミリ秒）。例えば図３の「今日」に対応する音声位置情報は「１１００ｍｓ−１４００ｍｓ」であるが、これは、音声データを再生した場合に、「今日」という音声の再生開始位置が１１００ｍｓで、再生終了位置が１４００ｍｓであることを意味している。言い換えれば、音声データを再生した場合に、当該音声データの先頭から１１００ｍｓ経過した時点を始点とし、先頭から１４００ｍｓ経過した時点を終点とする期間が、「今日」という音声が再生される期間であることを意味している。
【００１６】
再び図１に戻って説明を続ける。第２記憶部１５は、インデックス生成部１４で生成された音声インデックスを記憶する。なお、音声インデックスは、書き起こし作業の開始前に既に作成されていてもよいし、書き起こし作業中にリアルタイムで作成されてもよい。
【００１７】
入力受付部１６は、ユーザーからのテキストを作成するための各種の入力（テキスト入力と呼ぶ）を受け付ける。ユーザーは、例えばキーボードなどの操作デバイスを操作することによりテキスト入力を行うことができる。テキスト作成部１７は、ユーザーからの操作入力に応じてテキストを作成する。より具体的には、テキスト作成部１７は、入力受付部１６で受け付けたテキスト入力に従ってテキストを作成する。以下では、説明の便宜上、テキスト作成部１７で作成されたテキストを「入力済みテキスト」と呼ぶ。
【００１８】
図４は、テキスト作成部１７が実行するテキスト作成処理の一例を示すフローチャートである。図４に示すように、テキスト作成部１７は、入力受付部１６でテキスト入力を受け付けた場合（ステップＳ１の結果：ＹＥＳ）、その受け付けたテキスト入力が、改行を指示する入力または「punctuation」の入力であるか否かを判定する（ステップＳ２）。なお、「punctuation」の入力とは、例えば句読点、疑問符、感嘆符などの入力を意味する。
【００１９】
ステップＳ１で受け付けたテキスト入力が、改行を指示する入力または「punctuation」の入力であると判定した場合（ステップＳ２の結果：ＹＥＳ）、テキスト作成部１７は、先頭の入力位置から現在の入力位置までの文字列をテキストとして確定する（ステップＳ３）。一方、ステップＳ１で受け付けたテキスト入力が、改行を指示する入力または「punctuation」の入力ではないと判定した場合（ステップＳ２の結果：ＮＯ）、処理はステップＳ４へ移行する。
【００２０】
ステップＳ４では、テキスト作成部１７は、受け付けたテキスト入力が、変換処理の確定を指示する入力であるか否かを判定する。変換処理の一例としては、平仮名を漢字に変換する処理などが挙げられる。なお、ここでは、変換処理の確定を指示する入力には、平仮名を漢字に変換せずにそのまま確定することを指示する入力も含まれる。受け付けたテキスト入力が、変換処理の確定を指示する入力であると判定した場合（ステップＳ４の結果：ＹＥＳ）、処理は上述のステップＳ３へ移行し、現在の入力位置までの文字列がテキストとして確定する。そして、テキスト作成部１７は、確定したテキスト（入力済みテキスト）を推定部１８へ送信する（ステップＳ５）。以上でテキスト作成処理が終了する。
【００２１】
再び図１に戻って説明を続ける。推定部１８は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置（つまりは書き起しが完了した位置）を示す作成済み音声位置情報を推定する。図５は、推定部１８が実行する推定処理の一例を示すフローチャートである。図５に示すように、入力済みテキストを取得した場合（ステップＳ１０の結果：ＹＥＳ）、推定部１８は、入力済みテキストを構成する文字列（ここでは形態素を単位とする文字列）の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する（ステップＳ１１）。
【００２２】
ステップＳ１１において、入力済みテキストを構成する文字列の中に、音声インデックスに含まれる文字列と一致する文字列が存在すると判断した場合（ステップＳ１１の結果：ＹＥＳ）、推定部１８は、入力済みテキストを構成する文字列の終端の文字列（最後の文字列）が、音声インデックスに含まれる文字列と一致するか否かを判断する（ステップ１２）。
【００２３】
上述のステップＳ１２において、終端の文字列が、音声インデックスに含まれる文字列と一致すると判断した場合（ステップＳ１２の結果：ＹＥＳ）、推定部１８は、終端の文字列と一致する文字列に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する（ステップＳ１３）。一方、上述のステップＳ１２において、終端の文字列が、音声インデックスに含まれる文字列と一致しないと判断した場合（ステップＳ１２の結果：ＮＯ）、処理はステップＳ１４に移行する。
【００２４】
ステップＳ１４では、推定部１８は、音声インデックスに含まれる文字列と一致する文字列のうち終端の文字列に最も近い文字列を示す基準文字列に対応する音声位置情報を音声インデックスから読み出す（ステップＳ１４）。また、推定部１８は、入力済みテキストを構成する文字列のうち、基準文字列の次の文字列から終端の文字列までの文字列を示す不一致文字列を再生するのに要する時間を示す第１再生時間を推定する（ステップＳ１５）。第１再生時間の推定方法は任意であり、例えば不一致文字列を音素列に変換し、各音素に対する標準的な音素継続時間のデータを用いて、その不一致文字列を再生（発話）するのに要する時間を推定することもできる。
【００２５】
次に、推定部１８は、ステップＳ１４で読み出した音声位置情報（基準文字列に対応する音声位置情報）と、ステップＳ１５で推定した第１再生時間とから、作成済み音声位置情報を推定する（ステップＳ１６）。より具体的には、推定部１８は、音声データのうち基準文字列の終端を示す位置よりも、ステップＳ１５で推定した第１再生時間だけ先の位置を、作成済み音声位置情報として推定する。
【００２６】
一方、上述のステップＳ１１において、入力済みテキストを構成する文字列の中に、音声インデックスに含まれる文字列と一致する文字列が存在しないと判断した場合（ステップＳ１１の結果：ＮＯ）、推定部１８は、入力済みテキストを再生するのに要する時間を示す第２再生時間を推定する(ステップＳ１７)。第２再生時間の推定方法は任意であり、例えばテキストを構成する文字列を音素列に変換し、各音素に対する標準的な音素継続時間のデータを用いて、テキストを構成する文字列を再生（発話）するのに要する時間を推定することもできる。そして、推定部１８は、第２再生時間から作成済み音声位置情報を推定する（ステップＳ１８）。
【００２７】
いま、具体例として、ユーザー（書き起こし作業者）が「先ほどの内容、今日議題にございました件ですが」という音声データを聞いて、書き起こし作業を行う場合を想定する。ここでは、音声データの再生は、上記音声データの終端の位置で一時停止しているものとする。また、この例では、書き起こし作業の開始前において、図３に示す音声インデックスが既に生成されており、当該音声インデックスは第２記憶部１５に格納されているものとする。
【００２８】
最初に、ユーザーが、「さきほどの」という文字列を入力し、その入力文字列の漢字への変換を確定することで、「先ほどの」という入力済みテキストが推定部１８に送信された場合を想定する。まず推定部１８は、「先ほどの」を構成する文字列（「先」「ほど」「の」）の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する（図５のステップＳ１１）。この場合、「先ほどの」を構成する全ての文字列の各々が、音声インデックスに含まれる文字列と一致するので、推定部１８は、終端の文字列「の」に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する（図５のステップＳ１２、ステップＳ１３）。この例では、推定部１８は、終端の文字列「の」に対応する音声位置情報「６００ｍｓ−７００ｍｓ」の終点７００ｍｓを、作成済み音声位置情報として推定する。
【００２９】
次に、ユーザーが、上述の「先ほどの」という文字列（変換が確定済みの文字列）の後に続けて「ぎだいに」という文字列を入力し、その入力文字列の漢字への変換を確定することで、「先ほどの議題に」という入力済みテキストが推定部１８に送信された場合を想定する。まず推定部１８は、「先ほどの議題に」を構成する文字列（「先」「ほど」「の」「議題」「に」）の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する（図５のステップＳ１１）。この場合、「先ほどの議題に」を構成する全ての文字列の各々が、音声インデックスに含まれる文字列と一致するので、推定部１８は、終端の文字列「に」に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する（図５のステップＳ１２、ステップＳ１３）。この例では、推定部１８は、終端の文字列「に」に対応する音声位置情報「１７００ｍｓ−１８００ｍｓ」の終点１８００ｍｓを、作成済み音声位置情報として推定する。
【００３０】
次に、ユーザーが、上述の「先ほどの議題に」という文字列の後に続けて「のぼった」という文字列を入力し、その入力文字列を確定（平仮名のままとすることを確定）することで、「先ほどの議題にのぼった」という入力済みテキストが推定部１８に送信された場合を想定する。まず推定部１８は、「先ほどの議題にのぼった」を構成する文字列（「先」「ほど」「の」「議題」「に」「のぼった」）の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する（図５のステップＳ１１）。この場合、「先ほどの議題にのぼった」を構成する５つの文字列のうち４つの文字列（「先」「ほど」「の」「議題」「に」）の各々が、音声インデックスに含まれる文字列と一致するものの、終端の文字列「のぼった」が、音声インデックスに含まれる文字列と一致しない。つまり、終端の文字列「のぼった」が音声インデックスに存在しない（図５のステップS１２の結果：ＮＯ）。
【００３１】
したがって、推定部１８は、音声インデックスに含まれる文字列と一致する文字列のうち終端の文字列「のぼった」に最も近い文字列を示す基準文字列「に」に対応する音声位置情報「１７００ｍｓ−１８００ｍｓ」を音声インデックスから読み出す（図５のステップＳ１４）。また、推定部１８は、入力済みテキストを構成する文字列（「先」「ほど」「の」「議題」「に」「のぼった」）のうち基準文字列「に」の次の文字列から終端の文字列までの文字列を示す不一致文字列の再生に要する第１再生時間を推定する（図５のステップＳ１５）。この例では、不一致文字列は「のぼった」であり、当該「のぼった」の再生に要する時間の推定結果は３５０ｍｓであったとする。この場合、推定部１８は、基準文字列「に」に対応する音声位置情報「１７００ｍｓ−１８００ｍｓ」の終点１８００ｍｓよりも、「のぼった」の再生に要する３５０ｍｓだけ先の位置である「２１５０ｍｓ」を、作成済み音声位置情報として推定する（図５のステップＳ１６）。
【００３２】
次に、ユーザーが、上述の「先ほどの議題にのぼった」という文字列の後に続けて「けんですが」という文字列を入力し、その入力文字列の漢字への変換を確定することで、「先ほどの議題にのぼった件ですが」という入力済みテキストが推定部１８に送信された場合を想定する。まず推定部１８は、「先ほどの議題にのぼった件ですが」を構成する文字列（「先」「ほど」「の」「議題」「に」「のぼった」「件」「です」「が」）の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する（図５のステップＳ１１）。この場合、「先ほどの議題にのぼった件ですが」を構成する９つの文字列のうち８つの文字列（「先」「ほど」「の」「議題」「に」「件」「です」「が」）の各々が、音声インデックスに含まれる文字列と一致し、終端の文字列「が」も、音声インデックスに含まれる文字列と一致するので、推定部１８は、終端の文字列「が」に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する（図５のステップＳ１２、ステップＳ１３）。この例では、推定部１８は、終端の文字列「が」に対応する音声位置情報「２８００ｍｓ−２９００ｍｓ」の終点２９００ｍｓを、作成済み音声位置情報として推定する。
【００３３】
この例では、入力済みテキストを構成する文字列のうち、音声インデックスに含まれない文字列「のぼった」を無視し、終端の文字列が、音声インデックスに含まれている文字列と一致していることを優先して、終端の文字列に対応する音声位置情報から作成済み音声位置情報を推定している。すなわち、テキストを構成する文字列の終端の文字列が、音声インデックスに含まれている文字列と一致している場合は、無条件に、終端の文字列に対応する音声位置情報から作成済み音声位置情報を推定しているが、これに限らず、例えば終端の文字列が、音声インデックスに含まれている文字列と一致している場合であっても、所定の条件を満たさない限りは、終端の文字列に対応する音声位置情報から作成済み音声位置情報を推定することはしない構成であってもよい。
【００３４】
上記所定の条件は任意に設定可能である。例えば推定部１８は、入力済みテキストを構成する文字列のうち音声インデックスに含まれる文字列と一致する文字列の数が所定数以上である場合は、所定の条件を満たすと判断することもできる。また、例えば推定部１８は、入力済みテキストを構成する文字列であって終端の文字列以外の文字列の中に、音声インデックスに含まれる文字列と一致する文字列が存在し、その文字列のうち終端の文字列に最も近い文字列に対応する音声位置情報が示す位置と、終端の文字列に対応する音声位置情報が示す位置との差が所定範囲内である場合は、所定の条件を満たすと判断することもできる。
【００３５】
再び図１に戻って説明を続ける。設定部１９は、推定部１８で推定された作成済み音声位置情報に基づいて、音声データのうち再生が開始される位置を示す再生開始位置を設定する。本実施形態では、設定部１９は、推定部１８で推定された作成済み音声位置情報が示す位置を、再生開始位置に設定する。再生指示受付部２０は、音声データの再生を指示する再生指示を受け付ける。例えばユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された再生用ボタンを選択することで、再生指示を入力することができるが、これに限らず、再生指示の入力方法は任意である。なお、本実施形態では、ユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された停止用ボタン、巻き戻し用ボタン、早送り用ボタンなどを選択することで、各種の指示を入力することができる。そして、その入力に応じて音声データの再生が制御される。
【００３６】
再生制御部２１は、再生指示受付部２０で再生指示を受け付けた場合、設定部１９で設定された再生開始位置から音声データを再生するように再生部１２を制御する。再生制御部２１は、例えばＰＣのオペレーションシステムやドライバが有するオーディオ機能で実現されるが、電子回路などのハードウェア回路でも実現可能である。
【００３７】
本実施形態では、上述の第１記憶部１１、再生部１２および第２記憶部１５はハードウェア回路で構成される。一方、上述の音声認識部１３、インデックス生成部１４、入力受付部１６、テキスト作成部１７、推定部１８、設定部１９、再生指示受付部２０および再生制御部２１の各々は、ＰＣに搭載されたＣＰＵがＲＯＭなどに格納された制御プログラムを実行することにより実現されるが、これに限らず、例えば音声認識部１３、インデックス生成部１４、入力受付部１６、テキスト作成部１７、推定部１８、設定部１９、再生指示受付部２０および再生制御部２１のうちの少なくとも一部がハードウェア回路で構成されてもよい。
【００３８】
以上に説明したように、本実施形態の書き起こし支援システム１００は、音声データに対する音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの音声位置情報とを対応付けた音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置（つまりは書き起しが完了した位置）を示す作成済み音声位置情報を推定する。これにより、ユーザーが、音声データに含まれるフィラーや文法的な誤りを修正しながら書き起こし作業を行い、入力済みテキストと、音声テキストデータ（音声認識結果）とが相違する場合であっても、音声データのうち書き起こしが完了した位置を正確に特定することができる。また、本実施形態の書き起こし支援システム１００は、推定した作成済み音声位置情報が示す音声データの位置を再生開始位置に設定するので、ユーザーは、音声データの巻き戻しや早送りを繰り返しながら、書き起こしが完了した位置に再生開始位置を合わせる必要はない。これにより、作業効率を向上させることが可能になる。
【００３９】
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。以下に変形例を記載する。以下の変形例は、任意に組み合わせることが可能である。
【００４０】
（１）変形例１
上述の実施形態では、書き起こし支援システムとして、ＰＣが採用されているが、これに限定されるものではない。例えば、音声データを再生する機能を有する第１装置（テープレコーダー等）と、テキスト作成機能を有する第２装置とを含むシステムが、書き起こし支援システムとして採用されてもよい。そして、上述した各部（第１記憶部１１、再生部１２、音声認識部１３、インデックス生成部１４、第２記憶部１５、入力受付部１６、テキスト作成部１７、推定部１８、設定部１９、再生指示受付部２０、再生制御部２１）が、第１装置および第２装置の何れかに含まれていればよい。
【００４１】
（２）変形例２
上述の実施形態では、書き起こし作業の対象となる言語は日本語であるが、これに限らず、書き起こし作業の対象となる言語の種類は任意である。例えば書き起こし作業の対象となる言語は英語であってもよいし、中国語であってもよい。英語音声を聞いて書き起こしを行う場合、書き起こし文は英語である。この場合に作成済み音声位置情報を推定する方法は、日本語音声の場合とほとんど同じであるが、上述の第１再生時間および第２再生時間の推定が異なる。英語の場合の入力文字列はアルファベットであるため、アルファベット列に対する音素継続時間を使用する必要がある。これに関しては母音・子音の音素継続時間や音節単位での継続時間を使って上述の第１再生時間および第２再生時間を推定してもよい。中国語音声を聞いて書き起こしを行う場合、書き起こし文は中国語である。この場合に作成済み音声位置情報を推定する方法は、日本語音声の場合とほとんど同じであるが、上述の第１再生時間および第２再生時間の推定が異なる。中国語の場合は入力文字ごとにピン音が決まっているため、ピン音列に対する音素継続時間を使用して第１再生時間および第２再生時間を推定する。
【符号の説明】
【００４２】
１１第１記憶部
１２再生部
１３音声認識部
１４インデックス生成部
１５第２記憶部
１６入力受付部
１７テキスト作成部
１８推定部
１９設定部
２０再生指示受付部
２１再生制御部
１００書き起こし支援システム

【特許請求の範囲】
【請求項１】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、
前記音声データを記憶する第１記憶部と、
前記音声データを再生する再生部と、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する第２記憶部と、
ユーザーの操作入力に応じてテキストを作成するテキスト作成部と、
前記音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定部と、を備える、
書き起こし支援システム。
【請求項２】
前記推定部は、
前記テキストを構成する文字列の終端の文字列が、前記音声インデックスに含まれる文字列と一致すると判断した場合、前記終端の文字列と一致する文字列に対応する前記音声位置情報を前記音声インデックスから読み出し、その読み出した前記音声位置情報から前記作成済み音声位置情報を推定する、
請求項１に記載の書き起こし支援システム。
【請求項３】
前記推定部は、
前記テキストを構成する文字列の終端の文字列が、前記音声インデックスに含まれる文字列と一致しないと判断し、かつ、前記終端の文字列以外の文字列の中に、前記音声インデックスに含まれる文字列と一致する文字列が存在すると判断した場合、前記音声インデックスに含まれる文字列と一致する文字列のうち前記終端の文字列に最も近い文字列を示す基準文字列に対応する前記音声位置情報を前記音声インデックスから読み出すとともに、前記テキストを構成する文字列のうち、前記基準文字列の次の文字列から前記終端の文字列までの文字列を示す不一致文字列を再生するのに要する時間を示す第１再生時間を推定し、前記基準文字列に対応する前記音声位置情報と、前記第１再生時間とから前記作成済み音声位置情報を推定する、
請求項２に記載の書き起こし支援システム。
【請求項４】
前記推定部は、
前記テキストを構成する文字列と、前記音声インデックスに含まれる文字列とが一致しないと判断した場合、前記テキストを再生するのに要する時間を示す第２再生時間を推定し、前記第２再生時間から前記作成済み音声位置情報を推定する、
請求項２に記載の書き起こし支援システム。
【請求項５】
前記推定部は、
前記テキストを構成する文字列の終端の文字列が、前記音声インデックスに含まれる文字列と一致すると判断し、かつ、前記終端の文字列以外の文字列の中に、前記音声インデックスに含まれる文字列と一致しない文字列が存在すると判断した場合は、所定の条件を満たすか否かを判断し、前記所定の条件を満たす場合に、前記終端の文字列に対応する前記音声位置情報を前記音声インデックスから読み出し、その読み出した前記音声位置情報から前記作成済み音声位置情報を推定する、
請求項２に記載の書き起こし支援システム。
【請求項６】
前記推定部は、前記テキストを構成する文字列のうち前記音声インデックスに含まれる文字列と一致する文字列の数が所定数以上である場合は、前記所定の条件を満たすと判断する、
請求項５に記載の書き起こし支援システム。
【請求項７】
前記推定部は、
前記終端の文字列以外の文字列の中に、前記音声インデックスに含まれる文字列と一致する文字列が存在し、その文字列のうち前記終端の文字列に最も近い文字列に対応する前記音声位置情報と、前記終端の文字列に対応する前記音声位置情報との差が所定範囲内である場合は、前記所定の条件を満たすと判断する、
請求項５に記載の書き起こし支援システム。
【請求項８】
前記音声テキストデータはラティス構造を有する、
請求項１に記載の書き起こし支援システム。
【請求項９】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援方法であって、
前記音声データを再生する再生ステップと、
ユーザーの操作入力に応じてテキストを作成するテキスト作成ステップと、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定ステップと、を備える、
書き起こし支援方法。

【図１】