説明

字幕情報作成装置、字幕情報作成方法及びプログラム

【課題】実際の発話タイミングとの間にずれが少ないタイミング情報を持つ字幕グループの作成を行う字幕情報作成装置を提供する。
【解決手段】字幕情報作成装置は、オリジナルタイミング情報を有する一対の前記タイミング単位文字列の間に、等時分節の数が一意に決定できない前記タイミング単位文字列である等時分節未決文字列が存在する場合に、決定済みタイミング単位文字列の前記タイミング情報と前記オリジナルタイミング情報の差分時間を求め、一対の前記タイミング単位文字列の前記オリジナルタイミング情報から前記差分時間を差し引いて前記タイミング情報をそれぞれ求め、一対の前記タイミング単位文字列の前記タイミング情報を用いて、その間にある前記等時分節未決文字列の前記タイミング情報を決定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、字幕情報を作成する字幕情報作成装置、字幕情報作成方法及びプログラムに関する。
【背景技術】
【0002】
放送などでは、音声の内容を文字列化したClosed Caption(以下、「CC」という)が、音声と共に配信されている。1回に表示するCCの文字数や行数など表示形式に対する視聴者の要望に応えるため、受信側でCCを基に一定の書式に則ったまとまり(以下、字幕グループ)を作成し、各字幕グループへタイミング情報を付与する方法が開示されている(特許文献1参照)。
【0003】
また、生放送では、CCの表示タイミングと対応する音声の発話タイミングとの間にずれがある。さらに、1単語のみ画面上に表示されたまま数秒経過するなど、十分な作業時間の下で読み易さを考慮して編集された収録放送のCCとは表示状態が異なる。
【0004】
これを解決するためにも受信側の字幕グループ作成とタイミング情報付与が必要である。各字幕グループの前端にあたる可能性のある部分文字列(以下、「タイミング単位文字列」という)は、CCの内容と視聴者の要望によるため、なるべく細かい文字列単位でタイミング単位文字列を設定し、かつ、全てのタイミング単位文字列についてタイミング情報を算出できるようにする必要がある。
【0005】
特許文献1の発明では、タイミング情報が決定している位置(以下、「基点位置」という)のタイミング情報と、基点位置と字幕グループ前端との間に存在する文字数と文字種、又は、音素に基づいて、字幕グループ前端のタイミング情報を類推演算して決定した。
【特許文献1】特開2000−350117号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
CCの表示と音声の発話タイミングとの間にずれがある状況において、基点位置から字幕グループ前端までの間に、対応モーラ数が1個に決定できない文字列(以下、「モーラ未決文字列」という)が含まれる場合がある。
【0007】
上記のような場合には、特許文献1の発明では、モーラ未決文字列以降、字幕グループ前端までの間に位置する各タイミング単位文字列のタイミング情報を算出できないという問題点があった。また、各タイミング情報の決定過程の違いによって生じる誤差の大小を考慮しないため、字幕グループに付与するタイミング情報が実際の発話タイミングと大きくずれる場合があるという問題点があった。
【0008】
そこで本発明は、上記問題点を解決するためになされたものであって、実際の発話タイミングとの間にずれが少ないタイミング情報を持つ字幕グループの作成を行う字幕情報作成装置及びその方法を提供する。
【課題を解決するための手段】
【0009】
本発明は、音声に対する字幕情報を作成する字幕情報作成装置において、予め作成された字幕文字列群、及び、前記字幕文字列中の任意の文字数毎に付与された前記音声との参考的な対応を示す時間情報であるオリジナルタイミング情報を含むオリジナル字幕情報を受け取り、前記音声と同期して前記字幕文字列を表示するための時間情報であるタイミング情報を付与するタイミング単位文字列を、前記字幕文字列群から抽出する抽出部と、前記音声と前記タイミング単位文字列の対応付けを音声認識によって行い、前記対応付けができた前記タイミング単位文字列に対し、前記音声の時間情報に基づいて前記タイミング情報を決定する第1タイミング情報決定部と、前記タイミング情報が決定された決定済みタイミング単位文字列の前記タイミング情報を基準にして、前記各タイミング単位文字列が含む等時性を持つ音の分節である等時分節の数を用いて、前記タイミング情報が決定できなかった未決タイミング単位文字列の前記タイミング情報を決定する第2タイミング情報決定部と、前記オリジナルタイミング情報を有する一対の前記タイミング単位文字列の間に、前記等時分節の数が一意に決定できない前記タイミング単位文字列である等時分節未決文字列が存在する場合に、(1)前記決定済みタイミング単位文字列の前記タイミング情報と前記オリジナルタイミング情報の差分時間を求め、(2)一対の前記タイミング単位文字列の前記オリジナルタイミング情報から前記差分時間を差し引いて前記タイミング情報をそれぞれ求め、(3)一対の前記タイミング単位文字列の前記タイミング情報を用いて、その間にある前記等時分節未決文字列の前記タイミング情報を決定する第3タイミング情報決定部と、前記字幕文字列群を任意の書式に則って分けた字幕文字列である字幕グループと、前記各字幕グループを前記音声と同期して表示するための前記決定済みタイミング単位文字列、前記未決タイミング単位文字列、又は、前記等時分節未決文字列のそれぞれの前記タイミング情報とを含む前記字幕情報を作成する作成部と、を有することを特徴とする字幕情報作成装置である。
【発明の効果】
【0010】
本発明によれば、実際の発話タイミングとの間にずれが少ないタイミング情報を持つ字幕グループを作成できる。
【発明を実施するための最良の形態】
【0011】
以下、本発明の一実施例の字幕情報作成装置について図面に基づいて説明する。
【0012】
なお、以下の各実施例において、字幕情報作成装置を日本語に適用する場合は、等時性を持つ音の分節単位として、「モーラ」を用い、英語に適用する場合は、一定音節のまとまりであるフットを使う。すなわち、「等時性を持つ音の分節単位」とは、モーラ、フットなどをいう。モーラとフットについては、後から説明する。
【実施例1】
【0013】
以下、本発明の実施例1の字幕情報作成装置10について図1〜図6、図10に基づいて説明する。
【0014】
(1)字幕情報作成装置10の構成
図1は、本実施例に係わる字幕情報作成装置10を示すブロック図である。
【0015】
この字幕情報作成装置10は、タイミング単位文字列抽出部100、音声ベースタイミング情報決定部101、モーラ数決定部102、モーラベースタイミング情報決定部103,差分時間ベースタイミング情報決定部104、字幕グループ作成部105とを備えている。
【0016】
なお、この字幕情報作成装置10は、例えば、汎用のコンピュータ装置10を基本ハードウェアとして用いることでも実現することが可能である。すなわち、タイミング単位文字列抽出部100、音声ベースタイミング情報決定部101、モーラ数決定部102、モーラベースタイミング情報決定部103,差分時間ベースタイミング情報決定部104、字幕グループ作成部105は、上記のコンピュータ装置10に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、字幕情報作成装置10は、上記のプログラムをコンピュータ装置10に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、又はネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置10に適宜インストールすることで実現してもよい。
【0017】
タイミング単位文字列抽出部100は、オリジナル字幕情報の字幕文字列群からタイミング単位文字列を抽出する。
【0018】
音声ベースタイミング情報決定部101は、タイミング単位文字列と音声との対応付けを行い、その結果に基づいて各タイミング単位文字列のタイミング情報を決定する。
【0019】
モーラ数決定部102は、各タイミング単位文字列のモーラ数を決定する。
【0020】
モーラベースタイミング情報決定部103は、各タイミング単位文字列のモーラ数と、決定済みタイミング単位文字列のタイミング情報に基づいて、未決タイミング単位文字列のタイミング情報を決定する。
【0021】
差分時間ベースタイミング情報決定部104は、決定済みタイミング単位文字列と未決タイミング単位文字列との間に、モーラ未決文字列が存在する場合に、決定済みタイミング単位文字列のタイミング情報と、オリジナル字幕情報のタイミング情報に基づいて、未決タイミング単位文字列のタイミング情報を決定する。
【0022】
字幕グループ作成部105は、字幕グループを作成する。
【0023】
(2)字幕情報作成装置10の動作
以下では、図2とその他の図面を用いて実施例1に係わる字幕情報作成装置10の動作について説明する。図2は、実施例1に係わる字幕情報作成装置10のフローチャートである。
【0024】
なお、ここでは例として、図10に示すように、CCを表示する機能を持つテレビを想定して説明する。音声及びオリジナル字幕情報は放送電波として受信され、ここから取り出された音声とオリジナル字幕情報が本発明の字幕情報作成装置10へ入力される。
【0025】
(3)タイミング単位文字列抽出
まず、図2のステップS0において、タイミング単位文字列抽出部100が、オリジナル字幕情報に含まれる字幕文字列群を対象として、そこからタイミング単位文字列を抽出する。
【0026】
字幕文字列群を構成する個々の字幕文字列は、音声と同期して一度に画面上に表示するまとまりであり、図3のc1からc5のように、それぞれに表示開始と表示終了のタイミング情報が付随している。図3では、それぞれ表示開始時間、表示終了時間、字幕文字列を「,」区切りで表記している。表示開始、終了時間は音声の再生開始時間を0秒とした秒単位である。
【0027】
抽出すべきタイミング単位文字列は一定の文字パターンであり、この字幕情報作成装置10において、第1に音声と字幕文字列を対応付ける際の字幕文字列側の対応付け要素、第2に字幕グループの前端候補、という役割がある。そのためタイミング単位文字列として定義する文字パターンは、音声との対応付けのためになるべく少ない文字数で構成される文字列であることが望ましく、かつ、字幕グループの前端になり得る単位であることが条件となる。
【0028】
ここではタイミング単位文字列の文字パターン単位として「単語」を採り上げ、前記「字幕グループの前端になり得る」について説明する。例えば「オリンピック」という単語は以下に示すように、字幕グループの前端となり得る。
【0029】
字幕グループ1:「さあ、いよいよ来週から」
字幕グループ2:「オリンピックが始まります。」。
【0030】
ここで「オリンピック」をより細かく「オリ」「ン」「ピック」に分けたとして、以下の例のように「ン」から始まる字幕グループは、表示される際の可読性という観点から適切なものとは言いがたい。
【0031】
字幕グループ1:「さあ、いよいよ来週からオリ」
字幕グループ2:「ンピックが始まります。」
したがって、「オリンピック」の「ン」は字幕グループの前端とはなり得ない。単語「オリンピック」を一つのまとまりとして扱った方が妥当である。
【0032】
また、タイミング単位文字列は日本語に限定する必要は無い。例えば「IN」や「THE」など特定の英文字のパターンをタイミング単位文字列として設定してもよい。よって本発明で扱う字幕文字列は、言語に依存しない。英語については、後の実施例で詳しく説明する。
【0033】
なお、説明を簡単にするため、以降はタイミング単位文字列として日本語の単語を用いるものとし、字幕文字列から得た単語を以下では字幕単語と呼ぶ。字幕単語の抽出は単純な部分文字列検索や形態素解析など公知の技術を用いて行う。
【0034】
(4)音声ベースタイミング情報決定
次に、図2のステップS1において、音声ベースタイミング情報決定部101が、前記受信した音声から音声認識を行って単語(以下、「音声単語」という)を抽出する。動的計画法を用いて字幕単語列と対応付ける。対応する音声単語が見つかった字幕単語(以下、「一致単語」という)のタイミング情報を、音声単語のタイミング情報として付与する。
【0035】
例えば、図4で示すように音声単語列上の「オリンピック」が、字幕単語列上の「オリンピック」と対応付けられ、音声単語側のタイミング情報である60.88(表示開始時間)と61.63(表示終了時間)を、字幕単語側のタイミング情報として付与する。
【0036】
付与後に、ステップS2において、全字幕単語のタイミング情報が決定したかどうか判定し、決定している場合は、ステップS6において字幕グループの作成を行い、終了する。
【0037】
なお、図4の音声単語列は音声認識の結果を羅列したものであり認識誤りを含んでいる。例では「朝」、「の」、「本」、「だ」、「外」が認識誤りの音声単語である。
【0038】
(5)モーラベースタイミング情報決定
図2のステップS2の判定で、タイミング情報が決定していない字幕単語(以下、「不一致単語」という)が存在する場合、モーラベースタイミング情報決定部103が、モーラベースタイミング情報決定を行い不一致単語のタイミング情報を決定する。
【0039】
このとき、モーラ数決定部102は、各単語のモーラ数を決定してモーラベースタイミング情報決定部103へ提供する。
【0040】
なお、「モーラ」とは、一定時間長を持つ音の分節単位をいう。言語の違い、あるいは同一言語内でも方言の違いなどで時間長が異なる。音節は全ての言語が持つが、モーラは持たない言語が存在する。日本語の場合、原則として仮名1つが同じ長さ(1音)で発音され、1音が1モーラに相当する。但し、拗音は1モーラと認識される。また撥音「ン」、長音「ー」、促音「ッ」も1モーラとなる。英語の分節単位はモーラでなく音節を用いる。
【0041】
図5を用いて、モーラベースタイミング情報決定について説明する。
【0042】
モーラベースタイミング情報決定部103は、一致単語のタイミング情報及び各単語のモーラ数を用いて1モーラ当たりの時間を算出し、それに基づいて字幕単語のタイミング情報を類推演算で算出する。例えば一致単語「出場」と「選手」の間にある不一致単語「する」と「日本」それぞれのタイミング情報を決定する場合、以下の式で1モーラ当たりの時間を算出する。
【0043】

m=(T2−T1)/mt

但し、mは1モーラ当たりの時間、T1は「出場」の表示終了時間、T2は「選手」の表示開始時間、mtは「出場」と「選手」間にある総モーラ数である。
【0044】
「する」は2モーラ、「日本」は3モーラであるからmtは5であり、mは(63.38−62.60)/5の結果0.156となる。
【0045】
mに基づいて「する」の発話にはm×2、「日本」の発話にはm×3の時間が経過することが決まる。よって「する」と「日本」それぞれのタイミング情報は、

「する」表示開始時間=T1
「する」表示終了時間=T1+m×2
「日本」表示開始時間=T1+m×2
「日本」表示終了時間=T2

で得られる。
【0046】
さて上記したようにモーラベースタイミング情報決定部103は、字幕単語が時系列的に間隔を置かず連続していることを前提としている。すなわち、隣接する単語の発話タイミング間に一定時間以上の空きが無いことを前提としている。
【0047】
そこで、図3に示すように、演算前に、オリジナル字幕情報から得たオリジナルのタイミング情報に基づいて、時系列的に連続する字幕単語のまとまり(以下、「時系列連続単語グループ」という)を作り、以降はこれらグループ毎に演算してタイミング情報を決定する。グループは、オリジナル字幕情報において、ある字幕文字列の表示終了時間と、次に表示される字幕文字列の表示開始時間の間に一定以上の時間差がある場合にその字幕文字列間を区切りとすることで作成する。例えば時系列的に連続しているとみなす最大時間差を2.00秒と決めた場合、c2の表示終了時間とc3の表示開始時間との間には、33.37−30.40=2.97秒の時間差があるので、ここで範囲を分ける。
【0048】
さて、上記の通り一致単語2つに挟まれた不一致単語のタイミング情報を決定する。
【0049】
次に一致単語に挟まれていない不一致単語のタイミング情報の決定について説明する。
【0050】
時系列連続単語グループの前端及び後端の字幕単語が一致単語でない場合、時系列連続単語グループの前端からグループ内で最初の一致単語手前までに存在する不一致単語は上記した「一致単語に挟まれていない不一致単語」となる。なお後端についても状況は前後端が逆になるのみで同様であるため、前端のみを例に挙げて説明する。
【0051】
図5で、単語「さあ」が時系列連続単語グループ前端にあたる単語であるとする。このとき「さあ」と「本日」の2つのタイミング情報の決定には、グループ内で前端から見て最初の一致単語である「オリンピック」を用いて1モーラ当たりの時間を算出し、それを用いる。6モーラの「オリンピック」の表示開始時間と終了時間から、1モーラ当たりの時間は、(61.63−60.88)/6で得られるので、不一致単語それぞれのタイミング情報は、

「さあ」表示開始時間=T3−m×4−m×2
「さあ」表示終了時間=T3−m×4
「本日」表示開始時間=T3−m×4
「本日」表示終了時間=T3
「オリンピック」の表示開始時間:T3
1モーラ当たりの時間:m

と決定する。1モーラ当たりの時間として、グループ内の別箇所で既に算出した1モーラ当たりの時間を用いてもよい。すなわち、一致単語2つとそれらに挟まれた不一致単語に基づいて算出した1モーラ当たりの時間を用いてもよい。また、グループ内の各一致単語について1モーラ当たりの時間を算出し、それらの平均を用いてもよい。
【0052】
(6)差分時間ベースタイミング情報決定
モーラ数決定部102でモーラ数が1個に決定できない単語(以下、「モーラ未決単語」という)がある。
【0053】
それは、第1に棒読みか桁読みかがわからない数字文字列、第2に「、」「。」「・・・」など対応するモーラ数が一定でない記号、第3にモーラ数決定部102で対応していない文字パターンなどである。「対応していない文字パターン」とは、例えば、モーラ数決定部102で辞書を用いている場合、辞書未登録語のことを指す。
【0054】
図6の例では「3324」がモーラ未決単語である。
【0055】
「3324」は、桁読みであれば「サンゼンサンビャクニジューヨン」で13モーラである。棒読みであれば「サンサンニーヨン」で8モーラである。また、例えば株式市場であれば「サンゼンサンビャクフタジューヨン」で14モーラとなる。このように、CCの同じ表記に対して実際の発話がどのようになるかは文脈に依存し、自動判別するためには更なる知識と計算量を要する。強いていずれかの読み方に決めて計算を行い、その読み方が本来の発話の読み方と異なっている場合、大きな誤差が生じる可能性がある。以下に、棒読みと桁読みの違いによって生じる誤差の算出結果を示す。
【0056】

一致単語「参加」に基づく1モーラ当たりの時間=(64.93−64.48)/3=0.15

「2224」の桁読みと棒読みのモーラの差による誤差=0.15×(13−8)=0.75

モーラ未決単語が混在するたびに上記のような誤差が生じる可能性が増すため、モーラベースタイミング情報決定部103のみでは、実質的に誤差の小さいタイミング情報を算出することができない場合がある。
【0057】
そこで、ステップS3において、モーラベースタイミング情報決定を行う際、時系列連続単語グループ内に、一致単語と不一致単語の間にモーラ未決単語が存在する場合があるときには、ステップS4において、差分時間ベースタイミング情報決定部104が、不一致単語のタイミング情報を決定する。
【0058】
差分時間ベースタイミング情報決定部104は、オリジナル字幕情報のタイミング情報(以下、「オリジナルタイミング情報」という)を用いる。このオリジナルタイミング情報は、オリジナル字幕情報で1画面表示単位の字幕文字列毎に付与されているものであるが、生放送でリアルタイムに付与された字幕情報である場合、音声に完全に同期しているわけでない。これらの表示開始時間を、各字幕文字列の前端にあたる単語の表示開始時間とみなす。例えば、図3のc2の字幕文字列の表示開始時間は27.48であり、これをc2の字幕文字列の前端単語「さあ」の表示開始時間と見なす(e2)。同様に、e1、e3の単語もオリジナルタイミング情報に基づいた表示開始時間(以下、オリジナル表示開始時間)を持つ単語となる。
【0059】
図6を用いて、差分時間ベースタイミング情報決定の流れを説明する。
【0060】
まず、図6の丸数字の1に示すように、モーラベースタイミング情報決定により、一致単語「参加」を基点としてオリジナルタイミング情報に基づいた表示開始時間を持つ単語「前回」のタイミング情報を算出する。
【0061】
次に、図6の丸数字の2に示すように、「前回」のオリジナル表示開始時間71.38と、モーラベースタイミング情報決定で算出したタイミング情報の表示開始時間63.88の差分時間7.5を算出する。
【0062】
次に、図6の丸数字の3に示すように、この差分時間を「今年」のオリジナル表示開始時間68.38から引くことで、60.88という表示開始時間を得る。
【0063】
以降、モーラベースタイミング情報決定部103で、「今年」から「は」までのタイミング情報を算出する。
【0064】
また、「と」についても「参加」を計算基点としたモーラベースタイミング情報決定部103を用いてタイミング情報を決定する。
【0065】
以上の処理で前後端両方向に隣接する単語のタイミング情報が判明し、モーラ未決単語「3324」のタイミング情報が決定する。
【0066】
(7)字幕グループ作成
図2で示すように、音声ベースタイミング情報決定(ステップS1)、モーラベースタイミング情報決定(ステップS3)及び差分時間ベースタイミング情報決定(ステップS4)によって全単語にタイミング情報が決定されたら、次に、ステップS6において、字幕グループ作成部105が字幕グループを作成する。
【0067】
作成は、第1に(S1)〜(S4)によって決定されたタイミング情報、第2にユーザの字幕表示形態に対する要望、第3に可読性を考慮した書式、に則る。
【0068】
第1の決定されたタイミング情報で、ある単語の表示終了時間とその次の単語の表示開始時間が同一でなければ、それら2単語を同じ字幕グループとはしない。
【0069】
第2のユーザの字幕表示形態に対する要望は、行数や文字数の指定等が考えられる。
【0070】
第3の可読性を考慮した書式とは、次のようなものがある。
【0071】
・一回に表示する文字数とその表示時間を統計的に得た人間の読解速度を考慮して決める。
【0072】
・句読点が行頭に来ないようにする。
【0073】
・接頭辞の直後、接尾辞の直前で区切らない。
【0074】
字幕グループの作成については、特許文献1の発明の請求項1、2に示されるような方法で作成してもいい。
【0075】
そして、各字幕グループ前端単語の表示開始時間を字幕グループの表示開始時間とし、字幕グループ後端単語の表示終了時間を字幕グループの表示終了時間とする。
【0076】
字幕グループの表示開始、終了時間の決め方については、ユーザ要望や可読性に基づいて意図的に時間差を与えることも考えられる。
【0077】
例えば、以下に示すように、実際の発話時間よりも字幕の発話時間を長くすることで、想定するユーザの字幕読解速度が実際の発話よりも遅い場合に対応する。
【0078】
・字幕グループNの表示終了時間と、Nの次に表示される字幕グループの表示開始時間との間に一定以上の時間差Tdがあれば、字幕グループNの表示終了時間にTd以下の加算を行って字幕グループNが対応する発話終了後も一定時間字幕が表示されるようにする。
【0079】
・字幕グループNの表示開始時間と、Nの前に表示される字幕グループの表示終了時間との間に一定以上の時間差Tdがあれば、字幕グループNの表示開始時間からTd以下の減算を行って字幕グループNが対応する発話が開始する一定時間前から字幕グループNが表示されるようにする。
【0080】
(8)効果
本実施例によれば、CC上で基点位置との間にモーラ未決文字列が存在するタイミング単位文字列、及び、モーラ未決範囲内のモーラ未決文字列それぞれのタイミング情報を算出でき、これらの文字列を前端とする字幕グループを作ることができ、CC表示状態に対する要望に対応することができる。
【0081】
すなわち、基点位置のタイミング情報と、CCのオリジナルタイミング情報(CCで1画面表示分の字幕文字列毎に付与されているタイミング情報)の差分時間を算出し、これを用いてモーラ未決文字列以降に位置するタイミング単位文字列のタイミング情報を補間できる。
【実施例2】
【0082】
以下、本発明の実施例2の字幕情報作成装置10について図7〜図8に基づいて説明する。
【0083】
本実施例は、モーラ数推定部106について説明する。なお便宜上、単語で構成される未決範囲を未決単語範囲として、これを例に説明する。未決単語範囲は、前後端がモーラ未決単語であり、範囲内に一致単語又はオリジナル表示開始時間を持つ単語が存在しない範囲とする。但し、複数の範囲が隣接又は重複する場合は、それらをまとめた最大の範囲のみを認める。
【0084】
(1)字幕情報作成装置10の構成
図7は、本実施例に係わる字幕情報作成装置10を示すブロック図である。なお、説明は、実施例1との異なる箇所についてのみ説明する。
【0085】
モーラ数推定部106は、未決単語範囲を決定し、この未決単語範囲内の各単語のモーラ数を推定する。
【0086】
モーラベースタイミング情報決定部103は、推定されたモーラ数に基づいて、未決単語範囲内の各単語のタイミング情報を決定する。
【0087】
(2)モーラ数推定
図8を用いて、モーラ数推定について説明する。
【0088】
字幕単語列上の「200」、「から」、「300」の3単語が1つの未決単語範囲を構成している。まず、未決単語範囲の前方に隣接する単語「今」の表示終了時間と、後方に隣接する単語「の」の表示開始時間から、未決単語範囲で経過している総時間を算出する。例では、74.01−72.66=1.35が得られる。
【0089】
次に、この未決単語範囲内の各単語のモーラ数候補の全組み合わせを作り、範囲の総時間に基づいて組み合わせ毎に1モーラ当たりの時間を算出する。
【0090】
「200」は桁読み「ニヒャク」(3モーラ)あるいは棒読み「ニーゼロゼロ」(6モーラ)であり、「から」は2モーラ、「300」は桁読み「サンビャク」(4モーラ)あるいは棒読み「サンゼロゼロ」(6モーラ)である。組み合わせの数は2×1×2=4通りである。それぞれの組み合わせ毎に1モーラ当たりの時間を算出する。
【0091】
算出した各時間から、未決単語範囲周辺の1モーラ当たりの時間に基づいて1つを選択する。図8では未決単語範囲候補の後方に隣接する単語「の」の算出に用いた1モーラ当たりの時間が0.15であるため、1モーラ当たりの時間として0.15が算出されるモーラ数の組み合わせ「ニヒャク」(3モーラ)+「から」(2モーラ)+「サンビャク」(4モーラ)を選択し、これを推定結果とする。
【0092】
選択方法は、例えば未決単語範囲の前後の単語のタイミング情報を決定するのに用いた1モーラ当たりの時間を平均し、その値に最も近い時間を選択するなどでもよい。
【0093】
(3)効果
本実施例によれば、モーラ未決文字列が1個以上ある範囲(前後端がモーラ未決文字列であり、かつ内部に基点位置を含まない。また未決単語範囲が隣接又は重複するものはそれらをまとめた1つのみを範囲として認める)について、未決単語範囲前後のタイミング情報と未決単語範囲内のモーラ数候補から実際に発話されたモーラ数を推定し、未決単語範囲内の各モーラ未決文字列のタイミング情報を決定できる。
【実施例3】
【0094】
以下、本発明の実施例3の字幕情報作成装置10について図9に基づいて説明する。
【0095】
本実施例は、タイミング情報の決定過程を用いた字幕グループ作成に関するものである。
【0096】
(1)タイミング付随情報
タイミング情報が決定する際に「どのような過程を経て決定したか」の情報をタイミング付随情報とする。タイミング情報が決定する過程は多様である。例えば、受信した音声を聴きながらユーザがタイミング情報を入力してもいい。
【0097】
また、以下に挙げるように上記した各タイミング情報決定部を用いてもいい。
【0098】
M1:音声ベースタイミング情報決定部101
M2:モーラベースタイミング情報決定部103
M3:差分時間ベースタイミング情報決定部104
M4:モーラ数推定部106
なお、モーラ数推定も「M4:モーラ数推定部106」として加える。モーラ数推定をバリエーションの一要素として加えるのは、モーラ数推定部106を使用するか使用しないかにより、得られるタイミング情報に生じる誤差に違いがあると考えられるからである。
【0099】
(2)過程のバリエーション
以下にタイミング情報が決定する過程のバリエーションを示す。
【0100】
1.M1
2.M1+M2
3.M1+M3
4.M1+M2+M3
5.M1+M2+M4
6.M1+M3+M4
7.M1+M2+M3+M4
前端行のM1「音声ベースタイミング情報決定部101のみで決定する」のみで決定する場合が最も時間的な誤差が少ない。以降、下へ行くほど、得られるタイミング情報の時間的な誤差が大きくなる可能性が増える。ここで、時間的誤差とは、音声の時間と、字幕の表示時間の誤差である。
【0101】
(3)誤差の生じ第1の状況
時間的な誤差の生じる状況について「M1」と「M1+M2」を例に説明する。
【0102】
図5の一致単語「選手」と不一致単語「する」を比べた場合、「する」のタイミング情報は「出場」「する」「日本」「選手」が同じ話速で発話されていることを前提としている。そのため「する」と「日本」それぞれを発話する時に話速が異なっていれば、誤差が生じることになる。一方、一致単語は音声との対応付けに基づいたタイミング情報が付与されているため、「する」と比較して誤差が生じる可能性は小さい。
【0103】
さらに、前記バリエーションの内「M2:モーラベースタイミング情報決定部103」については、同じ手段であっても決定されるタイミング情報の誤差に差異が生じる。モーラベースタイミング情報決定部103内で、誤差が生じる要因を以下に挙げる。なお、タイミング情報を決定する不一致単語を、以下の要因一覧上では「当該単語」と呼ぶ。
【0104】
第1の要因は、当該単語と、計算起点とする一致単語と間にあるモーラ数である。モーラ数が小さいほど、誤差が生じる可能性が小さくなる。掛け合わせるモーラ数が大きくなればなるほど1モーラ当たりの時間誤差が増えるからである。
【0105】
第2の要因は、当該単語が一致単語に挟まれているかいないか、である。挟まれている方が、挟まれていない場合に比べ誤差が生じる可能性が小さくなる。挟まれている場合、双方の一致単語のタイミング情報に基づいて1モーラ当たりの時間を算出することができるが、挟まれていない場合はそれができないからである。
【0106】
第3の要因は、当該単語を含む時系列連続単語グループ内の一致単語の数である。一致単語数が多い方が、誤差が生じる可能性が小さくなる。一致単語数が多ければ多いほど、それぞれから1モーラ当たりの時間を算出でき、1モーラ当たりの時間について誤差が生じる可能性が小さくなるからである。
【0107】
(4)誤差の生じる第2の状況
また、モーラベースタイミング情報決定部103において、計算の基点となる一致単語が、時系列連続単語グループGに存在しない場合がある。この場合、Gの前後の時系列連続単語グループに含まれるオリジナル表示開始時間を持つ単語と、Gに含まれるオリジナル表示開始時間を持つ単語を用いて、差分時間ベースタイミング決定部同様、差分時間で補間する方法が考えられる。この方法を用いてタイミング情報を得た単語を基点として、タイミング情報を決定したG内の各単語のタイミング情報は、この方法を用いなかったG以外の時系列連続単語グループの単語のタイミング情報と比較して、誤差が生じる可能性が大きい。
【0108】
(5)誤差の生じる第3の状況
さらに「M4:モーラ数推定部106」においても、以下のような要因で誤差が生じる可能性が異なる。
【0109】
推定結果のモーラ数組み合わせに基づいて算出される1モーラ当たりの時間と、推定結果に選ばれなかった組み合わせ候補の1モーラ当たりの時間との時間差がある。この時間差が大きいほどモーラ数推定結果が誤っている可能性が小さくなり、付与されるタイミング情報が誤差を含む可能性が小さくなる。
【0110】
また、モーラ数推定で、組み合わせから得られる1モーラ当たりの時間に差が無く、モーラ数の組み合わせ候補を1個に決定できない場合も、モーラ数推定結果が誤る可能性が大きい。
【0111】
(6)まとめ
以上のようにタイミング情報が決定する過程には多くのバリエーションがある。
【0112】
決定過程は決定するタイミング情報の誤差の大小に影響する。本実施例に係わる字幕情報作成装置10は、このような決定過程をタイミング付随情報として記録しておき、字幕グループを作成する際に用いる。
【0113】
(7)字幕情報作成装置10の構成
図9は、本実施例に係わる字幕情報作成装置10を示すブロック図である。
【0114】
この字幕情報作成装置10は、タイミング単位文字列抽出部100、タイミング情報決定部107、字幕グループ作成部105、タイミング付随情報記憶部108とを備えている。
【0115】
タイミング単位文字列抽出部100は、オリジナル字幕情報の字幕文字列群からタイミング単位文字列を抽出する。
【0116】
タイミング情報決定部107は、前記タイミング単位文字列抽出部100で抽出した各タイミング単位文字列へタイミング情報を決定する。
【0117】
タイミング付随情報記憶部108は、前記タイミング情報決定部108でタイミング情報が決定する際に、その決定過程をタイミング付随情報として、各タイミング情報に対応付けて記憶する。
【0118】
字幕グループ作成部105は、前記タイミング付随情報記憶部108で記憶したタイミング付随情報を用いて字幕グループを作成する。
【0119】
(8)タイミング付随情報を用いた字幕グループの作成
字幕グループ作成部105の動作は、上記の字幕グループ作成部105と同じである。
【0120】
但し、字幕グループ作成部105は、タイミング付随情報記憶部108に記憶されたタイミング付随情報を参照し、時間的誤差を含む可能性がより小さい決定過程に基づいたタイミング情報を持つ単語を、優先して字幕グループの前端になるよう字幕グループを作成する。
【0121】
また、逆に、時間的誤差を含む可能性がより大きい決定過程に基づいたタイミング情報を持つ単語を、字幕グループ前端に置くことを避けて字幕グループを作成する。
【0122】
(9)効果
本実施例によれば、決定した各タイミング情報について、決定過程の違いによって生じるタイミング情報の誤差が生じる可能性の大小を考慮して字幕グループの作成を行うことにより、字幕グループ前端又は後端までの間に位置する各タイミング単位文字列のタイミング情報の算出を可能とし、かつ実際の発話タイミングとの間にずれが少ないタイミング情報を持つ字幕グループの作成できる。
【実施例4】
【0123】
以下、本発明の実施例4の字幕情報作成装置10について図11〜図16に基づいて説明する。本実施例は、字幕情報作成装置10を英語に適用した場合である。
【0124】
(1)字幕情報作成装置10の構成
図11は、本実施例に係わる字幕情報作成装置10を示すブロック図である。
【0125】
この字幕情報作成装置10は、タイミング単位文字列抽出部100、音声ベースタイミング情報決定部101、等時分節ベースタイミング情報決定部108、差分時間ベースタイミング情報決定部109、字幕グループ作成部105とを備えている。
【0126】
タイミング単位文字列抽出部100は、オリジナル字幕情報の字幕文字列群からタイミング単位文字列を抽出する。
【0127】
音声ベースタイミング情報決定部101は、タイミング単位文字列と音声との対応付けを行い、その結果に基づいて各タイミング単位文字列のタイミング情報を決定する。
【0128】
等時分節ベースタイミング情報決定部108は、等時分節数と、決定済みタイミング単位文字列のタイミング情報とに基づいて、未決タイミング単位文字列のタイミング情報を決定する。
【0129】
差分時間ベースタイミング情報決定部109は、決定済みタイミング単位文字列と未決タイミング単位文字列との間に、等時分節未決文字列が存在する場合に、決定済みタイミング単位文字列のタイミング情報と、オリジナル字幕情報のタイミング情報に基づいて、未決タイミング単位文字列のタイミング情報を決定する。
【0130】
字幕グループ作成部105は、字幕グループを作成する。
【0131】
(2)字幕情報作成装置10の動作
図12は、実施例4に係わる字幕情報作成装置10のフローチャートである。
【0132】
以下では、図12のフローチャートに沿って、その他の図を用いて本実施例に係わる字幕情報作成装置10の動作について説明する。なお、ここでは、実施例1と同様に、例としてCCを表示する機能を持つテレビを想定して説明する。音声及びオリジナル字幕情報は放送電波として受信され、ここから取り出された音声とオリジナル字幕情報が本発明の字幕情報作成装置10へ入力される。
【0133】
(3)タイミング単位文字列抽出
まず、図12のステップS0において、タイミング単位文字列抽出部100が、オリジナル字幕情報に含まれる字幕文字列群を対象として、そこからタイミング単位文字列を抽出する。
【0134】
字幕文字列群を構成する個々の字幕文字列は、音声と同期して一度に画面上に表示するまとまりであり、図13のc1からc5のように、それぞれに表示開始と終了のタイミング情報が付随している。それぞれ表示開始時間、表示終了時間、字幕文字列を「,」区切りで表記している。表示開始、終了時間は音声の再生開始時間を0秒とした秒単位である。
【0135】
抽出すべきタイミング単位文字列は一定の文字パターンであり、この字幕情報作成装置10において、第1に音声と字幕文字列を対応付ける際の字幕文字列側の対応付け要素、第2に字幕グループの前端候補、という役割がある。そのためタイミング単位文字列として定義する文字パターンは、音声との対応付けのためになるべく少ない文字数で構成される文字列であることが望ましく、かつ、字幕グループの前端になり得る単位であることを条件とする。
【0136】
実施例1では、字幕情報作成装置10を日本語に適用して、「タイミング単位文字列」を単語としていた。しかし、本実施例では、英語を事例としているため、タイミング単位文字列をフットとする。そして、タイミング単位文字列抽出部100は、フット毎にタイミング単位文字列を区切る。
【0137】
「フット」とは、英語の発話において、強勢毎に区切られる発話単位である。強勢とは、強くゆっくりと発話される音節であり、文中の単語には強勢を持つ単語(以下、「強勢単語」という)と、強勢を持たず弱く速く発話される単語(以下、「弱勢単語」という)とがある。強勢単語と、その強勢単語によって区切られた一続きの弱勢単語を一まとめにしたものをフットと呼ぶ。フットは一息で発話される発話区間であるため音声との対応付け単位として適当である。また、発話上意味を持つまとまりになっているので、字幕グループの前端としても適している。
【0138】
フットは、日本語におけるモーラ同様に、英語の発話において等時性を持つ音の分節単位である。以下の例では、大文字が強勢の位置、「|」がフットの境界を示す。
【0139】

1)the|HOUSE is|BEAUtiful
2)the|HOUSE is very|BEAUtiful
3)the|HOUSE is not very|BEAUtiful

1)〜3)の「house is」、「house is very」、「house is not very」は、フットに含まれる音節数に関わりなく、強勢間の時間間隔が大きく変化しない(田窪,前川,窪園,本多,白井,中川:「言語の科学2 音声」:岩波書店:1988参照)。以降の説明ではタイミング単位文字列としてフット単位を用いるものとし、字幕文字列から得たフット単位の文字列を以下では字幕要素と呼ぶ。
【0140】
(4)音声ベースタイミング情報決定
次に、音声ベースタイミング情報決定部101が、前記受信した音声から比較のための文字列(以下、「音声要素」という)を抽出し、字幕要素列と対応付ける。音声要素の抽出には、抽出単位を字幕要素同様フットとして公知である音声認識などを用いる。音声要素と字幕要素列との対応付けには、公知の動的計画法などを用いる。
【0141】
図12のステップS1において、対応する音声要素が見つかった字幕要素(以下、「一致要素」という)のタイミング情報として、音声要素のタイミング情報を付与する。例えば、図14で示すように音声要素列上の「house is not」が、字幕要素列上の「house is not」と対応付けられ、音声要素側のタイミング情報である60.88(表示開始時間)と61.08(表示終了時間)を、字幕要素側のタイミング情報として付与する。
【0142】
ステップS2において、上記付与後、全字幕要素のタイミング情報が決定したかどうか判定する。
【0143】
ステップS2において、タイミング情報が決定している場合は、字幕グループの作成を行い、終了する。
【0144】
なお、図14の音声要素列は音声認識の結果を羅列したものであり認識誤りを含んでいる。例では「does」、「boots」が認識誤りの音声要素である。
【0145】
(5)等時分節ベースタイミング情報決定
ステップS2の判定で、タイミング情報が決定していない字幕要素(以下、「不一致要素」という)が存在する場合、ステップS3において、等時分節ベースタイミング情報決定部109が、不一致要素のタイミング情報を決定する。
【0146】
図15を用いて、等時分節ベースタイミング情報決定について説明する。
【0147】
等時分節ベースタイミング情報決定部109は、一致要素のタイミング情報と、フット数に基づいて字幕要素のタイミング情報を類推演算で算出する。
【0148】
例えば一致要素「beautiful as you」の後方にある不一致要素「say.」のタイミング情報を決定する場合、1フット当たりの時間(以下、「フット時間長」という)ftに基づいて以下のように算出する。
【0149】

ft=「beautiful as you」の発話終了時間−「beautiful as you」の発話開始時間=61.48−61.28=0.2
「say」の発話開始時間=「beautiful as you」の発話終了時間=61.48
「say」の発話終了時間=「say」の発話開始時間+ft=61.68

1フットの等時性はピリオドで区切られる1文区間内で保たれるものとする。一文内の複数の一致要素から異なる時間長(ft)が得られる場合は、それらの平均値を用いる、又は、タイミング情報を決定する不一致要素に最も近い位置にある一致要素のフット時間長を用いるなどしてもよい。
【0150】
(6)差分時間ベースタイミング情報決定
等時分節数が一意に決定できない文字列(以下、「等時分節未決要素」という)がある。それは、第1に棒読みか桁読みかがわからない数字文字列、第2に等時分節決定処理で対応していない文字列、などである。なお、対応していない文字列とは(等時分節決定に辞書を用いている場合)、辞書未登録の文字列が該当する。
【0151】
図16の例では「10963」が等時分節未決要素である。
【0152】
「10963」は「ten/nine/sixty/three」と発話する場合で4フット(「/」がフット境界)であり、「one/o/nine/six/three」と発話する場合で5フットとなる。このように、CCの表記に対して実際の発話がどのようになるかは文脈に依存し、自動判別するためには更なる知識と計算量を要する。強いていずれかの読み方に決めて計算を行い、その読み方が実際の発話の読み方と異なっている場合、大きな誤差が生じる可能性がある。
【0153】
等時分節未決要素が混在するたびに誤差が生じる可能性が増すため、等時分節ベースタイミング情報決定部109のみでは、誤差の小さいタイミング情報を算出することができない場合がある。
【0154】
そこで、ステップS3において、等時分節ベースタイミング情報決定を行う際、字幕要素列上の一致要素と不一致要素の間に等時分節未決要素が存在する場合には、ステップS4において、差分時間ベースタイミング決定部110が、不一致要素のタイミング情報を決定する。
【0155】
差分時間ベースタイミング情報決定部110は、オリジナル字幕情報のタイミング情報を用いる。オリジナル字幕情報のタイミング情報は、オリジナル字幕情報で1画面表示単位の字幕文字列毎に付与されている。これらの表示開始時間を、各字幕文字列の前端にあたる単語の表示開始時間とみなす。例えば、図13のc2の字幕文字列の表示開始時間は27.48であり、これをc2の字幕文字列の前端単語「decided」の表示開始時間と見なす(e2)。同様に、e1、e3、e4の単語もオリジナルタイミング情報に基づいた表示開始時間(以下、オリジナル表示開始時間)を持つ単語となる。
【0156】
図16を用いて、差分時間ベースタイミング情報決定の流れを説明する。
【0157】
まず、図16の丸数字の1が示すように、等時分節ベースタイミング情報決定により、一致要素「pound」を基点としてオリジナルタイミング情報に基づいた表示開始時間を持つ要素「after」のタイミング情報を算出する。「after」は本来1フットではないが、前方に等時分節未決要素が存在するため、便宜上1要素となる。
【0158】
次に、図16の丸数字の2に示すように、「after」のオリジナル表示開始時間71.03と、等時分節ベースタイミング情報決定手段で算出したタイミング情報の表示開始時間63.53の差分時間7.5を算出する。
【0159】
次に、図16の丸数字の3に示すように、この差分時間を「Just dial」のオリジナル表示開始時間69.56から引くことで、62.06という表示開始時間を得る。
【0160】
以上の処理で前後端両方向に隣接する要素のタイミング情報が判明し、等時分節未決要素「10963」のタイミング情報が決定する。
【0161】
(7)字幕グループ作成
図12で示すように、ステップS1において音声ベースタイミング情報決定、ステップS3において等時分節ベースタイミング情報決定、及び、ステップS4において差分時間ベースタイミング情報決定することによって全要素にタイミング情報が決定されたら、次に、ステップS6において字幕グループ作成部105が字幕グループを作成する。
【0162】
作成は、第1に(S1)〜(S4)によって決定されたタイミング情報、第2にユーザの字幕表示形態に対する要望、第3に可読性を考慮した書式、に則る。
【0163】
決定されたタイミング情報で、ある要素の表示終了時間とその次の要素の表示開始時間が同一でなければ、それら2要素を同じ字幕グループとはしない。
【0164】
ユーザの字幕表示形態に対する要望は、行数や文字数の指定等が考えられる。
【0165】
また、可読性を考慮した書式とは、
・統計的に得た人間の読解速度を考慮して、一回に表示する文字数と表示時間を決める。
【0166】
・終止符(「.」)、コンマ(「,」)、疑問符(「?」)、感嘆符(「!」)などが表示文字列前端に来ないようにする。
【0167】
・「Mr.」「Ms.」「Mt.」などの直後で区切らない。
【0168】
などが考えられる。
【0169】
最後に、各字幕グループ前端フットの表示開始時間を字幕グループの表示開始時間とし、字幕グループ後端フットの表示終了時間を字幕グループの表示終了時間とする。字幕グループの表示開始、終了時間の決め方についてはユーザ要望や可読性に基づいて意図的に時間差を与えることも考えられる。例えば以下に示すように、実際の発話時間よりも字幕の発話時間を長くすることで、想定するユーザの字幕読解速度が実際の発話よりも遅い場合に対応する。
【0170】
・字幕グループgの表示終了時間と、gの次に表示される字幕グループの表示開始時間との間に一定以上の時間差Tdがあれば、字幕グループgの表示終了時間にTd以下の加算を行って字幕グループNが対応する発話終了後も一定時間字幕が表示されるようにする。
【0171】
・字幕グループgの表示開始時間と、gの前に表示される字幕グループの表示終了時間との間に一定以上の時間差Tdがあれば、字幕グループgの表示開始時間からTd以下の減算を行って字幕グループgが対応する発話が開始する一定時間前から字幕グループgが表示されるようにする。
【0172】
(8)効果
本実施例によれば、英語においても、モーラを用いる日本語と同様に、タイミング情報を算出でき、これらの文字列を前端とする字幕グループを作ることができ、CC表示状態に対する要望に対応することができる。
【実施例5】
【0173】
以下、本発明の実施例5の字幕情報作成装置10について図17〜図19に基づいて説明する。
【0174】
本実施例は、等時分節未決定範囲内の等時分節数を推定するものであり、等時分節推定部111を有している。未決範囲は、前後端が等時分節未決要素であり、範囲内に一致要素、又は、オリジナル表示開始時間を持つ字幕要素が存在しない範囲とする。但し、複数の範囲が隣接又は重複する場合は、それらをまとめた最大の範囲のみを認める。
【0175】
(1)字幕情報作成装置10の構成
図17は、本実施例に係わる字幕情報作成装置10を示すブロック図である。実施例4の図11との異なる箇所についてのみ説明する。
【0176】
等時分節推定部111は、未決範囲を対象に、範囲内のフット数を推定する。
【0177】
等時分節ベースタイミング情報決定部109は、推定されたフット数に基づいて、範囲内の各字幕要素のタイミング情報を決定する。
【0178】
(2)等時分節数推定
図18を用いて、等時分節推定について説明する。
【0179】
字幕要素列上の「CHI」、「or」、「ISWC」の3要素が1つの未決範囲を構成している。この場合、範囲後方に隣接する「next」(前方に未決範囲があるため、便宜上1要素としているが「フット」ではない)は未決範囲の後端フットの一部になると予想できるので、「send it to」の表示終了時間と「year」の表示開始時間の差分を対象範囲の総経過時間とする。
【0180】
例では72.79−72.19=0.6が得られる。次に範囲内の各要素のフット候補の全組み合わせを作り、範囲の総時間に基づいて組み合わせ毎に1フット当たりの時間を算出する。
【0181】
「CHI」は、「Computer Human Interaction」の略称であり、ユーザインタフェース関連で世界最大規模の学会である。これは一般に「カイ」(1フット)あるいは1文字ずつ「シー、エイチ、アイ」(3フット)で発話される。
【0182】
「ISWC」は、「International Symposium on Wearable Computers」の略称であり、「イーズウィック」(1フット)あるいは「アイ、エス、ダブリュー、シー」(4フット)で発話される。したがって組み合わせの数は2×2=4通りである。
【0183】
算出した時間から、未決範囲前後の1フット当たりの時間に基づいて1つを選択する。例では範囲前方のフット「send it to」から1フット当たり0.3秒を得る。そこで、1フット当たりの時間として0.3が算出されるフット数の組み合わせである「カイ」(1フット)+「イーズウィック」(1フット)を選択し、これを推定結果とする。選択方法は、例えば未決範囲の前後の1フット当たりの時間を平均し、その値に最も近い時間を選択するなどしてもよい。
【0184】
得られた推定結果に基づき、図18の字幕要素列のフット構成とそれぞれのタイミング情報は、図19のように決定できる。
【変更例】
【0185】
なお、本発明は上記実施例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。
【0186】
例えば、上記各実施例では、言語として、日本語と英語に適用したが、本発明は、これ以外のドイツ語、フランス語、イタリア語、スペイン語、ロシア語、中国語、ハングル語などにも適用できる。
【図面の簡単な説明】
【0187】
【図1】本発明の実施例1の字幕情報作成装置10のブロック図である。
【図2】実施例1の動作を示すフローチャートである。
【図3】オリジナル字幕情報とタイミング単位文字列の例である。
【図4】音声ベースタイミング情報決定の説明図である。
【図5】モーラベースタイミング情報決定の説明図である。
【図6】差分時間ベースタイミング情報決定の説明図である。
【図7】実施例2の字幕情報作成装置10のブロック図である。
【図8】モーラ数推定の説明図である。
【図9】実施例3の字幕情報作成装置10のブロック図である。
【図10】テレビに字幕を表示した状態の図である。
【図11】実施例4の字幕情報作成装置10のブロック図である。
【図12】実施例4の動作を示すフローチャートである。
【図13】オリジナル字幕情報とタイミング単位文字列の例である。
【図14】音声ベースタイミング情報決定の説明図である。
【図15】等時分節ベースタイミング情報決定の説明図である。
【図16】差分時間ベースタイミング情報決定の説明図である。
【図17】実施例5の字幕情報作成装置10のブロック図である。
【図18】等時分節推定の説明図である。
【図19】等時分節推定の結果に基づく図17のフット構成とタイミング情報の表である。
【符号の説明】
【0188】
10 字幕情報作成装置
100 タイミング単位文字列抽出部
101 音声ベースタイミング情報決定部
102 モーラ数決定部
103 モーラベースタイミング情報決定部
104 差分時間ベースタイミング情報決定部
105 字幕グループ作成部
106 モーラ数推定部
107 タイミング情報決定部
108 タイミング情報記憶部
109 等時分節ベースタイミング情報決定部
110 差分時間ベースタイミング情報決定部
111 等時分節推定部

【特許請求の範囲】
【請求項1】
音声に対する字幕情報を作成する字幕情報作成装置において、
予め作成された字幕文字列群、及び、前記字幕文字列中の任意の文字数毎に付与された前記音声との参考的な対応を示す時間情報であるオリジナルタイミング情報を含むオリジナル字幕情報を受け取り、前記音声と同期して前記字幕文字列を表示するための時間情報であるタイミング情報を付与するタイミング単位文字列を、前記字幕文字列群から抽出する抽出部と、
前記音声と前記タイミング単位文字列の対応付けを音声認識によって行い、前記対応付けができた前記タイミング単位文字列に対し、前記音声の時間情報に基づいて前記タイミング情報を決定する第1タイミング情報決定部と、
前記タイミング情報が決定された決定済みタイミング単位文字列の前記タイミング情報を基準にして、前記各タイミング単位文字列が含む等時性を持つ音の分節である等時分節の数を用いて、前記タイミング情報が決定できなかった未決タイミング単位文字列の前記タイミング情報を決定する第2タイミング情報決定部と、
前記オリジナルタイミング情報を有する一対の前記タイミング単位文字列の間に、前記等時分節の数が一意に決定できない前記タイミング単位文字列である等時分節未決文字列が存在する場合に、(1)前記決定済みタイミング単位文字列の前記タイミング情報と前記オリジナルタイミング情報の差分時間を求め、(2)一対の前記タイミング単位文字列の前記オリジナルタイミング情報から前記差分時間を差し引いて前記タイミング情報をそれぞれ求め、(3)一対の前記タイミング単位文字列の前記タイミング情報を用いて、その間にある前記等時分節未決文字列の前記タイミング情報を決定する第3タイミング情報決定部と、
前記字幕文字列群を任意の書式に則って分けた字幕文字列である字幕グループと、前記各字幕グループを前記音声と同期して表示するための前記決定済みタイミング単位文字列、前記未決タイミング単位文字列、又は、前記等時分節未決文字列のそれぞれの前記タイミング情報とを含む前記字幕情報を作成する作成部と、
を有することを特徴とする字幕情報作成装置。
【請求項2】
前記字幕文字列群の前後端が前記等時分節未決文字列であり、かつ、前記決定済みタイミング単位文字列を含まない文字列群である未決範囲を求め、
前記未決範囲の前後に隣接する前記決定済みタイミング単位文字列の前記タイミング情報と、前記未決範囲内の前記各タイミング単位文字列の等時分節候補の組み合わせに基づいて、前記組み合わせ毎に1等時分節当たりの表示時間を算出し、
前記未決範囲前後の1等時分節当たりの表示時間と比較して最も近い時間が得られる前記等時分節候補の組み合わせを選び、
選んだ前記等時分節候補の数を、前記未決範囲内の前記タイミング単位文字列の前記等時分節の数と推定する推定部を有する、
ことを特徴とする請求項1に記載の字幕情報作成装置。
【請求項3】
前記第1タイミング情報決定部、前記第2タイミング情報決定部、又は、前記第3タイミング情報決定部によりそれぞれ決定された前記タイミング情報であることを表すタイミング付随情報を、前記各タイミング情報に対応付けて記憶するタイミング付随情報記憶部をさらに有し、
前記作成部は、前記タイミング付随情報に基づいて、時間的誤差が少ない前記タイミング情報を持つ前記タイミング単位文字列を前記字幕グループの前端に設定する、
ことを特徴とする請求項1に記載の字幕情報作成装置。
【請求項4】
前記第2タイミング情報決定部は、前記タイミング単位文字列が含む前記等時分節の数を決定する等時分節数決定部を有する、
ことを特徴とする請求項1に記載の字幕情報作成装置。
【請求項5】
前記抽出部は、前記タイミング単位文字列を、前記等時分節を最小構成単位として区切る、
ことを特徴とする請求項1に記載の字幕情報作成装置。
【請求項6】
前記等時分節は、モーラ、又は、フットである、
ことを特徴とする請求項1に記載の字幕情報作成装置。
【請求項7】
音声に対する字幕情報を作成する字幕情報作成方法において、
予め作成された字幕文字列群、及び、前記字幕文字列中の任意の文字数毎に付与された前記音声との参考的な対応を示す時間情報であるオリジナルタイミング情報を含むオリジナル字幕情報を受け取り、前記音声と同期して前記字幕文字列を表示するための時間情報であるタイミング情報を付与するタイミング単位文字列を、前記字幕文字列群から抽出する抽出ステップと、
前記音声と前記タイミング単位文字列の対応付けを音声認識によって行い、前記対応付けができた前記タイミング単位文字列に対し、前記音声の時間情報に基づいて前記タイミング情報を決定する第1タイミング情報決定ステップと、
前記タイミング情報が決定された決定済みタイミング単位文字列の前記タイミング情報を基準にして、前記各タイミング単位文字列が含む等時性を持つ音の分節である等時分節の数を用いて、前記タイミング情報が決定できなかった未決タイミング単位文字列の前記タイミング情報を決定する第2タイミング情報決定ステップと、
前記オリジナルタイミング情報を有する一対の前記タイミング単位文字列の間に、前記等時分節の数が一意に決定できない前記タイミング単位文字列である等時分節未決文字列が存在する場合に、(1)前記決定済みタイミング単位文字列の前記タイミング情報と前記オリジナルタイミング情報の差分時間を求め、(2)一対の前記タイミング単位文字列の前記オリジナルタイミング情報から前記差分時間を差し引いて前記タイミング情報をそれぞれ求め、(3)一対の前記タイミング単位文字列の前記タイミング情報を用いて、その間にある前記等時分節未決文字列の前記タイミング情報を決定する第3タイミング情報決定ステップと、
前記字幕文字列群を任意の書式に則って分けた字幕文字列である字幕グループと、前記各字幕グループを前記音声と同期して表示するための前記決定済みタイミング単位文字列、前記未決タイミング単位文字列、又は、前記等時分節未決文字列のそれぞれの前記タイミング情報とを含む前記字幕情報を作成する作成ステップと、
を有することを特徴とする字幕情報作成方法。
【請求項8】
コンピュータに、
予め作成された字幕文字列群、及び、前記字幕文字列中の任意の文字数毎に付与された音声との参考的な対応を示す時間情報であるオリジナルタイミング情報を含むオリジナル字幕情報を受け取り、前記音声と同期して前記字幕文字列を表示するための時間情報であるタイミング情報を付与するタイミング単位文字列を、前記字幕文字列群から抽出する抽出機能と、
前記音声と前記タイミング単位文字列の対応付けを音声認識によって行い、前記対応付けができた前記タイミング単位文字列に対し、前記音声の時間情報に基づいて前記タイミング情報を決定する第1タイミング情報決定機能と、
前記タイミング情報が決定された決定済みタイミング単位文字列の前記タイミング情報を基準にして、前記各タイミング単位文字列が含む等時性を持つ音の分節である等時分節の数を用いて、前記タイミング情報が決定できなかった未決タイミング単位文字列の前記タイミング情報を決定する第2タイミング情報決定機能と、
前記オリジナルタイミング情報を有する一対の前記タイミング単位文字列の間に、前記等時分節の数が一意に決定できない前記タイミング単位文字列である等時分節未決文字列が存在する場合に、(1)前記決定済みタイミング単位文字列の前記タイミング情報と前記オリジナルタイミング情報の差分時間を求め、(2)一対の前記タイミング単位文字列の前記オリジナルタイミング情報から前記差分時間を差し引いて前記タイミング情報をそれぞれ求め、(3)一対の前記タイミング単位文字列の前記タイミング情報を用いて、その間にある前記等時分節未決文字列の前記タイミング情報を決定する第3タイミング情報決定機能と、
前記字幕文字列群を任意の書式に則って分けた字幕文字列である字幕グループと、前記各字幕グループを前記音声と同期して表示するための前記決定済みタイミング単位文字列、前記未決タイミング単位文字列、又は、前記等時分節未決文字列のそれぞれの前記タイミング情報とを含む前記字幕情報を作成する作成機能と、
を実現させるための字幕情報作成プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate


【公開番号】特開2010−157816(P2010−157816A)
【公開日】平成22年7月15日(2010.7.15)
【国際特許分類】
【出願番号】特願2008−333773(P2008−333773)
【出願日】平成20年12月26日(2008.12.26)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】