説明

会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム

【課題】発言者の発言内容を、聞き手が容易に、且つ正確に理解することができる会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラムを提供する。
【解決手段】発言者が英語で発言した音声が音声認識される。聞き手が使用するディスプレイの字幕表示領域4は、上半分が訳振り領域41として用いられ、下半分が原文領域42として用いられる。訳振り領域41には、音声認識結果である原文431に、原文431を日本語に翻訳した訳文432がルビ状に併記された訳振り字幕43が表示される。このように、原文431及び訳文432の両方が表示され、しかも、原文431に含まれる単語又は連語に、訳文432として、この単語又は連語を翻訳した語句が表示されるため、聞き手が理解し易く、また、誤訳に気付き易い。更に、原文領域42には、まだ翻訳されていない原文442を含む原文字幕44が表示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会議の実現を支援するための会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラムに関する。
【背景技術】
【0002】
通信技術及び画像処理技術等の進歩により、会議の参加者同士が遠隔地にいる場合であっても問題なく会議を行なうことができる会議システムが実現されている。このような会議システムでは、複数台の端末装置がネットワークに接続されており、各端末装置が有する表示部に、互いに共通の画像を表示させる。この結果、端末装置を使用する参加者同士が、会議に必要な情報を共有することができる。
以下では、発言する立場の参加者を発言者といい、発言を聞く立場の参加者を聞き手といい、両者を区別しない場合には単に参加者という。
【0003】
昨今、発言者の発言を音声認識し、音声認識の結果(以下、原文という)を表示する技術が知られている。更に、異国間での会議、又は母国語が異なる参加者同士の会議等を支援するために、原文を所要の言語に翻訳した結果(以下、訳文という)を表示する技術が知られている(特許文献1参照)。
この結果、聞き手が理解できない言語、又は理解に多くの努力を要する言語でなされた発言の内容を、聞き手が容易に理解することができる言語に翻訳してから表示することが可能である。従って、参加者の利便性を向上させることができる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平7−87472号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところが、従来の会議システムでは、原文のみが表示されるか、又は、訳文のみが表示される。
このため、原文のみが表示される場合は、聞き手が発言者の発言内容を理解できないことがある。
一方、訳文のみが表示される場合は、原文が誤訳された場合に、聞き手が発言者の発言内容を誤解する虞がある。
【0006】
本発明は斯かる問題を解決するためになされたものであり、その主たる目的は、発言の音声を一の言語で音声認識した結果と、音声認識した結果を翻訳した結果とを併記した対訳字幕を表示する構成とすることにより、聞き手が発言者の発言内容を、容易に、且つ正確に理解することができる会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラムを提供することにある。
【課題を解決するための手段】
【0007】
本発明に係る会議システムは、字幕を表示する表示部を備える会議システムにおいて、発言の音声を一の言語で音声認識する認識手段と、該認識手段による認識結果を、前記一の言語とは異なる他の言語に翻訳する翻訳手段と、前記認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕を生成する生成手段と、該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段とを備えることを特徴とする。
【0008】
本発明に係る会議システムは、前記対訳字幕は、前記認識結果に前記翻訳結果がルビ状に併記された訳振り字幕であることを特徴とする。
【0009】
本発明に係る会議システムは、前記訳振り字幕は、前記認識結果に含まれる単語又は連語に、前記翻訳結果に含まれ、前記単語又は連語に対応する語句がルビ状に併記されたものであることを特徴とする。
【0010】
本発明に係る会議システムは、前記生成手段は、前記認識結果を示す認識結果字幕を更に生成するようにしてあり、前記制御手段は、前記表示部が有する表示領域を2分割してなる一方に前記訳振り字幕を表示させ、他方に前記生成手段が生成した認識結果字幕を表示させるようにしてあることを特徴とする。
【0011】
本発明に係る会議システムは、前記制御手段は、前記表示部に前記訳振り字幕を表示させる場合に、表示される訳振り字幕に含まれている認識結果を示す認識結果字幕を消去させるようにしてあることを特徴とする。
【0012】
本発明に係る会議システムは、前記制御手段は、前記認識結果字幕と前記訳振り字幕とを個別にスクロール表示させるようにしてあることを特徴とする。
【0013】
本発明に係る会議システムは、前記認識手段は、前記発言の音声を前記一の言語で改めて音声認識するようにしてあり、前記認識結果を前記認識手段による再度の認識結果で置換すべき置換部分及び被置換部分の有無を判定する認識判定手段と、該認識判定手段があると判定した場合、前記表示部に表示されている前記対訳字幕から前記被置換部分を消去したときに、前記置換部分を表示可能な表示可能領域が前記対訳字幕に生じるか否かを判定する領域判定手段とを更に有し、前記生成手段は、前記認識判定手段があると判定した場合、前記対訳字幕を、前記再度の認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕に修正するようにしてあり、前記制御手段は、前記認識判定手段があると判定した場合に、前記被置換部分を消去させる手段と、前記領域判定手段が否と判定した場合に、前記表示可能領域を設けるべく、前記被置換部分よりも後尾側の対訳字幕を、可読方向へスクロール表示させる手段と、前記表示可能領域に前記置換部分を表示させる手段とを有することを特徴とする。
【0014】
本発明に係る会議システムは、前記制御手段は、前記表示可能領域に前記置換部分を表示させる場合に、該置換部分を、所定時間だけ、前記置換部分以外の前記対訳字幕に比べて強調表示させるようにしてあることを特徴とする。
【0015】
本発明に係る会議システムは、中央装置と、複数台の端末装置夫々とが通信可能に接続されており、各端末装置は、前記表示部、前記生成手段、及び前記制御手段を有し、前記中央装置は、前記認識手段及び翻訳手段と、前記認識結果及び翻訳結果を夫々示すデータを前記端末装置へ配信する配信手段とを有し、各端末装置では、受信したデータに基づいて、前記生成手段による生成処理を実行するようにしてあることを特徴とする。
【0016】
本発明に係る情報処理装置は、字幕を表示する表示部を備え、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理装置において、受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成する生成手段と、該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段とを備えることを特徴とする。
【0017】
本発明に係る会議支援方法は、字幕を表示する表示部を備える会議システムにて、会議の実現を支援する会議支援方法において、一の言語でなされた発言の音声を音声認識し、音声認識した認識結果を、前記一の言語とは異なる他の言語に翻訳し、前記認識結果と翻訳した翻訳結果とが併記された対訳字幕を前記表示部に表示させることを特徴とする。
【0018】
本発明に係る情報処理方法は、字幕を表示する表示部を備える情報処理装置にて、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理方法において、受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を前記表示部に表示させることを特徴とする。
【0019】
本発明に係るコンピュータプログラムは、字幕を表示する表示部を備えるコンピュータに、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信させるコンピュータプログラムであって、コンピュータに、受信されたデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成させる生成ステップと、コンピュータに、前記生成ステップで生成された対訳字幕が表示されるように前記表示部を制御させる制御ステップとを実行させることを特徴とする。
【0020】
本発明にあっては、会議システムが表示部を備え、更に、認識手段、翻訳手段、生成手段、及び制御手段を備える。このような会議システムは、本発明に係る会議支援方法を実現する。
発言者は、一の言語で発言する。ここで、一の言語は、発言者が容易に理解することができる言語である。
発言者による発言の音声は、認識手段によって一の言語で音声認識される。
認識手段による認識結果(即ち原文)は、翻訳手段によって他の言語に翻訳される。ここで、他の言語は、聞き手が容易に理解することができる言語である。
【0021】
生成手段は、原文と翻訳手段による翻訳結果(即ち訳文)とが併記された対訳字幕を生成する。
制御手段は、表示部を制御する。この結果、表示部に、生成手段が生成した対訳字幕、即ち、原文と訳文とが併記された字幕が表示される。
聞き手は、表示部に表示された対訳字幕を読むことによって、発言者の発言内容を理解する。このとき、聞き手は訳文のみ又は原文のみを読むことも、原文と訳文とを対比させつつ読むことも可能である。
【0022】
一般に、会議システムは、複数人の参加者が個別に使用する複数台の端末装置を用いてなる。このような会議システムにおいては、少なくとも表示部は各端末装置が備えている必要がある。一方、認識手段、翻訳手段、生成手段、及び制御手段については、これらの一部又は全部を、各端末装置が備えていてもよく、代表的な端末装置が備えていてもよく、各端末装置と通信する中央装置が備えていてもよい。
なお、参加者が一堂に会している場合には、表示部は1つであってもよい。
【0023】
本発明にあっては、表示部に、訳振り字幕が表示される。訳振り字幕とは、原文に訳文がルビ状に併記されたものであるため、聞き手は、訳振り字幕以外の対訳字幕(例えば、原文と訳文とが単純に並置されているだけの対訳字幕)に比べて、原文と訳文とを更に容易に対比させることができる。従って、聞き手は誤訳の有無を容易に判断することができる。この結果、聞き手は、発言者の発言内容を更に容易且つ正確に理解することができる。
【0024】
ところで、会議システムが、後述するように訳振り字幕と認識結果字幕とを両方表示する構成ではなく、訳振り字幕のみを表示する構成である場合には、表示部が有する表示領域を、訳振り字幕だけで独占することができる。このため、原文が理解できない聞き手にとっては無用なものである認識結果字幕によって、表示領域の一部が占拠され、その分、訳振り字幕を表示することができない、という不都合を防止することができる。
【0025】
本発明にあっては、原文に含まれる単語又は連語に、この単語又は連語を翻訳した語句がルビ状に併記された訳振り字幕が、表示部に表示される。
原文に含まれる一文を正確に翻訳することに比べれば、原文に含まれる単語又は連語を正確に翻訳することは容易である。従って、原文を誤訳してしまう可能性を低減することができる。
また、聞き手は、単語又は連語毎に原文と訳文とを容易に対比させることができる。従って、聞き手は誤訳の有無を容易に判断することができる。この結果、聞き手は、発言者の発言内容を更に容易且つ正確に理解することができる。
【0026】
本発明にあっては、生成手段が、訳振り字幕と認識結果字幕とを夫々生成する。
制御手段は表示部を制御する。この結果、表示部が有する表示領域が2分割される。更に、2分割された表示領域の一方(以下、訳振り領域という)に、原文と訳文とが併記された訳振り字幕が表示され、他方(以下、原文領域という)に、原文が記載された字幕(即ち認識結果字幕)が表示される。このため、表示領域に訳振り字幕及び認識結果字幕の両方が表示されているにも拘らず、聞き手にとっては訳振り字幕及び認識結果字幕夫々が読み易い。即ち、各字幕の読み易さを向上させることができる。
【0027】
ところで、発言者が発言してから原文が得られるまでの時間は、この原文の訳文が得られるまでの時間よりも短い。換言すれば、発言者が発言してから訳文が得られるまでの時間は長い。
しかしながら、本発明では、原文から訳文が得られる前に、認識結果字幕だけを先に表示することができる。この結果、訳振り字幕のみを表示する場合に比べて、聞き手を無用に待たせてしまう虞がない。
【0028】
しかも、既に原文領域に表示した認識結果字幕とは別に、後から訳振り領域に訳振り字幕を表示するため、既に表示してある認識結果字幕を修正して訳振り字幕となす必要がない。即ち、認識結果字幕及び訳振り字幕夫々を表示する処理が簡易である。
【0029】
本発明にあっては、認識結果字幕が適宜に消去される。何故ならば、訳振り字幕には原文も含まれているからである。更に詳細には、同じ原文を含む訳振り字幕と認識結果字幕とを両方表示することに大きな利益はなく、その一方で、重複した原文が、表示部が有する表示領域を無用に占拠するという不都合が生じるからである。
【0030】
そこで、訳振り領域に訳振り字幕が表示される場合に、表示される訳振り字幕に含まれる原文を示す認識結果字幕が、原文領域から消去される。この結果、認識結果字幕は、通常、古いものから順次消去されていく。
つまり、認識結果字幕を適宜に消去することができる。この結果、参加者の利便性を損ねることなく、原文及び訳文を効率よく表示することができる。
【0031】
本発明にあっては、訳振り領域にて訳振り字幕がスクロール表示され、原文領域にて認識結果字幕がスクロール表示される。
訳振り領域及び原文領域夫々は、表示部が有する表示領域を2分割したものであるため、訳振り領域(又は原文領域)に同時的に表示することが可能な訳振り字幕(又は認識結果字幕)の量は、表示領域全体に表示可能な量よりも少ない。
しかしながら、訳振り字幕(又は認識結果字幕)が自動的にスクロール表示される場合には、聞き手は、訳振り字幕(又は認識結果字幕)の全文を、順に読んでいくことができる。
【0032】
また、訳振り字幕(又は認識結果字幕)が手動でスクロール可能な場合には、聞き手は、訳振り字幕(又は認識結果字幕)をスクロールアップ表示又はスクロールダウン表示させることによって、訳振り字幕(又は認識結果字幕)の内、所望する箇所を適宜に読むことができる。
以上の結果、各字幕の読み易さを向上させることができる。
【0033】
なお、原文から訳文が得られるまでの時間が過剰に長い場合には、原文領域に表示されている認識結果字幕に対応する訳振り字幕が訳振り領域に表示されない内に、新たな認識結果字幕を原文領域に表示しなければならないことがある。この場合には、既に表示されている認識結果字幕を原文領域から自動的にスクロールアウト表示して、新たな認識結果字幕を原文領域に表示させることが考えられる。また、この場合には、認識結果字幕がスクロールアウト表示されていることを示す記号又はメッセージ等を原文領域に付加的に表示することが考えられる。
【0034】
本発明にあっては、会議システムは、認識判定手段及び領域判定手段を更に有する。
一般に、高精度の音声認識結果を得るための演算には長時間を要する。従って、高精度の音声認識結果が表示されるまで、聞き手を長時間待たせてしまう虞がある。とはいえ、音声認識結果の精度を犠牲にして演算時間を短縮すると、誤った音声認識結果が表示されてしまうかもしれない。
【0035】
そこで、認識手段は、発言の音声を一の言語で音声認識した後で、発言の音声を一の言語で改めて音声認識する。この場合、認識手段は、再度の認識結果が、最初の認識結果よりも高精度になるように音声認識すればよい。このとき、音声認識に関する演算に長時間を要するが、音声認識結果が表示されるまで、聞き手を長時間待たせてしまうことはない。何故ならば、2回目に認識手段が音声認識すべき発言の音声は、既に音声認識したものであるため、2回目の音声認識の終了を待つことなく、1回目の音声認識の認識結果を表示すればよいからである。
以下では、認識手段による最初の認識結果を最初の原文といい、再度の認識結果を、高精度原文という。
【0036】
最初の原文には誤りが含まれている虞がある。そこで、認識判定手段は、最初の原文を高精度原文で置換すべき置換部分及び被置換部分の有無を判定する。高精度原文の方が最初の原文よりも音声認識の精度が高いため、最初の原文と高精度原文とで異なる部分が存在する場合には、最初の原文における当該部分は被置換部分であり、高精度原文における当該部分は置換部分である。被置換部分を置換部分で置き換えれば、最初の原文と高精度原文とは等しくなる。即ち、最初の原文の誤りを正すことができる。
生成手段は、置換部分及び被置換部分がある場合、即ち、最初の原文に誤りが含まれている場合、最初の原文と訳文とが併記された対訳字幕を、高精度原文と訳文とが併記された対訳字幕に修正する。
【0037】
表示されていない対訳字幕に誤りが含まれていた場合、制御手段は、表示されていない対訳字幕を表示させるときに、生成手段による修正後の対訳字幕を表示させればよい。
一方、表示されている対訳字幕に誤りが含まれていた場合には、注意が必要である。何故ならば、例えば被置換部分の文字数が、置換部分の文字数よりも少ない場合、表示部に表示されている被置換部分を、置換部分で単純に置き換えることができないからである。
【0038】
仮に、置換部分の文字サイズ又は文字間のピッチを、被置換部分の文字サイズ又は文字間よりも小さく又は狭くすれば、置き換えは可能かもしれない。しかしながら、この場合、文字サイズ又は文字間のピッチが部分的に異なる対訳字幕が表示されることになるため、美観を損ない易く、しかも、聞き手が対訳字幕を読み難くなる虞がある。
【0039】
また、最初の原文を消去してから、改めて高精度原文を表示させる(即ち、原文を全部置換する)ことも考えられるが、この場合、どの部分が修正されたのか、聞き手には把握し難い。
更に、最初の原文と高精度原文とでは、例えば置換部分及び被置換部分夫々の文字数の差異により、同一の語句が異なる位置に配置される可能性が高い。このため、聞き手が最初の原文を読んでいる最中に、最初の原文が消去されてしまうと、改めて高精度原文が表示されても、聞き手は、自分がどこまで読んだのかがわからなくなり易い。
つまり、原文の全置換には、会議システムの使用性を悪化させるという問題がある。
【0040】
そこで、最初の原文に誤りが含まれている場合、領域判定手段は、表示部に表示されている対訳字幕から被置換部分を消去したときに、置換部分を表示可能な表示可能領域が対訳字幕に生じるか否かを判定する。
被置換部分を消去すれば表示可能領域が生じる場合、制御手段は、表示部を制御することによって、被置換部分を消去させ、表示可能領域に置換部分を表示させる。
【0041】
被置換部分を消去しても、表示可能領域が生じない場合、制御手段は、表示部を制御することによって、被置換部分を消去させ、且つ、表示可能領域を設けてから、表示可能領域に置換部分を表示させる。ここで、制御手段は、表示可能領域を設けるために、被置換部分よりも後尾側の対訳字幕を、可読方向へスクロール表示させる。
以上の結果、文字サイズ又は文字間のピッチを変更することなく、また、原文を全部置換することなく、表示されている最初の原文を、高精度原文に修正することができる。この場合、会議システムの使用性の悪化を抑制することができる。
【0042】
なお、表示内容の変化を更に低減するためには、表示部に最初の原文を表示させる際、制御手段が、語句と語句との間に予め余裕を持たせておけばよい。この場合、例えば、通常は1文字分の空白を配置すべき英単語間に、所定のN(N≧2)文字分の空白が配置される。このとき、被置換部分を消去すれば表示可能領域が生じる、と判定され易くなるため、表示可能領域を設けるためのスクロール表示が不要になる可能性が高くなる。即ち、表示内容の変化が低減される。
【0043】
本発明にあっては、制御手段は、表示可能領域に置換部分を表示させる場合に、この置換部分を、所定時間だけ、置換部分以外の対訳字幕に比べて強調表示させる。この場合、聞き手は、表示されている原文が修正されたか否か、及び、修正された場合にはどこが修正されたのかを、更に容易に把握することができる。
しかも、所定時間が経過すれば、強調表示は行なわれないため、置換部分が強調表示され続けることによって美観を損なったり、聞き手が対訳字幕を読み難くなったりする虞がない。
【0044】
本発明にあっては、会議システムは、中央装置と複数台の端末装置とを用いてなる。中央装置と複数台の端末装置夫々とは通信可能に接続されている。端末装置は、参加者が使用するものである。
中央装置では、認識手段が、発言の音声を一の言語で音声認識する。この結果、中央装置では原文が得られる。また、中央装置では、翻訳手段が、原文を他の言語に翻訳する。この結果、中央装置では訳文が得られる。
更に、中央装置では、配信手段が、原文及び訳文を夫々示すデータを複数台の端末装置へ配信する。
【0045】
端末装置では、受信したデータに基づいて、生成手段が、原文と訳文とが併記された対訳字幕を生成する。また、端末装置では、制御手段が表示部を制御することによって、生成手段が生成した対訳字幕を表示部に表示させる。
このような端末装置は、本発明に係る情報処理装置を用いてなり、本発明に係る情報処理方法を実現する。また、本発明に係るコンピュータプログラムは、本発明の情報処理装置が備える各種手段を、コンピュータのハードウェア要素を用いてソフトウェア的に実現させる。
【0046】
一般に、音声認識及び翻訳をコンピュータで実現するためには、煩雑な演算処理を必要とする。従って、仮に、各端末装置が認識手段及び翻訳手段を備えている場合には、個々の端末装置の演算能力が高くなければ、音声認識から字幕表示までの処理時間が非常に長くなる虞がある。かといって、個々の端末装置の演算能力を高くすれば、会議システムの製造コストが増大する。
そこで、中央装置が煩雑な演算処理を実行する。この場合、中央装置の演算能力のみ高くすればよいため、会議システムの製造コストを低減しつつ、音声認識から字幕表示までの処理時間を短縮することができる。
【発明の効果】
【0047】
本発明の会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラムによる場合、発言者は、自身が容易に理解することができる一の言語で発言することができる。このとき、他の言語が全く理解できなくても格別の問題はない。
一方、聞き手は、発言者の発言内容を、自身が容易に理解することができる他の言語で読むことができる。このとき、一の言語が全く理解できなくても格別の問題はない。従って、聞き手は、一の言語でなされた発言を聞く場合、及び、一の言語で表記された発言内容を読む場合の何れと比べても、発言者の発言内容を、容易に理解することができる。
【0048】
また、一の言語に対する理解が不十分であっても、聞き手は、一の言語で表記された発言内容(即ち原文)と他の言語で表記された発言内容(即ち訳文)とを読み比べることによって、誤訳の有無を容易に判断することができる。従って、聞き手は、発言者の発言内容を更に容易且つ正確に理解することができる。
以上の結果、発言者であるか聞き手であるかを問わず、会議の参加者全員の利便性を向上させることができる。
【図面の簡単な説明】
【0049】
【図1】本発明の実施の形態1に係る会議システムの構成を模式的に示す斜視図である。
【図2】本発明の実施の形態1に係る会議システムが備える端末装置の要部構成を示すブロック図である。
【図3】本発明の実施の形態1に係る会議システムが備える中央装置の要部構成を示すブロック図である。
【図4】本発明の実施の形態1に係る会議システムにおいて各端末装置のディスプレイに表示される字幕表示画面の一例を示す模式図である。
【図5】本発明の実施の形態1に係る会議システムにおいて字幕表示画面の字幕表示領域に表示される原文字幕の一例を示す模式図である。
【図6】本発明の実施の形態1に係る会議システムにおいて字幕表示領域に表示される訳振り字幕及び原文字幕の一例を示す模式図である。
【図7】本発明の実施の形態1に係る会議システムにおいて端末装置間で字幕が共有される仕組みを説明するための機能ブロック図である。
【図8】本発明の実施の形態1に係る会議システムにおいて原文、訳文、及び各種字幕を管理するための字幕管理テーブルの一例を示す模式図である。
【図9】本発明の実施の形態1に係る会議システムにおいて原文、訳文、及び各種字幕を管理するための字幕管理テーブルの一例を示す模式図である。
【図10】本発明の実施の形態1に係る会議システムにおいて字幕表示領域に表示される訳振り字幕及び原文字幕の他の一例を示す模式図である。
【図11】本発明の実施の形態1に係る会議システムにおいて字幕表示領域に表示される訳振り字幕及び原文字幕の更に他の一例を示す模式図である。
【図12】本発明の実施の形態1に係る会議システムにおいて字幕表示領域に表示される訳振り字幕の一例を示す模式図である。
【図13】本発明の実施の形態1に係る会議システムで実行される音声送信処理、データ配信処理、及び字幕表示処理の手順を示すフローチャートである。
【図14】本発明の実施の形態1に係る会議システムが備える中央装置で実行されるデータ配信処理の手順を示すフローチャートである。
【図15】本発明の実施の形態1に係る会議システムが備える各端末装置で実行される字幕表示処理の手順を示すフローチャートである。
【図16】本発明の実施の形態1に係る会議システムが備える各端末装置で実行される字幕表示処理の手順を示すフローチャートである。
【図17】本発明の実施の形態1に係る会議システムが備える各端末装置で実行される原文字幕出力処理手順の詳細を示すフローチャートである。
【図18】本発明の実施の形態1に係る会議システムが備える各端末装置で実行される訳振り字幕出力処理手順の詳細を示すフローチャートである。
【図19】本発明の実施の形態2に係る会議システムにおける高速処理及び高精度処理の仕組みを説明するための機能ブロック図である。
【図20】本発明の実施の形態2に係る会議システムにおいて字幕表示画面の字幕表示領域に表示される高速原文字幕の一例を示す模式図である。
【図21】本発明の実施の形態2に係る会議システムにおいて字幕表示領域に表示される高速訳振り字幕及び高速原文字幕の一例を示す模式図である。
【図22】本発明の実施の形態2に係る会議システムにおいて字幕表示領域に表示される高速訳振り字幕及び高速原文字幕の他の一例を示す模式図である。
【図23】本発明の実施の形態2に係る会議システムにおいて字幕表示領域に表示される高速訳振り字幕及び高速原文字幕の更に他の一例を示す模式図である。
【図24】本発明の実施の形態2に係る会議システムにおいて字幕表示領域に表示される高精度訳振り字幕及び高精度原文字幕の一例を示す模式図である。
【図25】本発明の実施の形態2に係る会議システムで実行されるデータ配信処理及び字幕表示処理の手順を示すフローチャートである。
【図26】本発明の実施の形態2に係る会議システムが備える中央装置で実行されるデータ配信処理の手順を示すフローチャートである。
【図27】本発明の実施の形態2に係る会議システムが備える各端末装置で実行される字幕表示処理の手順を示すフローチャートである。
【図28】本発明の実施の形態2に係る会議システムが備える各端末装置で実行される字幕表示処理の手順を示すフローチャートである。
【図29】本発明の実施の形態2に係る会議システムが備える各端末装置で実行される原文字幕修正処理手順の詳細を示すフローチャートである。
【図30】本発明の実施の形態2に係る会議システムが備える各端末装置で実行される原文字幕修正処理手順の詳細を示すフローチャートである。
【図31】本発明の実施の形態2に係る会議システムが備える各端末装置で実行される訳振り字幕修正処理手順の詳細を示すフローチャートである。
【発明を実施するための形態】
【0050】
以下、本発明を、その実施の形態を示す図面に基づいて詳述する。
【0051】
実施の形態 1.
図1は、本発明の実施の形態1に係る会議システム6の構成を模式的に示す斜視図である。
本実施の形態における会議システム6は、複数人の参加者による会議の実現を支援すべく、会議に必要な情報を複数台の端末装置1,1,…間で共有させる。このために、会議システム6は、参加者が使用する端末装置1を人数分備え、更に、1台の中央装置3と、ネットワーク5とを備えている。
【0052】
会議に必要な情報としては、例えば、参加者の発言の音声、参加者が映っている動画像、会議に供される資料の静止画像、及び、参加者の発言内容を示す字幕等が挙げられる。
ネットワーク5は、会議が行なわれる会社組織の社内LAN、及び/又はインターネットのような公衆通信網等を用いてなる。
【0053】
各端末装置1と中央装置3とは、ネットワーク5を介して、通信可能に接続される。このために、各端末装置1は、中央装置3との接続の認証を受け、認証された端末装置1と中央装置3との間で、共有すべき音声及び字幕等が授受される。例えば、音声を示す音声データが、中央装置3から、認証された端末装置1,1,…へ配信され、音声データを受信した各端末装置1は、受信した音声データに基づいて、後述するスピーカ28から音声を出力する。この結果、同一の音声が、認証された端末装置1,1,…夫々のスピーカ28から出力される。即ち、同一の音声が端末装置1,1,…間で共有される。
以下では、特に区別しない限り、認証された端末装置1を単に端末装置1という。
【0054】
図2は、端末装置1の要部構成を示すブロック図である。
端末装置1は、パーソナルコンピュータを用いてなり、バス又は信号線によって相互に接続されている制御部11、HDD(ハードディスク)12、入力処理部13、表示処理部14、通信処理部15、映像処理部16、入力音声処理部17、出力音声処理部18、及び外部記憶部19を備える。
更に、端末装置1は、内蔵又は外部接続により、タブレット21、マウス22、キーボード23、ディスプレイ24、I/F部25、カメラ26、マイク27、及びスピーカ28を備える。
【0055】
制御部11は、主記憶部であるROMと、ROMに記憶されているコンピュータプログラムに従って各種処理を実行するCPUと、CPUが作業領域として用いるRAMとを備え、端末装置1の制御中枢として機能する。
【0056】
HDD12は補助記憶部である。HDD12には、端末装置1用のコンピュータプログラム(以下、端末プログラムという)1Pが記憶されている。端末プログラム1Pは、本発明の実施の形態に係るコンピュータプログラムとして機能する。なお、HDD12には端末プログラム1P以外のコンピュータプログラムも記憶されていてよい。
制御部11が、HDD12に記憶されている端末プログラム1Pに従って装置各部を制御することによって、端末装置1は、本発明の実施の形態における情報処理装置として機能する。
また、HDD12には、後述する字幕管理テーブル1T(図8及び図9参照)が記憶されている。
【0057】
入力処理部13には、入力用ユーザインタフェースとして、タブレット21、マウス22、及びキーボード23が接続されている。タブレット21は、ペン20を用いて操作される。
以下では、タブレット21、マウス22、及びキーボード23を区別せずに、操作部21〜23という。
【0058】
表示処理部14には、出力用ユーザインタフェースとして、ディスプレイ24が接続されている。ディスプレイ24は、液晶ディスプレイを用いてなり、本発明の実施の形態における表示部として機能する。
制御部11は、表示処理部14を介して、ディスプレイ24に、後述する字幕表示画面241(図4参照)を表示させる。字幕表示画面241内には、端末装置1,1,…間で共有すべき字幕を表示するための字幕表示領域4が設けられる。
【0059】
通信処理部15は、ネットワークカードを用いてなり、通信処理部15には、端末装置1とネットワーク5とのインタフェースであるI/F部25が接続されている。通信処理部15は、ネットワーク5を介して送受信されるデジタルデータのパケット化及びパケットからのデジタルデータの読み取り等を行なう。通信処理部15が、音声データ及び動画像を示す動画像データ等を送受信するために用いる通信プロトコルは、例えばH.323、SIP(Session Initiation Protocol )、又はHTTP(Hypertext Transfer Protocol )等であるが、これらに限定されるものではない。
制御部11は、通信処理部15を用いて、中央装置3との間で各種データを送受信する。
【0060】
映像処理部16には、カメラ26が接続されている。カメラ26は、端末装置1を使用している参加者を撮像することによって、参加者の動画像を映像処理部16に与える。映像処理部16はエンコーダを含んでおり、カメラ26から与えられた動画像を、H.264又はMPEG等の映像規格の動画像データへ変換して出力する。
制御部11は、映像処理部16から出力された動画像データを、中央装置3へ送信する。一の端末装置1から中央装置3へ送信された動画像データは、中央装置3から他の端末装置1,1,…へ配信される。
【0061】
動画像データを受信した端末装置1は、受信した動画像データに基づく動画像を、ディスプレイ24の所定の表示領域(例えば図4に示す字幕表示画面241の近傍に表示される動画像表示画面内)に表示させる。
【0062】
入力音声処理部17には、マイク27が接続されている。マイク27は、端末装置1を使用している参加者の発言を集音することによって、アナログの音声を入力音声処理部17に与える。入力音声処理部17はA/D変換機能を有しており、与えられた音声をサンプリングすることによって、デジタルの音声データへ変換して出力する。なお、入力音声処理部17は、エコーキャンセラを内蔵していてもよい。
制御部11は、入力音声処理部17から出力された音声データを、中央装置3へ送信する。一の端末装置1から中央装置3へ送信された音声データは、中央装置3から他の端末装置1,1,…へ配信される。
【0063】
音声データを受信した端末装置1は、受信した音声データを、出力音声処理部18に入力する。
出力音声処理部18には、スピーカ28が接続されている。出力音声処理部18はD/A変換機能を有しており、自身に入力されたデジタルの音声データを、アナログの音声へ変換してからスピーカ28に与える。このとき、スピーカ28から音声が出力される。
【0064】
外部記憶部19は、制御部11に制御されることによって、可搬性を有する記録媒体Mから、記録媒体Mに記録されている端末プログラム1Pを読み込む。読み込まれた端末プログラム1Pは、HDD12に書き込まれる。
記録媒体Mとしては、例えばCD−ROM、DVD、ブルーレイディスク、又はフレキシブルディスク等が用いられる。
本実施の形態においては、端末プログラム1Pは、記録媒体Mに記録された状態で配布される構成であるが、このような構成に限定されるものではない。例えば、端末プログラム1Pは、ネットワーク5を介して配信される構成でもよく、制御部11が有するROMに予め記憶してある構成でもよい。
【0065】
また、本実施の形態においては、端末プログラム1Pは、端末装置1にインストールされてから実行される構成であるが、このような構成に限定されず、記録媒体M又は配信元から読み取られて直接的に実行される構成でもよい。
以下では、複数台の端末装置1,1,…を区別する場合に、便宜的に端末装置A1,B1,C1,…という(後述する図7参照)。また、端末装置A1,B1,C1,…を使用する参加者を、参加者a,b,c,…という。更に、参加者aは発言者aともいい、参加者b,c,…は聞き手b,c,…ともいう。
【0066】
図3は、中央装置3の要部構成を示すブロック図である。
中央装置3は、サーバコンピュータを用いてなり、バス又は信号線によって相互に接続されている制御部31、HDD32、及び通信処理部33を備える。更に、中央装置3は、I/F部34を内蔵している。
制御部31は、主記憶部であるROMと、ROMに記憶されているコンピュータプログラムに従って各種処理を実行するCPUと、CPUが作業領域として用いるRAMとを備え、中央装置3の制御中枢として機能する。
【0067】
HDD32は補助記憶部である。
HDD32には、中央装置3用のコンピュータプログラム(以下、中央プログラムという)3Pが記憶されている。制御部31が、HDD32に記憶されている中央プログラム3Pに従って各種処理を実行し、装置各部を制御する。中央プログラム3Pには、音声認識用のコンピュータプログラム、及び、翻訳用のコンピュータプログラム等が含まれている。なお、HDD32には中央プログラム3P以外のコンピュータプログラムも記憶されていてよい。
また、HDD32には、図示はしないが、端末装置1,1,…の認証を行なうためのユーザデータが記憶されている。更に、HDD32には、後述する言語登録テーブル3Tが記憶されている。
【0068】
通信処理部33は、ネットワークカードを用いてなり、通信処理部33には、中央装置3とネットワーク5とのインタフェースであるI/F部34が接続されている。通信処理部33は、ネットワーク5を介して送受信されるデジタルデータのパケット化及びパケットからのデジタルデータの読み取り等を行なう。通信処理部33が、音声データ及び動画像データ等を送受信するために用いる通信プロトコルは、例えばH.323、SIP、又はHTTP等であるが、これらに限定されるものではない。
制御部31は、通信処理部33を用いて、端末装置1,1,…夫々との間で各種データを送受信する。
【0069】
なお、端末装置1(又は中央装置3)は、HDD12(又はHDD32)を用いてなる補助記憶部に替えて、SSDのようなフラッシュメモリを用いてなる補助記憶部を備える構成でもよい。
【0070】
以上のように構成された会議システム6は、いわゆるテレビ会議システムであり、会議システム6を用いることによって、参加者は、リアルタイムで電子会議を行なうことができる。
このために、各参加者は、端末装置1を1台ずつ使用し、操作部21〜23を操作することによって、端末プログラム1Pに基づく会議用アプリケーションソフトウェア(以下、会議用アプリという)を起動させる。
会議用アプリが起動した場合、参加者がユーザID及びパスワード等のユーザ情報を入力するための認証画面がディスプレイ24に表示される。参加者は、ディスプレイ24に表示された認証画面を視認しながら、操作部21〜23を操作することによって、認証画面にユーザ情報を入力する。
【0071】
入力処理部13は、認証画面に入力されたユーザ情報を示すユーザデータを制御部11へ出力する。制御部11は、入力されたユーザデータを中央装置3へ送信する。このとき、ユーザデータに関連付けて、端末装置1に割り振られているIPアドレスも、中央装置3へ送信される。
中央装置3は、ユーザデータ及びIPアドレスを受信する。
制御部31は、受信したユーザデータとHDD32に記憶されているユーザデータとを比較することによって、ログインを許可するか否かを判定する。次いで、制御部31は、判定結果に応じた認証結果データを、受信したIPアドレスによって識別される端末装置1へ送信する。
【0072】
ログインを許可する場合、制御部31は、個々の端末装置1,1,…を識別するための端末識別データを発行する。ログインの許可を示す認証結果データには、端末識別データが含まれている。以後、制御部31は、端末識別データを用いて、個々の端末装置1,1,…を識別する。
【0073】
ログインの許可を示す認証結果データを受信した端末装置1(即ち認証された端末装置1)では、ディスプレイ24に、会議用アプリの各種画面(動画像表示画面及び字幕表示画面241等)が表示される。以後、参加者は、端末装置1を会議システム6の会議用端末装置として使用することができる。また、端末装置1は、所要のデータを中央装置3へ送信する場合に、認証結果データに含まれていた端末識別データも、同時的に中央装置3へ送信する。
一方、ログインの却下を示す認証結果データを受信した端末装置1(即ち認証されなかった端末装置1)では、ディスプレイ24に、エラーメッセージを含む画面が表示される。この場合、参加者は、端末装置1を会議システム6の会議用端末装置として使用することができない。
【0074】
図4は、各端末装置B1,C1のディスプレイ24に表示される字幕表示画面241の一例を示す模式図である。
字幕表示画面241は会議用アプリのアプリケーション・ウィンドウであり、字幕表示画面241の中央部には、矩形状の字幕表示領域4が設けられている。
ところで、発言者aが英語を母国語としており、聞き手b,cが日本語を母国語としており、聞き手dがドイツ語を母国語としている場合、発言者aは英語を使用する方が日本語又はドイツ語等を使用するよりも利便性が高く、聞き手b,cは日本語を使用する方が利便性が高く、聞き手dはドイツ語を使用する方が利便性が高い。
【0075】
そこで、会議システム6は、発言者aが英語でなした発言を音声認識してから日本語に翻訳し、発言内容の英文(即ち原文)及び和文(即ち訳文)が併記された対訳字幕と、原文のみの原文字幕とを、端末装置B1,C1夫々のディスプレイ24が有する字幕表示領域4に表示させる。同様に、会議システム6は、原文及び訳文である独文が併記された対訳字幕と原文字幕とを、端末装置D1のディスプレイ24が有する字幕表示領域4に表示させる。
このような対訳字幕として、本実施の形態では、原文に訳文がルビ状に併記された訳振り字幕を例示する。また、原文字幕は、本発明の実施の形態における認識結果字幕として機能する。
【0076】
図5は、字幕表示領域4に表示される原文字幕44の一例を示す模式図である。また、図6は、字幕表示領域4に表示される訳振り字幕43及び原文字幕44の一例を示す模式図である。
字幕表示領域4は仮想的に上下に2分割されており、上側が訳振り字幕を表示するための訳振り領域41として用いられ、下側が原文字幕を表示するための原文領域42として用いられる。従って、字幕表示領域4、並びに訳振り領域41及び原文領域42は、本発明の実施の形態における表示部が有する表示領域、並びに表示領域を2分割してなる一方及び他方として機能する。なお、訳振り領域41と原文領域42との間に、境界線が表示されてもよい。
【0077】
図5には、原文441,442を含む原文字幕44が原文領域42に横書きで表示され、訳振り領域41には何も表示されていない場合が例示されている。一般に、翻訳処理は長時間を要するため、原文441,442の訳文が得られるまでは、原文441,442を含む原文字幕44が表示される。
このとき、原文領域42を視認する聞き手b,cには、まず、原文441が原文領域42の下辺部から上方へ移動するように自動的に表示され(即ち原文441が自動的にスクロールアップ表示され)、次いで、原文442が原文441を押し上げるように自動的に表示される(即ち原文441,442が自動的にスクロールアップ表示される)ように見える。
【0078】
図6には、原文441(図5参照)の訳文432が得られた場合が例示されている。このとき、訳振り領域41には、原文431と訳文432とが併記された訳振り字幕43が横書きで表示され、原文領域42には、原文字幕44が横書きで表示される。
このとき、訳振り領域41視認する聞き手b,cには、1行目の原文431が原文領域42の下辺部から上方へ移動するように自動的に表示され、次いで、1行目の訳文432が原文441を押し上げるように自動的に表示され、同様に、各2行目の原文431及び訳文432が各1行目の原文431及び訳文432を押し上げるように自動的に表示されるように見える。
【0079】
ここで、原文431は、図5に示す原文441に相当する。このため、図6に示す原文字幕44には、図5に示す原文442は含まれているが、原文441は含まれていない。換言すれば、訳振り領域41に表示される訳振り字幕43に含まれている原文431を示す原文字幕44は、原文領域42から消去されている。従って、訳振り字幕43と原文字幕44とで全く同じ内容の原文441と原文431いとが重複することはない。つまり、原文字幕44には、未訳の原文442のみが含まれている。
このため、原文領域42を視認する聞き手b,cには、原文431及び訳文432の表示と共に原文441が消去されて、原文442だけが残るように見える。
【0080】
図6に示すように、本実施の形態の訳振り字幕43は、原文431に含まれる単語又は連語(例えば「try and 」、「make〜decision」、「final 」、及び「hotel 」)に、訳文432として、この単語又は連語を翻訳した語句(この場合、「〜よう努める」、「意思決定をする」、「最終の」、及び「ホテル」)がルビ状に併記されたものである。このとき、各単語及び各連語は、下線及び表示色等の違いによって、他の単語及び連語と区別される。
【0081】
ところで、図6に示す例では、原文431に含まれる単語又は連語の横方向の長さは、訳文432に含まれ、この単語又は連語を翻訳した語句の横方向の長さよりも短い。このため、原文431では、翻訳した語句の長さに応じて、単語又は連語同士の間隔が、図5に示す原文441における単語又は連語同士の間隔と比べて、長く設けられている。
【0082】
字幕表示のために、参加者a,b,c,…は、自身が使用する言語を予め登録する。このために、ディスプレイ24には言語登録画面が表示される。例えば参加者aは、ディスプレイ24に表示された言語登録画面を視認しながら、操作部21〜23を操作することによって、言語登録画面に、所望する言語である英語を、使用言語として入力する。
この後、使用言語が英語であることを示すデータと端末識別データとが、端末装置A1から中央装置3へ送信される。
使用言語を示すデータと端末識別データとを受信した中央装置3では、端末装置A1,B1,C1,…の端末識別データと、参加者a,b,c,…の使用言語とが関連付けられた言語登録テーブル3Tが、HDD32に記憶される。
【0083】
なお、会議システム6は、端末装置A1のディスプレイ24にも訳振り字幕及び原文字幕を表示させる構成でもよい。また、少なくとも原文字幕を端末装置A1のディスプレイ24に表示する場合には、発言者aは、表示された原文字幕を読んで、自身の発言が正確に音声認識されたか否かを判断することができる。
【0084】
図7は、端末装置1,1,…間で字幕が共有される仕組みを説明するための機能ブロック図である(図2及び図3参照)。
発言者aが英語でなした発言の音声は、端末装置A1のマイク27によって集音され、端末装置A1の入力音声処理部17によって音声データに変換される。変換後の音声データ、即ち発言者aによる発言を示す音声データは、端末装置A1の端末識別データと共に、端末装置A1から中央装置3へ送信される。
【0085】
音声データ及び端末識別データを受信した場合、中央装置3の制御部31は、受信した端末識別データに基づいて言語登録テーブル3Tを参照することによって、原文の言語と訳文の言語とを判定する。
本実施の形態の例では、中央装置3が受信した端末識別データは端末装置A1を示すものであるため、原文の言語は英語である、と判定される。また、端末装置B1,C1に係る訳文の言語は日本語であり、端末装置D1に係る訳文の言語はドイツ語である、と判定される。
以下では、英語を日本語に翻訳する場合を例示する。
【0086】
中央装置3の制御部31は、中央プログラム3Pに含まれる音声認識用のコンピュータプログラムの内、英語の音声認識用のコンピュータプログラムに従うことによって、英語の音声認識エンジン311として機能する。また、制御部31は、中央プログラム3Pに含まれる翻訳用のコンピュータプログラムの内、英文和訳用のコンピュータプログラムに従うことによって、英語から日本語への翻訳エンジン312として機能する。
【0087】
音声認識エンジン311は、端末装置A1から受信した音声データに対して音声認識処理を実行することによって、認識結果(即ち原文)を示す原文データを生成する。このような音声認識エンジン311は、本発明の実施の形態における認識手段として機能する。
また、音声認識エンジン311は、生成した原文データを端末装置B1,C1へ配信する。
【0088】
翻訳エンジン312は、音声認識エンジン311が生成した原文データに対して翻訳処理を実行することによって、翻訳結果(即ち訳文)を示す訳文データを生成する。このような翻訳エンジン312は、本発明の実施の形態における翻訳手段として機能する。ただし、訳文データには、原文の単語又は連語と、この単語又は連語を翻訳した語句とが関連付けられた状態で含まれている。
また、翻訳エンジン312は、生成した訳文データを端末装置B1,C1へ配信する。
【0089】
音声認識エンジン311による音声認識処理と、翻訳エンジン312による翻訳処理とは、マルチタスクで実行される。音声認識処理及び翻訳処理は、演算負荷が大きい処理であるため、制御部31の演算能力は、少なくとも端末装置1の制御部11よりは高いことが望ましい。なお、制御部31は、音声認識処理を専ら実行するMPUと翻訳処理を専ら実行するMPUとを有していてもよい。
ところで、一の音声認識処理の終了後、この音声認識処理に続く翻訳処理が終了しない内に、次の音声認識処理が終了することがある。この場合、例えば一の原文441の原文データが配信され、原文441(原文431)に対応する訳文432の訳文データが配信される前に、次の原文442の原文データが配信される(図5及び図6参照)。
【0090】
なお、原文が長文である場合には、原文を分割して翻訳し、翻訳が終了した部分から順に、訳文データを配信することが考えられる。この場合、長文が分割された一の原文441及び次の原文442の原文データが配信され、先に翻訳された原文441に対応する訳文432の訳文データが配信されてから、残る原文442に係る訳文の訳文データが配信される。
【0091】
図8(a),(b)及び図9(a),(b)夫々は、原文、訳文、及び各種字幕を管理するための字幕管理テーブル1Tの一例を示す模式図である。更に詳細には、字幕管理テーブル1Tは、端末装置1において、受信した原文データと、表示中の原文字幕と、受信した訳文データと、表示中の訳振り字幕とを管理するためのものである。
【0092】
図8及び図9では、原文441,442の原文データを「aaa」,「bbb」で示し、原文字幕44に含まれている原文441,442を「AAA」,「BBB」で示している。また、図9では、訳文432の訳文データを「あああ」で示し、訳振り字幕43に含まれている原文431及び訳文432を「ααα」及び「アアア」で示している。更に、原文441の原文データと、訳文432の訳文データとが対応していることを、「*」で示している。
図7に示すように、端末装置B1,C1夫々の制御部11は、端末プログラム1Pに従うことによって、字幕生成エンジン111として機能する。
【0093】
原文441の原文データを受信した場合、端末装置B1,C1夫々の字幕生成エンジン111は、まず、字幕管理テーブル1Tに、原文441の原文データを登録する。
次に、字幕生成エンジン111は、受信した原文データに基づいて、ディスプレイ24に原文441を含む原文字幕44を表示させるための原文字幕データを生成する。更に、字幕生成エンジン111は、生成した原文字幕データを表示処理部14に与えることによって、ディスプレイ24に原文字幕44を表示させる。そして、字幕生成エンジン111は、字幕管理テーブル1Tに、原文441を含む原文字幕44を登録する。
この結果、図8(a)に示すような字幕管理テーブル1Tが得られる。
【0094】
更に、原文442の原文データを受信した場合、字幕生成エンジン111は、字幕管理テーブル1Tに、原文442の原文データを登録する。
次に、字幕生成エンジン111は、受信した原文データに基づいて、ディスプレイ24に原文441,442を含む原文字幕44を表示させるための原文字幕データを生成する。更に、字幕生成エンジン111は、生成した原文字幕データを表示処理部14に与えることによって、ディスプレイ24に原文字幕44を表示させる。
そして、字幕生成エンジン111は、字幕管理テーブル1Tに、原文441,442を含む原文字幕44を登録する。
【0095】
この結果、図8(b)に示すような字幕管理テーブル1Tが得られる。従って、この字幕管理テーブル1Tを参照すれば、図5に示すような字幕表示領域4がディスプレイ24に表示されていることがわかる。
更に、訳文432の訳文データを受信した場合、字幕生成エンジン111は、字幕管理テーブル1Tに、訳文432の訳文データを登録する。
【0096】
また、字幕生成エンジン111は、訳文432の訳文データに含まれている原文の単語又は連語に基づいて、訳文432と、既に受信している原文データが示す原文との対応関係を調査する。本実施の形態の例では、訳文432は原文441に対応しているため、字幕生成エンジン111は、原文441の原文データと、訳文432の訳文データとが対応している旨を字幕管理テーブル1Tに登録する。
この結果、図9(a)に示すような字幕管理テーブル1Tが得られる。
【0097】
次に、字幕生成エンジン111は、受信した訳文データに基づいて、ディスプレイ24に原文441に相当する原文431と訳文432とを含む訳振り字幕43を表示させるための訳振り字幕データを生成する。
また、字幕生成エンジン111は、現在の原文字幕データ、つまり、ディスプレイ24に原文441,442を含む原文字幕44を表示させるための原文字幕データを、ディスプレイ24に原文442を含む原文字幕44を表示させるための原文字幕データに修正する。何故ならば、原文441に相当する原文431が訳振り字幕43に含まれるからである。このように修正した原文字幕データに基づいて表示される原文字幕44からは、原文441が消去される。
【0098】
更に、字幕生成エンジン111は、生成した訳振り字幕データと修正した原文字幕データとを表示処理部14に与えることによって、ディスプレイ24に訳振り字幕43及び原文字幕44を表示させる。
そして、字幕生成エンジン111は、字幕管理テーブル1Tに、原文431及び訳文432を含む訳振り字幕43と原文442を含む原文字幕44とを登録する。
この結果、図9(b)に示すような字幕管理テーブル1Tが得られる。従って、この字幕管理テーブル1Tを参照すれば、図6に示すような字幕表示領域4がディスプレイ24に表示されていることがわかる。
以上のような字幕生成エンジン111は、本発明の実施の形態における生成手段及び制御手段として機能する。
【0099】
ところで、図5(及び図6)の例では、原文字幕44に含まれる原文441,442(及び原文442)は、原文領域42に全て表示可能な量である。しかしながら、中央装置3から訳文データが配信されないまま、新たな原文データが配信された場合、原文字幕44に含まれる原文の量が、原文領域42に表示可能な量を超過することがある。
この場合には、原文領域42において、原文字幕44に含まれる原文の先頭部側が順に自動的に消去されると共に、原文字幕44に含まれる原文の後尾部側が順に自動的にスクロールアップ表示される。しかも、原文字幕44に含まれる原文の先頭部側が省略されていることを報知する省略記号45(次の図10参照)が表示される。
【0100】
図10は、字幕表示領域4に表示される訳振り字幕43及び原文字幕44の他の一例を示す模式図である。図10に示す字幕表示領域4は、図6に示す字幕表示領域4に対応するが、省略記号45、並びに後述するスクロールバー421及びスクロールボックス422が表示されている。
原文領域42を視認する聞き手b,cには、原文字幕44に含まれる原文が、先頭部から後尾部へ順に自動的にスクロールアップ表示され続けている内に、やがて、原文の先頭部が原文領域42外へ自動的に押し出される(即ち自動的にスクロールアウト表示される)ように見える。また、聞き手b,cには、原文のスクロールアウト表示と共に、訳振り領域41と原文領域42との間に、両者を区切るような省略記号45が表示されるように見える。
【0101】
本実施の形態では、聞き手b,cが手動で原文字幕44をスクロール表示させることによって、原文字幕44に含まれている原文の内、消去されている部分が表示され、表示されていた部分が消去されるようにしてある。このために、原文領域42には、省略記号45と共に、原文字幕44を手動でスクロール表示させるためのスクロールバー421及びスクロールボックス422が表示される。
この場合、聞き手b,cは、操作部21〜23を用いてスクロールボックス422を操作することによって、原文字幕44に含まれる任意の部分を原文領域42に表示させることができるため、聞き手b,cの利便性が向上される。
【0102】
ところで、図6の例では、訳振り字幕43に含まれる原文431及び訳文432は、訳振り領域41に全て表示可能な量である。しかしながら、中央装置3から新たな訳文データが配信された場合、訳振り字幕43に含まれる原文及び訳文の量が、訳振り字幕43に表示可能な量を超過することがある。
この場合には、訳振り領域41において、訳振り字幕43に含まれる原文及び訳文の先頭部側が順に自動的に消去されると共に、訳振り字幕43に含まれる原文及び訳文の後尾部側が順に自動的にスクロールアップ表示される。
【0103】
このため、訳振り領域41を視認する聞き手b,cには、訳振り字幕43に含まれる原文及び訳文が、先頭部から後尾部へ順に自動的にスクロールアップ表示され続けている内に、やがて、原文及び訳文の先頭部が自動的にスクロールアウト表示されるように見える。
ここで、消去された原文及び訳文は、二度と表示されない構成でもよいが、聞き手b,cが訳振り字幕43を手動でスクロール表示させることによって、訳振り字幕43に含まれている原文及び訳文の内、消去されている部分が表示され、表示されていた部分が消去される構成でもよい。
【0104】
図11は、字幕表示領域4に表示される訳振り字幕43及び原文字幕44の更に他の一例を示す模式図である。図11に示す字幕表示領域4は、図10に示す字幕表示領域4に対応するが、訳振り領域41には、訳振り字幕43を手動でスクロール表示させるためのスクロールバー411及びスクロールボックス412が表示されている。
この場合、聞き手b,cは、操作部21〜23を用いてスクロールボックス412を操作することによって、訳振り字幕43に含まれる任意の部分を訳振り領域41に表示させることができる。この結果、聞き手b,cは、読み逃した原文又は再読を所望する訳文等を、任意に読むことができるため、聞き手b,cの利便性が向上される。
【0105】
なお、訳振り領域41及び原文領域42夫々の縦長さが、訳振り字幕43に含まれる原文及び訳文の量並びに原文領域42に含まれる原文の量夫々の多寡に応じて、可変であってもよい。この場合、例えば図6に示す訳振り領域41には空白が少なく、原文領域42には空白が多いため、訳振り領域41の縦長さが長くなり、その分、原文領域42の縦長さが短くなる。
【0106】
図12は、字幕表示領域4に表示される訳振り字幕43の一例を示す模式図である。
図5、図6、図10、及び図11夫々には、字幕表示領域4に訳振り領域41及び原文領域42が設けられている場合を例示しているが、図12に示す字幕表示領域4には、原文領域42に相当するものは設けられておらず、字幕表示領域4全体が訳振り領域41に相当する。
このため、図12に示す字幕表示領域4には、訳振り字幕43はスクロール表示されるが、原文字幕44は全く表示されない。つまり、字幕表示領域4には、翻訳が終了した原文のみが表示され、未訳の原文は表示されない。
【0107】
従って、字幕表示領域4を、訳振り字幕43で占有することができる。
なお、字幕表示領域4には、訳振り字幕43ではなく、原文と訳文とが単純に並置されているだけの対訳字幕が表示される構成でもよい。
以下では、訳振り字幕43及び原文字幕44が自動的にスクロール表示される場合を説明し、手動でのスクロール表示についての説明は省略する。
【0108】
訳振り字幕43及び原文字幕44夫々は、スムーススクロール表示(以下、単にスクロール表示という)される。
また、原文字幕44のスクロール速度は、一の1行(例えば1行目)が表示されてから、次の1行(例えば2行目)が表示されるまでに、一の1行の下側に1行分の空き行が生じるような速度に設定される。
一方、訳振り字幕43のスクロール速度は、一の2行(例えば1行目及び2行目)が表示されてから、次の2行(例えば3行目及び4行目)が表示されるまでに、一の2行の下側に2行分の空き行が生じるような速度に設定される。何故ならば、訳振り字幕43においては、原文と、原文にルビ状に併記される訳文との2行分がセットになっているからである。
【0109】
このような原文字幕44のスクロール速度の高低は、原文データに含まれる原文の量と、原文データを受信する頻度とに依存する。原文データに含まれる原文の量が多いか、又は、原文データを受信する頻度が高い場合(以下、原文入手速度が速い場合という)には、高いスクロール速度が設定される。逆に、原文入手速度が遅い場合には、低いスクロール速度が設定される。ただし、スクロール速度の設定は、スクロール表示される原文の見易さを考慮して、できるだけ滑らかに変化させる。
【0110】
同様に、訳振り字幕43のスクロール速度は、訳文データに含まれる原文及び訳文の量と、訳文データを受信する頻度とに依存する。訳文データに含まれる原文及び訳文の量が多いか、又は、訳文データを受信する頻度が高い場合(以下、訳振り入手速度が速い場合という)には、高速のスクロール速度が設定される。逆に、訳振り入手速度が遅い場合には、低速のスクロール速度が設定される。ただし、スクロール速度の設定は、スクロール表示される原文及び訳文の見易さを考慮して、できるだけ滑らかに変化させる。
【0111】
図13は、会議システム6で実行される音声送信処理、データ配信処理、及び字幕表示処理の手順を示すフローチャートである。図13には、次の図14に示すデータ配信処理と図15及び図16に示す字幕表示処理を抜粋したものが示されている。
図14は、中央装置3で実行されるデータ配信処理の手順を示すフローチャートである。図15及び図16は、各端末装置B1,C1で実行される字幕表示処理の手順を示すフローチャートである。
図13に示す音声送信処理は、端末装置A1で実行される。
【0112】
端末装置A1の制御部11は、発言者aがマイク27に音声を入力したか否かを判定し(S11)、まだ入力していない場合には(S11でNO)、S11の処理を繰り返し実行する。S11における制御部11は、例えば入力音声処理部17が音声データを出力したか否かを判定し、音声データが出力された(されていない)場合に、発言者aが音声を入力した(していない)と判定する。
発言者aが音声を入力した場合(S11でYES)、制御部11は、発言者aによる発言を示す音声データを、端末装置A1の端末識別データと共に、中央装置3へ送信する(S12)。
S12の処理終了後、制御部11は、処理をS11へ戻す。
【0113】
図13及び図14夫々に示すデータ配信処理は、中央装置3で実行される。
中央装置3の制御部31は、端末装置1,1,…の何れかから、端末識別データと共に音声データを受信したか否かを判定する(S21)。
音声データを受信していない場合(S21でNO)、制御部31は、処理を後述するS24へ移す。
【0114】
音声データを受信した場合(S21でYES)、制御部31は、言語登録テーブル3Tを参照することによって、原文の言語と訳文の言語とを判定する(S22)。次に、制御部31は、S22における原文の言語の判定結果に基づき、S21で受信した音声データに対して、音声認識処理を施す(S23)。S23における制御部31は、音声認識エンジン311として機能する。
制御部31は、S23の音声認識処理をマルチタスクで実行しつつ、処理を次のS24へ移す。
【0115】
制御部31は、未訳の原文の原文データ(即ち、まだ翻訳処理が施されていない原文データ。以下、単に未訳の原文データという)が存在するか否かを判定し(S24)、未訳の原文データが存在しない場合(S24でNO)、処理を後述するS27へ移す。
未訳の原文データが存在する場合(S24でYES)、即ち、音声認識処理の結果が得られ、得られた結果がまだ翻訳されていない場合には、未訳の原文データに対して翻訳処理を施す(S25)。S25における制御部31は、翻訳エンジン312として機能する。
【0116】
制御部31は、S25の翻訳処理をマルチタスクで実行しつつ、処理を次のS26へ移す。
制御部31は、S25で翻訳処理を施した未訳の原文データを端末装置1,1,…へ配信し(S26)、次いで、処理を後述するS27へ移す。このとき、制御部31は、未訳の原文データを、翻訳済みの原文の原文データとしてHDD32に記憶するか、又は削除する。
制御部31は、未配信の訳文データが存在するかを判定し(S27)、未配信の訳文データが存在しない場合(S27でNO)、処理をS21へ戻す。
【0117】
未配信の訳文データが存在する場合(S27でYES)、制御部31は、未配信の訳文データを端末装置1,1,…へ配信し(S28)、次に、処理をS21へ戻す。このとき、制御部31は、未配信の訳文データを、配信済みの訳文データとしてHDD32に記憶するか、又は削除する。ここで、S22における訳文の言語の判定結果が日本語である場合、S28の処理で訳文データを配信すべき端末装置1,1,…は、端末装置B1,C1である。
S26及びS28における制御部31は、本発明の実施の形態における配信手段として機能する。
【0118】
図13並びに図15及び図16夫々に示す字幕表示処理は、端末装置B1,C1夫々で実行される。
図15に示すように、端末装置B1,C1夫々の制御部11は、字幕表示領域4をディスプレイ24に表示させる(S41)。S41の処理が実行された時点では、字幕表示領域4には訳振り字幕43も原文字幕44も表示されない。
また、制御部11は、訳振り領域41に係るスクロール速度及び原文領域42に係るスクロール速度夫々を“0”に初期化し(S42)、処理を次のS43へ移す。
【0119】
図13及び図15に示すように、制御部11は、原文データを受信したか否かを判定し(S43)、受信していない場合(S43でNO)、処理を後述するS45へ移す。
原文データを受信した場合(S43でYES)、制御部11は、後述する原文字幕出力処理(図17参照)を実行する(S44)。
制御部11は、S44の原文字幕出力処理をマルチタスクで実行しつつ、処理を後述するS45へ移す。
【0120】
図17は、各端末装置1で実行される原文字幕出力処理手順の詳細を示すフローチャートである。
制御部11は、S43で受信した原文データに基づいて、原文字幕データを生成する(S61)。次に、制御部11は、S61で生成した原文字幕データに基づいて、原文領域42に原文字幕44を表示させる(S62)。S61及びS62における制御部11は、字幕生成エンジン111として機能する。
更に、制御部11は、原文入手速度を演算する(S63)。
【0121】
次に、制御部11は、原文領域42の空き行が上限値(例えば2行)以上であるか、又は下限値(例えば1行)以下であるかを判定する(S64)。ここで、原文領域42の空き行とは、原文領域42に表示されている原文字幕44がスクロールアップ表示されることによって原文字幕44の最終行の下側に生じる空き行のことである。
原文領域42の空き行が下限値超過且つ上限値未満(例えば1.5行)である場合(S64でNO)、制御部11は、スクロール速度を現状維持して、原文字幕出力処理を終了し、元の字幕表示処理へ戻る。
【0122】
原文領域42の空き行が上限値以上であるか、又は、下限値以下である場合(S64でYES)、制御部11は、現在のスクロール速度と、原文領域42の空き行の多寡とに基づいて、スクロール速度を設定する(S65)。
【0123】
具体的には、原文領域42の空き行が下限値以下である場合、S65における制御部11は、スクロール速度を増加させる。このとき、制御部11は、現時点のスクロール速度を基準とし、スクロール速度の変化が連続的であるように設定する。例えば、現時点のスクロール速度が“0”である場合、制御部11は、スクロール速度を、単位時間当たり1ドットの速さ、単位時間当たり2ドットの速さ、…、と、将来的にスクロール速度が徐々に増加するように設定する。このとき、最終的なスクロール速度は、原文領域42において原文字幕44に含まれる原文が描画されている行の描画が終了するタイミングで空き行が1行又は1行強発生する速度とする。
【0124】
一方、原文領域42の空き行が上限値以上である場合、S65における制御部11は、スクロール速度を減少させる。このとき、制御部11は、現時点のスクロール速度を基準とし、スクロール速度の変化が連続的であるように(即ち、将来的にスクロール速度が徐々に減少するように)設定する。ただし、現時点のスクロール速度が“0”である場合には、S65においても、スクロール速度は現状維持される。
S65の処理終了後、制御部11は、原文字幕出力処理を終了し、元の字幕表示処理へ戻る。
【0125】
図13及び図15に示すように、制御部11は、訳文データを受信したか否かを判定し(S45)、受信していない場合(S45でNO)、処理を後述するS47へ移す。
訳文データを受信した場合(S45でYES)、制御部11は、後述する訳振り字幕出力処理(図18参照)を実行する(S46)。
制御部11は、S46の訳振り字幕出力処理をマルチタスクで実行しつつ、処理を後述するS47へ移す。
【0126】
図18は、各端末装置1で実行される訳振り字幕出力処理手順の詳細を示すフローチャートである。
制御部11は、S45で受信した訳文データに基づいて、訳振り字幕データを生成する(S71)。次に、S45で受信した訳文データに基づいて、重複する原文を消去すべく、S61で生成した原文字幕データを修正する(S72)。制御部11は、S71で生成した訳振り字幕データ及びS72で修正した原文字幕データに基づいて、訳振り領域41に訳振り字幕43を表示させ、原文領域42に原文字幕44を表示させる(S73)。S71〜S73における制御部11は、字幕生成エンジン111として機能する。
【0127】
ただし、後述するS48の処理でスクロールアウト表示された原文の全てが、S72の処理の結果として消去された場合、S73における制御部11は、省略記号45、スクロールバー421及びスクロールボックス422を原文領域42から消去させる。
【0128】
更に、制御部11は、訳振り入手速度を演算する(S74)。
次に、制御部11は、訳振り領域41の空き行が上限値(例えば4行)以上であるか、又は下限値(例えば2行)以下であるかを判定する(S75)。ここで、訳振り領域41の空き行とは、訳振り領域41に表示されている訳振り字幕43がスクロールアップ表示されることによって訳振り字幕43の最終行の下側に生じる空き行のことである。
訳振り領域41の空き行が下限値超過且つ上限値未満(例えば3行)である場合(S75でNO)、制御部11は、スクロール速度を現状維持して、訳振り字幕出力処理を終了し、元の字幕表示処理へ戻る。
【0129】
訳振り領域41の空き行が上限値以上であるか、又は、下限値以下である場合(S75でYES)、制御部11は、現在のスクロール速度と、訳振り領域41の空き行の多寡とに基づいて、スクロール速度を設定する(S76)。
【0130】
訳振り領域41の空き行が下限値以下である場合、S76における制御部11は、スクロール速度を増加させる。このとき、制御部11は、現時点のスクロール速度を基準とし、スクロール速度の変化が連続的であるように設定する。例えば、現時点のスクロール速度が“0”である場合、制御部11は、スクロール速度を、単位時間当たり1ドットの速さ、単位時間当たり2ドットの速さ、…、と、将来的にスクロール速度が徐々に増加するように設定する。このとき、最終的なスクロール速度は、訳振り領域41において訳振り字幕43に含まれる訳振りが描画されている行の描画が終了するタイミングで空き行が2行又は2行強発生する速度とする。
【0131】
一方、訳振り領域41の空き行が上限値以上である場合、S76における制御部11は、スクロール速度を減少させる。このとき、制御部11は、現時点のスクロール速度を基準とし、スクロール速度の変化が連続的であるように(即ち、将来的にスクロール速度が徐々に減少するように)設定する。ただし、現時点のスクロール速度が“0”である場合には、S76においても、スクロール速度は現状維持される。
S76の処理終了後、制御部11は、訳振り字幕出力処理を終了し、元の字幕表示処理へ戻る。
【0132】
図16に示すように、制御部11は、原文字幕44をスクロール表示すべきタイミングであるか否かを判定し(S47)、スクロール表示すべきタイミングである場合(S47でYES)、原文字幕44を、原文領域42に係るスクロール速度でスクロール表示させる(S48)。S48の処理の結果として、原文字幕44に含まれている原文がスクロールアウト表示された場合には、制御部11は、省略記号45、スクロールバー421及びスクロールボックス422を原文領域42に表示させる。
【0133】
S48の処理終了後、又は、原文字幕44をスクロール表示すべきタイミングではない場合(S47でNO)、制御部11は、訳振り字幕43をスクロール表示すべきタイミングであるか否かを判定し(S49)、スクロール表示すべきタイミングである場合(S49でYES)、訳振り字幕43を、訳振り領域41に係るスクロール速度でスクロール表示させる(S50)。
【0134】
S50の処理終了後、又は、訳振り字幕43をスクロール表示すべきタイミングではない場合(S49でNO)、制御部11は、操作部21〜23にて字幕表示画面241の表示を終了させる操作(以下、終了操作という)がなされたか否かを判定する(S51)。
終了操作がなされていない場合(S51でNO)、制御部11は、処理をS43へ戻す。
終了操作がなされた場合(S51でYES)、制御部11は、字幕表示処理を終了する。
【0135】
以上のような会議システム6を用いることによって、発言者aが英語でなした発言の内容を、聞き手b,cが日本語で読み、容易且つ正確に理解することができる。
また、英語の単語又は連語に日本語の語句がルビ状に併記されているため、誤訳の有無を判断し易い。
【0136】
しかも、訳振り字幕43及び原文字幕44が訳振り領域41及び原文領域に個別に表示され、更に、訳振り字幕43及び原文字幕44が個々に自動的にスクロール表示されるため、聞き手b,cが、訳振り字幕43及び原文字幕44夫々の内容を読み取り易い。また、訳振り字幕43及び原文字幕44夫々のスクロール速度が、原文入手速度及び訳振り入手速度に応じて適宜に設定され、しかも、スクロール速度を滑らかに変化させるため、スクロール表示が速すぎる、又は遅すぎることによる可読性の悪化、及びスクロール速度の変化が急激であることによる可読性の悪化を抑制することができる。
【0137】
更にまた、訳振り字幕43に含まれる原文と原文字幕44に含まれる原文とが重複しないため、字幕表示領域4を効率的に利用することができる。しかも、聞き手b,cが同一の原文を読み取る無用な努力を強いられる虞がない。
【0138】
実施の形態 2.
本実施の形態における会議システム6のハードウェア構成は、実施の形態1における会議システム6のハードウェア構成と同様である。その他、実施の形態1に対応する部分には同一符号を付してそれらの説明を省略する。
会議を円滑に進行させるためには、発言者aの発言後、実施の形態1の図5に示すような原文字幕44が速やかに表示され、続いて、図6に示すような訳振り字幕43が速やかに表示されることが望ましい。
しかしながら、音声認識の精度が低い場合には、表示された原文字幕44及び訳振り字幕43が誤っていることがある。かといって、音声認識を高精度に行なうためには、往々にして長時間を要する。
【0139】
そこで、本実施の形態における会議システム6は、発言者aの発言から短時間で(即ち高速に)音声認識することによって、原文字幕を表示し、高速に音声認識された結果に基づいて、訳振り字幕を表示する。このような高速の音声認識、翻訳、及び表示等(以下、まとめて高速処理という)と並行して、会議システム6は、高精度に音声認識することによって、既に表示されている原文字幕の誤りを修正し、高精度に音声認識された結果に基づいて、既に表示されている訳振り字幕の誤りを修正する。このような高精度の音声認識、翻訳、及び修正等を、以下ではまとめて高精度処理という。
【0140】
図19は、本発明の実施の形態2に係る会議システム6における高速処理及び高精度処理の仕組みを説明するための機能ブロック図である。図19は、実施の形態1における図7に対応するが、端末装置A1及び端末装置C1の図示は省略している。
中央装置3の制御部31は、中央プログラム3P(図3参照)に含まれる音声認識用のコンピュータプログラムに従うことによって、高速認識エンジン313及び高精度認識エンジン315として機能する。また、制御部31は、中央プログラム3Pに含まれる翻訳用のコンピュータプログラムに従うことによって、高速翻訳エンジン314及び高精度翻訳エンジン316として機能する。
【0141】
高速認識エンジン313は、端末装置A1から受信した音声データに対し、1回目の音声認識処理を即時実行することによって、認識結果を示す原文データを高速に生成する。このような高速認識エンジン313は、本発明の実施の形態における認識手段として機能する。高速認識エンジン313が生成した原文データを、以下では、高速原文データという。
高速認識エンジン313は、生成した高速原文データを端末装置B1,C1へ配信する。
【0142】
高速認識エンジン313では、最初の音声認識処理が即時実行される。このため、高速認識エンジン313が音声認識処理を施すべき音声データは、例えば数秒分〜十数秒分の発言を示す音声データ、即ち、データ量が少ない音声データである。従って、音声認識の精度は低いが、音声認識結果を短時間で得ることができる。高速原文データが示す原文(以下、高速原文という)は、発言の内容とは異なる可能性がある。
高速認識エンジン313が音声認識し終えた音声データは、HDD32(図2参照)に蓄積される。
【0143】
高速翻訳エンジン314は、高速認識エンジン313が生成した高速原文データに対して翻訳処理を施すことによって、翻訳結果を示す訳文データを生成する。このような高速翻訳エンジン314は、本発明の実施の形態における翻訳手段として機能する。高速翻訳エンジン314が生成した訳文データを、以下では、高速訳文データという。
高速翻訳エンジン314は、生成した高速訳文データを端末装置B1,C1へ配信する。
高速訳文データは、音声認識の精度が低い高速原文データに基づくものであるため、高速訳文データが示す訳文(以下、高速訳文という)は、誤りを含む可能性が高い。
【0144】
高精度認識エンジン315は、HDD32に蓄積されている音声データ、即ち、高速認識エンジン313が音声認識し終えた音声データに対し、2回目の音声認識処理を施すことによって、認識結果を示す原文データを生成する。このような高精度認識エンジン315も、本発明の実施の形態における認識手段として機能する。高精度認識エンジン315が生成した原文データを、以下では、高精度原文データという。
高精度認識エンジン315は、生成した高精度原文データを端末装置B1,C1へ配信する。
【0145】
高精度認識エンジン315では、一旦蓄積された音声データに対して再度の音声認識処理を施す。このとき、高精度認識エンジン315が音声認識処理を施すべき音声データは、例えば数十秒分〜数分分の発言を示す音声データ、即ち、データ量が多い音声データである。従って、音声認識結果が得られるまでに長時間を要するが、音声認識の精度は高い。高精度原文データが示す原文(以下、高精度原文という)は、発言の内容と同じである可能性が高い。
【0146】
何故ならば、音声認識は、データ量が少ない音声データ(例えば、発言の一部を示す音声データ)に対して実行した場合よりも、データ量が多い音声データ(例えば、発言の全体を示す音声データ)に対して実行した場合の方が、認識精度が向上されるからである。
なお、音声認識の精度を向上させる手法は、音声データのデータ量を増加させることに限定されない。
【0147】
高精度翻訳エンジン316は、高精度認識エンジン315が生成した高精度原文データに対して翻訳処理を施すことによって、翻訳結果を示す訳文データを生成する。高精度翻訳エンジン316が生成した訳文データを、以下では、高精度訳文データという。
高精度翻訳エンジン316は、生成した高精度訳文データを端末装置B1,C1へ配信する。
高精度訳文データは、音声認識の精度が高い高精度原文データに基づくものであるため、高精度訳文データが示す訳文(以下、高精度訳文という)は、誤りを含む可能性が低い。
【0148】
高速認識エンジン313及び高精度認識エンジン315夫々による音声認識処理と、高速翻訳エンジン314及び高精度翻訳エンジン316夫々による翻訳処理とは、マルチタスクで実行される。
本実施の形態においては、発言者aが「We will try and make a final hotel decision by the end of the calendar year.」と発言したにもかかわらず、発言の一部分「We will try and 」を示す音声データに基づいて高速認識エンジン313が音声認識を行なった結果、「We will try a 」という誤った高速原文を示す高速原文データが生成された場合を例示する。
【0149】
仮に、原文「We will try and 」を示す原文データに対して翻訳処理を施した場合、高速翻訳エンジン314は、2語の単語「try and 」を、「and 」の後に何らかの動詞を伴う連語と看做して「〜よう努める」と翻訳する。
しかしながら、誤った高速原文「We will try a 」を示す高速原文データに対して翻訳処理を施した場合、高速翻訳エンジン314は、動詞「try 」を「試す」と翻訳し、不定冠詞「a 」を、特に翻訳する必要がない単語と看做して無視する。
【0150】
図20は、会議システム6において字幕表示画面241(図4参照)の字幕表示領域4に表示される高速原文字幕48の一例を示す模式図である。図20には、原文領域42に、「We will try a 」という誤った高速原文481を含む高速原文字幕48が表示されており、訳振り領域41には、まだ何も表示されていない場合を例示している。
【0151】
図21は、字幕表示領域4に表示される高速訳振り字幕47及び高速原文字幕48の一例を示す模式図である。図21に示すように、原文領域42には、誤った高速原文481と、正確な高速原文482とを含む高速原文字幕48が表示されている。また、訳振り領域41には、誤った高速原文481と同じ高速原文471と、誤った高速原文471に対応する誤った高速訳文474とを含む高速訳振り字幕47が表示されている。このように、本実施の形態では、高速訳振り字幕47に高速原文471が表示されても、高速原文字幕48に高速原文481が表示され続ける場合を例示する。なお、実施の形態1と同様に、高速訳振り字幕47に高速原文471が表示されると、高速原文字幕48に含まれている高速原文481が消去される構成でもよい。
【0152】
図22は、字幕表示領域4に表示される高速訳振り字幕47及び高速原文字幕48の他の一例を示す模式図である。図22に示すように、原文領域42には、誤った高速原文481と、正確な高速原文482,483とを含む高速原文字幕48が表示されている。また、訳振り領域41には、高速原文471と、正確な高速原文482,483と同じ高速原文472,473と、高速訳文474と、正確な高速原文472,473に対応する正確な高速訳文475,476とを含む高速訳振り字幕47が表示されている。
【0153】
図19に示すように、端末装置B1,C1夫々の制御部11は、端末プログラム1P(図2参照)に従うことによって、字幕生成エンジン112として機能する。
高速原文481の高速原文データを受信した場合、字幕生成エンジン112は、まず、字幕管理テーブル1Tに、受信した高速原文データを登録する(図8参照)。
【0154】
また、字幕生成エンジン112は、受信した高速原文データに基づいて、高速原文481を含む高速原文字幕48(図20参照)をディスプレイ24に表示させるための原文字幕データを生成する。
ただし、このとき字幕生成エンジン112が生成する原文字幕データは、高速原文481に含まれる英単語間に余裕を持たせるべく、この英単語間に、少なくとも2文字分の空白文字が配置されるようにしてある。なお、原文領域42に表示可能な高速原文字幕48の空白文字を除く文字の個数が大幅に低減されない程度であれば、配置すべき空白文字は2文字分に限定されるものではなく、3文字分以上であってもよい。また、配置すべき空白文字は1文字分であってもよい。
【0155】
更に、字幕生成エンジン112は、生成した原文字幕データを表示処理部14(図2参照)に与えることによって、ディスプレイ24に高速原文字幕48を表示させる。そして、字幕生成エンジン112は、字幕管理テーブル1Tに、高速原文481を含む高速原文字幕48の原文字幕データを登録する。
【0156】
同様に、字幕生成エンジン112は、高速原文データを受信する都度、字幕管理テーブル1Tに、受信した高速原文データを登録する。また、字幕生成エンジン112は、受信した高速原文データに基づいて、高速原文481,482を含む高速原文字幕48(図21参照)をディスプレイ24に表示させるための原文字幕データを生成し、次に受信した高速原文データに基づいて、高速原文481〜483を含む高速原文字幕48(図22参照)をディスプレイ24に表示させるための原文字幕データを生成する。更に、字幕生成エンジン112は、生成した原文字幕データを表示処理部14に与えることによって、ディスプレイ24に高速原文字幕48を表示させる。そして、字幕生成エンジン112は、字幕管理テーブル1Tに、高速原文字幕48の原文字幕データを登録する。
【0157】
高速訳文474の高速訳文データを受信した場合、字幕生成エンジン112は、字幕管理テーブル1Tに、高速訳文474の高速訳文データを登録する。
次に、字幕生成エンジン112は、受信した高速訳文データに基づいて、高速原文471と高速訳文474とを含む高速訳振り字幕47(図21参照)をディスプレイ24に表示させるための訳振り字幕データを生成する。
ただし、このとき字幕生成エンジン112が生成する訳振り字幕データは、高速原文471に含まれる英単語間に、最小限(少なくとも1文字分)の空白文字が配置されるようにしてある。なお、訳振り領域41に表示可能な高速訳振り字幕47の空白文字を除く文字の個数が大幅に低減されない程度であれば、英単語間に余裕を持たせるべく、2文字分以上の空白文字を配置してもよい。
【0158】
更に、字幕生成エンジン112は、生成した訳振り字幕データを表示処理部14に与えることによって、高速訳振り字幕47をディスプレイ24に表示させる。
そして、字幕生成エンジン112は、字幕管理テーブル1Tに、高速原文471及び高速訳文474を含む高速訳振り字幕47の訳振り字幕データを登録する(図9参照)。
以上のような字幕生成エンジン112は、本発明の実施の形態における生成手段及び制御手段として機能する。
【0159】
同様に、字幕生成エンジン112は、高速訳文データを受信する都度、字幕管理テーブル1Tに、受信した高速訳文データを登録する。
次に、字幕生成エンジン112は、受信した訳文データに基づいて、ディスプレイ24に、高速原文471〜473と高速訳文474〜476とを含む訳振り字幕43(図22参照)を表示させるための訳振り字幕データを生成する。
【0160】
更に、字幕生成エンジン112は、生成した訳振り字幕データを表示処理部14に与えることによって、高速原文字幕48をディスプレイ24に表示させる。
そして、字幕生成エンジン112は、字幕管理テーブル1Tに、高速原文471〜473及び高速訳文474〜476を含む高速訳振り字幕47の訳振り字幕データを登録する。
【0161】
本実施の形態では、図22に示すような高速訳振り字幕47及び高速原文字幕48を表示させた後で、字幕生成エンジン112が、高精度原文データ及び高精度訳文データを受信した場合を例示する。
ここでは、発言者aの発言の一文全体を示す音声データに基づいて高精度認識エンジン315が音声認識を行なった結果、「We will try and make a final hotel decision by the end of the calendar year.」という正確な高精度原文を示す高精度原文データが生成された場合を説明する。
このような高精度原文データに対して翻訳処理を施した結果、高精度翻訳エンジン316は、2語の単語「try and 」を、「and 」の後に動詞「make」を伴う連語と看做して「〜よう努める」と翻訳する。
【0162】
高精度原文データを受信した字幕生成エンジン112は、字幕管理テーブル1Tに登録されている高速原文データとを比較することによって、高速原文を高精度原文で置換すべき置換部分及び被置換部分の有無を判定する。このような字幕生成エンジン112は、本発明の実施の形態における認識判定手段として機能する。
【0163】
高速原文に誤りが含まれていない場合、高速認識データが示す高速原文と高精度認識データが示す高精度原文とは等しい。このとき、置換部分及び被置換部分は存在しない。従って、字幕管理テーブル1Tに登録されている高速原文データ、高速原文字幕の原文字幕データ、及び高速訳振り字幕の訳振り字幕データは、高精度原文データ、高精度原文の原文字幕データ、及び高精度訳振り字幕の訳振り字幕データと看做される。
【0164】
一方、高速原文に誤りが含まれている場合、高速認識データが示す高速原文と高精度認識データが示す高精度原文とは異なる。更に詳細には、高速原文の内、高精度原文とは異なる部分が、誤りである。具体的には、本実施の形態においては、高速原文「…try a …」の「a 」が誤りであり、高精度原文「…try and …」の「and 」が、高速原文の誤りをそれで置き換えるべき置換部分である。このとき、高速原文に含まれている誤り「a 」が被置換部分である。
【0165】
そこで、字幕生成エンジン112は、被置換部分を置換部分で置き換えることによって、字幕管理テーブル1Tに登録されている高速原文データ、高速原文字幕の原文字幕データ、及び高速訳振り字幕の訳振り字幕データを、高精度原文データ、高精度原文の原文字幕データ、及び高精度訳振り字幕の訳振り字幕データに修正する。
誤りを含んでいる高速訳振り字幕が訳振り領域41に表示されていなかった場合、字幕生成エンジン112は、適宜のタイミングで、高精度訳振り字幕を示す訳振り字幕データに基づく高精度訳振り字幕をディスプレイ24に表示させればよい。このとき、高精度訳振り字幕に含まれている英単語間には、最小限の文字数の空白文字が含まれていればよい。
【0166】
同様に、誤りを含んでいる高速原文字幕が原文領域42に表示されていなかった場合、字幕生成エンジン112は、適宜のタイミングで、高精度原文字幕を示す原文字幕データに基づく高精度原文字幕をディスプレイ24に表示させればよい。このとき、高精度原文字幕に含まれている英単語間には、最小限の文字数の空白文字が含まれていればよい。
【0167】
以下では、表示されている高速訳振り字幕及び高速原文字幕の両方に、誤りが含まれていた場合を説明する。
図23は、字幕表示領域4に表示される高速訳振り字幕47及び高速原文字幕48の更に他の一例を示す模式図である。
被置換部分「a 」は誤りであるため、高速訳振り字幕47及び高速原文字幕48夫々からは、被置換部分「a 」が消去される。このとき、字幕生成エンジン112は、表示処理部14を制御することによって、被置換部分「a 」がフェードアウト表示されるようにする。
【0168】
この後、被置換部分「a 」に置き換えられるように置換部分「and 」がフェードイン表示されることによって、高速訳振り字幕47の高速原文471〜473と高速原文字幕48の高速原文481〜483とは、次の図24に示すような高精度訳振り字幕49の高精度原文491〜493と高精度原文字幕46の高精度原文461〜463に修正される。
【0169】
図24は、字幕表示領域4に表示される高精度訳振り字幕49及び高精度原文字幕46の一例を示す模式図である。
フェードイン表示された置換部分「and 」は、所定時間(例えば10秒間)だけ太字で強調表示される。これは、被置換部分「a 」が置換部分「and 」に置き換えられたことを聞き手b,cに報知するためのものである。従って、置換部分「and 」の強調表示は、置換部分「and 」が高精度訳振り字幕49及び高精度原文字幕46の他の部分よりも目立つのあれば、太字表示に限定されず、囲み表示、点滅表示、斜体表示、赤字表示、又はアンダーライン表示等であってもよい。
【0170】
所定時間が超過した後は、置換部分「and 」は、高精度訳振り字幕49及び高精度原文字幕46の他の部分と同様に表示(以下、通常表示という)される。
ここで、被置換部分「a 」がフェードアウト表示され、置換部分「and 」がフェードイン表示されることによって、聞き手b,cには、被置換部分「a 」と置換部分「and 」とは徐々に置き換えられるように見える。このため、被置換部分「a 」と置換部分「and 」とが瞬時に置き換えられる場合よりも、被置換部分「a 」と置換部分「and 」との置き換えが強調される。
【0171】
なお、フェードアウト表示及びフェードイン表示に限定されず、例えば、被置換部分「a 」の文字サイズが徐々に小さくなり、置換部分「and 」の文字サイズが徐々に大きくなるような表示手法によって両者が置き換えられてもよい。又は、被置換部分「a 」が所定時間だけ他の部分と異なる色彩(例えば灰色)で表示されてから消去され、次いで、置換部分「and 」が強調表示されてもよい。
【0172】
ところで、被置換部分「a 」は1文字であり、置換部分「and 」は3文字であるため、被置換部分「a 」を消去した後の1文字分の空白領域に、置換部分「and 」を表示することはできない。
そこで、字幕生成エンジン112は、高速訳振り字幕47及び高速原文字幕48から被置換部分「a 」を消去した場合に、置換部分「and 」を表示可能な表示可能領域が高速訳振り字幕47及び高速原文字幕48に生じるか否かを夫々判定する。このような字幕生成エンジン112は、本発明の実施の形態における領域判定手段として機能する。
【0173】
置換部分「and 」の前後には、少なくとも1文字分の空白文字を配する必要がある。従って、最低5文字分の空白領域が、置換部分「and 」の表示可能領域である。
高速原文字幕48において、被置換部分「a 」の文字数と、被置換部分の前後に配されている空白文字の文字数合計は5文字である。このため、被置換部分「a 」を消去することによって、高速原文字幕48には、表示可能領域が生じる。
従って、高速原文字幕48に関しては、被置換部分「a 」がフェードアウト表示によって消去され、また、置換部分「and 」がフェードイン表示及び強調表示される。
【0174】
この結果、高精度原文字幕46においては、他の英単語間には2文字ずつ空白文字が配されているのに対し、「and 」の前後の空白文字は1文字ずつに減少する。しかしながら、これは可読性が悪化するほどの変化ではない。
なお、置換部分「and 」と被置換部分「a 」との置き換えに伴い、高精度原文字幕46に含まれている他の英単語間の空白文字の文字数を1文字ずつに減少させても(即ち、単語間のピッチを減少させても)よい。この場合、例えば高精度原文字幕46に含まれている各英単語を左方向へスクロール表示させることよって、高精度原文字幕46の可読性を犠牲にすることなく、単語間のピッチを減少させることができる。
【0175】
一方、高速訳振り字幕47において、被置換部分「a 」の文字数と、被置換部分の前後に配されている空白文字の文字数合計は3文字である。このため、被置換部分「a 」を消去しても、高速訳振り字幕47には、表示可能領域が生じない。
そこで、字幕生成エンジン112は、被置換部分「a 」の可読方向後尾側に表示されている字幕、即ち被置換部分「a 」の右側及び次行に表示されている高速原文472,473を、右方向(図23中の白抜矢符方向)へスクロール表示させる。スクロール表示は、表示可能領域が生じるまで(即ち、5文字分の空白領域が生じるまで)継続される。つまり、高速原文472,473は、2文字分だけ右方向へスクロール表示されればよい。
【0176】
この後、高速訳振り字幕47では、被置換部分「a 」がフェードアウト表示によって消去され、また、置換部分「and 」がフェードイン表示及び強調表示される。なお、被置換部分「a 」のフェードアウト表示と、高速原文472,473のスクロール表示とは同時的であってもよい。
【0177】
ところが、このままの状態では、高速原文472,473の左右方向の位置と高速訳文475,476の左右方向の位置とが位置ズレを生じてしまう。ゆえに、字幕生成エンジン112は、高速原文472,473の2文字分のスクロール表示に応じて、高速訳文475,476も2文字分だけ右方向へスクロール表示させる。
【0178】
高速訳文を高精度訳文に修正する手順は、高速原文を高精度原文に修正する手順と略同様である。具体的には、高精度訳文データを受信した字幕生成エンジン112は、字幕管理テーブル1Tに登録されている高速訳文データとを比較することによって、高速訳文を高精度訳文で置換すべき置換部分及び被置換部分の有無を判定する。本実施の形態では、「試す」が被置換部分であり、「〜よう努める」が置換部分である。
【0179】
そして、高速訳振り字幕47の高速訳文474〜476は、図24に示すような高精度訳振り字幕49の高精度訳文494〜496に修正される。
ところで、一般に英文は半角文字で、和文は全角文字で記載される。従って、置換部分「〜よう努める」の文字数は、被置換部分「試す」に比べて、半角8文字分だけ長い。ただし、被置換部分「試す」と高速訳文475との間には、先程のスクロール表示によって、2文字分の余裕が生じている。
【0180】
このため、字幕生成エンジン112は、被置換部分「試す」の右側及び次行に表示されている高速訳文475,476を、6文字分だけ右方向(図23中の白抜矢符方向)へスクロール表示させる。この後、高速訳振り字幕47では、被置換部分「試す」がフェードアウト表示によって消去され、また、置換部分「〜よう努める」がフェードイン表示及び強調表示される。
ところが、このままの状態では、高精度原文492,493の左右方向の位置と高精度訳文495,496の左右方向の位置とが位置ズレを生じてしまう。そこで、字幕生成エンジン112は、高精度原文492,493を6文字分だけ右方向へスクロール表示させることによって、高精度原文492,493と高精度訳文495,496との位置関係を図24に示す状態になるように調整する。
【0181】
以上のようなスクロール表示によって単語間のピッチを増加させた結果、例えば1行目に配されていた語句(具体的には「by the end of the 」及び「〜の終わりまでに」)を1行目に配置することができなくなった場合には、この単語を2行目に送ればよい。
なお、本実施の形態とは逆に、「and 」が被置換部分であり、「a 」が置換部分である場合、被置換部分「and 」を置換部分「a 」で置き換えると、「a 」の「and 」の前後の空白文字が2文字分増加する。
【0182】
このような場合、増加した空白文字は放置しておいてもよく、高精度原文字幕に含まれている各英単語を左方向へスクロール表示させることよって、増加した空白文字を消去させてもよい。増加した空白文字を放置する場合には、置換部分及び被置換部分以外の英単語に変化が生じないため、聞き手b,cに与える違和感を低減することができる。一方、増加した空白文字を消去させる場合には、その分、表示される原文字幕の文字数を増加させることができるため、限られた字幕表示領域4を有効利用することができる。
【0183】
ここで、高速原文データと高精度原文データとの関連付け、及び、高速訳文データと高精度訳文データとの関連付けについて述べる。
例えば、発言の前半の音声を示す前半音声データに基づいて、第1組の高速原文データ及び高速訳文データが生成され、発言の後半の音声を示す後半音声データに基づいて、第2組の高速原文データ及び高速訳文データが生成される。更に、前半音声データ及び後半音声データ両方に基づいて、高精度原文データ及び高精度訳文データが生成される。
【0184】
本実施の形態では、中央装置3にて、前半音声データ及び後半音声データ夫々に識別情報が発行される。第1組(又は第2組)の高速原文データ及び高速訳文データ夫々には、前半音声データ(又は後半音声データ)の識別情報が関連付けられて端末装置B1,C1へ配信される。そして、高精度原文データ及び高精度訳文データ夫々には、前半音声データの識別情報と後半音声データの識別情報とが共に関連付けられて配信される。
この場合、端末装置B1,C1夫々にて、識別情報に基づき、高速原文データと高精度原文データ(又は高速訳文データと高精度訳文データ)とを容易に関連付けることができる。
【0185】
図25は、会議システム6で実行されるデータ配信処理及び字幕表示処理の手順を示すフローチャートである。図25は、実施の形態1の図13に対応するものであるが、本実施の形態における音声送信処理は、実施の形態1の音声送信処理と同様であるため、図示を省略している。また、図25には、次の図26に示すデータ配信処理と図27及び図28に示す字幕表示処理を抜粋したものが示されている。
図26は、中央装置3で実行されるデータ配信処理の手順を示すフローチャートである。図27及び図28は、各端末装置B1,C1で実行される字幕表示処理の手順を示すフローチャートである。
【0186】
図25及び図26夫々に示すデータ配信処理は、中央装置3で実行される。
図25及び図26に示すS21は、実施の形態1の図13及び図14に示すS21と同様であり、図26に示すS22、S24、及びS27は、実施の形態1の図14に示すS22、S24、及びS27と同様である。
音声データを受信した場合(S21でYES)、制御部31は、音声データを識別するための識別情報を発行し(S81)、発行した識別情報と、S21で受信した音声データとを関連付けて、HDD32に蓄積する(S82)。次いで、制御部31は、処理をS22に移す。
【0187】
S22の処理終了後、制御部31は、実施の形態1のS23と略同様にして、S22における原文の言語の判定結果に基づき、S21で受信した音声データに対して、音声認識処理を施す(S83)。S83における制御部31は、高速認識エンジン313として機能する。このとき生成される高速原文データには、S21で受信した音声データの識別情報が関連付けられる。
制御部31は、S83の音声認識処理をマルチタスクで実行しつつ、処理を次のS24へ移す。
S24における制御部31は、高速原文データと高精度原文データとの区別なく、未訳の原文データが存在するか否かを判定する。
【0188】
S24でYESの場合、制御部31は、実施の形態1のS25と略同様にして、未訳の高速原文データ(又は高精度原文データ)に対して翻訳処理を施す(S84)。S84における制御部31は、高速翻訳エンジン314(又は高精度翻訳エンジン316)として機能する。このとき生成される高速訳文データ(又は高精度訳文データ)には、S84で翻訳処理を施した未訳の原文データに係る識別情報が関連付けられる。
制御部31は、S84の翻訳処理をマルチタスクで実行しつつ、処理を次のS85へ移す。
【0189】
制御部31は、実施の形態1のS26と略同様にして、S84で翻訳処理を施した未訳の原文データを、識別情報と共に端末装置1,1,…へ配信し(S85)、次いで、処理をS27へ移す。
S27における制御部31は、高速訳文データと高精度訳文データとの区別なく、未配信の訳文データが存在するかを判定する。
未配信の訳文データが存在しない場合(S27でNO)、制御部31は、処理を後述するS87へ移す。
未配信の訳文データが存在する場合(S27でYES)、制御部31は、実施の形態1のS28と略同様にして、未配信の訳文データを、識別情報と共に端末装置1,1,…へ配信し(S86)、次に、処理をS87へ移す。
【0190】
制御部31は、HDD32に音声データが蓄積されているか否かを判定する(S87)。S87における制御部31は、例えば、蓄積されている音声データのデータ量が所定データ量以上であるか否かを判定し、また、音声データが蓄積されてからの経過時間が所定の時間以上であるか否かを判定する。蓄積されている音声データのデータ量が所定データ量以上であれば、制御部31は、音声データが蓄積されていると判定する。ただし、蓄積されている音声データのデータ量が所定データ量未満であっても、音声データが蓄積されてからの経過時間が所定の時間以上であれば、制御部31は、音声データが蓄積されていると判定する。
【0191】
音声データが蓄積されていない場合(S87でNO)、制御部31は、処理をS21へ戻す。
音声データが蓄積されている場合(S87でYES)、制御部31は、HDD32に蓄積されている音声データに対して、音声認識処理を施す(S88)。S88における制御部31は、高精度認識エンジン315として機能する。このとき生成される高精度原文データには、HDD32に蓄積されている音声データの識別情報が全て関連付けられる。
【0192】
制御部31は、S88の音声認識処理をマルチタスクで実行しつつ、処理をS21へ戻す。S88の音声認識処理が終了した場合には、HDD32に蓄積されている音声データを削除するか、又は、音声認識処理済みの音声データとして、新たに蓄積される音声データとは区別されるようにする。
【0193】
図25並びに図27及び図28夫々に示す字幕表示処理は、端末装置B1,C1夫々で実行される。
図27に示すS41及びS42の処理は、実施の形態1の図15に示すS41及びS42の処理と同様である。
図25及び図27に示すS44とS46との処理は、実施の形態1の図13及び図15に示すS44及びS46の処理と略同様である。
図28に示すS47〜S51の処理は、実施の形態1の図16に示すS47〜S51の処理と同様である。
【0194】
図25及び図27に示すように、制御部11は、高速原文データ及び識別情報を受信したか否かを判定し(S91)、受信していない場合(S91でNO)、処理を後述するS92へ移す。
【0195】
高速原文データ及び識別情報を受信した場合(S91でYES)、制御部11は、処理をS44へ移して、実施の形態1の図17に示す原文字幕出力処理と同様の原文字幕出力処理を実行する。この原文字幕出力処理のS61及びS62における制御部11は、字幕生成エンジン112として機能する。
そして、制御部11は、S44の原文字幕出力処理をマルチタスクで実行しつつ、処理を後述するS92へ移す。
S44の原文字幕出力処理が実行された場合、原文領域42に、高速原文字幕48が表示される。
【0196】
次に、制御部11は、高速訳文データ及び識別情報を受信したか否かを判定し(S92)、受信していない場合(S92でNO)、処理を後述するS93へ移す。
高速訳文データ及び識別情報を受信した場合(S92でYES)、制御部11は、処理をS46へ移して、実施の形態1の図18に示す訳振り字幕出力処理と略同様の訳振り字幕出力処理を実行する。ただし、この訳振り字幕出力処理では、実施の形態1のS72の処理に相当する処理を実行する必要はなく、S73の処理に相当する処理では、制御部11は、S71で生成した訳振り字幕データに基づいて、訳振り領域41に高速訳振り字幕47を表示させればよい。S71及びS73における制御部11は、字幕生成エンジン112として機能する。
【0197】
そして、制御部11は、訳振り字幕出力処理をマルチタスクで実行しつつ、処理をS93へ移す。
S46の訳振り字幕出力処理が実行された場合、訳振り領域41に、高速訳振り字幕47が表示される。
次いで、制御部11は、高精度原文データ及び識別情報を受信したか否かを判定し(S93)、受信していない場合(S93でNO)、処理を後述するS95へ移す。
【0198】
高精度原文データ及び識別情報を受信した場合(S93でYES)、制御部11は、後述する原文字幕修正処理(図29及び図30参照)を実行する(S94)。
制御部11は、S94の原文字幕修正処理をマルチタスクで実行しつつ、処理をS95へ移す。
【0199】
図29及び図30は、各端末装置1で実行される原文字幕修正処理手順の詳細を示すフローチャートである。
図29に示すように、制御部11は、S93で受信した高精度原文データと、この高精度原文データに対応する高速原文データと(即ち、関連付けられている識別情報が互いに等しい高精度原文データと高速原文データと)を比較し(S111)、両者の差異、即ち置換部分及び被置換部分が存在するか否かを判定する(S112)。
高精度原文データが示す高精度原文と高速原文データが示す高速原文とが一致する場合(S112でNO)、制御部11は、原文字幕修正処理を終了し、元の字幕表示処理へ戻る。
【0200】
置換部分及び被置換部分が存在する場合(S112でYES)、制御部11は、被置換部分を置換部分で置き換えることによって、原文字幕データ及び訳振り字幕データを修正する(S113)。
次に、制御部11は、修正前の原文字幕データ及び訳振り字幕データに基づく高速原文字幕及び高速訳振り字幕が字幕表示領域4に表示されているか否かを判定し(S114)、表示されていない場合には(S114でNO)、原文字幕修正処理を終了し、元の字幕表示処理へ戻る。
【0201】
各種字幕が表示されている場合(S114でYES)、制御部11は、表示されている高速原文字幕から被置換部分を消去することによって表示可能領域が生じるか否かを判定する(S115)。
高速原文字幕に表示可能領域が生じない場合(S115でNO)、制御部11は、高速原文字幕に設けるべき表示可能領域の文字数を求め(S116)、求めた表示可能領域の文字数に応じて、高速原文字幕における被置換部分よりも後尾側を、右方向へスクロール表示させる(S117)。
【0202】
S117の処理をマルチタスクで実行しつつ、又は、高速原文字幕に表示可能領域が生じる場合(S115でYES)、制御部11は、表示されている高速訳振り字幕から被置換部分を消去することによって表示可能領域が生じるか否かを判定する(S118)。
【0203】
高速訳振り字幕に表示可能領域が生じない場合(S118でNO)、制御部11は、高速訳振り字幕に設けるべき表示可能領域の文字数を求める(S119)。そして、制御部11は、S119で求めた表示可能領域の文字数に応じて、高速訳振り字幕に含まれている高速原文における被置換部分よりも後尾側を、右方向へスクロール表示させ、且つ、高速訳振り字幕に含まれている高速訳文における被置換部分に対応する語句よりも後尾側を、右方向へスクロール表示させる(S120)。
【0204】
S120における制御部11は、図22の例では、高速訳振り字幕47に含まれている高速原文471〜473における被置換部分「a 」よりも後尾側である「make a…」を、右方向へスクロール表示させ、且つ、高速訳文474〜476における被置換部分に対応する語句「試す」よりも後尾側である「意思決定をする…」を、右方向へスクロール表示させる。この結果、「make a…」の配置位置と「意思決定をする…」の配置位置とが位置ズレを生じることなく対応する。
【0205】
S120の処理をマルチタスクで実行しつつ、又は、高速訳振り字幕に表示可能領域が生じる場合(S118でYES)、図30に示すように、制御部11は、高速原文字幕及び高速訳振り字幕夫々において、被置換部分をフェードアウト表示させ(S121)、置換部分をフェードイン表示させてから(S122)、置換部分を強調表示させる(S123)。
次に、制御部11は、置換部分を強調表示させてからの経過時間の計時を開始し(S124)、計時した経過時間が所定時間を超過したか否かを判定し(S125)、まだ超過していない場合には(S125でNO)、S125の処理を繰り返し実行する。
【0206】
置換部分を強調表示させてからの経過時間が所定時間を超過した場合(S125でYES)、制御部11は、置換部分を通常表示させる(S126)。
S126の処理終了後、制御部11は、S124で開始した計時処理を終了してから(S127)、原文字幕修正処理を終了し、元の字幕表示処理へ戻る。
以上のような原文字幕修正処理を実行する制御部11は、字幕生成エンジン112として機能する。
【0207】
図25及び図28に示すように、制御部11は、高精度訳文データ及び識別情報を受信したか否かを判定し(S95)、受信していない場合(S95でNO)、処理をS47へ移す。
高精度訳文データ及び識別情報を受信した場合(S95でYES)、制御部11は、後述する訳振り字幕修正処理(図31参照)を実行する(S96)。
制御部11は、S96の訳振り字幕修正処理をマルチタスクで実行しつつ、処理をS47へ移す。
【0208】
図31は、各端末装置1で実行される訳振り字幕修正処理手順の詳細を示すフローチャートである。
制御部11は、S95で受信した高精度訳文データと、この高精度訳文データに対応する高速訳文データと(即ち、関連付けられている識別情報が互いに等しい高精度訳文データと高速訳文データと)を比較し(S131)、両者の差異、即ち置換部分及び被置換部分が存在するか否かを判定する(S132)。
高精度訳文データが示す高精度訳文と高速訳文データが示す高速訳文とが一致する場合(S132でNO)、制御部11は、訳振り字幕修正処理を終了し、元の字幕表示処理へ戻る。
【0209】
置換部分及び被置換部分が存在する場合(S132でYES)、制御部11は、被置換部分を置換部分で置き換えることによって、訳振り字幕データを修正する(S133)。
次に、制御部11は、修正前の訳振り字幕データに基づく高速訳振り字幕が字幕表示領域4に表示されているか否かを判定し(S134)、表示されていない場合には(S134でNO)、訳振り字幕修正処理を終了し、元の字幕表示処理へ戻る。
各種字幕が表示されている場合(S134でYES)、制御部11は、表示されている表示されている高速訳振り字幕から被置換部分を消去することによって表示可能領域が生じるか否かを判定する(S135)。
【0210】
高速訳振り字幕に表示可能領域が生じない場合(S135でNO)、制御部11は、高速訳振り字幕に設けるべき表示可能領域の文字数を求める(S136)。そして、制御部11は、S136で求めた表示可能領域の文字数に応じて、高速訳振り字幕に含まれている高速訳文における被置換部分よりも後尾側を、右方向へスクロール表示させ、且つ、高速訳振り字幕に含まれている高速原文における被置換部分に対応する語句よりも後尾側を、右方向へスクロール表示させる(S137)。
【0211】
S137における制御部11は、図22の例では、高速訳振り字幕47に含まれている高速訳文474〜476における被置換部分に対応する語句「試す」よりも後尾側である「意思決定をする…」を、右方向へスクロール表示させ、且つ、高精度原文491〜493(図24参照)における置換部分「and 」よりも後尾側である「make a…」を、右方向へスクロール表示させる。この結果、「make a…」の配置位置と「意思決定をする…」の配置位置とが位置ズレを生じることなく対応する。
【0212】
S137の処理をマルチタスクで実行しつつ、又は、高速訳振り字幕に表示可能領域が生じる場合(S135でYES)、図31に示すように、制御部11は、高速訳振り字幕において、被置換部分をフェードアウト表示させ(S138)、置換部分をフェードイン表示させてから(S139)、置換部分を強調表示させる(S140)。
次に、制御部11は、置換部分を強調表示させてからの経過時間の計時を開始し(S141)、計時した経過時間が所定時間を超過したか否かを判定し(S142)、まだ超過していない場合には(S142でNO)、S142の処理を繰り返し実行する。
【0213】
置換部分を強調表示させてからの経過時間が所定時間を超過した場合(S142でYES)、制御部11は、置換部分を通常表示させる(S143)。
S143の処理終了後、制御部11は、S141で開始した計時処理を終了してから(S144)、訳振り字幕修正処理を終了し、元の字幕表示処理へ戻る。
以上のような訳振り字幕修正処理を実行する制御部11は、字幕生成エンジン112として機能する。
【0214】
なお、制御部11は、S93で高精度原文データを受信した直後にS94の原文字幕修正処理を実行する構成に限定されず、S95で高精度訳文データを受信した後に、原文字幕修正処理及びS96の訳振り字幕修正処理に相当する字幕修正処理を実行する構成でもよい。この場合、高速原文字幕及び高速訳振り字幕を同時的に高精度原文字幕及び高精度訳振り字幕に修正することができる。
【0215】
以上のような会議システム6は、高速処理と高精度処理とを同時的に実行することによって、各種字幕を短時間で表示することと、正確な各種字幕を表示することとを両立させることができる。
このため、聞き手b,cは、発言者aが発言してから各種字幕が表示されるまで長時間待たされることがない。たとえ各種字幕の内容に誤りが含まれていたたとしても、後に、誤りの部分だけが修正されるため、聞き手b,cは、発言者aの発言を正確に、しかも容易に理解することができる。
【0216】
今回開示された実施の形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述した意味ではなく、特許請求の範囲と均等の意味及び特許請求の範囲内での全ての変更が含まれることが意図される。
例えば、実施の形態1,2では、原文字幕及び訳振り字幕夫々が横書きで表示される場合を例示したが、各種字幕が縦書きで表示されてもよい。この場合、実施の形態1で説明したような各種字幕をスクロールアウトするためのスクロール表示は、右方向へのスクロール表示であればよい。また、実施の形態2で説明したような表示可能領域を設けるためのスクロール表示は、下方向へのスクロール表示であればよい。
【0217】
また、本実施の形態では、会議システム6は、音声認識エンジン311及び翻訳エンジン312を中央装置3で実現し、原文データ及び訳文データを配信して、字幕生成エンジン111を各聞き手の端末装置1で実現する。しかしながら、会議システム6は、中央装置3(又は発言者の端末装置1)で音声認識エンジン311を実現し、原文データを配信して、各聞き手の端末装置1で翻訳エンジン312及び字幕生成エンジン111を実現する構成でもよい。或いは、会議システム6は、中央装置3(又は発言者の端末装置1)で音声認識エンジン311、翻訳エンジン312、及び字幕生成エンジン111を実現し、原文字幕データ及び訳振り字幕データを配信する構成でもよい。
【0218】
また、例えば、本実施の形態では、会議システム6は、端末装置1,1,…と中央装置3とを用いたクライアントサーバ型の通信方式で会議の実現を支援する構成である。しかしながら、中央装置3を用いず、端末装置1,1,…のみを用いたピア・トゥ・ピア型の通信方式で会議の実現を支援する会議システムでもよい。或いは、会議システムは、2台の端末装置1,1のみを用いたポイント・トゥ・ポイント型の通信方式でもよく、端末装置1,1,…とMCU(多地点接続装置)とを用いたポイント・トゥ・マルチポイント型又はマルチポイント・トゥ・ポイント型の通信方式でもよい。
【0219】
更に、本発明の効果がある限りにおいて、会議システム6又は端末装置1に、実施の形態1,2に開示されていない構成要素が含まれていてもよい。
【符号の説明】
【0220】
1 端末装置(情報処理装置)
11 制御部(生成手段,制御手段,認識判定手段,領域判定手段)
1P 端末プログラム(コンピュータプログラム)
24 ディスプレイ(表示部)
3 中央装置
31 制御部(認識手段,翻訳手段,配信手段)
4 字幕表示領域(表示部が有する表示領域)
41 訳振り領域(表示領域を2分割してなる一方)
42 原文領域(他方)
43 訳振り字幕
44 原文字幕(認識結果字幕)
6 会議システム

【特許請求の範囲】
【請求項1】
字幕を表示する表示部を備える会議システムにおいて、
発言の音声を一の言語で音声認識する認識手段と、
該認識手段による認識結果を、前記一の言語とは異なる他の言語に翻訳する翻訳手段と、
前記認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕を生成する生成手段と、
該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段と
を備えることを特徴とする会議システム。
【請求項2】
前記対訳字幕は、前記認識結果に前記翻訳結果がルビ状に併記された訳振り字幕であることを特徴とする請求項1に記載の会議システム。
【請求項3】
前記訳振り字幕は、前記認識結果に含まれる単語又は連語に、前記翻訳結果に含まれ、前記単語又は連語に対応する語句がルビ状に併記されたものであることを特徴とする請求項2に記載の会議システム。
【請求項4】
前記生成手段は、前記認識結果を示す認識結果字幕を更に生成するようにしてあり、
前記制御手段は、前記表示部が有する表示領域を2分割してなる一方に前記訳振り字幕を表示させ、他方に前記生成手段が生成した認識結果字幕を表示させるようにしてあることを特徴とする請求項2又は3に記載の会議システム。
【請求項5】
前記制御手段は、前記表示部に前記訳振り字幕を表示させる場合に、表示される訳振り字幕に含まれている認識結果を示す認識結果字幕を消去させるようにしてあることを特徴とする請求項4に記載の会議システム。
【請求項6】
前記制御手段は、前記認識結果字幕と前記訳振り字幕とを個別にスクロール表示させるようにしてあることを特徴とする請求項4又は5に記載の会議システム。
【請求項7】
前記認識手段は、前記発言の音声を前記一の言語で改めて音声認識するようにしてあり、
前記認識結果を前記認識手段による再度の認識結果で置換すべき置換部分及び被置換部分の有無を判定する認識判定手段と、
該認識判定手段があると判定した場合、前記表示部に表示されている前記対訳字幕から前記被置換部分を消去したときに、前記置換部分を表示可能な表示可能領域が前記対訳字幕に生じるか否かを判定する領域判定手段と
を更に有し、
前記生成手段は、前記認識判定手段があると判定した場合、前記対訳字幕を、前記再度の認識結果及び前記翻訳手段による翻訳結果が併記された対訳字幕に修正するようにしてあり、
前記制御手段は、
前記認識判定手段があると判定した場合に、前記被置換部分を消去させる手段と、
前記領域判定手段が否と判定した場合に、前記表示可能領域を設けるべく、前記被置換部分よりも後尾側の対訳字幕を、可読方向へスクロール表示させる手段と、
前記表示可能領域に前記置換部分を表示させる手段と
を有することを特徴とする請求項1から6の何れか一項に記載の会議システム。
【請求項8】
前記制御手段は、
前記表示可能領域に前記置換部分を表示させる場合に、該置換部分を、所定時間だけ、前記置換部分以外の前記対訳字幕に比べて強調表示させるようにしてあることを特徴とする請求項7に記載の会議システム。
【請求項9】
中央装置と、複数台の端末装置夫々とが通信可能に接続されており、
各端末装置は、前記表示部、前記生成手段、及び前記制御手段を有し、
前記中央装置は、
前記認識手段及び翻訳手段と、
前記認識結果及び翻訳結果を夫々示すデータを前記端末装置へ配信する配信手段と
を有し、
各端末装置では、受信したデータに基づいて、前記生成手段による生成処理を実行するようにしてあることを特徴とする請求項1から8の何れか一項に記載の会議システム。
【請求項10】
字幕を表示する表示部を備え、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理装置において、
受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成する生成手段と、
該生成手段が生成した対訳字幕が表示されるように前記表示部を制御する制御手段と
を備えることを特徴とする情報処理装置。
【請求項11】
字幕を表示する表示部を備える会議システムにて、会議の実現を支援する会議支援方法において、
一の言語でなされた発言の音声を音声認識し、
音声認識した認識結果を、前記一の言語とは異なる他の言語に翻訳し、
前記認識結果と翻訳した翻訳結果とが併記された対訳字幕を前記表示部に表示させることを特徴とする会議支援方法。
【請求項12】
字幕を表示する表示部を備える情報処理装置にて、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信する情報処理方法において、
受信したデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を前記表示部に表示させることを特徴とする情報処理方法。
【請求項13】
字幕を表示する表示部を備えるコンピュータに、一の言語の原文と、該原文を前記一の言語とは異なる他の言語に翻訳してなる訳文とを夫々示すデータを受信させるコンピュータプログラムであって、
コンピュータに、受信されたデータに基づいて、前記原文及び前記訳文が併記された対訳字幕を生成させる生成ステップと、
コンピュータに、前記生成ステップで生成された対訳字幕が表示されるように前記表示部を制御させる制御ステップと
を実行させることを特徴とするコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate

【図29】
image rotate

【図30】
image rotate

【図31】
image rotate


【公開番号】特開2011−182125(P2011−182125A)
【公開日】平成23年9月15日(2011.9.15)
【国際特許分類】
【出願番号】特願2010−43163(P2010−43163)
【出願日】平成22年2月26日(2010.2.26)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】