説明

メッセージを変更するための方法及びシステム

本発明は、音声コンテンツを有する入力メッセージ(IM)を変更するための方法及びシステムについて記載する。当該方法は、入力メッセージ(IM)の音声コンテンツ(A)をテキスト表示(TR)の要素に変換するステップと、入力メッセージ(IM)の音声コンテンツ(A)をテキスト表示(TR)に関連する構成音声要素(As)に分割するステップと、編集入力に従って、テキスト表示(TR)を編集するのに適した形式でテキスト表示(TR)をレンダリングするステップと、出力メッセージ(OM)の変更された音声コンテンツ(A’)を与えるように、編集されたテキスト表示(TR’)に従って、音声コンテンツ(A)の関連する音声要素(As)を改変するステップとを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声及び、随意的に映像のコンテンツを有するメッセージを変更するための方法及びシステムと、メッセージングシステムとに関する。
【背景技術】
【0002】
数十年前のオンラインユーザグループ及びチャットルームの発展以来、ユーザがメッセージをやり取りすることにより通信することを可能にするメッセージングシステムは、特にワールド・ワイド・ウェブ及びインターネットの急速な拡大とともに、ユーザ受容の連続的な成長に恵まれてきた。他のメッセージングシステムは、ユーザが、例えば携帯電話によりメッセージを送ることを可能にする。
【0003】
ユーザがキーボードにより自らのメッセージをタイプし、その後に、メッセージが、目的地のユーザのPCにおいて、書かれた形式で現れることを含む初期のメッセージングシナリオは、メッセージングシステムが、音声メッセージコンテンツとともに映像を送ることができる増大した回線容量を使用するにつれて、急速に時代遅れとなりつつある。タイプされたメッセージの1つの利点は、タイプされたテキストが、メッセージがユーザにとって満足いくまで、適切なエディターを用いて、その瞬間に容易に編集又は変更されうる点であり、一方、通常はあるデジタル形式で符合化されている音声及び映像は、ユーザが変更することが決して容易ではない。しかし、音声又は映像メッセージを記録した後に、音声は、好ましくないイントネーション又は意図されない意味を持った言葉を含み、あるいは、映像は、ユーザが結局送ることを望まない要素を含みうる。音声及び映像の編集に含まれる努力は法外に高いので、1つの小さな望まない要素でさえも含む音声又は映像メッセージは、そのまま送られるか、あるいは、その全体で捨てられるかのいずれかであるべきであり、強制的にユーザにメッセージを再記録させる。音声及び映像の両処理は、複雑であり、ユーザがたとえ基本でも理解するためには平均的なユーザの一部に専門の高度なレベルを要求し、一方、職業的な編集及び混合の品質は、大部分のユーザには達成できない。
【発明の開示】
【発明が解決しようとする課題】
【0004】
従って、本発明は、音声コンテンツを含むメッセージを、最終的にそれを受信者に提示する前に、容易に且つ直感的に変更する方法を提供することを目的とする。
【課題を解決するための手段】
【0005】
この目的のために、本発明は:
入力メッセージの音声コンテンツをテキスト表示の要素に変換するステップと、
前記メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するステップと、
前記テキスト表示を編集に適した形式にレンダリングするステップと、
前記テキスト表示を編集入力に従って変更するステップと、
出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記音声コンテンツの前記関連する音声要素を改変するステップと、を有する方法を提供する。
【0006】
入力メッセージを変更するための適切なシステムは、前記入力メッセージの音声コンテンツを記録するための音声入力部と、前記入力メッセージの音声コンテンツをテキスト表示の要素に変換するための音声・テキスト変換器と、前記入力メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するための音声分割ユニットと、前記テキスト表示を編集に適した形式にレンダリングするためのレンダリングユニットと、前記テキスト表示の編集を可能にするためのエディターと、出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記関連する音声要素を改変するための音声改変ユニットと、を有する。
【0007】
このようにして、本発明は、音声処理技術で熟練していることを必要とせずに、音声メッセージを発生させ、この音声メッセージに対して、それが受信者に提示される前に、如何なる必要な変更をも導入するための、ユーザにとって容易な方法を提供する。ユーザは、ユーザが、メッセージが正確であって、提示に適していることに満足するまで、元のメッセージに如何なる多数の変更をも行うことができる。
【0008】
従属請求項及び以下の記載は、本発明の有利な実施例及び特徴を具体的に開示する。
【0009】
音声入力メッセージは、変換器に接続された、例えばマイクロホンのような、ユーザが話しかける適切な記録装置を用いることによって、記録又は捕捉をなされうる。変換器において、自動発話認識ユニットは、入力されたメッセージの音声コンテンツを識別し、これをデジタルのテキスト表示に変換する。テキスト表示の要素は、例えば、カウンタ又は一種のクロックを用いて、音声コンテンツにおいてテキスト表示要素の相対的な位置を一意的に識別することによって、時間順に経過時間をマークする値を与えられても良い。
【0010】
音声コンテンツの構成音声要素は、言葉全体、単語のグループ、及び文節、音節又は音素のフラグメントであっても良い。音声分割ユニットは、例えば、適切なアルゴリズム及び/又はフィルタを適用することによって、音声コンテンツをその構成音声要素へと限定する。
【0011】
相関関係又は等価は、同様に分割処理の間に個々の音声要素へ時間順に経過時間をマークするよう値を割り当てることによって、音声コンテンツの音声要素とテキスト表示要素との間に容易に確立されうる。このようにして、音声要素及びその対応するテキスト表示要素は、それらの整合又は対応する時間的価値に基づいて位置付けられ、あるいは識別されうる。時間的価値は、ある種類のマーカ又は指示を直接的にテキスト表示又は音声コンテンツに挿入しても良く、あるいは、テキスト表示又は音声コンテンツの適切な点を参照してリストに集められても良い。
【0012】
音声コンテンツが満足なものであるかどうかをユーザが確認することを可能にするよう、それは、編集のために適した形でユーザに提示される。この目的のために、音声コンテンツのテキスト表示は、音声合成装置により音にレンダリングし直され、ラウドスピーカやヘッドホンなどによりユーザに対して再生されても良い。望ましくは、ユーザは、テキスト表示が、例えば、パーソナルコンピュータのスクリーン、携帯電話のスクリーン、TVのスクリーンなどの表示ユニットに表示されうるように、音声コンテンツがテキスト形式にレンダリングされた後に、表示ユニットで音声コンテンツを見ても良い。ユーザは、例えば、編集命令をマイクロホンに話しかけることにより、言語でテキスト表示への変更を指示しても良い。話された編集命令は、その後、適切な発話解釈ユニットによって、対応する編集命令に変換されても良い。代替的に、変更は、例えば、キーボード又はキーパッドによりそれらをタイプすることによって、テキスト表示において実行されても良い。望ましくは、発話解釈ユニット及び/又は表示ユニットは、ユーザが編集の間にテキスト表示のテキストを観測することができるように、何らかの方法でエディターへ接続される。音声コンテンツの音声要素は、その後、テキスト表示での変更に従って、音声改変ユニットで変更される。
【0013】
望ましくは、変更された音声コンテンツは、例えば、ラウドスピーカ又はヘッドホンのような適切な音声出力部により、メッセージを提示する前に、ユーザに対して再生される。ユーザは、変更された音声コンテンツを聴いて、それが満足できるかどうか、又は、テキスト表示における更なる変更が、最終的にメッセージを送る前に行われる必要があるかどうかを決定する。
【0014】
テキスト表示を編集するためのエディターは、当該装置の表示ユニットを用いるパーソナルコンピュータ、携帯電話、ホームエンターテイメント装置などに組み込まれても良い。ユーザは、テキスト表示の要素を再配置、削除又は複製することによってテキスト表示のテキストを変更しても良い。これらの変更は、その場合に、対応する方法で音声コンテンツの音声要素で行われる。例えば、テキスト要素がテキスト表示から削除された場合には、その時間マーカにより識別される、対応する音声要素も削除されうる。テキスト要素がテキスト表示の異なる位置に動かされた場合には、対応する音声要素は、音声コンテンツのその元の位置から動かされ、テキスト表示における変更に対応する異なった位置に挿入される。
【0015】
ユーザは、テキスト表示に予め存在していない新しい単語又は言葉であっても挿入することができる。この場合に、新しい単語は、エディターによって適切な方法で識別される。音声改変ユニットは、それが、単語のライブラリ又はデータベースにこの言葉を有するかどうか、又は、単語の構成音素が音声コンテンツに予め存在するかどうかを確認することができる。音声改変ユニットは、正確な順序で構成音素とともに置くことによって言葉を組み立てても良い。
【0016】
テキスト表示においてテキスト要素を単に移動したり、又は再配置したりすることに加えて、ユーザは、対応する音声要素で行われるべきある種の変更を指示するよう、マークアップをテキストに挿入しても良い。例えば、感嘆符のような特別な文字は、単語の前後に挿入され、この単語が音声コンテンツにおいて、より大きな音にされるべきことを示しうる。代替的に、ユーザは、例えば、イタリック体にテキスト表示において変更された単語又は言葉が音声コンテンツにおいて、より小さな音にされるように、単語の書体を変更しても良い。他の種類の変更は、例えば、話者の声を男性から女性へ若しくはその逆に変更するといった、話者の声質の変更、又は、異なった話者特性を声へ適用することを有する。その場合に、これらのマークアップは、音声改変ユニットによる解釈に適した形でテキスト表示において命令又はコメントとして符号化されても良い。
【0017】
音声改変ユニットは、テキスト表示における変更を解釈し、関連する音声要素において所要の変更を行う。音声要素は、例えば、単語をより大きな若しくはより小さな音にするよう、又は、別な方法で単語に対する強調を変更するよう、変更されうる。これは、適切なフィルタ又は関数を音声要素へ適用することによって、例えばピッチのような、音声要素の適切な特性を変更することによって達成可能である。
【0018】
これらの改変の全ては、音声処理関数又はアルゴリズムのコレクション又はデータベースに保存され、又はコンピュータプログラムに組み込まれうる既知の音声処理技術を提供することにより実行可能である。変更されたテキスト表示におけるマークアップは、適切なアルゴリズム又は関数を自動的に取り出す又は作動させるために使用されても良い。
【0019】
本発明の好ましい実施例において、ユーザは、例えば、システムへ適切な命令を入力することによって、分割の精度を特定することができる。粗い精度は、音声品質が非常に高いレベルを有することを必要としないところのチャットグループでやり取りされるメッセージでは十分であり得る。例えば、高品質音声で伝えられるべきレポート、スピーチ又はアナウンスを準備するような他の用途では、細かい精度が、詳細な補正が音声コンテンツで実行されることを可能にする特定されうる。より高い値の精度は、関連するより高い努力とともに、より良い音声処理品質を与えうる。
【0020】
本発明の特に好ましい実施例では、音声平滑化技術は、音声コンテンツの音声要素の、それらを再配置する又はそれらの特性を変更することによる改変が、一様でない又は耳障りな発声(sounding)音声コンテンツを生じることがあるので、隣接する音声要素の間での滑らかな遷移を確実にするように、改変された音声コンテンツへ適用される。
【0021】
本発明は、また、映像コンテンツを有するメッセージの処理を可能にする。この場合に、入力メッセージを変更する方法は、また、前記入力メッセージの映像コンテンツを、前記テキスト表示に関連する対応するフレームセグメント又はフレームのシーケンスに分割するステップと、出力メッセージの変更された映像コンテンツを与えるように、必要に応じて、前記編集されたテキスト表示又は前記音声コンテンツの前記改変された音声要素に従って、前記映像コンテンツの前記関連するフレームセグメントを改変するステップを有する。
【0022】
フレームセグメントは対応するテキスト表示に関連する多数の連続したフレームであると理解される。上記と同様に、時間順に経過時間をマークする値は、また、フレームシーケンスがその時間的価値を基に位置付けられ、あるいは識別されうるように、映像分割処理の間に、フレームシーケンスへ割り当てられる。フレームシーケンスは、その対応するテキスト表示、又は、同様に、対応する音声セグメントに整合されても良い。このようにして、相関関係又は等価は、映像コンテンツのフレームシーケンスと、テキスト表示及び/又は音声セグメントとの間で容易に確立される。フレームシーケンスの長さは、また、分割処理の精度によって決定されても良い。
【0023】
テキスト表示で実行される編集は、適切な改変を実行することにより映像コンテンツで反映される。ユーザがテキスト表示の幾つかの要素を削除又は再配置したならば、対応する映像フレームシーケンスは、時間的価値を用いて位置付けられ、必要に応じて、削除又は再配置をなされる。テキスト表示に挿入されたあるマークアップは、映像コンテンツでは効果を有さなくても良い。即ち、例えば、話者の声の発声特性における変更は、映像コンテンツの如何なる変更をも必ずしも必要としない。しかし、ある種のマークアップは、例えば、ストロボ(strobes)、フラッシング(flashing)又は色反転のような特別な効果を導入するように、映像コンテンツを改変するよう解釈されても良い。例えば、テキスト表示における語又は多数の語が、例えば、下線を引くこと又はそれを感嘆符の間に入れることにより、何らかの方法でマークされているならば、対応する音声要素は、音を大きくされても良く、対応する映像フレームシーケンスは、フラッシング又はストロボ効果を有するよう変更されても良い。
【0024】
映像コンテンツを有する入力メッセージを変更するための適切なシステムは、入力メッセージの映像コンテンツを記録するための、例えば、ウェブカメラ、内蔵カメラ付き携帯電話、ビデオカメラ、などの映像入力部を有する。メッセージの映像コンテンツは、映像分割ユニットにおいて、テキスト表示の要素に関連するフレームセグメントに分解又は分割され、映像改変ユニットにおいて、出力メッセージの変更された映像コンテンツを与えるように、テキスト表示の変更に従って改変される。次に、メッセージの音声及び映像コンテンツは、出力メッセージを与えるように、音声/映像再結合ユニットにおいて再結合される。
【0025】
望ましくは、例えば表示装置又はテレビスクリーンのような映像出力部は、出力メッセージの前記変更された映像コンテンツを再生するために使用可能である。
【0026】
本発明の特に好ましい実施例では、例えばフィルタリング又はモーフィングのような映像平滑化技術は、変更された映像コンテンツにおいて連続するフレームセグメントの間の滑らかな遷移を与えるように、変更された映像コンテンツへ適用される。
【0027】
当該方法は、留守番電話機のメッセージ、拡声装置での中継のためのメッセージ、音声・映像アナウンスなど、オリジナルの改善がしばしば必要とされるところの如何なる種類のメッセージの発生及び編集にも適用可能である。記載される方法は、インターネット又は電気通信網を介して、上述したような音声・映像チャットグループなどのメッセージ送信するためのメッセージングシステムにおいて、特に有利である。
【0028】
メッセージを組み立てて、送信する適切な方法は、入力メッセージの音声及び随意的な映像コンテンツを捕捉するステップと、出力メッセージを与えるように、上述したような方法を用いることにより、前記入力メッセージの前記音声及び/又は随意的な映像コンテンツを改変するステップと、正確性の確認のためにユーザへ前記出力メッセージを再生するステップと、前記ユーザがその正確性を確認した後に前記出力メッセージを送信するステップとを有する。
【0029】
従って、この方法に従ってメッセージを組み立てて、送信するためのメッセージングシステムは、入力メッセージの音声コンテンツを記録するための音声入力部及び、随意的に、前記入力メッセージの映像コンテンツを記録するための映像入力部と、変更された出力メッセージを与えるように、上述したような方法を用いることにより、前記入力メッセージの前記音声及び随意的な映像コンテンツを改変するための改変ユニットと、正確性の確認のためにユーザへ前記出力メッセージの前記変更されたコンテンツを再生するための音声出力部及び、随意的に、映像出力部と、前記ユーザがその正確性を確認した後に前記出力メッセージを送信するための送信ユニットとを有する。
【0030】
本発明の好ましい特徴は、入力メッセージの改変に含まれる全てのステップを実行するためのコンピュータプログラムプロダクトを有する。即ち、音声・テキスト変換器、音声分割、映像分割、音声改変、映像改変、再結合などの、メッセージを変更するためのシステム(メッセージ変更システム)の構成要素のほとんど又は全ては、ソフトウェア及び/又はハードウェアモジュールの形で実現される。如何なる所要のソフトウェアも、既存のメッセージ変更システムが、本発明の特徴から恩恵を受けるよう適合されうるように、メッセージ変更システムの処理装置での符号化又は別の処理装置での符号化をなされても良い。メッセージ変更システムは、例えば、メッセージングシステムや留守番電話などの、メッセージを組み立てる又は処理する働きをする如何なるシステム又は装置へ接続されても良く、あるいはその一部であっても良い。
【0031】
本発明の他の目的及び特徴は、添付の図面に関して考えられた以下の詳細な記載から明らかとなるであろう。しかし、当然のことながら、図面は、専ら説明の目的のために設計されているのであって、本発明の限定の定義として用いられているわけではない。
【発明を実施するための最良の形態】
【0032】
以下の図面の説明において、これらの図面は、本発明の他の可能な実現を除外するわけではないが、入力メッセージを変更するためのシステムは、メッセージングシステムの一部として示されている。このメッセージングシステムは、如何なる適切な通信ネットワークへの適切なインターフェースも有する、例えば、ホームエンターテイメントシステム、PC、TV、携帯電話、マルチメディア装置、などの、如何なる適切な音声映像装置にも組み込むことができる。システムは、キーボード22又はキーパッド、マウス23、スクリーン8、及びラウドスピーカ20を有する、ユーザにより発せられた命令を機械言語に翻訳処理するためのユーザインターフェース14を有する。音波及びフレームセグメントのグラフィック表示は、正確な翻訳として表されるわけではなく、単に説明目的を果たす。
【0033】
図1に表されたメッセージングシステムで、ユーザ(図示せず。)は、例えば「Hi,ehm,I am John.(こんにちは、えー、私はジョンです。)」といったメッセージをマイクロホン2に向かって話す間に、ビデオカメラ3によって撮影される。ビデオカメラ3及びマイクロホン2は、映像コンテンツV及び音声コンテンツAを夫々、捕捉ユニット4へ送る。捕捉ユニット4では、如何なる必要な処理も、音声コンテンツA及び映像コンテンツVを、例えばMPEG2又はMPEG4のようなデジタル形式で入力メッセージIMに記録して組み込むために実行される。音声コンテンツAに対応する音声波形は、映像コンテンツVに対応する一連のフレームシーケンスとともに、図2aで簡単化された形でグラフとして示される。
【0034】
デジタル化された入力メッセージIMは、変換器ユニット5へ、音声分割ユニット6へ及び映像分割ユニット7へ送られる。それらのユニットの夫々は、関連する入力ストリームA又はVを夫々抽出する。3つのブロック5、6、7の全ては、図示されていない、通常の方法で接続される同期ブロック15、16、17を有する。夫々の同期ブロック15、16、17は、例えば、デジタルクロック又はカウンタにより、時間を測定する能力を有する。この実施例では、捕捉ユニット4は、適切な零マーカ又は開始時間によりメッセージIMの開始をマークする。零マーカ又は開始時間を参照して、同期ブロック15、16、17は、時間の経過を測定する。更に、変換器5の同期ブロック15は、他の同期ブロック16、17へ適切な信号を送信する能力を有する。
【0035】
変換器5で、発話認識アルゴリズムが、テキスト表示TRを得るよう、入力メッセージIMの音声コンテンツへ適用される。従って、このブロックは、以下では、発話処理ユニットと呼ばれる。テキスト表示TRは、例えばASCIIのような形式で符号化され、その構成テキスト要素に分割される。要素、即ち、語のグループ、個々の語、音節又は音素のサイズ又は複雑性は、ユーザインターフェースを介して適切な入力によりユーザによって特定される。夫々のテキスト表示は、開始時間に関して測定された時間の値によりマークされるので、夫々のテキスト表示は、このようにして、テキスト表示TRにおけるその時間的位置によって一意的に定められる。テキスト表示のマーク動作は、発話処理ユニット5の同期ユニット15によって音声分割ユニット6及び映像分割ユニット7の同期ブロック16、17へ夫々記録される事象である。
【0036】
音声分割ユニット6は、図2bでグラフとして示される、音声要素Asから成る分割された音声コンテンツを与えるように、音声コンテンツAの適切な位置にマーカMを置くことにより、記録された事象に反応する。このようにして、発話処理ユニット5で識別された、入力メッセージIMの夫々のテキスト要素は、入力メッセージIMの分割された音声コンテンツでの音素As又は音声要素Asに整合されうる。同様に、映像分割ユニット7は、発話処理ユニット5の同期ブロック15によってその同期ブロック17へ記録された事象に応答して、同じく図2bに示されるフレームセグメントVsから成る分割された映像コンテンツを与えるように、映像コンテンツVにマーカを置き、テキスト表示のテキスト要素又は音声コンテンツのセグメントAsが、分割された映像コンテンツにおける対応するフレームセグメントVsに整合されることを可能にする。
【0037】
メッセージングシステム1は、ユーザが、メッセージが送信される前にそのメッセージを変更することを可能にする。この目的のために、テキスト表示TRは、エディター9による編集に適した形式で表示される。本例では、ユーザは、例えば、パーソナルコンピュータのスクリーンなどの表示ユニット8で、メッセージIMのテキスト「Hi ehm I am John(こんにちは えー 私 ジョン です)」を見ること可能であり、ユーザは、所望の変更を得るようにテキスト表示TRを編集することができる。本例では、ユーザは、「ehm(えー)」を削除し、語を再配置し、語「John(ジョン)」における強調を、その語を感嘆符の間に入れることにより変更し、このようにして「Hi!John!I am(こんにちは!ジョン!私です)」を得る。この編集入力は、感嘆符のような特別な文字が、適切な位置でテキスト表示TRに挿入されて、テキスト表示TRの要素が、ユーザによって為された変更に従って再配置又は変更をなされるように、例えば命令又はコメントの形で、テキスト表示においてエディター9によって符号化される。
【0038】
変更されたテキスト表示TR’は、音声改変ブロック10へ送られる。音声改変ブロック10では、図2cにグラフとして示されるように、変更が挿入され、分割された音声コンテンツの音声要素Asの如何なる必要な再配置も計算される。例えば、要素、例えば、本例では「ehm(えー)」が、テキスト表示から取り除かれる場合に、変更されたテキスト表示TR’で符号化された如何なる命令又はコメント及び時間的価値をも用いて位置付けられた、対応する音声要素は、分割された音声コンテンツAsから取り除かれる。例えば、本例では「John(ジョン)」のような、その元の位置から新しい位置へと動かされた要素に対応する音声要素は、分割された音声コンテンツAsにおいてその元の位置から動かされて、適切な位置に挿入されることが可能である。要素「John(ジョン)」を囲む特別な文字、この場合には感嘆符は、対応する音声要素のボリュームが増大されるべきことを意味するよう翻訳される。これは、例えば、適切なフィルタ又は増幅器をこの音声セグメントへ適用することによって、達成される。
【0039】
音声コンテンツの変更された信号は、図2dに示される。音声セグメントは、変更されたテキスト表示TR’に対応するよう再配置される場合に、目下、変更処理により生ずる急激な遷移又はアーティファクトを特徴とする。変更された音声コンテンツA’が聴き心地の良いことを確実にするよう、音声平滑化技術が、音声平滑化ユニット18において、再配置された音声セグメントへ必須なものとして適用される。
【0040】
映像改変ブロック11で、変更されたテキスト表示TR’における変更は、音声改変に類似する方法で、分割された映像コンテンツへ伝えられる。即ち、要素、例えば、本例では「ehm(えー)」が、テキスト表示から取り除かれる場合に、変更されたテキスト表示TR’で符号化された如何なる命令又はコメント及び時間的価値をも用いて位置付けられた、対応する映像フレームシーケンスVsは、分割された映像コンテンツVsから取り除かれる。例えば、本例では「John(ジョン)」のような、その元の位置から新しい位置へと動かされた要素に対応する映像フレームシーケンスは、分割された音声コンテンツVsにおいてその元の位置から動かされて、適切な位置に再び挿入されることが可能である。映像フレームシーケンスを再配置した結果は、同じく、図2dにグラフとして示される。要素「John(ジョン)」の音の大きさを変更することは、例えばストロボ効果又はフラッシングのような、特別な映像効果に付随して生じても良い。これが望まれる場合に、映像改変は、分割された映像コンテンツVsでの対応するフレームシーケンスの存続期間の間に生ずる。映像フレームシーケンスは、変更されたテキスト表示TR’に対応するよう再配置又は別なふうに改変をなされる場合に、目下、突然且つ不自然な遷移を特徴としうる。この効果を無効にするよう、映像平滑化技術は、変更された映像コンテンツV’を与えるように、映像平滑ブロック19において、映像フレームシーケンスへ必須なものとして適用されうる。
【0041】
望ましくは、映像改変ユニットは、また、テキスト表示での変更に従って映像コンテンツにおいて人間の表情を変化させるよう、適切なアルゴリズム及び処理技術を備えられても良い。このように、例えば<笑顔>又は<渋面>などの表情を表すマークアップは、話者の顔が、マークアップに依存して、笑顔や不愉快そうな顔にされるよう変更されることをもたらす。
【0042】
再結合ブロック12では、変更された音声及び映像コンテンツA’、V’は、出力メッセージOMを与えるように再結合される。ユーザが、変更されたメッセージを見ることができるようにするために、出力メッセージOMは、映像コンテンツをスクリーン8に表示することにより視覚的に、且つ、音声コンテンツをユーザインターフェース14のラウドスピーカ20で再生することによって聴覚的に表される。同時に、対応するテキストは、望まれるならば、ユーザが出力メッセージOMのテキストにおいて如何なる更なる変更も行うことができるように、エディター9によって表示される。
【0043】
例えば、ユーザは、メッセージが「Hi John I am done(こんにちは ジョン 私は為されました)」と書かれているように、新しい語をテキストに挿入することを望んでも良い。整合する音声要素に随伴していない新しい要素がテキスト表示に導入されるところの、このような変更の場合に、音声改変ユニット10は、データベース21から適切な音声要素を取り出すことができる。このようなデータベース21は、以前のメッセージから複製された音声要素のサンプルにより長い間に作られても良い。代替的に、発話処理ユニットは、テキストから音声信号を発生させるために音声合成装置を特徴としても良い。映像コンテンツの場合には、映像改変ユニット11は、映像コンテンツの適切なフレームを単純に複製し、これらを既存の映像フレームシーケンスVsに変形させても良い。先と同じく、音声改変ユニット10及び映像改変ユニット11の出力は、再結合ユニット12で再結合されて、確認のためにユーザにもう一度提示される。
【0044】
ユーザが、出力メッセージOMが満足であると確認すると、メッセージOMは、送信ユニット13によってその目的地へ送られる。このユニットは、例えば、チャットアプリケーション又は電子メールアプリケーションであっても良い。
【0045】
本発明は、好ましい実施例及びその様々な変形例の形で開示されてきたが、当然のことながら、多数の更なる変更及び変形は、本発明の適用範囲を損なうことなくなされうる。例えば、音声/映像改変ユニットによって適用されるデータベース又はアルゴリズムは、インターネットから新しい情報又はアルゴリズムをダウンロードすることによって、望ましく更新又は置換されうる。このようにして、メッセージングシステムは、ほとんどの現在の音声及び映像処理技術を使用することができる。
【0046】
メッセージングシステムは、実際に話者を撮影することなく、音声メッセージに付随する映像を提供するよう、アバター・シミュレーション技術の発展を使用しても良い。アバターは、ユーザに似ていても良く、又は、異なる外見を有しても良く、且つ、特定の背景の前に現れても良い。あるいは、ユーザは、カメラによって撮られた画像又は外部ソースからダウンロードされた画像によって背景を提供しても良い。明瞭さのために、当然のことながら、この明細書全体を通しての冠詞「1つの」の使用は、複数のステップ又は要素を除外しているわけではなく、動詞「有する」及びその活用形の使用は、他のステップ又は要素を除外しているわけでない。語「ユニット」の使用は、単一のユニット又はモジュールに実現を制限しているわけではない。
【図面の簡単な説明】
【0047】
【図1】本発明の実施例に従う、入力メッセージを変更するためのシステムのブロック図である。
【図2】a〜dは、本発明の実施例に従う、メッセージの記録された音波及びフレームセグメントのグラフ表示である。

【特許請求の範囲】
【請求項1】
音声コンテンツを有する入力メッセージの変更方法であって:
前記入力メッセージの音声コンテンツをテキスト表示の要素に変換するステップ;
前記入力メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するステップ;
前記テキスト表示を編集に適した形式にレンダリングするステップ;
前記テキスト表示を編集入力に従って変更するステップ;及び
出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記音声コンテンツの前記関連する音声要素を改変するステップ;
を有する方法。
【請求項2】
前記テキスト表示を編集するステップは、前記変更されたテキスト表示を与えるように、前記テキスト表示における要素の挿入、複製、削除又は再配置を有する、ことを特徴とする請求項1記載の方法。
【請求項3】
前記音声コンテンツの前記音声要素の改変は、前記音声コンテンツのセグメントの複製、削除若しくは再配置及び/又は前記音声コンテンツへの音声要素の挿入を有する、ことを特徴とする請求項2記載の方法。
【請求項4】
前記テキスト表示を編集するステップは、前記変更されたテキスト表示を与えるように、前記テキスト表示における特定部分でのマークアップの挿入を有する、ことを特徴とする請求項1又は2記載の方法。
【請求項5】
前記音声コンテンツの前記音声要素の改変は、前記音声要素の特性の改変を有する、ことを特徴とする請求項1乃至4のうちいずれか一項記載の方法。
【請求項6】
音声平滑化技術は、隣接する音声要素の間での滑らかな遷移を与えるように、前記改変された音声要素へ適用される、ことを特徴とする請求項1乃至5のうちいずれか一項記載の方法。
【請求項7】
前記入力メッセージが、対応する映像コンテンツを有する場合に:
前記入力メッセージの映像コンテンツを前記テキスト表示に関連する対応するフレームセグメントに分割するステップ;及び
出力メッセージの変更された映像コンテンツを与えるように、前記編集されたテキスト表示又は前記音声コンテンツの前記改変された音声要素に従って、前記映像コンテンツの前記関連するフレームセグメントを改変するステップ;
を有する請求項1乃至6のうちいずれか一項記載の方法。
【請求項8】
映像平滑化技術は、前記変更された映像コンテンツにおいて連続するフレームセグメントの間での滑らかな遷移を与えるように、前記変更された映像コンテンツへ適用される、ことを特徴とする請求項7記載の方法。
【請求項9】
メッセージを組み立てて、送信する方法であって:
入力メッセージの音声及び随意的な映像コンテンツを捕捉するステップ;
出力メッセージを与えるように、請求項1乃至8のうちいずれか一項記載の方法を用いることにより、前記入力メッセージの前記音声及び随意的な映像コンテンツを改変するステップ;
正確性の確認のためにユーザへ前記出力メッセージを再生するステップ;及び
前記ユーザがその正確性を確認した後に前記出力メッセージを送信するステップ;
を有する方法。
【請求項10】
入力メッセージを変更するためのシステムであって:
前記入力メッセージの音声コンテンツを記録するための音声入力部;
前記入力メッセージの音声コンテンツをテキスト表示の要素に変換するための変換器;
前記入力メッセージの音声コンテンツを前記テキスト表示に関連する構成音声要素に分割するための音声分割ユニット;
前記テキスト表示を編集に適した形式にレンダリングするためのレンダリングユニット;
前記テキスト表示の編集を可能にするためのエディター;及び
出力メッセージの変更された音声コンテンツを与えるように、前記編集されたテキスト表示に従って前記関連する音声要素を改変するための音声改変ユニット;
を有するシステム。
【請求項11】
前記入力メッセージの映像コンテンツを記録するための映像入力部;
前記入力メッセージの映像コンテンツを前記テキスト表示に関連する対応するフレームセグメントに分割するための映像分割ユニット;
出力メッセージの変更された映像コンテンツを与えるように、前記変更されたテキスト表示又は前記音声コンテンツの前記改変された音声要素に従って、前記映像コンテンツの前記関連するフレームセグメントを改変するための映像改変ユニット;及び
出力メッセージを与えるように、前記音声及び映像コンテンツを再結合するための音声/映像再結合ユニット;
を有する請求項10記載のシステム。
【請求項12】
メッセージを組み立てて、送信するためのメッセージングシステムであって:
入力メッセージの音声コンテンツを記録するための音声入力部及び、随意的に、前記入力メッセージの映像コンテンツを記録するための映像入力部;
変更された出力メッセージを与えるように、請求項1乃至8のうちいずれか一項記載の方法を用いることにより、前記入力メッセージの前記音声及び随意的な映像コンテンツを改変するための改変ユニット;
正確性の確認のためにユーザへ前記出力メッセージの前記変更されたコンテンツを再生するための音声出力部及び、随意的に、映像出力部;及び
前記ユーザがその正確性を確認した後に前記出力メッセージを送信するための送信ユニット;
を有するメッセージングシステム。
【請求項13】
プログラム可能なメッセージ変更システムで実行される場合に、請求項1乃至9のうちいずれか一項記載の方法のステップを実行するためのソフトウェアコード部分を有する、前記メッセージ変更システムのメモリに直接的にロード可能なコンピュータプログラム。

【図1】
image rotate

【図2a】
image rotate

【図2b】
image rotate

【図2c】
image rotate

【図2d】
image rotate


【公表番号】特表2008−500573(P2008−500573A)
【公表日】平成20年1月10日(2008.1.10)
【国際特許分類】
【出願番号】特願2007−514234(P2007−514234)
【出願日】平成17年5月17日(2005.5.17)
【国際出願番号】PCT/IB2005/051596
【国際公開番号】WO2005/116992
【国際公開日】平成17年12月8日(2005.12.8)
【出願人】(590000248)コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ (12,071)
【Fターム(参考)】