説明

コンテンツ提供システム、コンテンツ提供装置および端末装置

【課題】 音声合成により生成された音声を容易に認識できるようにする。
【解決手段】 コンテンツ提供装置30は、テキストデータが示す文章を音声合成し、合成された音声を表す音声データを生成する。コンテンツ提供装置30は、生成した音声データを解析し、音声データが再生された時に母音が発音される時点を特定する。そして、この特定した各時点と、各時点で発音される母音とを対応付けた時点データを生成する。次にコンテンツ提供装置30は、キャラクタの顔画像データ、このキャラクタの口元の画像を表す顔パーツ画像データ、音声データ、および時点データとを統合したコンテンツデータを携帯電話機10Aへ送信する。携帯電話機10Aが音声データを再生し、時点データが表す時点になると、顔画像データが表す画像と顔パーツ画像データが表す画像とが合成され、発音しているキャラクタの画像が表示される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声と画像を提供する技術に関する。
【背景技術】
【0002】
音声を再生すると共に、人間が音声を発した時の顔画像を表示する技術として特許文献1に開示された技術がある。特許文献1に開示された番組送出システムは、テキスト形式の文章データから音声合成により生成された音声と、この音声を発した時の顔のコンピュータグラフィック画像とを組み合わせ、人間が文章を読んでいる時と同じ顔の動画像と、合成された音声とをテレビ放送する。人間は、音だけではなく、視覚的な情報(発音した時の口の形等)も合わせて話し言葉を聞き取っていることが知られている。音声合成により生成された音声は、どのように発音しているのか聞き取りにくい場合があるが、このシステムによれば、音声出力に合わせて顔の画像が変化するので、単純に音声だけを聞き取る場合と比較して、出力された音声をより容易に認識することができるという効果を得られる。
【特許文献1】特開2002−300434号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
ところで、近年、画像の配信はテレビ放送のように電波を用いた配信だけでなく、インターネットを利用してデータ通信により配信することも行われている。上述したシステムにより生成された音声と動画像とを配信する場合、例えば、ADSL(Asymmetric Digital Subscriber Line)や光ファイバ等の高速通信回線によりインターネットに接続され、容量の大きなデータを高速に処理できる装置においては、フレームレートの高い画像を配信しても問題なく画像を再生することができる。しかし、例えば、携帯電話機のように、移動体通信網の構成やハードウェア構成上、高速でのデータ通信およびデータ処理を行うことが難しい装置においては、容量の大きなデータを受信して処理するのに非常に時間がかかるため、スムーズに音声や顔画像が再生されず、出力された音声を容易に認識できなくなる虞がある。
【0004】
本発明は、上述した背景の下になされたものであり、大容量のデータを使用しなくとも、音声合成により生成された音声を容易に認識できるようにする技術を提供することを目的とする。
【課題を解決するための手段】
【0005】
上述した課題を解決するために本発明は、文字列を表すテキストデータに基づいて音声合成を行い、合成された音声を表す音声データを生成する音声データ生成手段と、前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点を特定する特定手段と、前記特定手段により特定された時点と、該時点で発音される母音とを対応付けた時点データを生成する時点データ生成手段と、母音を発音した時の顔の画像を表す画像データと、前記音声データと、前記時点データとを端末装置へ送信するコンテンツ送信手段とを備えたコンテンツ提供装置と、前記コンテンツ送信手段により送信された前記画像データと、前記音声データと、前記時点データとを受信するコンテンツ受信手段と、前記音声データを再生する音声再生手段と、前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、該時点に対応付けされた母音を発音した時の顔の画像を、前記コンテンツ受信手段により受信された画像データに基づいて表示する表示手段とを有する端末装置と、を備えたコンテンツ提供システムを提供する。
【0006】
この態様において、前記テキストデータは、テキストデータが表す文字列を発音した際のイントネーションを表す抑揚データを有し、前記音声データ生成手段は、テキストデータに基づいて音声合成を行う際に、前記抑揚データが表すイントネーションを有する音声を合成するようにしてもよい。
【0007】
また、この態様において、前記端末装置は、入力された文字列を表すテキストデータを生成するテキストデータ生成手段と、前記テキストデータ生成手段により生成されたテキストデータを前記コンテンツ提供装置へ送信するデータ送信手段とを備え、前記コンテンツ提供装置は、前記データ送信手段により送信されたテキストデータを受信するデータ受信手段を備え、前記音声データ生成手段は、前記データ受信手段により受信されたテキストデータに基づいて音声合成を行うようにしてもよい。
【0008】
また、この態様において、前記データ送信手段は、キャラクタを表すキャラクタデータを送信し、前記データ受信手段は、前記キャラクタデータを受信し、前記コンテンツ送信手段は、前記キャラクタデータが表すキャラクタの顔の画像を示す画像データを送信するようにしてもよい。
【0009】
また、この態様において、前記コンテンツ送信手段は、顔の画像を表す顔画像データと、母音を発音した時の口元の画像を表す顔パーツ画像データと、前記音声データと、前記時点データとを端末装置へ送信し、前記コンテンツ受信手段は、前記顔画像データと、前記顔パーツ画像データと、前記音声データと、前記時点データとを受信し、前記表示手段は、前記顔画像データが表す画像を表示し、前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、前記受信手段により受信された顔パーツ画像データの画像と、前記顔画像データの画像とを合成し、該時点に対応付けされた母音を発音した顔の画像を表示するようにしてもよい。
また、この態様において、前記コンテンツ送信手段は、表情の異なる複数の顔画像データを送信し、前記表示手段は、定められた時点において複数の顔画像データのいずれかを選択し、顔の画像を変更するようにしてもよい。
【0010】
また本発明は、文字列を表すテキストデータに基づいて音声合成を行い、合成された音声を表す音声データを生成する音声データ生成手段と、前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点を特定する特定手段と、前記特定手段により特定された時点と、該時点で発音される母音とを対応付けた時点データを生成する時点データ生成手段と、母音を発音した時の顔の画像を表す画像データと、前記音声データと、前記時点データとを端末装置へ送信するコンテンツ送信手段とを備えたコンテンツ提供装置を提供する。
【0011】
また本発明は、母音を発音した時の顔の画像を表す画像データと、音声を表す音声データと、前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点と該時点で発音される母音とを対応付けた時点データとを受信するコンテンツ受信手段と、前記音声データを再生する音声再生手段と、前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、該時点に対応付けされた母音を発音した時の顔の画像を、前記コンテンツ受信手段により受信された画像データに基づいて表示する表示手段とを有する端末装置を提供する。
【発明の効果】
【0012】
本発明によれば、大容量のデータを使用しなくとも音声合成により生成された音声を容易に認識できるようになる。
【発明を実施するための最良の形態】
【0013】
[第1実施形態]
[全体構成]
図1は、本発明の実施形態に係る通信システムの全体構成を示した図である。
携帯電話機10A,10Bは、例えばPDC(Personal Digital Cellular)方式に準拠した携帯電話機であり、移動体通信網20を介して音声通信やデータ通信を行うことが可能となっている。なお、携帯電話機10A,10Bは、各々同じ構成であるため、以下、特に区別する必要のない場合には携帯電話機10と称する。また、本システムにおいては、多数の携帯電話機10が存在するが、図面が煩雑になるのを防ぐために二つの携帯電話機10A,10Bのみを例示している。
移動体通信網20は、携帯電話機10に音声通話サービスやデータ通信サービスを提供する通信網であり、携帯電話機10が他の電話機と行う音声通信や、当該通信網に接続されている装置と携帯電話機10との間で行われるデータ通信を中継する。
コンテンツ提供装置30は、移動体通信網20に接続されており、携帯電話機10とデータ通信を行うことが可能となっている。コンテンツ提供装置30は、携帯電話機10と通信を行い、音声データや画像データ等のデータを携帯電話機10へ提供する。
電子メールサーバ40は、移動体通信網20に接続されており、携帯電話機10とデータ通信を行うことが可能となっている。電子メールサーバ40は、携帯電話機10と通信を行い、携帯電話機10のユーザ宛てに送信された電子メールを、ユーザが所有する携帯電話機10へ配信する。
【0014】
[携帯電話機の構成]
次に携帯電話機10の構成について説明する。図2は携帯電話機10のハードウェアの要部構成を示したブロック図である。なお、携帯電話機10は、音声が入力されるマイクロホン、音声を出力するスピーカ、音声を処理する音声処理部等を備えているが、図1においては本発明に関わる要部のみを図示している。図2に示したように、携帯電話機10の各部は、バス101に接続されており、このバス101を介して各部間でデータの授受を行う。無線通信部106は、携帯電話機10が音声通信やデータ通信を行う際、移動体通信網20の無線基地局(図示略)との間で通信の仲介を行う通信インターフェースとして機能する。操作部107は、携帯電話機10を操作するための複数のキー(図示略)を有しており、キーが押下されると、押下されたキーを示す信号をCPU(Central Processing Unit)102へ供給する。表示部108は、液晶ディスプレイ装置を備えており、CPU102の制御の下、文字やグラフィック画面、携帯電話機10を操作するためのメニュー画面などを表示する。
【0015】
記憶部105は、データを永続的に記憶する不揮発性メモリを有しており、携帯電話機10に各種機能を実現させるアプリケーションソフトウェアとして、例えば、WWW(World Wide Web)ブラウザの機能を実現させるブラウザソフトウェアや、電子メールの送受信を行う機能を実現させる電子メールソフトウェアを記憶している。
【0016】
ROM(Read Only Memory)103には、OS(Operating System)ソフトウェアが記憶されており、CPU102はROM103からOSソフトウェアを読み出し、RAM(Random Access Memory)104を作業エリアとして携帯電話機10の各部の制御を行う。そしてOSソフトウェアを起動したCPU102は、CPU102に入力される信号に応じた処理を行う。例えば、携帯電話機10の使用者が、操作部107が有するキーを操作してアプリケーションソフトウェアの実行を指示する操作を行うと、CPU102は、操作部107から供給される信号と表示部108に表示されている画面とに基づいて使用者の指示を特定し、記憶部105からアプリケーションソフトウェアを読み出して起動する。CPU102がアプリケーションソフトウェアを起動すると、起動したアプリケーションソフトウェアに応じて各種機能が実現する。
【0017】
[コンテンツ提供装置の構成]
次にコンテンツ提供装置30の構成について説明する。図3は、コンテンツ提供装置30のハードウェア構成を示したブロック図である。図3に示したように、コンテンツ提供装置30の各部は、バス301に接続されており、このバス301を介して各部間でデータの授受を行う。通信部306は、通信線(図示略)で移動体通信網20に接続されており、CPU302が移動体通信網20を介して通信を行う際、移動体通信網20との間で通信の仲介をする通信インターフェースとして機能する。
【0018】
記憶部305は、例えばハードディスク装置など、データを永続的に記憶する装置(図示略)を有しており、コンテンツ提供装置30の各部を制御するための制御ソフトウェアを記憶している。また、記憶部305は、Webページを表すページデータ、アニメーション映画や漫画等に登場するキャラクタの顔画像を表す顔画像データ、キャラクタが母音を発音した時の口元の画像を表す顔パーツ画像データ等の各種データを記憶している。
【0019】
ROM303にはIPL(Initial Program Loader)が記憶されており、CPU302はROM303からIPLを読み出して実行する。CPU302はIPLを実行すると、記憶部305から制御ソフトウェアを読み出して起動する。CPU302が制御ソフトウェアを起動すると、WWWサーバ機能、クライアントとなる携帯電話機10と通信を行う機能や音声合成を行う機能、携帯電話機10へ各種データを提供する機能等が実現する。
【0020】
[実施形態の動作]
次に本実施形態の動作について説明する。まず、携帯電話機10Aのユーザ(以下、ユーザAと称する)が、操作部107のキーを操作し、ブラウザソフトウェアの起動を指示する操作を行うと、携帯電話機10Aはブラウザソフトウェアを起動する。この後ユーザAがコンテンツ提供装置30に記憶されているページデータのURL(Uniform Resource Locator)を入力し、このページデータの取得を指示するキー操作を操作部107にて行うと、携帯電話機10Aとコンテンツ提供装置30とが通信を行い、入力されたURLで特定されるページデータがコンテンツ提供装置30から携帯電話機10へ送信される。
【0021】
携帯電話機10Aは、ページデータを取得すると、例えば、図5(a)に示したWebページを表示部108に表示する。このWebページにおいては、リストボックスBX11では複数のキャラクタの中から好みのキャラクタを選択することが可能となっており、テキストボックスBX12では文章を入力することが可能となっている。ユーザAは、リストボックスBX11にてキャラクタを選択し、音声に変換したい文章をテキストボックスBX12に入力する。この後、ユーザAが操作部107を操作し、Webページに表示されている送信ボタンB11を押下する操作を行うと、携帯電話機10Aは、選択されたキャラクタを示すキャラクタデータと、入力された文章を示すテキストデータとを生成してコンテンツ提供装置30へ送信する。
【0022】
このキャラクタデータとテキストデータとがコンテンツ提供装置30の通信部306にて受信されると、CPU302は、受信したテキストデータを解析し、テキストデータが示す文章を周知の音声合成技術を用いて順次音声に変換し、変換した音声を表す音声データを生成する(図4:ステップSA1)。
【0023】
次にCPU302は、受信したキャラクタデータで特定されるキャラクタの顔画像データと、このキャラクタの口元の画像を表す顔パーツ画像データとを記憶部305から読み出す(ステップSA2)。そしてCPU302は、読み出した顔画像データと、「あ」〜「お」までの顔パーツ画像データ、および生成した音声データを用い、携帯電話機10へ提供するコンテンツデータを生成する。
【0024】
具体的には、まずCPU302は、生成した音声データを解析し、音声データが再生された時に母音が発音される時点を特定する(ステップSA3)。例えば、「おはよう、きょうもてんきいいね」という音声の場合、図6に示したように、音声の再生開始時を基準とし、母音が発音される時点t1〜t13を特定する。そしてCPU302は、この特定した各時点と、各時点で発音される母音とを対応付けた時点データを生成する(ステップSA4)。例えば「おはよう、きょうもてんきいいね」という音声の場合、図7に示したように、時点t1と母音「お」とが対応付けられ、時点t2と母音「あ」とが対応付けられた時点データが生成される。
【0025】
CPU302は、時点データの生成が終了すると、この生成した時点データと、ステップSA1で生成した音声データと、ステップSA2で読み出した顔画像データおよび顔パーツ画像データとを統合したコンテンツデータ生成し(ステップSA5)、生成したコンテンツデータを携帯電話機10Aへ送信する(ステップSA6)。
【0026】
携帯電話機10Aは、このコンテンツデータを受信すると、受信したコンテンツデータを記憶部105に記憶し、図5(b)に例示した画面を表示部108に表示する。そして図5(b)に例示した画面が表示された後、表示されている再生ボタンB21を押下する操作をユーザAが行うと、携帯電話機10Aは記憶部105に記憶したコンテンツデータを再生する。
【0027】
携帯電話機10Aがコンテンツデータを再生すると、テキストボックスBX12に入力された文章を読み上げる音声が音声データに基づいて出力される。また、音声の出力開始と同時に、リストボックスBX11で選択されたキャラクタの顔の静止画像が、コンテンツデータに含まれている顔画像データに基づいて表示部108に表示される。そして、音声の出力が開始されてからの時間が計時され、時点データが表す時点になると、携帯電話機10Aは、顔画像データが表す画像と顔パーツ画像データが表す画像とを合成し、表示されているキャラクタの顔の口元を変化させる処理を行う。例えば、「おはよう、きょうもてんきいいね」という音声の場合、「お」が発音されるt1の時点では、顔画像データの画像と「お」の口の形を表す顔パーツ画像データの画像とが合成されて「お」を発音している顔の静止画像となる。そして、t1からt2の間は「お」を発音している顔の画像となり、「あ」が発音されるt2の時点では、顔画像データの画像と「あ」の口の形を表す顔パーツ画像データの画像とが合成されて「あ」を発音している顔の画像となる。
【0028】
この後、ユーザAが、電子メールソフトウェアの起動を指示する操作を行うと、携帯電話機10Aは電子メールソフトウェアを起動する。ユーザAが記憶部105に記憶されたコンテンツデータを添付ファイルとして指定し、携帯電話機10Bのユーザ(以下、ユーザBと称する)に付与されている電子メールアドレスを電子メールの宛先として入力し、電子メールを送信する操作を行うと、携帯電話機10Aから送信された電子メールは、電子メールサーバ40を介して携帯電話機10Bへ送信される。
【0029】
この電子メールが携帯電話機10Bにて受信された後、ユーザBが携帯電話機10Bを操作し、受信した電子メールを開封して添付ファイルを再生する操作を行うと、携帯電話機10Bは、電子メールに添付されたコンテンツデータを再生する。携帯電話機10Bがコンテンツデータを再生すると、テキストボックスBX12に入力された文章を読み上げる音声が音声データに基づいて出力される。また、リストボックスBX11で選択されたキャラクタの顔画像が表示部108に表示される。この表示された画像は、母音の発音時点になると、表示された顔の口元が母音を発音する際の口の形に変化する。
【0030】
このように本実施形態によれば、合成された音声と共に、文章を読んでいる時と同じ顔のキャラクタの画像が提供される。音声に加えて表情の変化を見られるため、音声だけを提供する場合と比較して、音声の認識率が高まり、また娯楽性も高まることとなる。また、出力される画像は静止画像の組み合わせとなり、画像に関するデータの容量が少なくなるため、高速でのデータ通信およびデータ処理を行うことが難しい装置においても口の形の変化を示し、合成された音声を容易に認識させることができる。
【0031】
[第2実施形態]
次に本発明の第2実施形態について説明する。本発明の第2実施形態は、コンテンツ提供装置30が記憶しているデータ、コンテンツ提供装置30が行う処理、およびコンテンツ提供装置30から携帯電話機10へ提供されるコンテンツデータの内容が第1実施形態と異なる。
【0032】
コンテンツ提供装置30の記憶部305は、Webページを表すページデータ、楽曲を表す楽曲データ、アニメーション映画や漫画等に登場するキャラクタの顔画像を表す顔画像データ、キャラクタが母音を発音した時の口元の画像を表す顔パーツ画像データ、キャラクタの背景を表す背景画像データ等の各種データを記憶している。
【0033】
次に、本実施形態の動作について説明する。
まず、ブラウザソフトウェアが起動されている携帯電話機10Aにおいて、ユーザAがコンテンツ提供装置30に記憶されているページデータのURLを入力し、このページデータの取得を指示するキー操作を操作部107にて行うと、携帯電話機10Aとコンテンツ提供装置30とが通信を行い、入力されたURLで特定されるページデータがコンテンツ提供装置30から携帯電話機10へ送信される。
【0034】
携帯電話機10Aは、ページデータを取得すると、図9(a)に例示したWebページを表示部108に表示する。このWebページにおいては、リストボックスBX21では、複数の楽曲から好みの楽曲を選択することができ、また、リストボックスBX22では、複数のキャラクタの中から好みのキャラクタを選択することができる。また、リストボックスBX23ではキャラクタの背景となる画像を選択することができ、リストボックスBX24では、予め定められた文章を選択することが可能となっている。なお、本実施形態においては、ページデータが取得された時点では、図9(a)に例示したように、テンプレートとして予め定められた楽曲名、キャラクタ名、背景名、および定型文が表示されるようになっている。
【0035】
ユーザAは、リストボックスBX21で楽曲、リストボックスBX22でキャラクタ、リストボックスBX23で背景画像を選択する。また、リストボックスBX24で音声に変換したい文章を選択する。この後、ユーザAが操作部107を操作し、Webページに表示されている送信ボタンB11を押下する操作を行うと、携帯電話機10Aは、選択された楽曲名を示す楽曲名データと、選択されたキャラクタを示すキャラクタデータと、選択された背景画像名を示す背景名データと、選択された文章を示すテキストデータとをコンテンツ提供装置30へ送信する。
【0036】
この楽曲名データ、キャラクタデータ、背景名データ、およびテキストデータとがコンテンツ提供装置30の通信部306にて受信されると、CPU302は、受信したテキストデータをまず解析し、テキストデータが示す文章を周知の音声合成技術を用いて順次音声に変換し、変換した音声を表す音声データを生成する(図8:ステップSB1)。
【0037】
次にCPU302は、受信したキャラクタデータで特定されるキャラクタの顔画像データ、このキャラクタの口元の画像を表す顔パーツ画像データ、および背景名データで特定される背景の背景画像データを記憶部305から読み出す。また、CPU302は、受信した楽曲名データで特定される楽曲の楽曲データを記憶部305から読み出す(ステップSB2)。そしてCPU302は、読み出した顔画像データと、「あ」〜「お」までの顔パーツ画像データ、楽曲データ、背景画像データ、および生成した音声データを用い、携帯電話機10へ提供するコンテンツデータを生成する。
【0038】
具体的には、まずCPU302は、生成した音声データを解析し、音声データが再生された時に母音が発音される時点を第1実施形態と同様に特定する(ステップSB3)。そしてCPU302は、この特定した各時点と、各時点で発音される母音とを対応付けた時点データを第1実施形態と同様に生成する(ステップSB4)。CPU302は、時点データの生成が終了すると、この生成した時点データと、ステップSB1で生成した音声データと、ステップSB2で読み出した楽曲データ、背景画像データ、顔画像データおよび顔パーツ画像データとを統合したコンテンツデータ生成し(ステップSB5)、生成したコンテンツデータを携帯電話機10Aへ送信する(ステップSB6)。
【0039】
携帯電話機10Aは、このコンテンツデータを受信すると、受信したコンテンツデータを記憶部105に記憶し、図9(b)に例示した画面を表示部108に表示する。そして図9(b)に例示した画面が表示された後、表示されている再生ボタンB21を押下する操作をユーザAが行うと、携帯電話機10Aは記憶部105に記憶したコンテンツデータを再生する。
【0040】
携帯電話機10Aがコンテンツデータを再生すると、リストボックスBX24で選択された文章を読み上げる音声が音声データに基づいて出力され、リストボックスBX21で選択された楽曲が楽曲データに基づいて出力される。また、音声の出力開始と同時に、リストボックスBX22で選択されたキャラクタの顔の静止画像が、コンテンツデータに含まれている顔画像データに基づいて表示部108に表示され、リストボックスBX23で選択された背景の画像が、背景画像データに基づいて表示部108に表示される。そして、音声の出力が開始されてからの時間が計時され、時点データが表す時点になると、携帯電話機10Aは、顔画像データが表す画像と顔パーツ画像データが表す画像とを合成し、表示されているキャラクタの顔の口元を変化させる処理を行う。例えば、「またあしたね」という音声の場合、「ま」の母音である「あ」が発音される時点では、顔画像データの画像と「あ」の口の形を表す顔パーツ画像データの画像とが合成されて「あ」を発音している顔の静止画像となる。そして、「し」が発音されるまでの間は「あ」を発音している顔の画像となり、「し」が発音される時点では、顔画像データの画像と「し」の母音である「い」の口の形を表す顔パーツ画像データの画像とが合成されて「い」を発音している顔の画像となる。
【0041】
この後、電子メールソフトウェアが起動された携帯電話機10Aにおいて、ユーザAが記憶部105に記憶されたコンテンツデータを添付ファイルとして指定し、ユーザBに付与されている電子メールアドレスを電子メールの宛先として入力し、電子メールを送信する操作を行うと、携帯電話機10Aから送信された電子メールは、電子メールサーバ40を介して携帯電話機10Bへ送信される。
【0042】
この電子メールが携帯電話機10Bにて受信された後、ユーザBが携帯電話機10Bを操作し、受信した電子メールを開封して添付ファイルを再生する操作を行うと、携帯電話機10Bは、電子メールに添付されたコンテンツデータを再生する。
携帯電話機10Bがコンテンツデータを再生すると、リストボックスBX21で選択された楽曲が楽曲データに基づいて出力され、リストボックスBX24で選択された文章を読み上げる音声が音声データに基づいて出力される。また、リストボックスBX23で選択された背景と、リストボックスBX22で選択されたキャラクタの顔画像が表示部108に表示される。この表示された画像は、母音の発音時点になると、口元の部分が母音を発音する際の口の形に変化する。
【0043】
以上説明したように本実施形態でも、合成された音声と共に、文章を読んでいる時と同じ顔のキャラクタの画像が提供される。音声に加えて表情の変化を見られるため、音声だけを提供する場合と比較して、音声の認識率が高まり、また娯楽性も高まることとなる。また、出力される画像は静止画像の組み合わせとなり、画像に関するデータの容量が少なくなるため、高速でのデータ通信およびデータ処理を行うことが難しい装置においても口の形の変化を示し、合成された音声を容易に認識させることができる。
【0044】
[変形例]
以上、本発明の実施形態について説明したが、例えば、上述した実施形態を以下のように変形して本発明を実施してもよい。
【0045】
携帯電話機10は、GSM(Global System for Mobile Communications )方式或いはIMT−2000(International Mobile Telecommnucation-2000)方式に準拠した携帯電話機であってもよい。また、コンテンツ提供装置30からコンテンツデータを受取るのは携帯電話機に限定されるものではなく、例えば、PDA(Personal Digital Assistance)やパーソナルコンピュータ装置であってもよい。
【0046】
同じキャラクタであっても笑顔や泣き顔、まばたき等の複数の顔画像データを用意し、音声再生中に所定の時点、またはランダムな時点で顔の画像を変えるようにしてもよい。また、母音を発音した時の顔の画像データを使用し、母音の発音時点においては、母音に対応する顔の画像データを再生するようにしてもよい。
【0047】
携帯電話機10からコンテンツ提供装置30へキャラクタ名や文章を送信する際には、電子メールで送信するようにしてもよい。
【0048】
携帯電話機10のユーザが歌詞のある楽曲を選択した場合、その楽曲の歌詞に基づいて音声データを生成するようにしてもよく、また、テレビアニメの主題歌の場合には、テレビアニメに登場するキャラクタの画像を表示するようにしてもよい。
【0049】
上述した実施形態では、コンテンツ提供装置30が音声合成を行っているが、コンテンツ提供装置30は、画像データを提供するようにし、音声合成と、時点データの生成を携帯電話機10が行うようにしてもよい。
【0050】
例えば、特開2004−234096号公報に開示された技術を利用し、イントネーションを表す抑揚データをテキストデータに加え、合成する音声にイントネーションを付加するようにしてもよい。
【図面の簡単な説明】
【0051】
【図1】本発明の実施形態に係る通信システムの全体構成図である。
【図2】携帯電話機の要部構成を示したブロック図である。
【図3】コンテンツ提供装置のハードウェア構成を示したブロック図である。
【図4】コンテンツ提供装置が行う処理の流れを示したフローチャートである。
【図5】携帯電話機に表示される画面を例示した図である。
【図6】母音が発音される時点を例示した図である。
【図7】時点データのフォーマットを例示した図である。
【図8】第2実施形態に係るコンテンツ提供装置が行う処理の流れを示したフローチャートである。
【図9】第2実施形態において携帯電話機に表示される画面を例示した図である。
【符号の説明】
【0052】
10,10A,10B・・・携帯電話機、20・・・移動体通信網、30・・・コンテンツ提供装置、102・・・CPU、105・・・記憶部、106・・・無線通信部、108・・・表示部、302・・・CPU、305・・・記憶部、306・・・通信部。

【特許請求の範囲】
【請求項1】
文字列を表すテキストデータに基づいて音声合成を行い、合成された音声を表す音声データを生成する音声データ生成手段と、
前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点を特定する特定手段と、
前記特定手段により特定された時点と、該時点で発音される母音とを対応付けた時点データを生成する時点データ生成手段と、
母音を発音した時の顔の画像を表す画像データと、前記音声データと、前記時点データとを端末装置へ送信するコンテンツ送信手段と
を備えたコンテンツ提供装置と、
前記コンテンツ送信手段により送信された前記画像データと、前記音声データと、前記時点データとを受信するコンテンツ受信手段と、
前記音声データを再生する音声再生手段と、
前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、該時点に対応付けされた母音を発音した時の顔の画像を、前記コンテンツ受信手段により受信された画像データに基づいて表示する表示手段と
を有する端末装置と
を備えたコンテンツ提供システム。
【請求項2】
前記テキストデータは、テキストデータが表す文字列を発音した際のイントネーションを表す抑揚データを有し、
前記音声データ生成手段は、テキストデータに基づいて音声合成を行う際に、前記抑揚データが表すイントネーションを有する音声を合成すること
を特徴とする請求項1に記載のコンテンツ提供システム。
【請求項3】
前記端末装置は、
入力された文字列を表すテキストデータを生成するテキストデータ生成手段と、
前記テキストデータ生成手段により生成されたテキストデータを前記コンテンツ提供装置へ送信するデータ送信手段と
を備え、
前記コンテンツ提供装置は、
前記データ送信手段により送信されたテキストデータを受信するデータ受信手段を備え、
前記音声データ生成手段は、前記データ受信手段により受信されたテキストデータに基づいて音声合成を行うこと
を特徴とする請求項1または請求項2に記載のコンテンツ提供システム。
【請求項4】
前記データ送信手段は、キャラクタを表すキャラクタデータを送信し、
前記データ受信手段は、前記キャラクタデータを受信し、
前記コンテンツ送信手段は、前記キャラクタデータが表すキャラクタの顔の画像を示す画像データを送信すること
を特徴とする請求項1に記載のコンテンツ提供システム。
【請求項5】
前記コンテンツ送信手段は、顔の画像を表す顔画像データと、母音を発音した時の口元の画像を表す顔パーツ画像データと、前記音声データと、前記時点データとを端末装置へ送信し、
前記コンテンツ受信手段は、前記顔画像データと、前記顔パーツ画像データと、前記音声データと、前記時点データとを受信し、
前記表示手段は、前記顔画像データが表す画像を表示し、前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、前記受信手段により受信された顔パーツ画像データの画像と、前記顔画像データの画像とを合成し、該時点に対応付けされた母音を発音した顔の画像を表示すること
を特徴とする請求項1に記載のコンテンツ提供システム。
【請求項6】
前記コンテンツ送信手段は、表情の異なる複数の顔画像データを送信し、
前記表示手段は、定められた時点において複数の顔画像データのいずれかを選択し、顔の画像を変更すること
を特徴とする請求項5に記載のコンテンツ提供システム。
【請求項7】
文字列を表すテキストデータに基づいて音声合成を行い、合成された音声を表す音声データを生成する音声データ生成手段と、
前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点を特定する特定手段と、
前記特定手段により特定された時点と、該時点で発音される母音とを対応付けた時点データを生成する時点データ生成手段と、
母音を発音した時の顔の画像を表す画像データと、前記音声データと、前記時点データとを端末装置へ送信するコンテンツ送信手段と
を備えたコンテンツ提供装置。
【請求項8】
母音を発音した時の顔の画像を表す画像データと、音声を表す音声データと、前記音声データを再生した時の時間軸上において、前記音声データの再生時に母音が発音される時点と該時点で発音される母音とを対応付けた時点データとを受信するコンテンツ受信手段と、
前記音声データを再生する音声再生手段と、
前記音声データを再生した時の時間軸上において、前記時点データが表す時点となった場合、該時点に対応付けされた母音を発音した時の顔の画像を、前記コンテンツ受信手段により受信された画像データに基づいて表示する表示手段と
を有する端末装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2006−301063(P2006−301063A)
【公開日】平成18年11月2日(2006.11.2)
【国際特許分類】
【出願番号】特願2005−119465(P2005−119465)
【出願日】平成17年4月18日(2005.4.18)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】