音声付映像合成システム及び音声付映像合成方法

【課題】
本発明では、ユーザの好みのメロディ、映像を活用して、簡便に音声付映像を作成できる音声付映像合成システムを提供することを目的とする。
【解決手段】
ユーザ端末から選択されたコースがサーバ装置に送信されると、ポイント処理（ステップＳ１）に続いて、メロディカテゴリ選択処理（ステップＳ２）、メロディ選択処理（ステップＳ３）、アレンジ選択処理（ステップＳ４）、歌詞決定処理（ステップＳ５）、声質・あいのて選択処理（ステップＳ６）、映像選択処理（ステップＳ７）及びタイトル決定処理（ステップＳ８）が実行される。次いで、サーバ装置において、メロディ情報、アレンジ情報、歌詞情報及び声質情報・あいのて情報をもとに、音声合成処理が実行され（ステップＳ９）、合成された音声及び映像情報をもとに音声付映像が合成される（ステップＳ１０）。

【発明の詳細な説明】
【技術分野】
【０００１】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムに関する。
【背景技術】
【０００２】
近年のインターネット技術の発展により、自ら作成した動画をインターネット上にアップロードして他の人に視聴させたり、また、他の人が作成した動画を視聴することのできる動画視聴サイトが、多くの人により活用されている。これら動画視聴サイトでアップロードされる動画の多くは、ビデオカメラ等を用いて撮影されたものを編集したものであるが、ビデオカメラ等による撮影・編集は手間がかかるため、より簡単で手軽に動画を作成したいというニーズが存在する。このような中、例えば、楽譜情報と歌詞情報を入力する入力部と、これらの情報から歌声を合成する歌声合成部を有する歌声合成装置において、楽譜及び歌詞情報をパート毎に分割して歌声合成部に送出する歌唱情報処理部を設けた歌声合成装置が開示されている（例えば、特許文献１参照）。
【０００３】
ところで、インターネット上で商用サイトへのアクセスを増大させる手法として、広告掲載サイトに広告を掲載する手法が年々増大している。広告掲載サイトには、広告主サイトの商品説明ページや購入ページ等へのハイパーリンクが張られた広告コンテンツが掲載され、広告掲載サイトにアクセスしたユーザが広告コンテンツをクリックすると、広告主サイトの商品説明ページや購入ページ等にアクセスできる。広告掲載サイトを運営する企業又は個人から広告主への広告料金の設定に関しては、（１）期間保証型、（２）クリック保証型、（３）広告成果型等がある。期間保証型は広告を表示する期間に応じて課金される方式、クリック保証型は広告掲載サイトに表示された広告がクリックされた回数に応じて課金される方式、広告成果型は広告を経由して商品購入や会員登録等の成果が生じた場合にはじめて課金される方式である。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平０６−３３７６９０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
しかし、特許文献１に記載された方法では、単に歌声を合成するものであり、携帯電話やパーソナルコンピュータ等の端末を用いて、ユーザが簡便に、好みの音声及び動画（音声付映像）を作成できるものではなかった。本発明では、ユーザの好みのメロディ、映像を活用して、簡便に音声付映像を作成できる音声付映像合成システムを提供することを目的とする。
【課題を解決するための手段】
【０００６】
本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、サーバ装置が、端末装置からメロディ情報を受信するメロディ情報受信手段と、端末装置から映像情報を受信する映像情報受信手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ情報受信手段により受信されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【０００７】
このような構成とすることで、ユーザは携帯電話等の端末装置を用いて、好みのメロディ、映像を選択し、歌詞を入力すると、ユーザが選択・入力したメロディ・映像・歌詞にしたがって音声が付随された音声付映像を合成されるため、ユーザは簡便に音声付映像を作成して楽しむことが可能である。また、このような音声付映像合成システムをインターネット上の広告掲載サイトで利用できるようにし、広告掲載サイトから広告主サイトの商品説明ページや購入ページ等へのハイパーリンクを設けることで、広告主サイトへのアクセス数を増大させることが可能となる。広告掲載サイトの運営者としては、（１）期間保証型、（２）クリック保証型、（３）広告成果型等のいずれかの方法により、広告主から広告料収入を得ることが可能になる。
【０００８】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報サーバ装置に送信する歌詞情報送信手段とを備え、サーバ装置が、複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、音声付映像を合成するための映像に関する映像情報を記憶する映像情報記憶手段と、メロディ情報記憶手段に記憶された複数のメロディ情報の中から、任意のメロディ情報を指定するメロディ情報指定手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ情報指定手段により指定されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報記憶手段により記憶された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【０００９】
このような構成とすることで、ユーザは携帯電話等の端末装置を用いて、歌詞を入力すると、任意に選択されたメロディ、サーバに記憶された映像、及び、ユーザが入力した歌詞にしたがって音声が付随された音声付映像を合成されるため、ユーザは簡便に音声付映像を作成して楽しむことが可能である。また、このような音声付映像合成システムをインターネット上の広告掲載サイトで利用できるようにし、広告掲載サイトから広告主サイトの商品説明ページや購入ページ等へのハイパーリンクを設けることで、広告主サイトへのアクセス数を増大させることが可能となる。
【００１０】
本発明では、映像情報記憶手段は、映像に登場するキャラクタに関するキャラクタ情報、キャラクタの動作に関する動作情報、及び／又は映像の背景に関する背景情報と関連付けて映像情報を記憶するものであって、サーバ装置は、キャラクタ情報、動作情報、及び／又は背景情報のいずれかの映像要素情報を任意で指定する映像要素情報指定手段と、映像要素情報指定手段により指定された映像要素情報と関連付けて記憶された映像情報を指定する映像情報指定手段とを備え、音声付映像合成手段が、映像情報指定手段により指定された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することが好ましい。
【００１１】
ユーザが携帯電話等の端末装置を用いて、歌詞を入力すると、任意に選択されたメロディ、任意に選択された映像、及び、ユーザが入力した歌詞にしたがって音声が付随された音声付映像を合成されるため、ユーザによる選択入力の手順が大幅に省略され、ユーザは簡便に音声付映像を作成して楽しむことが可能になる。
【００１２】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び／又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信するメロディ要素情報送信手段と、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、サーバ装置が、コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶する音高情報記憶手段と、リズム情報と、音の強弱及び／又は長さの規則性を関連付けて記憶するリズム記憶手段と、端末装置からメロディ要素情報を受信するメロディ要素情報受信手段と、端末装置から映像情報を受信する映像情報受信手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ要素情報受信手段により受信されたコード情報に従って、音高情報記憶手段により該コード情報に関連付けて記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定する音順序情報特定手段と、メロディ要素情報受信手段により受信されたリズム情報に従って、音順序情報特定手段により特定された複数の音に、リズム情報記憶手段によりリズム情報に関連付けて記憶された音の強弱及び／又は長さの規則性をもとに、音の強弱及び／又は長さに関する情報を付与することで、メロディ情報を合成するメロディ情報合成手段と、メロディ情報合成手段により合成されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【００１３】
ユーザが選択したコード及び／又はリズムなどをもとにメロディが新たに合成されるため、予め用意されているメロディを用いる場合と異なり、どのようなメロディが合成され、さらにどのような音声付映像が合成されるのかを予想するのが困難である。そのため、どのようなメロディ又は音声付映像が合成されるのだろうかというユーザの期待又は興味をかきたてることとなり、ユーザの趣向性が向上する。この場合、ユーザは端末を用いてコードを１つずつ順番に入力することも可能である。また、使用するコードを複数選択すれば、その順序はサーバ装置にて任意に特定することとしても良い。さらに、ユーザが好みのジャンルを選択すれば、予め定められた、そのジャンルに適合した複数のコードとリズムを選択したものとして、選択されたコードとリズムを用いてメロディを合成することとしても良い。
【００１４】
本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段を備え、サーバ装置が、複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、メロディ情報記憶手段に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定するメロディ情報指定手段と、複数の映像に関する映像情報を記憶する映像情報記憶手段と、映像情報記憶手段により記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定する映像情報指定手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ情報指定手段により指定された一つ又は複数のメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成する音声合成手段と、映像情報指定手段により指定された一つ又は複数の映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
に関する。
【００１５】
ユーザが入力した歌詞に対して、一つ又は複数のメロディ、及び一つ又は複数の映像をもとに音声付映像が合成されるため、ユーザは歌詞入力を行うだけで音声付映像の合成が可能である。特にメロディ及び／又は映像が複数存在する場合、一つの歌詞から複数の音声付映像が合成されることとなる。このため、入力した歌詞をもとにユーザが好みの音声付映像を合成したいが、いずれのメロディ又は映像が良いかの判断が難しい場合、ユーザが好みの音声付映像を合成するまでに一つずつ合成処理を行わなくてもすむ。したがって、ユーザの試行錯誤の回数を減らし、好みの音声付映像を合成することが容易になる。
【００１６】
本発明では、サーバ装置は、メロディを構成する複数の音の数に関する音数情報を、メロディと関連付けて記憶する音数記憶手段と、歌詞情報受信手段により受信した歌詞情報、及び、音数記憶手段により前記メロディと関連付けて記憶された音数情報をもとに、前記歌詞から計算される音の数と、前記メロディを構成する音の数が一致するか否かを判定する音数判定手段と、音数判定手段により判定された結果に関する音数判定情報を端末装置に送信する音数判定情報送信手段とを備え、端末装置は、サーバ装置から受信した音数判定情報をもとに、音数判定手段により判定された結果を端末装置の表示画面に表示する音数判定情報表示手段を備えることが好ましい。
【００１７】
一般に、歌詞として入力されたテキストの文字数と、１つのフレーズ、または１つのメロディに入力可能な音数が異なる場合、最終的に合成された音声が不自然なものとなる可能性がある。ユーザが入力したテキストの文字数と、１フレーズに入力可能な音数が一致しているか否かをユーザがその都度確認すると、ユーザに過度の負担となる。しかし、サーバ装置において音数の判定を行い、その判定結果を端末装置に送信して表示させることで、ユーザの負担を軽減することが可能となり、また、合成された音声が不自然なものとなることを防止することが可能となる。
【００１８】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段とを備え、サーバ装置が、端末装置からメロディ情報を受信するメロディ情報受信手段と、端末装置から映像情報を受信する映像情報受信手段と、メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶するフレーズ歌詞情報記憶手段と、フレーズ歌詞情報記憶手段に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成手段と、メロディ情報受信手段により受信されたメロディ情報、及び、歌詞合成手段により合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【００１９】
本発明における音声付映像の合成において、歌詞入力のステップは、ユーザにとって最も負担の大きいステップである。このため、サーバ装置において、複数のフレーズ毎の歌詞から任意に選択されたフレーズ毎の歌詞をもとに歌詞を合成させることで、歌詞入力というユーザにとっての負担をなくすことにより、ユーザの利便性が向上する。
【００２０】
本発明では、サーバ装置は、ユーザと関連付けられた、音声付映像を合成するための映像に関するユーザ映像情報を記憶するユーザ映像情報記憶手段を備え、音声付映像合成手段は、ユーザ映像情報記憶手段に記憶されたユーザ映像情報、及び、音声合成手段により合成された音声をもとに、ユーザと関連付けられた映像に合成された音声が付随された音声付映像を合成することを特徴とすることが好ましい。
【００２１】
ユーザと関連付けられた映像をもとに音声付映像が合成されるので、ユーザは自分が所有する独自の映像をもとに音声付映像を合成することが可能となり、音声付映像の合成においてユーザのオリジナリティを反映することができ、よりユーザの趣向性を高めることができる。
【００２２】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するためのメロディの編曲に関するアレンジ情報をサーバ装置に送信するアレンジ情報送信手段とを備え、サーバ装置は、端末装置からアレンジ情報を受信するアレンジ情報受信手段とを備え、音声合成手段は、メロディ情報、アレンジ情報、及び、歌詞情報をもとに、アレンジ情報に従って前記メロディを編曲することで得られる編曲メロディに、前記歌詞が伴われた音声を合成することが好ましい。
【００２３】
このような構成とすることで、ユーザが好みのアレンジを選択し、選択されたアレンジに従ってメロディが編曲され、編曲されたメロディに歌詞が伴われた音声が合成されるため、よりユーザの趣向性を向上させることができる。
【００２４】
本発明では、サーバ装置は、複数のメロディに関するメロディ情報と、該メロディ情報と関連付けて、該メロディを構成する各フレーズに適合するコードに関する適合コード情報を記憶する適合コード情報記憶手段と、楽器及び／又は声部に関する伴奏を合成するための音の音色に関する伴奏情報を記憶する伴奏情報記憶手段と、適合コード情報記憶手段により記憶された適合コード情報に従って、伴奏情報記憶手段により記憶された伴奏情報をもとに、フレーズ毎に該適合するコードに沿った、該音色を有する伴奏フレーズを合成し、合成した伴奏フレーズを組み合わせることで伴奏を合成する伴奏合成手段と、音声付映像合成手段が、映像情報及び音声合成手段により合成された音声をもとに、映像に合成された音声が付随された音声付映像を合成する際に、さらに、伴奏合成手段により合成された伴奏を伴った音声付映像を合成することが好ましい。
【００２５】
音声合成の対象となっているメロディをもとに伴奏が合成され、合成された伴奏が伴った音声付映像が合成されるため、音声付映像の音楽性を向上させることができ、音声付映像を合成しようとするユーザの意欲をよりいっそう高めることが可能となる。
【００２６】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するための声の音色を含む声質に関する声質情報をサーバ装置に送信する声質情報送信手段とを備え、サーバ装置は、端末装置から声質情報を受信する声質情報受信手段とを備え、音声合成手段は、メロディ情報、声質情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記声質を有する音声を合成することが好ましい。
【００２７】
このような構成とすることで、ユーザが好みの声質を選択し、選択された声質に従って歌詞が伴われた音声が合成されるため、よりユーザの趣向性を向上させることができる。
【００２８】
本発明において、前記映像情報は、映像に登場するキャラクタに関するキャラクタ情報と関連付けて記憶されており、サーバ装置は、音声付映像を合成するための声の音色を含む声質に関する声質情報を、キャラクタ情報と関連付けて記憶するキャラクタ声質情報記憶手段を備え、映像情報送信手段は、ユーザの操作に従って選択された、キャラクタ情報と関連付けられた映像情報をサーバ装置に送信し、音声合成手段は、メロディ情報、映像情報受信手段により受信された映像情報に含まれるキャラクタ情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、キャラクタと関連付けられた声質を有する音声を合成することが好ましい。
【００２９】
映像に登場するキャラクタと声質が関連付けられていることで、あたかも選択したキャラクタ自身の声で歌っているような音声付映像が合成される。例えば、デジタルアイドルが動画中踊りながら、デジタルアイドルにふさわしい声で歌うといった音声付映像を合成することが可能となる。そのため、映像に登場するキャラクタのキャラクタ性を高めることができ、音声付映像の合成にあたりユーザの趣向性を高めることができる。
【００３０】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するための歌詞情報の変更に関する語尾情報をサーバ装置に送信する語尾情報送信手段とを備え、サーバ装置は、端末装置から語尾情報を受信する語尾情報受信手段とを備え、音声合成手段は、メロディ情報、語尾情報、及び、歌詞情報をもとに、前記歌詞の一部について語尾情報にしたがって修正された修正歌詞が、前記メロディに伴われた音声を合成することが好ましい。
【００３１】
このような構成とすることで、自動的に入力した歌詞の内容が変更されるため、歌詞の入力時に特に意識をしなくても、ユーザが選択するアクターやメロディのイメージに合わせた歌詞とすることが可能となる。
【００３２】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するための効果音に関する効果音情報をサーバ装置に送信する効果音情報送信手段を備え、サーバ装置は、端末装置から効果音情報を受信する効果音情報受信手段を備え、音声合成手段が、メロディ情報、歌詞情報、及び効果音情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記効果音が挿入された音声を合成することが好ましい。
【００３３】
フレーズ間に挿入される「あいのて」や、拍手エフェクト、歓声エフェクトなどの効果音などが挿入された音声が合成されるため、合成された音声、及びこれを用いて合成された音声付映像の表現方法が豊富になり、よりよい音声付映像を作成したいというユーザの意欲をより一層向上させることができる。
【００３４】
本発明では、サーバ装置は、前記メロディを構成する音の高さ、長さ及び／又は強弱を任意に調整することにより、該メロディを調整した調整メロディを合成する調整メロディ合成手段を備え、音声合成手段は、調整メロディ合成手段により合成された調整メロディに関する調整メロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記調整されたメロディに前記歌詞が伴われた音声を合成することが好ましい。
【００３５】
通常、人が歌を歌う場合、メロディ本来の音の高さ、長さ又は強さからは微妙にずれていることが往々にしてある。そのため、音の高さ、長さ又は強さが微調整された調整メロディを音声合成に用いることで、より人間らしい歌声を合成することができる。
【００３６】
本発明では、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するために用いられたメロディ、編曲、声質、歌詞又は映像とは異なる、変更メロディに関する変更メロディ情報、変更編曲に関する変更アレンジ情報、変更声質に関する変更声質情報、変更歌詞に関する変更歌詞情報、又は、変更映像に関する変更映像情報を含む変更情報をサーバ装置に送信する変更情報送信手段とを備え、サーバ装置が、音声付映像合成手段により合成された音声付映像と関連付けて、該音声付映像を合成するために用いられたメロディ情報、アレンジ情報、声質情報、歌詞情報、及び、映像情報を記憶手段する音声付映像情報記憶手段と、変更情報を端末装置から受信する変更情報受信手段と、音声付映像情報記憶手段により記憶されたメロディ情報、アレンジ情報、声質情報若しくは歌詞情報、又は、変更情報受信手段により受信された変更メロディ情報、変更アレンジ情報、変更声質情報若しくは変更歌詞情報をもとに変更音声を合成する変更音声合成手段と、音声付映像情報記憶手段により記憶された映像情報、又は、変更情報受信手段により受信された変更映像情報、及び、変更音声合成手段により合成された変更音声をもとに、前記映像又は変更映像に合成された変更音声が付随された音声付映像を再合成する音声付映像再合成手段とを備えることが好ましい。
【００３７】
このような構成とすることで、ユーザは、音声付映像を合成するために用いられたメロディ、編曲、声質、歌詞又は映像とは異なる変更メロディ、変更編曲、変更声質、変更映像を選択し、変更歌詞を端末装置に入力することで、一度作成した音声付映像を変更することが可能となる。自らが作成した音声付映像について、どのメロディ、アレンジ、声質、映像を選択したか、又はどのような歌詞を入力したかを正確に覚えていなくても、音声付映像の一部を修正することで、簡便に音声付映像の再合成を行なうことができるため、よりユーザの趣向性を向上させることができる。
【００３８】
本発明では、サーバ装置は、所定の条件を満たすことでユーザごとに加算されるポイントに関するポイント情報を記憶するポイント情報記憶手段と、音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成に応じて、ポイント情報記憶手段に記憶されたポイントから所定のポイントを減算するポイント減算手段とを備え、ポイント情報記憶手段に記憶されたポイントが所定の値に満たない場合に、音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成が実行されないことが好ましい。
【００３９】
このような構成とすることで、音声付映像の合成・再合成が行なわれるたびに、ユーザが所有するポイントが減算され、ポイントが所定の値に満たない場合は、音声付映像の合成・再合成ができなくなるため、例えば、広告主サイトにおけるユーザ登録や商品の購入がポイントの加算条件となるように設定されているような場合、ユーザが、広告主サイトにてユーザ登録や商品の購入を行なうための動機付けとなる。
【００４０】
本発明では、サーバ装置は、音声付映像合成手段により合成された音声付映像と関連付けて、音声付映像再合成手段による音声付映像の再合成の回数を記憶する再合成回数記憶手段とを備え、再合成回数記憶手段による再合成回数が所定の回数以内である場合に、ポイント減算手段によるポイントの減算が実行されず、且つ、ポイント情報記憶手段に記憶されたポイントが所定の値より大きいか否かにかかわらず、音声付映像再合成手段による音声付映像の再合成の実行が可能であることが好ましい。
【００４１】
このような構成とすることで、音声付映像の再合成が所定の回数未満である場合に、ポイントが所定の値以上であるか否かにかかわらず、ポイントの減算が実行されることなく音声付映像の再合成の実行が可能となるため、ポイントを使用して音声付映像を合成した後に、合成した音声付映像をポイントを消費することなく、微修正することが可能となる。特に、歌詞がメロディと違和感なく合致しているか否かは、音声付映像の合成に慣れたユーザであっても試行錯誤が必要となるため、所定回数（例えば３回）以内であれば自由に歌詞情報の修正を可能とすることで、よりユーザが利用しやすいシステムを提供することになる。
【００４２】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、サーバ装置が、端末装置からメロディ情報を受信し、端末装置から映像情報を受信し、端末装置から歌詞情報を受信し、受信されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【００４３】
さらには、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、サーバ装置が、記憶部に記憶された複数のメロディに関するメロディ情報の中から、任意のメロディ情報を指定し、端末装置から歌詞情報を受信し、指定されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、記憶部に記憶された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【００４４】
さらに、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び／又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信し、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、サーバ装置が、コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶部に記憶し、リズム情報と、音の強弱及び／又は長さの規則性を関連付けて記憶部に記憶し、端末装置からメロディ要素情報を受信し、端末装置から映像情報を受信する映像情報受信し、端末装置から歌詞情報を受信する歌詞情報受信し、受信されたコード情報に従って、該コード情報に関連付けて記憶部に記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定し、受信されたリズム情報に従って、特定された複数の音に、リズム情報に関連付けて記憶部に記憶された音の強弱及び／又は長さの規則性をもとに、音の強弱及び／又は長さに関する情報を付与することで、メロディ情報を合成し、合成されたメロディ情報、及び、受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成し、受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【００４５】
さらに、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信し、サーバ装置が、複数のメロディに関するメロディ情報を記憶部に記憶し、記憶部に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定し、複数の映像に関する映像情報を記憶部に記憶し、記憶部に記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定し、端末装置から歌詞情報を受信し、指定された一つ又は複数のメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成し、指定された一つ又は複数の映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【００４６】
さらに、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、サーバ装置が、端末装置からメロディ情報を受信し、端末装置から映像情報を受信し、メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶部に記憶し、記憶部に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成し、受信されたメロディ情報、及び、合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【図面の簡単な説明】
【００４７】
【図１】本発明の実施の形態にかかる音声付映像合成システムを表す図である。
【図２】本発明の実施の形態にかかるユーザ情報テーブルを表す図である。
【図３】本発明の実施の形態にかかるメロディ情報テーブル及び映像情報テーブルを表す図である。
【図４】本発明の実施の形態にかかる音声付映像情報テーブルを表す図である。
【図５】本発明の実施の形態にかかる音声付映像を合成する際の処理についてのフローチャートの一例である。
【図６】本発明の実施の形態にかかるポイント処理、メロディカテゴリ選択処理、メロディ選択処理、及びアレンジ選択処理についてのフローチャートの一例である。
【図７】本発明の実施の形態にかかる歌詞情報の決定処理についてのフローチャートの一例である。
【図８】本発明の実施の形態にかかる声質・あいのて選択処理及び映像選択処理についてのフローチャートの一例である。
【図９】本発明の実施の形態にかかる音声付映像変更情報にもとづいた音声付映像の合成処理についてのフローチャートの一例である。
【図１０】ユーザ端末の表示画面の変化を表す図である。
【発明を実施するための形態】
【００４８】
以下、添付図面を参照して、本発明の実施の形態について説明する。図１は、本発明の実施の形態で適用される音声付映像合成システムの概要を示す図である。システムにおいて、サーバ装置１は、通信ネットワーク４を介して、ユーザ端末２、広告主サーバ３に接続されている。サーバ装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、メインメモリ１２と、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１３と、通信インターフェイス１４とを備えている。
【００４９】
ＣＰＵ１１は、ＨＤＤ１３上に格納されたプログラムを実行し、装置本体の制御を行なう。メインメモリ１２は、ＣＰＵ１１のワークエリアであり、一般的にはＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）で構成される。また、ＨＤＤ１３は、本発明において実行されるプログラムやデータを保存するための記憶領域として用いられる。ＨＤＤ１３に記憶されたプログラム及びデータは、実行時にＣＰＵ１１の制御のもとに読み出されて、メインメモリ１２にロードされる。ＣＰＵ１１は、メインメモリ１２にロードされたプログラム及びデータを処理する。ＣＰＵ１１が処理を行っている間の中間的なデータは、メインメモリ１２に記憶される。通信インターフェイス１４は、無線又は有線により通信ネットワーク４に接続されており、ユーザ端末２及び広告主サーバ３と通信を行なうことが可能である。
【００５０】
なお、本実施の形態では、サーバ装置１は一つのサーバ装置で構成されることとしているが、サーバ装置１は二つ以上のサーバ装置から構成されていても良い。例えば、サーバ装置１は、音声付映像の合成処理を行なう合成処理サーバ、ユーザがウェブサイトを閲覧するためにユーザ端末２からアクセスを行なうＷｅｂサーバなどから構成されるサーバ群であっても良い。
【００５１】
本発明にかかるユーザ端末２としては、パーソナルコンピュータ、携帯電話を用いることができる。ユーザ端末２は、ユーザがユーザ端末２を操作するための操作部（操作ボタン、キーボード等）と、ユーザが所定の情報を見るために設けられた表示画面を有しており、また、サーバ装置１と無線又は有線による通信が可能である。ユーザはユーザ端末２の操作部を操作することで、インターネット上の広告掲載サイト（サーバ装置１）へアクセスを行なう。そして、ユーザが選択したメロディ情報、アレンジ情報、声質情報、あいのて情報、映像情報、及び、ユーザが入力した歌詞情報がユーザ端末２からサーバ装置１に送信される。サーバ装置１では、ユーザ端末２から受信したメロディ情報、アレンジ情報、声質情報、映像情報、あいのて情報、歌詞情報等をもとに音声付映像を合成する。
【００５２】
図２は、本発明の実施の形態にかかるユーザ情報テーブルの一例を表す図である。ユーザ情報テーブル２０は、サーバ装置１のＨＤＤ１３に設定される。ユーザ情報テーブル２０には、ユーザ自ら設定するユーザ名２１、ユーザが使用するユーザ端末２の識別番号を示す端末ＩＤ２２、ユーザのメールアドレス２３、ユーザのポイント２４を含む情報が記憶されている。端末ＩＤ２２は、ユーザ端末２が、携帯電話であれば携帯電話機が有する固体識別番号が用いられ、パーソナルコンピュータであればＩＰアドレスなどが用いられる。
【００５３】
本実施の形態において、ユーザが広告掲載サイトを閲覧するためにサーバ装置１にログインする場合は、ユーザがメールアドレスをユーザ端末２に入力すると、入力されたメールアドレスがユーザ端末２の端末ＩＤと共にサーバ装置１に送信されるような構成とすることができる。この場合、サーバ装置１は、通信インターフェイス１４を介して端末ＩＤ及びメールアドレスを受信し、受信した端末ＩＤ及びメールアドレスの両者が一致するユーザが、ユーザ情報テーブル２０に存在するか否かを参照する。両者が一致するユーザが存在する場合は、ログインの認証がされる。また、ログインはユーザの携帯電話の端末ＩＤ２２を使用して自動的にログインの可否を判定するような構成とすることもできる。ユーザの有する携帯電話の端末ＩＤがユーザ情報テーブル２２に記憶されている端末ＩＤ２２と一致する場合はログインが可能となり、一致しない場合は、ユーザがメールアドレスとパスワードを入力することで手動でのログインが行なわれる。
【００５４】
本実施の形態において、ユーザ情報テーブル２０には、ユーザごとにポイント２４が記憶されている。ポイント２４はユーザの行動に応じて加算又は減算される値である。例えば、ユーザが広告掲載サイトにて設定されたハイパーリンクから広告主サーバ３へアクセスし、広告主が提供する広告主サイトを閲覧した場合や、広告主サイトにおいて商品購入、ユーザ登録、メールマガジン登録、又は資料請求等を行なった場合などに、ユーザの商品購入等に関する履歴情報が広告主サーバ３からサーバ装置１に送信される。なお、履歴情報は広告主サーバ３から、広告配信システム等の他のサーバを介して、サーバ装置１に送信されることとしても良い。ユーザの履歴情報を受信したサーバ装置１では、ＣＰＵ１１が受信した履歴情報を解析し、ユーザが有するポイント２４が加算される。加算されるポイントは、ユーザの行動の内容に応じて異なる値としてもよい。また、ポイント２４は、ユーザの要求に応じて音声付映像が合成される場合に、所定の値が減算される。なお、ユーザはプリペイド方式の電子マネーを使用して、ポイント２４を購入することができる。また、ユーザはポイントをどのように取得し、何に使ったかという履歴を、ユーザ端末２を用いて確認することができる。また、ポイント２４はクレジットカードにより購入することも可能であり、本発明の音声付映像合成システムの運営者と提携する事業者が顧客へ付与するポイントを利用して購入することも可能である。
【００５５】
次に、本発明の実施の形態にかかる音声付映像を合成する処理において用いられる、メロディ情報テーブルについて説明する。メロディ情報テーブル３０は、サーバ装置１のＨＤＤ１３に設定される。図３（ａ）は、メロディ情報テーブル３０を表す図である。メロディ情報テーブル３０は、後述する音声合成処理の際に用いられるメロディに関する情報を記憶するもので、ユーザは、メロディ情報テーブル３０に記憶されたメロディの中から任意のメロディを選択することが可能である。
【００５６】
メロディ情報テーブル３０には、カテゴリ３１、メロディ名３２、メロディＩＤ３３、フレーズ数３４、第１フレーズ文字数３５等が記憶されている。カテゴリ３１は、複数のメロディを分類するために設定されたものであり、すべてのメロディはいずれかのカテゴリ３１（例えば、「愛の歌」、「悲しい歌」等）に属している。メロディ名３２は、各メロディに付与された名称である。メロディ名３２が選択されると、フレーズ数３４や第１フレーズ数３５は一意に特定される。
【００５７】
メロディＩＤ３３は、一つの音楽データを特定するための識別番号であり、メロディ名３２及びアレンジが選択されることにより特定される。音楽データには、メロディを構成する音の高さ、長さ、強さ（大きさ）及びその順序に関する音符情報が含まれる。後述する音声合成処理では、メロディＩＤ３３で特定された音楽データに含まれる音符情報を参照し、音声が合成される。メロディＩＤ３３は１つのメロディに対して複数のメロディＩＤが記憶されている。すなわち、メロディをどのように編曲（アレンジ）するかによって、メロディは同じでも、そのリズムやハーモニーは異なるため、編曲の方法ごとにメロディＩＤ３３が設定されている。具体的には、ロック、フォーク、ジャズ、クラッシク等への編曲の方法ごとにメロディＩＤ３３が設定されている。したがって、ユーザの選択に応じて、メロディは同じでもまったく異なる曲調の音声を合成することが可能となる。
【００５８】
また、メロディごとに設定されたフレーズ数３４及び第１フレーズ文字数３５は、後述する歌詞決定処理において参照される情報である。ここで、フレーズとは、メロディを構成する部分であり、メロディと同様、それぞれのフレーズには音符情報が含まれる。なお、図３（ａ）では図示していないが、メロディ情報テーブル３０には、第２フレーズ文字数、及びそれ以降のフレーズ文字数についても同様に設定されており、フレーズ数３４、第１フレーズ文字数３５及び第２フレーズ以降の文字数にかかる情報を合わせたものがフレーズ情報である。例えばメロディ名３２が「愛してます」であるメロディの場合、フレーズ数３４は「３」となっているため、「愛してます」のメロディは第１フレーズ文字数から第３フレーズ文字数までの情報が、メロディ情報テーブル３０において記憶されている。後述する音声合成処理において、音符情報に歌詞をのせた音声が合成されるため、音符情報に含まれる各フレーズの音の数と、各フレーズにのせることが可能な文字数の上限は、対応付けられている。メロディ情報テーブル３０に設定される各フレーズのフレーズ文字数は、後述する歌詞決定処理において、各フレーズに対して入力することが可能な文字数の上限を表す。図３（ａ）に図示されていない、第２フレーズ文字数、及びそれ以降についても同様である。
【００５９】
なお、音声合成処理において、歌声に伴奏や効果音等が付与された一つの音楽データを合成することとしてもよいが、歌声データと伴奏データ、又は歌声と効果音などの時間的な関連付けをするのみとし、音声合成処理に続く音声付映像合成処理において、映像データとまとめて一つの音声付映像データを合成するように構成してもよい。
【００６０】
なお、メロディ情報テーブル３０には、さらにメロディのフレーズ毎に入力可能なモーラ数（音数）が記憶されていてもよい。本明細書において、モーラ数とは、入力された歌詞の文字数から数えられる音の数である。例えば、ほとんどの仮名文字が１文字で１音と数えられるが、「ちゃ」「ちゅ」「ちょ」のような拗音は、歌詞の文字上は２文字でもメロディの音符としては１音と数えられる。このほか、「ー」（長音）、「っ」（促音）、「ん」（撥音）はそれぞれ独立して１音として数える。モーラ数の上限は、文字数と同様に、メロディのフレーズ毎に記憶される。
【００６１】
次に、本発明の実施の形態にかかる音声付映像を合成する処理において用いられる、映像情報テーブルについて説明する。映像情報テーブル４０は、サーバ装置１のＨＤＤ１３に設定される。図３（ｂ）は、映像情報テーブル４０を表す図である。映像情報テーブル４０は、後述する音声合成処理の際に用いられる映像に関する情報を記憶するもので、ユーザは、映像情報テーブル４０に記憶された映像の中から任意の映像を選択することが可能である。
【００６２】
映像情報テーブル４０には、アクター４１、ふるまい４２、映像ＩＤ４３が記憶されている。アクター４１は、音声付映像合成処理において合成される映像の中で動作表示されるキャラクタ（例えば、「ファミリー」、「サラリーマン」、「ＯＬ」等）を表したものである。ふるまい４２は、アクター４１の動作のパターン（例えば、「ハッピー」、「ムカツク！！」等）を表したものであり、それぞれのアクター４１に対して１以上のふるまい４２が設定されている。
【００６３】
映像ＩＤ４３は、一つの映像データを特定するための識別番号であり、音声付映像の合成処理では、映像ＩＤ４３で特定された映像データをもとに、音声付映像が合成される。映像ＩＤ４３は、後述する映像選択処理において、ユーザが同じアクター４１及びふるまい４２を選択した場合であっても、選択した背景が異なれば映像ＩＤ４３は異なる。したがって、アクター４１及びふるまい４２の１つの組み合わせに対して複数の映像ＩＤが記憶されている。具体的には、街、海等の背景ごとに映像ＩＤ４３が設定されている。
【００６４】
図４は、本発明の実施の形態にかかる音声付映像情報テーブルの一例を表す図である。後述する音声付映像合成処理において合成された音声付映像に関する情報が、音声付映像情報テーブル５０に記憶される。音声付映像情報テーブル５０には、音声付映像ＩＤ５１、作成ユーザ名５２、メロディＩＤ５３、声質５４、あいのて５５、語尾５６、映像ＩＤ５７、タイトル５８、歌詞５９、歌詞変更回数６０、ＵＲＬ６１を含む情報が記憶されている。
【００６５】
音声付映像ＩＤ５１は、音声付映像がユーザの選択に従って合成された際に一意的に付与される識別番号である。作成ユーザ名５２は音声付映像の合成を行なったユーザの名前が記憶されており、図２におけるユーザ名２１と同じ情報が記憶される。メロディＩＤ５３は、後述するメロディ選択処理において選択されたメロディＩＤが記憶されたものである。メロディ選択処理においては、ユーザがユーザ端末２を操作してメロディが選択され、メロディＩＤ３３が特定される。そして、特定されたメロディＩＤ３３をもとに音声合成処理が行なわれる。音声付映像合成処理において音声付映像が合成されると、メロディＩＤ３３が、音声付映像情報テーブル５０においてメロディＩＤ５３として記憶される。
【００６６】
声質５４は、声の性質を表すもので、声の音色に関する情報であり、通常は音声波形として記憶されている。声質５４をもとに音声合成を行うことで、合成される音声に、はっきりとした声や柔らかい声などの性質が付与される。人が発声する音は、例えば母音と子音からなる複数の音素の組み合わせで構成されている。それぞれの音素は音声波形によって表されるが、同じ音素であっても、それを表す音声波形には個人差がある。ある人物（例えば、ユーザ）の声から、各音素に対応する音声波形を抽出してデータベースに記憶させ、歌詞として入力された文字情報に従って連続的にこれらの音声波形を組み合わせることで、その人物の声質にもとづいた音声が合成される。本実施の形態では、声質５４として、「男性」、「女性」、「子供」、「アニメ声（アニメのキャラクタのようなかわいらしい声）」、「デス声（ダミ声・悪声・がなり声）」などが設定されているが、ここに挙げた以外の声質も設定可能である。例えば、声質として有名人や歴史上の人物の声質を再現したものを設定する、又はユーザの声の音声データから音素を表す音声波形を抽出してデータベース化し、音声付映像を合成する際の声質として利用可能とすることも可能である。さらに、複数の声質を利用可能とすることで、ハーモニーやデュエットを合成可能なように設定してもよい。ユーザがユーザ端末２において声質５４を選択すると、選択された声質５４をもとに音声合成処理が行なわれる。そして、音声付映像合成処理において音声付映像が合成されると、声質５４が音声付映像情報テーブル５０において記憶される。また、声質５４にエフェクトを加えることで、音声合成の品質を向上させることも可能である。
【００６７】
あいのて５５は、音声付映像に挿入される効果音であり、音声合成処理にて合成された音声のフレーズ間に挿入される。あいのて５５には、「すいません」、「赤ちゃん」などが設定されており、例えば、あいのて５５として「すいません」が選択された場合、音声合成処理において、それぞれのフレーズの最後の音と次のフレーズの最初の音の間に「すいません」と早口でしゃべる効果音が挿入される。ユーザがユーザ端末２においてあいのて５５を選択すると、選択されたあいのて５５をもとに音声合成処理が行なわれる。そして、音声付映像合成処理において音声付映像が合成されると、あいのて５５が音声付映像情報テーブル５０において記憶される。なお、その他さまざまな効果音を用意し、選択された効果音をもとに音声合成処理を行うようにしてもよい。その他の効果音の例としては、歓声エフェクトや拍手エフェクトなどが挙げられる。
【００６８】
語尾５６は、歌詞の語尾に関する設定を表すもので、後述する歌詞決定処理において入力された歌詞の語尾を自動的に修正するものである。例えば、語尾５６が「だべさ」である場合、「・・・です」と入力された歌詞に対して、「・・・だべさ」と自動的に変化し、「じゃけん」である場合、「・・・である」と入力された歌詞が、「・・・じゃけん」と自動的に変化する。どの単語がどのように修正されるかについては、語尾５６ごとに予め設定がされている。語尾５６の設定を行なうことで、自動的に歌詞が修正されるため、歌詞の入力時に特に意識をしなくても、ユーザが選択するアクターやメロディのイメージに合わせた歌詞とすることが可能となる。ユーザがユーザ端末２において語尾５６を選択すると、選択された語尾５６をもとに音声合成処理が行なわれる。そして、音声付映像合成処理において音声付映像が合成されると、語尾５６が音声付映像情報テーブル５０において記憶される。
【００６９】
映像ＩＤ５７は、後述する映像選択処理において選択された映像ＩＤが記憶されたものである。映像選択処理においては、ユーザがユーザ端末２を操作して映像が選択され、映像ＩＤ５７が特定される。そして、特定された映像ＩＤ５７をもとに音声付映像合成処理において音声付映像が合成されると、映像ＩＤ５７が、音声付映像情報テーブル５０において映像ＩＤ５７として記憶される。
【００７０】
タイトル５８及び歌詞５９は、後述するタイトル決定処理及び歌詞決定処理において決定された音声付映像のタイトル及び歌詞を記憶したものである。歌詞決定処理においては、メロディ選択処理によって選択されたメロディ情報をもとに、メロディ情報テーブル３０からフレーズ数３４及びフレーズ文字数を含む情報が、フレーズ情報としてサーバ装置１からユーザ端末２に送信される。フレーズ情報を受信したユーザ端末２は、フレーズ情報をもとにユーザからの歌詞入力を受け付け、これを歌詞情報としてサーバ装置１に送信する。歌詞情報を受信したサーバ１は、フレーズ文字数に関する処理を行ない、歌詞情報を決定する。タイトル決定処理及び歌詞決定処理においてそれぞれ決定されたタイトル及び歌詞情報は、後述する音声合成処理及び音声付映像合成処理において使用される。音声付映像合成処理において音声付映像が合成されると、使用されたタイトル及び歌詞は、音声付映像情報テーブル５０においてそれぞれタイトル５８、及び歌詞５９として記憶される。
【００７１】
歌詞変更回数６０は、音声付映像ＩＤ５１について、ユーザの要求に従って歌詞変更が行なわれた回数を示す情報である。ここで、歌詞変更とは、ユーザが入力した歌詞５９の変更だけでなく、タイトル５８の変更も含む概念である。また、ＵＲＬ６１は、音声付映像合成処理によって合成された音声付映像が閲覧可能なＵＲＬを表す情報である。なお、ＵＲＬ６１は、音声付映像を合成したユーザのメールアドレス２３に対し、合成が完了した旨を通知するメールを送信する際に、併せて通知される。
【００７２】
次に、本発明の実施の形態にかかる音声付映像を合成する際の処理について説明する。図５は、音声付映像を合成する際の処理についてのフローチャートである。まず、ユーザ端末２がサーバ装置１へ接続し、広告掲載サイト１へログインが行なわれる。ユーザがユーザ端末２を操作し選択したコースを入力すると、ユーザ端末２はコース選択を受け付ける。本発明の実施の形態におけるコースとは、音声付映像を合成するまでの一連の処理手順が定められたものであり、例えば、「曲先コース」又は「歌詞先コース」の２つのコースが用意されている。
【００７３】
ユーザ端末２から選択されたコース（ここでは「曲先コース」がユーザによって選択されたものとする）がサーバ装置１に送信されると、ユーザが有するポイントの減算処理が実行される（ステップＳ１）。ステップＳ１のポイント減算処理では、ユーザ情報テーブル２０のポイント２４の値が更新される。なお、ここでは、コースが選択された直後にポイントの減算処理が実行される構成としているが、減算タイミングは、音声付映像の合成後としても良い。ポイントの減算処理が実行されると、メロディカテゴリ選択処理が実行される（ステップＳ２）。メロディカテゴリ選択処理は、音声付映像の合成に使用するメロディのカテゴリを、ユーザの選択に従って特定するための処理である。続いて、メロディ選択処理が実行される（ステップＳ３）。メロディ選択処理は、選択されたカテゴリに属するメロディの中から、音声付映像の合成に使用するメロディをユーザの選択に従って特定するための処理である。次に、アレンジ選択処理が実行される（ステップＳ４）。アレンジ選択処理は、音声合成処理におけるメロディの編曲方法をユーザの選択に従って特定するための処理である。次いで、歌詞決定処理が実行される（ステップＳ５）。歌詞決定処理は、音声付映像の合成に使用するための歌詞をユーザに入力させ、入力された歌詞を加工して歌詞情報として決定するための処理である。続いて、声質・あいのて選択処理が実行される（ステップＳ６）。声質・あいのて選択処理は、音声合成処理において合成される音声の声質及びあいのてをユーザの選択に従って特定するための処理である。続いて、映像選択処理が実行される（ステップＳ７）。映像選択処理は、音声付映像の合成に使用する映像をユーザの選択に従って特定するための処理である。そして、タイトル決定処理が実行される（ステップＳ８）。タイトル決定処理は、合成される音声付映像のタイトルをユーザに入力させるための処理である。
【００７４】
ステップＳ８が終了すると、サーバ装置１において音声合成処理が実行される（ステップＳ９）。音声合成処理は、ステップＳ２及びＳ３において選択されたメロディ情報、ステップＳ４において選択されたアレンジ情報、ステップＳ５において決定された歌詞情報、及び、ステップＳ６において選択された声質情報・あいのて情報をもとに、音声を合成する処理である。
【００７５】
ステップＳ９が終了すると、合成された音声及び映像選択処理で選択された映像情報をもとに音声付映像が合成される（ステップＳ１０）。ステップＳ１０では、音声付映像が合成されるとともに、合成された音声付映像に関する情報が、タイトル決定処理で決定されたタイトルと関連付けられて音声付映像情報テーブル５０に記憶される。ステップＳ１０において音声付映像が合成されると、合成された音声付映像はサーバ装置１におけるＨＤＤ１３に保存され、インターネットで閲覧が可能なようにアップロード処理される（ステップＳ１１）。ステップＳ１１において音声付映像がアップロードされると、音声付映像の合成を行なったユーザのメールアドレスに対して、その音声付映像のＵＲＬ６１が記載されたメールがサーバ装置１から送信される（ステップＳ１２）。音声付映像の合成には数分程度の時間を要することがあるため、音声付映像の合成が完了したことのユーザへの通知をメールの送信により行なう。ユーザは、ユーザ端末２においてサーバ装置１から送信されたメールを受信し、メール中に記載されたＵＲＬ６１にアクセスすることで、合成された音声付映像を視聴することができる。なお、音声付映像の作成が、ユーザの選択又は入力を受け付けるステップＳ２〜Ｓ８までのいずれかで中断した場合は、途中まで選択入力された情報がサーバ装置１において記憶されるように構成してもよい。この場合、次に音声付映像の作成を再開した時に、前回選択入力された情報がサーバ装置１からユーザ端末２に送信され、ユーザが各ステップにおいて選択入力されるときにデフォルト表示されるよう構成することが可能である。又は、前回中断したところから音声付映像の作成を再開するように構成してもよい。
【００７６】
図５では、ステップＳ２〜Ｓ８までの処理を決まった順序で行なうこととしたが、ステップＳ２のメロディカテゴリの選択からステップＳ８のタイトル決定処理までは必ずこの順序で行なう必要はなく、適宜、順序を変更することも可能である。また、ユーザがいずれの項目から順番に選択するかについて任意に決定できるような構成とすることも可能である。例えば、映像を選択した後に声質・あいのての選択を行ない、メロディ及びアレンジを選択し、最後に歌詞の入力を行なうといったことも可能である。この場合は、どの項目から入力するかについての選択画面がユーザ端末に表示され、ユーザが選択を行なう。ユーザが入力する各項目については、あらかじめデフォルト値が入力または選択されているため、仮に、ユーザが一部の項目についての選択を行なわなかった場合でも、デフォルト値を用いて音声付映像を合成することが可能である。
【００７７】
以下、ステップＳ１〜Ｓ４のポイント処理、メロディカテゴリ選択処理、メロディ選択処理、及びアレンジ選択処理について、図６、図１０を用いて詳しく説明する。図６は、本発明の実施の形態にかかるポイント処理、メロディカテゴリ選択処理、メロディ選択処理、及びアレンジ選択処理についてのフローチャートの一例である。図１０は、ユーザ端末の表示画面の変化を表す図である。まず、ユーザから音声付映像の合成処理の開始要求がユーザ端末２からサーバ装置１へ送信される（ステップＳ２１）。ここで、開始要求とは、ユーザによるコースの選択が該当する。ユーザ端末２の表示画面７０には、図１０（ａ）のように、「曲先コース」、「歌詞先コース」の２つのコースが表示され、ユーザはこの中から希望するコースを選択する。ここでは、「曲先コース」が選択され、このコースの開始が要求された場合について説明する。
【００７８】
サーバ装置１が、ユーザ端末２から開始要求を受信する（ステップＳ２２）と、選択されたコースに応じて、ユーザが有するポイントの減算処理が実行される（ステップＳ２３）。続いて、サーバ装置１は、メロディ情報テーブル３０に記憶された、メロディが属するカテゴリ３１に記憶されたカテゴリに関するリスト（以下、カテゴリリストという）をユーザ端末２に送信する（ステップＳ２４）。ユーザ端末２は、サーバ装置１から送信されたカテゴリリストを受信し（ステップＳ２５）、これを表示画面７０に表示させる。図１０（ｂ）のように、表示画面７０には「愛の歌」、「悲しい歌」等のカテゴリが表示される。ユーザは、表示画面７０に表示された複数のカテゴリの中から、一つのカテゴリを選択する。ユーザからのカテゴリの選択入力をユーザ端末２で受け付ける（ステップＳ２６）と、ユーザ端末２は、選択されたカテゴリに関する情報をサーバ装置１に送信する（ステップＳ２７）。
【００７９】
サーバ装置１は、選択されたカテゴリに関する情報をユーザ端末２から受信する（ステップＳ２８）と、メロディ情報テーブル３０の情報をもとに、選択されたカテゴリに属するメロディに関するリスト（以下、メロディリストという）を、ユーザ端末２に送信する（ステップＳ２９）。例えば、「愛の歌」がカテゴリ３１として選択された場合は、メロディ情報テーブル３０の「愛の歌」のカテゴリ３１に属している「愛してます」、「今すぐ会いたい」等がメロディリストに含まれる。ユーザ端末２は、サーバ装置１からメロディリストを受信する（ステップＳ３０）と、これを表示装置７０に表示させる。表示画面７０には、図１０（ｃ）のように「愛してます」、「今すぐ会いたい」等のメロディ名３２が表示される。ユーザは、ユーザ端末２に表示されたメロディリストに含まれる複数のメロディの中から一つのメロディを選択する。ユーザがメロディを選択する際にはメロディを試聴することも可能である。ユーザがメロディを選択する際には、どれくらいの文字数（モーラ数）を入力できるかがメロディ選択の判断基準となるため、メロディリストにおいてメロディ毎にモーラ数を表示してもよい。また、メロディリストで、メロディをモーラ数の少ない順又は多い順にソートして表示してもよい。ユーザからのメロディの選択入力をユーザ端末２で受け付ける（ステップＳ３１）と、ユーザ端末２は、選択されたメロディに関するメロディ選択情報をサーバ装置１に送信する（ステップＳ３２）。
【００８０】
サーバ装置１は、メロディ選択情報をユーザ端末２から受信する（ステップＳ３３）と、メロディ情報テーブル３０の情報をもとに、選択されたメロディに設定されているアレンジに関するリスト（以下、アレンジリストという）をユーザ端末２に送信する（ステップＳ３４）。アレンジリストは、メロディごとに異なるものであっても良く、同じものであっても良い。ユーザ端末２は、サーバ装置１からアレンジリストを受信する（ステップＳ３５）と、これを表示画面７０に表示させる。表示画面７０には、図１０（ｄ）のように「ロック」、「フォーク」、「ジャズ」等のアレンジの方法が表示される。ユーザは、ユーザ端末２に表示されたアレンジリストに含まれる複数のアレンジの中から一つのアレンジを選択する。ユーザがアレンジを選択する際には編曲されたメロディを試聴することも可能である。ユーザからのアレンジの選択入力をユーザ端末２で受け付ける（ステップＳ３６）と、ユーザ端末２は、選択されたアレンジに関するアレンジ選択情報をサーバ装置１に送信する（ステップＳ３７）。サーバ装置１がアレンジ選択情報をユーザ端末２から受信する（ステップＳ３８）と、サーバ装置１のＣＰＵ１１は、メロディ選択情報及びアレンジ選択情報をもとに、メロディ情報テーブル３０を参照し、メロディＩＤ３３を特定する。
【００８１】
次に、ステップＳ５の歌詞決定処理について、図７、図１０を用いて説明する。図７は、本発明の実施の形態にかかる歌詞決定処理についてのフローチャートの一例である。まず、サーバ装置１のＣＰＵ１１は、メロディ選択処理で受信したメロディ選択情報をもとに特定されたメロディについて、メロディ情報テーブル３０を参照し、フレーズ数３４及び、各フレーズのフレーズ文字数が抽出される（ステップＳ４１）。抽出されたフレーズ情報は、ユーザ端末２に送信される（ステップＳ４２）。ユーザ端末２はサーバ装置１からフレーズ情報を受信する（ステップＳ４３）と、受信したフレーズ情報に対応した入力フォームが表示画面７０に表示される。
【００８２】
表示画面７０には、図１０（ｅ）のように、フレーズごとに歌詞を入力するためのテキスト入力欄がフレーズ数３４に合わせて表示される。例えば、フレーズ数３４が「３」であるメロディの場合は、第１フレーズ、第２フレーズ、第３フレーズまでのテキスト入力欄が設けられる。なお、例えば、図１０（ｅ）のように、第１フレーズのフレーズ文字数が３、第２フレーズのフレーズ文字数が４、第３フレーズのフレーズ文字数が６である場合、それぞれのフレーズ文字数に対応したテキスト入力欄が設けられてもよい。また、各フレーズのテキスト入力欄の近傍（例えば上側や左側）に、各フレーズのフレーズ文字数を表示して、ユーザがフレーズ文字数を把握しやすいようにすることも可能である。ユーザは、ユーザ端末２を操作して、音声付映像の各フレーズの歌詞を入力する。ユーザ端末２が、入力されたフレーズごとの歌詞についてテキスト入力を受け付けると（ステップＳ４４）、受け付けられたテキスト情報が、歌詞情報としてサーバ装置１に送信される（ステップＳ４５）。なお、「ハッピーバースデー」のように一部分だけ（この場合は名前の部分）を入力すれば、歌詞が完成するような曲の場合は、すべての歌詞を入力させずに、入力が可能な部分を一部（名前の部分のみ）にしぼることで、音声付映像の作成を容易にすることができる。
【００８３】
サーバ装置１が歌詞情報を受信する（ステップＳ４６）と、サーバ装置１は、ステップＳ４１で抽出されたフレーズ情報を参照し、各フレーズにテキスト入力された文字数が、そのフレーズに設定されたフレーズ文字数以下であるか否かの判定を行なう（ステップＳ４７）。ここで、入力された歌詞の文字数がフレーズ文字数より少ない場合、少ない文字数の分だけ、空白文字が存在すると判定される。例えば、フレーズ文字数が「５」である場合に「あいうえ」の４文字しかテキスト入力されていない場合は、最後の５文字目が空白文字として判定される。なお、音声合成処理をした場合、空白文字の部分は無音となる。そして、入力された歌詞の文字数がフレーズ文字数以下であると判定された場合（ステップＳ４７において「Ｙｅｓ」）、歌詞情報は、何ら変更なくそのままメインメモリ１２に記憶される（ステップＳ４９）。一方、いずれかのフレーズにおいて、対応するフレーズに入力された歌詞の文字数が、フレーズ文字数を超えている場合（ステップＳ４７にいてＮｏ）、入力された歌詞のうち、超えている文字数分の文字がカットされて認識され（ステップＳ４８）、歌詞情報としてメインメモリ１２に記憶される（ステップＳ４９）。例えば、フレーズ文字数が「４」である場合に「あいうえお」の５文字がテキスト入力された場合は、最後の５文字目がカットされ、「あいうえ」のみが歌詞情報として認識される。
【００８４】
なお、上記の歌詞決定処理において、モーラ数（音数）のチェック機能を備えることが好ましい。モーラ数のチェック機能とは、ユーザが入力した文字をモーラ数として数え、モーラ数の不足、超過をユーザに通知するという機能である。前述したように、ユーザが実際に入力した文字数とモーラ数が一致しない場合がある。このため、ユーザは、文字数とモーラ数の関係に留意しながら歌詞の入力を行う必要があり、負担が大きい。ＦＬＡＳＨ等の技術を利用した歌詞入力画面を用意し、モーラ数のチェック機能を備えることで、歌詞入力時のユーザの負担を軽減することができる。この場合、歌詞入力画面で、歌詞の入力と同時にモーラ数の表示を行なうようにすることも可能であり、歌詞情報の入力が終了した後に、サーバ装置１にてモーラ数を特定してユーザ端末２でモーラ数を表示するようにしても良い。
【００８５】
モーラ数のチェック処理は、文字と音の対応テーブルを参照することにより実行される。対応テーブルには、ほとんどの仮名１文字に対して１音、例外として「ちゃ」「ちゅ」「ちょ」などの拗音は仮名２文字に対して１音など、文字と音の対応関係が定義されている。対応テーブルにもとづき、各フレーズに入力された文字数に対するモーラ数が数えられ、各フレーズに設定されたモーラ数の上限と比較される。入力された歌詞の文字数がフレーズのモーラ数の上限より少ない場合、少ない文字数の分だけ空白文字が存在すると判定される。比較された結果はユーザに通知され、歌詞入力時に参照することができる。この場合の歌詞入力画面は、「歌詞の入力」と、「モーラ数（音数）の確認」という機能を分離してもよい。例えば、図１０（ｅ）のように、ユーザが入力ボタンを選択して歌詞入力を開始し、確認ボタンが選択されることで入力した歌詞についてのモーラ数のチェック処理が実行される。チェック処理の実行主体はサーバ装置１でもユーザ端末２でもよい。モーラ数のチェック処理がサーバ装置１において実行される場合は、ユーザが歌詞を入力した後に確認ボタンを選択すると、入力された歌詞に関するテキスト情報がサーバ装置１に送信され、サーバ装置１においてモーラ数のチェック処理が行われる。チェック処理の結果はユーザ端末２に送信され、表示画面７０に表示されることにより、ユーザに通知されることになる。なお、対応テーブルがサーバ装置１からユーザ端末２に送信され、チェック処理はユーザ端末２において実行されるように構成してもよい。この場合、図１０（ｅ）の例と異なり、「歌詞の入力」と「モーラ数（音数）の確認」という処理をユーザ端末い２にて同時に行えるようにしても良い。
【００８６】
なお、ＦＬＡＳＨ等の技術を利用してモーラ数のチェック機能を設けることについて記載したが、携帯電話のユーザの多くはＨＴＭＬによる入力に慣れ親しんでいるため、ＨＴＭＬにより歌詞を入力することとしても良い。
【００８７】
次に、ステップＳ６の声質・あいのて選択処理及びステップＳ７の映像選択処理について、図８、図１０を用いて説明する。図８は、本発明の実施の形態にかかる声質・あいのて選択処理及び映像選択処理についてのフローチャートの一例である。まず、サーバ装置１は、声質に関するリスト（以下、声質リストという）及びあいのてに関するリスト（あいのてリスト）をユーザ端末２に送信する（ステップＳ５１）。声質リスト及びあいのてリストは、メロディごとに異なるものであっても良く、同じものであっても良い。ユーザ端末２は、サーバ装置１から声質リスト及びあいのてリストを受信する（ステップＳ５２）と、これを表示画面７０に表示させる。表示画面７０には、図１０（ｆ）のように声質リストとして「男性」、「女性」等の声質が表示され、あいのてリストとして、「なし」（音声にあいのてを挿入させない場合に選択）、「犬（ワン）」等のあいのてが表示される。ユーザが声質を選択する際には声質の試聴（男性の声、女性の声等の試聴）をすることも可能である。ユーザは、ユーザ端末２に表示された声質リスト及びあいのてリストに含まれる複数の声質、あいのての中から、それぞれ一つの声質、あいのてを選択する。ユーザからの声質及びあいのての選択入力をユーザ端末２で受け付ける（ステップＳ５３）と、ユーザ端末２は、選択された声質に関する声質選択情報、選択されたあいのてに関するあいのて選択情報をサーバ装置１に送信する（ステップＳ５４）。そして、サーバ装置１が声質選択情報、あいのて選択情報をユーザ端末２から受信する（ステップＳ５５）。
【００８８】
続いて、サーバ装置１は、映像情報テーブル４０に記憶されたアクター４１に関するリスト（以下、アクターリストという）をユーザ端末２に送信する（ステップＳ５６）。ユーザ端末２は、サーバ装置１から送信されたアクターリストを受信し（ステップＳ５７）、これを表示画面７０に表示させる。表示画面７０には、図１０（ｈ）のように「ファミリー」、「サラリーマン」等のアクターリストが表示される。ユーザは、ユーザ端末２に表示されたアクターリストに含まれる複数のアクターの中から、一つのアクターを選択する。ユーザからのアクターの選択入力をユーザ端末２で受け付ける（ステップＳ５８）と、ユーザ端末２は、選択されたアクターに関するアクター選択情報をサーバ装置に送信する（ステップＳ５９）。
【００８９】
サーバ装置１は、アクター選択情報をユーザ端末２から受信する（ステップＳ６０）と、ふるまい４２に関するリスト（以下、ふるまいリストという）をユーザ端末２に送信する（ステップＳ６１）。ふるまいリストに含まれるふるまいは、選択したアクターごとに異なっていても良く、同じであっても良い。アクターごとにふるまいが異なる場合は、映像情報テーブル４０をもとに、選択されたアクターに応じたふるまいリストが送信される。ユーザ端末２は、サーバ装置１からふるまいリストを受信する（ステップＳ６２）と、これを表示画面７０に表示させる。表示画面７０には、図１０（ｉ）のように「ハッピー」（選択されたアクターの映像中の動作が幸せいっぱいの動作である）、「むかつく！！」（選択されたアクターの映像中の動作が怒りの動作である）等のふるまいが表示される。ユーザは、ユーザ端末２に表示されたふるまいリストに含まれる複数のふるまいの中から一つのふるまいを選択する。ユーザからのふるまいの選択入力をユーザ端末２で受け付ける（ステップＳ６３）と、ユーザ端末２は、選択されたふるまいに関するふるまい選択情報をサーバ装置１に送信し（ステップＳ６４）、サーバ装置１はふるまい選択情報をユーザ端末２から受信する（ステップＳ６５）。
【００９０】
次に、サーバ装置１は、背景に関するリスト（以下、背景リストという）をユーザ端末２に送信する（ステップＳ６６）。背景リストに含まれる背景は、選択したアクターやふるまいごとに異なっていても良く、同じであっても良い。ユーザ端末２は、サーバ装置１から背景リストを受信する（ステップＳ６７）と、これを表示画面７０に表示する。表示画面７０には、図１０（ｊ）のように複数の背景が表示される。ユーザは、ユーザ端末２に表示された背景リストに含まれる複数の背景の中から、一つの背景を選択する。ユーザの背景の選択入力をユーザ端末２で受け付ける（ステップＳ６８）と、ユーザ端末２は、選択された背景に関する背景選択情報をサーバ装置１に送信する（ステップＳ６９）。サーバ装置１が背景選択情報をユーザ端末２から受信する（ステップＳ７０）と、サーバ装置１は、アクター選択情報、ふるまい選択情報及び背景選択情報をもとに、映像情報テーブル４０を参照し、映像ＩＤ４３が特定される。
【００９１】
また、上の説明では、アクター、ふるまい、及び背景を選択することで、映像ＩＤが特定されるとしたが、ユーザ毎に所有しているオリジナル動画（以下、オリジナルムービーという）を用いて音声付映像を合成することが可能である（曲先コース、歌詞先コースとは別にオリジナルムービーコースを別途設けることも可能である）。この場合、図１０（ｆ）で声質・あいのてを選択した後に、ユーザ端末２の表示画面７０が切り替わり、図１０（ｇ）のように、オリジナルムービーを使用するか、或いは、アクター・ふるまい・背景を選択して動画を特定するかについて、ユーザが選択できる画面が用意されている。アクター・ふるまい・背景を選択して動画を特定することをユーザが選択すると、図１０（ｈ）のようにアクターを選択する画面がユーザ端末２に表示される。オリジナルムービーを使用することをユーザが選択すると、ユーザが所有しているオリジナルムービーのうち、いずれを使用するかについて、ユーザはさらに選択することになる。オリジナルムービーは、ユーザ端末２に記憶されているものだけでなく、ユーザが予めサーバ装置１にアップロードしたものを用いることも可能である。予めサーバ装置１にアップロードされたオリジナルムービーを用いる場合は、サーバ装置１に記憶されたユーザが利用可能なオリジナルムービーのリストがサーバ装置１からユーザ端末２に送信される。選択されたオリジナルムービーに関する情報は、ユーザ端末２からサーバ装置１に送信され、音声付映像合成処理において用いられる。
【００９２】
図５におけるステップＳ７の映像選択処理、すなわちアクター選択情報、ふるまい選択情報及び背景選択情報をもとに映像ＩＤ４３が特定されたのち、ステップＳ８のタイトル決定処理が実行される。タイトル決定処理では、サーバ装置１から送信された情報に基づいて、図１０（ｋ）のように、ユーザ端末２の表示画面７０に、合成される音声付映像のタイトルを入力するためのテキスト入力欄が表示される。ユーザ端末２が、タイトルに関するユーザからのテキスト入力を受け付けると、受け付けられたテキスト情報が、タイトル情報としてサーバ装置１に送信される。
【００９３】
なお、本明細書において、音声合成処理及び音声付映像合成処理で使用される情報（音声付映像情報テーブル５０に記憶されたメロディＩＤ５３、声質５４、あいのて５５、語尾５６、映像ＩＤ５７、タイトル５８、歌詞５９が含まれる）を、音声付映像を合成するための要素と称することがある。
【００９４】
なお、図１０では、メロディカテゴリ選択及びメロディ選択、アレンジ選択、歌詞入力、声質・あいのて選択、映像選択、タイトル入力の順にユーザが選択入力を行なう構成となっているが、これらの順序は任意に設定することができる。また、語尾選択に関する処理をこの構成に追加し、選択された語尾に応じて音声合成処理が行われる構成としても良い。ただし、上記のように、歌詞に入力できる文字数がメロディ毎に設定されている場合は、歌詞入力処理の前にメロディカテゴリ選択処理及びメロディ選択処理が行われることが好ましい。
【００９５】
音声合成処理は、ステップＳ２及びＳ３において選択されたメロディ、ステップＳ４において選択されたアレンジ、ステップＳ５において決定された歌詞、及び、ステップＳ６において選択された声質・あいのてをもとに、音声を合成する処理である。すなわち、選択されたメロディとアレンジにより異なるメロディＩＤが特定されるため、同じメロディであっても異なる曲調の音声を合成することができる。また、特定されたメロディに歌詞が伴った音声が合成されるが、その音声は選択された声質によって、異なった声の大きさ、高さ、音色の声となる。また、あいのてを挿入するように設定がされている場合は、合成された音声においてフレーズ間にあいのてが挿入されることになる。さらに、歌詞の語尾が変更するように設定がされている場合は、決定された歌詞も自動的に変更されることになる。
【００９６】
音声付映像合成処理は、音声合成処理により得られた音声、ステップＳ７において選択された映像をもとに、音声付映像を合成する処理である。音声付映像に用いられる映像は、ユーザによるアクター、ふるまい、及び背景の選択により特定される映像ＩＤにしたがって決定される。この決定された映像に、合成された音声を付随させることで音声付映像が合成される。なお、音声付映像に用いられる映像は、単に映像ＩＤにしたがって決定される映像を用いるのではなく、音声付映像に付随される音声にあわせて、例えば、映画の字幕のように歌詞情報がテキストで表示されるようにすることも可能である。この場合、カラオケ装置における歌詞の表示方法と同様に、音声の進行と同時に、テキストの表示を進行させてもよく、時間の経過に伴って各フレーズが順番に表示されるようにしてもよい。なお、ここで表示される字幕において、漢字や絵文字を表示ができるようにしてもよい。この場合、音声の合成に使用した歌詞の一部又はすべてを、仮名から漢字や絵文字に変換するための辞書データをもとに変換し、これを字幕として表示するように構成することが可能である。
【００９７】
上で述べた実施の形態では、メロディ情報テーブル３０において予め用意されているメロディをもとに、音声付映像が合成されることとしたが、本発明はこれに限定されない。例えば、ユーザが、サイト上でメロディを編集し、音声付映像の素材として使用できるように構成してもよい。また、ユーザが作成したメロディをサーバ装置１にアップロードし、音声付映像の素材として使用できるようにしてもよい。この場合において、編集されるメロディ、又はアップロードされるメロディのファイル形式としては、ｍｉｄｉ形式などを採用することができる。また、ユーザが実際に歌った音声データをもとに、各音の高さ及び長さ、その順序を含む情報を抽出することにより、新たなメロディを合成する構成としてもよい。音声付映像の合成処理において、編集、アップロード又は新たに合成されたメロディが用いられ、その他の選択処理（歌詞決定処理、声質・あいのて選択処理、映像選択処理、タイトル決定処理）、音声合成処理、音声付映像処理については、すでに述べたものと同様の処理が実行される。なお、アップロード又は合成されたメロディは、オリジナルメロディとしてサーバ装置１にアップロードされ、ユーザが別の任意のタイミングで音声付映像の合成に用いるメロディとして使用可能にしてもよい。
【００９８】
また、新たなメロディの合成において、ユーザが曲のジャンルや、コード（和音）、リズムなどを選択し、それらを元にサーバ装置１において自動的にメロディを作曲するようにしてもよい。コードは複数の音の高さと関連付けて、サーバ装置１にて記憶されている。例えば、「Ｃ」コードであれば、「ド（低音）」、「ミ」、「ソ」、「ド（高音）」の４つの音の高さと関連付けられて記憶されている。サーバ装置１において実行される、メロディを合成するメロディ合成処理において、選択されたコードと関連付けられた複数の音の高さが任意の順序で並べられ、メロディを構成する各音の音の高さと順序が決定される。また、決定されたメロディの音の長さや強弱の規則性に関する情報が、選択可能なリズムと関連付けて記憶されており、メロディを構成する各音に音の長さと音の強さ（大きさ）に関する情報を付与することで、メロディが合成される。例えば、選択するリズムの種類により４分音符を基本単位とした音の長さ（４ビート）、又は、８分音符を基本単位とした音の長さ（８ビート）で合成された音声が表現される。また、４分音符を基本とした音の長さの場合であれば、４分音符の１つ目の音を強調したり、あるいは、３つ目の音を強調したりといった規則性を持たせることができる。なお、コードの選択はフレーズ毎に１つずつ順番に選択できるようにしても良く、使用するコードを複数選択すれば、その順序はサーバ装置１にて任意に特定することとしても良い。さらに、ユーザが好みのジャンルを選択すれば、予め定められた、そのジャンルに適合した複数のコードとリズムを選択したものとして、選択されたコードとリズムを用いてメロディを合成することとしても良い。すなわち、ジャンルごとに使用するコードとリズムが関連付けて記憶されており、ユーザがジャンルを選択することで、コードとリズムが特定されることとしても良い。また、上に述べたように、新たに合成されたメロディは、オリジナルメロディとしてサーバ装置１にアップロードされてもよい。
【００９９】
また、本発明の実施の形態において、メロディをもとにサーバ装置１において伴奏を合成し、合成された伴奏を伴った音声付映像が合成されるようにしてもよい。すなわち、メロディに合うような、ギターやピアノなどの楽器及び／又はソプラノやテノールなどの声部による伴奏が合成され、これが伴った音声が合成されてもよい。サーバ装置１には、楽器や声部に関する伴奏を合成するための音の音色に関する伴奏情報と、メロディと関連付けて、メロディの各フレーズに合ったコード及びリズムが記憶されている。そして、フレーズ毎にこのコードに従って、ギターであればギターの音色、ピアノであればピアノの音色を有する伴奏フレーズが合成され、合成された伴奏フレーズを順に並べることで、メロディに沿った伴奏を合成することができる。メロディはユーザが選択したものであっても良く、サーバにおいて任意に特定したものであっても良い。また、伴奏におけるリズムも、メロディと関連付けて記憶されたリズムに応じて特定される。具体的な処理の方法としては、メロディに音の長さや音の強弱の規則性を付与する場合と同様である。合成された伴奏は、音声合成処理において、メロディ及び歌詞とともに１つの音声データとして合成しても良く、また、メロディ及び歌詞から音声合成された音声データとは別の音声データとして合成しておくことも可能である。
【０１００】
本発明の実施の形態において、アクター、ふるまい、背景で特定される映像の代わりに、ユーザ毎に所有しているオリジナルムービーを用いて音声付映像を合成することが可能である。或いは、音声付映像合成システムの運営者により予め用意されたアニメーション（キャラ、ふるまい及び背景を組み合わせたもの）、予め用意された夜景、動物など、実写の動画を用いて音声付映像を合成することもできる。ここで、オリジナルムービーがサーバ装置１に予めアップロードされている場合、ユーザがサーバ装置１にログインしている時に、自分が所有しているオリジナルムービーを編集できるようにしてもよい。編集の主な内容として、２つ以上のオリジナルムービーのファイルの結合などがあげられる。また、ユーザが静止画像をサーバ装置１に複数アップロードし、サーバ装置１において、それらを組み合わせてスライドショーのような動画を生成するように構成してもよい。このように構成することで、それぞれのユーザが音声付映像の合成に用いることのできる映像のバリエーションを増やすことができる。
【０１０１】
また、ユーザ毎に所有されたオリジナルムービーは、他のユーザが自分の音声付映像の素材として使用できるように、他のユーザに公開してもよい。オリジナルムービーが公開されることで、音声付映像の合成において利用可能な映像のバリエーションを増やすことができる。なお、ユーザがオリジナルムービーを公開するときに、ポイントを消費する構成としてもよい。また、他のユーザが音声付映像の素材として使用するたびに、そのオリジナルムービーを所有するユーザにポイントが付与されるようにしてもよい。このようにすることで、ユーザにオリジナルムービーを公開させようとする動機づけを与えることができる。さらに、オリジナルムービーが公開され、他のユーザも使用できるようにした場合に、ユーザが、同じオリジナルムービーを利用して作った音声付映像を検索できるようにしてもよい。
【０１０２】
本発明の実施の形態において、合成された音声付映像は変更することが可能であるので、その処理について説明する。図９は、本発明の実施の形態にかかる音声付映像変更情報にもとづいた音声付映像合成処理についてのフローチャートの一例である。まず、音声付映像の変更を行なうユーザは、ユーザ端末２からサーバ装置１にログインし、自らが作成した音声付映像の中から、変更したい音声付映像を選択し、その音声付映像の変更要求をユーザ端末２からサーバ装置１に送信する（ステップＳ８１）。なお、ここで、音声付映像の変更とは、ユーザが作成した既存の音声付映像を変更して内容の異なる音声付映像を作成することだけでなく、ユーザが作成した既存の音声付映像を残しつつ、既存の音声付映像をもとに新たな音声付映像を作成する（コピーして作成）ことも含む概念である。
【０１０３】
サーバ装置１が音声付映像の変更要求をユーザ端末２から受信する（ステップＳ８２）と、ユーザが有するポイントの減算処理が実行される（ステップＳ８３）。音声付映像を変更するたびに所定のポイントが減算されるが、歌詞やタイトルを微修正するような場合に所定の回数以内（例えば、３回以内）であればポイントを減算しなくても良いように設定することも可能である。続いて、サーバ装置１は、音声付映像情報テーブル５０を参照し、変更要求のあった音声付映像に関する音声付映像情報として、該音声付映像についてのメロディＩＤ５３、声質５４、あいのて５５、映像ＩＤ５７、タイトル５８、歌詞５９を含む情報を抽出する（ステップＳ８４）。抽出された音声付映像情報は、サーバ装置１からユーザ端末２に送信され（ステップＳ８５）、ユーザ端末２にて受信される（ステップＳ８６）。
【０１０４】
音声付映像情報を受信したユーザ端末２では、どのメロディ、アレンジ、声質、あいのて、映像をユーザが過去に選択し、タイトル、歌詞として入力したテキスト情報が、表示画面に表示されることになる。例えば、アレンジを変更するような場合であって、過去に「ロック」を選択していたときは、ユーザ端末２の表示画面７０において、図１０（ｄ）のような表示がされ、「ロック」がデフォルトで選択されている。ユーザは必要があれば、これを変更することができる。
【０１０５】
ユーザ端末２では、ステップＳ２〜Ｓ８までの一連の処理（メロディカテゴリ選択処理からタイトル決定処理）と同様の処理を行なうことで、メロディカテゴリ、メロディ、アレンジ、歌詞、声質、あいのて、映像、及びタイトル等の音声付映像の構成要素についての変更処理を受け付ける（ステップＳ８７）。なお、メロディを変更するとフレーズ数やフレーズ文字数が変わり、歌詞を大幅に変更する必要があるため、メロディについては変更することができないというような構成とすることも可能である。ステップＳ８７において、メロディカテゴリ、メロディ、アレンジ、歌詞、声質、あいのて、映像、及びタイトル等の項目の変更を入力する順序は、ユーザが任意に決定することができる。この場合、変更を行なう項目を選択するための選択画面がユーザ端末２に表示され、ユーザが変更を希望する項目の選択を行なう。ユーザ端末２において、音声付映像情報の変更処理を受け付けると、音声付映像変更情報（変更されたメロディカテゴリ、変更されたメロディ、変更されたアレンジ、変更された歌詞、変更された声質、変更されたあいのて、変更された映像、又は、変更されたタイトルに関する情報）がサーバ装置１へ送信される（ステップＳ８８）。
【０１０６】
サーバ装置１が音声付映像情報を受信する（ステップＳ８９）と、変更があった項目については音声付映像変更情報をもとに、変更がなかった項目については抽出した音声付映像情報をもとに、音声合成処理及び音声付映像処理が実行され、音声付映像が再合成される（ステップＳ９０）。
【０１０７】
ステップＳ９０において音声付映像が再合成されると、再合成された音声付映像はサーバ装置１におけるＨＤＤ１３に保存され、インターネットで閲覧が可能なようにアップロード処理される（ステップＳ９１）。ステップＳ９１において音声付映像がアップロードされると、音声付映像の再合成を行なったユーザのメールアドレスに対して、再合成された音声付映像が閲覧可能なＵＲＬ６１が記載されたメールがサーバ装置１から送信される（ステップＳ９２）。
【０１０８】
なお、音声付映像をコピーして作成する時に、特定の要素を選択する処理を省き、選択処理を途中から開始して、音声付映像を合成してもよい。例えば、ユーザが音声付映像のメロディ及びアレンジの変更を希望せず、歌詞の変更を希望する場合は、歌詞の入力を選択すると、メロディ、アレンジの選択を省略し、歌詞の入力から音声付映像を作成できる。
【０１０９】
上で述べた実施の形態では、ユーザの選択により、メロディカテゴリ、メロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景等が特定される構成としていたが、コース選択において「シンプルコース」を設けることも可能である。「シンプルコース」を選択した場合は、音声付映像の合成に用いられる各要素、すなわちメロディカテゴリ、メロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景がサーバ装置１により任意に指定される。どのメロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景が指定されるかは、「シンプルコース」を選択した時刻等を乱数の種としてランダムに決定される。その他の選択処理（歌詞決定処理、タイトル決定処理）、音声合成処理、音声付映像処理については、すでに述べたものと同様の処理が実行される。なお、「シンプルコース」において、いずれかの情報をユーザによって選択入力されるようにしてもよい。例えば、歌詞決定処理及びタイトル決定処理のほか、アクターのふるまいをユーザに選択させるように構成してもよい。この場合、上で述べたように、サーバ装置１とユーザ端末２の間でふるまいリスト及びふるまい情報の送受信が行われるが、アクター及び背景はサーバ装置１により指定され、映像ＩＤが特定される。さらに、アクターのふるまいに代えて、ユーザが利用可能なオリジナルムービーが選択できるように構成してもよい。
【０１１０】
上で述べた実施の形態では、「曲先コース」、「歌詞先コース」のいずれも、ユーザに歌詞を入力させ、入力された歌詞をもとに音声付映像が合成される構成としたが、サーバ装置１において一つ又は複数の歌詞テンプレートを記憶させ、この情報がユーザ端末２に送信され、その中からユーザが選択できるコースを用意してもよい。歌詞テンプレートとは、あらかじめ歌詞が入力されている定型的な歌詞のことである。このようにすることで、歌詞入力という負担をユーザにかけることなくなるので、ユーザの利便性が高くなる。なお、ユーザが歌詞のテンプレートを選択した後に、歌詞テンプレートの内容の全部、或いは一部を編集できるようにしてもよい。
【０１１１】
さらに、歌詞決定処理において、ユーザによるテキスト入力又は歌詞テンプレートからの選択入力を行わず、サーバ装置１が自動的に歌詞を合成するようなコースを用意することも可能である。例えば、サーバ装置１において、各フレーズに対応する複数パターンの歌詞が記憶されており、各フレーズに対応する歌詞を任意に組み合わせて歌詞を合成する歌詞合成処理が実行される。歌詞合成処理においてどのフレーズが用いられるかは、そのコースを選択した時刻等を乱数の種としてランダムに決定される。音声合成処理では、合成された歌詞をもとに音声が合成される。その他の選択処理、及び音声付映像合成処理については、すでに述べたものと同様の処理が実行される。
【０１１２】
また、上で述べた実施の形態では、ユーザの選択により、メロディカテゴリ、メロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景等が特定される構成としていたが、コース選択において「歌詞先コース」を選択した場合は、サーバ装置にてメロディを選択する前に先に歌詞を入力することも可能である。ユーザは、後述するサブコースを選択し、ポイントの利用確認を行なった後に歌詞入力を行なう。この場合、入力した歌詞の文字数に合致するモーラ数を有するメロディが、サーバ装置により自動的に選択される。歌詞入力を行なった後に、タイトル、ムービーの種類、アクター、ふるまい、背景、又はあいのてのうちのいずれを編集するかについて選択し、選択した項目について編集が可能となる。さらに、歌詞の編集を行なうことも可能である。これらの項目を選択又は編集する順序は、ユーザが任意に決定できるような構成とすることも可能である。この場合は、どの項目から入力するかについての選択画面がユーザ端末に表示され、ユーザが選択を行なう。
【０１１３】
ユーザが「歌詞先コース」を選択した場合は、さらにサブコースを選択する画面が表示され、いくつかのサブコースの中から１つのサブコースを選択する必要がある。サブコースとしては、「川柳コース」、「短歌コース」、「フリーコース」の３つのサブコースが挙げられる。ユーザが自由に歌詞を入力できる場合、自由度が高すぎて何を入力すればよいかわからないといったユーザもいる。そのため、予め文字入力数を制限することで、歌詞入力しやすくしたものが、「川柳コース」と「短歌コース」である。これらのサブコースは、それぞれフレーズ数と、フレーズ毎の文字数が予め決められている。「川柳コース」の場合は、入力可能なフレーズ数は３フレーズであり、１フレーズ目の入力可能モーラ数は５、２フレーズ目の入力可能モーラ数は７、３フレーズ目の入力可能モーラ数は５である。一方、「短歌コース」の場合は、入力可能なフレーズ数は５フレーズであり、１フレーズ目の入力可能モーラ数は５、２フレーズ目の入力可能モーラ数は７、３フレーズ目の入力可能モーラ数は５、４フレーズ目の入力可能モーラ数は７、５フレーズ目の入力可能モーラ数は７である。「フリーコース」は、入力可能なフレーズ数は５フレーズと制限はされているが、各フレーズの入力可能モーラ数は無制限である。ただし、１フレーズの入力可能モーラ数を予め定めておけば、それ以上の文字数を入力できないようにすることも可能である。１フレーズの文字数が多くなりすぎた場合は、それに合致するメロディが存在しない場合もあるので、サーバ装置にて予め登録されているメロディに応じて、１フレーズの入力可能モーラ数の上限を設定しても良い。
【０１１４】
コース選択において「歌詞先コース」を選択した場合に、ユーザが歌詞となるテキストを入力すると、サーバ装置にて、テキストの文字数に合わせてメロディ及びアレンジを自動的に選択し、さらに動画を自動選択して、音声付映像を合成してもよい。
【０１１５】
歌詞入力画面を表示する前に、歌詞のテンプレートを選択するテンプレート選択画面が表示され、ユーザは複数のテンプレート候補の中から、歌詞のテンプレートを選択するような構成とすることもできる。歌詞のテンプレートには空欄が設けられており、ユーザは、この空欄に歌詞を入力する。したがって、空欄部分以外の歌詞は編集できない。この場合、サーバ装置が、歌詞のテンプレートの文字数に合致するモーラ数をもったメロディを自動的に選択する。
【０１１６】
歌詞先コースを選択して合成した音声付映像は、変更することが可能である。変更が可能な項目は、「タイトル」、「歌詞」、「映像」である。音声付映像の変更を希望するユーザは、自らが作成した音声付映像の中から変更したい音声付映像を選択し、音声付映像の変更要求をユーザ端末からサーバ装置に送信する。サーバ装置は、音声付映像情報テーブルから、変更要求のあった音声付映像に関する音声付映像情報を抽出し、ユーザ端末に送信する。ユーザは、タイトル、歌詞、映像のいずれを変更するかを選択し、変更後のタイトル・歌詞を入力し、又は、変更後の映像を選択する。サーバ装置ではこれらの情報を受信し、音声付映像の再合成を行う。
【０１１７】
上で述べた実施の形態では、音声付映像を合成するための各要素を、ユーザが選択入力することにより、一つの音声付映像が合成される構成としていたが、複数の音声付映像を合成するように構成することも可能である。例えば、ユーザが音声付映像のある要素を選択入力すると、ユーザが選択入力した以外の要素をサーバ装置１が複数パターン自動指定し、複数の音声付映像を一括で作成させてもよい。具体例としては、ユーザが歌詞を決定すると、システムが異なるメロディ、アレンジ、動画を任意に指定し、５パターンの音声付映像を一括で作成するなどが考えられる。ただし、サーバ装置の負荷を軽減するために、合成される複数の音声付映像の数には上限が設けられていることが好ましい。
【０１１８】
上で述べた実施の形態では、ユーザが歌詞を入力する際に、ユーザ端末２の表示画面に表示された入力フォームに直接入力する構成としていたが、サーバ装置１に記憶されたユーザ情報テーブルに、ユーザが随時入力及び変更が可能なメモ欄としてメモ情報を記憶しておき、歌詞を入力する処理において、当該メモ情報を利用する構成としても良い。例えば、図１０（ｅ）のように、歌詞入力を行う表示画面において、メモ情報が表示されるメモ欄を用意しておき、読出ボタンを選択することで、メモ情報の内容が歌詞に反映されるようにすることも可能である。このようにすることで、ユーザは、ある時、突然思いついた歌詞の一部などをサーバ装置に記憶させておくことができ、時間がかかる合成処理は別のタイミングで行なうことができる。また、別のタイミングで思いついた歌詞を任意に組み合わせるなどの利用方法も可能となるので、ユーザの利便性が高くなる。ユーザは、サーバ装置１にログインした状態であれば、メモ情報を参照することができ、その内容を修正することが可能である。その他、予め「おはよう」、「こんにちは」などの汎用的なフレーズをひな形としてサーバ装置１にて記憶しておき、歌詞を入力する処理において、これらのひな形をユーザが利用できる構成としても良い。
【０１１９】
上で述べた実施の形態では、音声付映像を合成すると、ユーザ情報テーブル２０のポイント２４から所定のポイントが減算されるとしていた。この場合、どのコースで音声付映像を作成するかによって、減算されるポイントを異なる値としても良い。例えば、「曲先コース」の場合は５０ポイントが減算されるのに対し、「歌詞先コース」の場合は５０ポイントが減算される。また、音声付映像の合成に使用したメロディ、声質、映像などに応じて、減算されるポイントを異なる値とすることも可能である。例えば、著名な作曲家が作曲したメロディや、人気のある歌手の声質を使用する場合は、通常のメロディや声質よりも減算されるポイントの値を大きくすることも可能である。このような構成とすることで、ユーザにとって好みのメロディや声質などを選択するために多くのポイントが必要になるため、ユーザが広告主サイトへアクセスをし、積極的にポイントを取得しようとする意欲を高めさせることができる。
【０１２０】
上で述べた実施の形態では、合成が完了した旨の通知メールに記載された音声付映像のＵＲＬにアクセスすることで、ユーザは当該音声付映像を視聴できるとしていた。ここで、ユーザが音声付映像をＵＲＬから再生する場合、サーバ装置１に負荷が発生するため、この負荷を軽減するための措置として、「ある音声付映像をＵＲＬから再生することは、一定時間内に一定数のユーザしか再生できない」という、再生制限を行ってもよい。また、ユーザは当該音声付映像をユーザ端末２にダウンロードできる構成としても良い。ただし、ダウンロードされた音声付映像は、商業利用を不可とするのが好ましい。このような構成とすることで、ユーザは視聴するたびにサーバ装置１に接続する必要がなくなり、サーバ装置１への接続が困難な状況（例えば、携帯電話において電波状況が悪い環境にあるなど）においても、自分が合成させた音声付映像の視聴を楽しむことができる。また、ダウンロードした音声付映像のデータの記録媒体への記録、若しくはメールへの添付などにより、他人に視聴させることも可能となる。
【０１２１】
また、音声付映像を合成させたユーザは、他のユーザに当該音声付映像のＵＲＬを知らせることで、他のユーザに視聴させることができる。音声付映像のＵＲＬはメールにコピー＆ペーストして送ることができる。この場合、ユーザが、他のユーザのアドレス又はアカウント等をメッセージや、音声付映像のＵＲＬの送信先として登録しておけるリストとして、送信先リスト（以下、アドレス帳という）が設定されていてもよい。音声付映像を合成したユーザは、アドレス帳に登録した他のユーザに、自分が作った音声付映像を送ることができるため、ユーザの利便性を高めることができる。また、当該音声付映像は、ユーザ端末の種類、携帯電話であればキャリアの種別を問わず、視聴可能な形式であることが好ましい。ユーザ端末にダウンロードした音声付映像は、メールに添付して送ることができる。このようにすることで、本発明を用いて合成された音声付映像を、サーバ装置１に登録されたユーザだけでなく多くの潜在的なユーザに認知させることが可能となる。さらに、音声付映像が他のユーザによって視聴される場合、他のユーザに視聴された回数に応じて、音声付映像を合成したユーザに対し、ポイントが加算されるように構成しても良い。このような構成とすることで、ユーザの音声付映像合成に対する意欲をより一層高めることが可能となる。
【０１２２】
さらに、ユーザによる音声付映像の視聴の利便性を高めるため、いくつかの機能を追加してもよい。例えば、ユーザ毎に「お気に入り」を設定し、ユーザが音声付映像を登録しておくことで、後から当該音声付映像にアクセスしやすくすることができる。また、ユーザ自身が作成した音声付映像を一覧表示したページを用意してもよい。この場合、サーバ装置１に記憶されるデータ量を節減するため、音声付映像の最大保存件数を超えて音声付映像は作成できないようにしてもよい。音声付映像の「変更」と音声付映像の「公開」ができるよう、「お気に入り」にリンクを追加することも可能である。
【０１２３】
本発明の音声付映像合成システムでは、合成された音声付映像は他のユーザにも視聴可能なように公開することができる。ここで、当該音声付映像に対して他のユーザが評価する機能を追加することができる。他のユーザによる評価のための機能としては、例えば、拍手ボタンを用意し、音声付映像ごとに拍手された回数を集計する機能、音声付映像を閲覧した他のユーザが感想などを書き込めるコメント機能、音声付映像を合成したユーザに対しメッセージを送信可能とする機能などが挙げられる。集計された拍手回数を元に、音声付映像はランキング形式で公開される。また、コメント機能において、他のユーザによる感想などコメント欄に書き込まれた内容は、コメントに書き込んだ他のユーザ及び音声付映像を合成したユーザを除く、第三のユーザにも公開される。さらに、このコメントに書き込まれたテキスト情報をもとにして、音声付映像の歌詞を合成可能としてもよい。また、音声付映像を閲覧した他のユーザが、該音声付映像を合成したユーザのみに感想を伝えたい場合は、メッセージ機能を利用することが可能である。メッセージを受信したユーザは、お礼などを返信することも可能である。このように音声付映像を他のユーザが評価する機能を追加することで、音声付映像を合成するユーザに対し、より評価の高い音声付映像を合成しようとする動機づけを与えることができる。
【０１２４】
以上に述べた他、本発明の音声付映像合成システムに以下のような機能を追加することも可能である。
【０１２５】
本発明の音声付映像合成システムに、音声付映像の時間長を統一するだけでなく（例えば３０秒）、１５秒、６０秒など異なる時間長の音声付映像の合成が可能となる機能を追加してもよい。このようにすることで、ユーザが合成可能な音声付映像のバリエーションを豊富にすることができ、様々な音声付映像を合成したいというユーザの意欲を向上させることができる。
【０１２６】
本発明の音声付映像合成システムにおいて、音声付映像を合成するための要素であるアクターと声質に関連性を持たせてもよい。すなわち、サーバ装置１に記憶された映像情報テーブル４０において、アクター４１に声質に関する情報が関連付けて記憶されていてもよい。この場合、ユーザによってあるアクターが選択されると、同時に該アクターに関連付けて記憶された声質が選択される。又は、声質が選択されると該声質と関連付けられたアクターが選択されるとしてもよい。例えば、図５のステップＳ６において、声質・あいのて選択処理に代えてあいのて選択処理のみを行い、ステップＳ７の映像選択処理においてアクターが選択されると、選択されたアクターと関連付けられた声質が選択されるようにすることが可能である。或いは、ステップＳ６の声質・あいのて選択処理において、声質が選択されると同時に該声質と関連付けられたアクターが選択され、ステップＳ７の映像選択処理において、アクターを除く選択肢（ふるまい及び背景を含む）をユーザに選択させるようにしてもよい。その他の選択処理及び音声合成処理、音声付映像合成処理については、すでに述べたものと同様の処理が実行される。
【０１２７】
本発明の音声付映像合成システムにおいて、人間らしい歌声が再現されるよう、音声合成処理に付加的な機能を追加してもよい。通常、人が歌うと、楽譜に記載された音の高さ、長さ、大きさからは微妙にずれてしまう場合が多い。そこで、音声付映像の合成に用いられるメロディを構成する音について、その高さ、長さ、大きさを調整し、調整されたメロディをもとに音声合成処理を行うようにすることで、本来のメロディから調整された音声が合成されるため、より人間らしい歌声を再現することができる。メロディの調整処理は、サーバ装置１又はユーザ端末２のいずれで実行されてもよい。ここで、メロディを構成する音のうち、いずれの音の調整を行うかの選択方法として、メロディを構成する全ての音を調整する方法、又は調整する音をランダムに選択する方法が挙げられるが、どのような方法を採用してもよい。また、音の高さ、長さ、大きさが調整される幅についても、それぞれ所定の幅としてもよく、又はランダムに調整されるように構成してもよい。さらに、上で述べたユーザの声をもとに音声を合成する場合に、ここで述べた、人間らしい歌声が再現されるようにしてもよい。このようにすることで、あたかもユーザ本人が歌っているかのような音声が再現されることになり、音声付映像を合成することに対するユーザの興味をさらに高めることができる。
【０１２８】
また、上で述べた実施の形態では、一人のユーザが音声付映像を構成する各要素を選択入力することとしたが、複数のユーザが一つの音声付映像を構成する要素を選択入力し、一つの音声付映像が合成されるようにしてもよい。具体的には、音声付映像のある要素（例えば、メロディ）についてはユーザＡが選択し、別の要素（例えば、歌詞）についてはユーザＢが選択するという方法で作成を行う。その結果、一人のユーザでは作成できなかった創造性豊かな音声付映像が合成されることとなる。
【０１２９】
さらに、本発明の音声付映像合成システムは、合成した音声付映像を、携帯電話の待ち受け画面として使用できるように加工する機能を備えていてもよい。待ち受け画面として使用できるように加工するための技術としては、ＦＬＡＳＨ等が挙げられる。
【０１３０】
また、携帯電話で動作するアプリケーションを用いて音声付映像を合成するためのインターフェイスを構築し、これをユーザに提供してもよい。携帯電話アプリケーションを用いることで、動的なインターフェイスを構築することができる。例えば、上で述べた映像選択処理において、アクター選択に続いてふるまいを選択する際に、ユーザ端末の表示画面に表示された、ふるまいリストに含まれる複数のふるまいのうちの一つにカーソルを合わせると、該ふるまいにしたがってアクターが動作する様子がプレビュー画面に表示されるなどの機能をもたせることができる。携帯電話アプリケーションを用いることで、ＦＬＡＳＨよりもユーザの入力の負担が少ない歌詞入力画面を提供することもできる。
【０１３１】
また、ユーザではなく、本発明の音声付映像合成システムを運営する事業者が、音声付映像を合成してもよい。例えば、広告主から音声付映像形式の広告を受注し、音声付映像システムが運営されるサイト、又は広告主が運営するサイト等にて配信するようにしてもよい。音声付映像形式の広告の課金形態は、広告配信する期間を対象として料金が発生する、期間保証型でもよい。
【０１３２】
本発明の音声付映像合成システムでは、自分が合成した音声付映像を動画投稿サイトに直接的にアップロードする機能を有していても良い。ユーザは任意に自分の音声付映像を指定し、音声付映像合成システム固有のアカウントを用いて、動画投稿サイトに音声付映像をアップロードすることできる。ユーザは、動画投稿サイトにアップロードされた自分の音声付映像のＵＲＬを、音声付映像合成システムを運営する運営サイト上で取得することができる。ユーザが動画投稿サイトに音声付映像をアップロードした場合、サーバ装置が、特定のブログやＳＮＳ等のコミュニティサイトに、音声付映像がアップロードされた旨の情報を自動的にアップロードするような構成とすることができる。この場合、動画投稿サイト上にアップロードされた音声付映像のＵＲＬ、音声付映像のタイトル、音声付映像を作成したユーザ名が、コミュニティサイトにアップロードされる。また、本発明の音声付映像合成システムでは、ユーザが任意に自分の作成した音声付映像を指定し、音声付映像合成システムの運営サイトからユーザ自らのアカウントで前記のコミュニティサイトにログインすることができ、コミュニティサイト上に自らが入力したテキスト情報と音声付映像がアップロードされているＵＲＬを投稿することができる。
【０１３３】
ユーザは、本発明の音声付映像合成システムの利用会員となっている他の会員にテキストでメッセージを送信することができる。送信されたメッセージは、音声付映像合成システムの運営サイト上に設けられたメッセージ一覧から閲覧できる。メッセージ一覧はユーザ毎に管理されており、他の会員のメッセージ一覧は閲覧することができない。ユーザはメッセージ送信の際に音声付映像がアップロードされているＵＲＬを記載することができる。メッセージを受信したユーザは、他会員ユーザから送られてきたメッセージに返信することができる。
【０１３４】
本発明の音声付映像合成システムでは、合成された音声付映像が再生されると、表示画面には、映像だけでなく歌詞もテロップ表示される。テロップ表示は、例えば、動画の下方の領域に表示される。テロップ表示されるテキスト情報は、音声として表現された歌詞に合わせ、フレーズ毎に切り替えられる。テロップ表示されるテキスト情報のタイプフェイスについて特に制限はないが、ゴシック体やその他の装飾性の高いフォントを用いることができる。
【０１３５】
また、テロップ表示されるテキスト情報は、通常、入力した歌詞が用いられるが、入力した歌詞とは異なる文字情報をテロップ表示できるようにしたメッセージ表示機能を持たせることも可能である。この場合、ユーザはフレーズ毎にテロップ表示する文字情報歌詞情報とは別途、メッセージ表示のための文字情報を入力する。このようにすることで、音声付映像の内容に合わせた何らかのメッセージを表示することが可能となる。また、メッセージ表示機能を導入した場合、音声合成するための歌詞と、テロップ表示用の文字情報を別々に入力することは、ユーザにとって手間がかかる。そのため、例えば、テロップ表示用の文字を、ひらがな文に変換し、これを音声合成用の歌詞情報として用いることも可能である。この場合、ひらがなだけでなく、漢字やカナ或いはアルファベット等を含んだテロップ表示用の文字をユーザが入力し、入力された文字はサーバ装置にて自動的にひらがなに変換され、音声合成用の文字情報として使用される。但し、漢字の読みは複数パターンあるため、サーバ装置が必ずしもユーザの意図通りに変換できるとは限らない。そこで、サーバ装置がひらがなに変換した文字を、さらにユーザが編集できるようにしても良い。なお、ここではテロップ表示用に入力された文字をサーバ装置にてひらがなに変換するとしたが、音声合成用の文字がカタカナである場合は、テロップ表示用に入力された文字はカタカナに変換される。すなわち、音声合成用に用いられる文字にあわせてテロップ表示用の文字が変換される。
【０１３６】
テロップ表示される文字自体をアニメーションとすることも可能である。例えば、音声付映像の再生中に、歌詞であるテキスト情報が左右に移動したり、画面の上方から降ってきたり等のアニメーション機能を持たせることも可能である。この場合、どのようなアニメーションを文字にさせるかについてはユーザが選択するように構成することも可能であり、サーバ装置にて自動的にアニメーションを設定することも可能である。
【０１３７】
本発明の音声付映像合成システムでは、表示画面に表示される映像に、動画を装飾するための額縁のようなフレーム画像を合成することも可能である。この場合、動画の周囲にフレーム画像が設けられる。動画の部分の形状は、円状、長方形状の何れであっても良い。音声付画像を合成する際に、ユーザはフレーム画像を設けるか否かについて選択し、フレーム画像を設けると選択した場合は、どのフレーム画像にするかについての選択を行う。サーバ装置では、選択されたフレーム画像が動画の周囲に額縁のように表示されるように、音声付映像の合成を行う。なお、フレーム画像は静止画でも良いが、フレーム画像自体に動画を用いても良い。
【０１３８】
本発明の音声付映像合成システムでは、音声付映像を合成した後に、メロディ、アレンジ、声質の組み合わせを見直すことができるような構成としてもよい。見直しを行うことで、メロディ、アレンジ及び声質の組み合わせから得られる楽曲のクオリティを向上させることができる。具体的には、音声付映像を合成した後に、ユーザがメロディ、アレンジ、声質の組み合わせの見直し要求をユーザ端末からサーバ装置に送信し、メロディ、アレンジ又は声質のいずれについて見直しを行なうかについての入力を行う。ユーザが見直し後の新たなメロディ、アレンジ又は声質を選択すると、再度、音声付映像が合成される。合成された音声付映像で良いとユーザが判断した場合は、見直し後の音声付映像が更新される。
【０１３９】
また、本発明の音声付映像合成システムのオリジナルムービーに、ＢＧＭとメッセージを合成して音声付映像を作成できる機能を設けることもできる。ここで、ＢＧＭとは、メロディとアレンジの組み合わせにより構成される楽曲から、音声合成により得られる歌（合成音声）を除外したものをいう。また、この場合におけるメッセージとは、前述したメッセージ表示機能と同様に、歌詞とは異なるもので、文字情報として映像に挿入されるものである。したがって、この場合、ユーザは歌詞の入力を行うことも特に必要ではなく、歌詞を用いた音声合成は実行されない。歌詞のないメロディに、ユーザが入力したメッセージが表示されたオリジナルムービーが付与された音声付映像が合成される。ユーザにより入力されたメッセージは、テロップのように画面下部に表示するだけでなく、画面中央に表示することも可能である。
【符号の説明】
【０１４０】
１サーバ装置
２ユーザ端末
３広告主サーバ
４通信ネットワーク
１１ＣＰＵ
１２メインメモリ
１３ＨＤＤ
１４通信インターフェイス
２０ユーザ情報テーブル
３０メロディ情報テーブル
４０映像情報テーブル
５０音声付映像情報テーブル

【特許請求の範囲】
【請求項１】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、
サーバ装置が、
端末装置からメロディ情報を受信するメロディ情報受信手段と、
端末装置から映像情報を受信する映像情報受信手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ情報受信手段により受信されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項２】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、
サーバ装置が、
複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、
音声付映像を合成するための映像に関する映像情報を記憶する映像情報記憶手段と、
メロディ情報記憶手段に記憶された複数のメロディ情報の中から、任意のメロディ情報を指定するメロディ情報指定手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ情報指定手段により指定されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報記憶手段により記憶された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項３】
映像情報記憶手段が、
映像に登場するキャラクタに関するキャラクタ情報、キャラクタの動作に関する動作情報、及び／又は映像の背景に関する背景情報と関連付けて映像情報を記憶するものであって、
サーバ装置が、
キャラクタ情報、動作情報、及び／又は背景情報のいずれかの映像要素情報を任意で指定する映像要素情報指定手段と、
映像要素情報指定手段により指定された映像要素情報と関連付けて記憶された映像情報を指定する映像情報指定手段とを備え、
音声付映像合成手段が、
映像情報指定手段により指定された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする請求項２に記載の音声付映像合成システム。
【請求項４】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び／又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信するメロディ要素情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、
サーバ装置が、
コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶する音高情報記憶手段と、
リズム情報と、音の強弱及び／又は長さの規則性を関連付けて記憶するリズム記憶手段と、
端末装置からメロディ要素情報を受信するメロディ要素情報受信手段と、
端末装置から映像情報を受信する映像情報受信手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ要素情報受信手段により受信されたコード情報に従って、音高情報記憶手段により該コード情報に関連付けて記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定する音順序情報特定手段と、
メロディ要素情報受信手段により受信されたリズム情報に従って、音順序情報特定手段により特定された複数の音に、リズム情報記憶手段によりリズム情報に関連付けて記憶された音の強弱及び／又は長さの規則性をもとに、音の強弱及び／又は長さに関する情報を付与することで、メロディ情報を合成するメロディ情報合成手段と、
メロディ情報合成手段により合成されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項５】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段を備え、
サーバ装置が、
複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、
メロディ情報記憶手段に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定するメロディ情報指定手段と、
複数の映像に関する映像情報を記憶する映像情報記憶手段と、
映像情報記憶手段により記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定する映像情報指定手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ情報指定手段により指定された一つ又は複数のメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成する音声合成手段と、
映像情報指定手段により指定された一つ又は複数の映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項６】
サーバ装置が、
メロディを構成する複数の音の数に関する音数情報を、メロディと関連付けて記憶する音数記憶手段と、
歌詞情報受信手段により受信した歌詞情報、及び、音数記憶手段により前記メロディと関連付けて記憶された音数情報をもとに、前記歌詞から計算される音の数と、前記メロディを構成する音の数が一致するか否かを判定する音数判定手段と、
音数判定手段により判定された結果に関する音数判定情報を端末装置に送信する音数判定情報送信手段とを備え、
端末装置が、
サーバ装置から受信した音数判定情報をもとに、音数判定手段により判定された結果を端末装置の表示画面に表示する音数判定情報表示手段を備えることを特徴とする請求項１〜５のいずれか１項に記載の音声付映像合成システム。
【請求項７】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段とを備え、
サーバ装置が、
端末装置からメロディ情報を受信するメロディ情報受信手段と、
端末装置から映像情報を受信する映像情報受信手段と、
メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶するフレーズ歌詞情報記憶手段と、
フレーズ歌詞情報記憶手段に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成手段と、
メロディ情報受信手段により受信されたメロディ情報、及び、歌詞合成手段により合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項８】
サーバ装置が、
ユーザと関連付けられた、音声付映像を合成するための映像に関するユーザ映像情報を記憶するユーザ映像情報記憶手段を備え、
音声付映像合成手段が、
ユーザ映像情報記憶手段に記憶されたユーザ映像情報、及び、音声合成手段により合成された音声をもとに、ユーザと関連付けられた映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする請求項１〜７のいずれか１項に記載の音声付映像合成システム。
【請求項９】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディの編曲に関するアレンジ情報をサーバ装置に送信するアレンジ情報送信手段とを備え、
サーバ装置が、
端末装置からアレンジ情報を受信するアレンジ情報受信手段とを備え、
音声合成手段が、メロディ情報、アレンジ情報、及び、歌詞情報をもとに、アレンジ情報に従って前記メロディを編曲することで得られる編曲メロディに、前記歌詞が伴われた音声を合成することを特徴とする請求項１〜８のいずれか１項に記載の音声付映像合成システム。
【請求項１０】
サーバ装置が、
複数のメロディに関するメロディ情報と、該メロディ情報と関連付けて、該メロディを構成する各フレーズに適合するコードに関する適合コード情報を記憶する適合コード情報記憶手段と、
楽器及び／又は声部に関する伴奏を合成するための音の音色に関する伴奏情報を記憶する伴奏情報記憶手段と、
適合コード情報記憶手段により記憶された適合コード情報に従って、伴奏情報記憶手段により記憶された伴奏情報をもとに、フレーズ毎に該適合するコードに沿った、該音色を有する伴奏フレーズを合成し、合成した伴奏フレーズを組み合わせることで伴奏を合成する伴奏合成手段と、
音声付映像合成手段が、映像情報及び音声合成手段により合成された音声をもとに、映像に合成された音声が付随された音声付映像を合成する際に、さらに、伴奏合成手段により合成された伴奏を伴った音声付映像を合成することを特徴とする請求項１〜９のいずれかに１項に記載の音声付映像合成システム。
【請求項１１】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するための声の音色を含む声質に関する声質情報をサーバ装置に送信する声質情報送信手段とを備え、
サーバ装置が、
端末装置から声質情報を受信する声質情報受信手段とを備え、
音声合成手段が、メロディ情報、声質情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記声質を有する音声を合成することを特徴とする請求項１〜１０のいずれか１項に記載の音声付映像合成システム。
【請求項１２】
前記映像情報は、映像に登場するキャラクタに関するキャラクタ情報と関連付けて記憶されており、
サーバ装置が、
音声付映像を合成するための声の音色を含む声質に関する声質情報を、キャラクタ情報と関連付けて記憶するキャラクタ声質情報記憶手段を備え、
映像情報送信手段が、ユーザの操作に従って選択された、キャラクタ情報と関連付けられた映像情報をサーバ装置に送信し、
音声合成手段が、メロディ情報、映像情報受信手段により受信された映像情報に含まれるキャラクタ情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、キャラクタと関連付けられた声質を有する音声を合成することを特徴とする請求項１〜１１のいずれか１項に記載の音声付映像合成システム。
【請求項１３】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するための歌詞情報の変更に関する語尾情報をサーバ装置に送信する語尾情報送信手段とを備え、
サーバ装置が、
端末装置から語尾情報を受信する語尾情報受信手段とを備え、
音声合成手段が、メロディ情報、語尾情報、及び、歌詞情報をもとに、前記歌詞の一部について語尾情報にしたがって修正された修正歌詞が、前記メロディに伴われた音声を合成することを特徴とする請求項１〜１２のいずれか１項に記載の音声付映像合成システム。
【請求項１４】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するための効果音に関する効果音情報をサーバ装置に送信する効果音情報送信手段を備え、
サーバ装置が、
端末装置から効果音情報を受信する効果音情報受信手段を備え、
音声合成手段が、メロディ情報、歌詞情報、及び効果音情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記効果音が挿入された音声を合成することを特徴とする請求項１〜１３のいずれか１項に記載の音声付映像合成システム。
【請求項１５】
サーバ装置が、
前記メロディを構成する音の高さ、長さ及び／又は強弱を任意に調整することにより、該メロディを調整した調整メロディを合成する調整メロディ合成手段を備え、
音声合成手段が、調整メロディ合成手段により合成された調整メロディに関する調整メロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記調整されたメロディに前記歌詞が伴われた音声を合成することを特徴とする請求項１〜１４のいずれか１項に記載の音声付映像合成システム。
【請求項１６】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するために用いられたメロディ、編曲、声質、歌詞又は映像とは異なる、変更メロディに関する変更メロディ情報、変更編曲に関する変更アレンジ情報、変更声質に関する変更声質情報、変更歌詞に関する変更歌詞情報、又は、変更映像に関する変更映像情報を含む変更情報をサーバ装置に送信する変更情報送信手段とを備え、
サーバ装置が、
音声付映像合成手段により合成された音声付映像と関連付けて、該音声付映像を合成するために用いられたメロディ情報、アレンジ情報、声質情報、歌詞情報、及び、映像情報を記憶手段する音声付映像情報記憶手段と、
変更情報を端末装置から受信する変更情報受信手段と、
音声付映像情報記憶手段により記憶されたメロディ情報、アレンジ情報、声質情報若しくは歌詞情報、又は、変更情報受信手段により受信された変更メロディ情報、変更アレンジ情報、変更声質情報若しくは変更歌詞情報をもとに変更音声を合成する変更音声合成手段と、
音声付映像情報記憶手段により記憶された映像情報、又は、変更情報受信手段により受信された変更映像情報、及び、変更音声合成手段により合成された変更音声をもとに、前記映像又は変更映像に合成された変更音声が付随された音声付映像を再合成する音声付映像再合成手段と
を備えることを特徴とする請求項１〜１５のいずれか１項に記載の音声付映像合成システム。
【請求項１７】
サーバ装置が、
所定の条件を満たすことでユーザごとに加算されるポイントに関するポイント情報を記憶するポイント情報記憶手段と、
音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成に応じて、ポイント情報記憶手段に記憶されたポイントから所定のポイントを減算するポイント減算手段とを備え、
ポイント情報記憶手段に記憶されたポイントが所定の値に満たない場合に、音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成が実行されない
ことを特徴とする、請求項１〜１６のいずれか１項に記載の音声付映像合成システム。
【請求項１８】
サーバ装置が、
音声付映像合成手段により合成された音声付映像と関連付けて、音声付映像再合成手段による音声付映像の再合成の回数を記憶する再合成回数記憶手段とを備え、
再合成回数記憶手段による再合成回数が所定の回数以内である場合に、ポイント減算手段によるポイントの減算が実行されず、且つ、ポイント情報記憶手段に記憶されたポイントが所定の値より大きいか否かにかかわらず、音声付映像再合成手段による音声付映像の再合成の実行が可能である
ことを特徴とする請求項１７に記載の音声付映像合成システム。
【請求項１９】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、
サーバ装置が、
端末装置からメロディ情報を受信し、
端末装置から映像情報を受信し、
端末装置から歌詞情報を受信し、
受信されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、
受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項２０】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、
サーバ装置が、
記憶部に記憶された複数のメロディに関するメロディ情報の中から、任意のメロディ情報を指定し、
端末装置から歌詞情報を受信し、
指定されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、
記憶部に記憶された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項２１】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び／又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信し、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、
サーバ装置が、
コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶部に記憶し、
リズム情報と、音の強弱及び／又は長さの規則性を関連付けて記憶部に記憶し、
端末装置からメロディ要素情報を受信し、
端末装置から映像情報を受信する映像情報受信し、
端末装置から歌詞情報を受信する歌詞情報受信し、
受信されたコード情報に従って、該コード情報に関連付けて記憶部に記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定し、
受信されたリズム情報に従って、特定された複数の音に、リズム情報に関連付けて記憶部に記憶された音の強弱及び／又は長さの規則性をもとに、音の強弱及び／又は長さに関する情報を付与することで、メロディ情報を合成し、
合成されたメロディ情報、及び、受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成し、
受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項２２】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信し、
サーバ装置が、
複数のメロディに関するメロディ情報を記憶部に記憶し、
記憶部に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定し、
複数の映像に関する映像情報を記憶部に記憶し、
記憶部に記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定し、
端末装置から歌詞情報を受信し、
指定された一つ又は複数のメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成し、
指定された一つ又は複数の映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項２３】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、
サーバ装置が、
端末装置からメロディ情報を受信し、
端末装置から映像情報を受信し、
メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶部に記憶し、
記憶部に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成し、
受信されたメロディ情報、及び、合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、
受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。

【図１】