音声付映像合成システム及び音声付映像合成方法
【課題】
本発明では、ユーザの好みのメロディ、映像を活用して、簡便に音声付映像を作成できる音声付映像合成システムを提供することを目的とする。
【解決手段】
ユーザ端末から選択されたコースがサーバ装置に送信されると、ポイント処理(ステップS1)に続いて、メロディカテゴリ選択処理(ステップS2)、メロディ選択処理(ステップS3)、アレンジ選択処理(ステップS4)、歌詞決定処理(ステップS5)、声質・あいのて選択処理(ステップS6)、映像選択処理(ステップS7)及びタイトル決定処理(ステップS8)が実行される。次いで、サーバ装置において、メロディ情報、アレンジ情報、歌詞情報及び声質情報・あいのて情報をもとに、音声合成処理が実行され(ステップS9)、合成された音声及び映像情報をもとに音声付映像が合成される(ステップS10)。
本発明では、ユーザの好みのメロディ、映像を活用して、簡便に音声付映像を作成できる音声付映像合成システムを提供することを目的とする。
【解決手段】
ユーザ端末から選択されたコースがサーバ装置に送信されると、ポイント処理(ステップS1)に続いて、メロディカテゴリ選択処理(ステップS2)、メロディ選択処理(ステップS3)、アレンジ選択処理(ステップS4)、歌詞決定処理(ステップS5)、声質・あいのて選択処理(ステップS6)、映像選択処理(ステップS7)及びタイトル決定処理(ステップS8)が実行される。次いで、サーバ装置において、メロディ情報、アレンジ情報、歌詞情報及び声質情報・あいのて情報をもとに、音声合成処理が実行され(ステップS9)、合成された音声及び映像情報をもとに音声付映像が合成される(ステップS10)。
【発明の詳細な説明】
【技術分野】
【0001】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムに関する。
【背景技術】
【0002】
近年のインターネット技術の発展により、自ら作成した動画をインターネット上にアップロードして他の人に視聴させたり、また、他の人が作成した動画を視聴することのできる動画視聴サイトが、多くの人により活用されている。これら動画視聴サイトでアップロードされる動画の多くは、ビデオカメラ等を用いて撮影されたものを編集したものであるが、ビデオカメラ等による撮影・編集は手間がかかるため、より簡単で手軽に動画を作成したいというニーズが存在する。このような中、例えば、楽譜情報と歌詞情報を入力する入力部と、これらの情報から歌声を合成する歌声合成部を有する歌声合成装置において、楽譜及び歌詞情報をパート毎に分割して歌声合成部に送出する歌唱情報処理部を設けた歌声合成装置が開示されている(例えば、特許文献1参照)。
【0003】
ところで、インターネット上で商用サイトへのアクセスを増大させる手法として、広告掲載サイトに広告を掲載する手法が年々増大している。広告掲載サイトには、広告主サイトの商品説明ページや購入ページ等へのハイパーリンクが張られた広告コンテンツが掲載され、広告掲載サイトにアクセスしたユーザが広告コンテンツをクリックすると、広告主サイトの商品説明ページや購入ページ等にアクセスできる。広告掲載サイトを運営する企業又は個人から広告主への広告料金の設定に関しては、(1)期間保証型、(2)クリック保証型、(3)広告成果型等がある。期間保証型は広告を表示する期間に応じて課金される方式、クリック保証型は広告掲載サイトに表示された広告がクリックされた回数に応じて課金される方式、広告成果型は広告を経由して商品購入や会員登録等の成果が生じた場合にはじめて課金される方式である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平06−337690号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1に記載された方法では、単に歌声を合成するものであり、携帯電話やパーソナルコンピュータ等の端末を用いて、ユーザが簡便に、好みの音声及び動画(音声付映像)を作成できるものではなかった。本発明では、ユーザの好みのメロディ、映像を活用して、簡便に音声付映像を作成できる音声付映像合成システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、サーバ装置が、端末装置からメロディ情報を受信するメロディ情報受信手段と、端末装置から映像情報を受信する映像情報受信手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ情報受信手段により受信されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【0007】
このような構成とすることで、ユーザは携帯電話等の端末装置を用いて、好みのメロディ、映像を選択し、歌詞を入力すると、ユーザが選択・入力したメロディ・映像・歌詞にしたがって音声が付随された音声付映像を合成されるため、ユーザは簡便に音声付映像を作成して楽しむことが可能である。また、このような音声付映像合成システムをインターネット上の広告掲載サイトで利用できるようにし、広告掲載サイトから広告主サイトの商品説明ページや購入ページ等へのハイパーリンクを設けることで、広告主サイトへのアクセス数を増大させることが可能となる。広告掲載サイトの運営者としては、(1)期間保証型、(2)クリック保証型、(3)広告成果型等のいずれかの方法により、広告主から広告料収入を得ることが可能になる。
【0008】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報サーバ装置に送信する歌詞情報送信手段とを備え、サーバ装置が、複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、音声付映像を合成するための映像に関する映像情報を記憶する映像情報記憶手段と、メロディ情報記憶手段に記憶された複数のメロディ情報の中から、任意のメロディ情報を指定するメロディ情報指定手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ情報指定手段により指定されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報記憶手段により記憶された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【0009】
このような構成とすることで、ユーザは携帯電話等の端末装置を用いて、歌詞を入力すると、任意に選択されたメロディ、サーバに記憶された映像、及び、ユーザが入力した歌詞にしたがって音声が付随された音声付映像を合成されるため、ユーザは簡便に音声付映像を作成して楽しむことが可能である。また、このような音声付映像合成システムをインターネット上の広告掲載サイトで利用できるようにし、広告掲載サイトから広告主サイトの商品説明ページや購入ページ等へのハイパーリンクを設けることで、広告主サイトへのアクセス数を増大させることが可能となる。
【0010】
本発明では、映像情報記憶手段は、映像に登場するキャラクタに関するキャラクタ情報、キャラクタの動作に関する動作情報、及び/又は映像の背景に関する背景情報と関連付けて映像情報を記憶するものであって、サーバ装置は、キャラクタ情報、動作情報、及び/又は背景情報のいずれかの映像要素情報を任意で指定する映像要素情報指定手段と、映像要素情報指定手段により指定された映像要素情報と関連付けて記憶された映像情報を指定する映像情報指定手段とを備え、音声付映像合成手段が、映像情報指定手段により指定された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することが好ましい。
【0011】
ユーザが携帯電話等の端末装置を用いて、歌詞を入力すると、任意に選択されたメロディ、任意に選択された映像、及び、ユーザが入力した歌詞にしたがって音声が付随された音声付映像を合成されるため、ユーザによる選択入力の手順が大幅に省略され、ユーザは簡便に音声付映像を作成して楽しむことが可能になる。
【0012】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び/又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信するメロディ要素情報送信手段と、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、サーバ装置が、コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶する音高情報記憶手段と、リズム情報と、音の強弱及び/又は長さの規則性を関連付けて記憶するリズム記憶手段と、端末装置からメロディ要素情報を受信するメロディ要素情報受信手段と、端末装置から映像情報を受信する映像情報受信手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ要素情報受信手段により受信されたコード情報に従って、音高情報記憶手段により該コード情報に関連付けて記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定する音順序情報特定手段と、メロディ要素情報受信手段により受信されたリズム情報に従って、音順序情報特定手段により特定された複数の音に、リズム情報記憶手段によりリズム情報に関連付けて記憶された音の強弱及び/又は長さの規則性をもとに、音の強弱及び/又は長さに関する情報を付与することで、メロディ情報を合成するメロディ情報合成手段と、メロディ情報合成手段により合成されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【0013】
ユーザが選択したコード及び/又はリズムなどをもとにメロディが新たに合成されるため、予め用意されているメロディを用いる場合と異なり、どのようなメロディが合成され、さらにどのような音声付映像が合成されるのかを予想するのが困難である。そのため、どのようなメロディ又は音声付映像が合成されるのだろうかというユーザの期待又は興味をかきたてることとなり、ユーザの趣向性が向上する。この場合、ユーザは端末を用いてコードを1つずつ順番に入力することも可能である。また、使用するコードを複数選択すれば、その順序はサーバ装置にて任意に特定することとしても良い。さらに、ユーザが好みのジャンルを選択すれば、予め定められた、そのジャンルに適合した複数のコードとリズムを選択したものとして、選択されたコードとリズムを用いてメロディを合成することとしても良い。
【0014】
本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段を備え、サーバ装置が、複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、メロディ情報記憶手段に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定するメロディ情報指定手段と、複数の映像に関する映像情報を記憶する映像情報記憶手段と、映像情報記憶手段により記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定する映像情報指定手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ情報指定手段により指定された一つ又は複数のメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成する音声合成手段と、映像情報指定手段により指定された一つ又は複数の映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
に関する。
【0015】
ユーザが入力した歌詞に対して、一つ又は複数のメロディ、及び一つ又は複数の映像をもとに音声付映像が合成されるため、ユーザは歌詞入力を行うだけで音声付映像の合成が可能である。特にメロディ及び/又は映像が複数存在する場合、一つの歌詞から複数の音声付映像が合成されることとなる。このため、入力した歌詞をもとにユーザが好みの音声付映像を合成したいが、いずれのメロディ又は映像が良いかの判断が難しい場合、ユーザが好みの音声付映像を合成するまでに一つずつ合成処理を行わなくてもすむ。したがって、ユーザの試行錯誤の回数を減らし、好みの音声付映像を合成することが容易になる。
【0016】
本発明では、サーバ装置は、メロディを構成する複数の音の数に関する音数情報を、メロディと関連付けて記憶する音数記憶手段と、歌詞情報受信手段により受信した歌詞情報、及び、音数記憶手段により前記メロディと関連付けて記憶された音数情報をもとに、前記歌詞から計算される音の数と、前記メロディを構成する音の数が一致するか否かを判定する音数判定手段と、音数判定手段により判定された結果に関する音数判定情報を端末装置に送信する音数判定情報送信手段とを備え、端末装置は、サーバ装置から受信した音数判定情報をもとに、音数判定手段により判定された結果を端末装置の表示画面に表示する音数判定情報表示手段を備えることが好ましい。
【0017】
一般に、歌詞として入力されたテキストの文字数と、1つのフレーズ、または1つのメロディに入力可能な音数が異なる場合、最終的に合成された音声が不自然なものとなる可能性がある。ユーザが入力したテキストの文字数と、1フレーズに入力可能な音数が一致しているか否かをユーザがその都度確認すると、ユーザに過度の負担となる。しかし、サーバ装置において音数の判定を行い、その判定結果を端末装置に送信して表示させることで、ユーザの負担を軽減することが可能となり、また、合成された音声が不自然なものとなることを防止することが可能となる。
【0018】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段とを備え、サーバ装置が、端末装置からメロディ情報を受信するメロディ情報受信手段と、端末装置から映像情報を受信する映像情報受信手段と、メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶するフレーズ歌詞情報記憶手段と、フレーズ歌詞情報記憶手段に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成手段と、メロディ情報受信手段により受信されたメロディ情報、及び、歌詞合成手段により合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【0019】
本発明における音声付映像の合成において、歌詞入力のステップは、ユーザにとって最も負担の大きいステップである。このため、サーバ装置において、複数のフレーズ毎の歌詞から任意に選択されたフレーズ毎の歌詞をもとに歌詞を合成させることで、歌詞入力というユーザにとっての負担をなくすことにより、ユーザの利便性が向上する。
【0020】
本発明では、サーバ装置は、ユーザと関連付けられた、音声付映像を合成するための映像に関するユーザ映像情報を記憶するユーザ映像情報記憶手段を備え、音声付映像合成手段は、ユーザ映像情報記憶手段に記憶されたユーザ映像情報、及び、音声合成手段により合成された音声をもとに、ユーザと関連付けられた映像に合成された音声が付随された音声付映像を合成することを特徴とすることが好ましい。
【0021】
ユーザと関連付けられた映像をもとに音声付映像が合成されるので、ユーザは自分が所有する独自の映像をもとに音声付映像を合成することが可能となり、音声付映像の合成においてユーザのオリジナリティを反映することができ、よりユーザの趣向性を高めることができる。
【0022】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するためのメロディの編曲に関するアレンジ情報をサーバ装置に送信するアレンジ情報送信手段とを備え、サーバ装置は、端末装置からアレンジ情報を受信するアレンジ情報受信手段とを備え、音声合成手段は、メロディ情報、アレンジ情報、及び、歌詞情報をもとに、アレンジ情報に従って前記メロディを編曲することで得られる編曲メロディに、前記歌詞が伴われた音声を合成することが好ましい。
【0023】
このような構成とすることで、ユーザが好みのアレンジを選択し、選択されたアレンジに従ってメロディが編曲され、編曲されたメロディに歌詞が伴われた音声が合成されるため、よりユーザの趣向性を向上させることができる。
【0024】
本発明では、サーバ装置は、複数のメロディに関するメロディ情報と、該メロディ情報と関連付けて、該メロディを構成する各フレーズに適合するコードに関する適合コード情報を記憶する適合コード情報記憶手段と、楽器及び/又は声部に関する伴奏を合成するための音の音色に関する伴奏情報を記憶する伴奏情報記憶手段と、適合コード情報記憶手段により記憶された適合コード情報に従って、伴奏情報記憶手段により記憶された伴奏情報をもとに、フレーズ毎に該適合するコードに沿った、該音色を有する伴奏フレーズを合成し、合成した伴奏フレーズを組み合わせることで伴奏を合成する伴奏合成手段と、音声付映像合成手段が、映像情報及び音声合成手段により合成された音声をもとに、映像に合成された音声が付随された音声付映像を合成する際に、さらに、伴奏合成手段により合成された伴奏を伴った音声付映像を合成することが好ましい。
【0025】
音声合成の対象となっているメロディをもとに伴奏が合成され、合成された伴奏が伴った音声付映像が合成されるため、音声付映像の音楽性を向上させることができ、音声付映像を合成しようとするユーザの意欲をよりいっそう高めることが可能となる。
【0026】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するための声の音色を含む声質に関する声質情報をサーバ装置に送信する声質情報送信手段とを備え、サーバ装置は、端末装置から声質情報を受信する声質情報受信手段とを備え、音声合成手段は、メロディ情報、声質情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記声質を有する音声を合成することが好ましい。
【0027】
このような構成とすることで、ユーザが好みの声質を選択し、選択された声質に従って歌詞が伴われた音声が合成されるため、よりユーザの趣向性を向上させることができる。
【0028】
本発明において、前記映像情報は、映像に登場するキャラクタに関するキャラクタ情報と関連付けて記憶されており、サーバ装置は、音声付映像を合成するための声の音色を含む声質に関する声質情報を、キャラクタ情報と関連付けて記憶するキャラクタ声質情報記憶手段を備え、映像情報送信手段は、ユーザの操作に従って選択された、キャラクタ情報と関連付けられた映像情報をサーバ装置に送信し、音声合成手段は、メロディ情報、映像情報受信手段により受信された映像情報に含まれるキャラクタ情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、キャラクタと関連付けられた声質を有する音声を合成することが好ましい。
【0029】
映像に登場するキャラクタと声質が関連付けられていることで、あたかも選択したキャラクタ自身の声で歌っているような音声付映像が合成される。例えば、デジタルアイドルが動画中踊りながら、デジタルアイドルにふさわしい声で歌うといった音声付映像を合成することが可能となる。そのため、映像に登場するキャラクタのキャラクタ性を高めることができ、音声付映像の合成にあたりユーザの趣向性を高めることができる。
【0030】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するための歌詞情報の変更に関する語尾情報をサーバ装置に送信する語尾情報送信手段とを備え、サーバ装置は、端末装置から語尾情報を受信する語尾情報受信手段とを備え、音声合成手段は、メロディ情報、語尾情報、及び、歌詞情報をもとに、前記歌詞の一部について語尾情報にしたがって修正された修正歌詞が、前記メロディに伴われた音声を合成することが好ましい。
【0031】
このような構成とすることで、自動的に入力した歌詞の内容が変更されるため、歌詞の入力時に特に意識をしなくても、ユーザが選択するアクターやメロディのイメージに合わせた歌詞とすることが可能となる。
【0032】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するための効果音に関する効果音情報をサーバ装置に送信する効果音情報送信手段を備え、サーバ装置は、端末装置から効果音情報を受信する効果音情報受信手段を備え、音声合成手段が、メロディ情報、歌詞情報、及び効果音情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記効果音が挿入された音声を合成することが好ましい。
【0033】
フレーズ間に挿入される「あいのて」や、拍手エフェクト、歓声エフェクトなどの効果音などが挿入された音声が合成されるため、合成された音声、及びこれを用いて合成された音声付映像の表現方法が豊富になり、よりよい音声付映像を作成したいというユーザの意欲をより一層向上させることができる。
【0034】
本発明では、サーバ装置は、前記メロディを構成する音の高さ、長さ及び/又は強弱を任意に調整することにより、該メロディを調整した調整メロディを合成する調整メロディ合成手段を備え、音声合成手段は、調整メロディ合成手段により合成された調整メロディに関する調整メロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記調整されたメロディに前記歌詞が伴われた音声を合成することが好ましい。
【0035】
通常、人が歌を歌う場合、メロディ本来の音の高さ、長さ又は強さからは微妙にずれていることが往々にしてある。そのため、音の高さ、長さ又は強さが微調整された調整メロディを音声合成に用いることで、より人間らしい歌声を合成することができる。
【0036】
本発明では、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するために用いられたメロディ、編曲、声質、歌詞又は映像とは異なる、変更メロディに関する変更メロディ情報、変更編曲に関する変更アレンジ情報、変更声質に関する変更声質情報、変更歌詞に関する変更歌詞情報、又は、変更映像に関する変更映像情報を含む変更情報をサーバ装置に送信する変更情報送信手段とを備え、サーバ装置が、音声付映像合成手段により合成された音声付映像と関連付けて、該音声付映像を合成するために用いられたメロディ情報、アレンジ情報、声質情報、歌詞情報、及び、映像情報を記憶手段する音声付映像情報記憶手段と、変更情報を端末装置から受信する変更情報受信手段と、音声付映像情報記憶手段により記憶されたメロディ情報、アレンジ情報、声質情報若しくは歌詞情報、又は、変更情報受信手段により受信された変更メロディ情報、変更アレンジ情報、変更声質情報若しくは変更歌詞情報をもとに変更音声を合成する変更音声合成手段と、音声付映像情報記憶手段により記憶された映像情報、又は、変更情報受信手段により受信された変更映像情報、及び、変更音声合成手段により合成された変更音声をもとに、前記映像又は変更映像に合成された変更音声が付随された音声付映像を再合成する音声付映像再合成手段とを備えることが好ましい。
【0037】
このような構成とすることで、ユーザは、音声付映像を合成するために用いられたメロディ、編曲、声質、歌詞又は映像とは異なる変更メロディ、変更編曲、変更声質、変更映像を選択し、変更歌詞を端末装置に入力することで、一度作成した音声付映像を変更することが可能となる。自らが作成した音声付映像について、どのメロディ、アレンジ、声質、映像を選択したか、又はどのような歌詞を入力したかを正確に覚えていなくても、音声付映像の一部を修正することで、簡便に音声付映像の再合成を行なうことができるため、よりユーザの趣向性を向上させることができる。
【0038】
本発明では、サーバ装置は、所定の条件を満たすことでユーザごとに加算されるポイントに関するポイント情報を記憶するポイント情報記憶手段と、音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成に応じて、ポイント情報記憶手段に記憶されたポイントから所定のポイントを減算するポイント減算手段とを備え、ポイント情報記憶手段に記憶されたポイントが所定の値に満たない場合に、音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成が実行されないことが好ましい。
【0039】
このような構成とすることで、音声付映像の合成・再合成が行なわれるたびに、ユーザが所有するポイントが減算され、ポイントが所定の値に満たない場合は、音声付映像の合成・再合成ができなくなるため、例えば、広告主サイトにおけるユーザ登録や商品の購入がポイントの加算条件となるように設定されているような場合、ユーザが、広告主サイトにてユーザ登録や商品の購入を行なうための動機付けとなる。
【0040】
本発明では、サーバ装置は、音声付映像合成手段により合成された音声付映像と関連付けて、音声付映像再合成手段による音声付映像の再合成の回数を記憶する再合成回数記憶手段とを備え、再合成回数記憶手段による再合成回数が所定の回数以内である場合に、ポイント減算手段によるポイントの減算が実行されず、且つ、ポイント情報記憶手段に記憶されたポイントが所定の値より大きいか否かにかかわらず、音声付映像再合成手段による音声付映像の再合成の実行が可能であることが好ましい。
【0041】
このような構成とすることで、音声付映像の再合成が所定の回数未満である場合に、ポイントが所定の値以上であるか否かにかかわらず、ポイントの減算が実行されることなく音声付映像の再合成の実行が可能となるため、ポイントを使用して音声付映像を合成した後に、合成した音声付映像をポイントを消費することなく、微修正することが可能となる。特に、歌詞がメロディと違和感なく合致しているか否かは、音声付映像の合成に慣れたユーザであっても試行錯誤が必要となるため、所定回数(例えば3回)以内であれば自由に歌詞情報の修正を可能とすることで、よりユーザが利用しやすいシステムを提供することになる。
【0042】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、サーバ装置が、端末装置からメロディ情報を受信し、端末装置から映像情報を受信し、端末装置から歌詞情報を受信し、受信されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【0043】
さらには、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、サーバ装置が、記憶部に記憶された複数のメロディに関するメロディ情報の中から、任意のメロディ情報を指定し、端末装置から歌詞情報を受信し、指定されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、記憶部に記憶された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【0044】
さらに、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び/又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信し、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、サーバ装置が、コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶部に記憶し、リズム情報と、音の強弱及び/又は長さの規則性を関連付けて記憶部に記憶し、端末装置からメロディ要素情報を受信し、端末装置から映像情報を受信する映像情報受信し、端末装置から歌詞情報を受信する歌詞情報受信し、受信されたコード情報に従って、該コード情報に関連付けて記憶部に記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定し、受信されたリズム情報に従って、特定された複数の音に、リズム情報に関連付けて記憶部に記憶された音の強弱及び/又は長さの規則性をもとに、音の強弱及び/又は長さに関する情報を付与することで、メロディ情報を合成し、合成されたメロディ情報、及び、受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成し、受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【0045】
さらに、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信し、サーバ装置が、複数のメロディに関するメロディ情報を記憶部に記憶し、記憶部に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定し、複数の映像に関する映像情報を記憶部に記憶し、記憶部に記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定し、端末装置から歌詞情報を受信し、指定された一つ又は複数のメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成し、指定された一つ又は複数の映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【0046】
さらに、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、サーバ装置が、端末装置からメロディ情報を受信し、端末装置から映像情報を受信し、メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶部に記憶し、記憶部に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成し、受信されたメロディ情報、及び、合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【図面の簡単な説明】
【0047】
【図1】本発明の実施の形態にかかる音声付映像合成システムを表す図である。
【図2】本発明の実施の形態にかかるユーザ情報テーブルを表す図である。
【図3】本発明の実施の形態にかかるメロディ情報テーブル及び映像情報テーブルを表す図である。
【図4】本発明の実施の形態にかかる音声付映像情報テーブルを表す図である。
【図5】本発明の実施の形態にかかる音声付映像を合成する際の処理についてのフローチャートの一例である。
【図6】本発明の実施の形態にかかるポイント処理、メロディカテゴリ選択処理、メロディ選択処理、及びアレンジ選択処理についてのフローチャートの一例である。
【図7】本発明の実施の形態にかかる歌詞情報の決定処理についてのフローチャートの一例である。
【図8】本発明の実施の形態にかかる声質・あいのて選択処理及び映像選択処理についてのフローチャートの一例である。
【図9】本発明の実施の形態にかかる音声付映像変更情報にもとづいた音声付映像の合成処理についてのフローチャートの一例である。
【図10】ユーザ端末の表示画面の変化を表す図である。
【発明を実施するための形態】
【0048】
以下、添付図面を参照して、本発明の実施の形態について説明する。図1は、本発明の実施の形態で適用される音声付映像合成システムの概要を示す図である。システムにおいて、サーバ装置1は、通信ネットワーク4を介して、ユーザ端末2、広告主サーバ3に接続されている。サーバ装置1は、CPU(Central Processing Unit)11と、メインメモリ12と、HDD(Hard Disk Drive)13と、通信インターフェイス14とを備えている。
【0049】
CPU11は、HDD13上に格納されたプログラムを実行し、装置本体の制御を行なう。メインメモリ12は、CPU11のワークエリアであり、一般的にはRAM(Random Access Memory)で構成される。また、HDD13は、本発明において実行されるプログラムやデータを保存するための記憶領域として用いられる。HDD13に記憶されたプログラム及びデータは、実行時にCPU11の制御のもとに読み出されて、メインメモリ12にロードされる。CPU11は、メインメモリ12にロードされたプログラム及びデータを処理する。CPU11が処理を行っている間の中間的なデータは、メインメモリ12に記憶される。通信インターフェイス14は、無線又は有線により通信ネットワーク4に接続されており、ユーザ端末2及び広告主サーバ3と通信を行なうことが可能である。
【0050】
なお、本実施の形態では、サーバ装置1は一つのサーバ装置で構成されることとしているが、サーバ装置1は二つ以上のサーバ装置から構成されていても良い。例えば、サーバ装置1は、音声付映像の合成処理を行なう合成処理サーバ、ユーザがウェブサイトを閲覧するためにユーザ端末2からアクセスを行なうWebサーバなどから構成されるサーバ群であっても良い。
【0051】
本発明にかかるユーザ端末2としては、パーソナルコンピュータ、携帯電話を用いることができる。ユーザ端末2は、ユーザがユーザ端末2を操作するための操作部(操作ボタン、キーボード等)と、ユーザが所定の情報を見るために設けられた表示画面を有しており、また、サーバ装置1と無線又は有線による通信が可能である。ユーザはユーザ端末2の操作部を操作することで、インターネット上の広告掲載サイト(サーバ装置1)へアクセスを行なう。そして、ユーザが選択したメロディ情報、アレンジ情報、声質情報、あいのて情報、映像情報、及び、ユーザが入力した歌詞情報がユーザ端末2からサーバ装置1に送信される。サーバ装置1では、ユーザ端末2から受信したメロディ情報、アレンジ情報、声質情報、映像情報、あいのて情報、歌詞情報等をもとに音声付映像を合成する。
【0052】
図2は、本発明の実施の形態にかかるユーザ情報テーブルの一例を表す図である。ユーザ情報テーブル20は、サーバ装置1のHDD13に設定される。ユーザ情報テーブル20には、ユーザ自ら設定するユーザ名21、ユーザが使用するユーザ端末2の識別番号を示す端末ID22、ユーザのメールアドレス23、ユーザのポイント24を含む情報が記憶されている。端末ID22は、ユーザ端末2が、携帯電話であれば携帯電話機が有する固体識別番号が用いられ、パーソナルコンピュータであればIPアドレスなどが用いられる。
【0053】
本実施の形態において、ユーザが広告掲載サイトを閲覧するためにサーバ装置1にログインする場合は、ユーザがメールアドレスをユーザ端末2に入力すると、入力されたメールアドレスがユーザ端末2の端末IDと共にサーバ装置1に送信されるような構成とすることができる。この場合、サーバ装置1は、通信インターフェイス14を介して端末ID及びメールアドレスを受信し、受信した端末ID及びメールアドレスの両者が一致するユーザが、ユーザ情報テーブル20に存在するか否かを参照する。両者が一致するユーザが存在する場合は、ログインの認証がされる。また、ログインはユーザの携帯電話の端末ID22を使用して自動的にログインの可否を判定するような構成とすることもできる。ユーザの有する携帯電話の端末IDがユーザ情報テーブル22に記憶されている端末ID22と一致する場合はログインが可能となり、一致しない場合は、ユーザがメールアドレスとパスワードを入力することで手動でのログインが行なわれる。
【0054】
本実施の形態において、ユーザ情報テーブル20には、ユーザごとにポイント24が記憶されている。ポイント24はユーザの行動に応じて加算又は減算される値である。例えば、ユーザが広告掲載サイトにて設定されたハイパーリンクから広告主サーバ3へアクセスし、広告主が提供する広告主サイトを閲覧した場合や、広告主サイトにおいて商品購入、ユーザ登録、メールマガジン登録、又は資料請求等を行なった場合などに、ユーザの商品購入等に関する履歴情報が広告主サーバ3からサーバ装置1に送信される。なお、履歴情報は広告主サーバ3から、広告配信システム等の他のサーバを介して、サーバ装置1に送信されることとしても良い。ユーザの履歴情報を受信したサーバ装置1では、CPU11が受信した履歴情報を解析し、ユーザが有するポイント24が加算される。加算されるポイントは、ユーザの行動の内容に応じて異なる値としてもよい。また、ポイント24は、ユーザの要求に応じて音声付映像が合成される場合に、所定の値が減算される。なお、ユーザはプリペイド方式の電子マネーを使用して、ポイント24を購入することができる。また、ユーザはポイントをどのように取得し、何に使ったかという履歴を、ユーザ端末2を用いて確認することができる。また、ポイント24はクレジットカードにより購入することも可能であり、本発明の音声付映像合成システムの運営者と提携する事業者が顧客へ付与するポイントを利用して購入することも可能である。
【0055】
次に、本発明の実施の形態にかかる音声付映像を合成する処理において用いられる、メロディ情報テーブルについて説明する。メロディ情報テーブル30は、サーバ装置1のHDD13に設定される。図3(a)は、メロディ情報テーブル30を表す図である。メロディ情報テーブル30は、後述する音声合成処理の際に用いられるメロディに関する情報を記憶するもので、ユーザは、メロディ情報テーブル30に記憶されたメロディの中から任意のメロディを選択することが可能である。
【0056】
メロディ情報テーブル30には、カテゴリ31、メロディ名32、メロディID33、フレーズ数34、第1フレーズ文字数35等が記憶されている。カテゴリ31は、複数のメロディを分類するために設定されたものであり、すべてのメロディはいずれかのカテゴリ31(例えば、「愛の歌」、「悲しい歌」等)に属している。メロディ名32は、各メロディに付与された名称である。メロディ名32が選択されると、フレーズ数34や第1フレーズ数35は一意に特定される。
【0057】
メロディID33は、一つの音楽データを特定するための識別番号であり、メロディ名32及びアレンジが選択されることにより特定される。音楽データには、メロディを構成する音の高さ、長さ、強さ(大きさ)及びその順序に関する音符情報が含まれる。後述する音声合成処理では、メロディID33で特定された音楽データに含まれる音符情報を参照し、音声が合成される。メロディID33は1つのメロディに対して複数のメロディIDが記憶されている。すなわち、メロディをどのように編曲(アレンジ)するかによって、メロディは同じでも、そのリズムやハーモニーは異なるため、編曲の方法ごとにメロディID33が設定されている。具体的には、ロック、フォーク、ジャズ、クラッシク等への編曲の方法ごとにメロディID33が設定されている。したがって、ユーザの選択に応じて、メロディは同じでもまったく異なる曲調の音声を合成することが可能となる。
【0058】
また、メロディごとに設定されたフレーズ数34及び第1フレーズ文字数35は、後述する歌詞決定処理において参照される情報である。ここで、フレーズとは、メロディを構成する部分であり、メロディと同様、それぞれのフレーズには音符情報が含まれる。なお、図3(a)では図示していないが、メロディ情報テーブル30には、第2フレーズ文字数、及びそれ以降のフレーズ文字数についても同様に設定されており、フレーズ数34、第1フレーズ文字数35及び第2フレーズ以降の文字数にかかる情報を合わせたものがフレーズ情報である。例えばメロディ名32が「愛してます」であるメロディの場合、フレーズ数34は「3」となっているため、「愛してます」のメロディは第1フレーズ文字数から第3フレーズ文字数までの情報が、メロディ情報テーブル30において記憶されている。後述する音声合成処理において、音符情報に歌詞をのせた音声が合成されるため、音符情報に含まれる各フレーズの音の数と、各フレーズにのせることが可能な文字数の上限は、対応付けられている。メロディ情報テーブル30に設定される各フレーズのフレーズ文字数は、後述する歌詞決定処理において、各フレーズに対して入力することが可能な文字数の上限を表す。図3(a)に図示されていない、第2フレーズ文字数、及びそれ以降についても同様である。
【0059】
なお、音声合成処理において、歌声に伴奏や効果音等が付与された一つの音楽データを合成することとしてもよいが、歌声データと伴奏データ、又は歌声と効果音などの時間的な関連付けをするのみとし、音声合成処理に続く音声付映像合成処理において、映像データとまとめて一つの音声付映像データを合成するように構成してもよい。
【0060】
なお、メロディ情報テーブル30には、さらにメロディのフレーズ毎に入力可能なモーラ数(音数)が記憶されていてもよい。本明細書において、モーラ数とは、入力された歌詞の文字数から数えられる音の数である。例えば、ほとんどの仮名文字が1文字で1音と数えられるが、「ちゃ」「ちゅ」「ちょ」のような拗音は、歌詞の文字上は2文字でもメロディの音符としては1音と数えられる。このほか、「ー」(長音)、「っ」(促音)、「ん」(撥音)はそれぞれ独立して1音として数える。モーラ数の上限は、文字数と同様に、メロディのフレーズ毎に記憶される。
【0061】
次に、本発明の実施の形態にかかる音声付映像を合成する処理において用いられる、映像情報テーブルについて説明する。映像情報テーブル40は、サーバ装置1のHDD13に設定される。図3(b)は、映像情報テーブル40を表す図である。映像情報テーブル40は、後述する音声合成処理の際に用いられる映像に関する情報を記憶するもので、ユーザは、映像情報テーブル40に記憶された映像の中から任意の映像を選択することが可能である。
【0062】
映像情報テーブル40には、アクター41、ふるまい42、映像ID43が記憶されている。アクター41は、音声付映像合成処理において合成される映像の中で動作表示されるキャラクタ(例えば、「ファミリー」、「サラリーマン」、「OL」等)を表したものである。ふるまい42は、アクター41の動作のパターン(例えば、「ハッピー」、「ムカツク!!」等)を表したものであり、それぞれのアクター41に対して1以上のふるまい42が設定されている。
【0063】
映像ID43は、一つの映像データを特定するための識別番号であり、音声付映像の合成処理では、映像ID43で特定された映像データをもとに、音声付映像が合成される。映像ID43は、後述する映像選択処理において、ユーザが同じアクター41及びふるまい42を選択した場合であっても、選択した背景が異なれば映像ID43は異なる。したがって、アクター41及びふるまい42の1つの組み合わせに対して複数の映像IDが記憶されている。具体的には、街、海等の背景ごとに映像ID43が設定されている。
【0064】
図4は、本発明の実施の形態にかかる音声付映像情報テーブルの一例を表す図である。後述する音声付映像合成処理において合成された音声付映像に関する情報が、音声付映像情報テーブル50に記憶される。音声付映像情報テーブル50には、音声付映像ID51、作成ユーザ名52、メロディID53、声質54、あいのて55、語尾56、映像ID57、タイトル58、歌詞59、歌詞変更回数60、URL61を含む情報が記憶されている。
【0065】
音声付映像ID51は、音声付映像がユーザの選択に従って合成された際に一意的に付与される識別番号である。作成ユーザ名52は音声付映像の合成を行なったユーザの名前が記憶されており、図2におけるユーザ名21と同じ情報が記憶される。メロディID53は、後述するメロディ選択処理において選択されたメロディIDが記憶されたものである。メロディ選択処理においては、ユーザがユーザ端末2を操作してメロディが選択され、メロディID33が特定される。そして、特定されたメロディID33をもとに音声合成処理が行なわれる。音声付映像合成処理において音声付映像が合成されると、メロディID33が、音声付映像情報テーブル50においてメロディID53として記憶される。
【0066】
声質54は、声の性質を表すもので、声の音色に関する情報であり、通常は音声波形として記憶されている。声質54をもとに音声合成を行うことで、合成される音声に、はっきりとした声や柔らかい声などの性質が付与される。人が発声する音は、例えば母音と子音からなる複数の音素の組み合わせで構成されている。それぞれの音素は音声波形によって表されるが、同じ音素であっても、それを表す音声波形には個人差がある。ある人物(例えば、ユーザ)の声から、各音素に対応する音声波形を抽出してデータベースに記憶させ、歌詞として入力された文字情報に従って連続的にこれらの音声波形を組み合わせることで、その人物の声質にもとづいた音声が合成される。本実施の形態では、声質54として、「男性」、「女性」、「子供」、「アニメ声(アニメのキャラクタのようなかわいらしい声)」、「デス声(ダミ声・悪声・がなり声)」などが設定されているが、ここに挙げた以外の声質も設定可能である。例えば、声質として有名人や歴史上の人物の声質を再現したものを設定する、又はユーザの声の音声データから音素を表す音声波形を抽出してデータベース化し、音声付映像を合成する際の声質として利用可能とすることも可能である。さらに、複数の声質を利用可能とすることで、ハーモニーやデュエットを合成可能なように設定してもよい。ユーザがユーザ端末2において声質54を選択すると、選択された声質54をもとに音声合成処理が行なわれる。そして、音声付映像合成処理において音声付映像が合成されると、声質54が音声付映像情報テーブル50において記憶される。また、声質54にエフェクトを加えることで、音声合成の品質を向上させることも可能である。
【0067】
あいのて55は、音声付映像に挿入される効果音であり、音声合成処理にて合成された音声のフレーズ間に挿入される。あいのて55には、「すいません」、「赤ちゃん」などが設定されており、例えば、あいのて55として「すいません」が選択された場合、音声合成処理において、それぞれのフレーズの最後の音と次のフレーズの最初の音の間に「すいません」と早口でしゃべる効果音が挿入される。ユーザがユーザ端末2においてあいのて55を選択すると、選択されたあいのて55をもとに音声合成処理が行なわれる。そして、音声付映像合成処理において音声付映像が合成されると、あいのて55が音声付映像情報テーブル50において記憶される。なお、その他さまざまな効果音を用意し、選択された効果音をもとに音声合成処理を行うようにしてもよい。その他の効果音の例としては、歓声エフェクトや拍手エフェクトなどが挙げられる。
【0068】
語尾56は、歌詞の語尾に関する設定を表すもので、後述する歌詞決定処理において入力された歌詞の語尾を自動的に修正するものである。例えば、語尾56が「だべさ」である場合、「・・・です」と入力された歌詞に対して、「・・・だべさ」と自動的に変化し、「じゃけん」である場合、「・・・である」と入力された歌詞が、「・・・じゃけん」と自動的に変化する。どの単語がどのように修正されるかについては、語尾56ごとに予め設定がされている。語尾56の設定を行なうことで、自動的に歌詞が修正されるため、歌詞の入力時に特に意識をしなくても、ユーザが選択するアクターやメロディのイメージに合わせた歌詞とすることが可能となる。ユーザがユーザ端末2において語尾56を選択すると、選択された語尾56をもとに音声合成処理が行なわれる。そして、音声付映像合成処理において音声付映像が合成されると、語尾56が音声付映像情報テーブル50において記憶される。
【0069】
映像ID57は、後述する映像選択処理において選択された映像IDが記憶されたものである。映像選択処理においては、ユーザがユーザ端末2を操作して映像が選択され、映像ID57が特定される。そして、特定された映像ID57をもとに音声付映像合成処理において音声付映像が合成されると、映像ID57が、音声付映像情報テーブル50において映像ID57として記憶される。
【0070】
タイトル58及び歌詞59は、後述するタイトル決定処理及び歌詞決定処理において決定された音声付映像のタイトル及び歌詞を記憶したものである。歌詞決定処理においては、メロディ選択処理によって選択されたメロディ情報をもとに、メロディ情報テーブル30からフレーズ数34及びフレーズ文字数を含む情報が、フレーズ情報としてサーバ装置1からユーザ端末2に送信される。フレーズ情報を受信したユーザ端末2は、フレーズ情報をもとにユーザからの歌詞入力を受け付け、これを歌詞情報としてサーバ装置1に送信する。歌詞情報を受信したサーバ1は、フレーズ文字数に関する処理を行ない、歌詞情報を決定する。タイトル決定処理及び歌詞決定処理においてそれぞれ決定されたタイトル及び歌詞情報は、後述する音声合成処理及び音声付映像合成処理において使用される。音声付映像合成処理において音声付映像が合成されると、使用されたタイトル及び歌詞は、音声付映像情報テーブル50においてそれぞれタイトル58、及び歌詞59として記憶される。
【0071】
歌詞変更回数60は、音声付映像ID51について、ユーザの要求に従って歌詞変更が行なわれた回数を示す情報である。ここで、歌詞変更とは、ユーザが入力した歌詞59の変更だけでなく、タイトル58の変更も含む概念である。また、URL61は、音声付映像合成処理によって合成された音声付映像が閲覧可能なURLを表す情報である。なお、URL61は、音声付映像を合成したユーザのメールアドレス23に対し、合成が完了した旨を通知するメールを送信する際に、併せて通知される。
【0072】
次に、本発明の実施の形態にかかる音声付映像を合成する際の処理について説明する。図5は、音声付映像を合成する際の処理についてのフローチャートである。まず、ユーザ端末2がサーバ装置1へ接続し、広告掲載サイト1へログインが行なわれる。ユーザがユーザ端末2を操作し選択したコースを入力すると、ユーザ端末2はコース選択を受け付ける。本発明の実施の形態におけるコースとは、音声付映像を合成するまでの一連の処理手順が定められたものであり、例えば、「曲先コース」又は「歌詞先コース」の2つのコースが用意されている。
【0073】
ユーザ端末2から選択されたコース(ここでは「曲先コース」がユーザによって選択されたものとする)がサーバ装置1に送信されると、ユーザが有するポイントの減算処理が実行される(ステップS1)。ステップS1のポイント減算処理では、ユーザ情報テーブル20のポイント24の値が更新される。なお、ここでは、コースが選択された直後にポイントの減算処理が実行される構成としているが、減算タイミングは、音声付映像の合成後としても良い。ポイントの減算処理が実行されると、メロディカテゴリ選択処理が実行される(ステップS2)。メロディカテゴリ選択処理は、音声付映像の合成に使用するメロディのカテゴリを、ユーザの選択に従って特定するための処理である。続いて、メロディ選択処理が実行される(ステップS3)。メロディ選択処理は、選択されたカテゴリに属するメロディの中から、音声付映像の合成に使用するメロディをユーザの選択に従って特定するための処理である。次に、アレンジ選択処理が実行される(ステップS4)。アレンジ選択処理は、音声合成処理におけるメロディの編曲方法をユーザの選択に従って特定するための処理である。次いで、歌詞決定処理が実行される(ステップS5)。歌詞決定処理は、音声付映像の合成に使用するための歌詞をユーザに入力させ、入力された歌詞を加工して歌詞情報として決定するための処理である。続いて、声質・あいのて選択処理が実行される(ステップS6)。声質・あいのて選択処理は、音声合成処理において合成される音声の声質及びあいのてをユーザの選択に従って特定するための処理である。続いて、映像選択処理が実行される(ステップS7)。映像選択処理は、音声付映像の合成に使用する映像をユーザの選択に従って特定するための処理である。そして、タイトル決定処理が実行される(ステップS8)。タイトル決定処理は、合成される音声付映像のタイトルをユーザに入力させるための処理である。
【0074】
ステップS8が終了すると、サーバ装置1において音声合成処理が実行される(ステップS9)。音声合成処理は、ステップS2及びS3において選択されたメロディ情報、ステップS4において選択されたアレンジ情報、ステップS5において決定された歌詞情報、及び、ステップS6において選択された声質情報・あいのて情報をもとに、音声を合成する処理である。
【0075】
ステップS9が終了すると、合成された音声及び映像選択処理で選択された映像情報をもとに音声付映像が合成される(ステップS10)。ステップS10では、音声付映像が合成されるとともに、合成された音声付映像に関する情報が、タイトル決定処理で決定されたタイトルと関連付けられて音声付映像情報テーブル50に記憶される。ステップS10において音声付映像が合成されると、合成された音声付映像はサーバ装置1におけるHDD13に保存され、インターネットで閲覧が可能なようにアップロード処理される(ステップS11)。ステップS11において音声付映像がアップロードされると、音声付映像の合成を行なったユーザのメールアドレスに対して、その音声付映像のURL61が記載されたメールがサーバ装置1から送信される(ステップS12)。音声付映像の合成には数分程度の時間を要することがあるため、音声付映像の合成が完了したことのユーザへの通知をメールの送信により行なう。ユーザは、ユーザ端末2においてサーバ装置1から送信されたメールを受信し、メール中に記載されたURL61にアクセスすることで、合成された音声付映像を視聴することができる。なお、音声付映像の作成が、ユーザの選択又は入力を受け付けるステップS2〜S8までのいずれかで中断した場合は、途中まで選択入力された情報がサーバ装置1において記憶されるように構成してもよい。この場合、次に音声付映像の作成を再開した時に、前回選択入力された情報がサーバ装置1からユーザ端末2に送信され、ユーザが各ステップにおいて選択入力されるときにデフォルト表示されるよう構成することが可能である。又は、前回中断したところから音声付映像の作成を再開するように構成してもよい。
【0076】
図5では、ステップS2〜S8までの処理を決まった順序で行なうこととしたが、ステップS2のメロディカテゴリの選択からステップS8のタイトル決定処理までは必ずこの順序で行なう必要はなく、適宜、順序を変更することも可能である。また、ユーザがいずれの項目から順番に選択するかについて任意に決定できるような構成とすることも可能である。例えば、映像を選択した後に声質・あいのての選択を行ない、メロディ及びアレンジを選択し、最後に歌詞の入力を行なうといったことも可能である。この場合は、どの項目から入力するかについての選択画面がユーザ端末に表示され、ユーザが選択を行なう。ユーザが入力する各項目については、あらかじめデフォルト値が入力または選択されているため、仮に、ユーザが一部の項目についての選択を行なわなかった場合でも、デフォルト値を用いて音声付映像を合成することが可能である。
【0077】
以下、ステップS1〜S4のポイント処理、メロディカテゴリ選択処理、メロディ選択処理、及びアレンジ選択処理について、図6、図10を用いて詳しく説明する。図6は、本発明の実施の形態にかかるポイント処理、メロディカテゴリ選択処理、メロディ選択処理、及びアレンジ選択処理についてのフローチャートの一例である。図10は、ユーザ端末の表示画面の変化を表す図である。まず、ユーザから音声付映像の合成処理の開始要求がユーザ端末2からサーバ装置1へ送信される(ステップS21)。ここで、開始要求とは、ユーザによるコースの選択が該当する。ユーザ端末2の表示画面70には、図10(a)のように、「曲先コース」、「歌詞先コース」の2つのコースが表示され、ユーザはこの中から希望するコースを選択する。ここでは、「曲先コース」が選択され、このコースの開始が要求された場合について説明する。
【0078】
サーバ装置1が、ユーザ端末2から開始要求を受信する(ステップS22)と、選択されたコースに応じて、ユーザが有するポイントの減算処理が実行される(ステップS23)。続いて、サーバ装置1は、メロディ情報テーブル30に記憶された、メロディが属するカテゴリ31に記憶されたカテゴリに関するリスト(以下、カテゴリリストという)をユーザ端末2に送信する(ステップS24)。ユーザ端末2は、サーバ装置1から送信されたカテゴリリストを受信し(ステップS25)、これを表示画面70に表示させる。図10(b)のように、表示画面70には「愛の歌」、「悲しい歌」等のカテゴリが表示される。ユーザは、表示画面70に表示された複数のカテゴリの中から、一つのカテゴリを選択する。ユーザからのカテゴリの選択入力をユーザ端末2で受け付ける(ステップS26)と、ユーザ端末2は、選択されたカテゴリに関する情報をサーバ装置1に送信する(ステップS27)。
【0079】
サーバ装置1は、選択されたカテゴリに関する情報をユーザ端末2から受信する(ステップS28)と、メロディ情報テーブル30の情報をもとに、選択されたカテゴリに属するメロディに関するリスト(以下、メロディリストという)を、ユーザ端末2に送信する(ステップS29)。例えば、「愛の歌」がカテゴリ31として選択された場合は、メロディ情報テーブル30の「愛の歌」のカテゴリ31に属している「愛してます」、「今すぐ会いたい」等がメロディリストに含まれる。ユーザ端末2は、サーバ装置1からメロディリストを受信する(ステップS30)と、これを表示装置70に表示させる。表示画面70には、図10(c)のように「愛してます」、「今すぐ会いたい」等のメロディ名32が表示される。ユーザは、ユーザ端末2に表示されたメロディリストに含まれる複数のメロディの中から一つのメロディを選択する。ユーザがメロディを選択する際にはメロディを試聴することも可能である。ユーザがメロディを選択する際には、どれくらいの文字数(モーラ数)を入力できるかがメロディ選択の判断基準となるため、メロディリストにおいてメロディ毎にモーラ数を表示してもよい。また、メロディリストで、メロディをモーラ数の少ない順又は多い順にソートして表示してもよい。ユーザからのメロディの選択入力をユーザ端末2で受け付ける(ステップS31)と、ユーザ端末2は、選択されたメロディに関するメロディ選択情報をサーバ装置1に送信する(ステップS32)。
【0080】
サーバ装置1は、メロディ選択情報をユーザ端末2から受信する(ステップS33)と、メロディ情報テーブル30の情報をもとに、選択されたメロディに設定されているアレンジに関するリスト(以下、アレンジリストという)をユーザ端末2に送信する(ステップS34)。アレンジリストは、メロディごとに異なるものであっても良く、同じものであっても良い。ユーザ端末2は、サーバ装置1からアレンジリストを受信する(ステップS35)と、これを表示画面70に表示させる。表示画面70には、図10(d)のように「ロック」、「フォーク」、「ジャズ」等のアレンジの方法が表示される。ユーザは、ユーザ端末2に表示されたアレンジリストに含まれる複数のアレンジの中から一つのアレンジを選択する。ユーザがアレンジを選択する際には編曲されたメロディを試聴することも可能である。ユーザからのアレンジの選択入力をユーザ端末2で受け付ける(ステップS36)と、ユーザ端末2は、選択されたアレンジに関するアレンジ選択情報をサーバ装置1に送信する(ステップS37)。サーバ装置1がアレンジ選択情報をユーザ端末2から受信する(ステップS38)と、サーバ装置1のCPU11は、メロディ選択情報及びアレンジ選択情報をもとに、メロディ情報テーブル30を参照し、メロディID33を特定する。
【0081】
次に、ステップS5の歌詞決定処理について、図7、図10を用いて説明する。図7は、本発明の実施の形態にかかる歌詞決定処理についてのフローチャートの一例である。まず、サーバ装置1のCPU11は、メロディ選択処理で受信したメロディ選択情報をもとに特定されたメロディについて、メロディ情報テーブル30を参照し、フレーズ数34及び、各フレーズのフレーズ文字数が抽出される(ステップS41)。抽出されたフレーズ情報は、ユーザ端末2に送信される(ステップS42)。ユーザ端末2はサーバ装置1からフレーズ情報を受信する(ステップS43)と、受信したフレーズ情報に対応した入力フォームが表示画面70に表示される。
【0082】
表示画面70には、図10(e)のように、フレーズごとに歌詞を入力するためのテキスト入力欄がフレーズ数34に合わせて表示される。例えば、フレーズ数34が「3」であるメロディの場合は、第1フレーズ、第2フレーズ、第3フレーズまでのテキスト入力欄が設けられる。なお、例えば、図10(e)のように、第1フレーズのフレーズ文字数が3、第2フレーズのフレーズ文字数が4、第3フレーズのフレーズ文字数が6である場合、それぞれのフレーズ文字数に対応したテキスト入力欄が設けられてもよい。また、各フレーズのテキスト入力欄の近傍(例えば上側や左側)に、各フレーズのフレーズ文字数を表示して、ユーザがフレーズ文字数を把握しやすいようにすることも可能である。ユーザは、ユーザ端末2を操作して、音声付映像の各フレーズの歌詞を入力する。ユーザ端末2が、入力されたフレーズごとの歌詞についてテキスト入力を受け付けると(ステップS44)、受け付けられたテキスト情報が、歌詞情報としてサーバ装置1に送信される(ステップS45)。なお、「ハッピーバースデー」のように一部分だけ(この場合は名前の部分)を入力すれば、歌詞が完成するような曲の場合は、すべての歌詞を入力させずに、入力が可能な部分を一部(名前の部分のみ)にしぼることで、音声付映像の作成を容易にすることができる。
【0083】
サーバ装置1が歌詞情報を受信する(ステップS46)と、サーバ装置1は、ステップS41で抽出されたフレーズ情報を参照し、各フレーズにテキスト入力された文字数が、そのフレーズに設定されたフレーズ文字数以下であるか否かの判定を行なう(ステップS47)。ここで、入力された歌詞の文字数がフレーズ文字数より少ない場合、少ない文字数の分だけ、空白文字が存在すると判定される。例えば、フレーズ文字数が「5」である場合に「あいうえ」の4文字しかテキスト入力されていない場合は、最後の5文字目が空白文字として判定される。なお、音声合成処理をした場合、空白文字の部分は無音となる。そして、入力された歌詞の文字数がフレーズ文字数以下であると判定された場合(ステップS47において「Yes」)、歌詞情報は、何ら変更なくそのままメインメモリ12に記憶される(ステップS49)。一方、いずれかのフレーズにおいて、対応するフレーズに入力された歌詞の文字数が、フレーズ文字数を超えている場合(ステップS47にいてNo)、入力された歌詞のうち、超えている文字数分の文字がカットされて認識され(ステップS48)、歌詞情報としてメインメモリ12に記憶される(ステップS49)。例えば、フレーズ文字数が「4」である場合に「あいうえお」の5文字がテキスト入力された場合は、最後の5文字目がカットされ、「あいうえ」のみが歌詞情報として認識される。
【0084】
なお、上記の歌詞決定処理において、モーラ数(音数)のチェック機能を備えることが好ましい。モーラ数のチェック機能とは、ユーザが入力した文字をモーラ数として数え、モーラ数の不足、超過をユーザに通知するという機能である。前述したように、ユーザが実際に入力した文字数とモーラ数が一致しない場合がある。このため、ユーザは、文字数とモーラ数の関係に留意しながら歌詞の入力を行う必要があり、負担が大きい。FLASH等の技術を利用した歌詞入力画面を用意し、モーラ数のチェック機能を備えることで、歌詞入力時のユーザの負担を軽減することができる。この場合、歌詞入力画面で、歌詞の入力と同時にモーラ数の表示を行なうようにすることも可能であり、歌詞情報の入力が終了した後に、サーバ装置1にてモーラ数を特定してユーザ端末2でモーラ数を表示するようにしても良い。
【0085】
モーラ数のチェック処理は、文字と音の対応テーブルを参照することにより実行される。対応テーブルには、ほとんどの仮名1文字に対して1音、例外として「ちゃ」「ちゅ」「ちょ」などの拗音は仮名2文字に対して1音など、文字と音の対応関係が定義されている。対応テーブルにもとづき、各フレーズに入力された文字数に対するモーラ数が数えられ、各フレーズに設定されたモーラ数の上限と比較される。入力された歌詞の文字数がフレーズのモーラ数の上限より少ない場合、少ない文字数の分だけ空白文字が存在すると判定される。比較された結果はユーザに通知され、歌詞入力時に参照することができる。この場合の歌詞入力画面は、「歌詞の入力」と、「モーラ数(音数)の確認」という機能を分離してもよい。例えば、図10(e)のように、ユーザが入力ボタンを選択して歌詞入力を開始し、確認ボタンが選択されることで入力した歌詞についてのモーラ数のチェック処理が実行される。チェック処理の実行主体はサーバ装置1でもユーザ端末2でもよい。モーラ数のチェック処理がサーバ装置1において実行される場合は、ユーザが歌詞を入力した後に確認ボタンを選択すると、入力された歌詞に関するテキスト情報がサーバ装置1に送信され、サーバ装置1においてモーラ数のチェック処理が行われる。チェック処理の結果はユーザ端末2に送信され、表示画面70に表示されることにより、ユーザに通知されることになる。なお、対応テーブルがサーバ装置1からユーザ端末2に送信され、チェック処理はユーザ端末2において実行されるように構成してもよい。この場合、図10(e)の例と異なり、「歌詞の入力」と「モーラ数(音数)の確認」という処理をユーザ端末い2にて同時に行えるようにしても良い。
【0086】
なお、FLASH等の技術を利用してモーラ数のチェック機能を設けることについて記載したが、携帯電話のユーザの多くはHTMLによる入力に慣れ親しんでいるため、HTMLにより歌詞を入力することとしても良い。
【0087】
次に、ステップS6の声質・あいのて選択処理及びステップS7の映像選択処理について、図8、図10を用いて説明する。図8は、本発明の実施の形態にかかる声質・あいのて選択処理及び映像選択処理についてのフローチャートの一例である。まず、サーバ装置1は、声質に関するリスト(以下、声質リストという)及びあいのてに関するリスト(あいのてリスト)をユーザ端末2に送信する(ステップS51)。声質リスト及びあいのてリストは、メロディごとに異なるものであっても良く、同じものであっても良い。ユーザ端末2は、サーバ装置1から声質リスト及びあいのてリストを受信する(ステップS52)と、これを表示画面70に表示させる。表示画面70には、図10(f)のように声質リストとして「男性」、「女性」等の声質が表示され、あいのてリストとして、「なし」(音声にあいのてを挿入させない場合に選択)、「犬(ワン)」等のあいのてが表示される。ユーザが声質を選択する際には声質の試聴(男性の声、女性の声等の試聴)をすることも可能である。ユーザは、ユーザ端末2に表示された声質リスト及びあいのてリストに含まれる複数の声質、あいのての中から、それぞれ一つの声質、あいのてを選択する。ユーザからの声質及びあいのての選択入力をユーザ端末2で受け付ける(ステップS53)と、ユーザ端末2は、選択された声質に関する声質選択情報、選択されたあいのてに関するあいのて選択情報をサーバ装置1に送信する(ステップS54)。そして、サーバ装置1が声質選択情報、あいのて選択情報をユーザ端末2から受信する(ステップS55)。
【0088】
続いて、サーバ装置1は、映像情報テーブル40に記憶されたアクター41に関するリスト(以下、アクターリストという)をユーザ端末2に送信する(ステップS56)。ユーザ端末2は、サーバ装置1から送信されたアクターリストを受信し(ステップS57)、これを表示画面70に表示させる。表示画面70には、図10(h)のように「ファミリー」、「サラリーマン」等のアクターリストが表示される。ユーザは、ユーザ端末2に表示されたアクターリストに含まれる複数のアクターの中から、一つのアクターを選択する。ユーザからのアクターの選択入力をユーザ端末2で受け付ける(ステップS58)と、ユーザ端末2は、選択されたアクターに関するアクター選択情報をサーバ装置に送信する(ステップS59)。
【0089】
サーバ装置1は、アクター選択情報をユーザ端末2から受信する(ステップS60)と、ふるまい42に関するリスト(以下、ふるまいリストという)をユーザ端末2に送信する(ステップS61)。ふるまいリストに含まれるふるまいは、選択したアクターごとに異なっていても良く、同じであっても良い。アクターごとにふるまいが異なる場合は、映像情報テーブル40をもとに、選択されたアクターに応じたふるまいリストが送信される。ユーザ端末2は、サーバ装置1からふるまいリストを受信する(ステップS62)と、これを表示画面70に表示させる。表示画面70には、図10(i)のように「ハッピー」(選択されたアクターの映像中の動作が幸せいっぱいの動作である)、「むかつく!!」(選択されたアクターの映像中の動作が怒りの動作である)等のふるまいが表示される。ユーザは、ユーザ端末2に表示されたふるまいリストに含まれる複数のふるまいの中から一つのふるまいを選択する。ユーザからのふるまいの選択入力をユーザ端末2で受け付ける(ステップS63)と、ユーザ端末2は、選択されたふるまいに関するふるまい選択情報をサーバ装置1に送信し(ステップS64)、サーバ装置1はふるまい選択情報をユーザ端末2から受信する(ステップS65)。
【0090】
次に、サーバ装置1は、背景に関するリスト(以下、背景リストという)をユーザ端末2に送信する(ステップS66)。背景リストに含まれる背景は、選択したアクターやふるまいごとに異なっていても良く、同じであっても良い。ユーザ端末2は、サーバ装置1から背景リストを受信する(ステップS67)と、これを表示画面70に表示する。表示画面70には、図10(j)のように複数の背景が表示される。ユーザは、ユーザ端末2に表示された背景リストに含まれる複数の背景の中から、一つの背景を選択する。ユーザの背景の選択入力をユーザ端末2で受け付ける(ステップS68)と、ユーザ端末2は、選択された背景に関する背景選択情報をサーバ装置1に送信する(ステップS69)。サーバ装置1が背景選択情報をユーザ端末2から受信する(ステップS70)と、サーバ装置1は、アクター選択情報、ふるまい選択情報及び背景選択情報をもとに、映像情報テーブル40を参照し、映像ID43が特定される。
【0091】
また、上の説明では、アクター、ふるまい、及び背景を選択することで、映像IDが特定されるとしたが、ユーザ毎に所有しているオリジナル動画(以下、オリジナルムービーという)を用いて音声付映像を合成することが可能である(曲先コース、歌詞先コースとは別にオリジナルムービーコースを別途設けることも可能である)。この場合、図10(f)で声質・あいのてを選択した後に、ユーザ端末2の表示画面70が切り替わり、図10(g)のように、オリジナルムービーを使用するか、或いは、アクター・ふるまい・背景を選択して動画を特定するかについて、ユーザが選択できる画面が用意されている。アクター・ふるまい・背景を選択して動画を特定することをユーザが選択すると、図10(h)のようにアクターを選択する画面がユーザ端末2に表示される。オリジナルムービーを使用することをユーザが選択すると、ユーザが所有しているオリジナルムービーのうち、いずれを使用するかについて、ユーザはさらに選択することになる。オリジナルムービーは、ユーザ端末2に記憶されているものだけでなく、ユーザが予めサーバ装置1にアップロードしたものを用いることも可能である。予めサーバ装置1にアップロードされたオリジナルムービーを用いる場合は、サーバ装置1に記憶されたユーザが利用可能なオリジナルムービーのリストがサーバ装置1からユーザ端末2に送信される。選択されたオリジナルムービーに関する情報は、ユーザ端末2からサーバ装置1に送信され、音声付映像合成処理において用いられる。
【0092】
図5におけるステップS7の映像選択処理、すなわちアクター選択情報、ふるまい選択情報及び背景選択情報をもとに映像ID43が特定されたのち、ステップS8のタイトル決定処理が実行される。タイトル決定処理では、サーバ装置1から送信された情報に基づいて、図10(k)のように、ユーザ端末2の表示画面70に、合成される音声付映像のタイトルを入力するためのテキスト入力欄が表示される。ユーザ端末2が、タイトルに関するユーザからのテキスト入力を受け付けると、受け付けられたテキスト情報が、タイトル情報としてサーバ装置1に送信される。
【0093】
なお、本明細書において、音声合成処理及び音声付映像合成処理で使用される情報(音声付映像情報テーブル50に記憶されたメロディID53、声質54、あいのて55、語尾56、映像ID57、タイトル58、歌詞59が含まれる)を、音声付映像を合成するための要素と称することがある。
【0094】
なお、図10では、メロディカテゴリ選択及びメロディ選択、アレンジ選択、歌詞入力、声質・あいのて選択、映像選択、タイトル入力の順にユーザが選択入力を行なう構成となっているが、これらの順序は任意に設定することができる。また、語尾選択に関する処理をこの構成に追加し、選択された語尾に応じて音声合成処理が行われる構成としても良い。ただし、上記のように、歌詞に入力できる文字数がメロディ毎に設定されている場合は、歌詞入力処理の前にメロディカテゴリ選択処理及びメロディ選択処理が行われることが好ましい。
【0095】
音声合成処理は、ステップS2及びS3において選択されたメロディ、ステップS4において選択されたアレンジ、ステップS5において決定された歌詞、及び、ステップS6において選択された声質・あいのてをもとに、音声を合成する処理である。すなわち、選択されたメロディとアレンジにより異なるメロディIDが特定されるため、同じメロディであっても異なる曲調の音声を合成することができる。また、特定されたメロディに歌詞が伴った音声が合成されるが、その音声は選択された声質によって、異なった声の大きさ、高さ、音色の声となる。また、あいのてを挿入するように設定がされている場合は、合成された音声においてフレーズ間にあいのてが挿入されることになる。さらに、歌詞の語尾が変更するように設定がされている場合は、決定された歌詞も自動的に変更されることになる。
【0096】
音声付映像合成処理は、音声合成処理により得られた音声、ステップS7において選択された映像をもとに、音声付映像を合成する処理である。音声付映像に用いられる映像は、ユーザによるアクター、ふるまい、及び背景の選択により特定される映像IDにしたがって決定される。この決定された映像に、合成された音声を付随させることで音声付映像が合成される。なお、音声付映像に用いられる映像は、単に映像IDにしたがって決定される映像を用いるのではなく、音声付映像に付随される音声にあわせて、例えば、映画の字幕のように歌詞情報がテキストで表示されるようにすることも可能である。この場合、カラオケ装置における歌詞の表示方法と同様に、音声の進行と同時に、テキストの表示を進行させてもよく、時間の経過に伴って各フレーズが順番に表示されるようにしてもよい。なお、ここで表示される字幕において、漢字や絵文字を表示ができるようにしてもよい。この場合、音声の合成に使用した歌詞の一部又はすべてを、仮名から漢字や絵文字に変換するための辞書データをもとに変換し、これを字幕として表示するように構成することが可能である。
【0097】
上で述べた実施の形態では、メロディ情報テーブル30において予め用意されているメロディをもとに、音声付映像が合成されることとしたが、本発明はこれに限定されない。例えば、ユーザが、サイト上でメロディを編集し、音声付映像の素材として使用できるように構成してもよい。また、ユーザが作成したメロディをサーバ装置1にアップロードし、音声付映像の素材として使用できるようにしてもよい。この場合において、編集されるメロディ、又はアップロードされるメロディのファイル形式としては、midi形式などを採用することができる。また、ユーザが実際に歌った音声データをもとに、各音の高さ及び長さ、その順序を含む情報を抽出することにより、新たなメロディを合成する構成としてもよい。音声付映像の合成処理において、編集、アップロード又は新たに合成されたメロディが用いられ、その他の選択処理(歌詞決定処理、声質・あいのて選択処理、映像選択処理、タイトル決定処理)、音声合成処理、音声付映像処理については、すでに述べたものと同様の処理が実行される。なお、アップロード又は合成されたメロディは、オリジナルメロディとしてサーバ装置1にアップロードされ、ユーザが別の任意のタイミングで音声付映像の合成に用いるメロディとして使用可能にしてもよい。
【0098】
また、新たなメロディの合成において、ユーザが曲のジャンルや、コード(和音)、リズムなどを選択し、それらを元にサーバ装置1において自動的にメロディを作曲するようにしてもよい。コードは複数の音の高さと関連付けて、サーバ装置1にて記憶されている。例えば、「C」コードであれば、「ド(低音)」、「ミ」、「ソ」、「ド(高音)」の4つの音の高さと関連付けられて記憶されている。サーバ装置1において実行される、メロディを合成するメロディ合成処理において、選択されたコードと関連付けられた複数の音の高さが任意の順序で並べられ、メロディを構成する各音の音の高さと順序が決定される。また、決定されたメロディの音の長さや強弱の規則性に関する情報が、選択可能なリズムと関連付けて記憶されており、メロディを構成する各音に音の長さと音の強さ(大きさ)に関する情報を付与することで、メロディが合成される。例えば、選択するリズムの種類により4分音符を基本単位とした音の長さ(4ビート)、又は、8分音符を基本単位とした音の長さ(8ビート)で合成された音声が表現される。また、4分音符を基本とした音の長さの場合であれば、4分音符の1つ目の音を強調したり、あるいは、3つ目の音を強調したりといった規則性を持たせることができる。なお、コードの選択はフレーズ毎に1つずつ順番に選択できるようにしても良く、使用するコードを複数選択すれば、その順序はサーバ装置1にて任意に特定することとしても良い。さらに、ユーザが好みのジャンルを選択すれば、予め定められた、そのジャンルに適合した複数のコードとリズムを選択したものとして、選択されたコードとリズムを用いてメロディを合成することとしても良い。すなわち、ジャンルごとに使用するコードとリズムが関連付けて記憶されており、ユーザがジャンルを選択することで、コードとリズムが特定されることとしても良い。また、上に述べたように、新たに合成されたメロディは、オリジナルメロディとしてサーバ装置1にアップロードされてもよい。
【0099】
また、本発明の実施の形態において、メロディをもとにサーバ装置1において伴奏を合成し、合成された伴奏を伴った音声付映像が合成されるようにしてもよい。すなわち、メロディに合うような、ギターやピアノなどの楽器及び/又はソプラノやテノールなどの声部による伴奏が合成され、これが伴った音声が合成されてもよい。サーバ装置1には、楽器や声部に関する伴奏を合成するための音の音色に関する伴奏情報と、メロディと関連付けて、メロディの各フレーズに合ったコード及びリズムが記憶されている。そして、フレーズ毎にこのコードに従って、ギターであればギターの音色、ピアノであればピアノの音色を有する伴奏フレーズが合成され、合成された伴奏フレーズを順に並べることで、メロディに沿った伴奏を合成することができる。メロディはユーザが選択したものであっても良く、サーバにおいて任意に特定したものであっても良い。また、伴奏におけるリズムも、メロディと関連付けて記憶されたリズムに応じて特定される。具体的な処理の方法としては、メロディに音の長さや音の強弱の規則性を付与する場合と同様である。合成された伴奏は、音声合成処理において、メロディ及び歌詞とともに1つの音声データとして合成しても良く、また、メロディ及び歌詞から音声合成された音声データとは別の音声データとして合成しておくことも可能である。
【0100】
本発明の実施の形態において、アクター、ふるまい、背景で特定される映像の代わりに、ユーザ毎に所有しているオリジナルムービーを用いて音声付映像を合成することが可能である。或いは、音声付映像合成システムの運営者により予め用意されたアニメーション(キャラ、ふるまい及び背景を組み合わせたもの)、予め用意された夜景、動物など、実写の動画を用いて音声付映像を合成することもできる。ここで、オリジナルムービーがサーバ装置1に予めアップロードされている場合、ユーザがサーバ装置1にログインしている時に、自分が所有しているオリジナルムービーを編集できるようにしてもよい。編集の主な内容として、2つ以上のオリジナルムービーのファイルの結合などがあげられる。また、ユーザが静止画像をサーバ装置1に複数アップロードし、サーバ装置1において、それらを組み合わせてスライドショーのような動画を生成するように構成してもよい。このように構成することで、それぞれのユーザが音声付映像の合成に用いることのできる映像のバリエーションを増やすことができる。
【0101】
また、ユーザ毎に所有されたオリジナルムービーは、他のユーザが自分の音声付映像の素材として使用できるように、他のユーザに公開してもよい。オリジナルムービーが公開されることで、音声付映像の合成において利用可能な映像のバリエーションを増やすことができる。なお、ユーザがオリジナルムービーを公開するときに、ポイントを消費する構成としてもよい。また、他のユーザが音声付映像の素材として使用するたびに、そのオリジナルムービーを所有するユーザにポイントが付与されるようにしてもよい。このようにすることで、ユーザにオリジナルムービーを公開させようとする動機づけを与えることができる。さらに、オリジナルムービーが公開され、他のユーザも使用できるようにした場合に、ユーザが、同じオリジナルムービーを利用して作った音声付映像を検索できるようにしてもよい。
【0102】
本発明の実施の形態において、合成された音声付映像は変更することが可能であるので、その処理について説明する。図9は、本発明の実施の形態にかかる音声付映像変更情報にもとづいた音声付映像合成処理についてのフローチャートの一例である。まず、音声付映像の変更を行なうユーザは、ユーザ端末2からサーバ装置1にログインし、自らが作成した音声付映像の中から、変更したい音声付映像を選択し、その音声付映像の変更要求をユーザ端末2からサーバ装置1に送信する(ステップS81)。なお、ここで、音声付映像の変更とは、ユーザが作成した既存の音声付映像を変更して内容の異なる音声付映像を作成することだけでなく、ユーザが作成した既存の音声付映像を残しつつ、既存の音声付映像をもとに新たな音声付映像を作成する(コピーして作成)ことも含む概念である。
【0103】
サーバ装置1が音声付映像の変更要求をユーザ端末2から受信する(ステップS82)と、ユーザが有するポイントの減算処理が実行される(ステップS83)。音声付映像を変更するたびに所定のポイントが減算されるが、歌詞やタイトルを微修正するような場合に所定の回数以内(例えば、3回以内)であればポイントを減算しなくても良いように設定することも可能である。続いて、サーバ装置1は、音声付映像情報テーブル50を参照し、変更要求のあった音声付映像に関する音声付映像情報として、該音声付映像についてのメロディID53、声質54、あいのて55、映像ID57、タイトル58、歌詞59を含む情報を抽出する(ステップS84)。抽出された音声付映像情報は、サーバ装置1からユーザ端末2に送信され(ステップS85)、ユーザ端末2にて受信される(ステップS86)。
【0104】
音声付映像情報を受信したユーザ端末2では、どのメロディ、アレンジ、声質、あいのて、映像をユーザが過去に選択し、タイトル、歌詞として入力したテキスト情報が、表示画面に表示されることになる。例えば、アレンジを変更するような場合であって、過去に「ロック」を選択していたときは、ユーザ端末2の表示画面70において、図10(d)のような表示がされ、「ロック」がデフォルトで選択されている。ユーザは必要があれば、これを変更することができる。
【0105】
ユーザ端末2では、ステップS2〜S8までの一連の処理(メロディカテゴリ選択処理からタイトル決定処理)と同様の処理を行なうことで、メロディカテゴリ、メロディ、アレンジ、歌詞、声質、あいのて、映像、及びタイトル等の音声付映像の構成要素についての変更処理を受け付ける(ステップS87)。なお、メロディを変更するとフレーズ数やフレーズ文字数が変わり、歌詞を大幅に変更する必要があるため、メロディについては変更することができないというような構成とすることも可能である。ステップS87において、メロディカテゴリ、メロディ、アレンジ、歌詞、声質、あいのて、映像、及びタイトル等の項目の変更を入力する順序は、ユーザが任意に決定することができる。この場合、変更を行なう項目を選択するための選択画面がユーザ端末2に表示され、ユーザが変更を希望する項目の選択を行なう。ユーザ端末2において、音声付映像情報の変更処理を受け付けると、音声付映像変更情報(変更されたメロディカテゴリ、変更されたメロディ、変更されたアレンジ、変更された歌詞、変更された声質、変更されたあいのて、変更された映像、又は、変更されたタイトルに関する情報)がサーバ装置1へ送信される(ステップS88)。
【0106】
サーバ装置1が音声付映像情報を受信する(ステップS89)と、変更があった項目については音声付映像変更情報をもとに、変更がなかった項目については抽出した音声付映像情報をもとに、音声合成処理及び音声付映像処理が実行され、音声付映像が再合成される(ステップS90)。
【0107】
ステップS90において音声付映像が再合成されると、再合成された音声付映像はサーバ装置1におけるHDD13に保存され、インターネットで閲覧が可能なようにアップロード処理される(ステップS91)。ステップS91において音声付映像がアップロードされると、音声付映像の再合成を行なったユーザのメールアドレスに対して、再合成された音声付映像が閲覧可能なURL61が記載されたメールがサーバ装置1から送信される(ステップS92)。
【0108】
なお、音声付映像をコピーして作成する時に、特定の要素を選択する処理を省き、選択処理を途中から開始して、音声付映像を合成してもよい。例えば、ユーザが音声付映像のメロディ及びアレンジの変更を希望せず、歌詞の変更を希望する場合は、歌詞の入力を選択すると、メロディ、アレンジの選択を省略し、歌詞の入力から音声付映像を作成できる。
【0109】
上で述べた実施の形態では、ユーザの選択により、メロディカテゴリ、メロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景等が特定される構成としていたが、コース選択において「シンプルコース」を設けることも可能である。「シンプルコース」を選択した場合は、音声付映像の合成に用いられる各要素、すなわちメロディカテゴリ、メロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景がサーバ装置1により任意に指定される。どのメロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景が指定されるかは、「シンプルコース」を選択した時刻等を乱数の種としてランダムに決定される。その他の選択処理(歌詞決定処理、タイトル決定処理)、音声合成処理、音声付映像処理については、すでに述べたものと同様の処理が実行される。なお、「シンプルコース」において、いずれかの情報をユーザによって選択入力されるようにしてもよい。例えば、歌詞決定処理及びタイトル決定処理のほか、アクターのふるまいをユーザに選択させるように構成してもよい。この場合、上で述べたように、サーバ装置1とユーザ端末2の間でふるまいリスト及びふるまい情報の送受信が行われるが、アクター及び背景はサーバ装置1により指定され、映像IDが特定される。さらに、アクターのふるまいに代えて、ユーザが利用可能なオリジナルムービーが選択できるように構成してもよい。
【0110】
上で述べた実施の形態では、「曲先コース」、「歌詞先コース」のいずれも、ユーザに歌詞を入力させ、入力された歌詞をもとに音声付映像が合成される構成としたが、サーバ装置1において一つ又は複数の歌詞テンプレートを記憶させ、この情報がユーザ端末2に送信され、その中からユーザが選択できるコースを用意してもよい。歌詞テンプレートとは、あらかじめ歌詞が入力されている定型的な歌詞のことである。このようにすることで、歌詞入力という負担をユーザにかけることなくなるので、ユーザの利便性が高くなる。なお、ユーザが歌詞のテンプレートを選択した後に、歌詞テンプレートの内容の全部、或いは一部を編集できるようにしてもよい。
【0111】
さらに、歌詞決定処理において、ユーザによるテキスト入力又は歌詞テンプレートからの選択入力を行わず、サーバ装置1が自動的に歌詞を合成するようなコースを用意することも可能である。例えば、サーバ装置1において、各フレーズに対応する複数パターンの歌詞が記憶されており、各フレーズに対応する歌詞を任意に組み合わせて歌詞を合成する歌詞合成処理が実行される。歌詞合成処理においてどのフレーズが用いられるかは、そのコースを選択した時刻等を乱数の種としてランダムに決定される。音声合成処理では、合成された歌詞をもとに音声が合成される。その他の選択処理、及び音声付映像合成処理については、すでに述べたものと同様の処理が実行される。
【0112】
また、上で述べた実施の形態では、ユーザの選択により、メロディカテゴリ、メロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景等が特定される構成としていたが、コース選択において「歌詞先コース」を選択した場合は、サーバ装置にてメロディを選択する前に先に歌詞を入力することも可能である。ユーザは、後述するサブコースを選択し、ポイントの利用確認を行なった後に歌詞入力を行なう。この場合、入力した歌詞の文字数に合致するモーラ数を有するメロディが、サーバ装置により自動的に選択される。歌詞入力を行なった後に、タイトル、ムービーの種類、アクター、ふるまい、背景、又はあいのてのうちのいずれを編集するかについて選択し、選択した項目について編集が可能となる。さらに、歌詞の編集を行なうことも可能である。これらの項目を選択又は編集する順序は、ユーザが任意に決定できるような構成とすることも可能である。この場合は、どの項目から入力するかについての選択画面がユーザ端末に表示され、ユーザが選択を行なう。
【0113】
ユーザが「歌詞先コース」を選択した場合は、さらにサブコースを選択する画面が表示され、いくつかのサブコースの中から1つのサブコースを選択する必要がある。サブコースとしては、「川柳コース」、「短歌コース」、「フリーコース」の3つのサブコースが挙げられる。ユーザが自由に歌詞を入力できる場合、自由度が高すぎて何を入力すればよいかわからないといったユーザもいる。そのため、予め文字入力数を制限することで、歌詞入力しやすくしたものが、「川柳コース」と「短歌コース」である。これらのサブコースは、それぞれフレーズ数と、フレーズ毎の文字数が予め決められている。「川柳コース」の場合は、入力可能なフレーズ数は3フレーズであり、1フレーズ目の入力可能モーラ数は5、2フレーズ目の入力可能モーラ数は7、3フレーズ目の入力可能モーラ数は5である。一方、「短歌コース」の場合は、入力可能なフレーズ数は5フレーズであり、1フレーズ目の入力可能モーラ数は5、2フレーズ目の入力可能モーラ数は7、3フレーズ目の入力可能モーラ数は5、4フレーズ目の入力可能モーラ数は7、5フレーズ目の入力可能モーラ数は7である。「フリーコース」は、入力可能なフレーズ数は5フレーズと制限はされているが、各フレーズの入力可能モーラ数は無制限である。ただし、1フレーズの入力可能モーラ数を予め定めておけば、それ以上の文字数を入力できないようにすることも可能である。1フレーズの文字数が多くなりすぎた場合は、それに合致するメロディが存在しない場合もあるので、サーバ装置にて予め登録されているメロディに応じて、1フレーズの入力可能モーラ数の上限を設定しても良い。
【0114】
コース選択において「歌詞先コース」を選択した場合に、ユーザが歌詞となるテキストを入力すると、サーバ装置にて、テキストの文字数に合わせてメロディ及びアレンジを自動的に選択し、さらに動画を自動選択して、音声付映像を合成してもよい。
【0115】
歌詞入力画面を表示する前に、歌詞のテンプレートを選択するテンプレート選択画面が表示され、ユーザは複数のテンプレート候補の中から、歌詞のテンプレートを選択するような構成とすることもできる。歌詞のテンプレートには空欄が設けられており、ユーザは、この空欄に歌詞を入力する。したがって、空欄部分以外の歌詞は編集できない。この場合、サーバ装置が、歌詞のテンプレートの文字数に合致するモーラ数をもったメロディを自動的に選択する。
【0116】
歌詞先コースを選択して合成した音声付映像は、変更することが可能である。変更が可能な項目は、「タイトル」、「歌詞」、「映像」である。音声付映像の変更を希望するユーザは、自らが作成した音声付映像の中から変更したい音声付映像を選択し、音声付映像の変更要求をユーザ端末からサーバ装置に送信する。サーバ装置は、音声付映像情報テーブルから、変更要求のあった音声付映像に関する音声付映像情報を抽出し、ユーザ端末に送信する。ユーザは、タイトル、歌詞、映像のいずれを変更するかを選択し、変更後のタイトル・歌詞を入力し、又は、変更後の映像を選択する。サーバ装置ではこれらの情報を受信し、音声付映像の再合成を行う。
【0117】
上で述べた実施の形態では、音声付映像を合成するための各要素を、ユーザが選択入力することにより、一つの音声付映像が合成される構成としていたが、複数の音声付映像を合成するように構成することも可能である。例えば、ユーザが音声付映像のある要素を選択入力すると、ユーザが選択入力した以外の要素をサーバ装置1が複数パターン自動指定し、複数の音声付映像を一括で作成させてもよい。具体例としては、ユーザが歌詞を決定すると、システムが異なるメロディ、アレンジ、動画を任意に指定し、5パターンの音声付映像を一括で作成するなどが考えられる。ただし、サーバ装置の負荷を軽減するために、合成される複数の音声付映像の数には上限が設けられていることが好ましい。
【0118】
上で述べた実施の形態では、ユーザが歌詞を入力する際に、ユーザ端末2の表示画面に表示された入力フォームに直接入力する構成としていたが、サーバ装置1に記憶されたユーザ情報テーブルに、ユーザが随時入力及び変更が可能なメモ欄としてメモ情報を記憶しておき、歌詞を入力する処理において、当該メモ情報を利用する構成としても良い。例えば、図10(e)のように、歌詞入力を行う表示画面において、メモ情報が表示されるメモ欄を用意しておき、読出ボタンを選択することで、メモ情報の内容が歌詞に反映されるようにすることも可能である。このようにすることで、ユーザは、ある時、突然思いついた歌詞の一部などをサーバ装置に記憶させておくことができ、時間がかかる合成処理は別のタイミングで行なうことができる。また、別のタイミングで思いついた歌詞を任意に組み合わせるなどの利用方法も可能となるので、ユーザの利便性が高くなる。ユーザは、サーバ装置1にログインした状態であれば、メモ情報を参照することができ、その内容を修正することが可能である。その他、予め「おはよう」、「こんにちは」などの汎用的なフレーズをひな形としてサーバ装置1にて記憶しておき、歌詞を入力する処理において、これらのひな形をユーザが利用できる構成としても良い。
【0119】
上で述べた実施の形態では、音声付映像を合成すると、ユーザ情報テーブル20のポイント24から所定のポイントが減算されるとしていた。この場合、どのコースで音声付映像を作成するかによって、減算されるポイントを異なる値としても良い。例えば、「曲先コース」の場合は50ポイントが減算されるのに対し、「歌詞先コース」の場合は50ポイントが減算される。また、音声付映像の合成に使用したメロディ、声質、映像などに応じて、減算されるポイントを異なる値とすることも可能である。例えば、著名な作曲家が作曲したメロディや、人気のある歌手の声質を使用する場合は、通常のメロディや声質よりも減算されるポイントの値を大きくすることも可能である。このような構成とすることで、ユーザにとって好みのメロディや声質などを選択するために多くのポイントが必要になるため、ユーザが広告主サイトへアクセスをし、積極的にポイントを取得しようとする意欲を高めさせることができる。
【0120】
上で述べた実施の形態では、合成が完了した旨の通知メールに記載された音声付映像のURLにアクセスすることで、ユーザは当該音声付映像を視聴できるとしていた。ここで、ユーザが音声付映像をURLから再生する場合、サーバ装置1に負荷が発生するため、この負荷を軽減するための措置として、「ある音声付映像をURLから再生することは、一定時間内に一定数のユーザしか再生できない」という、再生制限を行ってもよい。また、ユーザは当該音声付映像をユーザ端末2にダウンロードできる構成としても良い。ただし、ダウンロードされた音声付映像は、商業利用を不可とするのが好ましい。このような構成とすることで、ユーザは視聴するたびにサーバ装置1に接続する必要がなくなり、サーバ装置1への接続が困難な状況(例えば、携帯電話において電波状況が悪い環境にあるなど)においても、自分が合成させた音声付映像の視聴を楽しむことができる。また、ダウンロードした音声付映像のデータの記録媒体への記録、若しくはメールへの添付などにより、他人に視聴させることも可能となる。
【0121】
また、音声付映像を合成させたユーザは、他のユーザに当該音声付映像のURLを知らせることで、他のユーザに視聴させることができる。音声付映像のURLはメールにコピー&ペーストして送ることができる。この場合、ユーザが、他のユーザのアドレス又はアカウント等をメッセージや、音声付映像のURLの送信先として登録しておけるリストとして、送信先リスト(以下、アドレス帳という)が設定されていてもよい。音声付映像を合成したユーザは、アドレス帳に登録した他のユーザに、自分が作った音声付映像を送ることができるため、ユーザの利便性を高めることができる。また、当該音声付映像は、ユーザ端末の種類、携帯電話であればキャリアの種別を問わず、視聴可能な形式であることが好ましい。ユーザ端末にダウンロードした音声付映像は、メールに添付して送ることができる。このようにすることで、本発明を用いて合成された音声付映像を、サーバ装置1に登録されたユーザだけでなく多くの潜在的なユーザに認知させることが可能となる。さらに、音声付映像が他のユーザによって視聴される場合、他のユーザに視聴された回数に応じて、音声付映像を合成したユーザに対し、ポイントが加算されるように構成しても良い。このような構成とすることで、ユーザの音声付映像合成に対する意欲をより一層高めることが可能となる。
【0122】
さらに、ユーザによる音声付映像の視聴の利便性を高めるため、いくつかの機能を追加してもよい。例えば、ユーザ毎に「お気に入り」を設定し、ユーザが音声付映像を登録しておくことで、後から当該音声付映像にアクセスしやすくすることができる。また、ユーザ自身が作成した音声付映像を一覧表示したページを用意してもよい。この場合、サーバ装置1に記憶されるデータ量を節減するため、音声付映像の最大保存件数を超えて音声付映像は作成できないようにしてもよい。音声付映像の「変更」と音声付映像の「公開」ができるよう、「お気に入り」にリンクを追加することも可能である。
【0123】
本発明の音声付映像合成システムでは、合成された音声付映像は他のユーザにも視聴可能なように公開することができる。ここで、当該音声付映像に対して他のユーザが評価する機能を追加することができる。他のユーザによる評価のための機能としては、例えば、拍手ボタンを用意し、音声付映像ごとに拍手された回数を集計する機能、音声付映像を閲覧した他のユーザが感想などを書き込めるコメント機能、音声付映像を合成したユーザに対しメッセージを送信可能とする機能などが挙げられる。集計された拍手回数を元に、音声付映像はランキング形式で公開される。また、コメント機能において、他のユーザによる感想などコメント欄に書き込まれた内容は、コメントに書き込んだ他のユーザ及び音声付映像を合成したユーザを除く、第三のユーザにも公開される。さらに、このコメントに書き込まれたテキスト情報をもとにして、音声付映像の歌詞を合成可能としてもよい。また、音声付映像を閲覧した他のユーザが、該音声付映像を合成したユーザのみに感想を伝えたい場合は、メッセージ機能を利用することが可能である。メッセージを受信したユーザは、お礼などを返信することも可能である。このように音声付映像を他のユーザが評価する機能を追加することで、音声付映像を合成するユーザに対し、より評価の高い音声付映像を合成しようとする動機づけを与えることができる。
【0124】
以上に述べた他、本発明の音声付映像合成システムに以下のような機能を追加することも可能である。
【0125】
本発明の音声付映像合成システムに、音声付映像の時間長を統一するだけでなく(例えば30秒)、15秒、60秒など異なる時間長の音声付映像の合成が可能となる機能を追加してもよい。このようにすることで、ユーザが合成可能な音声付映像のバリエーションを豊富にすることができ、様々な音声付映像を合成したいというユーザの意欲を向上させることができる。
【0126】
本発明の音声付映像合成システムにおいて、音声付映像を合成するための要素であるアクターと声質に関連性を持たせてもよい。すなわち、サーバ装置1に記憶された映像情報テーブル40において、アクター41に声質に関する情報が関連付けて記憶されていてもよい。この場合、ユーザによってあるアクターが選択されると、同時に該アクターに関連付けて記憶された声質が選択される。又は、声質が選択されると該声質と関連付けられたアクターが選択されるとしてもよい。例えば、図5のステップS6において、声質・あいのて選択処理に代えてあいのて選択処理のみを行い、ステップS7の映像選択処理においてアクターが選択されると、選択されたアクターと関連付けられた声質が選択されるようにすることが可能である。或いは、ステップS6の声質・あいのて選択処理において、声質が選択されると同時に該声質と関連付けられたアクターが選択され、ステップS7の映像選択処理において、アクターを除く選択肢(ふるまい及び背景を含む)をユーザに選択させるようにしてもよい。その他の選択処理及び音声合成処理、音声付映像合成処理については、すでに述べたものと同様の処理が実行される。
【0127】
本発明の音声付映像合成システムにおいて、人間らしい歌声が再現されるよう、音声合成処理に付加的な機能を追加してもよい。通常、人が歌うと、楽譜に記載された音の高さ、長さ、大きさからは微妙にずれてしまう場合が多い。そこで、音声付映像の合成に用いられるメロディを構成する音について、その高さ、長さ、大きさを調整し、調整されたメロディをもとに音声合成処理を行うようにすることで、本来のメロディから調整された音声が合成されるため、より人間らしい歌声を再現することができる。メロディの調整処理は、サーバ装置1又はユーザ端末2のいずれで実行されてもよい。ここで、メロディを構成する音のうち、いずれの音の調整を行うかの選択方法として、メロディを構成する全ての音を調整する方法、又は調整する音をランダムに選択する方法が挙げられるが、どのような方法を採用してもよい。また、音の高さ、長さ、大きさが調整される幅についても、それぞれ所定の幅としてもよく、又はランダムに調整されるように構成してもよい。さらに、上で述べたユーザの声をもとに音声を合成する場合に、ここで述べた、人間らしい歌声が再現されるようにしてもよい。このようにすることで、あたかもユーザ本人が歌っているかのような音声が再現されることになり、音声付映像を合成することに対するユーザの興味をさらに高めることができる。
【0128】
また、上で述べた実施の形態では、一人のユーザが音声付映像を構成する各要素を選択入力することとしたが、複数のユーザが一つの音声付映像を構成する要素を選択入力し、一つの音声付映像が合成されるようにしてもよい。具体的には、音声付映像のある要素(例えば、メロディ)についてはユーザAが選択し、別の要素(例えば、歌詞)についてはユーザBが選択するという方法で作成を行う。その結果、一人のユーザでは作成できなかった創造性豊かな音声付映像が合成されることとなる。
【0129】
さらに、本発明の音声付映像合成システムは、合成した音声付映像を、携帯電話の待ち受け画面として使用できるように加工する機能を備えていてもよい。待ち受け画面として使用できるように加工するための技術としては、FLASH等が挙げられる。
【0130】
また、携帯電話で動作するアプリケーションを用いて音声付映像を合成するためのインターフェイスを構築し、これをユーザに提供してもよい。携帯電話アプリケーションを用いることで、動的なインターフェイスを構築することができる。例えば、上で述べた映像選択処理において、アクター選択に続いてふるまいを選択する際に、ユーザ端末の表示画面に表示された、ふるまいリストに含まれる複数のふるまいのうちの一つにカーソルを合わせると、該ふるまいにしたがってアクターが動作する様子がプレビュー画面に表示されるなどの機能をもたせることができる。携帯電話アプリケーションを用いることで、FLASHよりもユーザの入力の負担が少ない歌詞入力画面を提供することもできる。
【0131】
また、ユーザではなく、本発明の音声付映像合成システムを運営する事業者が、音声付映像を合成してもよい。例えば、広告主から音声付映像形式の広告を受注し、音声付映像システムが運営されるサイト、又は広告主が運営するサイト等にて配信するようにしてもよい。音声付映像形式の広告の課金形態は、広告配信する期間を対象として料金が発生する、期間保証型でもよい。
【0132】
本発明の音声付映像合成システムでは、自分が合成した音声付映像を動画投稿サイトに直接的にアップロードする機能を有していても良い。ユーザは任意に自分の音声付映像を指定し、音声付映像合成システム固有のアカウントを用いて、動画投稿サイトに音声付映像をアップロードすることできる。ユーザは、動画投稿サイトにアップロードされた自分の音声付映像のURLを、音声付映像合成システムを運営する運営サイト上で取得することができる。ユーザが動画投稿サイトに音声付映像をアップロードした場合、サーバ装置が、特定のブログやSNS等のコミュニティサイトに、音声付映像がアップロードされた旨の情報を自動的にアップロードするような構成とすることができる。この場合、動画投稿サイト上にアップロードされた音声付映像のURL、音声付映像のタイトル、音声付映像を作成したユーザ名が、コミュニティサイトにアップロードされる。また、本発明の音声付映像合成システムでは、ユーザが任意に自分の作成した音声付映像を指定し、音声付映像合成システムの運営サイトからユーザ自らのアカウントで前記のコミュニティサイトにログインすることができ、コミュニティサイト上に自らが入力したテキスト情報と音声付映像がアップロードされているURLを投稿することができる。
【0133】
ユーザは、本発明の音声付映像合成システムの利用会員となっている他の会員にテキストでメッセージを送信することができる。送信されたメッセージは、音声付映像合成システムの運営サイト上に設けられたメッセージ一覧から閲覧できる。メッセージ一覧はユーザ毎に管理されており、他の会員のメッセージ一覧は閲覧することができない。ユーザはメッセージ送信の際に音声付映像がアップロードされているURLを記載することができる。メッセージを受信したユーザは、他会員ユーザから送られてきたメッセージに返信することができる。
【0134】
本発明の音声付映像合成システムでは、合成された音声付映像が再生されると、表示画面には、映像だけでなく歌詞もテロップ表示される。テロップ表示は、例えば、動画の下方の領域に表示される。テロップ表示されるテキスト情報は、音声として表現された歌詞に合わせ、フレーズ毎に切り替えられる。テロップ表示されるテキスト情報のタイプフェイスについて特に制限はないが、ゴシック体やその他の装飾性の高いフォントを用いることができる。
【0135】
また、テロップ表示されるテキスト情報は、通常、入力した歌詞が用いられるが、入力した歌詞とは異なる文字情報をテロップ表示できるようにしたメッセージ表示機能を持たせることも可能である。この場合、ユーザはフレーズ毎にテロップ表示する文字情報歌詞情報とは別途、メッセージ表示のための文字情報を入力する。このようにすることで、音声付映像の内容に合わせた何らかのメッセージを表示することが可能となる。また、メッセージ表示機能を導入した場合、音声合成するための歌詞と、テロップ表示用の文字情報を別々に入力することは、ユーザにとって手間がかかる。そのため、例えば、テロップ表示用の文字を、ひらがな文に変換し、これを音声合成用の歌詞情報として用いることも可能である。この場合、ひらがなだけでなく、漢字やカナ或いはアルファベット等を含んだテロップ表示用の文字をユーザが入力し、入力された文字はサーバ装置にて自動的にひらがなに変換され、音声合成用の文字情報として使用される。但し、漢字の読みは複数パターンあるため、サーバ装置が必ずしもユーザの意図通りに変換できるとは限らない。そこで、サーバ装置がひらがなに変換した文字を、さらにユーザが編集できるようにしても良い。なお、ここではテロップ表示用に入力された文字をサーバ装置にてひらがなに変換するとしたが、音声合成用の文字がカタカナである場合は、テロップ表示用に入力された文字はカタカナに変換される。すなわち、音声合成用に用いられる文字にあわせてテロップ表示用の文字が変換される。
【0136】
テロップ表示される文字自体をアニメーションとすることも可能である。例えば、音声付映像の再生中に、歌詞であるテキスト情報が左右に移動したり、画面の上方から降ってきたり等のアニメーション機能を持たせることも可能である。この場合、どのようなアニメーションを文字にさせるかについてはユーザが選択するように構成することも可能であり、サーバ装置にて自動的にアニメーションを設定することも可能である。
【0137】
本発明の音声付映像合成システムでは、表示画面に表示される映像に、動画を装飾するための額縁のようなフレーム画像を合成することも可能である。この場合、動画の周囲にフレーム画像が設けられる。動画の部分の形状は、円状、長方形状の何れであっても良い。音声付画像を合成する際に、ユーザはフレーム画像を設けるか否かについて選択し、フレーム画像を設けると選択した場合は、どのフレーム画像にするかについての選択を行う。サーバ装置では、選択されたフレーム画像が動画の周囲に額縁のように表示されるように、音声付映像の合成を行う。なお、フレーム画像は静止画でも良いが、フレーム画像自体に動画を用いても良い。
【0138】
本発明の音声付映像合成システムでは、音声付映像を合成した後に、メロディ、アレンジ、声質の組み合わせを見直すことができるような構成としてもよい。見直しを行うことで、メロディ、アレンジ及び声質の組み合わせから得られる楽曲のクオリティを向上させることができる。具体的には、音声付映像を合成した後に、ユーザがメロディ、アレンジ、声質の組み合わせの見直し要求をユーザ端末からサーバ装置に送信し、メロディ、アレンジ又は声質のいずれについて見直しを行なうかについての入力を行う。ユーザが見直し後の新たなメロディ、アレンジ又は声質を選択すると、再度、音声付映像が合成される。合成された音声付映像で良いとユーザが判断した場合は、見直し後の音声付映像が更新される。
【0139】
また、本発明の音声付映像合成システムのオリジナルムービーに、BGMとメッセージを合成して音声付映像を作成できる機能を設けることもできる。ここで、BGMとは、メロディとアレンジの組み合わせにより構成される楽曲から、音声合成により得られる歌(合成音声)を除外したものをいう。また、この場合におけるメッセージとは、前述したメッセージ表示機能と同様に、歌詞とは異なるもので、文字情報として映像に挿入されるものである。したがって、この場合、ユーザは歌詞の入力を行うことも特に必要ではなく、歌詞を用いた音声合成は実行されない。歌詞のないメロディに、ユーザが入力したメッセージが表示されたオリジナルムービーが付与された音声付映像が合成される。ユーザにより入力されたメッセージは、テロップのように画面下部に表示するだけでなく、画面中央に表示することも可能である。
【符号の説明】
【0140】
1 サーバ装置
2 ユーザ端末
3 広告主サーバ
4 通信ネットワーク
11 CPU
12 メインメモリ
13 HDD
14 通信インターフェイス
20 ユーザ情報テーブル
30 メロディ情報テーブル
40 映像情報テーブル
50 音声付映像情報テーブル
【技術分野】
【0001】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムに関する。
【背景技術】
【0002】
近年のインターネット技術の発展により、自ら作成した動画をインターネット上にアップロードして他の人に視聴させたり、また、他の人が作成した動画を視聴することのできる動画視聴サイトが、多くの人により活用されている。これら動画視聴サイトでアップロードされる動画の多くは、ビデオカメラ等を用いて撮影されたものを編集したものであるが、ビデオカメラ等による撮影・編集は手間がかかるため、より簡単で手軽に動画を作成したいというニーズが存在する。このような中、例えば、楽譜情報と歌詞情報を入力する入力部と、これらの情報から歌声を合成する歌声合成部を有する歌声合成装置において、楽譜及び歌詞情報をパート毎に分割して歌声合成部に送出する歌唱情報処理部を設けた歌声合成装置が開示されている(例えば、特許文献1参照)。
【0003】
ところで、インターネット上で商用サイトへのアクセスを増大させる手法として、広告掲載サイトに広告を掲載する手法が年々増大している。広告掲載サイトには、広告主サイトの商品説明ページや購入ページ等へのハイパーリンクが張られた広告コンテンツが掲載され、広告掲載サイトにアクセスしたユーザが広告コンテンツをクリックすると、広告主サイトの商品説明ページや購入ページ等にアクセスできる。広告掲載サイトを運営する企業又は個人から広告主への広告料金の設定に関しては、(1)期間保証型、(2)クリック保証型、(3)広告成果型等がある。期間保証型は広告を表示する期間に応じて課金される方式、クリック保証型は広告掲載サイトに表示された広告がクリックされた回数に応じて課金される方式、広告成果型は広告を経由して商品購入や会員登録等の成果が生じた場合にはじめて課金される方式である。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平06−337690号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、特許文献1に記載された方法では、単に歌声を合成するものであり、携帯電話やパーソナルコンピュータ等の端末を用いて、ユーザが簡便に、好みの音声及び動画(音声付映像)を作成できるものではなかった。本発明では、ユーザの好みのメロディ、映像を活用して、簡便に音声付映像を作成できる音声付映像合成システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、サーバ装置が、端末装置からメロディ情報を受信するメロディ情報受信手段と、端末装置から映像情報を受信する映像情報受信手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ情報受信手段により受信されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【0007】
このような構成とすることで、ユーザは携帯電話等の端末装置を用いて、好みのメロディ、映像を選択し、歌詞を入力すると、ユーザが選択・入力したメロディ・映像・歌詞にしたがって音声が付随された音声付映像を合成されるため、ユーザは簡便に音声付映像を作成して楽しむことが可能である。また、このような音声付映像合成システムをインターネット上の広告掲載サイトで利用できるようにし、広告掲載サイトから広告主サイトの商品説明ページや購入ページ等へのハイパーリンクを設けることで、広告主サイトへのアクセス数を増大させることが可能となる。広告掲載サイトの運営者としては、(1)期間保証型、(2)クリック保証型、(3)広告成果型等のいずれかの方法により、広告主から広告料収入を得ることが可能になる。
【0008】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報サーバ装置に送信する歌詞情報送信手段とを備え、サーバ装置が、複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、音声付映像を合成するための映像に関する映像情報を記憶する映像情報記憶手段と、メロディ情報記憶手段に記憶された複数のメロディ情報の中から、任意のメロディ情報を指定するメロディ情報指定手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ情報指定手段により指定されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報記憶手段により記憶された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【0009】
このような構成とすることで、ユーザは携帯電話等の端末装置を用いて、歌詞を入力すると、任意に選択されたメロディ、サーバに記憶された映像、及び、ユーザが入力した歌詞にしたがって音声が付随された音声付映像を合成されるため、ユーザは簡便に音声付映像を作成して楽しむことが可能である。また、このような音声付映像合成システムをインターネット上の広告掲載サイトで利用できるようにし、広告掲載サイトから広告主サイトの商品説明ページや購入ページ等へのハイパーリンクを設けることで、広告主サイトへのアクセス数を増大させることが可能となる。
【0010】
本発明では、映像情報記憶手段は、映像に登場するキャラクタに関するキャラクタ情報、キャラクタの動作に関する動作情報、及び/又は映像の背景に関する背景情報と関連付けて映像情報を記憶するものであって、サーバ装置は、キャラクタ情報、動作情報、及び/又は背景情報のいずれかの映像要素情報を任意で指定する映像要素情報指定手段と、映像要素情報指定手段により指定された映像要素情報と関連付けて記憶された映像情報を指定する映像情報指定手段とを備え、音声付映像合成手段が、映像情報指定手段により指定された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することが好ましい。
【0011】
ユーザが携帯電話等の端末装置を用いて、歌詞を入力すると、任意に選択されたメロディ、任意に選択された映像、及び、ユーザが入力した歌詞にしたがって音声が付随された音声付映像を合成されるため、ユーザによる選択入力の手順が大幅に省略され、ユーザは簡便に音声付映像を作成して楽しむことが可能になる。
【0012】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び/又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信するメロディ要素情報送信手段と、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、サーバ装置が、コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶する音高情報記憶手段と、リズム情報と、音の強弱及び/又は長さの規則性を関連付けて記憶するリズム記憶手段と、端末装置からメロディ要素情報を受信するメロディ要素情報受信手段と、端末装置から映像情報を受信する映像情報受信手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ要素情報受信手段により受信されたコード情報に従って、音高情報記憶手段により該コード情報に関連付けて記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定する音順序情報特定手段と、メロディ要素情報受信手段により受信されたリズム情報に従って、音順序情報特定手段により特定された複数の音に、リズム情報記憶手段によりリズム情報に関連付けて記憶された音の強弱及び/又は長さの規則性をもとに、音の強弱及び/又は長さに関する情報を付与することで、メロディ情報を合成するメロディ情報合成手段と、メロディ情報合成手段により合成されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【0013】
ユーザが選択したコード及び/又はリズムなどをもとにメロディが新たに合成されるため、予め用意されているメロディを用いる場合と異なり、どのようなメロディが合成され、さらにどのような音声付映像が合成されるのかを予想するのが困難である。そのため、どのようなメロディ又は音声付映像が合成されるのだろうかというユーザの期待又は興味をかきたてることとなり、ユーザの趣向性が向上する。この場合、ユーザは端末を用いてコードを1つずつ順番に入力することも可能である。また、使用するコードを複数選択すれば、その順序はサーバ装置にて任意に特定することとしても良い。さらに、ユーザが好みのジャンルを選択すれば、予め定められた、そのジャンルに適合した複数のコードとリズムを選択したものとして、選択されたコードとリズムを用いてメロディを合成することとしても良い。
【0014】
本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段を備え、サーバ装置が、複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、メロディ情報記憶手段に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定するメロディ情報指定手段と、複数の映像に関する映像情報を記憶する映像情報記憶手段と、映像情報記憶手段により記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定する映像情報指定手段と、端末装置から歌詞情報を受信する歌詞情報受信手段と、メロディ情報指定手段により指定された一つ又は複数のメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成する音声合成手段と、映像情報指定手段により指定された一つ又は複数の映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
に関する。
【0015】
ユーザが入力した歌詞に対して、一つ又は複数のメロディ、及び一つ又は複数の映像をもとに音声付映像が合成されるため、ユーザは歌詞入力を行うだけで音声付映像の合成が可能である。特にメロディ及び/又は映像が複数存在する場合、一つの歌詞から複数の音声付映像が合成されることとなる。このため、入力した歌詞をもとにユーザが好みの音声付映像を合成したいが、いずれのメロディ又は映像が良いかの判断が難しい場合、ユーザが好みの音声付映像を合成するまでに一つずつ合成処理を行わなくてもすむ。したがって、ユーザの試行錯誤の回数を減らし、好みの音声付映像を合成することが容易になる。
【0016】
本発明では、サーバ装置は、メロディを構成する複数の音の数に関する音数情報を、メロディと関連付けて記憶する音数記憶手段と、歌詞情報受信手段により受信した歌詞情報、及び、音数記憶手段により前記メロディと関連付けて記憶された音数情報をもとに、前記歌詞から計算される音の数と、前記メロディを構成する音の数が一致するか否かを判定する音数判定手段と、音数判定手段により判定された結果に関する音数判定情報を端末装置に送信する音数判定情報送信手段とを備え、端末装置は、サーバ装置から受信した音数判定情報をもとに、音数判定手段により判定された結果を端末装置の表示画面に表示する音数判定情報表示手段を備えることが好ましい。
【0017】
一般に、歌詞として入力されたテキストの文字数と、1つのフレーズ、または1つのメロディに入力可能な音数が異なる場合、最終的に合成された音声が不自然なものとなる可能性がある。ユーザが入力したテキストの文字数と、1フレーズに入力可能な音数が一致しているか否かをユーザがその都度確認すると、ユーザに過度の負担となる。しかし、サーバ装置において音数の判定を行い、その判定結果を端末装置に送信して表示させることで、ユーザの負担を軽減することが可能となり、また、合成された音声が不自然なものとなることを防止することが可能となる。
【0018】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段とを備え、サーバ装置が、端末装置からメロディ情報を受信するメロディ情報受信手段と、端末装置から映像情報を受信する映像情報受信手段と、メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶するフレーズ歌詞情報記憶手段と、フレーズ歌詞情報記憶手段に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成手段と、メロディ情報受信手段により受信されたメロディ情報、及び、歌詞合成手段により合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段とを備えることを特徴とする音声付映像合成システムに関する。
【0019】
本発明における音声付映像の合成において、歌詞入力のステップは、ユーザにとって最も負担の大きいステップである。このため、サーバ装置において、複数のフレーズ毎の歌詞から任意に選択されたフレーズ毎の歌詞をもとに歌詞を合成させることで、歌詞入力というユーザにとっての負担をなくすことにより、ユーザの利便性が向上する。
【0020】
本発明では、サーバ装置は、ユーザと関連付けられた、音声付映像を合成するための映像に関するユーザ映像情報を記憶するユーザ映像情報記憶手段を備え、音声付映像合成手段は、ユーザ映像情報記憶手段に記憶されたユーザ映像情報、及び、音声合成手段により合成された音声をもとに、ユーザと関連付けられた映像に合成された音声が付随された音声付映像を合成することを特徴とすることが好ましい。
【0021】
ユーザと関連付けられた映像をもとに音声付映像が合成されるので、ユーザは自分が所有する独自の映像をもとに音声付映像を合成することが可能となり、音声付映像の合成においてユーザのオリジナリティを反映することができ、よりユーザの趣向性を高めることができる。
【0022】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するためのメロディの編曲に関するアレンジ情報をサーバ装置に送信するアレンジ情報送信手段とを備え、サーバ装置は、端末装置からアレンジ情報を受信するアレンジ情報受信手段とを備え、音声合成手段は、メロディ情報、アレンジ情報、及び、歌詞情報をもとに、アレンジ情報に従って前記メロディを編曲することで得られる編曲メロディに、前記歌詞が伴われた音声を合成することが好ましい。
【0023】
このような構成とすることで、ユーザが好みのアレンジを選択し、選択されたアレンジに従ってメロディが編曲され、編曲されたメロディに歌詞が伴われた音声が合成されるため、よりユーザの趣向性を向上させることができる。
【0024】
本発明では、サーバ装置は、複数のメロディに関するメロディ情報と、該メロディ情報と関連付けて、該メロディを構成する各フレーズに適合するコードに関する適合コード情報を記憶する適合コード情報記憶手段と、楽器及び/又は声部に関する伴奏を合成するための音の音色に関する伴奏情報を記憶する伴奏情報記憶手段と、適合コード情報記憶手段により記憶された適合コード情報に従って、伴奏情報記憶手段により記憶された伴奏情報をもとに、フレーズ毎に該適合するコードに沿った、該音色を有する伴奏フレーズを合成し、合成した伴奏フレーズを組み合わせることで伴奏を合成する伴奏合成手段と、音声付映像合成手段が、映像情報及び音声合成手段により合成された音声をもとに、映像に合成された音声が付随された音声付映像を合成する際に、さらに、伴奏合成手段により合成された伴奏を伴った音声付映像を合成することが好ましい。
【0025】
音声合成の対象となっているメロディをもとに伴奏が合成され、合成された伴奏が伴った音声付映像が合成されるため、音声付映像の音楽性を向上させることができ、音声付映像を合成しようとするユーザの意欲をよりいっそう高めることが可能となる。
【0026】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するための声の音色を含む声質に関する声質情報をサーバ装置に送信する声質情報送信手段とを備え、サーバ装置は、端末装置から声質情報を受信する声質情報受信手段とを備え、音声合成手段は、メロディ情報、声質情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記声質を有する音声を合成することが好ましい。
【0027】
このような構成とすることで、ユーザが好みの声質を選択し、選択された声質に従って歌詞が伴われた音声が合成されるため、よりユーザの趣向性を向上させることができる。
【0028】
本発明において、前記映像情報は、映像に登場するキャラクタに関するキャラクタ情報と関連付けて記憶されており、サーバ装置は、音声付映像を合成するための声の音色を含む声質に関する声質情報を、キャラクタ情報と関連付けて記憶するキャラクタ声質情報記憶手段を備え、映像情報送信手段は、ユーザの操作に従って選択された、キャラクタ情報と関連付けられた映像情報をサーバ装置に送信し、音声合成手段は、メロディ情報、映像情報受信手段により受信された映像情報に含まれるキャラクタ情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、キャラクタと関連付けられた声質を有する音声を合成することが好ましい。
【0029】
映像に登場するキャラクタと声質が関連付けられていることで、あたかも選択したキャラクタ自身の声で歌っているような音声付映像が合成される。例えば、デジタルアイドルが動画中踊りながら、デジタルアイドルにふさわしい声で歌うといった音声付映像を合成することが可能となる。そのため、映像に登場するキャラクタのキャラクタ性を高めることができ、音声付映像の合成にあたりユーザの趣向性を高めることができる。
【0030】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するための歌詞情報の変更に関する語尾情報をサーバ装置に送信する語尾情報送信手段とを備え、サーバ装置は、端末装置から語尾情報を受信する語尾情報受信手段とを備え、音声合成手段は、メロディ情報、語尾情報、及び、歌詞情報をもとに、前記歌詞の一部について語尾情報にしたがって修正された修正歌詞が、前記メロディに伴われた音声を合成することが好ましい。
【0031】
このような構成とすることで、自動的に入力した歌詞の内容が変更されるため、歌詞の入力時に特に意識をしなくても、ユーザが選択するアクターやメロディのイメージに合わせた歌詞とすることが可能となる。
【0032】
本発明では、端末装置は、ユーザの操作に従って選択された、音声付映像を合成するための効果音に関する効果音情報をサーバ装置に送信する効果音情報送信手段を備え、サーバ装置は、端末装置から効果音情報を受信する効果音情報受信手段を備え、音声合成手段が、メロディ情報、歌詞情報、及び効果音情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記効果音が挿入された音声を合成することが好ましい。
【0033】
フレーズ間に挿入される「あいのて」や、拍手エフェクト、歓声エフェクトなどの効果音などが挿入された音声が合成されるため、合成された音声、及びこれを用いて合成された音声付映像の表現方法が豊富になり、よりよい音声付映像を作成したいというユーザの意欲をより一層向上させることができる。
【0034】
本発明では、サーバ装置は、前記メロディを構成する音の高さ、長さ及び/又は強弱を任意に調整することにより、該メロディを調整した調整メロディを合成する調整メロディ合成手段を備え、音声合成手段は、調整メロディ合成手段により合成された調整メロディに関する調整メロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記調整されたメロディに前記歌詞が伴われた音声を合成することが好ましい。
【0035】
通常、人が歌を歌う場合、メロディ本来の音の高さ、長さ又は強さからは微妙にずれていることが往々にしてある。そのため、音の高さ、長さ又は強さが微調整された調整メロディを音声合成に用いることで、より人間らしい歌声を合成することができる。
【0036】
本発明では、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するために用いられたメロディ、編曲、声質、歌詞又は映像とは異なる、変更メロディに関する変更メロディ情報、変更編曲に関する変更アレンジ情報、変更声質に関する変更声質情報、変更歌詞に関する変更歌詞情報、又は、変更映像に関する変更映像情報を含む変更情報をサーバ装置に送信する変更情報送信手段とを備え、サーバ装置が、音声付映像合成手段により合成された音声付映像と関連付けて、該音声付映像を合成するために用いられたメロディ情報、アレンジ情報、声質情報、歌詞情報、及び、映像情報を記憶手段する音声付映像情報記憶手段と、変更情報を端末装置から受信する変更情報受信手段と、音声付映像情報記憶手段により記憶されたメロディ情報、アレンジ情報、声質情報若しくは歌詞情報、又は、変更情報受信手段により受信された変更メロディ情報、変更アレンジ情報、変更声質情報若しくは変更歌詞情報をもとに変更音声を合成する変更音声合成手段と、音声付映像情報記憶手段により記憶された映像情報、又は、変更情報受信手段により受信された変更映像情報、及び、変更音声合成手段により合成された変更音声をもとに、前記映像又は変更映像に合成された変更音声が付随された音声付映像を再合成する音声付映像再合成手段とを備えることが好ましい。
【0037】
このような構成とすることで、ユーザは、音声付映像を合成するために用いられたメロディ、編曲、声質、歌詞又は映像とは異なる変更メロディ、変更編曲、変更声質、変更映像を選択し、変更歌詞を端末装置に入力することで、一度作成した音声付映像を変更することが可能となる。自らが作成した音声付映像について、どのメロディ、アレンジ、声質、映像を選択したか、又はどのような歌詞を入力したかを正確に覚えていなくても、音声付映像の一部を修正することで、簡便に音声付映像の再合成を行なうことができるため、よりユーザの趣向性を向上させることができる。
【0038】
本発明では、サーバ装置は、所定の条件を満たすことでユーザごとに加算されるポイントに関するポイント情報を記憶するポイント情報記憶手段と、音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成に応じて、ポイント情報記憶手段に記憶されたポイントから所定のポイントを減算するポイント減算手段とを備え、ポイント情報記憶手段に記憶されたポイントが所定の値に満たない場合に、音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成が実行されないことが好ましい。
【0039】
このような構成とすることで、音声付映像の合成・再合成が行なわれるたびに、ユーザが所有するポイントが減算され、ポイントが所定の値に満たない場合は、音声付映像の合成・再合成ができなくなるため、例えば、広告主サイトにおけるユーザ登録や商品の購入がポイントの加算条件となるように設定されているような場合、ユーザが、広告主サイトにてユーザ登録や商品の購入を行なうための動機付けとなる。
【0040】
本発明では、サーバ装置は、音声付映像合成手段により合成された音声付映像と関連付けて、音声付映像再合成手段による音声付映像の再合成の回数を記憶する再合成回数記憶手段とを備え、再合成回数記憶手段による再合成回数が所定の回数以内である場合に、ポイント減算手段によるポイントの減算が実行されず、且つ、ポイント情報記憶手段に記憶されたポイントが所定の値より大きいか否かにかかわらず、音声付映像再合成手段による音声付映像の再合成の実行が可能であることが好ましい。
【0041】
このような構成とすることで、音声付映像の再合成が所定の回数未満である場合に、ポイントが所定の値以上であるか否かにかかわらず、ポイントの減算が実行されることなく音声付映像の再合成の実行が可能となるため、ポイントを使用して音声付映像を合成した後に、合成した音声付映像をポイントを消費することなく、微修正することが可能となる。特に、歌詞がメロディと違和感なく合致しているか否かは、音声付映像の合成に慣れたユーザであっても試行錯誤が必要となるため、所定回数(例えば3回)以内であれば自由に歌詞情報の修正を可能とすることで、よりユーザが利用しやすいシステムを提供することになる。
【0042】
また、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、サーバ装置が、端末装置からメロディ情報を受信し、端末装置から映像情報を受信し、端末装置から歌詞情報を受信し、受信されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【0043】
さらには、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、サーバ装置が、記憶部に記憶された複数のメロディに関するメロディ情報の中から、任意のメロディ情報を指定し、端末装置から歌詞情報を受信し、指定されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、記憶部に記憶された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【0044】
さらに、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び/又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信し、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、サーバ装置が、コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶部に記憶し、リズム情報と、音の強弱及び/又は長さの規則性を関連付けて記憶部に記憶し、端末装置からメロディ要素情報を受信し、端末装置から映像情報を受信する映像情報受信し、端末装置から歌詞情報を受信する歌詞情報受信し、受信されたコード情報に従って、該コード情報に関連付けて記憶部に記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定し、受信されたリズム情報に従って、特定された複数の音に、リズム情報に関連付けて記憶部に記憶された音の強弱及び/又は長さの規則性をもとに、音の強弱及び/又は長さに関する情報を付与することで、メロディ情報を合成し、合成されたメロディ情報、及び、受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成し、受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【0045】
さらに、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信し、サーバ装置が、複数のメロディに関するメロディ情報を記憶部に記憶し、記憶部に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定し、複数の映像に関する映像情報を記憶部に記憶し、記憶部に記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定し、端末装置から歌詞情報を受信し、指定された一つ又は複数のメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成し、指定された一つ又は複数の映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【0046】
さらに、本発明は、音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、端末装置が、ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、サーバ装置が、端末装置からメロディ情報を受信し、端末装置から映像情報を受信し、メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶部に記憶し、記憶部に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成し、受信されたメロディ情報、及び、合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成することを特徴とする音声付映像合成方法に関する。
【図面の簡単な説明】
【0047】
【図1】本発明の実施の形態にかかる音声付映像合成システムを表す図である。
【図2】本発明の実施の形態にかかるユーザ情報テーブルを表す図である。
【図3】本発明の実施の形態にかかるメロディ情報テーブル及び映像情報テーブルを表す図である。
【図4】本発明の実施の形態にかかる音声付映像情報テーブルを表す図である。
【図5】本発明の実施の形態にかかる音声付映像を合成する際の処理についてのフローチャートの一例である。
【図6】本発明の実施の形態にかかるポイント処理、メロディカテゴリ選択処理、メロディ選択処理、及びアレンジ選択処理についてのフローチャートの一例である。
【図7】本発明の実施の形態にかかる歌詞情報の決定処理についてのフローチャートの一例である。
【図8】本発明の実施の形態にかかる声質・あいのて選択処理及び映像選択処理についてのフローチャートの一例である。
【図9】本発明の実施の形態にかかる音声付映像変更情報にもとづいた音声付映像の合成処理についてのフローチャートの一例である。
【図10】ユーザ端末の表示画面の変化を表す図である。
【発明を実施するための形態】
【0048】
以下、添付図面を参照して、本発明の実施の形態について説明する。図1は、本発明の実施の形態で適用される音声付映像合成システムの概要を示す図である。システムにおいて、サーバ装置1は、通信ネットワーク4を介して、ユーザ端末2、広告主サーバ3に接続されている。サーバ装置1は、CPU(Central Processing Unit)11と、メインメモリ12と、HDD(Hard Disk Drive)13と、通信インターフェイス14とを備えている。
【0049】
CPU11は、HDD13上に格納されたプログラムを実行し、装置本体の制御を行なう。メインメモリ12は、CPU11のワークエリアであり、一般的にはRAM(Random Access Memory)で構成される。また、HDD13は、本発明において実行されるプログラムやデータを保存するための記憶領域として用いられる。HDD13に記憶されたプログラム及びデータは、実行時にCPU11の制御のもとに読み出されて、メインメモリ12にロードされる。CPU11は、メインメモリ12にロードされたプログラム及びデータを処理する。CPU11が処理を行っている間の中間的なデータは、メインメモリ12に記憶される。通信インターフェイス14は、無線又は有線により通信ネットワーク4に接続されており、ユーザ端末2及び広告主サーバ3と通信を行なうことが可能である。
【0050】
なお、本実施の形態では、サーバ装置1は一つのサーバ装置で構成されることとしているが、サーバ装置1は二つ以上のサーバ装置から構成されていても良い。例えば、サーバ装置1は、音声付映像の合成処理を行なう合成処理サーバ、ユーザがウェブサイトを閲覧するためにユーザ端末2からアクセスを行なうWebサーバなどから構成されるサーバ群であっても良い。
【0051】
本発明にかかるユーザ端末2としては、パーソナルコンピュータ、携帯電話を用いることができる。ユーザ端末2は、ユーザがユーザ端末2を操作するための操作部(操作ボタン、キーボード等)と、ユーザが所定の情報を見るために設けられた表示画面を有しており、また、サーバ装置1と無線又は有線による通信が可能である。ユーザはユーザ端末2の操作部を操作することで、インターネット上の広告掲載サイト(サーバ装置1)へアクセスを行なう。そして、ユーザが選択したメロディ情報、アレンジ情報、声質情報、あいのて情報、映像情報、及び、ユーザが入力した歌詞情報がユーザ端末2からサーバ装置1に送信される。サーバ装置1では、ユーザ端末2から受信したメロディ情報、アレンジ情報、声質情報、映像情報、あいのて情報、歌詞情報等をもとに音声付映像を合成する。
【0052】
図2は、本発明の実施の形態にかかるユーザ情報テーブルの一例を表す図である。ユーザ情報テーブル20は、サーバ装置1のHDD13に設定される。ユーザ情報テーブル20には、ユーザ自ら設定するユーザ名21、ユーザが使用するユーザ端末2の識別番号を示す端末ID22、ユーザのメールアドレス23、ユーザのポイント24を含む情報が記憶されている。端末ID22は、ユーザ端末2が、携帯電話であれば携帯電話機が有する固体識別番号が用いられ、パーソナルコンピュータであればIPアドレスなどが用いられる。
【0053】
本実施の形態において、ユーザが広告掲載サイトを閲覧するためにサーバ装置1にログインする場合は、ユーザがメールアドレスをユーザ端末2に入力すると、入力されたメールアドレスがユーザ端末2の端末IDと共にサーバ装置1に送信されるような構成とすることができる。この場合、サーバ装置1は、通信インターフェイス14を介して端末ID及びメールアドレスを受信し、受信した端末ID及びメールアドレスの両者が一致するユーザが、ユーザ情報テーブル20に存在するか否かを参照する。両者が一致するユーザが存在する場合は、ログインの認証がされる。また、ログインはユーザの携帯電話の端末ID22を使用して自動的にログインの可否を判定するような構成とすることもできる。ユーザの有する携帯電話の端末IDがユーザ情報テーブル22に記憶されている端末ID22と一致する場合はログインが可能となり、一致しない場合は、ユーザがメールアドレスとパスワードを入力することで手動でのログインが行なわれる。
【0054】
本実施の形態において、ユーザ情報テーブル20には、ユーザごとにポイント24が記憶されている。ポイント24はユーザの行動に応じて加算又は減算される値である。例えば、ユーザが広告掲載サイトにて設定されたハイパーリンクから広告主サーバ3へアクセスし、広告主が提供する広告主サイトを閲覧した場合や、広告主サイトにおいて商品購入、ユーザ登録、メールマガジン登録、又は資料請求等を行なった場合などに、ユーザの商品購入等に関する履歴情報が広告主サーバ3からサーバ装置1に送信される。なお、履歴情報は広告主サーバ3から、広告配信システム等の他のサーバを介して、サーバ装置1に送信されることとしても良い。ユーザの履歴情報を受信したサーバ装置1では、CPU11が受信した履歴情報を解析し、ユーザが有するポイント24が加算される。加算されるポイントは、ユーザの行動の内容に応じて異なる値としてもよい。また、ポイント24は、ユーザの要求に応じて音声付映像が合成される場合に、所定の値が減算される。なお、ユーザはプリペイド方式の電子マネーを使用して、ポイント24を購入することができる。また、ユーザはポイントをどのように取得し、何に使ったかという履歴を、ユーザ端末2を用いて確認することができる。また、ポイント24はクレジットカードにより購入することも可能であり、本発明の音声付映像合成システムの運営者と提携する事業者が顧客へ付与するポイントを利用して購入することも可能である。
【0055】
次に、本発明の実施の形態にかかる音声付映像を合成する処理において用いられる、メロディ情報テーブルについて説明する。メロディ情報テーブル30は、サーバ装置1のHDD13に設定される。図3(a)は、メロディ情報テーブル30を表す図である。メロディ情報テーブル30は、後述する音声合成処理の際に用いられるメロディに関する情報を記憶するもので、ユーザは、メロディ情報テーブル30に記憶されたメロディの中から任意のメロディを選択することが可能である。
【0056】
メロディ情報テーブル30には、カテゴリ31、メロディ名32、メロディID33、フレーズ数34、第1フレーズ文字数35等が記憶されている。カテゴリ31は、複数のメロディを分類するために設定されたものであり、すべてのメロディはいずれかのカテゴリ31(例えば、「愛の歌」、「悲しい歌」等)に属している。メロディ名32は、各メロディに付与された名称である。メロディ名32が選択されると、フレーズ数34や第1フレーズ数35は一意に特定される。
【0057】
メロディID33は、一つの音楽データを特定するための識別番号であり、メロディ名32及びアレンジが選択されることにより特定される。音楽データには、メロディを構成する音の高さ、長さ、強さ(大きさ)及びその順序に関する音符情報が含まれる。後述する音声合成処理では、メロディID33で特定された音楽データに含まれる音符情報を参照し、音声が合成される。メロディID33は1つのメロディに対して複数のメロディIDが記憶されている。すなわち、メロディをどのように編曲(アレンジ)するかによって、メロディは同じでも、そのリズムやハーモニーは異なるため、編曲の方法ごとにメロディID33が設定されている。具体的には、ロック、フォーク、ジャズ、クラッシク等への編曲の方法ごとにメロディID33が設定されている。したがって、ユーザの選択に応じて、メロディは同じでもまったく異なる曲調の音声を合成することが可能となる。
【0058】
また、メロディごとに設定されたフレーズ数34及び第1フレーズ文字数35は、後述する歌詞決定処理において参照される情報である。ここで、フレーズとは、メロディを構成する部分であり、メロディと同様、それぞれのフレーズには音符情報が含まれる。なお、図3(a)では図示していないが、メロディ情報テーブル30には、第2フレーズ文字数、及びそれ以降のフレーズ文字数についても同様に設定されており、フレーズ数34、第1フレーズ文字数35及び第2フレーズ以降の文字数にかかる情報を合わせたものがフレーズ情報である。例えばメロディ名32が「愛してます」であるメロディの場合、フレーズ数34は「3」となっているため、「愛してます」のメロディは第1フレーズ文字数から第3フレーズ文字数までの情報が、メロディ情報テーブル30において記憶されている。後述する音声合成処理において、音符情報に歌詞をのせた音声が合成されるため、音符情報に含まれる各フレーズの音の数と、各フレーズにのせることが可能な文字数の上限は、対応付けられている。メロディ情報テーブル30に設定される各フレーズのフレーズ文字数は、後述する歌詞決定処理において、各フレーズに対して入力することが可能な文字数の上限を表す。図3(a)に図示されていない、第2フレーズ文字数、及びそれ以降についても同様である。
【0059】
なお、音声合成処理において、歌声に伴奏や効果音等が付与された一つの音楽データを合成することとしてもよいが、歌声データと伴奏データ、又は歌声と効果音などの時間的な関連付けをするのみとし、音声合成処理に続く音声付映像合成処理において、映像データとまとめて一つの音声付映像データを合成するように構成してもよい。
【0060】
なお、メロディ情報テーブル30には、さらにメロディのフレーズ毎に入力可能なモーラ数(音数)が記憶されていてもよい。本明細書において、モーラ数とは、入力された歌詞の文字数から数えられる音の数である。例えば、ほとんどの仮名文字が1文字で1音と数えられるが、「ちゃ」「ちゅ」「ちょ」のような拗音は、歌詞の文字上は2文字でもメロディの音符としては1音と数えられる。このほか、「ー」(長音)、「っ」(促音)、「ん」(撥音)はそれぞれ独立して1音として数える。モーラ数の上限は、文字数と同様に、メロディのフレーズ毎に記憶される。
【0061】
次に、本発明の実施の形態にかかる音声付映像を合成する処理において用いられる、映像情報テーブルについて説明する。映像情報テーブル40は、サーバ装置1のHDD13に設定される。図3(b)は、映像情報テーブル40を表す図である。映像情報テーブル40は、後述する音声合成処理の際に用いられる映像に関する情報を記憶するもので、ユーザは、映像情報テーブル40に記憶された映像の中から任意の映像を選択することが可能である。
【0062】
映像情報テーブル40には、アクター41、ふるまい42、映像ID43が記憶されている。アクター41は、音声付映像合成処理において合成される映像の中で動作表示されるキャラクタ(例えば、「ファミリー」、「サラリーマン」、「OL」等)を表したものである。ふるまい42は、アクター41の動作のパターン(例えば、「ハッピー」、「ムカツク!!」等)を表したものであり、それぞれのアクター41に対して1以上のふるまい42が設定されている。
【0063】
映像ID43は、一つの映像データを特定するための識別番号であり、音声付映像の合成処理では、映像ID43で特定された映像データをもとに、音声付映像が合成される。映像ID43は、後述する映像選択処理において、ユーザが同じアクター41及びふるまい42を選択した場合であっても、選択した背景が異なれば映像ID43は異なる。したがって、アクター41及びふるまい42の1つの組み合わせに対して複数の映像IDが記憶されている。具体的には、街、海等の背景ごとに映像ID43が設定されている。
【0064】
図4は、本発明の実施の形態にかかる音声付映像情報テーブルの一例を表す図である。後述する音声付映像合成処理において合成された音声付映像に関する情報が、音声付映像情報テーブル50に記憶される。音声付映像情報テーブル50には、音声付映像ID51、作成ユーザ名52、メロディID53、声質54、あいのて55、語尾56、映像ID57、タイトル58、歌詞59、歌詞変更回数60、URL61を含む情報が記憶されている。
【0065】
音声付映像ID51は、音声付映像がユーザの選択に従って合成された際に一意的に付与される識別番号である。作成ユーザ名52は音声付映像の合成を行なったユーザの名前が記憶されており、図2におけるユーザ名21と同じ情報が記憶される。メロディID53は、後述するメロディ選択処理において選択されたメロディIDが記憶されたものである。メロディ選択処理においては、ユーザがユーザ端末2を操作してメロディが選択され、メロディID33が特定される。そして、特定されたメロディID33をもとに音声合成処理が行なわれる。音声付映像合成処理において音声付映像が合成されると、メロディID33が、音声付映像情報テーブル50においてメロディID53として記憶される。
【0066】
声質54は、声の性質を表すもので、声の音色に関する情報であり、通常は音声波形として記憶されている。声質54をもとに音声合成を行うことで、合成される音声に、はっきりとした声や柔らかい声などの性質が付与される。人が発声する音は、例えば母音と子音からなる複数の音素の組み合わせで構成されている。それぞれの音素は音声波形によって表されるが、同じ音素であっても、それを表す音声波形には個人差がある。ある人物(例えば、ユーザ)の声から、各音素に対応する音声波形を抽出してデータベースに記憶させ、歌詞として入力された文字情報に従って連続的にこれらの音声波形を組み合わせることで、その人物の声質にもとづいた音声が合成される。本実施の形態では、声質54として、「男性」、「女性」、「子供」、「アニメ声(アニメのキャラクタのようなかわいらしい声)」、「デス声(ダミ声・悪声・がなり声)」などが設定されているが、ここに挙げた以外の声質も設定可能である。例えば、声質として有名人や歴史上の人物の声質を再現したものを設定する、又はユーザの声の音声データから音素を表す音声波形を抽出してデータベース化し、音声付映像を合成する際の声質として利用可能とすることも可能である。さらに、複数の声質を利用可能とすることで、ハーモニーやデュエットを合成可能なように設定してもよい。ユーザがユーザ端末2において声質54を選択すると、選択された声質54をもとに音声合成処理が行なわれる。そして、音声付映像合成処理において音声付映像が合成されると、声質54が音声付映像情報テーブル50において記憶される。また、声質54にエフェクトを加えることで、音声合成の品質を向上させることも可能である。
【0067】
あいのて55は、音声付映像に挿入される効果音であり、音声合成処理にて合成された音声のフレーズ間に挿入される。あいのて55には、「すいません」、「赤ちゃん」などが設定されており、例えば、あいのて55として「すいません」が選択された場合、音声合成処理において、それぞれのフレーズの最後の音と次のフレーズの最初の音の間に「すいません」と早口でしゃべる効果音が挿入される。ユーザがユーザ端末2においてあいのて55を選択すると、選択されたあいのて55をもとに音声合成処理が行なわれる。そして、音声付映像合成処理において音声付映像が合成されると、あいのて55が音声付映像情報テーブル50において記憶される。なお、その他さまざまな効果音を用意し、選択された効果音をもとに音声合成処理を行うようにしてもよい。その他の効果音の例としては、歓声エフェクトや拍手エフェクトなどが挙げられる。
【0068】
語尾56は、歌詞の語尾に関する設定を表すもので、後述する歌詞決定処理において入力された歌詞の語尾を自動的に修正するものである。例えば、語尾56が「だべさ」である場合、「・・・です」と入力された歌詞に対して、「・・・だべさ」と自動的に変化し、「じゃけん」である場合、「・・・である」と入力された歌詞が、「・・・じゃけん」と自動的に変化する。どの単語がどのように修正されるかについては、語尾56ごとに予め設定がされている。語尾56の設定を行なうことで、自動的に歌詞が修正されるため、歌詞の入力時に特に意識をしなくても、ユーザが選択するアクターやメロディのイメージに合わせた歌詞とすることが可能となる。ユーザがユーザ端末2において語尾56を選択すると、選択された語尾56をもとに音声合成処理が行なわれる。そして、音声付映像合成処理において音声付映像が合成されると、語尾56が音声付映像情報テーブル50において記憶される。
【0069】
映像ID57は、後述する映像選択処理において選択された映像IDが記憶されたものである。映像選択処理においては、ユーザがユーザ端末2を操作して映像が選択され、映像ID57が特定される。そして、特定された映像ID57をもとに音声付映像合成処理において音声付映像が合成されると、映像ID57が、音声付映像情報テーブル50において映像ID57として記憶される。
【0070】
タイトル58及び歌詞59は、後述するタイトル決定処理及び歌詞決定処理において決定された音声付映像のタイトル及び歌詞を記憶したものである。歌詞決定処理においては、メロディ選択処理によって選択されたメロディ情報をもとに、メロディ情報テーブル30からフレーズ数34及びフレーズ文字数を含む情報が、フレーズ情報としてサーバ装置1からユーザ端末2に送信される。フレーズ情報を受信したユーザ端末2は、フレーズ情報をもとにユーザからの歌詞入力を受け付け、これを歌詞情報としてサーバ装置1に送信する。歌詞情報を受信したサーバ1は、フレーズ文字数に関する処理を行ない、歌詞情報を決定する。タイトル決定処理及び歌詞決定処理においてそれぞれ決定されたタイトル及び歌詞情報は、後述する音声合成処理及び音声付映像合成処理において使用される。音声付映像合成処理において音声付映像が合成されると、使用されたタイトル及び歌詞は、音声付映像情報テーブル50においてそれぞれタイトル58、及び歌詞59として記憶される。
【0071】
歌詞変更回数60は、音声付映像ID51について、ユーザの要求に従って歌詞変更が行なわれた回数を示す情報である。ここで、歌詞変更とは、ユーザが入力した歌詞59の変更だけでなく、タイトル58の変更も含む概念である。また、URL61は、音声付映像合成処理によって合成された音声付映像が閲覧可能なURLを表す情報である。なお、URL61は、音声付映像を合成したユーザのメールアドレス23に対し、合成が完了した旨を通知するメールを送信する際に、併せて通知される。
【0072】
次に、本発明の実施の形態にかかる音声付映像を合成する際の処理について説明する。図5は、音声付映像を合成する際の処理についてのフローチャートである。まず、ユーザ端末2がサーバ装置1へ接続し、広告掲載サイト1へログインが行なわれる。ユーザがユーザ端末2を操作し選択したコースを入力すると、ユーザ端末2はコース選択を受け付ける。本発明の実施の形態におけるコースとは、音声付映像を合成するまでの一連の処理手順が定められたものであり、例えば、「曲先コース」又は「歌詞先コース」の2つのコースが用意されている。
【0073】
ユーザ端末2から選択されたコース(ここでは「曲先コース」がユーザによって選択されたものとする)がサーバ装置1に送信されると、ユーザが有するポイントの減算処理が実行される(ステップS1)。ステップS1のポイント減算処理では、ユーザ情報テーブル20のポイント24の値が更新される。なお、ここでは、コースが選択された直後にポイントの減算処理が実行される構成としているが、減算タイミングは、音声付映像の合成後としても良い。ポイントの減算処理が実行されると、メロディカテゴリ選択処理が実行される(ステップS2)。メロディカテゴリ選択処理は、音声付映像の合成に使用するメロディのカテゴリを、ユーザの選択に従って特定するための処理である。続いて、メロディ選択処理が実行される(ステップS3)。メロディ選択処理は、選択されたカテゴリに属するメロディの中から、音声付映像の合成に使用するメロディをユーザの選択に従って特定するための処理である。次に、アレンジ選択処理が実行される(ステップS4)。アレンジ選択処理は、音声合成処理におけるメロディの編曲方法をユーザの選択に従って特定するための処理である。次いで、歌詞決定処理が実行される(ステップS5)。歌詞決定処理は、音声付映像の合成に使用するための歌詞をユーザに入力させ、入力された歌詞を加工して歌詞情報として決定するための処理である。続いて、声質・あいのて選択処理が実行される(ステップS6)。声質・あいのて選択処理は、音声合成処理において合成される音声の声質及びあいのてをユーザの選択に従って特定するための処理である。続いて、映像選択処理が実行される(ステップS7)。映像選択処理は、音声付映像の合成に使用する映像をユーザの選択に従って特定するための処理である。そして、タイトル決定処理が実行される(ステップS8)。タイトル決定処理は、合成される音声付映像のタイトルをユーザに入力させるための処理である。
【0074】
ステップS8が終了すると、サーバ装置1において音声合成処理が実行される(ステップS9)。音声合成処理は、ステップS2及びS3において選択されたメロディ情報、ステップS4において選択されたアレンジ情報、ステップS5において決定された歌詞情報、及び、ステップS6において選択された声質情報・あいのて情報をもとに、音声を合成する処理である。
【0075】
ステップS9が終了すると、合成された音声及び映像選択処理で選択された映像情報をもとに音声付映像が合成される(ステップS10)。ステップS10では、音声付映像が合成されるとともに、合成された音声付映像に関する情報が、タイトル決定処理で決定されたタイトルと関連付けられて音声付映像情報テーブル50に記憶される。ステップS10において音声付映像が合成されると、合成された音声付映像はサーバ装置1におけるHDD13に保存され、インターネットで閲覧が可能なようにアップロード処理される(ステップS11)。ステップS11において音声付映像がアップロードされると、音声付映像の合成を行なったユーザのメールアドレスに対して、その音声付映像のURL61が記載されたメールがサーバ装置1から送信される(ステップS12)。音声付映像の合成には数分程度の時間を要することがあるため、音声付映像の合成が完了したことのユーザへの通知をメールの送信により行なう。ユーザは、ユーザ端末2においてサーバ装置1から送信されたメールを受信し、メール中に記載されたURL61にアクセスすることで、合成された音声付映像を視聴することができる。なお、音声付映像の作成が、ユーザの選択又は入力を受け付けるステップS2〜S8までのいずれかで中断した場合は、途中まで選択入力された情報がサーバ装置1において記憶されるように構成してもよい。この場合、次に音声付映像の作成を再開した時に、前回選択入力された情報がサーバ装置1からユーザ端末2に送信され、ユーザが各ステップにおいて選択入力されるときにデフォルト表示されるよう構成することが可能である。又は、前回中断したところから音声付映像の作成を再開するように構成してもよい。
【0076】
図5では、ステップS2〜S8までの処理を決まった順序で行なうこととしたが、ステップS2のメロディカテゴリの選択からステップS8のタイトル決定処理までは必ずこの順序で行なう必要はなく、適宜、順序を変更することも可能である。また、ユーザがいずれの項目から順番に選択するかについて任意に決定できるような構成とすることも可能である。例えば、映像を選択した後に声質・あいのての選択を行ない、メロディ及びアレンジを選択し、最後に歌詞の入力を行なうといったことも可能である。この場合は、どの項目から入力するかについての選択画面がユーザ端末に表示され、ユーザが選択を行なう。ユーザが入力する各項目については、あらかじめデフォルト値が入力または選択されているため、仮に、ユーザが一部の項目についての選択を行なわなかった場合でも、デフォルト値を用いて音声付映像を合成することが可能である。
【0077】
以下、ステップS1〜S4のポイント処理、メロディカテゴリ選択処理、メロディ選択処理、及びアレンジ選択処理について、図6、図10を用いて詳しく説明する。図6は、本発明の実施の形態にかかるポイント処理、メロディカテゴリ選択処理、メロディ選択処理、及びアレンジ選択処理についてのフローチャートの一例である。図10は、ユーザ端末の表示画面の変化を表す図である。まず、ユーザから音声付映像の合成処理の開始要求がユーザ端末2からサーバ装置1へ送信される(ステップS21)。ここで、開始要求とは、ユーザによるコースの選択が該当する。ユーザ端末2の表示画面70には、図10(a)のように、「曲先コース」、「歌詞先コース」の2つのコースが表示され、ユーザはこの中から希望するコースを選択する。ここでは、「曲先コース」が選択され、このコースの開始が要求された場合について説明する。
【0078】
サーバ装置1が、ユーザ端末2から開始要求を受信する(ステップS22)と、選択されたコースに応じて、ユーザが有するポイントの減算処理が実行される(ステップS23)。続いて、サーバ装置1は、メロディ情報テーブル30に記憶された、メロディが属するカテゴリ31に記憶されたカテゴリに関するリスト(以下、カテゴリリストという)をユーザ端末2に送信する(ステップS24)。ユーザ端末2は、サーバ装置1から送信されたカテゴリリストを受信し(ステップS25)、これを表示画面70に表示させる。図10(b)のように、表示画面70には「愛の歌」、「悲しい歌」等のカテゴリが表示される。ユーザは、表示画面70に表示された複数のカテゴリの中から、一つのカテゴリを選択する。ユーザからのカテゴリの選択入力をユーザ端末2で受け付ける(ステップS26)と、ユーザ端末2は、選択されたカテゴリに関する情報をサーバ装置1に送信する(ステップS27)。
【0079】
サーバ装置1は、選択されたカテゴリに関する情報をユーザ端末2から受信する(ステップS28)と、メロディ情報テーブル30の情報をもとに、選択されたカテゴリに属するメロディに関するリスト(以下、メロディリストという)を、ユーザ端末2に送信する(ステップS29)。例えば、「愛の歌」がカテゴリ31として選択された場合は、メロディ情報テーブル30の「愛の歌」のカテゴリ31に属している「愛してます」、「今すぐ会いたい」等がメロディリストに含まれる。ユーザ端末2は、サーバ装置1からメロディリストを受信する(ステップS30)と、これを表示装置70に表示させる。表示画面70には、図10(c)のように「愛してます」、「今すぐ会いたい」等のメロディ名32が表示される。ユーザは、ユーザ端末2に表示されたメロディリストに含まれる複数のメロディの中から一つのメロディを選択する。ユーザがメロディを選択する際にはメロディを試聴することも可能である。ユーザがメロディを選択する際には、どれくらいの文字数(モーラ数)を入力できるかがメロディ選択の判断基準となるため、メロディリストにおいてメロディ毎にモーラ数を表示してもよい。また、メロディリストで、メロディをモーラ数の少ない順又は多い順にソートして表示してもよい。ユーザからのメロディの選択入力をユーザ端末2で受け付ける(ステップS31)と、ユーザ端末2は、選択されたメロディに関するメロディ選択情報をサーバ装置1に送信する(ステップS32)。
【0080】
サーバ装置1は、メロディ選択情報をユーザ端末2から受信する(ステップS33)と、メロディ情報テーブル30の情報をもとに、選択されたメロディに設定されているアレンジに関するリスト(以下、アレンジリストという)をユーザ端末2に送信する(ステップS34)。アレンジリストは、メロディごとに異なるものであっても良く、同じものであっても良い。ユーザ端末2は、サーバ装置1からアレンジリストを受信する(ステップS35)と、これを表示画面70に表示させる。表示画面70には、図10(d)のように「ロック」、「フォーク」、「ジャズ」等のアレンジの方法が表示される。ユーザは、ユーザ端末2に表示されたアレンジリストに含まれる複数のアレンジの中から一つのアレンジを選択する。ユーザがアレンジを選択する際には編曲されたメロディを試聴することも可能である。ユーザからのアレンジの選択入力をユーザ端末2で受け付ける(ステップS36)と、ユーザ端末2は、選択されたアレンジに関するアレンジ選択情報をサーバ装置1に送信する(ステップS37)。サーバ装置1がアレンジ選択情報をユーザ端末2から受信する(ステップS38)と、サーバ装置1のCPU11は、メロディ選択情報及びアレンジ選択情報をもとに、メロディ情報テーブル30を参照し、メロディID33を特定する。
【0081】
次に、ステップS5の歌詞決定処理について、図7、図10を用いて説明する。図7は、本発明の実施の形態にかかる歌詞決定処理についてのフローチャートの一例である。まず、サーバ装置1のCPU11は、メロディ選択処理で受信したメロディ選択情報をもとに特定されたメロディについて、メロディ情報テーブル30を参照し、フレーズ数34及び、各フレーズのフレーズ文字数が抽出される(ステップS41)。抽出されたフレーズ情報は、ユーザ端末2に送信される(ステップS42)。ユーザ端末2はサーバ装置1からフレーズ情報を受信する(ステップS43)と、受信したフレーズ情報に対応した入力フォームが表示画面70に表示される。
【0082】
表示画面70には、図10(e)のように、フレーズごとに歌詞を入力するためのテキスト入力欄がフレーズ数34に合わせて表示される。例えば、フレーズ数34が「3」であるメロディの場合は、第1フレーズ、第2フレーズ、第3フレーズまでのテキスト入力欄が設けられる。なお、例えば、図10(e)のように、第1フレーズのフレーズ文字数が3、第2フレーズのフレーズ文字数が4、第3フレーズのフレーズ文字数が6である場合、それぞれのフレーズ文字数に対応したテキスト入力欄が設けられてもよい。また、各フレーズのテキスト入力欄の近傍(例えば上側や左側)に、各フレーズのフレーズ文字数を表示して、ユーザがフレーズ文字数を把握しやすいようにすることも可能である。ユーザは、ユーザ端末2を操作して、音声付映像の各フレーズの歌詞を入力する。ユーザ端末2が、入力されたフレーズごとの歌詞についてテキスト入力を受け付けると(ステップS44)、受け付けられたテキスト情報が、歌詞情報としてサーバ装置1に送信される(ステップS45)。なお、「ハッピーバースデー」のように一部分だけ(この場合は名前の部分)を入力すれば、歌詞が完成するような曲の場合は、すべての歌詞を入力させずに、入力が可能な部分を一部(名前の部分のみ)にしぼることで、音声付映像の作成を容易にすることができる。
【0083】
サーバ装置1が歌詞情報を受信する(ステップS46)と、サーバ装置1は、ステップS41で抽出されたフレーズ情報を参照し、各フレーズにテキスト入力された文字数が、そのフレーズに設定されたフレーズ文字数以下であるか否かの判定を行なう(ステップS47)。ここで、入力された歌詞の文字数がフレーズ文字数より少ない場合、少ない文字数の分だけ、空白文字が存在すると判定される。例えば、フレーズ文字数が「5」である場合に「あいうえ」の4文字しかテキスト入力されていない場合は、最後の5文字目が空白文字として判定される。なお、音声合成処理をした場合、空白文字の部分は無音となる。そして、入力された歌詞の文字数がフレーズ文字数以下であると判定された場合(ステップS47において「Yes」)、歌詞情報は、何ら変更なくそのままメインメモリ12に記憶される(ステップS49)。一方、いずれかのフレーズにおいて、対応するフレーズに入力された歌詞の文字数が、フレーズ文字数を超えている場合(ステップS47にいてNo)、入力された歌詞のうち、超えている文字数分の文字がカットされて認識され(ステップS48)、歌詞情報としてメインメモリ12に記憶される(ステップS49)。例えば、フレーズ文字数が「4」である場合に「あいうえお」の5文字がテキスト入力された場合は、最後の5文字目がカットされ、「あいうえ」のみが歌詞情報として認識される。
【0084】
なお、上記の歌詞決定処理において、モーラ数(音数)のチェック機能を備えることが好ましい。モーラ数のチェック機能とは、ユーザが入力した文字をモーラ数として数え、モーラ数の不足、超過をユーザに通知するという機能である。前述したように、ユーザが実際に入力した文字数とモーラ数が一致しない場合がある。このため、ユーザは、文字数とモーラ数の関係に留意しながら歌詞の入力を行う必要があり、負担が大きい。FLASH等の技術を利用した歌詞入力画面を用意し、モーラ数のチェック機能を備えることで、歌詞入力時のユーザの負担を軽減することができる。この場合、歌詞入力画面で、歌詞の入力と同時にモーラ数の表示を行なうようにすることも可能であり、歌詞情報の入力が終了した後に、サーバ装置1にてモーラ数を特定してユーザ端末2でモーラ数を表示するようにしても良い。
【0085】
モーラ数のチェック処理は、文字と音の対応テーブルを参照することにより実行される。対応テーブルには、ほとんどの仮名1文字に対して1音、例外として「ちゃ」「ちゅ」「ちょ」などの拗音は仮名2文字に対して1音など、文字と音の対応関係が定義されている。対応テーブルにもとづき、各フレーズに入力された文字数に対するモーラ数が数えられ、各フレーズに設定されたモーラ数の上限と比較される。入力された歌詞の文字数がフレーズのモーラ数の上限より少ない場合、少ない文字数の分だけ空白文字が存在すると判定される。比較された結果はユーザに通知され、歌詞入力時に参照することができる。この場合の歌詞入力画面は、「歌詞の入力」と、「モーラ数(音数)の確認」という機能を分離してもよい。例えば、図10(e)のように、ユーザが入力ボタンを選択して歌詞入力を開始し、確認ボタンが選択されることで入力した歌詞についてのモーラ数のチェック処理が実行される。チェック処理の実行主体はサーバ装置1でもユーザ端末2でもよい。モーラ数のチェック処理がサーバ装置1において実行される場合は、ユーザが歌詞を入力した後に確認ボタンを選択すると、入力された歌詞に関するテキスト情報がサーバ装置1に送信され、サーバ装置1においてモーラ数のチェック処理が行われる。チェック処理の結果はユーザ端末2に送信され、表示画面70に表示されることにより、ユーザに通知されることになる。なお、対応テーブルがサーバ装置1からユーザ端末2に送信され、チェック処理はユーザ端末2において実行されるように構成してもよい。この場合、図10(e)の例と異なり、「歌詞の入力」と「モーラ数(音数)の確認」という処理をユーザ端末い2にて同時に行えるようにしても良い。
【0086】
なお、FLASH等の技術を利用してモーラ数のチェック機能を設けることについて記載したが、携帯電話のユーザの多くはHTMLによる入力に慣れ親しんでいるため、HTMLにより歌詞を入力することとしても良い。
【0087】
次に、ステップS6の声質・あいのて選択処理及びステップS7の映像選択処理について、図8、図10を用いて説明する。図8は、本発明の実施の形態にかかる声質・あいのて選択処理及び映像選択処理についてのフローチャートの一例である。まず、サーバ装置1は、声質に関するリスト(以下、声質リストという)及びあいのてに関するリスト(あいのてリスト)をユーザ端末2に送信する(ステップS51)。声質リスト及びあいのてリストは、メロディごとに異なるものであっても良く、同じものであっても良い。ユーザ端末2は、サーバ装置1から声質リスト及びあいのてリストを受信する(ステップS52)と、これを表示画面70に表示させる。表示画面70には、図10(f)のように声質リストとして「男性」、「女性」等の声質が表示され、あいのてリストとして、「なし」(音声にあいのてを挿入させない場合に選択)、「犬(ワン)」等のあいのてが表示される。ユーザが声質を選択する際には声質の試聴(男性の声、女性の声等の試聴)をすることも可能である。ユーザは、ユーザ端末2に表示された声質リスト及びあいのてリストに含まれる複数の声質、あいのての中から、それぞれ一つの声質、あいのてを選択する。ユーザからの声質及びあいのての選択入力をユーザ端末2で受け付ける(ステップS53)と、ユーザ端末2は、選択された声質に関する声質選択情報、選択されたあいのてに関するあいのて選択情報をサーバ装置1に送信する(ステップS54)。そして、サーバ装置1が声質選択情報、あいのて選択情報をユーザ端末2から受信する(ステップS55)。
【0088】
続いて、サーバ装置1は、映像情報テーブル40に記憶されたアクター41に関するリスト(以下、アクターリストという)をユーザ端末2に送信する(ステップS56)。ユーザ端末2は、サーバ装置1から送信されたアクターリストを受信し(ステップS57)、これを表示画面70に表示させる。表示画面70には、図10(h)のように「ファミリー」、「サラリーマン」等のアクターリストが表示される。ユーザは、ユーザ端末2に表示されたアクターリストに含まれる複数のアクターの中から、一つのアクターを選択する。ユーザからのアクターの選択入力をユーザ端末2で受け付ける(ステップS58)と、ユーザ端末2は、選択されたアクターに関するアクター選択情報をサーバ装置に送信する(ステップS59)。
【0089】
サーバ装置1は、アクター選択情報をユーザ端末2から受信する(ステップS60)と、ふるまい42に関するリスト(以下、ふるまいリストという)をユーザ端末2に送信する(ステップS61)。ふるまいリストに含まれるふるまいは、選択したアクターごとに異なっていても良く、同じであっても良い。アクターごとにふるまいが異なる場合は、映像情報テーブル40をもとに、選択されたアクターに応じたふるまいリストが送信される。ユーザ端末2は、サーバ装置1からふるまいリストを受信する(ステップS62)と、これを表示画面70に表示させる。表示画面70には、図10(i)のように「ハッピー」(選択されたアクターの映像中の動作が幸せいっぱいの動作である)、「むかつく!!」(選択されたアクターの映像中の動作が怒りの動作である)等のふるまいが表示される。ユーザは、ユーザ端末2に表示されたふるまいリストに含まれる複数のふるまいの中から一つのふるまいを選択する。ユーザからのふるまいの選択入力をユーザ端末2で受け付ける(ステップS63)と、ユーザ端末2は、選択されたふるまいに関するふるまい選択情報をサーバ装置1に送信し(ステップS64)、サーバ装置1はふるまい選択情報をユーザ端末2から受信する(ステップS65)。
【0090】
次に、サーバ装置1は、背景に関するリスト(以下、背景リストという)をユーザ端末2に送信する(ステップS66)。背景リストに含まれる背景は、選択したアクターやふるまいごとに異なっていても良く、同じであっても良い。ユーザ端末2は、サーバ装置1から背景リストを受信する(ステップS67)と、これを表示画面70に表示する。表示画面70には、図10(j)のように複数の背景が表示される。ユーザは、ユーザ端末2に表示された背景リストに含まれる複数の背景の中から、一つの背景を選択する。ユーザの背景の選択入力をユーザ端末2で受け付ける(ステップS68)と、ユーザ端末2は、選択された背景に関する背景選択情報をサーバ装置1に送信する(ステップS69)。サーバ装置1が背景選択情報をユーザ端末2から受信する(ステップS70)と、サーバ装置1は、アクター選択情報、ふるまい選択情報及び背景選択情報をもとに、映像情報テーブル40を参照し、映像ID43が特定される。
【0091】
また、上の説明では、アクター、ふるまい、及び背景を選択することで、映像IDが特定されるとしたが、ユーザ毎に所有しているオリジナル動画(以下、オリジナルムービーという)を用いて音声付映像を合成することが可能である(曲先コース、歌詞先コースとは別にオリジナルムービーコースを別途設けることも可能である)。この場合、図10(f)で声質・あいのてを選択した後に、ユーザ端末2の表示画面70が切り替わり、図10(g)のように、オリジナルムービーを使用するか、或いは、アクター・ふるまい・背景を選択して動画を特定するかについて、ユーザが選択できる画面が用意されている。アクター・ふるまい・背景を選択して動画を特定することをユーザが選択すると、図10(h)のようにアクターを選択する画面がユーザ端末2に表示される。オリジナルムービーを使用することをユーザが選択すると、ユーザが所有しているオリジナルムービーのうち、いずれを使用するかについて、ユーザはさらに選択することになる。オリジナルムービーは、ユーザ端末2に記憶されているものだけでなく、ユーザが予めサーバ装置1にアップロードしたものを用いることも可能である。予めサーバ装置1にアップロードされたオリジナルムービーを用いる場合は、サーバ装置1に記憶されたユーザが利用可能なオリジナルムービーのリストがサーバ装置1からユーザ端末2に送信される。選択されたオリジナルムービーに関する情報は、ユーザ端末2からサーバ装置1に送信され、音声付映像合成処理において用いられる。
【0092】
図5におけるステップS7の映像選択処理、すなわちアクター選択情報、ふるまい選択情報及び背景選択情報をもとに映像ID43が特定されたのち、ステップS8のタイトル決定処理が実行される。タイトル決定処理では、サーバ装置1から送信された情報に基づいて、図10(k)のように、ユーザ端末2の表示画面70に、合成される音声付映像のタイトルを入力するためのテキスト入力欄が表示される。ユーザ端末2が、タイトルに関するユーザからのテキスト入力を受け付けると、受け付けられたテキスト情報が、タイトル情報としてサーバ装置1に送信される。
【0093】
なお、本明細書において、音声合成処理及び音声付映像合成処理で使用される情報(音声付映像情報テーブル50に記憶されたメロディID53、声質54、あいのて55、語尾56、映像ID57、タイトル58、歌詞59が含まれる)を、音声付映像を合成するための要素と称することがある。
【0094】
なお、図10では、メロディカテゴリ選択及びメロディ選択、アレンジ選択、歌詞入力、声質・あいのて選択、映像選択、タイトル入力の順にユーザが選択入力を行なう構成となっているが、これらの順序は任意に設定することができる。また、語尾選択に関する処理をこの構成に追加し、選択された語尾に応じて音声合成処理が行われる構成としても良い。ただし、上記のように、歌詞に入力できる文字数がメロディ毎に設定されている場合は、歌詞入力処理の前にメロディカテゴリ選択処理及びメロディ選択処理が行われることが好ましい。
【0095】
音声合成処理は、ステップS2及びS3において選択されたメロディ、ステップS4において選択されたアレンジ、ステップS5において決定された歌詞、及び、ステップS6において選択された声質・あいのてをもとに、音声を合成する処理である。すなわち、選択されたメロディとアレンジにより異なるメロディIDが特定されるため、同じメロディであっても異なる曲調の音声を合成することができる。また、特定されたメロディに歌詞が伴った音声が合成されるが、その音声は選択された声質によって、異なった声の大きさ、高さ、音色の声となる。また、あいのてを挿入するように設定がされている場合は、合成された音声においてフレーズ間にあいのてが挿入されることになる。さらに、歌詞の語尾が変更するように設定がされている場合は、決定された歌詞も自動的に変更されることになる。
【0096】
音声付映像合成処理は、音声合成処理により得られた音声、ステップS7において選択された映像をもとに、音声付映像を合成する処理である。音声付映像に用いられる映像は、ユーザによるアクター、ふるまい、及び背景の選択により特定される映像IDにしたがって決定される。この決定された映像に、合成された音声を付随させることで音声付映像が合成される。なお、音声付映像に用いられる映像は、単に映像IDにしたがって決定される映像を用いるのではなく、音声付映像に付随される音声にあわせて、例えば、映画の字幕のように歌詞情報がテキストで表示されるようにすることも可能である。この場合、カラオケ装置における歌詞の表示方法と同様に、音声の進行と同時に、テキストの表示を進行させてもよく、時間の経過に伴って各フレーズが順番に表示されるようにしてもよい。なお、ここで表示される字幕において、漢字や絵文字を表示ができるようにしてもよい。この場合、音声の合成に使用した歌詞の一部又はすべてを、仮名から漢字や絵文字に変換するための辞書データをもとに変換し、これを字幕として表示するように構成することが可能である。
【0097】
上で述べた実施の形態では、メロディ情報テーブル30において予め用意されているメロディをもとに、音声付映像が合成されることとしたが、本発明はこれに限定されない。例えば、ユーザが、サイト上でメロディを編集し、音声付映像の素材として使用できるように構成してもよい。また、ユーザが作成したメロディをサーバ装置1にアップロードし、音声付映像の素材として使用できるようにしてもよい。この場合において、編集されるメロディ、又はアップロードされるメロディのファイル形式としては、midi形式などを採用することができる。また、ユーザが実際に歌った音声データをもとに、各音の高さ及び長さ、その順序を含む情報を抽出することにより、新たなメロディを合成する構成としてもよい。音声付映像の合成処理において、編集、アップロード又は新たに合成されたメロディが用いられ、その他の選択処理(歌詞決定処理、声質・あいのて選択処理、映像選択処理、タイトル決定処理)、音声合成処理、音声付映像処理については、すでに述べたものと同様の処理が実行される。なお、アップロード又は合成されたメロディは、オリジナルメロディとしてサーバ装置1にアップロードされ、ユーザが別の任意のタイミングで音声付映像の合成に用いるメロディとして使用可能にしてもよい。
【0098】
また、新たなメロディの合成において、ユーザが曲のジャンルや、コード(和音)、リズムなどを選択し、それらを元にサーバ装置1において自動的にメロディを作曲するようにしてもよい。コードは複数の音の高さと関連付けて、サーバ装置1にて記憶されている。例えば、「C」コードであれば、「ド(低音)」、「ミ」、「ソ」、「ド(高音)」の4つの音の高さと関連付けられて記憶されている。サーバ装置1において実行される、メロディを合成するメロディ合成処理において、選択されたコードと関連付けられた複数の音の高さが任意の順序で並べられ、メロディを構成する各音の音の高さと順序が決定される。また、決定されたメロディの音の長さや強弱の規則性に関する情報が、選択可能なリズムと関連付けて記憶されており、メロディを構成する各音に音の長さと音の強さ(大きさ)に関する情報を付与することで、メロディが合成される。例えば、選択するリズムの種類により4分音符を基本単位とした音の長さ(4ビート)、又は、8分音符を基本単位とした音の長さ(8ビート)で合成された音声が表現される。また、4分音符を基本とした音の長さの場合であれば、4分音符の1つ目の音を強調したり、あるいは、3つ目の音を強調したりといった規則性を持たせることができる。なお、コードの選択はフレーズ毎に1つずつ順番に選択できるようにしても良く、使用するコードを複数選択すれば、その順序はサーバ装置1にて任意に特定することとしても良い。さらに、ユーザが好みのジャンルを選択すれば、予め定められた、そのジャンルに適合した複数のコードとリズムを選択したものとして、選択されたコードとリズムを用いてメロディを合成することとしても良い。すなわち、ジャンルごとに使用するコードとリズムが関連付けて記憶されており、ユーザがジャンルを選択することで、コードとリズムが特定されることとしても良い。また、上に述べたように、新たに合成されたメロディは、オリジナルメロディとしてサーバ装置1にアップロードされてもよい。
【0099】
また、本発明の実施の形態において、メロディをもとにサーバ装置1において伴奏を合成し、合成された伴奏を伴った音声付映像が合成されるようにしてもよい。すなわち、メロディに合うような、ギターやピアノなどの楽器及び/又はソプラノやテノールなどの声部による伴奏が合成され、これが伴った音声が合成されてもよい。サーバ装置1には、楽器や声部に関する伴奏を合成するための音の音色に関する伴奏情報と、メロディと関連付けて、メロディの各フレーズに合ったコード及びリズムが記憶されている。そして、フレーズ毎にこのコードに従って、ギターであればギターの音色、ピアノであればピアノの音色を有する伴奏フレーズが合成され、合成された伴奏フレーズを順に並べることで、メロディに沿った伴奏を合成することができる。メロディはユーザが選択したものであっても良く、サーバにおいて任意に特定したものであっても良い。また、伴奏におけるリズムも、メロディと関連付けて記憶されたリズムに応じて特定される。具体的な処理の方法としては、メロディに音の長さや音の強弱の規則性を付与する場合と同様である。合成された伴奏は、音声合成処理において、メロディ及び歌詞とともに1つの音声データとして合成しても良く、また、メロディ及び歌詞から音声合成された音声データとは別の音声データとして合成しておくことも可能である。
【0100】
本発明の実施の形態において、アクター、ふるまい、背景で特定される映像の代わりに、ユーザ毎に所有しているオリジナルムービーを用いて音声付映像を合成することが可能である。或いは、音声付映像合成システムの運営者により予め用意されたアニメーション(キャラ、ふるまい及び背景を組み合わせたもの)、予め用意された夜景、動物など、実写の動画を用いて音声付映像を合成することもできる。ここで、オリジナルムービーがサーバ装置1に予めアップロードされている場合、ユーザがサーバ装置1にログインしている時に、自分が所有しているオリジナルムービーを編集できるようにしてもよい。編集の主な内容として、2つ以上のオリジナルムービーのファイルの結合などがあげられる。また、ユーザが静止画像をサーバ装置1に複数アップロードし、サーバ装置1において、それらを組み合わせてスライドショーのような動画を生成するように構成してもよい。このように構成することで、それぞれのユーザが音声付映像の合成に用いることのできる映像のバリエーションを増やすことができる。
【0101】
また、ユーザ毎に所有されたオリジナルムービーは、他のユーザが自分の音声付映像の素材として使用できるように、他のユーザに公開してもよい。オリジナルムービーが公開されることで、音声付映像の合成において利用可能な映像のバリエーションを増やすことができる。なお、ユーザがオリジナルムービーを公開するときに、ポイントを消費する構成としてもよい。また、他のユーザが音声付映像の素材として使用するたびに、そのオリジナルムービーを所有するユーザにポイントが付与されるようにしてもよい。このようにすることで、ユーザにオリジナルムービーを公開させようとする動機づけを与えることができる。さらに、オリジナルムービーが公開され、他のユーザも使用できるようにした場合に、ユーザが、同じオリジナルムービーを利用して作った音声付映像を検索できるようにしてもよい。
【0102】
本発明の実施の形態において、合成された音声付映像は変更することが可能であるので、その処理について説明する。図9は、本発明の実施の形態にかかる音声付映像変更情報にもとづいた音声付映像合成処理についてのフローチャートの一例である。まず、音声付映像の変更を行なうユーザは、ユーザ端末2からサーバ装置1にログインし、自らが作成した音声付映像の中から、変更したい音声付映像を選択し、その音声付映像の変更要求をユーザ端末2からサーバ装置1に送信する(ステップS81)。なお、ここで、音声付映像の変更とは、ユーザが作成した既存の音声付映像を変更して内容の異なる音声付映像を作成することだけでなく、ユーザが作成した既存の音声付映像を残しつつ、既存の音声付映像をもとに新たな音声付映像を作成する(コピーして作成)ことも含む概念である。
【0103】
サーバ装置1が音声付映像の変更要求をユーザ端末2から受信する(ステップS82)と、ユーザが有するポイントの減算処理が実行される(ステップS83)。音声付映像を変更するたびに所定のポイントが減算されるが、歌詞やタイトルを微修正するような場合に所定の回数以内(例えば、3回以内)であればポイントを減算しなくても良いように設定することも可能である。続いて、サーバ装置1は、音声付映像情報テーブル50を参照し、変更要求のあった音声付映像に関する音声付映像情報として、該音声付映像についてのメロディID53、声質54、あいのて55、映像ID57、タイトル58、歌詞59を含む情報を抽出する(ステップS84)。抽出された音声付映像情報は、サーバ装置1からユーザ端末2に送信され(ステップS85)、ユーザ端末2にて受信される(ステップS86)。
【0104】
音声付映像情報を受信したユーザ端末2では、どのメロディ、アレンジ、声質、あいのて、映像をユーザが過去に選択し、タイトル、歌詞として入力したテキスト情報が、表示画面に表示されることになる。例えば、アレンジを変更するような場合であって、過去に「ロック」を選択していたときは、ユーザ端末2の表示画面70において、図10(d)のような表示がされ、「ロック」がデフォルトで選択されている。ユーザは必要があれば、これを変更することができる。
【0105】
ユーザ端末2では、ステップS2〜S8までの一連の処理(メロディカテゴリ選択処理からタイトル決定処理)と同様の処理を行なうことで、メロディカテゴリ、メロディ、アレンジ、歌詞、声質、あいのて、映像、及びタイトル等の音声付映像の構成要素についての変更処理を受け付ける(ステップS87)。なお、メロディを変更するとフレーズ数やフレーズ文字数が変わり、歌詞を大幅に変更する必要があるため、メロディについては変更することができないというような構成とすることも可能である。ステップS87において、メロディカテゴリ、メロディ、アレンジ、歌詞、声質、あいのて、映像、及びタイトル等の項目の変更を入力する順序は、ユーザが任意に決定することができる。この場合、変更を行なう項目を選択するための選択画面がユーザ端末2に表示され、ユーザが変更を希望する項目の選択を行なう。ユーザ端末2において、音声付映像情報の変更処理を受け付けると、音声付映像変更情報(変更されたメロディカテゴリ、変更されたメロディ、変更されたアレンジ、変更された歌詞、変更された声質、変更されたあいのて、変更された映像、又は、変更されたタイトルに関する情報)がサーバ装置1へ送信される(ステップS88)。
【0106】
サーバ装置1が音声付映像情報を受信する(ステップS89)と、変更があった項目については音声付映像変更情報をもとに、変更がなかった項目については抽出した音声付映像情報をもとに、音声合成処理及び音声付映像処理が実行され、音声付映像が再合成される(ステップS90)。
【0107】
ステップS90において音声付映像が再合成されると、再合成された音声付映像はサーバ装置1におけるHDD13に保存され、インターネットで閲覧が可能なようにアップロード処理される(ステップS91)。ステップS91において音声付映像がアップロードされると、音声付映像の再合成を行なったユーザのメールアドレスに対して、再合成された音声付映像が閲覧可能なURL61が記載されたメールがサーバ装置1から送信される(ステップS92)。
【0108】
なお、音声付映像をコピーして作成する時に、特定の要素を選択する処理を省き、選択処理を途中から開始して、音声付映像を合成してもよい。例えば、ユーザが音声付映像のメロディ及びアレンジの変更を希望せず、歌詞の変更を希望する場合は、歌詞の入力を選択すると、メロディ、アレンジの選択を省略し、歌詞の入力から音声付映像を作成できる。
【0109】
上で述べた実施の形態では、ユーザの選択により、メロディカテゴリ、メロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景等が特定される構成としていたが、コース選択において「シンプルコース」を設けることも可能である。「シンプルコース」を選択した場合は、音声付映像の合成に用いられる各要素、すなわちメロディカテゴリ、メロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景がサーバ装置1により任意に指定される。どのメロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景が指定されるかは、「シンプルコース」を選択した時刻等を乱数の種としてランダムに決定される。その他の選択処理(歌詞決定処理、タイトル決定処理)、音声合成処理、音声付映像処理については、すでに述べたものと同様の処理が実行される。なお、「シンプルコース」において、いずれかの情報をユーザによって選択入力されるようにしてもよい。例えば、歌詞決定処理及びタイトル決定処理のほか、アクターのふるまいをユーザに選択させるように構成してもよい。この場合、上で述べたように、サーバ装置1とユーザ端末2の間でふるまいリスト及びふるまい情報の送受信が行われるが、アクター及び背景はサーバ装置1により指定され、映像IDが特定される。さらに、アクターのふるまいに代えて、ユーザが利用可能なオリジナルムービーが選択できるように構成してもよい。
【0110】
上で述べた実施の形態では、「曲先コース」、「歌詞先コース」のいずれも、ユーザに歌詞を入力させ、入力された歌詞をもとに音声付映像が合成される構成としたが、サーバ装置1において一つ又は複数の歌詞テンプレートを記憶させ、この情報がユーザ端末2に送信され、その中からユーザが選択できるコースを用意してもよい。歌詞テンプレートとは、あらかじめ歌詞が入力されている定型的な歌詞のことである。このようにすることで、歌詞入力という負担をユーザにかけることなくなるので、ユーザの利便性が高くなる。なお、ユーザが歌詞のテンプレートを選択した後に、歌詞テンプレートの内容の全部、或いは一部を編集できるようにしてもよい。
【0111】
さらに、歌詞決定処理において、ユーザによるテキスト入力又は歌詞テンプレートからの選択入力を行わず、サーバ装置1が自動的に歌詞を合成するようなコースを用意することも可能である。例えば、サーバ装置1において、各フレーズに対応する複数パターンの歌詞が記憶されており、各フレーズに対応する歌詞を任意に組み合わせて歌詞を合成する歌詞合成処理が実行される。歌詞合成処理においてどのフレーズが用いられるかは、そのコースを選択した時刻等を乱数の種としてランダムに決定される。音声合成処理では、合成された歌詞をもとに音声が合成される。その他の選択処理、及び音声付映像合成処理については、すでに述べたものと同様の処理が実行される。
【0112】
また、上で述べた実施の形態では、ユーザの選択により、メロディカテゴリ、メロディ、アレンジ、語尾、あいのて、アクター、アクターのふるまい又は背景等が特定される構成としていたが、コース選択において「歌詞先コース」を選択した場合は、サーバ装置にてメロディを選択する前に先に歌詞を入力することも可能である。ユーザは、後述するサブコースを選択し、ポイントの利用確認を行なった後に歌詞入力を行なう。この場合、入力した歌詞の文字数に合致するモーラ数を有するメロディが、サーバ装置により自動的に選択される。歌詞入力を行なった後に、タイトル、ムービーの種類、アクター、ふるまい、背景、又はあいのてのうちのいずれを編集するかについて選択し、選択した項目について編集が可能となる。さらに、歌詞の編集を行なうことも可能である。これらの項目を選択又は編集する順序は、ユーザが任意に決定できるような構成とすることも可能である。この場合は、どの項目から入力するかについての選択画面がユーザ端末に表示され、ユーザが選択を行なう。
【0113】
ユーザが「歌詞先コース」を選択した場合は、さらにサブコースを選択する画面が表示され、いくつかのサブコースの中から1つのサブコースを選択する必要がある。サブコースとしては、「川柳コース」、「短歌コース」、「フリーコース」の3つのサブコースが挙げられる。ユーザが自由に歌詞を入力できる場合、自由度が高すぎて何を入力すればよいかわからないといったユーザもいる。そのため、予め文字入力数を制限することで、歌詞入力しやすくしたものが、「川柳コース」と「短歌コース」である。これらのサブコースは、それぞれフレーズ数と、フレーズ毎の文字数が予め決められている。「川柳コース」の場合は、入力可能なフレーズ数は3フレーズであり、1フレーズ目の入力可能モーラ数は5、2フレーズ目の入力可能モーラ数は7、3フレーズ目の入力可能モーラ数は5である。一方、「短歌コース」の場合は、入力可能なフレーズ数は5フレーズであり、1フレーズ目の入力可能モーラ数は5、2フレーズ目の入力可能モーラ数は7、3フレーズ目の入力可能モーラ数は5、4フレーズ目の入力可能モーラ数は7、5フレーズ目の入力可能モーラ数は7である。「フリーコース」は、入力可能なフレーズ数は5フレーズと制限はされているが、各フレーズの入力可能モーラ数は無制限である。ただし、1フレーズの入力可能モーラ数を予め定めておけば、それ以上の文字数を入力できないようにすることも可能である。1フレーズの文字数が多くなりすぎた場合は、それに合致するメロディが存在しない場合もあるので、サーバ装置にて予め登録されているメロディに応じて、1フレーズの入力可能モーラ数の上限を設定しても良い。
【0114】
コース選択において「歌詞先コース」を選択した場合に、ユーザが歌詞となるテキストを入力すると、サーバ装置にて、テキストの文字数に合わせてメロディ及びアレンジを自動的に選択し、さらに動画を自動選択して、音声付映像を合成してもよい。
【0115】
歌詞入力画面を表示する前に、歌詞のテンプレートを選択するテンプレート選択画面が表示され、ユーザは複数のテンプレート候補の中から、歌詞のテンプレートを選択するような構成とすることもできる。歌詞のテンプレートには空欄が設けられており、ユーザは、この空欄に歌詞を入力する。したがって、空欄部分以外の歌詞は編集できない。この場合、サーバ装置が、歌詞のテンプレートの文字数に合致するモーラ数をもったメロディを自動的に選択する。
【0116】
歌詞先コースを選択して合成した音声付映像は、変更することが可能である。変更が可能な項目は、「タイトル」、「歌詞」、「映像」である。音声付映像の変更を希望するユーザは、自らが作成した音声付映像の中から変更したい音声付映像を選択し、音声付映像の変更要求をユーザ端末からサーバ装置に送信する。サーバ装置は、音声付映像情報テーブルから、変更要求のあった音声付映像に関する音声付映像情報を抽出し、ユーザ端末に送信する。ユーザは、タイトル、歌詞、映像のいずれを変更するかを選択し、変更後のタイトル・歌詞を入力し、又は、変更後の映像を選択する。サーバ装置ではこれらの情報を受信し、音声付映像の再合成を行う。
【0117】
上で述べた実施の形態では、音声付映像を合成するための各要素を、ユーザが選択入力することにより、一つの音声付映像が合成される構成としていたが、複数の音声付映像を合成するように構成することも可能である。例えば、ユーザが音声付映像のある要素を選択入力すると、ユーザが選択入力した以外の要素をサーバ装置1が複数パターン自動指定し、複数の音声付映像を一括で作成させてもよい。具体例としては、ユーザが歌詞を決定すると、システムが異なるメロディ、アレンジ、動画を任意に指定し、5パターンの音声付映像を一括で作成するなどが考えられる。ただし、サーバ装置の負荷を軽減するために、合成される複数の音声付映像の数には上限が設けられていることが好ましい。
【0118】
上で述べた実施の形態では、ユーザが歌詞を入力する際に、ユーザ端末2の表示画面に表示された入力フォームに直接入力する構成としていたが、サーバ装置1に記憶されたユーザ情報テーブルに、ユーザが随時入力及び変更が可能なメモ欄としてメモ情報を記憶しておき、歌詞を入力する処理において、当該メモ情報を利用する構成としても良い。例えば、図10(e)のように、歌詞入力を行う表示画面において、メモ情報が表示されるメモ欄を用意しておき、読出ボタンを選択することで、メモ情報の内容が歌詞に反映されるようにすることも可能である。このようにすることで、ユーザは、ある時、突然思いついた歌詞の一部などをサーバ装置に記憶させておくことができ、時間がかかる合成処理は別のタイミングで行なうことができる。また、別のタイミングで思いついた歌詞を任意に組み合わせるなどの利用方法も可能となるので、ユーザの利便性が高くなる。ユーザは、サーバ装置1にログインした状態であれば、メモ情報を参照することができ、その内容を修正することが可能である。その他、予め「おはよう」、「こんにちは」などの汎用的なフレーズをひな形としてサーバ装置1にて記憶しておき、歌詞を入力する処理において、これらのひな形をユーザが利用できる構成としても良い。
【0119】
上で述べた実施の形態では、音声付映像を合成すると、ユーザ情報テーブル20のポイント24から所定のポイントが減算されるとしていた。この場合、どのコースで音声付映像を作成するかによって、減算されるポイントを異なる値としても良い。例えば、「曲先コース」の場合は50ポイントが減算されるのに対し、「歌詞先コース」の場合は50ポイントが減算される。また、音声付映像の合成に使用したメロディ、声質、映像などに応じて、減算されるポイントを異なる値とすることも可能である。例えば、著名な作曲家が作曲したメロディや、人気のある歌手の声質を使用する場合は、通常のメロディや声質よりも減算されるポイントの値を大きくすることも可能である。このような構成とすることで、ユーザにとって好みのメロディや声質などを選択するために多くのポイントが必要になるため、ユーザが広告主サイトへアクセスをし、積極的にポイントを取得しようとする意欲を高めさせることができる。
【0120】
上で述べた実施の形態では、合成が完了した旨の通知メールに記載された音声付映像のURLにアクセスすることで、ユーザは当該音声付映像を視聴できるとしていた。ここで、ユーザが音声付映像をURLから再生する場合、サーバ装置1に負荷が発生するため、この負荷を軽減するための措置として、「ある音声付映像をURLから再生することは、一定時間内に一定数のユーザしか再生できない」という、再生制限を行ってもよい。また、ユーザは当該音声付映像をユーザ端末2にダウンロードできる構成としても良い。ただし、ダウンロードされた音声付映像は、商業利用を不可とするのが好ましい。このような構成とすることで、ユーザは視聴するたびにサーバ装置1に接続する必要がなくなり、サーバ装置1への接続が困難な状況(例えば、携帯電話において電波状況が悪い環境にあるなど)においても、自分が合成させた音声付映像の視聴を楽しむことができる。また、ダウンロードした音声付映像のデータの記録媒体への記録、若しくはメールへの添付などにより、他人に視聴させることも可能となる。
【0121】
また、音声付映像を合成させたユーザは、他のユーザに当該音声付映像のURLを知らせることで、他のユーザに視聴させることができる。音声付映像のURLはメールにコピー&ペーストして送ることができる。この場合、ユーザが、他のユーザのアドレス又はアカウント等をメッセージや、音声付映像のURLの送信先として登録しておけるリストとして、送信先リスト(以下、アドレス帳という)が設定されていてもよい。音声付映像を合成したユーザは、アドレス帳に登録した他のユーザに、自分が作った音声付映像を送ることができるため、ユーザの利便性を高めることができる。また、当該音声付映像は、ユーザ端末の種類、携帯電話であればキャリアの種別を問わず、視聴可能な形式であることが好ましい。ユーザ端末にダウンロードした音声付映像は、メールに添付して送ることができる。このようにすることで、本発明を用いて合成された音声付映像を、サーバ装置1に登録されたユーザだけでなく多くの潜在的なユーザに認知させることが可能となる。さらに、音声付映像が他のユーザによって視聴される場合、他のユーザに視聴された回数に応じて、音声付映像を合成したユーザに対し、ポイントが加算されるように構成しても良い。このような構成とすることで、ユーザの音声付映像合成に対する意欲をより一層高めることが可能となる。
【0122】
さらに、ユーザによる音声付映像の視聴の利便性を高めるため、いくつかの機能を追加してもよい。例えば、ユーザ毎に「お気に入り」を設定し、ユーザが音声付映像を登録しておくことで、後から当該音声付映像にアクセスしやすくすることができる。また、ユーザ自身が作成した音声付映像を一覧表示したページを用意してもよい。この場合、サーバ装置1に記憶されるデータ量を節減するため、音声付映像の最大保存件数を超えて音声付映像は作成できないようにしてもよい。音声付映像の「変更」と音声付映像の「公開」ができるよう、「お気に入り」にリンクを追加することも可能である。
【0123】
本発明の音声付映像合成システムでは、合成された音声付映像は他のユーザにも視聴可能なように公開することができる。ここで、当該音声付映像に対して他のユーザが評価する機能を追加することができる。他のユーザによる評価のための機能としては、例えば、拍手ボタンを用意し、音声付映像ごとに拍手された回数を集計する機能、音声付映像を閲覧した他のユーザが感想などを書き込めるコメント機能、音声付映像を合成したユーザに対しメッセージを送信可能とする機能などが挙げられる。集計された拍手回数を元に、音声付映像はランキング形式で公開される。また、コメント機能において、他のユーザによる感想などコメント欄に書き込まれた内容は、コメントに書き込んだ他のユーザ及び音声付映像を合成したユーザを除く、第三のユーザにも公開される。さらに、このコメントに書き込まれたテキスト情報をもとにして、音声付映像の歌詞を合成可能としてもよい。また、音声付映像を閲覧した他のユーザが、該音声付映像を合成したユーザのみに感想を伝えたい場合は、メッセージ機能を利用することが可能である。メッセージを受信したユーザは、お礼などを返信することも可能である。このように音声付映像を他のユーザが評価する機能を追加することで、音声付映像を合成するユーザに対し、より評価の高い音声付映像を合成しようとする動機づけを与えることができる。
【0124】
以上に述べた他、本発明の音声付映像合成システムに以下のような機能を追加することも可能である。
【0125】
本発明の音声付映像合成システムに、音声付映像の時間長を統一するだけでなく(例えば30秒)、15秒、60秒など異なる時間長の音声付映像の合成が可能となる機能を追加してもよい。このようにすることで、ユーザが合成可能な音声付映像のバリエーションを豊富にすることができ、様々な音声付映像を合成したいというユーザの意欲を向上させることができる。
【0126】
本発明の音声付映像合成システムにおいて、音声付映像を合成するための要素であるアクターと声質に関連性を持たせてもよい。すなわち、サーバ装置1に記憶された映像情報テーブル40において、アクター41に声質に関する情報が関連付けて記憶されていてもよい。この場合、ユーザによってあるアクターが選択されると、同時に該アクターに関連付けて記憶された声質が選択される。又は、声質が選択されると該声質と関連付けられたアクターが選択されるとしてもよい。例えば、図5のステップS6において、声質・あいのて選択処理に代えてあいのて選択処理のみを行い、ステップS7の映像選択処理においてアクターが選択されると、選択されたアクターと関連付けられた声質が選択されるようにすることが可能である。或いは、ステップS6の声質・あいのて選択処理において、声質が選択されると同時に該声質と関連付けられたアクターが選択され、ステップS7の映像選択処理において、アクターを除く選択肢(ふるまい及び背景を含む)をユーザに選択させるようにしてもよい。その他の選択処理及び音声合成処理、音声付映像合成処理については、すでに述べたものと同様の処理が実行される。
【0127】
本発明の音声付映像合成システムにおいて、人間らしい歌声が再現されるよう、音声合成処理に付加的な機能を追加してもよい。通常、人が歌うと、楽譜に記載された音の高さ、長さ、大きさからは微妙にずれてしまう場合が多い。そこで、音声付映像の合成に用いられるメロディを構成する音について、その高さ、長さ、大きさを調整し、調整されたメロディをもとに音声合成処理を行うようにすることで、本来のメロディから調整された音声が合成されるため、より人間らしい歌声を再現することができる。メロディの調整処理は、サーバ装置1又はユーザ端末2のいずれで実行されてもよい。ここで、メロディを構成する音のうち、いずれの音の調整を行うかの選択方法として、メロディを構成する全ての音を調整する方法、又は調整する音をランダムに選択する方法が挙げられるが、どのような方法を採用してもよい。また、音の高さ、長さ、大きさが調整される幅についても、それぞれ所定の幅としてもよく、又はランダムに調整されるように構成してもよい。さらに、上で述べたユーザの声をもとに音声を合成する場合に、ここで述べた、人間らしい歌声が再現されるようにしてもよい。このようにすることで、あたかもユーザ本人が歌っているかのような音声が再現されることになり、音声付映像を合成することに対するユーザの興味をさらに高めることができる。
【0128】
また、上で述べた実施の形態では、一人のユーザが音声付映像を構成する各要素を選択入力することとしたが、複数のユーザが一つの音声付映像を構成する要素を選択入力し、一つの音声付映像が合成されるようにしてもよい。具体的には、音声付映像のある要素(例えば、メロディ)についてはユーザAが選択し、別の要素(例えば、歌詞)についてはユーザBが選択するという方法で作成を行う。その結果、一人のユーザでは作成できなかった創造性豊かな音声付映像が合成されることとなる。
【0129】
さらに、本発明の音声付映像合成システムは、合成した音声付映像を、携帯電話の待ち受け画面として使用できるように加工する機能を備えていてもよい。待ち受け画面として使用できるように加工するための技術としては、FLASH等が挙げられる。
【0130】
また、携帯電話で動作するアプリケーションを用いて音声付映像を合成するためのインターフェイスを構築し、これをユーザに提供してもよい。携帯電話アプリケーションを用いることで、動的なインターフェイスを構築することができる。例えば、上で述べた映像選択処理において、アクター選択に続いてふるまいを選択する際に、ユーザ端末の表示画面に表示された、ふるまいリストに含まれる複数のふるまいのうちの一つにカーソルを合わせると、該ふるまいにしたがってアクターが動作する様子がプレビュー画面に表示されるなどの機能をもたせることができる。携帯電話アプリケーションを用いることで、FLASHよりもユーザの入力の負担が少ない歌詞入力画面を提供することもできる。
【0131】
また、ユーザではなく、本発明の音声付映像合成システムを運営する事業者が、音声付映像を合成してもよい。例えば、広告主から音声付映像形式の広告を受注し、音声付映像システムが運営されるサイト、又は広告主が運営するサイト等にて配信するようにしてもよい。音声付映像形式の広告の課金形態は、広告配信する期間を対象として料金が発生する、期間保証型でもよい。
【0132】
本発明の音声付映像合成システムでは、自分が合成した音声付映像を動画投稿サイトに直接的にアップロードする機能を有していても良い。ユーザは任意に自分の音声付映像を指定し、音声付映像合成システム固有のアカウントを用いて、動画投稿サイトに音声付映像をアップロードすることできる。ユーザは、動画投稿サイトにアップロードされた自分の音声付映像のURLを、音声付映像合成システムを運営する運営サイト上で取得することができる。ユーザが動画投稿サイトに音声付映像をアップロードした場合、サーバ装置が、特定のブログやSNS等のコミュニティサイトに、音声付映像がアップロードされた旨の情報を自動的にアップロードするような構成とすることができる。この場合、動画投稿サイト上にアップロードされた音声付映像のURL、音声付映像のタイトル、音声付映像を作成したユーザ名が、コミュニティサイトにアップロードされる。また、本発明の音声付映像合成システムでは、ユーザが任意に自分の作成した音声付映像を指定し、音声付映像合成システムの運営サイトからユーザ自らのアカウントで前記のコミュニティサイトにログインすることができ、コミュニティサイト上に自らが入力したテキスト情報と音声付映像がアップロードされているURLを投稿することができる。
【0133】
ユーザは、本発明の音声付映像合成システムの利用会員となっている他の会員にテキストでメッセージを送信することができる。送信されたメッセージは、音声付映像合成システムの運営サイト上に設けられたメッセージ一覧から閲覧できる。メッセージ一覧はユーザ毎に管理されており、他の会員のメッセージ一覧は閲覧することができない。ユーザはメッセージ送信の際に音声付映像がアップロードされているURLを記載することができる。メッセージを受信したユーザは、他会員ユーザから送られてきたメッセージに返信することができる。
【0134】
本発明の音声付映像合成システムでは、合成された音声付映像が再生されると、表示画面には、映像だけでなく歌詞もテロップ表示される。テロップ表示は、例えば、動画の下方の領域に表示される。テロップ表示されるテキスト情報は、音声として表現された歌詞に合わせ、フレーズ毎に切り替えられる。テロップ表示されるテキスト情報のタイプフェイスについて特に制限はないが、ゴシック体やその他の装飾性の高いフォントを用いることができる。
【0135】
また、テロップ表示されるテキスト情報は、通常、入力した歌詞が用いられるが、入力した歌詞とは異なる文字情報をテロップ表示できるようにしたメッセージ表示機能を持たせることも可能である。この場合、ユーザはフレーズ毎にテロップ表示する文字情報歌詞情報とは別途、メッセージ表示のための文字情報を入力する。このようにすることで、音声付映像の内容に合わせた何らかのメッセージを表示することが可能となる。また、メッセージ表示機能を導入した場合、音声合成するための歌詞と、テロップ表示用の文字情報を別々に入力することは、ユーザにとって手間がかかる。そのため、例えば、テロップ表示用の文字を、ひらがな文に変換し、これを音声合成用の歌詞情報として用いることも可能である。この場合、ひらがなだけでなく、漢字やカナ或いはアルファベット等を含んだテロップ表示用の文字をユーザが入力し、入力された文字はサーバ装置にて自動的にひらがなに変換され、音声合成用の文字情報として使用される。但し、漢字の読みは複数パターンあるため、サーバ装置が必ずしもユーザの意図通りに変換できるとは限らない。そこで、サーバ装置がひらがなに変換した文字を、さらにユーザが編集できるようにしても良い。なお、ここではテロップ表示用に入力された文字をサーバ装置にてひらがなに変換するとしたが、音声合成用の文字がカタカナである場合は、テロップ表示用に入力された文字はカタカナに変換される。すなわち、音声合成用に用いられる文字にあわせてテロップ表示用の文字が変換される。
【0136】
テロップ表示される文字自体をアニメーションとすることも可能である。例えば、音声付映像の再生中に、歌詞であるテキスト情報が左右に移動したり、画面の上方から降ってきたり等のアニメーション機能を持たせることも可能である。この場合、どのようなアニメーションを文字にさせるかについてはユーザが選択するように構成することも可能であり、サーバ装置にて自動的にアニメーションを設定することも可能である。
【0137】
本発明の音声付映像合成システムでは、表示画面に表示される映像に、動画を装飾するための額縁のようなフレーム画像を合成することも可能である。この場合、動画の周囲にフレーム画像が設けられる。動画の部分の形状は、円状、長方形状の何れであっても良い。音声付画像を合成する際に、ユーザはフレーム画像を設けるか否かについて選択し、フレーム画像を設けると選択した場合は、どのフレーム画像にするかについての選択を行う。サーバ装置では、選択されたフレーム画像が動画の周囲に額縁のように表示されるように、音声付映像の合成を行う。なお、フレーム画像は静止画でも良いが、フレーム画像自体に動画を用いても良い。
【0138】
本発明の音声付映像合成システムでは、音声付映像を合成した後に、メロディ、アレンジ、声質の組み合わせを見直すことができるような構成としてもよい。見直しを行うことで、メロディ、アレンジ及び声質の組み合わせから得られる楽曲のクオリティを向上させることができる。具体的には、音声付映像を合成した後に、ユーザがメロディ、アレンジ、声質の組み合わせの見直し要求をユーザ端末からサーバ装置に送信し、メロディ、アレンジ又は声質のいずれについて見直しを行なうかについての入力を行う。ユーザが見直し後の新たなメロディ、アレンジ又は声質を選択すると、再度、音声付映像が合成される。合成された音声付映像で良いとユーザが判断した場合は、見直し後の音声付映像が更新される。
【0139】
また、本発明の音声付映像合成システムのオリジナルムービーに、BGMとメッセージを合成して音声付映像を作成できる機能を設けることもできる。ここで、BGMとは、メロディとアレンジの組み合わせにより構成される楽曲から、音声合成により得られる歌(合成音声)を除外したものをいう。また、この場合におけるメッセージとは、前述したメッセージ表示機能と同様に、歌詞とは異なるもので、文字情報として映像に挿入されるものである。したがって、この場合、ユーザは歌詞の入力を行うことも特に必要ではなく、歌詞を用いた音声合成は実行されない。歌詞のないメロディに、ユーザが入力したメッセージが表示されたオリジナルムービーが付与された音声付映像が合成される。ユーザにより入力されたメッセージは、テロップのように画面下部に表示するだけでなく、画面中央に表示することも可能である。
【符号の説明】
【0140】
1 サーバ装置
2 ユーザ端末
3 広告主サーバ
4 通信ネットワーク
11 CPU
12 メインメモリ
13 HDD
14 通信インターフェイス
20 ユーザ情報テーブル
30 メロディ情報テーブル
40 映像情報テーブル
50 音声付映像情報テーブル
【特許請求の範囲】
【請求項1】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、
サーバ装置が、
端末装置からメロディ情報を受信するメロディ情報受信手段と、
端末装置から映像情報を受信する映像情報受信手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ情報受信手段により受信されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項2】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、
サーバ装置が、
複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、
音声付映像を合成するための映像に関する映像情報を記憶する映像情報記憶手段と、
メロディ情報記憶手段に記憶された複数のメロディ情報の中から、任意のメロディ情報を指定するメロディ情報指定手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ情報指定手段により指定されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報記憶手段により記憶された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項3】
映像情報記憶手段が、
映像に登場するキャラクタに関するキャラクタ情報、キャラクタの動作に関する動作情報、及び/又は映像の背景に関する背景情報と関連付けて映像情報を記憶するものであって、
サーバ装置が、
キャラクタ情報、動作情報、及び/又は背景情報のいずれかの映像要素情報を任意で指定する映像要素情報指定手段と、
映像要素情報指定手段により指定された映像要素情報と関連付けて記憶された映像情報を指定する映像情報指定手段とを備え、
音声付映像合成手段が、
映像情報指定手段により指定された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする請求項2に記載の音声付映像合成システム。
【請求項4】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び/又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信するメロディ要素情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、
サーバ装置が、
コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶する音高情報記憶手段と、
リズム情報と、音の強弱及び/又は長さの規則性を関連付けて記憶するリズム記憶手段と、
端末装置からメロディ要素情報を受信するメロディ要素情報受信手段と、
端末装置から映像情報を受信する映像情報受信手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ要素情報受信手段により受信されたコード情報に従って、音高情報記憶手段により該コード情報に関連付けて記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定する音順序情報特定手段と、
メロディ要素情報受信手段により受信されたリズム情報に従って、音順序情報特定手段により特定された複数の音に、リズム情報記憶手段によりリズム情報に関連付けて記憶された音の強弱及び/又は長さの規則性をもとに、音の強弱及び/又は長さに関する情報を付与することで、メロディ情報を合成するメロディ情報合成手段と、
メロディ情報合成手段により合成されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項5】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段を備え、
サーバ装置が、
複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、
メロディ情報記憶手段に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定するメロディ情報指定手段と、
複数の映像に関する映像情報を記憶する映像情報記憶手段と、
映像情報記憶手段により記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定する映像情報指定手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ情報指定手段により指定された一つ又は複数のメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成する音声合成手段と、
映像情報指定手段により指定された一つ又は複数の映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項6】
サーバ装置が、
メロディを構成する複数の音の数に関する音数情報を、メロディと関連付けて記憶する音数記憶手段と、
歌詞情報受信手段により受信した歌詞情報、及び、音数記憶手段により前記メロディと関連付けて記憶された音数情報をもとに、前記歌詞から計算される音の数と、前記メロディを構成する音の数が一致するか否かを判定する音数判定手段と、
音数判定手段により判定された結果に関する音数判定情報を端末装置に送信する音数判定情報送信手段とを備え、
端末装置が、
サーバ装置から受信した音数判定情報をもとに、音数判定手段により判定された結果を端末装置の表示画面に表示する音数判定情報表示手段を備えることを特徴とする請求項1〜5のいずれか1項に記載の音声付映像合成システム。
【請求項7】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段とを備え、
サーバ装置が、
端末装置からメロディ情報を受信するメロディ情報受信手段と、
端末装置から映像情報を受信する映像情報受信手段と、
メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶するフレーズ歌詞情報記憶手段と、
フレーズ歌詞情報記憶手段に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成手段と、
メロディ情報受信手段により受信されたメロディ情報、及び、歌詞合成手段により合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項8】
サーバ装置が、
ユーザと関連付けられた、音声付映像を合成するための映像に関するユーザ映像情報を記憶するユーザ映像情報記憶手段を備え、
音声付映像合成手段が、
ユーザ映像情報記憶手段に記憶されたユーザ映像情報、及び、音声合成手段により合成された音声をもとに、ユーザと関連付けられた映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする請求項1〜7のいずれか1項に記載の音声付映像合成システム。
【請求項9】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディの編曲に関するアレンジ情報をサーバ装置に送信するアレンジ情報送信手段とを備え、
サーバ装置が、
端末装置からアレンジ情報を受信するアレンジ情報受信手段とを備え、
音声合成手段が、メロディ情報、アレンジ情報、及び、歌詞情報をもとに、アレンジ情報に従って前記メロディを編曲することで得られる編曲メロディに、前記歌詞が伴われた音声を合成することを特徴とする請求項1〜8のいずれか1項に記載の音声付映像合成システム。
【請求項10】
サーバ装置が、
複数のメロディに関するメロディ情報と、該メロディ情報と関連付けて、該メロディを構成する各フレーズに適合するコードに関する適合コード情報を記憶する適合コード情報記憶手段と、
楽器及び/又は声部に関する伴奏を合成するための音の音色に関する伴奏情報を記憶する伴奏情報記憶手段と、
適合コード情報記憶手段により記憶された適合コード情報に従って、伴奏情報記憶手段により記憶された伴奏情報をもとに、フレーズ毎に該適合するコードに沿った、該音色を有する伴奏フレーズを合成し、合成した伴奏フレーズを組み合わせることで伴奏を合成する伴奏合成手段と、
音声付映像合成手段が、映像情報及び音声合成手段により合成された音声をもとに、映像に合成された音声が付随された音声付映像を合成する際に、さらに、伴奏合成手段により合成された伴奏を伴った音声付映像を合成することを特徴とする請求項1〜9のいずれかに1項に記載の音声付映像合成システム。
【請求項11】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するための声の音色を含む声質に関する声質情報をサーバ装置に送信する声質情報送信手段とを備え、
サーバ装置が、
端末装置から声質情報を受信する声質情報受信手段とを備え、
音声合成手段が、メロディ情報、声質情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記声質を有する音声を合成することを特徴とする請求項1〜10のいずれか1項に記載の音声付映像合成システム。
【請求項12】
前記映像情報は、映像に登場するキャラクタに関するキャラクタ情報と関連付けて記憶されており、
サーバ装置が、
音声付映像を合成するための声の音色を含む声質に関する声質情報を、キャラクタ情報と関連付けて記憶するキャラクタ声質情報記憶手段を備え、
映像情報送信手段が、ユーザの操作に従って選択された、キャラクタ情報と関連付けられた映像情報をサーバ装置に送信し、
音声合成手段が、メロディ情報、映像情報受信手段により受信された映像情報に含まれるキャラクタ情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、キャラクタと関連付けられた声質を有する音声を合成することを特徴とする請求項1〜11のいずれか1項に記載の音声付映像合成システム。
【請求項13】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するための歌詞情報の変更に関する語尾情報をサーバ装置に送信する語尾情報送信手段とを備え、
サーバ装置が、
端末装置から語尾情報を受信する語尾情報受信手段とを備え、
音声合成手段が、メロディ情報、語尾情報、及び、歌詞情報をもとに、前記歌詞の一部について語尾情報にしたがって修正された修正歌詞が、前記メロディに伴われた音声を合成することを特徴とする請求項1〜12のいずれか1項に記載の音声付映像合成システム。
【請求項14】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するための効果音に関する効果音情報をサーバ装置に送信する効果音情報送信手段を備え、
サーバ装置が、
端末装置から効果音情報を受信する効果音情報受信手段を備え、
音声合成手段が、メロディ情報、歌詞情報、及び効果音情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記効果音が挿入された音声を合成することを特徴とする請求項1〜13のいずれか1項に記載の音声付映像合成システム。
【請求項15】
サーバ装置が、
前記メロディを構成する音の高さ、長さ及び/又は強弱を任意に調整することにより、該メロディを調整した調整メロディを合成する調整メロディ合成手段を備え、
音声合成手段が、調整メロディ合成手段により合成された調整メロディに関する調整メロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記調整されたメロディに前記歌詞が伴われた音声を合成することを特徴とする請求項1〜14のいずれか1項に記載の音声付映像合成システム。
【請求項16】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するために用いられたメロディ、編曲、声質、歌詞又は映像とは異なる、変更メロディに関する変更メロディ情報、変更編曲に関する変更アレンジ情報、変更声質に関する変更声質情報、変更歌詞に関する変更歌詞情報、又は、変更映像に関する変更映像情報を含む変更情報をサーバ装置に送信する変更情報送信手段とを備え、
サーバ装置が、
音声付映像合成手段により合成された音声付映像と関連付けて、該音声付映像を合成するために用いられたメロディ情報、アレンジ情報、声質情報、歌詞情報、及び、映像情報を記憶手段する音声付映像情報記憶手段と、
変更情報を端末装置から受信する変更情報受信手段と、
音声付映像情報記憶手段により記憶されたメロディ情報、アレンジ情報、声質情報若しくは歌詞情報、又は、変更情報受信手段により受信された変更メロディ情報、変更アレンジ情報、変更声質情報若しくは変更歌詞情報をもとに変更音声を合成する変更音声合成手段と、
音声付映像情報記憶手段により記憶された映像情報、又は、変更情報受信手段により受信された変更映像情報、及び、変更音声合成手段により合成された変更音声をもとに、前記映像又は変更映像に合成された変更音声が付随された音声付映像を再合成する音声付映像再合成手段と
を備えることを特徴とする請求項1〜15のいずれか1項に記載の音声付映像合成システム。
【請求項17】
サーバ装置が、
所定の条件を満たすことでユーザごとに加算されるポイントに関するポイント情報を記憶するポイント情報記憶手段と、
音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成に応じて、ポイント情報記憶手段に記憶されたポイントから所定のポイントを減算するポイント減算手段とを備え、
ポイント情報記憶手段に記憶されたポイントが所定の値に満たない場合に、音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成が実行されない
ことを特徴とする、請求項1〜16のいずれか1項に記載の音声付映像合成システム。
【請求項18】
サーバ装置が、
音声付映像合成手段により合成された音声付映像と関連付けて、音声付映像再合成手段による音声付映像の再合成の回数を記憶する再合成回数記憶手段とを備え、
再合成回数記憶手段による再合成回数が所定の回数以内である場合に、ポイント減算手段によるポイントの減算が実行されず、且つ、ポイント情報記憶手段に記憶されたポイントが所定の値より大きいか否かにかかわらず、音声付映像再合成手段による音声付映像の再合成の実行が可能である
ことを特徴とする請求項17に記載の音声付映像合成システム。
【請求項19】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、
サーバ装置が、
端末装置からメロディ情報を受信し、
端末装置から映像情報を受信し、
端末装置から歌詞情報を受信し、
受信されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、
受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項20】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、
サーバ装置が、
記憶部に記憶された複数のメロディに関するメロディ情報の中から、任意のメロディ情報を指定し、
端末装置から歌詞情報を受信し、
指定されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、
記憶部に記憶された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項21】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び/又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信し、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、
サーバ装置が、
コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶部に記憶し、
リズム情報と、音の強弱及び/又は長さの規則性を関連付けて記憶部に記憶し、
端末装置からメロディ要素情報を受信し、
端末装置から映像情報を受信する映像情報受信し、
端末装置から歌詞情報を受信する歌詞情報受信し、
受信されたコード情報に従って、該コード情報に関連付けて記憶部に記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定し、
受信されたリズム情報に従って、特定された複数の音に、リズム情報に関連付けて記憶部に記憶された音の強弱及び/又は長さの規則性をもとに、音の強弱及び/又は長さに関する情報を付与することで、メロディ情報を合成し、
合成されたメロディ情報、及び、受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成し、
受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項22】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信し、
サーバ装置が、
複数のメロディに関するメロディ情報を記憶部に記憶し、
記憶部に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定し、
複数の映像に関する映像情報を記憶部に記憶し、
記憶部に記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定し、
端末装置から歌詞情報を受信し、
指定された一つ又は複数のメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成し、
指定された一つ又は複数の映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項23】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、
サーバ装置が、
端末装置からメロディ情報を受信し、
端末装置から映像情報を受信し、
メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶部に記憶し、
記憶部に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成し、
受信されたメロディ情報、及び、合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、
受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項1】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、
サーバ装置が、
端末装置からメロディ情報を受信するメロディ情報受信手段と、
端末装置から映像情報を受信する映像情報受信手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ情報受信手段により受信されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項2】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、
サーバ装置が、
複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、
音声付映像を合成するための映像に関する映像情報を記憶する映像情報記憶手段と、
メロディ情報記憶手段に記憶された複数のメロディ情報の中から、任意のメロディ情報を指定するメロディ情報指定手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ情報指定手段により指定されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報記憶手段により記憶された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項3】
映像情報記憶手段が、
映像に登場するキャラクタに関するキャラクタ情報、キャラクタの動作に関する動作情報、及び/又は映像の背景に関する背景情報と関連付けて映像情報を記憶するものであって、
サーバ装置が、
キャラクタ情報、動作情報、及び/又は背景情報のいずれかの映像要素情報を任意で指定する映像要素情報指定手段と、
映像要素情報指定手段により指定された映像要素情報と関連付けて記憶された映像情報を指定する映像情報指定手段とを備え、
音声付映像合成手段が、
映像情報指定手段により指定された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする請求項2に記載の音声付映像合成システム。
【請求項4】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び/又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信するメロディ要素情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段と、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段とを備え、
サーバ装置が、
コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶する音高情報記憶手段と、
リズム情報と、音の強弱及び/又は長さの規則性を関連付けて記憶するリズム記憶手段と、
端末装置からメロディ要素情報を受信するメロディ要素情報受信手段と、
端末装置から映像情報を受信する映像情報受信手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ要素情報受信手段により受信されたコード情報に従って、音高情報記憶手段により該コード情報に関連付けて記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定する音順序情報特定手段と、
メロディ要素情報受信手段により受信されたリズム情報に従って、音順序情報特定手段により特定された複数の音に、リズム情報記憶手段によりリズム情報に関連付けて記憶された音の強弱及び/又は長さの規則性をもとに、音の強弱及び/又は長さに関する情報を付与することで、メロディ情報を合成するメロディ情報合成手段と、
メロディ情報合成手段により合成されたメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項5】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信手段を備え、
サーバ装置が、
複数のメロディに関するメロディ情報を記憶するメロディ情報記憶手段と、
メロディ情報記憶手段に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定するメロディ情報指定手段と、
複数の映像に関する映像情報を記憶する映像情報記憶手段と、
映像情報記憶手段により記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定する映像情報指定手段と、
端末装置から歌詞情報を受信する歌詞情報受信手段と、
メロディ情報指定手段により指定された一つ又は複数のメロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成する音声合成手段と、
映像情報指定手段により指定された一つ又は複数の映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項6】
サーバ装置が、
メロディを構成する複数の音の数に関する音数情報を、メロディと関連付けて記憶する音数記憶手段と、
歌詞情報受信手段により受信した歌詞情報、及び、音数記憶手段により前記メロディと関連付けて記憶された音数情報をもとに、前記歌詞から計算される音の数と、前記メロディを構成する音の数が一致するか否かを判定する音数判定手段と、
音数判定手段により判定された結果に関する音数判定情報を端末装置に送信する音数判定情報送信手段とを備え、
端末装置が、
サーバ装置から受信した音数判定情報をもとに、音数判定手段により判定された結果を端末装置の表示画面に表示する音数判定情報表示手段を備えることを特徴とする請求項1〜5のいずれか1項に記載の音声付映像合成システム。
【請求項7】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置とから構成される音声付映像合成システムであって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信するメロディ情報送信手段と、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信する映像情報送信手段とを備え、
サーバ装置が、
端末装置からメロディ情報を受信するメロディ情報受信手段と、
端末装置から映像情報を受信する映像情報受信手段と、
メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶するフレーズ歌詞情報記憶手段と、
フレーズ歌詞情報記憶手段に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成手段と、
メロディ情報受信手段により受信されたメロディ情報、及び、歌詞合成手段により合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成する音声合成手段と、
映像情報受信手段により受信された映像情報、及び、音声合成手段により合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する音声付映像合成手段と
を備えることを特徴とする音声付映像合成システム。
【請求項8】
サーバ装置が、
ユーザと関連付けられた、音声付映像を合成するための映像に関するユーザ映像情報を記憶するユーザ映像情報記憶手段を備え、
音声付映像合成手段が、
ユーザ映像情報記憶手段に記憶されたユーザ映像情報、及び、音声合成手段により合成された音声をもとに、ユーザと関連付けられた映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする請求項1〜7のいずれか1項に記載の音声付映像合成システム。
【請求項9】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディの編曲に関するアレンジ情報をサーバ装置に送信するアレンジ情報送信手段とを備え、
サーバ装置が、
端末装置からアレンジ情報を受信するアレンジ情報受信手段とを備え、
音声合成手段が、メロディ情報、アレンジ情報、及び、歌詞情報をもとに、アレンジ情報に従って前記メロディを編曲することで得られる編曲メロディに、前記歌詞が伴われた音声を合成することを特徴とする請求項1〜8のいずれか1項に記載の音声付映像合成システム。
【請求項10】
サーバ装置が、
複数のメロディに関するメロディ情報と、該メロディ情報と関連付けて、該メロディを構成する各フレーズに適合するコードに関する適合コード情報を記憶する適合コード情報記憶手段と、
楽器及び/又は声部に関する伴奏を合成するための音の音色に関する伴奏情報を記憶する伴奏情報記憶手段と、
適合コード情報記憶手段により記憶された適合コード情報に従って、伴奏情報記憶手段により記憶された伴奏情報をもとに、フレーズ毎に該適合するコードに沿った、該音色を有する伴奏フレーズを合成し、合成した伴奏フレーズを組み合わせることで伴奏を合成する伴奏合成手段と、
音声付映像合成手段が、映像情報及び音声合成手段により合成された音声をもとに、映像に合成された音声が付随された音声付映像を合成する際に、さらに、伴奏合成手段により合成された伴奏を伴った音声付映像を合成することを特徴とする請求項1〜9のいずれかに1項に記載の音声付映像合成システム。
【請求項11】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するための声の音色を含む声質に関する声質情報をサーバ装置に送信する声質情報送信手段とを備え、
サーバ装置が、
端末装置から声質情報を受信する声質情報受信手段とを備え、
音声合成手段が、メロディ情報、声質情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記声質を有する音声を合成することを特徴とする請求項1〜10のいずれか1項に記載の音声付映像合成システム。
【請求項12】
前記映像情報は、映像に登場するキャラクタに関するキャラクタ情報と関連付けて記憶されており、
サーバ装置が、
音声付映像を合成するための声の音色を含む声質に関する声質情報を、キャラクタ情報と関連付けて記憶するキャラクタ声質情報記憶手段を備え、
映像情報送信手段が、ユーザの操作に従って選択された、キャラクタ情報と関連付けられた映像情報をサーバ装置に送信し、
音声合成手段が、メロディ情報、映像情報受信手段により受信された映像情報に含まれるキャラクタ情報、及び、歌詞情報をもとに、前記メロディに前記歌詞が伴われ、且つ、キャラクタと関連付けられた声質を有する音声を合成することを特徴とする請求項1〜11のいずれか1項に記載の音声付映像合成システム。
【請求項13】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するための歌詞情報の変更に関する語尾情報をサーバ装置に送信する語尾情報送信手段とを備え、
サーバ装置が、
端末装置から語尾情報を受信する語尾情報受信手段とを備え、
音声合成手段が、メロディ情報、語尾情報、及び、歌詞情報をもとに、前記歌詞の一部について語尾情報にしたがって修正された修正歌詞が、前記メロディに伴われた音声を合成することを特徴とする請求項1〜12のいずれか1項に記載の音声付映像合成システム。
【請求項14】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するための効果音に関する効果音情報をサーバ装置に送信する効果音情報送信手段を備え、
サーバ装置が、
端末装置から効果音情報を受信する効果音情報受信手段を備え、
音声合成手段が、メロディ情報、歌詞情報、及び効果音情報をもとに、前記メロディに前記歌詞が伴われ、且つ、前記効果音が挿入された音声を合成することを特徴とする請求項1〜13のいずれか1項に記載の音声付映像合成システム。
【請求項15】
サーバ装置が、
前記メロディを構成する音の高さ、長さ及び/又は強弱を任意に調整することにより、該メロディを調整した調整メロディを合成する調整メロディ合成手段を備え、
音声合成手段が、調整メロディ合成手段により合成された調整メロディに関する調整メロディ情報、及び、歌詞情報受信手段により受信された歌詞情報をもとに、前記調整されたメロディに前記歌詞が伴われた音声を合成することを特徴とする請求項1〜14のいずれか1項に記載の音声付映像合成システム。
【請求項16】
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するために用いられたメロディ、編曲、声質、歌詞又は映像とは異なる、変更メロディに関する変更メロディ情報、変更編曲に関する変更アレンジ情報、変更声質に関する変更声質情報、変更歌詞に関する変更歌詞情報、又は、変更映像に関する変更映像情報を含む変更情報をサーバ装置に送信する変更情報送信手段とを備え、
サーバ装置が、
音声付映像合成手段により合成された音声付映像と関連付けて、該音声付映像を合成するために用いられたメロディ情報、アレンジ情報、声質情報、歌詞情報、及び、映像情報を記憶手段する音声付映像情報記憶手段と、
変更情報を端末装置から受信する変更情報受信手段と、
音声付映像情報記憶手段により記憶されたメロディ情報、アレンジ情報、声質情報若しくは歌詞情報、又は、変更情報受信手段により受信された変更メロディ情報、変更アレンジ情報、変更声質情報若しくは変更歌詞情報をもとに変更音声を合成する変更音声合成手段と、
音声付映像情報記憶手段により記憶された映像情報、又は、変更情報受信手段により受信された変更映像情報、及び、変更音声合成手段により合成された変更音声をもとに、前記映像又は変更映像に合成された変更音声が付随された音声付映像を再合成する音声付映像再合成手段と
を備えることを特徴とする請求項1〜15のいずれか1項に記載の音声付映像合成システム。
【請求項17】
サーバ装置が、
所定の条件を満たすことでユーザごとに加算されるポイントに関するポイント情報を記憶するポイント情報記憶手段と、
音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成に応じて、ポイント情報記憶手段に記憶されたポイントから所定のポイントを減算するポイント減算手段とを備え、
ポイント情報記憶手段に記憶されたポイントが所定の値に満たない場合に、音声付映像合成手段による音声付映像の合成、又は、音声付映像再合成手段による音声付映像の再合成が実行されない
ことを特徴とする、請求項1〜16のいずれか1項に記載の音声付映像合成システム。
【請求項18】
サーバ装置が、
音声付映像合成手段により合成された音声付映像と関連付けて、音声付映像再合成手段による音声付映像の再合成の回数を記憶する再合成回数記憶手段とを備え、
再合成回数記憶手段による再合成回数が所定の回数以内である場合に、ポイント減算手段によるポイントの減算が実行されず、且つ、ポイント情報記憶手段に記憶されたポイントが所定の値より大きいか否かにかかわらず、音声付映像再合成手段による音声付映像の再合成の実行が可能である
ことを特徴とする請求項17に記載の音声付映像合成システム。
【請求項19】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、
サーバ装置が、
端末装置からメロディ情報を受信し、
端末装置から映像情報を受信し、
端末装置から歌詞情報を受信し、
受信されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、
受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項20】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、
サーバ装置が、
記憶部に記憶された複数のメロディに関するメロディ情報の中から、任意のメロディ情報を指定し、
端末装置から歌詞情報を受信し、
指定されたメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、
記憶部に記憶された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項21】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って選択された、複数の高さの音から構成される和音に関するコード情報、並びに、音の強弱及び/又は長さの規則性に関するリズム情報を含むメロディ要素情報をサーバ装置に送信し、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信し、
サーバ装置が、
コード情報と、和音を構成する音の高さに関する音高情報を関連付けて記憶部に記憶し、
リズム情報と、音の強弱及び/又は長さの規則性を関連付けて記憶部に記憶し、
端末装置からメロディ要素情報を受信し、
端末装置から映像情報を受信する映像情報受信し、
端末装置から歌詞情報を受信する歌詞情報受信し、
受信されたコード情報に従って、該コード情報に関連付けて記憶部に記憶された和音を構成する音を、任意の順序で並べることで、異なる高さを有する複数の音と、該音の順序を特定し、
受信されたリズム情報に従って、特定された複数の音に、リズム情報に関連付けて記憶部に記憶された音の強弱及び/又は長さの規則性をもとに、音の強弱及び/又は長さに関する情報を付与することで、メロディ情報を合成し、
合成されたメロディ情報、及び、受信された歌詞情報をもとに、該メロディ情報に対応するメロディに前記歌詞が伴われた音声を合成し、
受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項22】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って入力された、音声付映像を合成するための歌詞に関する歌詞情報をサーバ装置に送信する歌詞情報送信し、
サーバ装置が、
複数のメロディに関するメロディ情報を記憶部に記憶し、
記憶部に記憶された複数のメロディ情報の中から、一つ又は複数のメロディ情報を指定し、
複数の映像に関する映像情報を記憶部に記憶し、
記憶部に記憶された複数の映像情報の中から、一つ又は複数の映像情報を指定し、
端末装置から歌詞情報を受信し、
指定された一つ又は複数のメロディ情報、及び、受信された歌詞情報をもとに、前記メロディに前記歌詞が伴われた一つ又は複数の音声を合成し、
指定された一つ又は複数の映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された一つ又は複数の音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【請求項23】
音声が付随した音声付映像を合成するためのサーバ装置と、該サーバ装置と通信ネットワークを介して接続される端末装置において実行される音声付映像合成方法であって、
端末装置が、
ユーザの操作に従って選択された、音声付映像を合成するためのメロディに関するメロディ情報をサーバ装置に送信し、
ユーザの操作に従って選択された、音声付映像を合成するための映像に関する映像情報をサーバ装置に送信し、
サーバ装置が、
端末装置からメロディ情報を受信し、
端末装置から映像情報を受信し、
メロディを構成する複数のフレーズに対応する歌詞に関するフレーズ歌詞情報を記憶部に記憶し、
記憶部に記憶された複数のフレーズ歌詞情報の中から、任意のフレーズ歌詞情報を選択し、選択されたフレーズ歌詞情報をもとに歌詞を組み合わせることで合成する歌詞合成し、
受信されたメロディ情報、及び、合成された歌詞に関する歌詞情報をもとに、前記メロディに前記歌詞が伴われた音声を合成し、
受信された映像情報、及び、合成された音声をもとに、前記映像に合成された音声が付随された音声付映像を合成する
ことを特徴とする音声付映像合成方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【公開番号】特開2011−133882(P2011−133882A)
【公開日】平成23年7月7日(2011.7.7)
【国際特許分類】
【出願番号】特願2010−265698(P2010−265698)
【出願日】平成22年11月29日(2010.11.29)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.FLASH
【出願人】(504026878)株式会社メディアフラッツ (3)
【Fターム(参考)】
【公開日】平成23年7月7日(2011.7.7)
【国際特許分類】
【出願日】平成22年11月29日(2010.11.29)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.FLASH
【出願人】(504026878)株式会社メディアフラッツ (3)
【Fターム(参考)】
[ Back to top ]