説明

投稿データ作成装置、及び、その投稿データ作成装置と投稿サーバとから構成される投稿システム

【課題】歌唱音声及び歌唱動画を含む閲覧データの選択に用いられる静止画を効率的かつ効果的に作成することができる投稿データ作成装置等を提供すること。
【解決手段】歌唱中に歌唱音声及び歌唱動画を取得し、取得した歌唱音声の分析結果に基いて、静止画抽出に必要な歌唱動画の区間を特定する。そして、特定した区間を用いて、歌唱動画から抽出した静止画を、閲覧データ(歌唱音声及び歌唱動画)を選択させるための選択肢として閲覧端末の表示部に表示させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歌唱音声及び歌唱動画に基いて、当該歌唱音声及び歌唱動画をプレビューするための静止画を生成する投稿データ作成装置等に関する。
【背景技術】
【0002】
コンピュータ技術の発達及びネットワークイントラの充実に伴い、端末からサーバに動画をアップロード(投稿)し、当該動画を端末上で閲覧することができる投稿システムが開発されている(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2009−60458号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、通信カラオケシステムの新たなサービス形態として、歌唱音声及び歌唱動画をサーバに投稿する投稿システムが提案されている。このような投稿システムでは、カラオケボックス等において、カラオケ装置に備え付けのカメラで歌唱者の姿を撮影(録画)し、また、備え付けのマイクで歌唱音声を録音し、これらを投稿データとしてサーバにアップロードする。また、アップロードされた投稿データは、端末(パソコン、携帯電話等)からインターネットを介して閲覧データとして閲覧することができる。このような投稿システムは、ユーザ同士のコミュニケーションツールとして活用されている。
【0005】
このような投稿システムにおいては、閲覧データを選択させる際に、投稿データに含まれる動画から抽出した静止画が、楽曲名等と共に端末の画面上に表示される。閲覧するユーザは、この静止画を見て閲覧データを選択することができる。したがって、静止画は閲覧データを選択するための指標となるので、自身の投稿データを多く閲覧してもらいたいユーザにとっては、動画からどのような静止画を抽出するかが重要な問題となる。しかしながら、人手によって動画から静止画を抽出することは容易ではなく、このような作業を投稿システムのサービス運営者が行う場合には多大なコストが必要となり、また、投稿するユーザ自身が行う場合には煩わしい作業となってしまう。
【課題を解決するための手段】
【0006】
上記目的を達成するために、請求項1に係る発明は、投稿データ作成装置において、歌唱者の歌唱中の歌唱音声を録音する録音手段と、前記歌唱中の歌唱動画を録画する録画手段と、前記歌唱者の歌唱が終了した後に、前記録音手段から前記歌唱音声を取得する音声取得手段と、前記歌唱者が歌唱した楽曲の基準データを取得する基準データ取得手段と、前記取得した歌唱音声と前記取得した基準データとを比較する比較手段と、前記比較手段の比較結果に基いて、前記歌唱音声が前記基準データに最も類似している前記歌唱音声の区間を特定する区間特定手段と、前記録画手段に記憶されている前記歌唱動画から、前記区間の動画を抽出する動画抽出手段と、前記抽出した動画に基いて、静止画を生成する静止画生成手段と、前記歌唱音声、前記歌唱動画、及び前記静止画を含む投稿動画を生成する投稿データ生成手段と、前記投稿データを送信する送信手段と、を有するものとしている。
【0007】
請求項1に係る発明では、動画と比較して情報量が少ない音声に基いて動画の区間を決定し、当該区間の動画に基いて静止画を生成するので、当該静止画を生成するための処理を高速に行うことができる。また、基準データに最も類似している歌唱音声の区間を前記動画の区間として特定するため、プレビューのための静止画を効率的かつ高精度に抽出することができる。さらに、歌唱者の歌唱が終了したあとに、静止画を生成するための処理を開始する。これにより、歌唱音声から基準データに最も類似している区間を特定することができるので、プレビューのための静止画をより高精度に抽出することができる。
【0008】
また、請求項2に係る発明は、請求項1の投稿データ作成装置において、前記基準データは、複数の区間基準データから構成され、前記比較手段は、前記区間基準データの時間長を単位として、前記歌唱音声と前記基準データとを比較し、前記録画手段は、前記区間基準データの時間長を単位として、前記入力された歌唱動画を分割し、当該分割した歌唱動画に対して他のフレームとの依存関係がない独立ピクチャを1つのみ含むように圧縮し、当該圧縮した動画を録画し、前記静止画生成手段は、前記独立ピクチャに基いて、前記静止画を生成するものとしている。
【0009】
請求項2に係る発明では、基準データの区切り単位(分割単位)と、歌唱音声の比較単位及び歌唱動画の圧縮単位とを一致させている。これにより、歌唱音声に対する区間特定の精度を高めることができる。さらに、分割された動画中に含まれる独立ピクチャの数を1つとし、当該独立ピクチャを用いてプレビューのための静止画を生成するので、当該静止画を高速に生成することができる。
【0010】
また、請求項3に係る発明は、投稿データ作成装置において、歌唱音声と歌唱動画とを取得する取得手段と、前記取得した歌唱音声を基準データと比較する比較手段と、前記比較手段の比較結果に基いて、前記歌唱音声が前記基準データに最も類似している前記歌唱音声の区間を特定する区間特定手段と、前記取得した歌唱動画から、前記特定した区間の動画を抽出する動画抽出手段と、前記抽出した動画に基いて、静止画を生成する静止画生成手段と、前記歌唱音声、前記歌唱動画、及び前記静止画を含む投稿データを生成する投稿データ生成手段と、前記投稿データを送信する送信手段と、を有するものとしている。
【0011】
請求項3に係る発明では、動画と比較して情報量が少ない音声に基いて動画の区間を決定し、当該区間の動画に基いて静止画を生成するので、当該静止画を生成するための処理を高速に行うことができる。また、基準データに最も類似している歌唱音声の区間を前記動画の区間として特定するため、プレビューのための静止画を効率的かつ高精度に抽出することができる。
【0012】
また、請求項4に係る発明は、請求項1〜3のいずれか1項のデータ生成装置と、当該データ生成装置から送信される投稿データを受信して記憶し、かつ閲覧端末が接続可能な投稿サーバとから構成される投稿システムであって、前記投稿サーバは、(1)前記投稿データ作成装置から前記投稿データを受信したときに、当該投稿データに含まれる静止画を含む基本選択肢ファイルを更新し、かつ、当該投稿データに含まれる歌唱音声及び歌唱動画を含む閲覧データを作成し、(2)前記閲覧端末からの要求に応じて、前記基本選択肢ファイルに基いて、当該閲覧端末で選択可能に表示される前記静止画を含む表示選択肢データを作成して当該閲覧端末に送信し、(3)前記静止画が選択されたときに、当該静止画に対応付けられている閲覧データを、前記閲覧端末に送信するものである。
【0013】
請求項4に係る発明では、効率的かつ高精度に抽出された静止画を利用した投稿システムを構築することができる。特に、投稿サーバは、受信した投稿データに含まれる静止画と、歌唱音声及び歌唱動画とを別々に処理することにより、閲覧端末に対して表示選択肢データ及び閲覧データを送信することができる。
【発明の効果】
【0014】
本発明によれば、歌唱音声及び歌唱動画を含む閲覧データの選択に用いられる静止画を効率的かつ効果的に作成することができる投稿データ作成装置等を提供することができる。
【図面の簡単な説明】
【0015】
【図1】投稿システムの全体構成を示す図である。
【図2】コマンダの構成を示す図である。
【図3】コマンダ、投稿サーバ、閲覧端末間のデータの流れを示す図である。
【図4】閲覧端末に表示される画像のレイアウトの一例を示す図である。
【図5】カラオケ処理のフローチャートである。
【図6】歌唱記録処理のフローチャートである。
【図7】採点結果ファイルのデータ構造を示す図である。
【図8】サンプリングデータのデータ構造を示す図である。
【図9】採点結果分析処理のフローチャートである。
【図10】区間得点データのデータ構造を示す図である。
【図11】静止画抽出処理のフローチャートである。
【図12】投稿サーバ処理のフローチャートである。
【発明を実施するための形態】
【0016】
[第1実施形態]
以下、本発明の第1実施形態に係る投稿システムについて説明する。
【0017】
[投稿システムの全体構成]
まず、本実施形態に係る投稿システムの概要について図1を用いて説明する。投稿システムSは、カラオケボックス内に設置されるカラオケ装置10と、投稿データ(後述)を記憶する投稿サーバ11と、カラオケ楽曲を記憶する楽曲サーバ12と、携帯電話13と、パソコン14と、各ユーザの個人情報及びログイン状態を管理するログインサーバ15と、から基本的に構成されている。また、それぞれの要素は通信網(例えば、インターネット網)を介して互いに通信可能である。以下、投稿データに含まれる閲覧データ(後述)を表示可能(ユーザが閲覧可能)に構成されている携帯電話13、パソコン14、カラオケ装置10を総称して「閲覧端末」という。また、閲覧端末は、表示部及び操作部を備えているものとする。また、カラオケ装置10は、投稿データ作成装置として機能する。
【0018】
また、カラオケ装置10は、コマンダ1と、外部との通信に用いられるルータ2と、カラオケ演奏中の背景画や閲覧データを表示するモニタ3と、カラオケ演奏中のカラオケ楽曲及び歌唱音声等を音声出力するスピーカ4と、歌唱中の歌唱者を撮影するビデオカメラ5と、歌唱者の歌唱音声を入力するマイク6と、コマンダ1の操作に用いられるリモコン7と、コマンダ1とスピーカ4との間に設けられるアンプ8と、から基本的に構成される。コマンダ1を除くその他の要素は公知のものを採用することができ、また、本発明の理解に直接関係のない部分であるので詳細な説明を省略する。本発明において、「投稿データ」とは、カラオケ装置10から投稿サーバ11に送信されるデータであって、歌唱音声、歌唱動画、静止画、及び当該歌唱に係る種々のデータ(曲番号、歌唱日時、ユーザID等)を含むデータである。また、「閲覧データ」とは、投稿サーバ11から閲覧端末に送信されるデータであって、歌唱音声及び歌唱動画を含むデータである。また、本発明において、「歌唱音声」及び「歌唱動画」とは、それぞれの情報を所定の形式で圧縮されたデータ、所定のフォーマットで符号化されたデータをも含む概念である。
【0019】
[コマンダの詳細]
次に、コマンダ1の具体的構成について図2を参照しつつ説明する。コマンダ1は、全体を統合制御するCPU21と、種々のデータを記憶するHDD(Hard Disk Drive)22と、LANインタフェース23と、RAM24と、種々の情報の同期を取るために用いられるRTC(Real Time Clock)25と、歌唱音声とカラオケ楽曲とのミキシングを行うミキシング回路26と、カラオケ楽曲データから楽曲音を生成するMIDI音源27と、歌唱音声の音高を検出する声音高検出回路28と、歌唱音声の音量を検出する声音量検出回路29と、歌唱音声及び歌唱動画をMPEG形式に圧縮するMPEGエンコーダ30と、MPEG形式のデータをデコードするMPEGデコーダ31と、モニタ3に描画するためのグラフィックエンジン32と、マイク6と接続するための端子33と、アンプ8と接続するための端子34と、ビデオカメラ5と接続するための端子35と、モニタ3と接続するための端子36と、ルータ2と接続するための端子37と、種々の操作を受付可能でありかつリモコン7からの信号を受光する操作パネル38と、から構成されている。また、各要素は、バス39で接続されている。
【0020】
この構成において、声音高検出回路28及び声音量検出回路29をCPU21とは別体の構成としているが、CPU21がこれらの機能を実行するように構成してもよい。歌唱中にコマンダ1に入力された歌唱音声及び歌唱動画は、MPEGエンコーダ30によってMPEG形式に圧縮されてHDD22に記憶される。また、歌唱音声から、声音高検出回路28から出力された声音高データ及び声音量データが抽出され、後述のサンプリングデータとしてHDD22に記憶される。CPU21は、これらの情報に基いて、表示選択肢データに含まれる静止画を生成し、当該静止画を含む投稿データを、ルータ2を介して投稿サーバに出力する。
【0021】
カラオケ装置10は、カラオケ演奏時において、楽曲サーバ12から楽曲データをダウンロードしてこれを用いてカラオケ演奏を行う。カラオケ楽曲には、楽曲を演奏するための「MIDIデータ」、モニタ3に歌詞を表示するための「テロップデータ」、前奏時にモニタ3に表示するための「メタデータ」(曲名、作曲者名、曲番号等)、「採点データ」(後述)等からなる。また、ダウンロードされた楽曲データは、HDD22に記憶される。
【0022】
次に、本実施形態のカラオケ装置、投稿サーバ、閲覧端末間のデータの流れについて、図3を参照しつつ説明する。
【0023】
(1)カラオケ装置10は、歌唱者からカラオケ楽曲の演奏予約を受け付け、そのカラオケ楽曲を演奏する。そして、カラオケ楽曲の演奏中に、歌唱者の歌唱音声及び歌唱動画をHDD22に記憶(録音、録画)する。
(2)カラオケ演奏が終了すると、カラオケ装置10は、HDD22に記憶した歌唱動画から静止画を抽出する。静止画を抽出するための処理の詳細については後述する。
(3)その後、カラオケ装置10は、上記(1)で記憶した歌唱音声及び歌唱動画と上記(2)で抽出した静止画を含む投稿データを作成する。
(4)その後、カラオケ装置10は、上記(3)で作成した投稿データを、投稿サーバ11に送信(アップロード)する。
(5)投稿サーバ11は、受信した投稿データから歌唱音声及び歌唱動画を抽出し、これらを含む閲覧データを作成して、投稿サーバ11内のデータベースに記憶する。
(6)投稿サーバ11は、受信した投稿データから静止画を抽出し、これを含む基本選択肢ファイルを更新する。なお、基本選択肢ファイルは投稿サーバ11内のデータベースに記憶されているものとする。
(7)閲覧端末は、表示選択肢データ(後述)を要求する操作を受け付ける。
(8)その後、閲覧端末は、受け付けた操作に基いて表示要求データを作成し、作成した表示要求データを投稿サーバ11に送信する。
(9)投稿サーバ11は、表示要求データを受信すると、この表示要求データに基いて表示選択肢データを作成する。
(10)その後、投稿サーバ11は、作成した表示選択肢データを閲覧端末に送信する。
(11)閲覧端末は、受信した表示選択肢データに基いた画像を表示部に表示した後、閲覧データを要求する操作を受け付ける。
(12)その後、閲覧端末は、受け付けた操作に基いて閲覧要求データを作成し、作成した閲覧要求データを投稿サーバ11に送信する。
(13)投稿サーバ11は、閲覧要求データを受信すると、この閲覧要求データに基いてデータベースから閲覧データを取得する。
(14)その後、投稿サーバ11は、取得した閲覧データを閲覧端末に送信する。
(15)閲覧端末は、受信した閲覧データを表示する。すなわち、閲覧端末は、歌唱音声及び歌唱動画を再生する。
【0024】
[閲覧端末に表示される画像のレイアウト]
次に、表示選択肢データに基いた画像(以下、「選択画面」ということがある。)のレイアウトの一例について図4を参照しつつ説明する。閲覧端末の表示部には、6個の静止画51〜56が表示され、また、それぞれの静止画に対応したテキスト領域61〜66が表示される。また、静止画51〜56は選択可能な状態で表示されている。すなわち、ユーザは、静止画に対応付けられている閲覧データを再生したい場合には、その静止画の領域を選択する。
また、テキスト領域61〜66には、それぞれの静止画に係る歌唱の情報が表示されており、5段のテキストが記載されている。このテキストは、上から順に、歌手名、曲名、ユーザ名、歌唱日時、再生回数である。以下、これらの情報を、表示データという。表示データは、投稿サーバ11に記憶されている基準選択肢ファイルによって管理されている。
【0025】
以下の説明において、静止画とテキストの組を選択肢ということがある。また、本実施形態では、表示部には、一度に6つの選択肢を表示可能としている。以下、一度に表示される選択肢のグループを、選択肢グループということがある。また、本実施形態では、それぞれの選択肢グループに番号が付与されているものとする。
【0026】
また、この表示部の静止画51〜53よりも上側には、表示する選択肢を検索するための種々の操作子が表示されている。
ドロップダウンリスト71は、検索対象を「歌手名」または「曲名」のいずれかから選択する際に用いられる。また、ダイアログボックス72には検索する歌手名または曲名を入力する際に用いられる。例えば、ドロップダウンリスト71を操作して「歌手名」を選択し、ダイアログボックス72に「ブラザー」と入力と入力した後に、検索ボタン73を押下すると、「ブラザー」という文字列を含む「歌手名」のカラオケ楽曲が歌唱された選択肢が検索される。
【0027】
また、表示部には指示領域81が設けられている。指示領域81には、「1」、「2」、「3」、「4」、「5」、「…」、「次の6件」、「再生回数順」、「撮影日時順」の各テキストが選択可能に表示されている。
「1」〜「5」のいずれかのテキストが選択されると、当該番号に対応した選択肢グループに含まれる選択肢(本実施形態では6つ選択肢)が新たに表示される。また、「次の6件」のテキストが選択されると、現在表示中の選択肢グループの次の選択肢グループに含まれる選択肢が新たに表示される。また、「再生回数順」のテキストが選択されると、再生回数が多い順にソートされた選択肢が表示される。また、「撮影日時順」のテキストが選択されると、撮影日時が新しい順にソートされた選択肢が表示される。なお、図4で示した選択画面のレイアウトは単なる一例であり、図4に示した以外の情報を、静止画51〜56に対応付けて表示してもよい。
【0028】
ユーザは、表示部に表示された静止画を参考にして閲覧データを選択する。したがって、歌唱動画から静止画を抽出する際には、歌唱者が表情等の態様が最も良い区間を特定する必要がある。本実施形態では、歌唱動画と同時に取得される歌唱音声を用いて、この区間を特定するものである。
【0029】
[カラオケ処理]
次に、カラオケ装置10において実行されるカラオケ処理について図5を参照しつつ説明する。カラオケ処理は、カラオケ装置10が有するCPU21等によって実行されるものである。
【0030】
まず、S11において、カラオケ装置10は、種々の操作を受け付ける。この操作は、ユーザによりリモコン7や操作パネル38を介して行われる。
S12において、S11で受け付けた操作内容を判別する。受け付けたログイン操作または新規ユーザ登録であると判断すると、カラオケ装置10は、S13において、ログイン操作または新規ユーザ登録に必要な情報(ユーザIDやパスワード等)の入力を受け付ける。
その後、S14において、カラオケ装置10は、ログインサーバ15との間で通信処理を行う。ここでは、ログインが正常に完了したか、新規のユーザ登録ができたか否か等を判断する。なお、通信カラオケシステムにおけるログイン技術は公知であり、また、本発明の理解に直接関係のない部分であるので詳細な説明を省略する。
【0031】
一方、S12において、S11で受け付けた処理がカラオケ楽曲の演奏予約であると判断した場合は、カラオケ装置10は、S15において、カラオケ楽曲の選曲番号の入力を受け付ける。
S16において、カラオケ装置10は、S15で演奏予約をしたユーザが既にカラオケ装置10(コマンダ1)にログインしているか否かを判断する。
ログインされていないと判断した場合は(S16:NO)、カラオケ装置10は、S17において、通常のカラオケ演奏処理を行う。すなわち、HDD22に記憶している楽曲データを読み出して、カラオケ楽曲を演奏する。なお、通常のカラオケ演奏処理は公知であり、また、本発明の理解に直接関係のない部分であるので詳細な説明を省略する。
【0032】
一方、ログインされていると判断した場合は(S16:YES)、カラオケ装置10は、S18において、歌唱音声及び歌唱動画を投稿サーバ11にアップロードするか否かの操作を受け付ける。
アップロードが指示されていないと判断した場合は(S19:NO)、カラオケ装置10は、S17において、通常のカラオケ演奏処理を行う。一方、アップロードが指示されたと判断した場合は(S19:YES)、カラオケ装置10は、通常のカラオケ演奏処理(S20)と並列して、歌唱記録処理を行う(S21)。歌唱記録処理では、歌唱音声及び歌唱動画をHDD22に記憶しつつ、採点結果ファイル(後述)を作成する。歌唱記録処理の詳細については後述する。
【0033】
S22において、カラオケ装置10は、採点結果分析処理を行う。採点結果分析処理は、歌唱音声の各区間ごとの得点データを求め、さらに、最も得点データが高い区間を特定するための処理である。採点結果分析処理の詳細については後述する。
S23において、カラオケ装置10は、静止画抽出処理を行う。静止画抽出処理は、S22で特定した区間に基いて、歌唱動画から静止画を抽出する処理である。静止画抽出処理の詳細については後述する。
S24において、カラオケ装置10は、歌唱音声、歌唱動画、静止画を含む投稿データを作成する。
S25において、カラオケ装置10は、作成した投稿データを、投稿サーバ11に送信する。
【0034】
以上説明したカラオケ処理では、歌唱中に歌唱音声及び歌唱動画を取得し、取得した歌唱音声の分析結果に基いて、静止画抽出に必要な歌唱動画の区間を特定する。そして、歌唱動画から抽出した静止画を、閲覧データを選択させるための選択肢として表示させる。これにより、人手を介することなく、選択肢として適切な静止画を生成することができる。
【0035】
[歌唱記録処理]
次に、図5で示したカラオケ処理のS21で実行される歌唱記録処理について、図6のフローチャートに基いて説明する。
【0036】
まず、S31において、カラオケ装置10は、採点結果ファイルを新規作成する。図7に示すように、採点結果ファイルには、「曲番号」、「歌唱日時」、「歌唱者」、「総合得点」、「ピーク時刻」、「サンプリングデータ」、「区間得点データ」の各項目が記憶される。なお、S31では、「曲番号」、「歌唱日時」、「歌唱者」の項目の内容が入力され、それ以外の項目の内容はこの時点では入力されていない。
【0037】
説明を図6に戻す。S32において、カラオケ装置10は、メディアファイル(歌唱音声及び歌唱動画のファイル)の生成を開始する。このとき、MPEGエンコーダ30が用いられ、メディアファイルはMPEG形式のファイルとなる。
【0038】
カラオケ楽曲の演奏中は、S33において、サンプリングデータを生成し、採点結果ファイルの「サンプリングデータ」の項目に書き込む。
ここで、サンプリングデータのデータ構造について、図8を参照して説明する。図8に示すように、歌唱音声の区間ごとに、「演奏同期情報」及び「音高値/音量値」が設けられている。「演奏同期情報」は、区間の開始時刻を示すものであり、例えば、歌唱音声の開始時刻を始点とした相対時刻として表現されている。「音高値/音量値」は、各区間をさらに細分化した小区間ごとに算出された音高値/音量値が記憶されている。図8では、区間ごとにm個の音高値(db)及び音量値(Hz)が記憶されている。なお、区間ごとに「m」の値が異なってもよい。すなわち、区間ごとに、音高値/音量値の個数が異なってもよい。
【0039】
したがって、図6のS33では、小区間の時間間隔ごとに歌唱音声の音高値及び音量値を取得し、取得したデータを採点結果ファイルの「サンプリングデータ」の項目に書き込む。なお、音高値を取得して「サンプリングデータ」の項目に書き込む処理と、音量値を取得して「サンプリングデータ」の項目に書き込む処理とは、並列して行われる。なお、上述したとおり、音高値は声音高検出回路28によって取得され、音量値は声音量検出回路29によって取得される。なお、楽曲データに含まれる「採点データ」は、上述した「サンプリングデータ」と同じデータ構造としている。また、楽曲データに含まれる「採点データ」の区間ごとのデータは、区間基準データである。
カラオケ演奏が終了すると、S34において、カラオケ装置10は、メディアファイルの作成を終了する。なお、S34の処理は、リモコン7等により演奏終了操作が行われた場合にも終了する。
【0040】
以上説明した歌唱記録処理により、カラオケ楽曲の演奏中に、歌唱音声及び歌唱動画を有するメディアファイルが生成され、また、採点結果ファイルが新規作成され、当該採点結果ファイル中の一部の項目にデータが入力される。
【0041】
[採点結果分析処理]
次に、図5で示したカラオケ処理のS22で実行される採点結果分析処理について、図9のフローチャートに基いて説明する。採点結果分析処理は、採点結果ファイル中のサンプリングデータを用いて、各区間の得点を求めるための処理である。また、図9に示すように、採点区間(i=1〜n)の数だけ処理が繰り返される。
【0042】
まず、S41において、カラオケ装置10は、HDD22に記憶している楽曲データ中の採点データから、採点区間iの音高値を取得する。
S42において、カラオケ装置10は、採点結果ファイルから、採点区間iの音高値を抽出する。なお、S41及びS42の処理は逆の順番で行ってもよく、また、並列して行ってもよい。
S43において、区間得点値(音高)を算出する。
【0043】
区間得点値(音高)の算出方法について説明する。本実施形態では、区間得点値(音高)を、採点結果ファイルから読み出した音高値x1〜xm(以下、歌唱値ということがある)、及び、楽曲データから読み出した音高値y1〜ym(以下、基準値ということがある)の相関値corに基いて算出する。相関値corは、以下の式で算出することができる。
【0044】
【数1】







【0045】
【数2】



【0046】
【数3】




【0047】
相関値corは、「−1」から「+1」までの小数点値であり、「+1」のときが歌唱値と基準値との相関性が高い。
そして、区間得点値(音高)Xは、
X=(cor + 1)×50
として算出することができる。これにより、区間得点値(音高)は、0〜100までの数値となる。なお、上述した区間得点値(音高)の算出方法は、単なる一例であり、その他の方法で区間得点値(音高)を算出してもよい。
【0048】
次に、S44において、カラオケ装置10は、HDD22に記憶している楽曲データ中の採点データから、採点区間iの音量値を取得する。
S45において、カラオケ装置10は、採点結果ファイルから、採点区間iの音量値を抽出する。なお、S44及びS45の処理は逆の順番で行ってもよく、また、並列して行ってもよい。
S46において、カラオケ装置10は、区間得点値(音量)を算出する。なお、区間得点値(音量)の算出方法は、上述した区間得点値(音高)の算出方法と基本的には同じであるので、詳細な説明を省略する。
【0049】
S47において、カラオケ装置10は、区間得点を算出し、採点結果ファイルの区間得点データの項目に書き込む。区間得点データは、例えば、区間得点値(音量)及び区間得点値(音高)の平均値とすることができる。
ここで、採点結果ファイルの区間得点データのデータ構造について、図10を参照して説明する。図10に示すように、歌唱音声の区間ごとに、「演奏同期情報」及び「区間得点」が設けられている。したがって、図9のS47では、採点区間ごとに、算出した区間得点データを採点結果ファイルに書き込む。
【0050】
S48において、カラオケ装置10は、採点結果ファイル中の区間得点データに基いて、最も区間得点が高い区間を特定し、その区間の演奏同期情報を、採点結果ファイル中の「ピーク時刻」の項目に書き込む。
S49において、カラオケ装置10は、採点結果ファイル中の区間得点データに基いて、総合得点を算出し、その総合得点を、採点結果ファイル中の「総合得点」の項目に書き込む。総合得点は、例えば、各区間ごとの区間得点の平均値として算出することができる。
【0051】
以上説明した歌唱分析処理により、取得した歌唱音声の分析結果に基いて、静止画抽出に必要な歌唱動画の区間を特定することができる。
【0052】
[静止画抽出処理]
次に、図5で示したカラオケ処理のS23で実行される静止画抽出処理について図11を用いて説明する。本実施形態では、歌唱動画は、歌唱音声と共にメディアファイルとして、MPEG形式でHDD22に記憶されている。なお、MPEG形式のファイル構造は公知であるので詳細な説明は省略する。
【0053】
S61において、カラオケ装置10は、採点結果ファイルからピーク時刻を取得する。
S62において、カラオケ装置10は、メディアファイルからピーク時刻に最も近いTSパケットを特定する。
S63において、カラオケ装置10は、S62で特定したTSパケットの直後に位置するGOPデータを特定する。すなわち、上述した歌唱分析処理によって特定された区間(静止画抽出に必要な歌唱動画の区間)を特定する。
S64において、カラオケ装置10は、S63で特定したGOPデータに含まれるIフレームを1つ特定し、そのIフレームを画像展開(例えば、BMP形式)する。なお、Iフレームは、他のフレームとの依存関係がない独立ピクチャである。また、GOPデータに含まれる先頭のIフレームを特定してもよい。
S65において、カラオケ装置10は、S64で展開した画像を、所定の形式(例えば、JPEG形式)で圧縮して静止画のファイルを生成する。なお、作成された静止画のファイルは、上述したように、投稿データの一部として投稿サーバ11に送信される。
【0054】
以上説明した静止画抽出処理により、歌唱動画から、歌唱音声の分析結果に基いて特定された区間の静止画を抽出することができる。なお、本実施形態では、メディアファイルの圧縮形式をMPEG形式としたが、他の圧縮形式を用いてもよい。
【0055】
[投稿サーバ処理]
次に、投稿サーバ11によって実行される投稿サーバ処理について、図12のフローチャートを参照して説明する。投稿サーバ処理は、不図示の制御部によって処理される。
【0056】
まず、S71において、投稿サーバ11は、カラオケ装置10から投稿データを受信したか否かを判断する。投稿データを受信したと判断した場合(S71:YES)は、投稿サーバ11は、S72において、投稿データに含まれる静止画に基いて、基本選択肢ファイルを更新する。この基本選択肢ファイルは、図4に示した画像を表示する際に用いられる表示選択肢データを作成するためのものである。
【0057】
基本選択肢ファイルでは、それぞれの静止画に、歌手名、曲名、撮影日時、再生回数が対応付けられている。すなわち、それぞれの静止画に、図4に示した表示部に表示される各情報が対応付けられている。また、再生回数は、静止画に対応づけられている閲覧データが閲覧されるごとに更新される。なお、基本選択肢ファイルのデータ構造はどのようなものでもよく、図4に示した画像を表示することができるものであればよい。
【0058】
S73において、投稿サーバ11は、投稿データに含まれる歌唱音声及び歌唱動画に基いて閲覧データを作成し、作成した閲覧データをデータベースに記憶する。なお、基本選択肢ファイル中の静止画と、閲覧データとは関連付けられているものとする。例えば、静止画の識別番号が、対応する閲覧データにも付されているものとする。
【0059】
一方、S71において、投稿データを受信していないと判断した場合(S71:NO)は、投稿サーバ11は、S74において、閲覧端末から表示要求データを受信したか否かを判断する。表示要求データを受信したと判断した場合(S74:YES)は、投稿サーバ11は、S75において、表示選択肢データを作成する。表示選択肢データには、静止画及び表示データが含まれている。その後、投稿サーバ11は、S76において、作成した表示選択肢データを、閲覧端末に送信する。
【0060】
表示要求データには、図4の表示部上で入力された操作情報が含まれている。例えば、「再生回数順にソートされたときに3番目の選択肢グループに含まれる選択肢」の要求を指示する情報が、表示要求データに含まれる。この場合、閲覧端末の表示部では、「再生回数順」のテキストが選択されている状態で、「3」のテキストが選択されたときに、この表示要求データが当該閲覧端末から送信され、投稿サーバ11で受信される。投稿サーバ11では、各静止画に対応付けられた再生回数を大きい順にソートに、13番目〜18番目に大きい再生回数の静止画を抽出して、当該静止画とその静止画に対応づけられている歌手名等を表示選択肢データとして、閲覧端末に送信する。そして、閲覧端末の表示部には、表示選択肢データに基いた選択画像(図4参照)が表示される。
【0061】
一方、S74において、表示要求データを受信していないと判断した場合(S74:NO)は、投稿サーバ11は、S79において、閲覧端末から閲覧要求データを受信したか否かを判断する。閲覧要求データを受信したと判断した場合(S79:YES)は、投稿サーバ11は、S80において、データベースから閲覧データを取得する。その後、投稿サーバ11は、S81において、取得した閲覧データを、閲覧端末に送信する。閲覧データには、どの静止画が選択されたかを示す静止画の識別番号が含まれている。したがって、当該識別番号を用いて、必要な閲覧データをデータベースから取得することができる。その結果、閲覧端末の表示部では、選択画像上で選択した静止画の元(ソース)である(すなわち、静止画に対応付けられた)、目的の歌唱動画及び歌唱音声の再生が開始される。
【0062】
以上説明したとおり、第1実施形態によれば、歌唱中に歌唱音声及び歌唱動画を取得し、取得した歌唱音声の分析結果に基いて、静止画抽出に必要な歌唱動画の区間を特定する。そして、歌唱動画から抽出した静止画を、閲覧データを選択させるための選択肢として表示させる。これにより、人手を介することなく、選択肢として適切な静止画を生成することができる。
【0063】
[第2実施形態]
次に、本発明の第2実施形態について説明する。第2実施形態に係る投稿システムは、基本的には上述した第1実施形態と同じである。本実施形態では、歌唱動画に対する圧縮の仕方に特徴を有するものである。
【0064】
投稿データの容量を小さくするためには、歌唱動画を効率的に圧縮する必要がある。歌唱動画を効率的に圧縮するためには、GOPデータ中のフレーム数を大きくし、かつ、GOPデータ中のIフレームの数を小さくすればよい。ただし、GOPデータ中のフレーム数を大きくしすぎると、ピーク時刻と、特定されるIフレームの位置とのずれが大きくなってしまい、静止画の抽出精度が下がってしまう。
【0065】
そこで、本実施形態では、各GOPデータのサイズ(すなわち、GOPデータ中のフレーム数)を、楽曲データ中の採点データの各区間の時間長と一致させるように制御する。そして、各GOPデータ中に、Iフレームが1つのみ含まれるように制御する。
【0066】
この処理は、図6で示した歌唱記録処理において、S31とS32の間の時点(図中、「1」で示している時点)で実行される。より具体的には、カラオケ装置10は、楽曲データ中の採点データを読み出して各区間の時間長を抽出し、歌唱動画の各GOPデータ中のフレーム数を、抽出した時間長と一致するように制御する。すなわち、生成するメディアファイルにおける各GOPデータのヘッダ情報として、このフレーム数を設定する。そして、カラオケ装置10は、S32におけるメディアファイルの作成においては、各GOPデータ中のそれぞれに、Iフレームが1つのみ含まれるようにMPEGエンコーダ30を制御する。
【0067】
以上説明したとおり、第2実施形態によれば、静止画の抽出精度を下げることなく歌唱動画を効率的に圧縮できる、というさらなる効果を奏することができる。また、楽曲データ中の採点データの各区間長が可変であっても、その時間長に合致したGOPデータを作成することができ、その結果、静止画の抽出精度を向上させることができる。
【0068】
本発明は上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の改良、変形が可能であることはいうまでもない。
【0069】
また、上述した各フローチャートは単なる一例であり、該各フローチャートの処理と同等の結果を得ることができるものであれば、他のフローチャートによって処理を実現してもよい。また、上述したカラオケ装置及び投稿サーバに係る各方法、当該方法をコンピュータに実行させるためのプログラム、当該プログラムを記録した記録媒体等としても本発明は実現可能である。
【符号の説明】
【0070】
1 コマンダ
6 マイク
10 カラオケ装置
11 投稿サーバ
28 声音高検出回路
29 声音量検出回路
S 投稿システム

【特許請求の範囲】
【請求項1】
歌唱者の歌唱中の歌唱音声を録音する録音手段と、
前記歌唱中の歌唱動画を録画する録画手段と、
前記歌唱者の歌唱が終了した後に、前記録音手段から前記歌唱音声を取得する音声取得手段と、
前記歌唱者が歌唱した楽曲の基準データを取得する基準データ取得手段と、
前記取得した歌唱音声と前記取得した基準データとを比較する比較手段と、
前記比較手段の比較結果に基いて、前記歌唱音声が前記基準データに最も類似している前記歌唱音声の区間を特定する区間特定手段と、
前記録画手段に記憶されている前記歌唱動画から、前記区間の動画を抽出する動画抽出手段と、
前記抽出した動画に基いて、静止画を生成する静止画生成手段と、
前記歌唱音声、前記歌唱動画、及び前記静止画を含む投稿動画を生成する投稿データ生成手段と、
前記投稿データを送信する送信手段と、
を有する投稿データ作成装置。

【請求項2】
前記基準データは、複数の区間基準データから構成され、
前記比較手段は、前記区間基準データの時間長を単位として、前記歌唱音声と前記基準データとを比較し、
前記録画手段は、
前記区間基準データの時間長を単位として、前記入力された歌唱動画を分割し、
当該分割した歌唱動画に対して他のフレームとの依存関係がない独立ピクチャを1つのみ含むように圧縮し、
当該圧縮した動画を録画し、
前記静止画生成手段は、前記独立ピクチャに基いて、前記静止画を生成する、
請求項1の投稿データ作成装置。

【請求項3】
歌唱音声と歌唱動画とを取得する取得手段と、
前記取得した歌唱音声を基準データと比較する比較手段と、
前記比較手段の比較結果に基いて、前記歌唱音声が前記基準データに最も類似している前記歌唱音声の区間を特定する区間特定手段と、
前記取得した歌唱動画から、前記特定した区間の動画を抽出する動画抽出手段と、
前記抽出した動画に基いて、静止画を生成する静止画生成手段と、
前記歌唱音声、前記歌唱動画、及び前記静止画を含む投稿データを生成する投稿データ生成手段と、
前記投稿データを送信する送信手段と、
を有する投稿データ作成装置。

【請求項4】
請求項1〜3のいずれか1項のデータ生成装置と、当該データ生成装置から送信される投稿データを受信して記憶し、かつ閲覧端末が接続可能な投稿サーバとから構成される投稿システムであって、
前記投稿サーバは、
(1)前記投稿データ作成装置から前記投稿データを受信したときに、
当該投稿データに含まれる静止画を含む基本選択肢ファイルを更新し、かつ、
当該投稿データに含まれる歌唱音声及び歌唱動画を含む閲覧データを作成し、
(2)前記閲覧端末からの要求に応じて、前記基本選択肢ファイルに基いて、当該閲覧端末で選択可能に表示される前記静止画を含む表示選択肢データを作成して当該閲覧端末に送信し、
(3)前記静止画が選択されたときに、当該静止画に対応付けられている閲覧データを、前記閲覧端末に送信する、
投稿システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図11】
image rotate

【図9】
image rotate

【図10】
image rotate

【図12】
image rotate


【公開番号】特開2011−53541(P2011−53541A)
【公開日】平成23年3月17日(2011.3.17)
【国際特許分類】
【出願番号】特願2009−203771(P2009−203771)
【出願日】平成21年9月3日(2009.9.3)
【出願人】(000005267)ブラザー工業株式会社 (13,856)
【Fターム(参考)】