投稿データ作成装置、及び、その投稿データ作成装置と投稿サーバとから構成される投稿システム

【課題】歌唱音声及び歌唱動画を含む閲覧データの選択に用いられる静止画を効率的かつ効果的に作成することができる投稿データ作成装置等を提供すること。
【解決手段】歌唱中に歌唱音声及び歌唱動画を取得し、取得した歌唱音声の分析結果に基いて、静止画抽出に必要な歌唱動画の区間を特定する。そして、特定した区間を用いて、歌唱動画から抽出した静止画を、閲覧データ（歌唱音声及び歌唱動画）を選択させるための選択肢として閲覧端末の表示部に表示させる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、歌唱音声及び歌唱動画に基いて、当該歌唱音声及び歌唱動画をプレビューするための静止画を生成する投稿データ作成装置等に関する。
【背景技術】
【０００２】
コンピュータ技術の発達及びネットワークイントラの充実に伴い、端末からサーバに動画をアップロード（投稿）し、当該動画を端末上で閲覧することができる投稿システムが開発されている（例えば、特許文献１）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００９−６０４５８号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
ところで、通信カラオケシステムの新たなサービス形態として、歌唱音声及び歌唱動画をサーバに投稿する投稿システムが提案されている。このような投稿システムでは、カラオケボックス等において、カラオケ装置に備え付けのカメラで歌唱者の姿を撮影（録画）し、また、備え付けのマイクで歌唱音声を録音し、これらを投稿データとしてサーバにアップロードする。また、アップロードされた投稿データは、端末（パソコン、携帯電話等）からインターネットを介して閲覧データとして閲覧することができる。このような投稿システムは、ユーザ同士のコミュニケーションツールとして活用されている。
【０００５】
このような投稿システムにおいては、閲覧データを選択させる際に、投稿データに含まれる動画から抽出した静止画が、楽曲名等と共に端末の画面上に表示される。閲覧するユーザは、この静止画を見て閲覧データを選択することができる。したがって、静止画は閲覧データを選択するための指標となるので、自身の投稿データを多く閲覧してもらいたいユーザにとっては、動画からどのような静止画を抽出するかが重要な問題となる。しかしながら、人手によって動画から静止画を抽出することは容易ではなく、このような作業を投稿システムのサービス運営者が行う場合には多大なコストが必要となり、また、投稿するユーザ自身が行う場合には煩わしい作業となってしまう。
【課題を解決するための手段】
【０００６】
上記目的を達成するために、請求項１に係る発明は、投稿データ作成装置において、歌唱者の歌唱中の歌唱音声を録音する録音手段と、前記歌唱中の歌唱動画を録画する録画手段と、前記歌唱者の歌唱が終了した後に、前記録音手段から前記歌唱音声を取得する音声取得手段と、前記歌唱者が歌唱した楽曲の基準データを取得する基準データ取得手段と、前記取得した歌唱音声と前記取得した基準データとを比較する比較手段と、前記比較手段の比較結果に基いて、前記歌唱音声が前記基準データに最も類似している前記歌唱音声の区間を特定する区間特定手段と、前記録画手段に記憶されている前記歌唱動画から、前記区間の動画を抽出する動画抽出手段と、前記抽出した動画に基いて、静止画を生成する静止画生成手段と、前記歌唱音声、前記歌唱動画、及び前記静止画を含む投稿動画を生成する投稿データ生成手段と、前記投稿データを送信する送信手段と、を有するものとしている。
【０００７】
請求項１に係る発明では、動画と比較して情報量が少ない音声に基いて動画の区間を決定し、当該区間の動画に基いて静止画を生成するので、当該静止画を生成するための処理を高速に行うことができる。また、基準データに最も類似している歌唱音声の区間を前記動画の区間として特定するため、プレビューのための静止画を効率的かつ高精度に抽出することができる。さらに、歌唱者の歌唱が終了したあとに、静止画を生成するための処理を開始する。これにより、歌唱音声から基準データに最も類似している区間を特定することができるので、プレビューのための静止画をより高精度に抽出することができる。
【０００８】
また、請求項２に係る発明は、請求項１の投稿データ作成装置において、前記基準データは、複数の区間基準データから構成され、前記比較手段は、前記区間基準データの時間長を単位として、前記歌唱音声と前記基準データとを比較し、前記録画手段は、前記区間基準データの時間長を単位として、前記入力された歌唱動画を分割し、当該分割した歌唱動画に対して他のフレームとの依存関係がない独立ピクチャを１つのみ含むように圧縮し、当該圧縮した動画を録画し、前記静止画生成手段は、前記独立ピクチャに基いて、前記静止画を生成するものとしている。
【０００９】
請求項２に係る発明では、基準データの区切り単位（分割単位）と、歌唱音声の比較単位及び歌唱動画の圧縮単位とを一致させている。これにより、歌唱音声に対する区間特定の精度を高めることができる。さらに、分割された動画中に含まれる独立ピクチャの数を１つとし、当該独立ピクチャを用いてプレビューのための静止画を生成するので、当該静止画を高速に生成することができる。
【００１０】
また、請求項３に係る発明は、投稿データ作成装置において、歌唱音声と歌唱動画とを取得する取得手段と、前記取得した歌唱音声を基準データと比較する比較手段と、前記比較手段の比較結果に基いて、前記歌唱音声が前記基準データに最も類似している前記歌唱音声の区間を特定する区間特定手段と、前記取得した歌唱動画から、前記特定した区間の動画を抽出する動画抽出手段と、前記抽出した動画に基いて、静止画を生成する静止画生成手段と、前記歌唱音声、前記歌唱動画、及び前記静止画を含む投稿データを生成する投稿データ生成手段と、前記投稿データを送信する送信手段と、を有するものとしている。
【００１１】
請求項３に係る発明では、動画と比較して情報量が少ない音声に基いて動画の区間を決定し、当該区間の動画に基いて静止画を生成するので、当該静止画を生成するための処理を高速に行うことができる。また、基準データに最も類似している歌唱音声の区間を前記動画の区間として特定するため、プレビューのための静止画を効率的かつ高精度に抽出することができる。
【００１２】
また、請求項４に係る発明は、請求項１〜３のいずれか１項のデータ生成装置と、当該データ生成装置から送信される投稿データを受信して記憶し、かつ閲覧端末が接続可能な投稿サーバとから構成される投稿システムであって、前記投稿サーバは、（１）前記投稿データ作成装置から前記投稿データを受信したときに、当該投稿データに含まれる静止画を含む基本選択肢ファイルを更新し、かつ、当該投稿データに含まれる歌唱音声及び歌唱動画を含む閲覧データを作成し、（２）前記閲覧端末からの要求に応じて、前記基本選択肢ファイルに基いて、当該閲覧端末で選択可能に表示される前記静止画を含む表示選択肢データを作成して当該閲覧端末に送信し、（３）前記静止画が選択されたときに、当該静止画に対応付けられている閲覧データを、前記閲覧端末に送信するものである。
【００１３】
請求項４に係る発明では、効率的かつ高精度に抽出された静止画を利用した投稿システムを構築することができる。特に、投稿サーバは、受信した投稿データに含まれる静止画と、歌唱音声及び歌唱動画とを別々に処理することにより、閲覧端末に対して表示選択肢データ及び閲覧データを送信することができる。
【発明の効果】
【００１４】
本発明によれば、歌唱音声及び歌唱動画を含む閲覧データの選択に用いられる静止画を効率的かつ効果的に作成することができる投稿データ作成装置等を提供することができる。
【図面の簡単な説明】
【００１５】
【図１】投稿システムの全体構成を示す図である。
【図２】コマンダの構成を示す図である。
【図３】コマンダ、投稿サーバ、閲覧端末間のデータの流れを示す図である。
【図４】閲覧端末に表示される画像のレイアウトの一例を示す図である。
【図５】カラオケ処理のフローチャートである。
【図６】歌唱記録処理のフローチャートである。
【図７】採点結果ファイルのデータ構造を示す図である。
【図８】サンプリングデータのデータ構造を示す図である。
【図９】採点結果分析処理のフローチャートである。
【図１０】区間得点データのデータ構造を示す図である。
【図１１】静止画抽出処理のフローチャートである。
【図１２】投稿サーバ処理のフローチャートである。
【発明を実施するための形態】
【００１６】
［第１実施形態］
以下、本発明の第１実施形態に係る投稿システムについて説明する。
【００１７】
［投稿システムの全体構成］
まず、本実施形態に係る投稿システムの概要について図１を用いて説明する。投稿システムＳは、カラオケボックス内に設置されるカラオケ装置１０と、投稿データ（後述）を記憶する投稿サーバ１１と、カラオケ楽曲を記憶する楽曲サーバ１２と、携帯電話１３と、パソコン１４と、各ユーザの個人情報及びログイン状態を管理するログインサーバ１５と、から基本的に構成されている。また、それぞれの要素は通信網（例えば、インターネット網）を介して互いに通信可能である。以下、投稿データに含まれる閲覧データ（後述）を表示可能（ユーザが閲覧可能）に構成されている携帯電話１３、パソコン１４、カラオケ装置１０を総称して「閲覧端末」という。また、閲覧端末は、表示部及び操作部を備えているものとする。また、カラオケ装置１０は、投稿データ作成装置として機能する。
【００１８】
また、カラオケ装置１０は、コマンダ１と、外部との通信に用いられるルータ２と、カラオケ演奏中の背景画や閲覧データを表示するモニタ３と、カラオケ演奏中のカラオケ楽曲及び歌唱音声等を音声出力するスピーカ４と、歌唱中の歌唱者を撮影するビデオカメラ５と、歌唱者の歌唱音声を入力するマイク６と、コマンダ１の操作に用いられるリモコン７と、コマンダ１とスピーカ４との間に設けられるアンプ８と、から基本的に構成される。コマンダ１を除くその他の要素は公知のものを採用することができ、また、本発明の理解に直接関係のない部分であるので詳細な説明を省略する。本発明において、「投稿データ」とは、カラオケ装置１０から投稿サーバ１１に送信されるデータであって、歌唱音声、歌唱動画、静止画、及び当該歌唱に係る種々のデータ（曲番号、歌唱日時、ユーザＩＤ等）を含むデータである。また、「閲覧データ」とは、投稿サーバ１１から閲覧端末に送信されるデータであって、歌唱音声及び歌唱動画を含むデータである。また、本発明において、「歌唱音声」及び「歌唱動画」とは、それぞれの情報を所定の形式で圧縮されたデータ、所定のフォーマットで符号化されたデータをも含む概念である。
【００１９】
［コマンダの詳細］
次に、コマンダ１の具体的構成について図２を参照しつつ説明する。コマンダ１は、全体を統合制御するＣＰＵ２１と、種々のデータを記憶するＨＤＤ（Hard Disk Drive）２２と、ＬＡＮインタフェース２３と、ＲＡＭ２４と、種々の情報の同期を取るために用いられるＲＴＣ（Real Time Clock）２５と、歌唱音声とカラオケ楽曲とのミキシングを行うミキシング回路２６と、カラオケ楽曲データから楽曲音を生成するＭＩＤＩ音源２７と、歌唱音声の音高を検出する声音高検出回路２８と、歌唱音声の音量を検出する声音量検出回路２９と、歌唱音声及び歌唱動画をＭＰＥＧ形式に圧縮するＭＰＥＧエンコーダ３０と、ＭＰＥＧ形式のデータをデコードするＭＰＥＧデコーダ３１と、モニタ３に描画するためのグラフィックエンジン３２と、マイク６と接続するための端子３３と、アンプ８と接続するための端子３４と、ビデオカメラ５と接続するための端子３５と、モニタ３と接続するための端子３６と、ルータ２と接続するための端子３７と、種々の操作を受付可能でありかつリモコン７からの信号を受光する操作パネル３８と、から構成されている。また、各要素は、バス３９で接続されている。
【００２０】
この構成において、声音高検出回路２８及び声音量検出回路２９をＣＰＵ２１とは別体の構成としているが、ＣＰＵ２１がこれらの機能を実行するように構成してもよい。歌唱中にコマンダ１に入力された歌唱音声及び歌唱動画は、ＭＰＥＧエンコーダ３０によってＭＰＥＧ形式に圧縮されてＨＤＤ２２に記憶される。また、歌唱音声から、声音高検出回路２８から出力された声音高データ及び声音量データが抽出され、後述のサンプリングデータとしてＨＤＤ２２に記憶される。ＣＰＵ２１は、これらの情報に基いて、表示選択肢データに含まれる静止画を生成し、当該静止画を含む投稿データを、ルータ２を介して投稿サーバに出力する。
【００２１】
カラオケ装置１０は、カラオケ演奏時において、楽曲サーバ１２から楽曲データをダウンロードしてこれを用いてカラオケ演奏を行う。カラオケ楽曲には、楽曲を演奏するための「ＭＩＤＩデータ」、モニタ３に歌詞を表示するための「テロップデータ」、前奏時にモニタ３に表示するための「メタデータ」（曲名、作曲者名、曲番号等）、「採点データ」（後述）等からなる。また、ダウンロードされた楽曲データは、ＨＤＤ２２に記憶される。
【００２２】
次に、本実施形態のカラオケ装置、投稿サーバ、閲覧端末間のデータの流れについて、図３を参照しつつ説明する。
【００２３】
（１）カラオケ装置１０は、歌唱者からカラオケ楽曲の演奏予約を受け付け、そのカラオケ楽曲を演奏する。そして、カラオケ楽曲の演奏中に、歌唱者の歌唱音声及び歌唱動画をＨＤＤ２２に記憶（録音、録画）する。
（２）カラオケ演奏が終了すると、カラオケ装置１０は、ＨＤＤ２２に記憶した歌唱動画から静止画を抽出する。静止画を抽出するための処理の詳細については後述する。
（３）その後、カラオケ装置１０は、上記（１）で記憶した歌唱音声及び歌唱動画と上記（２）で抽出した静止画を含む投稿データを作成する。
（４）その後、カラオケ装置１０は、上記（３）で作成した投稿データを、投稿サーバ１１に送信（アップロード）する。
（５）投稿サーバ１１は、受信した投稿データから歌唱音声及び歌唱動画を抽出し、これらを含む閲覧データを作成して、投稿サーバ１１内のデータベースに記憶する。
（６）投稿サーバ１１は、受信した投稿データから静止画を抽出し、これを含む基本選択肢ファイルを更新する。なお、基本選択肢ファイルは投稿サーバ１１内のデータベースに記憶されているものとする。
（７）閲覧端末は、表示選択肢データ（後述）を要求する操作を受け付ける。
（８）その後、閲覧端末は、受け付けた操作に基いて表示要求データを作成し、作成した表示要求データを投稿サーバ１１に送信する。
（９）投稿サーバ１１は、表示要求データを受信すると、この表示要求データに基いて表示選択肢データを作成する。
（１０）その後、投稿サーバ１１は、作成した表示選択肢データを閲覧端末に送信する。
（１１）閲覧端末は、受信した表示選択肢データに基いた画像を表示部に表示した後、閲覧データを要求する操作を受け付ける。
（１２）その後、閲覧端末は、受け付けた操作に基いて閲覧要求データを作成し、作成した閲覧要求データを投稿サーバ１１に送信する。
（１３）投稿サーバ１１は、閲覧要求データを受信すると、この閲覧要求データに基いてデータベースから閲覧データを取得する。
（１４）その後、投稿サーバ１１は、取得した閲覧データを閲覧端末に送信する。
（１５）閲覧端末は、受信した閲覧データを表示する。すなわち、閲覧端末は、歌唱音声及び歌唱動画を再生する。
【００２４】
［閲覧端末に表示される画像のレイアウト］
次に、表示選択肢データに基いた画像（以下、「選択画面」ということがある。）のレイアウトの一例について図４を参照しつつ説明する。閲覧端末の表示部には、６個の静止画５１〜５６が表示され、また、それぞれの静止画に対応したテキスト領域６１〜６６が表示される。また、静止画５１〜５６は選択可能な状態で表示されている。すなわち、ユーザは、静止画に対応付けられている閲覧データを再生したい場合には、その静止画の領域を選択する。
また、テキスト領域６１〜６６には、それぞれの静止画に係る歌唱の情報が表示されており、５段のテキストが記載されている。このテキストは、上から順に、歌手名、曲名、ユーザ名、歌唱日時、再生回数である。以下、これらの情報を、表示データという。表示データは、投稿サーバ１１に記憶されている基準選択肢ファイルによって管理されている。
【００２５】
以下の説明において、静止画とテキストの組を選択肢ということがある。また、本実施形態では、表示部には、一度に６つの選択肢を表示可能としている。以下、一度に表示される選択肢のグループを、選択肢グループということがある。また、本実施形態では、それぞれの選択肢グループに番号が付与されているものとする。
【００２６】
また、この表示部の静止画５１〜５３よりも上側には、表示する選択肢を検索するための種々の操作子が表示されている。
ドロップダウンリスト７１は、検索対象を「歌手名」または「曲名」のいずれかから選択する際に用いられる。また、ダイアログボックス７２には検索する歌手名または曲名を入力する際に用いられる。例えば、ドロップダウンリスト７１を操作して「歌手名」を選択し、ダイアログボックス７２に「ブラザー」と入力と入力した後に、検索ボタン７３を押下すると、「ブラザー」という文字列を含む「歌手名」のカラオケ楽曲が歌唱された選択肢が検索される。
【００２７】
また、表示部には指示領域８１が設けられている。指示領域８１には、「１」、「２」、「３」、「４」、「５」、「…」、「次の６件」、「再生回数順」、「撮影日時順」の各テキストが選択可能に表示されている。
「１」〜「５」のいずれかのテキストが選択されると、当該番号に対応した選択肢グループに含まれる選択肢（本実施形態では６つ選択肢）が新たに表示される。また、「次の６件」のテキストが選択されると、現在表示中の選択肢グループの次の選択肢グループに含まれる選択肢が新たに表示される。また、「再生回数順」のテキストが選択されると、再生回数が多い順にソートされた選択肢が表示される。また、「撮影日時順」のテキストが選択されると、撮影日時が新しい順にソートされた選択肢が表示される。なお、図４で示した選択画面のレイアウトは単なる一例であり、図４に示した以外の情報を、静止画５１〜５６に対応付けて表示してもよい。
【００２８】
ユーザは、表示部に表示された静止画を参考にして閲覧データを選択する。したがって、歌唱動画から静止画を抽出する際には、歌唱者が表情等の態様が最も良い区間を特定する必要がある。本実施形態では、歌唱動画と同時に取得される歌唱音声を用いて、この区間を特定するものである。
【００２９】
［カラオケ処理］
次に、カラオケ装置１０において実行されるカラオケ処理について図５を参照しつつ説明する。カラオケ処理は、カラオケ装置１０が有するＣＰＵ２１等によって実行されるものである。
【００３０】
まず、Ｓ１１において、カラオケ装置１０は、種々の操作を受け付ける。この操作は、ユーザによりリモコン７や操作パネル３８を介して行われる。
Ｓ１２において、Ｓ１１で受け付けた操作内容を判別する。受け付けたログイン操作または新規ユーザ登録であると判断すると、カラオケ装置１０は、Ｓ１３において、ログイン操作または新規ユーザ登録に必要な情報（ユーザＩＤやパスワード等）の入力を受け付ける。
その後、Ｓ１４において、カラオケ装置１０は、ログインサーバ１５との間で通信処理を行う。ここでは、ログインが正常に完了したか、新規のユーザ登録ができたか否か等を判断する。なお、通信カラオケシステムにおけるログイン技術は公知であり、また、本発明の理解に直接関係のない部分であるので詳細な説明を省略する。
【００３１】
一方、Ｓ１２において、Ｓ１１で受け付けた処理がカラオケ楽曲の演奏予約であると判断した場合は、カラオケ装置１０は、Ｓ１５において、カラオケ楽曲の選曲番号の入力を受け付ける。
Ｓ１６において、カラオケ装置１０は、Ｓ１５で演奏予約をしたユーザが既にカラオケ装置１０（コマンダ１）にログインしているか否かを判断する。
ログインされていないと判断した場合は（Ｓ１６：ＮＯ）、カラオケ装置１０は、Ｓ１７において、通常のカラオケ演奏処理を行う。すなわち、ＨＤＤ２２に記憶している楽曲データを読み出して、カラオケ楽曲を演奏する。なお、通常のカラオケ演奏処理は公知であり、また、本発明の理解に直接関係のない部分であるので詳細な説明を省略する。
【００３２】
一方、ログインされていると判断した場合は（Ｓ１６：ＹＥＳ）、カラオケ装置１０は、Ｓ１８において、歌唱音声及び歌唱動画を投稿サーバ１１にアップロードするか否かの操作を受け付ける。
アップロードが指示されていないと判断した場合は（Ｓ１９：ＮＯ）、カラオケ装置１０は、Ｓ１７において、通常のカラオケ演奏処理を行う。一方、アップロードが指示されたと判断した場合は（Ｓ１９：ＹＥＳ）、カラオケ装置１０は、通常のカラオケ演奏処理（Ｓ２０）と並列して、歌唱記録処理を行う（Ｓ２１）。歌唱記録処理では、歌唱音声及び歌唱動画をＨＤＤ２２に記憶しつつ、採点結果ファイル（後述）を作成する。歌唱記録処理の詳細については後述する。
【００３３】
Ｓ２２において、カラオケ装置１０は、採点結果分析処理を行う。採点結果分析処理は、歌唱音声の各区間ごとの得点データを求め、さらに、最も得点データが高い区間を特定するための処理である。採点結果分析処理の詳細については後述する。
Ｓ２３において、カラオケ装置１０は、静止画抽出処理を行う。静止画抽出処理は、Ｓ２２で特定した区間に基いて、歌唱動画から静止画を抽出する処理である。静止画抽出処理の詳細については後述する。
Ｓ２４において、カラオケ装置１０は、歌唱音声、歌唱動画、静止画を含む投稿データを作成する。
Ｓ２５において、カラオケ装置１０は、作成した投稿データを、投稿サーバ１１に送信する。
【００３４】
以上説明したカラオケ処理では、歌唱中に歌唱音声及び歌唱動画を取得し、取得した歌唱音声の分析結果に基いて、静止画抽出に必要な歌唱動画の区間を特定する。そして、歌唱動画から抽出した静止画を、閲覧データを選択させるための選択肢として表示させる。これにより、人手を介することなく、選択肢として適切な静止画を生成することができる。
【００３５】
［歌唱記録処理］
次に、図５で示したカラオケ処理のＳ２１で実行される歌唱記録処理について、図６のフローチャートに基いて説明する。
【００３６】
まず、Ｓ３１において、カラオケ装置１０は、採点結果ファイルを新規作成する。図７に示すように、採点結果ファイルには、「曲番号」、「歌唱日時」、「歌唱者」、「総合得点」、「ピーク時刻」、「サンプリングデータ」、「区間得点データ」の各項目が記憶される。なお、Ｓ３１では、「曲番号」、「歌唱日時」、「歌唱者」の項目の内容が入力され、それ以外の項目の内容はこの時点では入力されていない。
【００３７】
説明を図６に戻す。Ｓ３２において、カラオケ装置１０は、メディアファイル（歌唱音声及び歌唱動画のファイル）の生成を開始する。このとき、ＭＰＥＧエンコーダ３０が用いられ、メディアファイルはＭＰＥＧ形式のファイルとなる。
【００３８】
カラオケ楽曲の演奏中は、Ｓ３３において、サンプリングデータを生成し、採点結果ファイルの「サンプリングデータ」の項目に書き込む。
ここで、サンプリングデータのデータ構造について、図８を参照して説明する。図８に示すように、歌唱音声の区間ごとに、「演奏同期情報」及び「音高値／音量値」が設けられている。「演奏同期情報」は、区間の開始時刻を示すものであり、例えば、歌唱音声の開始時刻を始点とした相対時刻として表現されている。「音高値／音量値」は、各区間をさらに細分化した小区間ごとに算出された音高値／音量値が記憶されている。図８では、区間ごとにｍ個の音高値（ｄｂ）及び音量値（Ｈｚ）が記憶されている。なお、区間ごとに「ｍ」の値が異なってもよい。すなわち、区間ごとに、音高値／音量値の個数が異なってもよい。
【００３９】
したがって、図６のＳ３３では、小区間の時間間隔ごとに歌唱音声の音高値及び音量値を取得し、取得したデータを採点結果ファイルの「サンプリングデータ」の項目に書き込む。なお、音高値を取得して「サンプリングデータ」の項目に書き込む処理と、音量値を取得して「サンプリングデータ」の項目に書き込む処理とは、並列して行われる。なお、上述したとおり、音高値は声音高検出回路２８によって取得され、音量値は声音量検出回路２９によって取得される。なお、楽曲データに含まれる「採点データ」は、上述した「サンプリングデータ」と同じデータ構造としている。また、楽曲データに含まれる「採点データ」の区間ごとのデータは、区間基準データである。
カラオケ演奏が終了すると、Ｓ３４において、カラオケ装置１０は、メディアファイルの作成を終了する。なお、Ｓ３４の処理は、リモコン７等により演奏終了操作が行われた場合にも終了する。
【００４０】
以上説明した歌唱記録処理により、カラオケ楽曲の演奏中に、歌唱音声及び歌唱動画を有するメディアファイルが生成され、また、採点結果ファイルが新規作成され、当該採点結果ファイル中の一部の項目にデータが入力される。
【００４１】
［採点結果分析処理］
次に、図５で示したカラオケ処理のＳ２２で実行される採点結果分析処理について、図９のフローチャートに基いて説明する。採点結果分析処理は、採点結果ファイル中のサンプリングデータを用いて、各区間の得点を求めるための処理である。また、図９に示すように、採点区間（ｉ＝１〜ｎ）の数だけ処理が繰り返される。
【００４２】
まず、Ｓ４１において、カラオケ装置１０は、ＨＤＤ２２に記憶している楽曲データ中の採点データから、採点区間ｉの音高値を取得する。
Ｓ４２において、カラオケ装置１０は、採点結果ファイルから、採点区間ｉの音高値を抽出する。なお、Ｓ４１及びＳ４２の処理は逆の順番で行ってもよく、また、並列して行ってもよい。
Ｓ４３において、区間得点値（音高）を算出する。
【００４３】
区間得点値（音高）の算出方法について説明する。本実施形態では、区間得点値（音高）を、採点結果ファイルから読み出した音高値ｘ１〜ｘｍ（以下、歌唱値ということがある）、及び、楽曲データから読み出した音高値ｙ１〜ｙｍ（以下、基準値ということがある）の相関値ｃｏｒに基いて算出する。相関値ｃｏｒは、以下の式で算出することができる。
【００４４】
【数１】

【００４５】
【数２】

【００４６】
【数３】

【００４７】
相関値ｃｏｒは、「−１」から「＋１」までの小数点値であり、「＋１」のときが歌唱値と基準値との相関性が高い。
そして、区間得点値（音高）Ｘは、
Ｘ＝（ｃｏｒ＋１）×５０
として算出することができる。これにより、区間得点値（音高）は、０〜１００までの数値となる。なお、上述した区間得点値（音高）の算出方法は、単なる一例であり、その他の方法で区間得点値（音高）を算出してもよい。
【００４８】
次に、Ｓ４４において、カラオケ装置１０は、ＨＤＤ２２に記憶している楽曲データ中の採点データから、採点区間ｉの音量値を取得する。
Ｓ４５において、カラオケ装置１０は、採点結果ファイルから、採点区間ｉの音量値を抽出する。なお、Ｓ４４及びＳ４５の処理は逆の順番で行ってもよく、また、並列して行ってもよい。
Ｓ４６において、カラオケ装置１０は、区間得点値（音量）を算出する。なお、区間得点値（音量）の算出方法は、上述した区間得点値（音高）の算出方法と基本的には同じであるので、詳細な説明を省略する。
【００４９】
Ｓ４７において、カラオケ装置１０は、区間得点を算出し、採点結果ファイルの区間得点データの項目に書き込む。区間得点データは、例えば、区間得点値（音量）及び区間得点値（音高）の平均値とすることができる。
ここで、採点結果ファイルの区間得点データのデータ構造について、図１０を参照して説明する。図１０に示すように、歌唱音声の区間ごとに、「演奏同期情報」及び「区間得点」が設けられている。したがって、図９のＳ４７では、採点区間ごとに、算出した区間得点データを採点結果ファイルに書き込む。
【００５０】
Ｓ４８において、カラオケ装置１０は、採点結果ファイル中の区間得点データに基いて、最も区間得点が高い区間を特定し、その区間の演奏同期情報を、採点結果ファイル中の「ピーク時刻」の項目に書き込む。
Ｓ４９において、カラオケ装置１０は、採点結果ファイル中の区間得点データに基いて、総合得点を算出し、その総合得点を、採点結果ファイル中の「総合得点」の項目に書き込む。総合得点は、例えば、各区間ごとの区間得点の平均値として算出することができる。
【００５１】
以上説明した歌唱分析処理により、取得した歌唱音声の分析結果に基いて、静止画抽出に必要な歌唱動画の区間を特定することができる。
【００５２】
［静止画抽出処理］
次に、図５で示したカラオケ処理のＳ２３で実行される静止画抽出処理について図１１を用いて説明する。本実施形態では、歌唱動画は、歌唱音声と共にメディアファイルとして、ＭＰＥＧ形式でＨＤＤ２２に記憶されている。なお、ＭＰＥＧ形式のファイル構造は公知であるので詳細な説明は省略する。
【００５３】
Ｓ６１において、カラオケ装置１０は、採点結果ファイルからピーク時刻を取得する。
Ｓ６２において、カラオケ装置１０は、メディアファイルからピーク時刻に最も近いＴＳパケットを特定する。
Ｓ６３において、カラオケ装置１０は、Ｓ６２で特定したＴＳパケットの直後に位置するＧＯＰデータを特定する。すなわち、上述した歌唱分析処理によって特定された区間（静止画抽出に必要な歌唱動画の区間）を特定する。
Ｓ６４において、カラオケ装置１０は、Ｓ６３で特定したＧＯＰデータに含まれるＩフレームを１つ特定し、そのＩフレームを画像展開（例えば、ＢＭＰ形式）する。なお、Ｉフレームは、他のフレームとの依存関係がない独立ピクチャである。また、ＧＯＰデータに含まれる先頭のＩフレームを特定してもよい。
Ｓ６５において、カラオケ装置１０は、Ｓ６４で展開した画像を、所定の形式（例えば、ＪＰＥＧ形式）で圧縮して静止画のファイルを生成する。なお、作成された静止画のファイルは、上述したように、投稿データの一部として投稿サーバ１１に送信される。
【００５４】
以上説明した静止画抽出処理により、歌唱動画から、歌唱音声の分析結果に基いて特定された区間の静止画を抽出することができる。なお、本実施形態では、メディアファイルの圧縮形式をＭＰＥＧ形式としたが、他の圧縮形式を用いてもよい。
【００５５】
［投稿サーバ処理］
次に、投稿サーバ１１によって実行される投稿サーバ処理について、図１２のフローチャートを参照して説明する。投稿サーバ処理は、不図示の制御部によって処理される。
【００５６】
まず、Ｓ７１において、投稿サーバ１１は、カラオケ装置１０から投稿データを受信したか否かを判断する。投稿データを受信したと判断した場合（Ｓ７１：ＹＥＳ）は、投稿サーバ１１は、Ｓ７２において、投稿データに含まれる静止画に基いて、基本選択肢ファイルを更新する。この基本選択肢ファイルは、図４に示した画像を表示する際に用いられる表示選択肢データを作成するためのものである。
【００５７】
基本選択肢ファイルでは、それぞれの静止画に、歌手名、曲名、撮影日時、再生回数が対応付けられている。すなわち、それぞれの静止画に、図４に示した表示部に表示される各情報が対応付けられている。また、再生回数は、静止画に対応づけられている閲覧データが閲覧されるごとに更新される。なお、基本選択肢ファイルのデータ構造はどのようなものでもよく、図４に示した画像を表示することができるものであればよい。
【００５８】
Ｓ７３において、投稿サーバ１１は、投稿データに含まれる歌唱音声及び歌唱動画に基いて閲覧データを作成し、作成した閲覧データをデータベースに記憶する。なお、基本選択肢ファイル中の静止画と、閲覧データとは関連付けられているものとする。例えば、静止画の識別番号が、対応する閲覧データにも付されているものとする。
【００５９】
一方、Ｓ７１において、投稿データを受信していないと判断した場合（Ｓ７１：ＮＯ）は、投稿サーバ１１は、Ｓ７４において、閲覧端末から表示要求データを受信したか否かを判断する。表示要求データを受信したと判断した場合（Ｓ７４：ＹＥＳ）は、投稿サーバ１１は、Ｓ７５において、表示選択肢データを作成する。表示選択肢データには、静止画及び表示データが含まれている。その後、投稿サーバ１１は、Ｓ７６において、作成した表示選択肢データを、閲覧端末に送信する。
【００６０】
表示要求データには、図４の表示部上で入力された操作情報が含まれている。例えば、「再生回数順にソートされたときに３番目の選択肢グループに含まれる選択肢」の要求を指示する情報が、表示要求データに含まれる。この場合、閲覧端末の表示部では、「再生回数順」のテキストが選択されている状態で、「３」のテキストが選択されたときに、この表示要求データが当該閲覧端末から送信され、投稿サーバ１１で受信される。投稿サーバ１１では、各静止画に対応付けられた再生回数を大きい順にソートに、１３番目〜１８番目に大きい再生回数の静止画を抽出して、当該静止画とその静止画に対応づけられている歌手名等を表示選択肢データとして、閲覧端末に送信する。そして、閲覧端末の表示部には、表示選択肢データに基いた選択画像（図４参照）が表示される。
【００６１】
一方、Ｓ７４において、表示要求データを受信していないと判断した場合（Ｓ７４：ＮＯ）は、投稿サーバ１１は、Ｓ７９において、閲覧端末から閲覧要求データを受信したか否かを判断する。閲覧要求データを受信したと判断した場合（Ｓ７９：ＹＥＳ）は、投稿サーバ１１は、Ｓ８０において、データベースから閲覧データを取得する。その後、投稿サーバ１１は、Ｓ８１において、取得した閲覧データを、閲覧端末に送信する。閲覧データには、どの静止画が選択されたかを示す静止画の識別番号が含まれている。したがって、当該識別番号を用いて、必要な閲覧データをデータベースから取得することができる。その結果、閲覧端末の表示部では、選択画像上で選択した静止画の元（ソース）である（すなわち、静止画に対応付けられた）、目的の歌唱動画及び歌唱音声の再生が開始される。
【００６２】
以上説明したとおり、第１実施形態によれば、歌唱中に歌唱音声及び歌唱動画を取得し、取得した歌唱音声の分析結果に基いて、静止画抽出に必要な歌唱動画の区間を特定する。そして、歌唱動画から抽出した静止画を、閲覧データを選択させるための選択肢として表示させる。これにより、人手を介することなく、選択肢として適切な静止画を生成することができる。
【００６３】
［第２実施形態］
次に、本発明の第２実施形態について説明する。第２実施形態に係る投稿システムは、基本的には上述した第１実施形態と同じである。本実施形態では、歌唱動画に対する圧縮の仕方に特徴を有するものである。
【００６４】
投稿データの容量を小さくするためには、歌唱動画を効率的に圧縮する必要がある。歌唱動画を効率的に圧縮するためには、ＧＯＰデータ中のフレーム数を大きくし、かつ、ＧＯＰデータ中のＩフレームの数を小さくすればよい。ただし、ＧＯＰデータ中のフレーム数を大きくしすぎると、ピーク時刻と、特定されるＩフレームの位置とのずれが大きくなってしまい、静止画の抽出精度が下がってしまう。
【００６５】
そこで、本実施形態では、各ＧＯＰデータのサイズ（すなわち、ＧＯＰデータ中のフレーム数）を、楽曲データ中の採点データの各区間の時間長と一致させるように制御する。そして、各ＧＯＰデータ中に、Ｉフレームが１つのみ含まれるように制御する。
【００６６】
この処理は、図６で示した歌唱記録処理において、Ｓ３１とＳ３２の間の時点（図中、「１」で示している時点）で実行される。より具体的には、カラオケ装置１０は、楽曲データ中の採点データを読み出して各区間の時間長を抽出し、歌唱動画の各ＧＯＰデータ中のフレーム数を、抽出した時間長と一致するように制御する。すなわち、生成するメディアファイルにおける各ＧＯＰデータのヘッダ情報として、このフレーム数を設定する。そして、カラオケ装置１０は、Ｓ３２におけるメディアファイルの作成においては、各ＧＯＰデータ中のそれぞれに、Ｉフレームが１つのみ含まれるようにＭＰＥＧエンコーダ３０を制御する。
【００６７】
以上説明したとおり、第２実施形態によれば、静止画の抽出精度を下げることなく歌唱動画を効率的に圧縮できる、というさらなる効果を奏することができる。また、楽曲データ中の採点データの各区間長が可変であっても、その時間長に合致したＧＯＰデータを作成することができ、その結果、静止画の抽出精度を向上させることができる。
【００６８】
本発明は上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の改良、変形が可能であることはいうまでもない。
【００６９】
また、上述した各フローチャートは単なる一例であり、該各フローチャートの処理と同等の結果を得ることができるものであれば、他のフローチャートによって処理を実現してもよい。また、上述したカラオケ装置及び投稿サーバに係る各方法、当該方法をコンピュータに実行させるためのプログラム、当該プログラムを記録した記録媒体等としても本発明は実現可能である。
【符号の説明】
【００７０】
１コマンダ
６マイク
１０カラオケ装置
１１投稿サーバ
２８声音高検出回路
２９声音量検出回路
Ｓ投稿システム

【特許請求の範囲】
【請求項１】
歌唱者の歌唱中の歌唱音声を録音する録音手段と、
前記歌唱中の歌唱動画を録画する録画手段と、
前記歌唱者の歌唱が終了した後に、前記録音手段から前記歌唱音声を取得する音声取得手段と、
前記歌唱者が歌唱した楽曲の基準データを取得する基準データ取得手段と、
前記取得した歌唱音声と前記取得した基準データとを比較する比較手段と、
前記比較手段の比較結果に基いて、前記歌唱音声が前記基準データに最も類似している前記歌唱音声の区間を特定する区間特定手段と、
前記録画手段に記憶されている前記歌唱動画から、前記区間の動画を抽出する動画抽出手段と、
前記抽出した動画に基いて、静止画を生成する静止画生成手段と、
前記歌唱音声、前記歌唱動画、及び前記静止画を含む投稿動画を生成する投稿データ生成手段と、
前記投稿データを送信する送信手段と、
を有する投稿データ作成装置。

【請求項２】
前記基準データは、複数の区間基準データから構成され、
前記比較手段は、前記区間基準データの時間長を単位として、前記歌唱音声と前記基準データとを比較し、
前記録画手段は、
前記区間基準データの時間長を単位として、前記入力された歌唱動画を分割し、
当該分割した歌唱動画に対して他のフレームとの依存関係がない独立ピクチャを１つのみ含むように圧縮し、
当該圧縮した動画を録画し、
前記静止画生成手段は、前記独立ピクチャに基いて、前記静止画を生成する、
請求項１の投稿データ作成装置。

【請求項３】
歌唱音声と歌唱動画とを取得する取得手段と、
前記取得した歌唱音声を基準データと比較する比較手段と、
前記比較手段の比較結果に基いて、前記歌唱音声が前記基準データに最も類似している前記歌唱音声の区間を特定する区間特定手段と、
前記取得した歌唱動画から、前記特定した区間の動画を抽出する動画抽出手段と、
前記抽出した動画に基いて、静止画を生成する静止画生成手段と、
前記歌唱音声、前記歌唱動画、及び前記静止画を含む投稿データを生成する投稿データ生成手段と、
前記投稿データを送信する送信手段と、
を有する投稿データ作成装置。

【請求項４】
請求項１〜３のいずれか１項のデータ生成装置と、当該データ生成装置から送信される投稿データを受信して記憶し、かつ閲覧端末が接続可能な投稿サーバとから構成される投稿システムであって、
前記投稿サーバは、
（１）前記投稿データ作成装置から前記投稿データを受信したときに、
当該投稿データに含まれる静止画を含む基本選択肢ファイルを更新し、かつ、
当該投稿データに含まれる歌唱音声及び歌唱動画を含む閲覧データを作成し、
（２）前記閲覧端末からの要求に応じて、前記基本選択肢ファイルに基いて、当該閲覧端末で選択可能に表示される前記静止画を含む表示選択肢データを作成して当該閲覧端末に送信し、
（３）前記静止画が選択されたときに、当該静止画に対応付けられている閲覧データを、前記閲覧端末に送信する、
投稿システム。

【図１】