説明

コンテンツ配信システムおよびテキスト表示方法

【課題】字幕付きコンテンツの配信サービスの普及を促進させる。
【解決手段】端末1はオンデマンドでコンテンツの配信を配信サーバ2に要求したとき、端末1は配信サーバ2からコンテンツを取得するとともに音声のテキスト化に必要なプラグインの所在を取得して、インターネット4上でそのプラグインを取得し、端末1にインストールされているコンテンツ閲覧用のブラウザの機能を拡張させる。そして、端末1はそのプラグインの機能により音声解析サーバ3に音声のテキスト化を要求すると、音声解析サーバ3から音声のテキストを取得し、取得したコンテンツとともに、そのテキストが字幕として表示される。端末1はブラウザを拡張させるだけで済み、配信サーバ2には音声解析用の設備を導入する必要が無く、音声解析サーバ3はコンテンツを有していなくともコンテンツ配信事業に参入できるので、字幕付きコンテンツの配信サービスはよりいっそう普及する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声を含むコンテンツを配信する技術に関する。
【背景技術】
【0002】
ネットワーク上の視聴者の端末(例:PC(Personal Computer))に、ストリーミング等で音声を含むコンテンツを配信するときに、その音声をテキスト化して字幕のようにして配信する技術が知られている。
【0003】
例えば、特許文献1には、元々音声はあるが、字幕は無いビデオ映像ファイルに対し、その音声の字幕テキストファイルを生成し、その字幕テキストファイルを含むビデオ映像ファイルに作り変える旨の技術が開示されている。
【0004】
また、特許文献2には、インターネット上で、基地局装置、翻訳サーバ、モニタ装置が通信可能に接続されたシステムにおいて、翻訳を含むストリーミングデータがモニタ装置に送信される旨の技術が開示されている。具体的には、基地局装置からストリーミング送信された映像/音声データに対し、翻訳サーバが音声認識に基づく翻訳メタデータを付加し、その付加された映像/音声データがストリーミングデータとしてモニタ装置に送信される。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−374494号公報(要約等)
【特許文献2】特開2005−210196号公報(要約、図2等)
【発明の概要】
【発明が解決しようとする課題】
【0006】
一般的に、コンテンツを配信する企業が視聴者にコンテンツを配信する場合、その配信を実現するための専用の設備(ソフトウェア的なものもあるし、ハードウェア的なものもある)を企業側、場合によっては視聴者側に搭載し、企業が有するサーバ、視聴者が有する端末を高性能化する必要がある。
【0007】
例えば、音声を含むコンテンツに字幕を付ける場合、企業側はその音声の抽出や解析をする設備をサーバに搭載するだけでなく、字幕の言語を決め、その言語に応じた翻訳実行用の設備もサーバに搭載する必要がある。視聴者側は、場合によっては前記サーバから配信される字幕付きのコンテンツを再生するための設備を端末に搭載する必要がある。しかし、サーバや端末を高性能化すれば、企業側であれ、視聴者側であれ、その導入費用、維持費用等のコストがかさみ、そのコンテンツを利用する者が限られ、結果的には、字幕付きコンテンツの配信サービスの普及が停滞してしまう。このような傾向は、配信するコンテンツの品質を向上させようとすれば尚更である。
【0008】
特許文献1の技術では、企業側のサーバに、字幕テキストファイルを含むビデオ映像ファイルに作り変えるための専用のソフトウェア等を備える必要が生じてしまう。しかし、そのようなソフトウェア等を導入する余裕が無い企業にとっては無用の長物である。
【0009】
また、特許文献2の技術では、翻訳サーバが映像/音声データを解析または翻訳をするため、解析や翻訳に必要な設備を基地局装置が備える必要が無いという点で、部分的には、コストの削減に繋がる。しかし、翻訳メタデータを付けるために、基地局装置が翻訳サーバに映像/音声データを送信しているため、モニタ装置が翻訳サーバからストリーミングデータを受信するという形態をとっている。このように、コンテンツ(ストリーミングデータ)を入手する経路が変更してしまうため、その変更に応じた設備を、企業側、場合によっては視聴者側に搭載する必要がある。結果的には、コストの削減が不十分であり、字幕付きコンテンツの配信サービスの普及が停滞してしまう。
【0010】
そこで、本発明では、字幕付きコンテンツの配信サービスの普及を促進させることを目的とする。
【課題を解決するための手段】
【0011】
前記課題を解決するため、本発明では、音声を含むコンテンツを配信する配信サーバと、音声をテキスト化する音声解析サーバと、音声を含むコンテンツを字幕付きで視聴できる端末がネットワーク上で通信可能に接続されたシステムを構成する。このシステムにおいて、端末側はオンデマンドでコンテンツの配信を配信サーバに要求したとき、端末は配信サーバからコンテンツを取得するとともに音声のテキスト化に必要なプラグインの所在を取得して、ネットワーク上でそのプラグインを取得し、端末にインストールされているコンテンツ閲覧用のブラウザの機能を拡張させる。そして、端末はそのプラグインの機能により音声解析サーバに音声のテキスト化を要求すると、音声解析サーバから音声のテキストを取得し、取得したコンテンツとともに、そのテキストが字幕として表示される。テキストの表示態様は様々であるが、コンテンツのデータとテキストのデータは別々であり、特許文献1のように、配信されたコンテンツを字幕付きのコンテンツに作り変えるような処理は基本的には行われない。また、端末はコンテンツを配信サーバから取得する経路をとっており、特許文献2のように、音声解析サーバから取得する経路をとらない。
【0012】
配信サーバは、配信するコンテンツに含まれる音声を解析または翻訳をする専用の設備を搭載する必要が無い(既存設備で良い)という点で、コストを削減することができる。また、視聴者は、ネットワーク上で表示されているプラグインを端末にインストールし、端末に元々搭載されているブラウザを拡張するだけで済むので、視聴者側に専用の設備を搭載する必要が無いという点で、コストを削減することができる。また、音声解析サーバを備えた業者は、コンテンツを有することがないので、音声解析技術を適用できる事業範囲を拡大することが可能である。よって、字幕付きコンテンツの配信サービスを利用する者が増え、そのサービスの普及は従来よりも促進される。
詳細は、後記する。
【発明の効果】
【0013】
本発明によれば、字幕付きコンテンツの配信サービスの普及を促進させることができる。
【図面の簡単な説明】
【0014】
【図1】本実施形態のコンテンツ配信システムの全体構成図である。
【図2】端末のソフトウェア構成図である。
【図3】配信サーバのソフトウェア構成図である。
【図4】音声解析サーバのソフトウェア構成図である。
【図5A】コンテンツ配信システムにおいて実行される処理の一例を示すシーケンスチャートである。
【図5B】コンテンツ配信システムにおいて実行される処理の一例を示すシーケンスチャートである。
【図6】コンテンツ配信用のHTML文書の一例である。
【発明を実施するための形態】
【0015】
次に、本発明を実施するための形態(以下、「実施形態」という。)について、適宜図面を参照しながら説明する。なお、本実施形態では、特に説明しない限り、単に「コンテンツ」と称するときは、音声を含むコンテンツを指すものとする。
【0016】
≪第1の実施形態≫
≪構成≫
まず、本実施形態のコンテンツ配信システムのハードウェア構成について説明する。
図1は、本実施形態のコンテンツ配信システムの全体構成図である。このコンテンツ配信システムは、端末1と、配信サーバ2と、音声解析サーバ3とが、通信網としてのインターネット4上で通信可能に接続して構成されている。
【0017】
端末1は、コンテンツを視聴する視聴者が有し、例えばPCまたは携帯端末である。
配信サーバ2は、コンテンツを配信し、かつ配信されるコンテンツを紹介するウェブサイトを公開する企業が有する。
音声解析サーバ3は、コンテンツに含まれる音声を解析し、その音声をテキスト化する事業を行う業者が有する。
【0018】
端末1は、入力部11、記憶部12、制御部13および出力部(表示部)14といったハードウェア資源を備えたコンピュータである。
入力部11は、外部から入力されるデータを受け付ける機能を有する。この入力部11は、例えばユーザ(この場合は視聴者)の操作を受け付けるキーボード、ポインティングデバイス等や、インターネット4上から受信するデータの入力を受け付ける入力ポート、入力コントローラ等により実現される。
【0019】
記憶部12は、端末1が外部から受信した、または内部の演算処理による演算結果を、一時的、または半永久的に記憶する機能を有する。この記憶部12は、例えば読み書きされる情報を展開するための記憶領域として機能するRAM(Random Access Memory)や、演算処理が実行されるために読み取り対象となるプログラムや前記演算処理が実行されるときに使用されるデータベース等を記憶する外部記憶装置として機能するHDD(Hard Disk Drive)等で実現される。
【0020】
制御部13は、外部から取得した、または記憶部12から読み出したデータに対し、所定の演算処理を実行し演算結果を出力する機能を有する。この制御部13は、例えばCPU(Central Processing Unit:中央処理装置)等で実現される。
【0021】
出力部14は、制御部13による演算結果を、所定の表示態様やファイル形式で、ユーザや外部へ出力する機能を有する。この出力部14は、例えばインターネット4上に送信または公開するデータの出力を受け付ける出力ポート、出力コントローラ等や、制御部13による演算結果(動画、音声、テキスト等)を表示するディスプレイ、スピーカ等により実現される。
【0022】
制御部13は、前記プログラムを記憶したROM(Read Only Memory:記録媒体)からそのプログラムを読み出して、所定の演算処理を実行しても良い。記録媒体に記憶されたプログラムは、記憶部12にインストールされ、制御部13はインストールされたプログラムにより命令される処理を実行し、当該プログラムに係る機能を実現することができる。また、プログラムにより実現される機能は、そのままソフトウェアとして論理的に実現しても良いし、専用LSI(Large Scale Integration)等によりハードウェアとして実現しても良いし、ソフトウェアとハードウェアの組み合わせにより実現しても良い。
【0023】
配信サーバ2は、入力部21、記憶部22、制御部23および出力部24といったハードウェア資源を備えたコンピュータである。入力部21、記憶部22、制御部23および出力部24はそれぞれ、入力部11、記憶部12、制御部13および出力部14と比べると、その品質、性能、製品において異なるものの、機能は(本実施形態の技術上で関係のある範囲内ではほぼ)同じである。よって、これらの説明は省略する。
【0024】
音声解析サーバ3は、入力部31、記憶部32、制御部33および出力部34といったハードウェア資源を備えたコンピュータである。入力部31、記憶部32、制御部33および出力部34はそれぞれ、入力部11、記憶部12、制御部13および出力部14と比べると、その品質、性能、製品等において異なるものの、機能は(本実施形態の技術上で関係のある範囲内ではほぼ)同じである。よって、これらの説明は省略する。
なお、音声解析サーバ3は、1台のコンピュータで構成しても良いが、クラウドやグリッド等のようにして複数のコンピュータで構成しても良い。
【0025】
次に、本実施形態のコンテンツ配信システムのソフトウェア構成について説明する。
図2は、端末のソフトウェア構成図である。端末1の記憶部12には、ウェブページ閲覧部(閲覧部)121、コンテンツ再生部(再生部)122、音声テキスト化要求部123およびテキスト表示制御部124と称する各機能部がプログラムとして記憶されている。制御部13がこれらのプログラムを読み出し、そのプログラムに記述されたコードに従って処理を実行すると、各機能部による機能が実現される。
【0026】
ウェブページ閲覧部121は、いわゆるブラウザであり、インターネット4上で公開されているウェブサイト(配信サーバ2により提供されるウェブサイトを含む。)を閲覧する機能を有する。
コンテンツ再生部122は、配信サーバ2から配信されるコンテンツを再生する機能を有する。コンテンツ再生部122は、例えばブラウザの機能を拡張させるプラグイン(コンテンツ再生用プラグイン)であっても良いし、ブラウザとは独立に動作するプログラム(アプリケーション)であっても良い。
音声テキスト化要求部123は、音声解析サーバ3に対し、コンテンツの音声をテキスト化するように要求する機能を有する。
【0027】
テキスト表示制御部124は、音声解析サーバ3から受信したテキスト(コンテンツの音声をテキスト化したテキスト)を所定の表示態様で表示するように制御する。このテキスト表示制御部124は、ブラウザの機能を拡張させるプラグイン(テキスト表示用プラグイン)であり、端末1が元から備えていたわけではないが、配信サーバ2からの情報開示に従い、インターネット4に公開済みのプログラム(例:フリーウェア、シェアウェア)を取得したものである。
【0028】
図3は、配信サーバのソフトウェア構成図である。配信サーバ2の記憶部22には、ウェブページ提供部221および音声テキスト化奨励部222と称する各機能部がプログラムとして記憶されている。制御部23がこれらのプログラムを読み出し、そのプログラムに記述されたコードに従って処理を実行すると、各機能部による機能が実現される。また、記憶部22には、コンテンツデータベース223が記憶されている。
【0029】
ウェブページ提供部221は、インターネット4上に公開するウェブサイトを、例えばHTML(HyperText Markup Language)形式で提供する機能を有する。
【0030】
音声テキスト化奨励部222は、端末1の視聴者に対し、コンテンツの音声をテキスト表示するための情報開示を行う機能を有する。前記情報開示は、テキスト表示用プラグインの所在(例:URL(Uniform Resource Locator))の送信を、例えば配信サーバ2からのコンテンツの配信に併せて行われる。
【0031】
コンテンツデータベース223は、配信サーバ2を有する企業が取り扱うコンテンツを記憶して管理するデータベースである。例えば、コンテンツごとに、コンテンツの所有者、利用権限、音声の使用言語、ファイル形式等が対応付けられて管理されている。
【0032】
図4は、音声解析サーバのソフトウェア構成図である。音声解析サーバ3の記憶部32には、音声取得部321、音声解析部322、音声テキスト化実行部323およびテキスト翻訳部324と称する各機能部がプログラムとして記憶されている。制御部33がこれらのプログラムを読み出し、そのプログラムに記述されたコードに従って処理を実行すると、各機能部による機能が実現される。また、記憶部32には、音響データベース325、辞書データベース326および言語モデルデータベース327が、言語(言語A、言語B、言語C、・・・)ごとに記憶されている。
【0033】
音声取得部321は、端末1からのテキスト化の要求に対し、配信サーバ2から、端末1に配信したコンテンツを取得し、コンテンツから音声を抽出する機能を有する。
音声解析部322は、コンテンツから抽出した音声を解析して、音声をデコード化した後、音声認識用の特徴量に変換する機能を有する。ノイズ等のような音声認識に無用の部分は除去される。
【0034】
音声テキスト化実行部323は、音声認識用の特徴量、音響データベース325、辞書データベース326および言語モデルデータベース327に基づいて、演算結果として音声部分のテキストを出力する機能を有する。
音響データベース325は、少なくとも音声認識用の音素を、言語ごとに記憶して管理するデータベースである。
辞書データベース326は、少なくとも音声認識の対象となる単語を、言語ごとに記憶して管理するデータベースである。
言語モデルデータベース327は、少なくとも単語の並びを特定するのに必要なパラメータ(例:確率)を、言語ごとに記憶して管理するデータベースである。
【0035】
音声解析サーバ3が行う音声認識は、例えば音響の情報と言語の情報とを統合的に判断して行うものであり、この判断には確率統計的な手法を用いる。
まず、音声認識用の特徴量を、音響データベース325の音素(例:「イ」「シ」等の発音記号)と照合し、取得した音声がどのような音素の並びを有するかを計算する。この計算により、音素列を、確率付きで求める。例えば、「医師」という音声に対して、「イ/シ」という音素列だけでなく、「キ/シ」「イ/チ」「イ/ニ」・・・といった類似した発音記号の並びが、それぞれ特徴量と一致する度合いを示す確率付きで求められる。
【0036】
次に、この音素列を辞書データベース326の単語と照合し、音素列と単語とを対応付ける。例えば、「イ/シ」「キ/シ」「イ/チ」は辞書に登録されているから認識結果となるが、「イ/ニ」は登録されていないから認識結果にならないとして、単語の候補を特定していく。なお、単語の候補の特定は、同音異義語についても行われる(例:医師、意思、石、・・・)。
【0037】
次に、候補となった単語を言語モデルデータベース327のパラメータ(確率)と照合し、確率が最も高くなる単語を決定する。音声認識しようとするフレーズを決定するために、言語モデルデータベース327には、フレーズを構成する単語の出現確率や前後の単語との接続確率が記憶されており、単語を決定するときには、前後の単語との関係性を参照する。例えば、元々の音声が「私は医師です」というフレーズであれば、「医師」の前後に「私」「は」「です」とあるので、「意思」や「石」ではなく、「医師」とすべきであると判断できる。このとき、「私」「は」「です」という単語に対する「医師」の出現確率、接続確率は相対的に高い値が、「意思」や「石」の出現確率、接続確率は相対的に低い値が、言語の情報として言語モデルデータベース327に登録されている。
【0038】
このような処理を経て、音声認識の認識結果を出力し、その認識結果をテキスト化する。テキスト化したときのテキストは端末1に送信される。
【0039】
なお、音響の情報を言語モデルデータベース327に含ませることで、発話者の言い間違いを修正したうえでテキストを出力することができる。例えば、発話者が間違って、「私は医師です」というところを「私は『位置』です」と言ってしまった場合、「私」「は」「です」という単語に対する「位置」の出現確率、接続確率は相対的に非常に低い値を言語モデルデータベース327に登録するように設定する。すると、「医師」の出現確率、接続確率と比較すれば、「医師」の出現確率、接続確率のほうが高い値を示すので、「位置」を「医師」に書き換えて「私は医師です」というテキストを出力するといった処理を行うことができる。このように言語の情報だけでなく音響の情報も考慮して総合的に音声認識を行う。なお、音響の情報の用途は、このような言い間違えの場合に限定されない。
【0040】
テキスト翻訳部324は、ある言語で特定したテキストを別の言語に翻訳する機能を有する。翻訳するときには、例えば翻訳元の、つまりコンテンツに含まれる音声の言語(例:言語A)に関する辞書データベース326および言語モデルデータベース327と、翻訳したい言語(例:言語B)に関する辞書データベース326および言語モデルデータベース327に基づいて、周知の翻訳の情報処理技術(詳細な説明は省略)を活用して実行する。これらのデータベースを用いない翻訳の情報処理であっても良い。
【0041】
≪処理≫
次に、本実施形態のコンテンツ配信システムにおいて実行される処理について説明する。
図5(図5Aおよび図5Bの総称)は、本実施形態のコンテンツ配信システムにおいて実行される処理の一例を示すシーケンスチャートである。この処理の主体は、端末1の制御部13、配信サーバ2の制御部23および音声解析サーバ3の制御部33である。
【0042】
まず、ステップS501(図5A参照)において、端末1の制御部13は、ウェブページ閲覧部121により、配信サーバ2のウェブサイトのURLを入力部11から指定(入力)し、配信サーバ2に対して情報を取得要求する。指定した後、ステップS502に進む。
【0043】
次に、ステップS502において、配信サーバ2の制御部23は、ウェブページ提供部221により、当該URLを指定した端末1に対し、ウェブページ閲覧用のHTML文書を返信する(HTML返答)。端末1のウェブページ閲覧部121により、前記HTML文書が構文解析され、その結果、出力部14としてのディスプレイにはそのウェブサイトのページが表示される。表示されるウェブサイトには、配信可能なコンテンツが、例えばサムネイル形式で表示されている。返信した後、ステップS503に進む。
【0044】
次に、ステップS503において、端末1の制御部13は、ウェブページ閲覧部121により、視聴者が入力部11から指定して選んだあるコンテンツを配信するように配信サーバ2に要求する(コンテンツ取得要求)。要求した後、ステップS504に進む。
【0045】
次に、ステップS504において、配信サーバ2の制御部23は、要求のあったコンテンツを端末1に配信する。コンテンツを配信するときには、例えば、コンテンツを再生するコンテンツ再生用プラグインを指定するコード(当該URL含む)を記述したオブジェクトタグを含むHTML文書を端末1に送信する。これにより、端末1ではコンテンツ再生用プラグインが特別な操作なく自動的に起動する。配信した後、ステップS505に進む。
【0046】
次に、ステップS505において、配信サーバ2の制御部23は、音声テキスト化奨励部222により、配信したコンテンツの音声をテキスト化することを勧めるための情報開示を端末1に対して行う。具体的には、コンテンツを配信するときに送信したHTML文書に、テキストを端末1のディスプレイに表示させるテキスト表示用プラグインを指定するコード(当該URL含む)を記述したオブジェクトタグを含ませる。情報開示をした後、ステップS506に進む。
【0047】
ここで、ステップS504およびステップS505にて採り上げられたHTML文書の詳細について説明する。
図6は、前記HTML文書である、コンテンツ配信用のHTML文書の一例である。符号601で示した箇所が、ステップS504にてコンテンツ再生用プラグインを指定するコードを記述したオブジェクトタグである。また、符号602で示した箇所が、ステップS505にてテキスト表示用プラグインを指定するコードを記述したオブジェクトタグである。配信サーバ2側が、コンテンツ(ストリーミングデータ)の再生、および音声からテキスト化したテキストの表示を実行するために、これらのプラグインをオブジェクト(OBJECT)として予めHTML宣言することで、HTML文書を受信した端末1のブラウザが対応するプラグインを簡易に起動することができる。
【0048】
次に、ステップS506において、端末1の制御部13は、コンテンツ再生部122により、配信されたコンテンツを再生する。再生した後、ステップS507に進む。
【0049】
次に、ステップS507において、端末1の制御部13は、視聴者からコンテンツの音声をテキスト化する指示(例:入力部11からの操作による指示)があるが、ブラウザがテキスト表示用プラグインを備えていないとき、インターネット4上に公開されているテキスト表示用プラグインを取得する。例えば、端末1のディスプレイにテキスト表示用プラグインを取得するまでの手順を案内するダイアログを表示し、図6の符号602で示したテキスト表示用プラグインを指定するコードに記述されたURLを入力部11から指定することでそのプラグインを取得することができる。取得した後、ステップS508に進む。
【0050】
次に、ステップS508において、端末1の制御部13は、音声テキスト化要求部123により、コンテンツに含まれる音声をテキスト化するように音声解析サーバ3に要求する(音声テキスト化要求)。この要求を音声解析サーバ3にするために、例えばステップS507にて取得したテキスト表示用プラグインには、音声解析サーバ3の業者がインターネット4上に公開するウェブサイトのURLを指定するコードが記述されているようにすると良い。また、前記要求には、少なくとも配信サーバ2が提供するウェブサイト内の当該コンテンツのURLおよびテキストにしたい言語が含まれている。要求した後、ステップS509に進む(図5B参照)。
【0051】
次に、ステップS509において、音声解析サーバ3の制御部33は、音声取得部321により、端末1から音声のテキスト化を要求されたコンテンツを配信するように配信サーバ2に要求する(コンテンツ取得要求)。要求した後、ステップS510に進む。
【0052】
次に、ステップS510において、配信サーバ2の制御部23は、要求のあったコンテンツを音声解析サーバ3に配信する。配信した後、ステップS511に進む。
【0053】
次に、ステップS511において、音声解析サーバ3の制御部33は、音声取得部321により、配信されたコンテンツから音声を抽出して取得する。取得した後、ステップS512に進む。
【0054】
次に、ステップS512において、音声解析サーバ3の制御部33は、音声解析部322により、抽出した音声について、既に説明した音声認識を行い、認識結果を出力する。出力した後、ステップS513に進む。
【0055】
次に、ステップS513において、音声解析サーバ3の制御部33は、音声テキスト化実行部323により、前記認識結果に対し、音声部分のテキストを出力する。コンテンツの音声の言語と視聴者が希望した言語とが異なる場合には、テキスト翻訳部324により、音声部分のテキストを翻訳したテキストを出力する。前記2つの出力のいずれかをした後、ステップS514に進む。
【0056】
次に、ステップS514において、音声解析サーバ3の制御部33は、音声テキスト化実行部323またはテキスト翻訳部324により出力されたテキストを端末1に配信する。配信した後、ステップS515に進む。
【0057】
最後に、ステップS515において、端末1の制御部13は、テキスト表示制御部124により、基本的には再生しているコンテンツの再生状況に合わせて配信されたテキストを出力部14としてのディスプレイに表示する。テキストを表示するときの表示態様は、例えば図6のHTML文書に含まれたオブジェクトで宣言された領域に当該テキストを表示するようにすると良い。
このように、コンテンツ再生用プラグインとテキスト表示用プラグインとは、これらによる処理が非同期になるように起動する個別のプログラムとして読み出され、テキスト付きのコンテンツが再生表示される。
以上で、コンテンツ配信システムにおいて実行される処理について説明を終了する。
【0058】
≪第2の実施形態≫
第1の実施形態は、コンテンツ再生用プラグインとテキスト表示用プラグインとが、非同期に起動するものであったが、本実施形態は、テキスト表示用プラグインがコンテンツ再生用プラグインのプラグインとして起動するものである。この場合、テキスト表示用プラグインが、コンテンツ再生用プラグインによるコンテンツの再生に割り込むようにして音声をテキスト化したときのテキストの表示を制御することができる。つまり、テキスト表示用プラグインの処理と、コンテンツ再生用プラグインの処理とは同期する。
【0059】
このようにプラグインを構成すると、テキスト表示の有無をコンテンツ再生用プラグインによって制御することが可能であり、インターネット4上で公開されているコンテンツだけでなく、端末1の記憶部12に記憶されているコンテンツに対してもテキスト表示を行うことができる。つまり、端末1はインターネット4上に通信可能に接続していなくても、事前に音声解析サーバ3からテキストを取得していれば、コンテンツのテキスト表示を行うことができる。
【0060】
≪第3の実施形態≫
第1の実施形態は、テキストの表示態様について特に言及しなかったが、本実施形態は、ブラウザのツールバー等のように常駐して表示することができる領域でテキスト表示を行うものである。この場合、コンテンツ再生用プラグインが、テキスト表示用プラグインによるテキスト表示に割り込むようにしてコンテンツの再生を制御することができる。つまり、コンテンツ再生用プラグインの処理と、テキスト表示用プラグインの処理とは同期する。テキスト表示用プラグインには、ブラウザの例えばツールバーを構成するコードが記述されている。
【0061】
このようにプラグインを構成すると、テキスト表示がブラウザと密接に連携するようにして行うことが可能であるため、コンテンツ再生の有無をテキスト表示用プラグインによって制御することが可能である。よって、事前に音声解析サーバ3からテキストを取得していれば、コンテンツを再生せずともテキストを表示することができる。
【0062】
≪第4の実施形態≫
第1の実施形態は、音声解析サーバ3はコンテンツ自体には変更を加えず、コンテンツに付加されるテキストを端末1に配信するものであったが、本実施形態では、音声解析サーバ3が端末1からの音声のテキスト化の要求に対し、テキストを含ませたコンテンツを作成し、その作成したコンテンツを端末1に配信するものである。つまり、音声解析サーバ3は、例えばインターネット4上にコンテンツ変換を行うウェブサイトを公開してテキストを含ませたコンテンツを提供している。視聴者はテキスト付きのコンテンツを視聴したいときは、端末1から、配信サーバ2ではなく、音声解析サーバ3に対しコンテンツ取得要求を行う。
【0063】
このように、コンテンツのテキスト表示を希望する場合には、配信サーバ2から音声解析サーバ3へルーティングを変更し、音声解析サーバ3からテキスト付きのコンテンツを取得することで、テキスト付きのコンテンツを視聴するだけで済む。端末1がテキスト表示用プラグインを備えていない場合は、音声解析サーバ3から音声テキスト化の情報開示がなされる。よって、音声解析サーバ3を有する業者が提供するコンテンツ変換を行うウェブサイトを用いた新たなサービスを実現することが可能となる。
【0064】
≪具体例≫
次に、本実施形態のコンテンツ配信システムを利用したことによるコンテンツ配信サービスの具体例を説明する。
【0065】
〔ストリーミング配信サイトによる音声字幕提供サービス〕
配信サーバ2が配信するコンテンツ(ストリーミングデータ)を視聴者が要求し、テキスト表示用プラグインが端末1にインストールされ、有効になっている場合は、ディスプレイ上にテキスト表示用の領域を確保し、音声解析サーバ3から音声部分のテキストを受信する。そして、コンテンツの再生に合わせて、同期または非同期のタイミングで音声部分のテキストを前記領域に表示する。
【0066】
配信サーバ2により、ストリーミング配信サイトを提供する企業は、視聴者にテキスト表示用プラグイン(アドオンバナー)を提供するだけで済み、音声解析に必要な設備の導入が不要となる。また、音声解析サーバ3により音声解析サービスを提供する業者は、コンテンツ配信に必要な設備の導入が不要となる。よって、SaaS(Software as a Service)による字幕つきコンテンツ配信サービスを実現することが容易になる。
【0067】
〔ストリーミング投稿サイトでの音声字幕提供サービス〕
配信サーバ2が配信し、不特定多数から投稿されたコンテンツ(ストリーミングデータ)を視聴者が要求し、テキスト表示用プラグインが端末1にインストールされ、有効になっている場合は、ディスプレイ上にテキスト表示用の領域を確保し、音声解析サーバ3から音声部分のテキストを受信する。そして、コンテンツの再生に合わせて、同期または非同期のタイミングで音声部分のテキストを前記領域に表示する。
【0068】
配信サーバ2により、ストリーミング投稿サイトを提供する企業は、視聴者にテキスト表示用プラグイン(アドオンバナー)を提供するだけで済み、音声解析に必要な設備の導入が不要となる。また、音声解析サーバ3により音声解析サービスを提供する業者は、コンテンツ配信に必要な設備の導入が不要となる。よって、SaaSによる字幕つきコンテンツ配信サービスを実現するのが容易になる。
【0069】
〔ニュース配信サイトでの音声可視化提供サービス〕
配信サーバ2が配信し、自然災害、テロ等の緊急事態のニュースのコンテンツを視聴者、特に、聴覚障害者が要求し、テキスト表示用プラグインが端末1にインストールされ、有効になっている場合でも、ニュースのコンテンツの音声部分を可視化した状態で配信することができる。
【0070】
〔コンテンツ配信企業によるマーケット分析および広告表示〕
配信サーバ2を有するコンテンツ配信企業は、視聴者に配信したコンテンツの音声部分のテキストを、例えば端末1または音声解析サーバ3から取得することにより、そのテキストを用いて、視聴者の言語地域分析、コンテンツ自体の分類(テキストに対してtf−idf法等を適用し、コンテンツを所定のカテゴリに分ける)、視聴者の視聴傾向(ある視聴者がどのカテゴリのコンテンツをどの程度視聴するか等)の分析を行うことができる。
また、ある音声部分のテキストがディスプレイに表示されたとき、またはそのテキストに対応するコンテンツの部分が再生されたとき、そのテキストをキーにして、配信サーバ2において関連付けられた映像、画像、音声、テキスト等が広告媒体となる広告コンテンツを端末1に配信する(または配信しない)こともできる。
【0071】
≪まとめ≫
本実施形態によれば、端末1、配信サーバ2、音声解析サーバ3に専用の設備を導入する必要が無いので、コンテンツの配信および利用が容易になり、字幕付きコンテンツの配信サービスの普及を促進させることができる。視聴者は、テキスト表示を希望するのであれば、配信サーバ2から勧められた、公開中のテキスト表示用プラグインを取得するだけで済み、専用の設備の導入は不要である。コンテンツ配信企業は、音声解析用の設備を導入する必要が無い。また、コンテンツを配信するときの言語を設定する手間も省かれる。音声解析技術を有する業者は、コンテンツを所有しなくても、コンテンツ配信事業に参入することができる。
また、コンテンツの音声が元々どのような言語であれ、視聴者は好きな言語でコンテンツをオンデマンドに視聴することができる。
また、従来はコンテンツを分類するときは、分類する者がコンテンツを閲覧して行う必要があったが、本実施形態によれば、音声のテキストを用いた所定の分類方法により分類することができる。
【0072】
≪その他≫
なお、前記した実施形態は、本発明を実施するために好適のものであるが、その実施形式はこれらに限定されるものでなく、本発明の要旨を変更しない範囲内において種々変形することが可能である。
【0073】
例えば、本実施形態では、音声解析サーバ3が端末1からの音声のテキスト化の要求(ステップS508参照)に対し、配信サーバ2からコンテンツを取得し、音声を抽出して取得するようにした。しかし、音声の取得は、端末1から行うようにしても良い。つまり、端末1は、配信されたコンテンツから音声を抽出する機能を有しており、端末1が音声解析サーバ3に音声のテキスト化を要求するときに、その要求に、抽出した音声を含ませるようにする。これにより、音声解析サーバ3は、端末1から取得した音声をテキスト化し、当該テキストを端末1に配信すれば良い。
【0074】
また、本実施形態では、視聴者の希望する言語でテキストを表示できるようにした。このとき、希望する言語は2以上であっても良い。端末1は、音声解析サーバ3に音声のテキスト化を要求するとき、テキスト化を希望する言語を2以上指定する。すると、音声解析サーバ3から2以上の言語のテキストを取得し、コンテンツの再生とともに、ディスプレイ上の所定のエリアに2以上の言語のテキストを同時に表示することができる。
【0075】
また、本実施形態では、視聴者の希望する言語でテキストを表示できるようにした。このとき、その希望する言語の音声でコンテンツを再生することもできる。つまり、元々配信されたコンテンツの音声の言語とは異なる言語で音声を再生するようにすることもできる。端末1は、音声解析サーバ3に対し、希望する言語のテキストだけでなく、そのテキストの音声化も併せて要求する。音声解析サーバ3は、言語ごとに、音声をテキスト化するだけでなく、テキストを音声化する機能も有している。よって、端末1は、希望する言語のテキストおよび音声でコンテンツを再生することができる。コンテンツを視聴するときの便宜上、コンテンツの元々の音声を再生する処理は抑えておくことが好ましい。
【0076】
また、本実施形態において、配信サーバ2が提供するコンテンツ配信サービスは、コンテンツ配信用のウェブサイトを公開するときのウェブサービスと、ある視聴者にコンテンツを配信するときのウェブサービスをあたかも1つのウェブサービスのように見せるように行われても良い(マッシュアップ)。このコンテンツ配信サービスに、音声のテキスト化、当該テキストの翻訳またはその両方のウェブサービスを含ませた1つのウェブサービスを実現しても良い。
【0077】
また、本実施形態の音声のテキストをブラウザで表示するときの表示態様は、メニューバー、ツールバーで表示しても良いし、コンテンツを再生する領域にレイヤー等を重ねてそのレイヤー等にテキストを表示するようにしても良い。テキストを表示する領域、形式、書体、文字の大きさ、色、装飾等はコンテンツの視聴を妨げない範囲内で適宜変形することが好ましい。
【0078】
また、本実施形態のテキスト表示用プラグインに、端末1によるコンテンツ再生の再生時間や、再生されたときに表示したテキストを配信サーバ2に提供する機能を持たせても良い。音声テキスト化の情報開示のときに(ステップS505参照)、この機能に相当するコードを例えばオブジェクトタグとして含ませておけば良い。この機能により、例えばコンテンツ配信企業が、視聴者の視聴状況をテキストとして収集することが可能となる。
【0079】
また、本実施形態において、音声解析サーバ3から取得したテキストを用いて、そのテキストのある箇所を指定することで、指定した箇所に対応するコンテンツの該当箇所から再生を行うことができる機能を、例えばコンテンツ再生用プラグインに持たせるようにしても良い。テキスト表示用プラグインにより、再生するコンテンツの全音声に対応する全テキストを所定のテキストファイルとして画面表示し、希望するテキストを入力部11から指定すると、コンテンツ再生用プラグインが起動し、当該箇所から頭出し再生するように処理する。また、コンテンツが再生されているときに、テキストファイルにおいて、再生箇所に対応するテキストを目立つ色に変えたり、反転表示したりして強調表示しても良い。
【0080】
また、本実施形態で行う音声のテキスト化は、生放送のストリーミングのコンテンツにも適用することができる。視聴者が端末1にて、配信サーバ2から配信されている生放送のコンテンツを視聴しているとき、コンテンツの再生中に出力された音声を音声解析サーバ3に継続的に送信し、音声解析サーバ3から継続的に当該音声のテキストを取得して、所定の表示領域に表示する。そのテキストの翻訳についても同様である。これにより、生放送であるがゆえに確認できなかった、聞き取りづらかった音声を確認することができ、視聴者は生放送で配信されるコンテンツをよりいっそう楽しむことができる。
【0081】
なお、音声のテキストは、コンテンツの全音声を一度に(例えば、コンテンツ再生時に)すべてテキスト化したものでも良いし、コンテンツの再生に合わせて再生部分のみをテキスト化したものであっても良い。また、コンテンツ再生後には、テキストの一部または全部を削除しても良いし、記憶部12に長期間記憶できるような処理を行っても良い。
【0082】
また、配信サーバ2がコンテンツを配信するにあたり、非公開の会員制のウェブサイトをインターネット4上に表示し、特定の視聴者にコンテンツを配信する形態をとっても良い。また、通信網は、インターネット4ではなく、例えばイントラネットであっても良く、配信サーバ2はイントラネット上のサイトからコンテンツの配信を行うようにしても良い。
【0083】
また、本実施形態では、配信サーバ2がコンテンツの配信をしたときに、配信したコンテンツの音声をテキスト化することを勧めるための情報開示を端末1に対して行うようにした(ステップS505参照)。しかし、この情報開示はコンテンツの配信を行う前に行っても良い。例えば、端末1が配信サーバ2のウェブサイトのURLを指定し、配信サーバ2がウェブページ閲覧用のHTML文書を返信した(HTML返答)とき(ステップS501、502)に、この情報開示を行うようにしても良い。前記HTML文書に、テキストを端末1のディスプレイに表示させるテキスト表示用プラグインを指定するコード(当該URL含む)を記述したオブジェクトタグを含ませ、端末1にてテキスト表示用プラグインのバナー表示を行うようにすることができる。
【0084】
また、本実施形態では、端末1にテキスト表示用プラグインが既にインストールされており、利用可能(有効)であれば、端末1で行うコンテンツの取得から再生までの処理(ステップS503〜ステップS506参照)と、音声のテキスト化に必要な処理(ステップS508〜ステップS515)とは並行して行うことができる。コンテンツ取得要求(ステップS503)と音声テキスト化要求(ステップS508)とは同時に行うことができる。そして、各種プラグイン(テキスト表示用プラグイン含む)が有効であれば、端末1のブラウザはHTML文書に記述されているコードのとおりに処理し、プラグインを起動する。このとき、プラグイン自体はブラウザの起動の有無にかかわらず非同期に並行して動作する。
【0085】
また、本実施形態では、コンテンツが再生されるときに音声のテキスト表示を行うようにしたが、このことはコンテンツの再生が無ければ音声のテキスト表示を行うことができない、という意味ではない。基本的にコンテンツの再生の処理と、音声のテキスト表示の処理とは独立している。ただ、コンテンツ視聴の便宜上、前記2つの処理を同時に行うように制御することもできる。具体的には、ブラウザによる音声出力および音声のテキスト表示を実行する音声デコーダ(例:CODEC(COder-DECoder))を監視するプラグインをブラウザに備え、動画の再生、音声の再生、音声のテキスト表示等の処理を同期させることで実現される。
ただし、逆に、コンテンツは再生せずに音声のテキスト表示を行うように処理しても良い。つまり、視聴者は、コンテンツ取得要求(ステップS503)はせずに、音声テキスト化要求(ステップS508)だけをし、音声のテキスト表示のみ行うこともできる。
【0086】
その他、ハードウェア、ソフトウェア、各フローチャート等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【符号の説明】
【0087】
1 端末
2 配信サーバ
3 音声解析サーバ
4 インターネット
11 入力部
12 記憶部
13 制御部
14 出力部(表示部)
121 ウェブページ閲覧部(ブラウザ;閲覧部)
122 コンテンツ再生部(コンテンツ再生用プラグイン;再生部)
124 テキスト表示制御部(テキスト表示用プラグイン)


【特許請求の範囲】
【請求項1】
音声を含むコンテンツを紹介するサイトをネットワーク上に表示して前記コンテンツを配信する配信サーバと、前記コンテンツを再生する端末と、前記コンテンツに含まれる音声の音声解析を行う音声解析サーバと、が通信可能に接続されるコンテンツ配信システムにおいて、
前記端末の記憶部は、
前記配信サーバによるネットワーク上に表示されているサイトを前記端末の表示部で閲覧する閲覧部、および前記配信サーバが配信するコンテンツを前記表示部で再生する再生部を記憶しており、
前記端末の制御部は、
前記閲覧部により前記配信サーバが表示するサイトの閲覧を開始すると、前記サイトで紹介されるコンテンツに含まれる音声を、前記表示部でテキストとして表示するように前記閲覧部の機能を拡張するテキスト表示制御部のネットワーク上の所在を取得する制御と、
前記記憶部に前記テキスト表示制御部が記憶されていなければ、前記端末の入力部からの操作に応じて前記所在を指定して、前記テキスト表示制御部を取得し、前記取得したテキスト表示制御部を前記記憶部に記憶する制御と、
前記入力部からの操作に応じて前記配信サーバに対し、前記配信サーバのサイトで紹介されているコンテンツの取得要求をし、前記配信サーバから、当該コンテンツを取得する制御と、
前記入力部からの操作に応じて前記音声解析サーバに対し、前記取得したコンテンツに含まれる音声に対して音声のテキスト化要求をし、前記音声解析サーバから前記テキスト化要求の応答結果である音声のテキストを取得する制御と、
前記再生部により前記取得したコンテンツを前記表示部で再生するとともに、前記テキスト表示制御部により前記取得した音声のテキストを前記表示部で表示する制御と、を実行する
ことを特徴とするコンテンツ配信システム。
【請求項2】
前記端末の制御部は、
前記入力部からの操作に応じて、前記取得したコンテンツに含まれる音声の言語とは別の言語で音声のテキストを取得するように前記テキスト化要求をしたとき、前記音声解析サーバから、前記コンテンツに含まれる音声の言語を前記別の言語に翻訳した音声のテキストを取得する制御と、
前記再生部により前記取得したコンテンツを前記表示部で再生するとともに、前記テキスト表示制御部により、前記別の言語に翻訳した音声のテキストを前記表示部で表示する制御と、を実行する
ことを特徴とする請求項1に記載のコンテンツ配信システム。
【請求項3】
音声を含むコンテンツを紹介するサイトをネットワーク上に表示して前記コンテンツを配信する配信サーバと、前記コンテンツを再生する端末と、前記コンテンツに含まれる音声の音声解析を行う音声解析サーバと、が通信可能に接続されるコンテンツ配信システムにおけるテキスト表示方法において、
前記端末の記憶部は、
前記配信サーバによるネットワーク上に表示されているサイトを前記端末の表示部で閲覧する閲覧部、および前記配信サーバが配信するコンテンツを前記表示部で再生する再生部を記憶しており、
前記端末の制御部は、
前記閲覧部により前記配信サーバが表示するサイトの閲覧を開始すると、前記サイトで紹介されるコンテンツに含まれる音声を、前記表示部でテキストとして表示するように前記閲覧部の機能を拡張するテキスト表示制御部のネットワーク上の所在を取得するステップと、
前記記憶部に前記テキスト表示制御部が記憶されていなければ、前記端末の入力部からの操作に応じて前記所在を指定して、前記テキスト表示制御部を取得し、前記取得したテキスト表示制御部を前記記憶部に記憶するステップと、
前記入力部からの操作に応じて前記配信サーバに対し、前記配信サーバのサイトで紹介されているコンテンツの取得要求をし、前記配信サーバから、当該コンテンツを取得する制御と、
前記入力部からの操作に応じて前記音声解析サーバに対し、前記取得したコンテンツに含まれる音声に対して音声のテキスト化要求をし、前記音声解析サーバから前記テキスト化要求の応答結果である音声のテキストを取得するステップと、
前記再生部により前記取得したコンテンツを前記表示部で再生するとともに、前記テキスト表示制御部により前記取得した音声のテキストを前記表示部で表示するステップと、を実行する
ことを特徴とするテキスト表示方法。
【請求項4】
前記端末の制御部は、
前記入力部からの操作に応じて、前記取得したコンテンツに含まれる音声の言語とは別の言語で音声のテキストを取得するように前記テキスト化要求をしたとき、前記音声解析サーバから、前記コンテンツに含まれる音声の言語を前記別の言語に翻訳した音声のテキストを取得するステップと、
前記再生部により前記取得したコンテンツを前記表示部で再生するとともに、前記テキスト表示制御部により、前記別の言語に翻訳した音声のテキストを前記表示部で表示するステップと、を実行する
ことを特徴とする請求項3に記載のテキスト表示方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図6】
image rotate


【公開番号】特開2010−230948(P2010−230948A)
【公開日】平成22年10月14日(2010.10.14)
【国際特許分類】
【出願番号】特願2009−77999(P2009−77999)
【出願日】平成21年3月27日(2009.3.27)
【出願人】(000233538)株式会社 日立東日本ソリューションズ (53)
【Fターム(参考)】