説明

再生装置の動作を制御する方法およびシステム

複数のメディア項目についてメディア・メタデータがアクセス可能である(図12参照)。メディア・メタデータは、メディア項目に関する情報を同定するいくつかのストリングを含む(図12参照)。メディア・メタデータの前記いくつかのストリングには発音メタデータが関連付けられている(図12参照)。発音メタデータの各部分は、ストリングの元の言語で保存される(図12参照)。

【発明の詳細な説明】
【技術分野】
【0001】
〈関係する出願への相互参照〉
本願は、2005年8月19日に出願された、“Method and Apparatus to Control Operation of a Playback Device”と題する米国仮特許出願第60/709,560号の恩恵を主張するものである。その内容全体はここに参照によって組み込まれる。
【0002】
〈技術分野〉
本願は、再生装置の動作を制御する方法および装置に関する。ある実施形態では、当該方法および装置は、音声インターフェースを使ったデジタル・コンテンツの再生、ナビゲーションおよび/または動的プレイリスト化を制御しうる。
【背景技術】
【0003】
携帯電話、携帯メディア・プレーヤー(たとえばMP3プレーヤー)、乗物オーディオおよびナビゲーション・システムといったデジタル再生装置などは、典型的には当該装置の動作を制御するためにユーザーが利用する物理的なコントロールを有している。たとえば、デジタル・オーディオ・プレーヤーに設けられている「再生」「一時停止」または「停止」などといった機能は、選択された機能を可能にするためにユーザーが作動させるスイッチまたはボタンの形である。ユーザーは典型的には、指でボタン(ハードまたはソフト)を押して、任意の所与の機能を選択する。
【発明の開示】
【発明が解決しようとする課題】
【0004】
さらに、装置がユーザーから受け取りうるコマンドは、ハードおよびソフトな物理スイッチを有するユーザー・インターフェースの物理的な大きさによって制限される。たとえば、発話入力および可聴フィードバックを組み込む道路ナビゲーション製品が有することがある、限られた物理的コントロール、表示画面領域およびグラフィカル・ユーザー・インターフェースの洗練では、発話入力および/またはスピーカー出力なしでは簡単な操作が可能でないことがありうる。
【0005】
いくつかの実施形態は、限定ではなく例として、付属の図面において図示される。
【発明を実施するための最良の形態】
【0006】
再生装置の動作を制御する例示的な方法および装置について述べる。たとえば、本方法および装置は、発話(speech)(またはリスナーによる口頭での意思表示)を使ったデジタル・コンテンツの再生、ナビゲーションおよび/または動的プレイリスト化を制御しうる。以下の記述では、説明の目的で、本発明のある実施形態の十全なる理解を提供するために数多くの個別的詳細が述べられる。しかしながら、当業者には、本発明がそうした個別的詳細なしでも実施されうることは明らかであろう。あくまでも例として、デジタル・コンテンツはオーディオ(たとえば音楽)、スチール画像/写真、ビデオ(たとえばDVD)または他のいかなるデジタル・メディアであってもよい。
【0007】
本発明は、例として、デジタル・オーディオを参照して記述されるが、当業者には、本発明が、いかなるデジタル・データまたはコンテンツのレンダリングまたは再生を制御するために利用されてもよいことが認識されるであろう。
【0008】
ここに記載される例示的な諸方法は、数多くの異なる型のシステム上で実装されうる。たとえば、そうした諸方法の一つまたは複数は、記録物を再生する携帯型ユニットに組み込まれてもよいし、あるいは毎分何百という装置からネットワーク(たとえばインターネット)を介して受領される要求を処理する一つまたは複数のサーバーによってアクセスされてもよいし、あるいは単一のデスクトップ・コンピュータまたは構内ネットワークといった何らかの中間物であってもよい。ある例示的な実施形態では、本方法および装置は、デジタル・メディアの再生のための携帯型または移動型メディア装置(たとえば乗物オーディオ・システム、乗物ナビゲーション・システム、乗物DVDプレーヤー、携帯型ハードドライブ・ベースの音楽プレーヤー(たとえばMP3プレーヤー)、携帯電話など)において展開されてもよい。ここに記載される方法および装置は、スタンドアローン装置として展開されてもよいし、あるいは再生装置(携帯型の装置および固定位置のほうが好適な装置、たとえばホーム・ステレオ・システム)に完全に統合されてもよい。
【0009】
ある例示的な実施形態は、データの型と、装置またはアプリケーションに届けられることのできる関連する声(voice)コマンドおよび制御における柔軟性を許容する。ある例示的な実施形態は、オーディオ(audio)をレンダリングするアプリケーションが要求するコマンドだけを届けうる。したがって、本方法および装置を既存の製品において展開する実装者は、自分たちが必要としており、自分たちの特定の製品が必須の機能性(たとえば乗物オーディオ・システムまたはそのようなシステム上で走るアプリケーション、MP3プレーヤーおよび該プレーヤー上で走るアプリケーション・ソフトウェアなど)を実行するために要求する、生成されたデータを使うだけでよい。ある例示的な実施形態では、本装置および方法は、レガシーの自動化発話認識(ASR: automated speech recognition)/テキスト‐スピーチ(TTS: text-to-speech)ソリューションおよび既存のアプリケーション機能とともに、精確な発話認識および音楽メタデータ合成を達成するために動作しうる。
【0010】
先進的なASRおよび/またはTTS技術とともに使われるとき、本装置は装置製造業者が、あらゆる型のデジタル娯楽装置(たとえば、乗物オーディオ・システム、ナビゲーション・システム、移動電話など)において音楽コレクションに、迅速に、ハンズフリーでアクセスすることを可能にする。
【0011】
メディア管理のために使われる発音が、ASRおよびTTSシステムにとって特殊な課題を呈することがありうる。ある例示的な実施形態では、音楽分野固有データを収容することは、データベースサイズのほどほどの増加で達成されうる。増強は主として、アーチスト、アルバムおよび曲名ならびにジャンル、スタイルなどといった他のメディア分野固有用語についての発音転写(phonetic transcription)から生じる。
【0012】
ある例示的な実施形態は、多様なASRおよびTTS機能を容易にするために、装置またはアプリケーションに機能および発音データ(phonetic data)の送達を提供する。これらの機能は、例として上述したようなさまざまな装置およびメディア・データベースとともに使うことができる。ある例示的な実施形態では、メディア・データベースは、オンライン・アクセスをもつシステムについてはリモートでアクセスでき、あるいは常時接続でない装置についてはローカル・データベース(たとえば、組み込みローカル・データベース)を介してアクセスできる。こうして、たとえば、ローカル・データベースは、携帯再生装置のハードディスク・ドライブ(HDD)において提供されうる。
【0013】
ある例示的な実施形態では、追加的なセキュリティ保護されたコンテンツおよびデータがローカルなハードディスク・ドライブに、あるいはオンライン貯蔵所に組み込まれていて、適切な声コマンドを介して、デジタル権利管理(DRM: Digital Rights Management)動作とともにアクセスできてもよい。たとえば、ユーザーは、あるトラックを購入する要求を声で発してもよい。するとそのトラックについてのアクセスがロック解除されうる。するとライセンス・キーおよび/または実際のトラックがローカルにロック解除される、ユーザーにストリーミングされる、ユーザーの装置にダウンロードされるなどできる。
【0014】
ある例示的な実施形態では、本方法および装置は、ジャンル階層、時代/年階層および出自階層といった支援データ構造ならびに関係するアーチスト、アルバムおよびジャンルといった関係データとともに機能しうる。サポートされる声コマンドが目標市場のユーザーの期待と整合するよう、地域または装置固有の階層が読み込まれてもよい。さらに、本方法および装置が一つまたは複数の特定の言語のために構成されてもよい。
【0015】
図1は、メディア・コンテンツの認識のための例示的な高レベルのシステム・アーキテクチャ100を示している。これは、再生制御、ナビゲーション、メディア・コンテンツ検索、メディア・コンテンツ推薦、向上されたメタデータ(たとえば歌詞またはジャケット画像)の読み出しおよび/または送達ならびに/またはメディア・コンテンツの動的プレイリスト化を可能にするためである。アーキテクチャ100は、メディア管理システム106およびアプリケーション層/ユーザー・インターフェース(UI)108と通信する発話認識および合成装置104を含んでいてもよい。
【0016】
発話認識および合成装置104は、発話認識および発話合成を通じてそれぞれ発話入力116を受領し、スピーカー出力114を提供しうる。たとえば、発話合成のためにテキスト‐スピーチ(TTS)エンジン110、発話認識コマンドのために自動化発話認識(ASR)エンジン112を使った再生制御、ナビゲーション、メディア・コンテンツ検索、メディア・コンテンツ推薦、向上されたメタデータ(たとえば歌詞またはジャケット画像)の読み出しおよび/または送達ならびに/またはメディア・コンテンツは、たとえば、送達される発音メタデータ(phonetic metadata)128に基づいてナビゲーション機能(たとえば再生装置上でのコンテンツのブラウズ)を許容しうる。
【0017】
ユーザーは、入力装置(たとえばマイクロホン)を介して発話入力116を提供しうる。該発話入力116は次いでASRエンジン112に供給される。ASRエンジン112の出力はアプリケーション層/UI108に供給され、該アプリケーション層/UI108はメディア管理システム106と通信しうる。メディア管理システム106は、プレイリスト・アプリケーション層122、声動作コマンド(VOC: voice operation commands)層124、リンク・アプリケーション層132およびメディア識別(ID: identification)アプリケーション層134を含む。メディア管理システム106は、今度は、(ローカルまたはオンラインのCDの)メディア・データベース126およびプレイリスト化データベース110と通信しうる。
【0018】
ある例示的な実施形態では、メディアIDアプリケーション層134は、ローカル・ライブラリ・データベース118に保存されているメディア・コンテンツ136の認識プロセスを適正な識別方法(たとえば、テキスト・マッチング、オーディオおよび/またはビデオ・フィンガープリント、コンパクト・ディスクのテーブル・オブ・コンテンツTOCまたはDVDのテーブル・オブ・プログラミング)の使用によって実行するために使われうる。メディア・メタデータ130を関係するメディア・コンテンツ136と持続的に関連付けるためである。
【0019】
アプリケーション層/ユーザー・インターフェース108は、ユーザーおよび/または組み込みアプリケーション(たとえば再生装置内の)から受領された通信を処理しうる。一方、メディア・プレーヤー102が、ユーザーと前記組み込みアプリケーションとの間のテキストおよび/またはグラフィックの通信を受領および/または提供しうる。
【0020】
ある例示的な実施形態では、メディア・プレーヤー102は、ソフトウェアおよび/またはハードウェアの組み合わせであってもよく、次のうちの一つまたは複数であってもよい:コントロール、ポート(たとえばユニバーサル・シリアル・ポート(universal serial port))、ディスプレイ、記憶装置、CDプレーヤー、DVDプレーヤー、オーディオ・ファイル、記憶装置(たとえばリムーバブルおよび/または固定)、ストリーミングされたコンテンツ(たとえばFMラジオおよび衛星ラジオ)、記録機能および他のメディア。ある例示的な実施形態では、組み込みアプリケーションは、メディア・プレーヤー102とのインターフェースをもってもよく、それにより組み込みアプリケーションはメディア・プレーヤー102の機能性にアクセスし、および/またはこれを制御してもよい。
【0021】
ある例示的な実施形態では、発音メタデータ128のサポートは、メディアIDアプリケーション層134において、メディア・データ構造内に発音メタデータ128を含めることによって提供されうる。たとえば、CD探索が成功し、メディア・メタデータ130(たとえばアルバム・データ)が返されるとき、すべての発音メタデータ128は自動的にメディア・データ構造内に含められる。
【0022】
プレイリスト・アプリケーション層122は、プレイリスト化データベース110内のプレイリストの生成および/または管理を可能にしうる。たとえば、プレイリストは、メディア・データベース126とともに含まれうるようなメディア・コンテンツを含みうる。
【0023】
図のように、メディア・データベース126は、メディア・メタデータ130を含みうる。これは発音メタデータ128を含むよう向上されうる。ある例示的な実施形態では、既存の発話認識および/または発話合成システムにおける何らかの不十分さに対応するために幅広いカバー範囲の発音メタデータ128を提供するために、編集プロセスが利用されてもよい。たとえば、個別に生成された発音データ128を直接、メディア・メタデータ130と明示的に関連付けることによって、該関連付けは、簡単に発音されない、誤って発音される、ニックネームをもつ、またはスペリング通りに発音されないアーチスト、アルバムおよびトラック名といったメディア・メタデータ130を効率的に処理できない既存の発話認識および/または発話合成システムを補佐しうる。
【0024】
ある例示的な実施形態では、メディア・メタデータ130は、再生制御、ナビゲーション、メディア・コンテンツ検索、メディア・コンテンツ推薦、向上されたメタデータ(たとえば歌詞またはジャケット画像)の読み出しおよび/または送達ならびに/またはメディア・コンテンツの動的プレイリスト化のためのメタデータを含んでいてもよい。
【0025】
発音メタデータ128は、諸機能が、あるソリューションの他の構成要素とともに機能できるようにするために、発話認識および発話合成システム104によって使われてもよく、持続的なインターネット接続のない装置、インターネット接続のある装置、パソコン・アプリケーションなどにおいて使われてもよい。
【0026】
ある例示的な実施形態では、メディア・データベース126の発音メタデータ128から導出される一つまたは複数の発音辞書が、部分的にまたは全体的に、クリアー・テキストの形または別のフォーマットで生成されてもよい。ひとたび完成された発音辞書は、発話認識および合成装置104とともに使うために、組み込みアプリケーションによって提供されるか、あるいは、発話認識および合成装置104によってすでに使われている既存の辞書にアペンドされうる。
【0027】
ある例示的な実施形態では、複数の辞書がメディア管理システム106によって生成されてもよい。たとえば、貢献者(アーチスト)発音辞書およびジャンル発音辞書が、発話認識および合成装置104による使用のために生成されてもよい。
【0028】
図2を参照すると、例示的なメディア認識および管理システム200が図示されている。ある例示的な実施形態では、前記メディア認識および管理システム106(図1参照)がメディア認識および管理システム200を含んでいてもよい。
【0029】
メディア認識および管理システム200は、オペレーティング・システム(OS)204に結合されたプラットフォームを含みうる。プラットフォーム202は、ハードウェアおよび/またはソフトウェアでの、ソフトウェアの実行を可能にする枠組みであってもよい。オペレーティング・システム204は、データ通信206と通信していてもよく、さらにOS抽象化層208と通信してもよい。
【0030】
OS抽象化層208は、メディア・データベース210、更新データベース212、キャッシュ214およびメタデータ・ローカル・データベース216と通信していてもよい。メディア・データベース210は、一つまたは複数のメディア項目218(たとえば、CD、デジタル・オーディオ・トラック、DVD、映画、写真など)を含みうる。メディア項目は次いでメディア・メタデータ220および発音メタデータ222に関連付けられてもよい。ある例示的な実施形態では、元の記録(参照記録)のフィンガープリントに基づいて元の記録の修正されたコピーを同定するために、十分堅牢な参照フィンガープリント・セットが生成されてもよい。
【0031】
ある例示的な実施形態では、キャッシュ214は、データを保存するために使われるコンピューティング・システムまたは装置上のローカル記憶装置であってもよく、メディア認識および管理システム200において、将来の問い合わせを高速化しうるよう最近問い合わせされた結果を保存することにおいて支援するために、ファイル・ベースのキャッシング機構を提供するために使われてもよい。
【0032】
ユーザーのコレクションにあるメディア項目218のためのプレイリスト関係データが、メタデータ・ローカル・データベース216内に保存されてもよい。ある例示的な実施形態では、メタデータ・ローカル・データベース216はプレイリスト化データベース(図1参照)を含んでいてもよい。メタデータ・ローカル・データベース216は、プレイリスト結果セットを生成するためのプレイリスト・マネージャ230の指揮によるプレイリスト生成232の実行の間に必要とされるすべての情報を含んでいてもよい。プレイリスト化生成232は、プレイリスト・アプリケーション・プログラミング・インターフェース(API)236を通じてインターフェースをもたされてもよい。
【0033】
メディア認識および管理システム200における探索(lookup)は、OS抽象化層208と探索サーバー222との間の通信を通じて可能にされうる。探索サーバー222は、探索を実施するために、更新マネージャ228、暗号化/復号モジュール224および圧縮モジュール226と通信していてもよい。
【0034】
メディア認識モジュール246は、更新マネージャ228および探索サーバー222と通信してもよく、メディア・データベース210からのメディア項目218に関連付けられたメディア・メタデータ220にアクセスすることなどによってメディアを認識するために使われてもよい。ある実施形態では、コンパクト・ディスク(オーディオCD)および/または他のメディア項目218は、テーブル・オブ・コンテンツ(TOC)情報またはオーディオ・フィンガープリントを使うことによって認識(または同定)できる。ひとたびTOCまたはフィンガープリントが利用可能となれば、アプリケーションまたは装置は、そのCDまたはその他のメディア・コンテンツのためのメディア項目218を見つけ出して、メディア・データベース210からメディア・メタデータ220を取得することができる。認識されたメディア項目218について発音データ222が存在している場合、それは、X-SAMPAのような発音転写言語において利用可能にされてもよい。メディア・データベース210は、ローカルに存在してもよく、ネットワーク接続を通じてアクセス可能であってもよい。ある例示的な実施形態では、発音転写言語は、精確な発音転写(phonetic transcription)(発話音のテキスト記号による表現)のために考案されたキャラクタ集合であってもよい。ある例示的な実施形態では、拡張SAM発音記号(Extended Speech Assessment Methods Phonetic Alphabet)(X-SAMPA)が、国際発音記号(International Phonetic Alphabet)をASCII記号で精密にモデル化するために考案された発音転写言語でありうる。
【0035】
コンテンツIDの送達モジュール224は、コンテンツの識別情報を、リンクAPI238に直接送達しうる。一方、VOC API242は認識メディア・モジュール226およびメディアID API240と通信しうる。
【0036】
図3を参照すれば、再生装置の動作を制御する例示的な発話認識および合成装置300が図示されている。ある例示的な実施形態では、発話認識および合成装置104(図1参照)が発話認識および合成装置300を含んでいてもよい。発話認識および合成装置300は、ASR/TTSシステムを含んでいてもよい。
【0037】
ASRエンジン112は、発話認識モジュール314、316、318、320を含んでいてもよい。発話認識モジュールは、メディア・メタデータ130のほか、メディア管理システム106によってサポートされるすべてのコマンドを知っていてもよく、コマンドの認識に際して、発話認識エンジン112は適切なコマンドを関連するハンドラに送ってもよい(図1参照)。たとえば、あるプレイリスト化アプリケーションが本実施形態に付随しているとすると、ASRエンジン112は、そのプレイリスト化アプリケーションに、次いでアプリケーション層/UI108(図1参照)に適切なコマンドを送ってもよい。該アプリケーション層/UIが次いで要求を実行しうる。
【0038】
ひとたび発話認識および合成装置300が適切なデータ(たとえば音楽分野のためにカスタマイズされた発音メタデータ128、222)をもって構成されると、発話認識および合成装置300は、構成のベースとされたその特定の分野に関連付けられた声コマンドに応答する準備ができうる。発音メタデータ128はまた、それが常駐するその特定の装置と関連付けられてもよい。たとえば、その装置が再生装置であれば、発音データは、「再生」「もう一度再生」「停止」「一時停止」などといったコマンドに対応するようカスタマイズされてもよい。
【0039】
TTSエンジン110(図1参照)は、発話合成モジュール306、308、310、312を含みうる。発話合成要求を受領すると、クライアント・アプリケーションが、発話出力されるべきコマンドを、TTSエンジン110に送りうる。発話合成モジュール306、308、310、312はまず、発話出力されるべきテキスト・ストリングを、その関連付けられた辞書(単数または複数)において探索しうる。辞書内でみつかったテキスト・ストリングのこの発音表現が、TTSエンジン306によって取り入れられてもよく、テキスト・ストリングの発音表現が発話出力されうる(たとえば、そのテキスト・ストリングのスピーカー出力302を生成する)。
【0040】
ある例示的な実施形態では、ASR文法318が、すべての発音メタデータ128、222およびコマンドを含む辞書を含みうる。「演奏アーチスト」「これと似たものをもっと」「これは何?」といったコマンドが定義されうるのはここである。
【0041】
ある例示的な実施形態では、TTS辞書310は、すべての事前定義された発音を含む、バイナリーまたはテキストのTTS辞書310であってもよい。たとえば、TTS辞書310は、アプリケーション・データベース内の認識されたコンテンツについてのメディア・データベースからのすべての発音メタデータ128、222を含みうる。TTS辞書310は必ずしも、TTSシステムが発音できるすべての可能な語や句を保持する必要はない。この辞書にない語は、G2Pを介して扱ってもよいからである。
【0042】
コンテンツ認識ならびに発話認識および合成装置300の更新実行後、ユーザーは、発話認識および/または発話合成のためのコマンドを実行できてもよい。しかしながら、該機能性は他の適切な仕方で実行されてもよく、上記に制限されないことは認識されるであろう。たとえば、音楽分野について好適であり、インターネットまたは他の任意の通信チャネルを介して更新されうる適切な発音メタデータ128、222が再生装置に事前ロードされていてもよい。
【0043】
発話認識および合成装置300がX-SAMPAをサポートする例示的な実施形態では、発音メタデータ128、222はそのままで提供される。しかしながら、発話認識および合成装置300が異なる発音表記言語(phonetic language)のデータを求める実施形態では、装置300は、X-SAMPAから、ある選択された発音表記言語に変換するためのキャラクタ・マップを含んでいてもよい。
【0044】
発話認識および合成装置300は、たとえば次のように再生装置を制御しうる:発話入力304はオーディオ入力(たとえばマイクロホン)に話されたコマンド(たとえばユーザーによる口頭の意思表示)であってもよい。それにより、ユーザーが該コマンドを話すと、対応する発話がASRエンジン314にはいっていってもよい。ここで、ユーザーの発話のデジタル読み出しを生成するよう、ピッチおよびトーンといった音声特徴が抽出されうる。この段階後、ASRエンジン314は諸特徴を、認識のために、発話認識および合成装置300の検索部に送りうる。検索段階において、ASRエンジン314は話されたコマンドから抽出した特徴を、該エンジンのコンパイルされた文法(たとえば、参照コマンドのデータベース)における実際のコマンドと照合する。文法は、個別の実施形態に固有な発音データ128、222を含んでいてもよい。ASRエンジン314は、所与のまたは選択された言語についての発話の平均的な特性のガイドとして音響(acoustic)モデルを使ってもよい。それが、発音メタデータ128、222の発話との照合を許容する。ここで、ASRエンジン314は、コマンドに一致または「失敗」のメッセージを返しうる。
【0045】
ある例示的な実施形態では、所与の個人の話されたコマンドを、より高い精度(たとえば、分野固有コマンドを認識する際のより高い精度)を提供するようよりよく理解するために発話認識および合成装置300をトレーニングするために、ユーザー・プロファイルを利用してもよい。これは、ユーザーが特定のテキスト・ストリングの組を発話認識および合成装置300に向かって話すことによって達成されてもよい。特定のテキスト・ストリングはあらかじめ定義されており、ASRシステム開発者によって提供されるものである。たとえば、該テキスト・ストリングは音楽分野に固有であってもよい。
【0046】
ひとたびコマンドに一致が見出されたら、ASRエンジン314は結果を生成し、組み込みアプリケーションにコマンドを送りうる。すると組み込みアプリケーションは該コマンドを実行できる。
【0047】
TTSエンジン306は、テキスト・ストリング(または発音表記ストリング)を取り入れ、それを処理して発話にする。TTSエンジン306は、テキスト・コマンドを受領し、たとえばG2Pソフトウェアを使うかあらかじめコンパイルされたバイナリー辞書(提供される発音メタデータ128、222を具備する)を検索することによって、該ストリングを処理しうる。TTS機能性が特定の分野(たとえば音楽分野)に合わせてカスタマイズされてもよいことは理解されるであろう。TTS結果は、該ストリングを「話し」うる(テキストに対応するスピーカー出力302を生成する)。
【0048】
ある例示的な実施形態では、メタデータとともに、典型的な声コマンドおよび制御機能のリストが提供されてもよい。これらの声コマンドおよび制御機能は、ランタイムでの再コンパイルのために、初期化の際に、あるいは開発の間に、デフォルト文法に追加されてもよい。例示的なコマンドおよび制御機能(サポートされる機能)のリストが以下に与えられる。
【0049】
ある実施形態では、発話認識のために文法が使用および更新されうる一方、バイナリー辞書またはテキスト辞書が発話合成のために必要とされることがありうる。TTSエンジン306にはいかなるテキスト・ストリングが渡されてもよい。TTSエンジン306は、そのストリングを、G2PおよびTTS辞書310によってそのために提供される発音を使って話す。
【0050】
ある例示的な実施形態では、発話認識および合成装置300は、書記素‐音素(G2P: Grapheme to Phoneme)変換をサポートしうる。これは、G2Pモジュール(単数または複数)を通じて表示テキストをその関連する発音転写に動的かつ自動的に変換しうる。G2P技術は、入力としてアプリケーションによって提供されるプレーン・テキストを取り、自動発音転写を生成する。
【0051】
ユーザーはたとえば、音楽コンテンツの基本的な再生をASR技術によって声を介して制御するが、該ASR技術は、組み込まれた装置内、あるいは認識、管理、ナビゲーション、プレイリスト化、検索、推薦および/またはサードパーティー技術へのリンクを含む、当該装置のためのバンドル製品付属でありうる。
【0052】
たとえば、発話認識および合成装置300を使って、ユーザーは、ジャンル、時代、年、地域、アーチスト種別、テンポ、毎分拍数、ムードなどといった複数の基準を使って動的に自動プレイリストを生成してもよく、あるいは簡単な話されたコマンドをもってシード・ベースの自動プレイリストを生成し、似た音楽のプレイリストを生成することができる。ある例示的な実施形態では、すべての基本的な再生コマンド(たとえば、「再生」「次」「戻る」など)は、声コマンドを介して実行されうる。さらに、テキスト‐スピーチは「これと似たものをもっと」または「これは何?」のようなコマンドあるいは他のいかなる分野固有コマンドを提供してもよい。よって、発話認識および合成装置300が、声コマンドを使ってオーディオ再生装置のような再生装置に提供されうる型および範囲のコマンドを容易にし、向上させることができることが理解されるであろう。
【0053】
本装置によってサポートされうる例示的な声コマンドの例を含むテーブルを下記に示す。
【0054】
【表1】

【0055】
【表2】

【0056】
【表3】

【0057】
【表4】

図4を参照すると、例示的なメディア・データ構造400が示されている。ある例示的な実施形態では、メディア・データ構造400は、メディア項目218(図1および図2参照)のようなメディア・コンテンツのための、メディア・メタデータを表すために使用されうる。メディア・データ構造400は、メディア・タイトル配列402をもつ第一のフィールド、主要アーチスト配列404をもつ第二のフィールドおよびトラック配列406をもつ第三のフィールドを含みうる。
【0058】
メディア・タイトル配列402は、あるメディア・タイトル(たとえば、アルバムのタイトル、映画のタイトルおよびテレビ番組のタイトル)の公式な表現および一つまたは複数の代替表現を含みうる。主要アーチスト名配列404は、主要アーチスト名(たとえば、バンドの名前、制作会社の名前および主要俳優の名前)の公式な表現および一つまたは複数の代替表現を含みうる。トラック配列406は、前記メディア・タイトルについての一つまたは複数のトラック(たとえば、アルバムのデジタル・オーディオ・トラック、テレビ番組のエピソードおよび映画の中の場面)を含みうる。
【0059】
例として、メディア・タイトル配列402は、「Led Zeppelin IV」、「Zoso」および「無題」を含んでいてもよく、主要アーチスト名配列404は「Led Zeppelin」および「The New Yardbirds」を含んでいてもよく、トラック配列406は、「Black Dog」、「Rock and Roll」、「The Battle of Evermore」、「Stairway to Heaven」、「Misty Mountain Hop」、「Four Sticks」、「Going to California」および「When the Levee Breaks」を含んでいてもよい。
【0060】
ある例示的な実施形態では、メディア・データ構造400は、オンラインまたはローカルでの探索成功イベントを通じて取得されうる。たとえば、メディア・ベースの探索(たとえば、CDベースの探索およびDVDベースの探索)は、メディア項目上のあらゆるトラックについての情報を提供するメディア・データ構造400を返しうる。一方、ファイル・ベースの探索は、認識されたトラックについてのみ情報を提供するメディア・データ構造400を返しうる。
【0061】
図5を参照すると、例示的なトラック・データ構造500が示されている。ある例示的な実施形態では、トラック配列406(図4参照)の各要素がトラック・データ構造500を含みうる。
【0062】
トラック・データ構造500は、トラック・タイトル配列502をもつ第一のフィールドおよびトラック主要アーチスト名配列504をもつ第二のフィールドを含みうる。トラック・タイトル配列502は、トラック・タイトルの公式な表現および一つまたは複数の代替表現を含みうる。トラック主要アーチスト名配列504は、該トラックの主要アーチスト名の公式な表現および一つまたは複数の代替表現を含みうる。
【0063】
図6を参照すると、例示的なコマンド・データ構造600が示されている。コマンド・データ構造600は、コマンド配列602をもつ第一のフィールドおよびプロバイダ名配列604をもつ第二のフィールドを含みうる。ある例示的な実施形態では、コマンド・データ構造600は、発話認識および合成装置300(図3参照)とともに使われる声コマンドのために使用されうる。
【0064】
コマンド配列602は、コマンド(たとえば、ナビゲーション制御およびプレイリストに対する制御)の公式な表現および一つまたは複数の代替表現を含みうる。プロバイダ名配列604は、該コマンドのプロバイダの公式な表現および一つまたは複数の代替表現を含みうる。たとえば、コマンドは、ナビゲーション、プレイリスト化(たとえば、音楽の一つまたは複数のプレイリストの生成および/または使用)、再生制御(たとえば再生および停止)などを可能にしうる。
【0065】
図7を参照すると、例示的なテキスト配列データ構造700が示されている。ある例示的な実施形態では、メディア・タイトル配列402および/または主要アーチスト配列404(図4参照)がこのテキスト配列データ構造700を含みうる。ある例示的な実施形態では、トラック・タイトル配列502および/またはトラック主要アーチスト名配列504(図5参照)がこのテキスト配列データ構造700を含みうる。ある例示的な実施形態では、コマンド配列602および/またはプロバイダ名配列604(図6参照)がこのテキスト配列データ構造700を含みうる。
【0066】
例示的なテキスト配列データ構造700は、公式表現フラグ702をもつ第一のフィールド、表示テキスト704をもつ第二のフィールド、書記言語(written language)識別情報(ID)706をもつ第三のフィールドおよび発音転写配列708をもつ第四のフィールドを含みうる。
【0067】
公式表現フラグ702は、そのテキスト配列データ構造700について、そのテキスト配列データ構造700が前記発音転写の公式表現(たとえば公式な発音転写)を表しているか、前記発音転写の代替表現(たとえば代替的な発音転写)を表しているかを示すフラグを提供しうる。たとえば、フラグは、あるタイトルまたは名前が公式な名前であることを示しうる。
【0068】
ある例示的な実施形態では、公式な発音転写は、テキスト・ストリングの正しい発音の発音転写でありうる。ある例示的な実施形態では、代替的な発音転写は、テキスト・ストリングの一般的な誤発音または代替的な発音でありうる。代替的な発音転写は、ユーザーのミスによって起こりうるようなテキスト・ストリングの一般的な非標準発音の発音転写(たとえば誤った発音の発音転写)を含んでいてもよい。代替的な音声転写はまた、地域的な言語、地方の方言、地元の慣習の多様性および/または正しい発音についての明確さが一般に欠けていることに起因して生じるテキスト・ストリングの一般的な非標準発音の発音転写(たとえば代替的な発音の発音転写)を含んでいてもよい。
【0069】
ある例示的な実施形態では、公式表現は、公式に発表されたメディアに現れるテキストに一般に関連付けられるか、および/または編集上決定されるかしうる。たとえば、公式なアーチスト名、アルバム・タイトルおよびトラック・タイトルは、通常、頒布されたメディアの元のパッケージングに見出されうる。ある例示的な実施形態では、アーチストが経歴の間に公式名を変えた場合、公式表現は単一の正規化された名前でありうる(たとえばPriceおよびJohn Mellencamp)。
【0070】
ある例示的な実施形態では、代替表現は、アーチスト名、アルバム・タイトル、トラック・タイトル、ジャンル名、アーチスト出身地およびアーチスト時代記述に関連付けられうるような、ニックネーム、短縮名、一般的な略語などを含みうる。のちにより詳細に述べるように、各代替表現は、表示テキストおよび任意的に一つまたは複数の発音転写を含みうる。ある例示的な実施形態では、発音転写は、話される人間言語において生起する音の記号化のテキスト表示であってもよい。
【0071】
表示テキスト704は、人間の読み手に対する表示のために好適であるテキスト・ストリングを示しうる。表示テキスト704の例は、アーチスト名、アルバム・タイトル、トラック・タイトル、ジャンル名などに関連付けられた表示ストリングを含む。
【0072】
書記言語ID706は任意的に、表示テキスト704の元の書記言語を指示しうる。例として、書記言語ID706は、「Los Lonely Boys」の表示テキストがスペイン語であることを指示しうる。
【0073】
発音転写配列708は、さまざまな発話言語(spoken language)(アメリカ英語、イギリス英語、カナダ・フランス語、スペイン語および日本語)における発音転写を含みうる。発音転写配列708内に表現される各言語は、公式発音の発音転写および一つまたは複数の代替発音の発音転写を含みうる。
【0074】
ある例示的な実施形態では、発音転写配列708またはその一部は、メディア・データベース126、210内に発音メタデータ128、222として保存されうる。
【0075】
ある例示的な実施形態では、発音転写配列708の発音転写は、X-SAMPAアルファベットを使って保存されてもよい。ある例示的な実施形態では、発音転写はL&H+のような別の発音表記アルファベットに変換されてもよい。特定の発音表記アルファベットのサポートは、ソフトウェア・ライブラリ・ビルド構成の一部として提供されうる。
【0076】
表示テキスト704は、辞書を生成することによって、発音転写配列708の公式発音転写および代替発音転写に関連付けられうる。生成された辞書は、認識イベントに先行して、発話認識および合成装置300(図3参照)によって提供され、使用されうる。ある例示的な実施形態では、表示テキスト704および対応する発音転写は、認識イベントの発生に際して提供されうる。
【0077】
発音メタデータ128、222についてのごく一般的に誤発音されるストリングの代替発音または発音異形の発音転写が提供されてもよい。代替発音または発音異形は、書記素‐音素技術を使って数多くのプレーンテキスト・ストリングを扱うよう自動化発話認識エンジン112を適応させるために使用されうる。しかしながら、認識は、若干の顕著な例外については問題となりうる(たとえば、Shade[シャーデー]、Beyonce[ビヨンセ]、AC/DC、311、B-52s、R.E.M.など)。追加的または代替的に、ある実施形態は、ユーザーがよく誤発音する名前についての発音異形を含んでいてもよい。たとえば、Sade[シャーデー](たとえば「セイド」
【外1】
【0078】


と誤発音される)、Beyonce(たとえば「ビヨンス」
【外2】
【0079】


と誤発音される)およびBrian Eno(たとえば「エーノ」
【外3】
【0080】


と誤発音される)のようなアーチストである。
【0081】
ある例示的な実施形態では、あるアーチストを呼ぶときに使いうる代替名の発音表現が提供され、通例ASRシステムに見出される厳格さを下げる。たとえば、「アーチスト:フランク・シナトラ(Frank Sinatra)を再生」「アーチスト:オール・ブルー・アイズ(Ol' Blue Eyes)を再生」「会長(The Chairman of the Board)を再生」といったコマンドがみな等価であるように、コンテンツを編集できる。
【0082】
一連の例として、第一の使用事例は、ビーチ・ボーイズについてありうる。ビーチ・ボーイズは、「ビーチ・ボーイズ」と言う英語の一つの発音転写を有しうる。第二の使用事例(たとえば、ニックネームについて)は、エルビス・プレスリーについてでありうる。プレスリーはその名前にニックネーム、すなわち「ザ・キング」または「キング・オブ・ロックンロール」が関連付けられている。ニックネームのストリングそれぞれは、別個のテキスト配列データ構造700を有し、それに付随する発音転写配列708内に公式な発音転写を有していてもよい。第三の使用事例(たとえば、複数の発音について)は、Eisley Brothersについてでありうる。Eisley Brothersは発音転写配列708内に、Eisley Brothersについての第一の公式な発音転写およびIsley Brothersについての第二の誤発音転写をもつ単一のテキスト配列データ構造700を有しうる。
【0083】
上の例を続けると、第四の使用事例(たとえば、複数言語について)は、スペイン語での発音転写をもつアーチストLos Lobosを有しうる。メディア・データベース126内の発音メタデータ128はスペイン語で保存されてもよく、発音転写はスペイン語で保存され、しかるべくタグ付けされてもよい。第五の使用事例(たとえば、ニックネームおよび地域化された例外における外国語について)は、エルビス・プレスリーの中国での「Mao Wong」というニックネームのような、外国語のニックネームを含みうる。ニックネームについての発音転写は、Mao Wongとして保存されてもよく、該発音転写は中国語に関連付けられてもよい。第六の使用事例(たとえば、誤発音地域化された例外)は、ACDCについてでありうる。AC/DCは関連付けられた英語での公式転写をもち、それはAC/DCでありうるが、話される言語がフランス語であるときはACDCについてのフランス語の転写が提供されることになる。
【0084】
図8を参照すると、例示的な発音転写データ構造800が示されている。ある例示的な実施形態では、発音転写配列708(図7参照)の各要素が発音転写データ構造800を含みうる。たとえば、発音転写は、発音転写データ構造800を含みうる。
【0085】
発音転写データ構造800は、発音転写ストリング802をもつ第一のフィールド、発話言語ID804をもつ第二のフィールド、元の言語転写フラグ806をもつ第三のフィールドおよび正しい発音フラグ808をもつ第四のフィールドを含みうる。
【0086】
発音転写ストリング802は、発音のために使われる発音キャラクタのテキスト・ストリングを含みうる。たとえば、発音転写ストリング802は、ASR/TTSシステムによって使用されるのに好適でありうる。
【0087】
ある例示的な実施形態では、発音転写ストリング802はネイティブな発話言語(たとえば、発音転写ストリング802の元の言語)でメディア・データベース126に保存されうる。
【0088】
ある例示的な実施形態では、発音キャラクタのストリングのために使われるアルファベットは、一般的な発音表記言語(たとえばX-SAMPA)において保存されてもよく、それがASRおよび/またはTTSシステム固有の文字コードに翻訳されてもよい。ある例示的な実施形態では、発音キャラクタのストリングのために使われるアルファベットはL&H+でもよい。
【0089】
発話言語ID804は、任意的に、発音転写ストリング802の元の発話言語を指示してもよい。たとえば、発話言語ID804は、発話転写ストリング802に取り込まれているのが、その発話言語ID804によって同定される言語の話者が関連付けられた表示テキスト704(図7参照)をどのように発音するかであることを示しうる。
【0090】
元の言語転写フラグ806は、その転写が、表示テキスト704(図7参照)の書記言語ID706に対応するかどうかを示しうる。ある例示的な実施形態では、発音転写が表示テキスト704と同じ言語であるとき、発音転写は元の言語(たとえば、そのストリングが発話されるであろう言語)でありうる。
【0091】
正しい発音フラグ808は、発音転写ストリング802が、発話言語IDによって同定される発話言語における正しい発音を表しているかどうかを示しうる。
【0092】
ある例示的な実施形態では、正しい発音とは、ある発音が、ある所与の言語の話者によって一般に正しいとして受け容れられているときのものである。単一の表示テキスト704について複数の正しい発音が存在することもありうる。ここで、そのような発音のそれぞれが、ある所与の発話言語における「正しい」発音を表す。たとえば、「AC/DC」についての英語での正しい発音の発音転写(エイ・シー・ディー・シー)は、「AC/DC」のフランス語での正しい発音についての発音転写(アー・セー・デー・セー)とは異なっていることがありうる。
【0093】
ある例示的な実施形態では、誤発音とは、ある発音が、ある所与の言語の話者によって一般に誤発音として受け容れられているときのものである。単一の表示テキスト704について複数の誤発音が存在できる。ここで、そのような発音のそれぞれが、ある所与の発話言語における誤発音を表しうる。たとえば、誤発音が十分一般的で、ユーザーがその発音をすることが比較的ありそうである場合には、その誤発音の発音転写が組み込みアプリケーションに提供されてもよい。
【0094】
ある例示的な実施形態では、ある表現(たとえば、アーチスト名、メディア・タイトルなど)についての目標発話言語における諸発音転写(たとえば、正しい発音および誤発音についての)を取得するために、ある表現の発音転写配列708(図7参照)が横断され(traversed)、目標発音転写ストリング802が取得され、各発音転写の正しい発音フラグ808が問い合わされてもよい。
【0095】
ある例示的な実施形態では、表示テキスト704、発音転写配列708の発音転写および任意的に発話言語ID804を含むメディア・データ構造400からのデータが使用され、発話認識および合成装置300(図3参照)のための文法318および辞書310(および任意的には他の辞書)に中身を入れてもよい。
【0096】
図9を参照すると、例示的な代替句マッピング器データ構造900が示されている。代替句マッピング器データ構造900は、代替句902をもつ第一のフィールド、公式句配列904をもつ第二のフィールドおよび句種別906をもつ第三のフィールドを含みうる。代替句マッピング器データ構造900は、代替句マッピング器をサポートするために使用されうる。その使用についてはのちに詳細に述べる。
【0097】
代替句902は、公式句に対する代替句を含みうる。ここで、句とは、アーチスト名、メディアまたはトラック・タイトル、ジャンル名、(アーチスト種別、アーチスト出身地またはアーチストの時代の)記述などを指しうる。公式句配列904は、代替句902に対応する一つまたは複数の公式句を含みうる。
【0098】
たとえば、代替句は、公式名をもつ人物、アルバム、曲、ジャンルまたは時代を表すと普通に知られている、ニックネーム、短縮名、略語などを含みうる。貢献者代替名は、ニックネーム、短縮名、長い名前、出生名、頭字語およびイニシャルを含みうる。ジャンル代替名は、公式名が「R&B」である場合の「リズム・アンド・ブルース」を含みうる。たとえばアーチスト名、アルバム・タイトル、トラック・タイトル、ジャンル名および時代記述のそれぞれは、その公式表現(たとえば、代替句のための公式な発音転写)とは別に、潜在的に、一つまたは複数の代替表現(たとえば、代替句のための代替的な発音転写)を有しうる。
【0099】
ある例示的な実施形態では、代替句のための発音転写は、別の名前(たとえば、ニックネーム、略語または出生名)に言及するためのある代替的な名前を表すテキスト・ストリングの発音転写でありうる。
【0100】
ある例示的な実施形態では、代替句マッピング器は、別個のデータベースを使ってもよい。その際、探索成功のたびに、代替句マッピング器データベースは、代替句(返されたメディア・データに存在していれば)を公式句にマッピングする代替句マッピング器データ構造900をもって、自動的に中身が入れられうる。
【0101】
ある例示的な実施形態では、代替句のための発音転写は、辞書(たとえば、貢献者発音辞書および/またはジャンル発音辞書)として、発話認識および合成装置300の辞書エントリー320内に保存されうる(図3参照)。それによりユーザーは、公式句の代わりに代替句を入力として話すことが可能になる。辞書の使用は、ASRエンジン314が、話された入力116を、辞書のうちの一つからの正しい表示テキスト704(図7参照)と対応付けることを可能にしうる。次いで、ASRエンジン314からのテキスト・コマンド316は、さらなる処理のために、VOCアプリケーション層124および/またはプレイリスト・アプリケーション層122などに提供されうる(図1および図3参照)。
【0102】
句種別906は、メディア・データ構造400(図4参照)に対応しうるような句の種別を含みうる。たとえば、句種別906の値は、アーチスト名、アルバム・タイトル、トラック・タイトルおよびコマンドを含みうる。
【0103】
図10を参照すると、ある例示的な実施形態に基づくデータベース上で発音メタデータ128、222を管理するための方法1000が示されている。ある例示的な実施形態では、該データベースはメディア・データベース126、210(図1および図2参照)を含みうる。
【0104】
ブロック1002でデータベースがアクセスされうる。判断ブロック1004では、発音メタデータ128、222が変更されるかどうかについての判定がなされうる。発音メタデータ128、222が変更される場合、発音メタデータ128、222はブロック1006で変更される。発音メタデータ128、222を変更するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1004で発音メタデータ128、222が変更されない場合、あるいはブロック1006の後、本方法1000は、判断ブロック1008に進みうる。
【0105】
判断ブロック1008では、データベースからメタデータ(たとえば、発音メタデータ128、222および/またはメディア・メタデータ130、220)が提供されるべきかどうかについての判定がなされうる。
【0106】
メタデータが提供されるべきである場合、該メタデータはブロック1010でデータベースから提供される。ある例示的な実施形態では、メタデータの提供は、ローカル・ライブラリ・データベース118(図1参照)に当該データのための要求されたメタデータを提供することを含みうる。
【0107】
ある例示的な実施形態では、地域的な発音転写のための発音メタデータ128がデータベースから、および/またはデータベースに提供されてもよく、目標地域のネイティブな発話言語において保存されてもよい。
【0108】
ある例示的な実施形態では、ブロック1010でのメタデータの提供は、組み込みアプリケーションの音楽ライブラリを解析して、アクセス可能なデジタル・オーディオ・トラックを判別し、発話認識および合成装置300(図3参照)での貢献者/アーチスト発音辞書および汎用発音辞書を生成することを含みうる。たとえば、所与のアプリケーションのためにサポートされうるすべての関連する発話言語について発音メタデータ128、222が受領され、ブロック1010での組み込みアプリケーションによる使用のために保存されうる。
【0109】
判断ブロック1008でメタデータが提供されない場合、あるいはブロック1010の後、本方法1000は、終了するかどうかを判定するために判断ブロック1012に進みうる。本方法1000が動作を続ける場合、本方法1000は判断ブロック1004に戻りうる。そうでない場合には、本方法1000は終了しうる。
【0110】
ある例示的な実施形態では、メタデータは、認識イベントが起こるときは常に、ブロック1010でリアルタイムで提供されうる。認識イベントの生起はたとえば、組み込みアプリケーションを走らせている装置中へのCDの挿入、該組み込みによるアクセスのためのファイルのアップロード、音楽ナビゲーションのためのコマンド・データの取得などによる。ある例示的な実施形態では、発音メタデータ128、222を動的に提供することは、組み込みアプリケーション内でデータを照合するための検索時間を短縮しうる。
【0111】
ある例示的な実施形態では、代替句マッピング器によって使われる代替句データが同じようにして、ブロック1010で発音メタデータ128、222として提供されうる。たとえば、代替句データは、自動的に、探索成功によって返されるメディア・メタデータ130、220の一部でありうる。
【0112】
図11を参照すると、ある例示的な実施形態に基づく、データベースの発音メタデータを変更する方法1100が示されている。方法1100は、ブロック1002(図10参照)で実行されうるものである。ある例示的な実施形態では、データベースはメディア・データベース126、210(図1および図2参照)を含みうる。ブロック1102でストリングがアクセスされうる。該ストリングはたとえば、メディア・メタデータ220のフィールド内に含まれている複数のストリングのうちのストリングである。ある例示的な実施形態では、ストリングはメディア項目218(図2参照)のある側面を記述しうる。たとえば、該ストリングは、メディア・タイトル配列402のメディア・タイトルの表現、主要アーチスト名配列404の主要アーチスト名の表現、トラック・タイトル配列502のトラック・タイトルの表現、トラック主要アーチスト名配列504の主要アーチスト名の表現、コマンド配列602のコマンドの表現および/またはプロバイダ名配列604のプロバイダの表現でありうる。
【0113】
判断ブロック1104で、そのストリングに書記言語ID706(図7参照)が割り当てられるべきかどうかについて判定がなされうる。本方法1100が、そのストリングの書記言語ID706が割り当てられるべきだと判定する場合、そのストリングの書記言語ID706がブロック1106で割り当てられうる。例として、Celine Dionはカナダ・フランス語という発話言語を割り当てられてもよく、Los Lobosはスペイン語という発話言語を割り当てられてもよい。
【0114】
ある例示的な実施形態では、あるストリングを書記言語ID706と関連付ける判定は、コンテンツ・エディタによってなされうる。たとえば、あるストリングをある書記言語と関連付ける判定は、そのストリングに関する、メディア関係のウェブサイト(たとえばAllMusic.comおよびWikipedia.com)などから利用可能な情報にアクセスすることによってなされうる。
【0115】
本方法1100がブロック1104でそのストリングの書記言語が割り当ておよび/または再割り当てされるべきではない(当該ストリングがすでに正しい書記言語が割り当てられているため)と判定する場合、またはブロック1106の後、本方法1100は判断ブロック1108に進みうる。
【0116】
ブロック1106での動作の完了に際して、本方法1100は、そのストリングに公式な発音転写を割り当てうる。これはたとえば、そのストリングの発話言語での発音転写を生成する処理を使う自動化されたソースを通じてである。
【0117】
本方法1100は、判断ブロック1108において、そのストリングについての公式発音転写に関して作用をすべきかどうかを判定しうる。たとえば、公式な発音転写は、発音転写配列708(図7参照)に関して保持されうる。そのストリングについての公式な発音転写内で作用をすべきである場合、そのストリングのためのその公式な発音転写はブロック1110で、生成、修正および/または削除されうる。判断ブロック1108においてそのストリングについての公式な発音転写に関して作用をすべきではない場合、あるいはブロック1110の後、本方法1100は判断ブロック1112に進みうる。
【0118】
判断ブロック1112では、本方法1100は、一つまたは複数の代替的な発音転写に関して作用をするべきかどうかを判定しうる。たとえば、代替発音転写の一つまたは複数は、発音転写配列708(図7参照)に関して保持されうる。そのストリングについての代替発音転写に関して作用をすべきである場合、そのストリングのためのその代替発音転写はブロック1114で、生成、修正および/または削除されうる。判断ブロック1112においてそのストリングについての公式な発音転写に関して作用をすべきではない場合、あるいはブロック1114の後、本方法1100は判断ブロック1116に進みうる。
【0119】
ある例示的な実施形態では、代替発音転写は、そのストリングの元でない言語について生成されてもよい。
【0120】
ある例示的な実施形態では、代替発音転写は、そのストリングが話されうる発話言語のそれぞれについては生成されない。むしろ、代替発音転写は、その発音転写が、その発話言語の話者に正しくないと聞こえる発話言語についてのみ生成されてもよい。
【0121】
本方法1100は、判断ブロック1116で、さらなるアクセスが所望されるかどうかを判定しうる。たとえば、該さらなるアクセスは、現在のストリングおよび/または別のストリングに提供されてもよい。さらなるアクセスが所望される場合、本方法1100は、ブロック1102に戻りうる。ブロック1116でさらなるアクセスが所望されない場合、本方法1100は終了しうる。
【0122】
ある例示的な実施形態では、発音転写は、サポートされる言語での編集校閲を受けてもよい。たとえば、英語話者が英語の発音転写を聞いてもよい。転写が英語で保存されていないときは、英語話者は英語以外の言語で保存され、英語に翻訳された発音転写を聞いてもよい。英語話者は、発音転写のうちで、たとえばその発音転写の地域化された例外に置き換える必要のあるものを特定しうる。
【0123】
図12を参照すると、ある例示的な実施形態に基づくアプリケーションとともにメタデータを使用する方法1200が示されている。ある例示的な実施形態では、該アプリケーションは組み込みアプリケーションでありうる。したがって、本方法1200は、移動MP3プレーヤー、カー・オーディオ・システムなどといったいかなるオーディオ設備に展開され、統合されてもよい。
【0124】
メタデータ(たとえば、発音メタデータ128、222および/またはメディア・メタデータ130、220)は、ブロック1202で前記アプリケーションのために構成され、アクセスされうる(図1〜図3参照)。アプリケーションのためにメタデータを構成し、これにアクセスするある例示的な実施形態は、のちにより詳細に述べる。
【0125】
ある例示的な実施形態では、メタデータを構成し、これにアクセスしたのち、あるメディア項目について発音メタデータ128、222を提供する前記段階が、発話合成を用いて再現される。ある例示的な実施形態では、メタデータを構成し、これにアクセスしたのち、発音メタデータ128、222および/またはメディア・メタデータ130、220を提供する前記段階が、前記メディア項目のアクセスの間にサードパーティ装置に提供されてもよい。
【0126】
方法1200は、追加的なメディアのアクセス可能性に基づいて、ブロック1202でメタデータに改めてアクセスし、これを改めて構成してもよい。
【0127】
判断ブロック1204では、本方法1200は、声認識を呼び出すかどうかを判定しうる。声認識を呼び出すべきであれば、ブロック1206において、発話認識および合成装置300(図3参照)によってコマンドが処理されうる。声認識を用いてコマンドを処理するための方法のある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1204において声認識が呼び出されるべきでない場合、あるいはブロック1206の後、本方法1200は判断ブロック1208に進みうる。
【0128】
本方法1200は判断ブロック1208で、発話合成を呼び出すかどうかを判定しうる。発話合成が呼び出されるべきであれば、本方法1200はブロック1210で、発話認識および合成装置300を通じて出力ストリングを提供しうる。発話認識および合成装置300によって出力ストリングを提供するための方法のある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1208において発話合成が呼び出されるべきではない場合、あるいはブロック1210の後、本方法1200は判断ブロック1214に進みうる。
【0129】
判断ブロック1214では、本方法1200は終了すべきかどうかを判定しうる。本方法1200がさらに動作すべきであれば、本方法1200は判断ブロック1204に戻りうる。そうでない場合には、本方法1200は終了しうる。
【0130】
図13を参照すると、ある例示的な実施形態に基づいてあるアプリケーションのためにメタデータにアクセスし、これを構成する方法1300が示されている。ある例示的な実施形態では、該アプリケーションは組み込みアプリケーションでありうる。本方法1300はたとえばブロック1202(図12参照)において実行されうるものである。
【0131】
判断ブロック1302において、本方法1300は、音楽メタデータおよび関連付けられた発音メタデータ128、222(図1および図2参照)にアクセスし、これを構成すべきかどうかを判定しうる。音楽メタデータおよび関連付けられた発音メタデータ128、222がアクセスされ、構成されるべきである場合、本方法1300は、ブロック1304で、前記音楽メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成しうる。メディア・メタデータ130、220(たとえば音楽メタデータ)を構成するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1302において音楽メタデータおよび関連付けられた発音メタデータ128、222がアクセスされるべきではない場合、あるいはブロック1304の後、本方法1300は判断ブロック1306に進みうる。
【0132】
本方法1300は判断ブロック1306で、ナビゲーション・メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成すべきかどうかを判定しうる。ナビゲーション・メタデータおよび関連付けられた発音メタデータ128、222がアクセスされ、構成されるべきである場合、本方法1300は、ブロック1308で、前記ナビゲーション・メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成しうる。メディア・メタデータ130、220(たとえばナビゲーション・メタデータ)を構成するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1306においてナビゲーション・メタデータおよび関連付けられた発音メタデータ128、222がアクセスされるべきではない場合、あるいはブロック1308の後、本方法1300は判断ブロック1310に進みうる。
【0133】
判断ブロック1310において、本方法1300は、その他メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成すべきかどうかを判定しうる。その他メタデータおよび関連付けられた発音メタデータ128、222がアクセスされ、構成されるべきである場合、本方法1300は、ブロック1312で、前記その他メタデータおよび関連付けられた発音メタデータ128、222にアクセスし、これを構成しうる。メディア・メタデータ130、220を構成するある例示的な実施形態は、のちにより詳細に述べる。判断ブロック1310においてその他メタデータおよび関連付けられた発音メタデータ128、222がアクセスされるべきではない場合、あるいはブロック1312の後、本方法1300は判断ブロック1314に進みうる。
【0134】
ある例示的な実施形態では、その他メタデータは、プレイリスト化メタデータを含みうる。たとえば、ユーザーは、ブロック1312で、コア・メタデータの一部についてまたは声コマンドについて、自分独自の発音メタデータを入力してもよいし、個人的な嗜好に基づいてジャンル類似性、格付けおよびその他の記述情報を割り当ててもよい。このように、ユーザーは、自分独自のジャンルを生成してもよいし、The Whoを「お気に入りのバンド」と名前を付け直してもよいし、またさらには声コマンドについての新しいシンタックスを設定してもよい。ユーザーは、車内でキーボードまたはスクロール・パッド・インターフェースを使って、あるいは声による異形を話すことによって、手動でカスタム異形を入力できる。ある代替的な解決策は、ユーザーが、カスタム発音異形の追加を、そのスペルを声に出して言うことによってできるようにしてもよい。
【0135】
本方法1300は、判断ブロック1314で、メディア・メタデータ130、220および関連付けられた発音メタデータ128、222のさらなるアクセスおよび構成が所望されるかどうかを判定しうる。さらなるアクセスおよび構成が所望される場合、本方法は、ブロック1302に戻りうる。判断ブロック1314でさらなるアクセスおよび構成が所望されない場合、本方法1300は終了しうる。
【0136】
図14を参照すると、ある例示的な実施形態に基づいてあるアプリケーションのためのメディア・メタデータにアクセスし、これを構成する方法1400が示されている。ある例示的な実施形態では、本方法1400は、ブロック1304、ブロック1308および/またはブロック1312(図13参照)において実行されうるものである。
【0137】
ブロック1402において、一つまたは複数のメディア項目(たとえば、デジタル・オーディオ・トラック、デジタル・ビデオ・セグメントおよびナビゲーション項目)がメディア・ライブラリからアクセスされうる。ある例示的な実施形態では、メディア・ライブラリは、メディア・データベース126、210(図1および図2参照)内に具現されてもよい。ある例示的な実施形態では、メディア・ライブラリはローカルなライブラリ・データベース118(図1参照)内に具現されてもよい。
【0138】
本方法1400は、ブロック1404でメディア項目の認識を試みうる。判断ブロック1406では、本方法1400は、認識が成功だったかどうかを判定しうる。認識が成功であれば、本方法1400は、ブロック1408において、メディア・メタデータ130、220および関連付けられた発音メタデータ128、222にアクセスし、ブロック1410においてメディア・メタデータ130、220および関連付けられた発音メタデータ128、222を構成しうる。判断ブロック1406で認識が成功でなかった場合には、本方法1400は終了しうる。
【0139】
ある例示的な実施形態では、本方法1400を動作させるアプリケーションを実装する装置は、音楽サービス・コンテンツを制御し、ナビゲートし、プレイリスト化し、および/またはリンクするために使用されうる。該音楽サービス・コンテンツはすでに、リンクされた識別子を含んでいてもよい。オンデマンド・ストリーミング、ラジオ・ストリーミング局、衛星ラジオなどといったものである。ひとたび判断ブロック1406においてそのコンテンツの認識が成功すると、ブロック1408で関連付けられたメタデータおよび発音メタデータ128、222が得られてもよく、ブロック1410で当該装置のために構成されてもよい。
【0140】
例示的な音楽分野では、一部のアーチストやグループが同じ名前を共有していることがありうる。たとえば、90年代のロック・バンドNirvanaは70年代のクリスチャン・フォーク・グループと同じ名前だし、90年代と00年代のカリフォルニアのポスト・ハードコア・グループCamera Obscuraはグラスゴーのインディーズのポップ・グループと同じ名前である。さらに、一部のアーチストは、他のアーチストの本名と同じニックネームをもつ。たとえば、フランク・シナトラは「The Chairman of the Board(会長)」として知られているが、これも「The Chairmen of the Board」と呼ばれる70年代のソウル・グループの名前と発音が非常に似ている。さらに、たとえば、ユーザーが両方のCamera Obscuraバンドを携帯音楽プレーヤー上に(たとえば該プレーヤーのハードドライブ上に)有していて、そのユーザーが装置に「Camera Obscuraを再生」と指示するというまれなできごとからも曖昧さが生じうる。
【0141】
重複名に対応するために用いられうる例示的な方法論は、次のようなものがありうる。ある実施形態では、再生すべきアーチストまたはアルバムの選択は、ユーザーの以前の再生挙動または明示的な入力に基づきうる。たとえば、Kurt Cobainのバンドと70年代のフォーク・バンドの両方をユーザーの再生装置(たとえば、携帯MP3プレーヤー、パーソナル・コンピュータなど)上にもつユーザーが「Nirvanaを再生」と言ったとしよう。アプリケーションは、プレイリスト化技術を使って、各アーチストについての再生頻度および関係するジャンルについての再生頻度の両方を検査しうる。こうして、ユーザーが頻繁に90年代初期のグランジを再生していれば、グランジNirvanaが再生されうる。ユーザーが頻繁にフォークを再生していれば、フォークNirvanaが再生されうる。本装置は、選好されるアーチストと非選好アーチストとの間のトグルまたは切り換えを許容してもよい。たとえば、ユーザーがフォークのNirvanaを聞きたいのにグランジのNirvanaが出た場合には、ユーザーは「他のNirvanaを再生」と言って、フォークのNirvanaに切り換えることができる。
【0142】
追加的または代替的に、ユーザーは二つ以上の一致(たとえば、アルバム識別情報当たり二つ以上の一致)の認識に際して、促されてもよい。たとえば、ユーザーが「アーチストCamera Obscuraを再生」と言うとき、装置は二つのエントリーをみつけて、ユーザーに促す(たとえば、TTS機能性を使って):「カリフォルニアのCamera Obscuraを求めていますか、それともスコットランドのCamera Obscuraを求めていますか」あるいはメディア・データベース中の他の項目を使った、他の曖昧さを解消する質問でもよい。その際、ユーザーは自分で要求の曖昧さを解消してもよい。本装置がナビゲーション環境において展開される場合は、町/都市の名、通りの名なども同様の仕方で処理されてもよい。
【0143】
ある例示的な実施形態では、個々のアルバムが巻番号(たとえば、「第10巻」)以外は同じ名前を持つ一連のアルバムがある場合、いかなる同一の発音転写も等価として扱われうる。したがって、促されるとき、本装置は、すべての対象について一致を返しうる。この実施例は、たとえば、「Now That's What I Call Music!」シリーズのようなアルバムに適用されうる。この実施例では、アプリケーションは、ユーザーが「アルバムNow That's What I Call Musicを再生」と言う場合にはみつかったすべての一致するファイルが再生されるが、ユーザーが「アルバムNow That's What I Call Music第5巻を再生」と言う場合には第5巻のみが再生されるよう、転写を扱いうる。この機能性は、2枚組アルバムにも適用されうる。たとえば、「アルバムAll Things Must Passを再生」は自動的にその2枚組アルバムのディスク1およびディスク2両方からのトラックを再生しうる。代替的に、ユーザーが「アルバムAll Things Must Passディスク2を再生」と言う場合には、ディスク2からのトラックのみが再生されうる。
【0144】
ある例示的な実施形態では、本装置は、「お気に入りのバンド」「お気に入りの年」または「マイクのサーフ・ロック・コレクション」といったような用語に意味を与えるために、ユーザー側でのカスタム異形エントリーにも対応していてもよい。たとえば、本装置は「発話編集」(たとえば、本装置に「Foo Fightersを『お気に入りのバンド』と呼ぶ」と命令する)を許容してもよい。追加的または代替的に、この機能性を実行するために、テキスト・ベースのエントリーが使用されてもよい。発音メタデータ128、222はコア・メタデータの構成要素でありうるので、ユーザーはコンピュータ上でエントリーを編集し、次いでそれを何らかの種類のタグとしてファイルとともにアップロードすることができてもよい。こうして、ある実施形態では、ユーザーは、事実上、従来の物理的なタッチ・インターフェースでは利用可能でないユーザー定義コマンドを追加しうるのである。
【0145】
図15を参照すると、ある例示的な実施形態に基づいて声認識によって受領される句を処理する方法1500が示されている。本方法1500は、ブロック1206(図12参照)で実行されうるものである。
【0146】
ブロック1502で句が取得されうる。たとえば、句は、発話入力116によって、自動化発話認識エンジン112(図1参照)を通じて受領されうる。句は次いで、ブロック1504において、たとえば自動化発話認識エンジン112を使うことにより、テキスト・ストリングに変換されうる。
【0147】
変換されたテキスト・ストリングは、次いで、ブロック1506でメディア・ストリングと識別されうる。変換されたテキスト・ストリングを識別する例示的な実施形態は、のちにより詳細に述べる。
【0148】
ある例示的な実施形態では、変換されたテキスト・ストリングの一部が識別のために提供されてもよく、残りの部分は保持され、識別のために提供されなくてもよい。たとえば、識別のために提供される第一の部分は、メディア項目の潜在的な名前であってもよく、識別のために提供されない第二の部分はアプリケーションへのコマンドであってもよい(たとえば、「Billy Idolを再生」は「Billy Idol」という第一の部分および「を再生」という第二の部分を有しうる)。
【0149】
判断ブロック1508において、本方法1500は、メディア・ストリングが識別されたかどうかを判定しうる。メディア・ストリングが識別されていれば、識別されたテキスト・ストリングがブロック1510での使用のために提供されうる。たとえば、句は、発話合成を用いてストリングが再現されうるようにするなどの使用のためにアプリケーションに返されうる。
【0150】
ストリングが識別されなかった場合には、ブロック1512で非識別プロセスが実行されうる。たとえば、非識別プロセスは、何の作用もしないこと、エラー・コードをもって応答することおよび/またはストリングについての最良推定をもって意図された作用をすることを非識別プロセスとすることでありうる。ブロック1510またはブロック1512での動作の完了後、本方法1500は終了しうる。
【0151】
図16は、ある例示的な実施形態に基づいて変換されたテキスト・ストリングを識別する方法1600を示している。ある例示的な実施形態では、方法1600はブロック1506(図15参照)において実行されうるものである。
【0152】
変換されたテキスト・ストリングは、ブロック1602でメディア項目の表示テキスト704と照合されうる。判断ブロック1604では、本方法1600は、一致が識別されたかどうかを判定しうる。一致が識別されなかった場合、ブロック1606で一致が識別されなかったという指示が返されうる。判断ブロック1604でストリング一致が識別された場合、本方法1600はブロック1608に進みうる。
【0153】
変換されるテキスト・ストリングは、ブロック1608において、代替句マッピング器を通じて処理されうる。たとえば、代替句マッピング器は、変換されたテキスト・ストリングについて代替句が存在するかどうか(たとえば、識別されうるかどうか)を判定する。
【0154】
ある例示的な実施形態では、代替句マッピング器は、代替句の、対応する公式な句へのマッピングを容易にするために使われうる。代替句マッピング器は、発話認識および合成装置300(図3参照)内で使用されうる。これにより、発音された代替句が表示テキスト704の公式な表現に導く。たとえば、「The Stones」が発話入力114として提供される場合、自動化発話認識エンジン112は発音された名前の音声を解析し、「The Stones」の定義されている表示テキスト704を生成しうる(図1および図7参照)。「The Stones」は代替句マッピング器に提出されてもよく、該代替句マッピング器は公式名「The Rolling Stones」を返すことになる。
【0155】
ある例示的な実施形態では、代替句マッピング器は、単一の入力代替句に応答して、複数の公式な句を返すことがありうる。同じ代替句について二つ以上の公式な句がありうるからである。
【0156】
判断ブロック1610では、本方法1600は、代替句が識別されたかどうかを判定しうる。代替句が識別されていない場合、得られている発音転写についてのストリングが返されうる。判断ブロック1610で代替句が識別されていた場合、公式な転写に関連付けられたストリングが返されうる。ブロック1612またはブロック1614での動作の完了後、本方法1600は終了しうる。
【0157】
図17を参照すると、ある例示的な実施形態に基づいて、発話合成によって出力ストリングを提供するための方法1700が示されている。ある例示的な実施形態では、本方法1700はブロック1706(図13参照)で実行されうるものである。
【0158】
ブロック1702でストリングがアクセスされうる。たとえば、アクセスされるストリングは、発話合成が望まれるストリングであってもよい。ブロック1704で、そのストリングについての発音転写がアクセスされうる。たとえば、そのストリングに対応する発話言語についての正しい発音転写がアクセスされうる。そのストリングについての発音転写にアクセスするある例示的な実施形態は、のちにより詳細に述べる。
【0159】
ある例では、ストリングについての発音転写が、メディア・データベース126および/またはローカル・ライブラリ・データベース118内で利用可能でないことがありうる。発音転写を生成するためのある例示的な実施形態はのちにより詳細に述べる。
【0160】
発音転写は、ブロック1706において、発話合成を通じてアプリケーションの言語で出力されうる。たとえば、発音転写は、TTSエンジン110から発話出力114(図1参照)として出力されうる。ブロック1706での動作の完了後、本方法1700は終了しうる。
【0161】
図18を参照すると、ある例示的な実施形態に基づいてストリングについての発音転写にアクセスする方法1800が示されている。ある例示的な実施形態では、本方法1800は、ブロック1704(図17参照)において実行されうるものである。
【0162】
ブロック1802でストリングの書記言語検出(たとえば書記言語を検出すること)および目標アプリケーションの発話言語検出(目標装置上で具現されうるような)が実行されうる。ある例示的な実施形態では、該ストリングは、メディア・タイトル配列402のメディア・タイトルの表現、主要アーチスト名配列404の主要アーチスト名の表現、トラック・タイトル配列502のトラック・タイトルの表現、トラック主要アーチスト名配列504の主要アーチスト名の表現、コマンド配列602のコマンドの表現および/またはプロバイダ名配列604のプロバイダの表現でありうる。ある例示的な実施形態では、目標アプリケーションは、前記組み込みアプリケーションでありうる。
【0163】
判断ブロック1804で、本方法1800は、そのストリングについて地域的例外が利用可能であるかどうかを判定しうる。地域的例外が利用可能であれば、ブロック1806で、そのストリングに関連付けられた地域的な発音転写がアクセスされうる。ある例示的な実施形態では、地域的な発音転写は、地域的な言語、地方の方言および/または地元の慣習の多様性に起因しうるような代替的な発音転写であってもよい。
【0164】
ブロック1806が完了すると、本方法1800は判断ブロック1814に進みうる。判断ブロック1804で、そのストリングについて地域化された例外が利用可能でない場合、本方法1800は判断ブロック1808に進みうる。
【0165】
本方法1800は、判断ブロック1808で、そのストリングについて転写が利用可能であるかどうかを判定しうる。転写が利用可能であれば、ブロック1810で、そのストリングに関連付けられた転写がアクセスされうる。
【0166】
ある例示的な実施形態では、本方法1800は、ブロック1810で、まずストリング言語に一致する主要転写が利用可能であればこれにアクセスしてもよく、利用可能でなければ別の利用可能な転写(たとえば英語の転写)にアクセスしてもよい。
【0167】
判断ブロック1808でそのストリングについて転写が利用可能でない場合、本方法1800は、ブロック1812で、プログラム的に発音転写を生成してもよい。たとえば、ある話者のネイティブ言語における地域的な誤発音についての代替的な発音転写をプログラム的に生成することは、アプリケーションを動作させる装置にすでにロードされているデフォルトのG2Pを使ってもよい。それにより、コンテンツが認識されると、受領されたテキスト・ストリングはデフォルトのG2Pに通されてもよい。発音転写のプログラム的生成の例示的な実施形態はのちにより詳細に述べる。ブロック1810および1812での動作が完了すると、本方法1800は判断ブロック1814に進みうる。
【0168】
判断ブロック1814では、本方法1800は、ストリングの書記言語が目標アプリケーションの発話言語に一致するかどうかを判定しうる。ストリングの書記言語が目標アプリケーションの発話言語に一致しない場合、得られた発音転写はブロック1816で目標アプリケーションの発話言語(たとえば目標言語)に変換されうる。得られた発音転写を変換する方法についての例示的な実施形態はのちにより詳細に述べる。
【0169】
ある例示的な実施形態では、ブロック1816において、発音転写は、ストリングのネイティブな発話言語から、装置を動作させているアプリケーションの目標言語に、音素変換マップを使って変換されうる。
【0170】
判断ブロック1814においてストリングの書記言語が目標アプリケーションの発話言語に一致する場合、あるいはブロック1816の後、ブロック1818においてそのストリングについての発音転写がアプリケーションに提供されうる。ブロック1818での動作の完了後、本方法1800は終了しうる。
【0171】
ある例示的な実施形態では、本方法1800は、ブロック1818での動作を遂行する前に、発音表記アルファベットの変換を実行して、発音転写を装置が使用できる転写に変換しうる。ある例示的な実施形態では、発音表記アルファベットの変換は、そのストリングについての発音転写が提供された後に実行されうる。
【0172】
図19を参照すると、発音転写をプログラム的に生成する方法1900が示されている。ある例示的な実施形態では、本方法1900はブロック1812(図18参照)で実行されうるものである。
【0173】
判断ブロック1902において、本方法1900はあるテキスト・ストリングが書記言語ID706(図7参照)を含むかどうかを判定しうる。ストリングが書記言語ID706を含む場合、本方法1900は、ブロック1904で、プログラム的に、アプリケーションの発話言語における地域的な誤発音についての発音転写を、G2Pを使って生成しうる。
【0174】
判断ブロック1902でテキスト・ストリングが書記言語ID706を含まない場合、ブロック1906で、テキスト・ストリングの、書記言語における発音転写が生成されうる。たとえば、テキスト・ストリングの書記言語における発音転写を生成するために、発話認識および合成装置300(図3参照)は言語固有のG2Pを使用してもよい。
【0175】
ブロック1908において、音素変換マップを使って、テキスト・ストリングの書記言語における発音転写が、アプリケーションのそれぞれ一つまたは複数の目標発話言語についての一つまたは複数の発音転写に変換されうる。
【0176】
ある例示的な実施形態では、音素転写の変換は、単一の音素転写から複数の音素転写へであってもよい。
【0177】
ブロック1904またはブロック1910における動作の完了後、本方法1900は、発音転写をアプリケーションに提供しうる。ブロック1920での動作の完了後、本方法1900は終了しうる。
【0178】
図20を参照すると、音素変換を実行する方法2000が示されている。ある例示的な実施形態では、方法2000はブロック1816(図18参照)で実行されうるものである。
【0179】
ブロック2002で、アプリケーション(たとえば前記組み込みアプリケーション)の発話言語ID804(図8参照)がアクセスされうる。ある例示的な実施形態では、アプリケーションの発話言語ID804は事前設定されていてもよい。ある例示的な実施形態では、アプリケーションの発話言語ID804は修正可能であってもよく、それにより組み込みアプリケーションの言語が選択できてもよい。
【0180】
ブロック2004では発音転写がアクセスされうる。その後、ブロック2006で、その発音転写についての書記言語ID706(図7参照)がアクセスされうる。
【0181】
判断ブロック2008で、本方法2000は、組み込みアプリケーションの発話言語ID804が発音転写の書記言語ID706に一致するかどうかを判定しうる。一致がなければ、本方法2000は、ブロック2010で、発音転写を、書記言語から発話言語に変換しうる。判断ブロックにおいて発話言語ID804が書記言語ID706に一致するない場合、あるいはブロック2010の後、本方法2000は終了しうる。
【0182】
図21を参照すると、ある例示的な実施形態に基づいて発音転写を目標言語に変換する方法2100が示されている。ある例示的な実施形態では、方法2100は、ブロック2010(図20参照)で実行されうるものである。
【0183】
ブロック2102で、目標発音転写を利用することになる組み込みアプリケーション(たとえば目標アプリケーション)の言語が決定されうる。ブロック2104で、起点発音転写について、発音表記言語変換マップがアクセスされうる。ある例示的な実施形態では、発音表記言語変換マップは音素変換マップでありうる。
【0184】
ブロック2106で、起点発音転写は、目標発音転写に、発音表記変換マップを使って変換されうる。ブロック2106での動作の完了後、本方法2100は終了しうる。
【0185】
ある例示的な実施形態では、一般的な発音表記言語と発話認識および合成装置300(図3参照)が使用する発音表記言語との間のキャラクタ・マッピングが生成され、メディア管理システム106とともに使用されてもよい。ブロック2106での動作の完了に際して、本方法2100は終了しうる。
【0186】
図22は、本稿で論じた方法論の任意の一つまたは複数を機械に実行させるための命令の組が実行されうるコンピュータ・システム2200という例示的な形の機械の図的な表現を示している。代替的な諸実施形態において、該機械はスタンドアローン装置として動作するか、あるいは他の機械に接続(たとえばネットワーク接続)されてもよい。ネットワーク接続された展開では、該機械は、サーバー‐クライアント・ネットワーク環境におけるサーバーまたはクライアント機械の役割において、あるいはピアツーピア(または分散)ネットワーク環境におけるピア機械として、動作しうる。該機械は、パーソナル・コンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、携帯電話、携帯音楽プレーヤー(たとえばMP3プレーヤーのような携帯ハード・ドライブ・オーディオ装置)、カー・オーディオ装置、ウェブ・アプライアンス、ネットワーク・ルータ、スイッチまたはブリッジ、あるいはその機械が取るべき行動を指定する命令の組(逐次的でもそうでなくても)を実行できる任意の機械でありうる。さらに、単一の機械しか示されていないが、「機械」の用語は、ここで論じた方法論のうち任意の一つまたは複数を実行するために個々にまたは共同して命令の組(または複数の組)を実行する、複数の機械の任意の集合をも含むと解されるものとする。
【0187】
例示的なコンピュータ・システム2200は、プロセッサ2202(たとえば、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)またはその両方)、メインメモリ2204および静的メモリ2206を含む。これらは互いにバス2208を介して通信する。コンピュータ・システム2200はさらに、ビデオ・ディスプレイ・ユニット2210(たとえば、液晶ディスプレイ(LCD)または陰極線管(CRT))を含みうる。コンピュータ・システム2200はまた、英数字入力装置2212(たとえばキーボード)、カーソル制御装置2214(たとえばマウス)、ディスク・ドライブ・ユニット2216、信号生成装置2218(たとえばスピーカー)およびネットワーク・インターフェース装置2230をも含む。
【0188】
ディスク・ドライブ・ユニット2216は、ここで論じた方法論または機能のうちの任意の一つまたは複数を具現する一つまたは複数の組の命令(たとえばソフトウェア2224)が保存されている機械可読媒体2222を含む。ソフトウェア2224は、コンピュータ・システム2200によるその実行の間、完全にまたは部分的に、メインメモリ2204内におよび/またはプロセッサ2202内にも存在していて、メインメモリ2204およびプロセッサ2202も機械可読媒体をなすのでもよい。
【0189】
ソフトウェア2224はさらに、ネットワーク・インターフェース装置2230を介してネットワーク2226を通じて送信または受信されてもよい。
【0190】
機械可読媒体2222は例示的な実施形態において単一の媒体として示されているが、「機械可読媒体」の用語は、前記一つまたは複数の組の命令を保存する単一の媒体または複数の媒体(たとえば、中央集中または分散データベースおよび/または関連するキャッシュおよびサーバー)を含むものと解されるべきである。「機械可読媒体」の用語は、機械による実行のための命令の組を保存、エンコードまたは担持でき、該機械をして本発明の方法論の任意の一つまたは複数を実行させるいかなる媒体をも含むものと解されるものである。したがって、「機械可読媒体」の用語は、これに限られないが、半導体メモリ、光学式および磁気式媒体ならびに搬送波信号を含むと解されるものである。
【0191】
ここに記載された実施形態は、コンピュータ上にインストールされたソフトウェアを有する動作環境において、ハードウェアにおいてあるいはソフトウェアとハードウェアの組み合わせにおいて実装されうる。
【0192】
本発明について個別的な例示的な実施形態を参照しつつ述べてきたが、本発明のより広い精神および範囲から外れることなくそれらの実施形態にさまざまな修正および変更をなしうることは明らかであろう。したがって、明細書および図面は、制限する意味ではなく例示的な意味に解されるべきである。
【0193】
本開示の要約は、読む者が本技術的開示の性質を素早く見定められるようにする要約を必須とする米国連邦規則集(C.F.R.)§1.72(b)に準拠するために提供されている。この要約は、請求項の範囲または意味を解釈または限定するために使われないという理解のもとに提出される。さらに、以上の詳細な説明において、開示の流れをよくする目的で、さまざまな特徴が単一の実施形態のうちにまとめられていることが見て取れる。この開示方法は、特許請求される実施態様が各請求項において明示的に挙げられているよりも多くの特徴を要求するという意図を反映したものと解釈すべきではない。むしろ、付属の請求項に反映されるように、本発明の主題は、ある単一の開示された実施形態の全部よりも少ない特徴のうちに存するものである。よって、付属の請求項はここに詳細な記述に組み込まれ、各請求項自身が独立した実施形態をなすものである。

【図面の簡単な説明】
【0194】
【図1】ある例示的な実施形態に基づく、音声インターフェースを使ったデジタル・コンテンツの再生制御、ナビゲーションおよび動的プレイリスト化のためのシステム・アーキテクチャを示す図である。
【図2】ある例示的な実施形態に基づく、メディア認識および管理システムのブロック図である。
【図3】ある例示的な実施形態に基づく、発話認識および合成モジュールのブロック図である。
【図4】ある例示的な実施形態に基づく、メディア・データ構造のブロック図である。
【図5】ある例示的な実施形態に基づく、トラック・データ構造のブロック図である。
【図6】ある例示的な実施形態に基づく、ナビゲーション・データ構造のブロック図である。
【図7】ある例示的な実施形態に基づく、テキスト配列データ構造のブロック図である。
【図8】ある例示的な実施形態に基づく、発音転写データ構造のブロック図である。
【図9】ある例示的な実施形態に基づく、代替句マッピング器データ構造のブロック図である。
【図10】ある例示的な実施形態に基づく、データベース上で発音メタデータを管理する方法を示すフローチャートである。
【図11】ある例示的な実施形態に基づく、データベースの発音メタデータを変更する方法を示すフローチャートである。
【図12】ある例示的な実施形態に基づく、アプリケーションとともにメタデータを使う方法を示すフローチャートである。
【図13】ある例示的な実施形態に基づく、アプリケーションのためにメタデータにアクセスし、これを構成する方法を示すフローチャートである。
【図14】ある例示的な実施形態に基づく、メディア・メタデータにアクセスし、これを構成する方法を示すフローチャートである。
【図15】ある例示的な実施形態に基づく、声認識によって受領される句を処理する方法を示すフローチャートである。
【図16】ある例示的な実施形態に基づく、変換されたテキスト・ストリングを識別する方法を示すフローチャートである。
【図17】ある例示的な実施形態に基づく、発話合成によって出力ストリングを提供する方法を示すフローチャートである。
【図18】ある例示的な実施形態に基づく、ストリングのための発音転写にアクセスする方法を示すフローチャートである。
【図19】ある例示的な実施形態に基づく、前記発音転写をプログラム的に生成する方法を示すフローチャートである。
【図20】ある例示的な実施形態に基づく、音素変換を実行する方法を示すフローチャートである。
【図21】ある例示的な実施形態に基づく、発音転写を目標言語に変換する方法を示すフローチャートである。
【図22】本稿で論じる方法論の任意の一つまたは複数を機械に実行させるための命令の組が実行されうるコンピュータ・システムの形の例示的な機械の図的な表現を示す図である。

【特許請求の範囲】
【請求項1】
複数のメディア項目についての、複数のストリングを有するメディア・メタデータであって、各ストリングは前記複数のメディア項目のある側面を記述する、メディア・メタデータと;
前記複数のストリングに関連付けられた発音メタデータであって、該発音メタデータの各部分はストリングの元の言語で保存されている発音メタデータとを有する装置。
【請求項2】
メディア項目が、コンパクト・ディスク、デジタル・オーディオ・トラック、デジタル多用途ディスク(digital versatile disc)、映画または写真のうちの少なくとも一つから選択される、請求項1記載の装置。
【請求項3】
前記メディア項目の前記側面が、メディア・タイトル、主要アーチスト名、トラック・タイトル、コマンドまたはプロバイダのうちの少なくとも一つから選択される、請求項1記載の装置。
【請求項4】
前記ストリングの元の言語が、前記ストリングが話されるであろう言語を含む、請求項4記載の装置。
【請求項5】
表示のために好適なテキストを含む表示テキストを含む第一のフィールドと;
前記表示テキストの起点言語で保存された前記表示テキストの公式な発音転写を含む第二のフィールドとを含むデータ構造を保存するメモリを有する装置。
【請求項6】
前記第二のフィールドがさらに、前記表示テキストの一つまたは複数の代替発音転写を含む、請求項5記載の装置。
【請求項7】
前記表示テキストの前記一つまたは複数の代替発音転写が:
一つもしくは複数の正しい発音の発音転写または一つもしくは複数の正しくない発音の発音転写のうちの少なくとも一つを含む、請求項6記載の装置。
【請求項8】
前記表示テキストの元の書記言語を指示する書記言語識別情報(ID)をさらに含む、請求項5記載の装置。
【請求項9】
前記表示テキストが公式表現であるか代替表現であるかを指示する公式表現フラグをさらに有する、請求項5記載の装置。
【請求項10】
前記公式表現が、公式に公表されたメディアに現れるテキストまたは編集的に決定されたテキストのうちの少なくとも一方であり、前記代替表現がニックネーム、短縮名または一般的な略語のうちの少なくとも一つである、請求項9記載の装置。
【請求項11】
前記第二のフィールドの各発音転写に関連付けられて、該発音転写が書記言語IDに対応するものかどうかを指示する元の言語転写フラグをさらに有する、請求項9記載の装置。
【請求項12】
前記第二のフィールドの各発音転写に関連付けられて、該発音転写が表示テキストの正しい発音であるか誤発音であるかを指示する正しい発音フラグをさらに有する、請求項5記載の装置。
【請求項13】
前記表示テキストが、メディア・タイトル、主要アーチスト、トラック・タイトル、トラック主要アーチスト名、コマンド配列またはプロバイダのうちの少なくとも一つから選択される、請求項5記載の装置。
【請求項14】
メディア・メタデータの複数のストリングにアクセスする段階と;
前記複数のストリングのそれぞれについて、各ストリングの元の言語での少なくとも一つの公式発音転写を生成する段階とを有する方法。
【請求項15】
前記複数のストリングのそれぞれに、該複数のストリングのそれぞれの元の言語を指示する発話言語識別情報(ID)を割り当てる段階をさらに有する、請求項14記載の方法。
【請求項16】
前記複数のストリングがそれぞれ表示テキストの表現であり、当該方法がさらに:
メディア・タイトル、主要アーチスト、トラック・タイトル、トラック主要アーチスト名、コマンド配列またはプロバイダのうちの少なくとも一つを表示テキストとして選択する段階をさらに有する、請求項14記載の方法。
【請求項17】
前記複数のストリングの少なくとも一部分について、各ストリングの元の言語以外の言語での少なくとも一つの代替発音転写を生成する段階をさらに有する、請求項15記載の方法。
【請求項18】
デジタル・フィンガープリントをもつメディア項目を認識して該メディア項目についてのメタデータを得る段階と;
前記メディア項目についてのメディア・メタデータおよび関連する発音メタデータにアクセスする段階とを有しており、前記発音メタデータとは前記メディア項目の元の言語での少なくとも一つの発音転写を含む、方法。
【請求項19】
前記メディア・メタデータおよび前記関連する発音メタデータをあるアプリケーションのために構成する段階をさらに有する、請求項18記載の方法。
【請求項20】
音楽メタデータ、プレイリスト化メタデータまたはナビゲーション・メタデータのうちの少なくとも一つを前記のメディア・メタデータとして選択する段階をさらに有する、請求項18記載の方法。
【請求項21】
前記メディア項目のアクセスの間に前記関連する発音メタデータをある装置に提供する段階をさらに有する、請求項18記載の方法。
【請求項22】
前記メディア項目のアクセスの間に前記関連する発音メタデータを発話合成により再生する段階をさらに有する、請求項18記載の方法。
【請求項23】
変換されたテキスト・ストリングをメディア・項目とマッチさせる段階と;
前記変換されたテキストを代替句マッピング器を通して処理して、前記メディア項目の前記変換されたテキスト・ストリングについての公式な発音転写と関連付けられたストリングを同定する段階とを有する方法。
【請求項24】
前記メディア項目についての公式な発音転写に関連付けられた前記ストリングを、あるアプリケーションによる使用のために提供する段階をさらに有する、請求項23記載の方法。
【請求項25】
前記アプリケーションを走らせている装置上で、公式な発音転写に関連付けられた前記ストリングを使ってあるコマンドを処理する段階をさらに有する、請求項24記載の方法。
【請求項26】
句を取得する段階と;
前記句を、発話認識により、変換されたテキスト・ストリングに変換する段階とを有する、請求項23記載の方法。
【請求項27】
あるストリングおよび目標アプリケーションの発話言語を検出する段階と;
前記ストリングに関連付けられた発音転写にアクセスする段階と;
前記ストリングに関連付けられた前記発音転写を前記目標アプリケーションの前記発話言語で提供する段階とを有する方法。
【請求項28】
前記ストリングの前記発音転写を発話合成を通じて再生する段階をさらに有する、請求項27記載の方法。
【請求項29】
メディア・タイトル、主要アーチスト、トラック・タイトル、トラック主要アーチスト名、コマンド配列またはプロバイダのうちの少なくとも一つの表示テキストを含むストリングにアクセスする段階をさらに有する、請求項27記載の方法。
【請求項30】
前記ストリングに関連付けられた発音転写にアクセスする前記段階が:
前記目標アプリケーションの発話言語について、地域化された例外が利用可能であるときには、該ストリングに関連付けられた地域化された発音転写にアクセスすることを含む、請求項27記載の方法。
【請求項31】
前記ストリングについての、前記目標アプリケーションの発話言語での発音転写を、G2Pを使って生成する段階をさらに有する、請求項27記載の方法。
【請求項32】
前記ストリングについての、該ストリングの発話言語での発音転写を生成する段階と;
該発音転写を前記目標アプリケーションの発話言語に、音素変換マップを使って変換する段階をさらに有する、請求項27記載の方法。
【請求項33】
前記発音転写を前記目標アプリケーションの発話言語に変換する段階をさらに有する、請求項27記載の方法。
【請求項34】
前記発音転写についての発音表記言語変換マップにアクセスする段階と;
前記発音表記言語変換マップを使って、前記発音転写を前記アプリケーションの言語に変換する段階をさらに有する、請求項27記載の方法。
【請求項35】
前記発音転写を、再生装置の組み込みアプリケーションを用いて再生する、請求項27記載の方法。
【請求項36】
命令を有する機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして:
メディア・メタデータの複数のストリングにアクセスする段階と;
前記複数のストリングのそれぞれについて、各ストリングの元の言語での少なくとも一つの公式発音転写を生成する段階とを実行させる、機械可読媒体。
【請求項37】
さらなる命令を有する請求項36記載の機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして:
前記複数のストリングの少なくとも一部分について、各ストリングの元の言語以外の言語での少なくとも一つの代替発音転写を生成する段階を実行させる、機械可読媒体。
【請求項38】
命令を有する機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして:
変換されたテキスト・ストリングをメディア・項目とマッチさせる段階と;
前記変換されたテキストを代替句マッピング器を通して処理して、前記メディア項目の前記変換されたテキスト・ストリングについての公式な発音転写と関連付けられたストリングを同定する段階と;
前記公式な発音転写に関連付けられた前記ストリングを発話合成によって処理する段階とを実行させる、機械可読媒体。
【請求項39】
命令を有する機械可読媒体であって、該命令は、機械によって実行されたときに、該機械をして:
あるストリングおよび目標アプリケーションの発話言語検出を実行する段階と;
前記ストリングに関連付けられた発音転写にアクセスする段階と;
前記ストリングに関連付けられた前記発音転写を、発話合成を通じて、前記目標アプリケーションの前記発話言語で再生する段階とを実行させる、機械可読媒体。
【請求項40】
メディア・メタデータの複数のストリングにアクセスする手段と;
前記複数のストリングのそれぞれについて、各ストリングの元の言語での少なくとも一つの公式発音転写を生成する手段とを有する装置。
【請求項41】
前記複数のストリングの少なくとも一部分について、各ストリングの元の言語以外の言語での少なくとも一つの代替発音転写を生成する手段をさらに有する、請求項40記載の装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate


【公表番号】特表2009−505321(P2009−505321A)
【公表日】平成21年2月5日(2009.2.5)
【国際特許分類】
【出願番号】特願2008−527223(P2008−527223)
【出願日】平成18年8月21日(2006.8.21)
【国際出願番号】PCT/US2006/032722
【国際公開番号】WO2007/022533
【国際公開日】平成19年2月22日(2007.2.22)
【出願人】(501112323)グレースノート インコーポレイテッド (12)
【Fターム(参考)】