説明

音声ダイヤル機能をパケット交換電話接続において実現する方法及び装置

方法及び装置は、パケット交換電話サービスを広帯域通信ネットワーク経由で提供する。本装置は住居用ゲートウェイとすることができ、ゲートウェイは、顧客構内機器と通信するインターフェースを有するデータ端末機器を含む。本装置は更に、ユーザが発声する音声を受信し、そしてパケット交換電話接続を広帯域通信ネットワーク経由で発声音声に基づいて開始するように構成されるプロセッサを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は概して、パケットネットワーク経由のリアルタイムサービスの提供に関し、特に音声及びデータをHFCネットワーク経由で伝送するインターネット電話の提供に関する。
【背景技術】
【0002】
今日、インターネットへのアクセスは広範囲の視聴者が公衆交換電話網(PSTN)を通して行なわれる。通常、この環境では、ユーザはインターネットに、PSTNモデム経由の全二重ダイヤルアップ接続を利用してアクセスし、PSTNモデムによって、ローカルループプラント経由で56,000ビット/秒(56kbps)という高いデータレートが得られる。
【0003】
しかしながら、データレートを大きくする(従って、応答時間を改善する)ために、他のデータサービスが公衆に提供されているか、または計画されており、これらのデータサービスとして、例えば全二重ケーブルテレビ(CATV)モデムを使用するデータ通信が挙げられ、全二重ケーブルテレビモデムによって、上述のPSTN用モデムよりもずっと高いデータレートがCATVプラント経由で得られる。ケーブル事業者が提供しているサービスとして、パケット電話サービス、ビデオ会議サービス、T1/フレームリレーサービスに相当するサービス、及び他の類似の多数のサービスが挙げられる。
【0004】
インターネットプロトコル(IP)トラフィックをケーブルシステムのヘッドエンドとカスタマーロケーションとの間で、全同軸ケーブルネットワークまたはハイブリッドファイバ/同軸(HFC)ケーブルネットワークを経由して透過的かつ双方向に転送することを可能にする、種々の標準規格が提案されている。ケーブルテレビジョン研究所によって開発されたこのような一つの標準規格は、Interim Specification DOCSIS 1.1と表記される。種々の標準規格の中でもとりわけ、DOCSIS 1.1は、パケット電話(“ボイスオーバーIP”)のようなリアルタイムサービスに関するサービスフロー制御の方式を規定している。パケット電話を使用して、音声を2つのエンドポイントに位置する電話機の間で伝送することができる。別の構成として、パケット電話を使用して、音声帯域データをファクシミリ機のようなエンドポイントデバイスとコンンピュータモデムとの間で伝送することができる。
【0005】
音声ダイヤル機能はPSTNネットワークにおいて、特にセルラー環境において益々普及しつつある。従来の電話システムでは、音声認識電話を使用することにより、音声ダイヤルサービス、及び音声入力による電話番号案内を可能にする。これらのシステムでは、発声された名前を電話帳データベース要素で受信し、受信した名前を音声認識プロセスで認識し、そしてシステム要素が、認識した名前を使用して該当する電話番号を見付け出す。一旦、電話番号が特定されると、呼が所望の宛先に転送される。採用される音声認識プロセスは、話者依存型のプロセスであっても、話者非依存型のプロセスであってもよい。
【発明の開示】
【課題を解決するための手段】
【0006】
パケット交換電話サービスを広帯域通信ネットワーク経由で提供する方法及び装置が提示される。本装置は住居用ゲートウェイとすることができ、ゲートウェイは、顧客構内機器と通信するインターフェースを有するデータ端末機器を含む。本装置は更に、ユーザが発声する音声を受信し、そしてパケット交換電話接続を広帯域通信ネットワーク経由で発声音声に基づいて開始するように構成されるプロセッサを含む。
【0007】
1つの特定の例では、請求項1記載の住居用ゲートウェイは更に、データ端末機器と広帯域通信ネットワークとの間でデータを送受信する広帯域モデムを含む。
別の例では、ユーザが発声する音声によって選択当事者を、選択当事者を特定する音声エントリで特定する。選択当事者は複数の当事者の中から選択され、各当事者は電話番号と、そして該当する当事者を特定する音声エントリとを有する。住居用ゲートウェイは更に、各当事者の音声エントリ、及び音声エントリに関連付けられる電話番号を保存するように構成されるデジタルメモリを含む。
【0008】
別の例では、住居用ゲートウェイ更に第1電子メモリセグメントを含み、第1電子メモリセグメントに音声認識アルゴリズムを保存して照合を行なう。
別の例では、住居用ゲートウェイは更に、音声エントリ群の各音声エントリを、当該エントリの該当する電話番号に関連付けるディレクトリを保存するように構成される第2電子メモリセグメントを含む。
【0009】
更に別の例では、住居用ゲートウェイは更に、音声認識プロセス中にユーザに対して表示されることになる複数のメニュー形式の音声プロンプトを保存する第3電子メモリセグメントを含む。
【0010】
別の例では、顧客構内機器は電話機である。
別の例では、住居用ゲートウェイは更にプログラム電子メモリセグメントを含み、プログラム電子メモリセグメントは、データ端末機器の動作を制御して音声認識エンジンを動作させる実行可能命令を格納する。
【0011】
別の例では、データ端末機器は、音声信号を音声データに変換し、そして音声信号を音声データから変換するCODECと、そして音声データを処理するDSPとを含む。実行可能命令によってDSPの動作を制御して音声認識エンジンを動作させる。
【0012】
別の例では、パケット交換電話接続はボイスオーバーIPプロトコルに準拠する。
パケット交換電話の呼を広帯域通信ネットワーク経由で開始する方法は、電話機から呼び出される当事者を特定する発声音声を表わす第1信号を受信することから始まる。パケット交換電話接続は、広帯域通信ネットワーク経由で発声音声に基づいて開始される。
【発明を実施するための最良の形態】
【0013】
以下に詳細に記載するように、音声ダイヤリング構成がボイスオーバーIPシステムのようなパケット電話構成の中に設けられる。
例示としての広帯域アクセスネットワークを図1に示す。アクセスネットワーク100は、エンベッデッドマルチメディアターミナルアダプター(eMTAs)またはスタンドアローンマルチメディアターミナルアダプター(sMTAs)のような加入者ゲートウェイまたは住居用ゲートウェイを導入している加入者がインターネット175及び公衆交換電話網(PSTN)140との接続を行なうネットワークアーキテクチャを表わしている。詳細には、MTA110〜110はインターネット175とCATVネットワーク経由で通信する。ケーブルTVネットワーク接続またはIP TVネットワーク接続は、MSO(マルチサービスオペレータ)(図示せず)によって提供される。この点に関して、MSOがCATVヘッドエンド170及びケーブルモデム115を(従来のCATVに付加する形で、またはつい最近では、通信ネットワーク117によって例示されるインターネットプロトコルTV用接続ネットワーク機器に付加する形で)提供することを前提とする。このCATVネットワークシステムは本明細書ではケーブルデータネットワークとも表記される。CATVネットワークは通常、全同軸ケーブルネットワークまたはハイブリッド−ファイバ/同軸(HFC)ケーブルネットワークである。MTA110〜110は更に、PSTN140とケーブルネットワーク、IPネットワーク175、及び中継ゲートウェイ130を経由して通信する。勿論、xDSL(例えば、ADSL,ADSL2,ADSL2+,VDSL,及びVDSL2)のような他の広帯域アクセスネットワークを用いることもできる。これらのアクセスネットワークの内の幾つかのアクセスネットワークでは、MTAはアナログ電話アダプター(ATA)と表記される。
【0014】
住居用ゲートウェイまたはMTA110に関して図1に示すように、MTA110〜110は、例えば電話機である顧客構内機器122、CODEC128、デジタル信号プロセッサ(DSP)124、ホストプロセッサ126、及びケーブルモデム(CM)115を含む。CODEC128、DSP124、及びホストプロセッサ126は集合的にデータ端末機器を表わし、データ端末機器を通信リンク117にCM115を経由して接続することにより、通信サービスを電話機122のユーザに提供する。CM115は、RFコネクタ及びチューナ/アンプ(図示せず)を利用することによりケーブルデータネットワークへの接続インターフェースの役割を果たす。概して、DSP124はデータパケットを、電話機122から受信するアナログ信号に基づいて生成する。すなわち、DSP124及びCODEC128は連携して、音声及び音声帯域データをケーブルネットワーク経由で配信するために必要な音声帯域処理機能の全てを実行する。音声帯域処理機能として、エコーキャンセル、パケットロスコンシールメント、コールプログレストーン生成、DTMF/パルス及びファックストーン検出、G.723及びG.729のようなオーディオ圧縮解凍アルゴリズム、パケットジッター除去、及びIPパケット化/パケット解凍が挙げられる。通常、DSP124は、パルスコード変調サンプルを8,16,または64kHzのレートでデジタル化することによりデータを符号化する。ホストプロセッサ126はデータパケットをDSP124から受信し、そして、MAC,IP,UDPレイヤに応じて必要な適切なヘッダを付け加える。一旦、パケットが完成すると、当該パケットがCM115に送信され、CM115では、当該パケットは、当該パケットがケーブルデータネットワークを経由してCATVヘッドエンド170のCMTS120に送信されるまでキューに格納されたままとなる。本発明の目的を達成するために提供されるサービスは、パケット電話のようなリアルタイムサービスであると仮定する。従って、データパケットはリアルタイム転送プロトコル(RTP)のような適切なプロトコルに従ってフォーマットする必要がある。
【0015】
他の広帯域アクセスネットワークでは、CM115は、該当するネットワークに採用される標準規格及びプロトコルの使用に適する広帯域モデムに置き換えられる。例えば、xDSLアクセスネットワークでは、CM115の機能はxDSLモデムが実行する。
【0016】
インターネットサービスプロバイダ(ISP)はインターネット接続を提供する。図1の構成では、ISPはIPネットワーク175を提供し、IPネットワークは、通信リンク132に接続されるケーブルデータネットワークアクセスルータ(図示せず)を含むことを前提とする。ここで、例示のためにだけ、上記のMSO(マルチサービスオペレータ)及びISPサービスプロバイダは異なる事業体であることを前提とするが、この前提は本発明のコンセプトには関係しないことに留意されたい。
【0017】
CM115はCATVヘッドエンド170にケーブルネットワーク117経由で接続され、ケーブルネットワーク117は、例えばCATV無線周波数(RF)同軸ドロップケーブル及び関連する機器である。CATVヘッドエンド170はサービスを複数のダウンストリームユーザ(これらのダウンストリームユーザの内の一人のユーザのみを示している)に提供し、そしてケーブルモデムデータ終端システム(CMTS)120、及びヘッドエンドルータ125を備える(CMTS120はヘッドエンドルータ125にイーサネット100BaseX接続(図示せず)で接続される)。CMTS(ケーブルモデムデータ終端システム)120では、CATV RFリンクがCM(ケーブルモデム)115で終端し、そしてデータリンクプロトコルが、提供される住居用サービスをサポートするように実行される。RFリンクがブロードキャスト特性を持つと仮定すると、複数の住宅顧客、従って多数の潜在的な家庭内LANは同じCMTSインターフェースを利用することができる。また、図示はしないが、この技術分野の当業者であれば、CATVネットワークが複数のCMTS/ヘッドエンドルータペアを含むことができることが容易に理解できるであろう。
【0018】
CM115及びCMTS120は転送エージェントとして動作し、更にエンドシステム(ホスト)として動作する。CM115及びCMTS120の基本的な機能は、インターネットプロトコル(IP)パケットをCATVヘッドエンドとカスタマーロケーションとの間で透過的に送信することである。暫定規格DOCSIS1.1がケーブルテレビ研究所によってこの機能を実装するための一連のプロトコルとして策定されている。
【0019】
フルボイスオーバーインターネット通信システムでは、コールエージェント150はハードウェアコンポーネントまたはソフトウェアコンポーネントであり、このコンポーネントは電話通信機能を通信システムにおいて実現し、かつ電話コールを処理する役割を果たす。詳細には、コールエージェント150は接続を確立し、そして加入者が電話発呼及び発呼受信を行なって呼待機、呼転送などのような機能を利用することができるようにするために必要なエンドポイント状態を維持する役割を果たす。回線交換IP通信システムでは、CLASS5音声交換機に接続されるIPデジタル端末が、コールエージェント及び中継ゲートウェイに代わって用いられる。このようなシステムでは、IPを使用するコールシグナリングがMTAとIPDTとの間で行なわれ、そしてGR303またはV5.2コールシグナリングがIPDTと音声交換機との間で行なわれ、更にIP音声トラフィックがMTAとIPDTとの間で伝送される。
【0020】
音声ダイヤル機能を搭載するために、MTA110はメモリ160を含む。メモリ160は、ROM,RAM,SRAM,FLASH,EEPROMなどのようないずれのタイプのコンピュータ読み取り可能な媒体によって構成されてもよい。詳細には、メモリ160は、ROM,Flash,またはバッテリバックアップSRAMのような不揮発性メモリ構造を含むので、書き込みデータ及びユーザ入力データを電源障害時に再読み込みする必要がない。更に、メモリ160は、チップ、ハードディスク、磁気ディスク、及び/又は光ディスクの形態を採ることができる。メモリ160は、プログラムメモリセグメント162、プロンプトメモリセグメント164、電話ディレクトリメモリセグメント166、及び音声エントリメモリセグメント168に論理的に(かつ、可能であれば物理的に)分割される。これらのメモリセグメントが物理的に分割される場合、これらのメモリセグメントの全てが同じタイプである必要がないことが理解できるであろう。例えば、プログラムメモリセグメント162をROMとし、音声エントリメモリセグメント168をFlashまたは他の不揮発性リード/ライトメモリとすることにより、ユーザは新規の発音エントリを認識用に保存することができる。更に、これらのメモリセグメントの各セグメント自体が混合タイプのメモリを含むことができ、例えばいずれのタイプのメモリも含んでも、または両方のタイプのメモリを含んでもよいので、処理中の短期ストレージまたは一時ストレージとして使用される少数のRAMを含んでもよい。
【0021】
音声ダイヤリングプロセスの動作を制御するために使用される場合、プログラムメモリセグメント162は実行可能命令を含み、実行可能命令は、当該命令によってデジタル信号プロセッサ124の動作を制御して、音声認識エンジン(VRE)を動作させるように構成される。音声エントリメモリセグメント168は音声エントリを保存し、音声エントリによって、電話ディレクトリに保存された当事者を特定する。この点に関して、音声信号の比較対象の保存音声エントリは、単語及び/又は発音英数字記号とすることができる。例えば、音声エントリ「Mom」は発音単語「Mom」として、または個々の字「M−O−M」によって保存することができる。英数字記号を用いる場合、ユーザに対して、保存エントリの視覚フィードバックを電話機ディスプレイ(利用可能な場合)上に、または発呼者IDディスプレイ上に表示することができ、このディスプレイは電話機と一体化されるか、または以下に更に詳細に説明するコールウェイティング時発呼者IDシグナリング(caller ID on call waiting signaling)を使用する個別の発呼者ID機器に組み込まれる。
【0022】
各保存音声エントリは、特定のエントリ番号に関連付けられる、または特定のエントリ番号によって特定される。電話帳メモリセグメント166は各エントリ番号、及び当該エントリ番号に対応する電話番号を保存する。このようにして、音声エントリメモリセグメント168の音声エントリが電話帳メモリセグメント166の特定の電話番号に関連付けられる。保存される電話番号は、呼び出されている当事者との通信を確立するために必要ないずれかの適切なアドレスであり、このアドレスとして、電話番号、IPアドレスまたは他のネットワークアドレスなどが挙げられる。プロンプトメモリセグメント164は記録音声プロンプトを(リアルオーディオセグメントまたは合成オーディオセグメントを使用して)保存し、これらの記録音声プロンプトを使用することにより、ユーザを、発呼、新規エントリの保存、及びエントリの編集及び消去のような種々の音声認識プロセスに誘導する。
【0023】
実行可能命令を使用するDSP124で動作する音声認識エンジン、及びプログラムメモリセグメント162に保存される音声認識アルゴリズムは、ユーザが発声する名前を音声エントリメモリセグメント168に保存されている音声エントリと比較し、そして発音される名前または発声する名前が保存エントリのいずれかのエントリと十分に類似するかどうかを判断する。判断プロセスによって一致が判明する場合、最も類似する音声エントリに関連付けられる電話番号を電話帳メモリセグメント166から取り出し、次にこの電話番号を自動的にダイヤルして発呼する。採用される音声認識アルゴリズムは公知のアルゴリズムであり、このアルゴリズムは、種々の異なる方法のいずれかの方法で一致を確認することができる。例えば、このアルゴリズムによってDSP124は一連の意味特徴を、保存音声エントリ、及びユーザが発声する名前から抽出する。特徴抽出プロセスでは、自動音声認識には不要な要素をほぼ取り除き、そして基本的な音声要素、または意味論的音声要素から成る信号のみを残す。英語では、例えば種々の要素の中でもとりわけ、オーディオ信号から取り除かれる要素はトーン及びピッチである。特徴抽出の代わりに、高機能化という点で、極めて初歩のレベルから非常に複雑なレベル(例えば、隠れマルコフモデル)に渡る他の技術を用いることができる。勿論、DSP124をプログラムすることにより、プログラムメモリセグメント162に配置される音声認識アルゴリズムと連動させて広く使用されるどのような数の従来の特徴抽出方法を実行することもでき、これによって、単語認識及び/又は英数字認識が可能になる。更に、不特定話者音声認識が一般的に適するが、特定話者音声認識技術を用いることもできる。この技術分野では公知になっているこのような従来の認識技術についての記述は多数の刊行物に掲載されており、例えばKluwer Academic Publishersに掲載されたKai−Fu Leeによる「自動音声認識:SPHINXシステムの開発」と題する参考文献、及びMarcel Dekker, Inc. Publishing, in Chapter 8に掲載されたSadaoki Fururiによる「デジタル音声処理、合成、及び認識」と題する参考文献に掲載されている。一般的に、特定話者音声認識方式では、話者が特定され、そして特定された話者が発声する単語または語句のみが認識される。不特定話者音声認識方式では、特定の単語だけが、誰がこれらの単語を発声しているかどうかに関係なく認識される。これらの方式特有の単語またはテンプレートは音声エントリメモリセグメント168または他のメモリセグメントに保存することができる。
【0024】
CODEC128は多くの異なるステップを音声ダイヤリングプロセスにおいて実行する。例えば、CODEC128は、発音され、かつ電話機122から受信する名前をオーディオデータに変換し、そしてオーディオデータをDSP124に送信する。次にDSP124が、発音されたオーディオデータを、例えばDRAMである音声メモリ123に一時的に保存する。音声メモリ123のオーディオデータが、音声エントリメモリセグメント168に保存される音声エントリと比較される。CODEC128は更に、DSP124から受信するオーディオデータを復号化するが、オーディオデータはこの場合、メモリ160から(例えば、プロンプトメモリセグメント164または音声エントリメモリセグメント168から)取り出されている。復号化されたオーディオデータはオーディオ信号にCODEC128によって変換され、そして電話機122のスピーカを通して出力される。
【0025】
DSP124は、CODEC128から受信するオーディオデータをデジタル処理し、そして(必要に応じて)圧縮し、更に(発呼するために使用される付随オーバーヘッドサービスデータまたは付随オーバーヘッドコントロールデータは全く含まない)処理済みオーディオデータを音声メモリ160に保存する。DSP124は更に、圧縮オーディオデータを音声メモリ160から読み出し、読み出されたオーディオデータをデジタル処理し、そして解凍し、更に処理済みデータをCODEC128に送信する。DSP124は更に、メモリ123に保存されるオーディオデータを、音声エントリメモリセグメント168に保存される音声エントリと、プログラムメモリセグメント162に格納される命令及びアルゴリズムによる指示に従って比較することにより、適切な一致を見付け出す。或る場合においては、DSP124は単純に、音声エントリメモリセグメント168に保存されたままのオーディオデータ(例えば、特徴語を抽出したときのフォームのままの)を、メモリ123に保存されたままの発音オーディオデータと比較する。すなわち、比較を行なう前に、音声エントリメモリ168に保存されているオーディオデータを処理し、そして解凍する必要が全く無い。
【0026】
多くの消費者用電話機は、ダイヤル先の当事者の電話番号及び/又は名前のような情報を表示するディスプレイを含む。ユーザが発呼者IDサービスに加入している場合、ディスプレイは着信発呼者の名前及び電話番号を表示することもできる。発呼者IDは2つのタイプに分類できることに注目されたい。電話機が使用されていないときに(オンフック状態で)受信され、かつ普通リンギングを発生させる発呼者IDは、タイプI発呼者IDと呼ばれる。電話機が既に使用されているときに(オフフック状態で)受信される発呼者IDは、タイプII発呼者ID、またはコールウェイティング時発呼者IDと呼ばれる。コールウェイティング時発呼者IDの場合、第2発呼者の特定情報が受信され、そして着呼側当事者に対して表示される。これにより、着呼側当事者は、誰が発呼しているかを認識することができるので、着呼側当事者が第2番目の発呼の方に切り替えるかどうかについて意思決定することができる。コールウェイティング時発呼者ID情報を無事に送信するためには、公知のTelecordiaシグナリング規格に基づいて送信を行なっている間にハンドシェーク処理に成功する必要がある。ハンドシェーク処理では、信号を電話交換機と着呼側当事者の電話機との間で授受する。
【0027】
コールウェイティング時発呼者IDサービスを提供するために従来から使用されている前述のシグナリング規格を本実施形態の状況において使用することにより、ユーザが住居用ゲートウェイまたはMTAに保存する電話ディレクトリ情報を表示することができる。すなわち、ユーザが、呼び出される当事者の名前を音声ダイヤリングプロセスの間に発声した後、コールウェイティング時発呼者IDプロトコルを使用することにより、ディレクトリセグメント166から取り出される選択当事者の名前及び電話番号を電話機122のディスプレイに送信することができる。次に、この情報を使用して、正しい当事者が選択されたことを確認することができる。
【0028】
採用する電話機122が、ディスプレイと一体化された発呼者ID電話機ではない場合、ユニット125のようなスタンドアローン型発呼者ID付属ユニットを用いてこの機能を利用することができる。或る場合においては、MTA自体に、ディスプレイを含むコードレス電話基地局ハンドセットを組み込むことができ、当該ディスプレイを使用することにより、ユーザがMTAに保存する電話帳データベースの情報を表示することができる。
【0029】
図2は、名前ダイヤルエントリを含む音声ダイヤル電話エントリを作成する様子を示す例示としてのフローチャートである。この技術分野の当業者であれば、音声認識エンジンによって、当該エンジンを事前にプログラムすることなく音声認識によるダイヤリングが可能になることが理解できるであろう。ステップ205では、ユーザは電話機122の受話器を取り上げる、または電話機122をオフフック状態にし、特定コードをダイヤリングして電話帳データベース要素に入力を行なう。次に、ユーザに対してステップ210において、プロンプトメモリセグメント164から取り出されるオプションメニューを提示することができる。一つのこのようなオプションは、「新規の電話帳エントリを作成する、すなわち9を押下する」とすることができる。適切な数字(例えば9)をステップ212で押下したか、または選択した後、ユーザに対してステップ215において、別のオプションを提示して、電話帳データベースのエントリを数字で選択させるか、またはキーを押下することにより“”キーのような次の利用可能なエントリを選択させることができる。次に、ユーザにステップ220において、例えば別のプロンプトをメモリセグメント164から読み出すことにより指示して、名前を発声させて新規エントリを作成することができる。別の構成として、ユーザに指示して、関連する名前をハンドセットキーパッドでタイプ入力させることができ、そして音声認識エンジンは事前にプログラムされることなく、関連する名前をユーザが名前を発声することにより認識するように構成することができる。次に、ステップ225では、どの音声認識プロセスを用いるかによって変わる、名前または名前の或る抽出結果のような名前関連の音声データを音声エントリとして音声エントリメモリセグメント168に保存する。ユーザに要求して名前のスペルを書かせることもできる。いずれにしても、正確さを確保するために、ユーザに要求して名前または名前のつづりを繰り返させ、その後要求側で、名前を繰り返す、または名前をつづることができる。任意であるが、ステップ228では、当事者の電話番号及び名前を電話機122またはスタンドアローン型発呼者IDユニットに、このような機能を利用することができる場合に、転送することができる。最後に、ユーザに指示して新規エントリをステップ230において、一つの数字をキーパッドで選択することにより保存することができるか、または当該エントリを消去し、そして別の数字をキーパッドで選択することによりもう一度やり直すことができる。次に、ユーザはエントリをステップ235で保存することにより、新規の電話帳エントリの作成を完了させることができる。
【0030】
図3は、ユーザが電話帳データベースを使用して発呼する様子を表わすフローチャートである。このプロセスはステップ305から始まり、このステップでは、ユーザは電話機122の受話器を取り上げる、または電話機122をオフフック状態にし、そして呼び出される人の名前を発声する(或る場合では、ユーザは、音声ダイヤル機能を有効にする前に、最初に特定コードを入力するように要求され、他の場合では、音声ダイヤル機能は、電話機がオフフック状態のときはデフォルト動作モードとすることができる)。ステップ310では、DSP124は発声された名前を処理し、そして圧縮し、更に圧縮オーディオデータをメモリ123に一時的に保存する。次に、ステップ320では、DSP124は適切な音声認識アルゴリズムをプログラムメモリセグメント162から取り出し、そして圧縮オーディオデータを、音声エントリメモリセグメント168に保存される音声エントリの各々と、一致が検出されるまで比較する。選択された音声エントリをユーザに対してステップ325において、ユーザに実際に正しいエントリが取り出されたかどうかを質問するプロンプトと一緒に再生することができる。ユーザは「yes」または「no」でステップ330において応答する。任意であるが、ステップ332では、当事者の名前をスタンドアローン型発呼者IDユニットの電話機ディスプレイに、コールウェイティング時発呼者IDシグナリングを利用可能であれば使用して表示することができる。ユーザが「no」で応答する場合、次の最大一致を与える別のエントリが選択される。ユーザが最終的に「yes」で応答する場合、正しい音声エントリに対応するエントリ番号がステップ335において、音声エントリメモリセグメント168から取り出される。或る場合には、ユーザは「yes」応答を、単に、「yes」応答または「no」応答のいずれの応答も所定時間に渡って出さないことにより効果的に通知することができる。すなわち、この音声ダイヤル応答タイムアウト時間が過ぎてしまう場合、住居用ゲートウェイを、「yes」応答が出された状態であるかのようにして通過する。次に、DSP124は該当するエントリ番号に対応する電話番号を電話帳メモリセグメントからステップ340で取り出し、そして取り出した電話番号をステップ345でダイヤルする。任意であるが、ステップ350では、当事者の電話番号を、スタンドアローン型発呼者IDユニットの電話機ディスプレイに、コールウェイティング時発呼者IDシグナリングを利用可能であれば使用して表示することができる。
【0031】
MTA110を、議論を進めるために当該アダプターが種々の構成要素を有するものとして示しているが、この技術分野の当業者であれば、ホストプロセッサ126、DSP124、CODEC128,及びケーブルモデム115のような、MTA110に示す幾つかの構成要素は単1つのプログラマブルプロセッサに組み込むことができることが理解できるであろう。メモリ160は、取り外し可能なメモリコンポーネントを含む一つ以上のメモリコンポーネントを構成することができる。更に、電話機122及び/又は発呼者IDユニット125はMTA110と一体的に形成することもできる。
【0032】
MTA110において行なわれる図2及び3に示すプロセスのステップは、汎用プロセッサ、多目的プロセッサ、または単一専用プロセッサにおいて実行される。このようなプロセッサは命令を、アセンブリレベルで、コンパイル済みで、またはマシン上で実行することにより該当するプロセスを実行する。これらの命令はこの技術分野の当業者が、図2及び3に関する説明に従って書き込むことができ、そしてコンピュータ読み取り可能な媒体に格納する、または送信することができる。命令は、ソースコードまたは他のいずれかの公知のコンピュータ援用設計ツールを使用して生成することもできる。コンピュータ読み取り可能な媒体は、これらの命令を格納する機能を備えるいずれかの媒体とすることができ、かつCD−ROM,DVD,磁気ディスクまたは他の光ディスク、テープ、シリコンメモリ(例えば、取り外し可能な揮発性メモリまたは不揮発性メモリ、取り外し不能な揮発性メモリまたは不揮発性メモリ)、及び/又はパケット化されるか、またはパケット化されない有線伝送信号または無線伝送信号を含む。
【0033】
これまで、ボイスオーバーIPシステムのようなパケット電話システムにおいて使用される音声ダイヤリングシステムについて説明してきた。このようにして、PSTN及びセルラーネットワークにおいて頻繁に使用される機能は、パケット電話環境においても利用することができる。
【図面の簡単な説明】
【0034】
【図1】例示としてのボイスオーバーIP通信システムを示す。
【図2】電話エントリを作成する様子を示す例示としてのフローチャートである。
【図3】ユーザが音声ダイヤルプロセスによって発呼する様子を示す例示としてのフローチャートである。

【特許請求の範囲】
【請求項1】
パケット交換電話サービスを広帯域通信ネットワーク経由で提供するための住居用ゲートウェイであって、
顧客構内機器と通信するインターフェースを有するデータ端末機器と;
ユーザの発声音声を受信し、パケット交換電話接続を広帯域通信ネットワーク経由で前記発声音声に基づいて開始するように構成されるプロセッサと、
を備える、住居用ゲートウェイ。
【請求項2】
前記データ端末機器と前記広帯域通信ネットワークとの間でデータを送受信する広帯域モデムを更に備える、請求項1に記載の住居用ゲートウェイ。
【請求項3】
前記ユーザの発声音声によって、選択当事者が、前記選択当事者を特定する音声エントリを使用して特定され、前記選択当事者は複数の当事者の中から選択され、各当事者は電話番号と、該当する当事者を特定する音声エントリとを有し、各当事者の音声エントリ及び音声エントリに関連付けられる電話番号を保存するように構成されるデジタルメモリを更に備える、請求項1に記載の住居用ゲートウェイ。
【請求項4】
照合を行なうための音声認識アルゴリズムを保存する第1電子メモリセグメントを更に備える、請求項1に記載の住居用ゲートウェイ。
【請求項5】
音声エントリ群の各音声エントリを、当該エントリの該当する電話番号に関連付ける電話帳データベースを保存するように構成される第2電子メモリセグメントを更に備える、請求項4に記載の住居用ゲートウェイ。
【請求項6】
音声認識プロセス中にユーザに対して表示されることになる複数のメニュー形式の音声プロンプトを保存する第3電子メモリセグメントを更に備える、請求項5に記載の住居用ゲートウェイ。
【請求項7】
前記データ端末機器の動作を制御して音声認識エンジンを実装するための実行可能な命令を格納するプログラム電子メモリセグメントを更に備える、請求項1に記載の住居用ゲートウェイ。
【請求項8】
前記データ端末機器は、音声信号を音声データに変換し、且つ音声信号を音声データから変換するCODECと、音声データを処理するDSPとを含み、実行可能命令が、前記音声認識エンジンを実装するように前記DSPの動作を制御する、請求項7に記載の住居用ゲートウェイ。
【請求項9】
パケット電話の呼を広帯域通信ネットワーク経由で開始する方法であって、
電話機から、呼び出される当事者を特定する発声音声を表わす第1信号を受信するステップと;
前記発声音声に基づいて、パケット交換電話接続を広帯域通信ネットワーク経由で開始するステップと
を備える方法。
【請求項10】
前記第1信号に基づいて、呼び出される当事者の識別子を選択するステップと;
前記選択された識別子を使用して、呼び出される当事者に関連付けられる電話番号を取り出すステップと;
広帯域通信ネットワーク経由での送信に適するパケット化フォーマットに前記電話番号を符号化するステップと;
前記パケット化されたフォーマットの電話番号を、広帯域通信ネットワーク経由でコールエージェントに転送して、呼び出される当事者との通信を確立するステップと、
を更に備える、請求項9に記載の方法。
【請求項11】
音声ダイヤル動作モードを開始する第2信号を受信するステップを更に備える、請求項9に記載の方法。
【請求項12】
コールウェイティング時発呼者IDシグナリングプロトコル(caller ID on call waiting signaling protocol)に従って、少なくとも前記取り出した電話番号を、電話機に接続されるディスプレイに送信するステップを更に備える、請求項10に記載の方法。
【請求項13】
コールウェイティング時発呼者IDシグナリングプロトコルに従って、呼び出される当事者の英数字表示を電話機に接続されるディスプレイに送信するステップを更に備える、請求項10に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公表番号】特表2009−517984(P2009−517984A)
【公表日】平成21年4月30日(2009.4.30)
【国際特許分類】
【出願番号】特願2008−543431(P2008−543431)
【出願日】平成18年11月29日(2006.11.29)
【国際出願番号】PCT/US2006/045729
【国際公開番号】WO2007/064730
【国際公開日】平成19年6月7日(2007.6.7)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.イーサネット
【出願人】(500234493)ジェネラル・インスツルメント・コーポレーション (35)
【氏名又は名称原語表記】General Instrument Corporation
【住所又は居所原語表記】101 Tournament Drive,Horsham,Pennsylvania,USA
【Fターム(参考)】