通話端末、多者通話システム、多者通話方法、プログラム

【課題】グループセッション確立中における発言権移動の確実性の向上を図り、円滑なコミュニケーションを図ることができる通話端末を提供すること。
【解決手段】多者通話が可能な通話端末であって、発言権を有する者の通話端末から送信された音声データを受信して音声認識する受信音声認識手段と、この音声認識結果に基づいて受信した音声データが発言要求であることを検出する発言要求検出手段と、発言要求を検出した場合にその旨をユーザに報知する報知手段と、を備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、通話端末にかかり、特に、複数の端末間において多者通話が可能な通話端末に関する。
【背景技術】
【０００２】
近年、携帯電話などにおける通信技術の向上により、複数の端末間でグループセッションを確立し、１対Ｎ（多数）での通話が可能となっている。このような技術は、例えば、モバイルサービスの標準化団体であるＯＭＡ（Open mobile Alliance）にて、Push-to-Talk over Cellular（ＰｏＣ）という名称で呼ばれている。
【０００３】
そして、上述した複数人でのPoC通信は、トランシーバーに近い半２重通話型のコミュニケーション手法にて行われる。つまり、発言権を取得した人間が発言している間、他の人間は傍聴者となる。発言権はPoC通信グループメンバー間で交互にやり取りがなされ、「○○さんどうぞ」等の口頭での合図（発言要求）により、他の参加者に発言権取得を促すような方法が一般的である。
【０００４】
【特許文献１】特開２００１−１８８７４０号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、上述したような従来の口頭のみによる発言権取得要求では、周囲の雑音で発言要求を聞き取れなかった、または注意散漫で聞いていなかったという場合には、合図（発言要求）が伝わらず円滑なコミュニケーションを阻害する可能性がある。また、PoC通信グループメンバーの中で発言の少ない人間へ発言を促す場合においても、口頭での発言要求だけでなく、同時に、より有効な報知手段にて通知して発言を促すことができれば議論が更に活発化すると考えられる。
【０００６】
一方で、上記特許文献１には、電子会議システムにおいて、発言対象者を指定するボタンを押下することで、かかる対象者に発言権が与えられ、当該対象者にその旨を通知する、というシステムが開示されている。しかし、グループセッションにおいて円滑なコミュニケーションを図るためには、従来例と同様に、会話の中で口頭による合図によって他の参加者に発言権取得を促すことが望ましい。
【０００７】
このため、本発明は、上記従来例の有する不都合を改善し、特に、グループセッション確立中における発言権移動の確実性の向上を図り、円滑なコミュニケーションを図ることができる通話端末を提供すること、をその目的とする。
【課題を解決するための手段】
【０００８】
そこで、本発明の一形態である通話端末は、
多者通話が可能な通話端末であって、
発言権を有する者の通話端末から送信された音声データを受信して音声認識する受信音声認識手段と、
この音声認識結果に基づいて受信した音声データが発言要求であることを検出する発言要求検出手段と、
発言要求を検出した場合にその旨をユーザに報知する報知手段と、
を備えたことを特徴としている。
【０００９】
上記発明によると、まず、発言権を有する者から発言要求の音声が発せられると、発言要求されたユーザの通話端末にて、音声認識により自動的に発言要求音声が検出される。そして、発言要求された旨が通話端末にて呼び出し音やバイブレータなどによってユーザに報知される。従って、ユーザは、通話内における音声のみでなく、他の方法によっても発言要求があったことを認識することができ、円滑なコミュニケーションを図ることができる。
【００１０】
そして、予め設定された発言要求文言を記憶する発言要求文言記憶手段を備えると共に、発言要求検出手段は、記憶された発言要求文言に基づいて発言要求を検出する、ことを特徴としている。これにより、発言要求文言を精度よく検出することができ、より円滑なコミュニケーションを図ることができる。
【００１１】
また、報知手段は、複数種類の報知を行う、ことを特徴としており、特に、報知手段は、複数種類の報知を時間をずらして行う、ことを特徴としている。さらには、一定時間内における発言要求検出回数をカウントする発言要求検出回数カウント手段を備えると共に、報知手段は、発言要求検出回数に応じて複数種類の報知を行う、ことを特徴としている。これにより、通話状況に応じて有効な報知を行うことができると共に、報知がユーザの通話の妨げとなることを抑制でき、さらなる円滑なコミュニケーションを図ることができる。
【００１２】
また、本発明における通話端末の他の形態は、
他のユーザに対する音声による発言要求の入力を受け付けて音声認識する発言要求音声認識手段と、
この音声認識された音声データに対応する合成音を生成する合成音生成手段と、
この生成された合成音からなる音声データを他のユーザの通話端末に送信する発言要求送信手段と、
を備えたことを特徴としている。
【００１３】
上記発明によると、発言権を有する者から発せられた発言要求の音声は、通話端末にて音声認識され、合成音にて他のユーザの通話端末に送信される。従って、聞き取りやすい合成音にて発言要求がなされるため、他の通話端末のユーザは、発言要求を認識しやすくなり、円滑なコミュニケーションを図ることができる。特に、上述したように、発言要求されたユーザの通話端末にて音声認識により自動的に発言要求が検出される場合には、より高精度に発言要求が検出されうる。
【００１４】
そして、予め設定された発言要求文言を記憶する発言要求文言記憶手段を備えると共に、合成音生成手段は、記憶された発言要求文言に基づいて特定の音声データのみに対応する合成音を生成する、ことを特徴としている。これにより、発言要求文言のみの合成音が生成されるため、端末の処理負担を軽減できる。
【００１５】
また、予め操作者の音声特徴を表す音声特徴データを記憶する音声特徴データ記憶手段を備えると共に、発言要求音声認識手段は、音声特徴データに基づいて音声認識を行う、ことを特徴としている。これにより、操作者の癖に応じて発言要求文言を精度よく検出することができ、より円滑なコミュニケーションを図ることができる。
【００１６】
また、本発明では、上述した発言権を有し発言要求を行う者が所有する通話端末と、この発言要求を受けるユーザの通話端末と、を備えた多者通話システムをも提供している。また、上述した通話端末は、一台の端末にて構成されていることを特徴としている。
【００１７】
さらに、本発明の他の形態は、
多者通話が可能な通話端末にネットワークを介して接続されたサーバコンピュータであって、
サーバコンピュータが、発言権を有する者の通話端末から送信された他のユーザに対する音声による発言要求を受信して音声認識する発言要求音声認識手段と、
この音声認識結果に基づいて受信した音声データが発言要求であることを検出する発言要求検出手段と、
発言要求を検出した場合にその旨を他のユーザの通話端末に報知する報知制御手段と、
を備えたことを特徴としている。
【００１８】
これにより、音声認識処理をサーバコンピュータに実行させることができるため、上述した効果を得ることができると共に、通話端末での処理負担の軽減を図ることができる。
【００１９】
また、本発明の他の形態であるプログラムは、
多者通話が可能な通話端末に装備された演算装置に、
発言権を有する者の通話端末から送信された音声データを受信して音声認識する受信音声認識手段と、
この音声認識結果に基づいて受信した音声データが発言要求であることを検出する発言要求検出手段と、
発言要求を検出した場合にその旨を通話端末に装備された報知器を介してユーザに報知する報知制御手段と、
を実現させるためのプログラムである。
【００２０】
また、本発明であるプログラムの他の形態は、
多者通話が可能な通話端末に装備された演算装置に、
他のユーザに対する音声による発言要求の入力を受け付けて音声認識する発言要求音声認識手段と、
この音声認識された音声データに対応する合成音を生成する合成音生成手段と、
この生成された合成音からなる音声データを他のユーザの通話端末に送信する発言要求送信手段と、
を実現させるためのプログラムである。
【００２１】
さらに、本発明では、通話端末を用いた多者通話方法を提供しており、
発言要求を受けるユーザの通話端末が、発言権を有する者の通話端末から送信された音声データを受信して音声認識する受信音声認識工程と、この音声認識結果に基づいて受信した音声データが発言要求であることを検出する発言要求検出工程と、発言要求を検出した場合にその旨を通信端末に装備された報知器を介してユーザに報知する報知工程と、
を有することを特徴としている。
【００２２】
そして、発言要求検出工程は、発言要求文言記憶手段に予め記憶された発言要求文言に基づいて発言要求を検出する、ことを特徴としている。また、報知工程は、複数種類の報知を、時間をずらして行う、ことを特徴としている。さらに、報知工程は、一定時間内における発言要求検出回数をカウントすると共に、発言要求検出回数に応じて複数種類の報知を行う、ことを特徴としている。
【００２３】
さらに、受信音声認識工程の前に、発言権を有する者の通話端末が、他のユーザに対する音声による発言要求の入力を受け付けて音声認識する発言要求音声認識工程と、この音声認識された音声データに対応する合成音を生成する合成音生成工程と、この生成された合成音からなる音声データを他のユーザの通話端末に送信する発言要求送信工程と、を有することを特徴としている。
【００２４】
そして、合成音生成工程は、発言要求文言記憶手段に予め記憶された発言要求文言に基づいて特定の音声データのみに対応する合成音を生成する、ことを特徴としている。また、発言要求音声認識工程は、音声特徴データ記憶手段に予め記憶された操作者の音声特徴を表す音声特徴データに基づいて音声認識を行う、ことを特徴としている。
【００２５】
上記構成の多者通話システム、プログラム、多者通話方法であっても、上述した通話端末と同様に作用するため、上述した本発明の目的を達成することができる。
【発明の効果】
【００２６】
本発明は、以上のように構成され機能するので、これによると、他者からの発言要求音声が音声認識により自動的に検出されるため、ユーザは、通話内における音声の発言要求を聞き逃した場合であっても、他の報知方法によって発言要求があったことを認識することができる。従って、多者通話時における円滑なコミュニケーションを図ることができる、という従来にない優れた効果を有する。
【発明を実施するための最良の形態】
【００２７】
本発明は、多者通話時における円滑なコミュニケーションを図るべく、発言権の移動を促す発言要求である音声データの認識の確実性を向上させる、という点に特徴を有する。以下、実施例では、多者通話が可能な通話端末の一例として携帯電話を挙げ、また、モバイルサービスの標準化団体であるＯＭＡ（Open mobile Alliance）にて、Push-to-Talk over Cellular（ＰｏＣ）という名称で呼ばれている技術を用いて、多者通話を行う場合を一例に挙げて説明する。但し、通話端末は携帯電話に限定されず、また、多者通話を行うシステムは、上記ＰｏＣシステムに限定されない。
【実施例１】
【００２８】
本発明の第１の実施例を、図１乃至図６を参照して説明する。図１は、多者通話システムの全体構成を示す概略図であり、図２は、多者通話を実現する携帯電話の構成を示すブロック図である。図３は、携帯電話に記憶されている情報の一例を示す図である。図４は、多者通話時の様子を示す説明図であり、図５乃至図６は、多者通話時の動作を示すシーケンス図である。
【００２９】
［構成］
図１に示すように、本発明における多者通話システムは、複数のユーザＡ〜Ｄにて操作される携帯電話ａ〜ｄによって実現される。特に、本実施例では、各携帯電話ａ〜ｄがネットワークＮを介して接続され、上述したＰｏＣ通信にて多者通話を行う。なお、本実施例における多者通話は、発言権を有するユーザ（例えば、Ａ）の携帯電話（例えば、ａ）からの音声データが、他のユーザ（傍聴者）（例えば、Ｂ〜Ｄ）の携帯電話（例えば、ｂ〜ｄ）に伝送されることによって実現される。そして、他のユーザが発言するためには、発言権を得る必要があり、当該発言権を有するユーザからの発言要求を受けてから発言する。
【００３０】
以下では、ユーザＡ（発言者）が発言権を有することとし、ユーザＢ（傍聴者）が発言要求を受ける場合を一例に挙げて説明する。つまり、符号ａの携帯電話から符号ｂの携帯電話ｂに発言要求が送信される場合を説明する。なお、いずれの携帯電話ａ〜ｄも、同様に構成されており、いずれのユーザＡ〜Ｄであっても、発言権を有する者、あるいは、傍聴者となり得る。
【００３１】
図１に携帯電話の構成を示す。ここでは、符号ａの携帯電話を一例に挙げて説明するが、他の携帯電話ｂ〜ｃも同様の構成である。この図に示すように、携帯電話ａは、装置制御部６を中心に、装置内の各要部へは内部バス１３を介して接続されている。装置制御部６には、ＣＰＵ（中央演算装置）、キャッシュメモリ、割り込みコントローラ、ＤＳＰ（Digital Signal Processor）、装置全体を制御するためのＯＳを含み、携帯端末装置全体を制御する役割をもつ。
【００３２】
そして、ユーザ（傍聴者）に発言要求を報知する装置（報知器）としては、一般的な携帯電話に装備されている装置内要部の振動駆動装置部１、ＬＥＤ部２、ディスプレイ部３、スピーカ部４が該当する。振動駆動装置部１は、装置全体を振動させる機構を搭載しており、発言要求を受けると振動駆動装置が動作しユーザへ報知する。ＬＥＤ部２は、ユーザが発光を確認可能な装置本体の前面に配置されており、発言要求を受けるとＬＥＤが発光しユーザへ報知する。ディスプレイ部３は、表示制御機能を備えた表示装置である。表示装置は液晶パネルあるいは有機ＥＬ（電子蛍光）等の表示装置である。そして、発言要求を受けると、画面全体もしくは一部の表示が変化しユーザへ報知する。このとき表示する画像データは、メモリ５の不揮発領域（ROM）に格納されているユーザデータを使用する。スピーカ部４は、PoC通話中の音声会話を出力する装置であると同時に、発言要求の報知手段にも使用される。発言要求があった場合には、あらかじめ指定された呼び出し音を鳴動させユーザに報知する。呼び出し音としては機械音だけでなく、メモリ５の不揮発領域(ROM)に格納されている音楽・音声データを使用しても良い。
【００３３】
なお、上述した報知器である振動駆動装置部１、ＬＥＤ部２、ディスプレイ部３、スピーカ部４の動作は、上述した報知制御手段としての装置制御部６にて制御される。特に、後述するように、傍聴者Ｂの携帯電話ｂにて発言要求が検出されたときに、報知器による報知動作がなされるよう制御する。従って、報知器と装置制御部６にて報知手段が構成されている。
【００３４】
また、メモリ５には、ROM／RAM共に搭載している。ROMは電話帳、音楽・画像データ等のユーザデータを格納している不揮発性メモリである。また、RAMはCPUがプログラムを実行する上で一時的に必要とされるデータを格納するようになっている。そして、本実施例におけるメモリ５には、予め設定された発言要求キーワード（発言要求文言）が記憶されており、当該メモリ５は、発言要求文言記憶手段として機能している。この発言要求キーワードの一例を、図３に示す。この図に示すように、発言要求キーワードは、一定区切りの単語として格納されており、この各単語を論理演算（AND,OR,NOTなど）により組み合わせることで利用される。例えば、「Aさん、発言してください」という発言要求であれる場合には、図３中のテーブルNo.1とNo.4のAND演算の結果を用いて後述する音声認識処理あるいは発言要求検出処理が行われる。また、「発言の少ない人、発言してください」という要求であれば、タイマ部１２の計時機能で発言者毎の発言時間をあらかじめ計測したデータと、図３中のテーブルNo.4とNo.6のAND演算の結果が利用される。そして、これら発言要求キーワードは、発言者Ａの携帯電話ａにおいては発言要求時に利用され、傍聴者の携帯電話ｂにおいては、発言要求を検出する際に利用される。
【００３５】
また、送信制御部７は、通信用アンテナ９を介して無線によって音声データなどの送信制御を行う回路である。また、受信制御部８は、通信用アンテナ９を介して無線によって音声データなどの受信制御を行う回路である。
【００３６】
音声認識部１０（発言要求音声認識手段、受信音声認識手段）は、受話部分から入力された通話データや、受信制御部８を介して他の携帯電話から受信した通話データなど、通話時の音声データに対して、特定キーワードまたは特定制御音の認識・検出を、所定の検出アルゴリズムによって実行する装置またはプログラムにて実現される。音声認識アルゴリズムの詳細については公知のものとして本発明では言及しないが、特に発言権を有するユーザＡにて使用される場合には、その所有者の個性を学習して音声認識精度を向上させることが可能なものとする。つまり、予めユーザの音声特徴を表す音声特徴データを、ＲＯＭなど（音声特徴データ記憶手段）に記憶しており、これに基づいて音声認識を行う。
【００３７】
また、音声認識部１０（発言要求検出手段）は、自分の発言中および他の参加者の発言中は絶えず動作し、会話中に含まれる発言要求となるキーワードを検出する役割をもつ。このとき、上述したＲＯＭに記憶されている図３に示すような発言要求キーワードを検出する。そして、傍聴者Ｂ側にて用いられる場合には、音声認識装置部１０で発言要求を検出すると、上述したように、装置制御部６を介して振動駆動装置部１、またはLED部２、またはディスプレイ部３、またはスピーカ部４からユーザへ報知される。
【００３８】
合成音生成装置部１１（合成音生成手段）は、入力された音声データを加工して出力することが可能な装置である。本発明においては、特に、送信側の携帯電話ａ、つまり、PoC発言者側であるユーザＡの携帯電話ａにて動作し、受信側の電話端末ｂ（PoC傍聴者側）の音声認識部１０の音声認識精度を向上させるためのものである。具体的には、上述したように受話部分から入力された音声データから発言要求キーワードが検出されたときに、そのキーワード自体の合成音を生成して、送信制御部７を介して他の通話端末に送信する。つまり、送信制御装置７と協働して、発言要求送信手段としても機能する。そして、さらに、合成音生成装置部１１では、発言要求相手にそれぞれ割り当てられた特定の識別音を付加したり、イントネーションの変更（例えば、地方なまりのイントネーションを標準日本語的なイントネーション化）などの加工を行う。
【００３９】
また、タイマ部１２は、時間を計測するための計時装置である。後述するように、発言要求の検出アルゴリズム内で時間計測用途にて使用される。マイク部１４は、発言者の発言内容を集音する装置であり、受話部分である。
【００４０】
［動作］
次に、上記構成の携帯電話の動作を、図４乃至図６を参照して説明する。以下では、まず、図４を参照して全体動作の概要を説明し、続いて、図５を参照して送信側であるユーザＡの携帯電話ａの動作を説明し、さらに、図６を参照して受信側であるユーザＢの携帯電話ｂの動作を説明する。
【００４１】
＜全体動作の概要＞
図４は、上述した携帯電話Ａ〜Ｄを使用し、PoC会議を行う様子を示したイメージ図である。ここでは、ユーザＡが発言者であり、ユーザＢが傍聴者であって、ユーザＡがユーザＢに発言要求をする様子を説明する。
【００４２】
図中の発言者（ユーザＡ）の携帯電話ａと、傍聴者（ユーザＢ）の携帯電話ｂは、PoC通信が確立されており、今、発言者Ａが発言しているところである。なお、発言の内容には、傍聴者Ｂへの発言要求となる「○○さん、発言してください」、という音声を含んでいるものとする。
【００４３】
そして、送信側の携帯電話ａでは、発言者Ａの肉声が音声データとして入力される（Ｙ１）。この段階の肉声データでは、発言者のしゃべり方の癖、声のトーン、なまり等により、例え同じ発言内容であってもデータ上では多くの差異が存在する。この個人差は、受信側の携帯電話ｂの音声認識精度の低下を招く要因であり、認識精度が低い場合には予期せぬ状況で報知動作が誤作動してしまう問題がある。従って、本実施例では、上述したように、発言者Ａの声の特徴を学習済みの送信側携帯電話ａの音声認識部を用いて、肉声データ中の発言要求部分の検出を行い、発言要求部分の音声データを合成音に変換する（Ｙ２）。すると、合成音への変換によって肉声データで介在していた個体差は除去され、受信側の携帯電話ｂでの認識精度を向上させる効果が期待できる。なお、合成音生成手法としては、音声データに特定の識別音を付加するということでもよく、発言のイントネーション変更（なまりなどの発言の癖を除去）であってもよい。
【００４４】
このように、音声データは発言要求部分が合成音化され、PoC通信網を伝わって受信側端末装置へと伝送される（Ｙ３）。すると、受信側の携帯電話ｂ内部では、受信した合成音による音声データ（「○○さん、発言してください」）をスピーカ等の鳴動装置により外部出力する（Ｙ４）と共に、音声認識部が会話中の発言要求検出を絶えず行う。そして、合成音化された発言要求を音声認識部が検出した場合（Ｙ５）には、発言要求の報知動作を行う（Ｙ６）。なお、符号Ｙ４の会話出力動作は省略し、符号Ｙ６の報知動作のみを行ってもよい。
【００４５】
＜送信側携帯電話の動作＞
次に、各携帯電話ａ，ｂにおける動作について詳述する。まず、図５のシーケンス図を参照して、発言者Ａの携帯電話ａの動作を詳述する。
【００４６】
発言者Ａによる発言は、マイク部より入力され音声データへと変換され（ステップＳ１）、メモリ部へと逐次転送される（ステップＳ２）。音声データは、メモリ部５の音声認識用のバッファに格納され（ステップＳ３）、音声認識部１０ではそのバッファに格納された音声データから音声認識処理を行う（ステップＳ４）。音声認識処理は会話が行われている間は常に動作し、発言要求となる特定キーワードの検出を行う（ステップＳ５）。
【００４７】
そして、特定キーワードの検出がされた場合は、その音声部分のデータを合成音生成部１１へと転送し（ステップＳ７）、合成音生成部１１にて合成音へと変換した後（ステップＳ８）、送信制御部７へと転送される（ステップＳ９）。一方、特定キーワードが検出されていない音声データは、そのままの肉声データとして送信制御部９へと転送される（ステップＳ６）。送信制御部７では、転送されてきたデータを符号化し、通信用アンテナ９からデータを傍聴者Ｂの携帯電話ｂに送信する（ステップＳ１０）。
【００４８】
＜受信側携帯電話の動作＞
次に、図６のシーケンス図を参照して、傍聴者Ｂの携帯電話ｂの動作を詳述する。まず、装置制御部６では、常時、発言要求の検出待ち状態にある（ステップＳ２０）。そして、通信用アンテナ９にて、上述した発言者Ａの携帯電話ａからデータを受信すると、受信制御部８は音声データを復号化する（ステップＳ２１）。その後、受信された音声データは逐次転送され（ステップＳ２２）、スピーカ部４で会話出力される（ステップＳ２９，Ｓ３０）と共に、メモリ部５の音声認識用バッファへ格納される（ステップＳ２３）。音声認識部１０では、そのバッファに格納された音声データから音声認識処理を行う（ステップＳ２４）。音声認識処理は会話が行われている間は常に動作し、発言要求となる特定キーワードの検出を行う（ステップＳ２５）。
【００４９】
そして、発言要求の検出がされた場合は、直ちに装置制御部６へと特定キーワードヒットの通知が行われ（ステップＳ２６）、装置制御部６はその通知を受け、スピーカ部４、ディスプレイ部３、LED部２、振動制御部１へと報知動作要求を行う（ステップＳ２７）。すると、この報知動作要求に応じて、各部１〜４が報知作動する（ステップＳ２８）。なお、発言要求の報知動作は、各部で同時に行ってもよく、あるいは、単独に時間をずらして行ってもよい。
【００５０】
以上のように、本実施例では、PoC会議中の「○○さんどうぞ」等の音声による発言要求を、受信側の携帯電話ｂで音声認識により自動的に検出し、装置の振動、LCD表示、LED点灯、制御音呼応等の通知手段を動作させることが可能となる。つまり、ユーザは音声だけでなく、端末装置の他動作によって発言要求を知る機会を得ることができる。従って、従来よりも確実に相手に発言要求を通知させることにより、周囲の雑音で発言要求を聞き取れなかった、または注意散漫で発言要求を聞いていなかったという状況を解消させ、円滑なコミュニケーションを図ることができる。
【００５１】
さらに、本実施例では、送信側の電話端末ａでも音声認識を行い、認識した発言要求部分の音声データを合成音へと変換することで発言者のしゃべり方の癖、なまり等の個人差を一般化させることができる。これにより、受信側の携帯電話ｂによる音声認識精度が向上し、さらなるコミュニケーションの円滑化を図ることができる。
【００５２】
なお、上記とは異なり、送信側の携帯電話ａからの発言要求音声は、合成音化されずに肉声のまま受信側の携帯電話ｂに送信されてもよい。この場合には、受信側の携帯電話ｂでは、肉声に対して音声認識を行い、発言要求の検出が行われる。このようにしても、受信側の携帯電話ｂにて、音声認識により自動的に発言要求音声が検出されるため、円滑なコミュニケーションを図ることができる。
【００５３】
また、上記とは異なり、受信側の携帯電話ｂでは音声認識が行われず、送信側の携帯電話ａからの発言要求音声が合成音化されて受信側の携帯電話ｂに送信されるのみであってもよい。このようにしても、受信側の携帯電話ｂに対して、傍聴者が聞き取りやすい（認識しやすい）合成音にて発言要求がなされるため、円滑なコミュニケーションを図ることができる。
【００５４】
なお、上述した構成は、携帯電話の構成を変更するのみで実現可能であり、現状の多者通話を可能とするPoC通信システムの改良を必要としないため、コスト面での負担が軽減される。
【実施例２】
【００５５】
次に、本発明の第２の実施例を、図７を参照して説明する。図７は、受信側の携帯電話ｂの報知動作を示すシーケンス図である。
【００５６】
仮に、音声認識の誤認識により報知動作が行われてしてしまう場合には、かえってコミュニケーションを阻害しかねない。とりわけ、振動駆動装置が動作してしまってはユーザの不満は大きい。このため、誤報によるユーザへの影響を低減させるための制御手法として、本実施例では、ユーザ報知の強さが弱い順に時間を置いて段階的に動作させることとする。例えば、上述したように、振動、LCD表示、LED点灯、音の鳴動という４つの報知手段があったとすると、LED点灯→LCD表示→音の鳴動→振動の順に行うように制御を行う。
【００５７】
具体的な動作を、図７を参照して説明する。ここでは、受信側の携帯電話ｂが、送信側の携帯電話ａからの発言要求の検出を待ち状態にあり（ステップＳ４０）、装置制御部６が発言要求を受け取り、報知手段動作部１、および報知手段動作部２を制御させようとしている状況にある。そして、装置制御部６が発言要求受け取ると（ステップＳ４１）、タイマ部１２へタイマ開始要求を行い（ステップＳ４２）、タイマ部１２は一定時間のタイマ計測を行う（ステップＳ４３）。タイマ計測を終えると、タイマ部１２は装置制御部６にカウントアップ完了通知を行う（ステップＳ４４）。そこではじめて装置制御部６は、報知動作の要求を報知手段動作部１へ通知する（ステップＳ４５）し、報知動作が行われる（ステップＳ４６）。このとき、１回目は、ＬＥＤ部２による発光といった傍聴者Ｂに対する報知強さが弱い報知器を用いて行われる。
【００５８】
同様にして、さらに時間が計測され、一定時間が経過すると、ステップＳ４７〜ステップＳ５１に示すように、２回目の報知が行われる。このときは、スピーカ部４から音による報知を行うといった、さらに報知度が強い報知器を用いて行われる。
【００５９】
このように、複数種類の報知を、時間をずらして行い、さらには、ユーザに対する報知強さを変えて段階的に報知することで、音声認識の誤認識により報知動作が行われてしてしまう場合にフェールセーフ的に作動し、誤作動によるユーザの不満を低減させる効果がある。
【実施例３】
【００６０】
次に、本発明の第３の実施例を、図８を参照して説明する。図８は、受信側の携帯電話ｂの報知動作を示すシーケンス図である。
【００６１】
本実施例では、一定時間内における発言要求の検出回数に応じて、報知方法を変えて報知する、という点に特徴を有する。つまり、装置制御部６は、一定時間内における発言要求（その一部のキーワード）が検出された回数をカウントする機能（発言要求検出回数カウント手段）を有すると共に、その回数に応じて各種の報知を行う、という機能を有する。これは、発言要求が短時間に繰り返し行われるという傾向を考慮してのことである。例えば、傍聴者Ｂが「○○さん」であった場合に、１回目の発言要求は「○○さんコメントを頂きたいと思います。」、２回目の発言要求は「では、○○さんお願いします。」、３回目の発言要求は「○○さん、聞いてますか？」といったような会話を想定しており、この場合には、検出回数をカウントする特定キーワードは、「○○さん」となる。
【００６２】
図８に示すように、まず、装置制御部６では、１回目の検出待ち（ヒット待ち）状態となっている（ステップＳ６０）。そして、特定キーワードの検出の通知がなされたら（ステップＳ６１）、タイマ部１２にタイマ開始要求がなされ（ステップＳ６２）、タイマ部１２ではタイマ計測が開始され（ステップＳ６３）、上記特定キーワードのカウントが開始される。同時に、装置制御部６は２回目のヒット待ち状態となる（ステップＳ６４）。その後、装置制御部が２回目のヒット待ち状態中に、特定キーワードヒットの通知（２回目）がなされたら（ステップＳ６５）、まずは比較的弱い報知手段を行う報知手段動作部１へ報知動作の要求（ステップＳ６６）を通知し、報知手段を動作させる（ステップＳ６７）。さらに、もう一度、特定キーワードヒットの通知（３回目）がなされたら（ステップＳ６８）、強い報知手段を行う報知手段動作部２へ報知動作の要求（ステップＳ６９）を通知し、報知手段を動作させる（ステップＳ７０）。
【００６３】
なお、図８の点線内に示すように、２回目やそれ以降のキーワードヒットが通知される前にタイマカウントアップが完了した場合には、タイマ部１２は装置制御部６へカウントアップ完了通知を行い（ステップＳ７１）、装置制御部６は１回目のヒット待ち状態へと遷移する（ステップＳ７２）。
【００６４】
これにより、より確実に発言要求を通知することができ、さらなる円滑なコミュニケーションを図ることができる。
【実施例４】
【００６５】
次に、本発明の第３の実施例を、図９を参照して説明する。上記では、発言要求の音声認識処理を、各携帯電話ａ，ｂにて行っていたが、かかる処理をPoCサーバシステム２０で実行させてもよい。つまり、上述した携帯電話ｂが有する音声認識部１０（発言要求音声認識手段、発言要求検出手段）を、サーバシステム２０が備えており、さらに、発言要求を検出した旨を受信側の携帯電話ｂに通知する機能（報知制御手段）を備えている。
【００６６】
その動作を、図９を参照して説明する。まず、発言者（Ａ）から傍聴者（Ｂ）へ「○○さん、発言してください」という発言要求を入力すると、送信側の携帯電話ａでは、入力された発言（Ｙ１１）をそのままPoCサーバシステム２０に伝送する（Ｙ１２，Ｙ１３）。PoCサーバシステム２０では、音声認識部を備えており、上記実施例にて説明した電話端末ｂと同様に発言要求を検出し（Ｙ１４）、要求対象者となる者の携帯端末装置へと発言要求を伝える制御信号を送信する（Ｙ１５）。このとき、音声データもそのまま送信する。そして、この制御信号を受け取った携帯端末ｂでは、会話出力中（Ｙ１６）に発言要求の報知（Ｙ１７，Ｙ１８）が動作する。
【００６７】
これにより、音声認識処理をサーバシステム２０に実行させることができるため、上述した効果を得ることができると共に、携帯電話ａ，ｂでの処理負担の軽減を図ることができる。
【実施例５】
【００６８】
次に、本発明の第５の実施例を、図１０乃至図１１を参照して説明する。図１０乃至図１１は、携帯電話の構成を示す図である。
【００６９】
本実施例における携帯電話は、特に、発言権を有し、他のユーザに対して発言要求を行う送信側の携帯電話ａである。そして、基本的には、図２に示すように上述した実施例における携帯電話ａ，ｂと同様の構成であるが、図１０及び図１１に示すように、さらに、キーボード部１５を装備している点で異なる。そして、このキーボード部１５の各キーには、図１１に示すように、PoC会議参加者と、参加者を判別可能な制御音声と、が関連付けられており、かかる関連付け情報があらかじめ制御音変換テーブル５１として、メモリ部５に格納されている。なお、かかる関連付けは、ユーザＡによって行われる。
【００７０】
そして、発言者Ａは、発言要求を行いたい相手がいた場合、その者に対応したキーを押下（Ｙ２１）することで、対応制御音が合成音生成部１１にて生成される。そして、かかる制御音は、各参加者で個別のものであるため、受信側の電話端末ｂでは、音声認識処理により、他のユーザＢに対する発言要求であることを検出することができる。つまり、制御音は、上述した発言要求の合成音として機能する。
【００７１】
このようにすることで、送信側の携帯電話ａでは、「○○さんお願いします」という発言要求を喋らずとも、キー押下のみで発言要求を行うのと同じ効果を得られる。なお、この機能は、上述した音声による発言要求を発する際に、補助的に利用されてもよい。つまり、音声に基づいて生成された合成音による発言要求と共に、上記制御音を送信してもよい。
【産業上の利用可能性】
【００７２】
本発明は、携帯電話機、PHS（Personal Handyphone System）、PDA（Personal Data Assistance，Personal Digital Assistants：個人向け携帯型情報通信機器）等の携帯端末装置やPC（Personal Computer）等の通信機能を備えており、多者通話が可能である端末装置に利用することができ、産業上の利用可能性を有する。
【図面の簡単な説明】
【００７３】
【図１】多者通話システムの全体構成を示す概略図である。
【図２】実施例１における携帯電話の構成を示すブロック図である。
【図３】携帯電話に記憶されている発言要求キーワードの一例を示す図である。
【図４】実施例１における多者通話時の様子を示す説明図である。
【図５】実施例１における多者通話時の動作を示すシーケンス図である。
【図６】実施例１における多者通話時の動作を示すシーケンス図である。
【図７】実施例２における多者通話時の動作を示すシーケンス図である。
【図８】実施例３における多者通話時の動作を示すシーケンス図である。
【図９】実施例４における多者通話時の様子を示す説明図である。
【図１０】実施例５における携帯電話の構成を示すブロック図である。
【図１１】実施例５における多者通話時の様子を示す説明図である。
【符号の説明】
【００７４】
１振動駆動装置部
２ＬＥＤ部
３ディスプレイ部
４スピーカ部
５メモリ
６装置制御部
７送信制御部
８受信制御部
９通信用アンテナ
１０音声認識部
１１合成音生成装置部
１２タイマ部
１３内部バス
１４マイク部
１５キーボード部
Ａユーザ（発言者）
Ｂユーザ（傍聴者）
ａ，ｂ，ｃ，ｄ携帯電話

【特許請求の範囲】
【請求項１】
多者通話が可能な通話端末であって、
発言権を有する者の通話端末から送信された音声データを受信して音声認識する受信音声認識手段と、
この音声認識結果に基づいて前記受信した音声データが発言要求であることを検出する発言要求検出手段と、
発言要求を検出した場合にその旨をユーザに報知する報知手段と、
を備えたことを特徴とする通話端末。
【請求項２】
予め設定された発言要求文言を記憶する発言要求文言記憶手段を備えると共に、
前記発言要求検出手段は、前記記憶された発言要求文言に基づいて発言要求を検出する、
ことを特徴とする請求項１記載の通話端末。
【請求項３】
前記報知手段は、複数種類の報知を行う、ことを特徴とする請求項１又は２記載の通話端末。
【請求項４】
前記報知手段は、前記複数種類の報知を、時間をずらして行う、ことを特徴とする請求項３記載の通話端末。
【請求項５】
一定時間内における発言要求検出回数をカウントする発言要求検出回数カウント手段を備えると共に、
前記報知手段は、前記発言要求検出回数に応じて前記複数種類の報知を行う、ことを特徴とする請求項３又は４記載の通話端末。
【請求項６】
多者通話が可能な通話端末であって、
他のユーザに対する音声による発言要求の入力を受け付けて音声認識する発言要求音声認識手段と、
この音声認識された音声データに対応する合成音を生成する合成音生成手段と、
この生成された合成音からなる音声データを前記他のユーザの通話端末に送信する発言要求送信手段と、
を備えたことを特徴とする通話端末
【請求項７】
予め設定された発言要求文言を記憶する発言要求文言記憶手段を備えると共に、
前記合成音生成手段は、前記記憶された発言要求文言に基づいて特定の音声データのみに対応する合成音を生成する、
ことを特徴とする請求項６記載の通話端末。
【請求項８】
予め操作者の音声特徴を表す音声特徴データを記憶する音声特徴データ記憶手段を備えると共に、
前記発言要求音声認識手段は、前記音声特徴データに基づいて音声認識を行う、
ことを特徴とする請求項６又は７記載の通話端末。
【請求項９】
請求項１乃至５記載の通話端末と、請求項６乃至７記載の通話端末と、を備えた、ことを特徴とする多者通話システム。
【請求項１０】
多者通話が可能な通話端末にネットワークを介して接続されたサーバコンピュータであって、
前記サーバコンピュータが、前記発言権を有する者の通話端末から送信された他のユーザに対する音声による発言要求を受信して音声認識する発言要求音声認識手段と、
この音声認識結果に基づいて前記受信した音声データが発言要求であることを検出する発言要求検出手段と、
発言要求を検出した場合にその旨を前記他のユーザの通話端末に報知する報知制御手段と、
を備えたことを特徴とするサーバコンピュータ。
【請求項１１】
多者通話が可能な通話端末に装備された演算装置に、
発言権を有する者の通話端末から送信された音声データを受信して音声認識する受信音声認識手段と、
この音声認識結果に基づいて前記受信した音声データが発言要求であることを検出する発言要求検出手段と、
発言要求を検出した場合にその旨を前記通話端末に装備された報知器を介してユーザに報知する報知制御手段と、
を実現させるためのプログラム。
【請求項１２】
多者通話が可能な通話端末に装備された演算装置に、
他のユーザに対する音声による発言要求の入力を受け付けて音声認識する発言要求音声認識手段と、
この音声認識された音声データに対応する合成音を生成する合成音生成手段と、
この生成された合成音からなる音声データを前記他のユーザの通話端末に送信する発言要求送信手段と、
を実現させるためのプログラム。
【請求項１３】
通話端末を用いた多者通話方法であって、
発言要求を受けるユーザの通話端末が、発言権を有する者の通話端末から送信された音声データを受信して音声認識する受信音声認識工程と、この音声認識結果に基づいて前記受信した音声データが発言要求であることを検出する発言要求検出工程と、発言要求を検出した場合にその旨を通信端末に装備された報知器を介してユーザに報知する報知工程と、
を有することを特徴とする多者通話方法。
【請求項１４】
前記発言要求検出工程は、発言要求文言記憶手段に予め記憶された発言要求文言に基づいて発言要求を検出する、
ことを特徴とする請求項１３記載の多者通話方法。
【請求項１５】
前記報知工程は、複数種類の報知を、時間をずらして行う、ことを特徴とする請求項１３又は１４記載の多者通話方法。
【請求項１６】
前記報知工程は、一定時間内における発言要求検出回数をカウントすると共に、この発言要求検出回数に応じて複数種類の報知を行う、
ことを特徴とする請求項１３，１４又は１５記載の多者通話方法。
【請求項１７】
前記受信音声認識工程の前に、発言権を有する者の通話端末が、他のユーザに対する音声による発言要求の入力を受け付けて音声認識する発言要求音声認識工程と、この音声認識された音声データに対応する合成音を生成する合成音生成工程と、この生成された合成音からなる音声データを前記他のユーザの通話端末に送信する発言要求送信工程と、
を有することを特徴とする請求項１３，１４，１５又は１６記載の多者通話方法。
【請求項１８】
前記合成音生成工程は、発言要求文言記憶手段に予め記憶された発言要求文言に基づいて特定の音声データのみに対応する合成音を生成する、
ことを特徴とする請求項１７記載の多者通話方法。
【請求項１９】
前記発言要求音声認識工程は、音声特徴データ記憶手段に予め記憶された操作者の音声特徴を表す音声特徴データに基づいて音声認識を行う、
ことを特徴とする請求項１７又は１８記載の多者通話方法。

【図１】