説明

電話会議システム、方法、およびコンピュータ・プログラム製品

電話会議システムは、電話会議中に音信号の少なくとも2つの入力ストリームをそれぞれ別の供給源から受信するための入力インターフェースを備える。ある数の中心的話者のストリームを入力ストリームから選択するための選択ユニットが入力インターフェースに接続されており、数は中心的話者最大数以下であり、中心的話者のストリームはそれぞれ、対応する中心的話者からの話し言葉を表わす。選択されたストリームを混合して出力ストリームにするための混合器が選択ユニットに接続されている。電話会議システムは、出力ストリームを出力するための出力インターフェースと、選択ユニットおよび入力インターフェースに接続された、電話会議中に電話会議の動態に基づいて中心的話者最大数を動的に設定するための選択制御ユニットとを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電話会議システムおよび方法、ならびにコンピュータ・プログラム製品に関する。
【背景技術】
【0002】
現在の音声会議システムでは、会議ブリッジにおける話者選択アルゴリズムが、能動的話者を検出し、能動的話者または能動的参加者に対する音声を混合することによって出力ストリームを形成する。能動的ストリームを次に、電話会議上の参加者に通信する。しかし能動的話者を選択することには、所定数の最も能動的な話者(一般的に、中心的話者と言われる)を、能動的話者が位置する電話通信エンド・ポイントから受信する音声通信のエネルギー・レベルに基づいて選択することを伴う。中心的話者からの話し言葉が受信されると、すべての他の話者は話者選択アルゴリズムから除かれる。
【0003】
たとえば、特許文献1には、多者間電話会議における話者選択を提供するための方法および装置が記載されている。この方法は、少なくとも1人の新しい話者に対する話者待ち行列を処理する工程と、中心的話者の数が中心的話者の所定数よりも少なくなるときをモニタする工程とを備えている。中心的話者の所定数が所定数よりも少なくなったら、この方法では自動的に、人の介入なしに、話者待ち行列から新しい話者を中心的話者に加える。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】米国特許出願公開第2007/263821号明細書
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の話者選択アルゴリズムでは結局、故意に、中心的話者の1人がしばらくの間黙っている状況になるまで、新しい話者が参加できないようになっている。こうすることで割り込みはなくなるが、中心的話者が話し続けていると、新しい話者が話す機会もなくなってしまう。
【課題を解決するための手段】
【0006】
本発明では、添付の請求項に記載されているように、電話会議システム、電話会議方法、およびコンピュータ・プログラム製品を提供する。
本発明の特定の実施形態を従属請求項において述べている。
【0007】
本発明のこれらおよび他の態様は、以下に説明する実施形態から明らかとなり、それらを参照して明瞭になる。
本発明のさらなる詳細、態様、および実施形態を、図面を参照して、単に一例として説明する。図面では、同様の参照番号を用いて、同様のまたは機能的に同様の要素を識別している。図中の要素は、簡単および明瞭を目的として例示されており、必ずしも一定の比率で描かれているわけではない。
【図面の簡単な説明】
【0008】
【図1】電話会議システムの実施形態の一例を概略的に示すブロック図。
【図2】図1の例に適した選択制御ユニットの実施形態の一例を概略的に示すブロック図。
【図3】新規中心的話者検出器の実施形態の一例を概略的に示すブロック図。
【図4】減少評価ユニットの実施形態の一例を概略的に示すブロック図。
【図5】コンピュータ読取可能媒体を概略的に示す斜視図。
【図6】近い過去、遠い過去、および全体過去時間窓を概略的に例示するグラフ。
【図7】音量を分類手段として用いて入力ストリームを異なるカテゴリに分類することを概略的に例示するグラフ。
【図8】入力ストリーム間の音量の差を分類部として用いて入力ストリームを異なるカテゴリに分類することを概略的に例示するグラフ。
【発明を実施するための形態】
【0009】
本発明の例示する実施形態は、大部分について、当業者に知られている電子部品および回路を用いて実施しても良いため、詳細の説明については、本発明の基礎をなす考え方を理解および認識するのに必要であると考えられかつ本発明の教示を不明瞭にすることもそこからそれることもないようにする範囲を何ら上回っては行なわない。
【0010】
図1を参照して、図示した電話会議システム1の例は、入力インターフェース14を備えている。電話会議中に、音を含む2以上の入力ストリーム101〜103が、インターフェース14において受信される。入力ストリームはそれぞれ、別の供給源10〜12(たとえば、話者の電話機または他の通信ユニット)から生じる。これらの入力ストリーム以外に、他の入力ストリームを受信しても良いことは明らかである。他の入力ストリームは、同じ供給源から生じていても良いしそうでなくても良い。加えて、複数の人が同じ電話機または他の音通信ユニットを共有していても良いことが明らかである。以下では、用語「中心的話者」は、1人または複数の人が用いても良い「中心的話者」として選択される供給源を指す。用語「非中心的話者」は、中心的話者に対する基準を満たす挙動を示す場合も示さない場合もあるが、中心的話者としては選択されない供給源を指す。用語「追加の中心的話者」は、中心的話者に対する基準を満たす挙動を示すが、まだ中心的話者としては選択されていない供給源を指す。
【0011】
入力ストリームはそれぞれ、少なくとも供給源からの音を表わすデータまたは信号を含んでおり、またそれ以外に、映像或いはデータ又はその両方を含んでいても良い。音は、たとえば音声(たとえば、話し言葉)からなっていても良く、他のタイプの音(たとえば、周囲のノイズ、音声以外の音、周囲の讚談)も含んでいても良い。音は、たとえば、フィルタリングされていなくても良いし、または望ましくない成分(たとえばノイズ、音声以外の音、周囲の讚談、等)を取り除くためにフィルタリングされていても良い。
【0012】
図1に示す電話会議システム1はさらに、入力インターフェース14に接続された選択ユニット15を備えている。選択ユニット15は、システム1が動作時に、ある数の中心的話者のストリームを入力ストリーム101〜103から選択する。選択される数Kは、中心的話者最大数Kmax以下である。例に示すように、中心的話者最大数Kmaxは2に設定され、中心的話者最大数に等しいある数の入力ストリーム102、103が選択される。しかし、中心的話者最大数より小さい数を選択しても良い。
【0013】
選択は、中心的話者のストリームの選択に適した任意の基準を用いて行なっても良い。たとえば、選択は、Kmax数の最大音量ストリームを選択することによって、人の干渉を伴うことなく自動的に行なっても良い。この点に関して、用語「最大音量」は、対象とする信号の最高強度が観察されるストリームを指す。対象とする信号は、たとえば、全体として音信号であっても良いし、または周囲のノイズおよび音声以外の部分を伴わない音信号の一部(たとえばその音声部分)であっても良い。対象とする信号は、たとえば、一または複数の時間周期に渡って取得しても良く、たとえば、一または複数の時間窓の間の音量を選択基準として用いても良い。
【0014】
たとえば、音量数λを各ストリーム中の音に対して演算しても良く、Kmax個の最高音量数λ,λ,...,λKmaxを伴うストリームを選択しても良い。音量数を計算するための好適な方法が、以下に記載されている。プラサード,ベンカテッシュ(Prasad, Venkatesha)R.、クリ,ジョイ(Kuri, Joy)、ジャマダグニ(Jamadagni),HS、ダガール,ハレッシュ(Dagale, Haresh)、およびラブンドラナート,ラビ(Ravindranath, Ravi)A.、「VoIP会議におけるクライアントの自動付加および削除(Automatic Addition and Deletion of Clients in VoIP Conferencing)」、ISCC、0386頁、第6回コンピュータおよび通信に関するIEEEシンポジウム(Sixth IEEE Symposium on Computers and Communications)(ISCC’01)、2001年。これは、以下、「ISCC2001ペーパ」と言い、本明細書において援用されている。
【0015】
音量数λは、たとえば、入力ストリームの現在および過去の振幅の関数であっても良い。ストリームiの音量数λは、たとえば、「近い過去」窓Wrpの間の現在活動状態L、「遠い過去」窓Wdpにおける過去活動状態L、および「全体過去」窓Wopにおける全体過去活動状態Lから、算出することができる。現在活動状態Lは、たとえば、近い過去窓Wrpの間の振幅の移動平均であっても良い。過去活動状態Lは、たとえば、遠い過去窓Wdpの間の振幅の移動平均であっても良い。過去活動状態Lは、たとえば、遠い過去窓Wdpの間の振幅の移動平均であっても良い。全体過去活動状態Lは、たとえば、遠い過去窓Wapの間の振幅の移動平均であっても良い。
【0016】
図6に例示したように、「近い過去」窓Wrpは、現在の時点Tから、現在の時点Tより前の過去の時点T−1まで広がっていても良い。「遠い過去」窓Wdpは、たとえば、現在の時点Tから、過去の時点T−1より前の遠方の時点T−2まで広がっていても良い。「全体過去」窓Wopは、たとえば、現在の時点Tから、遠方の時点T−2より前のより遠方の時点T−3まで広がっていても良い。
【0017】
活動状態L、L、Lは、たとえば、以下の数式によって記述可能な演算を行なうことによって計算しても良い。
【0018】
【数1】

ここで、Xk,iは、i番目の入力ストリームのk番目のサンプルの振幅である。Θは、入力ストリーム中に見出される最大振幅max(X(k))に対して作用する二項演算であり、たとえば、以下の数式によって記述可能な演算を行なうことによって計算しても良い。
【0019】
【数2】

この方程式(2)において、値0.1は閾値である。この値は、特定の実施に適した任意の値に設定しても良く、たとえば、01.および0.2ならびに0.1〜0.2間のすべての中間点からなる群から選択しても良い。
【0020】
音量数λは、たとえば活動状態L、L、Lの加重和であっても良く、また、たとえば以下の数式によって記述可能な演算を行なうことによって計算しても良い。
A=α*L+α*L+α*L (3)
ここで、α、α、αは、好適な値を伴う定数である。好適な値は、たとえば、α=0.6、α=0.3、α=0.3であることが分かっているが、他の値を用いても良い。
【0021】
中心的話者のストリームは、別の仕方で選択しても良い。たとえば、入力ストリーム中の話し言葉の内容に基づいて選択しても良く、たとえば、特許文献1に記載された方法、または任意の他の好適な方法で選択しても良い。
【0022】
図1に示す例では、混合器16が選択ユニット15に接続されている。混合器16は、動作時には、選択されたストリームを混合して出力ストリーム110にする。図示したように、出力インターフェース17が混合器16に接続されていて、出力ストリーム110を受信している。出力インターフェース17を介して、出力ストリーム110は、電話会議システム1に接続された一または複数の通信ユニットに出力される。この例では、供給源10〜12を構成する通信ユニットに出力される。こうして、図示した通信ユニットを介して、電話会議に参加している人は、他の参加者に対して、話すことおよび聴くことの両方を行なうことができる。出力ストリーム110は、参加者が聴くことだけができる他の通信ユニットに出力される場合もあることは明らかである。たとえば話者ユニットが「無言」状態にある通信ユニット、またはそこからの入力ストリームが中心的話者のストリームとしては選択されない通信ユニットである。たとえば、参加者が多数で話者の数が限られている電話会議において、出力ストリームをネットワーク内に一斉送信してすべての参加者に送っても良い。
【0023】
図示した例では、出力インターフェース117は、出力ストリーム110を複数のストリーム111〜113に分割している。しかし、代替的に、出力インターフェース117が出力ストリーム110を出力した後に、対応する通信ユニットに、電気通信網内の別のノードによってさらに分配しても良い。
【0024】
図1の例では、選択ユニット14および入力インターフェース15に接続された選択制御ユニット18が示されている。選択制御ユニット18は、電話会議中に、中心的話者最大数Kmaxを、会議の動態に基づいて動的に設定する。その結果、新しい中心的話者を加えることができ、それによって、ある時点で中心的話者である一または複数の参加者によって、通話中に話そうと試みている電話会議内の他の参加者からの入力ストリームが遮断されることが回避される。
【0025】
選択制御ユニット18は、中心的話者最大数Kmaxを、会議の動態に基づいて、特定の実施に適した何らかの方法で設定するように実施しても良い。たとえば、選択制御ユニット18は、中心的話者最大数Kmaxを、音量が所定の閾値を上回る入力ストリームの数に等しくなるように、または任意の他の好適な仕方で、設定しても良い。
【0026】
図2を参照して、選択制御ユニット18は比較器181を備えていても良い。図示したように、メモリ・ユニット303が比較器181に接続され、比較器はさらに、入力インターフェース14に接続されている。メモリ303には、中心的話者最大数Kmaxが記憶される。
【0027】
比較器181は、入力ストリーム101〜103を比較して、中心的話者のストリームを入力ストリーム101〜103から選択することができる。中心的話者のストリームを選択するための好適な技術が、以下に記載されている。プラサード、ベンカテッシュR.、ジャマダグニ,HS、およびシャンカール,HN:「パケット・ネットワーク上での音声のみの会議に対する参加者の数を規定する問題について(On Problem of Specifying Number of Floors for a Voice-Only Conference on Packet Networks)」、情報技術に関する国際会議:研究および教育(International Conference on Information Technology: Research and Education)2003.ITRE2003、8月11日〜13日、ニュージャージー州、米国、22〜26。これは、以下、「ITRE2003ペーパ」と言い、本明細書において参照により取り入れられている。比較器181が選択する入力ストリームは、たとえば、入力ストリーム対する音量数λが、中心的話者のストリームの代表的な所定の閾値を上回る入力ストリームであっても良い(最大数Kmaxまで)。閾値を上回る入力ストリームの数が、前述したKmaxを上回る場合には、比較器181は、たとえば、入力ストリームを比較して、最も高い音量数を伴うKmax数の入力ストリームを選択しても良い。比較器181は、比較を周期的に繰り返しても良く、そうすることによって、中心的ストリームが選択されたままでいることが、対応する入力ストリームにもはや音声が含まれていない場合であっても行なわれることが回避される場合がある。
【0028】
図示した例では、比較器181は、入力インターフェース14に個々の計算部188〜190を介して接続されている。計算部188〜190は、たとえば前述したように、入力ストリームのそれぞれに対して、音量値λを、音の音量を表わす対応する入力ストリームのパラメータから計算するように設けられている。図示した例では、別個の計算部が各入力ストリーム101〜103に対して存在し、計算部188〜190は入力インターフェース14に接続されている。計算部188〜190のそれぞれに対して、音声検出器185〜187が、その入力が入力インターフェース14に接続されている。音声検出器185〜187は、入力ストリーム101〜103中の音声を検出することができる。音声検出器185〜187は、音声が検出されたときには、対応する計算部188〜190を有効にし、音声が検出されなかったときには、対応する計算部188〜190を無効にするか、そのほかの場合には、計算部が最も小さい音量数を出力することを確実にする。その結果、音声信号が受信された入力ストリームのみを、比較器181は潜在的に選択することができる。音声検出器185〜187は、音声の検出に適した任意の方法で実施しても良い(たとえば、当該技術分野で知られているもの)。なお簡単にするために、これ以上は詳しくは説明しない。好適な実施が以下に記載されている。たとえばプラサード、ベンカテッシュR.、サンワン(Sangwan)、アビジート(Abhijeet)、ジャマダグニ,HS、チランス(Chiranth),MC、およびサー,ラフール(Sah, Rahul)、「VoIPに対する音声活動検出アルゴリズムの比較(Comparison of Voice Activity Detection Algorithms for VoIP)」、第7回コンピュータおよび通信に関する国際シンポジウム(Seventh International Symposium on Computers and Communications)、2002年.ISCC2002、7月1日〜4日、タオルミーナ・ジャルディーニ・ナクソス(Taormina-Giardini Naxos)、イタリア、530〜535頁。これは、以下、「ISCC2002ペーパ」と言い、本明細書において参照により取り入れられている。
【0029】
選択制御ユニット18は、たとえば、第1の論理回路ユニット301および第2の論理回路ユニット302を備えていても良い。図示した例では、論理回路ユニット301、302は、それらの対応する入力がインターフェース14に接続されている。論理回路ユニット301、302は、それらの出力が、中心的話者最大数Kmaxが記憶されたモリ・ユニット303に接続されている。
【0030】
図3および4を参照して以下でより詳細に述べるように、第1の論理回路ユニット301は、中心的話者増加基準が満足されたときに、中心的話者最大数Kmaxを増加させても良く、一方で、第2の論理回路ユニット302は、中心的話者減少基準が満足されたときに、中心的話者最大数を減少させても良い。
【0031】
第1の論理回路ユニット301は、たとえば、新規話者検出器180に接続されていても良い。図示した例では、新規話者検出器によって、第1の論理回路ユニット301が入力インターフェース14に接続されている。しかし、他のユニットが第1の論理回路ユニット301と入力インターフェース14との間に存在していても良いことは明らかである。
【0032】
新規中心的話者検出器180は、入力ストリームから、追加の中心的話者のストリーム(すなわち、中心的話者のストリームとして選択された入力ストリームに追加)を、検出することができる。検出器180が追加の中心的話者のストリームを検出すると、検出器180は、追加の中心的話者通知を第1の論理回路ユニット301へ出力する。第1の論理回路ユニット301は次に、たとえば、通知に応答して、中心的話者最大数を増加させるか否かを決定する。たとえば、中心的話者の現在の数が中心的話者最大数Kmaxを下回っているときには、第1の論理回路ユニット301は中心的話者最大数を現状のままに維持しても良く、また中心的話者の現在の数が中心的話者最大数に等しいときには、第1の論理回路ユニット301は値Kmaxを1だけ増加させても良い。
【0033】
新規中心的話者検出器180は、追加の中心的話者のストリームを、特定の実施に適した任意の方法で検出することができる。そうするために、新規中心的話者検出器180は、入力ストリームの一または複数のパラメータを、追加の中心的話者のストリームの検出に適した一または複数の基準と比較することができる。
【0034】
パラメータは、たとえば音量であっても良い。図3に示す例を参照して、新規中心的話者検出器180は、たとえば、入力インターフェース14に接続されたに一または複数の計算部188〜190を備えていても良い。計算部は、入力ストリームの101〜103それぞれに対して、音量値λ、λ、λを、音の音量を表わす対応する入力ストリームのパラメータから計算する。図示した例では、対応する計算部188〜190として、計算部入力が新規中心的話者検出器180の対応する検出器入力182〜183に接続された計算部188〜190が存在する。検出器入力182〜183において、入力ストリーム101〜103が受信されていても良い。
【0035】
図示した例では、新規中心的話者検出器180はさらに音声検出器185〜187を備えている。それらの入力は検出器入力182〜183に接続され、それらの出力は計算部188〜190の対応する制御入力に接続されている。音声検出器185〜187は、入力ストリームの一または複数のパラメータを、入力ストリーム中の音声の検出に適した基準と比較する。新規中心的話者検出器180は、以前は音声が含まれていなかった入力ストリーム中に音声が検出されたときに、対応する計算部を有効にする。その結果、音声を含む入力ストリームのみを中心的話者として割り当てることができること、および、たとえば、ノイズまたは音声以外の音(たとえば、音楽)に起因する高音振幅を伴う入力ストリームが非中心的状態のままでいるために、電話会議の全体的品質を向上させることができること、が確実になる場合がある。図3の例では、音声検出器185〜187を入力ストリーム101〜103のそれぞれに対して示しているが、音声検出器185〜187を代替的に入力ストリームの一部(たとえば、その非中心的話者のストリーム)のみに適用しても良いことが明らかである。
【0036】
図示した新規中心的話者検出器180はさらに、計算部に接続された分類部191を備えている。分類部191は、入力ストリーム101〜103の非中心的ストリームを、少なくとも対応する非中心的ストリームiに対応する音量値λに基づいて、一または複数のカテゴリM〜M、N〜Nに分類する。図示した例では、分類部191は、入力ストリームを、2組のM〜MおよびN〜Nの個々のカテゴリに分類する。第1の組M〜Mへの分類は音量値λに基づき、一方で、第2の組N〜Nへの分類は差分音量値Δλに基づいている。差分音量値Δλは、音量値λと、最新の中心的話者が選出された時点で選出された最新の中心的話者の音量値λとの間の差である。図7に、音量値λの関数としてのカテゴリM〜Mのグラフを示す。図7に、差分音量値Δλの関数としてのカテゴリN〜Nのグラフを示す。垂直軸は、重み係数W、Wを示す。これらはそれぞれ、音量値λおよび差分音量値Δλの関数である。図示したように、上限および下限T1〜T5によって、個々のカテゴリM〜Mに対する入力ストリームのメンバーシップが決定される。上限および下限P1〜P6によって、個々のカテゴリN〜Nに対する入力ストリームのメンバーシップが決定される。
【0037】
たとえば、T2の音量値λに対して、入力ストリームiは、W=1を伴うカテゴリM2に分類される。T3の音量値λに対して、入力ストリームは、W=1を伴うカテゴリM3に分類される。T2とT3との間の音量値λに対しては、たとえば、λ=Aに対しては、入力ストリームはカテゴリM2およびM3に分類され、M2に対する重み係数はWm2(A)(実線によって規定される)で、M3に対する重み係数はWm3(A)(破線によって規定される)である。
【0038】
図示した新規中心的話者検出器180はさらに、分類部191に接続された検出器論理ユニット192を備えている。動作中に、検出器論理ユニット192は、分類に基づいて一または複数のルールを評価して、ルールのそれぞれに対して評価値を決定する。たとえば、検出器論理ユニット192は、以下のルールR0〜R19を評価しても良い。ここで、iは入力ストリームiを指す。
【0039】
R0:(i∈M2&i∈N1)を満たす場合、D=1又は
R1:(i∈M2&i∈N2)を満たす場合、D=1又は
R2:(i∈M2&i∈N3)を満たす場合、D=1又は
R3:(i∈M3&i∈N1)を満たす場合、D=1又は
R4:(i∈M3&i∈N2)を満たす場合、D=1又は
R5:(i∈M3&i∈N3)を満たす場合、D=1又は
R6:(i∈M3&i∈N4)を満たす場合、D=1又は
R7:(i∈M3&i∈N5)を満たす場合、D=1又は
R8:(i∈M4&i∈N1)を満たす場合、D=1又は
R9:(i∈M4&i∈N2)を満たす場合、D=1又は
R10:(i∈M4&i∈N3)を満たす場合、D=1又は
R11:(i∈M4&i∈N4)を満たす場合、D=1又は
R12:(i∈M4&i∈N5)を満たす場合、D=1又は
R13:(i∈M5&i∈N1)を満たす場合、D=1又は
R14:(i∈M5&i∈N2)を満たす場合、D=1又は
R15:(i∈M5&i∈N3)を満たす場合、D=1又は
R16:(i∈M5&i∈N4)を満たす場合、D=1又は
R17:(i∈M5&i∈N5)を満たす場合、D=1又は
R18:(i∈M5&i∈N6)を満たす場合、D=1又は
R19:i∈M6を満たす場合、D=1
検出器論理ユニット192は、これらのルールのそれぞれに対して、評価値Eを計算しても良い。計算は、たとえば、E=D*(WM(q)+WN(q))によって記述可能な計算を行なうことによって実施する。ここで、WM(q)およびWN(q)は、ルールqにおいて用いるカテゴリMおよびNに対する重み係数を表わす。たとえばR18の場合、図7および8に例示したようにλ=A、Δλi=Bと仮定するならば、i∈M2およびi∈N3であり、その結果、E18=D18*(WM2(A)+WN3(B))となるであろう。
【0040】
図示した新規中心的話者検出器180はさらに、検出器論理ユニット192に接続された加算器193と、加算器193に接続された比較器194とを備えている。加算器193は、検出器論理ユニット192から評価値を受信し、評価値E、E、...、Eを加算して合計値Σを得る。比較器194は次に、合計値Σを閾値Trと比較して、合計値Σが閾値Trを上回っていたら、検出器出力195において中心的話者最大数増加通知を出力する。
【0041】
再び図2を参照して、第2の論理回路ユニット302は、減少評価ユニット200に接続されていても良い。減少評価ユニット200は、中心的話者のストリームのうちの1つまたは複数、中心的話者のストリームの1つまたは複数のパラメータを、所定の中心的話者最大数減少基準と比較して、パラメータが所定の中心的話者最大数減少基準を満足していたら、第2の論理回路ユニット302に中心的話者最大数減少通知を出力するように、設けられても良い。通知に応答して、第2の論理回路ユニット302は、メモリ303に記憶された中心的話者最大数を減少させることができる。
【0042】
図4の例では、減少評価ユニット200は、入力インターフェース14に接続された音声検出器204〜206を備えている。音声検出器204〜206は、動作中に、中心的話者のストリーム中の音声を検出する。
【0043】
第2の論理回路ユニット302はさらに、入力インターフェース14に接続された音量比較器211を備えている。音量比較器211は、中心的話者のストリームのうちの一または複数における少なくとも音声の強度を音量閾値と比較する。図4の例には、対応する計算部207〜209が含まれている。これらは、たとえば前述したように、入力ストリームのそれぞれに対して、音量値λを、音の音量を表わす対応する入力ストリームのパラメータから計算するように設けられている。図示した例では、別個の計算部が各入力ストリームに対して存在し、計算部は入力インターフェース14に接続されている。計算部207〜209のそれぞれに対して、音声検出器204〜206が、その入力が入力インターフェース14に接続されている。音声検出器204〜206は、入力ストリーム中の音声を検出して、音声が検出されたときには、対応する計算部207〜209を有効にし、音声が検出されなかったときには、対応する計算部207〜209を無効にするか、そのほかの場合には、計算部から閾値Trを下回る音量数が出力されることを確実にすることができる。
【0044】
中心的話者のストリームの1もしくは複数において音声が検出されない場合、或いは中心的話者のストリームの1もしくは複数に対して強度が音量閾値Trを下回っていると音量比較器211が判定した場合、又はその両方である場合、減少評価ユニット200は、通知を第2の論理回路ユニット302に出力する。通知に応答して、第2の論理回路ユニット302は次に、中心的話者最大数Kmaxを減少させることができる。通知を発生させるために、図示した例には、ORゲート213が含まれている。ORゲート213は、第1の入力ポートが比較器211に接続され、第2の入力ポートが音声検出器に接続されている。中心的話者のストリームの一または複数に対して、強度が音量閾値Trを下回っていると音量比較器211が判定した場合、第1の入力ポートは音量比較器211によってアサートされる。音声検出器204〜206のうち一または複数において音声が検出されなかった場合、第2の入力ポートがアサートされる。ORゲート213は、入力ポートのうちの少なくとも1つがアサートされたときには、2値の1の形式で通知を出力し、入力ポートがアサートされないときには、何も出力しない(2値の0の形式)。
【0045】
図4に示す減少評価ユニット200はさらに、セレクタ210、212を備えている。セレクタ210、212は、比較器213への入力として選出された最新の中心的話者のストリームの計算部207〜209と音声検出器204〜206とに、それぞれ接続されている。したがって、この例では、最新の中心的話者のストリームのパラメータのみが評価を受ける。しかし、減少評価ユニット200は、代替的に他の中心的話者のストリームを評価しても良く、たとえば中心的話者のストリームのそれぞれに対して専用の比較器および音声検出器を備えていても良い。
【0046】
本発明はまた、コンピュータ・システム上で実行するためのコンピュータ・プログラムであって、少なくともコード部分として、プログラマブル装置(たとえばコンピュータ・システム)上で実行されたときに本発明による方法の工程を行なうためのコード部分、またはプログラマブル装置が本発明による装置またはシステムの機能を行なえるようにするためのコード部分を含むコンピュータ・プログラムにおいて実施しても良い。
【0047】
コンピュータ・プログラムは、特定のアプリケーション・プログラムやオペレーティング・システムなどの命令のリストである。コンピュータ・プログラムには、たとえば以下のうちの一または複数が含まれていても良い。サブルーチン、ファンクション、プロシジャー、オブジェクト・メソッド、オブジェクト・インプリメンテーション、実行可能なアプリケーション、アプレット、サーブレット、ソース・コード、オブジェクト・コード、共有ライブラリ/ダイナミック・ロード・ライブラリや他の命令列であって、コンピュータ・システム上での実行用にデザインされたもの。
【0048】
コンピュータ・プログラムは、コンピュータ読取可能な記憶媒体上で内部的に記憶しても良いし(たとえば、図5に示すように)、またはコンピュータ読取可能な伝送媒体を介してコンピュータ・システムに送信しても良い。コンピュータ・プログラムの全部または一部を、情報処理システムに永続的に、取り外し可能に、または遠隔に結合されたコンピュータ読取可能媒体上に与えても良い。コンピュータ読取可能媒体は、たとえば、読み出し用の容器内に配置するコンピュータ読取可能媒体であっても良く、たとえば、限定することなく、以下のうちの任意の数を含んでいても良い。磁気記憶媒体(たとえば、ディスクおよびテープ記憶媒体)、光記録媒体たとえばコンパクト・ディスク媒体(たとえば、CD−ROM、CD−Rなど)およびデジタル・ビデオ・ディスク記憶媒体、不揮発性メモリ記憶媒体たとえば半導体ベースのメモリ・ユニット(たとえば、フラッシュ・メモリ、EEPROM、EPROM、ROM)、強磁性デジタル・メモリ、MRAM、揮発性記憶媒体(たとえば、レジスタ、バッファまたはキャッシュ、メイン・メモリ、RAMなど)。コンピュータ読取可能媒体はまた、データ送信媒体(たとえば、ほんの少しだけ例を挙げると、コンピュータ・ネットワーク、ポイント・ツー・ポイント電気通信機器、および搬送波伝送媒体)であっても良い。
【0049】
コンピュータ・プロセスには通常、実行(動作)プログラムまたはプログラムの一部、現在のプログラム値および状態の情報、ならびにプロセスの実行を管理するためにオペレーティング・システムが用いる資源が含まれている。オペレーティング・システム(OS)は、コンピュータの資源の共有を管理し、それら資源にアクセスするために用いられるインターフェースをプログラマに与えるソフトウェアである。オペレーティング・システムは、システム・データおよびユーザ入力を処理するとともに、応答を、タスクおよび内部システム・リソースをシステムのユーザおよびプログラムに対するサービスとして割り当てて管理することによって行なう。
【0050】
コンピュータ・システムは、たとえば、少なくとも1つの処理ユニット、関連するメモリ、およびある数の入出力(I/O)装置を備えていても良い。コンピュータ・プログラムが実行されると、コンピュータ・システムは、コンピュータ・プログラムに従って情報を処理し、結果としての出力情報をI/O装置を介して生成する。
【0051】
上述の明細書では、本発明を、本発明の実施形態の具体例を参照して説明してきた。しかし、添付の請求項で述べるような本発明のより広い趣旨および範囲から逸脱することなく、種々の変更および変形を施しても良いことが明白である。
【0052】
たとえば、図7および8に例示した線形関数の代わりに、他の関数(たとえば放物線または双曲線)を用いても良い。また、異なる数のカテゴリM、Nや入力ストリームを用いても良い。
【0053】
また、本明細書で述べたような接続部は、個々のノード、ユニット、または装置との間で、たとえば中間装置を介して、信号を転送することに適した任意のタイプの接続部であっても良い。したがって、他に暗示も記載もない限り、接続部は、たとえば、直接接続部であっても良いしまたは間接接続部であっても良い。接続部は、単一の接続部、複数の接続部、単方向性の接続部、または双方向性の接続部であることに関して例示または記載しても良い。しかし、異なる実施形態では、接続部の実施を変えても良い。たとえば、双方向性の接続部ではなく別個の単方向性の接続部を用いても良く、逆もまた同様である。また、複数の接続部の代わりに、多重信号を連続してまたは時分割方式で伝達する単一の接続部を用いても良い。同様に、多重信号を伝える単一の接続部を、これらの信号の下位集合を伝える種々の異なる接続部に分けても良い。したがって、多くのオプションが、信号の伝達に対して存在する。
【0054】
さらに、本明細書で説明した各信号を正または負論理としてデザインしても良い。負論理信号の場合、信号は、論理的に真の状態が論理レベル0に対応するアクティブ・ローである。正論理信号の場合、信号は、論理的に真の状態が論理レベル1に対応するアクティブ・ハイである。なお、本明細書で説明した信号のどれも、負または正論理信号のいずれかとしてデザインすることができる。したがって、代替的な実施形態においては、正論理信号として記述される信号を負論理信号として実施しても良く、負論理信号として記述される信号を正論理信号として実施しても良い。
【0055】
さらに、用語「アサートする」または「設定する」および「ネゲートする」(または「ディアサートする」もしくは「クリアする」)を、本明細書において、信号、ステータス・ビット、または同様の装置をその論理的に真または論理的に偽の状態にそれぞれすることに言及するときに用いている。論理的に真の状態が論理レベル1の場合には、論理的に偽の状態は論理レベル0である。また論理的に真の状態が論理レベル0の場合には、論理的に偽の状態は論理レベル1である。
【0056】
当業者であればさらに分かるように、論理ブロック間の境界は単に例示的なものであり、代替的な実施形態では、論理ブロックまたは回路素子を統合しても良いし、または種々の論理ブロックまたは回路素子上で機能性を代替的に分解することを課しても良い。したがって、当然のことながら、本明細書で図示するアーキテクチャは単に典型的なものであり、実際には、同じ機能性を実現する他の多くのアーキテクチャを実施することができる。たとえば、図2〜4に示す音声検出器および計算部を、異なるユニットによって共有しても良い。
【0057】
また、たとえば、一実施形態においては、例示した例を、単一の集積回路上にまたは同じ装置内に配置した回路構成として実施しても良い。たとえば、電話会議システムを、好適なプログラムされたプロセッサ(たとえば汎用マイクロプロセッサまたはデジタル・シグナル・プロセッサ)として実施しても良い。あるいは、例を、好適な方法で互いに相互接続された任意の数の別個の集積回路または別個の装置として実施しても良い。
【0058】
また、例えば、例またはその一部を、物理的な回路構成または物理的な回路構成に変換可能な論理的表現のソフトまたはコード表現として実施することを、たとえば任意の適切なタイプのハードウェア記述言語において行なっても良い。
【0059】
しかし、他の変更、変形、および代替案も可能である。したがって、明細書および図面は、限定的な意味ではなく例示的な意味で考えるべきである。
用語「備える」は、請求項に列挙されたもの以外の他の要素または工程の存在を排除するものではない。他に記載がない限り、用語たとえば「第1」および「第2」は、このような用語が記述する要素間を任意に区別するために用いられる。したがって、これらの用語は必ずしも、このような要素の時間的または他の優先順位を示すことが意図されているわけではない。特定の測定値が、互いに異なる請求項において列挙されているという単なる事実は、これらの測定値の組み合わせを有利に用いることができないということを示してはいない。

【特許請求の範囲】
【請求項1】
電話会議中に音信号の少なくとも2つの入力ストリームをそれぞれ別の供給源から受信するための入力インターフェースと、
前記入力インターフェースに接続されるとともに、ある数の中心的話者のストリームを前記入力ストリームから選択するための選択ユニットであって、前記数は中心的話者最大数以下であり、前記中心的話者のストリームはそれぞれ、対応する中心的話者からの話し言葉を表わす、選択ユニットと、
前記選択ユニットに接続されるとともに、前記選択されたストリームを出力ストリームに混合するための混合器と、
前記出力ストリームを出力するための出力インターフェースと、
前記選択ユニットおよび前記入力インターフェースに接続され、前記電話会議中に前記電話会議の動態に基づいて前記中心的話者最大数を動的に設定するための選択制御ユニットとを備える電話会議システム。
【請求項2】
前記選択制御ユニットは、
中心的話者増加基準が満足されたときに前記中心的話者最大数を増加させるための第1の論理ユニットと、
中心的話者減少基準が満足されたときに前記中心的話者最大数を減少させるための第2の論理ユニットとを備える、請求項1に記載の電話会議システム。
【請求項3】
前記入力インターフェースに接続されるとともに、前記入力ストリームから追加の中心的話者のストリームを検出するための新規中心的話者検出器を備え、
前記第1の論理ユニットは、前記新規中心的話者検出器に接続されるとともに、前記第1の論理ユニットが動作時に、前記数が前記中心的話者最大数に等しく前記中心的話者検出器が追加の中心的話者のストリームを検出したときに、前記中心的話者最大数を増加させるように設けられる、請求項2に記載の電話会議システム。
【請求項4】
前記中心的話者検出器は、
前記入力インターフェースに接続されるとともに、前記入力ストリームのそれぞれに対して、前記音の音量を表わす対応する入力ストリームのパラメータから音量値を計算するための計算部と、
前記計算部に接続されるとともに、少なくとも非中心的ストリームに対応する前記音量値に基づいて前記入力ストリームの非中心的ストリームを分類するための分類部と、
前記分類部に接続されるとともに、前記分類に基づいて少なくとも1つのルールを評価して前記ルールのそれぞれに対して評価値を決定するための論理ユニットと、
前記評価値を加算して合計値を得るための加算器と、
前記加算器に接続されるとともに、前記合計値を閾値と比較して、前記合計値が前記閾値を上回ったときに中心的話者最大数増加信号を出力する比較器とを備える請求項3に記載の電話会議システム。
【請求項5】
前記入力インターフェースに接続されるとともに、少なくとも1つの前記中心的話者のストリームの少なくとも1つのパラメータを、所定の中心的話者最大数減少基準と比較するための減少評価ユニットを備え、
前記第2の論理ユニットは、前記減少評価ユニットに接続されるとともに、動作中に、前記パラメータが前記所定の中心的話者最大数減少基準を満足するときに前記中心的話者最大数を減少させるように設けられる、請求項2〜4の何れか一項に記載の電話会議システム。
【請求項6】
前記減少評価ユニットは、
前記入力インターフェースに接続されるとともに、前記中心的話者のストリーム中の音声を検出するための音声検出器と、
前記入力インターフェースに接続されるとともに、少なくとも1つの前記中心的話者のストリームにおける音声の強度を音量閾値と比較するための音量比較器とを備え、
前記第2の論理ユニットは、前記中心的話者のストリームのうちの少なくとも1つにおいて音声が検出されないとき、或いは前記中心的話者のストリームのうちの少なくとも1つに対して前記強度が前記音量比較器によって前記音量閾値を下回っていると判定されたとき、又はその両方であるときに、前記中心的話者最大数を減少させるように設けられる、請求項5に記載の電話会議システム。
【請求項7】
電話会議中に音信号の少なくとも2つの入力ストリームをそれぞれ別の供給源から受信する工程と、
ある数の中心的話者のストリームを前記入力ストリームから選択することであって、前記数は中心的話者最大数以下であり、前記中心的話者のストリームはそれぞれ、対応する中心的話者からの話し言葉を表わす、選択する工程と、
前記選択したストリームを混合して出力ストリームにする工程と、
前記出力ストリームを出力する工程と、
前記電話会議中に前記電話会議の動態に基づいて前記中心的話者最大数を動的に設定する工程とを備える電話会議方法。
【請求項8】
プログラマブル装置によって実行可能なコンピュータ・プログラムを含むコンピュータ・プログラム製品であって、前記コンピュータ・プログラムは、前記プログラマブル装置によって実行されたときに請求項7に記載の方法を行なうためのコード部分を有するコンピュータ・プログラム製品。

【図1】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図2】
image rotate


【公表番号】特表2013−509841(P2013−509841A)
【公表日】平成25年3月14日(2013.3.14)
【国際特許分類】
【出願番号】特願2012−537451(P2012−537451)
【出願日】平成21年11月6日(2009.11.6)
【国際出願番号】PCT/IB2009/054943
【国際公開番号】WO2011/055170
【国際公開日】平成23年5月12日(2011.5.12)
【出願人】(504199127)フリースケール セミコンダクター インコーポレイテッド (806)
【Fターム(参考)】