語学学習システム

【課題】語学学習システムのグループ会話レッスンにおいては、自分が誰と会話しているのかが分かり難かった。
【解決手段】グループ分けされた学習者用端末（１０２−１〜１０２−３）は、教師用端末１０１から送信された仮想平面座標値に基づいて、仮想平面上の学習者用端末の各座標値を自らの学習者用端末（１０２−２）を基点として再設定する。そして、学習者用端末（１０２−１，１０２−３）から送信される音声データに対して、再設定された座標値に基づく音声処理を実行してステレオ音声信号を生成する。さらに、学習者用端末（１０２−１，１０２−３）からそれぞれのカメラ２１２で撮像された画像データを取得し、再設定された座標値に基づいて画像処理を実行して合成画面を生成する。そして、生成されたステレオ音声信号を音声データ処理部２０６からヘッドセット２０９に供給し、合成画面をモニタＩ／Ｆ部２０５からモニタ２１０に出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数の学習者でグループレッスンを行わせることが可能な語学学習システムに関する。
【背景技術】
【０００２】
大学や学校教育等で使用される語学学習システムとして、従来はＬＬ（ＬａｎｇｕａｇｅＬａｂｏｒａｔｏｒｙ）システムが多く用いられていたが、近年ではＣＡＬＬ（ＣｏｍｐｕｔｅｒＡｓｓｉｓｔｅｄＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ）システムと呼ばれる、ネットワーク接続されたパーソナルコンピュータ（以下、ＰＣ）を用いた語学学習システムが用いられるようになっている。
【０００３】
ＣＡＬＬシステムでは、教師側のＰＣが、例えば教師の操作に基づいて複数の学習者側のＰＣを制御可能なように構成されている。そして、教師側のＰＣは教授／学習用の映像、静止画、音声等のマルチメディアデータの教材データを、学習者全員のＰＣ又は選択した学習者のＰＣにネットワークを介して送信することができる。このようにして、学習者は、各自のＰＣで受信した教材データを用いて学習することができる。
【０００４】
また、ＣＡＬＬシステムでは、教師及び学習者それぞれのＰＣにヘッドホン部とマイクロホン部とを備えたヘッドセットを接続し、教師及び学習者がこのヘッドセットを装着して教授／学習を行うのが一般的である。すなわち、ＣＡＬＬシステムは、ヘッドセットの装着者自らが発声した音声をマイクロホン部で収音して各自のＰＣでデジタル音声データに変換処理して通信相手先のＰＣに送信するとともに、通信相手先のＰＣから出力されたデジタル音声データを各自のＰＣで受信して音声に変換し、この音声をヘッドホン部で聴くことで会話の練習を行うことができるものである（例えば、特許文献１を参照）。
【０００５】
上記示したような従来の語学学習システムにおいては、教師が発声した音声を学習者が装着したヘッドセットに即時的に伝送して聴かせるだけでなく、２人以上の学習者同士でヘッドセットを介した相互会話学習（以下、グループレッスン）を行わせることが可能なものもある。このような語学学習システムでは、教師がグループレッスンを行っている様子をヘッドセットを介してモニタリングすることや、グループレッスンに割り込んで語学指導を行うといったことも可能である。
【０００６】
ところで、グループレッスンを行う場合、学習者の組み合わせがいつも同じになると学習者の緊張感や学習意欲が薄れ、又グループメンバ同士の学習レベルが同じだと相互の刺激が少なく学習効果が十分に得られないこともある。これを改善するため、上記グループレッスン機能を具備した語学学習システムには、無作為に学習者を選択してグループを設定するランダムモードが設けられているものもある。このランダムモードでは、例えば同一教室内の複数の学習者を無作為に選択してグループを決定するため、グループ内の学習者同士は必ずしも近い席に座っているとは限らず、グループレッスンの最中に相手の顔が見えないことも十分あり得る。
【０００７】
ところで、教師用装置及び複数の学習者用装置それぞれに映像入出力手段を設けて、この映像入出力手段で撮像された学習者の表情を他の学習者の学習者用装置に配信することにより、当該他の学習者が画像を送信した相手の表情を見ながらより実践的な会話学習を行うことが可能な語学学習システムも知られている（例えば、特許文献２を参照）。
【０００８】
会話は人間間の意思の伝達手段であるが、会話する相手の顔をみてアイコンタクトをとりながら会話することが、最も意思疎通がし易いということは誰もが経験上得ていることである。したがって、特許文献２に開示されたような語学学習システムを用いれば、相手の顔を見ながら会話学習を行うことにより、学習意欲と学習効果とを向上させることにつながる。
【特許文献１】特開２００２−１３２１２８号公報
【特許文献２】特開２０００−３２１９７０号公報
【発明の開示】
【発明が解決しようとする課題】
【０００９】
しかしながら、上記特許文献２に記載の語学学習システムにおいては、学習者の表情を捉えた映像を教師用装置や他の学習者用装置に配信して、この映像を受信した教師用装置や学習者用装置が受信映像を表示する技術については開示されているものの、どのように表示させるかについては具体的な技術開示がされていない。例えば、４人の学習者がグループレッスンを行っている場合に、内１人（自分）が他３人の学習者の映像をどのようにして得るか、そして自分がどの学習者と会話しているかをどのようにして特定するかについて不明である。
【００１０】
この場合、単に３人の学習者の映像を自分の学習者用装置にそれぞれ同時に表示させるようにしてもよいが、この場合、各映像を３０ｆｐｓ（ｆｒａｍｅｓｐｅｒｓｅｃｏｎｄ）のいわゆるフルフレームで表示すれば、学習者は表示手段（モニタ）を見ながら誰と会話をしているのかを特定することが可能な場合もある、しかし、映像をフルフレームでネットワーク伝送するには回線の伝送帯域を広くとる必要が生ずる。高校や大学等何十人もの学習者がいる教室で各人がフルフレームの伝送帯域を確保できる教室内ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）を敷設することは、不可能ではないものの相当大規模なシステムとなってしまいコスト上のデメリットが大きくなる。
【００１１】
したがって、フレームレートを落として伝送帯域を狭く抑えることが通常である。しかし、このようにフレームレートを落とした映像の伝送を行うと、フレームの抜けが発生するために、映像内の唇の動きを十分に視認できなくなり、自分が誰と会話をしているのかが分かりづらくなるという問題があった。
【００１２】
そこで本発明は、上記問題に鑑みてなされたものであり、その目的は、複数の学習者によるグループレッスンにおいて、各自が誰と会話をしているかを明確に特定できるとともに、ネットワークの伝送帯域に大きな負担をかけない語学学習システムを提供することである。
【課題を解決するための手段】
【００１３】
上記の課題を解決するために、請求項１に記載の発明は、
教師用端末（１０１）と、ヘッドホン部及びマイクロホン部を備えたヘッドセット（２０９）がそれぞれ接続された複数の学習者用端末（１０２−１〜１０２−ｎ）とがネットワーク（１０４）を介してそれぞれ接続されるとともに、前記各学習者用端末には、操作する学習者の顔部分を撮像するためのカメラ（２１２）と前記撮像された画像を少なくとも表示するモニタ（２１０）とがそれぞれ接続された語学学習システムにおいて、
前記教師用端末は、
前記複数の学習者用端末を１つ以上のグループに区分するグループ区分手段（２０１）と、
このグループ区分手段で区分されたグループ毎に、当該グループ内の学習者用端末を所定の仮想平面に配置した場合の仮想平面座標値を取得する仮想平面座標値取得手段（２０１）と、
この仮想平面座標値取得手段で取得された前記グループ毎の仮想平面座標値を前記複数の学習者用端末に送信する仮想平面座標値送信手段（２０４）とを備え、
前記各学習者用端末は、
前記教師用端末から送信された仮想平面座標値を受信する仮想平面座標値受信手段（２０４）と、
この仮想平面座標値受信手段で受信された仮想平面座標値について、当該学習者用端末の仮想平面座標値を前記仮想平面における基点に設定するよう前記受信された仮想平面座標値を変更する仮想平面座標値変更手段（２０１）と、
前記マイクロホン部で収音されて得られた音声信号を当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された音声信号を前記仮想平面座標値変更手段で変更された仮想平面座標値に基づいてステレオ音声信号に変換する音声信号処理手段（２０１，２０４，２０６）と、
この音声信号処理手段で変換されたステレオ音声信号を前記ヘッドホン部から出力する音声出力手段（２０６）と、
前記カメラで撮像された画像データを当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された画像データを縮小して前記仮想平面座標値変更手段で変更された仮想平面座標値に基づき画像合成する画像処理手段（２０１，２０４，２０７）と、
この画像処理手段で画像合成された合成画像データを前記モニタに出力する画像出力手段（２０５）と
を備えたことを特徴とする語学学習システム（１）
を提供するものである。
【発明の効果】
【００１４】
本発明によれば、グループレッスンを行っている各学習者は、仮想平面上に配置された位置関係により入来する話し相手の音声をステレオ音声として方向性を有して聴くことができるとともに、話し相手の顔画像が各自のモニタに前記位置関係によって表示されるので、話し相手の音声とその顔とを一致させて認識することが容易であり、よって各自が誰と会話をしているのかを容易に特定することができる。
【００１５】
また、本発明によれば、カメラで撮像される画像データがフルフレームの動画でなく唇の動きを正確に捉えられないとしても、仮想平面に基づく画像表示とステレオ音声とによる視聴によって話し相手の特定を容易にできるため、例えば３〜５秒に１枚の画像を撮像するといった簡易映像を用いることができ、よってネットワークの伝送帯域を低く抑えて設備コストを低く抑えることが可能である。
【発明を実施するための最良の形態】
【００１６】
以下、本発明を実施するための最良の形態について、図面を参照して詳細に説明する。図１は、本発明の実施形態である語学学習システムの基本的な構成を示したシステムブロック図である。同図において、語学学習システム１は、教師用端末１０１と、学習者用端末１０２−１〜１０２−ｎ（ｎは１以上の整数）と、マルチメディアデータとしての教材データが多数格納されており、教師用端末１０１からの読み出し制御によって所望の教材データを読み出すことが可能なサーバ１０３とが、ネットワーク１０４を介してそれぞれ接続された構成を有している。そして、同図には、学習者用端末１０２−１〜１０２−３のそれぞれの使用者である学習者ａ１〜ａ３が示されており、他の学習者及び教師の図は省略されている。
【００１７】
なお、同図における教師用端末１０１及び学習者用端末１０２−１〜１０２−ｎを総称して端末とする。
【００１８】
次に、端末の概略の内部構成を表したブロック図を図２に示す。なお、教師用端末１０１と学習者用端末１０２−１〜１０２−ｎとは、後述するアプリケーションソフトウェアを除いて基本的には同一の構成をなすものである。同図に示すように、端末は、語学学習システム１における語学学習のためのアプリケーションソフトウェア（以下、ソフトウェア）を実行するための不図示のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備えた制御部２０１と、ソフトウェアや各種データを記憶するためのメモリ部２０２と、ハードディスクやＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のデータやソフトウェアを記録するための記録部２０３と、当該端末をネットワーク１０４に接続するためのネットワークインターフェース（Ｉ／Ｆ）部２０４と、モニタ２１０（後述）を接続するためのモニタＩ／Ｆ部２０５と、音声処理を実行するための音声データ処理部２０６と、カメラ２１２（後述）からの画像データを入力するための外部Ｉ／Ｆ部２０７とを備えている。そして、上記ブロック２０１〜２０７はそれぞれバス２０８に接続されている。
【００１９】
そして、上記構成の端末には、教師及び学習者が操作するタッチパネル２１１を備えてソフトウェアの動作に基づいた表示をするモニタ２１０がモニタＩ／Ｆ部２０５に接続され、ヘッドホン部及びマイクロホン部（いずれも不図示）を備えたヘッドセット２０９が音声データ処理部２０６に接続され、さらに教師や学習者の少なくとも顔部分の画像を撮像するカメラ２１２が外部Ｉ／Ｆ部２０７に接続されている。
【００２０】
なお、カメラ２１２は、対応する端末に接続されたモニタ２１０の画面を見ながら会話学習を行う学習者や教授する教師の顔部分を主に撮像する必要があるため、例えばモニタ２１０の上部又は机上に撮像方向を可動可能なように設置されることが望ましい。
【００２１】
また、端末は一般的なＰＣを用いて構成することが可能である。この場合、音声データ処理部２０６にはサウンドカード、外部Ｉ／Ｆ部２０７はＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＩＥＥＥ１３９４シリアルバス等の高速通信インターフェースが適用可能である。
【００２２】
また、上述したソフトウェアは、教師用端末１０１については教師用端末専用ソフトウェアが、そして学習者用端末１０２−１〜１０２−ｎについては学習者用端末専用ソフトウェアが用いられる。
【００２３】
以上の構成を有する端末では、語学学習システム１の起動時に予め記録部２０３に記録されたソフトウェアがメモリ部２０２に読み出されて初期化処理を実行した後、教師及び学習者のタッチパネル２１１の操作に基づいて、制御部２０１がバス２０８に接続された各ブロックを制御する。
【００２４】
次に、語学学習システム１における教授／学習機能の１つであるグループレッスンの動作について説明する。グループレッスンは、複数の学習者同士が各人の学習者用端末１０２−１〜１０２−ｎに接続されたヘッドセット２０９、カメラ２１２、モニタ２１０、及びタッチパネル２１１を用いて相互会話学習を行うというレッスン形態である。
【００２５】
＜教師用端末のグループレッスンの設定＞
最初に、教師側端末１０１におけるグループレッスンの設定についてその動作を説明する。教師用端末１０１のモニタ２１０には、教師用端末専用ソフトウェアによって図３に示すようなＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）画面３０１が表示されている。なお、同図においては、グループレッスンの設定に必要な部分のみをＧＵＩ画面３０１に図示している。
【００２６】
まず、教師はモニタ２１０に表示されたＧＵＩ画面３０１を見ながらタッチパネル２１１のグループ設定ボタン３０２に触れてグループ設定画面を表示させる。このグループ設定画面の例を図４に示す。同図において、教師はグループ設定画面４０１のランダムモードのラジオボタン４０２に触れてランダムモードを選択し、グループの人数、例えば３人をプルダウンメニュー４０３に触れて選択する。そして、ＯＫボタン４０４に触れることにより、教師用端末専用ソフトウェアによる制御部２０１の制御によって、「無作為に３人の学習者を選択する」というランダムモードが教師用端末１０１の制御部２０１に伝達され、グループ設定画面４０１が閉じられて図３のＧＵＩ画面３０１が表示される。
【００２７】
そして次に、教師がＧＵＩ画面３０１のグループレッスンボタン３０３に触れることにより、教師用端末１０１の制御部２０１は全ての学習者を３人ずつのグループに無作為に区分してグループレッスンの開始を指示する。
【００２８】
＜語学学習システムのグループレッスンの動作＞
次に、語学学習システム１におけるグループレッスンの動作について説明するが、説明を分かり易くするために、図１に示した学習者ａ１〜ａ３の３人が１つのグループに属するように選択されたものとして以下説明する。
【００２９】
グループレッスンが開始されると、教師用端末１０１の教師用端末専用ソフトウェアは、制御部２０１を制御して図５のフローチャートに示す処理を実行する。まず、制御部２０１は、グループ内の学習者ａ１〜ａ３それぞれの学習者用端末１０２−１〜１０２−３について仮想的に定めた平面（仮想平面）における座標値（仮想平面座標値）を取得する（ステップＳ５０１）。具体的には、図６に示すように、直交するＸ軸及びＹ軸の交点Ｏ＝Ｏ１を中心とする所定の円周Ｃ上に学習者用端末１０２−１〜１０２−３の各座標を等距離に配置した仮想平面をメモリ２０２上に展開して各端末の仮想平面座標値を取得する。
【００３０】
次に、教師用端末１０１は、グループレッスン開始コマンドを、学習者ａ１〜ａ３の学習者用端末１０２−１〜１０２−３にそれぞれマルチキャスト送信する（ステップＳ５０２）。このグループレッスン開始コマンドには、ステップＳ５０１で取得された学習者用端末１０２−１〜１０２−３の各仮想平面座標値を含む仮想平面データ、グループの識別番号、学習者用端末１０２−１〜１０２−３の各ＩＰアドレス、及びマルチキャストのポートが含まれている。
【００３１】
次に、教師用端末１０１は、ＧＵＩ画面３０１をグループレッスン状態の表示に変更する（ステップＳ５０３）。具体的には、設定されたグループ毎に学習者アイコン３０４を色分け表示するとともに、グループレッスンボタン３０３を点灯させる。
【００３２】
一方、教師用端末１０１からマルチキャスト送信されたグループレッスン開始コマンドを受信した学習者用端末１０２−１〜１０２−３は、学習者用端末専用ソフトウェアによる制御部２０１の制御に基づいて図７のフローチャートに示す処理を実行する。ここでは、説明を簡潔にするために、学習者ａ２の学習者用端末１０２−２を例に説明する。
【００３３】
まず、学習者用端末１０２−２の制御部２０１は、ネットワークＩ／Ｆ部２０４を介して供給されたグループレッスン開始コマンドに含まれている仮想平面データに基づき仮想平面を再設定する（ステップＳ７０１）。具体的には、制御部２０１は、入来したグループレッスン開始コマンドから仮想平面データを抽出し、この仮想平面データに含まれる学習者用端末１０２−１〜１０２−３の各仮想平面座標値を、図８に示す学習者用端末１０２−２（自端末）が仮想平面座標の中心点Ｏに位置するように再配置して仮想平面を再設定する。そして、再設定後の各端末の座標値をメモリ２０２に記憶する。
【００３４】
ステップＳ７０１による仮想平面の再設定後、学習者用端末１０２−２は学習者用端末１０２−１及び１０２−３とともにグループレッスンが行える状態となる（ステップＳ７０２）。すなわち、ステップＳ７０２では、学習者ａ２が発声した音声は、ヘッドセット２０９のマイクロホン部で収音され、音声データ処理部２０６に取り込まれてデジタル音声データに変換される。そして、ネットワークＩ／Ｆ部２０４は、デジタル音声データをＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）パケットデータに変換して学習者用端末１０２−１及び１０２−３にマルチキャスト送信する。それとともに、学習者用端末１０２−２は、学習者用端末１０２−１及び１０２−３からそれぞれマルチキャスト送信された学習者ａ１及びａ３の音声に基づくデジタル音声データをネットワークＩ／Ｆ部２０４から入力して音声データ処理部２０６に供給する。
【００３５】
また、上記音声処理と同時に、学習者用端末１０２−２に対応したカメラ２１２は、モニタ２１０の前に座っている学習者ａ２の顔部分を撮像し、その画像をデジタル画像データとして学習者用端末１０２−２に送信する。そして、学習者用端末１０２−２は、学習者端末専用ソフトウェアによる制御部２０１の制御に基づき、外部Ｉ／Ｆ部２０７を介してカメラ２１２から供給されるデジタル画像データを受信する。そして、受信したデジタル画像データをメモリ部２０２に一時記憶させながら、例えば３秒〜５秒に１枚の割合でＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）方式によるデータ圧縮処理を実行した後、学習者用端末１０２−２の識別番号とともにネットワークＩ／Ｆ部２０４でＩＰパケットに変換してサーバ１０３に送信する。そして、この送信されたＩＰパケットを受信したサーバ１０３は、受信されたＩＰパケットからＪＰＥＧデータと学習者用端末１０２−２の識別番号とを抽出し、両者を関連付けて不図示のハードディスクに記録する。
【００３６】
なお、カメラ２１２で撮像された画像のデータ圧縮処理は、学習者用端末１０２−２の制御部２０１側ではなく、カメラ２１２側で処理するように構成してもよい。
【００３７】
学習者用端末１０２−１及び１０２−３も上述の画像処理と同様の処理を実行し、サーバ１０３は、それぞれのカメラ２１２で撮像された学習者ａ１及びａ３の顔部分が撮像されたＪＰＥＧデータと端末の識別番号とを関連付けて記録する。
【００３８】
そして、学習者用端末１０２−２は、サーバ１０３から学習者用端末１０２−１及び１０２−３それぞれの識別番号に関連付けられたＪＰＥＧデータを読み出してネットワークＩ／Ｆ２０４を介して入力し、メモリ部２０２に一時記憶させながら制御部２０１でＪＰＥＧ方式によってそれぞれのＪＰＥＧデータの伸張処理を実行する。学習者用端末１０２−１及び１０２−３も上記データ伸張処理と同様の処理を実行する。
【００３９】
上述したステップＳ７０２の処理の如く音声処理及び画像処理を実行しながら、学習者用端末１０２−２は、ステップＳ７０１で再設定された仮想平面における学習者用端末１０２−１及び１０２−３の仮想平面座標値に基づき、学習者ａ１及びａ３に対応する音声処理と画像処理とを実行する（ステップＳ７０３）。
【００４０】
＜ステップＳ７０３の音声処理＞
すなわち、学習者用端末１０２−２の学習者用端末専用ソフトウェアは、制御部２０１を制御することにより、再設定された仮想平面座標値に基づいて学習者ａ１及びａ３からのステレオ音声信号レベル（Ｌチャンネル／Ｒチャンネル）を算出して、学習者用端末１０２−２の音声データ処理部２０６に設定する。図８の再設定後の仮想平面に基づきより具体的に説明すると、制御部２０１は、学習者用端末１０２−１及び１０２−３から供給されるそれぞれの音声データを、図９の如くＬチャンネル（同図（ａ））とＲチャンネル（同図（ｂ））とに分割する。
【００４１】
すなわち、図８によれば、学習者用端末１０２−２（自端末）に対して、学習者用端末１０２−３は左側に、学習者用端末１０２−１は右側にそれぞれ位置するとともに、自端末からの各端末への距離はそれぞれ等しい。よって、前述の音声分割処理によれば、学習者用端末１０２−２におけるＬチャンネルは、学習者ａ３の音声レベルが学習者ａ１の音声レベルよりも高レベルに設定されるとともに、Ｒチャンネルは、学習者ａ１の音声レベルが学習者ａ３の音声レベルよりも高レベルに設定される。その際に、Ｌチャンネルの音声レベルの合計とＲチャンネルの音声レベルの合計とは同値に設定される。
【００４２】
これにより、学習者ａ２のヘッドセット２０９からは、図８に示した再設定後の仮想平面上の配置に対応して、学習者ａ１の音声が右側から、そして学習者ａ３の音声が左側から、それぞれ同程度の距離感覚として聞こえる。
【００４３】
また、別の仮想平面の例として、ステップＳ７０１における仮想平面の再設定を図１０に示すような例とした場合、すなわち、直交したＸ軸及びＹ軸の交点Ｏに配置された学習者用端末１０２−２から第１象現内に伸ばした直線と円周Ｃとの交点に学習者用端末１０２−１を配置するとともに、当該直線上であって円周Ｃの外側に学習者用端末１０２−３を配置した場合、学習者用端末１０２−２の音声分割処理は、図１１の如くＬチャンネル（同図（ａ））及びＲチャンネル（同図（ｂ））のようになる。つまり、学習者ａ３の音声レベルが両チャンネルとも学習者ａ１の音声レベルの１／２に設定されるとともに、Ｌチャンネルの各音声レベルがＲチャンネルの各音声レベルよりも小さく設定される。このように、学習者ａ３のＬチャンネルとＲチャンネルとのレベルの比は、学習者ａ１のＬチャンネルとＲチャンネルとのレベルの比と同一に設定されているため、学習者ａ１及びａ３どちらの音声も右側のヘッドホン部から主に聞こえるが、学習者ａ３の音量が小さいため、図１０に示す仮想平面のように学習者ａ３が遠くに位置するように聞こえる。
【００４４】
このようにして、学習者用端末１０２−２は、学習者用端末１０２−１及び１０２−３の再設定後の仮想平面座標値に基づいて音声処理を行う。なお、遠近感を生じさせるための音声処理として、音量レベルを調整する以外にもエコー量を調整する方法を用いても良い。
【００４５】
＜ステップＳ７０３の画像処理＞
また、学習者用端末１０２−２の学習者用端末専用ソフトウェアは、制御部２０１を制御することにより、サーバ１０３から読み込んだ学習者ａ１及びａ３の画像データ、並びに学習者ａ２自身の画像データを、再設定された仮想平面座標値に基づいて１つの画面に構成してモニタ２１０に表示する。すなわち、制御部２０１は、学習者ａ１〜ａ３の画像データをそれぞれ縮小処理して、再設定された仮想平面座標値に対応させた位置関係で表示画面に配置する。このようにして配置された画面の例を図１２に示す。
【００４６】
以上詳述したように、グループ区分された複数の学習者用端末は、教師用端末１０１から送信された仮想平面座標値に基づいて、仮想平面上の学習者用端末の各座標値を自らの学習者用端末を基点として再設定する。そして、グループ内の他の学習者用端末から送信されるデジタル音声データに対して、再設定された仮想平面座標値に基づいた音声処理を実行して１つのステレオ音声信号を生成する。さらに、グループ内の各学習者用端末からそれぞれのカメラ２１２で撮像された画像データをサーバ１０３を介して取得し、再設定された仮想平面座標値に基づいて画像処理を実行して合成画面を生成する。このようにして、本実施形態の語学学習システム１においては、生成されたステレオ音声信号が音声データ処理部２０６からヘッドセット２０９に供給されてヘッドホン部から出力されるとともに、合成画面がモニタＩ／Ｆ部２０５からモニタ２１０に出力されて表示される。
【００４７】
本実施形態の語学学習システム１によれば、グループレッスンを行っている各学習者は、仮想平面上に配置された位置関係により入来する話し相手の音声をステレオ音声として方向性を有して聴くことができるとともに、話し相手の顔画像が各自のモニタ２１０に前記の位置関係によって表示されるので、話し相手の音声とその顔とを一致させて認識することが容易であり、よって各自が誰と会話をしているのかを容易に特定することができる。
【００４８】
また、本実施形態の語学学習システム１によれば、カメラ２１２で撮像される画像データがフルフレームの動画でなく唇の動きを正確に捉えられないとしても、仮想平面に基づく画像表示とステレオ音声とによる視聴によって話し相手の特定を容易にできるため、例えば３〜５秒に１枚の画像を撮像するといった簡易映像を用いることができ、よってネットワーク１０４の伝送帯域を低く抑えて設備コストを低く抑えることが可能である。
【００４９】
なお、本実施形態の画像処理において、音声信号のレベルが予め決定されている閾値を超える学習者の画像を強調して表示するようにしてもよい。例えば、学習者ａ１が発声している場合に、学習者用端末１０２−１から出力される音声データのレベルが予め定めている閾値を超えたとすると、この越えている間中この音声データに対応した画像データに枠画像を付加して表示したり、画像データの輝度レベルを高くして表示したりする等の画像処理を実行することが好適である。
【００５０】
図１３に、強調表示の一例として画像データに枠画像を付加してモニタ２１０に表示した例を示す。これにより、現在の話者を画面上でさらに分かり易く特定することができる。
【００５１】
本実施の形態例では、サーバ１０３を利用して各学習者端末間のＪＰＥＧデータのやり取りを実行する例について説明したが、このＪＰＥＧデータのやり取りは、教師用端末１０１を介して行うように構成してもよいし、例えば送信側の学習者側端末１０２−２から受信側の学習者端末１０２−１及び１０２−３にマルチキャスト送信するように構成してもよい。
【００５２】
また、本実施の形態例では、タッチパネル２１１を備えたモニタ２１０を用いて、教師が指示を行う例を示したが、入力手段はこれに限定されず、例えば図示はしないがマウス等のポインティングデバイス、キーボード、操作盤等、他の入力手段を用いても良いことはいうまでもない。
【産業上の利用可能性】
【００５３】
本発明は、複数の学習者でグループレッスンを行うことが可能な語学学習システムにおいて特に有用である。
【図面の簡単な説明】
【００５４】
【図１】本発明の実施形態における語学学習システムの基本的な構成を示したシステムブロック図である。
【図２】教師用端末及び学習者用端末の概略の内部構成を示すブロック図である。
【図３】教師用端末のモニタに表示されるＧＵＩ画面の例である。
【図４】教師用端末のモニタに表示されるグループ設定画面の例である。
【図５】教師用端末のグループレッスンの処理手順を説明するためのフローチャートである。
【図６】仮想平面の例である。
【図７】学習者用端末のグループレッスンの処理手順を説明するためのフローチャートである。
【図８】再設定された仮想平面の例である。
【図９】図８の仮想平面に基づく音声レベルを模式的に表した図である。
【図１０】再設定された仮想平面の別の例である。
【図１１】図１０の仮想平面に基づく音声レベルを模式的に表した図である。
【図１２】学習者用端末によって合成された画面の例である。
【図１３】学習者用端末によって強調表示された画面の例である。
【符号の説明】
【００５５】
１語学学習システム
１０１教師用端末
１０２−１〜１０２−ｎ学習者用端末
１０３サーバ
１０４ネットワーク
２０１制御部
２０２メモリ部
２０３記録部
２０４ネットワークＩ／Ｆ部
２０５モニタＩ／Ｆ部
２０６音声データ処理部
２０７外部Ｉ／Ｆ部
２０８バス
２０９ヘッドセット
２１０モニタ
２１１タッチパネル
２１２カメラ
ａ１，ａ２，ａ３学習者

【特許請求の範囲】
【請求項１】
教師用端末と、ヘッドホン部及びマイクロホン部を備えたヘッドセットがそれぞれ接続された複数の学習者用端末とがネットワークを介してそれぞれ接続されるとともに、前記各学習者用端末には、操作する学習者の顔部分を撮像するためのカメラと前記撮像された画像を少なくとも表示するモニタとがそれぞれ接続された語学学習システムにおいて、
前記教師用端末は、
前記複数の学習者用端末を１つ以上のグループに区分するグループ区分手段と、
このグループ区分手段で区分されたグループ毎に、当該グループ内の学習者用端末を所定の仮想平面に配置した場合の仮想平面座標値を取得する仮想平面座標値取得手段と、
この仮想平面座標値取得手段で取得された前記グループ毎の仮想平面座標値を前記複数の学習者用端末に送信する仮想平面座標値送信手段とを備え、
前記各学習者用端末は、
前記教師用端末から送信された仮想平面座標値を受信する仮想平面座標値受信手段と、
この仮想平面座標値受信手段で受信された仮想平面座標値について、当該学習者用端末の仮想平面座標値を前記仮想平面における基点に設定するよう前記受信された仮想平面座標値を変更する仮想平面座標値変更手段と、
前記マイクロホン部で収音されて得られた音声信号を当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された音声信号を前記仮想平面座標値変更手段で変更された仮想平面座標値に基づいてステレオ音声信号に変換する音声信号処理手段と、
この音声信号処理手段で変換されたステレオ音声信号を前記ヘッドホン部から出力する音声出力手段と、
前記カメラで撮像された画像データを当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された画像データを縮小して前記仮想平面座標値変更手段で変更された仮想平面座標値に基づき画像合成する画像処理手段と、
この画像処理手段で画像合成された合成画像データを前記モニタに出力する画像出力手段と
を備えたことを特徴とする語学学習システム。

【図１】