語学学習システム
【課題】 語学学習システムのグループ会話レッスンにおいては、自分が誰と会話しているのかが分かり難かった。
【解決手段】 グループ分けされた学習者用端末(102−1〜102−3)は、教師用端末101から送信された仮想平面座標値に基づいて、仮想平面上の学習者用端末の各座標値を自らの学習者用端末(102−2)を基点として再設定する。そして、学習者用端末(102−1,102−3)から送信される音声データに対して、再設定された座標値に基づく音声処理を実行してステレオ音声信号を生成する。さらに、学習者用端末(102−1,102−3)からそれぞれのカメラ212で撮像された画像データを取得し、再設定された座標値に基づいて画像処理を実行して合成画面を生成する。そして、生成されたステレオ音声信号を音声データ処理部206からヘッドセット209に供給し、合成画面をモニタI/F部205からモニタ210に出力する。
【解決手段】 グループ分けされた学習者用端末(102−1〜102−3)は、教師用端末101から送信された仮想平面座標値に基づいて、仮想平面上の学習者用端末の各座標値を自らの学習者用端末(102−2)を基点として再設定する。そして、学習者用端末(102−1,102−3)から送信される音声データに対して、再設定された座標値に基づく音声処理を実行してステレオ音声信号を生成する。さらに、学習者用端末(102−1,102−3)からそれぞれのカメラ212で撮像された画像データを取得し、再設定された座標値に基づいて画像処理を実行して合成画面を生成する。そして、生成されたステレオ音声信号を音声データ処理部206からヘッドセット209に供給し、合成画面をモニタI/F部205からモニタ210に出力する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の学習者でグループレッスンを行わせることが可能な語学学習システムに関する。
【背景技術】
【0002】
大学や学校教育等で使用される語学学習システムとして、従来はLL(Language Laboratory)システムが多く用いられていたが、近年ではCALL(Computer Assisted Language Learning)システムと呼ばれる、ネットワーク接続されたパーソナルコンピュータ(以下、PC)を用いた語学学習システムが用いられるようになっている。
【0003】
CALLシステムでは、教師側のPCが、例えば教師の操作に基づいて複数の学習者側のPCを制御可能なように構成されている。そして、教師側のPCは教授/学習用の映像、静止画、音声等のマルチメディアデータの教材データを、学習者全員のPC又は選択した学習者のPCにネットワークを介して送信することができる。このようにして、学習者は、各自のPCで受信した教材データを用いて学習することができる。
【0004】
また、CALLシステムでは、教師及び学習者それぞれのPCにヘッドホン部とマイクロホン部とを備えたヘッドセットを接続し、教師及び学習者がこのヘッドセットを装着して教授/学習を行うのが一般的である。すなわち、CALLシステムは、ヘッドセットの装着者自らが発声した音声をマイクロホン部で収音して各自のPCでデジタル音声データに変換処理して通信相手先のPCに送信するとともに、通信相手先のPCから出力されたデジタル音声データを各自のPCで受信して音声に変換し、この音声をヘッドホン部で聴くことで会話の練習を行うことができるものである(例えば、特許文献1を参照)。
【0005】
上記示したような従来の語学学習システムにおいては、教師が発声した音声を学習者が装着したヘッドセットに即時的に伝送して聴かせるだけでなく、2人以上の学習者同士でヘッドセットを介した相互会話学習(以下、グループレッスン)を行わせることが可能なものもある。このような語学学習システムでは、教師がグループレッスンを行っている様子をヘッドセットを介してモニタリングすることや、グループレッスンに割り込んで語学指導を行うといったことも可能である。
【0006】
ところで、グループレッスンを行う場合、学習者の組み合わせがいつも同じになると学習者の緊張感や学習意欲が薄れ、又グループメンバ同士の学習レベルが同じだと相互の刺激が少なく学習効果が十分に得られないこともある。これを改善するため、上記グループレッスン機能を具備した語学学習システムには、無作為に学習者を選択してグループを設定するランダムモードが設けられているものもある。このランダムモードでは、例えば同一教室内の複数の学習者を無作為に選択してグループを決定するため、グループ内の学習者同士は必ずしも近い席に座っているとは限らず、グループレッスンの最中に相手の顔が見えないことも十分あり得る。
【0007】
ところで、教師用装置及び複数の学習者用装置それぞれに映像入出力手段を設けて、この映像入出力手段で撮像された学習者の表情を他の学習者の学習者用装置に配信することにより、当該他の学習者が画像を送信した相手の表情を見ながらより実践的な会話学習を行うことが可能な語学学習システムも知られている(例えば、特許文献2を参照)。
【0008】
会話は人間間の意思の伝達手段であるが、会話する相手の顔をみてアイコンタクトをとりながら会話することが、最も意思疎通がし易いということは誰もが経験上得ていることである。したがって、特許文献2に開示されたような語学学習システムを用いれば、相手の顔を見ながら会話学習を行うことにより、学習意欲と学習効果とを向上させることにつながる。
【特許文献1】特開2002−132128号公報
【特許文献2】特開2000−321970号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、上記特許文献2に記載の語学学習システムにおいては、学習者の表情を捉えた映像を教師用装置や他の学習者用装置に配信して、この映像を受信した教師用装置や学習者用装置が受信映像を表示する技術については開示されているものの、どのように表示させるかについては具体的な技術開示がされていない。例えば、4人の学習者がグループレッスンを行っている場合に、内1人(自分)が他3人の学習者の映像をどのようにして得るか、そして自分がどの学習者と会話しているかをどのようにして特定するかについて不明である。
【0010】
この場合、単に3人の学習者の映像を自分の学習者用装置にそれぞれ同時に表示させるようにしてもよいが、この場合、各映像を30fps(frames per second)のいわゆるフルフレームで表示すれば、学習者は表示手段(モニタ)を見ながら誰と会話をしているのかを特定することが可能な場合もある、しかし、映像をフルフレームでネットワーク伝送するには回線の伝送帯域を広くとる必要が生ずる。高校や大学等何十人もの学習者がいる教室で各人がフルフレームの伝送帯域を確保できる教室内LAN(Local Area Network)を敷設することは、不可能ではないものの相当大規模なシステムとなってしまいコスト上のデメリットが大きくなる。
【0011】
したがって、フレームレートを落として伝送帯域を狭く抑えることが通常である。しかし、このようにフレームレートを落とした映像の伝送を行うと、フレームの抜けが発生するために、映像内の唇の動きを十分に視認できなくなり、自分が誰と会話をしているのかが分かりづらくなるという問題があった。
【0012】
そこで本発明は、上記問題に鑑みてなされたものであり、その目的は、複数の学習者によるグループレッスンにおいて、各自が誰と会話をしているかを明確に特定できるとともに、ネットワークの伝送帯域に大きな負担をかけない語学学習システムを提供することである。
【課題を解決するための手段】
【0013】
上記の課題を解決するために、請求項1に記載の発明は、
教師用端末(101)と、ヘッドホン部及びマイクロホン部を備えたヘッドセット(209)がそれぞれ接続された複数の学習者用端末(102−1〜102−n)とがネットワーク(104)を介してそれぞれ接続されるとともに、前記各学習者用端末には、操作する学習者の顔部分を撮像するためのカメラ(212)と前記撮像された画像を少なくとも表示するモニタ(210)とがそれぞれ接続された語学学習システムにおいて、
前記教師用端末は、
前記複数の学習者用端末を1つ以上のグループに区分するグループ区分手段(201)と、
このグループ区分手段で区分されたグループ毎に、当該グループ内の学習者用端末を所定の仮想平面に配置した場合の仮想平面座標値を取得する仮想平面座標値取得手段(201)と、
この仮想平面座標値取得手段で取得された前記グループ毎の仮想平面座標値を前記複数の学習者用端末に送信する仮想平面座標値送信手段(204)とを備え、
前記各学習者用端末は、
前記教師用端末から送信された仮想平面座標値を受信する仮想平面座標値受信手段(204)と、
この仮想平面座標値受信手段で受信された仮想平面座標値について、当該学習者用端末の仮想平面座標値を前記仮想平面における基点に設定するよう前記受信された仮想平面座標値を変更する仮想平面座標値変更手段(201)と、
前記マイクロホン部で収音されて得られた音声信号を当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された音声信号を前記仮想平面座標値変更手段で変更された仮想平面座標値に基づいてステレオ音声信号に変換する音声信号処理手段(201,204,206)と、
この音声信号処理手段で変換されたステレオ音声信号を前記ヘッドホン部から出力する音声出力手段(206)と、
前記カメラで撮像された画像データを当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された画像データを縮小して前記仮想平面座標値変更手段で変更された仮想平面座標値に基づき画像合成する画像処理手段(201,204,207)と、
この画像処理手段で画像合成された合成画像データを前記モニタに出力する画像出力手段(205)と
を備えたことを特徴とする語学学習システム(1)
を提供するものである。
【発明の効果】
【0014】
本発明によれば、グループレッスンを行っている各学習者は、仮想平面上に配置された位置関係により入来する話し相手の音声をステレオ音声として方向性を有して聴くことができるとともに、話し相手の顔画像が各自のモニタに前記位置関係によって表示されるので、話し相手の音声とその顔とを一致させて認識することが容易であり、よって各自が誰と会話をしているのかを容易に特定することができる。
【0015】
また、本発明によれば、カメラで撮像される画像データがフルフレームの動画でなく唇の動きを正確に捉えられないとしても、仮想平面に基づく画像表示とステレオ音声とによる視聴によって話し相手の特定を容易にできるため、例えば3〜5秒に1枚の画像を撮像するといった簡易映像を用いることができ、よってネットワークの伝送帯域を低く抑えて設備コストを低く抑えることが可能である。
【発明を実施するための最良の形態】
【0016】
以下、本発明を実施するための最良の形態について、図面を参照して詳細に説明する。図1は、本発明の実施形態である語学学習システムの基本的な構成を示したシステムブロック図である。同図において、語学学習システム1は、教師用端末101と、学習者用端末102−1〜102−n(nは1以上の整数)と、マルチメディアデータとしての教材データが多数格納されており、教師用端末101からの読み出し制御によって所望の教材データを読み出すことが可能なサーバ103とが、ネットワーク104を介してそれぞれ接続された構成を有している。そして、同図には、学習者用端末102−1〜102−3のそれぞれの使用者である学習者a1〜a3が示されており、他の学習者及び教師の図は省略されている。
【0017】
なお、同図における教師用端末101及び学習者用端末102−1〜102−nを総称して端末とする。
【0018】
次に、端末の概略の内部構成を表したブロック図を図2に示す。なお、教師用端末101と学習者用端末102−1〜102−nとは、後述するアプリケーションソフトウェアを除いて基本的には同一の構成をなすものである。同図に示すように、端末は、語学学習システム1における語学学習のためのアプリケーションソフトウェア(以下、ソフトウェア)を実行するための不図示のCPU(Central Processing Unit)を備えた制御部201と、ソフトウェアや各種データを記憶するためのメモリ部202と、ハードディスクやDVD(Digital Versatile Disc)等のデータやソフトウェアを記録するための記録部203と、当該端末をネットワーク104に接続するためのネットワークインターフェース(I/F)部204と、モニタ210(後述)を接続するためのモニタI/F部205と、音声処理を実行するための音声データ処理部206と、カメラ212(後述)からの画像データを入力するための外部I/F部207とを備えている。そして、上記ブロック201〜207はそれぞれバス208に接続されている。
【0019】
そして、上記構成の端末には、教師及び学習者が操作するタッチパネル211を備えてソフトウェアの動作に基づいた表示をするモニタ210がモニタI/F部205に接続され、ヘッドホン部及びマイクロホン部(いずれも不図示)を備えたヘッドセット209が音声データ処理部206に接続され、さらに教師や学習者の少なくとも顔部分の画像を撮像するカメラ212が外部I/F部207に接続されている。
【0020】
なお、カメラ212は、対応する端末に接続されたモニタ210の画面を見ながら会話学習を行う学習者や教授する教師の顔部分を主に撮像する必要があるため、例えばモニタ210の上部又は机上に撮像方向を可動可能なように設置されることが望ましい。
【0021】
また、端末は一般的なPCを用いて構成することが可能である。この場合、音声データ処理部206にはサウンドカード、外部I/F部207はUSB(Universal Serial Bus)やIEEE1394シリアルバス等の高速通信インターフェースが適用可能である。
【0022】
また、上述したソフトウェアは、教師用端末101については教師用端末専用ソフトウェアが、そして学習者用端末102−1〜102−nについては学習者用端末専用ソフトウェアが用いられる。
【0023】
以上の構成を有する端末では、語学学習システム1の起動時に予め記録部203に記録されたソフトウェアがメモリ部202に読み出されて初期化処理を実行した後、教師及び学習者のタッチパネル211の操作に基づいて、制御部201がバス208に接続された各ブロックを制御する。
【0024】
次に、語学学習システム1における教授/学習機能の1つであるグループレッスンの動作について説明する。グループレッスンは、複数の学習者同士が各人の学習者用端末102−1〜102−nに接続されたヘッドセット209、カメラ212、モニタ210、及びタッチパネル211を用いて相互会話学習を行うというレッスン形態である。
【0025】
<教師用端末のグループレッスンの設定>
最初に、教師側端末101におけるグループレッスンの設定についてその動作を説明する。教師用端末101のモニタ210には、教師用端末専用ソフトウェアによって図3に示すようなGUI(Graphical User Interface)画面301が表示されている。なお、同図においては、グループレッスンの設定に必要な部分のみをGUI画面301に図示している。
【0026】
まず、教師はモニタ210に表示されたGUI画面301を見ながらタッチパネル211のグループ設定ボタン302に触れてグループ設定画面を表示させる。このグループ設定画面の例を図4に示す。同図において、教師はグループ設定画面401のランダムモードのラジオボタン402に触れてランダムモードを選択し、グループの人数、例えば3人をプルダウンメニュー403に触れて選択する。そして、OKボタン404に触れることにより、教師用端末専用ソフトウェアによる制御部201の制御によって、「無作為に3人の学習者を選択する」というランダムモードが教師用端末101の制御部201に伝達され、グループ設定画面401が閉じられて図3のGUI画面301が表示される。
【0027】
そして次に、教師がGUI画面301のグループレッスンボタン303に触れることにより、教師用端末101の制御部201は全ての学習者を3人ずつのグループに無作為に区分してグループレッスンの開始を指示する。
【0028】
<語学学習システムのグループレッスンの動作>
次に、語学学習システム1におけるグループレッスンの動作について説明するが、説明を分かり易くするために、図1に示した学習者a1〜a3の3人が1つのグループに属するように選択されたものとして以下説明する。
【0029】
グループレッスンが開始されると、教師用端末101の教師用端末専用ソフトウェアは、制御部201を制御して図5のフローチャートに示す処理を実行する。まず、制御部201は、グループ内の学習者a1〜a3それぞれの学習者用端末102−1〜102−3について仮想的に定めた平面(仮想平面)における座標値(仮想平面座標値)を取得する(ステップS501)。具体的には、図6に示すように、直交するX軸及びY軸の交点O=O1を中心とする所定の円周C上に学習者用端末102−1〜102−3の各座標を等距離に配置した仮想平面をメモリ202上に展開して各端末の仮想平面座標値を取得する。
【0030】
次に、教師用端末101は、グループレッスン開始コマンドを、学習者a1〜a3の学習者用端末102−1〜102−3にそれぞれマルチキャスト送信する(ステップS502)。このグループレッスン開始コマンドには、ステップS501で取得された学習者用端末102−1〜102−3の各仮想平面座標値を含む仮想平面データ、グループの識別番号、学習者用端末102−1〜102−3の各IPアドレス、及びマルチキャストのポートが含まれている。
【0031】
次に、教師用端末101は、GUI画面301をグループレッスン状態の表示に変更する(ステップS503)。具体的には、設定されたグループ毎に学習者アイコン304を色分け表示するとともに、グループレッスンボタン303を点灯させる。
【0032】
一方、教師用端末101からマルチキャスト送信されたグループレッスン開始コマンドを受信した学習者用端末102−1〜102−3は、学習者用端末専用ソフトウェアによる制御部201の制御に基づいて図7のフローチャートに示す処理を実行する。ここでは、説明を簡潔にするために、学習者a2の学習者用端末102−2を例に説明する。
【0033】
まず、学習者用端末102−2の制御部201は、ネットワークI/F部204を介して供給されたグループレッスン開始コマンドに含まれている仮想平面データに基づき仮想平面を再設定する(ステップS701)。具体的には、制御部201は、入来したグループレッスン開始コマンドから仮想平面データを抽出し、この仮想平面データに含まれる学習者用端末102−1〜102−3の各仮想平面座標値を、図8に示す学習者用端末102−2(自端末)が仮想平面座標の中心点Oに位置するように再配置して仮想平面を再設定する。そして、再設定後の各端末の座標値をメモリ202に記憶する。
【0034】
ステップS701による仮想平面の再設定後、学習者用端末102−2は学習者用端末102−1及び102−3とともにグループレッスンが行える状態となる(ステップS702)。すなわち、ステップS702では、学習者a2が発声した音声は、ヘッドセット209のマイクロホン部で収音され、音声データ処理部206に取り込まれてデジタル音声データに変換される。そして、ネットワークI/F部204は、デジタル音声データをIP(Internet Protocol)パケットデータに変換して学習者用端末102−1及び102−3にマルチキャスト送信する。それとともに、学習者用端末102−2は、学習者用端末102−1及び102−3からそれぞれマルチキャスト送信された学習者a1及びa3の音声に基づくデジタル音声データをネットワークI/F部204から入力して音声データ処理部206に供給する。
【0035】
また、上記音声処理と同時に、学習者用端末102−2に対応したカメラ212は、モニタ210の前に座っている学習者a2の顔部分を撮像し、その画像をデジタル画像データとして学習者用端末102−2に送信する。そして、学習者用端末102−2は、学習者端末専用ソフトウェアによる制御部201の制御に基づき、外部I/F部207を介してカメラ212から供給されるデジタル画像データを受信する。そして、受信したデジタル画像データをメモリ部202に一時記憶させながら、例えば3秒〜5秒に1枚の割合でJPEG(Joint Photographic Experts Group)方式によるデータ圧縮処理を実行した後、学習者用端末102−2の識別番号とともにネットワークI/F部204でIPパケットに変換してサーバ103に送信する。そして、この送信されたIPパケットを受信したサーバ103は、受信されたIPパケットからJPEGデータと学習者用端末102−2の識別番号とを抽出し、両者を関連付けて不図示のハードディスクに記録する。
【0036】
なお、カメラ212で撮像された画像のデータ圧縮処理は、学習者用端末102−2の制御部201側ではなく、カメラ212側で処理するように構成してもよい。
【0037】
学習者用端末102−1及び102−3も上述の画像処理と同様の処理を実行し、サーバ103は、それぞれのカメラ212で撮像された学習者a1及びa3の顔部分が撮像されたJPEGデータと端末の識別番号とを関連付けて記録する。
【0038】
そして、学習者用端末102−2は、サーバ103から学習者用端末102−1及び102−3それぞれの識別番号に関連付けられたJPEGデータを読み出してネットワークI/F204を介して入力し、メモリ部202に一時記憶させながら制御部201でJPEG方式によってそれぞれのJPEGデータの伸張処理を実行する。学習者用端末102−1及び102−3も上記データ伸張処理と同様の処理を実行する。
【0039】
上述したステップS702の処理の如く音声処理及び画像処理を実行しながら、学習者用端末102−2は、ステップS701で再設定された仮想平面における学習者用端末102−1及び102−3の仮想平面座標値に基づき、学習者a1及びa3に対応する音声処理と画像処理とを実行する(ステップS703)。
【0040】
<ステップS703の音声処理>
すなわち、学習者用端末102−2の学習者用端末専用ソフトウェアは、制御部201を制御することにより、再設定された仮想平面座標値に基づいて学習者a1及びa3からのステレオ音声信号レベル(Lチャンネル/Rチャンネル)を算出して、学習者用端末102−2の音声データ処理部206に設定する。図8の再設定後の仮想平面に基づきより具体的に説明すると、制御部201は、学習者用端末102−1及び102−3から供給されるそれぞれの音声データを、図9の如くLチャンネル(同図(a))とRチャンネル(同図(b))とに分割する。
【0041】
すなわち、図8によれば、学習者用端末102−2(自端末)に対して、学習者用端末102−3は左側に、学習者用端末102−1は右側にそれぞれ位置するとともに、自端末からの各端末への距離はそれぞれ等しい。よって、前述の音声分割処理によれば、学習者用端末102−2におけるLチャンネルは、学習者a3の音声レベルが学習者a1の音声レベルよりも高レベルに設定されるとともに、Rチャンネルは、学習者a1の音声レベルが学習者a3の音声レベルよりも高レベルに設定される。その際に、Lチャンネルの音声レベルの合計とRチャンネルの音声レベルの合計とは同値に設定される。
【0042】
これにより、学習者a2のヘッドセット209からは、図8に示した再設定後の仮想平面上の配置に対応して、学習者a1の音声が右側から、そして学習者a3の音声が左側から、それぞれ同程度の距離感覚として聞こえる。
【0043】
また、別の仮想平面の例として、ステップS701における仮想平面の再設定を図10に示すような例とした場合、すなわち、直交したX軸及びY軸の交点Oに配置された学習者用端末102−2から第1象現内に伸ばした直線と円周Cとの交点に学習者用端末102−1を配置するとともに、当該直線上であって円周Cの外側に学習者用端末102−3を配置した場合、学習者用端末102−2の音声分割処理は、図11の如くLチャンネル(同図(a))及びRチャンネル(同図(b))のようになる。つまり、学習者a3の音声レベルが両チャンネルとも学習者a1の音声レベルの1/2に設定されるとともに、Lチャンネルの各音声レベルがRチャンネルの各音声レベルよりも小さく設定される。このように、学習者a3のLチャンネルとRチャンネルとのレベルの比は、学習者a1のLチャンネルとRチャンネルとのレベルの比と同一に設定されているため、学習者a1及びa3どちらの音声も右側のヘッドホン部から主に聞こえるが、学習者a3の音量が小さいため、図10に示す仮想平面のように学習者a3が遠くに位置するように聞こえる。
【0044】
このようにして、学習者用端末102−2は、学習者用端末102−1及び102−3の再設定後の仮想平面座標値に基づいて音声処理を行う。なお、遠近感を生じさせるための音声処理として、音量レベルを調整する以外にもエコー量を調整する方法を用いても良い。
【0045】
<ステップS703の画像処理>
また、学習者用端末102−2の学習者用端末専用ソフトウェアは、制御部201を制御することにより、サーバ103から読み込んだ学習者a1及びa3の画像データ、並びに学習者a2自身の画像データを、再設定された仮想平面座標値に基づいて1つの画面に構成してモニタ210に表示する。すなわち、制御部201は、学習者a1〜a3の画像データをそれぞれ縮小処理して、再設定された仮想平面座標値に対応させた位置関係で表示画面に配置する。このようにして配置された画面の例を図12に示す。
【0046】
以上詳述したように、グループ区分された複数の学習者用端末は、教師用端末101から送信された仮想平面座標値に基づいて、仮想平面上の学習者用端末の各座標値を自らの学習者用端末を基点として再設定する。そして、グループ内の他の学習者用端末から送信されるデジタル音声データに対して、再設定された仮想平面座標値に基づいた音声処理を実行して1つのステレオ音声信号を生成する。さらに、グループ内の各学習者用端末からそれぞれのカメラ212で撮像された画像データをサーバ103を介して取得し、再設定された仮想平面座標値に基づいて画像処理を実行して合成画面を生成する。このようにして、本実施形態の語学学習システム1においては、生成されたステレオ音声信号が音声データ処理部206からヘッドセット209に供給されてヘッドホン部から出力されるとともに、合成画面がモニタI/F部205からモニタ210に出力されて表示される。
【0047】
本実施形態の語学学習システム1によれば、グループレッスンを行っている各学習者は、仮想平面上に配置された位置関係により入来する話し相手の音声をステレオ音声として方向性を有して聴くことができるとともに、話し相手の顔画像が各自のモニタ210に前記の位置関係によって表示されるので、話し相手の音声とその顔とを一致させて認識することが容易であり、よって各自が誰と会話をしているのかを容易に特定することができる。
【0048】
また、本実施形態の語学学習システム1によれば、カメラ212で撮像される画像データがフルフレームの動画でなく唇の動きを正確に捉えられないとしても、仮想平面に基づく画像表示とステレオ音声とによる視聴によって話し相手の特定を容易にできるため、例えば3〜5秒に1枚の画像を撮像するといった簡易映像を用いることができ、よってネットワーク104の伝送帯域を低く抑えて設備コストを低く抑えることが可能である。
【0049】
なお、本実施形態の画像処理において、音声信号のレベルが予め決定されている閾値を超える学習者の画像を強調して表示するようにしてもよい。例えば、学習者a1が発声している場合に、学習者用端末102−1から出力される音声データのレベルが予め定めている閾値を超えたとすると、この越えている間中この音声データに対応した画像データに枠画像を付加して表示したり、画像データの輝度レベルを高くして表示したりする等の画像処理を実行することが好適である。
【0050】
図13に、強調表示の一例として画像データに枠画像を付加してモニタ210に表示した例を示す。これにより、現在の話者を画面上でさらに分かり易く特定することができる。
【0051】
本実施の形態例では、サーバ103を利用して各学習者端末間のJPEGデータのやり取りを実行する例について説明したが、このJPEGデータのやり取りは、教師用端末101を介して行うように構成してもよいし、例えば送信側の学習者側端末102−2から受信側の学習者端末102−1及び102−3にマルチキャスト送信するように構成してもよい。
【0052】
また、本実施の形態例では、タッチパネル211を備えたモニタ210を用いて、教師が指示を行う例を示したが、入力手段はこれに限定されず、例えば図示はしないがマウス等のポインティングデバイス、キーボード、操作盤等、他の入力手段を用いても良いことはいうまでもない。
【産業上の利用可能性】
【0053】
本発明は、複数の学習者でグループレッスンを行うことが可能な語学学習システムにおいて特に有用である。
【図面の簡単な説明】
【0054】
【図1】本発明の実施形態における語学学習システムの基本的な構成を示したシステムブロック図である。
【図2】教師用端末及び学習者用端末の概略の内部構成を示すブロック図である。
【図3】教師用端末のモニタに表示されるGUI画面の例である。
【図4】教師用端末のモニタに表示されるグループ設定画面の例である。
【図5】教師用端末のグループレッスンの処理手順を説明するためのフローチャートである。
【図6】仮想平面の例である。
【図7】学習者用端末のグループレッスンの処理手順を説明するためのフローチャートである。
【図8】再設定された仮想平面の例である。
【図9】図8の仮想平面に基づく音声レベルを模式的に表した図である。
【図10】再設定された仮想平面の別の例である。
【図11】図10の仮想平面に基づく音声レベルを模式的に表した図である。
【図12】学習者用端末によって合成された画面の例である。
【図13】学習者用端末によって強調表示された画面の例である。
【符号の説明】
【0055】
1 語学学習システム
101 教師用端末
102−1〜102−n 学習者用端末
103 サーバ
104 ネットワーク
201 制御部
202 メモリ部
203 記録部
204 ネットワークI/F部
205 モニタI/F部
206 音声データ処理部
207 外部I/F部
208 バス
209 ヘッドセット
210 モニタ
211 タッチパネル
212 カメラ
a1,a2,a3 学習者
【技術分野】
【0001】
本発明は、複数の学習者でグループレッスンを行わせることが可能な語学学習システムに関する。
【背景技術】
【0002】
大学や学校教育等で使用される語学学習システムとして、従来はLL(Language Laboratory)システムが多く用いられていたが、近年ではCALL(Computer Assisted Language Learning)システムと呼ばれる、ネットワーク接続されたパーソナルコンピュータ(以下、PC)を用いた語学学習システムが用いられるようになっている。
【0003】
CALLシステムでは、教師側のPCが、例えば教師の操作に基づいて複数の学習者側のPCを制御可能なように構成されている。そして、教師側のPCは教授/学習用の映像、静止画、音声等のマルチメディアデータの教材データを、学習者全員のPC又は選択した学習者のPCにネットワークを介して送信することができる。このようにして、学習者は、各自のPCで受信した教材データを用いて学習することができる。
【0004】
また、CALLシステムでは、教師及び学習者それぞれのPCにヘッドホン部とマイクロホン部とを備えたヘッドセットを接続し、教師及び学習者がこのヘッドセットを装着して教授/学習を行うのが一般的である。すなわち、CALLシステムは、ヘッドセットの装着者自らが発声した音声をマイクロホン部で収音して各自のPCでデジタル音声データに変換処理して通信相手先のPCに送信するとともに、通信相手先のPCから出力されたデジタル音声データを各自のPCで受信して音声に変換し、この音声をヘッドホン部で聴くことで会話の練習を行うことができるものである(例えば、特許文献1を参照)。
【0005】
上記示したような従来の語学学習システムにおいては、教師が発声した音声を学習者が装着したヘッドセットに即時的に伝送して聴かせるだけでなく、2人以上の学習者同士でヘッドセットを介した相互会話学習(以下、グループレッスン)を行わせることが可能なものもある。このような語学学習システムでは、教師がグループレッスンを行っている様子をヘッドセットを介してモニタリングすることや、グループレッスンに割り込んで語学指導を行うといったことも可能である。
【0006】
ところで、グループレッスンを行う場合、学習者の組み合わせがいつも同じになると学習者の緊張感や学習意欲が薄れ、又グループメンバ同士の学習レベルが同じだと相互の刺激が少なく学習効果が十分に得られないこともある。これを改善するため、上記グループレッスン機能を具備した語学学習システムには、無作為に学習者を選択してグループを設定するランダムモードが設けられているものもある。このランダムモードでは、例えば同一教室内の複数の学習者を無作為に選択してグループを決定するため、グループ内の学習者同士は必ずしも近い席に座っているとは限らず、グループレッスンの最中に相手の顔が見えないことも十分あり得る。
【0007】
ところで、教師用装置及び複数の学習者用装置それぞれに映像入出力手段を設けて、この映像入出力手段で撮像された学習者の表情を他の学習者の学習者用装置に配信することにより、当該他の学習者が画像を送信した相手の表情を見ながらより実践的な会話学習を行うことが可能な語学学習システムも知られている(例えば、特許文献2を参照)。
【0008】
会話は人間間の意思の伝達手段であるが、会話する相手の顔をみてアイコンタクトをとりながら会話することが、最も意思疎通がし易いということは誰もが経験上得ていることである。したがって、特許文献2に開示されたような語学学習システムを用いれば、相手の顔を見ながら会話学習を行うことにより、学習意欲と学習効果とを向上させることにつながる。
【特許文献1】特開2002−132128号公報
【特許文献2】特開2000−321970号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、上記特許文献2に記載の語学学習システムにおいては、学習者の表情を捉えた映像を教師用装置や他の学習者用装置に配信して、この映像を受信した教師用装置や学習者用装置が受信映像を表示する技術については開示されているものの、どのように表示させるかについては具体的な技術開示がされていない。例えば、4人の学習者がグループレッスンを行っている場合に、内1人(自分)が他3人の学習者の映像をどのようにして得るか、そして自分がどの学習者と会話しているかをどのようにして特定するかについて不明である。
【0010】
この場合、単に3人の学習者の映像を自分の学習者用装置にそれぞれ同時に表示させるようにしてもよいが、この場合、各映像を30fps(frames per second)のいわゆるフルフレームで表示すれば、学習者は表示手段(モニタ)を見ながら誰と会話をしているのかを特定することが可能な場合もある、しかし、映像をフルフレームでネットワーク伝送するには回線の伝送帯域を広くとる必要が生ずる。高校や大学等何十人もの学習者がいる教室で各人がフルフレームの伝送帯域を確保できる教室内LAN(Local Area Network)を敷設することは、不可能ではないものの相当大規模なシステムとなってしまいコスト上のデメリットが大きくなる。
【0011】
したがって、フレームレートを落として伝送帯域を狭く抑えることが通常である。しかし、このようにフレームレートを落とした映像の伝送を行うと、フレームの抜けが発生するために、映像内の唇の動きを十分に視認できなくなり、自分が誰と会話をしているのかが分かりづらくなるという問題があった。
【0012】
そこで本発明は、上記問題に鑑みてなされたものであり、その目的は、複数の学習者によるグループレッスンにおいて、各自が誰と会話をしているかを明確に特定できるとともに、ネットワークの伝送帯域に大きな負担をかけない語学学習システムを提供することである。
【課題を解決するための手段】
【0013】
上記の課題を解決するために、請求項1に記載の発明は、
教師用端末(101)と、ヘッドホン部及びマイクロホン部を備えたヘッドセット(209)がそれぞれ接続された複数の学習者用端末(102−1〜102−n)とがネットワーク(104)を介してそれぞれ接続されるとともに、前記各学習者用端末には、操作する学習者の顔部分を撮像するためのカメラ(212)と前記撮像された画像を少なくとも表示するモニタ(210)とがそれぞれ接続された語学学習システムにおいて、
前記教師用端末は、
前記複数の学習者用端末を1つ以上のグループに区分するグループ区分手段(201)と、
このグループ区分手段で区分されたグループ毎に、当該グループ内の学習者用端末を所定の仮想平面に配置した場合の仮想平面座標値を取得する仮想平面座標値取得手段(201)と、
この仮想平面座標値取得手段で取得された前記グループ毎の仮想平面座標値を前記複数の学習者用端末に送信する仮想平面座標値送信手段(204)とを備え、
前記各学習者用端末は、
前記教師用端末から送信された仮想平面座標値を受信する仮想平面座標値受信手段(204)と、
この仮想平面座標値受信手段で受信された仮想平面座標値について、当該学習者用端末の仮想平面座標値を前記仮想平面における基点に設定するよう前記受信された仮想平面座標値を変更する仮想平面座標値変更手段(201)と、
前記マイクロホン部で収音されて得られた音声信号を当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された音声信号を前記仮想平面座標値変更手段で変更された仮想平面座標値に基づいてステレオ音声信号に変換する音声信号処理手段(201,204,206)と、
この音声信号処理手段で変換されたステレオ音声信号を前記ヘッドホン部から出力する音声出力手段(206)と、
前記カメラで撮像された画像データを当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された画像データを縮小して前記仮想平面座標値変更手段で変更された仮想平面座標値に基づき画像合成する画像処理手段(201,204,207)と、
この画像処理手段で画像合成された合成画像データを前記モニタに出力する画像出力手段(205)と
を備えたことを特徴とする語学学習システム(1)
を提供するものである。
【発明の効果】
【0014】
本発明によれば、グループレッスンを行っている各学習者は、仮想平面上に配置された位置関係により入来する話し相手の音声をステレオ音声として方向性を有して聴くことができるとともに、話し相手の顔画像が各自のモニタに前記位置関係によって表示されるので、話し相手の音声とその顔とを一致させて認識することが容易であり、よって各自が誰と会話をしているのかを容易に特定することができる。
【0015】
また、本発明によれば、カメラで撮像される画像データがフルフレームの動画でなく唇の動きを正確に捉えられないとしても、仮想平面に基づく画像表示とステレオ音声とによる視聴によって話し相手の特定を容易にできるため、例えば3〜5秒に1枚の画像を撮像するといった簡易映像を用いることができ、よってネットワークの伝送帯域を低く抑えて設備コストを低く抑えることが可能である。
【発明を実施するための最良の形態】
【0016】
以下、本発明を実施するための最良の形態について、図面を参照して詳細に説明する。図1は、本発明の実施形態である語学学習システムの基本的な構成を示したシステムブロック図である。同図において、語学学習システム1は、教師用端末101と、学習者用端末102−1〜102−n(nは1以上の整数)と、マルチメディアデータとしての教材データが多数格納されており、教師用端末101からの読み出し制御によって所望の教材データを読み出すことが可能なサーバ103とが、ネットワーク104を介してそれぞれ接続された構成を有している。そして、同図には、学習者用端末102−1〜102−3のそれぞれの使用者である学習者a1〜a3が示されており、他の学習者及び教師の図は省略されている。
【0017】
なお、同図における教師用端末101及び学習者用端末102−1〜102−nを総称して端末とする。
【0018】
次に、端末の概略の内部構成を表したブロック図を図2に示す。なお、教師用端末101と学習者用端末102−1〜102−nとは、後述するアプリケーションソフトウェアを除いて基本的には同一の構成をなすものである。同図に示すように、端末は、語学学習システム1における語学学習のためのアプリケーションソフトウェア(以下、ソフトウェア)を実行するための不図示のCPU(Central Processing Unit)を備えた制御部201と、ソフトウェアや各種データを記憶するためのメモリ部202と、ハードディスクやDVD(Digital Versatile Disc)等のデータやソフトウェアを記録するための記録部203と、当該端末をネットワーク104に接続するためのネットワークインターフェース(I/F)部204と、モニタ210(後述)を接続するためのモニタI/F部205と、音声処理を実行するための音声データ処理部206と、カメラ212(後述)からの画像データを入力するための外部I/F部207とを備えている。そして、上記ブロック201〜207はそれぞれバス208に接続されている。
【0019】
そして、上記構成の端末には、教師及び学習者が操作するタッチパネル211を備えてソフトウェアの動作に基づいた表示をするモニタ210がモニタI/F部205に接続され、ヘッドホン部及びマイクロホン部(いずれも不図示)を備えたヘッドセット209が音声データ処理部206に接続され、さらに教師や学習者の少なくとも顔部分の画像を撮像するカメラ212が外部I/F部207に接続されている。
【0020】
なお、カメラ212は、対応する端末に接続されたモニタ210の画面を見ながら会話学習を行う学習者や教授する教師の顔部分を主に撮像する必要があるため、例えばモニタ210の上部又は机上に撮像方向を可動可能なように設置されることが望ましい。
【0021】
また、端末は一般的なPCを用いて構成することが可能である。この場合、音声データ処理部206にはサウンドカード、外部I/F部207はUSB(Universal Serial Bus)やIEEE1394シリアルバス等の高速通信インターフェースが適用可能である。
【0022】
また、上述したソフトウェアは、教師用端末101については教師用端末専用ソフトウェアが、そして学習者用端末102−1〜102−nについては学習者用端末専用ソフトウェアが用いられる。
【0023】
以上の構成を有する端末では、語学学習システム1の起動時に予め記録部203に記録されたソフトウェアがメモリ部202に読み出されて初期化処理を実行した後、教師及び学習者のタッチパネル211の操作に基づいて、制御部201がバス208に接続された各ブロックを制御する。
【0024】
次に、語学学習システム1における教授/学習機能の1つであるグループレッスンの動作について説明する。グループレッスンは、複数の学習者同士が各人の学習者用端末102−1〜102−nに接続されたヘッドセット209、カメラ212、モニタ210、及びタッチパネル211を用いて相互会話学習を行うというレッスン形態である。
【0025】
<教師用端末のグループレッスンの設定>
最初に、教師側端末101におけるグループレッスンの設定についてその動作を説明する。教師用端末101のモニタ210には、教師用端末専用ソフトウェアによって図3に示すようなGUI(Graphical User Interface)画面301が表示されている。なお、同図においては、グループレッスンの設定に必要な部分のみをGUI画面301に図示している。
【0026】
まず、教師はモニタ210に表示されたGUI画面301を見ながらタッチパネル211のグループ設定ボタン302に触れてグループ設定画面を表示させる。このグループ設定画面の例を図4に示す。同図において、教師はグループ設定画面401のランダムモードのラジオボタン402に触れてランダムモードを選択し、グループの人数、例えば3人をプルダウンメニュー403に触れて選択する。そして、OKボタン404に触れることにより、教師用端末専用ソフトウェアによる制御部201の制御によって、「無作為に3人の学習者を選択する」というランダムモードが教師用端末101の制御部201に伝達され、グループ設定画面401が閉じられて図3のGUI画面301が表示される。
【0027】
そして次に、教師がGUI画面301のグループレッスンボタン303に触れることにより、教師用端末101の制御部201は全ての学習者を3人ずつのグループに無作為に区分してグループレッスンの開始を指示する。
【0028】
<語学学習システムのグループレッスンの動作>
次に、語学学習システム1におけるグループレッスンの動作について説明するが、説明を分かり易くするために、図1に示した学習者a1〜a3の3人が1つのグループに属するように選択されたものとして以下説明する。
【0029】
グループレッスンが開始されると、教師用端末101の教師用端末専用ソフトウェアは、制御部201を制御して図5のフローチャートに示す処理を実行する。まず、制御部201は、グループ内の学習者a1〜a3それぞれの学習者用端末102−1〜102−3について仮想的に定めた平面(仮想平面)における座標値(仮想平面座標値)を取得する(ステップS501)。具体的には、図6に示すように、直交するX軸及びY軸の交点O=O1を中心とする所定の円周C上に学習者用端末102−1〜102−3の各座標を等距離に配置した仮想平面をメモリ202上に展開して各端末の仮想平面座標値を取得する。
【0030】
次に、教師用端末101は、グループレッスン開始コマンドを、学習者a1〜a3の学習者用端末102−1〜102−3にそれぞれマルチキャスト送信する(ステップS502)。このグループレッスン開始コマンドには、ステップS501で取得された学習者用端末102−1〜102−3の各仮想平面座標値を含む仮想平面データ、グループの識別番号、学習者用端末102−1〜102−3の各IPアドレス、及びマルチキャストのポートが含まれている。
【0031】
次に、教師用端末101は、GUI画面301をグループレッスン状態の表示に変更する(ステップS503)。具体的には、設定されたグループ毎に学習者アイコン304を色分け表示するとともに、グループレッスンボタン303を点灯させる。
【0032】
一方、教師用端末101からマルチキャスト送信されたグループレッスン開始コマンドを受信した学習者用端末102−1〜102−3は、学習者用端末専用ソフトウェアによる制御部201の制御に基づいて図7のフローチャートに示す処理を実行する。ここでは、説明を簡潔にするために、学習者a2の学習者用端末102−2を例に説明する。
【0033】
まず、学習者用端末102−2の制御部201は、ネットワークI/F部204を介して供給されたグループレッスン開始コマンドに含まれている仮想平面データに基づき仮想平面を再設定する(ステップS701)。具体的には、制御部201は、入来したグループレッスン開始コマンドから仮想平面データを抽出し、この仮想平面データに含まれる学習者用端末102−1〜102−3の各仮想平面座標値を、図8に示す学習者用端末102−2(自端末)が仮想平面座標の中心点Oに位置するように再配置して仮想平面を再設定する。そして、再設定後の各端末の座標値をメモリ202に記憶する。
【0034】
ステップS701による仮想平面の再設定後、学習者用端末102−2は学習者用端末102−1及び102−3とともにグループレッスンが行える状態となる(ステップS702)。すなわち、ステップS702では、学習者a2が発声した音声は、ヘッドセット209のマイクロホン部で収音され、音声データ処理部206に取り込まれてデジタル音声データに変換される。そして、ネットワークI/F部204は、デジタル音声データをIP(Internet Protocol)パケットデータに変換して学習者用端末102−1及び102−3にマルチキャスト送信する。それとともに、学習者用端末102−2は、学習者用端末102−1及び102−3からそれぞれマルチキャスト送信された学習者a1及びa3の音声に基づくデジタル音声データをネットワークI/F部204から入力して音声データ処理部206に供給する。
【0035】
また、上記音声処理と同時に、学習者用端末102−2に対応したカメラ212は、モニタ210の前に座っている学習者a2の顔部分を撮像し、その画像をデジタル画像データとして学習者用端末102−2に送信する。そして、学習者用端末102−2は、学習者端末専用ソフトウェアによる制御部201の制御に基づき、外部I/F部207を介してカメラ212から供給されるデジタル画像データを受信する。そして、受信したデジタル画像データをメモリ部202に一時記憶させながら、例えば3秒〜5秒に1枚の割合でJPEG(Joint Photographic Experts Group)方式によるデータ圧縮処理を実行した後、学習者用端末102−2の識別番号とともにネットワークI/F部204でIPパケットに変換してサーバ103に送信する。そして、この送信されたIPパケットを受信したサーバ103は、受信されたIPパケットからJPEGデータと学習者用端末102−2の識別番号とを抽出し、両者を関連付けて不図示のハードディスクに記録する。
【0036】
なお、カメラ212で撮像された画像のデータ圧縮処理は、学習者用端末102−2の制御部201側ではなく、カメラ212側で処理するように構成してもよい。
【0037】
学習者用端末102−1及び102−3も上述の画像処理と同様の処理を実行し、サーバ103は、それぞれのカメラ212で撮像された学習者a1及びa3の顔部分が撮像されたJPEGデータと端末の識別番号とを関連付けて記録する。
【0038】
そして、学習者用端末102−2は、サーバ103から学習者用端末102−1及び102−3それぞれの識別番号に関連付けられたJPEGデータを読み出してネットワークI/F204を介して入力し、メモリ部202に一時記憶させながら制御部201でJPEG方式によってそれぞれのJPEGデータの伸張処理を実行する。学習者用端末102−1及び102−3も上記データ伸張処理と同様の処理を実行する。
【0039】
上述したステップS702の処理の如く音声処理及び画像処理を実行しながら、学習者用端末102−2は、ステップS701で再設定された仮想平面における学習者用端末102−1及び102−3の仮想平面座標値に基づき、学習者a1及びa3に対応する音声処理と画像処理とを実行する(ステップS703)。
【0040】
<ステップS703の音声処理>
すなわち、学習者用端末102−2の学習者用端末専用ソフトウェアは、制御部201を制御することにより、再設定された仮想平面座標値に基づいて学習者a1及びa3からのステレオ音声信号レベル(Lチャンネル/Rチャンネル)を算出して、学習者用端末102−2の音声データ処理部206に設定する。図8の再設定後の仮想平面に基づきより具体的に説明すると、制御部201は、学習者用端末102−1及び102−3から供給されるそれぞれの音声データを、図9の如くLチャンネル(同図(a))とRチャンネル(同図(b))とに分割する。
【0041】
すなわち、図8によれば、学習者用端末102−2(自端末)に対して、学習者用端末102−3は左側に、学習者用端末102−1は右側にそれぞれ位置するとともに、自端末からの各端末への距離はそれぞれ等しい。よって、前述の音声分割処理によれば、学習者用端末102−2におけるLチャンネルは、学習者a3の音声レベルが学習者a1の音声レベルよりも高レベルに設定されるとともに、Rチャンネルは、学習者a1の音声レベルが学習者a3の音声レベルよりも高レベルに設定される。その際に、Lチャンネルの音声レベルの合計とRチャンネルの音声レベルの合計とは同値に設定される。
【0042】
これにより、学習者a2のヘッドセット209からは、図8に示した再設定後の仮想平面上の配置に対応して、学習者a1の音声が右側から、そして学習者a3の音声が左側から、それぞれ同程度の距離感覚として聞こえる。
【0043】
また、別の仮想平面の例として、ステップS701における仮想平面の再設定を図10に示すような例とした場合、すなわち、直交したX軸及びY軸の交点Oに配置された学習者用端末102−2から第1象現内に伸ばした直線と円周Cとの交点に学習者用端末102−1を配置するとともに、当該直線上であって円周Cの外側に学習者用端末102−3を配置した場合、学習者用端末102−2の音声分割処理は、図11の如くLチャンネル(同図(a))及びRチャンネル(同図(b))のようになる。つまり、学習者a3の音声レベルが両チャンネルとも学習者a1の音声レベルの1/2に設定されるとともに、Lチャンネルの各音声レベルがRチャンネルの各音声レベルよりも小さく設定される。このように、学習者a3のLチャンネルとRチャンネルとのレベルの比は、学習者a1のLチャンネルとRチャンネルとのレベルの比と同一に設定されているため、学習者a1及びa3どちらの音声も右側のヘッドホン部から主に聞こえるが、学習者a3の音量が小さいため、図10に示す仮想平面のように学習者a3が遠くに位置するように聞こえる。
【0044】
このようにして、学習者用端末102−2は、学習者用端末102−1及び102−3の再設定後の仮想平面座標値に基づいて音声処理を行う。なお、遠近感を生じさせるための音声処理として、音量レベルを調整する以外にもエコー量を調整する方法を用いても良い。
【0045】
<ステップS703の画像処理>
また、学習者用端末102−2の学習者用端末専用ソフトウェアは、制御部201を制御することにより、サーバ103から読み込んだ学習者a1及びa3の画像データ、並びに学習者a2自身の画像データを、再設定された仮想平面座標値に基づいて1つの画面に構成してモニタ210に表示する。すなわち、制御部201は、学習者a1〜a3の画像データをそれぞれ縮小処理して、再設定された仮想平面座標値に対応させた位置関係で表示画面に配置する。このようにして配置された画面の例を図12に示す。
【0046】
以上詳述したように、グループ区分された複数の学習者用端末は、教師用端末101から送信された仮想平面座標値に基づいて、仮想平面上の学習者用端末の各座標値を自らの学習者用端末を基点として再設定する。そして、グループ内の他の学習者用端末から送信されるデジタル音声データに対して、再設定された仮想平面座標値に基づいた音声処理を実行して1つのステレオ音声信号を生成する。さらに、グループ内の各学習者用端末からそれぞれのカメラ212で撮像された画像データをサーバ103を介して取得し、再設定された仮想平面座標値に基づいて画像処理を実行して合成画面を生成する。このようにして、本実施形態の語学学習システム1においては、生成されたステレオ音声信号が音声データ処理部206からヘッドセット209に供給されてヘッドホン部から出力されるとともに、合成画面がモニタI/F部205からモニタ210に出力されて表示される。
【0047】
本実施形態の語学学習システム1によれば、グループレッスンを行っている各学習者は、仮想平面上に配置された位置関係により入来する話し相手の音声をステレオ音声として方向性を有して聴くことができるとともに、話し相手の顔画像が各自のモニタ210に前記の位置関係によって表示されるので、話し相手の音声とその顔とを一致させて認識することが容易であり、よって各自が誰と会話をしているのかを容易に特定することができる。
【0048】
また、本実施形態の語学学習システム1によれば、カメラ212で撮像される画像データがフルフレームの動画でなく唇の動きを正確に捉えられないとしても、仮想平面に基づく画像表示とステレオ音声とによる視聴によって話し相手の特定を容易にできるため、例えば3〜5秒に1枚の画像を撮像するといった簡易映像を用いることができ、よってネットワーク104の伝送帯域を低く抑えて設備コストを低く抑えることが可能である。
【0049】
なお、本実施形態の画像処理において、音声信号のレベルが予め決定されている閾値を超える学習者の画像を強調して表示するようにしてもよい。例えば、学習者a1が発声している場合に、学習者用端末102−1から出力される音声データのレベルが予め定めている閾値を超えたとすると、この越えている間中この音声データに対応した画像データに枠画像を付加して表示したり、画像データの輝度レベルを高くして表示したりする等の画像処理を実行することが好適である。
【0050】
図13に、強調表示の一例として画像データに枠画像を付加してモニタ210に表示した例を示す。これにより、現在の話者を画面上でさらに分かり易く特定することができる。
【0051】
本実施の形態例では、サーバ103を利用して各学習者端末間のJPEGデータのやり取りを実行する例について説明したが、このJPEGデータのやり取りは、教師用端末101を介して行うように構成してもよいし、例えば送信側の学習者側端末102−2から受信側の学習者端末102−1及び102−3にマルチキャスト送信するように構成してもよい。
【0052】
また、本実施の形態例では、タッチパネル211を備えたモニタ210を用いて、教師が指示を行う例を示したが、入力手段はこれに限定されず、例えば図示はしないがマウス等のポインティングデバイス、キーボード、操作盤等、他の入力手段を用いても良いことはいうまでもない。
【産業上の利用可能性】
【0053】
本発明は、複数の学習者でグループレッスンを行うことが可能な語学学習システムにおいて特に有用である。
【図面の簡単な説明】
【0054】
【図1】本発明の実施形態における語学学習システムの基本的な構成を示したシステムブロック図である。
【図2】教師用端末及び学習者用端末の概略の内部構成を示すブロック図である。
【図3】教師用端末のモニタに表示されるGUI画面の例である。
【図4】教師用端末のモニタに表示されるグループ設定画面の例である。
【図5】教師用端末のグループレッスンの処理手順を説明するためのフローチャートである。
【図6】仮想平面の例である。
【図7】学習者用端末のグループレッスンの処理手順を説明するためのフローチャートである。
【図8】再設定された仮想平面の例である。
【図9】図8の仮想平面に基づく音声レベルを模式的に表した図である。
【図10】再設定された仮想平面の別の例である。
【図11】図10の仮想平面に基づく音声レベルを模式的に表した図である。
【図12】学習者用端末によって合成された画面の例である。
【図13】学習者用端末によって強調表示された画面の例である。
【符号の説明】
【0055】
1 語学学習システム
101 教師用端末
102−1〜102−n 学習者用端末
103 サーバ
104 ネットワーク
201 制御部
202 メモリ部
203 記録部
204 ネットワークI/F部
205 モニタI/F部
206 音声データ処理部
207 外部I/F部
208 バス
209 ヘッドセット
210 モニタ
211 タッチパネル
212 カメラ
a1,a2,a3 学習者
【特許請求の範囲】
【請求項1】
教師用端末と、ヘッドホン部及びマイクロホン部を備えたヘッドセットがそれぞれ接続された複数の学習者用端末とがネットワークを介してそれぞれ接続されるとともに、前記各学習者用端末には、操作する学習者の顔部分を撮像するためのカメラと前記撮像された画像を少なくとも表示するモニタとがそれぞれ接続された語学学習システムにおいて、
前記教師用端末は、
前記複数の学習者用端末を1つ以上のグループに区分するグループ区分手段と、
このグループ区分手段で区分されたグループ毎に、当該グループ内の学習者用端末を所定の仮想平面に配置した場合の仮想平面座標値を取得する仮想平面座標値取得手段と、
この仮想平面座標値取得手段で取得された前記グループ毎の仮想平面座標値を前記複数の学習者用端末に送信する仮想平面座標値送信手段とを備え、
前記各学習者用端末は、
前記教師用端末から送信された仮想平面座標値を受信する仮想平面座標値受信手段と、
この仮想平面座標値受信手段で受信された仮想平面座標値について、当該学習者用端末の仮想平面座標値を前記仮想平面における基点に設定するよう前記受信された仮想平面座標値を変更する仮想平面座標値変更手段と、
前記マイクロホン部で収音されて得られた音声信号を当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された音声信号を前記仮想平面座標値変更手段で変更された仮想平面座標値に基づいてステレオ音声信号に変換する音声信号処理手段と、
この音声信号処理手段で変換されたステレオ音声信号を前記ヘッドホン部から出力する音声出力手段と、
前記カメラで撮像された画像データを当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された画像データを縮小して前記仮想平面座標値変更手段で変更された仮想平面座標値に基づき画像合成する画像処理手段と、
この画像処理手段で画像合成された合成画像データを前記モニタに出力する画像出力手段と
を備えたことを特徴とする語学学習システム。
【請求項1】
教師用端末と、ヘッドホン部及びマイクロホン部を備えたヘッドセットがそれぞれ接続された複数の学習者用端末とがネットワークを介してそれぞれ接続されるとともに、前記各学習者用端末には、操作する学習者の顔部分を撮像するためのカメラと前記撮像された画像を少なくとも表示するモニタとがそれぞれ接続された語学学習システムにおいて、
前記教師用端末は、
前記複数の学習者用端末を1つ以上のグループに区分するグループ区分手段と、
このグループ区分手段で区分されたグループ毎に、当該グループ内の学習者用端末を所定の仮想平面に配置した場合の仮想平面座標値を取得する仮想平面座標値取得手段と、
この仮想平面座標値取得手段で取得された前記グループ毎の仮想平面座標値を前記複数の学習者用端末に送信する仮想平面座標値送信手段とを備え、
前記各学習者用端末は、
前記教師用端末から送信された仮想平面座標値を受信する仮想平面座標値受信手段と、
この仮想平面座標値受信手段で受信された仮想平面座標値について、当該学習者用端末の仮想平面座標値を前記仮想平面における基点に設定するよう前記受信された仮想平面座標値を変更する仮想平面座標値変更手段と、
前記マイクロホン部で収音されて得られた音声信号を当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された音声信号を前記仮想平面座標値変更手段で変更された仮想平面座標値に基づいてステレオ音声信号に変換する音声信号処理手段と、
この音声信号処理手段で変換されたステレオ音声信号を前記ヘッドホン部から出力する音声出力手段と、
前記カメラで撮像された画像データを当該学習者用端末が属するグループにおける他の学習者用端末に伝送するとともに、これら他の学習者用端末から供給された画像データを縮小して前記仮想平面座標値変更手段で変更された仮想平面座標値に基づき画像合成する画像処理手段と、
この画像処理手段で画像合成された合成画像データを前記モニタに出力する画像出力手段と
を備えたことを特徴とする語学学習システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2007−72054(P2007−72054A)
【公開日】平成19年3月22日(2007.3.22)
【国際特許分類】
【出願番号】特願2005−257533(P2005−257533)
【出願日】平成17年9月6日(2005.9.6)
【出願人】(000004329)日本ビクター株式会社 (3,896)
【Fターム(参考)】
【公開日】平成19年3月22日(2007.3.22)
【国際特許分類】
【出願日】平成17年9月6日(2005.9.6)
【出願人】(000004329)日本ビクター株式会社 (3,896)
【Fターム(参考)】
[ Back to top ]