音声教材
【課題】テキストデータを主体とする学習教材を音声化した音声教材から、学習者が自分の学習したい内容のみを適宜抽出して自分専用の教材を作成し、携行可能な再生機器によっていつでもどこでも反復学習できるようにする。
【解決手段】学習対象となる教材3に含まれるテキストデータを、所定の分割ルールに従って分割した単位4ごとに音声データ6に変換し、この音声データ6が収録された複数の音声ファイル2を可搬性ある記憶媒体5に格納して音声教材1を提供する。この音声教材1は、各音声ファイル2の音声データ6に含まれるキーワードと該音声ファイルとを対応付けて記憶するインデックス情報7を有する。
【解決手段】学習対象となる教材3に含まれるテキストデータを、所定の分割ルールに従って分割した単位4ごとに音声データ6に変換し、この音声データ6が収録された複数の音声ファイル2を可搬性ある記憶媒体5に格納して音声教材1を提供する。この音声教材1は、各音声ファイル2の音声データ6に含まれるキーワードと該音声ファイルとを対応付けて記憶するインデックス情報7を有する。
【発明の詳細な説明】
【技術分野】
【0001】
テキストデータを主体とする教材を音声データに変換した音声教材に関する。
【背景技術】
【0002】
音声のデジタル録音、配布、再生のための環境が普及している現在、音声メディアを学習教材に活用することがさかんに行われている。音声を使った教材は、語学学習に見られるように、気軽に場所を選ばず、繰り返し反復学習ができる。また、可搬型装置を用いて音声を再生して聴くようにすれば、両手がふさがった状態や、通勤電車の中などでも、繰り返して学習ができる。
このような音声教材は、例えば、特開2004−151379号公報記載の「携帯型語学学習装置」、特開2006−133672号公報記載の「携帯型語学学習装置及び携帯型語学学習システム」など多数提案されている。
【特許文献1】特開2004−151379号公報
【特許文献2】特開2006−133672号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、音声教材は従来の紙を媒体とする教材と比較し、必ずしもメリットばかりではない。学習者は、教材の最初から最後まで満遍なく学習するわけではない。当該科目にとって重要と考えられる箇所、理解が不十分であると自覚している箇所などを重点的に学習することが効率的である。このような箇所は、学習者ごとに異なるものである。紙媒体の教材であれば、自分が学習したいと思う箇所にしおりを挟んだり、付箋を貼り付けたりすることで、教材を自分専用に使いやすくすることができる。
【0004】
これに対し音声教材では、自分が学習したいと思う箇所のみを抽出することは難しい。例えば、特許文献1に開示されている発明は、LL端末を使わなくてはできなかった多彩な語学学習をいつでもどこでも簡単に行えるようにしたものであるが、個々の学習者が自分のペースで学習するという視点に欠けている。
また、特許文献2に開示されている発明は、学習者のスケジュール帳に記憶されたイベントに基づいて、その学習者にとって適切な学習データを提供するものであるが、当の学習者の意思にかかわらず、システムが自動的に音声教材を用意する。
したがって、特許文献1および特許文献2に記載のいずれの発明も、音声教材全体から学習者自身が必要と判断する箇所のみを効率的に学習するという点で適当ではない。
しかし、章や節などから構成されている大量の情報を収容している紙媒体の教材を音声化した教材において、必要な箇所のみを聴きたい、学習したいという要望は切実である。
【0005】
本発明は、このような問題点を解決するために、所定のテーマに基づいて関連箇所を容易に取り出せるような仕組みを音声教材に持たせることで、以上のような問題点を解決しようと考えたものである。
【課題を解決するための手段】
【0006】
上記の目的を達成するために、本発明は、学習対象となる教材に含まれるテキストデータを、所定の分割ルールに従って分割した単位ごとに音声データに変換し、この音声データが収録された複数の音声ファイルを可搬性ある記憶媒体に格納して提供される音声教材であって、各音声ファイルの音声データ部に含まれるキーワードと該音声ファイルとを対応付けて記憶するインデックス情報を有することを特徴とする。利用者への配布は、記憶媒体に格納して提供する形態に限らず、通信ネットワークを介して提供するものであってもよい。
【0007】
このように、音声ファイルごとに、収録内容に含まれるキーワードを検索用のインデックスとして付与することにより、自分の聴きたい内容のファイルのみを取り出して聴くことが簡便かつ容易にできる。なお、検索用のインデックスとなりうるものはキーワードだけではなく、ファイル名やファイルの連番でもよい。しかし、本発明では、テーマに沿った学習を効率よく行う、という観点から収録内容の中で重要と考えられる単語群(キーワード群)をインデックスキーとして用いることとする。
【0008】
「教材」とは、各種資格試験、入学試験用の教科書参考書、語学教材のみならず、あらゆる学習に利用される書籍類をいう。また、教科書参考書だけではなく、学習者が参照する法律の条文なども含めるものとする。
「音声データ」とは、音声ファイルのフォーマットがMP3(MPEG1 Audio Layer3)である場合は、MP3オーディオデータのことであり、この音声データが音声再生装置によって再生される。
【0009】
また、上記の目的を達成するために、本発明は、インデックス情報は、音声ファイル内の音声データに付加されている補助情報部に書き込まれていることを特徴とする。
これにより、特殊な装置やソフトウェアを準備しなくとも、現在普及しているMP3フォーマット、並びに近年普及の著しいiTunes(登録商標)のようなソフトウェアを活用することで、本発明の音声教材を作成したり、利用したりすることができる。
【0010】
さらに、インデックス情報は、音声ファイルに付加するのではなく、別途データベースを音声教材に含め、このデータベースにキーワードと音声ファイルとの対応を記録してもよい。
【発明の効果】
【0011】
適当な位置によって分割録音した音声データのそれぞれにキーワードを対応づけて記憶させることにより、このキーワードを検索のためのインデックス情報(インデックスキー)として、音声データの検索と抽出が可能となる。そのため、学習しようとするテーマに沿った内容が含まれる音声データのみを抽出できる。これにより、テーマ毎に効果的な学習が可能となり、分量の多い教材であっても効率よく学習できるようになる。また、テーマ毎に抽出された音声情報のみを収容すればよいので、容量的な制約の厳しい可搬型の再生装置を用いることができる。
【発明を実施するための最良の形態】
【0012】
〔1.第1の実施形態〕
本実施形態による音声教材について、図面を参照しながら説明する。
【0013】
〔1−1.第1の実施形態:音声教材の構成〕
図1に示すように、音声教材1は、複数の音声ファイル2から構成される。各音声ファイル2は、対象となる紙媒体の教材3が適宜分割された各区分4に含まれるテキストデータを音声に変換した音声データを格納するものである。
これらの複数の音声ファイル2を可搬性ある媒体5に格納し、流通配布に供するのが本実施形態の音声教材1である。可搬性ある媒体5としては、CD(Compact Disk)やDVD(Digital Video Disk)などがある。
【0014】
各音声ファイル2は、音声データ部6と、補助情報部7とから構成される。音声データ部6は、適宜分割された教材3の1個の区分4に含まれるテキストデータを音声に変換した音声データを記録する部分である。補助情報部7は、音声データ部6の先頭あるいは末尾に付加されるものであり、音声データ部6に含まれるキーワードを検索用のインデックス情報(インデックスキー)として記憶するものである。
本実施形態では、MP3を前提としているが、MP3ファイルでは、その先頭あるいは末尾に所定のバイト長のデータ領域を付加し、この領域に、曲名、アルバム名、アーティスト名等の付属文字情報を埋め込み可能にしたフォーマットが考案されている。このフォーマットは、ID3と呼ばれ、ID3に対応したMP3プレーヤーでは、上記の付加情報(ID3タグ情報)の表示や編集を行うことができる。そのため、本実施形態では、ID3タグを補助情報部7として活用する。
補助情報部7に記憶されるインデックス情報については、後に詳しく説明する。
【0015】
〔1−2.第1の実施形態:音声教材の作成方法〕
続いて、本実施形態の音声教材1を、コンピュータを備えたシステムによって作成する場合の作成方法について説明する。
【0016】
図2に従い、本実施形態の音声教材1を作成するためのコンピュータシステム例を説明する。
本システム8は、処理手段9,RAM、ROM、あるいは補助記憶媒体などの記憶手段10、マウスやキーボードなどの入力手段11、マイクロフォン、スピーカ、あるいはヘッドセットなどの音声入出力手段12、ディスプレイなどの出力手段13などを備えている。
【0017】
処理手段9は、音声教材を作成するための一連の処理を実行し制御するものであり、専ら図示しないCPUがソフトウェアを実行することによって実現されるが、その一部の機能はハードウェアによって実現されることもある。
【0018】
記憶手段10には、教材テキストデータ記憶手段14、テキスト分割ルール記憶手段15、朗読用原稿記憶手段16、音声データ記憶手段17、キーワード候補抽出ルール記憶手段18、除外リスト記憶手段19、キーワード候補記憶手段20、キーワード記憶手段21、出力音声ファイル記憶手段22が含まれ、図示しない処理途中の中間データを格納する手段なども含まれる。
【0019】
教材テキストデータ記憶手段14は、対象となる教材データ3を記憶する手段である。
テキスト分割ルール記憶手段15は、教材データ3を複数の部分4に分割して音声データに変換する際の区切り位置を決めるための分割ルールを記憶する手段である。
朗読用原稿記憶手段16は、処理手段9が分割ルールに基づいて教材データ3を分割し、その分割位置に区切りを示す記号を付加した朗読用原稿を記憶する手段である。
朗読者は出力手段に表示された朗読用原稿を朗読し、この朗読音声が音声入出力手段12を介して、音声データ記憶手段17に記憶されることになる。
【0020】
キーワード候補抽出ルール記憶手段18は、教材データ3からキーワード候補を抽出するためのキーワード候補抽出ルールを記憶する手段である。
除外リスト記憶手段19は、キーワードとして登録すべきでない除外文字列リストを記憶する手段である。
キーワード候補記憶手段20は、処理手段9によってキーワード候補として自動的に抽出された文字列を記憶する手段である。
キーワード記憶手段21は、キーワード候補記憶手段20に登録されているキーワード候補の中から、選択されたキーワードを記憶する手段である。
出力音声ファイル記憶手段22は、音声データ部6にインデックス情報が書き込まれた補助情報部7を付加した音声ファイル2を記憶する手段である。
【0021】
以下、処理手段9により、音声教材1が作成される一連の処理の流れについて図3を参照しながら説明する。
【0022】
まず、対象教材3のテキストデータを教材テキストデータ記憶手段14に格納する(ステップS1)。テキストデータの入力方法は、教材となる白書などを公開しているウェブサイトからダウンロードする方法、スキャナなどの入力手段11によって紙媒体から読み込む方法などがある。
続いて、処理手段9は、読み込まれた教材データ3をテキスト分割ルール記憶手段15から読み込んだ分割ルールに従って分割位置を決定し、朗読用原稿を作成する(ステップS2)。
【0023】
ここで、教材データ3の分割について説明する。
この実施形態では、対象となるテキスト教材3を予め操作し、部、章、節及び、テーマの切れ目に区切りを挿入した朗読用原稿を作成し、この区切り単位に朗読し、音声ファイル2に格納する。
この区切りの数が少なければ、余分な箇所まで収録するので利用者にとって使い勝手がよくないが、多すぎても収録単位間の意味的繋がりが薄れてしまうおそれがある。そのため、分割位置は教材の部、章、節、段落など明示的な文書の切れ目や構成単位に加え、朗読の際の朗読者の息継ぎ休憩を考慮して分割位置を決める。白書などの定型的な文書であれば、部、章、節及びテーマの切れ目には特徴的な記号や項番が与えられているので、これらを分割ルールとして用いて分割位置を決めたり、これらの組み合わせにより分割位置を決めたりしてもよい。
なお、分割ルールには、細分化だけではなく、細分化した上で隣接した複数の分割単位を1つの分割単位にまとめる際のルールも含むものとする。たとえば、『同一の段落(テキスト全体が、章、節、段落からなる階層構造をとる場合の最下位の構造)に属する隣接区分の文字数の和が閾値以下のときは1区分にまとめる』等のルールである。収録単位が細かすぎても、ユーザである学習者にとって煩わしいからである。
【0024】
ステップS2の処理の詳細な内容を図4に従い説明する。
処理手段9は、デジタル化されたテキストデータをメモリ上に読み出す(ステップS100)。ポインタを初期化し、テキストデータの先頭にセットする(ステップS101)。ポインタが置かれている位置の文字をメモリから読み出す(ステップS102)とともに、その文字をメモリ上の中間ファイルに出力する(S103)。テキスト分割ルール記憶手段15から分割ルールを読み込み(S104)、現在ポインタが置かれている文字が分割ルールに合致しているかを判定し、合致しているならば(S105でYes)、区切りをあらわす記号を中間ファイルに出力する(S106)。現在のポインタ位置の処理が終わったならばポインタを次に進める(S107)。ポインタがテキストの終端に来るまでは、ステップS102からS107までの処理を繰り返す(S108でNo)。ポインタがテキストの終端に至れば(S108でYes)、テキストデータの全範囲について分割処理が終了したことになるので、中間ファイルに出力された内容を朗読用原稿として記憶させる(S109)。
【0025】
以上で、ステップS2の分割処理が終了し、朗読用原稿の区切り位置で分割された各部分ごとに音声データに変換する(S3)。
変換の仕方としては、音声入出力手段12を介して入力された朗読音声を取り込んでもよいが、図示しない音声合成手段によってテキストデータを音声化してもよい。つまり、本発明の「朗読」には、朗読者による音読だけでなく、音声合成による変換も含まれる。人が朗読する場合は、区切り位置で息継ぎをしたり、録音担当スタッフが音声データに区切りを入れたりすることは言うまでもない。また、音声合成を利用する場合は、ソフトウェアが、区切り位置でポーズを入れ、処理手段9に音声データの区切りを通知したりすればよい。
なお、ステップS2で朗読用原稿を作成する際、区切り記号を挿入するだけではなく、読み方の難しい文字(例えば、「瑕疵」)にふりがなを挿入(例えば、「瑕疵(カシ)」)したりすると朗読者等にとっての利便性が増す。そのためには、記憶手段10は、難解な単語の辞書を適宜備えているものとする。
【0026】
ステップS3で生成した音声データにインデックス情報を付与して分割単位ごとの音声ファイル2を作成することになるが、インデックス情報として付与されるキーワードをあらかじめ登録しておかなくてはならない。
登録されるキーワードは、キーワード候補の中から選択するので、まず、テキストデータからキーワード候補を自動的に抽出しておく(ステップS4)。
【0027】
本実施形態では、キーワードを登録する前に、キーワード候補を登録するのは、次の理由による。
キーワードとは、教材のユーザにとって、適切な学習を進めるために重要な情報であるため、何をキーワードとして選択するかは、専門知識のある人でなければ難しい。つまり、適切な選択には人手の介在が不可欠である。しかし、教材は、一般に分量が多いので、必要なキーワードをもれなく取り出すことはたいへん手間がかかる。この手間を軽減するために、本実施形態では、キーワード候補を自動的に抽出し、この自動抽出された中から人手により必要なキーワードを選択することにした。
【0028】
このキーワード候補抽出処理について、図5に従い、詳細に説明する。
まず、テキストデータを読み込む(ステップS200)。
キーワード抽出ルールに従い、文脈候補を抽出する(S201)。
それぞれの教材が有する性格から、その教材に特定の文脈が多用されている可能性が高い。図6に例示したのは、白書類に多い文脈である。そのため、対象教材に高い頻度であらわれる複数の文脈をあらかじめキーワード抽出ルールとして登録しておき、テキスト本文と比較することにより、キーワードの候補を含む文を抽出する。
図6のルールに従えば、図7に例示するような文が抽出できる。
【0029】
次は、抽出された文を品詞分析し、名詞を抽出する(S202)。
図7に例示した文に含まれる単語の品詞を調べ、その単語が名詞であればキーワード候補とする。抽出されたキーワード候補を図8に示す。
続いて、除外リスト記憶手段19を参照し、その単語が除外リストには載っていないならばキーワード候補記憶手段20に登録する(S203)。除外リストには、図9に例示するように、名詞であっても、年号や数字などのように、キーワードとして適当でない単語が載っている。
図7に例示する文からは、図10に例示するようなキーワード候補が抽出できる。
なお、キーワード候補の抽出は、朗読用原稿の作成(図3のS2)と平行して行ってもよい。
【0030】
以上のように、キーワード候補が抽出されたなら、ディスプレイ13などに表示し、キーボードなどの入力手段11を介して、人手によりキーワード候補の中からキーワード記憶手段21に登録するべきキーワードを選択する(図3のS5)。ここで、キーワード候補を画面13などに表示する際、該当部、章、節、段落の見出し語に含まれるか否かといった情報、あるいは全テキスト中における出現頻度も合わせて表示すると適切な判断をするうえで便利である。
なお、キーワード候補をそのままキーワード記憶手段21に登録してもよい。この場合は、キーワードは自動抽出され、人手による作業は発生しない。
キーワードの登録を終えると、ステップS3で生成した音声データにインデックス情報が書き込まれた補助情報部7が付加されてMP3フォーマットの音声ファイル2が作成される(S6)。
【0031】
インデックス情報付与の処理は、図11のフローに示すとおりである。
朗読用原稿の区切り記号で分割された単位ごとにテキストデータを読み込む(S300)。
キーワード記憶手段21からキーワードを読み込む(S301)。テキストデータ中にキーワードと合致する文字列があるかを検索し、合致するものがあれば(S302でYes),そのキーワードを、ID3タグに書き込み、これを音声データにインデックス情報として付加する(S303)。登録されているキーワードについてS301以降の処理を繰り返し、終了すれば(S304でYes),次の区分についてのS300以降のインデックス情報付与処理を行う(S305でNo)。全区分についての処理を終了すれば(S305でYes),インデックス付与処理(図3のS6)は終了する。
なお、各音声データへのインデックス情報の付与は、音声入出力手段12から流れる音声データを確認しながら人手で行ってもよいことは言うまでもない。
【0032】
ここで、本システムの大きな特徴であるインデックスの付与について意義を説明する。
白書などの刊行物では、各部、章、節の名称は、殆どの場合、記述内容を反映した内容となっており、これらをファイル名称としても、記述内容を推測することが可能である。しかし、これらのファイル名称は、限られた情報であり、ファイル内容の一部を表現するにすぎず、これを基に検索していくのは冗長であり、かつ誤検索をもたらす。また、学習の過程では、部、章、節の単位ではなく、部、章、節にまたがった学習テーマを連続的に取り出し、テーマ毎のキーワードに関連性をもたせた形で学習を行う場合がある。複数のファイルは共通のキーワードを含んでおり、従って、各ファイルの識別が可能なようにファイルに名称を付けるのは困難である。つまり、ファイル名称による検索には限界があり、使い勝手が悪い。
このような不都合を解消するために、上記の区切りの単位で、テーマとなっている話題や、文章に含まれるキーワードを1個以上任意個数抽出して音声データに付与し、これらをファイル検索のためのインデックス情報とすることとした。
【0033】
ところで、音声情報の標準的なフォーマットであるMP3の場合、「アーティスト」「アルバム」「コメント」を含める目的でID3タグの領域が確保されている。そのため、この領域に、楽曲名称や演奏者名などの、該当楽曲固有の付帯情報を保持することにより、該当楽曲が識別でき、これらを使って、検索、分類、抽出を行っている。本発明では、上記の楽曲の識別と同様に、音声情報のファイル毎に、オリジナルの教材が持つキーワードをインデックス情報として付与し、この情報を活用して、音声情報の検索、分類、抽出を容易にしようとする。インデックス情報の付与された音声データの例を、図12に示す。
なお、キーワードには法律、経済などのカテゴリーがあり、さらに民法、民事訴訟法、貿易、金融などのサブカテゴリーがあるので、これを、アーティスト、アルバム、ジャンルに相当する領域に振り分け、キーワードを階層化してもよい。
【0034】
コンテンツの提供者がキーワードを登録し、利用者がそのキーワードを検索するのは一般の楽曲と同じであって、一見するとオリジナルCDを作る場合と異ならないようにもみえる。
しかし、楽曲の場合は、アーティスト名などによって、どのような楽曲であるかの見当がつく。これに対し、本発明のような教材では、キーワードによって各部分を識別させることは難しい。その教材がカバーする科目によって重要なキーワードというものは、ある程度数が絞られ、それらのキーワードは教材全般にわたり出現しうるからである。したがって、その部分から抽出されたキーワードをファイル名とすることは適当でない。そのため、教材全体を区切り、各区切りにキーワードを付与することで、オリジナル教材の作成を助けることとする。つまり、ID3タグを補助情報の書き込み箇所とする点で同じとはいえ、楽曲と本発明とでは似て非なるものである。
【0035】
以上の図3のS1からS6までの処理により、各分割単位に対応した音声ファイル2が生成された。処理手段9は、これらの音声ファイル2を出力音声ファイル記憶手段22に記憶させる(S7)。直接配布用の媒体5を作成する場合は、出力音声ファイル記憶手段22はCDなどの記憶媒体5そのものであるが、出力音声ファイル記憶手段22はRAMやハードディスクなどで構成し、必要に応じて記憶媒体5にその記憶内容を転送してもよい。記憶媒体5としては、CDの他に、DVD、フラッシュメモリを使ったSDカードなど種々が考えられる。このようにして、本実施形態の音声教材1が作成された。なお、この音声教材1は、単独で配布してもよく、紙ベースの印刷教材3に添付する形態で配布してもよい。
【0036】
〔1−3.第1の実施形態:音声教材の利用方法〕
本実施形態の音声教材1を利用するためには、利用者側は、音声教材1を格納した記憶媒体5を読み取る手段、音声データ再生装置との接続手段を備えたパソコンを利用できることが前提である。
音声データ再生装置としては、携帯MP3プレーヤーが代表的であるが、携帯電話やPDAを利用することも可能である。
【0037】
以下、図13に従い、利用者側の処理フローを説明する。
利用者は、可搬型記憶媒体5を直接再生装置にセットし、音声化された教材1を聞くことができる。しかし、付与されたインデックス情報を有効に活用するため、一旦パソコンに格納し、パソコン上で汎用の音声ファイル編集ソフトウェア(例えば、iTunes)を使って、自分専用の教材を編集することが好ましい。
音声教材1をパソコンのメモリ上に展開する(ステップS400)。自分専用に編集する必要がなければ(S401でNo),パソコン上で再生してもよく、全音声ファイルを再生装置に収容してもよい。しかし、編集するならば(S401でYes)、検索キーワードを入力する(S403)。音声ファイル編集ソフトウェアは、入力されたキーワードに合致するものを、音声データ部6に付加された補助情報部7から探し、合致するものがあれば(S404でYes)、その音声データをパソコンに接続された音声再生装置(例えば、MP3プレーヤー)に収容する(S405)。このS404以降の処理を音声ファイル2について繰り返す(S406でNo)。
【0038】
このように、自分の学習進度などの都合にあわせて編集することにより、次のようなメリットがある。
例えば、分量の多い白書のような教材を使って「温暖化」に関するテーマを学習する場合、国際的なレベル、国家レベル及び市町村レベルの取り組みが教材に記述されているものとする。これらの取り組みが、別々の章に分散して記載されているならば、「温暖化」に関するテーマを学習する場合、それぞれの章を先頭から聴取し、所望のテーマが含まれるか否かを検索しながら、聴取する必要がある。この検索するという行為は、内容の理解にかかわるものではない。学習の本筋とは異なることに集中するのでは、学習効率が低下する。そのため、本発明では、各章の「温暖化」というキーワードを含む音声ファイル2だけを予め抽出してそれらを連続して聴くことにより、教材自体の章、節による区分けに捉われず、「温暖化」というテーマを基軸とした効果的な学習が可能となる。
【0039】
ところで、テーマに関連した箇所のみを効果的に学習するということならば、コンピュータを用いて机上で学習してもよい。
しかし、コンピュータを利用して、検索しながら聞くのでは、ある箇所を聞いた後、次の箇所へ移るまでの検索に要する時間が発生する。そのため、コンピュータに向かっている時間の一部が学習以外に費やされることになる。しかも、わずかとはいえ時間的な間隔があくことによって集中力がとぎれるという問題もある。
これに対し、必要な箇所のみを携行するならば、いつでもどこでも聴覚により関連あるテーマを連続的に集中して学習できる。したがって、この音声教材1は、学習テーマ毎に抽出した音声情報を携帯可能な再生装置に格納し再生する、つまりオリジナルな教材を携行して聴くという利用方法のもとでその真価を発揮する。
【0040】
〔第2の実施形態〕
第1の実施形態では、インデックス情報の付与のためには、ID3タグを利用した。しかし、各音声ファイルとともに、キーワードと、これを含む音声ファイルを識別する情報との対応を記述したインデックス情報データベースを記憶媒体5に格納して配布してもさしつかえない。ただし、このインデックス情報データベースを検索し、所定のキーワードを含む音声データを抽出するためのコンピュータプログラムも配布用の媒体5に格納する必要がある。
【0041】
図14は、インデックス情報データベースのフォーマット例である。
この例では、ファイル識別情報欄には、キーワード欄のキーワードを含む音声ファイル2のファイル名が記述されているが、ファイルを識別しうるものであればどのような名称でもよい。この音声教材では、ファイル名よりもむしろキーワードによってファイルを検索することを想定しているからである。
【0042】
〔第3の実施形態〕
第1の実施形態および第2の実施形態のいずれにおいても、音声教材を可搬性ある記憶媒体に格納して利用者に提供するものであった。しかし、通信ネットワークを介して利用者にダウンロードさせるようにしても差し支えない。音声教材の提供者(製作者、販売者も含む)は、サーバを管理し、購入希望者側の端末からのアクセスに応じて販売する。
このように、ネットワークを利用した配布方法は、教材の内容に改訂があったときに過年度の利用者に対し通知をしたり、内容に誤植があったときに利用者に訂正を通知したりする際に便利である。
【0043】
ただし、通信ネットワークを利用した販売では、不正な方法での入手を試みる者が出現しかねない。これを防止するために、コンテンツそのものに暗号化を施し、復号用の鍵を有償で販売する等の公知の技術を取り入れることも考慮する必要がある。
【0044】
〔その他の実施形態〕
上記の実施形態では、MP3フォーマットを前提として説明したが、必ずしもMP3に限定するものではない。本発明は、大量のテキストデータを分割して録音し、各分割部分の抽出に便利なようにインデックス情報を付与した点に特徴があるのであって、この特徴は、音声データファイルのフォーマットとは無関係だからである。
【0045】
上記の実施形態では、iTunesのような既存のソフトウェアを利用するものとして説明した。確かに、iTunesを標準インストールすれば、少なくとも次のことが実現できる。すなわち、アーティスト、アルバム欄にキーワードを登録すること、登録したキーワードで検索すること、アーティストとアルバムをまたがった検索をすること等である。
しかし、iTunesによらず、これらの機能を最低限備えた専用のソフトウェアを用いてもよい。たとえば、音声再生装置に収容した区分と日付とをログファイルに書き込んだり、朗読を聴きながら文字情報を画面表示し、画面上のキーワードをクリックすることにより、関連情報の説明箇所にジャンプしたりといった専用ソフトウェアならではの機能を付加することもできる。
【0046】
上記の第1の実施形態では、コンピュータプログラムを実行する処理手段9によって音声教材1の作成作業のほとんどが行われていた。これは、人手による負担を軽減し、短期間での音声教材1の作成のためである。
しかし、作成作業のほとんどを人手で行っても差し支えない。つまり、朗読用原稿の作成、キーワード候補の抽出などを省略し、人手で紙媒体の教材3に分割位置を挿入し、分割ブロックごとに朗読して録音をし、録音後に、MP3対応のソフトウェアでキーワードをID3タグに書き込むわけである。これならば、音声教材作成のための専用のソフトウェアを準備しなくても済むという利点がある。
【産業上の利用可能性】
【0047】
各種の学習教材が音声データとして提供され、かつ、自分専用に編集して携行できるので、学習時間が十分に確保できない社会人などに最適である。そのため、例えば、資格試験の予備校などで紙媒体の教材に添付して配布すれば、利用者に利便性をもたらすことができる。
【図面の簡単な説明】
【0048】
【図1】第1の実施形態の音声教材を説明する図である。
【図2】第1の実施形態の音声教材を作成するシステムのブロック図である。
【図3】第1の実施形態の音声教材を作成する処理の流れ図である。
【図4】第1の実施形態の音声教材を作成するために、元になるテキストデータを分割する処理の流れ図である。
【図5】第1の実施形態の音声教材を作成するために、キーワード候補を抽出する処理の流れ図である。
【図6】第1の実施形態のキーワード候補抽出ルールを例示する図である。
【図7】第1の実施形態のキーワード候補の抽出の前段階として抽出されたセンテンス例を示す図である。
【図8】第1の実施形態のキーワード候補の抽出の前段階として抽出された名詞を示す図である。
【図9】第1の実施形態のキーワード候補抽出から除外する単語を列挙した除外リストを例示する図である。
【図10】第1の実施形態のキーワード候補抽出処理によって抽出されたキーワード候補を例示する図である。
【図11】第1の実施形態の音声教材を作成するために、インデックス情報を付与する処理の流れ図である。
【図12】第1の実施形態の音声データに付与されたインデックス情報を例示する図である。
【図13】第1の実施形態の音声教材を利用する処理の流れ図である。
【図14】第2の実施形態の音声教材に添付されたインデックス情報データベースを説明する図である。
【符号の説明】
【0049】
1 音声教材
2 音声ファイル
3 (テキストベースの)教材
4 (教材3の)分割部分
5 記憶媒体
6 (音声ファイル2の)音声データ部
7 (音声ファイル2の)補助情報部
【技術分野】
【0001】
テキストデータを主体とする教材を音声データに変換した音声教材に関する。
【背景技術】
【0002】
音声のデジタル録音、配布、再生のための環境が普及している現在、音声メディアを学習教材に活用することがさかんに行われている。音声を使った教材は、語学学習に見られるように、気軽に場所を選ばず、繰り返し反復学習ができる。また、可搬型装置を用いて音声を再生して聴くようにすれば、両手がふさがった状態や、通勤電車の中などでも、繰り返して学習ができる。
このような音声教材は、例えば、特開2004−151379号公報記載の「携帯型語学学習装置」、特開2006−133672号公報記載の「携帯型語学学習装置及び携帯型語学学習システム」など多数提案されている。
【特許文献1】特開2004−151379号公報
【特許文献2】特開2006−133672号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、音声教材は従来の紙を媒体とする教材と比較し、必ずしもメリットばかりではない。学習者は、教材の最初から最後まで満遍なく学習するわけではない。当該科目にとって重要と考えられる箇所、理解が不十分であると自覚している箇所などを重点的に学習することが効率的である。このような箇所は、学習者ごとに異なるものである。紙媒体の教材であれば、自分が学習したいと思う箇所にしおりを挟んだり、付箋を貼り付けたりすることで、教材を自分専用に使いやすくすることができる。
【0004】
これに対し音声教材では、自分が学習したいと思う箇所のみを抽出することは難しい。例えば、特許文献1に開示されている発明は、LL端末を使わなくてはできなかった多彩な語学学習をいつでもどこでも簡単に行えるようにしたものであるが、個々の学習者が自分のペースで学習するという視点に欠けている。
また、特許文献2に開示されている発明は、学習者のスケジュール帳に記憶されたイベントに基づいて、その学習者にとって適切な学習データを提供するものであるが、当の学習者の意思にかかわらず、システムが自動的に音声教材を用意する。
したがって、特許文献1および特許文献2に記載のいずれの発明も、音声教材全体から学習者自身が必要と判断する箇所のみを効率的に学習するという点で適当ではない。
しかし、章や節などから構成されている大量の情報を収容している紙媒体の教材を音声化した教材において、必要な箇所のみを聴きたい、学習したいという要望は切実である。
【0005】
本発明は、このような問題点を解決するために、所定のテーマに基づいて関連箇所を容易に取り出せるような仕組みを音声教材に持たせることで、以上のような問題点を解決しようと考えたものである。
【課題を解決するための手段】
【0006】
上記の目的を達成するために、本発明は、学習対象となる教材に含まれるテキストデータを、所定の分割ルールに従って分割した単位ごとに音声データに変換し、この音声データが収録された複数の音声ファイルを可搬性ある記憶媒体に格納して提供される音声教材であって、各音声ファイルの音声データ部に含まれるキーワードと該音声ファイルとを対応付けて記憶するインデックス情報を有することを特徴とする。利用者への配布は、記憶媒体に格納して提供する形態に限らず、通信ネットワークを介して提供するものであってもよい。
【0007】
このように、音声ファイルごとに、収録内容に含まれるキーワードを検索用のインデックスとして付与することにより、自分の聴きたい内容のファイルのみを取り出して聴くことが簡便かつ容易にできる。なお、検索用のインデックスとなりうるものはキーワードだけではなく、ファイル名やファイルの連番でもよい。しかし、本発明では、テーマに沿った学習を効率よく行う、という観点から収録内容の中で重要と考えられる単語群(キーワード群)をインデックスキーとして用いることとする。
【0008】
「教材」とは、各種資格試験、入学試験用の教科書参考書、語学教材のみならず、あらゆる学習に利用される書籍類をいう。また、教科書参考書だけではなく、学習者が参照する法律の条文なども含めるものとする。
「音声データ」とは、音声ファイルのフォーマットがMP3(MPEG1 Audio Layer3)である場合は、MP3オーディオデータのことであり、この音声データが音声再生装置によって再生される。
【0009】
また、上記の目的を達成するために、本発明は、インデックス情報は、音声ファイル内の音声データに付加されている補助情報部に書き込まれていることを特徴とする。
これにより、特殊な装置やソフトウェアを準備しなくとも、現在普及しているMP3フォーマット、並びに近年普及の著しいiTunes(登録商標)のようなソフトウェアを活用することで、本発明の音声教材を作成したり、利用したりすることができる。
【0010】
さらに、インデックス情報は、音声ファイルに付加するのではなく、別途データベースを音声教材に含め、このデータベースにキーワードと音声ファイルとの対応を記録してもよい。
【発明の効果】
【0011】
適当な位置によって分割録音した音声データのそれぞれにキーワードを対応づけて記憶させることにより、このキーワードを検索のためのインデックス情報(インデックスキー)として、音声データの検索と抽出が可能となる。そのため、学習しようとするテーマに沿った内容が含まれる音声データのみを抽出できる。これにより、テーマ毎に効果的な学習が可能となり、分量の多い教材であっても効率よく学習できるようになる。また、テーマ毎に抽出された音声情報のみを収容すればよいので、容量的な制約の厳しい可搬型の再生装置を用いることができる。
【発明を実施するための最良の形態】
【0012】
〔1.第1の実施形態〕
本実施形態による音声教材について、図面を参照しながら説明する。
【0013】
〔1−1.第1の実施形態:音声教材の構成〕
図1に示すように、音声教材1は、複数の音声ファイル2から構成される。各音声ファイル2は、対象となる紙媒体の教材3が適宜分割された各区分4に含まれるテキストデータを音声に変換した音声データを格納するものである。
これらの複数の音声ファイル2を可搬性ある媒体5に格納し、流通配布に供するのが本実施形態の音声教材1である。可搬性ある媒体5としては、CD(Compact Disk)やDVD(Digital Video Disk)などがある。
【0014】
各音声ファイル2は、音声データ部6と、補助情報部7とから構成される。音声データ部6は、適宜分割された教材3の1個の区分4に含まれるテキストデータを音声に変換した音声データを記録する部分である。補助情報部7は、音声データ部6の先頭あるいは末尾に付加されるものであり、音声データ部6に含まれるキーワードを検索用のインデックス情報(インデックスキー)として記憶するものである。
本実施形態では、MP3を前提としているが、MP3ファイルでは、その先頭あるいは末尾に所定のバイト長のデータ領域を付加し、この領域に、曲名、アルバム名、アーティスト名等の付属文字情報を埋め込み可能にしたフォーマットが考案されている。このフォーマットは、ID3と呼ばれ、ID3に対応したMP3プレーヤーでは、上記の付加情報(ID3タグ情報)の表示や編集を行うことができる。そのため、本実施形態では、ID3タグを補助情報部7として活用する。
補助情報部7に記憶されるインデックス情報については、後に詳しく説明する。
【0015】
〔1−2.第1の実施形態:音声教材の作成方法〕
続いて、本実施形態の音声教材1を、コンピュータを備えたシステムによって作成する場合の作成方法について説明する。
【0016】
図2に従い、本実施形態の音声教材1を作成するためのコンピュータシステム例を説明する。
本システム8は、処理手段9,RAM、ROM、あるいは補助記憶媒体などの記憶手段10、マウスやキーボードなどの入力手段11、マイクロフォン、スピーカ、あるいはヘッドセットなどの音声入出力手段12、ディスプレイなどの出力手段13などを備えている。
【0017】
処理手段9は、音声教材を作成するための一連の処理を実行し制御するものであり、専ら図示しないCPUがソフトウェアを実行することによって実現されるが、その一部の機能はハードウェアによって実現されることもある。
【0018】
記憶手段10には、教材テキストデータ記憶手段14、テキスト分割ルール記憶手段15、朗読用原稿記憶手段16、音声データ記憶手段17、キーワード候補抽出ルール記憶手段18、除外リスト記憶手段19、キーワード候補記憶手段20、キーワード記憶手段21、出力音声ファイル記憶手段22が含まれ、図示しない処理途中の中間データを格納する手段なども含まれる。
【0019】
教材テキストデータ記憶手段14は、対象となる教材データ3を記憶する手段である。
テキスト分割ルール記憶手段15は、教材データ3を複数の部分4に分割して音声データに変換する際の区切り位置を決めるための分割ルールを記憶する手段である。
朗読用原稿記憶手段16は、処理手段9が分割ルールに基づいて教材データ3を分割し、その分割位置に区切りを示す記号を付加した朗読用原稿を記憶する手段である。
朗読者は出力手段に表示された朗読用原稿を朗読し、この朗読音声が音声入出力手段12を介して、音声データ記憶手段17に記憶されることになる。
【0020】
キーワード候補抽出ルール記憶手段18は、教材データ3からキーワード候補を抽出するためのキーワード候補抽出ルールを記憶する手段である。
除外リスト記憶手段19は、キーワードとして登録すべきでない除外文字列リストを記憶する手段である。
キーワード候補記憶手段20は、処理手段9によってキーワード候補として自動的に抽出された文字列を記憶する手段である。
キーワード記憶手段21は、キーワード候補記憶手段20に登録されているキーワード候補の中から、選択されたキーワードを記憶する手段である。
出力音声ファイル記憶手段22は、音声データ部6にインデックス情報が書き込まれた補助情報部7を付加した音声ファイル2を記憶する手段である。
【0021】
以下、処理手段9により、音声教材1が作成される一連の処理の流れについて図3を参照しながら説明する。
【0022】
まず、対象教材3のテキストデータを教材テキストデータ記憶手段14に格納する(ステップS1)。テキストデータの入力方法は、教材となる白書などを公開しているウェブサイトからダウンロードする方法、スキャナなどの入力手段11によって紙媒体から読み込む方法などがある。
続いて、処理手段9は、読み込まれた教材データ3をテキスト分割ルール記憶手段15から読み込んだ分割ルールに従って分割位置を決定し、朗読用原稿を作成する(ステップS2)。
【0023】
ここで、教材データ3の分割について説明する。
この実施形態では、対象となるテキスト教材3を予め操作し、部、章、節及び、テーマの切れ目に区切りを挿入した朗読用原稿を作成し、この区切り単位に朗読し、音声ファイル2に格納する。
この区切りの数が少なければ、余分な箇所まで収録するので利用者にとって使い勝手がよくないが、多すぎても収録単位間の意味的繋がりが薄れてしまうおそれがある。そのため、分割位置は教材の部、章、節、段落など明示的な文書の切れ目や構成単位に加え、朗読の際の朗読者の息継ぎ休憩を考慮して分割位置を決める。白書などの定型的な文書であれば、部、章、節及びテーマの切れ目には特徴的な記号や項番が与えられているので、これらを分割ルールとして用いて分割位置を決めたり、これらの組み合わせにより分割位置を決めたりしてもよい。
なお、分割ルールには、細分化だけではなく、細分化した上で隣接した複数の分割単位を1つの分割単位にまとめる際のルールも含むものとする。たとえば、『同一の段落(テキスト全体が、章、節、段落からなる階層構造をとる場合の最下位の構造)に属する隣接区分の文字数の和が閾値以下のときは1区分にまとめる』等のルールである。収録単位が細かすぎても、ユーザである学習者にとって煩わしいからである。
【0024】
ステップS2の処理の詳細な内容を図4に従い説明する。
処理手段9は、デジタル化されたテキストデータをメモリ上に読み出す(ステップS100)。ポインタを初期化し、テキストデータの先頭にセットする(ステップS101)。ポインタが置かれている位置の文字をメモリから読み出す(ステップS102)とともに、その文字をメモリ上の中間ファイルに出力する(S103)。テキスト分割ルール記憶手段15から分割ルールを読み込み(S104)、現在ポインタが置かれている文字が分割ルールに合致しているかを判定し、合致しているならば(S105でYes)、区切りをあらわす記号を中間ファイルに出力する(S106)。現在のポインタ位置の処理が終わったならばポインタを次に進める(S107)。ポインタがテキストの終端に来るまでは、ステップS102からS107までの処理を繰り返す(S108でNo)。ポインタがテキストの終端に至れば(S108でYes)、テキストデータの全範囲について分割処理が終了したことになるので、中間ファイルに出力された内容を朗読用原稿として記憶させる(S109)。
【0025】
以上で、ステップS2の分割処理が終了し、朗読用原稿の区切り位置で分割された各部分ごとに音声データに変換する(S3)。
変換の仕方としては、音声入出力手段12を介して入力された朗読音声を取り込んでもよいが、図示しない音声合成手段によってテキストデータを音声化してもよい。つまり、本発明の「朗読」には、朗読者による音読だけでなく、音声合成による変換も含まれる。人が朗読する場合は、区切り位置で息継ぎをしたり、録音担当スタッフが音声データに区切りを入れたりすることは言うまでもない。また、音声合成を利用する場合は、ソフトウェアが、区切り位置でポーズを入れ、処理手段9に音声データの区切りを通知したりすればよい。
なお、ステップS2で朗読用原稿を作成する際、区切り記号を挿入するだけではなく、読み方の難しい文字(例えば、「瑕疵」)にふりがなを挿入(例えば、「瑕疵(カシ)」)したりすると朗読者等にとっての利便性が増す。そのためには、記憶手段10は、難解な単語の辞書を適宜備えているものとする。
【0026】
ステップS3で生成した音声データにインデックス情報を付与して分割単位ごとの音声ファイル2を作成することになるが、インデックス情報として付与されるキーワードをあらかじめ登録しておかなくてはならない。
登録されるキーワードは、キーワード候補の中から選択するので、まず、テキストデータからキーワード候補を自動的に抽出しておく(ステップS4)。
【0027】
本実施形態では、キーワードを登録する前に、キーワード候補を登録するのは、次の理由による。
キーワードとは、教材のユーザにとって、適切な学習を進めるために重要な情報であるため、何をキーワードとして選択するかは、専門知識のある人でなければ難しい。つまり、適切な選択には人手の介在が不可欠である。しかし、教材は、一般に分量が多いので、必要なキーワードをもれなく取り出すことはたいへん手間がかかる。この手間を軽減するために、本実施形態では、キーワード候補を自動的に抽出し、この自動抽出された中から人手により必要なキーワードを選択することにした。
【0028】
このキーワード候補抽出処理について、図5に従い、詳細に説明する。
まず、テキストデータを読み込む(ステップS200)。
キーワード抽出ルールに従い、文脈候補を抽出する(S201)。
それぞれの教材が有する性格から、その教材に特定の文脈が多用されている可能性が高い。図6に例示したのは、白書類に多い文脈である。そのため、対象教材に高い頻度であらわれる複数の文脈をあらかじめキーワード抽出ルールとして登録しておき、テキスト本文と比較することにより、キーワードの候補を含む文を抽出する。
図6のルールに従えば、図7に例示するような文が抽出できる。
【0029】
次は、抽出された文を品詞分析し、名詞を抽出する(S202)。
図7に例示した文に含まれる単語の品詞を調べ、その単語が名詞であればキーワード候補とする。抽出されたキーワード候補を図8に示す。
続いて、除外リスト記憶手段19を参照し、その単語が除外リストには載っていないならばキーワード候補記憶手段20に登録する(S203)。除外リストには、図9に例示するように、名詞であっても、年号や数字などのように、キーワードとして適当でない単語が載っている。
図7に例示する文からは、図10に例示するようなキーワード候補が抽出できる。
なお、キーワード候補の抽出は、朗読用原稿の作成(図3のS2)と平行して行ってもよい。
【0030】
以上のように、キーワード候補が抽出されたなら、ディスプレイ13などに表示し、キーボードなどの入力手段11を介して、人手によりキーワード候補の中からキーワード記憶手段21に登録するべきキーワードを選択する(図3のS5)。ここで、キーワード候補を画面13などに表示する際、該当部、章、節、段落の見出し語に含まれるか否かといった情報、あるいは全テキスト中における出現頻度も合わせて表示すると適切な判断をするうえで便利である。
なお、キーワード候補をそのままキーワード記憶手段21に登録してもよい。この場合は、キーワードは自動抽出され、人手による作業は発生しない。
キーワードの登録を終えると、ステップS3で生成した音声データにインデックス情報が書き込まれた補助情報部7が付加されてMP3フォーマットの音声ファイル2が作成される(S6)。
【0031】
インデックス情報付与の処理は、図11のフローに示すとおりである。
朗読用原稿の区切り記号で分割された単位ごとにテキストデータを読み込む(S300)。
キーワード記憶手段21からキーワードを読み込む(S301)。テキストデータ中にキーワードと合致する文字列があるかを検索し、合致するものがあれば(S302でYes),そのキーワードを、ID3タグに書き込み、これを音声データにインデックス情報として付加する(S303)。登録されているキーワードについてS301以降の処理を繰り返し、終了すれば(S304でYes),次の区分についてのS300以降のインデックス情報付与処理を行う(S305でNo)。全区分についての処理を終了すれば(S305でYes),インデックス付与処理(図3のS6)は終了する。
なお、各音声データへのインデックス情報の付与は、音声入出力手段12から流れる音声データを確認しながら人手で行ってもよいことは言うまでもない。
【0032】
ここで、本システムの大きな特徴であるインデックスの付与について意義を説明する。
白書などの刊行物では、各部、章、節の名称は、殆どの場合、記述内容を反映した内容となっており、これらをファイル名称としても、記述内容を推測することが可能である。しかし、これらのファイル名称は、限られた情報であり、ファイル内容の一部を表現するにすぎず、これを基に検索していくのは冗長であり、かつ誤検索をもたらす。また、学習の過程では、部、章、節の単位ではなく、部、章、節にまたがった学習テーマを連続的に取り出し、テーマ毎のキーワードに関連性をもたせた形で学習を行う場合がある。複数のファイルは共通のキーワードを含んでおり、従って、各ファイルの識別が可能なようにファイルに名称を付けるのは困難である。つまり、ファイル名称による検索には限界があり、使い勝手が悪い。
このような不都合を解消するために、上記の区切りの単位で、テーマとなっている話題や、文章に含まれるキーワードを1個以上任意個数抽出して音声データに付与し、これらをファイル検索のためのインデックス情報とすることとした。
【0033】
ところで、音声情報の標準的なフォーマットであるMP3の場合、「アーティスト」「アルバム」「コメント」を含める目的でID3タグの領域が確保されている。そのため、この領域に、楽曲名称や演奏者名などの、該当楽曲固有の付帯情報を保持することにより、該当楽曲が識別でき、これらを使って、検索、分類、抽出を行っている。本発明では、上記の楽曲の識別と同様に、音声情報のファイル毎に、オリジナルの教材が持つキーワードをインデックス情報として付与し、この情報を活用して、音声情報の検索、分類、抽出を容易にしようとする。インデックス情報の付与された音声データの例を、図12に示す。
なお、キーワードには法律、経済などのカテゴリーがあり、さらに民法、民事訴訟法、貿易、金融などのサブカテゴリーがあるので、これを、アーティスト、アルバム、ジャンルに相当する領域に振り分け、キーワードを階層化してもよい。
【0034】
コンテンツの提供者がキーワードを登録し、利用者がそのキーワードを検索するのは一般の楽曲と同じであって、一見するとオリジナルCDを作る場合と異ならないようにもみえる。
しかし、楽曲の場合は、アーティスト名などによって、どのような楽曲であるかの見当がつく。これに対し、本発明のような教材では、キーワードによって各部分を識別させることは難しい。その教材がカバーする科目によって重要なキーワードというものは、ある程度数が絞られ、それらのキーワードは教材全般にわたり出現しうるからである。したがって、その部分から抽出されたキーワードをファイル名とすることは適当でない。そのため、教材全体を区切り、各区切りにキーワードを付与することで、オリジナル教材の作成を助けることとする。つまり、ID3タグを補助情報の書き込み箇所とする点で同じとはいえ、楽曲と本発明とでは似て非なるものである。
【0035】
以上の図3のS1からS6までの処理により、各分割単位に対応した音声ファイル2が生成された。処理手段9は、これらの音声ファイル2を出力音声ファイル記憶手段22に記憶させる(S7)。直接配布用の媒体5を作成する場合は、出力音声ファイル記憶手段22はCDなどの記憶媒体5そのものであるが、出力音声ファイル記憶手段22はRAMやハードディスクなどで構成し、必要に応じて記憶媒体5にその記憶内容を転送してもよい。記憶媒体5としては、CDの他に、DVD、フラッシュメモリを使ったSDカードなど種々が考えられる。このようにして、本実施形態の音声教材1が作成された。なお、この音声教材1は、単独で配布してもよく、紙ベースの印刷教材3に添付する形態で配布してもよい。
【0036】
〔1−3.第1の実施形態:音声教材の利用方法〕
本実施形態の音声教材1を利用するためには、利用者側は、音声教材1を格納した記憶媒体5を読み取る手段、音声データ再生装置との接続手段を備えたパソコンを利用できることが前提である。
音声データ再生装置としては、携帯MP3プレーヤーが代表的であるが、携帯電話やPDAを利用することも可能である。
【0037】
以下、図13に従い、利用者側の処理フローを説明する。
利用者は、可搬型記憶媒体5を直接再生装置にセットし、音声化された教材1を聞くことができる。しかし、付与されたインデックス情報を有効に活用するため、一旦パソコンに格納し、パソコン上で汎用の音声ファイル編集ソフトウェア(例えば、iTunes)を使って、自分専用の教材を編集することが好ましい。
音声教材1をパソコンのメモリ上に展開する(ステップS400)。自分専用に編集する必要がなければ(S401でNo),パソコン上で再生してもよく、全音声ファイルを再生装置に収容してもよい。しかし、編集するならば(S401でYes)、検索キーワードを入力する(S403)。音声ファイル編集ソフトウェアは、入力されたキーワードに合致するものを、音声データ部6に付加された補助情報部7から探し、合致するものがあれば(S404でYes)、その音声データをパソコンに接続された音声再生装置(例えば、MP3プレーヤー)に収容する(S405)。このS404以降の処理を音声ファイル2について繰り返す(S406でNo)。
【0038】
このように、自分の学習進度などの都合にあわせて編集することにより、次のようなメリットがある。
例えば、分量の多い白書のような教材を使って「温暖化」に関するテーマを学習する場合、国際的なレベル、国家レベル及び市町村レベルの取り組みが教材に記述されているものとする。これらの取り組みが、別々の章に分散して記載されているならば、「温暖化」に関するテーマを学習する場合、それぞれの章を先頭から聴取し、所望のテーマが含まれるか否かを検索しながら、聴取する必要がある。この検索するという行為は、内容の理解にかかわるものではない。学習の本筋とは異なることに集中するのでは、学習効率が低下する。そのため、本発明では、各章の「温暖化」というキーワードを含む音声ファイル2だけを予め抽出してそれらを連続して聴くことにより、教材自体の章、節による区分けに捉われず、「温暖化」というテーマを基軸とした効果的な学習が可能となる。
【0039】
ところで、テーマに関連した箇所のみを効果的に学習するということならば、コンピュータを用いて机上で学習してもよい。
しかし、コンピュータを利用して、検索しながら聞くのでは、ある箇所を聞いた後、次の箇所へ移るまでの検索に要する時間が発生する。そのため、コンピュータに向かっている時間の一部が学習以外に費やされることになる。しかも、わずかとはいえ時間的な間隔があくことによって集中力がとぎれるという問題もある。
これに対し、必要な箇所のみを携行するならば、いつでもどこでも聴覚により関連あるテーマを連続的に集中して学習できる。したがって、この音声教材1は、学習テーマ毎に抽出した音声情報を携帯可能な再生装置に格納し再生する、つまりオリジナルな教材を携行して聴くという利用方法のもとでその真価を発揮する。
【0040】
〔第2の実施形態〕
第1の実施形態では、インデックス情報の付与のためには、ID3タグを利用した。しかし、各音声ファイルとともに、キーワードと、これを含む音声ファイルを識別する情報との対応を記述したインデックス情報データベースを記憶媒体5に格納して配布してもさしつかえない。ただし、このインデックス情報データベースを検索し、所定のキーワードを含む音声データを抽出するためのコンピュータプログラムも配布用の媒体5に格納する必要がある。
【0041】
図14は、インデックス情報データベースのフォーマット例である。
この例では、ファイル識別情報欄には、キーワード欄のキーワードを含む音声ファイル2のファイル名が記述されているが、ファイルを識別しうるものであればどのような名称でもよい。この音声教材では、ファイル名よりもむしろキーワードによってファイルを検索することを想定しているからである。
【0042】
〔第3の実施形態〕
第1の実施形態および第2の実施形態のいずれにおいても、音声教材を可搬性ある記憶媒体に格納して利用者に提供するものであった。しかし、通信ネットワークを介して利用者にダウンロードさせるようにしても差し支えない。音声教材の提供者(製作者、販売者も含む)は、サーバを管理し、購入希望者側の端末からのアクセスに応じて販売する。
このように、ネットワークを利用した配布方法は、教材の内容に改訂があったときに過年度の利用者に対し通知をしたり、内容に誤植があったときに利用者に訂正を通知したりする際に便利である。
【0043】
ただし、通信ネットワークを利用した販売では、不正な方法での入手を試みる者が出現しかねない。これを防止するために、コンテンツそのものに暗号化を施し、復号用の鍵を有償で販売する等の公知の技術を取り入れることも考慮する必要がある。
【0044】
〔その他の実施形態〕
上記の実施形態では、MP3フォーマットを前提として説明したが、必ずしもMP3に限定するものではない。本発明は、大量のテキストデータを分割して録音し、各分割部分の抽出に便利なようにインデックス情報を付与した点に特徴があるのであって、この特徴は、音声データファイルのフォーマットとは無関係だからである。
【0045】
上記の実施形態では、iTunesのような既存のソフトウェアを利用するものとして説明した。確かに、iTunesを標準インストールすれば、少なくとも次のことが実現できる。すなわち、アーティスト、アルバム欄にキーワードを登録すること、登録したキーワードで検索すること、アーティストとアルバムをまたがった検索をすること等である。
しかし、iTunesによらず、これらの機能を最低限備えた専用のソフトウェアを用いてもよい。たとえば、音声再生装置に収容した区分と日付とをログファイルに書き込んだり、朗読を聴きながら文字情報を画面表示し、画面上のキーワードをクリックすることにより、関連情報の説明箇所にジャンプしたりといった専用ソフトウェアならではの機能を付加することもできる。
【0046】
上記の第1の実施形態では、コンピュータプログラムを実行する処理手段9によって音声教材1の作成作業のほとんどが行われていた。これは、人手による負担を軽減し、短期間での音声教材1の作成のためである。
しかし、作成作業のほとんどを人手で行っても差し支えない。つまり、朗読用原稿の作成、キーワード候補の抽出などを省略し、人手で紙媒体の教材3に分割位置を挿入し、分割ブロックごとに朗読して録音をし、録音後に、MP3対応のソフトウェアでキーワードをID3タグに書き込むわけである。これならば、音声教材作成のための専用のソフトウェアを準備しなくても済むという利点がある。
【産業上の利用可能性】
【0047】
各種の学習教材が音声データとして提供され、かつ、自分専用に編集して携行できるので、学習時間が十分に確保できない社会人などに最適である。そのため、例えば、資格試験の予備校などで紙媒体の教材に添付して配布すれば、利用者に利便性をもたらすことができる。
【図面の簡単な説明】
【0048】
【図1】第1の実施形態の音声教材を説明する図である。
【図2】第1の実施形態の音声教材を作成するシステムのブロック図である。
【図3】第1の実施形態の音声教材を作成する処理の流れ図である。
【図4】第1の実施形態の音声教材を作成するために、元になるテキストデータを分割する処理の流れ図である。
【図5】第1の実施形態の音声教材を作成するために、キーワード候補を抽出する処理の流れ図である。
【図6】第1の実施形態のキーワード候補抽出ルールを例示する図である。
【図7】第1の実施形態のキーワード候補の抽出の前段階として抽出されたセンテンス例を示す図である。
【図8】第1の実施形態のキーワード候補の抽出の前段階として抽出された名詞を示す図である。
【図9】第1の実施形態のキーワード候補抽出から除外する単語を列挙した除外リストを例示する図である。
【図10】第1の実施形態のキーワード候補抽出処理によって抽出されたキーワード候補を例示する図である。
【図11】第1の実施形態の音声教材を作成するために、インデックス情報を付与する処理の流れ図である。
【図12】第1の実施形態の音声データに付与されたインデックス情報を例示する図である。
【図13】第1の実施形態の音声教材を利用する処理の流れ図である。
【図14】第2の実施形態の音声教材に添付されたインデックス情報データベースを説明する図である。
【符号の説明】
【0049】
1 音声教材
2 音声ファイル
3 (テキストベースの)教材
4 (教材3の)分割部分
5 記憶媒体
6 (音声ファイル2の)音声データ部
7 (音声ファイル2の)補助情報部
【特許請求の範囲】
【請求項1】
学習対象となる教材に含まれるテキストデータを、所定の分割ルールに従って分割した単位ごとに音声データに変換し、この音声データが収録された複数の音声ファイルを可搬性ある記憶媒体に格納して提供される音声教材であって、
各音声ファイルの音声データに含まれるキーワードと該音声ファイルとを対応付けて記憶するインデックス情報を有することを特徴とする音声教材。
【請求項2】
学習対象となる教材に含まれるテキストデータを、所定の分割ルールに従って分割した単位ごとに音声データに変換し、この音声データが収録された複数の音声ファイルが、通信ネットワークを介して提供される音声教材であって、
各音声ファイルの音声データに含まれるキーワードと該音声ファイルとを対応付けて記憶するインデックス情報を有することを特徴とする音声教材。
【請求項3】
前記インデックス情報は、音声ファイル内の音声データに付加されている補助情報部に書き込まれていることを特徴とする請求項1または請求項2のいずれかに記載の音声教材。
【請求項4】
前記インデックス情報を格納したインデックス情報データベースを含むとともに、該インデックス情報データベースを検索し、検索条件に合致する音声ファイルを抽出するコンピュータプログラムを含むことを特徴とする請求項1または請求項2のいずれかに記載の音声教材。
【請求項1】
学習対象となる教材に含まれるテキストデータを、所定の分割ルールに従って分割した単位ごとに音声データに変換し、この音声データが収録された複数の音声ファイルを可搬性ある記憶媒体に格納して提供される音声教材であって、
各音声ファイルの音声データに含まれるキーワードと該音声ファイルとを対応付けて記憶するインデックス情報を有することを特徴とする音声教材。
【請求項2】
学習対象となる教材に含まれるテキストデータを、所定の分割ルールに従って分割した単位ごとに音声データに変換し、この音声データが収録された複数の音声ファイルが、通信ネットワークを介して提供される音声教材であって、
各音声ファイルの音声データに含まれるキーワードと該音声ファイルとを対応付けて記憶するインデックス情報を有することを特徴とする音声教材。
【請求項3】
前記インデックス情報は、音声ファイル内の音声データに付加されている補助情報部に書き込まれていることを特徴とする請求項1または請求項2のいずれかに記載の音声教材。
【請求項4】
前記インデックス情報を格納したインデックス情報データベースを含むとともに、該インデックス情報データベースを検索し、検索条件に合致する音声ファイルを抽出するコンピュータプログラムを含むことを特徴とする請求項1または請求項2のいずれかに記載の音声教材。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2008−129475(P2008−129475A)
【公開日】平成20年6月5日(2008.6.5)
【国際特許分類】
【出願番号】特願2006−316391(P2006−316391)
【出願日】平成18年11月23日(2006.11.23)
【出願人】(506392252)
【Fターム(参考)】
【公開日】平成20年6月5日(2008.6.5)
【国際特許分類】
【出願日】平成18年11月23日(2006.11.23)
【出願人】(506392252)
【Fターム(参考)】
[ Back to top ]