単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体

【課題】日本語の単語のレベル判定を客観的かつ精度よく行う。
【解決手段】本発明の単語レベル判定装置は、文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部103から、自装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得部102と、単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部105から、上記入力された単語の単語特徴量を取得する単語特徴量取得部104と、上記入力された単語に含まれる各文字の、文字特徴量取得部102によって取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得手段によって取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出部106とを備えている。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、単語のレベル(難易度など)を評価する言語処理技術に関するものであり、特に、日本語の単語の難易度を自動判定する単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体に関するものである。
【背景技術】
【0002】
従来、文章の読みやすさ、難しさを自動判定する技術が広く使われている(例えば、特許文献1、2および非特許文献1〜3を参照のこと)。このような技術は、例えば、言語教育の場などで重要視されている。一例として、上記技術によって文章の読みやすさを判定し、学習者の学習段階に応じた語彙を含む教材を適切に選択することが可能である。
【0003】
ここで、漢字を用い、多種多様な単語で文章が綴られる日本語を習得するためには、漢字を習得すること、および、膨大な量の単語を習得することが重要である。しかしながら、日本語の学習者にとってこれらの習得には大きな困難が伴う。
【0004】
したがって、より効果的な学習支援を実現するために、教材の選別において、単に文章の表面的な特徴から読みやすさを判定するだけではなく、単語の意味内容、および、その単語が利用される際の利用特性(出現頻度、親密度など)を考慮して、単語単位でレベル判定を行うことが重要になる。特許文献1、2には、単語ごとにあらかじめ定められたレベルを参照して、文章の難易度を判定することが記載されているが、単語そのもののレベル判定を自動で行うことは記載されておらず、したがって、単語ごとにレベルを付与した辞書を予め保持しておかなければならない。
【0005】
一方、単語単位でレベル(難易度)を自動判定する技術が、非特許文献4に開示されている。非特許文献4は、単語の意味内容や利用特性を考慮した、詳細な、単語レベル判定システムを提唱している。
【0006】
具体的には、上記システムでは、新聞記事に現れる単語の出現頻度、単語への馴染みの程度を表す単語親密度、および、日本語能力試験における級別の出題範囲の3つの情報を用いて単語のレベルを判定している。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2006−244252号公報(2006年9月14日公開)
【特許文献2】特開2007−121584号公報(2007年5月17日公開)
【非特許文献】
【0008】
【非特許文献1】建石由佳、他2名、“日本文の読みやすさの評価式”、文書処理とヒューマンインタフェース 18−4、1998年5月9日
【非特許文献2】柴崎秀子、他1名、“国語教科書コーパスを応用した日本語リーダビリティー構築のための基礎研究”、電子情報通信学会 技報、P.19−24、2007年10月
【非特許文献3】佐藤理史、“日本語テキストの難易度を測る”、月刊言語、Vol.37、No.8、P.54−57、2008年8月1日
【非特許文献4】川村よし子、他1名、“文章の難易度判定のための単語親密度チェッカーの開発”、日本語教育方法研究会誌、Vol.15、No.2、P.24−25、2008年9月20日
【非特許文献5】尾内理紀夫著、「マルチメディアコンピューティング」、株式会社コロナ社、2008年10月24日、P.182−185
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかしながら、上記従来のシステムでは、以下の問題を生じる。
【0010】
具体的には、出現頻度、単語親密度、出題範囲など、単語単位で得られる特徴のみが考慮されており、単語を構成している文字ごとの客観的な特徴(文字の複雑さなど)が考慮されていない。
【0011】
また、上記単語親密度は、調査によって「語感」や「なじみ」など、被験者の主観的な判断から得た指標である。難易度の判定にとって重要な指標の一つにはなるが、調査範囲や調査時期によっては、不偏性・客観性を維持するための指標としては向かない場合がある。また、出題範囲は、カバーしている単語の範囲が有限であって、日々利用されながら変化する語彙に柔軟に対応できない。
【0012】
以上の理由から、上記従来のシステムでは、単語のレベルを客観的にかつ精度よく判定することができないという問題が生じる。
【0013】
上述したとおり、膨大な量の漢字および単語を習得することは、学習者にとって困難な作業である。そのような学習者を支援するためには、単語単位のみならず、文字単位で文字自体の難易度も併せて考慮して、客観的に、精度よく単語のレベル判定を行うことがさらに重要な課題となる。
【0014】
なお、上記課題は、日本語の教育・学習の分野に限定して生じるものではなく、日本語を利用するあらゆる分野において、日本語の単語のレベルを判定する場面で生じるものである。
【0015】
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、日本語の文章における単語のレベル判定を客観的かつ精度よく行う単語レベル判定装置、単語レベル判定システム、単語レベル判定方法、制御プログラム、および、記録媒体を実現することにある。
【課題を解決するための手段】
【0016】
本発明の単語レベル判定装置は、上記課題を解決するために、文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、自装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得手段と、単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得手段と、上記入力された単語に含まれる各文字の、上記文字特徴量取得手段によって取得された文字特徴量を総合することによって得られる字総合特徴量と、上記単語特徴量取得手段によって取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出手段とを備えていることを特徴としている。
【0017】
上記構成によれば、単語レベル判定装置に単語が入力されると、文字特徴量取得手段、および、単語特徴量取得手段のそれぞれが、文字特徴量、および、単語特徴量をそれぞれ取得する。文字特徴量取得手段は、文字特徴量記憶部から、入力された上記単語に含まれる文字ごとに、文字特徴量を取得する。単語特徴量取得手段は、入力された上記単語に対応付けて記憶されている単語特徴量を、単語特徴量記憶部から取得する。
【0018】
次に、単語レベル値算出手段は、上記入力された単語の文字ごとに取得された文字特徴量を総合することによって得られる文字総合特徴量と、単語ごとに取得された単語特徴量とから、上記入力された単語の単語レベル値を算出する。単語レベル値とは、単語の難しさを示す値である。
【0019】
文字の特徴から得られた文字特徴量は、単語の語感や親しみやすさなど、人の主観的な尺度に左右されない客観的で公平な尺度である。上記構成によれば、単語特徴量に加えて、文字特徴量を考慮することにより、客観的な単語レベル値を算出することができるので、客観的で精度のよい単語レベル判定を実現することが可能になる。
【0020】
単語レベル判定装置は、自装置に入力された日本語の文章から単語を抽出する単語抽出手段をさらに備え、上記文字特徴量取得手段は、単語に含まれる文字ごとに文字特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行い、上記単語特徴量取得手段は、単語の単語特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行い、上記単語レベル値算出手段は、上記単語抽出手段によって抽出された単語ごとに、文字特徴量を総合することにより得られた上記文字総合特徴量と、上記抽出された単語ごとに取得された上記単語特徴量とから、上記抽出された単語ごとに上記単語レベル値を算出することが好ましい。
【0021】
上記構成によれば、単語レベル判定装置に文章が入力されると、単語抽出手段は、入力された日本語の文章から単語を抽出する。単語抽出手段は、日本語の文章のテキストデータに含まれる1または複数の単語を抽出する。次に、文字特徴量取得手段、および、単語特徴量取得手段のそれぞれが、文字特徴量、および、単語特徴量をそれぞれ取得する。ここで、上記文字特徴量取得手段は、単語に含まれる文字ごとに文字特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行う。よって、上記文字総合特徴量は、上記抽出された単語ごとに求められる。また、上記単語特徴量取得手段は、単語の単語特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行う。
【0022】
そして、単語レベル値算出手段は、上記抽出された単語ごとに得られた文字総合特徴量および単語特徴量から、上記抽出された単語ごとに単語レベル値を算出する。
【0023】
これにより、文章中に含まれる複数の単語の各々について、客観的で精度のよい単語レベル判定を実現することが可能になる。
【0024】
文章中の各単語についてまとめて単語レベルの判定を行うことが可能になれば、日本語教育の分野において、日本語教師の支援を行うことが可能となる。従来、教育現場では、日本語教材となる素材(例えば、新聞記事など)を、教師が学習者のスキルに合わせて書き直して利用するなどしていた。しかし、この単語の置き換えや文章校正は、教師にとって労力の大きい作業である。なぜなら、素材中の単語のレベルを適切に判断した上で、さらに学習者のスキルに合わせて適切な(より平易な、あるいは、難解な)単語を探さなければならないからである。
【0025】
本発明によれば、教師は、文章を本発明の単語レベル判定装置に入力するだけで、客観的な値である単語レベル値を得ることができ、単語レベル値を尺度として、あらゆる単語の難易度を、容易に、客観的に判断することが可能となる。これにより、教師は、学習者のレベルに応じた教材であるか否かを判断したり、レベルに応じた教材を選択したりすることが容易となる。
【0026】
単語レベル判定装置は、さらに、上記単語レベル値と、ユーザに提示するための、単語の難しさを表す文字列である単語難易度とを対応付けた対応情報を記憶する対応情報記憶部と、上記対応情報記憶部から、上記単語レベル値算出手段によって算出された単語レベル値に対応付けられた単語難易度を取得する単語難易度取得手段とを備えていることが好ましい。
【0027】
上記構成によれば、単語難易度取得手段は、対応情報記憶部に記憶された対応情報を参照して、上記単語レベル値算出手段が算出した単語レベル値に対応する単語難易度を取得する。上記対応情報は、上記単語レベル値と、単語の難しさをユーザに提示するために表した文字列である単語難易度とが対応付けられたデータ構造を有する。したがって、単語難易度取得手段は、上記対応情報を参照することによって、上記単語レベル値から、ユーザに提示するための単語難易度を得ることができる。
【0028】
これにより、単語の難しさを文字列によって表現した単語難易度は、難しさを値で示す単語レベル値に比べて、ユーザに直感的に分かりやすい表現で、単語の難しさの度合いをユーザに提示することができる。ユーザは、客観的に算出された単語レベル値が、例えば、ランク、等級、言葉などの文字列によって分かりやすく表現された判定結果を得ることができるので、ユーザの利便性がより向上する。
【0029】
さらに、対応情報を対応情報記憶部に記憶しておく構成により、該対応情報における、単語レベル値と単語難易度の文字列との対応付けや文字列の内容を、ユーザが容易に作成、編集可能となる。
【0030】
例えば、日本語教材を学習者に提供する教師がユーザである場合、教師は、教育現場での経験から、日本語教育における学習者達にとっての単語の難易度を把握することができる。このような教師達の意見を反映した対応情報を作成し記憶することにより、日本語教材について単語の難易度を判定する際に、日本語教育現場にとって最適な基準となる対応情報を用いることができ、より適正な難易度判定を実施することができる。
【0031】
上記文字特徴量記憶部は、文字特徴量として、文字の画数を記憶するものであって、上記文字特徴量取得手段は、上記文字特徴量記憶部から文字の画数を取得してもよい。
【0032】
これにより、文字特徴量として、文字の画数という、人の主観的な尺度に左右されない、客観的で公平な尺度を用いて、単語レベル値を算出することができるので、客観的な単語レベル判定を精度よく行うことが可能となる。
【0033】
上記単語特徴量記憶部は、単語特徴量として、単語のIDF(Inverse Document Frequency)を記憶するものであって、上記単語特徴量取得手段は、上記単語特徴量記憶部から単語のIDFを取得してもよい。
【0034】
IDF(Inverse Document Frequency)とは、文書集合全体における単語の重要度を表す尺度である。単語が文書中に現れる出現頻度と似ているが、IDFでは、文書集合全体にある単語が現れるとき、その単語の現れ方として、特定の文書に偏って頻出する単語に対して、より大きな重みを与える。
【0035】
このようなIDFを単語特徴量として用いることにより、出現頻度が高いために、広く一般に利用されていることから易しい単語であると判断される傾向にある単語に対して、その単語が特定の文書(新聞の特定の記事など)にのみ頻出する場合には、特殊な単語であるとして、より難しい単語であると判断することができる。
【0036】
したがって、出現の偏りを考慮することにより、単なる出現頻度に基づいて判定する場合と比べて、より精度よく単語のレベル判定を行うことが可能となる。
【0037】
さらに、IDFを求めるときの上記文書集合を広くすればするほど、多くの文書から多くの単語をカバーすることができ、また、正しく偏りを判断することができるため、単語のIDFをより高精度に求めることができる。よって、単語が限定された出題範囲などを用いた判定と比べて、より精度よく単語のレベル判定を行うことができる。
【0038】
特に、IDFを求めるときのコーパスとなる文書集合を、最近の新聞記事やインターネット上で公開されている文書などから、広く、定期的に取得すれば、定期的に更新されたIDFに基づいて、単語の単語レベル値を算出することができる。
【0039】
最近の新聞記事やインターネット上の文書は、頻繁に更新されているので、現在の日本語の利用特性を忠実に反映している文書であると考えられる。このような文書を多く含む文書集合からIDFを求めることにより、IDFは、現在の日本語の利用特性を反映したものとなる。したがって、上記IDFを用いることにより、日々の語彙の変化、流行の移り変わりなどに対応して、単語のレベル判定を行うことが可能となる。
【0040】
さらに、インターネット上の文書をコーパスとしてより多く採用することにより、新聞記事などの特定の執筆者により作成された固い文章のみならず、様々な立場の人が執筆した日常的に用いられる文章からIDFを求めることが可能となる。これにより、偏りのない公平な単語のレベル判定を行うことが可能となる。
【0041】
上記文字特徴量記憶部は、文字特徴量として、文字の画数を記憶するものであって、上記文字特徴量取得手段は、上記文字特徴量記憶部から取得した各文字の画数を、単語ごとに総合することによって単語総画数を算出し、上記単語特徴量記憶部は、単語特徴量として、単語のIDFを記憶するものであって、上記単語特徴量取得手段は、上記単語特徴量記憶部から単語のIDF(Inverse Document Frequency)を取得し、上記単語レベル値算出手段は、上記単語総画数と上記IDFとに、加算処理、乗算処理、および、加重平均処理の少なくとも1つを施すことにより、単語レベル値を算出することが好ましい。
【0042】
上記構成によれば、客観的な文字の画数から得られた、単語ごとの単語総画数(文字総合特徴量)と、単語ごとのIDF(単語特徴量)とに、加算、乗算および加重平均などの演算処理の少なくとも一つを施すことによって統合して、単語レベル値を算出することが可能となる。
【0043】
したがって、客観的で精度のよい単語レベル判定を容易に実現することが可能となる。
【0044】
上記対応情報記憶部は、さらに、上記対応情報を学習者の学習段階ごとに記憶するものであって、上記単語難易度取得手段は、自装置に入力された学習者に関する学習者情報によって学習段階が指定された場合に、指定された学習段階に対応する対応情報において、上記算出された単語レベル値に対応付けられた単語難易度を、上記対応情報記憶部から取得することが好ましい。
【0045】
上記構成によれば、上記対応情報記憶部は、単語レベル値と単語難易度との対応関係を示す対応情報を、1つではなく複数含む。各対応情報は、学習段階ごとに設けられ、学習段階に応じて様々な対応関係を示している。
【0046】
具体的には、同じ単語レベル値に対して、学習が進んでいない(学習段階が低い)学習者向けに、高い難易度を対応付けている対応情報もあれば、学習段階が高い学習者向けに、低い難易度を対応付けている対応情報もある。これは、客観的な数値である単語レベル値を、学習者向けの主観的な難易度に変換するときに、様々な学習段階にいる学習者を考慮して難易度を決定しようとするものである。
【0047】
単語難易度取得手段は、入力された文章または単語について、単語のレベル判定を行う際、入力された学習者情報に基づいて学習者の学習段階が指定されれば、上述した複数種類の対応情報の中から、上記指定された学習段階に対応する対応情報を参照して、その対応情報において、上記単語レベル値に対応する単語難易度の文字列を取得する。学習者情報とは、難易度判定の基準となる学習者に関する情報であり、学習段階を特定することを可能にするあらゆる情報である。一例として、学習者情報は、学習段階そのものを示す情報であってもよいし、学習者を識別する識別情報であって、識別情報から学習段階が特定されるものであってもよい。
【0048】
これにより、上記単語レベル値に基づいて、学習者のスキルに応じて単語難易度を判定することができる。したがって、ユーザの利便性はさらに向上する。
【0049】
本発明の単語レベル判定システムは、上記課題を解決するために、上述の単語レベル判定装置と、上記単語レベル判定装置と通信する端末装置とを含み、上記端末装置は、該端末装置のユーザによって入力された単語の単語レベル値を、上記単語レベル判定装置に要求し、上記単語レベル判定装置は、上記端末装置から受信した単語について算出した単語レベル値を、上記要求の応答として上記端末装置に送信することを特徴としている。
【0050】
上記構成によれば、上述した本発明の単語レベル判定装置を、スタンドアロンの情報処理装置のみならず、複数の装置が互いに通信可能に接続されている通信ネットワークシステムにも適用することができる。このようにして構築された単語レベル判定システムも本発明の範疇に入る。
【0051】
本発明の単語レベル判定方法は、上記課題を解決するために、文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、単語レベル判定装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得ステップと、単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得ステップと、上記入力された単語に含まれる各文字の、上記文字特徴量取得ステップにて取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得ステップにて取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出ステップとを含むことを特徴としている。
【0052】
上記方法によれば、客観的な文字特徴量を単語特徴量とともに採用して、単語レベル値を算出することができるので、客観的で精度よい単語レベル判定方法を実現することが可能になる。
【0053】
なお、上記単語レベル判定装置および上記単語レベル判定システムは、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記単語レベル判定装置または上記単語レベル判定システムをコンピュータにて実現させる上記単語レベル判定装置または上記単語レベル判定システムの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
【発明の効果】
【0054】
本発明の単語レベル判定装置は、上記課題を解決するために、文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、自装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得手段と、単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得手段と、上記入力された単語に含まれる各文字の、上記文字特徴量取得手段によって取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得手段によって取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出手段とを備えていることを特徴としている。
【0055】
本発明の単語レベル判定システムは、上記課題を解決するために、上述の単語レベル判定装置と、上記単語レベル判定装置と通信する端末装置とを含み、上記端末装置は、該端末装置のユーザによって入力された単語の単語レベル値を、上記単語レベル判定装置に要求し、上記単語レベル判定装置は、上記端末装置から受信した単語について算出した単語レベル値を、上記要求の応答として上記端末装置に送信することを特徴としている。
【0056】
本発明の単語レベル判定方法は、上記課題を解決するために、文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、単語レベル判定装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得ステップと、単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得ステップと、上記入力された単語に含まれる各文字の、上記文字特徴量取得ステップにて取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得ステップにて取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出ステップとを含むことを特徴としている。
【0057】
これにより、客観的な文字特徴量を単語特徴量とともに採用して、単語レベル値を算出することができるので、客観的な単語レベル判定を精度よく実施することが可能になるという効果を奏する。
【図面の簡単な説明】
【0058】
【図1】本発明の単語レベル判定システム100を模式的に示す図である。
【図2】本発明の実施形態における単語レベル判定装置(パソコン1)の要部構成を示すブロック図である。
【図3】(a)〜(c)は、画数データベース23に記憶されるテーブルの具体例を示す図である。
【図4】IDFデータベース35に記憶されるテーブルの具体例を示す図である。
【図5】対応情報記憶部108として記憶部11に記憶されるテーブルの具体例を示す図である。
【図6】本実施形態における単語レベル判定装置の単語レベル判定処理の流れを示すフローチャートである。
【図7】対応情報記憶部108として記憶部11に記録されるテーブルの他の具体例を示す図である。
【図8】学習者情報記憶部38に記憶される学習者情報テーブルの具体例を示す図である。
【図9】本実施形態における単語レベル判定装置の単語難易度判定処理の流れを示すフローチャートである。
【図10】文章を入力するためのGUI画面の一例を示す図である。
【図11】単語レベル判定結果をユーザに提示するためのGUI画面の一例を示す図である。
【発明を実施するための形態】
【0059】
本発明の実施形態について、図面に基づいて説明すると以下の通りである。
【0060】
〔単語レベル判定システムの概要〕
まず、図1を参照して、本発明の単語レベル判定方法を実現する単語レベル判定システムについて説明する。なお、本発明の単語レベル判定システムは、スタンドアロン型の情報処理装置によって実現されてもよいし、通信ネットワークを介して互いに接続されている複数の情報処理装置および記憶装置で構築されるネットワークシステムによって実現されてもよい。
【0061】
図1は、本発明の単語レベル判定システム100を模式的に示す図である。図1に示すとおり、単語レベル判定システム100は、機能ブロックとしての、単語抽出部101、文字特徴量取得部102、単語特徴量取得部104、および、単語レベル値算出部(単語レベル値算出手段)106を少なくとも備え、さらに好ましくは、単語難易度判定部(単語難易度取得手段)107を備える構成となっている。また、単語レベル判定システム100は、該システムの各機能ブロックが読み出し/書き込みを行う文字特徴量記憶部103、および、単語特徴量記憶部105を少なくとも備え、さらに好ましくは、対応情報記憶部108を含んでいる。
【0062】
単語抽出部101は、ユーザによって単語レベル判定システム100に入力された文章(テキストデータ)D1から、日本語の文法にしたがって単語を抽出するものである。単語抽出部101は、例えば、形態素解析ソフトウェアなど、従来公知の技術を適宜採用することができる。単語抽出部101が抽出した単語(形態素)の情報は、単語情報D2として、以下の各特徴量取得部に供給される。
【0063】
文字特徴量取得部102は、単語抽出部101が抽出した単語を構成する各文字について、文字の特徴を表す、文字単位の特徴量(文字特徴量)を、文字特徴量記憶部103から取得するものである。また、本発明の一実施形態では、文字特徴量取得部102は、文字ごとに取得した文字特徴量を、単語ごとに1つに総合して文字総合特徴量D3を算出する。各文字の文字特徴量を単語ごとにどのように総合するのかは特に限定されないが、文字特徴量取得部102が単語ごとに文字総合特徴量D3を算出する方法の一例を後段の実施形態1にて詳述する。なお、本発明は上記構成に限定されない。文字特徴量取得部102は、入力された単語の各文字の文字特徴量を単語レベル値算出部106に供給してもよい。
【0064】
文字特徴量としては、文字の画数、文字の種類、文字の複雑さなどがあり、文字特徴量取得部102は、これらを単体で、または、組み合わせて文字特徴量として抽出することができる。文字の複雑さを抽出する方法としては、文字の形状を数値化して、文字の複雑さを数値で得ることが考えられる。例えば、あるフォントの1文字について、文字のピクセルと背景のピクセルとの比率、文字のピクセルのばらつきなどから、客観的に文字の複雑さを数値化する。より具体的には、「口語」という単語では、文字「口」は、文字のピクセルが4本の線を形成するよう配置されたシンプルな形状であり、文字「語」は、より多くの文字のピクセルが疎らに配置され、多数の短い線が複雑に組み合わされた、複雑な形状である。よって、文字特徴量取得部102は、文字のピクセル数やそのばらつきから、文字の複雑さを示すより大きい値を文字「語」に対して付与する。これにより、文字「口」よりも文字「語」の方が、より複雑であると判断可能となる。
【0065】
文字特徴量記憶部103には、文字の特徴が、文字ごとにあらかじめ格納されており、文字特徴量取得部102は、文字ごとに格納されている1以上の特徴を文字特徴量記憶部103から読み出すことによって、単語を構成する全ての文字ごとに文字特徴量を求めてもよい。
【0066】
単語特徴量取得部104は、単語抽出部101が抽出した単語について、単語の特徴を表す、単語単位の特徴量(単語特徴量)を、単語特徴量記憶部105から取得するものである。単語特徴量としては、出現頻度(単語が文書中に現れる数)、親密度(語彙の親しみやすさ)、試験出題範囲などの利用特性が抽出されてもよいが、さらに好ましくは、IDF(Inverse Document Frequency)などの単語の重要度を表す尺度が単語特徴量として取得される。単語特徴量取得部104は、これらの特徴量を単体で、または、組み合わせて単語特徴量を得る。なお、IDFの詳細については後述する。単語特徴量取得部104が取得した単語特徴量D4は、単語レベル値算出部106に供給される。
【0067】
単語特徴量記憶部105には、単語の特徴が、単語ごとにあらかじめ格納されており、単語特徴量取得部104は、単語ごとに格納されている1以上の特徴を単語特徴量記憶部105から読み出して、上記文章中の各単語の単語特徴量を取得する。
【0068】
単語レベル値算出部106は、文字特徴量取得部102が出力した、文字総合特徴量D3(または、単語の各文字の文字特徴量)と、単語特徴量取得部104が抽出した単語特徴量D4とを統合して、単語の難しさの判定するための尺度となる単語レベル値D5を算出するものである。
【0069】
単語レベル値算出部106は、各特徴量取得部から得られた各特徴量の数値が、演算によって、単語の難しさの度合いを示す数値、すなわち、単語レベル値になるように、各特徴量を統合する処理を実行する。単語レベル値算出部106が、この統合のために採用する演算方法は特に限定されず、得られた特徴量の性質によって適宜最適なものを用いる。例えば、単語レベル値算出部106は、得られた文字特徴量および/または単語特徴量に対して、演算処理(例えば、加算処理、乗算処理、平均値算出処理、および/または、加重平均算出処理など)を行って単語レベル値D5を算出する。本実施形態では、単語レベル値算出部106は、難しい単語ほど単語レベル値が高くなるように演算処理を行うが、本発明はこれに限定されない。
【0070】
単語レベル値算出部106が算出した単語レベル値D5は、そのまま出力されて、ユーザに提示されてもよい。
【0071】
単語難易度判定部107は、対応情報記憶部108を参照して、単語レベル値算出部106が算出した単語レベル値D5に基づいて単語難易度を判定するものである。単語難易度とは、単語の難しさを数値で表現した単語レベル値D5を、単語の難しさを数段階に分けてユーザに理解しやすい表現に置き換えた文字列である。例えば、単語レベル値を大まかに区分し(例えば、5区分程度)、ユーザに直感的に分かりやすい表現で、単語の易しさ、難しさの度合いを段階的に(例えば、5段階表示で)表現する。具体的には、対応情報記憶部108には、単語難易度として、5つの段階、すなわち、レベルA(簡単)、レベルB(やや簡単)、レベルC(普通)、レベルD(やや難解)、レベルE(難解)があらかじめ定められており、各単語難易度と、単語レベル値の数値とが対応付けられて、対応情報として記憶されている。
【0072】
単語難易度判定部107は、対応情報記憶部108に記憶された上述の単語レベル値と単語難易度との対応関係を示す対応情報に基づいて、単語レベル値算出部106が算出した単語レベル値D5から単語難易度D6を特定し、単語難易度を判定することが可能となる。単語難易度判定部107が判定した単語難易度D6は、文字列として、ユーザに提示するために出力される。これにより、ユーザにより分かりやすい形態で、単語レベル判定結果をユーザに提示することが可能になる。
【0073】
なお、単語難易度D6は、単語レベル値D5のような定量的な数値とは異なり、直感的な表現を使うため、学習者の日本語スキルによっては、必ずしも全ての学習者に適した表現にならない場合がある。そこで、このような不都合を解消するため、単語難易度判定部107は、日本語の学習者の日本語スキルに応じて、単語レベル値D5と単語難易度D6との対応関係を調整してもよい。これは、単語難易度判定部107が、学習者の情報(以下、学習者情報D7)を取得することによって実現可能となる。この単語難易度D6の判定方法についての詳細は後述する。
【0074】
さらに、単語レベル判定システム100は、入力された文章D1に含まれる全ての(または一部の)単語の単語レベル値または単語難易度に基づいて、上記文章全体の難易度を判定する文章難易度判定部(不図示)を備えていてもよい。文章難易度判定部が判定した文章難易度も、ユーザにとって分かりやすい形態でユーザに提示されればよい。
【0075】
上記構成によれば、文字総合特徴量D3(または、各文字特徴量)および単語特徴量D4を統合することにより、より客観的に、精度よく、単語レベル(難易度)を判定することが可能となる。以下では、本発明の一実施形態について、具体例を用いてさらに詳細に説明する。
【0076】
≪実施形態1≫
次に、図1に示す、本発明の単語レベル判定システム100をスタンドアロンの単語レベル判定装置によって実現した実施形態について説明する。本実施形態では、本発明の単語レベル判定装置を、一例として、パーソナルコンピュータ(以下、パソコンと称する)に適用する。なお、本発明の単語レベル判定装置は、パソコンに限定されず、日本語を入出力することが可能なあらゆる情報処理装置に適用可能である(例えば、電子辞書、デジタルテレビ、家庭用(携帯用)ゲーム機、携帯電話、PDA(Personal Digital Assistant)など)。
【0077】
〔単語レベル判定装置(パソコン)の構成〕
図2は、本発明の実施形態におけるパソコン(単語レベル判定装置)1の要部構成を示すブロック図である。図2に示すとおり、パソコン((単語レベル判定システム/単語レベル判定装置)1は、制御部10、記憶部11、入力部12、表示部13および通信部14を備える構成となっている。
【0078】
入力部12は、文章D1を、パソコン1が読み取り可能な状態、すなわち、テキストデータでパソコン1に入力するための入力デバイスである。本実施形態では、入力部12は、一例として、キーボード、タッチパッド、マウスなどで構成されているものとする。あるいは、パソコン1が、音声データからテキストデータを取得する音声認識機能や、画像データからテキストデータを取得する文字認識機能を備えている場合には、入力部12として、マイク、スキャナなどを適用することが可能である。また、入力部12は、学習者情報D7をパソコン1に入力するためにも用いることができる。
【0079】
なお、テキストデータは、通信部14を介して、電子メール、ウェブサイトなどから取得されてもよい。
【0080】
表示部13は、制御部10の機能ブロックが出力する、単語レベル値D5、単語難易度D6、および、文章難易度などの判定結果を表示するための表示デバイスである。また、文章D1を入力するためのツールをグラフィカルユーザインタフェース(GUI;Graphical User Interface)で実現する場合には、表示部13は、そのGUI画面を表示する。表示部13は、例えば、LCD(液晶ディスプレイ)などで実現される。
【0081】
通信部14は、インターネットなどの広域通信網またはLAN(Local Area Network)、無線LANなどの構内通信網を介して、他の装置との間でデータの送受信を行うものである。本実施形態では、通信部14は、インターネット上に公開されている様々なウェブサイトやファイルをダウンロードしたり、電子化された新聞記事などを受信したりして、パソコン1において基準コーパスとなる文書集合を取得する。このようにして通信部14が取得した文書集合D8は、日本語の単語の特徴(本実施形態では、IDF)を導出するのに用いられる。
【0082】
記憶部11は、制御部10が実行する制御プログラム、OSプログラム、および、制御部10が、パソコン1が有する各種機能を実行するときに読み出す各種データを記憶するものである。本実施形態では、単語レベル判定のためのアプリケーションプログラムが記憶されており、さらに、該アプリケーションで用いる情報(少なくとも、画数データベース23、IDFデータベース35および対応情報記憶部108、好ましくはさらに学習者情報記憶部38)が記憶されている。これら各種情報のデータ構造については後に詳述する。
【0083】
制御部10は、パソコン1が備える各部を統括制御するものである。制御部10は、機能ブロックとしての、形態素解析部(単語抽出手段)21、画数決定部(文字特徴量取得手段)22、IDF取得部(単語特徴量取得手段)24a、単語レベル値算出部106および単語難易度判定部107を備えている。また、好ましくは、IDF算出部(IDF算出手段)24bを備えていてもよい。さらに、不図示の文章難易度判定部を備えていてもよい。なお、機能ブロックとして示される上記各部は、CPU(central processing unit)がROM(read only memory)等の記憶装置(記憶部11)に記憶されている上記アプリケーションプログラムをRAM(random access memory)等に読み出して実行することにより実現され、これにより、本願発明の単語レベル判定装置が提供される。
【0084】
本実施形態におけるパソコン1では、単語抽出部101は、形態素解析部21として実現される。形態素解析部21は、入力された文章D1の形態素解析を行って、文章を単語単位に分割するものである。形態素解析部21は、得られた単語(形態素)をその品詞の情報とともに単語情報D2として画数決定部22に供給する。
【0085】
本実施形態では、文字特徴量取得部102は、画数決定部22として実現されており、文字特徴量記憶部103は、画数データベース23として実現される。画数決定部22は、形態素解析部21が解析した単語ごとに、該単語を構成する各文字の画数を取得するものである。本実施形態では、さらに、それらを統合して、文字総合特徴量D3としての、上記単語の総画数(以下、単語総画数)を決定する。画数決定部22は、1つの単語について、文字ごとの画数を単語総画数(文字総合特徴量)として総合するとき、各文字の画数を単純に加算することに限定されず、画数データベース23を参照して、文字種、当該単語の品詞になどに応じて、文字に重み付けを行った上で単語総画数を求めることがより好ましい。
【0086】
図3(a)〜(c)は、画数データベース23に記憶されるテーブルの具体例を示す図である。詳細には、図3(a)は、画数データベースの一例であって、文字ごとに実際の画数が対応付けて記憶されている。図3(b)は、文字の種類ごとに実際の画数に重みを付与するためのルールテーブルの一例であって、文字種ごとに実際の画数にどのような重み付けを行うかのルールが対応付けて記憶されている。図3(c)は、その文字が含まれている単語の品詞ごとに、実際の画数に重みを付与するためのルールテーブルの一例であって、品詞ごとにどのような重み付けを行うかのルールが対応付けて記憶されている。
【0087】
例えば、単語「愛」および単語「が(助詞)」を画数決定部22が取得したとする。画数決定部22は、図3(a)〜(c)の各テーブルを参照して、単語「愛」について、単語総画数=13×2×2=52と決定する。画数決定部22は、単語「愛」について、図3(a)のテーブルの文字「愛」から画数「13」を、図3(b)のテーブルの文字種「漢字」から「×2」を、図3(c)のテーブルの品詞「名詞」から「×2」を取得することにより、上述の単語総画数を求めることができる。一方、単語「が(助詞)」については、実際の画数が5画であっても、単語総画数=1×0=0と決定する。画数決定部22は、単語「が」について、図3(b)のテーブルの文字種「ひらがな」から「定数1」を、図3(c)のテーブルの品詞「助詞」から「×0」を取得することにより、上述の単語総画数を求めることができる。
【0088】
助詞などの付属語よりも、名詞、動詞、形容詞などの主要な自立語のほうが、文章の難しさに大きな影響を与え、教材の難易度を判断するのに好適と考えられる。そこで、上述のように付属語の単語レベル値を無視したり、極端に低く算定したりすることにより、さらに高精度の単語レベル(文章難易度)の判定を効率よく実現することができる。
【0089】
また、図3(b)のテーブルに示すとおり、単語内のひらがなおよびカタカナは、画数がいくつであっても1画としてカウントしてもよい。これは、日本語学習者にとって、漢字の習得が最も難しく、ひらがな、カタカナの単語は、難易度が低い、という考えに依っている。したがって、上記構成は、日本語教育の教材として文章中の単語の難易度を測る場面では、単語総画数について有効な数値が得られ、精度よく単語レベル値を算出できるため、特に効果が大きい。
【0090】
本実施形態では、単語特徴量取得部104は、IDF取得部24aとして実現される。単語特徴量取得部104としては、さらに、IDF算出部24bが含まれていてもよい。また、単語特徴量記憶部105は、IDFデータベース35として実現される。
【0091】
ここで、IDF(Inverse Document Frequency)とは、文書集合全体における大局的な単語の重みであり、単語単位で付与されるものである。IDFは、文書集合全体の中である単語が、どれだけ多くの文書に現れるのかを見るための尺度で、文書集合において、少数の文書に偏って出現する単語ほど大きな重みが与えられる。よって、多数の様々な文書に均一に現れる単語のIDF(重み)は小さくなる。
【0092】
重みとは、一般的には、ある単語がその文書の内容、意味といった特徴にどの程度貢献しているかという値を各単語に付与するもので、ある単語がその文書にとって特徴的であれば重みは大きな値となる。こうした単語の重み(重要度)は、通常、要約文の自動簡易生成や検索キーワードの収集などの分野で用いられる。
【0093】
ここで、本発明のパソコン1は、上記IDFを用いて単語レベル値を算出する。より詳細には、IDFが小さい単語(あらゆる文書に広く出現する単語)ほど難易度が低い単語であるという考え方に基づいて、IDFを、単語レベル値の算出に用いる。
【0094】
IDFの算出方法についての詳細は、例えば非特許文献5などに記載されているとおりであるので、IDFの算出方法の説明については省略する。
【0095】
IDF取得部24aは、形態素解析部21が解析した単語ごとに、そのIDFをIDFデータベース35から取得するものである。
【0096】
図4は、IDFデータベース35に記憶されるテーブルの具体例を示す図である。図4に示すとおり、IDFデータベース35には、単語ごとに、単語のIDFが関連付けて記憶されている。必要に応じて、当該単語の品詞の情報が関連付けて記憶されていてもよい。この場合、IDF取得部24aは、品詞に応じてIDFに重み付けを付与することができる。例えば、図3(c)に示すテーブルを、IDFの重み付けにも利用することができる。IDF取得部24aは、図4に示すテーブルと、図3(c)に示すテーブルとの両方を参照して、単語ごとにIDFを取得することができる。
【0097】
IDF取得部24aは、IDFデータベース35を参照して、形態素解析部21が解析した単語ごとに、単語特徴量D4としてのIDFを取得する。
【0098】
IDF算出部24bは、文書集合D8から、単語ごとにIDFを計算するものである。IDF算出部24bは、算出したIDFをその単語に対応付けてIDFデータベース35に記憶する。本実施形態では、特に、IDF算出部24bは、新聞記事データベース、日本語教育用の教科書、インターネット上にアップロードされている文章など、常に最新の文書集合をコーパスとして定期的に取得し、それに基づいてIDFを計算している。IDF算出部24bは、このIDFの計算(更新)を好ましくは定期的に行う。そのため、常に最新のIDFを得ることが可能である。IDFを常に統合して指標に用いることにより、時代の経過とともに変化する流行語、繁用語、日本語教育事情、あるいは、時事を常に反映することが可能な、高精度な単語レベル値を自動算出することができる。また、本実施形態では、インターネットのブログなどの話し言葉に近い文書もコーパスとして採用することにより、試験出題範囲など学習の基準上、重要な単語と、日常生活で日々利用される上で重要な単語とのずれを解消することができる。このように、IDFは、インターネット上の文書、最近の新聞記事など、日本人に均一に流布している日本語文書をコーパスに使うので、単語のカバー率に優れ、公平性がある。したがって、IDFを単語レベル値の算出に用いることは特に効果が大きい。
【0099】
単語レベル値算出部106は、上述したとおり、単語レベル値D5を算出する。本実施形態では、画数決定部22が決定した文字総合特徴量D3としての単語総画数と、単語特徴量D4としてのIDFとを統合して、単語レベル値D5を求める。例えば、単語レベル値算出部106は、単純に、単語総画数とIDFとを加算したり、乗算したりして単語レベル値を求めてもよいが、これに限定されない。例えば、単語総画数とIDFとのそれぞれに重み付けを行って、加算/乗算を行ってもよいし、単語総画数とIDFとから加重平均を求めてもよい。
【0100】
単語難易度判定部107は、上述したとおり、単語難易度D6を判定する。本実施形態では、図5に示す、対応情報記憶部108に記憶される対応情報を参照して、単語難易度を判定する。
【0101】
図5は、対応情報記憶部108に記憶される対応情報の具体例を示す図である。図5に示す例では、対応情報は、単語レベル値算出部106が算出し得る単語レベル値が、6つの区間(レベルA〜E、および、その他)に分けられており、0以外の単語レベル値の各区分(レベルA〜Eの5段階)のそれぞれに対応付けて、単語の難易度を表す文字列が記憶されているデータ構造となっている。
【0102】
例えば、単語レベル値算出部106がある単語についての単語レベル値を“229”と算出すると、単語難易度判定部107は、その単語の難易度を、図5に示す対応情報に基づいて、“レベルC:普通”と判定する。
【0103】
なお、単語難易度D6としてユーザに提示されるのは、文字列“レベルA”〜“レベルE”であってもよいし、文字列“簡単”〜“難解”であってもよいし、両方が提示されてもよい。単語難易度D6は、表示部13に表示される。
【0104】
パソコン1は、図示しない文章難易度判定部をさらに備え、文章難易度判定部が、文章もしくは文書中に含まれる各レベル値(難易度)の単語数の比率から、入力された文章全体の難易度を算出してもよい。
【0105】
〔単語レベル判定処理フロー〕
図6は、本実施形態におけるパソコン1の単語レベル判定処理の流れを示すフローチャートである。
【0106】
図6に示すとおり、入力部12を介して、テキストデータである文章D1がパソコン1の制御部10に入力される。文章が入力されると(S101においてYES)、形態素解析部21は、入力された文章の形態素解析を行って、文章を単語に分割する(S102)。形態素解析部21は、分割した単語の単語情報D2を、画数決定部22とIDF取得部24aとに出力する。
【0107】
画数決定部22と、IDF取得部24aとは、上記出力された各単語について、文字総合特徴量D3(単語総画数)と、単語特徴量D4(IDF)とをそれぞれ出力する。より詳細には、画数決定部22は、形態素解析部21が出力した単語を取得すると(S103)、画数データベース23(図3(a))を参照し、その取得した単語を構成している各文字について、画数を取得する(S104)。そして、画数データベース23(図3(b)、(c))を参照して、文字種、および、取得した単語の品詞に応じて、取得した画数に重み付けを行って、該単語の総画数を算出する(S105)。画数決定部22は、算出した上記単語の単語総画数を単語レベル値算出部106に出力する。一方、IDF取得部24aは、形態素解析部21が出力した単語を取得すると(S106)、IDFデータベース35(図4)を参照し、その取得した単語に関連付けられているIDFを取得する(S107)。IDF取得部24aは、取得したIDFを単語特徴量D4として単語レベル値算出部106に出力する。
【0108】
続いて、単語レベル値算出部106は、画数決定部22から単語総画数を、IDF取得部24aからIDFをそれぞれ取得する(S108)。そして、単語レベル値算出部106は、上述したような(重み付け)加算、乗算、(加重)平均などの単語レベル値算出処理にて、単語総画数とIDFとを統合し、単語レベル値を算出する(S109)。単語レベル値算出部106は、算出した単語レベル値D5を単語難易度判定部107に出力する。ここで、単語レベル値算出部106は、単語レベル値D5を表示部13に出力してもよい。
【0109】
次に、単語難易度判定部107は、図5に示す対応情報記憶部108を参照し、単語レベル値算出部106が算出した単語レベル値に対応するレベル(A〜E)および/または難易度を判定する(S110)。以上のように、1つの単語の難易度が判定されると、S101で入力された文章中の全ての単語について、上述の単語レベル値/難易度が求められるまで、S103〜S110の一連の処理が繰り返される(S111においてNO)。
【0110】
最後に制御部10は、上記文章中の全ての単語について、単語レベル値/難易度を求めると(S111においてYES)、単語レベル値/難易度を表示部13に表示する(S112)。
【0111】
なお、図6に示す例では、S103〜S105の一連の処理、および、S106〜S107の一連の処理は、1つの単語について単語レベル値/難易度を算出する度に繰り返し実行されるが、処理の順序は、本発明を限定する意図はなく、例えば、形態素解析部21が分割した全ての単語について、上記それぞれの一連の処理を繰り返し、全ての単語総画数(IDF)をまとめて単語レベル値算出部106に出力するという処理順序でもよい。また、上記各一連の処理は、並列的に実行されてもよいし、順次直列的に実行されてもよい(この場合、処理順序を入れ替えてもよい)。
【0112】
上記構成および方法によれば、単語の文字単位の特徴量と、単語単位の特徴量とを統合して、客観的で精度のよい単語レベル判定を実現することが可能になる。具体的には、単語に含まれる文字ごとの画数(および、単語内の全文字の総画数)と、IDFとを統合して、単語レベル値を算出することができ、これにより、文章(例えば、日本語教材)の難易度を判定するための、客観的で精度よい単語レベル判定を実現することが可能になる。
【0113】
さらに、上記構成および方法によれば、特に、文字単位で得られる特徴(文字の画数、文字の複雑さ)を取り入れて単語レベルを判定しているので、単語の意味内容、語感、馴染みの程度などの主観的な尺度に左右されることなく、客観的で公平な精度よい単語レベル判定方法を実現する。
【0114】
また、上記構成および方法によれば、単語単位で得られる特徴としてIDFを採用しているので、あらゆる単語について広く公平に単語レベルを判定することができる。その上、上記IDFは、最近の新聞記事、インターネット上のデジタル文書など、常に最新の文書をコーパスとして、算出されている。したがって、あらゆる単語について、日々の語彙の変化に対応した上で、単語レベルを精度よく判定することができる。
【0115】
本発明は、例えば、日本語教育(特に、外国人向け日本語教育)の場で、日本語教材を学習者に提供する教師(ユーザ)の支援を行うことを可能にする。従来、教育現場では、日本語教材となる素材(例えば、新聞記事など)を、教師が学習者のスキルに合わせて書き直して利用するなどしていた。しかし、この単語の置き換えや文章校正は、教師にとって労力の大きい作業である。なぜなら、素材中の単語のレベルを適切に判断した上で、さらに学習者のスキルに合わせて適切な(より平易な、あるいは、難解な)単語を探さなければならないからである。
【0116】
本発明によれば、教師は、文章をパソコン1に入力するだけで、客観的な値である単語レベル値(および、それに対応する単語難易度)を得ることができ、単語レベル値を尺度として、あらゆる単語の難易度を、容易に、客観的に判断することが可能となる。また、漢字の習得に困難が伴う外国人への日本語教育の場では、漢字の画数に重きをおいて単語レベル値を判定することができるので、特に効果が大きい。
【0117】
なお、本発明は、日本語教育用途に限らず、文章中に使われる単語レベルを一定に保つために利用することができる。
【0118】
≪実施形態2≫
本発明は、客観的な単語レベル値を求めて、単語レベル判定を客観的に行う発明であるが、さらに、その客観的な判定結果を、学習者(ユーザ)の能力、特性に応じて、主観的な難易度に変換し、それを各学習者に対して提示して、学習者の支援を行うことを可能にする。また、上記学習者に教材を提供する教師(ユーザ)の教育支援を行う。
【0119】
以下では、図2に示すパソコン1の機能を、複数の装置からなる情報処理システムで実現した場合について説明する。すなわち、本発明の単語レベル判定システム100を、一例として、クライアント−サーバ型のネットワークシステムに適用した場合について説明する。
【0120】
〔単語レベル判定システムの各装置の構成〕
本実施形態では、単語レベル判定システム100は、学習者が用いる端末装置と、該端末装置の要求に応じて文章の単語レベル判定を実行し、その結果を端末装置に返信する単語レベル判定装置とを含む構成となっている。両装置は、通信機能を有し、インターネットなどの通信網を介して互いに接続可能である。なお、本実施形態における各部材について、図2のパソコン1において示される部材と同機能を有する部材には同じ符号を付し、それらは実質同じもの示している。したがって、これらの部材について、異なる部分を除いては、説明を繰り返さない。
【0121】
まず、クライアント側の端末装置の構成について説明する。端末装置は、通信部、記憶部、制御部に加え、図2に示す入力部12および表示部13を備えている。
【0122】
本実施形態では、表示部13は、通信部が単語レベル判定装置からインターネットを介して取得した、単語レベル判定アプリケーションのGUI画面を表示する。表示部13が表示するGUI画面の具体例を図10、図11に示す。なお、端末装置に表示されるGUI画面は、上記具体例に限定されない。
【0123】
図10は、文章を入力するためのGUI画面の一例を示す図である。本実施形態では、学習者は、入力部12を操作して、文章入力エリア50に、レベルを判定したい文章を入力することができる。文章の入力が完了すると、学習者は、引き続き入力部12を操作して、自身に割り当てられている学習者IDをID入力エリア51に入力し、判定ボタン52をクリックする。このとき、端末装置の通信部は、GUI画面にて受け付けた文章(文章D1)および学習者情報D7としての学習者IDを含むリクエストを単語レベル判定装置に送信する。なお、学習者IDは、単語レベル判定装置が提供するサービスを受けるクライアント(端末装置/学習者)を、単語レベル判定装置が一意に識別するためのものである。学習者IDとしては、上記目的が達成できるのであればどのような情報を用いてもよい。単語レベル判定装置が、各端末装置に対してあらかじめ独自に付与するものであってもよい。
【0124】
図11は、単語レベル判定結果をユーザに提示するためのGUI画面の一例を示す図である。上記リクエストに応じて単語レベル判定装置によって生成された判定結果は、端末装置の通信部を介して受信され、表示部13に表示される。上記判定結果は、単語レベル値D5、単語難易度D6、および/または、文章難易度などを端末装置の表示部13に表示するために表示用データとして生成される。単語レベル判定装置は、判定結果を、例えば、HTML(HyperText Markup Language)、XML(eXtensible Markup Language)などの形式で生成し、端末装置に供給する。
【0125】
図11に示す例では、単語レベル値D5を単語難易度D6に変換した難易度判定結果のみが表示されている。例えば、判定結果のGUI画面には、入力された文章を単語の難易度別に色(書体)分け表示する原文表示エリア60と、難易度ごとに単語を一覧表示する単語リスト61と、難易度別単語出現数を表示するカウントテーブル62とが含まれており、これらが表示されることによって、単語ごとの難易度判定結果を様々な角度から学習者に提示することができる。さらに、文章難易度を表示する文章難易度表示エリア63を設けて文章全体の難易度を学習者に提示してもよい。
【0126】
本実施形態では、この判定結果のGUI画面は、学習者(ID:A004)ごとに生成される。そこで、当該学習者宛てのメッセージを表示するメッセージ表示エリア64を設けてもよい。また、端末装置が、文章の意味を変えずに難易度を変更する文章校正機能を利用可能な場合には、文章校正ボタン65を設けてもよい。例えば、“より易しい文章に変換”のボタンがクリックされた場合、元の入力された文章と、文章平易化のリクエストとが、上記機能の実行部に送信される。
【0127】
上記構成によれば、学習者は、端末装置を用いて単語レベル判定装置の単語レベル判定アプリケーションを利用することができ、自身が入力した文章の単語の単語レベル値および単語難易度の判定結果を得ることが可能となる。
【0128】
次に、学習者ごとの判定結果を供給するための、サーバ側の単語レベル判定装置の構成について説明する。単語レベル判定装置は、図2に示す制御部10の各部と、通信部14と、記憶部11とを備えている。なお、記憶部11に記憶されている各種データは、単語レベル判定装置が内蔵する記憶装置に記憶されているものであってもよいし、通信部14を介して接続可能な外部の記憶装置に記憶されているものであってもよい。
【0129】
本実施形態では、通信部14は、パソコン1のそれと異なり、文書集合D8を取得する機能に加えて、端末装置によって送信された上記リクエストを受信する機能を有する。すなわち、リクエストに含まれる文章D1および学習者情報D7は、通信部14を介して制御部10に入力される。入力された文章D1は、形態素解析部21へ、学習者情報D7は、単語難易度判定部107へそれぞれ供給される。
【0130】
入力された文章に対しては、既に述べたのと同じ処理が制御部10の各部によって施され、単語レベル値算出部106によって、当該文章の各単語について単語レベル値D5が算出される(図6のS101〜S109)。そして、単語レベル値D5は、単語難易度判定部107が単語難易度D6を判定するのに利用される。
【0131】
上述したとおり、単語難易度D6は、単語レベル値D5のような定量的な数値とは異なり、必ずしも全ての学習者に適した表現にならない場合がある。この不都合を解消するため、本実施形態では、単語難易度判定部107は、学習者情報記憶部38および対応情報記憶部108を参照し、供給された学習者情報D7に基づいて、学習者の日本語スキルを特定して、単語レベル値D5と単語難易度D6との対応関係を、学習者に応じて変更することができる。
【0132】
図7は、対応情報記憶部108に記憶される対応情報の他の具体例を示す図である。図7に示す例では、図5に示す例と異なり、対応情報R70〜R75が、学習者のスキル(学習段階)ごとに、複数記憶されている。図7に示す各対応情報では、単語レベル値と単語難易度の文字列(レベルA〜E)との対応関係は、学習段階に応じて様々に異なる。あるいは、図5に示すような対応情報のテーブルが、学習段階ごとにあらかじめ複数記憶されているデータ構造であってもよい。この場合、対応情報記憶部108は、図7の例では学習段階は、6段階であるので、図5に示すような対応情報のテーブルを6つ備える構造となる。図7に示す例では、6つの対応情報を、R70〜R75として示している(1行分が図5の1テーブルに相当する)。
【0133】
例えば、ある単語の単語レベル値が“250”と算出されたとすると、単語難易度判定部107は、その単語の難易度を、“中学生程度”のスキルを有する学習者に対しては、“普通”と判定し、“高校生程度”のスキルを有する学習者に対しては、“やや簡単”と判定することができる。
【0134】
上記リクエストの送信主である学習者のスキルがどの段階であるのかについては、単語難易度判定部107は、学習者情報記憶部38を参照することにより特定することが可能である。
【0135】
図8は、学習者情報記憶部38に記憶される学習者情報テーブルの具体例を示す図である。図8に示すとおり、学習者に一意に付与される学習者IDに関連付けて、学習者スキルが記憶されている。
【0136】
単語難易度判定部107は、上記学習者情報テーブルを参照することにより、上記リクエストに含まれる学習者情報D7としての学習者IDに基づいて、上記リクエストの送信主である学習者のスキルを特定することが可能となる。そして、特定したスキルに応じた、単語レベル値−難易度の対応テーブルを参照することによって、当該リクエストの送信主(学習者)にとって最適な表現で、単語難易度を判定することができる。
【0137】
〔単語難易度判定処理フロー〕
図9は、本実施形態における単語レベル判定装置の単語難易度判定処理の流れを示すフローチャートである。
【0138】
図6のS109と同様に、単語レベル値算出部106がある単語の単語レベル値を算出すると、単語難易度判定部107は、上記単語レベル値を単語レベル値算出部106から取得する(S201)。そして、上記単語が含まれる文章D1の他に、入力された学習者に関する学習者情報D7があればそれを取得する。例えば、学習者情報D7として学習者IDを取得する(S202)。S202で取得した学習者IDに基づいて、学習者スキル(学習段階)を取得する(S203)。例えば、図10に示すように、“学習者ID:A004”がリクエストとともに入力された場合には、当該リクエストの送信主の学習者スキル(学習段階)を“小学生中学年程度”と特定する。学習者情報D7は、学習段階そのものを示す情報であってもよい。
【0139】
S203にて、学習者情報に基づいて学習者スキルが指定された場合、単語難易度判定部107は、対応情報記憶部108に記憶されている、指定された“小学生中学年程度”の対応情報(図7の例で、R71の行)を参照し、該対応情報において、S201で取得した単語レベル値が対応している区分(文字列)を特定することにより、単語難易度を判定する(S204)。
【0140】
上記構成および方法によれば、単語レベル値算出部106が求めた客観的な判定結果を、学習者の能力、特性に応じて、主観的な難易度に変換し、それを各学習者に対して提示して、学習者の支援を行うことが可能となる。本発明を日本語教育の場において適用すれば、学習者のスキル、学習段階を考慮して、タイミングよく適切なレベルの文章を教材として提供することが可能となる。なお、学習者情報D7が入力されなかったり、入力された学習者情報D7から学習段階をS203にて特定できなかったりした場合には、デフォルトの対応情報(例えば、デフォルトの対応情報を図7のR73とあらかじめ設定しておく)に基づいて、単語難易度を判定してもよい。
【0141】
〔変形例〕
上述の各実施形態において、単語レベル値算出部106は、上述したとおり、文字総合特徴量D3としての単語総画数と、単語特徴量D4としてのIDFとを統合して、単語レベル値D5を求める。このとき、単語レベル値算出部106は、それぞれの値に重み付けを行って、加算/乗算を行ってもよいし、両値の加重平均を求めてもよい。ここで、どちらの値にどのように重み付けを行うのかについて、学習者の特性に応じて可変にしてもよい。
【0142】
例えば、中国、台湾、韓国等の、漢字を文字として利用する漢字圏の国出身の学習者に対して文章/単語のレベルを判定する場面では、漢字の複雑さ、難しさは、文章の難しさに必ずしも直結しないと考えられる。そこで上記場面では、単語総画数よりもIDFの方に、重み付けを行った上で、単語レベル値を算出することが考えられる。反対に、学習者が、欧米など非漢字圏の国出身であるならば、その学習者にとっては、漢字が複雑であることが直接文章の難易度が上がる要因になる可能性は高い。そこで、このような場面では、IDFよりも単語総画数に重み付けを行うことが考えられる。このように、単語総画数とIDFとのいずれに重きをおいて単語レベル値を算出するのかについて、単語レベル値算出部106は、学習者の特性に応じて変更することができる。
【0143】
この変形例では、学習者情報記憶部38(図2)を、図8に示すとおりに構成する。すなわち、学習者の出身国が漢字圏内か否(非漢字圏)かを示す出身国情報が、上記学習者IDに関連付けて記憶されている。
【0144】
単語レベル値算出部106は、図8に示す学習者情報テーブルを参照することにより、自装置に入力された学習者IDに基づいて、判定を依頼した文章入力者である学習者が、漢字圏出身か否かを判定することが可能となる。そして、文章入力者が漢字圏出身であれば、IDFにより重きをおいた算出方法を用い、非漢字圏出身であれば、単語総画数により重きをおいた算出方法を用いて、単語レベル値算出を実行する。
【0145】
上記構成および方法によれば、各単語の単語レベル値を、精度よく、かつ、学習者の能力、特性に応じてより適切に算出することが可能となる。
【0146】
〔変形例2〕
上述の各実施形態において、単語レベル判定システム100(パソコン1、サーバ側の単語レベル判定装置)は、各単語の単語難易度に基づいて、文章全体の難易度を判定する構成を備えていてもよい。ここで、さらに、単語レベル判定システム100は、文章の意味を変えずに難易度を変更する文章校正部(不図示)を備えていてもよい。
【0147】
文章校正部は、例えば、図11に示す文章校正ボタン65がクリックされたことをトリガとして、校正前の文章におけるすべての(あるいは一部の)単語を、単語難易度が1段階難しく(あるいは、易しく)なるように、難易度の異なる(かつ、意味が同じの)別の単語に置換して、新たな文章を生成する。
【0148】
これにより、教師は、学習素材(新聞記事、小説など)を学習者のレベルに応じて変換して教材にすることができる。また、さまざまな学習スキルの学習者に対して、難易度だけが異なる同一の教材を簡単に用意することが可能になる。この機能は、学習者にとっても効果がある。例えば、新聞記事、小説、官公庁の公報(災害時の外国人向け情報提供など)に、特殊な表現が用いられていることによって読むことが困難な場合に、それらの文章を、平易な文章に変換することができる。
【0149】
〔変形例3〕
本発明の単語レベル判定システム100を、辞書サービスと連動して実施することも可能である。具体的には、単語レベル判定システム100は、学習者ごとに記憶された辞書サービスの利用履歴を参照して、学習者の学習段階を特定し、特定した学習段階に応じた適切な単語難易度の判定結果を学習者に提示する。利用履歴とは、例えば、サービスを用いて学習者がどの単語の意味を調べているのかを記録したログのことである。
【0150】
単語レベル判定システム100は、上記利用履歴から、学習者が、どのような単語の意味を調べているのかの情報を収集する。学習者が意味を調べた単語は、該学習者にとって未知の単語であったとみなし、単語レベル判定システム100は、学習者がどのような単語の意味を知らないのかに応じて、学習者の学習段階を特定することができる。
【0151】
なお、上述した各実施形態では、本発明の単語レベル判定システム100(パソコン1)に、文章が入力されることがトリガとなって、単語レベル判定システム100(パソコン1)が、文章中の各単語のレベル判定を実行するものとして説明したが、本発明の単語レベル判定システムおよび単語レベル判定装置は、これに限定されない。例えば、単語レベル判定システム100(パソコン1)は、文章D1の代わりに日本語の単語1語を入力として受け取り、その単語について単語レベル値D5(または、単語難易度D6)を出力する構成であってもよい。この場合、単語抽出部101を備えていなくても、入力された単語が文字特徴量取得部102、および、単語特徴量取得部104に供給される。
【0152】
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
【0153】
最後に、単語レベル判定システム100(パソコン1、端末装置、単語レベル判定装置)の各ブロック、特に、単語抽出部101(形態素解析部21)、文字特徴量取得部102(画数決定部22)、単語特徴量取得部104(IDF取得部24a/IDF算出部24b)、単語レベル値算出部106および単語難易度判定部107は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
【0154】
すなわち、単語レベル判定システム100は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである単語レベル判定システム100の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記単語レベル判定システム100に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
【0155】
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
【0156】
また、単語レベル判定システム100を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
【産業上の利用可能性】
【0157】
本発明の単語レベル判定システムによれば、日本語の文章中に含まれる単語のレベルを、容易に、客観的に、より精度よく判定することができる。したがって、難易度を考慮して日本語を利用するべき場面であれば、本発明は様々な分野で適用可能である。例えば、日本語教育の分野、特に、外国人に対する日本語教育の分野では、様々な学習段階、学習スキルの学習者達に適切な教材を提供する必要があるので、本発明を特に好適に用いることができる。
【符号の説明】
【0158】
1 パソコン(単語レベル判定システム/単語レベル判定装置/情報処理装置)
10 制御部
11 記憶部
12 入力部
13 表示部
14 通信部
21 形態素解析部(単語抽出手段)
22 画数決定部(文字特徴量取得手段)
23 画数データベース
24a IDF取得部(単語特徴量取得手段)
24b IDF算出部(IDF算出手段)
35 IDFデータベース
38 学習者情報記憶部
50 文章入力エリア
51 ID入力エリア
52 判定ボタン
60 原文表示エリア
61 単語リスト
62 カウントテーブル
63 文章難易度表示エリア
64 メッセージ表示エリア
65 文章校正ボタン
100 単語レベル判定システム(単語レベル判定装置/情報処理装置)
101 単語抽出部(単語抽出手段)
102 文字特徴量取得部(文字特徴量取得手段)
103 文字特徴量記憶部
104 単語特徴量取得部(単語特徴量取得手段)
105 単語特徴量記憶部
106 単語レベル値算出部(単語レベル値算出手段)
107 単語難易度判定部(単語難易度取得手段)
108 対応情報記憶部
D1 文章
D2 単語情報(単語)
D3 文字総合特徴量(単語総画数)
D4 単語特徴量
D5 単語レベル値
D6 単語難易度
D7 学習者情報
D8 文書集合

【特許請求の範囲】
【請求項1】
文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、自装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得手段と、
単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得手段と、
上記入力された単語に含まれる各文字の、上記文字特徴量取得手段によって取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得手段によって取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出手段とを備えていることを特徴とする単語レベル判定装置。
【請求項2】
自装置に入力された日本語の文章から単語を抽出する単語抽出手段をさらに備え、
上記文字特徴量取得手段は、単語に含まれる文字ごとに文字特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行い、
上記単語特徴量取得手段は、単語の単語特徴量を取得する処理を、上記単語抽出手段によって抽出された単語ごとに行い、
上記単語レベル値算出手段は、上記単語抽出手段によって抽出された単語ごとに、文字特徴量を総合することにより得られた上記文字総合特徴量と、上記抽出された単語ごとに取得された上記単語特徴量とから、上記抽出された単語ごとに上記単語レベル値を算出することを特徴とする請求項1に記載の単語レベル判定装置。
【請求項3】
上記単語レベル値と、ユーザに提示するための、単語の難しさを表す文字列である単語難易度とを対応付けた対応情報を記憶する対応情報記憶部と、
上記対応情報記憶部から、上記単語レベル値算出手段によって算出された単語レベル値に対応付けられた単語難易度を取得する単語難易度取得手段とを備えていることを特徴とする請求項1または2に記載の単語レベル判定装置。
【請求項4】
上記文字特徴量記憶部は、文字特徴量として、文字の画数を記憶するものであって、
上記文字特徴量取得手段は、上記文字特徴量記憶部から文字の画数を取得することを特徴とする請求項1から3までのいずれか1項に記載の単語レベル判定装置。
【請求項5】
上記単語特徴量記憶部は、単語特徴量として、単語のIDF(Inverse Document Frequency)を記憶するものであって、
上記単語特徴量取得手段は、上記単語特徴量記憶部から単語のIDFを取得することを特徴とする請求項1から4までのいずれか1項に記載の単語レベル判定装置。
【請求項6】
上記文字特徴量記憶部は、文字特徴量として、文字の画数を記憶するものであって、
上記文字特徴量取得手段は、上記文字特徴量記憶部から取得した各文字の画数を、単語ごとに総合することによって単語総画数を算出し、
上記単語特徴量記憶部は、単語特徴量として、単語のIDFを記憶するものであって、
上記単語特徴量取得手段は、上記単語特徴量記憶部から単語のIDF(Inverse Document Frequency)を取得し、
上記単語レベル値算出手段は、上記単語総画数と上記IDFとに、加算処理、乗算処理、および、加重平均処理の少なくとも1つを施すことにより、単語レベル値を算出することを特徴とする請求項1から5までのいずれか1項に記載の単語レベル判定装置。
【請求項7】
上記対応情報記憶部は、さらに、上記対応情報を学習者の学習段階ごとに記憶するものであって、
上記単語難易度取得手段は、
自装置に入力された学習者に関する学習者情報によって学習段階が指定された場合に、指定された学習段階に対応する対応情報において、上記算出された単語レベル値に対応付けられた単語難易度を、上記対応情報記憶部から取得することを特徴とする請求項3に記載の単語レベル判定装置。
【請求項8】
請求項1から7までのいずれか1項に記載の単語レベル判定装置と、
上記単語レベル判定装置と通信する端末装置とを含み、
上記端末装置は、
該端末装置のユーザによって入力された単語の単語レベル値を、上記単語レベル判定装置に要求し、
上記単語レベル判定装置は、
上記端末装置から受信した単語について算出した単語レベル値を、上記要求の応答として上記端末装置に送信することを特徴とする単語レベル判定システム。
【請求項9】
文字の特徴を示す文字特徴量を文字ごとに記憶する文字特徴量記憶部から、単語レベル判定装置に入力された単語に含まれる文字ごとに、文字特徴量を取得する文字特徴量取得ステップと、
単語の特徴を示す単語特徴量を単語ごとに記憶する単語特徴量記憶部から、上記入力された単語の単語特徴量を取得する単語特徴量取得ステップと、
上記入力された単語に含まれる各文字の、上記文字特徴量取得ステップにて取得された文字特徴量を総合することによって得られる文字総合特徴量と、上記単語特徴量取得ステップにて取得された単語特徴量とから、上記入力された単語における、単語の難しさを示す単語レベル値を算出する単語レベル値算出ステップとを含むことを特徴とする単語レベル判定方法。
【請求項10】
コンピュータを、請求項1から7までのいずれか1項に記載の単語レベル判定装置の各手段として機能させるための制御プログラム。
【請求項11】
請求項10に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2011−13811(P2011−13811A)
【公開日】平成23年1月20日(2011.1.20)
【国際特許分類】
【出願番号】特願2009−155707(P2009−155707)
【出願日】平成21年6月30日(2009.6.30)
【出願人】(397022911)学校法人甲南学園 (18)
【Fターム(参考)】