説明

敬語誤用判定プログラム、及び敬語誤用判定装置

【課題】入力された日本語の発話文に対し、敬語の誤用の有無を柔軟に判定できるプログラム及び装置を提供する。
【解決手段】発話文テキスト、発話文に関わる人物と人物間の社会的関係を示す人間関係ラベル、難易度の入力を受け付け、発話文テキストに対する形態素解析や構文解析を行い、発話文中の主語及び補語、文末表現、述語について敬語特徴量として数値化するとともに、発話文に関わる人数に依らず汎化した規範ルールを参照して発話文中の主語及び補語と人間関係ラベルに該当する規範ルールを特定し、各規範ルールについて現代の一般の人々の敬語規範意識に基づく正誤の妥当性を数値化した妥当性の程度の値と難易度とを比較することで、判定に用いるべき規範ルールを定め、その規範ルールで正しいとされる敬語特徴量と発話文テキストに用いられた敬語特徴量とを対比することで、発話文テキスト中の敬語の正誤判定を実行できるようにした。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、日本語の敬語の使用法が誤っているか正しいかを柔軟に指摘してユーザに提示することができるコンピュータ装置とそのプログラムに関するものである。
【背景技術】
【0002】
敬語は日本語の大きな特徴の一つであり、人物間の適切な人間関係の認識や構築、コミュニケーションに関して重要な役割を担っているが、現代の日本社会においては、敬語の様々な誤用が指摘されている。敬語の誤用は、日本社会における人間関係の形成に悪影響を及ぼす可能性があるため、日本語教育では敬語の適切な習得、学習が重要であり、そのための効率的な支援システムの構築が期待されるところである。
【0003】
これまで、本発明者は、広範な発話状況と発話文を扱い、敬語用法の正誤を判定することができる学習支援システム(敬語表現判定装置、同プログラム)を提案してきている(特許文献1、非特許文献1参照)。このシステムの主な機能は、発話文に含まれる運用上の敬語の誤用、すなわち話者と聞き手、及び発話文中に登場する人物(最大2名であるが、これらは話者及び聞き手と同一人物となる場合がある)の間での社会的関係(上下関係)と整合しない敬語表現の有無を判定し、その結果を出力するというものである。敬語の誤用の有無に関する判定には、日本語学の文献等を参考にして作成された規範ルール(特許文献1中では「正誤判定ルール」)が用いられていた。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−285060
【非特許文献】
【0005】
【非特許文献1】白土保ら著,「日本語発話文の敬語の誤用を指摘するシステム」,2007年,電子情報通信学会和文論文誌,vol.J90−A No.11,p.1−13
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところが、特許文献1の技術を利用した学習支援システムでは、次のような問題があった。すなわち、まず規範ルールが発話に関わる人数(2〜4名)に設定されていたため、規範ルール全体としての体系的な規則性を把握することが容易ではなかった。このため、敬語教育に資する資料として規範ルールそのものを十分に活用することが困難であった。次に、規範ルールが現代の日本社会において一般の人々が持つ敬語規範意識と比べて厳格すぎたこと、あるいはその逆に一般の人々の感覚の方が規範ルールよりも厳格であったことから、規範ルールが現代の人々の敬語に関する感覚と必ずしも一致しなかった。このような問題があったため、同文献に記載の技術に基づく学習支援システムでは、それに適用した規範ルールを用いて敬語の誤用の判定を行うには、実用的な敬語学習支援としては適していなかった可能性があると考えられる。
【0007】
本発明は、このような問題に着目してなされたものであって、主たる目的は、現代の日本社会において一般の人々が持つ敬語の規範意識にできるだけ対応し、利用者の敬語使用レベルに応じて柔軟に敬語用法の正誤、特に誤用の場合には具体的な誤用箇所を柔軟に指摘することができる柔軟な敬語学習支援システムに資するプログラムと、そのプログラムを実装した装置を提供することにある。
【課題を解決するための手段】
【0008】
すなわち本発明は、コンピュータを作動させて、入力された日本語の発話文中における敬語の用法を判定するプログラム、並びに当該プログラムに従って作動するコンピュータ装置に関するものである。
【0009】
本発明に係るプログラムは、コンピュータに以下の工程を実行させることを特徴としている。すなわち、本発明の敬語誤用判定プログラムは、日本語の発話文テキストと、この発話文の話者及び聞き手を含む発話文に関わる2名から4名の人物の社会的関係を表す人間関係ラベルと、本プログラムにおける敬語用法判定の難易度(=閾値、指標の両方を含む概念)の入力を受け付ける入力受付工程と、入力受付工程で受け付けた発話文テキストを形態素解析処理する形態素解析工程と、形態素の並びに応じて敬語の種類を分類した敬語タイプ辞書を参照して形態素解析工程で得られた発話文テキストの形態素の並びに該当する敬語の種類である敬語タイプを抽出する敬語タイプ抽出工程と、入力受付工程で受け付けた発話文テキストを構文解析処理し、発話文テキスト中の主語と補語とを同定する構文解析工程と、敬語タイプ抽出工程により抽出した敬語タイプと、構文解析工程による発話文テキストの構文解析結果とに基づいて、主語に対する敬称の有無、補語に対する敬称の有無、発話文テキストの文末における丁寧語の有無、発話文テキスト中の述語が敬語的な分類における何れの分類カテゴリに該当するかを示す述語特徴について、それぞれ数値化した値である敬語特徴量を同定する敬語特徴量同定工程と、複数の人物間の人間関係のパターン毎に設定された規範ルールとして、各人物に対する主語及び補語の指定と、敬語特徴量の取り得る値を規定した規範ルールデータベースを参照し、構文解析工程で同定した主語及び補語に該当し、且つ入力受付工程で受け付けた人間関係ラベルに該当する規範ルールを抽出する規範ルール抽出工程と、規範ルールデータベースに設定された規範ルールについてその規範ルールの適用の妥当性の程度の値を規定した妥当性データベースを参照し、規範ルール抽出工程で抽出した規範ルールに対応する妥当性の程度の値を妥当性データベースから抽出し、その抽出した妥当性の程度の値と入力受付工程で受け付けた前記難易度とを比較して、妥当性の程度の値がその難易度よりも大きい規範ルールを有効な規範ルールとし、有効な規範ルールの各々について、敬語特徴量同定工程で同定した敬語特徴量が前記各有効な規範ルールにおける敬語特徴量のいずれにも一致しない場合にはその規範ルールについて誤用と判定し、誤用と判定しなかった場合はその規範ルールについて正用と判定するルール毎正誤判定工程と、ルール毎正誤判定工程の結果、全ての有効な規範ルールについて誤用と判定された場合には正誤の総合判断として誤用と判定し、誤用と判定しなかった場合は正用と判定する正誤総合判定工程と、正誤総合判定工程における判定結果を出力する出力工程とを、コンピュータに実行させるものである。なお、発話文に関わる人物とは、2名の場合は話者と聞き手、3名又は4名の場合は発話文の話者及び聞き手、並びに話者でもなく聞き手でもない発話文中で参照される1名又は2名の人物のことである。
【0010】
また本発明に係る敬語誤用判定装置は、このような敬語誤用判定プログラムに従って作動し、これらの各工程を実行する処理部を備えたコンピュータ装置によって実現される。コンピュータ装置は、それ自体が備えている記憶装置に敬語誤用判定プログラムを格納したものであってもよいし、通信回線を通じてアクセス可能な別のコンピュータ装置(サーバコンピュータ等)に格納された敬語誤用判定プログラムに従って動作するものであってもよい。このような敬語誤用判定装置として利用されるコンピュータ装置は、専用コンピュータ、汎用のパーソナルコンピュータ、モバイルコンピュータ等、適宜のコンピュータ装置によって実現することができる。以下、敬語誤用判定プログラムに従ったコンピュータ装置における情報処理について、プログラムにおける処理工程として説明する。
【0011】
入力受付工程では、ユーザによる入力デバイスを利用した日本語の発話文テキストの入力を受け付けるが、その際に、話者と聞き手と発話文中で参照される人物の社会的関係の指定も受け付ける。ここで、発話文中で参照される人物には、話者あるいは聞き手が該当してもよい。したがって、実質的に発話文テキストに関わる人物は、話者と聞き手を含めて2名〜4名ということになるため、本発明で取り扱うことができる発話文は、話者と聞き手を含めて2名〜4名が関わる文章であるという制限がある。話者と聞き手及び発話文テキスト中で参照される人物間の社会的関係とは、これらの人物同士の関係において、社会的に誰が誰よりも上位又は下位の立場か、あるいは同等の立場かという、社会的上下関係を表す情報や、誰と誰が同一の社会的グループ(例えば同じ会社に所属する等)に属するか、あるいは誰と誰は異なる社会的グループに属するか(例えば違う会社に所属する等)という情報を含めることが望ましい。したがって、人間関係ラベルは、発話文の話者、聞き手、及び発話文中で参照される人物の社会的上下関係と、共通の社会的グループに属するか否かという関係の何れか一方の関係、又は両方の関係を表す情報とすることが適している。人間関係ラベルを上述のように定めたのは、規範的な敬語の使用のためには、人物の社会的上下関係と、共通の社会的グループに属するか否かという関係の双方の要因を考慮することが重要であるため、これら2つの要因が学習者に明示された学習システムを構築することによって学習者がこれらの要因を明確に意識して規範的な敬語を的確に学習することができる、ということを理由として挙げることができる。なお、以下の説明では、同じ社会的グループに属する人物同士を「ウチ」の関係、異なる社会的グループに属する人物同士を「ソト」の関係、と表現する場合がある。また、本発明においては、上述の通り最大4名が関わる発話文テキストを扱うこととしており、発話文テキストの構文解析において主語と補語(本発明では目的語又は客語に該当する語を「補語」と規定する)の同定の誤りがあるような複雑な文を排除し、その敬語の誤用判定を確実に行うために、発話文テキストには述語が1つだけ含まれ、その述語の主語と補語はそれぞれ1つまでとする、という制約が課される。
【0012】
形態素解析工程では、入力を受け付けた発話文テキストについて形態素解析処理を実行する。形態素解析処理には、公知のものも含めて適宜の形態素解析プログラムを適用することができる。
【0013】
敬語タイプ辞書は、形態素の並びに応じて敬語の種類を分類した例えば電子辞書形式のデータベースである。図1に、敬語タイプ辞書の一例における一部を例示する。発話文は、話者が聞き手に話しかけている状況を表現した文章であるため、話者以外の人物に対する敬称がある場合がある。図1中の「L」は聞き手を、「A,B」は発話文テキスト中で参照される可能性がある人物(AとBは異なる人物である)を示している。そこで、L,A,Bの何れかの形態素(固有名詞)の後に「様、さん、氏」等の形態素(敬称)が並んでいる場合を、敬語タイプ「敬称」として設定される。また、動詞を挟む形態素の並びや、「頂く,申す,おっしゃる,いらっしゃる」等の単独の形態素については、述語に関する敬語タイプとして「謙譲語I、謙譲語II、尊敬語、二方面敬語、敬語なし」が存在する。ここで、謙譲語Iは、聞き手などを立てて述べる語(例えば、「お話しする」)である。謙譲語IIは、聞き手などに対して丁重に述べる語(例えば「申す」)である。尊敬語は、主語を立てて述べる語(例えば「お話し下さる」)である。二方面敬語は、謙譲語Iと尊敬語が接合した語であり、主語を立てると同時に聞き手などを立てて述べる語(例えば「お話しして下さる」)である。これらに敬語が用いられていない「敬語なし」の類型も含めると、敬語の分類カテゴリには5類型が存在する。また、文末表現については、「です,ます」等の敬語タイプ「丁寧語」が設定される。
【0014】
敬語タイプ抽出工程では、形態素解析工程で得られた形態素解析結果から、発話文テキストの形態素の並びに基づいて、前述のような敬語タイプ辞書を参照することで、発話文テキストに含まれる敬語タイプを抽出する。
【0015】
構文解析工程では、入力を受け付けた発話文テキストについて構文解析処理を実行する。構文解析処理には、公知のものも含めて適宜の形態素解析プログラムを適用することができる。本発明では特に、この構文解析工程において、発話文テキスト中の主語と補語を同定する。
【0016】
敬語特徴量同定工程では、敬語タイプ抽出工程及び構文解析工程による構文解析結果から、発話文テキスト中における敬語の使用状況を敬語特徴量として数値化した値を同定する。敬語特徴量は、主語に対する敬称、補語に対する敬称、文末表現、述語特徴(述語の敬語の種類)のそれぞれについて数値化したものである。ここで、述語の敬語タイプである述語特徴について言及すると、日本社会においては人物間の社会的関係を適切に反映した敬語の使用が強く求められており、最低限でも人物間の社会的関係に応じて、尊敬語/謙譲語/これらのいずれでもない,の3つの敬語タイプを適切に使い分けることが求められる。更に、より洗練された敬語の使用として、人物間の社会的関係に応じて、尊敬語、又は謙譲語I、又は謙譲語II、又は二方面敬語、又はこれらの何れでもない語(敬語なし)、の5つの敬語タイプの分類カテゴリを適切に使い分けることが社会的に望ましいとされている。図1に示した敬語タイプ辞書の例や、図2に示した敬語特徴量の例では,この5つの敬語タイプを取り扱うことによりこの5つの敬語タイプの適切な使い分けの学習支援をすることができるようにした態様を示している。
【0017】
具体的には、例えば、主語に対する敬称が有る場合を1,無い場合を0とし、補語に対する敬称が有る場合を1,無い場合を0とし、文末に丁寧語が有る場合を1、無い場合を0とし、述語が尊敬語である場合を1,謙譲語Iである場合を2,二方面敬語である場合を3,謙譲語IIである場合を4,これらの何れでもない語である(敬語を含まない)場合を0とするなどの数値化処理を行う。このような数値を割り当てた敬語特徴量と文中の敬語タイプとの関係を図2に示す。ここで、「s」は主語に関する敬語特徴量、「o」は補語に関する敬語特徴量、「e」は文末表現に関する敬語特徴量、「p」は述語に関する敬語特徴量を表し、s,o,eは0又は1の何れかの値、pは0,1,2,3,4の何れかの値を取ることを示している。ただし、敬語特徴量としては、他の適宜の数値をそれぞれ設定して割り当てることが可能である。
【0018】
ここで、入力受付工程で受け付ける難易度は、上述した主語に関する敬語特徴量s、補語に関する敬語特徴量o、文末に関する敬語特徴量e、述語に関する敬語特徴量pに対して個別に設定したり、複数の敬語特徴量に対してまとめて設定できるようにすることが好ましい。このようにすることで、難易度の設定の自由度を高めることができるとともに、後述するルール毎正誤判定工程において、ユーザにより入力された難易度と、敬語特徴量に関する妥当性の程度の値とを容易に比較できるようになる。また、効率的な敬語学習のためにはユーザの敬語習熟度や学習スタイルに応じて、2通りの学習方法,即ち,(1)主語の敬称に関する規範、補語の敬称に関する規範、文末の敬称に関する規範、述語の敬語タイプに関する規範を個別に学習できる方法、及び(2)これらを併せて同時に学習できる方法、を提供できることが望ましい。難易度を個別に設定することにより,前者の学習方法を提供できる。例えば、主語の敬称に関する難易度を最も厳しく設定し、かつ補語の敬称に関する難易度,文末の敬称に関する難易度、述語の敬語タイプに関する難易度を最も低く設定することにより、本発明は主語の敬称に関する敬語誤りのみを指摘することになる結果、主語の敬称に関する規範を個別に学習することができる。また、これら4つに関する難易度を同時に設定することにより、これら4つに関わる敬語誤りを同時に指摘することができる結果、これら4つに関する規範を同時に学習することができる。
【0019】
規範ルールデータベースは、人物間の社会的関係(例えば上下関係又は同等の関係、ウチ又はソトの関係)を、発話文テキストに関係する人数に依らず(2〜4名という制限はある)にパターン化してそれぞれを規範ルールとし、各規範ルールについて各人物に対する主語及び補語を指定するとともに敬語特徴量の取り得る値を規定したものである。2〜4名の社会的関係と主語及び補語の組合せは、{(発話に関わる人数)X(人物間の上・同・下)X(人物間のウチ・ソト)}X{(主語・補語)の組合せ}は、合計273通り存在する。ここで、話者をS、聞き手をLの各記号で表し、上下関係を「>」(左辺が上位で右辺が下位)又は「=」(両辺が同格)として表し、SとLがウチの関係である(同じ社会的グループに属する)場合を(S,L)、SとLがソトの関係である(異なる社会的グループに属する)場合を(S)(L)として表現するとする。例えば発話に関わる人数が話者と聞き手の2名のときは、(L>S),(S>L),(S=L),(S)(L)の4通りの社会的関係に対して、主語と補語の組合せは、(Sが主語でLが補語),(Lが主語でSが補語)の2通りあるため、合計8通りとなる。前述した先行技術文献においては、発話に関わる人数(2〜4名)毎に規範ルールが設定されていたが、その中には異なる規範ルールであっても主語と補語の組合せが等価であるものが含まれていた。このような冗長性を精査するとともに、敬語特徴量(s,o,e,p)の取り得る値の各々において、先行技術文献における2名用ルール、3名用ルール、4名用ルールの間で人物間の社会的関係を綿密に比較し、可能な限り主語及び補語(S,L,A(発話文テキストで参照される第1の人物)、B(発話文テキストで参照される第2の人物)の何れかが該当し得る)を変数としたルールを作成するという方針で、本発明においては、発話に関わる人物の人数に依存しない汎化した規範ルールを構築した。その結果、本発明において利用される規範ルールデータベースは、図3に示すように、主語(敬語特徴量s)に関する規範ルールが5個、補語(敬語特徴量o)の敬称に関する規範ルールが5個、文末表現(敬語特徴量e)に関する規範ルールが3個、述語(敬語特徴量p)に関する規範ルールが22個の、合計35個の規範ルールに集約された。なお、同図において各敬語特徴量の取り得る値は、図2に示した値に準じて示しているが、両図に共通して他の数値を割り当てることは可能である。
【0020】
規範ルール抽出工程では、上述した規範ルールデータベース(図3)を参照することで、構文解析結果による発話文テキストの主語及び補語の関係に該当し、且つ入力を受け付けた人間関係ラベルに該当する規範ルールを抽出する。このとき、複数の規範ルールが抽出される場合がある。
【0021】
妥当性データベースは、規範ルールデータベースに設定された各規範ルールについて、各規範ルールを敬語使用の判定に用いることについての妥当性の程度の値を規定したものである。すなわち、妥当性データベースは、各規範ルールが、現代の日本社会における一般の人々の敬語規範意識としてどの程度妥当であるかを統計的に処理し数値化したものである。図4に、妥当性データベースの一例を示す。同図において、「V」は妥当性の程度の値を示しており、各規範ルール(ルール番号1〜35)について、敬語特徴量(s,o,e,p)の取り得る値と妥当性の程度の値(V)が設定されている。なお、同図において各敬語特徴量の取り得る値は、図2及び図3に示した値に準じて示しているが、各図に共通して他の数値を割り当てることは可能である。また、この妥当性データベースは、前述した規範ルールデータベースと一体をなすもの、すなわち1つのデータベース内に共通のルール番号等で関連づけられた上記規範ルールデータベースDB2の内容と妥当性データベースDB3の内容とを含む態様とすることも許容される。
【0022】
具体的に、妥当性データベースの作成に当たっては、官能検査手法としてシェッフェ(Scheffe)の一対比較法及びその変法の一つである中屋の変法に基づく設問(アンケート)に基づいて、妥当性の数値化を行うことができる。妥当性の程度の値の設定は、言語と規範ルールに精通している者が人手で行ってもよいが、一般的な人々の認識する妥当さの度合いを利用した方が、一般的な人々の言語直感にあった敬語の誤りの指摘が可能となる。ゆえに、より適切で自然な敬語の誤りを指摘するシステムとしては、シェッフェ法などにより被験者の結果を分析しその分析した結果の値を利用することは効果の大きいことである。各々の規範ルールにおける各々の敬語特徴量の妥当性に関して一般の人々が認識する妥当さの度合いは心理量であるため、計算機で扱うには数値化が不可欠である。心理量を数値するための方法には様々あるがシェッフェの一対比較法は刺激(即ち数値化の対象)を一対で比較させて簡単な判断を被験者に求めるだけで数値化ができるため、被験者の負担が少ないこと、および数値化の計算量が少ないことが特長である。ただしシェッフェの一対比較法の元法では被験者に提示する設問数が多くなるため実験規模が大きくなることが短所であった。以下で示す例では、妥当性の数値を求める際には、後述するような提示順序の制約を課したシェッフェの一対比較法の中屋の変法を用いることにより、数値化の精度を殆ど損なうことなく、かつシェッフェの一対比較法の元法の半分の実験規模を実現していることが特長である。
【0023】
すなわち、シェッフェ法に基づくアンケートは、日本語の専門家ではなく、30代以上の年齢で敬語の使用経験が豊富だと考えられる一般の人々103名を被験者とし、各規範ルールに対応した一連の設問群に被験者が回答するという形式を採用した。各設問では、発話に関わる人物間の社会的関係と文例を示し、一対で示された敬語表現(例えばs,o、eにそれぞれ対応する設問ではs=0とs=1、o=0とo=1、e=0とe=1、pに対応する設問では、p=0とp=1、p=0とp=2、p=0とp=3、p=0とp=2、p=1とp=2、p=1とp=3…という対をなす刺激)について、被験者が話者となった場合に用いるべきだと考える表現を5段階の選択肢から1つをマークシート形式で選択させるように設定した。各選択肢は、該当する規範ルールに対応する敬語特徴量に対応させている。そして、各規範ルールに関する一連の設問群に対する全被験者の回答を用い、図2に示した35個のルールそれぞれについて、シェッフェの一対比較法の中屋の変法に基づく数値化を行った。ここで、敬語特徴量h(s,o,e,pの何れか)が値iを取ることをhiと表記するとしたとき(すなわち、敬語特徴量s,o,e,pに関してはその値が0のときはh0と記し、1のときはh1と記し、さらに敬語特徴量pに関してはその値が2,3,4のときはh2,h3,h4と記す)、この一対の敬語特徴量の値(左側をhi、右側をhjと記す)に関し、i<jという制約を設けている。そしてこの制約の下で、各設問に対する被験者k(各被験者をk=1,…,103で示す)の回答(5つの選択肢におけるマークの位置として、一番左/中央の左隣/中央/中央の右隣/一番右)に応じて、それぞれ2,1,0,−1,−2の値を割り当てたものをAijkとするとともに、Ajik=−Aijkとする(全てのi,jに関し、i<j)。このとき、規範ルールに定義されている人物間の社会的関係に対する敬語特徴量hiの妥当性の程度の値Vは、次式(式1)で求められる。以下、妥当性の程度の値について添数を記す必要が無い場合は単にVとする。ここで、nはその敬語特徴量が取り得る値の数(すなわち、s,o,eに関してはn=2,pに関してはn=5)である。
【0024】
【数1】

【0025】
以上のような数値化手法により、規範ルールそれぞれの敬語特徴量の値hiに対して求めた妥当性の程度の値Viが、図4に示した()内の値である。妥当性の程度の値Vは大きいほど妥当性が大きいことが表されている。上記式1の定義により、s=0,s=1,o=0,o=1,e=0,e=1に関してVが取り得る値域は、−2.0〜2.0、p=0,p=1,p=2,p=3,p=4に関してVが取り得る値域は、−1.6〜1.6である。
【0026】
ルール毎正誤判定工程では、上述したような妥当性データベースを利用して、入力を受け付けた発話文テキストにおける敬語の正誤を、入力された人間関係ラベルと難易度の情報に応じて同じ種類の規範ルール毎(上述の例でいえば、s,o,e,p毎)に判断する。具体的には、まず規範ルール抽出工程で抽出した規範ルールに対応する妥当性の程度の値と入力を受け付けた難易度とを比較して、妥当性の程度の値がその難易度よりも大きい規範ルールを有効な規範ルールとする。有効な規範ルールは複数存在する場合がある。また、妥当性の程度の値がその難易度以下となって有効な規範ルールとすべき規範ルールが存在しない場合は、正用と判定するように設定することもできる。ここで、難易度の設定は、妥当性の程度の値と比較可能な値とするか、妥当性の程度の値と比較可能な値に変換可能としておくことが望ましい。さらに、有効な規範ルールの各々について、敬語特徴量同定工程で同定した敬語特徴量が有効な規範ルールの敬語特徴量の何れにも一致しない場合はその規範ルールについては誤用と判定し、誤用と判断しなかった場合は正用と判定する。したがって、有効とされた規範ルールの各々において、同定した敬語特徴量が各敬語特徴量の全てに一致しない場合には、誤用と判定されることになる。以上の規範ルール毎の判定結果は、必要に応じてコンピュータの一時的記憶領域に記憶される。ここで、規範ルール毎の誤用の判定結果には、発話文テキスト中に敬語の誤用があることを示す情報、発話文テキスト中の敬語の誤用箇所を示す情報、及び発話文テキスト中の敬語の誤用の理由を示す情報のうち、少なくとも1種以上の情報を含めるようにすれば、入力された発話文中の誤用の箇所と誤用の理由を明示することにより、具体的な誤用の理由をユーザが容易に理解することができるため、ユーザが自分の学習できていない規範をより明確に認識することができ、効率的な学習を促すことができる。また、有効な規範ルールが存在しなかった場合や、誤用と判定されなかった場合に正用と判定し、またそれを出力すれば、入力された発話文が正用の場合はその旨を明確に表示できるため、ユーザの学習意欲向上を促すことができる。
【0027】
ここで、ユーザにより入力された難易度(難易度から変換された値を含む)と比較される有効な規範ルールの敬語特徴量に関する妥当性の程度の値(以下、Vcompとする)には、その有効な規範ルールの敬語特徴量が取り得る値が1つだけの場合は、その敬語特徴量についての妥当性の程度の値VをVcompとして利用すればよいが、特に図3に示したように、述語に関する規範ルールにおいては、敬語特徴量が取り得る値が複数存在する場合がある。その場合、どの値についての妥当性の程度の値Vcompを難易度と比較するかは、目的によって種々変更することができる。例えば複数の敬語特徴量の妥当性の程度の値Vcompのうち、最小となる妥当性の程度の値Vminを適用した場合には、ルール毎正誤判定工程における判定としては最も緩い判定結果が得られる。一方、最大となる妥当性の程度の値Vmaxを適用した場合には、最も厳しい判定結果となり、平均の妥当性の程度の値Vavを適用すれば、中程度の判定結果となる。例えば、図4に例示した妥当性データベースを参照して説明すると、ルール番号24〜31など敬語特徴量が複数存在する規範ルールに対するVcomp(Vmin/Vmax/Vav)は、複数の各敬語特徴量の妥当性の程度の値Vが異なるため、Vmin、Vmax、Vavのいずれを選択するかによって様々な値を取り得る。例えば、ルール番号25は、V2(=0.159)<V0(0.212)<V4(0.619)であるため、Vminを用いる場合には難易度<V2の場合にルール番号25の規範ルールが有効となるが、Vmaxを用いる場合には難易度<V4の場合にルール番号25の規範ルールが有効となる。すなわち、複数の敬語特徴量が存在する規範ルールに関しては、様々な難易度の値(若しくは難易度から変換された値)に対して、この規範ルールが有効となるケースをできるだけ多くしたい場合にはVmaxを用い、できるだけ少なくしたい場合にはVminを用い、中程度としたい場合にはVavを用いればよい。このようにして各々のルールの有効/無効を制御することにより、全体としての敬語の誤用の判定の厳しさを制御することができる。
【0028】
そして、正誤総合判定工程では、ルール毎正誤判定工程における判定処理の結果、全ての有効な規範ルールについて誤用と判定された場合には総合判断として誤用と判定し、誤用と判定しなかった場合は正用と判定する。すなわち、1つの規範ルールでも正用と判定されたものがあった場合には、たとえ他の全ての規範ルールについて誤用と判定されたとしても、総合判定としては正用となる。
【0029】
出力工程では、正誤総合判定工程における判定結果を、コンピュータのディスプレイにテキストとして出力したり、音声として出力したり、他のコンピュータのディスプレイやスピーカーに出力させるように送信するなど、適宜の出力を行い、ユーザに正誤判定結果を示唆する。
【0030】
なお、難易度の設定にあたっては、各敬語特徴量(s,o,e,p)に対して個別に設定することができるようにしてもよいし、そのうち複数種類の敬語特徴量を統合してまとめて設定することができるようにしてもよい。また、上述したように、難易度を妥当性の程度の値と比較可能な値に変換可能なものとする場合には、例えば妥当性の程度の値と比較すべき値を、判定が「厳しい(辛い)、優しい(甘い、緩い)」というような言語に置き換えてユーザに入力させるようにすることができる。さらに、難易度をユーザの敬語に関する習熟度に応じた段階として表現し、各段階を妥当性の程度の値と比較できる数値に変換できるようにすることもできる。
【0031】
本発明は、以上のような情報処理を行うことによって、ユーザが入力した発話文テキストと、その発話文に関係する人物(話者、聞き手を含む4名以内)の社会的関係に基づいて、敬語の誤用の判定を画一的且つ過度に厳格とすることなく、ユーザが設定した難易度に応じた規範ルールを適用して妥当に行うことができることとなる。例えば難易度として、ユーザの敬語に関する習熟度に応じた入力がなされれば、敬語学習の必要性が高い規範ルールによって入力された発話文テキスト中の敬語の誤用判定が行われるため、適切な敬語学習に役立つこととなる。
【発明の効果】
【0032】
本発明は、ユーザによって発話文テキストと、話者及び聞き手を含む発話文テキストに関わる2〜4名の人物の社会的関係、具体的には社会的上下関係と同一の社会的グループに属するか否かと、判定の難易度の情報が入力された場合、人物間の社会的関係と難易度に応じて発話文テキストに含まれる敬語表現の正誤を、特に誤用の場合は誤用の態様も含めて出力し、ユーザに示唆することができるものである。すなわち、本発明によるユーザの敬語使用の正しさを、画一的で厳格な基準を用いるのではなく、入力された難易度に応じた敬語使用レベルの一般の人々の敬語規範意識に照らして妥当なレベルを基準とした敬語規範ルールに対応した正誤判定を行うことができるため、ユーザに対して適度な厳しさ(又は易しさ)で判定結果を提示することが可能である。このような本発明は、日本語の敬語の学習や教育において、従来にない適度な妥当性に基づく敬語使用の判定を行うことができるという意味で極めて有用なものであるといえる。
【0033】
したがって、本発明によれば、ユーザが難易度を自由に設定することにより、ユーザの敬語習熟度などに応じた効率的な学習を促すことができる。例えば、あまり敬語に習熟していないユーザに対しては難易度を甘く設定することにより、特に妥当性が高いルール、即ち敬語として習得すべき重要さが大きい規範が記されたルールのみを用いて誤用の判定が行なわれるため、敬語として習得すべき重要さが大きい規範を優先して学習することができる。一方、ある程度敬語に習熟しているユーザに対しては、難易度を高く設定することにより、ユーザが未だ習得していない敬語規範を記したルールを誤用の判定に加えることができる。
【図面の簡単な説明】
【0034】
【図1】本発明が利用する敬語タイプ辞書の一部を例示して示す図。
【図2】本発明に適用される敬語特徴量と文中の敬語タイプとの関係を例示して示す図。
【図3】本発明が利用する規範ルールデータベースの一例を示す図。
【図4】本発明が利用する妥当性データベースの一例を示す図。
【図5】本発明の一実施形態に係る敬語誤用判定装置を示す機能構成ブロック図。
【図6】同実施形態における入力画面の一例を示す図。
【図7】同実施形態における入力画面の一例を示す図。
【図8】同実施形態における出力画面の一例を示す図。
【図9】同実施形態における敬語誤用判定プログラムの処理工程を概略的に示すフローチャート。
【図10】図9におけるルール毎正誤判定工程を詳細に示すフローチャート。
【図11】同実施形態における入力例に対する情報処理の具体例を概略的に示す図。
【図12】同実施形態を適用した実施例における試験において、「指標T」と「誤用と判定された数」の関係をグラフ化して示す図。
【図13】同実施形態を利用したクイズ形式の敬語学習プログラムにおける難易度設定画面の一例を示す図。
【発明を実施するための形態】
【0035】
以下、本発明の一実施形態を、図面を参照して説明する。
【0036】
この実施形態は、日本語の発話文においてユーザが使用する敬語表現の正誤を、現代の日本社会において妥当と考えられる規範に基づいて判定する敬語誤用判定プログラム1Pと、この敬語誤用判定プログラム1Pによって情報処理を行うコンピュータ装置からなる敬語誤用判定装置1Cである。この敬語誤用判定装置1Cは、本実施形態では、キーボードやタッチパッド、音声入力装置等の適宜の入力装置、画面表示装置(モニタ)や音声出力装置等の適宜の出力装置、中央演算処理装置(CPU)、主記憶装置(メモリ)、補助記憶装置(ハードディスク等)、必要に応じて外部のコンピュータと情報を送受信する通信インターフェイス等の機器を備えた一般的な汎用のモバイルコンピュータやパーソナルコンピュータ、または専用コンピュータにより実現されるものを想定しているが、ユーザが使用するコンピュータ装置からの入力を受信して演算処理を行い、処理結果をユーザのコンピュータ装置に送信(出力)するサーバコンピュータによって実現することも可能である。敬語誤用判定プログラム1Pは、必要時にCPUに読み込まれて演算処理を行うとともに各機器を動作させることによってコンピュータ装置を敬語誤用判定装置1Cとして機能させる。
【0037】
図5に、敬語誤用判定プログラム1Pによって作動する敬語誤用判定装置1Cの概略的な機能ブロック図を示す。すなわち、敬語誤用判定装置1Cは、敬語誤用判定プログラム1Pの指令に従い、入力受付部2、形態素解析部3、敬語タイプ抽出部4、構文解析部5、敬語特徴量同定部6、規範ルール抽出部7、ルール毎正誤判定部8、正誤総合判定部9,出力部10としての各機能を有することとなる。なお、この敬語誤用判定装置1Cが利用する敬語タイプ辞書DB1、規範ルールデータベースDB2、妥当性データベースDB3は、敬語誤用判定装置1Cが内部要素として補助記憶装置に格納したものを利用してもよいし、外部のデータベースにアクセスして利用する態様を採用してもよい。敬語タイプ辞書DB1、規範ルールデータベースDB2、妥当性データベースDB3の内容は、それぞれ図1、図3、図4を参照して前述した通り、特に述語に関しては5分類の敬語のカテゴリを採用した場合を一例として採用したものである。なお、本実施形態で利用される各データベースはある程度独立に拡張が可能であるため、例えば、敬語タイプ辞書DB1を拡張することにより,より多くの形態素の並びに対応した敬語タイプの抽出ができるものとすることができる。以下、この敬語誤用判定装置1Cにおける各機能要素について説明する。また敬語誤用判定プログラム1Pによる情報処理の工程については、図9及び図10のフローチャートと、図11に示す情報処理の具体例の概略を適宜参照して言及する。
【0038】
まず、敬語誤用判定装置1Cにおいて敬語誤用判定プログラム1Pが起動されると、入力受付部2は、例えばモニタに入力画面を表示させ(図9;入力画面表示工程S1)、ユーザに対して必要な情報の入力を促し、入力装置に入力された情報を受け付ける(図9;入力受付工程S2)。具体的には、本実施形態の敬語誤用判定プログラム1Pは、クイズ形式で所定の人物と設問をユーザに提示し、設問に対応した入力をユーザに行われるものである。例えば図6に設問の一例を示すように、話者と聞き手の指定欄(P1−a)では、設問における話者と聞き手がそれぞれ「山田」と「佐藤」に設定されている。
【0039】
また、人物間の関係欄P1−bでは、設問によって人物間の社会的関係が指定されている。具体的には、上下関係を不等号(>又は<)又は等号(=)で指定し、誰と誰とが同じ社会的グループに属するか、異なる社会的グループに属するかを、社会的グループごとに四角の枠内に該当する人物を当て嵌められている。図示例では、3名が全て同じ会社に所属している場合の設問を示しているため、1つの枠内に全員が表示されている。ここで入力された情報は、入力受付部2において、人間関係ラベルとして受け付けられる。入力ラベルは、ウチの関係同士の人物を共通の()内に入れて表現されるが、前述の入力例では、話者L「山田」が主語A「高橋」の上司であり、主語A「高橋」が聞き手L「君」の上司であることから、(S>A>L)という人間関係ラベルが受け付けられることとなる(図11参照)。
【0040】
話す内容欄P1−cは、主語が補語に対して何かを行ったことを話者が聞き手に対して伝える内容を、敬語を使用しない日本語の伝聞形式で表示する欄であり、様々なシチュエーションに対応して用意された種々の文章のなかから、敬語誤用判定プログラム1Pが自動的に選択するか、或いはユーザが任意に選択するかの何れかによって表示される。図示例では、「高橋が佐藤に話したんだね」という文が表示された状態を示している。このことから、人物間の関係欄P1−bに表示されたように、この設問においては3名の人物が発話文に関わっていることがわかる。そして、話す内容欄P1−cで表示された文章に従って、発話文の入力欄P1−dにユーザに敬語を使用した表現で発話文を入力させる。図示例では、「高橋が君にお話ししたんだね」という発話文がテキスト入力された例を示している。入力された文章は、入力受付部2において、発話文テキストとして受け付けられる。なお以上では、設問として、所定の人物と人物同士の社会的関係、入力させるべき発話文の元となる敬語を含まない例文が予め設定されたクイズ形式の入力画面例を示したが、例えば学習形式の入力画面として、話者及び聞き手を含む2〜4名の人物が関係し、述語が1つだけ含まれる発話文のみが許容されるという制約の下で、ユーザが任意に人物設定を行い、また任意に発話文を入力できるような構成を採用することもできる。
【0041】
さらに入力受付部2は、敬語判定の難易度(以下、必要に応じて「指標」とする)をユーザに指定させるために、図7に一例を示すような指標設定画面P2をモニタに表示する。この指標設定画面P2では、主語及び補語に対する敬称の設定欄(P2−a)、文末の表現の設定欄(P2−b)、述語タイプの設定欄(P2−c)、これら全てをまとめて設定することができる総合設定欄(P2−d)が設定されている。各欄における設定は、スライダを左右に動かして敬語判定を厳しく行うか否かを、判定が甘い(厳しくない)ほど左に、判定が厳しいほど右に、スライダで0〜10の数値に設定できるようにしている。なお、難易度(指標)の設定は、段階的に例えば整数値で設定する構成や、所定範囲の数値を直接入力する構成を採用してもよい。敬称の設定欄P2−aでは、発話文中で参照される主語と補語に関する敬称の指標を同時に設定できるようにしているが、これらは別個に設定できるようにしても構わない。発話文の文末の表現の設定欄P2−bでは、文末表現の丁寧さの指標を設定できるようにしている。述語タイプの設定欄P2−cでは、発話文中の述語に関する指標を設定できるようにしている。総合設定欄P2−dで指標を設定した場合は、その閾値に他の欄における閾値が全て一致させられる。ここで入力された情報は、入力受付部2において、難易度(指標)として受け付けられる。図7では、総合設定欄P2−dにおいて、指標として数値「2.15」が指定された状態を示している。
【0042】
ただし、入力を受け付けた難易度(指標)の値は、後述するルール毎正誤判定部8において、妥当性の程度の値V(式1参照)と比較可能な値に変換しておく必要がある。ここで、入力受付部2で受け付けた指標は、敬語特徴量(s,o,e,p)に対応づけられてそれぞれ0〜10の何れかの数値となっている(総合して難易度が設定された場合は、主語及び補語、文末、述語に共通の難易度が割り振られる)。そこで本実施形態では、s,o,eについては次式(2)を用いて指標(以下、「T」とする)を閾値に変換し、pについては次式(3)を用いて指標Tを閾値に変換するものとする。
【0043】
s,o,eの閾値=−2.0+(2.0+2.0)/10*(10−T) …(式2)
【0044】
pの閾値=−1.6+(1.6+1.6)/10*(10−T) …(式3)
【0045】
指標Tは、式1に関する説明で述べた値域(s=0,s=1,o=0,o=1,e=0,e=1に関しては−2.0〜2.0,p=0,p=1,p=2,p=3,p=4に関しては−1.6〜1.6)を考慮した標準化をするように定義したものである。この定義により、指標Tの値が大きいほどs,o,e,pの閾値が小さくなるため誤用の判定に用いられる規範ルールの数がより多くなり、敬語誤用判定装置1C(もしくは敬語誤用判定プログラム1P)全体の挙動としてはより厳格な判定がなされることになる。従って、指標Tは本実施形態全体の挙動としての「判定の厳格さ」(難易度)の程度を決めるパラメータとなっている。
【0046】
形態素解析部3では、入力受付部2で受け付けた発話文テキストについて形態素解析処理を行う(図9;形態素解析工程S3)。形態素解析用のプログラムとしては、「茶筌」等の公知のプログラム又は本実施形態専用のプログラムが用いられる。
【0047】
敬語タイプ抽出部4は、形態素解析部3による発話文テキストの形態素解析結果から形態素の並びを特定し、敬語タイプ辞書DB1を参照して、入力された発話文テキストに対応する敬語タイプを抽出する(図9;敬語タイプ抽出工程S4)。図6に示した発話文テキストの入力例「高橋が君にお話ししたんだね」については、形態素「高橋」「君」に続けて敬称に該当する形態素が存在しない(「君」は文法的には敬称に該当するが敬意を表さないため本実施形態では敬称とはみなさない)ため敬称の敬語タイプが抽出されず、形態素「お」「話し」「した」については謙譲語Iの敬語タイプが抽出され、形態素「だね」については文末に丁寧語の敬語タイプが抽出されない、という結果となる。
【0048】
構文解析部5では、入力受付部2で受け付けた発話文テキストについて構文解析処理を行う(図9;構文解析工程S5)。構文解析処理には、専用の又は適宜の公知の構文解析プログラムが利用されるが、本実施形態では形態素解析部3の解析結果も構文解析処理に利用している。図6に示した入力例では、主語=高橋(A)、補語=君=聞き手(L)が構文解析結果として得られる(図11参照)。
【0049】
敬語特徴量同定部6では、敬語タイプ抽出部4での抽出結果と構文解析部5での構文解析結果に基づいて、主語の敬語特徴量s、補語の敬語特徴量o、文末の敬語特徴量e、述語の敬語特徴量pをそれぞれ同定する(図9;敬語特徴量同定工程S6)。図11に示すように、図6に示した発話文テキストの入力例「高橋が君にお話ししたんだね」については、主語「高橋」に関する敬称の敬語タイプがないため「s=0;主語の敬称なし」、補語「君」に関する敬称の敬語タイプがないため「o=0;補語の敬称なし」、文末「だね」に関する丁寧表現の敬語タイプがないため「e=0;文末が丁寧でない」、述語「お話しした」については謙譲語Iの敬語タイプが該当するため「p=2;述語が謙譲語I」が、それぞれ同定される(敬語特徴量について、図2参照)。
【0050】
規範ルール抽出部7では、図3に示した規範ルールデータベースDB2を参照して、構文解析結果から得られた発話文テキストの主語及び補語の関係に該当し、さらに入力受付部2で受け付けた人間関係ラベルに該当する規範ルールを抽出する(図9;規範ルール抽出工程S7)。図6に示した入力例では、主語が「高橋」(A)、補語が「君=聞き手」(L)、人間関係ラベルが(S>A>L)であるため、規範ルールデータベースDB2の探索結果から、該当する複数の規範ルールが抽出されることになる。
【0051】
ルール毎正誤判定部8では、図4に示した妥当性データベースDB3を参照して、規範ルール抽出部7で抽出した規範ルールに対応する妥当性の程度の値、敬語特徴量同定部6で同定した敬語特徴量、入力受付部で受け付けた難易度(閾値)に基づいて、規範ルールの種別(具体的には敬語特徴量s,o,e,p)毎に、入力された発話文に関わる人物間の関係において、入力された難易度における発話文テキストの敬語の用法について正誤判断を行う(図9;ルール毎正誤判定工程S8)。ここで、このルール毎正誤判定部8における判定アルゴリズムを、図10のフローチャートを参照して詳細に説明する。
【0052】
ルール毎正誤判定部8は、まず、妥当性データベースDB3から、規範ルール抽出部7で抽出した規範ルールのルール番号と対応する規範ルールのルール番号を全て(n個とする)抽出する(図10;S801)。そして、抽出したn個のルール番号のm番目(m=1,2,…nただし、どのルール番号から処理を行うかは、例えばルール番号が小さい順など、適宜決定することができる)について、敬語特徴量(s,o,e,p)の種別毎に、次に述べる難易度(指標T)から変換された閾値と比較すべき値を決定する。本実施形態では一例として、最小値となる妥当性の程度の値Vminを決定する(同;S802)。なお、妥当性の程度の値Vが付与された敬語特徴量(s,o,e,pの何れか)を1つだけ含むルールの場合は、その敬語特徴量の妥当性の程度の値Vが最小値Vminに決定され、妥当性の程度の値Vが複数の敬語特徴量に対して付与されている(pに関する規範ルールの一部)場合にのみ、そのルールにおける妥当性の程度の値の比較が行われ、最小値Vminが決定される。次に、決定された妥当性の程度の値Vminを、入力受付部2で受け付けた難易度(指標T)から変換された閾値と比較する(同;S803)。妥当性の程度の値Vminが閾値よりも大きい場合、その規範ルールは「有効な規範ルール」とされ(同;S804)、それ以外の場合は、その規範ルールについては「無効な規範ルール」とされる(同;S805)。「無効な規範ルール」とされた規範ルールについては、「正用」と判定される(同;S810)。なお、抽出した全ての規範ルールについて、閾値よりも大きい妥当性の程度の値Vminが存在せず、「有効な規範ルール」の数が0であった場合は、「正用」と判定されることとなる。「有効な規範ルール」については、敬語特徴量同定工程S6で同定した敬語特徴量hi(s=0,s=1,o=0,o=1,e=0,e=1、p=0,p=1,p=2,p=3,p=4の何れか)が、有効な各々の規範ルールに記されている全ての敬語特徴量hiと一致するか否かを判断し(同;S806)、何れにも一致しない場合にその規範ルールに関して「誤用」と判断する(同;S807)とともに、誤用箇所を特定し(同;S808)、誤用の判断と誤用箇所とを、誤用の判定結果として記憶しておく(同;S809)。誤用箇所の特定については、どの敬語特徴量に関して誤用と判断されたか、誤用と判断された敬語特徴量にはどのような値が同定されたか、入力を受け付けた発話文テキストのうち誤用と判断された部分はどこか、等の情報を含めることができる。一方、敬語特徴量同定工程S6で同定した敬語特徴量hiが有効な規範ルールの敬語特徴量hiと一致しない場合、すなわち有効な規範ルールの各々に記されている敬語特徴量hiのうち何れか1つでも同定された敬語特徴量hiと一致するものがあれば、その規範ルールについては「正用」と判定されてその情報が記憶される(同;S810)。
【0053】
このような処理を、抽出した全て(n個)の規範ルールについて繰り返すことで(同;S811,S812)、規範ルール抽出部7で抽出した規範ルールの全てについて正誤判定が行われる。そして、記憶された誤用の判定結果(同;S809)と正用の判定結果(同;S810)は、ルール毎正誤判定部8における判定結果として記憶されて(同;S813)、ルール毎正誤判定部8における処理を終え、判定結果は次の正誤総合判定部9で利用される。
【0054】
図6及び図7に示した入力例について検討すると、前述の通り、規範ルール抽出部7において複数の規範ルールが抽出されている。ルール毎正誤判定部8では、妥当性データベースDB3からそれに対応する妥当性の程度の値が抽出される(図10;S801)。ここで抽出された妥当性の程度の値のなかから、各ルール毎に最小値となる妥当性の程度の値Vminが決定される(図10;S802)。一方、入力受付部2で受け付けた指標Tの値はpに関しては2.15であったので、閾値は式3の演算結果より0.912である。そこで、決定された妥当性の程度の値Vminが閾値0.9と比較される結果(図10;S803)、図11に示したように、「妥当性の程度の値Vmin>閾値」の関係を満たすものは、Vmin=0.920であるルール17のみとなることから、ルール17が有効なルールと判断される(図10;S804)。しかしながら、敬語特徴量同定部6で同定した敬語特徴量はp=2(述語が謙譲語I)であるのに対して、ルール17の敬語特徴量はp=0であることから(図10;S806)、ユーザによる入力は、述語(謙譲語I)について「ルール17」に関して整合しない(すなわち誤用)(図10;S807,S808)と判定され、しかも抽出された規範ルールがルール17のみであったため、「運用上の誤用」と判定される。
【0055】
次に、正誤総合判定部9は、ルール毎正誤判定部8による規範ルールの種別毎の判定結果に基づいて、全ての有効な規範ルールについて誤用と判定された場合には総合判断として誤用と判定し、誤用と判定しなかった場合は正用と判定する(図9;S9)。換言すれば、ルール毎正誤判定部8において1つでも正用と判断されたものが存在すれば、総合判断としての正誤判定は正用とされる。この正誤総合判定部9による判定結果は、次の出力のために一時的に記憶される。
【0056】
出力部10は、記憶された正誤総合判定部9における判定結果を所定の出力画面に成形してモニタに表示出力を行う(図9;S10)。ここで、図6及び図7の入力画面例に対応して図8に出力画面例を示す。出力画面P3では、判定結果欄P3−aとして「判定:運用上の誤用有り」と表示され、誤用の箇所欄P3−bとして発話文テキスト中の誤用箇所(述語)である「お話ししたんだね」と表示され、誤用の理由欄P3−cとして誤用箇所の敬語特徴量であるp=2(述語が謙譲語I)が文章として「述語が謙譲語になっている」と表示される。判定結果欄P3−aの「運用上の誤用」とは、入力された人間関係ラベルと主語及び補語の関係では敬語規範上整合しない敬語を用いているが、言葉自体としては文法上は(語形上は)間違っていないことを意味する。また、本実施形態では、正誤総合判定部9における判定結果として「誤用」の判定がなされた場合、入力画面P1に表示した設問の発話文に対応して、予め設定しておいた正しい敬語表現を用いた文例を、出力部10によって出力画面P3の正しい文例欄P3−dに表示するようにしている。上述した設問に対する正しい文例として同図の正しい文例欄P3−dには「高橋が君に話したんだね」が表示される(図11参照)。なお、入力された発話文テキストが「正用」と判定された場合は、出力画面P3には、判定結果欄P3−aに「正用」とだけ表示するように設定することができる。
【0057】
以上に詳述したように、本実施形態では、入力された発話文テキスト、発話文に関わる人物、人物間の社会的関係、難易度(指標)について、先行技術文献のように発話文に関わる人物の人数毎に定義した判定ルールや、一律的な判定ルールを用いて敬語表現の正誤判定を行うのではなく、発話文に関わる人数に依らない汎化した規範ルールを用い、しかも各規範ルールには日本語の敬語を使う現代の一般の人々の敬語規範意識に基づく正誤の妥当性を統計的に処理した妥当性の程度の値を利用して正誤判断を行うようにしているため、徒に厳格な判定結果が得られることはなく、一般的な日本人の敬語規範意識とユーザが設定した難易度に応じた判定結果を柔軟に導き出すことができる。また、一定の制約の下で、話者と聞き手を含む4名以内の人物設定やそれらの人物間の社会的な関係(上下関係、及びウチ/ソト)、判定の難易度をユーザが自由に設定できるため、多様な状況での発話文における敬語表現の使用状況の正誤を任意の難易度によって適切に判定することが可能である。したがって、本実施形態の敬語誤用判定プログラム1Pや敬語誤用判定装置1Cは、ユーザの敬語に関する習熟度に合わせた判定が可能となるため、日本語の敬語教育、敬語学習のための極めて有用なツールとして用いることができる。
【0058】
なお、本発明は上述した実施形態に限定されるものではない。例えば上述の入力例では、難易度として指標Tを利用し、それを閾値に変換して妥当性の程度の値Vと比較する例を示したが、ユーザによる入力時に閾値を直接指定できるようにすることも可能であるし、ユーザが自身の敬語習熟度を選択すると、自動的に閾値が設定されるようにすることも可能である。また、敬語特徴量には上述した各値に代えて、他の値や記号を利用してもよく、妥当性の程度の値や閾値(指標、難易度も含む)には他の数式により得られる値を利用することもできる。さらに入力画面や出力画面については、ユーザが利用しやすい適宜の構成を採用することができる。また、ルール毎正誤判定部8による難易度T(閾値)と比較すべき値として、上述の実施形態では、妥当性の程度の値の最小値Vminを適用したが、最大値Vmaxや平均値Vavを適用することも可能であるし、妥当性の程度の値が1つだけの場合はその値に対応する妥当性の程度の値を適用すればよい。その他、各部、各工程の具体的態様についても上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で種々変形が可能である。
【実施例】
【0059】
上述した実施形態の敬語誤用判定プログラム1P及び敬語誤用判定装置1Cを利用した入力から出力までの上記とは別の例を以下に示す。
【0060】
この例では、話者(S)が聞き手(L)である「佐藤」に対して話をしており、その発話文には、話者と聞き手以外に「高橋」という人物1名が関係している状況を想定している。ここで、人間関係ラベルの入力として『高橋(A)>聞き手(佐藤,L)>話者(S)』があり、発話文テキストの入力として『佐藤さんは高橋さんに電話しましたか?』があったとする。このような入力に対しては、形態素解析、敬語タイプの抽出、構文解析を実行した結果、構文解析結果として『主語は佐藤(L),補語は高橋(A)』に同定され、敬語タイプの抽出結果及び敬語特徴量の同定結果として『発話文の述語の敬語特徴量p=0』が得られる。なお、ここでは言及しないが、主語及び補語に対する敬称の敬語特徴量s,oや、発話文の文末に対する敬語特徴量eについても、それぞれ処理が行われる。
【0061】
また、規範ルールデータベースDB2から、述語の敬語特徴量pに関する規範ルール(ルール14〜35)のうち、上記の構文解析結果と入力された人間関係ラベルに対応するルールとして、ルール14(p=1)とルール23(p=1or2or3)が抽出される。また、入力として『指標T=10』がなされたとすると、式(3)より、述語の敬語特徴量pの閾値として−1.6が得られる。したがって、妥当性データベースDB3を参照すると、『妥当性の程度の値Vmin>閾値』を満たすルールとして、ルール14とルール23が有効な規範ルールと判断される。
【0062】
ルール毎の正誤判定では、発話文テキストの述語の敬語特徴量(p=0)は、ルール14に記された何れの敬語特徴量(p=1)にも一致しないため、ルール14については『誤用』と判定される(ルール毎判定工程での結果1)。また、発話文テキストの述語の敬語特徴量(p=0)は、ルール23に記された何れの敬語特徴量(p=1or2or3)にも一致しないため、ルール23についても『誤用』と判定される(ルール毎判定工程での結果2)。これらのルール毎判定工程での結果1及びルール毎判定工程での結果2の結果、全ての有効な規範ルール、すなわちルール14及びルール23について『誤用』と判定されたため、正誤の総合判断として『誤用』と判定される。このような正誤総合判定工程の結果に基づいてなされる出力(判定結果の画面表示)は、『判定:運用上の誤用あり』,『誤用の箇所:電話しましたか?』,『誤用の理由:述語が敬語でない』,『正しい文例:佐藤さんは高橋さんにお電話なさいましたか?』となる。
【0063】
上述した実施形態の敬語誤用判定プログラム1P及び敬語誤用判定装置1Cによる判定の妥当性を検証するとともに、日本語学習者の敬語習熟度等に応じて閾値を適切に設定するために、閾値の変化に対して判定結果の挙動がどのように変化するかについて、次のような試験を行った。
【0064】
すなわち、閾値の変化と判定結果の挙動とを定量的に調べるために、敬語習熟度が異なる被験者群を複数用意し、人物間の社会的関係の各々に対して各々の被験者群に記述させた文章を敬語誤用判定プログラム1P及び敬語誤用判定装置1Cで判定させて「誤用」となった文の数をカウントした。ただし、敬語習熟度が極めて高い被験者群はそもそも学習の必要性が低く、且つ閾値によらず判定が殆ど「正用」となることが予想されるため、このような被験者群を想定することは意味がない。そこで、この試験では、敬語習熟度が低い被験者群と、敬語習熟度がある程度高い被験者群を想定している。
【0065】
まず、敬語習熟度が低い被験者群に関しては、敬語習熟度のみならず日本語自体の習熟度があまりに低いと、その回答文が日本語の基礎文法から逸脱する可能性があり、適切に正誤判定を行うことが困難となる虞がある。そこで、敬語の誤用が含まれていることが予め判明している819文(3種類の異なる発話意図の文に関し、人物間の社会的関係X[主語・補語]の組合せ273通り)を、敬語習熟度が低い被験者群の回答文に相当するものとして使用した。すなわち、この819の文は、全て「誤用」と判定される文である。以下、これらの文を「習熟度『低』の回答文」と呼ぶものとする。
【0066】
また、敬語習熟度がある程度高い被験者群の回答としては、日本語の専門家ではない一般の人々40名を用い、5種類の発話意図の文について、発話に関わる人物間の社会的関係X[主語・補語]の組合せ273通り)の各々に関し、一定の制約((1)発話文テキストには述語が1つだけ含まれ、その述語の主語と補語はそれぞれ1つまで、(2)発話に関わる人数は2〜4名、(3)主語及び補語の人物名を文中に明記するが、話者には「私」、聞き手には「あなた」等の代名詞も使用可)に従う文を自由記述させたもの54600文を用いている。以下、これらの文を「習熟度『中』の回答文」と呼ぶものとする。
【0067】
閾値については、上述した実施形態で利用した指標Tを用い、式2及び式3を用いて各敬語特徴量s,o,e,pに関する閾値に変換した。
【0068】
指標T=0,0.5,…9.5,10に関し、習熟度「低」の回答文、及び習熟度「中」の回答文を入力して、「運用上の誤用(すなわち、全ての有効な規範ルールに関して敬語特徴量が一致せず、誤用と判定されたことを示す判定結果)」と判定された文の数(前者は819文、後者は入力した54600文のうち語形上の誤用を含む文、及び主語・補語が同定できなかった文を除いた50603文、に対する%)をグラフとして図12に示す。図中、▲が習熟度「低」、●が習熟度「中」を表している。式2及び式3の定義により、T=0のときは、敬語特徴量s,o,eに関する閾値は何れも2.0、敬語特徴量pに関する閾値は1.6となり、有効なルールが1つの存在しないため、誤用と判定される文の数は0である。また、回答文の作り方による当然の結果であるが、T=10(全ての規範ルールが有効)のとき、習熟度「低」の回答文では全てのデータが誤用と判定された。また、習熟度「中」の回答文では、T=10のとき誤用と判定された文の数は30%程度であった。図12の結果を用いると、例えば敬語習熟度が低い学習者が妥当性の高い上位半分(図中50%)程度の規範ルールを学習させることを促すには、指標Tを「2」程度に設定し、敬語習熟度がある程度高い学習者がまだ学習していない規範ルールのうち妥当性の高い上位半分(図中15%)程度の規範ルールを学習させることを促すには、指標Tを「4」程度に設定すればよいことが分かる。
【0069】
以上のことから、上述した実施形態の敬語誤用判定プログラム1P及び敬語誤用判定装置1Cによれば、ユーザの敬語習熟度に応じて、習熟度が低ければ低めの指標を、習熟度がある程度高ければ中程度の指標をそれぞれ設定させることで、そのユーザの敬語使用のレベルに応じて一般的な日本人の敬語規範意識からみて妥当と考えられる判定結果を提示することができることが明らかとなった。
【0070】
以上のような上記実施形態によると、閾値(難易度、指標と言い換えることができる)の設定を変えることにより、敬語の判定の厳しさを変えることができる。例えば図13は、敬語の判定の辛さを複数レベル設定し、ゲーム感覚で敬語学習を楽しむことができるクイズのプログラムを実装した場合における難易度の入力画面P4の例である。この画面P4では、判定の厳しさを、唐辛子で表したレベルマークLMの本数で表したものであり、判定の厳しさが甘い順から唐辛子が1本(P4−a)、2本(P4−b)、3本(P4−c)の3段階の各難易度設定ボタンが表示される。ユーザは、利用したいクイズの難易度や自身の敬語習熟度に応じて任意のボタンを選択することができる。何れかのボタンが選択されると、自動的に難易度すなわち判定の厳しさが設定されることになる。ボタンが選択された後に表示されるクイズの設問画面で共通の問題が提示されたとしても、選択されたボタンに応じた難易度に対応して判定の厳しさが変化するため、クイズの解答(出力)は、ユーザが選択したボタン毎に変化することとなる。
【産業上の利用可能性】
【0071】
本発明は、日本語の敬語教育用、敬語学習用のソフトウェアやハードウェア、日本語変換プログラムの入力チェックプログラム等として利用することができる。
【符号の説明】
【0072】
1C…敬語誤用判定装置
1P…敬語誤用判定プログラム
2…入力受付部
3…形態素解析部
4…敬語タイプ抽出部
5…構文解析部
6…敬語特徴量同定部
7…規範ルール抽出部
8…ルール毎正誤判定部
9…正誤総合判定部
10…出力部
DB1…敬語タイプ辞書
DB2…規範ルールデータベース
DB3…妥当性データベース

【特許請求の範囲】
【請求項1】
コンピュータを作動させて、入力された日本語の発話文中における敬語の用法を判定するプログラムであって、
日本語の発話文テキストと、当該発話文の話者及び聞き手を含む発話文に関わる2名乃至4名の人物の社会的関係を表す人間関係ラベルと、当該プログラムにおける敬語用法判定の難易度の入力を受け付ける入力受付工程と、
前記入力受付工程で受け付けた発話文テキストを形態素解析処理する形態素解析工程と、
形態素の並びに応じて敬語の種類を分類した敬語タイプ辞書を参照して前記形態素解析工程で得られた前記発話文テキストの形態素の並びに該当する敬語の種類である敬語タイプを抽出する敬語タイプ抽出工程と、
前記入力受付工程で受け付けた発話文テキストを構文解析処理し、当該発話文テキスト中の主語と補語とを同定する構文解析工程と、
前記敬語タイプ抽出工程により抽出した敬語タイプと、前記構文解析工程による発話文テキストの構文解析結果とに基づいて、前記主語に対する敬称の有無、前記補語に対する敬称の有無、前記発話文テキストの文末における丁寧語の有無、前記発話文テキスト中の述語が敬語的な分類における何れの分類カテゴリに該当するかを示す述語特徴について、それぞれ数値化した値である敬語特徴量を同定する敬語特徴量同定工程と、
複数の人物間の人間関係のパターン毎に設定された規範ルールとして、各人物に対する主語及び補語の指定と、前記敬語特徴量の取り得る値を規定した規範ルールデータベースを参照し、前記構文解析工程で同定した主語及び補語に該当し、且つ前記入力受付工程で受け付けた人間関係ラベルに該当する規範ルールを抽出する規範ルール抽出工程と、
前記規範ルールデータベースに設定された規範ルールについて当該規範ルールの適用の妥当性の程度の値を規定した妥当性データベースを参照し、前記規範ルール抽出工程で抽出した規範ルールに対応する妥当性の程度の値を妥当性データベースから抽出し、当該抽出した妥当性の程度の値と前記入力受付工程で受け付けた前記難易度とを比較して、前記妥当性の程度の値が当該難易度よりも大きい規範ルールを有効な規範ルールとし、前記有効な規範ルールの各々について、前記敬語特徴量同定工程で同定した敬語特徴量が前記各有効な規範ルールにおける敬語特徴量のいずれにも一致しない場合にはその規範ルールについて誤用と判定し、誤用と判定しなかった場合はその規範ルールについて正用と判定するルール毎正誤判定工程と、
前記ルール毎正誤判定工程の結果、全ての有効な規範ルールについて誤用と判定された場合には正誤の総合判断として誤用と判定し、誤用と判定しなかった場合は正用と判定する正誤総合判定工程と、
前記正誤総合判定工程における判定結果を出力する出力工程とを、
前記コンピュータに実行させることを特徴とする敬語誤用判定プログラム。
【請求項2】
前記人間関係ラベルは、発話文の話者、聞き手、及び発話文中で参照される人物の社会的上下関係と、共通の社会的グループに属するか否かという関係の何れか一方の関係、又は両方の関係を表す情報である請求項1に記載の敬語誤用判定プログラム。
【請求項3】
前記難易度は、前記主語に対する敬称の有無、前記補語に対する敬称の有無、前記発話文テキストの文末における丁寧語の有無、前記発話文テキスト中の述語が尊敬語、又は謙譲語I、又は謙譲語II、又は二方面敬語、又は敬語なし、のうち5つの分類カテゴリの何れかを示す述語特徴について、それぞれ数値化した値である敬語特徴量に対して、それぞれ個別に設定可能、又は複数種類の敬語特徴量を統合して設定可能としている請求項1又は2の何れかに記載の敬語誤用判定プログラム。
【請求項4】
前記ルール毎正誤判定工程において、前記難易度と比較される前記妥当性の程度の値は、前記妥当性データベースから抽出した各規範ルールについて最小となる妥当性の程度の値、最大となる妥当性の程度の値、又は複数の妥当性の程度の値の平均値から選択される何れか1つである請求項1乃至3の何れかに記載の敬語誤用判定プログラム。
【請求項5】
前記ルール毎正誤判定工程において、前記有効な規範ルールとすべき規範ルールが存在しない場合は正用と判定するものである請求項1乃至4の何れかに記載の敬語誤用判定プログラム。
【請求項6】
前記ルール毎正誤判定工程における誤用の判定結果には、前記発話文テキスト中に敬語の誤用があることを示す情報、当該発話文テキスト中の敬語の誤用箇所を示す情報、及び当該発話文テキスト中の敬語の誤用の理由を示す情報のうち、少なくとも1種以上の情報が含まれる請求項1乃至5の何れかに記載の敬語誤用判定プログラム。
【請求項7】
前記妥当性データベースに規定される妥当性の程度の値は、前記各敬語特徴量の取り得る値について一対にして設けた設問に対する複数の被験者の回答を入力として、シェッフェの一対比較法に基づいて算出した各敬語特徴量についての値である請求項1乃至6の何れかに記載の敬語誤用判定プログラム。
【請求項8】
請求項1乃至7の何れかに記載の敬語誤用判定プログラムに従って作動し、入力された日本語の発話文中における敬語の用法を判定するコンピュータ装置であって、
日本語の発話文テキストと、当該発話文の話者及び聞き手を含む発話文に関わる2名乃至4名の人物の社会的関係を表す人間関係ラベルと、当該プログラムにおける敬語用法判定の難易度の入力を受け付ける入力受付部と、
前記入力受付部で受け付けた発話文テキストを形態素解析処理する形態素解析部と、
形態素の並びに応じて敬語の種類を分類した敬語タイプ辞書を参照して前記形態素解析部で得られた前記発話文テキストの形態素の並びに該当する敬語の種類である敬語タイプを抽出する敬語タイプ抽出部と、
前記入力受付部で受け付けた発話文テキストを構文解析処理し、当該発話文テキスト中の主語と補語とを同定する構文解析部と、
前記敬語タイプ抽出部により抽出した敬語タイプと、前記構文解析部による発話文テキストの構文解析結果とに基づいて、前記主語に対する敬称の有無、前記補語に対する敬称の有無、前記発話文テキストの文末における丁寧語の有無、前記発話文テキスト中の述語が敬語的な分類における何れの分類カテゴリに該当するかを示す述語特徴について、それぞれ数値化した値である敬語特徴量を同定する敬語特徴量同定部と、
複数の人物間の人間関係のパターン毎に設定された規範ルールとして、各人物に対する主語及び補語の指定と、前記敬語特徴量の取り得る値を規定した規範ルールデータベースを参照し、前記構文解析部で同定した主語及び補語に該当し、且つ前記入力受付部で受け付けた人間関係ラベルに該当する規範ルールを抽出する規範ルール抽出部と、
前記規範ルールデータベースに設定された規範ルールについて当該規範ルールの適用の妥当性の程度の値を規定した妥当性データベースを参照し、前記規範ルール抽出部で抽出した規範ルールに対応する妥当性の程度の値を妥当性データベースから抽出し、当該抽出した妥当性の程度の値と前記入力受付工程で受け付けた前記難易度とを比較して、前記妥当性の程度の値が当該難易度よりも大きい規範ルールを有効な規範ルールとし、前記有効な規範ルールの各々について、前記敬語特徴量同定工程で同定した敬語特徴量が前記各有効な規範ルールにおける敬語特徴量のいずれにも一致しない場合にはその規範ルールについて誤用と判定し、誤用と判定しなかった場合はその規範ルールについて正用と判定するルール毎正誤判定部と、
前記ルール毎正誤判定工程の結果、全ての有効な規範ルールについて誤用と判定された場合には正誤の総合判断として誤用と判定し、誤用と判定しなかった場合は正用と判定する正誤総合判定部と、
前記正誤総合判定部における判定結果を出力する出力部とを、
具備してなることを特徴とする敬語誤用判定装置。




【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2012−178043(P2012−178043A)
【公開日】平成24年9月13日(2012.9.13)
【国際特許分類】
【出願番号】特願2011−40646(P2011−40646)
【出願日】平成23年2月25日(2011.2.25)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【出願人】(504150461)国立大学法人鳥取大学 (271)
【Fターム(参考)】