説明

形態素の構成文字種を利用して文書の対象者を判定する情報処理装置及びプログラム

【課題】日本語で記述された文書を、その記述形態に依存することなく、文書の対象者(例えば子供向けか大人向けか)を判定できるようにする。
【解決手段】日本語で記述された文書を形態素で分割する。次に、各形態素を平仮名のみで構成される形態素と平仮名以外を含む形態素に分類し、各分類の出現頻度を集計する。その後、平仮名のみで構成される形態素の出現割合に基づいて、前記文書の対象者を判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、日本語で記述された文書を分類する機能に関し、例えば形態素の構成文字種を利用して文書の対象者を判定する機能を有する情報処理装置及びプログラムに関する。
【背景技術】
【0002】
インターネットの普及に伴い、従来に比して膨大な量の文書を容易に入手可能な環境が整ってきている。今日、インターネットは、研究現場や企業活動に限らず、学校や家庭でも活用されている。例えば学習活動の一環として、子供によるインターネットの利用も進められている。
【0003】
しかし、子供によるインターネットの利用機会の増加に伴い、インターネット上に存在する有害文書が子供の目に触れる可能性も増加している。この対応策として、有害文書を検出してその閲覧を制限するフィルタリング技術の実用化が進められている。フィルタリング技術は、文書中のキーワードや事前に登録しておいた有害文書の一覧情報に基づいて、対象文書が子供に有害な文書であるか否かを判定する。
【0004】
ところで、学校や図書館等の教育機関の管理下にある文書は、一般に、子供に有害な情報自体は少ない。その一方で、教育機関の管理下にある文書は、大人向けの文書と子供向けの文書が混在している。出版社を通して出版された文書であれば、子供向けの文書には、その旨の表記が行われている文書もあり、大人向け文書と子供向け文書の分類は容易である。
【0005】
しかし、出版社を通さない文書、例えば教職員が授業の教材用に作成した文書には、子供向けである旨の記載がされている保証はない。しかも、近年導入が進められている情報システムでは、文書の共有化が進む結果、文書の作成者と活用者が異なる状況が生じている。このような状況下では、文書の活用者は、文書の作成者への内容の確認や閲覧等を通じ、対象文書が子供向けであることを事前に判定する必要がある。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2010−56913号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
特許文献1には、複数のモードを使い分けることにより、有害情報を含む文書を排除する技術が記載されている。しかし、有害情報を含んでいないと判断された文書は、必ずしも子供向けの文書とは限らない。例えば有害な情報が含まれていない文書でも、大人向けの文書であることがある。大人向けの文書では漢字が多く用いられており、漢字の習得が不十分な子供にはその読解が困難である。
【0008】
このように、膨大な文書の中から有害でない文書だけを抽出できたとしても、抽出された文書中に大人向け文書と子供向け文書が混在する状況に変わりは無い。また、インターネット上から有害でない文書を抽出する場合、その抽出結果には、膨大な量の大人向けの文書も含まれる。このため、子供自身が、自分の読解力に応じた文書をインターネット上で探すことは一般に困難である。
【0009】
一方、教育機関の管理下にある文書量は、インターネットの文書量に比べると限定的である。しかし、教育機関における大人向け文書には、例えば試験結果や教員向けの補助資料のような、有害な文書ではないが子供に見せるべきではない文書も存在する。
【0010】
このような状況から、文書の内容を事前に閲覧することなく、対象文書が子供向けの文書であるか否かを判定可能とする試みがある。例えば文書中に含まれる漢字の量を判定基準とする方法である。
【0011】
日本語の文書は、漢字、平仮名、カタカナ、数字、アルファベット、記号等の複数の文字種を用いて記述される。しかし、漢字の習得が未熟な子供に読ませる文書は、多くの場合、本来漢字で表記すべき記述を平仮名で記述する。そのため、大よそには、漢字の使用量が多い文書を大人向け文書、平仮名の使用量が多い文書を子供用文書と判定することができる。
【0012】
しかし、漢字の使用量(又は割合)は、文書の形態に応じて変化する傾向がある。一般に、話し言葉が多用される物語調の文書では平仮名が多くなり、相対的に漢字の使用量が少なくなる傾向にある。このような場合、対象の文書が大人向けであるか子供向けであるかの判定が困難になる。
【0013】
例えば「平仮名が多くなり、相対的に漢字の使用量が少なくなる傾向にある」という文は、話し言葉では「平仮名が多くなったり、相対的に漢字の使用量が少なくなったりする傾向があります」となり、話し言葉での平仮名の使用量が多くなる。また、語尾を「ある」と表すか「あります」と表すかは話し手に依存するものであり、漢字や平仮名の使用量に影響する。
【0014】
逆に論文調の文書では、話し言葉が少ないため、平仮名の使用が少なくなり、相対的に漢字の使用量が多くなる。その他、文書の形態には、体言止めが多用される文書、他の文書からの引用がある文書、アンケートの集計結果のように書き手が複数いる文書等があり、このような場合にも、漢字の使用量による判定が困難になる。
【0015】
また、文書中で用いられている漢字の難易度を判断基準とする試みもある。文部科学省で発行されている学習指導要領では、子供が所属学年で学習する漢字が定義されている。すなわち、文書中の漢字と学習指導要領での習得漢字の定義を比較して、例えば小学校1年生から4年生までの習得漢字のみが文書中に出現して、小学校5年生以降の習得漢字が出現しない文書は、小学校4年生向けの文書であると判定できる。
【0016】
しかし、文書中で使用される漢字は、必ずしも学習指導要領の定義に沿っているとは限らない。子供向けに漢字の使用数を減らした文書であっても、未修得の漢字が用いられている文書も存在する。そのため、学習指導要領で定義された学習漢字を手がかりにする方法では不完全である。
【0017】
そこで、本発明は、日本語で記述された文書に対して、文書の形態に依存することなく、文書の対象者を判定可能なデータ処理技術を提供する。
【課題を解決するための手段】
【0018】
本発明に係る情報処理装置又はプログラムは、幾つかの発明を含んでいる。
例えば1つの発明は、日本語で記述された文書を形態素で分割する形態素解析部と、各形態素を平仮名のみで構成される形態素と平仮名以外を含む形態素に分類し、各分類の出現頻度を集計する形態素集計部と、平仮名のみで構成される形態素の出現割合に基づいて、前記文書の対象者を判定する文書判定部とを有している。
【0019】
ここで形態素とは、文章において意味を持つ最小単位の文字列である。本発明では、形態素を処理の最小単位とすることにより、物の名称や言い回しの文字数に影響を受けず、意味を持つ最小単位の文字列が、子供向けに平仮名で記述されていることを判定材料としている。
【0020】
他の発明の1つは、日本語で記述された文書を形態素で分割する形態素解析部と、各形態素を平仮名のみで構成される形態素と平仮名以外を含む形態素に分類し、各分類に属する形態素の種類の数を集計する形態素集計部と、平仮名のみで構成される形態素の種類についての出現割合に基づいて、前記文書の対象者を判定する文書判定部とを有している。
【0021】
また、他の発明の1つは、日本語で記述された文書を形態素で分割する形態素解析部と、各形態素を漢字のみで構成される形態素と漢字以外を含む形態素に分類し、各分類の出現頻度を集計する形態素集計部と、漢字のみで構成される形態素の出現割合に基づいて、前記文書の対象者を判定する文書判定部とを有している。
【0022】
また、他の発明の1つは、日本語で記述された文書を形態素で分割する形態素解析部と、各形態素を漢字のみで構成される形態素と漢字以外を含む形態素に分類し、各分類に属する形態素の種類の数を集計する形態素集計部と、漢字のみで構成される形態素の種類についての出現割合に基づいて、前記文書の対象者を判定する文書判定部とを有している。
【発明の効果】
【0023】
本発明によれば、文字ではなく形態素に着目して文字種を判定する。このため、文書の形態に関わらず、文書の対象者(例えば子供向け文書か否か又は大人向け文書か否か)を判定することができる。また、本発明は、子供にとって有害な文書と推測される語彙をまとめたブラックリスト、子供向け文書であると推測される語彙をまとめたホワイトリストを用意する必要がない。このため、システムの小型化や簡易化を実現することができる。上述した以外の課題、構成及び効果は、以下の実施の形態の説明により明らかにされる。
【図面の簡単な説明】
【0024】
【図1】実施例に係る情報処理装置のハードウェア構成を説明する図。
【図2】実施例に係る情報処理装置の機能ブロック構成を説明する図。
【図3】実施例に係る情報処理装置を構成する処理機能間の関係を示す概略図。
【図4】形態素解析処理の流れを説明する図(実施例1)。
【図5】日本語文書の入力例と、その形態素解析結果を説明する図(実施例1)。
【図6】文字と文字コードの定義を説明する図(実施例1)。
【図7】文字種判定処理の流れを説明する図(実施例1)。
【図8】形態素集計処理の流れを説明する図(実施例1)。
【図9】子供向け文書判定処理の流れを説明する図(実施例1)。
【図10】子供向け文書判定処理の流れを説明する図(実施例2)。
【図11】文字種判定処理の流れを説明する図(実施例3)。
【図12】形態素集計処理の流れを説明する図(実施例3)。
【図13】子供向け文書判定処理の流れを説明する図(実施例3)。
【図14】子供向け文書判定処理の流れを説明する図(実施例4)。
【図15】各実施例と判定文字種の組み合わせの対応関係を説明する図。
【発明を実施するための形態】
【0025】
以下、本発明の実施の形態を、図面に基づいて詳細に説明する。図1〜図14はそれぞれ本発明の実施の形態を示し、各図において、同一の符号を付した部分は同一の処理機能を表わし、基本的な構成及び動作も同様である。また、図15は、各実施例と判定文字種の組み合わせの対応関係を表している。
【0026】
[実施例1]
図1に、実施例に係る情報処理装置のハードウェア構成を示す。実施例に係る情報処理装置は、コンピュータを基本構成とする。すなわち、演算装置としてのCPU(11)と、入力装置(12)と、メモリ(13)と、出力装置(14)とで構成される。CPU(11)は、演算器や内部メモリで構成される。入力装置(12)は、マウス、キーボード、テンキー、スタイラスペン、入出力ポート、通信インターフェース、スキャナ等で構成される。もっとも、入力装置(12)の構成は、使用される装置構成により異なる。メモリ(13)は、外部記憶装置としてのハードディスク装置等で構成される。出力装置(14)は、ディスプレイ装置や印刷装置で構成される。
【0027】
図2に、実施例に係る情報処理装置の機能ブロック構成を示す。なお、図2においては、実施例に係る情報処理装置が、子供向け文書判定装置(50)であるものとして表している。図2は、図1に示すハードウェア上に実現される機能ブロック構成の観点から描いている。子供向け文書判定装置(50)は、入力装置(51)、データ処理部(52)、外部記憶装置(53)、出力装置(54)で構成される。
【0028】
ここで、入力装置(51)は、図1に示す入力装置(12)に対応する。入力装置(51)は、ソフトウェア処理上、日本語文書(201)の入力に使用される文書入力部(101)として機能する。データ処理部(52)は、図1に示すCPU(11)に対応する。データ処理部(52)は、ソフトウェア処理上の形態素解析部(102)、文字種判定部(103)、形態素集計部(104)、子供向け文書判定部(105)、形態素格納部(107)で構成される。外部記憶装置(53)は、図1に示すメモリ(13)に対応する。外部記憶装置(53)には、ソフトウェア処理で使用される形態素辞書(204)、文字コード定義(202)、判定閾値(203)が格納される。出力装置(54)は、図1に示す出力装置(14)に対応する。出力装置(54)は、ソフトウェア処理上、判定結果出力部(106)として機能する。
【0029】
図3に、実施例に係る情報処理装置を構成する処理機能間の関係を示す。なお、情報処理装置の各機能は、コンピュータ上で実行されるプログラムの処理を通じて実現される。当該情報処理装置は、ユーザが操作する情報処理装置に実装されていても良いし、ユーザが操作する情報処理装置とインターネットその他のネットワーク経由で接続されるサーバ装置に実装されていてもよい。
【0030】
文書入力部(101)は、紙文書又は電子データである日本語文書(201)を読み取り、日本語文書(201)を電子化された日本語文書(205)に変換して、形態素解析部(102)に渡すまでの処理を実行する。日本語文書(201)は、漢字、平仮名、片仮名、アルファベット、数字、記号の文字種で記述されている。
【0031】
形態素解析部(102)は、電子化された日本語文書(205)を形態素毎に分割し、形態素格納部(107)に格納する。このとき、形態素格納部(107)には、形態素(206)と、形態素(206)に対応する品詞(207)が格納される。
【0032】
図4に、形態素解析部(102)で実行される形態素解析処理の流れを示す。形態素解析部(102)は、電子化された日本語文書(205)を句読点及び文字種の変わり目で区切り、区切られた文字列を形態素として切り出す(ステップS1001)。次に、形態素解析部(102)は、切り出した各形態素を対象に以下のループ処理を行う(ステップS1002)。
【0033】
まず、形態素解析部(102)は、形態素辞書(204)を不図示の記憶領域から読み込み(ステップS1003)、切り出された形態素が形態素辞書中に定義されているか否かを判定する(ステップS1004)。具体的には、切り出された形態素に一致する形態素が形態素辞書(204)に存在するか否かが判定される。
【0034】
文書から切り出した形態素に一致する形態素が形態素辞書中に定義されている場合、形態素解析部(102)は、形態素辞書(204)から形態素の品詞を取得する(ステップS1005)。文書から切り出した形態素に一致する形態素が形態素辞書中に定義されていない場合、形態素解析部(102)は、品詞不明の未知語であると判定する(ステップS1006)。これらの判定後、形態素解析部(102)は、切り出した形態素と品詞を形態素格納部(107)に格納する(ステップS1007)。形態素解析部(102)は、以上の処理を未処理の形態素が無くなるまで繰り返し実行し、未処理の形態素が無くなった時点で一連の処理を終了する。
【0035】
図5に、形態素解析部102による処理結果の一例を示す。ここでは、日本語文書(205)が、「これらは形たい素をこうせいする文字種です。」なる文であるものとする。この文は、平仮名を多用した子供向けの文書である。図4に示す処理の実行により、与えられた日本語文書(205)は4つの形態素(206)に切り離され、各形態素(206)には対応する品詞(207)が判定結果として付される。
【0036】
図3の説明に戻る。形態素解析部(102)による解析処理が終了すると、文字種判定部(103)は、形態素格納部(107)に格納されている形態素(206)がどのような文字種で構成されているかを判定する。
【0037】
ここで、文字種判定部(103)は、文字コード定義(202)に定義された文字と文字コードの対応関係とに基づいて、切り出し後の各形態素(206)を構成する各文字の文字種を判定する。
【0038】
図6に、文字コード定義(202)の一部を示す。電子化された日本語文書(205)の文字コードがシフトJISである場合、文字種判定部(103)は、形態素(206)を構成する文字の文字コードが“0x829f”〜“0x82f1”の範囲内にあるとき、該当文字の文字種が平仮名であると判定する。また、文字コードが“0x889f”〜“0xeeec”の範囲内にある場合、文字種判定部(103)は、該当文字の文字種は漢字であると判定する。例えば文字「あ」の文字コードは、シフトJISにおいて“0x82a0”である。“0x82a0”は、シフトJISの定義において、平仮名文字の範囲である“0x829f”〜“0x82f1”に属している。従って、文字「あ」の文字種は「平仮名」として判定される。また、文字「特」の文字コードは、シフトJISにおいて“0x93c1”である。“0x93c1”は、“0x889f”〜“0xeeec”の範囲内の値である。従って、文字「特」は、漢字であると判定される。該当文字の文字コードが“0x829f”〜“0x82f1”の範囲にも“0x889f”〜“0xeeec”の範囲のいずれにも属さない場合、該当文字は、「平仮名」でも「漢字」でもない文字種として判定される。
【0039】
さらに、文字種判定部(103)は、形態素格納部(107)に格納されている形態素(206)のうち品詞(207)が名詞、形容詞、形容動詞、サ変名詞である形態素について、切り出された形態素を構成する文字種を判定する。この実施例の場合、文字種判定部(103)は、形態素(206)を構成する文字が全て平仮名である(すなわち「平仮名のみ」)か、形態素(206)を構成する文字に漢字が1文字でも含まれる(すなわち「漢字を含む」)かを判定する。前述した図5の右端には、文字種判定部(103)による文字種の判定結果が表されている。この判定結果も形態素格納部(107)に格納される。
【0040】
図7に、文字種判定部(103)で実行される文字種判定処理の流れを示す。まず、文字種判定部(103)は、形態素解析部(102)で取得した形態素(206)を全て読み込み、各形態素(206)を1文字毎に分割する(ステップS1101)。次に、文字種判定部(103)は、各形態素(206)を構成する全ての文字について以下のループ処理を行う(ステップS1102)。
【0041】
まず、文字種判定部(103)は、各文字の文字コードを判定する(ステップS1103)。次に、文字種判定部(103)は、該当文字の文字コードが平仮名の範囲から外れているか否かを判定する(ステップS1104)。ステップS1104の判定において肯定結果が得られると、文字種判定部(103)は、形態素に平仮名以外の文字が含まれていると判定する(ステップS1105)。これに対し、ステップS1104の判定において否定結果が得られた場合、文字種判定部(103)は、判定対象とする形態素(206)の全ての文字について判定が終了するまでステップS1102に戻り、全ての文字について判定が終了しても否定結果が得られた場合には、該当する形態素(206)は平仮名のみで構成されていると判定する(ステップS1106)。以上の動作が、品詞(207)が名詞、形容詞、形容動詞、サ変名詞であると判定された全ての形態素について繰り返し実行される。この判定結果は、文字種判定部(103)から形態素集計部(104)に与えられる。なお、判定結果の出力は、個々の形態素についての判定が得られる度に行ってもよく、全ての形態素について判定結果が得られた時点で一括して行ってもよい。
【0042】
また、本実施例では、文字種判定部(103)は、処理対象とする形態素(206)の品詞(207)が名詞、形容詞、形容動詞、サ変名詞の場合について説明したが、処理対象とする品詞(207)に、副詞、感嘆詞、助詞、助動詞を含めてもよい。
【0043】
図3の説明に戻る。文字種判定部(103)による判定が終了すると、形態素集計部(104)は、形態素(206)を構成する文字種が全て平仮名であるものと、形態素(206)を構成する文字種に平仮名以外が含まれるものとに分類し、両者の出現頻度を集計する。
【0044】
図8に、形態素集計部(104)で実行される形態素集計の流れを示す。まず、形態素集計部(104)は、文字種判定部(103)から与えられた形態素が「平仮名のみ」で構成されているか否か判定する(ステップS1201)。ステップS1201において肯定結果が得られた場合、形態素集計部(104)は、「平仮名のみ」で構成されている形態素の出現頻度(カウント値)を1増加させる(ステップS1202)。一方、ステップS1201において否定結果が得られた場合、形態素集計部(104)は、平仮名以外の文字種を含む形態素の出現頻度(カウント値)を1増加させる(ステップS1203)。
【0045】
図3の説明に戻る。子供向け文書判定部(105)は、形態素集計部(104)から集計処理の終了の通知を受けると、構成文字種が平仮名のみである形態素の出現頻度(カウント値)と、構成文字種に平仮名以外の文字種を含む形態素の出現頻度(カウント値)との割合を算出する。本実施例の場合、構成文字種が平仮名のみである形態素の出現頻度(カウント値)を分子、構成文字種に平仮名以外の文字種を含む形態素の出現頻度(カウント値)を分母とする除算演算を実行する。なお、割合を求める式は、当業者に明らかなように、例示した式に限らない。例えば分母は平仮名のみである形態素の出現頻度(カウント値)と構成文字種に平仮名以外の文字種を含む形態素の出現頻度(カウント値)の合計値でもよい。
【0046】
次に、子供向け文書判定部(105)は、算出された割合が判定閾値(203)を超えるか否か判定する。判定閾値(203)は、割合を求める式と判定結果に対する経験に基づいて与えられる。判定閾値(203)の初期値は事前に与えられる。もっとも、判定閾値(203)は利用者が修正できることが好ましく、利用者による判定結果に対する評価結果の自動学習により修正される仕組みを採用してもよい。この実施例の場合、算出された割合が判定閾値(203)を越える場合、日本語文書(201)は子供向け文書であると判定される。
【0047】
図9に、子供向け文書判定部(105)で実行される判定処理の流れを示す。まず、子供向け文書判定部(105)は、平仮名のみで構成されている形態素の出現頻度(カウント値)と、平仮名以外の文字種を含む形態素の出現頻度(カウント値)の割合を算出する(ステップS1301)。次に、子供向け文書判定部(105)は、算出した割合が判定閾値(203)を超えるか否かを判定する(ステップS1302)。
【0048】
ステップS1302で肯定結果が得られた場合、子供向け文書判定部(105)は、処理対象とする日本語文書(201)は子供向けであると判定する(ステップS1303)。一方、ステップS1302で否定結果が得られた割合、子供向け文書判定部(105)は、処理対象とする日本語文書(201)は大人向けであると判定する(ステップS1304)。
【0049】
図3の説明に戻る。子供向け文書判定部(105)の判定結果は、判定結果出力部(106)に与えられる。判定結果出力部(106)は、子供向け文書判定部(105)の判定結果をディスプレイ装置や印刷装置を通じて出力する。なお、出力先はネットワーク上の他の情報処理装置でもよい。
【0050】
以上説明したように、本実施例に係る情報処理装置は、文字単位ではなく形態素を単位に文字種を判定するため、文書の形態に関わらず、子供向け文書か否かを判定することができる。また、本実施例の場合、子供にとって有害な文書と推測される語彙をまとめたブラックリスト、子供向け文書であると推測される語彙をまとめたホワイトリストを用意する必要がない。このため、情報処理装置の小型化や簡易化を実現することができる。
【0051】
なお、本実施例では、全ての処理機能が1台の情報処理装置に格納されているものとして説明したが、処理機能はネットワーク等を通じて接続された複数の情報処理装置に分散的に配置されてもよい。また、本実施例においては、子供向け文書か否かを判定する装置として説明したが、見方を変えると、大人向け文書か否かを判定する装置としてみることもできる。
【0052】
[実施例2]
続いて、実施例1の変形例の一つを説明する。なお、実施例2に係る情報処理装置のハードウェア構成やソフトウェア構成は、基本的に、前述した実施例1と同様である。実施例1との違いは、形態素集計部(104)と子供向け文書判定部(105)で実行される処理動作の内容である。
【0053】
本実施例における形態素集計部(104)は、平仮名のみで構成されている形態素の種類の数(出現種類)と、平仮名以外の文字種を含む形態素の種類の数(出現種類)とを集計し、集計結果を子供向け文書判定部(105)に与える。
【0054】
ここで、「出現種類」は、出現頻度とは異なる概念であり、同じ形態素であればその出現回数に関わらず“1”とカウントされる。例えば「形たい素」なる形態素(206)が日本語文書(205)に3つ含まれる場合、実施例1ではその回数“3”がカウントされるが、本実施例2の場合には種類はあくまでも“1”とカウントされる。
【0055】
図10に、本実施例に係る子供向け文書判定部(105)で実行される判定処理の流れを示す。まず、子供向け文書判定部(105)は、平仮名のみで構成されている形態素の出現種類の数(カウント値)と、平仮名以外の文字種を含む形態素の出現種類の数(カウント値)の割合を算出する(ステップS1401)。
【0056】
本実施例の場合、構成文字種が平仮名のみである形態素の出現種類の数(カウント値)を分子、構成文字種に平仮名以外の文字種を含む形態素の出現種類の数(カウント値)を分母とする除算演算を実行する。なお、割合を求める式は、当業者に明らかなように、例示した式に限らない。例えば分母は平仮名のみである形態素の出現種類の数(カウント値)と構成文字種に平仮名以外の文字種を含む形態素の出現種類の数(カウント値)の合計値でもよい。
【0057】
次に、子供向け文書判定部(105)は、算出した割合が判定閾値(203)を超えるか否かを判定する(ステップS1402)。ここでの判定閾値(203)は、当該判定用に用意された値である。もっとも、値そのものは実施例1の値と同じでも異なっていてもよい。
【0058】
ステップS1402で肯定結果が得られた場合、子供向け文書判定部(105)は、処理対象とする日本語文書(201)は子供向けであると判定する(ステップS1403)。一方、ステップS1402で否定結果が得られた割合、子供向け文書判定部(105)は、処理対象とする日本語文書(201)は大人向けであると判定する(ステップS1404)。
【0059】
以上説明したように、日本語文書を構成する形態素の種類の割合の観点から子供向けの文書とそれ以外とを判定しても、実施例1と同様の判定結果を実現することができる。
【0060】
[実施例3]
続いて、実施例1の変形例の別例を説明する。なお、実施例3に係る情報処理装置のハードウェア構成やソフトウェア構成は、基本的に、前述した実施例1と同様である。実施例1との違いは、文字種判定部(103)と形態素集計部(104)と子供向け文書判定部(105)で実行される処理動作の内容である。
【0061】
本実施例における文字種判定部(103)は、該当文字の文字コードが漢字の範囲から外れているか否かを判定し、本実施例における形態素集計部(104)は、形態素(206)を構成する文字種が全て漢字であるものと、形態素(206)を構成する文字種に漢字以外が含まれるものとに分類して両者の出現頻度を集計し、本実施例における子供向け文書判定部(105)は、各出現頻度に応じて子供向け文書と大人向け文書を判定する点で異なっている。
【0062】
図11に、本実施例に係る文字種判定部(103)で実行される判定処理の流れを示す。まず、文字種判定部(103)は、形態素解析部(102)で取得した形態素(206)を全て読み込み、各形態素(206)を1文字毎に分割する(ステップS1501)。次に、文字種判定部(103)は、各形態素(206)を構成する全ての文字について以下のループ処理を行う(ステップS1502)。
【0063】
まず、文字種判定部(103)は、各文字の文字コードを判定する(ステップS1503)。次に、文字種判定部(103)は、該当文字の文字コードが漢字の範囲から外れているか否かを判定する(ステップS1504)。ステップS1504の判定において肯定結果が得られると、文字種判定部(103)は、形態素に漢字以外の文字が含まれていると判定する(ステップS1505)。これに対し、ステップS1504の判定において否定結果が得られた場合、文字種判定部(103)は、判定対象とする形態素(206)の全ての文字について判定が終了するまでステップS1502に戻り、全ての文字について判定が終了しても否定結果が得られた場合には、該当する形態素(206)は漢字のみで構成されていると判定する(ステップS1506)。以上の動作が、品詞(207)が名詞、形容詞、形容動詞、サ変名詞であると判定された全ての形態素について繰り返し実行される。この判定結果は、文字種判定部(103)から形態素集計部(104)に与えられる。なお、判定結果の出力は、個々の形態素についての判定が得られる度に行ってもよく、全ての形態素について判定結果が得られた時点で一括して行ってもよい。
【0064】
また、本実施例では、文字種判定部(103)は、処理対象とする形態素(206)の品詞(207)が名詞、形容詞、形容動詞、サ変名詞の場合について説明したが、処理対象とする品詞(207)に、副詞、感嘆詞、助詞、助動詞を含めてもよい。
【0065】
次に、形態素集計部(104)は、この文字種判定部(103)の判定結果に基づいて、以下に示す集計処理を実行する。
【0066】
図12に、本実施例に係る形態素集計部(104)で実行される形態素集計の流れを示す。まず、形態素集計部(104)は、文字種判定部(103)から与えられた形態素が「漢字のみ」で構成されているか否か判定する(ステップS1601)。ステップS1601において肯定結果が得られた場合、形態素集計部(104)は、「漢字のみ」で構成されている形態素の出現頻度(カウント値)を1増加させる(ステップS1602)。一方、ステップS1601において否定結果が得られた場合、形態素集計部(104)は、漢字以外の文字種を含む形態素の出現頻度(カウント値)を1増加させる(ステップS1603)。
【0067】
図13に、子供向け文書判定部(105)で実行される判定処理の流れを示す。まず、子供向け文書判定部(105)は、漢字のみで構成されている形態素の出現頻度(カウント値)と、漢字以外の文字種を含む形態素の出現頻度(カウント値)の割合を算出する(ステップS1701)。次に、子供向け文書判定部(105)は、算出した割合が判定閾値(203)を超えるか否かを判定する(ステップS1702)。
【0068】
ステップS1702で肯定結果が得られた場合、子供向け文書判定部(105)は、処理対象とする日本語文書(201)は子供向けであると判定する(ステップS1703)。一方、ステップS1302で否定結果が得られた割合、子供向け文書判定部(105)は、処理対象とする日本語文書(201)は大人向けであると判定する(ステップS1704)。
【0069】
以上の手法により、日本語文書が子供向けか大人向けかを判定しても、実施例1と同様の判定結果を実現することができる。
【0070】
[実施例4]
ここでは、実施例2と3の組み合わせに相当する実施例4に係る情報処理装置について説明する。従って、実施例4に係る情報処理装置のハードウェア構成やソフトウェア構成は、基本的に、前述した実施例1と同様である。
【0071】
本実施例では、実施例3と同様の文字種判定部(103)を使用する。すなわち、文字種判定部(103)として、図11に示すように、形態素(206)を構成する文字種が全て漢字であるか、それ以外の文字を含むか判定する機能を有するものを採用する。
【0072】
また、本実施例では、実施例2と同様の形態素集計部(104)を使用する。すなわち、形態素集計部(104)として、形態素(206)を構成する文字種が全て漢字である形態素の種類の数(カウント値)と、それ以外の文字種が含まれる形態素の種類の数(カウンと値)を集計するものを採用する。
【0073】
また、本実施例では、実施例2と同様の子供向け文書判定部(105)を使用する。すなわち、形態素の種類の数(カウント値)の割合に応じて日本語文書(201)が子供向けか大人向けかを判定するものを使用する。図14に、子供向け文書判定部(105)で実行される判定処理の流れを示す。まず、子供向け文書判定部(105)は、漢字のみで構成されている形態素の出現種類の数(カウント値)と、漢字以外の文字種を含む形態素の出現種類の数(カウント値)の割合を算出する(ステップS1801)。次に、子供向け文書判定部(105)は、算出した割合が判定閾値(203)を超えるか否かを判定する(ステップS1802)。
【0074】
ステップS1802で肯定結果が得られた場合、子供向け文書判定部(105)は、処理対象とする日本語文書(201)は子供向けであると判定する(ステップS1803)。一方、ステップS1802で否定結果が得られた割合、子供向け文書判定部(105)は、処理対象とする日本語文書(201)は大人向けであると判定する(ステップS1804)。
【0075】
以上の手法により、日本語文書が子供向けか大人向けかを判定しても、実施例1と同様の判定結果を実現することができる。
【0076】
[実施例5]
前述の実施例1〜4では、情報処理装置が文書単位(ファイル単位)で文書を形態素に分割し、文書中に出現する平仮名のみで構成される形態素の出現頻度とそれ以外の形態素の出現頻度の割合(実施例1)、文書中に出現する平仮名のみで構成される形態素の出現種類の数とそれ以外の形態素の出現種類の数の割合(実施例2)、文書中に出現する漢字のみで構成される形態素の出現頻度とそれ以外の形態素の出現頻度の割合(実施例3)、文書中に出現する漢字のみで構成される形態素の出現種類の数とそれ以外の形態素の出現種類の数の割合(実施例4)に基づいて該当文書が子供向けか大人向けかを判定する場合について説明した。
【0077】
しかしながら、当該判定は、日本語文書(201)のページ単位で行ってもよい。当然ながら、この場合には、出現頻度や出現種類の数の集計や判定はページ単位で実行する。このようにページ単位で子供向けと大人向けを判定することにより、より細かい判定処理が可能となる。
【0078】
[実施例6]
最後に、実施例1〜4に係る情報処理装置と判定文字種との組み合わせ関係を図15に示す。前述の各実施例では、文字種を2者択一的に判定しているが、各形態素は、平仮名のみで構成されるもの、漢字のみで構成されるもの、平仮名と漢字で構成されるものに分類することができる。図15に示すように、実施例1及び2の平仮名以外の文字種を含む形態素には、平仮名と漢字の混在したもの、漢字のみのものが含まれている。また、実施例3及び4の漢字以外の文字種を含む形態素には、平仮名と漢字の混在したものが含まれる。もっとも、日本語の文書を構成する文字種には、これらの他にカタカナ、数字、アルファベット、記号等も含まれている。従って、平仮名以外の文字種を含む形態素及び漢字以外の文字種を含む形態素には、カタカナ等の文字種を含む形態素も含まれる。
【0079】
[他の実施例]
なお、本発明は上述した形態例に限定されるものでなく、様々な変形例が含まれる。例えば、上述した形態例は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある形態例の一部を他の形態例の構成に置き換えることが可能であり、また、ある形態例の構成に他の形態例の構成を加えることも可能である。また、各形態例の構成の一部について、他の構成を追加、削除又は置換することも可能である。
【0080】
また、上述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路その他のハードウェアとして実現しても良い。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することにより実現しても良い。すなわち、ソフトウェアとして実現しても良い。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記憶装置、ICカード、SDカード、DVD等の記憶媒体に格納することができる。
【0081】
また、制御線や情報線は、説明上必要と考えられるものを示すものであり、製品上必要な全ての制御線や情報線を表すものでない。実際にはほとんど全ての構成が相互に接続されていると考えて良い。
【産業上の利用可能性】
【0082】
本発明に係る情報処理装置は、子供に不適切な文書を判別するフィルタリング処理の前処理に適用することができ、当該装置により、子供に有害な情報を含まず、かつ、子供向けに作成された文書やページだけを提示することができる。また、反対に大人向けの文書やページだけを抽出して提供することができる。
【0083】
また、本発明に係る情報処理装置は、フィルタリング処理の対象を、学校等の教育機関に限らず、インターネット上に存在する全文書とすれば、子供向け文書の絞り込み等に要するフィルタリング処理のコストを抑制することができる。
【符号の説明】
【0084】
11…CPU
12…入力装置
13…メモリ
14…出力装置
50…子供向け文書判定装置
51…入力装置
52…データ処理部
53…外部記憶装置
54…出力装置
101…文書入力部
102…形態素解析部
103…文字種判定部
104…形態素集計部
105…子供向け文書判定部
106…判定結果出力部
107…形態素格納部
201…日本語文書
202…文字コード定義
203…判定閾値
204…形態素辞書
205…電子化された日本語文書
206…形態素
207…形態素(206)に対応する品詞

【特許請求の範囲】
【請求項1】
日本語で記述された文書を形態素で分割する形態素解析部と、
各形態素を平仮名のみで構成される形態素と平仮名以外を含む形態素に分類し、各分類の出現頻度を集計する形態素集計部と、
平仮名のみで構成される形態素の出現割合に基づいて、前記文書の対象者を判定する文書判定部と
を有することを特徴とする情報処理装置。
【請求項2】
日本語で記述された文書を形態素で分割する形態素解析部と、
各形態素を平仮名のみで構成される形態素と平仮名以外を含む形態素に分類し、各分類に属する形態素の種類の数を集計する形態素集計部と、
平仮名のみで構成される形態素の種類についての出現割合に基づいて、前記文書の対象者を判定する文書判定部と
を有することを特徴とする情報処理装置。
【請求項3】
日本語で記述された文書を形態素で分割する形態素解析部と、
各形態素を漢字のみで構成される形態素と漢字以外を含む形態素に分類し、各分類の出現頻度を集計する形態素集計部と、
漢字のみで構成される形態素の出現割合に基づいて、前記文書の対象者を判定する文書判定部と
を有することを特徴とする情報処理装置。
【請求項4】
日本語で記述された文書を形態素で分割する形態素解析部と、
各形態素を漢字のみで構成される形態素と漢字以外を含む形態素に分類し、各分類に属する形態素の種類の数を集計する形態素集計部と、
漢字のみで構成される形態素の種類についての出現割合に基づいて、前記文書の対象者を判定する文書判定部と
を有することを特徴とする情報処理装置。
【請求項5】
請求項1〜4のいずれか1項に記載の情報処理装置において、
前記文書の判定をページ単位で実行する
ことを特徴とする情報処理装置。
【請求項6】
コンピュータに、
日本語で記述された文書を形態素で分割する形態素解析処理と、
各形態素を平仮名のみで構成される形態素と平仮名以外を含む形態素に分類し、各分類の出現頻度を集計する形態素集計処理と、
平仮名のみで構成される形態素の出現割合に基づいて、前記文書の対象者を判定する文書判定処理と
を実行させることを特徴とするプログラム。
【請求項7】
コンピュータに、
日本語で記述された文書を形態素で分割する形態素解析処理と、
各形態素を平仮名のみで構成される形態素と平仮名以外を含む形態素に分類し、各分類に属する形態素の種類の数を集計する形態素集計処理と、
平仮名のみで構成される形態素の種類についての出現割合に基づいて、前記文書の対象者を判定する文書判定処理と
を実行させることを特徴とするプログラム。
【請求項8】
コンピュータに、
日本語で記述された文書を形態素で分割する形態素解析処理と、
各形態素を漢字のみで構成される形態素と漢字以外を含む形態素に分類し、各分類の出現頻度を集計する形態素集計処理と、
漢字のみで構成される形態素の出現割合に基づいて、前記文書の対象者を判定する文書判定処理と
を実行させることを特徴とするプログラム。
【請求項9】
コンピュータに、
日本語で記述された文書を形態素で分割する形態素解析処理と、
各形態素を漢字のみで構成される形態素と漢字以外を含む形態素に分類し、各分類に属する形態素の種類の数を集計する形態素集計処理と、
漢字のみで構成される形態素の種類についての出現割合に基づいて、前記文書の対象者を判定する文書判定処理と
を実行させることを特徴とするプログラム。
【請求項10】
請求項6〜9のいずれか1項に記載のプログラムにおいて、
前記文書の判定をページ単位で実行する
ことを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2013−114560(P2013−114560A)
【公開日】平成25年6月10日(2013.6.10)
【国際特許分類】
【出願番号】特願2011−261860(P2011−261860)
【出願日】平成23年11月30日(2011.11.30)
【出願人】(000233055)株式会社日立ソリューションズ (1,610)
【Fターム(参考)】