説明

国際特許分類[G06F17/27]の内容

物理学 (1,541,580) | 計算;計数 (381,677) | 電気的デジタルデータ処理 (228,215) | 特定の機能に特に適合したデジタル計算またはデータ処理の装置または方法 (34,028) | 自然言語データの取扱い (7,890) | 自動言語解析,例.構文解析,綴字訂正 (543)

国際特許分類[G06F17/27]に分類される特許

1 - 10 / 543


【課題】語源の共通する同語源単語を効率良く学習することを可能とする。
【解決手段】電子辞書1は表示部40と、語源付き辞書データベース821と、語源付き辞書データベース821に記憶された何れかの単語を指定する入力部30と、CPU20とを備える。CPU20は、指定単語に含まれる各単語構成部分と同じ語源の単語構成部分を含む単語を、語源付き辞書データベース821により記憶された単語の中から同語源単語として抽出し、指定単語及び同語源単語を表示部40に一覧表示させるとともに、当該指定単語と当該同語源単語の双方に共通して含まれる単語構成部分を識別表示させる。 (もっと読む)


【課題】日本語で記述された文書を、その記述形態に依存することなく、文書の対象者(例えば子供向けか大人向けか)を判定できるようにする。
【解決手段】日本語で記述された文書を形態素で分割する。次に、各形態素を平仮名のみで構成される形態素と平仮名以外を含む形態素に分類し、各分類の出現頻度を集計する。その後、平仮名のみで構成される形態素の出現割合に基づいて、前記文書の対象者を判定する。 (もっと読む)


【課題】 曖昧語を含む文書について、各使用場面で曖昧語が文書の品質に与える影響の大きさを考慮して、精度よく文書の優先的な修正点や品質を推定する技術を提供する。
【解決手段】 本発明における文書分析システムは、外部から入力された文書を構成する文章に使用されている各単語の単語情報に基づいて、文書中における曖昧語を検索し、曖昧語が有る場合は当該曖昧語を抽出する曖昧語検索部と、推定鍵語を抽出するための推定鍵語抽出ルールに基づいて、文書から各曖昧語に対するそれぞれの推定鍵語を抽出する推定鍵語抽出部と、概念規模推定ルールに基づいて、推定鍵語抽出部で抽出された推定鍵語の概念の規模である概念規模指標を推定する概念規模推定部と、概念規模指標に基づいて、各曖昧語と推定鍵語との組合せ毎に曖昧性情報を算出する曖昧性算出部と、を含む。 (もっと読む)


【課題】会話の流れによって疑問表現になったり、断定表現になったりする述部の機能表現に対しても、適切な意味ラベルを付与する。
【解決手段】学習用発話対作成部22で、形態素解析結果に対して、機能表現及び応対表現の正解ラベルが付与された正解コーパスに基づいて、学習用発話対を作成する。パラメータテーブルに、素性として、発話対の前の発話の終わりに表れる機能表現の意味ラベルと、それに対する後の発話の初めに表れる応対表現の意味ラベルとの並びの素性を用い、複数種類の素性各々について、重みの初期値を設定する。パラメータテーブル作成部24で、発話対の形態素情報と機能表現辞書30とを用いて、各形態素について候補となる意味ラベルを全て含んだラティスを構築し、ラティス構造からパラメータテーブルの素性毎の重みに基づいて最尤パスとして探索する。最尤パスが正解の意味ラベル列となるようにパラメータテーブルの重みを学習する。 (もっと読む)


【課題】中国、日本、および韓国の言語のための名前を検出する。
【解決手段】名前検出に関する実施例が提供される。方法は、姓のコレクションと、n-グラムのコレクションを含む注釈付コーパスとを使用することで、未加工名前検出モデルを生成するステップを含み、各n-グラムは、前記注釈付コーパスにおいて名前として出現することの対応する確率を有する。方法は、前記未加工名前検出モデルを準構造化データのコレクションに適用して、注釈付準構造化データを形成するステップと、前記未加工名前検出モデルを大規模な注釈のないコーパスに適用して、名前を特定する前記大規模な注釈のないコーパスのn-グラムと、名前を特定しないn-グラムとを特定する大規模な注釈付コーパスデータを形成するステップとを含み、前記注釈付準構造化データは、名前を特定するn-グラムと名前を特定しないn-グラムとを特定する。方法は、名前検出モデルを生成するステップを含む。 (もっと読む)


【課題】 他の単語データを利用して、属性が未知である単語に対し、付与すべき属性を推定する。
【解決手段】 本発明は、入力単語と共起する単語のパターンを特徴パターンとして抽出し、入力された単語共起データから特徴パターンと合致する共起語を入力単語の同類語候補として抽出し、入力単語及び各同類語に対し、共起する単語のパターンを特徴パターンとして抽出し、その特徴パターンを要素とし、その共起頻度を値とするベクトルを作成する。入力単語と各同類語候補との関連度を算出し、関連度の高いものを同類語として抽出する。同類語のカテゴリの重複数を調べて、重複数が多いカテゴリを入力単語のカテゴリとして推定し、当該カテゴリを属性として付与した単語を属性付単語として出力する。 (もっと読む)


【課題】記載内容が複数の文や表に分かれて存在する文書間や表現の異なる文書間の比較を可能とする文書解析技術を提供する。
【解決手段】複数の文書から文及び表を抽出する。抽出された各文について係り受け関係を解析し、その解析結果に基づいて、単語又は文節をノードとし、文節間の修飾関係や被修飾関係の候補をエッジで表すグラフ構造に変換する。抽出された各表を、枠又は文字行をノードとし、枠間や文字行間の隣接関係をエッジで表すグラフ構造に変換する。次に、枠間や文字行間の隣接関係を表すエッジ間の強度を、枠の隣接パターンや文字列共起頻度に基づいて計算する。異なる文書から生成されたグラフの各ノードペアについて、ノード間の文字列の類似性・同義性と、近傍ノード又は論理関係を持つ遠方のノードの類似性とに基づいて、文及び/又は表の構成要素間のアライメントを判定する。 (もっと読む)


【課題】3回以上のやりとりが少ない対話データを学習データとして用いた場合でも、精度の良い対話モデルを構築する。
【解決手段】部分集合抽出部12は、2回のやりとりの対話データを複数取得する。辞書データ20から見出し抽出部14が見出し語を抽出し、カテゴリ抽出部16がカテゴリ情報を抽出して、見出し語・カテゴリ情報のペアを作成する。部分集合抽出部12は、取得した対話データ内の各単語に見出し語・カテゴリ情報に基づいてカテゴリ情報を付与し、入力されたキーワードを単語及びカテゴリ情報に含む対話データを部分集合として抽出する。対話モデル学習部18は、部分集合を用いて、学習過程において2回のやりとりから、内容が近い発話データをクラスタリングすることで2回を超えるやりとりを構成しながらHMMを学習し、学習したHMMを対話モデルとして出力する。 (もっと読む)


【課題】学習データを必要とせずにテキストセグメンテーションが可能なWeb検索を利用したテキストセグメンテーションを実現する。
【解決手段】本発明は、入力されたテキストを文単位に分割し、分割された文を形態素解析し、形態素解析された助詞を除く全ての単語を検索語として抽出し、活用形のある単語を終止形に変換し、検索語に基づいてウェブ検索し、検索されたテキストを形態素解析し、助詞を除く全ての単語を関連語として抽出し、活用形のある単語を終止形に変換し、検索語と関連語記憶手段に格納されている関連語との組み合わせであるキーワード集合を用いて、文同士の連結性に基づいて意味段落を求め、分割候補を作成し、分割候補を評価して一つの分割結果を選択して出力する。 (もっと読む)


【課題】学習データを必要とせずにテキストセグメンテーションが可能なWeb検索を利用したテキストセグメンテーションを実現する。
【解決手段】本発明は、入力されたテキストを文単位に分割し、分割された文を形態素解析し、形態素解析された名詞、副詞、動詞、形容詞、形容動詞を検索語として抽出し、検索語に基づいてウェブ検索したテキストを形態素解析し、解析された形態素のうちで、名詞、副詞、動詞、形容詞、形容動詞を関連語として取得し、検索語と関連語との組み合わせであるキーワード集合を用いて、入力テキストを分割した複数の文同士の連結性を判定し、該連結性の谷と谷の間にある文同士である意味段落を抽出することによって入力テキストを分割する。 (もっと読む)


1 - 10 / 543