説明

Fターム[5B091CC01]の内容

機械翻訳 (6,566) | 辞書、知識ベース (865) | 辞書の種類 (414)

Fターム[5B091CC01]の下位に属するFターム

Fターム[5B091CC01]に分類される特許

101 - 120 / 125


【課題】 あらかじめ存在する翻訳文を有効に活用することができる翻訳システムを提供すること
【解決手段】 本発明は、原稿から画像データを生成する画像読み取り手段と、翻訳先言語を入力する入力手段と、前記画像データに対し文字認識処理を行い原文を生成する文字認識手段と、前記原文および前記翻訳先言語を特定する言語識別子を記憶する原文記憶手段と、翻訳文と、その翻訳文が記述された言語を特定する言語識別子と、その翻訳文の内容を特定する文書識別子とを対応付けて記憶した翻訳文データベースと、前記原文から、文書識別子を抽出する抽出手段と、前記翻訳文データベースから、前記抽出手段により前記原文から抽出された文書識別子と同一の文書識別子および前記原文記憶手段に記憶された言語識別子と同一の文書識別子および言語識別子と対応付けられた翻訳文を検索する検索手段と、前記翻訳文を出力する出力手段とを有する翻訳システムを提供する (もっと読む)


【課題】 ある言語に従って構築されている文書の文書データを、より簡易な処理によって別の言語の文書データに変換するような仕組みを提供すること。
【解決手段】 画像パターンとインデックスの各対を内包する画像パターン辞書データ部51、及び領域識別情報とインデックスの各対を内包する文書レイアウトデータ部52を個別に有する圧縮文書データが入力されると、それら両データ部のうち、画像パターン辞書データ部51にて各インデックスと対を成している画像パターンを、翻訳された新たな文字を表す画像パターンと差し替える。 (もっと読む)


【課題】 サブワード単位の複雑度が反映されるサブワード言語モデルの複雑度を測定すること。
【解決手段】 サブワード言語モデルMSLおよびテキストラインwを記憶する記憶手段と、サブワード言語モデルMSLにおいて、テキストラインwおよびこのテキストラインwに対応するサブワード系列sに対する複雑度を演算して、この演算結果を条件付複雑度U(w,s|MSL)として出力する条件付複雑度演算手段と、サブワード言語モデルMSL自体の複雑度を演算して、この演算結果を自己複雑度U(MSL)として出力する自己複雑度演算手段と、条件付複雑度演算手段によって出力された条件付複雑度U(w,s|MSL)および自己複雑度演算手段によって出力された自己複雑度U(MSL)を入力値とする関数f(U(w,s|MSL),U(MSL))を演算して、この演算結果を出力する複雑度演算手段とを備える。 (もっと読む)


【課題】従来は、変形文字で書かれたテキストを正しく解析することはできず、また、文字認識技術を応用するにも、膨大な情報量と演算量のため、少ないメモリと、能力の高くないCPUでは動作させることができない。
【解決手段】変形文字を含むテキストは、通常のテキストで殆ど現れない記号、ギリシャ文字、ロシア文字などの文字コードが大量、かつばらばらに現れる現象を利用して、変形文字で書かれたテキストかどうかを変形文字テキスト判定手段で判断し、変形文字を含むテキストであると判断された場合には、変形文字テキスト修正手段でテキスト中に含まれる変形文字を変形文字テーブルを用いて変形される前の文字列に変換し、さらに、最低限の曖昧候補に限定して、事前に辞書引き処理をして、テキストを一意に決定し、テキスト解析手段で言語解析用辞書を用いて形態素解析を行う。 (もっと読む)


【構成】 辞書作成システム12は、コンピュータ14を含み、コンピュータ14には、複数の変換エンジン20a,20b,20c,20d…が予めインストールされている。コンピュータ14は、辞書26a,26b、用語集28a,28b、実験データ30などから入力データを受け、その入力データのデータ形式に適合する変換エンジンを選択的に起動することによって、その入力データから抽出して、もしくは入力データを変換して、辞書10の各項目にデータを登録する。形態素解析エンジン22があれば、辞書10に、意味文を形態素解析した結果も登録できる。
【効果】 この発明によれば、各種の入力データの記述形式の差を吸収して辞書の各項目に共通に登録するので、作成した辞書を様々なオントロジや言語データベースに変換して使用できる。
(もっと読む)


【課題】辞書の登録に制限を設けず、辞書に新たな語を登録してもその影響を少なくすることができる訳語生成装置及びそれを用いた機械翻訳装置を提供する。
【解決手段】訳語生成装置は、日本語の文から英語の文への翻訳において、日本文中の語句と、日本語の語句に対応して予め特定された英語の語句との対から、日本語の語句の訳語を生成するための訳語生成装置であり、英語の語句に対する複数の関連語を特定する関連語拡張処理部48と、翻訳の途中結果において、日本語の語句に対応すべき部分から所定の範囲内に存在する複数の近傍語句を特定する言語変換処理部42と、予め準備した英語の用例文36のうち、関連語と近傍語句とからなる語句群と意味的に最も類似する類似文を特定し、当該類似文内に存在する英語の文字列であって所定の基準を充足するものを、日本語の語句に対する訳語として特定する局所生成部46とを含む。 (もっと読む)


【課題】同じ意味内容を異なる表現で言い表す言い換え表現を、構文解析を必要とせず、また予め特定の関係にある事例を与えることなく、文書集合から獲得すること。
【解決手段】共起単語対文脈収集部12により文書集合DB1に格納された文書集合から任意の共起単語対を含む文脈を収集し、共起単語対毎に個々の文脈を共起単語対文脈DB2に格納し、文脈ベクトル生成部14により各共起単語対に対応する個々の文脈を構成する単語の単語頻度を求め、重みを計算して文脈ベクトルを文脈ベクトルDB4に格納し、文脈ベクトル類似度計算部15により2つの文脈ベクトル間の全ての類似度を求め、共起単語対クラスタリング部16により文脈ベクトル間の類似度が近い共起単語対をクラスタリングし、関係ラベル獲得部17により各クラスタを表す単語を獲得し、クラスタ内文脈選択部18によりDB2から当該単語を含む文脈を言い換え表現として選択する。 (もっと読む)


【課題】システムがユーザ自身に共感しているとユーザが感じ、ユーザとシステムとの間に信頼感を生じさせる対話が行なわれるようにする。
【解決手段】入力されたユーザの発話を認識し、ユーザの発話が意味する感情をポジティブ、ネガティブ、及びニュートラルのいずれか1つの感情かを推定し、推定したポジティブ、ネガティブ、及びニュートラルのいずれか1つの感情に対応する1つの発話を応答として生成し、生成した応答を出力する。 (もっと読む)


【課題】 簡便かつ高精度な同義語データベースを生成する情報処理装置、方法及びプログラムを提供する。
【解決手段】 順序のある文字列対が格納される同義語候補データベースと、第一記号と第二記号とからなる所定の記号対を含む文に対し形態素解析を施す形態素解析手段と、前記第一記号の直前の第一文字列と記号対内の第二文字列を切り出して、順序のある文字列対を抽出する文字列対抽出手段と、抽出した文字列対と前記同義語候補データベースに格納された文字列対である同義語候補文字列対が所定の条件を満たすか否かを判定する同義語対判定手段と、同義語対判定手段で前記所定の条件を満たすと判定された場合、前記第一文字列と、前記第二文字列と、前記同義語候補対とに含まれる各文字列から、互いに異なる文字列を要素とする同義語集合を生成するとともに、前記同義語候補文字列対を同義語候補データベースから削除する同義語集合生成手段とを有する。 (もっと読む)


【課題】従来の技術は慣用句の候補を効率的に収集できる一方で、それらを辞書に登録するには慣用句の文法的な制約を人手で記述する必要があり、ユーザにとって負担が大きいという問題があった。
【解決手段】本発明は、慣用句の文法的な制約を判定するユーザを支援するための方式を提供する。具体的には、慣用句を構成する単語ペアが出現する事例を取得して、それらが慣用句として機能している可能性をテキストの類似度に基づき計算してユーザに表示する。 (もっと読む)


【課題】表や箇条書きなどの構造を有する文書の翻訳において、高精度かつ安定した機械翻訳システムを提供する。
【解決手段】構造を有する文書から当該構造上で同一の属性あるいは等価な配置関係を有する第1の言語の第1の語・文集合を抽出し、任意のカテゴリに属する第1の言語の語・文集合に属する各語・文に対応し、当該各語・文を第2の言語の当該カテゴリに属する語・文に翻訳するための、当該語・文集合をそれぞれ含む複数の解釈データを記憶する記憶手段から、第1の語・文集合の各語・文に対応する各解釈データを検索し、検索された解釈データに含まれる語・文集合が第1の語・文集合と同一か否かを判定し、第1の語・文集合と同一と判定された語・文集合を含む各解釈データを用いて、第1の語・文集合の各語・文を翻訳する。 (もっと読む)


【課題】 より精度良く、言語解析を行えるようにする。
【解決手段】 単語を潜在クラスに基づく確率分布で表現し、文や文書など複数の単語から構成される言語単位を、それを構成する個々の単語の確率分布表現を重畳することによって表現する。そして、確率分布間の距離尺度を規定することによって、文書検索や用例ベースの言語処理など、言語単位間の類似尺度を利用した自然言語処理を行う。本発明は、言語解析を行い、ユーザとの対話を処理する情報処理装置に適用することができる。 (もっと読む)


【課題】 概念ベース中に存在しない単語について、単語間の類似性を判定する単語ベクトルを付与することができるデータベースを作成する単語間類似性判定用データベース作成装置、方法、プログラムおよび記録媒体を提供することを目的とするものである。

【解決手段】 概念ベースから検索した複数の単語の概念ベクトルの重心を求め、この求めた概念ベクトルの重心を、文ベクトルとして算出し、各異なり単語が含まれている文の文ベクトルの重心を求め、この求めた文ベクトルの重心を、単語ベクトルとして算出し、この算出された単語ベクトルと、異なり単語とを単語間類似性判定用データベースに格納する単語間類似性判定用データベース作成装置である。 (もっと読む)


【課題】漢字および平仮名を含む単語の異表記語を生成することが可能な技術を提供する。
【解決手段】指定された単語の異表記語を生成する異表記語生成プログラムにおいて、複数の異表記語ペアから複数の表記揺れ文字列ペアを生成し、指定された単語に含まれる文字列を上記表記揺れ文字列ペアを用いて置換し、指定された単語の異表記語を生成する。 (もっと読む)


【課題】 複数言語対応とした場合であっても、適切な認識辞書を用いて読み取った文字列のイメージを正しい文字情報に変換し、また、適切な翻訳辞書を用いて認識した文字列を正しい言語に翻訳する。
【解決手段】 言語設定部110は、通信部106で取得された、携帯電話100の位置情報に従って、その場所に対応する言語を特定する。画像認識部105は、言語−認識辞書対応表109を参照し、該特定した言語に対応する認識辞書108を用いて、読み取った文字列のイメージを文字情報に変換する。また、CPU102は、上記認識辞書に対応付けられている翻訳辞書を用いて認識した文字列を翻訳して、表示部107に訳語を表示する。 (もっと読む)


【課題】ある基準フレームに対するターゲットデータセットの性質を客観的に示す方法を提供する。
【解決手段】コーパスT(20)の定量化尺度を定める方法は、2個の基準コーパスT(22)及びT(24)を選択するステップと、クロスエントロピーHを用いて式(1)及び(2)を計算するステップと、コーパスT及びTに対するコーパスTの定量化尺度(I(T))を、式(3)で表される関数として決定するステップとを含む。
【数1】
(もっと読む)


【課題】第2自然言語内での単語及び構造の自然な並びと、第1自然言語と第2自然言語の適切な組み合わせとを考慮したスコア付けを行う。
【解決手段】形態素解析部100は、翻訳学習データの第1自然言語表現と第2自然言語表現を形態素解析し、構造解析部110は、構造情報を出力する。目的言語特徴量取得部120は、第2自然言語表現と同じ構造を持つ表現に関する統計量を目的言語コーパス200から取得する。翻訳特徴量取得部130は、第1自然言語表現が第2自然言語表現に翻訳される確率を対訳辞書220から求める。対訳共起特徴量取得部140は、第1自然言語表現の単語と第2自然言語表現の単語の組み合わせが、対訳辞書220又は対訳コーパス210の中で対訳として出現する確率を求める。翻訳モデル学習部150は、機械学習により翻訳モデル230を生成する。 (もっと読む)


【課題】単語分割済みの第1のコーパスと単語非分割の第2のコーパスを有効に利用して、単語の n-gram 確率を高い精度で計算し、自然言語処理の認識精度を上げる装置及び手法を提供する。
【解決手段】<単語分割済みコーパスの利用法> 第1のコーパス(単語分割済み)は n-gram を求めるのと、隣り合う2文字の間が単語境界になる確率(分割確率)を求めるのに用いる。第2のコーパス(単語非分割)は、第1のコーパス(単語分割済み)の情報を元に確率的な単語境界が割り当てられ、単語 n-gram を計算するのに用いる。<確率的単語境界の計算> 第2のコーパス(単語非分割)において、第1のコーパス(単語分割済み)で計算した分割確率を各文字の間に割り当てる。<文字単位の未知語モデル> 文字単位で、文字と読みの対応関係をモデル化する。このことにより、未知語に対する仮名漢字変換モデルが提案される。 (もっと読む)


【課題】編集し難い目的言語文書DBに一旦登録した文書を簡単な操作で選び出して登録前の状態に戻せるようにする。
【解決手段】この機械翻訳システムは、制御部2と目的言語文書DB8を管理するDB管理部6を備える。制御部2は、削減モード時に、DB指定部2aにより、削減対象の目的言語文書および/または作成済み目的言語データを記憶したDBが指定されると、指定されたDBをDB管理部6の検索部6aに検索させ、検索されたDBの目的言語文書の言語情報、統計情報分を、該当DBより差し引いて目的言語文書DB8を更新する。 (もっと読む)


【課題】 未知語を含む文章の形態素解析結果を、計算量などを増大させることなく、より高精度にする。
【解決手段】 本発明では、解析対象文に対する形態素解析結果の候補である仮説として、辞書に登録されている既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものを生成し、各仮説の生成確率を、形態素やn−gramや未知語を構成する文字の、予め用意されている確率的なモデルの情報を用いて計算する。そして、解となる仮説を探索する。探索された解の中に未知語を構成する文字がある場合には、それらの文字を結合して未知語を復元する。 (もっと読む)


101 - 120 / 125