説明

Fターム[5B091AB04]の内容

機械翻訳 (6,566) | 処理対象要素 (373) | カタカナ、ローマ字、外来語 (5)

Fターム[5B091AB04]に分類される特許

1 - 5 / 5


【課題】1回のキーワード検索で訳語候補リストを入手することができる翻訳支援プログラムを目的とする。
【解決手段】日本語と外国語が混在した原文に含まれる補正対象文字を補正し、補正済み原文を構成する各文字を文字種記号に置換し、隣接する同一の文字種記号を共通化したものである文字種記号列を生成し、文字種記号列を構成する各文字種記号を言語記号に置換し、隣接する同一の言語記号を共通化したものである言語記号列を生成し、言語記号列中の隣接する言語記号のうち相互に異なる言語記号を対として抽出し、その対のうち日本語を示す言語記号に係る文字種記号の組み合わせパターンに対応する日本語の単語と、対応する外国語の単語との単語対を取得し、取得した単語対の一方の単語に対して他方の単語を、該一方の単語の訳語候補として登録することにより、上記課題の解決を図る。 (もっと読む)


【課題】 カタカナ語の固有表現を抽出する。
【解決手段】 本発明の代表的な形態は、プロセッサ、メモリ及びインタフェースを備える計算機システムであって、日本語以外の第二言語のテキストを収集し,収集されたテキストから固有表現である可能性が高い単語を抽出し,抽出された第二言語の固有表現候補を読み情報を用いて日本語文字列に変換し,日本語のテキストを収集し,日本語テキスト中に出現するカタカナ語を抽出し,第二言語の固有表現候補単語から変換された日本語文字列と日本語テキストから抽出されたカタカナ文字列の類似性を判定し,類似度が高いカタカナ文字列を固有表現であると判定する。 (もっと読む)


【課題】Webドキュメントから専門用語を自動的に抽出する専門用語抽出装置を提供すること。
【解決手段】本装置のクロール部が、専門分野ごとのURLリストを用いて、Webページのコンテンツを収集する。URLリストは、常にUp−To−Dateに更新する。次に、本装置の単語抽出部によって、収集されたWebページのコンテンツのテキストを形態素解析し品詞に分類して、カタカナ語彙と全字種の語彙を抽出する。この際、助詞や接続詞など専門用語になりにくい品詞は抽出対象から除外する。そして、本装置のカタカナ用語抽出部によって、抽出されたカタカナ語彙に対して、FLR法を用いて、重要度の計算を行い重要度の高いカタカナ用語を抽出する。さらに、専門用語抽出部によって、カタカナ用語と、先に抽出された全字種の語彙との共起ヒット情報を計算して、専門用語を抽出する。 (もっと読む)


【課題】翻訳辞書に登録されていない未知語であっても、精度の高い訳語を出力することができる機械翻訳装置を提供することである。
【解決手段】綴り対応表106には、未知語に対応できるようにするために、あらかじめ第一言語の語句中の一文字以上の文字からなる字句及びこれに対応する第二言語の文字による綴りの一以上の字句が対応づけられて記憶されている。未知語処理部105は、入力処理部102で分解された語句が翻訳辞書部104に存在しないときは、その未知語をさらに一文字以上の文字からなる字句に分解し、その分解した字句を綴り対応表106から検索して第二言語の字句を抽出する。そして、その抽出した第二言語の字句を合成して未知語の訳語を求める。 (もっと読む)


【課題】大文字を含むアルファベットからなる単語(文字列)を含む日本語文を効率良く且つ正しく解析可能な形態素解析装置及びその方法を提供すること。
【解決手段】単語連鎖生成手段6において、単語辞書3及び文法規則4を用いて、入力テキストから接続可能な品詞連鎖を満たす単語を抽出し、この際、大文字を含むアルファベットからなる文字列であり且つ単語辞書3にその表記が登録されていない未知の文字列についてはその文字列中の大文字を小文字化した上で単語辞書3を再検索して単語を抽出して単語連鎖侯補列を作成し、単語選択手段7において、当該単語連鎖侯補列に対して所定のコスト計算を行い、前記入力テキストの文頭から文末までに対応する一連の単語連鎖からなる単語情報列を選択して出力する。 (もっと読む)


1 - 5 / 5