説明

Web翻訳の出力システム

【課題】本発明は、Web翻訳の出力方法と原文にスペルミスがある場合の処理方法に関するものであり、従来は、訳文が部分的又は全体的にしか表示できない問題があった。
【解決手段】上記課題を解決するために、指定された原文情報を入力する原文言語判定部103、原文の近傍で空白欄を抽出する出力領域抽出部104、スペルミスの単語を正しい単語に変換し翻訳する言語翻訳部105、訳文とHTMLのソースコードより訳文情報を調整する文
字列調整部106、訳文をHTMLに出力するウインドウ制御部107により構成されたWeb翻訳出
力システムにより解決する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Web翻訳の出力方法に関するものである。
【背景技術】
【0002】
従来のWeb翻訳と呼ばれるコンピュータプログラムでは、ユーザによって指定したある言語の文章を別の言語へ、語彙データベース(単語、文法規則の処理プログラム、用例・文例データベースなど)を使用して、ソフトウェアが文章を翻訳し、訳文を再表示する。
もしくは翻訳したいWebページのURLを指定し当該Webページ全体を翻訳し表示するといっ
た技術がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−123234号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、指定された文章だけを翻訳するのでは、前後の文章関係を見ることができない。また、Webページ全体を翻訳してしまうと、元の文章が全て翻訳された後、訳文のみが表示されるので、直訳された意味が理解できなかった場合、元のWebページを再表示する必要がある。さらに原文にスペルミスがあり語彙データベースと一致しない場合、原文の単語のまま変換されず表示されてしまい、訳文として理解することが困難となる。
【課題を解決するための手段】
【0005】
上記課題を解決するために、Webページ上の指定された文章を翻訳し、同ページの空白欄に原文とは異なる色・フォントの訳文を埋め込む機能を備えたものである。さらに、原文にスペルミスがある場合、正しいスペルと推測される単語を語彙データベースより抽出・決定し、正しい単語に変換された原文を翻訳する機能を備えたものである。
【発明の効果】
【0006】
本発明によれば、同一Webページ上で原文・訳文の見比べが出来るという効果がある。
また、スペルミスが含まれる原文の場合、正しいスペルを判定し原文を翻訳するため、訳文全体を通して文章を理解することが出来るという効果がある。
【図面の簡単な説明】
【0007】
【図1】本発明の全体構成を示した構成図である。
【図2】ユーザが指定した原文情報を格納しているテーブルである。
【図3】ユーザが指定したWebページのHTMLソース情報を格納しているテーブルである。
【図4】原文と訳文情報を格納しているテーブルである。
【図5】訳文出力領域のHTMLソース情報を格納しているテーブルである。
【図6】訳文出力領域の文字情報を格納しているテーブルである。
【図7】原文言語判定部の処理の流れを示すフローチャートである。
【図8】出力領域抽出部の処理の流れを示すフローチャートである。
【図9】言語翻訳部の処理の流れを示すフローチャートである。
【図10】文字列調整部の処理の流れを示すフローチャートである。
【図11】ウインドウ制御部の処理の流れを示すフローチャートである。
【図12】WebページのHTML表示例を示した説明図である。
【図13】ユーザが指定する処理の操作ボタンを示した説明図である。
【発明を実施するための形態】
【0008】
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明する。
【0009】
図1は、本発明におけるWeb翻訳出力システムの構成を示すものである。計算機101内に
は主記憶装置102があり、主記憶装置102には原文言語判定部103、出力領域抽出部104、言語翻訳部105、文字列調整部106、ウインドウ制御部107と一時ファイル格納部108が割り当てられている。
【0010】
図2は、図1で示した一時ファイル格納部108にある原文情報テーブル201を示すものである。指定されたWebページのソースコードより文字コードを抽出し文字コード201、原文
203、原文フォント204、原文の色205欄にそれぞれデータを格納する。この動作のフローを図7に示す。
【0011】
図3は、図1で示した一時ファイル格納部108にあるHTMLテーブル301を示すものである
。指定されたWebページのソースコードより文字コードを抽出しmarginタグ302、paddingタグ303、table文字数304、Trタグの行番号306、table文字数の最大長307、最大長からの文字数差308欄にそれぞれデータを格納する。この動作のフローを図8に示す。
【0012】
図4は、図1で示した一時ファイル格納部108にある翻訳テーブル401を示すものである。指定されたWebページのソースコードより文字コードを抽出し原文402、スペルミス有無
403、スペルミスの単語404、修正後の単語405、訳文406、文字数407、翻訳言語408欄にそれぞれデータを格納する。この動作のフローを図9に示す。
【0013】
図5は、図1で示した一時ファイル格納部108にある出力領域テーブル501を示すものである。指定されたWebページのソースコードより文字コードを抽出し出力領域抽出フォント502、出力領域Trタグ番号503、出力領域文字数504、出力領域使用可能505欄にそれぞれデータを格納する。この動作のフローを図8に示す。
【0014】
図6は、図1で示した一時ファイル格納部108にある訳文情報テーブル601を示すものである。指定されたWebページのソースコードより文字コードを抽出し出力領域使用Trタグ番号602、出力領域フォント603、出力領域文字数604、出力領域抽出フォント605、訳文の色606、表示可能文字数607欄にそれぞれデータを格納する。この動作のフローを図10に示す。
【0015】
図7は、図1の原文言語判定部103による原文言語判定処理の流れを示すものである。
ユーザがWebページ上の翻訳原文を指定し(ステップ701)、翻訳言語を入力する(ステップ702)と、指定された原文の文字コード・フォント・色が特定され(ステップ703)、原文言語と翻訳言語が一致するかを判定する(ステップ704)。原文と翻訳の言語が同じ(ステップ705)であれば翻訳処理はせず終了する。原文と訳文の言語が異なっていれば図1の言語翻訳部105に進む。
【0016】
図8は、図1の出力領域抽出部104による出力先領域の抽出処理の流れを示すものである。指定された原文の領域を入力し(ステップ801)、原文があるHTMLのソースよりタグを抽出(ステップ802)する。次に抽出されたHTMLのタグより「margin」・「padding」タグを抽出し(ステップ803)、「table」タグを抽出する(ステップ804)。Tableタグの有無を判定し(ステップ805)、ある場合は、「table」タグ内の文章の各文字数を抽出(ステップ806)
、「table」最大長と各文章の文字数を比較(ステップ807)し、文字数差分が大きい順に抽出する(ステップ808)。無い場合もしくはステップ808の後、原文領域の近傍の部分を抽出(ステップ809)する。次に原文のフォント・色を入力し(ステップ810)、原文と異なる色、原文より小さいフォントと出力先領域の出力可能文字数を特定し(ステップ811)図1の文
字列調整部106に進む。
【0017】
図9は、図1の言語翻訳部105による原文の翻訳処理の流れを示すものである。ユーザが指定した原文を入力し(ステップ901)、各単語を語彙データベースと比較し原文のスペルミスを判定する(ステップ902)。語彙データベースと一致しない場合、語彙データベースより文字列・文字パターンより近似値の単語を抽出し(ステップ903)、語彙データベースで最も近い単語に変換する(ステップ904)。その後、変換後の原文で翻訳を実行する(ステップ905)。ステップ902で一致する場合、翻訳を実行する(ステップ905)。翻訳実行後、訳文を翻訳テーブル401に格納し(ステップ906)、訳文の文字数をカウント後翻訳テーブル401に格納する(ステップ907)。その後、図1の文字列調整部106に進む。
【0018】
図10は、図1の文字列調整部106による出力される訳文の文字列調整処理の流れを示すものである。図1の出力領域抽出部104より出力領域文字数・フォント・色を入力(ステップ1001)する。図1の言語翻訳部105より訳文文字数を入力(ステップ1002)する。図1の言語翻訳部105より訳文を入力(ステップ1003)する。出力領域の文字数と訳文の文字数を比較し(ステップ1004)、文字数が多く出力不可なら出力領域のフォントを小さくする(ステップ1005)。その後再度比較する(ステップ1005)。出力可能であれば、出力領域に出力
する訳文情報を出力する(ステップ1006)。その後、図1のウインドウ制御部に進む。
【0019】
図11は、図1のウインドウ制御部107によるHTMLへの出力制御処理の流れを示すもの
である。図1の文字列調整部106より訳文情報を入力(ステップ1101)。HTMLに訳文を追加(
ステップ1102)し、HTMLが更新され(ステップ1103)処理が終了する。
【0020】
図12は、実際のWebページのHTML表示例1201を示すものである。本例はユーザが「Hel
lo My name is Hitachi Taro. Nice to meet you.」の原文を指定し(1202)、「こんにちは、私の名前はヒタチタロウです。はじめまして。」と空白欄に表示される例(1203)
を示したものである。
【0021】
図13は、実際のブラウザでの操作画面図1301を示すものである。ユーザは図12のWe
bページで指定した原文1202をどの言語に翻訳するかを指定する(1302)。翻訳言語指定後、翻訳ボタン1303を押下すると翻訳処理が開始される。
【符号の説明】
【0022】
103…指定された原文情報を入力する原文言語判定部、104…原文の近傍で空白欄を抽出する出力領域抽出部、105…スペルミスの単語を正しい単語に変換し翻訳する言語翻訳部、106…訳文とHTMLのソースコードより訳文情報を調整する文字列調整部、107…訳文をHT
MLに出力するウインドウ制御部107。

【特許請求の範囲】
【請求項1】
Webページの原文を判定する言語判定部、Webページの空白欄を抽出する出力領域抽出部
、原文を翻訳する言語翻訳部、出力文字を調整する文字列調整部、Webページのウインドウを制御するウインドウ制御部と翻訳処理を行う一時ファイル格納部を備えることを特徴とするWeb翻訳出力システム。
【請求項2】
請求項1のWeb翻訳出力システムにおいて、指定された原文を翻訳し、Webページで空白
欄に訳文を出力する手段を備えることを特徴とするWeb翻訳出力システム。
【請求項3】
請求項1のWeb翻訳出力システムにおいて、指定された原文にスペルミスがある場合、正しい単語を判定し翻訳する手段を備えることを特徴とするWeb翻訳出力システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2010−262492(P2010−262492A)
【公開日】平成22年11月18日(2010.11.18)
【国際特許分類】
【出願番号】特願2009−113150(P2009−113150)
【出願日】平成21年5月8日(2009.5.8)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】