付録B 用語集 (Glossaries)

1. 使い方
2. ファイル形式
3. 用語集の作成手順
4. 用語集の優先順位
5. 用語集に関するよくある問題

用語集は OmegaT から参照用として使用できるファイルで、作成と更新は手動で行います。

ある OmegaT のプロジェクトに1つ以上の用語集がある場合、現在の分節中に見つかった用語が、用語集ウィンドウに自動的に表示されます。

用語集ファイルの場所と名前は、プロジェクト設定ダイアログで設定できます。拡張子は必ず .txt.utf8 にしてください(拡張子を指定しなければ、自動的に付加されます)。ファイルの場所は glossary フォルダー内を指定する必要があります。ただし、直下ではなくもっと深い階層に置いてもかまいません(たとえば glossary/sub/glossary.txt)。場所を指定した時点では、ファイルが必ずしも存在する必要はありません。用語を追加するときに、(必要であれば)自動的に作成されます。ファイルがすでに存在した場合、その形式と文字コードに問題が無ければ、特にメッセージは表示されません。新しい用語は常にタブ区切り形式の文字コード UTF-8 で追加されます。このとき、既存の内容は変更されません。したがって、既存のファイルへの影響は最小限に留まります。

1. 使い方

既存の用語集を使用するには、プロジェクトの作成後に/glossaryフォルダに配置します。OmegaTは、プロジェクトを開くと、このフォルダ内の用語集ファイルを自動的に検出します。OmegaTが用語集ファイルで検索する現在のセグメント内の用語は、「用語集」ペインに表示されます。

図B.1 用語集ウィンドウ

用語集ウィンドウ

「=(等号)」の前にあるものが原文の用語です。「=」の後ろに対応した訳文が表示されます。見出し語ごとにコメントを追加できます(上の図の「意味:」で始まる行がコメントです)用語集が機能するのは、用語集の項目と完全一致する部分のみです(その活用形などは検索されません)。(訳注:トークナイザー プラグインを使用すると、改善される場合があります。詳細は付録 A を参照してください)新しい用語は、翻訳中でも手動で(テキストエディターなどを別途用いて)用語集ファイルに追加することができます。追加した用語は、用語集ファイルの変更を保存するまでは反映されません。

用語は、必ずしも1つの単語である必要はありません。次の例を見てください。

図B.2 用語集における複数単語による項目 - 例

用語集における複数単語による項目 - 例

下線が引かれた項目「pop-up menu」は、用語集ウィンドウに「pojavni menu」の見出しで表示されています。用語集ウィンドウでテキストを選択し、その選択範囲内を右クリックすると、訳文分節のカーソル(キャレット)位置に選択テキストが挿入されます。[2]

2. ファイル形式

用語集ファイルは単純なテキストファイルで、タブ区切りの3つの列(カラム)からなるリストの形をしています。最初の列と2番目の列はそれぞれ原文、訳文の用語が入ります。3番目の列には追加情報を入れることができます。訳文用の列は、空にしておくこともできます。つまり、原文の用語とコメントのみを含む登録も可能です。

用語集のエンコーディングは自動判定されます。エンコーディングは当然、ファイル内の両方の言語に対応していなければならないので、ユニコードが推奨されます。

また CSV 形式にも対応しています(日本語訳註:こちらの文字エンコードは UTF-8 のみの対応です)。この形式は、タブ区切りと同じように、原文の用語、訳文の用語、そしてコメントの列から構成されます。ただし列は、カンマ記号「,」で区切られます。また文字列は引用符「"」で括られます。そのため、列区切りと区別して、文字列内にカンマを含むことができます。

"This is a source term, which contains a comma","これは訳文の用語です, カンマも含みます"

TBX形式は、プレーンテキスト形式に加えて、読み取り専用の用語集形式としてもサポートされています。.tbxファイルの場所は、/glossaryフォルダ内である必要がありますが、さらに深いフォルダ(glossary/sub/MyGlossary.tbxなど)に置くこともできます。

TBX(Term Base eXchange)は、オープンな XML ベースの標準規格で、構造化された用語集データの互換を目的としています。TBX は国際標準規格として、LISA と ISO によって承認されています。もし何か用語を扱うシステムを使っているなら、用語集データを TBX 形式で出力できる機能を備えている可能性が十分にあります。Microsoft Terminology Collection は、100程度の言語でダウンロードでき、IT用語集の基盤として使用できます。

注意:MultiTerm が出力する .tbx 形式ファイルは、信頼性に劣っているようです(2013 年 11 月時点)。MultiTerm の場合は、.tab 形式ファイルの方で出力することをお勧めします。

3. 用語集の作成手順

プロジェクト設定では、書き込み可能な用語集ファイルの名前を入力することができます(本章の最初を参照してください)。用語集ウィンドウを右クリックするか、Ctrl+Shift+G を押して、新しい用語を追加します。ダイアログが開くので、そこで原文の用語、対応する訳文、任意のコメントを入力してください。

用語集ファイルの内容はプロジェクトを開いたときと再読み込み時に読み込まれ、メモリ上に保持されます。用語集ファイルの更新は、とても簡単です。Ctrl+Shift+G を押して、新しい用語、その訳文、任意のコメントを入力(入力欄は TAB キーで移動できます)し、保存するだけです。用語集ウィンドウの内容は、すぐに更新されます。

書き込み可能な用語集ファイルの場所は、[プロジェクト]→[プロジェクトの設定...]で表示されるダイアログで設定できます。有効な拡張子は、.txt.utf8 です。

注意:もちろん、タブ区切り形式の単純なファイルを作るには、他にもいろいろなやり方があります。Windows 上で Notepad++ を使ったり、Linux 上で GEdit を使ったり、表計算ソフトを使うことだって、あるでしょう。UTF-8(または UTF-16LE)を正しく扱えて、空白文字(ホワイトスペース)を表示できる(TAB 記号を見落とさずに済みます)プログラムなら、何を使っても構いません。

4. 用語集の優先順位

優先度の高い用語集(デフォルトでは glossary/glossary.txt)から見つかった結果は、用語集ウィンドウと用語ヒントの最初に表示されます。

優先度の高い用語集とそれ以外の用語集からの結果が混在することがあります。優先度の高い用語集から見つかった用語は、太字で表示されます。

5. 用語集に関するよくある問題

問題:用語が何も表示されません。

  • glossary フォルダーに用語集ファイルがない

  • 用語集ファイルが空である

  • 項目がタブ文字で区切られていない

  • 用語集ファイルが有効な拡張子(.tab、.utf8、.txt)ではない

  • 原文の項目と「完全に」一致する用語が用語集にない - たとえばその項目が複数形である場合

  • 用語集ファイルが有効な文字エンコーディングで保存されていない

  • 現在の分節に、用語集と一致する用語が1つもない

  • 以上のうち1つまたは複数の原因を解決したものの、プロジェクトを再読み込みしていない

問題:用語集ウィンドウの中で、いくつかの文字が適切に表示されない(しかし同じ文字が編集ウィンドウには適切に表示されている)

  • 拡張子とファイルの文字エンコーディングが一致していない



[2] このとき、もし訳文が語形変化のある言語(図の場合はスロベニア語)だった場合、作業はこれで終わりません。挿入する用語「pojavni menu」は主格の表現ですが、これをたとえば所格の「pojavnem meniju」などに変える必要があるかもしれないのです。だから時には、用語集やそのショートカットを使うよりも、最初から正しい用語を手入力した方が早い場合もあるでしょう。