※ この文書は自分自身の知識を整理するため、ChatGPT/Gemini を用いて調査・整形したメモです。

自然言語処理における表層マッチング指標まとめ

1. 概要

1.1 評価対象のスコープ: 表層マッチングに基づくテキスト生成評価

自然言語処理におけるテキスト生成タスクの評価では、システムが出力した仮説文（hypothesis）と、正解となる参照文（reference）を比較して性能を測定することが一般的です。本稿で扱う BLEU、chrF、chrF++、ROUGE、METEOR といった評価指標は、いずれも参照文との文字列的な一致を手掛かりとしてテキスト生成を評価します。

ここでの「表層マッチング」とは、近年主流となっている学習器を用いて意味表現をベクトル空間に埋め込んで比較するアプローチではありません。語（単語）、文字、部分列の重複、あるいはそれらの対応づけ（アライメント）の一致からスコアを計算する手法を指します。

1.2 代表的指標の分類と定性比較

テキスト生成の評価において広く用いられる代表的な表層マッチング指標は、それぞれ異なる基本単位を採用しています。

BLEU: 単語 N-gram を基本単位とし、主に機械翻訳の評価で利用される古典的なベンチマークです。
chrF / chrF++: 文字 N-gram（chrF++ ではさらに短い単語 N-gram を追加）を基本単位とします。語形変化や表記揺れに強く、トークナイズの差異に対する依存性が低いのが特徴です。
ROUGE: 単一の指標ではなく指標族であり、単語 N-gram だけでなく、最長共通部分列（LCS）や Skip-bigram などを用いて系列構造を評価します。主に要約タスクで利用されます。
METEOR: 厳密には純粋な表層一致にとどまらず、ステミング（stemming）、同義語（synonym）、言い換え（paraphrase）などの語彙資源を利用する拡張性を持ちます。そのため、BLEU や ROUGE と比較して一段階「語彙的に柔らかい」評価が可能な指標として位置づけられます。また、明示的な単語の対応付け（アライメント）を行う点も大きな特徴です。

1.3 適合率 (Precision) と再現率 (Recall) による設計思想の違い

これらの指標間における最も本質的な違いの一つは、計算の分母をどこに置くか、すなわち「適合率（Precision）」と「再現率（Recall）」のどちらに重きを置いているかという点にあります。

適合率（Precision）寄り: BLEU は、出力された候補側のカウントを分母に配置する適合率型の指標です。「システム出力がどれだけ参照文らしいか（誤生成が含まれていないか）」を測る設計となっています。
再現率（Recall）寄り: ROUGE は、参照文側を分母に配置する再現率型の指標として設計されています。「参照文に含まれる情報を、システム出力がどれだけ網羅（回収）できたか」を重視しており、情報欠落を嫌う要約タスクの特性を反映しています。

また、chrF や METEOR は適合率と再現率を組み合わせた F 値（F-score）を採用していますが、METEOR は再現率を重く見る \(F_{mean}\) を計算し、chrF もパラメータ（\(\beta\)）によって再現率側を調整できるなど、指標ごとに独自の設計思想が組み込まれています。

2. 共通定義と前提条件

2.1 データ構造と記法

テキスト生成の評価では、システムが出力した「仮説文」と、正解となる「参照文」を比較します。本稿では、文単位での評価を基本とし、数式において以下の記法を用います。

仮説文 (System Output / Hypothesis): \(h\)
参照文 (Reference): \(r\)
複数参照文 (Multiple References): 1つの仮説に対して複数の正解が用意されている場合、その集合を \(\mathcal{R} = \{r^{(1)}, \dots, r^{(K)}\}\) と定義します。

また、コーパス全体（複数文のデータセット）を評価対象とする場合、文対の集合を以下のように表現します。

\[ \{(h_s, \mathcal{R}_s)\}_{s=1}^S \]

2.2 N-gram 多重集合とクリッピング

表層マッチングに基づく指標の多くは、テキストから抽出した N-gram（連続する \(n\) 個の要素）の出現回数を手掛かりに計算を行います。

ある列 \(x\) から抽出した N-gram の多重集合を \(G_n(x)\) とし、特定の N-gram \(g\) の出現回数を以下のように記述します。

\[ \operatorname{Count}_x(g) \]

数式内で \(\sum_g\) と記述した場合、それは該当する次数で出現しうる 一意な（distinct な）N-gram 型 の全体に対する和を意味します（実装上は、存在する N-gram のみを走査すれば十分です）。

2つの多重集合間における N-gram の重複（マッチ）個数は、それぞれの出現回数の最小値を取ることで算出されます。

\[ \operatorname{Match}(g; x, y) = \min\bigl(\operatorname{Count}_x(g), \operatorname{Count}_y(g)\bigr) \]

さらに、BLEU などの指標で用いられる重要な概念に「クリッピング（Clipping）」があります。これは、システムが同じ単語を過剰生成して不当にスコアを稼ぐこと（例: the the the... のような出力）を防ぐための処理です。複数参照文が存在する場合、各 N-gram に対して参照文群の中での最大出現回数を求めます。

\[ \operatorname{Count}^{\max}_{\mathcal{R}}(g) = \max_{k=1}^{K} \operatorname{Count}_{r^{(k)}}(g) \]

そして、仮説文での出現回数をこの最大参照カウントで頭打ち（クリップ）したものを、最終的なマッチ数として採用します。

\[ \operatorname{ClipMatch}(g; h, \mathcal{R}) = \min\bigl(\operatorname{Count}_h(g), \operatorname{Count}^{\max}_{\mathcal{R}}(g)\bigr) \]

2.3 前処理（正規化・トークナイズ）への依存性

数式上で厳密に定義された指標であっても、入力テキストへの前処理の差異によって最終的な算出スコアは大きく変動します。評価の再現性や、他の論文・システムとの公平な比較を担保するためには、実装時に少なくとも以下の条件を固定し、レポートに明記することが不可欠です。

大文字・小文字の区別: 正規化して同一視するか否か
句読点の扱い: 独立したトークンとして分割するか、削除するか
トークナイザの選択: どのアルゴリズムやライブラリを利用するか
評価の粒度: 文字列を単語（トークン）列として扱うか、文字の連続として扱うか
空白文字の扱い: 空白を1文字としてカウントに含めるかどうか

これらの前処理への依存度は指標の性質によって異なります。特に単語ベースである BLEU は、トークナイズ手法の影響を極めて強く受けます。一方、文字ベースで設計されている chrF はトークナイズへの依存性が相対的に小さいという利点を持ちますが、chrF++ のように単語 N-gram を評価に組み込む指標を採用した場合は、再び単語分割の設計がスコアに介入することになります。

3. BLEU: N-gram 適合率に基づくコーパスレベル評価

BLEU は、主に機械翻訳の評価などで代表的に用いられる指標です。仮説文（システム出力）に含まれる単語 \(n\)-gram が、参照文にどれだけ含まれているかという適合率（precision 寄り）の志向を持っています。単一の次数だけでなく複数次数の適合率の幾何平均を取り、さらに短すぎる出力に対するペナルティ（brevity penalty）を組み合わせている点が特徴です。

3.1 Modified N-gram Precision の定式化

BLEU の基本となるのは、仮説文の \(n\)-gram が参照文に存在するかをカウントする modified precision です。単に一致数を数えるだけでは、システムが同じ単語を過剰に生成した場合（例: 仮説が the the the the ... となるようなケース）にスコアが不当に高くなる問題があります。これを防ぐため、仮説側のカウントを参照側の最大出現回数でクリッピング（上限カット）する処理を行います。

文 \(h\) と複数参照 \(\mathcal{R}\) に対する次数 \(n\) の modified precision \(p_n(h, \mathcal{R})\) は以下のように定義されます。

\[ p_n(h, \mathcal{R}) = \frac{\sum_g \operatorname{ClipMatch}(g; h, \mathcal{R})}{\sum_g \operatorname{Count}_h(g)} \]

ここで、\(\operatorname{ClipMatch}\) は仮説側の \(n\)-gram 出現回数と参照側の最大出現回数のうち小さい方を採用する関数です。

3.2 コーパスレベル集約と最終 BLEU スコア

BLEU の標準的な算出は、文単位で precision を平均するのではなく、コーパス全体で一致カウントと総カウントを合算してから計算します。文対の集合 \(\{(h_s, \mathcal{R}_s)\}_{s=1}^S\) に対するコーパスレベルの \(p_n\) は以下の式で求められます。

\[ p_n = \frac{\sum_{s=1}^{S} \sum_g \operatorname{ClipMatch}(g; h_s, \mathcal{R}_s)}{\sum_{s=1}^{S} \sum_g \operatorname{Count}_{h_s}(g)} \]

最終的な BLEU スコアは、最大次数 \(N\) までの \(p_n\) の幾何平均に、後述する brevity penalty（\(BP\)）を掛け合わせることで算出されます。

\[ \operatorname{BLEU}_N = BP \cdot \exp\left(\sum_{n=1}^{N} w_n \log p_n\right) \]

重み \(w_1, \dots, w_N\) は通常一様重みとし、典型的な設定として \(N = 4, w_n = 1/4\) が利用されます。

3.3 Brevity Penalty による長短補正

BLEU は適合率（precision）に偏重した指標であるため、システムが自信のある単語のみを短く出力した場合に高得点を得てしまう傾向があります。この問題に対処するため、仮説文の長さが参照文の長さに対して短すぎる場合にスコアを減衰させる brevity penalty（\(BP\)）が導入されています。

仮説コーパスの総長を \(c = \sum_{s=1}^{S} |h_s|\) と定義します。各文 \(s\) について、複数ある参照文の中で仮説長 \(|h_s|\) に最も近い長さを持つ参照文の長さを \(r_s^*\) とし、有効参照長 \(r = \sum_{s=1}^{S} |r_s^*|\) を求めます。実装上、長さの差が等しい参照長が複数存在する場合は、短い方の長さを選択するのが一般的です。

\[ BP = \begin{cases} 1 & (c > r) \\ \exp(1-r/c) & (c \le r) \end{cases} \]

仮説コーパス長が有効参照長を上回る場合はペナルティはかからず（\(BP=1\)）、短い場合のみ指数関数的にスコアが減少する仕組みとなっています。

3.4 文レベル評価 (Sentence-level BLEU) とスムージング手法

BLEU は本来コーパスレベルでの使用を想定した指標です。これを単一の文単位に適用すると、ある次数で一致数が 0 になった瞬間に \(\log p_n = -\infty\) となり、文の BLEU スコア全体が 0 に潰れやすくなるという課題があります。

このため、sentence-level での評価においてはスムージング（平滑化）を導入するのが標準的です。よく利用される手法の一つに、Chen & Cherry (2014) によって比較された NIST 由来の指数型スムージングがあります。この手法では、上位次数で初めて一致数 0 が発生した段階から、以下の式に従って微小な正の値を代入します。

\[ p_n \leftarrow \frac{1}{2^k \cdot \text{total}_n} \]

ここで \(k\) は 0 一致が発生するたびに増加する係数です。この処理により、部分的な不一致による極端なスコアの欠落を防ぎ、文単位でも安定した評価が可能となります。

4. chrF / chrF++: 文字レベル N-gram への拡張と形態論的頑健性

BLEU のような単語ベースの指標は、活用や語形変化、複合語の分割差などに対して脆弱であるという課題があります。この問題を緩和し、形態論的な変化により柔軟に対応できる指標が chrF およびその拡張版である chrF++ です。

4.1 chrF: 文字 N-gram の F 値計算

chrF は、文字レベルの \(n\)-gram の一致度に基づく F 値（F-score）です。単語境界に依存しにくいため、屈折の多い言語や軽微な表記揺れに対して頑健であるという特徴を持ちます。

仮説文 \(h\) と参照文 \(r\) に対して、文字 \(n\)-gram の出現回数をそれぞれ \(\operatorname{Count}^{(c,n)}_h(g)\)、\(\operatorname{Count}^{(c,n)}_r(g)\) と定義します。次数 \(n\) における適合率（Precision）と再現率（Recall）は以下のように定式化されます。

\[ P_n^{(c)} = \frac{\sum_g \min\bigl(\operatorname{Count}^{(c,n)}_h(g), \operatorname{Count}^{(c,n)}_r(g)\bigr)}{\sum_g \operatorname{Count}^{(c,n)}_h(g)} \]

\[ R_n^{(c)} = \frac{\sum_g \min\bigl(\operatorname{Count}^{(c,n)}_h(g), \operatorname{Count}^{(c,n)}_r(g)\bigr)}{\sum_g \operatorname{Count}^{(c,n)}_r(g)} \]

これらを文字次数 \(1\) から \(N_c\)（典型的な設定では \(N_c = 6\)）まで算術平均し、それぞれ \(\operatorname{chrP}\)、\(\operatorname{chrR}\) とする。最終的な chrF スコアは、以下の式で算出されます。

\[ \operatorname{chrF}_{\beta} = \frac{(1+\beta^2)\,\operatorname{chrP}\,\operatorname{chrR}}{\beta^2\operatorname{chrP}+\operatorname{chrR}} \]

パラメータ \(\beta\) によって適合率と再現率のバランスを調整可能であり、\(\beta > 1\) とすることで再現率に重みが置かれます。経験的に \(\beta=2\) とした chrF2 が優れた相関を示すことが多く、広く利用されています。なお、設計上の選択として、一般的に空白は文字としてカウントせずに除外して計算されます。

4.2 chrF++: 単語 N-gram の統合による語順制約の導入

chrF は語形変化に強い反面、語順の崩れに対する感度が弱いという欠点があります。この弱点を補うため、文字レベルの柔軟性を維持しつつ、短い単語 \(n\)-gram を追加して局所的な語順や語彙の一致性（lexical exactness）の評価を組み込んだ指標が chrF++ です。

文字次数 \(N_c\)（通常 \(N_c=6\)）に加え、単語次数 \(m\)（通常 \(N_w=2\) まで）における適合率 \(P_m^{(w)}\) と再現率 \(R_m^{(w)}\) をそれぞれ算出し、文字と単語の各次数をまとめて平均化します。

\[ P = \frac{\sum_{n=1}^{N_c} P_n^{(c)} + \sum_{m=1}^{N_w} P_m^{(w)}}{N_c + N_w} \]

\[ R = \frac{\sum_{n=1}^{N_c} R_n^{(c)} + \sum_{m=1}^{N_w} R_m^{(w)}}{N_c + N_w} \]

最終的な \(\operatorname{chrF++}_{\beta}\) は、上記で得られた \(P\) と \(R\) を用いて計算されます。

\[ \operatorname{chrF++}_{\beta} = \frac{(1+\beta^2)PR}{\beta^2P + R} \]

文字ベースの chrF はトークナイズへの依存度が非常に低いですが、chrF++ は単語 \(n\)-gram を導入するため、空白分割や句読点の分離、大文字・小文字の正規化といった単語分割の設計仕様に依存するようになる点に注意が必要です。

4.3 複数参照文の集約規則（Paper-style vs. sacreBLEU-style）

コーパス全体のスコアを集約する際、複数参照文の取り扱いや空次数のスムージング処理は実装ライブラリによって微細な差異が生じます。評価の再現性を担保するためには、以下のいずれかの集約スタイルを明示することが望まれます。

Paper-style: 単一参照文に対して各次数の適合率・再現率を計算し平均化する原論文の形式。複数参照文が存在する場合は、参照文ごとにスコアを計算し、その最大値または平均値を取得します。
sacreBLEU-style: 文ごとに各参照文との chrF を計算し、最も高いスコアを示した「最良の参照文」を選定した上で、その十分統計量をコーパス全体で合算します。最良の参照文インデックス \(k_s^*\) は以下のように決定されます。

\[ k_s^* = \arg\max_k \operatorname{chrF}_{\beta}(h_s, r_s^{(k)}) \]

異なるツール間でのスコア比較を行う際は、これらの実装差による影響を考慮する必要があります。

5. ROUGE: 再現率と最長共通部分列に基づく指標族

5.1 指標族としての ROUGE と評価指向（要約タスクの網羅性）

ROUGE は単一の指標を指す名称ではなく、複数の評価手法を包含する指標族です。原論文においては、主に ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-S などのバリエーションが定義されています。

システム出力を分母とする適合率（Precision）に重きを置く BLEU と比較して、ROUGE は 再現率（Recall） を重視して設計されている点が最大の特徴です。そのため、参照データに含まれる情報要素をシステム出力がどれだけ網羅できているかが問われる、テキスト要約タスクの評価において標準的に採用されています。

5.2 ROUGE-N: 単語 N-gram 再現率

ROUGE-N は、単語 \(n\)-gram のオーバーラップに基づく評価指標です。適合率型の BLEU とは対照的に、ROUGE-N は 参照文側を分母に置く再現率型 の算出式をとります。

単一の参照文 \(r\) と仮説（システム出力） \(c\) に対する単語 \(n\)-gram 再現率は、以下のように定義されます。

\[ \operatorname{ROUGE\text{-}N}(r,c) = \frac{\sum_g \min\bigl(\operatorname{Count}_r(g), \operatorname{Count}_c(g)\bigr)}{\sum_g \operatorname{Count}_r(g)} \]

複数参照文の扱いと実装上の注意

複数参照文が存在する場合、原論文の ROUGE パッケージでは、各参照文との ROUGE スコアをペアワイズに計算して最大値を取る実装や、ジャックナイフ法（jackknifing）を併用する手順が説明されています。しかし、近年の評価ライブラリでは平均値を取る実装なども存在するため、複数参照文の評価においては どの集約規則を採用したかを必ず明記 することが再現性の担保において重要となります。

5.3 ROUGE-L / W / S: 系列構造（LCS・Skip-bigram）の評価

要約テキストにおける文順やフレーズのまとまりなど、系列としての構造を評価するため、ROUGE 族には単純な \(n\)-gram 以外の手法も導入されています。

ROUGE-L（最長共通部分列）

最長共通部分列（LCS: Longest Common Subsequence）を利用した指標です。要素が連続している必要はありませんが、単語の出現順序が保たれているかを評価します。参照列を \(X=(x_1,\dots,x_m)\)、候補列を \(Y=(y_1,\dots,y_n)\) とし、LCS 長を \(L = \operatorname{LCS}(X,Y)\) とすると、文レベルの ROUGE-L は以下で算出されます。

\[ R_{lcs} = \frac{L}{m}, \qquad P_{lcs} = \frac{L}{n} \]

\[ F_{lcs} = \frac{(1+\beta^2)R_{lcs}P_{lcs}}{R_{lcs}+\beta^2P_{lcs}} \]

要約全体（コーパスレベル）の評価においては、原論文で summary-level の union-LCS と呼ばれる算出定義が用いられます。

ROUGE-W（重み付き LCS）

ROUGE-L で用いられる LCS は順序関係を評価するものの、連続した一致と離散的な一致の長さを区別しません。ROUGE-W はこれを改良した Weighted LCS であり、連続して長く一致する部分列に対してより大きな報酬を与える設計となっています。具体的には、\(f(k) = k^2\) などの条件を満たす重み関数を利用し、動的計画法（DP）により計算されます。

ROUGE-S（Skip-bigram）

順序を保った 2 語の組（Skip-bigram）を単位としてマッチングを評価する指標です。2 語の間に任意の単語が介在しても許容されます。一致数を \(SKIP2(X,Y)\) とすると、再現率と適合率は以下のように求められます。

\[ R_{skip2} = \frac{SKIP2(X,Y)}{\binom{m}{2}}, \qquad P_{skip2} = \frac{SKIP2(X,Y)}{\binom{n}{2}} \]

また、無制限なスキップを防ぐため、単語間の距離に最大値（\(d_{skip}\)）の制約を設けるバリエーションも存在します。その場合、分母もその距離制約内で生成可能な Skip-bigram の総数に置き換えられます。

6. METEOR: 明示的アライメントと語彙資源を利用した一般化

METEOR は、BLEU が抱えていた「適合率への偏重」に対する反省から設計された評価指標です。BLEU などの N-gram ベースの指標とは異なり、明示的な単語の対応付け（アライメント）を算出し、再現率に重きを置いた F 値に断片化ペナルティを適用してスコアを算出します。さらに、厳密な表層一致に留まらず、ステミング（stemming）や類義語（synonym）、言い換え（paraphrase）表現といった外部の語彙資源を利用する拡張性を備えている点が最大の特徴です。

6.1 1-to-1 アライメントと階層的マッチングモジュール

METEOR の計算の基盤となるのは、仮説文と参照文の間の 1 対 1 アライメントの構築です。仮説側の語列 \(t_1,\dots,t_m\) と参照側の語列 \(r_1,\dots,r_n\) において、各単語が高々 1 回だけ対応するアライメント集合 \(A \subseteq \{1,\dots,m\} \times \{1,\dots,n\}\) を定義します。

複数のアライメント候補が存在するケースでは、METEOR はまず「対応する単語数が最大」となるアライメントを優先します。それでも候補が絞りきれない場合は、「交差（cross）が最も少ない」アライメントを選択します。なお、2つの対応 \((t_i,r_j)\) と \((t_k,r_l)\) が交差する条件は、位置関係を用いて \((i-k)(j-l) < 0\) と定式化されます。

原論文における基本的なマッチング処理は、以下の階層的なモジュール順に適用されます。

Exact match（完全一致）
Stem match（語幹一致）
WordNet synonym match（WordNet を利用した類義語一致）

後段のモジュールは、前段までの処理でまだ対応付けられていない単語に対してのみ適用されるため、複数モジュールを組み合わせた網羅的なマッチングが実現されます。

6.2 チャンクペナルティ (Chunk Penalty) の導入

アライメントによる一致語数を \(M = |A|\) としたとき、適合率 \(P\) と再現率 \(R\) はそれぞれ \(P = M/|h|\)、\(R = M/|r|\) で求められます。2005 年版の基本設計では、再現率を適合率よりも極めて高く評価し、調和平均の変形である F 値（\(F_{mean}\)）を以下のように算出します。

\[ F_{mean} = \frac{10PR}{R+9P} \]

これに加えて、METEOR は語順の乱れや流暢性の低下を「チャンクペナルティ（Chunk Penalty）」として評価に組み込んでいます。仮説側と参照側の双方において、一致した単語が「連続かつ同順」で並んでいる最小のまとまりをチャンク（chunk）と定義します。このチャンク数を \(ch\) としたとき、ペナルティは以下の式で計算されます。

\[ Penalty = 0.5\left(\frac{ch}{M}\right)^3 \]

単語の並びが完全に一致していればチャンク数は 1 となりペナルティは最小となりますが、一致語が断片化して離散するほどチャンク数が増加し、ペナルティが大きくなる設計となっています。

最終的な METEOR スコアは、算出した F 値からペナルティを減算する形で以下の通り定義されます。

\[ METEOR = F_{mean}(1-Penalty) \]

なお、複数の参照文が存在するタスクにおいては、各参照文に対して個別にスコアを計算し、その最大値を該当文の評価値として採用します。

6.3 METEOR Universal によるパラメータの一般化

後続研究である「METEOR Universal」等では、多様な言語やタスクへの適用を考慮し、各マッチングモジュールへの重み付けや、内容語（content word）と機能語（function word）の区別といったパラメータの一般化が行われています。

モジュール \(i\) の重みを \(w_i\)、内容語の評価重みを \(\delta\) とし、仮説・参照それぞれの語を分類して計算することで、適合率および再現率の算出式は以下のように拡張されます。

\[ P = \frac{\sum_i w_i\bigl(\delta m_i(h_c) + (1-\delta)m_i(h_f)\bigr)}{\delta |h_c| + (1-\delta)|h_f|} \]

\[ R = \frac{\sum_i w_i\bigl(\delta m_i(r_c) + (1-\delta)m_i(r_f)\bigr)}{\delta |r_c| + (1-\delta)|r_f|} \]

ここで \(h_c, h_f\) は仮説文内の内容語・機能語数、\(r_c, r_f\) は参照文内の内容語・機能語数を示し、\(m_i(\cdot)\) はモジュール \(i\) によってマッチした単語数を示します。

さらに、\(F_{mean}\) とペナルティの算出についても、ハイパーパラメータ \(\alpha, \beta, \gamma\) を導入して次のように一般化されました。

\[ F_{mean} = \frac{PR}{\alpha P + (1-\alpha)R} \]

\[ Pen = \gamma \left(\frac{ch}{m}\right)^{\beta} \]

\[ Score = (1-Pen)F_{mean} \]

ここで \(m\) は仮説側と参照側の被覆語数の平均を意味します。

2005 年版の初期 METEOR は、この一般形における特殊ケースとして解釈可能です。具体的には、単一の unigram ベース一致のみを用い、パラメータを \(\alpha = 0.9\)、\(\gamma = 0.5\)、\(\beta = 3\) に設定（この条件では \(m=M\) とみなされる）することで初期式の挙動と一致します。このように、METEOR はアライメント構造とパラメータチューニングの柔軟性を持つため、単純な表層マッチングを超えた精緻な評価分析が可能となっています。

7. 結論

本稿では、テキスト生成タスクにおける代表的な表層マッチング評価指標について、その数理的な定義と設計思想を整理しました。各指標の特性を総括すると以下のようになります。

BLEU: 単語 N-gram 適合率の幾何平均に brevity penalty（短すぎる出力への罰則）を掛ける、古典的かつ再現性の高い機械翻訳向け指標です。
chrF / chrF++: chrF は文字 N-gram の F 値に基づいて算出され、形態変化やトークナイズ手法の差異に対して高い頑健性を持ちます。chrF++ はこれに短い単語 N-gram を追加し、語順に対する感度を補った拡張版です。
ROUGE: 再現率（Recall）を重視して設計された指標族であり、要約タスクにおいては主に ROUGE-N や ROUGE-L が標準的に用いられます。
METEOR: 明示的な単語アライメント、再現率への重み付け、語順の崩れを罰するチャンクペナルティ、および外部の語彙資源を組み合わせた、BLEU よりも表現力の豊かな設計を持っています。

これらの表層マッチング指標は、システム出力と参照文の「意味的な等価性そのもの」を完全に評価することはできません。しかしながら、計算負荷が軽く実装が容易であること、参照文ベースでの定量比較がしやすいこと、そして過去のベンチマークとの互換性が高いことなどから、現在でもモデル評価の実験系において極めて重要な役割を担っています。

実務におけるシステム評価のベストプラクティスとしては、単一の指標に依存するのではなく、複数の指標を併記して多角的に評価することが推奨されます。例えば、機械翻訳タスクであれば「BLEU + chrF」、要約タスクであれば「ROUGE-N + ROUGE-L」のように組み合わせることで、特定の前処理や指標の持つバイアスを緩和し、より安全で信頼性の高いパフォーマンス測定が可能になります。

8. 参考文献

本稿の数式定義およびアルゴリズムの解説は、以下の原著論文および実装標準に基づいています。

Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002). "BLEU: a Method for Automatic Evaluation of Machine Translation". ACL 2002.
Chen, B., & Cherry, C. (2014). "A Systematic Comparison of Smoothing Techniques for Sentence-Level BLEU". WMT 2014.
Post, M. (2018). "A Call for Clarity in Reporting BLEU Scores". WMT 2018.
Popovic, M. (2015). "chrF: character n-gram F-score for automatic MT evaluation". WMT 2015.
Popovic, M. (2016). "chrF deconstructed: beta parameters and n-gram weights". WMT 2016.
Popovic, M. (2017). "chrF++: words helping character n-grams". WMT 2017.
Lin, C. Y. (2004). "ROUGE: A Package for Automatic Evaluation of Summaries". Workshop on Text Summarization Branches Out.
Banerjee, S., & Lavie, A. (2005). "METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments". ACL Workshop 2005.
Denkowski, M., & Lavie, A. (2014). "Meteor Universal: Language Specific Translation Evaluation for Any Target Language". WMT 2014.
sacreBLEU project (GitHub). BLEU、chrF、TER の比較可能で標準化された実装を提供するライブラリ。実務における複数参照処理やシグネチャ管理の基準として広く利用されています。