BLEU(Bilingual Evaluation Understudy)是一種用於機器翻譯品質評估的評估指標。BLEU-4是指使用4-gram(四個詞)精確匹配的BLEU得分。
計算BLEU-4的步驟如下:
- 首先,計算參考翻譯(reference translation)中所有四個詞的n-gram的出現次數。
- 然後,計算被評估翻譯(candidate translation)中所有四個詞的n-gram的出現次數。
- 接下來,對於每個n-gram,計算被評估翻譯中該n-gram的出現次數與所有參考翻譯中該n-gram的出現次數的最大值。
- 然後,計算加權幾何平均(weighted geometric mean)以獲得BLEU-4得分。權重計算方式是取1/4,即所有n-gram的權重相等。
公式如下:
BLEU-4 = BP * exp(1/4 * (log(p1) + log(p2) + log(p3) + log(p4)))
其中,BP是短句懲罰因子(brevity penalty),用於懲罰被評估翻譯與參考翻譯之間的長度差異。如果被評估翻譯比參考翻譯長,則BP值為1;如果被評估翻譯比參考翻譯短,則BP值小於1。
p1、p2、p3和p4分別是四個詞的n-gram精確匹配的比例。如果被評估翻譯中的n-gram不在參考翻譯中出現,則相應的p值為0。
需要注意的是,BLEU-4只是BLEU的一種變體,它也可以應用於其他n-gram的匹配程度評估。