ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一種評估自動文本摘要系統效果的方法,它的核心思想是計算自動生成的摘要與參考摘要之間的相似度。ROUGE分數可以用來評估摘要的質量,通常用在文本自動摘要、機器翻譯、文本相似度等自然語言處理任務中。
常見的 ROUGE 分數包括:
- ROUGE-N:衡量自動生成的 N 元組與參考摘要中的 N 元組之間的匹配程度,其中 N 是一個正整數。
- ROUGE-L:衡量自動生成的最長公共子序列與參考摘要中的最長公共子序列之間的匹配程度。
- ROUGE-W:衡量自動生成的 N 元組與參考摘要中的 N 元組之間的匹配程度,同時考慮詞的位置權重。
- ROUGE-S:衡量自動生成的句子與參考摘要中的句子之間的匹配程度。
- ROUGE-SU:衡量自動生成的單詞組與參考摘要中的單詞組之間的匹配程度,同時考慮詞的順序和無序。
ROUGE 分數的計算方式比較複雜,通常使用相應的程式庫進行計算。在自然語言處理研究中,ROUGE 分數是一個重要的評估指標,可以幫助研究人員評估自動生成的摘要的質量。
根據 One AI 的評估整理,不同 ROUGE-L 分數的優劣如下: