和一位朋友討論 LLM evaluation (成效評估) 和其一些 benchmark (比較基準) datasets 的相關問題
1. LLM 模型評估很難,那模型評估 (evaluation) 是什麼?
-
因為面對語言類型的任務通常沒有絕對的正確或錯誤,所以我們會設計一些資料來測驗 LLM 的能力,這些 benchmark datasets 只能作為驗證模型能力的某種 proxy。 而且各種資料集有各自專精的領域,類型包羅萬象,諸如:邏輯型、情緒型、翻譯、程式碼、數學解題、常識推理等等族繁不及備載。
-
以 BBH 基準資料集來說:
- 文字輸入:
False or not ( True ) and False is
- 文字輸入:
-
我們會期望模型文字輸出:
False