【原】LLMs之benchmark之OpenCompass：OpenCompass的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

處女座的程序猿 2024-06-19 發(fā)布于上海

展開全文

LLMs之benchmark之OpenCompass：OpenCompass的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

OpenCompass的簡介

2023年7月發(fā)布，OpenCompass 是面向大模型評測的一站式平臺(tái)。其主要特點(diǎn)如下：

開源可復(fù)現(xiàn)：提供公平、公開、可復(fù)現(xiàn)的大模型評測方案
全面的能力維度：五大維度設(shè)計(jì)，提供 70+ 個(gè)數(shù)據(jù)集約 40 萬題的的模型評測方案，全面評估模型能力
豐富的模型支持：已支持 20+ HuggingFace 及 API 模型
分布式高效評測：一行命令實(shí)現(xiàn)任務(wù)分割和分布式評測，數(shù)小時(shí)即可完成千億模型全量評測
多樣化評測范式：支持零樣本、小樣本及思維鏈評測，結(jié)合標(biāo)準(zhǔn)型或?qū)υ捫吞崾驹~模板，輕松激發(fā)各種模型最大性能
靈活化拓展：想增加新模型或數(shù)據(jù)集？想要自定義更高級(jí)的任務(wù)分割策略，甚至接入新的集群管理系統(tǒng)？OpenCompass 的一切均可輕松擴(kuò)展！

Github地址：GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

1、性能榜單

將陸續(xù)提供開源模型和 API 模型的具體性能榜單，請見?OpenCompass Leaderboard?。

2、最新進(jìn)展?

[2024.05.08]?我們支持了以下四個(gè)MoE模型的評測配置文件:?Mixtral-8x22B-v0.1,?Mixtral-8x22B-Instruct-v0.1,?Qwen1.5-MoE-A2.7B,?Qwen1.5-MoE-A2.7B-Chat?。歡迎試用!
[2024.04.30]?我們支持了計(jì)算模型在給定數(shù)據(jù)集上的壓縮率（Bits per Character）的評測方法（官方文獻(xiàn)）。歡迎試用llm-compression評測集! 🔥🔥🔥
[2024.04.26]?我們報(bào)告了典型LLM在常用基準(zhǔn)測試上的表現(xiàn)，歡迎訪問文檔以獲取更多信息！🔥🔥🔥.
[2024.04.26]?我們廢棄了 OpenCompass 進(jìn)行多模態(tài)大模型評測的功能，相關(guān)功能轉(zhuǎn)移至?VLMEvalKit，推薦使用！🔥🔥🔥.
[2024.04.26]?我們支持了?ArenaHard評測?歡迎試用！🔥🔥🔥.
[2024.04.22]?我們支持了?LLaMA3?和?LLaMA3-Instruct?的評測，歡迎試用！🔥🔥🔥.
[2024.02.29]?我們支持了MT-Bench、AlpacalEval和AlignBench，更多信息可以在這里找到。
[2024.01.30]?我們發(fā)布了OpenCompass 2.0。更多信息，請?jiān)L問CompassKit、CompassHub和CompassRank。

3、OpenCompass 2.0

我們很高興發(fā)布 OpenCompass 司南 2.0 大模型評測體系，它主要由三大核心模塊構(gòu)建而成：CompassKit、CompassHub以及CompassRank。

CompassRank?系統(tǒng)進(jìn)行了重大革新與提升，現(xiàn)已成為一個(gè)兼容并蓄的排行榜體系，不僅囊括了開源基準(zhǔn)測試項(xiàng)目，還包含了私有基準(zhǔn)測試。此番升級(jí)極大地拓寬了對行業(yè)內(nèi)各類模型進(jìn)行全面而深入測評的可能性。

CompassHub?創(chuàng)新性地推出了一個(gè)基準(zhǔn)測試資源導(dǎo)航平臺(tái)，其設(shè)計(jì)初衷旨在簡化和加快研究人員及行業(yè)從業(yè)者在多樣化的基準(zhǔn)測試庫中進(jìn)行搜索與利用的過程。為了讓更多獨(dú)具特色的基準(zhǔn)測試成果得以在業(yè)內(nèi)廣泛傳播和應(yīng)用，我們熱忱歡迎各位將自定義的基準(zhǔn)數(shù)據(jù)貢獻(xiàn)至CompassHub平臺(tái)。只需輕點(diǎn)鼠標(biāo)，通過訪問這里，即可啟動(dòng)提交流程。

CompassKit?是一系列專為大型語言模型和大型視覺-語言模型打造的強(qiáng)大評估工具合集，它所提供的全面評測工具集能夠有效地對這些復(fù)雜模型的功能性能進(jìn)行精準(zhǔn)測量和科學(xué)評估。在此，我們誠摯邀請您在學(xué)術(shù)研究或產(chǎn)品研發(fā)過程中積極嘗試運(yùn)用我們的工具包，以助您取得更加豐碩的研究成果和產(chǎn)品優(yōu)化效果。

OpenCompass的安裝和使用方法

安裝

下面展示了快速安裝以及準(zhǔn)備數(shù)據(jù)集的步驟。

💻 環(huán)境配置

面向開源模型的GPU環(huán)境

conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .

面向API模型測試的CPU環(huán)境

conda create -n opencompass python=3.10 pytorch torchvision torchaudio cpuonly -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
# 如果需要使用各個(gè)API模型，請 `pip install -r requirements/api.txt` 安裝API模型的相關(guān)依賴

📂 數(shù)據(jù)準(zhǔn)備

# 下載數(shù)據(jù)集到 data/ 處
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip

有部分第三方功能,如 Humaneval 以及 Llama,可能需要額外步驟才能正常運(yùn)行，詳細(xì)步驟請參考安裝指南。

🏗? ?評測

確保按照上述步驟正確安裝 OpenCompass 并準(zhǔn)備好數(shù)據(jù)集后，可以通過以下命令評測 LLaMA-7b 模型在 MMLU 和 C-Eval 數(shù)據(jù)集上的性能：

python run.py --models hf_llama_7b --datasets mmlu_ppl ceval_ppl

OpenCompass 預(yù)定義了許多模型和數(shù)據(jù)集的配置，你可以通過?工具?列出所有可用的模型和數(shù)據(jù)集配置。

# 列出所有配置
python tools/list_configs.py
# 列出所有跟 llama 及 mmlu 相關(guān)的配置
python tools/list_configs.py llama mmlu

你也可以通過命令行去評測其它 HuggingFace 模型。同樣以 LLaMA-7b 為例：

python run.py --datasets ceval_ppl mmlu_ppl --hf-type base --hf-path huggyllama/llama-7b

通過命令行或配置文件，OpenCompass 還支持評測 API 或自定義模型，以及更多樣化的評測策略。請閱讀快速開始了解如何運(yùn)行一個(gè)評測任務(wù)。

更多教程請查看我們的文檔。

📖 數(shù)據(jù)集支持

語言	知識(shí)	推理	考試
字詞釋義 WiC SummEdits 成語習(xí)語 CHID 語義相似度 AFQMC BUSTM 指代消解 CLUEWSC WSC WinoGrande 翻譯 Flores IWSLT2017 多語種問答 TyDi-QA XCOPA 多語種總結(jié) XLSum	知識(shí)問答 BoolQ CommonSenseQA NaturalQuestions TriviaQA	文本蘊(yùn)含 CMNLI OCNLI OCNLI_FC AX-b AX-g CB RTE ANLI 常識(shí)推理 StoryCloze COPA ReCoRD HellaSwag PIQA SIQA 數(shù)學(xué)推理 MATH GSM8K 定理應(yīng)用 TheoremQA StrategyQA SciBench 綜合推理 BBH	初中/高中/大學(xué)/職業(yè)考試 C-Eval AGIEval MMLU GAOKAO-Bench CMMLU ARC Xiezhi 醫(yī)學(xué)考試 CMB
理解	長文本	安全	代碼
閱讀理解 C3 CMRC DRCD MultiRC RACE DROP OpenBookQA SQuAD2.0 內(nèi)容總結(jié) CSL LCSTS XSum SummScreen 內(nèi)容分析 EPRSTMT LAMBADA TNEWS	長文本理解 LEval LongBench GovReports NarrativeQA Qasper	安全 CivilComments CrowsPairs CValues JigsawMultilingual TruthfulQA 健壯性 AdvGLUE	代碼 HumanEval HumanEvalX MBPP APPs DS1000

📖 模型支持

開源模型	API 模型
InternLM LLaMA LLaMA3 Vicuna Alpaca Baichuan WizardLM ChatGLM2 ChatGLM3 TigerBot Qwen BlueLM Gemma ……	OpenAI Gemini Claude ZhipuAI(ChatGLM) Baichuan ByteDance(YunQue) Huawei(PanGu) 360 Baidu(ERNIEBot) MiniMax(ABAB-Chat) SenseTime(nova) Xunfei(Spark) ……