LLMs之benchmark之OpenCompass:OpenCompass的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略
OpenCompass的簡介

2023年7月發(fā)布,OpenCompass 是面向大模型評測的一站式平臺(tái)。其主要特點(diǎn)如下:
-
開源可復(fù)現(xiàn):提供公平、公開、可復(fù)現(xiàn)的大模型評測方案
-
全面的能力維度:五大維度設(shè)計(jì),提供 70+ 個(gè)數(shù)據(jù)集約 40 萬題的的模型評測方案,全面評估模型能力
-
豐富的模型支持:已支持 20+ HuggingFace 及 API 模型
-
分布式高效評測:一行命令實(shí)現(xiàn)任務(wù)分割和分布式評測,數(shù)小時(shí)即可完成千億模型全量評測
-
多樣化評測范式:支持零樣本、小樣本及思維鏈評測,結(jié)合標(biāo)準(zhǔn)型或?qū)υ捫吞崾驹~模板,輕松激發(fā)各種模型最大性能
-
靈活化拓展:想增加新模型或數(shù)據(jù)集?想要自定義更高級(jí)的任務(wù)分割策略,甚至接入新的集群管理系統(tǒng)?OpenCompass 的一切均可輕松擴(kuò)展!
Github地址:GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.
1、性能榜單
將陸續(xù)提供開源模型和 API 模型的具體性能榜單,請見?OpenCompass Leaderboard?。

2、最新進(jìn)展?
- [2024.05.08]?我們支持了以下四個(gè)MoE模型的評測配置文件:?Mixtral-8x22B-v0.1,?Mixtral-8x22B-Instruct-v0.1,?Qwen1.5-MoE-A2.7B,?Qwen1.5-MoE-A2.7B-Chat?。歡迎試用!
- [2024.04.30]?我們支持了計(jì)算模型在給定數(shù)據(jù)集上的壓縮率(Bits per Character)的評測方法(官方文獻(xiàn))。歡迎試用llm-compression評測集! 🔥🔥🔥
- [2024.04.26]?我們報(bào)告了典型LLM在常用基準(zhǔn)測試上的表現(xiàn),歡迎訪問文檔以獲取更多信息!🔥🔥🔥.
- [2024.04.26]?我們廢棄了 OpenCompass 進(jìn)行多模態(tài)大模型評測的功能,相關(guān)功能轉(zhuǎn)移至?VLMEvalKit,推薦使用!🔥🔥🔥.
- [2024.04.26]?我們支持了?ArenaHard評測?歡迎試用!🔥🔥🔥.
- [2024.04.22]?我們支持了?LLaMA3?和?LLaMA3-Instruct?的評測,歡迎試用!🔥🔥🔥.
- [2024.02.29]?我們支持了MT-Bench、AlpacalEval和AlignBench,更多信息可以在這里找到。
- [2024.01.30]?我們發(fā)布了OpenCompass 2.0。更多信息,請?jiān)L問CompassKit、CompassHub和CompassRank。
3、OpenCompass 2.0
我們很高興發(fā)布 OpenCompass 司南 2.0 大模型評測體系,它主要由三大核心模塊構(gòu)建而成:CompassKit、CompassHub以及CompassRank。
CompassRank?系統(tǒng)進(jìn)行了重大革新與提升,現(xiàn)已成為一個(gè)兼容并蓄的排行榜體系,不僅囊括了開源基準(zhǔn)測試項(xiàng)目,還包含了私有基準(zhǔn)測試。此番升級(jí)極大地拓寬了對行業(yè)內(nèi)各類模型進(jìn)行全面而深入測評的可能性。
CompassHub?創(chuàng)新性地推出了一個(gè)基準(zhǔn)測試資源導(dǎo)航平臺(tái),其設(shè)計(jì)初衷旨在簡化和加快研究人員及行業(yè)從業(yè)者在多樣化的基準(zhǔn)測試庫中進(jìn)行搜索與利用的過程。為了讓更多獨(dú)具特色的基準(zhǔn)測試成果得以在業(yè)內(nèi)廣泛傳播和應(yīng)用,我們熱忱歡迎各位將自定義的基準(zhǔn)數(shù)據(jù)貢獻(xiàn)至CompassHub平臺(tái)。只需輕點(diǎn)鼠標(biāo),通過訪問這里,即可啟動(dòng)提交流程。
CompassKit?是一系列專為大型語言模型和大型視覺-語言模型打造的強(qiáng)大評估工具合集,它所提供的全面評測工具集能夠有效地對這些復(fù)雜模型的功能性能進(jìn)行精準(zhǔn)測量和科學(xué)評估。在此,我們誠摯邀請您在學(xué)術(shù)研究或產(chǎn)品研發(fā)過程中積極嘗試運(yùn)用我們的工具包,以助您取得更加豐碩的研究成果和產(chǎn)品優(yōu)化效果。
OpenCompass的安裝和使用方法
安裝
下面展示了快速安裝以及準(zhǔn)備數(shù)據(jù)集的步驟。
💻 環(huán)境配置
面向開源模型的GPU環(huán)境
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
面向API模型測試的CPU環(huán)境
conda create -n opencompass python=3.10 pytorch torchvision torchaudio cpuonly -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
# 如果需要使用各個(gè)API模型,請 `pip install -r requirements/api.txt` 安裝API模型的相關(guān)依賴
📂 數(shù)據(jù)準(zhǔn)備
# 下載數(shù)據(jù)集到 data/ 處
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip
有部分第三方功能,如 Humaneval 以及 Llama,可能需要額外步驟才能正常運(yùn)行,詳細(xì)步驟請參考安裝指南。
🏗? ?評測
確保按照上述步驟正確安裝 OpenCompass 并準(zhǔn)備好數(shù)據(jù)集后,可以通過以下命令評測 LLaMA-7b 模型在 MMLU 和 C-Eval 數(shù)據(jù)集上的性能:
python run.py --models hf_llama_7b --datasets mmlu_ppl ceval_ppl
OpenCompass 預(yù)定義了許多模型和數(shù)據(jù)集的配置,你可以通過?工具?列出所有可用的模型和數(shù)據(jù)集配置。
# 列出所有配置
python tools/list_configs.py
# 列出所有跟 llama 及 mmlu 相關(guān)的配置
python tools/list_configs.py llama mmlu
你也可以通過命令行去評測其它 HuggingFace 模型。同樣以 LLaMA-7b 為例:
python run.py --datasets ceval_ppl mmlu_ppl --hf-type base --hf-path huggyllama/llama-7b
通過命令行或配置文件,OpenCompass 還支持評測 API 或自定義模型,以及更多樣化的評測策略。請閱讀快速開始了解如何運(yùn)行一個(gè)評測任務(wù)。
更多教程請查看我們的文檔。
📖 數(shù)據(jù)集支持
| 語言 | 知識(shí) | 推理 | 考試 |
| 字詞釋義
成語習(xí)語
語義相似度
指代消解
翻譯
多語種問答
多語種總結(jié)
| 知識(shí)問答
- BoolQ
- CommonSenseQA
- NaturalQuestions
- TriviaQA
| 文本蘊(yùn)含
- CMNLI
- OCNLI
- OCNLI_FC
- AX-b
- AX-g
- CB
- RTE
- ANLI
常識(shí)推理
- StoryCloze
- COPA
- ReCoRD
- HellaSwag
- PIQA
- SIQA
數(shù)學(xué)推理
定理應(yīng)用
- TheoremQA
- StrategyQA
- SciBench
綜合推理
| 初中/高中/大學(xué)/職業(yè)考試
- C-Eval
- AGIEval
- MMLU
- GAOKAO-Bench
- CMMLU
- ARC
- Xiezhi
醫(yī)學(xué)考試
|
| 理解 | 長文本 | 安全 | 代碼 |
閱讀理解
- C3
- CMRC
- DRCD
- MultiRC
- RACE
- DROP
- OpenBookQA
- SQuAD2.0
內(nèi)容總結(jié)
內(nèi)容分析
| 長文本理解
- LEval
- LongBench
- GovReports
- NarrativeQA
- Qasper
| 安全
- CivilComments
- CrowsPairs
- CValues
- JigsawMultilingual
- TruthfulQA
健壯性
| 代碼
- HumanEval
- HumanEvalX
- MBPP
- APPs
- DS1000
|
📖 模型支持
| 開源模型 | API 模型 |
- InternLM
- LLaMA
- LLaMA3
- Vicuna
- Alpaca
- Baichuan
- WizardLM
- ChatGLM2
- ChatGLM3
- TigerBot
- Qwen
- BlueLM
- Gemma
- ……
|
- OpenAI
- Gemini
- Claude
- ZhipuAI(ChatGLM)
- Baichuan
- ByteDance(YunQue)
- Huawei(PanGu)
- 360
- Baidu(ERNIEBot)
- MiniMax(ABAB-Chat)
- SenseTime(nova)
- Xunfei(Spark)
- ……
|
🔜 路線圖
- ?主觀評測
- ?發(fā)布主觀評測榜單
- ?發(fā)布主觀評測數(shù)據(jù)集
- ?長文本
- ?支持廣泛的長文本評測集
- ?發(fā)布長文本評測榜單
- ?代碼能力
- ?發(fā)布代碼能力評測榜單
- ?提供非Python語言的評測服務(wù)
- ?智能體
- ?魯棒性
OpenCompass的案例應(yīng)用
持續(xù)更新中……