小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

LLMs之benchmark之OpenCompass:OpenCompass的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

 處女座的程序猿 2024-06-19 發(fā)布于上海

LLMs之benchmark之OpenCompass:OpenCompass的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略


OpenCompass的簡介

2023年7月發(fā)布,OpenCompass 是面向大模型評測的一站式平臺(tái)。其主要特點(diǎn)如下:

  • 開源可復(fù)現(xiàn):提供公平、公開、可復(fù)現(xiàn)的大模型評測方案

  • 全面的能力維度:五大維度設(shè)計(jì),提供 70+ 個(gè)數(shù)據(jù)集約 40 萬題的的模型評測方案,全面評估模型能力

  • 豐富的模型支持:已支持 20+ HuggingFace 及 API 模型

  • 分布式高效評測:一行命令實(shí)現(xiàn)任務(wù)分割和分布式評測,數(shù)小時(shí)即可完成千億模型全量評測

  • 多樣化評測范式:支持零樣本、小樣本及思維鏈評測,結(jié)合標(biāo)準(zhǔn)型或?qū)υ捫吞崾驹~模板,輕松激發(fā)各種模型最大性能

  • 靈活化拓展:想增加新模型或數(shù)據(jù)集?想要自定義更高級(jí)的任務(wù)分割策略,甚至接入新的集群管理系統(tǒng)?OpenCompass 的一切均可輕松擴(kuò)展!

Github地址GitHub - open-compass/opencompass: OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

1、性能榜單

將陸續(xù)提供開源模型和 API 模型的具體性能榜單,請見?OpenCompass Leaderboard?。

2、最新進(jìn)展?

  • [2024.05.08]?我們支持了以下四個(gè)MoE模型的評測配置文件:?Mixtral-8x22B-v0.1,?Mixtral-8x22B-Instruct-v0.1,?Qwen1.5-MoE-A2.7B,?Qwen1.5-MoE-A2.7B-Chat?。歡迎試用!
  • [2024.04.30]?我們支持了計(jì)算模型在給定數(shù)據(jù)集上的壓縮率(Bits per Character)的評測方法(官方文獻(xiàn))。歡迎試用llm-compression評測集! 🔥🔥🔥
  • [2024.04.26]?我們報(bào)告了典型LLM在常用基準(zhǔn)測試上的表現(xiàn),歡迎訪問文檔以獲取更多信息!🔥🔥🔥.
  • [2024.04.26]?我們廢棄了 OpenCompass 進(jìn)行多模態(tài)大模型評測的功能,相關(guān)功能轉(zhuǎn)移至?VLMEvalKit,推薦使用!🔥🔥🔥.
  • [2024.04.26]?我們支持了?ArenaHard評測?歡迎試用!🔥🔥🔥.
  • [2024.04.22]?我們支持了?LLaMA3?和?LLaMA3-Instruct?的評測,歡迎試用!🔥🔥🔥.
  • [2024.02.29]?我們支持了MT-Bench、AlpacalEval和AlignBench,更多信息可以在這里找到。
  • [2024.01.30]?我們發(fā)布了OpenCompass 2.0。更多信息,請?jiān)L問CompassKitCompassHubCompassRank。

3、OpenCompass 2.0

我們很高興發(fā)布 OpenCompass 司南 2.0 大模型評測體系,它主要由三大核心模塊構(gòu)建而成:CompassKit、CompassHub以及CompassRank

CompassRank?系統(tǒng)進(jìn)行了重大革新與提升,現(xiàn)已成為一個(gè)兼容并蓄的排行榜體系,不僅囊括了開源基準(zhǔn)測試項(xiàng)目,還包含了私有基準(zhǔn)測試。此番升級(jí)極大地拓寬了對行業(yè)內(nèi)各類模型進(jìn)行全面而深入測評的可能性。

CompassHub?創(chuàng)新性地推出了一個(gè)基準(zhǔn)測試資源導(dǎo)航平臺(tái),其設(shè)計(jì)初衷旨在簡化和加快研究人員及行業(yè)從業(yè)者在多樣化的基準(zhǔn)測試庫中進(jìn)行搜索與利用的過程。為了讓更多獨(dú)具特色的基準(zhǔn)測試成果得以在業(yè)內(nèi)廣泛傳播和應(yīng)用,我們熱忱歡迎各位將自定義的基準(zhǔn)數(shù)據(jù)貢獻(xiàn)至CompassHub平臺(tái)。只需輕點(diǎn)鼠標(biāo),通過訪問這里,即可啟動(dòng)提交流程。

CompassKit?是一系列專為大型語言模型和大型視覺-語言模型打造的強(qiáng)大評估工具合集,它所提供的全面評測工具集能夠有效地對這些復(fù)雜模型的功能性能進(jìn)行精準(zhǔn)測量和科學(xué)評估。在此,我們誠摯邀請您在學(xué)術(shù)研究或產(chǎn)品研發(fā)過程中積極嘗試運(yùn)用我們的工具包,以助您取得更加豐碩的研究成果和產(chǎn)品優(yōu)化效果。

OpenCompass的安裝和使用方法

安裝

下面展示了快速安裝以及準(zhǔn)備數(shù)據(jù)集的步驟。

💻 環(huán)境配置

面向開源模型的GPU環(huán)境
conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
面向API模型測試的CPU環(huán)境
conda create -n opencompass python=3.10 pytorch torchvision torchaudio cpuonly -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
# 如果需要使用各個(gè)API模型,請 `pip install -r requirements/api.txt` 安裝API模型的相關(guān)依賴

📂 數(shù)據(jù)準(zhǔn)備

# 下載數(shù)據(jù)集到 data/ 處
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip

有部分第三方功能,如 Humaneval 以及 Llama,可能需要額外步驟才能正常運(yùn)行,詳細(xì)步驟請參考安裝指南

🏗? ?評測

確保按照上述步驟正確安裝 OpenCompass 并準(zhǔn)備好數(shù)據(jù)集后,可以通過以下命令評測 LLaMA-7b 模型在 MMLU 和 C-Eval 數(shù)據(jù)集上的性能:

python run.py --models hf_llama_7b --datasets mmlu_ppl ceval_ppl

OpenCompass 預(yù)定義了許多模型和數(shù)據(jù)集的配置,你可以通過?工具?列出所有可用的模型和數(shù)據(jù)集配置。

# 列出所有配置
python tools/list_configs.py
# 列出所有跟 llama 及 mmlu 相關(guān)的配置
python tools/list_configs.py llama mmlu

你也可以通過命令行去評測其它 HuggingFace 模型。同樣以 LLaMA-7b 為例:

python run.py --datasets ceval_ppl mmlu_ppl --hf-type base --hf-path huggyllama/llama-7b

通過命令行或配置文件,OpenCompass 還支持評測 API 或自定義模型,以及更多樣化的評測策略。請閱讀快速開始了解如何運(yùn)行一個(gè)評測任務(wù)。

更多教程請查看我們的文檔。

📖 數(shù)據(jù)集支持

語言知識(shí)推理考試
字詞釋義
  • WiC
  • SummEdits
成語習(xí)語
  • CHID
語義相似度
  • AFQMC
  • BUSTM
指代消解
  • CLUEWSC
  • WSC
  • WinoGrande
翻譯
  • Flores
  • IWSLT2017
多語種問答
  • TyDi-QA
  • XCOPA
多語種總結(jié)
  • XLSum
知識(shí)問答
  • BoolQ
  • CommonSenseQA
  • NaturalQuestions
  • TriviaQA
文本蘊(yùn)含
  • CMNLI
  • OCNLI
  • OCNLI_FC
  • AX-b
  • AX-g
  • CB
  • RTE
  • ANLI
常識(shí)推理
  • StoryCloze
  • COPA
  • ReCoRD
  • HellaSwag
  • PIQA
  • SIQA
數(shù)學(xué)推理
  • MATH
  • GSM8K
定理應(yīng)用
  • TheoremQA
  • StrategyQA
  • SciBench
綜合推理
  • BBH
初中/高中/大學(xué)/職業(yè)考試
  • C-Eval
  • AGIEval
  • MMLU
  • GAOKAO-Bench
  • CMMLU
  • ARC
  • Xiezhi
醫(yī)學(xué)考試
  • CMB
理解長文本安全代碼
閱讀理解
  • C3
  • CMRC
  • DRCD
  • MultiRC
  • RACE
  • DROP
  • OpenBookQA
  • SQuAD2.0
內(nèi)容總結(jié)
  • CSL
  • LCSTS
  • XSum
  • SummScreen
內(nèi)容分析
  • EPRSTMT
  • LAMBADA
  • TNEWS
長文本理解
  • LEval
  • LongBench
  • GovReports
  • NarrativeQA
  • Qasper
安全
  • CivilComments
  • CrowsPairs
  • CValues
  • JigsawMultilingual
  • TruthfulQA
健壯性
  • AdvGLUE
代碼
  • HumanEval
  • HumanEvalX
  • MBPP
  • APPs
  • DS1000

📖 模型支持

開源模型API 模型
  • InternLM
  • LLaMA
  • LLaMA3
  • Vicuna
  • Alpaca
  • Baichuan
  • WizardLM
  • ChatGLM2
  • ChatGLM3
  • TigerBot
  • Qwen
  • BlueLM
  • Gemma
  • ……
  • OpenAI
  • Gemini
  • Claude
  • ZhipuAI(ChatGLM)
  • Baichuan
  • ByteDance(YunQue)
  • Huawei(PanGu)
  • 360
  • Baidu(ERNIEBot)
  • MiniMax(ABAB-Chat)
  • SenseTime(nova)
  • Xunfei(Spark)
  • ……

🔜 路線圖

  • ?主觀評測
    • ?發(fā)布主觀評測榜單
    • ?發(fā)布主觀評測數(shù)據(jù)集
  • ?長文本
    • ?支持廣泛的長文本評測集
    • ?發(fā)布長文本評測榜單
  • ?代碼能力
    • ?發(fā)布代碼能力評測榜單
    • ?提供非Python語言的評測服務(wù)
  • ?智能體
    • ?支持豐富的智能體方案
    • ?提供智能體評測榜單
  • ?魯棒性
    • ?支持各類攻擊方法

OpenCompass的案例應(yīng)用

持續(xù)更新中……

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章