【原】LLMs之OpenAI o1：OpenAI o1的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

處女座的程序猿 2024-09-13 發(fā)布于上海

展開全文

LLMs之OpenAI o1：OpenAI o1的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

導(dǎo)讀：OpenAI 推出全新推理模型系列 OpenAI o1，旨在提升 AI 模型的推理能力，使其能夠更深入地思考問題，并解決更復(fù)雜的任務(wù)，尤其在科學(xué)、編碼和數(shù)學(xué)領(lǐng)域表現(xiàn)出色。
背景痛點：現(xiàn)有 AI 模型在解決復(fù)雜問題時，推理能力不足，難以處理科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域中的難題。
解決方案：OpenAI 推出全新推理模型系列 OpenAI o1，旨在提升模型的推理能力，使其能夠更深入地思考問題，并解決更復(fù)雜的任務(wù)。
核心思路步驟:
>>? 訓(xùn)練方法：通過訓(xùn)練，模型學(xué)習(xí)更長時間地思考問題，嘗試不同的策略，并識別錯誤。
>>? 推理能力提升：模型能夠像人類一樣，進(jìn)行更深入的推理，并解決更復(fù)雜的問題。
>>? 安全保障：采用新的安全訓(xùn)練方法，利用模型的推理能力，使其更好地遵循安全和對齊準(zhǔn)則。
優(yōu)勢：
>>?強大的推理能力：在科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域表現(xiàn)出色，例如在國際數(shù)學(xué)奧林匹克競賽中取得了優(yōu)異的成績。
>>?安全可靠：新的安全訓(xùn)練方法有效提升了模型的安全性和可靠性，并通過嚴(yán)格的測試和評估來確保其安全性。
>>?廣泛應(yīng)用：適用于各種需要推理能力的應(yīng)用場景，例如醫(yī)療研究、物理學(xué)研究、軟件開發(fā)等。
OpenAI o1-mini:
>>?針對開發(fā)人員推出的更輕量級推理模型，專注于代碼生成和調(diào)試。
>>?速度更快，成本更低，適合需要推理能力但不需要廣泛世界知識的應(yīng)用場景。
未來展望:
>>?持續(xù)更新模型，并添加更多功能，例如網(wǎng)頁瀏覽、文件和圖片上傳等。
>>?繼續(xù)開發(fā)和發(fā)布 GPT 系列模型，以及 OpenAI o1 系列模型。
總結(jié)：OpenAI o1-preview 是 OpenAI 在推理能力方面取得的重大突破，為解決復(fù)雜問題提供了新的解決方案。其強大的推理能力、安全可靠性以及廣泛的應(yīng)用場景，使其成為未來 AI 發(fā)展的重要方向。

概述

2024年9月12日，OpenAI正式推出流傳已久的OpenAI o1-preview，這是一個全新的推理模型系列，用于解決復(fù)雜問題。9月12日起正式上線。

我們開發(fā)了一系列新的AI模型，旨在在回答問題之前花費更多時間進(jìn)行思考。這些模型能夠推理復(fù)雜任務(wù)，并解決科學(xué)、編碼和數(shù)學(xué)領(lǐng)域中比以往模型更難的問題。

今天，我們在ChatGPT和我們的API中發(fā)布了這一系列的首款模型。這是一個預(yù)覽版，我們預(yù)計會定期更新和改進(jìn)。與此次發(fā)布同時推出的，還有正在開發(fā)中的下一次更新的評估。

官網(wǎng)地址：https:///index/introducing-openai-o1-preview/

工作原理

我們訓(xùn)練這些模型在回答問題之前花費更多時間思考，類似于人類的思考過程。通過訓(xùn)練，它們學(xué)會了改進(jìn)思維過程，嘗試不同的策略，并能夠識別錯誤。

在我們的測試中，下一次模型更新在物理、化學(xué)和生物等高難度基準(zhǔn)任務(wù)中表現(xiàn)與博士生相當(dāng)。我們還發(fā)現(xiàn)它在數(shù)學(xué)和編碼方面表現(xiàn)出色。在國際數(shù)學(xué)奧林匹克（IMO）預(yù)選考試中，GPT-4o僅正確解決了13%的問題，而推理模型的正確率達(dá)到了83%。在編程能力測試中，該模型在Codeforces競賽中達(dá)到了89百分位。你可以在我們的技術(shù)研究文章中了解更多。

作為早期模型，它目前還沒有許多使ChatGPT更實用的功能，例如瀏覽網(wǎng)絡(luò)獲取信息和上傳文件及圖像。在許多常見場景中，GPT-4o將在短期內(nèi)表現(xiàn)得更為強大。

但對于復(fù)雜推理任務(wù)而言，這是一次重大突破，代表了AI能力的新水平。鑒于此，我們將計數(shù)重置為1，并將這一系列命名為OpenAI o1。

安全性

在開發(fā)這些新模型的過程中，我們采用了一種新的安全訓(xùn)練方法，利用其推理能力，使其遵循安全性和對齊性指南。通過能夠在上下文中推理安全規(guī)則，它可以更有效地應(yīng)用這些規(guī)則。

我們通過測試模型在用戶試圖繞過其安全規(guī)則時能否繼續(xù)遵守安全規(guī)則（稱為“越獄”）來衡量其安全性。在我們最難的越獄測試中，GPT-4o得分為22（滿分為100），而我們的o1-preview模型得分為84。你可以在系統(tǒng)卡片和我們的研究文章中了解更多。

為了與這些模型的新能力相匹配，我們加強了我們的安全工作、內(nèi)部治理以及與聯(lián)邦政府的合作。這包括使用我們的準(zhǔn)備框架（新窗口打開）、一流的紅隊測試以及董事會層面的審查流程，包括安全與安保委員會的審查。

為了推動我們對AI安全的承諾，我們最近與美國和英國的AI安全機構(gòu)正式簽署了協(xié)議。我們已經(jīng)開始落實這些協(xié)議，包括為這些機構(gòu)提供研究版本的早期訪問權(quán)限。這是我們合作中的重要第一步，幫助建立研究、評估和測試未來模型的流程，以確保在公開發(fā)布之前和之后都能進(jìn)行審查。

適用對象

這些增強的推理能力在解決科學(xué)、編程、數(shù)學(xué)等領(lǐng)域的復(fù)雜問題時可能特別有用。例如，o1可以被醫(yī)療研究人員用來標(biāo)注細(xì)胞測序數(shù)據(jù)，物理學(xué)家可以使用它生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式，開發(fā)者可以用它來構(gòu)建和執(zhí)行多步驟的工作流程。

OpenAI o1-mini

o1系列擅長準(zhǔn)確生成和調(diào)試復(fù)雜代碼。為了為開發(fā)者提供更高效的解決方案，我們還推出了OpenAI o1-mini，這是一個更快速、更廉價的推理模型，特別擅長編碼。作為一個更小的模型，o1-mini的成本比o1-preview低80%，對于需要推理但不需要廣泛世界知識的應(yīng)用來說，它是一個強大且具有成本效益的模型。

如何使用OpenAI o1

測試地址：https:///?model=o1-preview
API地址：https://platform./playground/chat?models=o1-mini

從今天開始，ChatGPT Plus和團(tuán)隊用戶可以在ChatGPT中訪問o1模型。o1-preview和o1-mini可以手動在模型選擇器中選擇。上線時，每周的消息限額分別為30條（o1-preview）和50條（o1-mini）。我們正在努力提高這些限額，并使ChatGPT能夠自動為給定提示選擇合適的模型。

一個新的ChatGPT下拉菜單的圖片，顯示了新的“o1-preview”模型選項，背景為亮黃色和藍(lán)色的抽象圖案 ChatGPT企業(yè)版和教育版用戶將在下周獲得對這兩個模型的訪問權(quán)限。

符合API使用等級5的開發(fā)者（新窗口打開）今天可以在API中開始使用這兩個模型進(jìn)行原型開發(fā)，每分鐘限額為20次請求。我們將在進(jìn)一步測試后提高這些限額。當(dāng)前這些模型的API不包括函數(shù)調(diào)用、流式傳輸、系統(tǒng)消息支持等功能。要開始使用，請查看API文檔（新窗口打開）。

我們還計劃向所有ChatGPT免費用戶開放o1-mini的使用權(quán)限。