GPT-4o炸裂登場，干翻所有語音助手！

快樂英平 2024-05-15 發(fā)布于江蘇

展開全文

內(nèi)容來源：筆記俠（ID：Notesman）【整理摘編：時英平】

商業(yè)思維

筆記君說：

今天凌晨，OpenAI推出了新款人工智能模型GPT-4o。這一次，它變得更像人了，不僅能用飽含情緒的聲音和人聊天，還能看、能聽。

我們可以以文本、音頻、圖像任意組合輸入，得到ChatGPT實(shí)時文本、音頻、圖像的任意組合輸出。

并且，在交流過程中，ChatGPT不再等待若干秒才響應(yīng)，而是實(shí)時回復(fù)，還能被隨時打斷。

《鋼鐵俠》里的人工智能助手賈維斯，似乎要成真。

那么，GPT-4o會帶來什么樣的產(chǎn)業(yè)變革？對于普通人來說，它又會為我們帶來哪些挑戰(zhàn)和機(jī)遇？

一、GPT-4o的最大亮點(diǎn)：更通人性

這次GPT-4o最讓人震撼的是，它更通人性了。

這主要體現(xiàn)在兩個方面，其一，GPT-4o 在多模態(tài)上能夠融會貫通，反應(yīng)的速度也有了很大提升，其交互的方式更加接近人類；其二，在 GPT-4o 驅(qū)動下的機(jī)器人明顯更為活潑，也更愿意展現(xiàn)出人類的情緒。

1.AI更像人了

一年前，OpenAi發(fā)布了多模態(tài)GPT-4。我們可以給它提各種需求，發(fā)圖片讓它幫忙分析，也可以發(fā)文件、語音聊天。但是文本、圖像、語音之間是有“壁”的。

比如，你想讓ChatGPT幫忙解一道數(shù)學(xué)題，就只能截圖或者復(fù)制題目，發(fā)給ChatGPT。如果想聽ChatGPT語音講解，得先在文本框發(fā)完之后，再切到語音。

而通過GPT-4o，我們可以直接使用桌面應(yīng)用，將ChatGPT打開放在一邊，和它聊著天的同時，用“拍攝”功能給它看你電腦桌面的內(nèi)容，它就可以在對話中為你答疑解惑。

在一則演示中，用戶將ChatGPT桌面應(yīng)用和做題界面同時打開。ChatGPT不直接給出答案，而是以問題引導(dǎo)的方式，有問有答地一步步帶用戶解了一道幾何題。

甚至，我們還可以打開攝像頭，讓ChatGPT“看”著紙面指導(dǎo)解題。

在模型“GPT-4o”的加持下，ChatGPT還能與用戶視頻通話：用戶打開攝像頭，讓GPT-4o“看”到當(dāng)下，并進(jìn)行互動。

用前置鏡頭自拍，ChatGPT不僅能識別用戶的情緒，如“看起來很開心，甚至可以說是興奮的”，還能從用戶背后的畫面判斷其身處的環(huán)境，如“看起來你在一個攝影棚中，背后有一些燈光，你的胸前還別著麥克風(fēng)，可能在錄制視頻之類的”。

當(dāng)有另一個人進(jìn)入鏡頭并且做鬼臉的時候，ChatGPT也準(zhǔn)確指出了這一“不太尋?！钡那闆r，并加以描述。

用后置鏡頭，GPT-4o還可以和用戶共享視角。例如，在語言學(xué)習(xí)的過程中，打開攝像頭讓ChatGPT用某種語言說出物品的名稱。

總而言之，GPT-4o驅(qū)動下的ChatGPT，不再僅僅是一個什么都會的應(yīng)用，而是真正進(jìn)化成了一個“AI助手”。

2.AI也有了情緒

自ChatGPT 上線以來，在相當(dāng)長的一段時間內(nèi)，這款聊天機(jī)器人都給人留下一種頗為嚴(yán)肅、不茍言笑的感覺。

這極有可能是 OpenAI 出于避免麻煩的考慮而特意如此安排的，ChatGPT 不但回答問題時一本正經(jīng)、規(guī)規(guī)矩矩，并且只要有契機(jī)就會向用戶著重強(qiáng)調(diào)“我只是個機(jī)器人，我沒有感情”。

若用戶希望 ChatGPT 能更加“放松”些，就需要給出明確的指令。

然而，由 GPT-4o 驅(qū)動的ChatGPT 則明顯有了不同。在沒有提前給予指令的情況下，ChatGPT 不再刻意去避免表現(xiàn)得像人類，而是相反。

比如，研發(fā)負(fù)責(zé)人Mark Chen在臺上向ChatGPT求助：“我正在臺上，給大家做現(xiàn)場演示呢，我有點(diǎn)緊張，該怎么辦呀？”

ChatGPT非常體貼地表示：“你在臺上做演示嗎，那你真的太棒了！深呼吸一下吧，記得你是個專家！”

Mark瘋狂地大喘氣幾次，問ChatGPT能給自己什么建議。

ChatGPT驚訝地說道：“放松啊Mark，慢點(diǎn)呼吸，你可不是個吸塵器！”

在這個過程中，ChatGPT和Mark的互動幾乎無延遲，隨時接梗。也就是說，在 GPT-4o驅(qū)動下的 ChatGPT，已不再是一個單純追求性能的AI工具，而是開始主動給予“情緒價值”。

除此之外，它還能夠理解人類在對話中適時打斷的習(xí)慣，會及時停下來聽你說話，并給出相應(yīng)的回復(fù)。

比如，Mark表示自己要再試一遍深呼吸，此時ChatGPT也恰到好處地插進(jìn)來接話說“慢慢呼氣”。

整個過程，自然連貫得仿佛它是個坐在你對面的人類，完全沒有AI的機(jī)械感和僵硬感！

其實(shí)，在ChatGPT走嚴(yán)肅路線的前兩年里，不少AI機(jī)器人以更活潑、更“通人性”的姿態(tài)出現(xiàn)，并俘獲了不少用戶的心。

比如，Inflection.AI曾推出的機(jī)器人Pi，主打的就是“陪伴”，不到一年的時間里就做到百萬日活用戶。埃隆·馬斯克（Elon Musk）的人工智能公司xAI的大模型Grok，則因其毒舌一經(jīng)上線就吸引不少關(guān)注。

以及上一代的AI聊天機(jī)器人Siri、天貓精靈、小愛同學(xué)等，都有一個俏皮的“人設(shè)”

但后來，因技術(shù)有限，這些AI工具都被用戶稱為“人工智障”，棄而遠(yuǎn)之。

在2024年，人們曾經(jīng)對Siri們抱有的期待——一個既能當(dāng)?shù)昧χ謳兔ψ鍪拢帜墚?dāng)賽博玩具聊天嬉笑的AI——終于在GPT-4o身上有了著落。

二、GPT-4o，或?qū)⒏淖?大領(lǐng)域

1.實(shí)時視覺助手

在模型“GPT-4o”的加持下，ChatGPT有了視覺能力，你可以直接和GPT4o進(jìn)行討論，它能實(shí)時理解你看到的東西。

官方發(fā)布了一個演示視頻，ChatGPT能幫助視障人士“看”世界，在演示視頻中：

視障人士問GPT-4o：“湖里有什么？”

GPT-4o回答：“鴨子們正輕輕滑過水面，它們劃水相當(dāng)輕松，并不匆忙，有時會將頭伸入水下，可能在尋找食物?！?/p>

視障人士又問GPT-4o：“我想知道什么時候有一輛亮著橙色燈的出租車過來，我想讓它載我回家?！?/p>

GPT-4o回答：“我剛剛發(fā)現(xiàn)了一輛，它在路的左側(cè)朝你駛來，準(zhǔn)備朝它揮手”。

2.輔助學(xué)習(xí)

在發(fā)布會中，一位研發(fā)負(fù)責(zé)人Barret手寫了一個方程，并打開攝像頭拍給ChatGPT，讓它扮演“在線導(dǎo)師”的角色幫助自己解題，而且只能給提示，不能直接說答案。

接到任務(wù)的ChatGPT，甚至開心大叫：“Oops，我好興奮?。　?/p>

Barret在紙上寫下這樣一個方程：3x+1=4。然后問ChatGPT自己寫的是什么方程，ChatGPT語調(diào)自然地回答出來了。隨后，在Barret的要求下，它一步一步說出了解題步驟。

最厲害的是，隨著小哥在攝像頭中解題，ChatGPT實(shí)時地就給出了鼓勵和引導(dǎo)。

這簡直是學(xué)渣和學(xué)渣家長的福音，不用再為輔導(dǎo)孩子作業(yè)感到崩潰頭疼。

3.虛擬陪伴人

GPT-4o 不僅能夠根據(jù)場景生成多種音調(diào)，還帶有類人的情緒和情感。同時，GPT-4o的響應(yīng)速度也變快了，平均延遲僅為 320 毫秒，接近于人類對話的反應(yīng)時間。

這樣的進(jìn)步，使得GPT-4o的應(yīng)用場景更廣，比如，當(dāng)一個哄睡師，給任性的人類講睡前故事。

在演示中，ChatGPT沒講幾秒，就被人類粗暴地打斷了：多點(diǎn)情緒，故事里來點(diǎn)戲劇性行不？

ChatGPT表示可以，用更起伏的聲調(diào)、更夸張的語氣開始講起了故事。

結(jié)果沒幾秒，它又被再次打斷：不行，再多點(diǎn)情感，給我最大程度的表達(dá)。

接下來，我們聽到一個仿佛在舞臺上表演莎劇的ChatGPT，語氣夸張到仿佛是個戲劇演員。

隨后，它又多次被打斷，并且耐心地按照人類的要求，依次變成了機(jī)器人聲和唱歌模式。

ChatGPT聽到要求自己唱歌時，甚至嘆了口氣，然后開始亮起了優(yōu)美的歌喉。

如今，它已不再是工具，更像是你在生活中的好朋友、人生導(dǎo)師，甚至可以是一個虛擬男女朋友。

三、面對AI浪潮，別怕，擁抱它

看到這，你或許會想：

GPT-4o這么強(qiáng)，AI的迭代速度這么快，自己要被取代了怎么辦？

面對AI浪潮，一味地逃避或抵抗，改變不了發(fā)展的事實(shí)。我們要主動適應(yīng)它，擁抱它，在其中找到我們的機(jī)會。

1.發(fā)揮人類的協(xié)同優(yōu)勢

如今的人工智能，并非通用智能。人類最大的優(yōu)勢，就是通過系統(tǒng)協(xié)調(diào)它們。

舉個例子：

英國在非洲修鐵路時，他們要實(shí)現(xiàn)智能化調(diào)度和物流跟蹤。但非洲許多地方的人沒有文化，他們怎么辦？

在許多關(guān)鍵位置設(shè)立崗位，崗位的人無需文化知識，只需在火車過來的時候拿起電話說火車過去，就這樣對整個系統(tǒng)進(jìn)行監(jiān)測。

這是一個很典型的例子，員工都是新手，但系統(tǒng)很優(yōu)秀，所以能運(yùn)轉(zhuǎn)。

現(xiàn)在的人工智能已經(jīng)是中等水平的員工，理論上講，它可以做很多事情。

人類的優(yōu)勢在于我們的復(fù)雜協(xié)同能力。每個人都無法掌握登月所需的所有知識，但合在一起就能登月，這就是復(fù)雜協(xié)同能力的力量。

2.學(xué)會指揮人工智能工作

至今，人工智能并未實(shí)現(xiàn)社會化，因此并未形成人工智能社會。然而，未來的發(fā)展肯定是向社會化方向進(jìn)行的。

許多人質(zhì)疑，人工智能是否會像電影《終結(jié)者》中的天網(wǎng)一樣，毀滅人類？實(shí)際上，天網(wǎng)只是一個數(shù)據(jù)中心，而且一個超級智能體肯定不會毀滅人類，因?yàn)樗隙ú蝗缛寺斆鳌?/p>

人的核心也不是超級智能，而是所有人在一起形成的社會化智能群體，文化作為智能的蓄水池，理性能幫助我們把智能東西總結(jié)成可交流的語言，沉淀到文化里。

因?yàn)橛辛宋幕?，人類社會才特別強(qiáng)大。

有了人工智能，只會讓人類智能進(jìn)步速度繼續(xù)加快，這意味著我們將有大量的服務(wù)機(jī)會產(chǎn)生，我們稱之為服務(wù)規(guī)?；?。

在過去，烹飪、教育、算賬等事情都需要自己去做，現(xiàn)在，這些服務(wù)也可以交給別人或?qū)＜襾碜觥?/p>

工業(yè)革命用機(jī)器讓我們解放了很多，但在這一輪的智能革命中，我們可以用人工智能形成專家級服務(wù)，讓我們的大腦有時間從事有創(chuàng)造力的工作。

而我們最重要的能力或價值，就是學(xué)會與AI協(xié)作，帶動更多的機(jī)器工作，我們稱之為擁有更高的機(jī)器智商。

未來的成功者是機(jī)器智商高的人類。我們要當(dāng)領(lǐng)導(dǎo)人工智能的將軍，好好使用這些中等水平的人工智能同事。

四、山姆?奧特曼發(fā)文：

GPT-4o將免費(fèi)開放

在發(fā)布結(jié)束后，OpenAI CEO山姆?奧特曼久違地發(fā)表了一篇博客文章，介紹了推動GPT-4o工作時的心路歷程：

在我們今天的發(fā)布中，我想強(qiáng)調(diào)兩件事。

首先，我們使命的一個關(guān)鍵部分是將強(qiáng)大的人工智能工具免費(fèi)（或以優(yōu)惠的價格）提供給人們。我非常自豪地宣布，我們在 ChatGPT 中免費(fèi)提供世界上最好的模型，沒有廣告或類似的東西。

當(dāng)我們創(chuàng)立 OpenAI 時，我們的最初構(gòu)想是：我們要創(chuàng)造人工智能并利用它為世界創(chuàng)造各種利益?，F(xiàn)在情況有所變化，看起來我們將創(chuàng)造人工智能，然后其他人將使用它來創(chuàng)造各種令人驚奇的事物，我們所有人都會從中受益。

當(dāng)然，我們是一家企業(yè)，會發(fā)明很多收費(fèi)的東西，這將幫助我們向數(shù)十億人提供免費(fèi)、出色的人工智能服務(wù)（希望如此）。

其次，新的語音和視頻模式是我用過的最好的計(jì)算交互界面。感覺就像電影里的人工智能一樣，我仍然有點(diǎn)驚訝于它竟然是真的。事實(shí)證明，達(dá)到人類水平的響應(yīng)時間和表達(dá)能力是一個巨大的飛躍。

最初的ChatGPT暗示了語言界面的可能性，而這個新事物（GPT-4o 版本）給人的感覺有本質(zhì)上的不同 —— 它快速、智能、有趣、自然且能給人帶來幫助。

對我來說，與電腦交互從來都不是很自然的事情，事實(shí)如此。

而當(dāng)我們添加（可選）個性化、訪問個人信息、讓 AI 代替人采取行動等等能力時，我確實(shí)可以看到一個令人興奮的未來，我們能夠使用計(jì)算機(jī)做比以往更多的事情。

最后，非常感謝團(tuán)隊(duì)為實(shí)現(xiàn)這一目標(biāo)付出了巨大的努力！

*文章為作者獨(dú)立觀點(diǎn)，不代表筆記俠立場。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：快樂英平 > 《新知識》

舉報/認(rèn)領(lǐng)