|
內(nèi)容來源:筆記俠(ID:Notesman)【整理摘編:時英平】 商業(yè)思維 今天凌晨,OpenAI推出了新款人工智能模型GPT-4o。這一次,它變得更像人了,不僅能用飽含情緒的聲音和人聊天,還能看、能聽。 我們可以以文本、音頻、圖像任意組合輸入,得到ChatGPT實(shí)時文本、音頻、圖像的任意組合輸出。 并且,在交流過程中,ChatGPT不再等待若干秒才響應(yīng),而是實(shí)時回復(fù),還能被隨時打斷。 《鋼鐵俠》里的人工智能助手賈維斯,似乎要成真。 那么,GPT-4o會帶來什么樣的產(chǎn)業(yè)變革?對于普通人來說,它又會為我們帶來哪些挑戰(zhàn)和機(jī)遇? 這次GPT-4o最讓人震撼的是,它更通人性了。 這主要體現(xiàn)在兩個方面,其一,GPT-4o 在多模態(tài)上能夠融會貫通,反應(yīng)的速度也有了很大提升,其交互的方式更加接近人類;其二,在 GPT-4o 驅(qū)動下的機(jī)器人明顯更為活潑,也更愿意展現(xiàn)出人類的情緒。 1.AI更像人了 一年前,OpenAi發(fā)布了多模態(tài)GPT-4。我們可以給它提各種需求,發(fā)圖片讓它幫忙分析,也可以發(fā)文件、語音聊天。但是文本、圖像、語音之間是有“壁”的。 比如,你想讓ChatGPT幫忙解一道數(shù)學(xué)題,就只能截圖或者復(fù)制題目,發(fā)給ChatGPT。如果想聽ChatGPT語音講解,得先在文本框發(fā)完之后,再切到語音。 而通過GPT-4o,我們可以直接使用桌面應(yīng)用,將ChatGPT打開放在一邊,和它聊著天的同時,用“拍攝”功能給它看你電腦桌面的內(nèi)容,它就可以在對話中為你答疑解惑。 在一則演示中,用戶將ChatGPT桌面應(yīng)用和做題界面同時打開。ChatGPT不直接給出答案,而是以問題引導(dǎo)的方式,有問有答地一步步帶用戶解了一道幾何題。 ![]() 甚至,我們還可以打開攝像頭,讓ChatGPT“看”著紙面指導(dǎo)解題。 ![]() 在模型“GPT-4o”的加持下,ChatGPT還能與用戶視頻通話:用戶打開攝像頭,讓GPT-4o“看”到當(dāng)下,并進(jìn)行互動。 用前置鏡頭自拍,ChatGPT不僅能識別用戶的情緒,如“看起來很開心,甚至可以說是興奮的”,還能從用戶背后的畫面判斷其身處的環(huán)境,如“看起來你在一個攝影棚中,背后有一些燈光,你的胸前還別著麥克風(fēng),可能在錄制視頻之類的”。 當(dāng)有另一個人進(jìn)入鏡頭并且做鬼臉的時候,ChatGPT也準(zhǔn)確指出了這一“不太尋?!钡那闆r,并加以描述。 用后置鏡頭,GPT-4o還可以和用戶共享視角。例如,在語言學(xué)習(xí)的過程中,打開攝像頭讓ChatGPT用某種語言說出物品的名稱。 總而言之,GPT-4o驅(qū)動下的ChatGPT,不再僅僅是一個什么都會的應(yīng)用,而是真正進(jìn)化成了一個“AI助手”。 2.AI也有了情緒 自ChatGPT 上線以來,在相當(dāng)長的一段時間內(nèi),這款聊天機(jī)器人都給人留下一種頗為嚴(yán)肅、不茍言笑的感覺。 這極有可能是 OpenAI 出于避免麻煩的考慮而特意如此安排的,ChatGPT 不但回答問題時一本正經(jīng)、規(guī)規(guī)矩矩,并且只要有契機(jī)就會向用戶著重強(qiáng)調(diào)“我只是個機(jī)器人,我沒有感情”。 若用戶希望 ChatGPT 能更加“放松”些,就需要給出明確的指令。 然而,由 GPT-4o 驅(qū)動的ChatGPT 則明顯有了不同。在沒有提前給予指令的情況下,ChatGPT 不再刻意去避免表現(xiàn)得像人類,而是相反。 比如,研發(fā)負(fù)責(zé)人Mark Chen在臺上向ChatGPT求助:“我正在臺上,給大家做現(xiàn)場演示呢,我有點(diǎn)緊張,該怎么辦呀?”
ChatGPT非常體貼地表示:“你在臺上做演示嗎,那你真的太棒了!深呼吸一下吧,記得你是個專家!” Mark瘋狂地大喘氣幾次,問ChatGPT能給自己什么建議。 ChatGPT驚訝地說道:“放松啊Mark,慢點(diǎn)呼吸,你可不是個吸塵器!” 在這個過程中,ChatGPT和Mark的互動幾乎無延遲,隨時接梗。也就是說,在 GPT-4o驅(qū)動下的 ChatGPT,已不再是一個單純追求性能的AI工具,而是開始主動給予“情緒價值”。 除此之外,它還能夠理解人類在對話中適時打斷的習(xí)慣,會及時停下來聽你說話,并給出相應(yīng)的回復(fù)。 比如,Mark表示自己要再試一遍深呼吸,此時ChatGPT也恰到好處地插進(jìn)來接話說“慢慢呼氣”。 整個過程,自然連貫得仿佛它是個坐在你對面的人類,完全沒有AI的機(jī)械感和僵硬感! 其實(shí),在ChatGPT走嚴(yán)肅路線的前兩年里,不少AI機(jī)器人以更活潑、更“通人性”的姿態(tài)出現(xiàn),并俘獲了不少用戶的心。 比如,Inflection.AI曾推出的機(jī)器人Pi,主打的就是“陪伴”,不到一年的時間里就做到百萬日活用戶。埃隆·馬斯克(Elon Musk)的人工智能公司xAI的大模型Grok,則因其毒舌一經(jīng)上線就吸引不少關(guān)注。 以及上一代的AI聊天機(jī)器人Siri、天貓精靈、小愛同學(xué)等,都有一個俏皮的“人設(shè)” 但后來,因技術(shù)有限,這些AI工具都被用戶稱為“人工智障”,棄而遠(yuǎn)之。 在2024年,人們曾經(jīng)對Siri們抱有的期待——一個既能當(dāng)?shù)昧χ謳兔ψ鍪拢帜墚?dāng)賽博玩具聊天嬉笑的AI——終于在GPT-4o身上有了著落。 1.實(shí)時視覺助手 在模型“GPT-4o”的加持下,ChatGPT有了視覺能力,你可以直接和GPT4o進(jìn)行討論,它能實(shí)時理解你看到的東西。 ![]() 官方發(fā)布了一個演示視頻,ChatGPT能幫助視障人士“看”世界,在演示視頻中: 視障人士問GPT-4o:“湖里有什么?” 視障人士又問GPT-4o:“我想知道什么時候有一輛亮著橙色燈的出租車過來,我想讓它載我回家?!?/p> GPT-4o回答:“我剛剛發(fā)現(xiàn)了一輛,它在路的左側(cè)朝你駛來,準(zhǔn)備朝它揮手”。 2.輔助學(xué)習(xí) 在發(fā)布會中,一位研發(fā)負(fù)責(zé)人Barret手寫了一個方程,并打開攝像頭拍給ChatGPT,讓它扮演“在線導(dǎo)師”的角色幫助自己解題,而且只能給提示,不能直接說答案。 接到任務(wù)的ChatGPT,甚至開心大叫:“Oops,我好興奮?。 ?/p> Barret在紙上寫下這樣一個方程:3x+1=4。然后問ChatGPT自己寫的是什么方程,ChatGPT語調(diào)自然地回答出來了。隨后,在Barret的要求下,它一步一步說出了解題步驟。 最厲害的是,隨著小哥在攝像頭中解題,ChatGPT實(shí)時地就給出了鼓勵和引導(dǎo)。
這簡直是學(xué)渣和學(xué)渣家長的福音,不用再為輔導(dǎo)孩子作業(yè)感到崩潰頭疼。 3.虛擬陪伴人 GPT-4o 不僅能夠根據(jù)場景生成多種音調(diào),還帶有類人的情緒和情感。同時,GPT-4o的響應(yīng)速度也變快了,平均延遲僅為 320 毫秒,接近于人類對話的反應(yīng)時間。 這樣的進(jìn)步,使得GPT-4o的應(yīng)用場景更廣,比如,當(dāng)一個哄睡師,給任性的人類講睡前故事。 在演示中,ChatGPT沒講幾秒,就被人類粗暴地打斷了:多點(diǎn)情緒,故事里來點(diǎn)戲劇性行不? 結(jié)果沒幾秒,它又被再次打斷:不行,再多點(diǎn)情感,給我最大程度的表達(dá)。 接下來,我們聽到一個仿佛在舞臺上表演莎劇的ChatGPT,語氣夸張到仿佛是個戲劇演員。 隨后,它又多次被打斷,并且耐心地按照人類的要求,依次變成了機(jī)器人聲和唱歌模式。 ChatGPT聽到要求自己唱歌時,甚至嘆了口氣,然后開始亮起了優(yōu)美的歌喉。 如今,它已不再是工具,更像是你在生活中的好朋友、人生導(dǎo)師,甚至可以是一個虛擬男女朋友。 看到這,你或許會想: GPT-4o這么強(qiáng),AI的迭代速度這么快,自己要被取代了怎么辦? 面對AI浪潮,一味地逃避或抵抗,改變不了發(fā)展的事實(shí)。我們要主動適應(yīng)它,擁抱它,在其中找到我們的機(jī)會。 1.發(fā)揮人類的協(xié)同優(yōu)勢 如今的人工智能,并非通用智能。人類最大的優(yōu)勢,就是通過系統(tǒng)協(xié)調(diào)它們。 舉個例子: 英國在非洲修鐵路時,他們要實(shí)現(xiàn)智能化調(diào)度和物流跟蹤。但非洲許多地方的人沒有文化,他們怎么辦? 在許多關(guān)鍵位置設(shè)立崗位,崗位的人無需文化知識,只需在火車過來的時候拿起電話說火車過去,就這樣對整個系統(tǒng)進(jìn)行監(jiān)測。 這是一個很典型的例子,員工都是新手,但系統(tǒng)很優(yōu)秀,所以能運(yùn)轉(zhuǎn)。 現(xiàn)在的人工智能已經(jīng)是中等水平的員工,理論上講,它可以做很多事情。 人類的優(yōu)勢在于我們的復(fù)雜協(xié)同能力。每個人都無法掌握登月所需的所有知識,但合在一起就能登月,這就是復(fù)雜協(xié)同能力的力量。 2.學(xué)會指揮人工智能工作 至今,人工智能并未實(shí)現(xiàn)社會化,因此并未形成人工智能社會。然而,未來的發(fā)展肯定是向社會化方向進(jìn)行的。 許多人質(zhì)疑,人工智能是否會像電影《終結(jié)者》中的天網(wǎng)一樣,毀滅人類?實(shí)際上,天網(wǎng)只是一個數(shù)據(jù)中心,而且一個超級智能體肯定不會毀滅人類,因?yàn)樗隙ú蝗缛寺斆鳌?/p> 人的核心也不是超級智能,而是所有人在一起形成的社會化智能群體,文化作為智能的蓄水池,理性能幫助我們把智能東西總結(jié)成可交流的語言,沉淀到文化里。 因?yàn)橛辛宋幕?,人類社會才特別強(qiáng)大。 有了人工智能,只會讓人類智能進(jìn)步速度繼續(xù)加快,這意味著我們將有大量的服務(wù)機(jī)會產(chǎn)生,我們稱之為服務(wù)規(guī)?;?。 在過去,烹飪、教育、算賬等事情都需要自己去做,現(xiàn)在,這些服務(wù)也可以交給別人或?qū)<襾碜觥?/p> 工業(yè)革命用機(jī)器讓我們解放了很多,但在這一輪的智能革命中,我們可以用人工智能形成專家級服務(wù),讓我們的大腦有時間從事有創(chuàng)造力的工作。 而我們最重要的能力或價值,就是學(xué)會與AI協(xié)作,帶動更多的機(jī)器工作,我們稱之為擁有更高的機(jī)器智商。 未來的成功者是機(jī)器智商高的人類。我們要當(dāng)領(lǐng)導(dǎo)人工智能的將軍,好好使用這些中等水平的人工智能同事。 在發(fā)布結(jié)束后,OpenAI CEO山姆?奧特曼久違地發(fā)表了一篇博客文章,介紹了推動GPT-4o工作時的心路歷程: 在我們今天的發(fā)布中,我想強(qiáng)調(diào)兩件事。 首先,我們使命的一個關(guān)鍵部分是將強(qiáng)大的人工智能工具免費(fèi)(或以優(yōu)惠的價格)提供給人們。我非常自豪地宣布,我們在 ChatGPT 中免費(fèi)提供世界上最好的模型,沒有廣告或類似的東西。 當(dāng)我們創(chuàng)立 OpenAI 時,我們的最初構(gòu)想是:我們要創(chuàng)造人工智能并利用它為世界創(chuàng)造各種利益?,F(xiàn)在情況有所變化,看起來我們將創(chuàng)造人工智能,然后其他人將使用它來創(chuàng)造各種令人驚奇的事物,我們所有人都會從中受益。 當(dāng)然,我們是一家企業(yè),會發(fā)明很多收費(fèi)的東西,這將幫助我們向數(shù)十億人提供免費(fèi)、出色的人工智能服務(wù)(希望如此)。 其次,新的語音和視頻模式是我用過的最好的計(jì)算交互界面。感覺就像電影里的人工智能一樣,我仍然有點(diǎn)驚訝于它竟然是真的。事實(shí)證明,達(dá)到人類水平的響應(yīng)時間和表達(dá)能力是一個巨大的飛躍。 最初的ChatGPT暗示了語言界面的可能性,而這個新事物(GPT-4o 版本)給人的感覺有本質(zhì)上的不同 —— 它快速、智能、有趣、自然且能給人帶來幫助。 對我來說,與電腦交互從來都不是很自然的事情,事實(shí)如此。 而當(dāng)我們添加(可選)個性化、訪問個人信息、讓 AI 代替人采取行動等等能力時,我確實(shí)可以看到一個令人興奮的未來,我們能夠使用計(jì)算機(jī)做比以往更多的事情。 最后,非常感謝團(tuán)隊(duì)為實(shí)現(xiàn)這一目標(biāo)付出了巨大的努力! |
|
|