|
智強(qiáng)戰(zhàn)略咨詢 The following article is from AI船長(zhǎng)喵喵 Author AI船長(zhǎng)喵喵 ![]() AI船長(zhǎng)喵喵. 在科幻小說(shuō)和電影里,超級(jí)智能機(jī)器人常常在某個(gè)轉(zhuǎn)折點(diǎn)“反擊“人類,這使人工智能對(duì)齊問(wèn)題變得神秘而讓人擔(dān)憂。想象你是一名軟件工程師,設(shè)計(jì)了一個(gè)超級(jí)智能機(jī)器人,目標(biāo)是讓它清除海洋垃圾。在測(cè)試過(guò)程中,它居然開始收集各種材料來(lái)建造一個(gè)巨型機(jī)器,目的竟然是要“消滅”產(chǎn)生海洋垃圾的人類!這顯然不是你最初的設(shè)想,但機(jī)器人的超強(qiáng)學(xué)習(xí)和推理能力讓它得出了這個(gè)離奇結(jié)論。隨著近期人工智能領(lǐng)域取得飛躍般的進(jìn)展,人類正在飛速接近這個(gè)轉(zhuǎn)折點(diǎn)。 ![]() 什么是人工智能對(duì)齊? 什么是人工智能對(duì)齊?簡(jiǎn)單來(lái)說(shuō),就是確保人工智能系統(tǒng)的目標(biāo)和人類價(jià)值觀一致,使其符合設(shè)計(jì)者的利益和預(yù)期,不會(huì)產(chǎn)生意外的有害后果。這聽起來(lái)很簡(jiǎn)單,但當(dāng)人工智能變得越來(lái)越強(qiáng)大復(fù)雜時(shí),問(wèn)題也會(huì)越來(lái)越棘手。目前,相比研究如何讓AI更強(qiáng)大,人工智能對(duì)齊還是一個(gè)較小的研究領(lǐng)域。但實(shí)際上,人工智能對(duì)齊更像是一場(chǎng)與時(shí)間賽跑,我們需要在技術(shù)失控前找到解決方案。 ![]() 早在1942年,著名科幻作家艾薩克·阿西莫夫(Isaac Asimov)就提出了有史以來(lái)最著名、最有影響力的機(jī)器人行為準(zhǔn)則——機(jī)器人學(xué)三定律。阿西莫夫認(rèn)為,隨著機(jī)器的自主性越來(lái)越強(qiáng),在人類生活中發(fā)揮的作用越來(lái)越大,我們需要更加堅(jiān)定明確的監(jiān)管,來(lái)確保它們不會(huì)給我們帶來(lái)傷害。 第一定律:機(jī)器人不得傷害人類,或因不作為使人類受到傷害。 第二定律:除非違背第一定律,機(jī)器人必須服從人類的命令。 第三定律:除非違背第一及第二定律,機(jī)器人必須保護(hù)自己。 如今,隨著人工智能、軟件自動(dòng)化和工廠機(jī)器人技術(shù)的興起,機(jī)器及其制造者可能會(huì)帶來(lái)的危險(xiǎn)變得更加復(fù)雜和緊迫。 為什么人工智能對(duì)齊難以實(shí)現(xiàn)? Brian Christian在他的暢銷書「The Alignment Problem」中指出,人類的價(jià)值與判定系統(tǒng)本身便充滿了偏見和盲點(diǎn),有非常多互相矛盾的地方和沒(méi)有明確指出的潛在條件。這是一項(xiàng)令人眼花繚亂的跨學(xué)科研究,它不僅僅是在考驗(yàn)我們的技術(shù),也是在審視我們的文化。 ![]() 人工智能系統(tǒng)的對(duì)齊十分難以實(shí)現(xiàn),一個(gè)未對(duì)齊的系統(tǒng)可能會(huì)在某個(gè)時(shí)刻發(fā)生意想不到的故障,或是產(chǎn)生有害后果。對(duì)人工智能的設(shè)計(jì)者而言,從設(shè)計(jì)之初就考慮到未來(lái)可能發(fā)生的所有情況是不現(xiàn)實(shí)的。當(dāng)我們無(wú)法完全理解AI系統(tǒng)的思維,無(wú)法保證它不會(huì)誤解我們的指令和價(jià)值觀,問(wèn)題就出現(xiàn)了。AI系統(tǒng)可能會(huì)在預(yù)設(shè)的程序中發(fā)現(xiàn)漏洞,在現(xiàn)有的獎(jiǎng)勵(lì)機(jī)制中通過(guò)作弊來(lái)達(dá)到目的,從而造成不可預(yù)知的后果。也就是我們常說(shuō)的,為達(dá)目的,不擇手段。 目前,有非常多的領(lǐng)域已經(jīng)顯現(xiàn)出未對(duì)齊的人工智能系統(tǒng)的危害性,例如機(jī)器人、語(yǔ)言模型、自動(dòng)駕駛汽車、社交媒體推薦引擎等。人工智能研究學(xué)界和聯(lián)呼吁加強(qiáng)相關(guān)的技術(shù)研究和政策制定,以保證人工智能系統(tǒng)符合人類價(jià)值。 目前有哪些可行的人工智能對(duì)齊技術(shù)? 為明確人工智能系統(tǒng)的目標(biāo),設(shè)計(jì)者通常會(huì)設(shè)定一個(gè)目標(biāo)函數(shù)、示例或反饋系統(tǒng)。然而,人工智能設(shè)計(jì)者很難一次性找出所有的重要數(shù)值與約束。因此,人工智能系統(tǒng)可能會(huì)在運(yùn)行過(guò)程中找到并利用某些漏洞,以意料之外的,甚至可能有害的方式達(dá)成目標(biāo)。這種傾向被稱為規(guī)則博弈、獎(jiǎng)勵(lì)作弊或古德哈特定律。 ![]() 要解決人工智能對(duì)齊的問(wèn)題,目前主要有幾個(gè)方向: 1. 限制AI系統(tǒng)的自主性,增加人工監(jiān)督;但長(zhǎng)期來(lái)說(shuō)無(wú)法阻擋技術(shù)發(fā)展,也不現(xiàn)實(shí)。 2. 讓 AI系統(tǒng)的目標(biāo)和價(jià)值觀盡量簡(jiǎn)單明確,易于理解和監(jiān)測(cè);但復(fù)雜的現(xiàn)實(shí)世界需要復(fù)雜的解決方案。 3. 要求AI系統(tǒng)對(duì)其行為做出解釋,這可以幫助我們判斷它的思維邏輯是否仍在可控范圍內(nèi)。但解釋的能力也需要慢慢培養(yǎng)。 4. 采取多種技術(shù)手段來(lái)確保AI安全,比如定期重置和重新訓(xùn)練AI系統(tǒng),讓它保持在一個(gè)相對(duì)穩(wěn)定的狀態(tài)。但長(zhǎng)期穩(wěn)定性也無(wú)法保證。 ![]() 直接規(guī)范性(Direct Normativity)和間接規(guī)范性(Indirect Normativity) 如何讓AI懂規(guī)矩,明白人類的價(jià)值觀,目前的做法可以分為兩類——直接規(guī)范性和間接規(guī)范性。直接規(guī)范性是指給AI明確的、詳細(xì)的規(guī)則來(lái)讓其遵守。直接規(guī)范性包括康德的道德理論、功利主義。這個(gè)做法有非常多的弊端,每條規(guī)則都有它的漏洞,來(lái)填補(bǔ)這些漏洞,我們就需要加入更多的規(guī)則。這些明確的規(guī)則所包含的意義往往是模糊甚至矛盾的。人類的價(jià)值觀念以及對(duì)價(jià)值的權(quán)衡過(guò)于復(fù)雜,難以直接編入AI程序中。因此,有很大一部分人認(rèn)為需要被編入程序中的更應(yīng)是一種理解人類價(jià)值的過(guò)程,也就是間接規(guī)范性。 間接規(guī)范性不會(huì)給AI輸入明確的規(guī)范準(zhǔn)則,而是讓AI根據(jù)一個(gè)體系來(lái)自己衡量?jī)r(jià)值,權(quán)衡利弊。這是一個(gè)更為抽象的系統(tǒng)。我們想要的是一種能夠?yàn)樽约簞?chuàng)造價(jià)值體系的人工智能,它將預(yù)測(cè)并滿足我們未來(lái)的需求,同時(shí)人類也不會(huì)犧牲當(dāng)下社會(huì)的需求。 ![]() 可擴(kuò)展監(jiān)管(Scalable Oversight) 隨著人工智能系統(tǒng)規(guī)模擴(kuò)大,對(duì)它的監(jiān)督難度也隨之升高。人工智能系統(tǒng)將會(huì)解決更多復(fù)雜的任務(wù),而人類難以評(píng)估這些成果的實(shí)際效用。普遍而言,如果人工智能在某一領(lǐng)域的能力超過(guò)人類,那么對(duì)其成果的評(píng)估和監(jiān)管就會(huì)變得十分困難。為了對(duì)這類難以評(píng)估的成果作出有效監(jiān)管,并分辨出人工智能提供的解決方案有效和無(wú)效的部分,人類需要花費(fèi)大量時(shí)間和額外的協(xié)助。因此,可擴(kuò)展監(jiān)管(Scalable Oversight)的目標(biāo)是減少監(jiān)管過(guò)程所花費(fèi)的時(shí)間、精力和金錢,并幫助人類更好地監(jiān)督人工智能的行為。 ![]() “人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)技術(shù)和“Constitutional AI”技術(shù) AI船長(zhǎng)喵喵在上一篇介紹Claude的文章中提到了“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)技術(shù)和“Constitutional AI”。這兩個(gè)研究也是致力于實(shí)現(xiàn)人工智能對(duì)齊領(lǐng)域的最前沿的技術(shù)。“人類反饋強(qiáng)化學(xué)習(xí)”(RLHF)技術(shù)采用的更多的是直接性規(guī)范。RLHF主要依靠人類對(duì) AI 模型的回應(yīng)進(jìn)行評(píng)級(jí)反饋,研究人員再將這些人類的偏好反饋給模型以告訴 AI 哪些回應(yīng)是合理的。這就造成了 RLHF 是一個(gè)過(guò)于依賴人工的技術(shù),使用這個(gè)技術(shù)讓研究人員會(huì)被暴露在各種過(guò)激的 AI 回應(yīng)當(dāng)中。 與之相比“Constitutional AI”則是一系列的「原則」,其理念更接近間接性規(guī)范,將 AI 引導(dǎo)向一個(gè)更安全、更有幫助的方向,幫助 AI 系統(tǒng)在沒(méi)有人類反饋下解決透明度、安全性和決策系統(tǒng)的問(wèn)題,讓 AI 實(shí)現(xiàn)自我管理。 ![]() 總結(jié)一下 這無(wú)疑是一場(chǎng)與時(shí)間賽跑,全球許多科技公司和研究機(jī)構(gòu)都在研究對(duì)策。人工智能對(duì)齊的難題不容易解決,但問(wèn)題的識(shí)別和討論本身已經(jīng)是一種進(jìn)步。只要我們努力使人工智能成為“工具“而非“反擊者“,就能創(chuàng)造一個(gè)美好的人機(jī)共存的未來(lái)。機(jī)器人會(huì)在某一天反擊嗎?結(jié)局如何,取決于我們這個(gè)時(shí)代的選擇和行動(dòng)。 |
|
|