正如我們?nèi)栽谧匀徽Z言處理的漫漫征途上摸索,AI 安全的課題也仍然沒有得到系統(tǒng)的解決。作為前沿探索的積極分子,OpenAI 也不斷提出新的思路,有許多既符合人類的思路,也便于未來長期的 AI 發(fā)展。
這次,OpenAI 提出了一種名為「迭代擴(kuò)增」(iterated amplification)的 AI 安全新技術(shù),它可以幫助我們鑒別超出人類可控尺度之外的復(fù)雜行為和目標(biāo),只需要演示如何把某個(gè)任務(wù)分解成一些簡單的子任務(wù),而無需提供傳統(tǒng)的標(biāo)注數(shù)據(jù)或者反饋函數(shù)。雖然這種想法還處在很早期的階段,OpenAI 的研究人員們僅僅基于一些非常簡單的算法任務(wù)進(jìn)行了實(shí)驗(yàn),但他們?nèi)匀粵Q定應(yīng)該毫無保留地把它的初始模樣公布出來。他們覺得,這有可能為 AI 安全帶來一條可大規(guī)模拓展的光明路徑。雷鋒網(wǎng) AI 科技評(píng)論介紹如下。
從去掉直接的評(píng)價(jià)開始傳統(tǒng)上,如果我們想要訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)執(zhí)行某項(xiàng)任務(wù),我們都會(huì)需要一個(gè)訓(xùn)練信號(hào),這個(gè)訓(xùn)練信號(hào)的作用是提供一個(gè)評(píng)價(jià)方式,根據(jù)評(píng)價(jià)出的「好」或者「差」的結(jié)果引導(dǎo)系統(tǒng)的學(xué)習(xí)。比如,監(jiān)督學(xué)習(xí)中的數(shù)據(jù)標(biāo)注,或者強(qiáng)化學(xué)習(xí)中的反饋,就是這樣的訓(xùn)練信號(hào)。這種機(jī)器學(xué)習(xí)范式通常假定了訓(xùn)練信號(hào)是已經(jīng)明確地存在的,然后就可以關(guān)注這個(gè)信號(hào)進(jìn)行學(xué)習(xí)。但是在更多的現(xiàn)實(shí)任務(wù)中,我們總需要找一個(gè)什么東西,然后把它作為訓(xùn)練信號(hào)。如果我們找不到合適的訓(xùn)練信號(hào),我們就沒辦法讓系統(tǒng)學(xué)習(xí);或者如果我們找到的訓(xùn)練信號(hào)不合理,系統(tǒng)就會(huì)學(xué)到奇怪的行為,有時(shí)候這些行為甚至可能是危險(xiǎn)的。所以,不論是對(duì)于一般性地學(xué)習(xí)一個(gè)新任務(wù),還是對(duì)于 AI 安全的研究,如果有更好的辦法找到/生成訓(xùn)練信號(hào),都會(huì)是一件極具價(jià)值的事情。
那么,我們現(xiàn)在是如何生成訓(xùn)練信號(hào)的呢?一些情況下,我們想要的目標(biāo)是可以直接用數(shù)學(xué)形式描述的,比如圍棋中的計(jì)分、比如賽車游戲中車輛走了多遠(yuǎn)(下圖,左下),或者檢查給出的一組亂序數(shù)字是否被正確排序(左上)。然而多數(shù)真實(shí)世界的任務(wù)并不能展示出明確的、可以用數(shù)學(xué)形式表示的訓(xùn)練信號(hào),比如后空翻、比如做飯,在這種時(shí)候我們常常可以考慮讓一個(gè)人做一次這個(gè)任務(wù)(標(biāo)注一個(gè)訓(xùn)練數(shù)據(jù)集,中上,或者實(shí)際操作一遍,中下),供系統(tǒng)模仿,以此作為訓(xùn)練信號(hào),又或者作為評(píng)價(jià)者,從旁評(píng)價(jià)系統(tǒng)執(zhí)行任務(wù)的效果如何。然而,有許多任務(wù)還是無法用這些方法解決,它們過于復(fù)雜,以至于人類既無法給出評(píng)價(jià)、也無法執(zhí)行它們;這樣的任務(wù)例如,設(shè)計(jì)一個(gè)復(fù)雜的城市交通系統(tǒng),或者管理一個(gè)數(shù)百臺(tái)計(jì)算機(jī)組成的網(wǎng)絡(luò),負(fù)責(zé)其中的安全細(xì)節(jié)(右)。
迭代擴(kuò)增就是為最后這類任務(wù)生成訓(xùn)練信號(hào)的方法,當(dāng)然了它也需要一定的假設(shè)。名義上講,雖然一個(gè)人沒有辦法直接執(zhí)行或者直接評(píng)價(jià)整個(gè)任務(wù),但 OpenAI 假設(shè),當(dāng)你把任務(wù)的部分交給一個(gè)人的時(shí)候,他是有能力把它分解成幾個(gè)更小的、清晰的部分的。比如,對(duì)于剛才提到的計(jì)算機(jī)網(wǎng)絡(luò)安全的例子,人可以把「防衛(wèi)一組服務(wù)器和路由器的安全」這個(gè)任務(wù)分解成「考慮防范對(duì)服務(wù)器的攻擊」、「可考慮防范對(duì)路由器的攻擊」、「考慮這兩種攻擊方式互動(dòng)的可能性」三部分。另外,OpenAI 也假設(shè)人類有能力執(zhí)行任務(wù)中的一小部分,比如對(duì)于計(jì)算機(jī)網(wǎng)絡(luò)安全的例子,人類能夠「確認(rèn) log 文件中的某一行記錄是可疑的」。如果這兩個(gè)假設(shè)為真,那么 OpenAI 認(rèn)為我們就能夠根據(jù)人類做小的細(xì)分任務(wù)的能力,為大規(guī)模的任務(wù)構(gòu)建訓(xùn)練信號(hào),同時(shí)讓人來參與協(xié)調(diào)整個(gè)任務(wù)的拼裝。
在 OpenAI 的迭代擴(kuò)增的實(shí)現(xiàn)中,他們首先對(duì)小的分任務(wù)進(jìn)行采樣,訓(xùn)練 AI 系統(tǒng)仿照人類執(zhí)行這些分任務(wù)的演示進(jìn)行學(xué)習(xí)。然后他們開始采樣更大一些的任務(wù),借助人類的幫助把大任務(wù)分解成較小的任務(wù),而這些較小的任務(wù)正是前一步中經(jīng)過訓(xùn)練的 AI 可以解決的。接著,OpenAI 把這些在人類的幫助下得到的二階任務(wù)的解決方案直接作為訓(xùn)練信號(hào),訓(xùn)練直接解決二階任務(wù)的 AI 系統(tǒng)——這次也就不再需要人類幫助了。下一步,OpenAI 繼續(xù)組合不同的任務(wù),在過程中不斷建立更完整的訓(xùn)練信號(hào)。如果這個(gè)過程奏效的話,我們最終就可以期望得到一個(gè)完全自動(dòng)的系統(tǒng),它可以解決非常復(fù)雜的組合性任務(wù),即便在剛開始學(xué)習(xí)時(shí)沒有任何針對(duì)這些任務(wù)的直接訓(xùn)練信號(hào)。
這個(gè)過程和 AlphaGo Zero 中用到的「專家迭代」(expert iteration)有相似之處,區(qū)別在于專家迭代會(huì)不斷強(qiáng)化一個(gè)現(xiàn)有的訓(xùn)練信號(hào),而迭代擴(kuò)增則是從零開始逐步構(gòu)建完善的需訓(xùn)練信號(hào)。迭代擴(kuò)增也和近期的幾個(gè)學(xué)習(xí)算法有一些共同的特征,在測試階段解決問題時(shí),它們都可以現(xiàn)場分解任務(wù)以便處理,只不過它們的運(yùn)行環(huán)境設(shè)置中并沒有前期的訓(xùn)練信號(hào)。
實(shí)驗(yàn)結(jié)果正如之前通過吵架達(dá)到 AI 安全的研究,把一個(gè)原型階段的項(xiàng)目直接在超過人類能力的大規(guī)模任務(wù)上運(yùn)行是不現(xiàn)實(shí)的。而且,真的用人來做前期需要的訓(xùn)練喜好也會(huì)帶來額外的復(fù)雜度,所以目前 OpenAI 并未這樣做(計(jì)劃未來會(huì)做做)。
對(duì)于早期實(shí)驗(yàn),OpenAI 首先嘗試把迭代擴(kuò)增用在具有數(shù)學(xué)形式的訓(xùn)練信號(hào)上,以便說明它在簡單的設(shè)定下是可以奏效的;OpenAI 也暫時(shí)把注意力限制在監(jiān)督學(xué)習(xí)領(lǐng)域內(nèi)(上一次借助人類生成隱式的訓(xùn)練信號(hào)見你做我評(píng),根據(jù)人類反饋高效學(xué)習(xí))。他們?cè)?5 個(gè)簡單的可以數(shù)學(xué)化的簡單任務(wù)上嘗試了迭代擴(kuò)增方法。這些任務(wù)本身具有直接的、有清晰數(shù)學(xué)形式的解(比如找到一個(gè)圖的兩個(gè)節(jié)點(diǎn)之間的最短路徑),但 OpenAI 的研究人員們暫時(shí)假裝不知道這個(gè)解。解決這些任務(wù)可以通過把小的、單步的推演過程一個(gè)個(gè)拼接起來(比如把相連的兩個(gè)短路徑拼接起來形成一個(gè)長的路徑),不過想要靠人工把所有的東西都這樣拼接起來則會(huì)耗費(fèi)非常多的精力。
在這種設(shè)置下,OpenAI 只把任務(wù)的小部分作為訓(xùn)練信號(hào),測試使用迭代擴(kuò)增來學(xué)習(xí)最終的直接解決算法;這個(gè)過程作為「人類知道如何組合一個(gè)組合的各個(gè)部分,但無法給出一個(gè)直接的訓(xùn)練信號(hào)」情境的簡單模擬。
對(duì)于五個(gè)任務(wù)中的每一個(gè)任務(wù)(置換排序、序列對(duì)齊、通配符搜索、最短路徑搜索以及聯(lián)盟搜索),迭代擴(kuò)增學(xué)習(xí)到的結(jié)果都可以和監(jiān)督學(xué)習(xí)直接學(xué)到的結(jié)果有近似的表現(xiàn) —— 別忘了,這可是以“沒有直接的訓(xùn)練信號(hào)”作為阻礙,還取得了這樣的可貴,難能可貴。(另外值得說明的是,OpenAI 的目標(biāo)是希望迭代擴(kuò)增能利用更少的信息也取得與監(jiān)督學(xué)習(xí)相當(dāng)?shù)某煽?,而無需超過)
在任務(wù)中,迭代擴(kuò)增無需查看真實(shí)值標(biāo)注,就可以取得和監(jiān)督學(xué)習(xí)近似的表現(xiàn)迭代擴(kuò)增和 OpenAI 之前通過吵架達(dá)到 AI 安全的研究有許多相似的特征。和通過吵架達(dá)到 AI 安全一樣,它都是在想辦法解決那些根據(jù)人類的現(xiàn)有問題無法直接操作、或者無法直接評(píng)價(jià)的任務(wù),過程則是一個(gè)迭代進(jìn)步的過程,而人類就可以在這個(gè)過程中提供間接的監(jiān)督,不管具體的任務(wù)、具體的操作細(xì)節(jié)有多么不同。迭代擴(kuò)增也利用了 OpenAI 在你做我評(píng)中的研究成果,它實(shí)現(xiàn)了一個(gè)反饋預(yù)測系統(tǒng),之后的更新的版本也很有可能可以包括來自真正的人類的反饋。
目前為止 OpenAI 對(duì)這幾種不同的路徑的探索都還只是在很初級(jí)的程度上,下一步的挑戰(zhàn)就是如何拓展它們的規(guī)模,讓它們解決更有趣、也更現(xiàn)實(shí)的問題。
論文地址:https://arxiv.org/abs/1810.08575
關(guān)鍵詞: AI 難以評(píng)價(jià)
質(zhì)檢
推薦