久久亚洲国产精品视频,中国AV片,最近中文字幕免费大全,国产亚洲精品久久久999功能介绍,欧美色女人

金融情報局網(wǎng)

人類難以評價的問題,可以教會一個AI

當(dāng)前位置:金融情報局網(wǎng)>資訊 > 獨家 > 正文  2018-10-25 13:37:35 來源:雷鋒網(wǎng)

正如我們?nèi)栽谧匀徽Z言處理的漫漫征途上摸索,AI 安全的課題也仍然沒有得到系統(tǒng)的解決。作為前沿探索的積極分子,OpenAI 也不斷提出新的思路,有許多既符合人類的思路,也便于未來長期的 AI 發(fā)展。

這次,OpenAI 提出了一種名為「迭代擴(kuò)增」(iterated amplification)的 AI 安全新技術(shù),它可以幫助我們鑒別超出人類可控尺度之外的復(fù)雜行為和目標(biāo),只需要演示如何把某個任務(wù)分解成一些簡單的子任務(wù),而無需提供傳統(tǒng)的標(biāo)注數(shù)據(jù)或者反饋函數(shù)。雖然這種想法還處在很早期的階段,OpenAI 的研究人員們僅僅基于一些非常簡單的算法任務(wù)進(jìn)行了實驗,但他們?nèi)匀粵Q定應(yīng)該毫無保留地把它的初始模樣公布出來。他們覺得,這有可能為 AI 安全帶來一條可大規(guī)模拓展的光明路徑。雷鋒網(wǎng) AI 科技評論介紹如下。

從去掉直接的評價開始傳統(tǒng)上,如果我們想要訓(xùn)練一個機(jī)器學(xué)習(xí)系統(tǒng)執(zhí)行某項任務(wù),我們都會需要一個訓(xùn)練信號,這個訓(xùn)練信號的作用是提供一個評價方式,根據(jù)評價出的「好」或者「差」的結(jié)果引導(dǎo)系統(tǒng)的學(xué)習(xí)。比如,監(jiān)督學(xué)習(xí)中的數(shù)據(jù)標(biāo)注,或者強(qiáng)化學(xué)習(xí)中的反饋,就是這樣的訓(xùn)練信號。這種機(jī)器學(xué)習(xí)范式通常假定了訓(xùn)練信號是已經(jīng)明確地存在的,然后就可以關(guān)注這個信號進(jìn)行學(xué)習(xí)。但是在更多的現(xiàn)實任務(wù)中,我們總需要找一個什么東西,然后把它作為訓(xùn)練信號。如果我們找不到合適的訓(xùn)練信號,我們就沒辦法讓系統(tǒng)學(xué)習(xí);或者如果我們找到的訓(xùn)練信號不合理,系統(tǒng)就會學(xué)到奇怪的行為,有時候這些行為甚至可能是危險的。所以,不論是對于一般性地學(xué)習(xí)一個新任務(wù),還是對于 AI 安全的研究,如果有更好的辦法找到/生成訓(xùn)練信號,都會是一件極具價值的事情。

那么,我們現(xiàn)在是如何生成訓(xùn)練信號的呢?一些情況下,我們想要的目標(biāo)是可以直接用數(shù)學(xué)形式描述的,比如圍棋中的計分、比如賽車游戲中車輛走了多遠(yuǎn)(下圖,左下),或者檢查給出的一組亂序數(shù)字是否被正確排序(左上)。然而多數(shù)真實世界的任務(wù)并不能展示出明確的、可以用數(shù)學(xué)形式表示的訓(xùn)練信號,比如后空翻、比如做飯,在這種時候我們常常可以考慮讓一個人做一次這個任務(wù)(標(biāo)注一個訓(xùn)練數(shù)據(jù)集,中上,或者實際操作一遍,中下),供系統(tǒng)模仿,以此作為訓(xùn)練信號,又或者作為評價者,從旁評價系統(tǒng)執(zhí)行任務(wù)的效果如何。然而,有許多任務(wù)還是無法用這些方法解決,它們過于復(fù)雜,以至于人類既無法給出評價、也無法執(zhí)行它們;這樣的任務(wù)例如,設(shè)計一個復(fù)雜的城市交通系統(tǒng),或者管理一個數(shù)百臺計算機(jī)組成的網(wǎng)絡(luò),負(fù)責(zé)其中的安全細(xì)節(jié)(右)。

「超級 AI」的種子?復(fù)雜到人類難以評價的問題,可以教會一個 AI

迭代擴(kuò)增就是為最后這類任務(wù)生成訓(xùn)練信號的方法,當(dāng)然了它也需要一定的假設(shè)。名義上講,雖然一個人沒有辦法直接執(zhí)行或者直接評價整個任務(wù),但 OpenAI 假設(shè),當(dāng)你把任務(wù)的部分交給一個人的時候,他是有能力把它分解成幾個更小的、清晰的部分的。比如,對于剛才提到的計算機(jī)網(wǎng)絡(luò)安全的例子,人可以把「防衛(wèi)一組服務(wù)器和路由器的安全」這個任務(wù)分解成「考慮防范對服務(wù)器的攻擊」、「可考慮防范對路由器的攻擊」、「考慮這兩種攻擊方式互動的可能性」三部分。另外,OpenAI 也假設(shè)人類有能力執(zhí)行任務(wù)中的一小部分,比如對于計算機(jī)網(wǎng)絡(luò)安全的例子,人類能夠「確認(rèn) log 文件中的某一行記錄是可疑的」。如果這兩個假設(shè)為真,那么 OpenAI 認(rèn)為我們就能夠根據(jù)人類做小的細(xì)分任務(wù)的能力,為大規(guī)模的任務(wù)構(gòu)建訓(xùn)練信號,同時讓人來參與協(xié)調(diào)整個任務(wù)的拼裝。

在 OpenAI 的迭代擴(kuò)增的實現(xiàn)中,他們首先對小的分任務(wù)進(jìn)行采樣,訓(xùn)練 AI 系統(tǒng)仿照人類執(zhí)行這些分任務(wù)的演示進(jìn)行學(xué)習(xí)。然后他們開始采樣更大一些的任務(wù),借助人類的幫助把大任務(wù)分解成較小的任務(wù),而這些較小的任務(wù)正是前一步中經(jīng)過訓(xùn)練的 AI 可以解決的。接著,OpenAI 把這些在人類的幫助下得到的二階任務(wù)的解決方案直接作為訓(xùn)練信號,訓(xùn)練直接解決二階任務(wù)的 AI 系統(tǒng)——這次也就不再需要人類幫助了。下一步,OpenAI 繼續(xù)組合不同的任務(wù),在過程中不斷建立更完整的訓(xùn)練信號。如果這個過程奏效的話,我們最終就可以期望得到一個完全自動的系統(tǒng),它可以解決非常復(fù)雜的組合性任務(wù),即便在剛開始學(xué)習(xí)時沒有任何針對這些任務(wù)的直接訓(xùn)練信號。

這個過程和 AlphaGo Zero 中用到的「專家迭代」(expert iteration)有相似之處,區(qū)別在于專家迭代會不斷強(qiáng)化一個現(xiàn)有的訓(xùn)練信號,而迭代擴(kuò)增則是從零開始逐步構(gòu)建完善的需訓(xùn)練信號。迭代擴(kuò)增也和近期的幾個學(xué)習(xí)算法有一些共同的特征,在測試階段解決問題時,它們都可以現(xiàn)場分解任務(wù)以便處理,只不過它們的運行環(huán)境設(shè)置中并沒有前期的訓(xùn)練信號。

實驗結(jié)果正如之前通過吵架達(dá)到 AI 安全的研究,把一個原型階段的項目直接在超過人類能力的大規(guī)模任務(wù)上運行是不現(xiàn)實的。而且,真的用人來做前期需要的訓(xùn)練喜好也會帶來額外的復(fù)雜度,所以目前 OpenAI 并未這樣做(計劃未來會做做)。

對于早期實驗,OpenAI 首先嘗試把迭代擴(kuò)增用在具有數(shù)學(xué)形式的訓(xùn)練信號上,以便說明它在簡單的設(shè)定下是可以奏效的;OpenAI 也暫時把注意力限制在監(jiān)督學(xué)習(xí)領(lǐng)域內(nèi)(上一次借助人類生成隱式的訓(xùn)練信號見你做我評,根據(jù)人類反饋高效學(xué)習(xí))。他們在 5 個簡單的可以數(shù)學(xué)化的簡單任務(wù)上嘗試了迭代擴(kuò)增方法。這些任務(wù)本身具有直接的、有清晰數(shù)學(xué)形式的解(比如找到一個圖的兩個節(jié)點之間的最短路徑),但 OpenAI 的研究人員們暫時假裝不知道這個解。解決這些任務(wù)可以通過把小的、單步的推演過程一個個拼接起來(比如把相連的兩個短路徑拼接起來形成一個長的路徑),不過想要靠人工把所有的東西都這樣拼接起來則會耗費非常多的精力。

在這種設(shè)置下,OpenAI 只把任務(wù)的小部分作為訓(xùn)練信號,測試使用迭代擴(kuò)增來學(xué)習(xí)最終的直接解決算法;這個過程作為「人類知道如何組合一個組合的各個部分,但無法給出一個直接的訓(xùn)練信號」情境的簡單模擬。

對于五個任務(wù)中的每一個任務(wù)(置換排序、序列對齊、通配符搜索、最短路徑搜索以及聯(lián)盟搜索),迭代擴(kuò)增學(xué)習(xí)到的結(jié)果都可以和監(jiān)督學(xué)習(xí)直接學(xué)到的結(jié)果有近似的表現(xiàn) —— 別忘了,這可是以“沒有直接的訓(xùn)練信號”作為阻礙,還取得了這樣的可貴,難能可貴。(另外值得說明的是,OpenAI 的目標(biāo)是希望迭代擴(kuò)增能利用更少的信息也取得與監(jiān)督學(xué)習(xí)相當(dāng)?shù)某煽儯鵁o需超過)

「超級 AI」的種子?復(fù)雜到人類難以評價的問題,可以教會一個 AI

在任務(wù)中,迭代擴(kuò)增無需查看真實值標(biāo)注,就可以取得和監(jiān)督學(xué)習(xí)近似的表現(xiàn)迭代擴(kuò)增和 OpenAI 之前通過吵架達(dá)到 AI 安全的研究有許多相似的特征。和通過吵架達(dá)到 AI 安全一樣,它都是在想辦法解決那些根據(jù)人類的現(xiàn)有問題無法直接操作、或者無法直接評價的任務(wù),過程則是一個迭代進(jìn)步的過程,而人類就可以在這個過程中提供間接的監(jiān)督,不管具體的任務(wù)、具體的操作細(xì)節(jié)有多么不同。迭代擴(kuò)增也利用了 OpenAI 在你做我評中的研究成果,它實現(xiàn)了一個反饋預(yù)測系統(tǒng),之后的更新的版本也很有可能可以包括來自真正的人類的反饋。

目前為止 OpenAI 對這幾種不同的路徑的探索都還只是在很初級的程度上,下一步的挑戰(zhàn)就是如何拓展它們的規(guī)模,讓它們解決更有趣、也更現(xiàn)實的問題。

論文地址:https://arxiv.org/abs/1810.08575

關(guān)鍵詞: AI 難以評價

相關(guān)內(nèi)容