[返回军事纵横首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
Deepseek R1可能找到了超越人類的辦法
送交者: 王文清23[☆品衔R4☆] 于 2025-02-01 7:47 已读 875 次  

王文清23的个人频道

我本來想寫一篇關於DeepSeek R1 
的科普文,但發現很多人僅僅把它理解為OpenAI 的複製品,而忽略了它在論文中揭示的“驚人一躍”,所以,我決定重寫一篇,講講從AlphaGo
到ChatGPT,再到最近的DeepSeek R1 底層原理的突破,以及為什麼它對所謂的AGI/ASI 很重要。作為一名普通的AI
演算法工程師,我可能無法做到非常深入,如有錯誤歡迎指出。

AlphaGo 突破人類上限

1997 年,IBM 公司開發的國際象棋AI 深藍,擊敗了世界冠軍卡斯帕羅夫而引發轟動;接近二十年後的2016 年,由DeepMind 開發的圍棋AI AlphaGo 擊敗了圍棋世界冠軍李世石,再次引發轟動。

表面上看這兩個AI 都是在棋盤上擊敗了最強的人類棋手,但它們對人類的意義完全不同。西洋棋的棋盤只有64 個格子,而圍棋的棋盤有19x19 個格子,假如我們用一盤棋能有多少種下法(狀態空間)來衡量複雜度,那麼二者對比如下:

1. 理論上的狀態空間
西洋棋:每局約 80 步,每步有 35 種走法→ 理論狀態空間為圍棋:每局約 150 步,每步有 250 種走法→ 理論狀態空間為

2. 規則約束後的實際狀態空間
西洋棋:棋子移動受限(如兵不能倒退、王車易位規則) → 實際值圍棋:棋子不可移動且依賴「氣」的判定→ 實際值
6park.com


6park.com

▲ 西洋棋和圍棋的複雜度對比

儘管規則大幅壓縮了複雜度,圍棋的實際狀態空間仍是國際象棋的  倍,這是一個巨大的量級差異,要知道,宇宙中的所有原子數量大約是  個。在範圍內的計算,依賴IBM 電腦可以暴力搜尋計算出所有可能的走法,所以嚴格意義上來講,深藍的突破和神經網路、模型沒有一點關係,它只是基於規則的暴力搜尋,相當於一個比人類快得多的計算器

但的量級,已經遠遠超出了當前超級電腦的算力,這迫使AlphaGo 放棄暴力搜尋,轉而依賴深度學習:DeepMind 團隊首先用人類棋譜進行訓練,根據當前棋盤狀態預測下一步棋的最佳走法。但是,學習頂尖棋手走法,只能讓模型的能力接近頂尖棋手,而無法超越他們

6park.com

AlphaGo
先用人類棋譜訓練神經網路,然後透過設計一套獎勵函數,讓模型自我對弈進行強化學習。和李世石對弈的第二局,AlphaGo 的第19 手棋(第37
步[^1])讓李世石陷入長考,這步棋也被很多棋手認為是“人類永遠不會下的一步”,如果沒有強化學習和自我對弈,只是學過人類棋譜,AlphaGo
永遠無法下出這步棋。

2017 年5 月,AlphaGo 以3:0 擊敗了柯潔,DeepMind 團隊稱,有一個比它更強的模型還沒出戰。 [^2] 他們發現,其實根本不需要給AI 喂人類高手的對局棋譜,只要告訴它圍棋的基本規則,讓模型自我對弈,贏了就獎勵、輸了就懲罰,模型就能很快從零開始學會圍棋並超越人類,研究人員稱這個模型為AlphaZero,因為它不需要任何人類知識。

讓我重複一遍這個不可思議的事實:無需任何人類棋局作為訓練資料,僅靠自我對弈,模型就能學會圍棋,甚至這樣訓練出的模型,比喂人類棋譜的AlphaGo 更強大。

6park.com


在此之後,圍棋變成了比誰更像AI 的遊戲,因為AI 的棋力已經超越了人類的認知範圍。所以,想要超越人類,必須讓模型擺脫人類經驗、好惡判斷(哪怕是來自最強人類的經驗也不行)的限制,只有這樣才能讓模型能夠自我博弈,真正超越人類的束縛。

AlphaGo 擊敗李世石引發了狂熱的AI 浪潮,從2016 年到2020 年,巨額的AI 經費投入最終收穫的成果寥寥無幾。數得過來的可能只有人臉辨識、語音辨識和合成、自動駕駛、對抗生成網路等——但這些都算不上超越人類的智慧。

為何如此強大的超越人類的能力,卻沒有在其他領域大放異彩?人們發現,圍棋這種規則明確、目標單一的封閉空間遊戲最適合強化學習,現實世界是個開放空間,每一步都有無限種可能,沒有確定的目標(比如「贏」),沒有明確的成敗判定依據(例如佔據棋盤更多區域),試錯成本也很高,自動駕駛一旦出錯後果嚴重。

AI 領域冷寂了下來,直到ChatGPT 的出現。

ChatGPT 改變世界

ChatGPT 被The New Yorker 稱為網路世界的模糊照片( ChatGPT Is a Blurry JPEG of the Web[^3]),它所做的只是把整個網路的文字資料送進一個模型,然後預測下一個字是_

這個字最有可能是"麼"。

一個參數量有限的模型,被迫學習幾乎無限的知識:過去幾百年不同語言的書籍、過去幾十年網際網路上產生的文字,所以它其實是在做資訊壓縮:將不同語言記載的相同的人類智慧、歷史事件和天文地理濃縮在一個模型裡。

科學家驚訝地發現:在壓縮中產生了智慧

我們可以這麼理解:讓模型讀一本推理小說,小說的結尾"凶手是_",如果AI 能精準預測凶手的姓名,我們有理由相信它讀懂了整個故事,即它擁有“智能”,而不是單純的文字拼貼或死記硬背。

讓模型學習並預測下一個字的過程,被稱之為預訓練( Pre -Training),此時的模型只能不斷預測下一個字,但不能回答你的問題,要實現ChatGPT 那樣的問答,需要進行第二階段的訓練,我們稱之為監督微調(Supervised Fine-Tuning, SFT),此時需要人為建構一批問答資料,例如: 6park.com

# 例子一人類:第二次世界大戰發生在什麼時候?AI:1939年
# 例子二人類:請總結下面這段話....{xxx}AI:好的,以下是總結:xxx

值得注意的是,以上這些例子是人工建構的,目的是讓AI 學習人類的問答模式,這樣當你說"請翻譯這句:xxx"時,送給AI 的內容就是 6park.com

人類:請翻譯這句:{xxx}AI:

你看,它其實仍然在預測下一個字,在這個過程中模型並沒有變得更聰明,它只是學會了人類的問答模式,聽懂了你在要求它做什麼。

這還不夠,因為模型輸出的回答有時好、有時差,有些回答還涉及種族歧視、或違反人類倫理( "如何搶銀行?" ),此時我們需要找一批人,針對模型輸出的幾千筆資料進行標註:給好的答案打高分、給違反倫理的回答打負分,最終我們可以用這批標註資料訓練一個獎勵模型,它能判斷模型輸出的回答是否符合人類偏好6park.com

6park.com

我們用這個獎勵模型來繼續訓練大模型,讓模型輸出的回答更符合人類偏好,這個過程稱為透過人類回饋的強化學習(RLHF)。

總結一下:讓模型在預測下一個字的過程中產生智能,然後透過監督微調讓模型學會人類的問答模式,最後透過RLHF 讓模型輸出符合人類偏好的回答。

這就是ChatGPT 的大致思路。

大模型撞牆

OpenAI 的科學家們是最早堅信壓縮即智能的那批人,他們認為只要使用更海量優質的數據、在更龐大的GPU 叢集上訓練更大參數量的模型,就能產生更大的智能,ChatGPT 就是在這樣的信仰之下誕生的。 Google 雖然做了Transformer,但他們無法進行新創公司那樣的豪賭。

DeepSeek
V3 和ChatGPT 所做的事差不多,因為美國GPU
出口管制,聰明的研究者被迫使用了更有效率的訓練技巧(MoE/FP8),他們也擁有頂尖的基礎設施團隊,最終只用了550
萬美元就訓練了比肩GPT-4o 的模型,後者的訓練成本超過1 億美元。

但本文重點是R1。

這裡想說的是,人類產生的數據在2024
年底已經被消耗殆盡了,模型的尺寸可以隨著GPU 叢集的增加,輕易擴大10 倍甚至100
倍,但人類每一年產生的新數據,相比現有的幾十年、過去幾百年的數據來說,增量幾乎可以忽略不計。而依照Chinchilla 擴展定律(Scaling
Laws):每增加一倍模型大小,訓練資料的數量也應增加一倍。

這就導致了預訓練撞牆的事實:模型體積雖然增加了10 倍,但我們已經無法獲得比現在多10 倍的高品質資料了。 GPT-5 遲遲不發布、國產大模型廠商不做預訓練的傳聞,都跟這個問題有關。

RLHF 並不是RL

另一方面,基於人類偏好的強化學習(RLHF)最大的問題是:一般人類的智商已經不足以評估模型結果了。在ChatGPT
時代,AI 的智商低於普通人,所以OpenAI 可以請大量廉價勞動力,對AI
的輸出結果進行評測:好/中/差,但很快隨著GPT-4o/Claude 3.5 Sonnet
的誕生,大模型的智商已經超越了一般人,只有專家級的標註人員,才有可能幫助模型提升。

且不說聘請專家的成本,那專家之後呢?終究有一天,最頂尖的專家也無法評估模型結果了,AI
就超越人類了嗎?並不是。 AlphaGo 對李世石下出第19 手棋,從人類偏好來看,這步棋絕不會贏,所以如果讓李世石來做人類反饋(Human
Feedback, HF)評價AI 的這步棋,他很可能也會給出負分。這樣,AI 就永遠無法逃出人類思維的枷鎖

6park.com

你可以把AI 想像成一個學生,給他打分數的人從高中老師變成了大學教授,學生的程度會變高,但幾乎不可能超越教授。 RLHF 本質上是一種討好人類的訓練方式,它讓模型輸出符合人類偏好,但同時它扼殺了超越人類的可能性。

所以我才說,RLHF 並不是RL,最近Andrej Karpathy 也發表了類似的看法[^4]。

6park.com


6park.com


OpenAI 的解法

丹尼爾‧卡尼曼在《思考快與慢》裡提出,人腦對待問題有兩種思考模式:一類問題不經過腦子就能給出回答,也就是快思考,一類問題需要類似圍棋的長考才能給答案,也就是慢思考

既然訓練已經到頭了,那可否從推理,也就是給予回答的時候,透過增加思考時間,從而讓回答品質變好呢?這其實也有先例:科學家很早就發現,給模型提問時加一句:「讓我們一步一步思考」("Let's
think step by step"),可以讓模型輸出自己的思考過程,最終給出更好的結果,這被稱為思維鏈(Chain-of-Thought, CoT)。

2024 年底大模型預訓練撞牆後,使用強化學習(RL)來訓練模型思維鏈成為了所有人的新共識。這種訓練大大提升了某些特定、客觀可測量任務(如數學、編碼)的表現。它需要從普通的預訓練模型開始,在第二階段使用強化學習訓練推理思維鏈,這類模型被稱為 Reasoning 模型,OpenAI 在2024 年9 月發布的o1 模型以及隨後發布的o3 模型,都是Reasoning 模型。

6park.com


不同於ChatGPT 和GPT-4/4o,在o1/o3 這類Reasoning 模型的訓練過程中,人類回饋不再重要了,因為可以自動評估每一步的思考結果,從而給予獎勵/懲罰。 Anthropic 的CEO 在昨天的文章中[^5]用轉折點來形容這一技術路線:存在一個強大的新範式,它處於Scaling Law 的早期,可以快速取得重大進展。

雖然OpenAI 並沒有公佈他們的強化學習演算法細節,但最近DeepSeek R1 的發布,向我們展示了一種可行的方法。

DeepSeek R1-Zero

我猜DeepSeek 將自己的純強化學習模型命名為R1-Zero 也是在致敬AlphaZero,那個透過自我對弈、不需要學習任何棋譜就能超越最強棋手的演算法。

要訓練慢思考模型,首先要建構品質夠好的、包含思考過程的數據,並且如果希望強化學習不依賴人類,就需要對思考的每一步進行定量(好/壞)評估,從而給予每一步思考結果獎勵/懲罰。

如上文所說:數學和程式碼這兩個資料集最符合要求,數學公式的每一步推導都能被驗證是否正確,而程式碼的輸出結果以透過直接在編譯器上執行來檢驗。

舉個例子,在數學課本中,我們常看到這樣的推理過程: 6park.com

<思考>  設方程根為x, 兩邊平方得: x² = a - √(a+x)  移項得: √(a+x) = a - x²  再次平方: (a+x) = (a - x²)²  展開: a + x = a² - 2a x² + x⁴  整理: x⁴ - 2a x² - x + (a² - a) = 0<回答>x⁴ - 2a x² - x + (a² - a) = 0

上面這段文字就包含了一個完整的思考鏈,我們可以透過正規表示式來匹配出思考過程和最終回答,從而對模型的推理結果進行定量評估。

和OpenAI
類似,DeepSeek 的研究者基於V3
模型,在數學和程式碼這兩類包含思維鏈的資料上進行了強化學習(RL)訓練,他們創造了一種名為GRPO(Group Relative Policy
Optimization)的強化學習演算法,最終得到的R1-Zero 模型在各項推理指標上相比DeepSeek V3 顯著提升,證明僅透過RL
就能激發模型的推理能力。

這是另一個AlphaZero 時刻,在R1-Zero 的訓練過程,完全不依賴人類的智商、經驗和偏好,僅靠RL 去學習那些客觀、可測量的人類真理,最終讓推理能力遠強於所有非Reasoning模型。

喜欢王文清23朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ 王文清23的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回军事纵横首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]