DeepSeek-AI團隊梁文鋒及其(qi)同事17日在《自然》雜志上(shang)發表了開源人工(gong)智能(AI)模(mo)型DeepSeek-R1所采用的(de)(de)大規(gui)模(mo)推理(li)模(mo)型訓練方法。研(yan)究(jiu)(jiu)表明,大語言模(mo)型(LLM)的(de)(de)推理(li)能力可通(tong)過純強化(hua)學習來提升,從(cong)而(er)減少增強性能所需(xu)的(de)(de)人類(lei)輸入工(gong)作(zuo)量。訓練出的(de)(de)模(mo)型在數學、編程競賽和STEM領(ling)域研(yan)究(jiu)(jiu)生水平問題(ti)等任務上(shang),比傳統訓練的(de)(de)LLM表現(xian)更(geng)好。
DeepSeek-R1包(bao)含一(yi)個在人(ren)(ren)類(lei)監(jian)督下(xia)的(de)深(shen)入(ru)訓練階段,以優(you)(you)(you)化(hua)推(tui)理(li)過(guo)(guo)程。梁(liang)文鋒團(tuan)隊報告稱,該模型使用了(le)強(qiang)(qiang)化(hua)學習而非人(ren)(ren)類(lei)示例來(lai)(lai)開發(fa)推(tui)理(li)步驟,減(jian)少(shao)了(le)訓練成本和復雜性。DeepSeek-R1在被展示優(you)(you)(you)質的(de)問題(ti)解(jie)決案例后,會獲得(de)一(yi)個模板來(lai)(lai)產生(sheng)推(tui)理(li)過(guo)(guo)程,即這一(yi)模型通過(guo)(guo)解(jie)決問題(ti)獲得(de)獎(jiang)勵,從而強(qiang)(qiang)化(hua)學習效果(guo)。團(tuan)隊總結說,未(wei)來(lai)(lai)研究可以聚(ju)焦優(you)(you)(you)化(hua)獎(jiang)勵過(guo)(guo)程,以確保推(tui)理(li)和任(ren)務結果(guo)更可靠。
在評(ping)估AI表(biao)現的(de)數(shu)學基(ji)準測試中,DeepSeek-R1-Zero和DeepSeek-R1得分分別為77.9%和79.8%,在編程(cheng)競賽及研究生水平的(de)生物(wu)學、物(wu)理和化學問(wen)題上(shang)同樣表(biao)現優異(yi)。
① 凡本(ben)(ben)站注(zhu)明“稿(gao)件來(lai)源:中國(guo)教(jiao)育在線”的所有文(wen)字(zi)、圖片(pian)和音視頻稿(gao)件,版權(quan)(quan)均屬本(ben)(ben)網所有,任(ren)(ren)何媒(mei)體(ti)(ti)、網站或個人未經本(ben)(ben)網協(xie)(xie)議授(shou)(shou)權(quan)(quan)不得(de)轉(zhuan)載(zai)(zai)、鏈(lian)接、轉(zhuan)貼(tie)或以其他方式復制發表。已經本(ben)(ben)站協(xie)(xie)議授(shou)(shou)權(quan)(quan)的媒(mei)體(ti)(ti)、網站,在下載(zai)(zai)使(shi)用時必須注(zhu)明“稿(gao)件來(lai)源:中國(guo)教(jiao)育在線”,違者本(ben)(ben)站將依法追究(jiu)責任(ren)(ren)。
② 本(ben)站注(zhu)明稿(gao)件來(lai)源為其(qi)他(ta)媒體的文/圖等(deng)稿(gao)件均(jun)為轉載(zai)(zai)稿(gao),本(ben)站轉載(zai)(zai)出于非商(shang)業性的教育和科研之(zhi)目的,并不(bu)意味著贊(zan)同其(qi)觀(guan)點或證實其(qi)內(nei)容(rong)的真實性。如轉載(zai)(zai)稿(gao)涉及(ji)版權等(deng)問題,請(qing)作者(zhe)在兩周(zhou)內(nei)速來(lai)電或來(lai)函聯系。




中國教育在線
