DeepSeek開源惠四方

最近中文2019字幕第二页,艳妇乳肉豪妇荡乳,中日韩高清无专码区2021,中文字幕乱码无码人妻系列蜜桃,曰本极品少妇videossexhd

DeepSeek開源惠四方

受到熱烈歡迎

業(yè)界紛紛部署

近期,中國杭州深度求索人工智能基礎技術研究有限公司推出AI語言大模型DeepSeek,受到用戶熱烈歡迎。2025年1月20日,DeepSeek-R1發(fā)布上線,7天內用戶超過1億。ChatGPT從發(fā)布到達到相同的用戶規(guī)模用時兩個月。

GitHub是全球最大的代碼托管網(wǎng)站,GitHub的星數(shù)即GitHub平臺項目頁面上的Star按鈕被用戶主動點擊的次數(shù),代表受歡迎程度和社區(qū)認可度。目前,DeepSeek的GitHub星數(shù)已超越了同類大模型的GitHub星數(shù)。

值得一提的是,DeepSeek贏得一批國際知名企業(yè)特別是全球人工智能企業(yè)的青睞。微軟率先宣布將DeepSeek-R1模型添加到云平臺Azure AI Foundry,開發(fā)者可用于構建基于云的應用程序和服務。之后,亞馬遜云科技、英偉達、超微半島等公司宣布在其AI服務平臺上部署DeepSeek-R1模型。

實現(xiàn)技術突破

走出發(fā)展新路

DeepSeek受到贊譽和認可,但也有輿論認為,與ChatGPT實現(xiàn)從“0到1”的突破不同,DeepSeek只是實現(xiàn)了從“1到N”的擴展。

對此,筆者并不認同,因為這種看法不符合人工智能研究的特點及創(chuàng)新發(fā)展的歷史軌跡。人工智能創(chuàng)新不同于物理學等基礎理論研究。物理學中的牛頓定律和愛因斯坦發(fā)現(xiàn)的相對論是從“0到1”的突破,但人工智能是一個沒有嚴格定義的研究領域,并不存在“智能”和“不智能”之間“0”和“1”的界限,只有智能化水平不斷提高的創(chuàng)新發(fā)展過程。

筆者認為,DeepSeek推出的V3和R1模型既是技術上的重大突破,也是發(fā)展模式上的重大創(chuàng)新,是人工智能發(fā)展史上重大事件,可以與OpenAI發(fā)布ChatGPT3.5相提并論。DeepSeek以高效率、低成本的推理模型和開源的商業(yè)模式走出一條發(fā)展人工智能的新路。  

堅持歷史視角

準確看待價值

準確認識DeepSeek的價值和貢獻,必須堅持歷史視角,將其放在人工智能創(chuàng)新發(fā)展的歷程中來看待。

1943年,美國科學家麥卡洛克和皮茨提出神經(jīng)元計算模型,開創(chuàng)了神經(jīng)網(wǎng)絡研究的先河,開啟人工智能創(chuàng)新發(fā)展的漫長探索歷程。本世紀第二個十年,基于神經(jīng)網(wǎng)絡模型的第三波人工智能浪潮涌起并接連迎來多個里程碑式事件。

2012年,在ImageNet大規(guī)模視覺識別挑戰(zhàn)賽上,辛頓等人創(chuàng)建的AlexNet卷積神經(jīng)網(wǎng)絡模型大放異彩。這被看作第三波人工智能浪潮的起點。在此4年之后,DeepMind研制的AlphaGo圍棋程序戰(zhàn)勝世界冠軍,引起了全世界的矚目。

2017年,谷歌的幾名專家提出Transformer模型,提出自注意力機制,成為深度學習的主流模型。  

2018年,DeepMind發(fā)布了AlphaFold,在蛋白質結構預測中展示出驚人的能力,開辟了AI for Science(人工智能驅動科技創(chuàng)新)的新方向。

2022年,OpenAI發(fā)布ChatGPT3.5,引領了以大語言模型(LLM)為標志的生成式人工智能新浪潮。

近日,DeepSeek上線,成為上述重大事件之后,第三波人工智能創(chuàng)新發(fā)展浪潮的又一重大事件。

采用創(chuàng)新算法

提升運行效率

DeepSeek廣受歡迎,是因為在模型算法和系統(tǒng)軟件層次都有重大創(chuàng)新。那么這些重大創(chuàng)新具體體現(xiàn)在哪些方面呢?

算法創(chuàng)新是DeepSeek的重要貢獻之一。DeepSeek大模型采用新的混合專家架構(MoE),每一層有256個路由“專家”和1個共享“專家”。在每次前向傳播過程中,只激活一小部分“專家”來進行計算。雖然DeepSeek-V3是一個671B參數(shù)的大模型,但模型的任何函數(shù)調用和傳遞只使用約37B參數(shù),使其訓練成本大為降低。

在算法層面,DeepSeek還有一個降低成本的重大創(chuàng)新,即低秩注意力機制(也稱為多頭潛在注意力機制)。這一發(fā)明對巨大的注意力機制矩陣進行了壓縮,減少參與運算的參數(shù)數(shù)量,大大降低了顯存占用,由此提升了模型運行效率。

減少推理成本

降低開發(fā)門檻

在推理層面的創(chuàng)新是DeepSeek另一個重大貢獻。OpenAI發(fā)布的o1推理模型是閉源的,其他企業(yè)無法了解OpenAI是如何基于預訓練模型構建推理模型的。通過開源方式,DeepSeek揭示了實現(xiàn)低成本推理的奧秘,為發(fā)展推理模型開辟了一條新路。DeepSeek揭示了一個事實,即推理模型的開發(fā)比想象中更為簡單,門檻實際上并不是那么高,各行各業(yè)均可以做。

傳統(tǒng)的強化學習需要大量標注數(shù)據(jù),成本很高。DeepSeek另辟蹊徑,以全自動的強化學習取代監(jiān)督微調和基于人類反饋的強化學習,用機器直接推測的方式來預測分數(shù),顯著提高了強化學習的效率。

DeepSeek通過工程創(chuàng)新和優(yōu)化,降低了推理成本,打破了人工智能領域長期以來對高算力的迷信,對人工智能產(chǎn)業(yè)的發(fā)展具有重大意義。

便捷本地部署

促進技術應用

DeepSeek在模型算法和工程優(yōu)化方面所進行的系統(tǒng)級創(chuàng)新,為在受限資源下探索通用人工智能開辟了新路。傳統(tǒng)大模型遵循的是一條“由通到專”的人工智能發(fā)展思路,與之相反,DeepSeek追求的是“由專到通”的人工智能發(fā)展路徑,通過引領人工智能技術生態(tài)的形成,邁向全社會分享的通用人工智能之路。

雖然以OpenAI為代表的生成式人工智能紅紅火火,但多數(shù)企業(yè)不敢將自己的數(shù)據(jù)交給私有AI平臺生成自己的垂直模型,因為擔心提交的數(shù)據(jù)會泄露自己的技術機密。這可能是導致人工智能在很多行業(yè)難以落地和應用的重要原因之一。

DeepSeek的出現(xiàn)化解了上述難題。人工智能領域的研究者可以將DeepSeek提供的小而精的模型下載到本地,即使斷網(wǎng)也可以“蒸餾”出高效率的垂直模型,從而增強當?shù)厝斯ぶ悄軇?chuàng)新發(fā)展的能力。

人工智能不同于資本密集型和經(jīng)驗積累型的集成電路產(chǎn)業(yè),不僅要“燒錢”,而且要“燒腦”,本質上是比拼人的智力的新興產(chǎn)業(yè)。因此,人工智能產(chǎn)業(yè)具有明顯的不對稱性,一個具有100多個聰明頭腦的小企業(yè)完全可以與市值上萬億美元的龍頭企業(yè)展開有力競爭。

突破規(guī)模法則

引發(fā)行業(yè)思考

規(guī)模法則是指人工智能模型在推理階段(而非訓練階段)通過增加計算資源即算力來提升性能。在AI領域,規(guī)模法則被認為是“公理”,俗稱“大力出奇跡”,OpenAI等龍頭企業(yè)和美國的AI投資界將其當成制勝法寶。但是,規(guī)模法則不是像牛頓定律一樣經(jīng)過無數(shù)次驗證的科學定律,而是OpenAI等公司近幾年研制大模型的經(jīng)驗歸納。規(guī)模法則從科學研究的角度看,屬于對技術發(fā)展趨勢的猜想,從投資的角度看,屬于對某種技術路線的押注,包含難以克服的局限性。

人工智能是對未來技術的探索,探索路徑存在多種可能。人工智能本身也存在多元化的目標,探索的道路上有很多高山需要去攀登,攀登一座高山的路徑也不止一條。把一條道路或猜想當成科學“公理”本身就不是科學的態(tài)度。

規(guī)模法則的倡導者,常以“強化學習之父”理查德·薩頓的文章《苦澀的教訓》作為追求高算力的依據(jù):“研究人員曾一次又一次試圖通過精巧的工程設計來提升性能,但最終都敗給了簡單粗暴的‘加大算力’方案,歷史證明,通用方法總是在AI領域勝出。”

最近兩年,薩頓本人對規(guī)模法則做了深刻反思。他指出,雖然規(guī)模法則在提升模型性能方面確實有效,但它并不是解決所有問題的萬能鑰匙。AI系統(tǒng)不僅需要具備強大的計算能力,還需要具備持續(xù)學習、適應環(huán)境、理解復雜情境等能力,而這些往往難以通過簡單地增加算力來實現(xiàn)。

圖靈獎得主楊立昆和OpenAI前首席科學家伊利亞·蘇茨克維等人甚至直言,規(guī)模法則已觸及天花板。

DeepSeek的出現(xiàn),促使全球AI界嚴肅地思考這一技術發(fā)展路線問題:是繼續(xù)燒錢豪賭,還是另辟蹊徑,在算法優(yōu)化上下更多功夫?

DeepSeek的成功在一定程度上表明“小力也能出奇跡”“算法和模型架構優(yōu)化也能出奇跡”。隨著時間的推移,AI擴展方法也在發(fā)生變化:最初是模型規(guī)模,后來是數(shù)據(jù)集大小和數(shù)據(jù)質量,目前是推理時間和合成數(shù)據(jù)。

算力不容忽視

走好綠色之路

DeepSeek-R1是推理模型,從某種意義上說,它把業(yè)界對人工智能的關注重點從規(guī)模法則轉移到推理計算上。

如果就此斷言規(guī)模法則已經(jīng)走到盡頭,也是沒有根據(jù)的。與人腦的神經(jīng)連接復雜性相比,現(xiàn)在的人工神經(jīng)網(wǎng)絡至少還有上百倍的差距,繼續(xù)擴大神經(jīng)網(wǎng)絡的規(guī)模和增加訓練的數(shù)據(jù)量是非常必要的,但能否取得與投入相稱的回報,還要看今后的實際效果。  

DeepSeek的成功并沒有否定算力在人工智能發(fā)展中的關鍵作用。實際上,由于用于推理的設備大幅多于訓練設備,所以推理所需要的算力將來會成為主要需求。通過算法優(yōu)化提高模型的效率十分重要,算力是解決人工智能問題的必要條件,不容忽視,而走節(jié)省算力的綠色發(fā)展之路是我們的必然選擇。

(作者李國杰為中國工程院院士,長期從事計算機體系結構、并行算法、人工智能等研究,獲首屆何梁何利基金科技進步獎,主持取得的科研成果獲國家科學技術進步獎一等獎等。本文由尹振茂根據(jù)作者表述整理)

責任編輯:王梓辰校對:張弛最后修改:
0

精選專題

領航新時代

精選文章

精選視頻

精選圖片

微信公眾平臺:搜索“宣講家”或掃描下面的二維碼:
宣講家微信公眾平臺
您也可以通過點擊圖標來訪問官方微博或下載手機客戶端:
微博
微博
客戶端
客戶端
京公網(wǎng)安備京公網(wǎng)安備 11010102001556號