當(dāng)?shù)貢r(shí)間1月27日,美國芯片巨頭英偉達(dá)股價(jià)暴跌17%,市值跌去5900億美元(約合人民幣4.24萬億元)。這與來自中國的人工智能初創(chuàng)公司DeepSeek“現(xiàn)象級崛起”密切相關(guān),“好用、免費(fèi)、訓(xùn)練成本低”,DeepSeek連續(xù)多日引發(fā)了全民關(guān)注,服務(wù)器還一度卡到宕機(jī)。
訪問量激增到一度宕機(jī)
DeepSeek一夜火出圈。從昨天開始,微信朋友圈、微博等似乎全網(wǎng)都在討論或者分享DeepSeek。這款突然出圈的AI模型到底是什么?和目前市面上的大模型有何不同,為何能一夜出圈,引發(fā)全民關(guān)注?
1月28日凌晨,人工智能社區(qū)Hugging Face顯示,DeepSeek剛剛發(fā)布了開源多模態(tài)人工智能模型Janus-Pro,擁有10億和70億參數(shù)規(guī)模,僅使用128顆英偉達(dá)A100進(jìn)行訓(xùn)練1周。
DeepSeek有多好用?一位用戶表示,以往的AI大模型都是只給出結(jié)果,但是DeepSeek會(huì)給出其思考和過程,更加可信,“不論是讓它寫一段代碼,還是進(jìn)行數(shù)學(xué)運(yùn)算,它會(huì)首先給出它的推理過程。比如需要先算什么,這步的步驟是什么,再算什么,這步的式子怎么列,答案是什么……這讓推理邏輯變得十分清晰、有跡可循,我們也更加敢于信任AI”。
此外,它的中文表達(dá)能力十分驚喜,可以模仿許多作家的口吻來表達(dá),“用古龍?bào)w寫小說,甚至用二次元體,都可以寫得很溜。以往的AI寫作,看起來寫得也不錯(cuò),但是要么是沒有感情,堆砌詞藻,要么是文體別扭,缺乏靈魂。DeepSeek則細(xì)節(jié)滿滿?!?/p> 最重要的是,它完全免費(fèi),“能力差不多的ChatGPT,宣稱免費(fèi),但實(shí)際上每月需要花費(fèi)200美元才能完全使用!”用戶表示。 1月27日,蘋果App Store中國區(qū)免費(fèi)榜顯示,DeepSeek站上首位。同時(shí),DeepSeek在美區(qū)蘋果App Store免費(fèi)榜從昨日的第六位飚升至第一位,超越ChatGPT及Meta公司旗下的社交媒體平臺(tái)Threads,以及Google Gemini、Microsoft Copilot等美國科技公司的生成式AI產(chǎn)品。 不過隨后,不少用戶表示,系統(tǒng)出現(xiàn)了短時(shí)閃崩現(xiàn)象。對此,DeepSeek回應(yīng)稱,當(dāng)天下午確實(shí)出現(xiàn)了局部服務(wù)波動(dòng),但問題在數(shù)分鐘內(nèi)就得到了解決。此次事件可能是由于新模型發(fā)布后,用戶訪問量激增,服務(wù)器一時(shí)無法滿足大量用戶的并發(fā)需求。 DeepSeek厲害在哪兒 除了體驗(yàn)更好,對于資本市場來說,DeepSeek更大的驚喜來自于它的推理成本大幅降低。有數(shù)據(jù)顯示,最新版的推理大模型DeepSeek-R1,輸入token定價(jià)為0.55美元/百萬(OpenAI為15美元/百萬),輸出token為2.19美元/百萬(OpenAI為60美元/百萬),成本降低超90%。而此前DeepSeek-V3僅用550萬元研發(fā)成本、2000張顯卡打造,卻達(dá)到與Llama 3 405B相媲美的性能,而OpenAI為了實(shí)現(xiàn)這一目標(biāo),花費(fèi)了數(shù)億美元。 為何可以做到這樣的低成本訓(xùn)練?據(jù)介紹,DeepSeek通過創(chuàng)新架構(gòu),節(jié)省了大量的顯存,進(jìn)而實(shí)現(xiàn)底層算力的高效利用,以更低的成本訓(xùn)練出更加出色的模型效果;同時(shí),研發(fā)團(tuán)隊(duì)證明,多Token預(yù)測目標(biāo)有利于提高模型性能,可以用于推理加速的推測解碼。此外,DeepSeek V3引入了一種創(chuàng)新方法,將推理能力從長思維鏈模型,蒸餾到標(biāo)準(zhǔn)模型上,在顯著提高推理性能的同時(shí),可以進(jìn)行長度控制。 “DeepSeek顛覆了之前大模型公司‘堆卡’的比拼。實(shí)際上近期一些大模型公司已經(jīng)沒有特別大的技術(shù)創(chuàng)新了,模型的能力提升來自于不斷堆卡、堆卡,這只利好英偉達(dá),可以說挖礦的人沒有賺到錢,賣鏟子的盆滿缽滿……而DeepSeek擊碎了模型性能與GPU數(shù)量成正比的估值模式,對整個(gè)大模型系統(tǒng)是一次價(jià)值重估”,一位分析人士表示。 面壁智能首席科學(xué)家劉知遠(yuǎn)在朋友圈發(fā)文稱,“DeepSeek最近出圈,特別好地證明了我們的競爭優(yōu)勢所在,就是通過有限資源的極致高效利用,實(shí)現(xiàn)以少勝多。2024年很多人來問我,中國跟美國的AI差距是擴(kuò)大了還是縮小了,我說明顯縮小了,但能感受到大部分人還不太信服,現(xiàn)在DeepSeek等用實(shí)例讓大家看到了這點(diǎn),非常贊。” 英偉達(dá)等美股科技公司市值暴跌 資本市場迅速做出反應(yīng):英偉達(dá)公司股票27日以每股124.80美元開盤,大幅下跌12.49%,此后跌幅持續(xù)擴(kuò)大,收盤時(shí)下跌16.97%,市值蒸發(fā)約5900億美元,創(chuàng)下美國上市公司單日市值損失的紀(jì)錄。此外,博通公司股價(jià)盤中跌幅一度接近20%,收盤時(shí)下跌17.4%。截至收盤,納斯達(dá)克綜合指數(shù)下跌612.47點(diǎn),收于19341.83點(diǎn),跌幅為3.07%。其他主要股指中,科技板塊同樣領(lǐng)跌。 對此,英偉達(dá)公開回應(yīng)稱:“DeepSeek是一項(xiàng)卓越的人工智能進(jìn)展,也是測試時(shí)擴(kuò)展的絕佳范例。DeepSeek的研究展示了如何運(yùn)用該技術(shù),借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力,創(chuàng)建新模型?!?/p> “神秘的東方力量”從未對外融資 對于DeepSeek爆火,85后創(chuàng)始人梁文鋒回應(yīng):中國AI不可能永遠(yuǎn)跟隨。 DeepSeek是杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,成立于2023年7月。公司由知名量化資管巨頭幻方量化創(chuàng)立。公司創(chuàng)始人梁文鋒,本科、研究生畢業(yè)于浙江大學(xué),擁有信息與電子工程學(xué)系本科和碩士學(xué)位。2008年起,他開始帶領(lǐng)團(tuán)隊(duì)使用機(jī)器學(xué)習(xí)等技術(shù)探索全自動(dòng)量化交易。2023年,進(jìn)軍通用人工智能領(lǐng)域。 公開信息顯示,該團(tuán)隊(duì)“小而精”,只有100多人,與之相比,OpenAI有1200名研究人員。公司的工程師和研發(fā)人員幾乎都來自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國內(nèi)頂尖高校,年紀(jì)也多在35歲以下。梁文鋒曾表示,“招聘看能力,而不是看經(jīng)驗(yàn)。我們的核心技術(shù)崗位,基本以應(yīng)屆和畢業(yè)一兩年的人為主?!?/p> 值得注意的是,目前該公司從未對外融資。“我們跟了這家公司一年多了,一直想要進(jìn)入,但是對方根本沒有融資訴求”,國內(nèi)一家大型資本機(jī)構(gòu)負(fù)責(zé)人告訴北青報(bào)記者,“他們公司此前是做量化的,資金實(shí)力雄厚?!绷何匿h也曾公開表示,“短期內(nèi)沒有融資計(jì)劃”,并認(rèn)為當(dāng)下面臨的問題“從來不是錢,而是高端芯片(短缺)”。 在被稱為“神秘的東方力量”的DeepSeek火了之后,據(jù)稱,Meta內(nèi)部甚至成立了專門的研究小組,試圖剖析DeepSeek的技術(shù)細(xì)節(jié),以改進(jìn)其Llama系列模型,并且新年計(jì)劃中預(yù)算4000億起步投資AI,年底AI算力將達(dá)130萬卡。OpenAI也緊急透露新模型o3-mini即將免費(fèi)上線ChatGPT的消息。 業(yè)內(nèi)人士表示,關(guān)于AI大模型競爭仍然激烈,AI應(yīng)用的創(chuàng)新和提升空間仍然很大,尤其是在面臨算力限制的現(xiàn)實(shí)情況下,未來國內(nèi)外的大模型市場格局還將不斷變化與重塑。 文/北京青年報(bào)記者 溫婧
鄂ICP備2020021375號-2
網(wǎng)絡(luò)傳播視聽節(jié)目許可證(0107190)
備案號:42010602003527
今日湖北網(wǎng)版權(quán)所有
技術(shù)支持:湖北報(bào)網(wǎng)新聞傳媒有限公司
舉報(bào)電話:027-88568010
運(yùn)維監(jiān)督:13307199555