
一、DeepSeek是干什么的?
DeepSeek是一家專注于人工智能技術(shù)的創(chuàng)新型公司,其相關(guān)產(chǎn)品在全球 AI 圈引發(fā)震動。
DeepSeek 的背景和基本信息:
DeepSeek 全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,成立于 2023 年 7 月 17 日,由知名量化資管巨頭幻方量化創(chuàng)立。
主要從事工程和技術(shù)研究和試驗發(fā)展,涵蓋技術(shù)開發(fā)、咨詢、轉(zhuǎn)讓等服務(wù),還包括軟件開發(fā)、計算機系統(tǒng)服務(wù)、人工智能應(yīng)用軟件開發(fā)等業(yè)務(wù)。
DeepSeek 的主要產(chǎn)品:
DeepSeek LLM:2024 年 1 月 5 日發(fā)布,包含 670 億參數(shù),在 2 萬億 token 的數(shù)據(jù)集上訓(xùn)練,涵蓋中英文。開源了 DeepSeek LLM 7B/67B Base 和 Chat 版本,67B Base 在推理、編碼等方面超越 Llama2 70B Base,67B Chat 在編碼、數(shù)學(xué)方面出色,中文表現(xiàn)超越 GPT-3.5。
DeepSeek Coder:由一系列代碼語言模型組成,在 2 萬億 token 上訓(xùn)練,包含 87% 代碼和 13% 中英文自然語言,模型尺寸從 1B 到 33B 版本不等,在多種編程語言和基準(zhǔn)測試中達到開源代碼模型先進性能。
DeepSeek-V2:2024 年 5 月開源的第二代 MoE 大模型,有 2360 億參數(shù),中文綜合能力在眾多開源模型中最強,英文綜合能力與 LLaMA3-70B 處于同一梯隊,訓(xùn)練效率高,計算量僅為 Meta Llama 3 70B 的 1/5、GPT-4 的 1/20。
DeepSeek-R1:2025 年 1 月 20 日正式發(fā)布,在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上性能比肩 OpenAI o1 正式版,1 月 24 日在國外大模型排名 Arena 上基準(zhǔn)測試升至全類別大模型第三,在風(fēng)格控制類模型分類中與 OpenAI o1 并列第一。
二、DeepSeek 震動全球 AI 圈的原因?
一是技術(shù)創(chuàng)新
強化學(xué)習(xí)的成功應(yīng)用:DeepSeek R1 模型通過強化學(xué)習(xí)讓模型自主進化出復(fù)雜的推理能力,在歷史上幾乎沒有團隊能夠成功地將強化學(xué)習(xí)技術(shù)很好地應(yīng)用于大規(guī)模模型并實現(xiàn)大規(guī)模訓(xùn)練,這一技術(shù)提高了訓(xùn)練效率,減少了對昂貴計算資源的依賴。
低成本高性能:與 OpenAI 的 o1 相比,DeepSeek 模型的百萬 token 輸入成本和輸出成本降低至數(shù)十分之一,以極低成本和少量芯片實現(xiàn)了與 OpenAI 等巨頭相媲美的性能,挑戰(zhàn)了 “唯有科技巨頭才能研發(fā)尖端 AI” 的行業(yè)共識。
開源戰(zhàn)略:將核心模型開源,如 DeepSeek-V2、DeepSeek-V3 等都進行了開源,還將代碼向開發(fā)者開源,并公開技術(shù)細節(jié),構(gòu)建了開發(fā)者生態(tài),為全球 AI 開發(fā)者提供了新的選擇和思路,在巨頭壟斷的流量體系外開辟了另一條增長曲線。
二是應(yīng)用表現(xiàn)出色
登頂下載榜:其應(yīng)用在 2025 年 1 月 27 日登頂 15 個國家和地區(qū)的蘋果應(yīng)用商店免費 APP 下載排行榜,2 月 2 日攀升至 140 個國家的蘋果 App Store 下載排行榜首位,并在美國的 Android Play Store 中同樣占據(jù)榜首位置。
多領(lǐng)域優(yōu)勢:DeepSeek 在自然語言處理方面,對中文的理解和表達更自然細膩;其 DeepSeek Coder 能幫助程序員寫代碼、優(yōu)化代碼和查 Bug;還集成了 AI 搜索功能,能從互聯(lián)網(wǎng)獲取更真實、靠譜的信息,在多個應(yīng)用領(lǐng)域展現(xiàn)出了強大的競爭力。
三、杭州六小龍
除了DeepSeek,杭州還有五家很牛的AI企業(yè),合稱“杭州六小龍”:
宇樹科技:2016 年成立,專注四足機器人技術(shù)。產(chǎn)品如 H1 機器人在 2025 年央視春晚上亮相,2023 年在全球四足機器人市場銷量占比接近 70%。
游戲科學(xué):2014 年成立,總部位于深圳和杭州,專注高性能游戲引擎技術(shù)。憑借《黑神話:悟空》迅速崛起,在 Steam 平臺上的總收入突破 10 億美元大關(guān)。
云深處科技:2017 年成立,專注具身智能技術(shù)?!敖^影” 系列機器人優(yōu)勢顯著,“絕影 X30” 在新加坡電力隧道巡檢,2023 年在全球四足機器人市場營收占比 11%,排名前五。
強腦科技:2018 年成立,專注腦機接口技術(shù)。是全球唯二融資超過 2 億美元的腦機接口公司,產(chǎn)品實現(xiàn)全球首個便攜式高精度腦機接口產(chǎn)品 10 萬臺量產(chǎn)。
群核科技:2011 年成立,是全球領(lǐng)先的云設(shè)計軟件平臺和 SaaS 服務(wù)提供商,專注 3D 云設(shè)計和空間智能技術(shù)。核心產(chǎn)品 “酷家樂” 是全球領(lǐng)先的 3D 空間設(shè)計平臺,服務(wù)覆蓋超 200 個國家和地區(qū),總注冊用戶數(shù)超 5100 萬,合作品牌企業(yè)近 4 萬家。
四、“杭州現(xiàn)象”
筆者尊稱為“杭州現(xiàn)象”。是指杭州在科技等領(lǐng)域展現(xiàn)出的獨特發(fā)展態(tài)勢和成果,與杭州六小龍的崛起密切相關(guān):
科技創(chuàng)新引領(lǐng):以游戲科學(xué)、宇樹科技等為代表的杭州六小龍,在 AI、機器人、游戲引擎等前沿技術(shù)領(lǐng)域取得顯著突破,如宇樹科技的四足機器人亮相春晚,游戲科學(xué)的《黑神話:悟空》引發(fā)全球關(guān)注,展示了杭州在科技創(chuàng)新方面的強大實力,吸引了全球目光,成為杭州科技發(fā)展的新名片。
產(chǎn)業(yè)集群效應(yīng):杭州六小龍的發(fā)展帶動了上下游相關(guān)產(chǎn)業(yè)的協(xié)同發(fā)展,形成了一定的產(chǎn)業(yè)集群效應(yīng)。例如在 AI 領(lǐng)域,圍繞大語言模型的研發(fā),吸引了數(shù)據(jù)標(biāo)注、算法優(yōu)化、應(yīng)用開發(fā)等相關(guān)企業(yè)集聚,促進了人才、技術(shù)、資金等要素的快速流動和整合,提升了杭州整體產(chǎn)業(yè)的競爭力。
人才吸引力增強:這些創(chuàng)新型企業(yè)的發(fā)展吸引了大量國內(nèi)外優(yōu)秀科技人才匯聚杭州。以深度求索為例,其專注于 AI 大語言模型研發(fā),吸引了眾多 AI 領(lǐng)域的頂尖人才,為企業(yè)發(fā)展注入強大動力,同時也提升了杭州在全球科技人才市場的知名度和吸引力,形成了人才與產(chǎn)業(yè)相互促進的良性循環(huán)。
品牌影響力提升:杭州六小龍在各自領(lǐng)域的成功,提升了杭州作為科技創(chuàng)新城市的品牌形象。使杭州在全球科技產(chǎn)業(yè)版圖中占據(jù)了重要位置,吸引了更多的國際合作機會和投資,進一步推動了杭州經(jīng)濟社會的發(fā)展,為杭州贏得了 “中國創(chuàng)新之都” 的美譽,成為中國乃至全球科技創(chuàng)新的重要引領(lǐng)者。
近期,深度求索引發(fā)三個方面的討論:
一是對國有科研系統(tǒng)的重新思考。
人才競爭壓力:DeepSeek 等企業(yè)憑借高薪、股權(quán)等靈活的激勵機制,吸引了包括部分從中科院流出的青年科研骨干,導(dǎo)致中科院在人才儲備和科研團隊穩(wěn)定性方面面臨一定挑戰(zhàn),一定程度上削弱了中科院的持續(xù)研發(fā)能力。
科研成果關(guān)注度沖擊:DeepSeek 以市場為導(dǎo)向,推出的產(chǎn)品能夠快速獲得用戶和市場的關(guān)注,相比之下,中科院的科研成果多集中在基礎(chǔ)研究和理論層面,在短期內(nèi)可能難以獲得像 DeepSeek 產(chǎn)品那樣廣泛的社會關(guān)注和影響力,這可能會在一定程度上影響中科院在公眾認知中的形象和地位。
資源競爭加?。涸跀?shù)據(jù)和算力資源方面,DeepSeek 通過商業(yè)合作等方式能夠獲取大量私有數(shù)據(jù)和專有算力,而中科院多依賴公開數(shù)據(jù)集和公共超算資源,在資源獲取和利用上相對受限,在與 DeepSeek 等企業(yè)競爭科研資源時可能面臨更大壓力。
二是減少大規(guī)模超算中心的需求。DeepSeek 構(gòu)建跨硬件平臺的 “技術(shù)聯(lián)邦”,實現(xiàn)全模型開源矩陣,讓 AMD、昇騰、海光等硬件突破英偉達 CUDA 生態(tài)壁壘。如昇騰 910B 采用 DeepSeek 優(yōu)化架構(gòu)后能效比提升 41%,海光 DCU 延遲降低 27%,這使企業(yè)在選擇硬件時不再局限于英偉達,降低了對特定高性能硬件的依賴,減少了為匹配這類硬件而建設(shè)大規(guī)模超算中心的需求。
三是對中國高等教育的評價。DeepSeek 項目團隊平均年齡不到 30 歲,他們在自然語言處理、機器學(xué)習(xí)等核心技術(shù)上實現(xiàn)了多項突破,部分指標(biāo)甚至超越了國際頂尖水平。在項目推進過程中,這些年輕工程師展現(xiàn)出了極強的學(xué)習(xí)能力和創(chuàng)新精神,不僅快速消化吸收了國際前沿技術(shù),還在此基礎(chǔ)上進行了大量原創(chuàng)性改進,證明了中國高等教育培養(yǎng)出的人才具備良好的創(chuàng)新思維和學(xué)習(xí)能力,能夠緊跟國際前沿技術(shù)發(fā)展趨勢,并實現(xiàn)自主創(chuàng)新。
五、深圳人的思考
深圳已經(jīng)在反思“杭州現(xiàn)象”。尋找這種差距。
一是產(chǎn)業(yè)生態(tài)方面
節(jié)奏過快:深圳整體社會運轉(zhuǎn)節(jié)奏快,人才和資本都追求快速出成績和回報。對于像游戲科學(xué)開發(fā)《黑神話:悟空》這種需要長期投入、慢工出細活的項目,在深圳可能會面臨人才流失、資本壓力等問題,難以獲得足夠的耐心和支持。
產(chǎn)業(yè)聚焦單一:深圳以科技創(chuàng)新、硬件制造、電子信息為主導(dǎo),產(chǎn)業(yè)聚焦在通信、芯片、新能源等領(lǐng)域,對于 AI、游戲等領(lǐng)域的重視程度相對較低。相比之下,杭州在電商、互聯(lián)網(wǎng)服務(wù)的基礎(chǔ)上,形成了更具多樣性的產(chǎn)業(yè)生態(tài),為不同類型的創(chuàng)新企業(yè)提供了發(fā)展空間。
二是政策扶持方面
缺乏針對性:深圳政府長期支持制造業(yè)升級、跨境貿(mào)易和國際化布局,政策和資本更傾向于硬件研發(fā)和產(chǎn)業(yè)鏈整合等 “硬核” 項目,對于文化創(chuàng)意、AI 軟件等領(lǐng)域的扶持政策相對較少。而杭州為支持動漫游戲產(chǎn)業(yè),每年有專項資金投入,并且對相關(guān)企業(yè)提供保姆式服務(wù),從資金到生活各方面解決企業(yè)的后顧之憂。
資源分配不均:在深圳,政府資源和關(guān)注更多集中在像華為、大疆這樣的硬科技巨頭,初創(chuàng)的中小創(chuàng)新企業(yè)難以獲得足夠的重視和支持。杭州則對各類創(chuàng)新企業(yè)一視同仁,為 “杭州六小龍” 這樣的初創(chuàng)企業(yè)提供了良好的發(fā)展環(huán)境。
三是人才吸引方面
高校資源劣勢:與杭州所在的長三角地區(qū)相比,深圳的高校資源相對匱乏,缺乏頂尖高校為科技創(chuàng)新提供源源不斷的人才支持和科研成果轉(zhuǎn)化。杭州有浙江大學(xué)等高校,為 “杭州六小龍” 提供了大量專業(yè)人才和技術(shù)支持,還能形成產(chǎn)學(xué)研協(xié)同創(chuàng)新的良好氛圍。
生活成本因素:深圳房價較高,生活成本相對較大,對于一些初創(chuàng)企業(yè)的員工來說,經(jīng)濟壓力較大。而杭州房價相對較低,生活節(jié)奏相對較慢,能夠讓人才更安心地投入到工作中,對于吸引和留住人才具有一定優(yōu)勢。
當(dāng)然,武漢更需要思考。