49054 ?阿里也想做個“賣鏟子”的人
服務熱線:400-858-9000 咨詢/投訴熱線:18658148790
國內專業(yè)的一站式創(chuàng)業(yè)服務平臺
?阿里也想做個“賣鏟子”的人
鋅產業(yè) ·

山竹

2023/11/08
在大模型時代,阿里既想像英偉達一樣,成為那個“賣鏟子”的人,也想通過“賣鏟子”,繼續(xù)成為下一個時代的平臺型企業(yè)。
本文來自于微信公眾號“鋅產業(yè)”(ID:xinchanye2021),作者:山竹,投融界經授權發(fā)布。

2023年的大模型之戰(zhàn),因算力需求之大,投入成本之高,被不少人視為巨頭之間的掰手腕。

阿里的大模型是在今年4月面世,同年9月,阿里對外開源了7B/14B的通義千問大模型。

阿里云CTO周靖人說,“阿里是唯一一家主動宣布大模型開源的大公司?!?/span>

開源讓阿里的大模型有了不一樣。

不過,這一年,阿里在大模型上的重重布局,不只是想做個開源社區(qū),而是也想成為那個“賣鏟子”的人。

?阿里也想做個“賣鏟子”的人

01

大模型的阿里往事

和國內大多數(shù)科技巨頭一樣,阿里涉足大模型相關技術領域,也并非從今年開始,而是可以追溯到四年前。

2018年10月,谷歌預訓練大模型BERT發(fā)布,作為基于自家2017年發(fā)布的Transformer框架研發(fā)出的一種新型AI模型,BERT跳出了循環(huán)網(wǎng)絡和卷積網(wǎng)絡的經典AI范式,很好地發(fā)揮了“注意力機制”的結構特性,讓AI模型第一次有了“通用”能力。

當時研發(fā)出BERT的谷歌兩位科學家絲毫不留情面,狠狠地與OpenAI當時還慘不忍睹的初代GPT進行了一波對比。

BERT在當時風靡程度可以從兩個方面窺見一斑:

首先,在AI刷榜成癮的那幾年,作為一個全新的NLP模型,BERT刷新了11項NLP性能紀錄,成為了當年名副其實的最強NLP預訓練模型;

其次是產業(yè)的瘋狂跟進。

BERT發(fā)布僅僅一年后,F(xiàn)acebook的RoBERTa模型、斯坦福的ELECTRA模型,以及國內百度的ERNIE模型等就蜂擁而至。

阿里達摩院也是在2019年,在BERT基礎上,推演出的預訓練大語言模型structBERT。

自此之后,新的AI范式,也就是現(xiàn)在所謂的大模型,開始在不確定中悄悄成長。

在2019年踏足這一領域后,阿里在2021年推出了多模態(tài)大模型M6,又在2022年推出了“通義”大模型。

與此同時,為了研究大模型,阿里在達摩院內部整合機器智能、數(shù)據(jù)計算等實驗室資源,以“通義千問”之名,構建起了通義實驗室。

實際上,自M6開始,阿里大模型開啟了自我進化之路,通義實驗室通義千問負責人周暢在2023云棲大會上稱,“我們最開始其實只是想做一個能看、聽、說、使用工具的通用智能體?!?/span>

圖片

而這,也是自1956年人工智能發(fā)展至今的幾十年里,所有AI研究團隊都在追逐的一個終極目標。

大模型新范式的出現(xiàn),讓這一領域不少科學家第一次感受到,他們離這一終極目標的距離,似乎已經很近。

02

從M6到通義千問

達摩院是阿里在2017年成立的一個科研屬性的研究機構,背靠國內科技巨頭,達摩院陸續(xù)匯聚了來自全球各領域的技術大牛。

尤其是人工智能領域,不少華人AI科學家,都曾被達摩院招入麾下。

這就不難理解,為什么2022年年初,達摩院能夠對外發(fā)布模型、任務、結構統(tǒng)一的通用多模態(tài)模型M6-OFA。

在2022年9月的WAIC 2022上,時任達摩院副院長的周靖人稱,M6-OFA正是通義大模型的底座。

然而,盡管這一模型在通用性上有了不小的進步,但就語言理解能力而言,這一模型始終無法很好地與人類進行自然交互。

直到這年11月,ChatGPT的出現(xiàn),讓達摩院同樣在做大模型的AI科學家興奮了起來,也是在這時,他們有了做通義千問的念頭。

而阿里真正意義上的類ChatGPT大模型——通義千問的問世,是在阿里身處動蕩之年的2023年。

2023年,從內部來看,阿里經歷了架構調整、業(yè)務拆分、集團換帥,達摩院也經歷了不小的人員流動和調整。

尤其是繼楊紅霞之后,原達摩院大模型團隊另外兩位核心人物司羅、徐盈輝的相繼離職,讓阿里新的大模型團隊在百模大戰(zhàn)前,進行了一次緊張的重新梳理。

從外部來看,在ChatGPT問世后,短短幾個月里,迅國內速涌現(xiàn)出不少大模型明星團隊,李開復、王慧文、李志飛、王小川等AI大牛帶資入場,百度文心一言更是在這年3月迅速上線開啟邀測,百模大戰(zhàn)幾乎瞬發(fā)。

阿里是在今年4月11日正式對外發(fā)布的類ChatGPT產品——通義千問,通義千問的發(fā)布,也宣告著阿里正式加入到了這場堪稱“AI革命”的百模大戰(zhàn)中。

時任阿里CEO的張勇這樣解釋這場變革:

“(大模型是)今天真正一項技術可能在未來十年二十年,形成重大歷史契機、創(chuàng)造新產業(yè)的關頭?!?/span>

于是,我們看到,在這之后,無論內部組織架構經歷怎樣復雜的調整,都沒有影響阿里對大模型的團隊、資源的巨量投入。

邀測順利開啟、新產品通義聽悟、通義萬相等相繼發(fā)布,阿里核心業(yè)務釘釘、淘寶逐漸導入大模型,就連相對獨立的C端品牌天貓精靈,也成了通義千問的試驗田,早早傳出了接入通義千問大模型的消息。

一切就像張勇在4月發(fā)布通義千問時說的那樣,“阿里所有產品都將接入大模型(重新做一遍)已經成為阿里內部的共識?!?/span>

03

輪到釘釘做“試驗田”

2023年,大模型急速發(fā)展,但不可否認的是,如今的大模型,仍處于商業(yè)化前夜。

要想將大模型生意做起來,各大公司必然需要一塊試驗田。和十年前云計算浪潮來臨時,阿里首先將阿里云用到自家核心業(yè)務淘寶上一樣,這次阿里再次對內下手。

只不過,這次最先被阿里選中的是釘釘。

被選上的釘釘受寵若驚,在通義千問發(fā)布僅僅一周后的春釘發(fā)布會上,釘釘總裁葉軍笑稱:

“以往我們釘釘做個產品,天天都是求著人家用,最近這一個月,每天都有人在在釘釘、微信上找我們說,能不能趕快(用大模型)做點功能給我們?!?/span>

也是在這場發(fā)布會上,葉軍正式官宣“釘釘全面接入通義千問大模型”,并討巧地用了一個程序員的標志性符號——“/”來命名嵌入到釘釘中的這一“大模型”功能。

這一被嵌入到釘釘中的名為“/”的功能當時被應用到了IM、文檔、視頻會議、應用開發(fā)等內嵌功能中,用以實現(xiàn)諸如寫推廣文案、生成配圖、提取會議紀要、生成視頻會議議程回顧、創(chuàng)建待辦事項、發(fā)起群投票、生成表情包等功能。

可以看到,“釘釘”接入“通義千問”的過程和能力,與“微軟Bing”接入“ChatGPT”本質類似,功能也相同。

不同的是,大模型為釘釘這樣的應用帶來了一次重生的機會。

作為釘釘?shù)拇蠹议L,葉軍對此深有體會。

“大家一直都說釘釘是一個非常臃腫的軟件,釘釘?shù)墓δ艽_實非常多,多到有時候我們都找不到在哪里,大模型為釘釘帶來了一次躍遷的機會?!?/span>

也是借著這次大模型的機會,曾經在消費市場沒什么存在感的釘釘,在這一年,收購了我來的釘釘推出了“釘釘個人版”。

釘釘個人版的獨特之處在于,官方基于我來(釘釘收購的協(xié)同辦公團隊)在這個版本上打造了一個個人空間,用戶在釘釘上通過大模型檢索或生成的內容,都可以存到這個個人空間中。

葉軍說,“將AI創(chuàng)作的內容存下來,基于AI創(chuàng)作的內容編輯修改(應用到編寫郵件、方案創(chuàng)作中),可能將是未來每個人工作的常態(tài)?!?/span>

這是釘釘基于大模型做出的改變,是葉軍看到的釘釘?shù)臋C會。

而釘釘,也成為阿里口中“國內第一個將大模型規(guī)模落地的應用”。

04

模型迭代兩三事

互聯(lián)網(wǎng)公司對技術感知度足夠高,于是有了阿里快速跟進類ChatGPT大模型;

釘釘跑得足夠快,于是有了幾乎與阿里發(fā)布通義千問同時的官宣接入,甚至還手把手教了一遍各位“看官”如何在釘釘中用大模型。

不過,這些只是百模大戰(zhàn)的開始。

在ChatGPT一路小步快跑,迅速更新到到了GPT-3.5、GPT-4一樣,國內的大模型也一邊公測、一邊應用,一邊也在快速進行模型迭代。

阿里是在上周的云棲大會上正式對外發(fā)布的通義千問2.0版本,在此之前,包括華為、百度、科大訊飛等大廠和獨角獸都陸續(xù)更新了大模型的版本和能力。

從通義千問面世到2.0版本發(fā)布,中間經歷了半年的時間,這半年是阿里與全球其他大模型團隊緊張競速的半年。

在這半年里,阿里從各個渠道不斷努力招人來擴充通義實驗室的戰(zhàn)力,加緊技術研發(fā)和模型訓練。

據(jù)周暢在云棲大會上透露,“由于資源有限,我們這半年整體是在圍繞Scalling Law做技術探索。”

所謂Scalling Law(規(guī)模定理),指的是算力、參數(shù)規(guī)模與模型測試損失之間的函數(shù)關系。

周暢所說的“圍繞Scalling Law做技術探索”,實際上就是基于小模型研究數(shù)據(jù)分布、清晰規(guī)則、數(shù)據(jù)配比,在模型算力和參數(shù)規(guī)模擴大時,如何提升模型能力。

基于這些工作,周暢和他的團隊將通義千問的預訓練語料提升了一倍。

在預訓練語料得到提升后,模型訓練效率成了阻礙算法迭代的又一關鍵問題,而在大規(guī)模集群里,任務穩(wěn)定性也存在很大挑戰(zhàn)。

于是,阿里通義千問團隊又通過對底層靈駿集群的穩(wěn)定性、網(wǎng)絡效率,中間層各種算子優(yōu)化,以及框架層的設計機制進行了著重攻關。

基于這些工作,阿里通義千問團隊又將模型訓練效率提升了30%,訓練穩(wěn)定性提升了15%。

圖片

而通過對Scalling Law的探索,通義千問團隊最終將積累下來的這些經驗應用到通義千問模型訓練中,由此也就有了阿里上周發(fā)布的通義千問2.0。

05

不為模型,為工具

在上周云棲大會上,隨著通義千問2.0的發(fā)布,周靖人還對外做了另外兩項發(fā)布:

一項是整合了此前阿里基于通義千問的各類模型,統(tǒng)一對外梳理并發(fā)布了8大行業(yè)模型;

另一項則是更新并發(fā)布了阿里的大模型基礎設施,包括模型訓練平臺PAI靈駿、模型推理與服務平臺PAI靈積,以及大模型應用開發(fā)平臺百煉。

然而,這些并不是最重要的。

鋅產業(yè)認為,作為蔡崇信、王堅兩位重回舞臺見證阿里新時期的這場云棲大會,最重要的是,作為阿里大模型研發(fā)一號位的周靖人,明確了大模型時代阿里的定位:

——不是做一個C端產品(通義千問),而是要將模型的能力釋放出去,繼續(xù)做B端生意。

基于這樣的定位,周靖人也明確了阿里大模型的三個商業(yè)模式:

第一,為創(chuàng)業(yè)公司、高校和機構開發(fā)自己的通用大模型,提供算力、工具和服務;

第二,為有較強AI能力的團隊和開發(fā)者提供模型開發(fā)平臺,供這些團隊和開發(fā)者結合自己的行業(yè)知識、第三方通用大模型,開發(fā)自己的專用大模型(基礎模型);

第三,為希望基于基礎模型做二次開發(fā)的團隊,提供基礎模型和服務。

總結來看就是,阿里在大模型時代想做的是為想要開發(fā)“通用大模型”、“行業(yè)大模型”和“基于大模型的應用”的三類人群提供三樣東西:

一曰工具,即算力平臺、訓練平臺、開發(fā)平臺,當然也包括其他各種云服務;

二曰模型,即“通義”家族,以及其他三方開發(fā)者開發(fā)出的各種基礎模型;

三曰生態(tài),即魔搭社區(qū),通過魔搭社區(qū)既要做一個豐富的模型生態(tài),也要做模型背后的開發(fā)者生態(tài)。

顯然,在大模型時代,阿里既想像英偉達一樣,成為那個“賣鏟子”的人,也想通過“賣鏟子”,繼續(xù)成為下一個時代的平臺型企業(yè)。

大模型 平臺企業(yè) 人工智能
評論
還可輸入300個字
專欄介紹
鋅產業(yè)
19篇文章
用技術范式,給未來一個解釋。
+關注
400-858-9000
免費服務熱線
kefu@trjcn.com
郵箱
09:00--20:00
服務時間
18658148790
投訴電話
投融界App下載
官方微信公眾號
官方微信小程序
Copyright ? 2024 浙江投融界科技有限公司(www.xsl6g97.cn) 版權所有 | ICP經營許可證:浙B2-20190547 | 浙ICP備10204252號-1 | 浙公網(wǎng)安備33010602000759號
地址:浙江省杭州市西湖區(qū)留下街道西溪路698號15號樓509室
浙江投融界科技有限公司trjcn.com版權所有 | 用戶協(xié)議 | 隱私條款 | 用戶權限
應用版本:V2.7.8 | 更新日期:2022-01-21
 安全聯(lián)盟
在線客服
手機APP
微信訂閱