东北讨鄙互联网商城有限公司

中共中央宣傳部委托新華通訊社主辦

智源最新模型評(píng)測(cè):百度文心大模型4.0登頂閉源榜

2024-06-19 10:32
來源:經(jīng)濟(jì)參考網(wǎng)

近日,由北京智源研究院打造的FlagEval天秤大模型評(píng)測(cè)平臺(tái)實(shí)現(xiàn)了全面升級(jí),并公布202406期FlagEval模型評(píng)測(cè)排行榜單。最新一期榜單顯示,百度文心大模型4.0以89.72的綜合評(píng)分在閉源對(duì)話模型中排名第一。

FlagEval大語(yǔ)言模型評(píng)測(cè)能力榜單官網(wǎng)截圖

FlagEval天秤大模型評(píng)測(cè)平臺(tái)是智源研究院推出的科學(xué)、權(quán)威、公正、開放的大模型評(píng)測(cè)體系,自2023年發(fā)布以來,已從主要面向語(yǔ)言模型擴(kuò)展到視頻、語(yǔ)音、多模態(tài)模型,實(shí)現(xiàn)多領(lǐng)域全覆蓋,目前已評(píng)測(cè)國(guó)內(nèi)外300余個(gè)開源和商業(yè)閉源的語(yǔ)言及多模態(tài)大模型。資料顯示,F(xiàn)lagEval大語(yǔ)言模型評(píng)測(cè)體系當(dāng)前包含6大評(píng)測(cè)任務(wù),近30個(gè)評(píng)測(cè)數(shù)據(jù)集,超10萬(wàn)道評(píng)測(cè)題目。

FlagEval大語(yǔ)言模型評(píng)測(cè)能力榜單官網(wǎng)截圖

從榜單中可以看到,百度文心大模型4.0以89.72的綜合評(píng)分在閉源對(duì)話模型中排名第一,云雀2-Pro、豆包、GPT-4o分別位居二三四位,百川、零一萬(wàn)物、kimi等追隨其后。

日前,國(guó)際數(shù)據(jù)公司IDC發(fā)布的《中國(guó)大模型市場(chǎng)主流產(chǎn)品評(píng)估,2024》中,百度同樣位于第一梯隊(duì)。評(píng)測(cè)顯示,百度旗下生成式AI產(chǎn)品文心一言和文心一格在問答理解類、推理類、創(chuàng)作表達(dá)類、數(shù)學(xué)類、代碼類的基礎(chǔ)能力,toC通用場(chǎng)景類、toB特定行業(yè)類的應(yīng)用能力等7大維度均具備領(lǐng)先優(yōu)勢(shì)。其他評(píng)測(cè)廠商中,阿里獲6項(xiàng)優(yōu)勢(shì)維度,OpenAI GPT-4和商湯分獲5項(xiàng)。

IDC《中國(guó)大模型市場(chǎng)主流產(chǎn)品評(píng)估,2024》

公開資料顯示,2023年10月,百度文心大模型4.0正式發(fā)布,實(shí)現(xiàn)了基礎(chǔ)模型的全面升級(jí),在理解、生成、邏輯和記憶能力上明顯提升。截至目前,文心一言累計(jì)用戶規(guī)模已達(dá)2億,日均調(diào)用量也達(dá)到了2億。(李妍)

責(zé)任編輯:孔德明

熱門推薦

连云港市| 秭归县| 霍州市| 仙游县| 阜宁县| 台东县| 东乡族自治县| 万全县| 克山县| 贺兰县| 黄梅县| 绥化市| 靖西县| 宽甸| 阳泉市| 东安县| 科尔| 扎赉特旗| 溧阳市| 封开县| 永平县| 延长县| 琼海市| 新乡县| 新巴尔虎右旗| 水城县| 苍溪县| 东辽县| 民丰县| 噶尔县| 溧水县| 建始县| 祥云县| 革吉县| 淅川县| 商南县| 内丘县| 卢氏县| 登封市| 涟源市| 百色市|