阿里版ChatGPT突然上線邀測(cè)!大模型熱戰(zhàn)開始,這是第一手體驗(yàn)
分類: 最新資訊
美容詞典
編輯 : 美容
發(fā)布 : 04-07
閱讀 :195
蕭簫 魚羊 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI阿里正式加入ChatGPT戰(zhàn)局!就在剛剛,阿里版類ChatGPT突然官宣正式對(duì)外開放企業(yè)邀測(cè)。它叫通義千問,由達(dá)摩院開發(fā)。嗯,是大模型版十萬個(gè)為什么那個(gè)味兒了。事實(shí)上,早在這個(gè)月初,就傳出過不少阿里要推出類ChatGPT的消息,不過普遍預(yù)期在11號(hào)左右。而前幾天率先流出的天貓精靈“鳥鳥分鳥”脫口秀版GPT,就是基于大模型的“壓縮版”,已經(jīng)以其驚艷表現(xiàn)把網(wǎng)友的胃口吊了起來,讓眾人將目光投向阿里。如今“正菜”提前上桌,自然一點(diǎn)即著,引爆輿論關(guān)注。所以,這個(gè)阿里版ChatGPT“通義千問”,究竟實(shí)力幾何?恰好量子位拿到了第一批邀測(cè)資格,省流結(jié)論:中文大模型真正的競(jìng)爭(zhēng)開始了。咱們實(shí)測(cè)見真章。調(diào)戲阿里版ChatGPT實(shí)錄先來看看通義千問的主要功能。作為一個(gè)大語言模型,它的能力主要集中在文本生成上,即也能像ChatGPT一樣“問啥答啥”:這里我們?cè)囈幌鹿俜浇o的撰寫短文,看起來連語文老師常用的“總分總”也能理解:△又一個(gè)中文寫作業(yè)神器(doge)除了對(duì)話外,它還具備一個(gè)“百寶袋”功能,里面相當(dāng)于一個(gè)工具箱,能快速生成各種指定類型的文案:話不多說,先從語言能力、上下文理解能力、代碼能力和數(shù)學(xué)能力四個(gè)方向,來測(cè)測(cè)模型的對(duì)話能力。一、對(duì)話能力語言能力要說國內(nèi)大模型,首先要看的還得是中文。先來個(gè)最基礎(chǔ)的:“能穿多少穿多少”是什么意思?不錯(cuò),解釋得比較清楚,還順便聊了一下自己對(duì)這句話的看法:續(xù)寫類的創(chuàng)意寫作,不但能模仿語氣,甚至還能創(chuàng)造懸疑,有點(diǎn)厲害喲~接下來就輪到新一代AI benchmark弱智吧問題了:怎么才能把夢(mèng)里的錢取到銀行卡里?“在夢(mèng)里取錢是一種幻覺或想象”,謝謝你清醒俠。還有更扎心的……“如果您經(jīng)常做夢(mèng)夢(mèng)到錢,建議您睡前回顧一下自己的財(cái)務(wù)狀況,看看有什么不足之處”雖然阿里的朋友稱,通義千問主要是中文不錯(cuò),但我們叛逆一點(diǎn),看看這個(gè)中文大語言模型的其他語言水平怎么樣。先不走尋常路,試試通義千問的日語能力,給花澤香菜寫一封情書??粗形臋C(jī)翻似乎還不錯(cuò),這就把它寄給香菜,應(yīng)該沒問題吧?再來試試英語。剛好前段時(shí)間有網(wǎng)友PK了一下Bard和GPT-4的Rap,我們也來看看通義千問的說唱能力。這top,這stop,還給押上了!就是不知道姆爺認(rèn)不認(rèn)可。試試加點(diǎn)難度,中英夾雜的諧音梗?這個(gè)時(shí)候,通義千問的回答就顯得有點(diǎn)嚴(yán)肅了。當(dāng)我們給出答案的時(shí)候,雖然通義千問看出了這是個(gè)笑話,但它并不覺得好笑,還很嚴(yán)肅地指正我們:這并不意味著松下懼怕索尼。不過我們發(fā)現(xiàn),ChatGPT同樣一本正經(jīng)……這年頭的AI都這么正義么……好,下一個(gè)試試它的上下文理解能力。上下文理解能力這部分說白了就是多輪對(duì)話能力,考查通義千問能不能準(zhǔn)確提取上文的信息,用于下輪問題的回答。來聽題:山東一縣一酒是真的嗎?模糊掉山東試試?讓它列舉“這個(gè)省”幾個(gè)經(jīng)典的白酒牌子:不錯(cuò)。再試著從最新的回答中追問一下:等等,“據(jù)史書記載”不會(huì)是編的資料吧?追問×2:有意思的是,我們確實(shí)在孔府家酒的官網(wǎng)找到了資料來源:代碼能力接著,來試試它的代碼能力。整個(gè)計(jì)算器程序試試?還不錯(cuò),實(shí)現(xiàn)了簡(jiǎn)單的四則運(yùn)算。完整版代碼如下,感興趣的胖友們可以試試:#include #include using namespace std;int main(){double num1, num2;char operator;cout << "Enter first number: ";cin >> num1;cout << "Enter second number: ";cin >> num2;cout << "Enter operator (+,-,*,/,%,...) : ";cin >> operator;switch(operator){case '+':cout << num1 + num2 << endl;break;case '-':cout << num1 - num2 << endl;break;case '*':cout << num1 * num2 << endl;break;case '/':if(num2 == 0){cout << "Error! Cannot divide by 0." << endl;break;}else{cout << num1 / num2 << endl;}break;case '%':cout << num1 % num2 << endl;break;default:cout << "Error! Invalid operator." << endl;break;}return 0;}那么,讓將它這段代碼改寫成Python:再讓它解釋一下自己寫過的每一段代碼:基礎(chǔ)編程能力,似乎問題不大?不過,如果要讓通義千問將解釋改寫成注釋,就會(huì)出現(xiàn)一點(diǎn)神奇的bug。雖然它給“Python”代碼標(biāo)好了注釋,但等等,這不是最初的C++版代碼嘛?。ㄟ@何嘗不是一種NTR)數(shù)學(xué)能力最后來看看數(shù)學(xué)問題。雞兔同籠,還不錯(cuò):普通的計(jì)算題也沒什么問題,還能精確到小數(shù)點(diǎn)后幾位:巴特,高數(shù)題就不太行了,雖然它發(fā)現(xiàn)了這道題需要求導(dǎo),但求解方法卻出了錯(cuò)……不過通義千問也明確表示,無法保證在所有情況下給出正確的答案:嗯…和GPT們一樣,大模型的數(shù)學(xué)能力都比較初級(jí)。對(duì)話能力測(cè)得差不多,接下來再看看它的“場(chǎng)景能力”。二、場(chǎng)景能力雖然通義千問“百寶袋”給出了不少功能,不過寫提綱、描述商品這些都很常見了,我們就挑了三個(gè)比較有意思的來試試:菜譜生成、彩虹屁生成器和免費(fèi)代寫情書。會(huì)放飛的菜譜眾所周知,寫菜譜是個(gè)技術(shù)活兒,既考驗(yàn)上下文能力(說過的材料都得用到),還得考考AI的理解菜名能力,做菜的步驟還不能太離譜。示例的“清蒸鱸魚”,對(duì)AI來說顯然太簡(jiǎn)單了。這不得整點(diǎn)游戲里奇怪的菜名給它試試?先來一份《原神》里的飽腹感凝膠。好家伙,竟然想到用現(xiàn)實(shí)中的魔芋粉來模仿飽腹感凝膠,這創(chuàng)意不錯(cuò)。(不過卡路里粉是什么鬼,蛋白粉嗎?)那么,同樣的菜再試試讓ChatGPT做一遍,你感覺哪個(gè)更好吃?再給通義千問來道加試題,讓它試試《星露谷物語》里面,用虛空蛋做的奇怪的小面包?等等,真把虛空蛋放進(jìn)食譜了?而且還真的做了份面包出來!就是不知道口感如何……照這樣看,游戲中的食譜都能給通義千問還原一遍了,直接打破次元壁。彩虹屁生成器接下來,再試試讓它生成一份彩虹屁。硬生生把衣服上的油漬夸成了藝術(shù)品……嗯,各大夸夸群可以考慮引入一個(gè)了。免費(fèi)代寫情書最后,我們的測(cè)試以給野獸先輩寫一份情書做結(jié)尾。你感覺怎么樣?好了,看了這么多五(奇)花(奇)八(怪)門(怪)的測(cè)評(píng),你是不是也有點(diǎn)好奇通義千問是怎么來的了?通義千問從何而來?關(guān)于通義千問的技術(shù)細(xì)節(jié),阿里達(dá)摩院官方?jīng)]有透露詳細(xì)信息。而通義千問自己,是這么回答的:訓(xùn)練資料來自阿里巴巴達(dá)摩院,截止到2023年2月。訓(xùn)練資料包括大量語言和文本數(shù)據(jù),包括中英日法西班牙語多語種文本數(shù)據(jù)。還提到自己是個(gè)能聯(lián)網(wǎng)的大語言模型。不過,我們實(shí)測(cè)了一下,發(fā)現(xiàn)千問只是虛晃一槍,假裝自己會(huì)上網(wǎng)(doge)。實(shí)際上,當(dāng)你單獨(dú)問它今天天氣如何時(shí),通義千問會(huì)承認(rèn)它不能訪問實(shí)時(shí)數(shù)據(jù)。但如果你拋給它一個(gè)查詢天氣的網(wǎng)站,它就會(huì)假裝自己看到了網(wǎng)頁內(nèi)容,然后一本正經(jīng)地胡謅一番。此處應(yīng)喊話阿里程序員:你家大模型是真的想上網(wǎng)了。書歸正傳,盡管官方口徑低調(diào),但正如ChatGPT脫胎于OpenAI的GPT系列,百度文心一言是自Ernie大模型發(fā)展而來,阿里也是國內(nèi)最早開始研發(fā)大模型的技術(shù)大廠之一。公開資料顯示,2019年,阿里就已經(jīng)啟動(dòng)了中文大模型研發(fā)。當(dāng)時(shí)阿里發(fā)布的語言大模型StructBERT超越谷歌、微軟、Facebook,登頂了CLUE榜單。2021年,阿里先后發(fā)布了國內(nèi)首個(gè)超百億參數(shù)多模態(tài)大模型M6,以及被稱為“中文版GPT-3”的語言大模型PLUG。其中,M6在多次迭代之后,實(shí)現(xiàn)了十萬億級(jí)別的參數(shù)規(guī)模,并且M6和支付寶、淘寶的業(yè)務(wù)需求相結(jié)合,首個(gè)在國內(nèi)實(shí)現(xiàn)了商業(yè)化落地。PLUG的參數(shù)規(guī)模則為270億,是基于達(dá)摩院的兩種自研模型——語言理解模型StructBERT和語言生成模型PALM打造。這一大模型初登場(chǎng),就以80.614分刷新了權(quán)威中文語言理解基準(zhǔn)CLUE分類任務(wù)榜單記錄。在去年的WAIC(世界人工智能大會(huì))上,阿里還發(fā)布了通義大模型系列。其中核心模型均已開源開放。大模型時(shí)代,中國力量加速競(jìng)逐那么,你會(huì)給這個(gè)阿里版ChatGPT打幾分?需要承認(rèn)的是,相比于現(xiàn)在的業(yè)界標(biāo)桿ChatGPT(GPT-4),通義千問還有不少進(jìn)步空間。阿里方面也透露,根據(jù)內(nèi)測(cè)反饋,這一大模型正在飛速迭代中。此前,微軟被曝曾專門為ChatGPT砸下數(shù)億美元,打造由上萬張英偉達(dá)A100組成的專用超算。而綜合各方消息來看,目前國內(nèi)擁有這一數(shù)量級(jí)高性能顯卡的企業(yè)屈指可數(shù),阿里是其中之一。大模型時(shí)代,已經(jīng)形成行業(yè)共識(shí)的一點(diǎn)是,打造大模型,AI和云計(jì)算缺一不可。而阿里,是全球少數(shù)在算法和算力上都有領(lǐng)先布局的公司之一。除了本身在人工智能和大模型方面長(zhǎng)期的技術(shù)積累,背靠國內(nèi)第一、亞洲第三的云廠商,阿里在算力方面也具備天然的優(yōu)勢(shì)。ChatGPT這把火燒到如今,國內(nèi)對(duì)具備足夠競(jìng)爭(zhēng)力的國產(chǎn)生成式大模型的需求,正在與日俱增。ChatGPT類產(chǎn)品提升生產(chǎn)效率的潛力,已經(jīng)被不斷驗(yàn)證。但與此同時(shí),前有ChatGPT大規(guī)模封號(hào)、亞洲成重災(zāi)區(qū),后有OpenAI因算力問題停售ChatGPT Plus……種種不確定因素,再一次凸顯了技術(shù)自研的價(jià)值。所幸這次,我們的起跑線,并沒有相差那么遠(yuǎn)。游戲不會(huì)在一夜間結(jié)束,而現(xiàn)在,競(jìng)逐真正開始。— 完 —