近期,美國(guó)人工智能公司OpenAI發(fā)布免費(fèi)機(jī)器人對(duì)話(huà)模型ChatGPT(GPT-3.5系列),模型中首次采用RLHF(從人類(lèi)反饋中強(qiáng)化學(xué)習(xí))方式。ChatGPT-3.5發(fā)布之后,5天時(shí)間用戶(hù)破100萬(wàn),速度驚人。ChatGPT正在迅速成為主流。
如何看待ChatGPT的未來(lái)趨勢(shì)和對(duì)行業(yè)的影響?以下為機(jī)構(gòu)中信證券報(bào)告部分內(nèi)容摘要:
由人工智能實(shí)驗(yàn)室OpenAI發(fā)布的對(duì)話(huà)式大型語(yǔ)言模型Chat-GPT獲得市場(chǎng)廣泛關(guān)注。
測(cè)試反饋的結(jié)果顯示,相比于前一代的GPT-3,Chat-GPT給出的答案完成度很高,并能在專(zhuān)業(yè)領(lǐng)域內(nèi)形成具有一定創(chuàng)作性的回答。技術(shù)背景上,OpenAI團(tuán)隊(duì)從GPT-3.5系列中的一個(gè)模型進(jìn)行微調(diào),使用人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練該模型。這種技術(shù)使用人類(lèi)偏好作為獎(jiǎng)勵(lì)信號(hào)來(lái)微調(diào)模型,在此前的Transformer算法的基礎(chǔ)上又優(yōu)化了數(shù)據(jù)來(lái)源。與GPT-3相比,Chat-GPT測(cè)試所取得的進(jìn)步是明顯的,但這些進(jìn)步主要來(lái)自于數(shù)學(xué)層面上優(yōu)化帶來(lái)的匹配精準(zhǔn)度提高,而并非算法真正為AI帶來(lái)了邏輯性。更直觀的理解是,Chat-GPT“解鎖”了GPT-3已經(jīng)具備的能力,原先模型中真正使用到的計(jì)算和數(shù)據(jù)不到2%,這讓Chat-GPT成為一個(gè)AI技術(shù)應(yīng)用的成功范例。
對(duì)產(chǎn)業(yè)界而言,Chat-GPT的成功意味著產(chǎn)業(yè)端算力與數(shù)據(jù)質(zhì)量重要性進(jìn)一步提升,人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)更強(qiáng)調(diào)數(shù)據(jù)質(zhì)量與算力,在未來(lái)Transformer發(fā)展的過(guò)程中將越來(lái)越重要,一味堆疊數(shù)據(jù)量的時(shí)代可能已經(jīng)過(guò)去。能夠完成數(shù)據(jù)閉環(huán)以及有著優(yōu)秀的數(shù)據(jù)自處理能力的企業(yè)預(yù)計(jì)將在未來(lái)AI模型發(fā)展的過(guò)程中更加受到青睞。場(chǎng)景落地端,根據(jù)模型現(xiàn)有的完成度,在垂直行業(yè)針對(duì)性地做人工反饋訓(xùn)練,就可以落地智能客服、問(wèn)答產(chǎn)品,在toC場(chǎng)景中料將率先得到應(yīng)用。Chat-GPT的成功證明了Transformer模型并非陷入困境,AI模型&技術(shù)上持續(xù)的新突破,正驅(qū)動(dòng)全球AI產(chǎn)業(yè)進(jìn)入加速發(fā)展階段,疊加AI產(chǎn)業(yè)集群效應(yīng)的不斷凸顯,擁有完整數(shù)據(jù)閉環(huán)結(jié)構(gòu)、良好數(shù)據(jù)自處理能力的企業(yè)有望持續(xù)成為產(chǎn)業(yè)受益者。
Chat-GPT模型:在GPT-3.5的基礎(chǔ)上基于人類(lèi)反饋學(xué)習(xí)進(jìn)行額外訓(xùn)練,給出了Transformer模型未來(lái)發(fā)展的一個(gè)可能解法。
OpenAI團(tuán)隊(duì)從GPT-3.5系列中的一個(gè)模型進(jìn)行微調(diào),使用與InstructGPT相同的方法,使用人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)訓(xùn)練該模型,并對(duì)數(shù)據(jù)收集設(shè)置相對(duì)做了優(yōu)化。人類(lèi)反饋強(qiáng)化模型這一技術(shù),是OpenAI從2017開(kāi)始發(fā)表論文的新領(lǐng)域。這種技術(shù)使用人類(lèi)偏好作為獎(jiǎng)勵(lì)信號(hào)來(lái)微調(diào)模型,首先收集人工編寫(xiě)演示數(shù)據(jù)集(包含兩種不同輸出類(lèi)型的比較),然后在這個(gè)數(shù)據(jù)集上訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(RM)來(lái)預(yù)測(cè)標(biāo)簽者更喜歡哪個(gè)輸出。最后,使用此RM作為獎(jiǎng)勵(lì)函數(shù)并微調(diào)這個(gè)GPT-3策略以使用PPO算法最大化此獎(jiǎng)勵(lì)。從測(cè)試的結(jié)果看,Chat-GPT能夠調(diào)用大量的專(zhuān)業(yè)數(shù)據(jù)庫(kù),并用巧妙的語(yǔ)言連接句將他們拼合在一起,在回答問(wèn)題時(shí),模型能根據(jù)上下文展現(xiàn)出一定的連貫性。在面對(duì)GPT-3束手無(wú)策的人稱(chēng)代詞時(shí),Chat-GPT展現(xiàn)出了一定的邏輯能力。
模型背后問(wèn)題:并非底層技術(shù)上的革命性突破,產(chǎn)業(yè)端意義大于學(xué)術(shù)端意義。
與GPT-3相比,Chat-GPT測(cè)試所取得的進(jìn)步是明顯的,但這些進(jìn)步主要來(lái)自于數(shù)學(xué)層面上的優(yōu)化帶來(lái)的結(jié)果匹配精準(zhǔn)度提高,而并非算法真正為AI帶來(lái)了邏輯性,也不是能夠從訓(xùn)練的數(shù)據(jù)中學(xué)習(xí)到新的知識(shí)。對(duì)于Chat-GPT相對(duì)于原先模型的進(jìn)步的一種更直觀的理解是,Chat-GPT“解鎖”了GPT-3已經(jīng)具備的能力,通過(guò)原先的提示工程難以激發(fā):這是因?yàn)橛?xùn)練程序相對(duì)于預(yù)訓(xùn)練期間學(xué)到的東西,新知識(shí)的連接能力有限。這一過(guò)程帶來(lái)了更好的結(jié)果匹配度來(lái)逼近人類(lèi)思考所使用的邏輯,但并非給予了AI底層邏輯性的概念。從大量的測(cè)試結(jié)果能看出,Chat-GPT有時(shí)仍會(huì)寫(xiě)出看似合理但不正確或荒謬的答案,以及幼兒都絕不會(huì)出現(xiàn)的邏輯性錯(cuò)誤。主要原因包括:(1)在面對(duì)邏輯性的指代,以及稍微復(fù)雜的句式,模型仍然難以分析出內(nèi)在的邏輯性關(guān)聯(lián);(2)訓(xùn)練模型更加謹(jǐn)慎導(dǎo)致它拒絕回答和逃避回答問(wèn)題;(3)監(jiān)督訓(xùn)練會(huì)誤導(dǎo)模型,因?yàn)槔硐氲拇鸢溉Q于模型知道什么,而不是人類(lèi)演示者知道什么。
Chat-GPT對(duì)產(chǎn)業(yè)界的影響:底層算力、數(shù)據(jù)質(zhì)量重要性進(jìn)一步提升,toC端場(chǎng)景(智能客服等)料將率先迎來(lái)變革。
1)人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)更強(qiáng)調(diào)數(shù)據(jù)質(zhì)量與算力,盡管相比于GPT-3,Chat-GPT削減了一部分的數(shù)據(jù)量,但對(duì)于余下的數(shù)據(jù)做了更好的優(yōu)化以及加入了人類(lèi)反饋調(diào)節(jié)的獎(jiǎng)勵(lì)系統(tǒng)。數(shù)據(jù)質(zhì)量與大算力支撐下的獎(jiǎng)勵(lì)系統(tǒng)預(yù)計(jì)將在未來(lái)Transformer發(fā)展的過(guò)程中越來(lái)越重要,一味堆疊數(shù)據(jù)量的時(shí)代可能已經(jīng)過(guò)去。能夠完成數(shù)據(jù)閉環(huán)以及有著優(yōu)秀的數(shù)據(jù)自處理能力的企業(yè)將在未來(lái)AI模型發(fā)展的過(guò)程中更加受到青睞。2)即使Chat-GPT不是一個(gè)革命性的底層AI技術(shù)的突破,但它絕對(duì)是一個(gè)成功的AI技術(shù)應(yīng)用的典范。在原先GPT-3.5與InstructGPT的框架上,OpenAI的研究員通過(guò)調(diào)試參數(shù)與數(shù)據(jù)源取得了驚人的效果。根據(jù)模型現(xiàn)有的完成度,在垂直行業(yè)針對(duì)性的做人工反饋訓(xùn)練,就可以落地為智能客服產(chǎn)品,在toC的場(chǎng)景中率先得到應(yīng)用。對(duì)比目前的智能客服,Chat-GPT支撐的客服將在靈活性與人性化服務(wù)方面有顯著的進(jìn)步。
網(wǎng)上經(jīng)營(yíng)許可證號(hào):京ICP備18006193號(hào)-1
copyright?2005-2022 3dtdv.cn all right reserved 技術(shù)支持:杭州高達(dá)軟件系統(tǒng)股份有限公司
服務(wù)熱線(xiàn):010-59231580