分享到微信

打開微信,，點擊底部的“發(fā)現(xiàn)”,，
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈,。

李彥宏說大模型幻覺基本消除了,，實測文心一言到底怎么樣？

第一財經(jīng) 2024-11-13 12:39:06 聽新聞

作者：劉佳責(zé)編：胡軍華

給AI文生圖打幾分,？

“如果你要問我,，過去這24個月，對行業(yè)而言,，最大的變化是什么,？那我的回答一定是，大模型基本消除了幻覺,，它回答問題的準(zhǔn)確性大大地提升了,。”在昨日的百度世界大會上，百度董事長李彥宏談及大模型變化時這樣說,。

在這背后,，增強(qiáng)檢索（RAG）技術(shù)功不可沒，大模型會利用檢索到的信息來指導(dǎo)文本或答案的生成,，從而極大地提高了內(nèi)容的質(zhì)量和準(zhǔn)確性,。今天，文字層面的RAG已經(jīng)改善不少,，但完全基于大語言模型的文生圖系統(tǒng),，生成的圖片常常“一眼假”,，甚至邏輯不合常理。

李彥宏說,，今年年初,，就在整個中文互聯(lián)網(wǎng)都為Sora而捶胸頓足的時候，百度決定解決圖像生成的幻覺問題,，開發(fā)了iRAG（image based RAG）,，也就是檢索增強(qiáng)的文生圖技術(shù),。該技術(shù)通過將百度搜索的億級圖片資源跟強(qiáng)大的基礎(chǔ)模型能力進(jìn)行結(jié)合,，可以生成各種超真實的圖片。

在演講中,，他例舉了大眾攬巡汽車飛越長城,、愛因斯坦游遍全世界等文生圖片來印證，iRAG整體效果遠(yuǎn)遠(yuǎn)超過文生圖的原生系統(tǒng),，去掉了機(jī)器味兒,。

文心一言的文生圖效果到底怎么樣？今日第一財經(jīng)記者做了實測發(fā)現(xiàn),，部分圖片確實有著很高的真實度,，有一定創(chuàng)意，但總體仍有不小的改善空間,，例如,，有些特定人物生成并非本人，比如愛因斯坦,，而且圖片的機(jī)器味兒依然存在,，尤其在一些細(xì)節(jié)，比如數(shù)字,、文字上,，幾乎都是以亂碼居多。

昨天,，百度發(fā)布了智能眼鏡,，記者請文心一言畫一個蘋果CEO庫克戴著百度眼鏡的圖片，圖片呈現(xiàn)了蘋果的LOGO,，但顯然人物并不是庫克本人,，只是長相相似，圖片中所戴眼鏡的形狀也并不完全相同,。

昨天,，李彥宏還通過提示詞，讓愛因斯坦游遍全世界,，比如悉尼歌劇院,、復(fù)活節(jié)島巨石陣,、長城、鳥巢等等,，形象逼真,。但今天記者在讓AI畫圖霍金和愛因斯坦一起在深秋的老北京胡同里遛彎，放大圖來看,，除了愛因斯坦發(fā)型相似,，兩個人物都并非特定人物本身，而且長有亞洲面孔,。

當(dāng)記者提醒AI這兩個人并不是霍金和愛因斯坦本人,，請AI重畫后，得到的圖片仍然并非二人,。

當(dāng)我們把畫圖的人物對象變成百度董事長李彥宏,，這次AI畫得像多了。AI創(chuàng)作了一張“李彥宏在北京大學(xué)門口攤煎餅”的圖片,，人物本身和北京大學(xué)的建筑真實度較高,，但是放大圖后可以看到，建筑上“北京大學(xué)”四個字出現(xiàn)了亂碼,，并非真實的文字,。

我們讓AI畫了一張馬斯克在故宮喝豆汁的圖片，AI畫的人物很像馬斯克本人,，故宮場景也較為逼真,，但放大圖來看，馬斯克喝的并不是豆汁,，碗上的文字也是亂碼,。

畫一張運動員身穿隊服在長城上打乒乓球的圖片中，無論長城背景還是乒乓球桌,，場景的真實還原度很高,，但同樣，運動員隊服的數(shù)字呈現(xiàn)是亂碼,。

我們讓AI作圖發(fā)現(xiàn),，數(shù)字、文字亂碼的情況出現(xiàn)頻率較高,，例如這張貓咪觀看時刻表的圖片中,，有正常的數(shù)字，但也有亂碼,；一張企鵝坐在公園拿著報紙喝咖啡的圖片中,，手中的報紙文字也出現(xiàn)了亂碼。

有時，AI還不能夠準(zhǔn)確理解人類的想法,，比如當(dāng)希望它創(chuàng)作一張寫實風(fēng)格的圖片,，提示詞為熱鬧的街區(qū)，一位白裙少女坐著一只巨型貓咪,，AI的繪畫結(jié)果卻都為漫畫效果,，而且少女并沒有坐在貓咪上，有的圖片是貓咪騎在自行車上,，有的是少女和貓咪前后腳走,，還有些是少女懷中抱著貓咪。

但是當(dāng)給出AI更加真實和細(xì)節(jié)的場景,，繪畫的效果好了不少,。例如“武康大樓的街頭，一只巨型貓咪堵在車流擁擠的馬路上,，貓爪和汽車一樣大”,，這樣超現(xiàn)實主義的作品完成度很高,，對于武康大樓等細(xì)節(jié)還原也不錯,。

天冷了，讓AI給東方明珠織一件彩色毛衣,，AI完成度較高,。

但相似的提示詞換成建筑“水立方”，效果卻大打折扣,，變成了一位穿著彩色毛衣的男士在水立方前方站立,，AI還給水立方織了一件“并不合身”的人類毛衣。

在演講中,，李彥宏提到作為一項基礎(chǔ)技術(shù),，iRAG在很多領(lǐng)域都有著很好的應(yīng)用空間。比如,，影視作品,、漫畫作品，連續(xù)畫本,，海報制作等,，大幅降低創(chuàng)作成本，“試想一下,，如果大眾的海報生成的車型長得像豐田,，那可就糟心了。”于是,，我們讓AI生成一張汽車海報,，雷軍開著小米su7穿越月球，結(jié)果顯示場景表達(dá)較為準(zhǔn)確,，人物形象相似,，但一些圖片中汽車和真實的小米su7外形并不相同,，小米汽車的LOGO也不夠準(zhǔn)確。

接下來我們讓AI畫一個對于小米15手機(jī)的展示,，場景和動物形象表達(dá)準(zhǔn)確,，但每一張圖中的手機(jī)都不一樣，也并不像小米15,，其中一張圖的手機(jī)大得更像平板電腦,。

在創(chuàng)作藝術(shù)海報方面，記者讓AI畫一張《只此青綠》演出海報,，要求有水墨風(fēng)格,，AI的繪畫基本符合要求，有意境,，但放大圖片看,，其中一張海報的文字出現(xiàn)了亂碼。

舉報

第一財經(jīng)廣告合作,，請點擊這里

此內(nèi)容為第一財經(jīng)原創(chuàng),，著作權(quán)歸第一財經(jīng)所有。未經(jīng)第一財經(jīng)書面授權(quán),，不得以任何方式加以使用,，包括轉(zhuǎn)載、摘編,、復(fù)制或建立鏡像,。第一財經(jīng)保留追究侵權(quán)者法律責(zé)任的權(quán)利。如需獲得授權(quán)請聯(lián)系第一財經(jīng)版權(quán)部：021-22002972或021-22002335,；[email protected],。