分享到微信打開微信,,點擊底部的“發(fā)現(xiàn)”,, |
“如果你要問我,,過去這24個月,對行業(yè)而言,,最大的變化是什么,?那我的回答一定是,大模型基本消除了幻覺,,它回答問題的準(zhǔn)確性大大地提升了,。”在昨日的百度世界大會上,百度董事長李彥宏談及大模型變化時這樣說,。
在這背后,,增強(qiáng)檢索(RAG)技術(shù)功不可沒,大模型會利用檢索到的信息來指導(dǎo)文本或答案的生成,,從而極大地提高了內(nèi)容的質(zhì)量和準(zhǔn)確性,。今天,文字層面的RAG已經(jīng)改善不少,,但完全基于大語言模型的文生圖系統(tǒng),,生成的圖片常常“一眼假”,,甚至邏輯不合常理。
李彥宏說,,今年年初,,就在整個中文互聯(lián)網(wǎng)都為Sora而捶胸頓足的時候,百度決定解決圖像生成的幻覺問題,,開發(fā)了iRAG(image based RAG),,也就是檢索增強(qiáng)的文生圖技術(shù),。該技術(shù)通過將百度搜索的億級圖片資源跟強(qiáng)大的基礎(chǔ)模型能力進(jìn)行結(jié)合,,可以生成各種超真實的圖片。
在演講中,,他例舉了大眾攬巡汽車飛越長城,、愛因斯坦游遍全世界等文生圖片來印證,iRAG整體效果遠(yuǎn)遠(yuǎn)超過文生圖的原生系統(tǒng),,去掉了機(jī)器味兒,。
文心一言的文生圖效果到底怎么樣?今日第一財經(jīng)記者做了實測發(fā)現(xiàn),,部分圖片確實有著很高的真實度,,有一定創(chuàng)意,但總體仍有不小的改善空間,,例如,,有些特定人物生成并非本人,比如愛因斯坦,,而且圖片的機(jī)器味兒依然存在,,尤其在一些細(xì)節(jié),比如數(shù)字,、文字上,,幾乎都是以亂碼居多。
昨天,,百度發(fā)布了智能眼鏡,,記者請文心一言畫一個蘋果CEO庫克戴著百度眼鏡的圖片,圖片呈現(xiàn)了蘋果的LOGO,,但顯然人物并不是庫克本人,,只是長相相似,圖片中所戴眼鏡的形狀也并不完全相同,。
昨天,,李彥宏還通過提示詞, 讓愛因斯坦游遍全世界,,比如悉尼歌劇院,、復(fù)活節(jié)島巨石陣,、長城、鳥巢等等,,形象逼真,。但今天記者在讓AI畫圖霍金和愛因斯坦一起在深秋的老北京胡同里遛彎,放大圖來看,,除了愛因斯坦發(fā)型相似,,兩個人物都并非特定人物本身,而且長有亞洲面孔,。
當(dāng)記者提醒AI這兩個人并不是霍金和愛因斯坦本人,,請AI重畫后,得到的圖片仍然并非二人,。
當(dāng)我們把畫圖的人物對象變成百度董事長李彥宏,,這次AI畫得像多了。AI創(chuàng)作了一張“李彥宏在北京大學(xué)門口攤煎餅”的圖片,,人物本身和北京大學(xué)的建筑真實度較高,,但是放大圖后可以看到,建筑上“北京大學(xué)”四個字出現(xiàn)了亂碼,,并非真實的文字,。
我們讓AI畫了一張馬斯克在故宮喝豆汁的圖片,AI畫的人物很像馬斯克本人,,故宮場景也較為逼真,,但放大圖來看,馬斯克喝的并不是豆汁,,碗上的文字也是亂碼,。
畫一張運動員身穿隊服在長城上打乒乓球的圖片中,無論長城背景還是乒乓球桌,,場景的真實還原度很高,,但同樣,運動員隊服的數(shù)字呈現(xiàn)是亂碼,。
我們讓AI作圖發(fā)現(xiàn),,數(shù)字、文字亂碼的情況出現(xiàn)頻率較高,,例如這張貓咪觀看時刻表的圖片中,,有正常的數(shù)字,但也有亂碼,;一張企鵝坐在公園拿著報紙喝咖啡的圖片中,,手中的報紙文字也出現(xiàn)了亂碼。
有時,AI還不能夠準(zhǔn)確理解人類的想法,,比如當(dāng)希望它創(chuàng)作一張寫實風(fēng)格的圖片,,提示詞為熱鬧的街區(qū),一位白裙少女坐著一只巨型貓咪,,AI的繪畫結(jié)果卻都為漫畫效果,,而且少女并沒有坐在貓咪上,有的圖片是貓咪騎在自行車上,,有的是少女和貓咪前后腳走,,還有些是少女懷中抱著貓咪。
但是當(dāng)給出AI更加真實和細(xì)節(jié)的場景,,繪畫的效果好了不少,。例如“武康大樓的街頭,一只巨型貓咪堵在車流擁擠的馬路上,,貓爪和汽車一樣大”,,這樣超現(xiàn)實主義的作品完成度很高,,對于武康大樓等細(xì)節(jié)還原也不錯,。
天冷了,讓AI給東方明珠織一件彩色毛衣,,AI完成度較高,。
但相似的提示詞換成建筑“水立方”,效果卻大打折扣,,變成了一位穿著彩色毛衣的男士在水立方前方站立,,AI還給水立方織了一件“并不合身”的人類毛衣。
在演講中,,李彥宏提到作為一項基礎(chǔ)技術(shù),,iRAG在很多領(lǐng)域都有著很好的應(yīng)用空間。比如,,影視作品,、漫畫作品,連續(xù)畫本,,海報制作等,,大幅降低創(chuàng)作成本,“試想一下,,如果大眾的海報生成的車型長得像豐田,,那可就糟心了。”于是,,我們讓AI生成一張汽車海報,,雷軍開著小米su7穿越月球,結(jié)果顯示場景表達(dá)較為準(zhǔn)確,,人物形象相似,,但一些圖片中汽車和真實的小米su7外形并不相同,,小米汽車的LOGO也不夠準(zhǔn)確。
接下來我們讓AI畫一個對于小米15手機(jī)的展示,,場景和動物形象表達(dá)準(zhǔn)確,,但每一張圖中的手機(jī)都不一樣,也并不像小米15,,其中一張圖的手機(jī)大得更像平板電腦,。
在創(chuàng)作藝術(shù)海報方面,記者讓AI畫一張《只此青綠》演出海報,,要求有水墨風(fēng)格,,AI的繪畫基本符合要求,有意境,,但放大圖片看,,其中一張海報的文字出現(xiàn)了亂碼。
第一財經(jīng)從ChatGPT問世之初便緊密跟蹤這一趨勢,,通過專業(yè)視角為公眾提供了深入的分析與解讀,。
李彥宏:大模型行業(yè)過去24個月最大變化是基本消除幻覺
對云廠商來說,,行業(yè)仍處于AGI變革的早期,大模型的“降價潮”未有結(jié)束的跡象,。
“真正做大模型的公司,如果你一萬張卡都沒有,你就根本不要講自己是在干大模型的公司,?!?/p>
“真正的變革是,,什么時間點有一個模型可以把錯誤率降低到個位數(shù)?!?/p>