香港文匯報訊 香港大學(xué)經(jīng)管學(xué)院今日發(fā)表《人工智能模型圖像生成能力綜合評測報告》,針對15個「文生圖模型」及7個「多模態(tài)大語言模型」進行全面評估。研究顯示,字節(jié)跳動的即夢AI和豆包,以及百度的文心一言,在新圖像生成的內(nèi)容質(zhì)素及圖像修改的表現(xiàn)突出。
是次評測主要針對新圖像生成及對現(xiàn)有圖像修改兩種任務(wù)的表現(xiàn)。
首先,新圖像生成任務(wù)的評測包含兩方面:生成內(nèi)容質(zhì)素和安全與責(zé)任性。
? 內(nèi)容質(zhì)素 — 透過以下三個維度進行評估:圖文一致性(衡量圖像是否能準(zhǔn)確反映文字指令中的物件、場景或概念);圖像合理可靠性(衡量圖像內(nèi)容的事實準(zhǔn)確性,確保圖像符合現(xiàn)實世界規(guī)律);圖像美感(衡量圖像的美學(xué)質(zhì)素,包括構(gòu)圖、色彩協(xié)調(diào)性和創(chuàng)意等因素)。內(nèi)容質(zhì)素由專家評分者在模型一對一比較的情況下進行評價,最終以Elo評分進行科學(xué)排名。
在新圖像生成的內(nèi)容質(zhì)素方面,由字節(jié)跳動推出的即夢AI表現(xiàn)最佳,獲得1,123分,百度的文心一言 V3.2.0、Midjourney v6.1及豆包則緊隨其後。

? 安全與責(zé)任性 — 衡量人工智能模型在生成新圖像時的安全合規(guī)性與社會責(zé)任意識,測試指令涵蓋以下類別:偏見與歧視、違法活動、危險元素、倫理道德、版權(quán)侵犯以及隱私/肖像侵犯。
在新圖像生成的安全與責(zé)任方面, OpenAI的GPT-4o的評分最高,平均得分為6.04,通義千問V2.5.0和 Google的Gemini 1.5 Pro 分別以5.49分及5.23分排名第二及第三。評測結(jié)果亦顯示部分文生圖模型雖然在內(nèi)容質(zhì)素方面表現(xiàn)優(yōu)異,卻在安全與責(zé)任 方面的表現(xiàn)未如理想,反映文生圖模型的圖像生成能力不均。在缺乏足夠安全保障和倫理約束的情況下,這些工具可能帶來社會風(fēng)險。

而圖像修改任務(wù)的評測範(fàn)圍包括風(fēng)格修改和內(nèi)容修改,與新圖像生成的內(nèi)容質(zhì)素評估相類似,圖像修改從三個維度進行評估:圖文一致性、圖像合理可靠性及圖像美感。
在13個支援圖像修改的模型當(dāng)中,豆包、即夢AI和文心一言V3.2.0均表現(xiàn)出色,緊隨其後為 GPT-4o和Gemini 1.5 Pro。

隨著生成式人工智能技術(shù)不斷進步,圖像理解與生成這兩大核心領(lǐng)域均取得了突破性成果,為傳統(tǒng)及新興領(lǐng)域注入活力和開拓更多可能性。然而,目前對人工智能圖像生成能力的評估仍處於起步階段,現(xiàn)有人工智能模型圖像生成的評測體系亦未有充分考慮安全與倫理因素,難以全面反映模型表現(xiàn)。
有見及此,繼早前發(fā)布的《人工智能大語言模型評測綜合排行榜》及《人工智能大語言模型圖像理解能力綜合評測報告》,港大經(jīng)管學(xué)院創(chuàng)新及資訊管理學(xué)教授兼夏利萊伉儷基金教授 (戰(zhàn)略信息管理學(xué))蔣鎮(zhèn)輝再次率領(lǐng)人工智能大模型評測團隊,就新圖像生成和圖像修改兩大核心範(fàn)疇,共同構(gòu)建一套更全面的人工智能模型圖像生成能力評測體系,透過更科學(xué)多元的評測方式,幫助用家理解及選擇合適的圖像生成模型,亦為開發(fā)者提供參考以改進設(shè)計。
蔣鎮(zhèn)輝表示:「在當(dāng)前中國科技迅猛發(fā)展的浪潮中,我們在推動技術(shù)突破的同時,必須在創(chuàng)新、提升質(zhì)素與安全責(zé)任之間取得平衡,以推動行業(yè)健康發(fā)展。這套多模態(tài)評測體系將為生成式人工智能技術(shù)發(fā)展奠定重要基礎(chǔ),助力建立一個安全、負(fù)責(zé)任且可持續(xù)的人工智慧大模型生態(tài)系統(tǒng)?!?/p>
評論