從效率工具到生產(chǎn)力重塑
大模型“上新潮”持續釋放人工智能潛力
隨著(zhù)人工智能(AI)市場(chǎng)持續蓬勃發(fā)展,作為人工智能領(lǐng)域炙手可熱的技術(shù)方向,多模態(tài)大模型正迎來(lái)“上新潮”——企業(yè)紛紛以多模態(tài)融合、推理效率提升以及成本優(yōu)化為突破口,加速人工智能技術(shù)的商業(yè)化落地。
“通過(guò)多模態(tài)長(cháng)思維鏈訓練、全局記憶、強化學(xué)習的技術(shù)突破,形成領(lǐng)先的多模態(tài)推理能力,并突破成本邊界?!痹谏虦萍既涨芭e行的2025技術(shù)交流日活動(dòng)上,商湯科技董事長(cháng)兼首席執行官徐立在介紹公司推出全新升級的“日日新V6”大模型體系時(shí)表示,該大模型體系將跨越多模態(tài)邊界,釋放推理與智能的無(wú)限可能。
此外,在近日舉行的“2025快手磁力大會(huì )”上,快手也明確表示,在人工智能生成內容(AIGC)的內容生產(chǎn)方面,基于多模態(tài)大模型,快手的AIGC內容生成能力飛速提升。而在稍早前,智元機器人于3月初發(fā)布通用具身基座大模型GO-1,該大模型借助人類(lèi)和多種機器人數據,讓機器人獲得了革命性的學(xué)習能力,可泛化應用到各類(lèi)環(huán)境和物品中,快速適應新任務(wù)、學(xué)習新技能。同時(shí),還支持部署到不同的機器人本體,高效完成落地,并在實(shí)際的使用中持續快速進(jìn)化。
縱觀(guān)近期業(yè)內的一系列動(dòng)作,不僅反映出人工智能領(lǐng)域的技術(shù)躍遷,更是行業(yè)競賽加速的縮影。專(zhuān)家認為,當前,行業(yè)競爭焦點(diǎn)已從參數規模轉向應用效能,大模型的價(jià)值也正從實(shí)驗室的各類(lèi)技術(shù)指標向能否最終轉化為實(shí)際生產(chǎn)力轉變。與此同時(shí),多家上市公司也在積極探索將多模態(tài)大模型引入到日常工作中。
● 本報記者 喬翔
大模型頻“上新”
“多模態(tài)正在成為大模型行業(yè)發(fā)展的重要趨勢?!鄙虦萍悸?lián)合創(chuàng )始人、大裝置事業(yè)群總裁楊帆在接受中國證券報記者采訪(fǎng)時(shí)表示,2025年,行業(yè)頭部企業(yè)愈發(fā)強調多模態(tài)能力,這是一個(gè)自然的市場(chǎng)趨勢。因為人工智能最終會(huì )走向線(xiàn)下,走向物理現實(shí)。在這一過(guò)程中,多模態(tài)的處理和思考能力就成為一種必然的趨勢性需求。
在商湯科技日前舉辦的2025技術(shù)交流日活動(dòng)上,公司推出全新升級的“日日新V6”大模型。其模型能力顯著(zhù)提升,在長(cháng)思維鏈、推理、數理、全局記憶方面具備優(yōu)勢,做到高效能與低成本兼具。
值得一提的是,憑借全局記憶能力,“日日新V6”大模型打破了傳統模型僅支持短視頻的限制,可支持10分鐘級視頻全幀率解析。此外,“日日新V6”大模型還可以對視頻的精彩內容進(jìn)行智能剪輯輸出,幫助用戶(hù)保留珍貴瞬間。
徐立告訴記者,全局記憶使得交互更加自然,例如能處理更長(cháng)的視頻段,并且能對視頻有整體的理解和深度推理,從而實(shí)現更好的交互。
不僅是商湯科技,3月10日,智元機器人發(fā)布首個(gè)通用具身基座大模型——智元啟元大模型(GO-1),其主要是基于2024年底智元機器人推出的AgiBot World數據集。該數據集是包含超過(guò)100萬(wàn)條軌跡、涵蓋217個(gè)任務(wù)、涉及五大類(lèi)場(chǎng)景的大規模高質(zhì)量真機數據集。
為了有效利用高質(zhì)量的AgiBot World數據集以及互聯(lián)網(wǎng)大規模異構視頻數據,增強策略的泛化能力,智元機器人提出了Vision-Language-Latent-Action(ViLLA)這一創(chuàng )新性架構。
“該架構由VLM(多模態(tài)大模型)+MoE(混合專(zhuān)家)組成,其中VLM借助海量互聯(lián)網(wǎng)圖文數據獲得通用場(chǎng)景感知和語(yǔ)言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類(lèi)操作視頻數據獲得通用的動(dòng)作理解能力,且MoE中的Action Expert(動(dòng)作專(zhuān)家)借助百萬(wàn)真機數據獲得精細的動(dòng)作執行能力?!敝窃獧C器人表示,三者環(huán)環(huán)相扣,實(shí)現了利用人類(lèi)視頻學(xué)習,完成小樣本快速泛化,降低了具身智能門(mén)檻。此外,作為通用機器人策略模型,其能夠在不同機器人形態(tài)之間遷移,快速適配到不同本體,群體升智。目前,已成功部署到智元多款機器人本體,將具身智能推上了一個(gè)新臺階。
據智元機器人介紹,通過(guò)ViLLA創(chuàng )新性架構,公司在五種不同復雜度任務(wù)上測試GO-1大模型的表現顯示,其平均成功率提高了32%。其中,倒水、清理桌面和補充飲料任務(wù)表現尤為突出。
值得一提的是,在智元機器人4月初公開(kāi)發(fā)布的一則招聘公告中,關(guān)鍵崗位就包括多模態(tài)大模型算法研究員/工程師。據公司透露,今年1月,智元機器人已累計量產(chǎn)下線(xiàn)1000臺通用具身機器人。
應用價(jià)值日益顯現
頭豹研究院研報顯示,2023年中國多模態(tài)大模型市場(chǎng)規模達到90.9億元,預計到2028年將增長(cháng)至662.3億元,年復合增長(cháng)率達48.76%。該研報認為,這一快速增長(cháng)主要歸因于技術(shù)創(chuàng )新的持續驅動(dòng),以及行業(yè)需求的強勁推動(dòng)。此外,隨著(zhù)多模態(tài)大模型在圖文生成、跨模態(tài)檢索和視頻內容分析等領(lǐng)域的技術(shù)突破,其在各領(lǐng)域的應用價(jià)值日益顯現。
“過(guò)往人工智能應用有非常多的宏大場(chǎng)景構想,但真實(shí)環(huán)境存在的復雜問(wèn)題更考驗大模型對于混合圖文的理解推理能力?!痹谛炝⒖磥?lái),AI之道,在于百姓之日用。每天的高頻日常使用才能從真正意義上輔助人工智能通用模型的大規模發(fā)展。
“在日常生產(chǎn)生活高頻出現的需求場(chǎng)景中,以保險理賠為例,傳統方案通常高度依賴(lài)事先設定的規則,根據規則定向去找文檔里面的關(guān)鍵信息,比如總金額、治療開(kāi)藥日期等?!毙炝⒈硎?,如今通過(guò)多模態(tài)數據的深度整合與強推理能力,能夠更全面地捕捉全部文檔的全量信息,判斷商業(yè)醫療保險理賠材料是否符合理賠要求,并以開(kāi)放式的方式進(jìn)行推理,檢查諸如是否存在亂開(kāi)藥、亂檢查、材料缺失或者材料對不上等問(wèn)題。
徐立表示,現實(shí)生活中小額理賠的材料審核往往需要3至7天的時(shí)間,而交給人工智能,從測試情況看,平均時(shí)間可大幅縮減至1分鐘。
除此之外,徐立還介紹了例如在線(xiàn)上購物比價(jià)、商鋪運營(yíng)、剪輯視頻、題目講解與分析等多個(gè)日常高頻場(chǎng)景中使用大模型進(jìn)行效率提升的案例,進(jìn)一步傳遞出大模型在日常生活中的實(shí)用性。
徐立認為,當人工智能聚集了人類(lèi)現有的大量平均水平的知識后,能夠通過(guò)觸類(lèi)旁通的能力,形成一種對于開(kāi)放性問(wèn)題的確定性應對能力,進(jìn)一步完成從模型到客戶(hù)使用的“最后一公里”。
“我們是從視覺(jué)智能開(kāi)始起步的,當時(shí)我們的很多場(chǎng)景設置都非常宏大,包括城市管理、智能工業(yè)、電網(wǎng)、物業(yè)、運營(yíng)等,其中一個(gè)比較重要的原因是當時(shí)的模型只能針對單一任務(wù)提供閉環(huán)價(jià)值,通用性不夠強?!毙炝⒈硎?,在如今的通用人工智能時(shí)代,那些“看不見(jiàn)摸不著(zhù)”的技術(shù)能夠真正走進(jìn)“尋常百姓家”,并且能夠在多個(gè)日常細分場(chǎng)景中帶來(lái)價(jià)值閉環(huán)。
上市公司深度布局
業(yè)界普遍認為,大模型的核心競爭力已從單一模態(tài)處理逐步轉向跨模態(tài)融合與深度推理,并在此過(guò)程中使得大模型的價(jià)值不再僅是單點(diǎn)工具,而是有望進(jìn)一步重塑系統性生產(chǎn)力。在此趨勢下,不少上市公司通過(guò)自研、合作等方式加速布局多模態(tài)大模型,并在垂直領(lǐng)域持續深度優(yōu)化。
企業(yè)安全隱患排查,往往需要工作人員“一天三班倒”持續現場(chǎng)巡檢。面對繁雜的排查工作,如何幫助工作人員減負增效?對此,??低曊剿骰诤?涤^(guān)瀾大模型技術(shù)體系,將多模態(tài)大模型能力應用到安全生產(chǎn)管理領(lǐng)域。
“將多模態(tài)大模型引入到日常安全生產(chǎn)管理工作中,對現場(chǎng)可能存在的隱患問(wèn)題進(jìn)行智能識別和快速判斷,結合安全生產(chǎn)知識庫,給出詳細的排查依據和整改措施,不僅可以讓現場(chǎng)排查工作效率得到提升,還可以通過(guò)遠程巡查快速發(fā)現問(wèn)題?!焙?低暠硎?。
據??低暯榻B,依托企業(yè)安全生產(chǎn)管理平臺,結合多模態(tài)大模型,可有效實(shí)現遠程隱患智查。例如針對生產(chǎn)區、儲罐區、倉庫區的跑冒滴漏、油封破損、表計破損、外觀(guān)裂紋、螺栓脫落等隱患,安全員可以將日常點(diǎn)巡檢規范導入系統,并篩選匹配對應的視頻點(diǎn)位,配置完成后一鍵啟動(dòng)排查,自動(dòng)生成隱患分析報告。
??低暠硎?,??涤^(guān)瀾大模型加持安全生產(chǎn),助力企業(yè)構建更堅實(shí)的安全防線(xiàn)。未來(lái)將深入更多業(yè)務(wù)領(lǐng)域,探索新的應用場(chǎng)景,助力形成更準確、更高效的管理模式。
“公司在電力巡檢領(lǐng)域所應用的產(chǎn)品包括輪式機器人、四足機器人以及無(wú)人機等?!睗捎钪悄苋涨霸诨?dòng)平臺上透露,公司已于上月完成了“基于多模態(tài)融合的智能巡檢模型算法”的評審。目前,公司正在積極參與輪式機器人的集中檢測工作。
漢儀股份此前在接受機構調研時(shí)表示,公司長(cháng)期布局人工智能應用技術(shù),一直通過(guò)自研、投資并購等方式,持續擴大研發(fā)團隊尤其是AI技術(shù)團隊,加大資源投入進(jìn)行AI技術(shù)的應用研究,尤其是多模態(tài)大模型的應用研究,探索各種大模型在文字、圖像、視頻等設計領(lǐng)域的應用創(chuàng )新落地。
據介紹,針對服飾類(lèi)電商客戶(hù),漢儀股份研發(fā)的AI模特商拍和商品圖合成技術(shù),替代了傳統拍攝方式,為品牌營(yíng)銷(xiāo)圖智能換臉、智能合成商品背景圖等功能,降低了客戶(hù)商品拍攝與處理成本,提升了商品上架速度和展示效果;針對視頻電商客戶(hù),其研發(fā)的AI視頻剪輯解決方案,替代傳統人力剪輯方式,可大大降低剪輯處理的成本,提升營(yíng)銷(xiāo)內容生產(chǎn)和投放效率。
“結合文本、圖像和視頻的多模態(tài)內容生成技術(shù),公司布局開(kāi)展了營(yíng)銷(xiāo)海報生成、虛擬換裝、圖生視頻、視頻混剪等方面的產(chǎn)品規劃和研發(fā)工作?!睗h儀股份表示,上述應用已在公司“kreatr”工具平臺上線(xiàn),并已和外部企業(yè)展開(kāi)商業(yè)合作。