①OpenAI昨日帶來(lái)首個(gè)文生視頻模型Sora,業(yè)內(nèi)預(yù)計(jì)AGI實(shí)現(xiàn)將從10年縮短到1年;②海康威視、大華股份等國(guó)內(nèi)視頻分析廠商均入局多模態(tài)大模型研究進(jìn)程,萬(wàn)興科技、因賽集團(tuán)等超10家A股上市公司近三個(gè)月在互動(dòng)平臺(tái)回復(fù)業(yè)務(wù)涉及視頻生成模型領(lǐng)域(附表)。
財(cái)聯(lián)社2月17日訊(編輯 俞琪)OpenAI在昨日凌晨再亮出大招,其發(fā)布了首個(gè)文生視頻模型Sora。據(jù)OpenAI介紹,該人工智能系統(tǒng)可以快速制作長(zhǎng)達(dá)一分鐘的視頻,這些視頻可以呈現(xiàn)具有多個(gè)角色、特定類型的動(dòng)作、以及主題和背景的準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景。從公司官網(wǎng)上更新的48個(gè)視頻demo來(lái)看,Sora不僅能準(zhǔn)確呈現(xiàn)細(xì)節(jié),還能生成具有豐富情感的角色。
在技術(shù)和工作原理方面,OpenAI介紹稱,因使用Transformer架構(gòu),Sora具有極強(qiáng)的擴(kuò)展性,同時(shí)在基于過(guò)去對(duì)DALL·E和GPT的研究基礎(chǔ)構(gòu)建上還利用了DALL·E 3的重述提示詞技術(shù),為視覺(jué)模型訓(xùn)練數(shù)據(jù)生成高描述性的標(biāo)注。
在OpenAI的Sora之前,谷歌在去年12月21日發(fā)布一個(gè)全新的視頻生成模型VideoPoet,能夠執(zhí)行包括文本到視頻、圖像到視頻、視頻風(fēng)格化等操作。此前一夜爆紅的文生視頻軟件Pika更掀起了AI視頻應(yīng)用熱潮。對(duì)于此次Sora的出現(xiàn),360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎2月16日在微博發(fā)文表示,這意味著AGI實(shí)現(xiàn)將從10年縮短到1年。
業(yè)內(nèi)專家分析指出,具備文生視頻功能的視頻類生成式AI在領(lǐng)域,能夠有效降低創(chuàng)作者的創(chuàng)作門檻。國(guó)海證券陳夢(mèng)竹在11月8日研報(bào)中提到,據(jù)量子位發(fā)布的《AIGC/AI生成內(nèi)容產(chǎn)業(yè)展望報(bào)告》,視頻生成將成為近期跨模態(tài)生成領(lǐng)域的中高潛力場(chǎng)景,其背后邏輯是不同技術(shù)帶來(lái)的主流內(nèi)容形式的變化。英偉達(dá)高級(jí)科學(xué)家Jim Fan評(píng)論認(rèn)為,2022年是影像之年,2023是聲波之年,而2024是視頻之年。
隨海外OpenAI、谷歌等紛紛推出各自的文生視頻模型,東方證券蒯劍等人在12月18日研報(bào)中提到,國(guó)內(nèi)領(lǐng)先廠商已入局,其中,??低?、大華股份、螢石網(wǎng)絡(luò)等視頻分析行業(yè)領(lǐng)先廠商紛紛投入到多模態(tài)大模型研究和行業(yè)應(yīng)用落地進(jìn)程。具體來(lái)看,??低暚F(xiàn)已處于多模態(tài)大模型的研發(fā)階段,包括視覺(jué)、語(yǔ)音、文本等多模態(tài)信號(hào)的融合訓(xùn)練及處理。大華股份于23年10月發(fā)布“星漢大模型”,該模型融合點(diǎn)云、語(yǔ)音、圖像等輸入,構(gòu)建了多模態(tài)融合的行業(yè)視覺(jué)大模型。值得一提的是,信雅達(dá)憑借“天才女兒”設(shè)立Pika的消息刺激曾在去年11月30日至12月7日錄得6連板,公司表示,其已圍繞圖像識(shí)別、 AI 定制化建模等能力開(kāi)展深入研究。
此外,主營(yíng)視頻創(chuàng)意、繪圖創(chuàng)意類軟件產(chǎn)品的萬(wàn)興科技近日在互動(dòng)平臺(tái)表示,公司旗下視頻創(chuàng)意產(chǎn)品萬(wàn)興喵影/Filmora可用于各類視頻的創(chuàng)作和剪輯,“天幕”大模型是以視頻創(chuàng)意類AI技術(shù)為核心的多媒體大模型,涵蓋音頻、圖像、視頻等多模態(tài)能力。昆侖萬(wàn)維旗下Star Group和Opera都具備做短視頻的土壤,其中Opera在海外已經(jīng)推出了短視頻功能。此外,昆侖萬(wàn)維天工大模型在騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合廈門大學(xué)開(kāi)展的多模態(tài)大語(yǔ)言模型測(cè)評(píng)中,綜合得分排名第一。專業(yè)智能視頻解決方案與視頻云服務(wù)提供商當(dāng)虹科技擁有自研的AIGC工具集,于去年上半年發(fā)布以靜態(tài)照片生成三維體積視頻的方案。
據(jù)財(cái)聯(lián)社不完全統(tǒng)計(jì),包括萬(wàn)興科技、博匯科技、易點(diǎn)天下、數(shù)碼視訊、漢王科技、當(dāng)虹科技、東方國(guó)信、神思電子、因賽集團(tuán)、拓爾思、國(guó)脈文化、佳都科技在內(nèi)的超10家A股上市公司近三個(gè)月以來(lái)在互動(dòng)平臺(tái)披露視頻生成模型領(lǐng)域的業(yè)務(wù)情況。其中,當(dāng)虹科技1月5日互動(dòng)平臺(tái)表示,公司擁有自研的AIGC工具集,發(fā)布了以靜態(tài)照片生成三維體積視頻的方案,并且通過(guò)點(diǎn)云模型轉(zhuǎn)換及壓縮算法實(shí)現(xiàn)高達(dá)800倍的視覺(jué)無(wú)損壓縮,實(shí)現(xiàn)不同模態(tài)之間相互切換。因賽集團(tuán)旗下InsightGPT目前可生成20秒以上的視頻,能夠結(jié)合圖像、視頻大模型,融合摳圖等多種算法,再結(jié)合音頻模型,整體渲染后最終合成完整視頻。