日本一区=区三区黄色视频,在线观看人成视频免费,日韩综合无码中文字幕

對(duì)話智源研究院副院長(zhǎng)林詠華：當(dāng)下已進(jìn)入語(yǔ)言模型深水區(qū) 預(yù)計(jì)2025年會(huì)出現(xiàn)更多新的多模態(tài)模型

原創(chuàng)

2024-12-20 15:35 星期五

科創(chuàng)板日?qǐng)?bào)記者李明明

①智源評(píng)測(cè)發(fā)現(xiàn)，2024年下半年大模型發(fā)展更聚焦綜合能力提升與實(shí)際應(yīng)用，語(yǔ)言模型發(fā)展相對(duì)放緩；②林詠華告訴《科創(chuàng)板日?qǐng)?bào)》記者，2025年，基于語(yǔ)言模型會(huì)產(chǎn)生更多的Agent，然后圍繞Agent來(lái)做更復(fù)雜的AI應(yīng)用和系統(tǒng)。

《科創(chuàng)板日?qǐng)?bào)》20日訊（記者李明明）近日，智源研究院發(fā)布并解讀國(guó)內(nèi)外100余個(gè)開源和商業(yè)閉源的語(yǔ)言、視覺(jué)語(yǔ)言、文生圖、文生視頻、語(yǔ)音語(yǔ)言大模型綜合及專項(xiàng)評(píng)測(cè)結(jié)果。

智源評(píng)測(cè)發(fā)現(xiàn)，2024年下半年大模型發(fā)展更聚焦綜合能力提升與實(shí)際應(yīng)用。多模態(tài)模型發(fā)展迅速，涌現(xiàn)了不少新的廠商與新模型，語(yǔ)言模型發(fā)展相對(duì)放緩。模型開源生態(tài)中，除了持續(xù)堅(jiān)定開源的海內(nèi)外機(jī)構(gòu)，還出現(xiàn)了新的開源貢獻(xiàn)者。

就評(píng)測(cè)結(jié)果顯示當(dāng)前語(yǔ)言模型發(fā)展放緩的具體原因，智源研究院副院長(zhǎng)兼總工程師林詠華在接受《科創(chuàng)板日?qǐng)?bào)》記者采訪時(shí)表示，首先，現(xiàn)在最優(yōu)秀的語(yǔ)言模型已經(jīng)發(fā)展了一定的基礎(chǔ)能力，再明顯的增長(zhǎng)不是特別容易，不能只是拼更大的參數(shù)或更多的數(shù)據(jù)這條路，而是需要更多的深入創(chuàng)新才能提升，因此，會(huì)看到更新更大的語(yǔ)言模型出現(xiàn)的頻率有所減緩，因此現(xiàn)在進(jìn)入了語(yǔ)言模型的深水區(qū)。

從全球模型的發(fā)展情況來(lái)看，模型尺寸出現(xiàn)兩極分化。11月Hugging Face下載量最高的模型顯示，高下載量出現(xiàn)在兩極分化的模型上，一類是更大更強(qiáng)的稠密模型，像Llama3.1的405B全球一個(gè)月的下載量是七八百萬(wàn)，也是下載量最高之一。但是剩下的高下載量則很多是7B或以下的小模型。

“其次，可以看到多模態(tài)模型的潛力。目前多模態(tài)模型的需求蓬勃發(fā)展，但是，相較語(yǔ)言模型來(lái)說(shuō)，其在基礎(chǔ)能力上有明顯的提升空間。2025年，預(yù)計(jì)多模態(tài)模型會(huì)層出不窮，包括開源模型，會(huì)有更多新的多模態(tài)模型?！?林詠華說(shuō)。

“百?！痹u(píng)測(cè)結(jié)果：文生視頻模型畫質(zhì)進(jìn)一步提升但普遍存在大幅度動(dòng)作變形等問(wèn)題

智源研究院評(píng)測(cè)結(jié)果顯示，語(yǔ)言模型，針對(duì)一般中文場(chǎng)景的開放式問(wèn)答或者生成任務(wù)，模型能力已趨于飽和穩(wěn)定，但是復(fù)雜場(chǎng)景任務(wù)的表現(xiàn)，國(guó)內(nèi)頭部語(yǔ)言模型仍然與國(guó)際一流水平存在顯著差距。

在語(yǔ)言模型主觀評(píng)測(cè)重點(diǎn)考察模型中文能力方面，結(jié)果顯示字節(jié)跳動(dòng)Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五；在語(yǔ)言模型客觀評(píng)測(cè)中，OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴Qwen-max-0919、字節(jié)跳動(dòng)Doubao-pro-32k-preview位居第三、第四，Meta Llama-3.3-70B-Instruct排名前五。

在視覺(jué)語(yǔ)言多模態(tài)模型方面，雖然開源模型架構(gòu)趨同（語(yǔ)言塔+視覺(jué)塔），但表現(xiàn)不一，其中較好的開源模型在圖文理解任務(wù)上正在縮小與頭部閉源模型的能力差距，而長(zhǎng)尾視覺(jué)知識(shí)與文字識(shí)別以及復(fù)雜圖文數(shù)據(jù)分析能力仍有提升空間。評(píng)測(cè)結(jié)果顯示，OpenAI GPT-4o-2024-11-20與字節(jié)跳動(dòng)Doubao-Pro-Vision-32k-241028先后領(lǐng)先于Anthropic Claude-3-5-sonnet-20241022，阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro緊隨其后。

在文生圖多模態(tài)模型方面，今年上半年參評(píng)的模型普遍無(wú)法生成正確的中文文字，但此次參評(píng)的頭部模型已經(jīng)具備中文文字生成能力，但整體普遍存在復(fù)雜場(chǎng)景人物變形的情況，針對(duì)常識(shí)或知識(shí)性推理任務(wù)，小于3的數(shù)量關(guān)系任務(wù)表現(xiàn)有所提升，大于3的數(shù)量關(guān)系依然無(wú)法處理，涉及中國(guó)文化和古詩(shī)詞理解的場(chǎng)景對(duì)于模型而言是不小的挑戰(zhàn)。評(píng)測(cè)結(jié)果顯示，騰訊Hunyuan Image位列第一，字節(jié)跳動(dòng)Doubao image v2.1、Ideogram 2.0分居第二、第三，OpenAI DALL·E 3、快手可圖次之。

在文生視頻多模態(tài)模型方面，畫質(zhì)進(jìn)一步提升，動(dòng)態(tài)性更強(qiáng)，鏡頭語(yǔ)言更豐富，專場(chǎng)更流暢，但普遍存在大幅度動(dòng)作變形，無(wú)法理解物理規(guī)律，物體消失、閃現(xiàn)、穿模的情況。評(píng)測(cè)結(jié)果顯示，快手可靈1.5（高品質(zhì)）、字節(jié)跳動(dòng)即夢(mèng) P2.0 pro、愛(ài)詩(shī)科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。

2025年基于語(yǔ)言模型會(huì)產(chǎn)生更多Agent

隨著技術(shù)的不斷成熟和應(yīng)用場(chǎng)景的不斷拓展，多模態(tài)大模型也在各個(gè)領(lǐng)域發(fā)揮越來(lái)越重要的作用。相應(yīng)的各家大模型廠商去年目標(biāo)多是追逐AGI，今年則開始發(fā)力應(yīng)用。

對(duì)于AGI和應(yīng)用這兩者的優(yōu)先級(jí)，林詠華告訴《科創(chuàng)板日?qǐng)?bào)》記者，通過(guò)整理今年5月和12月的兩組對(duì)比數(shù)據(jù)，可以看到，以語(yǔ)言模型為例，追逐更大更強(qiáng)的語(yǔ)言模型，尤其是開源模型的這些廠商數(shù)量在減少；同時(shí)，本次評(píng)測(cè)的開源模型中，國(guó)內(nèi)新出現(xiàn)的廠商較少。

因此，對(duì)于國(guó)內(nèi)大模型廠商來(lái)說(shuō)，很多廠商經(jīng)過(guò)一年多的訓(xùn)練，其模型能力已經(jīng)到達(dá)了一定應(yīng)用的可能性，需要盡快做應(yīng)用落地。

林詠華進(jìn)一步表示，如今依然還有少部分的廠商和機(jī)構(gòu)會(huì)在AGI的路上不斷往前走，例如META今年推出了405B的超大模型，其全球下載量也很大，智源發(fā)布的Emu3也是完全原生的多模態(tài)世界模型等。因此目前的趨勢(shì)是，全球開始有分層有分工地追求AGI，一部分不斷地追求更強(qiáng)更大的AGI模型，另一部分則希望有好的模型做應(yīng)用嘗試。

但是，今年沒(méi)有特別明顯的killer APP出來(lái)，智源從評(píng)測(cè)的眾多模型來(lái)看，明年AI應(yīng)用的趨勢(shì)會(huì)體現(xiàn)在哪些方面？

對(duì)此，林詠華告訴《科創(chuàng)板日?qǐng)?bào)》記者，AI應(yīng)用的具體情況和模型發(fā)展到什么階段相關(guān)。例如，今年很多AI應(yīng)用是以語(yǔ)言模型為基礎(chǔ)，經(jīng)過(guò)2023年語(yǔ)言模型的蓬勃發(fā)展，2024年語(yǔ)言模型基礎(chǔ)能力水平較高，并開始發(fā)展復(fù)雜的應(yīng)用能力，所以出現(xiàn)以各種的語(yǔ)言模型為支撐的AI應(yīng)用。

2025年，語(yǔ)言模型會(huì)繼續(xù)往前發(fā)展，基于語(yǔ)言模型會(huì)產(chǎn)生更多的Agent，然后圍繞Agent來(lái)做更復(fù)雜的AI應(yīng)用和系統(tǒng)，這也是明年的熱點(diǎn)之一。

同時(shí)，經(jīng)過(guò)今年的發(fā)展，無(wú)論是開源模型，還是閉源模型，2025年都會(huì)出現(xiàn)基于文生圖、尤其是文生視頻的應(yīng)用。

另外，如果從模型的能力上看，以VLM多模態(tài)為代表的跨模態(tài)視覺(jué)語(yǔ)言模型，在企業(yè)的落地場(chǎng)景會(huì)有很多，現(xiàn)在有一些已經(jīng)落地，有一些還在探索當(dāng)中。明年把基礎(chǔ)能力做得更好，也會(huì)形成新的AI應(yīng)用。

如今，互聯(lián)網(wǎng)科技巨頭大力推多模態(tài)大模型，而且算力和算法等也是這些巨頭的優(yōu)勢(shì)。那么，相對(duì)于巨頭以及先崛起的AI六小龍，目前正待崛起的小的模型企業(yè)，他們的機(jī)會(huì)在哪？

林詠華認(rèn)為，多模態(tài)模型有不同的訓(xùn)練方法，如果用VLM的做法，通過(guò)語(yǔ)言塔加視覺(jué)塔為基礎(chǔ)進(jìn)行訓(xùn)練，不需要完全從頭開始。此外，多模態(tài)模型上可以有不同的創(chuàng)新，比如，不同模態(tài)的連接方式、預(yù)處理、后處理、微調(diào)學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等，是那些資金不強(qiáng)但是創(chuàng)新能力足夠強(qiáng)的團(tuán)隊(duì)可以做的事情。

此外，林詠華還表示，互聯(lián)網(wǎng)大廠在模型的技術(shù)能力上有兩方面的優(yōu)勢(shì)。

“首先，語(yǔ)言模型需要更多的用戶使用，才能起到數(shù)據(jù)飛輪的作用，互聯(lián)網(wǎng)大廠有很強(qiáng)的流量?jī)?yōu)勢(shì)，對(duì)比流量小的模型廠商有天然的優(yōu)勢(shì)；其次，在文生圖、文生視頻方面，像字節(jié)、快手的優(yōu)勢(shì)在于數(shù)據(jù)，其本身有短視頻平臺(tái)，積累了相關(guān)的高質(zhì)量數(shù)據(jù)，會(huì)比其他的非互聯(lián)網(wǎng)廠商有明顯的優(yōu)勢(shì)?！?/p>

閱152.79W

我要評(píng)論

反饋意見(jiàn)