伊人久久大香线蕉成人综合网,色狠狠久久AV北条麻妃,色吧导航

首頁家居家電手機(jī)數(shù)碼 IT互聯(lián)網(wǎng)電商零售汽車出行游戲娛樂半導(dǎo)體新基建酷品評(píng)測(cè)

4小時(shí)前

來源：丁科技網(wǎng)??

近日，快手正式發(fā)布多模態(tài)大語言模型Keye-VL-1.5-8B。與之前的版本相比，Keye-VL-1.5的綜合性能實(shí)現(xiàn)顯著提升，尤其在基礎(chǔ)視覺理解能力方面，包括視覺元素識(shí)別、推理能力以及對(duì)時(shí)序信息的理—表現(xiàn)尤為突出。Keye-VL-1.5在同等規(guī)模的模型中表現(xiàn)出色，甚至超越了一些閉源模型如GPT-4o。

創(chuàng)新性提出慢快編碼策略兼顧性能與成本

為了在短視頻理解任務(wù)中同時(shí)實(shí)現(xiàn)高準(zhǔn)確性與高效率。Keye-VL-1.5 創(chuàng)新性地提出了慢快編碼策略 (slow-fast)，該策略設(shè)置慢通路處理快速變化幀（低幀數(shù)-高分辨率），快通路處理靜態(tài)幀（高幀數(shù)-低分辨率），從而在節(jié)省計(jì)算資源的同時(shí)保留關(guān)鍵信息。

漸進(jìn)式四階段預(yù)訓(xùn)練方法大幅增強(qiáng)視頻理解能力

Keye-VL-1.5采用四階段漸進(jìn)式訓(xùn)練流水線，以系統(tǒng)化方式提升模型性能。首先，在視覺編碼器預(yù)訓(xùn)練階段，使用SigLIP-400M權(quán)重初始化ViT，并通過SigLIP對(duì)比損失持續(xù)預(yù)訓(xùn)練以適應(yīng)內(nèi)部數(shù)據(jù)分布。第一階段重點(diǎn)優(yōu)化投影MLP層，實(shí)現(xiàn)跨模態(tài)特征的穩(wěn)固對(duì)齊；第二階段解凍全部參數(shù)進(jìn)行端到端多任務(wù)預(yù)訓(xùn)練，顯著增強(qiáng)基礎(chǔ)視覺理解能力；第三階段進(jìn)行退火訓(xùn)練，利用高質(zhì)量數(shù)據(jù)微調(diào)模型，彌補(bǔ)上一階段中高質(zhì)量樣本接觸不足的問題，同時(shí)將序列長度擴(kuò)展至128K、調(diào)整RoPE逆頻率配置，并引入長視頻、長文本和大尺度圖像等長上下文數(shù)據(jù)。

最終，通過同質(zhì)-異質(zhì)融合技術(shù)對(duì)不同數(shù)據(jù)混合比例下的模型權(quán)重進(jìn)行平均，減少固定數(shù)據(jù)比例帶來的內(nèi)在偏差，在保持多樣化能力的同時(shí)提升模型的魯棒性。

構(gòu)建一套完整的后訓(xùn)練流程全面提升推理能力與人類偏好對(duì)齊

Keye-VL-1.5構(gòu)建了一套系統(tǒng)化的后訓(xùn)練流程，包含四個(gè)核心階段：監(jiān)督微調(diào)與多偏好優(yōu)化、長鏈思維冷啟動(dòng)、迭代通用強(qiáng)化學(xué)習(xí)以及對(duì)齊強(qiáng)化學(xué)習(xí)。該流程進(jìn)一步融合了由快手Keye團(tuán)隊(duì)提出的五步自動(dòng)化數(shù)據(jù)構(gòu)建流水線，并依托GSPO算法對(duì)通用強(qiáng)化學(xué)習(xí)與對(duì)齊階段進(jìn)行迭代優(yōu)化，顯著增強(qiáng)了模型的推理能力，同時(shí)更好地與人類偏好實(shí)現(xiàn)對(duì)齊。

在多項(xiàng)權(quán)威評(píng)測(cè)中，Keye-VL-1.5-8B表現(xiàn)突出，在MMMUval、OpenCompass等大型多模態(tài)評(píng)測(cè)中達(dá)到同類規(guī)模最佳成績，在Video-MMMU視頻理解評(píng)測(cè)中取得66分，展現(xiàn)出領(lǐng)先的視頻語義理解與技術(shù)落地潛力。

此外，Keye-VL-1.5-8B目前已在Hugging Face、GitHub等平臺(tái)開源，相關(guān)技術(shù)報(bào)告同步發(fā)布，推動(dòng)多模態(tài)大模型技術(shù)共享與生態(tài)共建。

快手Keye團(tuán)隊(duì)表示，該模型依托快手在短視頻領(lǐng)域的深厚積累，在視頻時(shí)序理解、場(chǎng)景推理與指令跟隨等關(guān)鍵能力方面優(yōu)勢(shì)顯著。未來，Keye-VL將持續(xù)推進(jìn)多模態(tài)大模型在視頻語義理解與生成領(lǐng)域的探索與應(yīng)用。

項(xiàng)目主頁與技術(shù)報(bào)告：https://arxiv.org/pdf/2509.01563

Github：https://github.com/Kwai-Keye/Keye

Model：https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B

原創(chuàng)文章

IFA、RE+雙展亮劍全球：華寶新能重構(gòu)“從戶外到戶用”綠電生態(tài)

萬和電氣上半年業(yè)務(wù)結(jié)構(gòu)生變：廚電扛大旗，生活熱水承壓前行

從利物浦巴薩到世界杯，中國家電巨頭為何勢(shì)要拿下“球場(chǎng)”？

奧克斯空調(diào)銷量全球第五，靠譜嗎？

IFA2025觀察：RGB-Mini LED再出爆款新品，海信以“代際優(yōu)勢(shì)”全球領(lǐng)跑

用無廣告強(qiáng)勢(shì)殺入電視圈，追覓的決心和技術(shù)到底有多強(qiáng)？

IFA展觀察：熊貓、冰雪與綠色科技，長虹另辟蹊徑闖世界

容聲三度“踢入”世界杯：一場(chǎng)“主動(dòng)進(jìn)攻”的養(yǎng)鮮革命