色欲av永久无码精品无码蜜桃,国产精品久久久久久爽爽,久久人人爽天天玩人人妻精品

智慧農(nóng)業(yè)

高效節(jié)水灌溉

農(nóng)業(yè)水價綜合改革

智慧大棚

智慧農(nóng)業(yè)

用水效率監(jiān)測

可視化農(nóng)業(yè)監(jiān)控

農(nóng)產(chǎn)品溯源

農(nóng)業(yè)氣象環(huán)境預警系統(tǒng)

農(nóng)業(yè)植保監(jiān)測系統(tǒng)

高標準農(nóng)田遙感監(jiān)管

新開普AI事業(yè)部研究成果入選CVPR 2026：在多模態(tài)大模型方向取得新進展

發(fā)布日期：2026-04-24

近日，新開普AI事業(yè)部研究成果《GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding》被CVPR 2026接收。該研究圍繞視頻大模型中的細粒度時序理解問題展開，提出了一種由文本問題引導的視覺token采樣方法，為視頻內(nèi)容理解和關鍵事件定位提供了新的技術思路。

CVPR是什么？

CVPR（全稱為IEEE/CVF Conference on Computer Vision and Pattern Recognition）是計算機視覺與模式識別領域具有重要影響力的國際會議。CVPR官方將其定義為該領域的年度旗艦會議，中國計算機學會（CCF）也將其列為人工智能領域A類會議，具有較高學術認可度和行業(yè)影響力。

此次論文入選CVPR 2026，體現(xiàn)了新開普在多模態(tài)智能、視頻內(nèi)容理解等方向的持續(xù)投入與技術積累，也展現(xiàn)了團隊堅持“前沿技術研究+產(chǎn)業(yè)應用落地”雙輪驅動的戰(zhàn)略成果。

論文聚焦: 視頻大模型，為什么還不夠“會看”？

當前的多模態(tài)大模型雖具備基礎視頻理解能力，但在某些需要“精準抓取”的任務中——比如“根據(jù)一句話，準確找出這件事發(fā)生在視頻的哪一段時間”，表現(xiàn)仍不盡如人意。這類任務在學界通常被稱為Video Temporal Grounding（視頻時序定位）。

問題的關鍵在于，現(xiàn)有視頻大模型大多采用均勻采樣的方式處理視頻內(nèi)容，不論哪些片段更重要，模型都會平均分配注意力。這樣做雖然簡單，但當真正關鍵的動作只發(fā)生在少數(shù)瞬間時，模型就可能錯過重要線索；而當輸入中包含大量無關畫面時，又容易受到干擾，影響判斷精度。如何讓模型學會“有的放矢”，聚焦真正有用的畫面？正是本次論文研究的出發(fā)點。

核心創(chuàng)新: GroundVTS 讓模型圍繞問題，聚焦關鍵片段

針對上述問題，新開普AI事業(yè)部提出GroundVTS架構：不再讓模型死板地均勻采樣，而是根據(jù)用戶的提問來動態(tài)篩選視頻信息。

GroundVTS是如何做到的？

GroundVTS的核心是Visual Token Sampling（VTS）模塊。它會先評估視頻中不同視覺tokens與文本問題之間的相關性，再選擇性保留高價值信息，形成更貼合時序理解需求的非均勻采樣方式。與此同時，論文還設計了三階段漸進式優(yōu)化策略，使這種新的采樣機制，穩(wěn)定適配現(xiàn)有視頻大模型。

這不僅是為了壓縮輸入或減少計算，更重要的是讓模型學會：面對一個具體問題時，應該重點看哪里、忽略哪里。

實驗結果: 多項任務表現(xiàn)領先，效率與精度兼得

整體來看，GroundVTS在Charades-STA、ActivityNet-Captions、QVHighlights等主流數(shù)據(jù)集上均取得了領先表現(xiàn)。在時刻檢索（Moment Retrieval）和高光檢測（Highlight Detection）兩項關鍵任務上，超越同量級基礎模型（如Qwen2.5VL-7B、InternVL3.5-8B）10個點以上，部分指標提升達數(shù)十點；相比現(xiàn)有代表性方法，最高實現(xiàn) mIoU提升7.7 個點，mAP提升 12.0 個點，充分驗證了其在細粒度視頻內(nèi)容理解上的有效性和競爭力。

新開普AI事業(yè)部研究成果入選CVPR 2026：在多模態(tài)大模型方向取得新進展(圖4)

除了更高的精度，GroundVTS 在更低的視覺 token 預算下依然保持較強性能與穩(wěn)定性。在僅使用一半視覺token預算的情況下，GroundVTS 的表現(xiàn)依然超過了均勻采樣基線在滿預算下的結果；即使在更激進的壓縮設置下，優(yōu)勢仍然顯著。這表明GroundVTS不僅提升了定位準確率，也大幅增強了視頻信息的利用效率。這意味著：看得更準，同時看得更精。

落地展望: 賦能智慧校園與行業(yè)應用

新開普始終致力于前沿AI技術與真實場景需求的深度融合，GroundVTS所代表的細粒度視頻理解能力，在智慧校園及更多行業(yè)應用場景中具有廣闊應用前景，讓技術真正看得見、用得上：

校園安全場景：快速定位監(jiān)控視頻中的特定異常事件，提升事件檢索與應急響應效率。

教學資源檢索：幫助師生從海量教學視頻中，精準定位知識點講解片段。

實訓教學場景：在技能實訓中，精準定位操作錯誤時刻、提取關鍵操作片段，助力實訓過程復盤與評估，讓教學更具針對性，提升學習效果。

此次研究成果入選CVPR 2026，既是新開普AI事業(yè)部在多模態(tài)視頻理解方向上的研究積累，也為相關能力在教育及更多行業(yè)場景中的規(guī)模化落地進一步夯實了技術基礎。

從頂會論文成果發(fā)表，到核心技術突破創(chuàng)新，再到千行百業(yè)場景落地探索，新開普AI事業(yè)部始終聚焦大模型、智能體、多模態(tài)理解與生成等關鍵方向持續(xù)深化探索，加速前沿技術與行業(yè)應用場景的深度耦合，讓AI能力更懂場景，切實服務于教育數(shù)字化與行業(yè)智能化的升級進程。

歡迎持續(xù)關注新開普AI事業(yè)部的最新進展，與我們共同見證技術賦能未來的每一步。

關于新開普AI事業(yè)部: 作為公司推進AI技術創(chuàng)新、產(chǎn)品建設與場景落地的核心引擎，新開普AI事業(yè)部緊密圍繞智慧校園與行業(yè)數(shù)字化核心需求，持續(xù)推動前沿技術與業(yè)務場景的融合發(fā)展。

一方面，聚焦多模態(tài)大模型、自然語言處理、計算機視覺、智能體協(xié)同等關鍵技術方向，筑牢核心技術底座；另一方面，面向校園管理、服務與教學等核心場景，打造校園AI助手、AI 中臺、數(shù)據(jù)智能體、智能教學裝備與智能終端等產(chǎn)品建設和落地應用，推動AI能力從技術研究向可用、可交付、可持續(xù)運營的產(chǎn)品體系全面邁進。

上一篇 : 喜報！新開普成功入選鄭州市農(nóng)業(yè)產(chǎn)業(yè)化重點龍頭企業(yè)

下一篇 : 新開普基于星普大模型為高校打造的AI助手斬獲多省市重磅獎項

亚洲欧洲中文日韩a乱码,大学生高潮无套内谢视频,国产精品成人网,国产精品久久久久久人婷婷

高校

中等職業(yè)學校

K12

完美校園

教育行業(yè)云

教務教學

教育科技

智慧企業(yè)一卡通

智慧公交一卡通

云服務

行業(yè)解決方案

智慧燃氣

智慧農(nóng)業(yè)

智慧水利

智慧水務

熱門搜索