亚洲欧洲中文日韩a乱码,大学生高潮无套内谢视频,国产精品成人网,国产精品久久久久久人婷婷

中文
中文 英文
我們能為您做些什么?
新開普AI事業(yè)部研究成果入選CVPR 2026:在多模態(tài)大模型方向取得新進展
發(fā)布日期:2026-04-24

近日,新開普AI事業(yè)部研究成果《GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding》被CVPR 2026接收。該研究圍繞視頻大模型中的細粒度時序理解問題展開,提出了一種由文本問題引導的視覺token采樣方法,為視頻內(nèi)容理解和關鍵事件定位提供了新的技術思路。

11.png

CVPR是什么?

CVPR(全稱為IEEE/CVF Conference on Computer Vision and Pattern Recognition)是計算機視覺與模式識別領域具有重要影響力的國際會議。CVPR官方將其定義為該領域的年度旗艦會議,中國計算機學會(CCF)也將其列為人工智能領域A類會議,具有較高學術認可度和行業(yè)影響力。

此次論文入選CVPR 2026,體現(xiàn)了新開普在多模態(tài)智能、視頻內(nèi)容理解等方向的持續(xù)投入與技術積累,也展現(xiàn)了團隊堅持“前沿技術研究+產(chǎn)業(yè)應用落地”雙輪驅動的戰(zhàn)略成果。

論文聚焦: 視頻大模型,為什么還不夠“會看”?

當前的多模態(tài)大模型雖具備基礎視頻理解能力,但在某些需要“精準抓取”的任務中——比如“根據(jù)一句話,準確找出這件事發(fā)生在視頻的哪一段時間”,表現(xiàn)仍不盡如人意。這類任務在學界通常被稱為Video Temporal Grounding(視頻時序定位)。

問題的關鍵在于,現(xiàn)有視頻大模型大多采用均勻采樣的方式處理視頻內(nèi)容,不論哪些片段更重要,模型都會平均分配注意力。這樣做雖然簡單,但當真正關鍵的動作只發(fā)生在少數(shù)瞬間時,模型就可能錯過重要線索;而當輸入中包含大量無關畫面時,又容易受到干擾,影響判斷精度。如何讓模型學會“有的放矢”,聚焦真正有用的畫面?正是本次論文研究的出發(fā)點。

20.png

核心創(chuàng)新: GroundVTS 讓模型圍繞問題,聚焦關鍵片段

針對上述問題,新開普AI事業(yè)部提出GroundVTS架構:不再讓模型死板地均勻采樣,而是根據(jù)用戶的提問來動態(tài)篩選視頻信息。

GroundVTS是如何做到的?

GroundVTS的核心是Visual Token Sampling(VTS)模塊。它會先評估視頻中不同視覺tokens與文本問題之間的相關性,再選擇性保留高價值信息,形成更貼合時序理解需求的非均勻采樣方式。與此同時,論文還設計了三階段漸進式優(yōu)化策略,使這種新的采樣機制,穩(wěn)定適配現(xiàn)有視頻大模型。

這不僅是為了壓縮輸入或減少計算,更重要的是讓模型學會:面對一個具體問題時,應該重點看哪里、忽略哪里。

25.png

實驗結果: 多項任務表現(xiàn)領先,效率與精度兼得

整體來看,GroundVTS在Charades-STA、ActivityNet-Captions、QVHighlights等主流數(shù)據(jù)集上均取得了領先表現(xiàn)。在時刻檢索(Moment Retrieval)和高光檢測(Highlight Detection)兩項關鍵任務上,超越同量級基礎模型(如Qwen2.5VL-7B、InternVL3.5-8B)10個點以上,部分指標提升達數(shù)十點;相比現(xiàn)有代表性方法,最高實現(xiàn) mIoU提升7.7 個點,mAP提升 12.0 個點,充分驗證了其在細粒度視頻內(nèi)容理解上的有效性和競爭力。

新開普AI事業(yè)部研究成果入選CVPR 2026:在多模態(tài)大模型方向取得新進展(圖4)

除了更高的精度,GroundVTS 在更低的視覺 token 預算下依然保持較強性能與穩(wěn)定性。在僅使用一半視覺token預算的情況下,GroundVTS 的表現(xiàn)依然超過了均勻采樣基線在滿預算下的結果;即使在更激進的壓縮設置下,優(yōu)勢仍然顯著。這表明GroundVTS不僅提升了定位準確率,也大幅增強了視頻信息的利用效率。這意味著:看得更準,同時看得更精。

29.png

落地展望: 賦能智慧校園與行業(yè)應用

新開普始終致力于前沿AI技術與真實場景需求的深度融合,GroundVTS所代表的細粒度視頻理解能力,在智慧校園及更多行業(yè)應用場景中具有廣闊應用前景,讓技術真正看得見、用得上:

校園安全場景:快速定位監(jiān)控視頻中的特定異常事件,提升事件檢索與應急響應效率。

教學資源檢索:幫助師生從海量教學視頻中,精準定位知識點講解片段。

實訓教學場景:在技能實訓中,精準定位操作錯誤時刻、提取關鍵操作片段,助力實訓過程復盤與評估,讓教學更具針對性,提升學習效果。

此次研究成果入選CVPR 2026,既是新開普AI事業(yè)部在多模態(tài)視頻理解方向上的研究積累,也為相關能力在教育及更多行業(yè)場景中的規(guī)模化落地進一步夯實了技術基礎。

從頂會論文成果發(fā)表,到核心技術突破創(chuàng)新,再到千行百業(yè)場景落地探索,新開普AI事業(yè)部始終聚焦大模型、智能體、多模態(tài)理解與生成等關鍵方向持續(xù)深化探索,加速前沿技術與行業(yè)應用場景的深度耦合,讓AI能力更懂場景,切實服務于教育數(shù)字化與行業(yè)智能化的升級進程。

歡迎持續(xù)關注新開普AI事業(yè)部的最新進展,與我們共同見證技術賦能未來的每一步。

關于新開普AI事業(yè)部: 作為公司推進AI技術創(chuàng)新、產(chǎn)品建設與場景落地的核心引擎,新開普AI事業(yè)部緊密圍繞智慧校園與行業(yè)數(shù)字化核心需求,持續(xù)推動前沿技術與業(yè)務場景的融合發(fā)展。

一方面,聚焦多模態(tài)大模型、自然語言處理、計算機視覺、智能體協(xié)同等關鍵技術方向,筑牢核心技術底座;另一方面,面向校園管理、服務與教學等核心場景,打造校園AI助手、AI 中臺、數(shù)據(jù)智能體、智能教學裝備與智能終端等產(chǎn)品建設和落地應用,推動AI能力從技術研究向可用、可交付、可持續(xù)運營的產(chǎn)品體系全面邁進。

關注我們
4006-300248
?2022 新開普電子股份有限公司    豫ICP備08102576號-4     豫公網(wǎng)安備41019702003404號
聯(lián)系我們
在線咨詢

服務時間:9:00-18:00(工作日)

人工在線咨詢,便捷、高效、即時

人工在線咨詢
電話咨詢

服務時間:9:00-18:00(工作日)

若遇線路繁忙,請選擇在線咨詢或項目咨詢

4006-300248 全國辦事處銷售電話
湘潭市| 盐津县| 北票市| 增城市| 广南县| 呼图壁县| 新竹县| 凤凰县| 苏尼特左旗| 泰来县| 米脂县| 黄石市| 迁安市| 彭泽县| 卢氏县| 茶陵县| 盐源县| 天水市| 维西| 溧水县| 乾安县| 东乌珠穆沁旗| 上杭县| 井陉县| 白城市| 井研县| 岫岩| 巴南区| 大余县| 琼结县| 穆棱市| 轮台县| 平和县| 英德市| 疏附县| 白城市| 长寿区| 廉江市| 彝良县| 平原县| 邹平县|