當前位置:首頁 > 科技文檔 > 軟件 > 正文

基于雙Transformer結構的多模態(tài)視頻段落描述生成研究

計算機工程與應用 頁數(shù): 10 2024-10-17
摘要: 針對現(xiàn)有視頻段落描述方法對視頻中主要事件的關注度不足與多事件描述之間缺乏連貫性的問題,在現(xiàn)有編碼器-解碼器框架的基礎上,提出了一種基于雙Transformer結構的多模態(tài)視頻段落描述模型。采用Faster-RCNN對視頻中心幀目標進行細粒度特征提取,由混合注意力結合全局視覺特征選擇最具代表性的細粒度局部視覺特征,對視頻中主要事件信息進行補充與增強,提高視頻內容描述的準確性;提出... (共10頁)

開通會員,享受整站包年服務
說明: 本文檔由創(chuàng)作者上傳發(fā)布,版權歸屬創(chuàng)作者。若內容存在侵權,請點擊申訴舉報