nav emailalert searchbtn searchbox tablepage yinyongbenwen piczone journalimg journalInfo journalinfonormal searchdiv searchzone qikanlogo popupnotification paper paperNew
2026, 02, v.41 54-61
基于嵌入位置编码增强注意力机制的AI动画关键帧摘要提取方法
基金项目(Foundation): 2020年安徽省人文社科研究一般项目(SK2020B006); 2023年安徽省高校哲学社会科学研究重点项目(2023AH052653); 安徽工商职业学院国家级项目孵化后续资助计划项目(SK2025XZ003)
邮箱(Email):
DOI:
发布时间: 2026-05-15
出版时间: 2026-05-15
移动端阅读
摘要:

针对现有视频摘要提取方法存在的动作断裂、语义缺失等问题,研究提出了一种基于嵌入位置编码增强注意力机制的人工智能(artificial intelligence,AI)动画关键帧摘要提取方法.该方法通过GoogLeNet构建多模态特征提取体系,利用嵌入位置编码增强注意力机制提取长视频特征,结合多尺度Anchor机制和核时态分割实现镜头语义划分.通过非极大抑制与0/1背包算法优化关键镜头筛选.结果显示,在TVSum-Anime Extension和AnimeKeyFrames数据集上,该模型的精确率分别达97.84%和95.12%,F1分数为95.68%和90.12%,明显优于其余对比模型,表明研究提出的AI动画关键帧摘要提取方法有效,提升了关键帧提取的准确性与叙事连贯性,推动了动画产业向智能化生产方向发展.

Abstract:

Aiming at the problems of action breakage and semantic loss in existing video summarization methods, a method for extracting keyframe summaries of artificial intelligence(AI)animations based on embedded position encoding enhanced attention mechanism is proposed. This method constructs a multimodal feature extraction system using Goog Le Net, utilizes embedded position encoding to enhance attention mechanism to extract long video features, and combines multi-scale Anchor mechanism and kernel temporal segmentation to achieve shot semantic segmentation. Optimize key shot screening through nonmaximum suppression and 0/1 knapsack algorithm. The results showed that on the TVSum-Anime Extension and AnimeKeyFrames datasets, the accuracy of the model reached97.84% and 95.12%, respectively, with F1 scores of 95.68% and 90.12%, significantly better than other compared models. This indicates that the AI animation keyframe extraction method proposed in the study effectively improves the accuracy and narrative coherence of keyframe extraction, and promotes the development of the animation industry towards intelligent production.

参考文献

[1]张喻恩,李泽平.基于多尺度混合注意力机制的视频摘要算法[J].计算机工程与设计,2023,44(11):3305-3311.

[2]闫河,刘灵坤,黄俊滨,等.结合多尺度注意力机制和双向门控循环网络的视频摘要模型[J].智能系统学报,2024,19(2):446-454.

[3]曾凡锋,王春真,李琛.基于深浅层特征融合的无监督视频摘要算法研究[J].计算机工程与科学,2023,45(9):1602-1610.

[4]张晨,王圣焘,武光利.基于递归长短期记忆网络和镜头序列注意网络的视频摘要生成[J].科学技术与工程,2023,23(18):7852-7860.

[5]白晨,范涛,王文静,等.融合多模态特征与时区检测的视频摘要算法[J].计算机应用研究,2023,40(11):3276-3281+3288.

[6]SCHIAPPA M C,RAWAT Y S,SHAH M. Self-supervised learning for videos:A survey[J]. ACM Computing Surveys,2023,55(13):1-37.

[7]全安坤,李红莲,张乐,等.融合内容和图片特征的中文摘要生成方法研究[J].数据分析与知识发现,2024,8(3):110-119.

[8]FERAY S,LUBACH J,JOSHI G P,et al. PROSPECT guidelines for video-assisted thoracoscopic surgery:a systematic review and procedure-specific postoperative pain management recommendations[J].Anaesthesia,2022,77(3):311-325.

[9]于俊清,王鑫,况琨,等.跨媒体智能关联分析与语义理解理论与技术研究进展[J].计算机辅助设计与图形学学报,2023,35(1):1-22.

[10]崔晓丹,刘达维,刘逸凡,等.新闻类短视频关键帧摘要模型的研究与实现[J].计算机工程,2023,49(8):182-189.

基本信息:

中图分类号:TP391.41;TP18

引用信息:

[1]卢明慧,范骏.基于嵌入位置编码增强注意力机制的AI动画关键帧摘要提取方法[J].汕头大学学报(自然科学版),2026,41(02):54-61.

基金信息:

2020年安徽省人文社科研究一般项目(SK2020B006); 2023年安徽省高校哲学社会科学研究重点项目(2023AH052653); 安徽工商职业学院国家级项目孵化后续资助计划项目(SK2025XZ003)

发布时间:

2026-05-15

出版时间:

2026-05-15

检 索 高级检索

引用

GB/T 7714-2015 格式引文
MLA格式引文
APA格式引文