本发明提供基于多尺度差分的联合时刻检索与高光检测方法及系统,其技术要点在于:输入视频和文本数据,提取视觉和文本特征;进行片段‑文本特征语义跨模态对齐;使用跨注意力机制来突出表达和文本查询相关的视频片段;使用差分信息感知来挖掘相邻片段之间的差分信息,采用多尺度卷积和图卷积网络来挖掘片段之间的多尺度关系,得到多尺度差分感知的联合表征;分别使用时刻检索和高光检测的任务头来预测最终结果,并计算各自的惩罚函数,进行反向传播优化整个网络的参数,待网络整体参数全部收敛之后,将最终的高光片段和检索时刻输出。本发明主要缓解了现有方法没有考虑到不同用户查询对应的时...