本发明公开了一种融入多模态视觉信息的学习意图监测方法及系统。该方法包括步骤:分别采集学习者的红外图像数据和可见光图像数据;分别对所述红外图像数据和所述可见光图像数据进行预处理;将预处理后的所述红外图像数据和所述可见光图像数据输入到人脸检测器;将人脸检测器的输出数据输入到图像融合模型;将所述图像融合模块的输出数据输入到头部姿态识别模型,获取头部姿态识别数据,根据所述头部姿态识别数据判断学习者的学习意图。本发明可以实现不同模态的信息互补,提高光照变化或复杂背景下的头部姿态识别精准度,从而提高学习意图判断精准度。