1.一种处于自然教学环境的课堂中学生学习状态实时分析方法,其特征在于,包括如下步骤: 步骤1,对输入的视频进行分帧处理,将视频流中的每帧转换为静态图像; 步骤2,利用dlib人脸检测算法对传入的静态图像进行人脸粗检,获得人脸坐标数据集合,记人脸坐标为[face_xmin,face_ymin,face_xmax,face_ymax],并依此获得学生静态位置坐标数据集合,记学生静态位置坐标为[body_xmin,body_ymin,body_xmax,body_ymax,frame,hit],其中,frame为当前视频帧数,代表该学生静态位置坐标出现的帧数,hit值代表当前帧的单个学生静态位置区域内有无人脸,初始化hit值为0; 步骤3,分别根据学生静态位置坐标数据集合和人脸坐标数据集合计算学生静态位置区域和人脸区域,并对学生静态位置区域和人脸区域进行计算,得出重叠部分,根据重叠部分判断该学生静态位置坐标是否有人脸出现,如果有人脸出现则将hit值更新为1; 步骤4,根据人脸坐标数据集合中的历史人脸坐标逐一计算历史人脸区域,并计算人脸区域与历史人脸区域之间的重叠部分,根据重叠部分判断同一位置区域出现的人脸是否为同一个人,如果是同一人,则将hit值设为2; 步骤5,通过hit值判断是否进行人脸精检,hit值为非0值时,直接进入步骤6;hit值为0时,则通过四个级联的卷积神经网络实现人脸精检; 步骤6,针对每一帧图像,删除学生静态坐标位置数据集合中任意相邻两个学生静态位置的重叠区域超过位置重合阈值的坐标数据,即删除掉先出现的学生静态位置坐标,并将所有的学生静态位置坐标hit初始化为0,从而对学生静态位置坐标数据集合和学生人脸坐标数据集合进行更新维护; 步骤7,逐一读取当前帧精经过双层检测获得的人脸坐标,通过人脸坐标数据集合,剪辑得到人脸图像,将人脸图像传入训练完成的表情卷积神经网络模型中进行人脸表情识别,得到学生表情分类,并存储在人脸面部表情集合中; 步骤8,通过人脸坐标计算得出学生头部姿态,并存储在学生头部姿态集合中; 步骤9,根据步骤7和步骤8收集到的学生表情和头部姿态进行多模态特征融合分析,得出学生在课堂中的学习状态。 2.如权利要求1所述的一种处于自然教学环境的课堂中学生学习状态实时分析方法,其特征在于:步骤2的具体实现方式如下, 首先将RGB模式的静态图像进行灰度化处理,使用公式f(x)=xγ进行伽马校正,其中输出是输入的幂函数,指数为γ;然后利用dlib人脸检测算法计算得到人脸矩形框,将人脸矩形框转换为数组形式的人脸坐标[face_xmin,face_ymin,face_xmax,face_ymax],并将检测到的所有人脸坐标进行逐帧存储,得到人脸坐标数据集合;人脸坐标[face_xmin,face_ymin,face_xmax,face_ymax]中的face_xmin代表人脸在静态图像中的左上角横坐标、face_ymin代表人脸在静态图像中的左上角的纵坐标、face_xmax代表人脸在静态图像中的右下角横坐标、face_ymax代表人脸在静态图像中的右下角的纵坐标; 学生静态位置坐标通过在人脸坐标的基础上进行处理获得,假设学生静态位置坐标为[body_xmin,body_ymin,body_xmax,body_ymax,frame,hit],具体计算过程如下: 设w=face_xmax-face_xmin表示人脸粗检检测得到的人脸的宽,h=face_yamx-face_ymin表示人脸粗检检测得到的人脸的高; 则有:body_xmin=face_xmin-w//2,代表学生静态位置在静态图像中的左上角横坐标; body_ymin=face_ymin-h//2,代表学生静态位置在静态图像中的左上角纵坐标; body_xmax=face_xmax+w//2,代表学生静态位置在静态图像中的右下角横坐标; body_ymax=face_ymax+h//2,代表学生静态位置在静态图像中的右下角纵坐标; 其中,//表示整除,frame为当前视频帧数,代表该学生静态位置坐标出现的帧数,hit值代表当前帧的单个学生静态位置区域内有无人脸,初始化hit值为0。 3.如权利要求1所述的一种处于自然教学环境的课堂中学生学习状态实时分析方法,其特征在于:步骤3的具体实现方式如下, 设人脸坐标为[face_xmin,face_ymin,face_xmax,face_ymax],学生静态位置坐标为[body_xmin,body_ymin,body_xmax,body_ymax,frame,hit],通过计算 xA=max(face_xmin,body_xmin)求得两个区域左上角横坐标的最大值, yA=max(face_ymin,body_ymin)求得两个区域左上角纵坐标的最大值, xB=min(face_xmax,body_xmax)求得两个区域右下角横坐标的最小值, yB=min(face_ymax,body_max)求得两个区域右下角纵坐标的最小值; 然后计算两个区域的交集: interArea=(xB-xA+1)*(yB-yA+1); 最后计算人脸区域所占的面积: faceAera=(face_xmax-face_xmin+1)*(face_ymax-face_ymin+1); 如果通过计算得到学生的人脸区域与两个区域重叠部分的比值大于等于人脸归属阈值1.0,即interArea/faceArea大于等于人脸归属阈值1.0,则认为该学生静态位置内有学生人脸,并将该学生静态位置坐标中的hit值修改为1,然后重新进行下一个人脸坐标的计算。 4.如权利要求1所述的一种处于自然教学环境的课堂中学生学习状态实时分析方法,其特征在于:步骤4的具体实现方式如下, 假设当前传进来的人脸坐标表示为[face_xmin,face_ymin,face_xmax,face_ymax],人脸坐标数据集合中的历史人脸坐标表示为:[historic_face_xmin,historic_face_ymin,historic_face_xmax,historic_face_ymax] 则人脸区域为faceAera=(face_xmax-face_xmin+1)*(face_ymax-face_ymin+1); 则历史人脸区域为historic_faceAera=(historic_face_xmax-historic_face_xmin+1)*(historic_face_ymax-historic_face_ymin+1); 人脸区域与历史人脸区域的交集为:interArea,两个人脸区域的并集为:allArea=faceAera+historic_faceAera-interArea; 如果两个人脸区域的并集为零,则认为两个区域并没有重叠,重叠部分为零;否则进行以下计算:IOU(Intersection over Union)=interArea/allArea,如果IOU值大于等于人脸重合阈值,则认为是同一学生人脸。 5.如权利要求1所述的一种处于自然教学环境的课堂中学生学习状态实时分析方法,其特征在于:步骤8的具体实现方式如下, 将从人脸粗检得到的人脸坐标转化为矩形框的坐标,通过dlib68特征点检测器得到68个人脸关键点,从中挑选出6个特征点,分别是左眼外眼角、右眼外眼角、鼻尖、左唇部唇角、右唇部唇角、下巴尖;通过通用的3D人脸模型得到了六个特征点在世界坐标中的3D坐标,通过旋转和平移矩阵,将世界坐标中的3D点变换为相机坐标中的3D点;接着使用相机的固有参数(焦距,光学中心等)将相机坐标中的3D点投影到图像平面(即图像坐标系)上,与识别的静态图像上的6个特征点的2D位置进行对比计算,得到人脸的欧拉角,将得到的欧拉角转换为pitch,yaw,roll值,即为学生头部姿态,其中pitch也就是Y轴对应的是低头或者是抬头,yaw也就是X轴对应的是左右转头,roll也就是Z轴对应的是左右倾斜角度。 6.如权利要求1所述的一种处于自然教学环境的课堂中学生学习状态实时分析方法,其特征在于:步骤9的具体实现方式如下, 步骤7中人脸面部表情集合包括七个表情,分别是生气、沮丧、害怕、开心、悲伤、惊喜、中性,其中积极情绪有开心、惊喜,消极情绪有生气、沮丧、害怕、悲伤,中性则属于中性情绪;每种表情对于积极性的影响不同,根据消极情绪对积极性的影响作用用负值表示,将中性、生气、沮丧、悲伤、害怕用0,-1,-2,-3,-4表示程度;根据积极情绪对积极性的影响用正值表示,将惊喜、开心用1、2表示程度,那么将七种表情按照对学生积极性的影响程度降序排序:开心、惊喜、中性、生气、沮丧、悲伤、害怕,对应的表情影响值也就是2、1、0、-1、-2、-3、-4; 步骤8中学生头部姿态为一个三维坐标[X,Y,Z],假设摄像头处在教室前方的正中间,所以将符合X轴方向的-45°—+45°,Y轴的0°到90°,Z轴的为-180°—180°的所有三维坐标认定为学生听讲角度;使用函数对学生听讲角度进行计算,那学生听讲值也就为0—135,学生不听讲值范围为0—-315; 将从人脸面部表情集合得到的表情影响值和从学生头部姿态集合得到的学生听讲值用二维矢量表示(表情影响值,学生听讲值),也就是向量其中x、y值都为正值的标记为学生认真听讲状态,积记性高,将x、y值都为负值的标记为学生非认真听讲状态,积极度低。 7.如权利要求1所述的一种处于自然教学环境的课堂中学生学习状态实时分析方法,其特征在于:步骤5中四个级联的卷积神经网络分别是Nnet,Ncalib,aNnet,aNcalib,其中N是指小尺寸,取值范围在8到12之间,aN是指大尺寸,其中a是N的倍数。