版权说明 操作指南
首页 > 成果 > 详情

一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法

认领
导出
反馈
分享
QQ微信 微博
成果类型:
专利
发明/设计人:
蒋兴鹏(蒋兴鹏);马英钧;吴倩
申请/专利权人:
华中师范大学
专利类型:
发明专利
语种:
中文
申请时间:
2019-07-23
申请/专利号:
CN201910664021.6
公开时间:
2019-11-22
公开号:
CN110491443A
主申请人地址:
430079 湖北省武汉市洪山区珞瑜路152号
申请地区:
湖北
机构署名:
本校为第一完成单位
主权项:
1.一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法,其特征在于,包括: 步骤S1:获取已知的lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质DO功能注释以及lncRNA和蛋白质的关联矩阵; 步骤S2:根据已知的lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质DO功能注释以及lncRNA和蛋白质的关联矩阵,计算多种lncRNA特征矩阵、蛋白质特征矩阵、lncRNA相似矩阵和蛋白质相似矩阵,并对已知的lncRNA和蛋白质的关联矩阵进行补全,其中,lncRNA特征矩阵用以表示lncRNA的特征,蛋白质特征矩阵用以表示蛋白质的特征,lncRNA相似矩阵用以表示lncRNA的相似性,蛋白质相似矩阵用以表示蛋白质的相似性; 步骤S3:将多种lncRNA相似矩阵进行融合,获得融合后的lncRNA相似矩阵,将多种蛋白质相似矩阵进行融合,获得融合后的蛋白质相似矩阵; 步骤S4:分别计算融合后的lncRNA相似矩阵的第一邻域相似矩阵以及融合后的蛋白质相似矩阵的第二邻域相似矩阵,其中,第一邻域相似矩阵用以表示符合预设条件的lncRNA的相似性,第二邻域相似矩阵用以表示符合预设条件的蛋白质的相似性; 步骤S5:结合补全后的lncRNA和蛋白质的关联矩阵、多种lncRNA特征矩阵、多种蛋白质特征矩阵、第一邻域相似矩阵以及第二邻域相似矩阵,利用特征投影的邻域非负矩阵分解算法来计算获得lncRNA的第一潜在子空间特征矩阵和蛋白质的第二潜在子空间特征矩阵; 步骤S6:基于第一潜在子空间特征矩阵和第二潜在子空间特征矩阵,计算lncRNA和蛋白质的关联性。 2.如权利要求1所述的方法,其特征在于,步骤S2中对已知的lncRNA和蛋白质的关联矩阵进行补全,具体包括: 步骤S2.1:对已知的lncRNA蛋白质的关联矩阵按照行分解,利用lncRNA相似矩阵对按行分解后的矩阵进行补全; 步骤S2.2:对已知的lncRNA蛋白质的关联矩阵按照列分解,利用蛋白质相似矩阵对按列分解后的矩阵进行补全; 步骤S2.3:对步骤S2.1中补全后的矩阵和步骤S2.2中补全后的矩阵求平均值,得到补全后的lncRNA和蛋白质的关联矩阵。 3.如权利要求1所述的方法,其特征在于,步骤S3具体包括: 步骤S3.1:利用公式(1)计算不同相似矩阵的稳定状态SBc: 式(1)中,ND表示lncRNA或者蛋白质的个数,α=0.5为权重系数,eye(ND×ND)表示单位矩阵; 步骤S3.2:对所有稳定状态按列合并得到SC=[SB1,SB2,...,SBM]; 步骤S3.3:对SC所有元素进行对数变化可以得到SD=log(SC); 步骤S3.4:对LSC进行奇异值分解可以得到SD=DX×∑×DY,其中,LSC表示对数变化后的矩阵,特征向量矩阵N表示lncRNA和蛋自质的个数,T表示转置; 步骤S3.5:根据公式(1)和奇异值分解后的结果,得到融合后的lncRNA相似矩阵或者融合后的蛋白质相似矩阵: 其中,|dxi|和|dxj|分别表示向量dxi和dxj的范数。 4.如权利要求1所述的方法,其特征在于,步骤S4中计算第一邻域相似矩阵和第二邻域相似矩阵的方式为: 其中,N(xi)表示与xi最邻近的K个邻居集合,表示向上取整。 5.如权利要求1所述的方法,其特征在于,步骤S5通过下述方式计算lncRNA的第一潜在子空间特征矩阵和蛋白质的第二潜在子空间特征矩阵: 其中,表示lncRNA的N1种特征,表示蛋白质的N2种特征,表示lncRNA的与对应的N1种投影矩阵,表示蛋白质与对应的N2种投影矩阵,为重要性水平分配矩阵,若当前lncRNA li和蛋白质pj间存在交互,Ci,j=δ,反之,Ci,j=1,其中δ>1是重要水平参数;和表示投影权重参数,η>1表示投影指数参数;为lncRNA的拉普拉斯矩阵;对角矩阵其对角线元素分别为为蛋白质的拉普拉斯矩阵;对角矩阵其对角线元素分别为tr(·)表示矩阵的迹,λ为邻域拉普拉斯正则化参数;μ是投影矩阵的正则化参数,||·||1,2表示矩阵的1,2范数,||·||F表示F范数,γ表示潜在子空间正则化参数。 6.如权利要求1所述的方法,其特征在于,在步骤S5之后,所述方法还包括:对第一潜在子空间特征矩阵和第二潜在子空间特征矩阵进行补全。 7.如权利要求6所述的方法,其特征在于,对第一潜在子空间特征矩阵U按照如下公式进行补全: 其中,A表示当前已知的lncRNA蛋白质关联矩阵,SL表示lncRNA相似矩阵,表示对于有蛋白质交互的lnRNA,其对应的潜在特征保持不变,N+(li)表示在有蛋白质交互的lncRNA集合中,选出K个与li相似度最高的lncRNA组成的集合, 对蛋白质的第二潜在子空间特征矩阵V按照如下公式进行补全: 其中,SP表示蛋白质相似矩阵。 8.如权利要求6所述的方法,其特征在于,步骤S6具体包括: 步骤S6.1:基于第一潜在子空间特征矩阵和第二潜在子空间特征矩阵,计算lncRNA和蛋白质的预测交互得分其中,表示补全后的第一潜在特征矩阵,表示补全后的第二潜在特征; 步骤S6.2:将预测交互得分进行降序排序,得到lncRNA和蛋白质的关联性排序。
摘要:
本发明公开了一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法,首先,根据lncRNA序列、lncRNA表达谱数据、蛋白质序列、蛋白质的GO功能注释数据以及lncRNA和蛋白质的交互网络,计算得到多种lncRNA特征、蛋白质特征、lncRNA相似矩阵和蛋白质相似矩阵。其次,将多种lncRNA相似网络进行融合得到整合的lncRNA相似网络,将多种蛋白质相似网络进行融合得到整合的蛋白质相似网络。最后,结合整合的lncRNA(蛋白质)相似网络和多种lncRNA(蛋白质)特征,提出了一种特征投影的邻域非负矩阵分解算法来预测lncRNA蛋白质的潜在交互。本发明不仅能准确的预测新的lncRNA蛋白质交互,同时还可以预测没有...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com