当前位置:网站首页>论文解读:《i4mC-Deep: 利用具有化学特性的深度学习方法,对 N4-甲基胞嘧啶位点进行智能预测》
论文解读:《i4mC-Deep: 利用具有化学特性的深度学习方法,对 N4-甲基胞嘧啶位点进行智能预测》
2022-07-23 05:43:00 【风灬陌】
i4mC-Deep: An Intelligent Predictor of N4-Methylcytosine Sites Using a Deep Learning Approach with Chemical Properties
文章链接:https://www.mdpi.com/2073-4425/12/8/1117
DOI:https://doi.org/10.3390/genes12081117
期刊:Genes(三区)
影响因子:4.096
发布时间:2021年7月23日
服务器:http://nsclbio.jbnu.ac.kr/tools/i4mC-Deep/
补充文件: https://www.mdpi.com/article/10.3390/genes12081117/s1
代码和数据:https://github.com/waleed551/i4mC-Deep
1.文章概述
DNA受到N4-甲基胞嘧啶(4mC)分子的表观遗传修饰。N4-甲基胞嘧啶在DNA修复和复制中起重要作用,保护宿主DNA免受降解,调节DNA表达。目前的实验技术昂贵又费力。传统的基于机器学习的方法依赖于手工提取的特征,但是新方法通过利用学习特性而节省了时间和计算成本。在这项研究中,我们提出了i4mC-Deep,这是一个基于卷积神经网络(CNN)的智能预测器,可以预测DNA样本中的4mC修饰位点。提取DNN序列的核苷酸化学特性和核苷酸密度特征,作为CNN的输入数据。提出的方法的结果优于几个最先进的预测器。用i4mC-Deep方法分析地下黑麦草DNA,与传统预测相比,准确率(ACC)提高了3.9%,MCC提高了10.5% 。
2.背景
最近,一些计算工具已经被开发用于识别4mC位点,包括iDNA4mC,4mCPred,4mCPred-SVM和SOMM4mC。所有这些工具都是基于机器学习技术和手工制作的功能。iDNA4mC使用核苷酸化学特性和核苷酸频率作为特征向量结合支持向量机(SVM)来检测4mC位点。4mCPred和4mCPred-SVM也使用的是支持向量机,但有不同的特征表示,4mCPred利用两种特征编码技术,即位置特异性三核苷酸倾向(PSTNP)和三核苷酸的电子-离子相互作用;4mCPred-SVM将四种特征应用于4mC位点的组合预测,即K-mer 二核苷酸频率、单核苷酸二进制编码、二核苷酸二进制编码和局部位置特异性二核苷酸频率。SOMM4mC应用经典的一阶和二阶马尔可夫模型来预测4mC表观遗传修饰位点,并显示出比前面提到的其他工具更好的性能。此外,4mCCNN和DeepTorrent是基于深度学习的技术。4mCCNN采用One-hot编码的数据表示和卷积神经网络。DeepTorrent使用了四种带卷积和LSTM层的特征提取技术。以往的深度学习模型采用复杂结构,增加了参数和计算量。
在这项研究中,作者使用了一个卷积神经网络(CNN)来开发一个精确而有效的计算工具。CNN包括:卷积层(convolution)、批次归一化层(batch normalization)、扁平化层(Flatten)、丢失层(Dropout)和全连接层(Dense),卷积层用于自动提取编码的DNA序列中的重要特征。作者用核苷酸化学性质(NCP)和核苷酸密度(ND)方法编码输入的DNA序列,然后使用批次归一化和Dropout控制过拟合,最后利用全连接层将DNA序列分为4mC位点和非4mC位点。使用10倍交叉验证技术来评估 i4mC-Deep,i4mC-Deep的结果优于以前的工具。i4mC-Deep的架构如图1所示。作者还开发了一个免费的在线网络服务器。
2.数据
数据集在开发高效可靠的计算工具方面起着非常重要的作用。作者利用了6个不同种类的原核生物和真核生物、Caenorhabditis elegans, Drosophila melanogaster, Arabidopsis thaliana, Escherichia coli, Geoalkalibacter subterraneus, and Geobacter pickeringii.的数据。这些数据集是使用MethSMRT数据库构建的。基准数据集包括1554、1769、1978、388、906和569个阳性和阴性样本。六个数据集中的每个序列都有一个位于中心的胞嘧啶 ,长度为41碱基。
3.方法
3.1 特征编码
- 核苷酸化学性质 (nucleotide chemical properties,NCP)

- 核苷酸密度(nucleotide density,ND)
DNA序列中每个核苷酸的频率信息。
3.2 模型
参数选择范围:
最佳参数:卷积层为2,两层滤波器大小为8,两层的填充量为“same”,两层的内核大小为3,丢失概率为0.3。
应用 l2正则化和 dropout 正则化来避免网络的过拟合,使用学习率为0.001的Adam优化器,batch size最佳为32,设置的迭代次数(epochs)为200,可提前停止。
4.结果
4.1 与其他最先进方法比较



4.2 序列分析
t-SNE可视化:
电子突变分析中的热图:

突变对预测概率的影响:





5.Web服务器
链接:http://nsclbio.jbnu.ac.kr/tools/i4mC-Deep/

边栏推荐
猜你喜欢
随机推荐
生命科学领域下的医药研发通过什么技术?冷冻电镜?分子模拟?IND?
Tcp/ip protocol
Vio --- boundary adjustment solution process
High level API of propeller to realize face key point detection
Definition and application of method
Modify the root password of MySQL
1、MySQL初体验
MySQL uninstall
ninja启动过程
使用飞桨实现肺部 CT 扫描的 3D 图像分类
Static linked list
ChaosLibrary·UE4开坑笔记
UE4.24版本VR项目打包后,未出现手柄控制器
Compile Ninja with makefile
opencv库安装路径(别打开这个了)
笔记 | 百度飞浆AI达人创造营:深度学习模型训练和关键参数调优详解
with语句
Standardize database design
3. DQL (data query statement)
What is the difference between abstract classes and interfaces?









