当前位置：网站首页>论文解读：《i4mC-Deep: 利用具有化学特性的深度学习方法，对 N4-甲基胞嘧啶位点进行智能预测》

论文解读：《i4mC-Deep: 利用具有化学特性的深度学习方法，对 N4-甲基胞嘧啶位点进行智能预测》

2022-07-23 05:43:00 【风灬陌】

i4mC-Deep: An Intelligent Predictor of N4-Methylcytosine Sites Using a Deep Learning Approach with Chemical Properties

1.文章概述
2.背景
2.数据
3.方法
- 3.1 特征编码
- 3.2 模型
4.结果
- 4.1 与其他最先进方法比较
- 4.2 序列分析
5.Web服务器

文章链接：https://www.mdpi.com/2073-4425/12/8/1117
DOI：https://doi.org/10.3390/genes12081117
期刊：Genes（三区）
影响因子：4.096
发布时间：2021年7月23日
服务器：http://nsclbio.jbnu.ac.kr/tools/i4mC-Deep/
补充文件： https://www.mdpi.com/article/10.3390/genes12081117/s1
代码和数据：https://github.com/waleed551/i4mC-Deep

1.文章概述

DNA受到N4-甲基胞嘧啶(4mC)分子的表观遗传修饰。N4-甲基胞嘧啶在DNA修复和复制中起重要作用，保护宿主DNA免受降解，调节DNA表达。目前的实验技术昂贵又费力。传统的基于机器学习的方法依赖于手工提取的特征，但是新方法通过利用学习特性而节省了时间和计算成本。在这项研究中，我们提出了i4mC-Deep，这是一个基于卷积神经网络(CNN)的智能预测器，可以预测DNA样本中的4mC修饰位点。提取DNN序列的核苷酸化学特性和核苷酸密度特征，作为CNN的输入数据。提出的方法的结果优于几个最先进的预测器。用i4mC-Deep方法分析地下黑麦草DNA，与传统预测相比，准确率（ACC）提高了3.9%，MCC提高了10.5% 。

2.背景

最近，一些计算工具已经被开发用于识别4mC位点，包括iDNA4mC，4mCPred，4mCPred-SVM和SOMM4mC。所有这些工具都是基于机器学习技术和手工制作的功能。iDNA4mC使用核苷酸化学特性和核苷酸频率作为特征向量结合支持向量机(SVM)来检测4mC位点。4mCPred和4mCPred-SVM也使用的是支持向量机，但有不同的特征表示，4mCPred利用两种特征编码技术，即位置特异性三核苷酸倾向(PSTNP)和三核苷酸的电子-离子相互作用；4mCPred-SVM将四种特征应用于4mC位点的组合预测，即K-mer 二核苷酸频率、单核苷酸二进制编码、二核苷酸二进制编码和局部位置特异性二核苷酸频率。SOMM4mC应用经典的一阶和二阶马尔可夫模型来预测4mC表观遗传修饰位点，并显示出比前面提到的其他工具更好的性能。此外，4mCCNN和DeepTorrent是基于深度学习的技术。4mCCNN采用One-hot编码的数据表示和卷积神经网络。DeepTorrent使用了四种带卷积和LSTM层的特征提取技术。以往的深度学习模型采用复杂结构，增加了参数和计算量。
在这项研究中，作者使用了一个卷积神经网络(CNN)来开发一个精确而有效的计算工具。CNN包括：卷积层（convolution）、批次归一化层（batch normalization）、扁平化层（Flatten）、丢失层（Dropout）和全连接层（Dense），卷积层用于自动提取编码的DNA序列中的重要特征。作者用核苷酸化学性质(NCP)和核苷酸密度(ND)方法编码输入的DNA序列，然后使用批次归一化和Dropout控制过拟合，最后利用全连接层将DNA序列分为4mC位点和非4mC位点。使用10倍交叉验证技术来评估 i4mC-Deep，i4mC-Deep的结果优于以前的工具。i4mC-Deep的架构如图1所示。作者还开发了一个免费的在线网络服务器。
在这里插入图片描述

2.数据

数据集在开发高效可靠的计算工具方面起着非常重要的作用。作者利用了6个不同种类的原核生物和真核生物、Caenorhabditis elegans, Drosophila melanogaster, Arabidopsis thaliana, Escherichia coli, Geoalkalibacter subterraneus, and Geobacter pickeringii.的数据。这些数据集是使用MethSMRT数据库构建的。基准数据集包括1554、1769、1978、388、906和569个阳性和阴性样本。六个数据集中的每个序列都有一个位于中心的胞嘧啶，长度为41碱基。
在这里插入图片描述

3.方法

3.1 特征编码

核苷酸化学性质 (nucleotide chemical properties，NCP)
核苷酸密度(nucleotide density，ND)
DNA序列中每个核苷酸的频率信息。

3.2 模型

参数选择范围：
在这里插入图片描述
最佳参数：卷积层为2，两层滤波器大小为8，两层的填充量为“same”，两层的内核大小为3，丢失概率为0.3。
应用 l2正则化和 dropout 正则化来避免网络的过拟合，使用学习率为0.001的Adam优化器，batch size最佳为32，设置的迭代次数（epochs）为200，可提前停止。