当前位置:网站首页>论文阅读 (57):2-hydr_Ensemble: Lysine 2-Hydroxyisobutyrylation Identification with Ensemble Method (任务)
论文阅读 (57):2-hydr_Ensemble: Lysine 2-Hydroxyisobutyrylation Identification with Ensemble Method (任务)
2022-06-23 16:49:00 【因吉】
文章目录
1 引入
1.1 题目
2021:集成法鉴定赖氨酸2-羟基异丁酰化 (Lysine 2-hydroxyisobutyrylation identification with ensemble method)
1.2 概述
赖氨酸2-羟基异丁酰化是蛋白质组学研究中检测到的一种新型翻译后修饰类型。这种修饰研究可能有助于多种疾病的研究和药物开发。在这项工作中,提出了一种新的2-hydr_Ensemble残基识别算法,该残基具有蛋白质水平的序列信息。该方法与典型的分类模型进行比较。结果显示HeLa 细胞、立球菌、水稻种子,以及酿酒酵母的 AUC 值分别达到0.9197、0.8192、0.9307,以及0.8897。进一步使用双轮廓贝叶斯的统计特征,从几个特征向量中找出潜在的信息。
1.3 Bib
@article{
Bao:2021:104351,
author = {
Wen Zheng Bao and Bin Yang and Bai Tong Chen},
title = {
2-hydr\_ensemble: Lysine 2-hydroxyisobutyrylation identification with ensemble method},
journal = {
Chemometrics and Intelligent Laboratory Systems},
volume = {
215},
pages = {
104351},
year = {
2021},
doi = {
10.1016/j.chemolab.2021.104351}
}
2 方法
2.1 修饰残基
2.1.1 相关系数 (CC)
皮尔逊相关系数是一个线性相关系数,一般用来修正残基两个变量之间的相关性。对于两个基因序列 X X X和 Y Y Y,皮尔逊相关系数计算如下:
R X , Y = ∑ ( X − X ‾ ) ( Y − Y ‾ ) ∑ ( X − X ‾ ) 2 ( Y − Y ‾ ) 2 , (1) \tag{1} R_{X,Y}=\frac{\sum{(X-\overline{X})(Y-\overline{Y})}}{\sqrt{\sum{(X-\overline{X})^2(Y-\overline{Y})^2}}}, RX,Y=∑(X−X)2(Y−Y)2∑(X−X)(Y−Y),(1)其中 X ‾ \overline{X} X表示 X X X的平均值。
2.1.2 偏相关系数 (PCC)
偏相关系数是两个变量在不受其他变量影响的情况下的相关系数。由于两个变量之间的关系非常复杂,可能会受到多个变量的影响,因此偏相关系数是比CC更好的选择。PCC可以根据其对应的CC来定义。令 R R R表示CC矩阵,其逆矩阵为 R − 1 R^{-1} R−1,则PCC计算为:
R X , Y ′ = R X , Y − 1 R X , X − 1 R Y , Y − 1 (2) \tag{2} R_{X,Y}'=\frac{R_{X,Y}^{-1}}{\sqrt{R_{X,X}^{-1}R_{Y,Y}^{-1}}} RX,Y′=RX,X−1RY,Y−1RX,Y−1(2)
2.1.3 条件互信息 (CMI)
互信息 (MI) 可以衡量修饰残基和非修饰残基之间的非线性相关性:
I ( X , Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) , (3) \tag{3} I(X,Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}, I(X,Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y),(3)其中 p ( x ) p(x) p(x)是 x x x的概率、 p ( x , y ) p(x,y) p(x,y)是联合概率,它们可以通过高斯核概率密度估计获得:
p ( x i ) = 1 N ∑ j = 1 N 1 ( 2 π ) n / 2 σ x n / 2 exp ( − 1 2 ( X j − X i ) T C − 1 ( X j − X i ) ) , (4) \tag{4} p\left(x_{i}\right)=\frac{1}{N} \sum_{j=1}^{N} \frac{1}{(2 \pi)^{n / 2} \sigma_{x}^{n / 2}} \exp \left(-\frac{1}{2}\left(X_{j}-X_{i}\right)^{T} C^{-1}\left(X_{j}-X_{i}\right)\right), p(xi)=N1j=1∑N(2π)n/2σxn/21exp(−21(Xj−Xi)TC−1(Xj−Xi)),(4)其中 C C C表示 X X X的协方差矩阵、 σ x \sigma_x σx表示 C C C的标准差,以及 n n n和 N N N分别表示基因的数量和基因表达式点的数量。因此,MI可以计算为:
I ( X , Y ) = 1 2 log ( σ X 2 σ Y 2 ∣ C ( X , Y ) ∣ ) , (5) \tag{5} I(X, Y)=\frac{1}{2} \log \left(\frac{\sigma_{X}^{2} \sigma_{Y}^{2}}{|C(X, Y)|}\right), I(X,Y)=21log(∣C(X,Y)∣σX2σY2),(5)其中 ∣ C ( X , Y ) ∣ |C(X, Y)| ∣C(X,Y)∣是行列式。
然而,MI有高预估问题。因此,条件互信息 (CMI) 被提出:
C M I ( X , Y ∣ Z ) = ∑ x ∈ X , y ∈ Y , z ∈ Z p ( x , y , z ) log p ( x , y ∣ z ) p ( x ∣ z ) p ( y ∣ z ) . (6) \tag{6} CMI(X, Y |Z) = \sum_{x \in X, y \in Y, z \in Z} p(x, y, z) \log \frac{p(x, y \mid z)}{p(x \mid z) p(y \mid z)}. CMI(X,Y∣Z)=x∈X,y∈Y,z∈Z∑p(x,y,z)logp(x∣z)p(y∣z)p(x,y∣z).(6)如果两个基因 X X X Y Y Y是不相关的, C M I ( X , Y ∣ Z ) = 0 CMI(X, Y|Z)=0 CMI(X,Y∣Z)=0。
2.1.4 最大信息系数 (MIC)
最大信息系数 (MIC) 被用于衡量两个变量之间的线性或非线性关系,其不需要对数据的分布做出假设。给定一个二元集合,其中数据元素是有序元组 ( a , b ) (a, b) (a,b)。 G G G是一个网格。 a a a和 b b b大小的所有网格的最大信息增益计算为:
I ∗ ( D , a , b ) = max I ( D ∣ G ) , (7) \tag{7} I^*(D,a,b)=\max I(D|_G), I∗(D,a,b)=maxI(D∣G),(7)其中 I ( D ∣ G ) I(D|_G) I(D∣G)表示 D ∣ G D|_G D∣G的互信息, M ( D ) M(D) M(D)是 D D D的特征矩阵,其被计算为:
M ( D ) a , b = I ∗ ( D , a , b ) log ( min ( a , b ) ) . (8) \tag{8} M(D)_{a,b}=\frac{I^*(D,a,b)}{\log(\min(a,b))}. M(D)a,b=log(min(a,b))I∗(D,a,b).(8) max ( M ( D ) ) \max(M(D)) max(M(D))是基因 a a a和 b b b之间的MIC,如果两个基因不相关,它们的MIC将等于0。
2.2 集成方法
为了提高检测直接修饰残基的准确性,提出了一种新的双重集成方法:
1)给定包含 m m m个基因和 n n n个样本点的基因数据集 D D D,生成 K K K个数据集 ( D 1 , D 2 , … , D k ) (D^1,D^2,\dots,D^k) (D1,D2,…,Dk);
2)对于数据集 D i D^i Di,CC、PCC、CMI,以及MIC用于直接计算基因之间的相关性,并获取四个秩列表 ( G C C i , G P C C i , G C M I i , G M I C i ) (G_{CC}^i,G_{PCC}^i,G_{CMI}^i,G_{MIC}^i) (GCCi,GPCCi,GCMIi,GMICi),并整合为 G i G^i Gi;
3)生成 ( G 1 , G 2 , … , G k ) (G^1,G^2,\dots,G^k) (G1,G2,…,Gk);
4)整合为 G G G。
边栏推荐
- Date selection of hotel check-in time and check-out time
- Digital intelligent supply chain collaboration solution for new energy industry
- Lighthouse open source application practice: o2oa
- 解答02:Smith圓為什麼能“上感下容 左串右並”?
- QT布局管理器【QVBoxLayout,QHBoxLayout,QGridLayout】
- Read the typical application circuit of microphone
- How to design a seckill system?
- How code 39 check bits are calculated
- 【网络通信 -- WebRTC】WebRTC 源码分析 -- 接收端带宽估计
- Illustration of mongodb cluster deployment principle (3)
猜你喜欢

Hands on data analysis unit 2 section 4 data visualization

C # connection to database
![[30. concatenate substrings of all words]](/img/e7/453c8524a23fbb7501e85140547ce1.png)
[30. concatenate substrings of all words]

内网渗透令牌窃取

hands-on-data-analysis 第二单元 第四节数据可视化

Performance test bottleneck tuning in 10 minutes! If you want to enter a large factory, you must know

Meituan Sanmian: how do you understand the principle of redis master-slave replication?

ctfshow php的特性

qYKVEtqdDg

QT布局管理器【QVBoxLayout,QHBoxLayout,QGridLayout】
随机推荐
Reinforcement learning series (I) -- basic concepts
Single fire wire design series article 10: expanding application - single fire switch realizes double control
How to design a seckill system - geek course notes
Hapoxy cluster service setup
内网渗透令牌窃取
B. Integers Shop-Hello 2022
qYKVEtqdDg
股票网上开户及开户流程怎样?在线开户安全么?
Lighthouse open source application practice: o2oa
qYKVEtqdDg
一文读懂麦克风典型应用电路
How to make a badge
Easyplayer mobile terminal plays webrtc protocol for a long time. Pressing the play page cannot close the "about us" page
Introduction to GTS Academy
千呼万唤,5G双卡双通到底有多重要?
What if the website is poisoned
How to make validity table
Android kotlin exception handling
12. Manage network environment
Nanny level teaching! Take you to play with time complexity and space complexity!