当前位置:网站首页>论文阅读 (57):2-hydr_Ensemble: Lysine 2-Hydroxyisobutyrylation Identification with Ensemble Method (任务)
论文阅读 (57):2-hydr_Ensemble: Lysine 2-Hydroxyisobutyrylation Identification with Ensemble Method (任务)
2022-06-23 16:49:00 【因吉】
文章目录
1 引入
1.1 题目
2021:集成法鉴定赖氨酸2-羟基异丁酰化 (Lysine 2-hydroxyisobutyrylation identification with ensemble method)
1.2 概述
赖氨酸2-羟基异丁酰化是蛋白质组学研究中检测到的一种新型翻译后修饰类型。这种修饰研究可能有助于多种疾病的研究和药物开发。在这项工作中,提出了一种新的2-hydr_Ensemble残基识别算法,该残基具有蛋白质水平的序列信息。该方法与典型的分类模型进行比较。结果显示HeLa 细胞、立球菌、水稻种子,以及酿酒酵母的 AUC 值分别达到0.9197、0.8192、0.9307,以及0.8897。进一步使用双轮廓贝叶斯的统计特征,从几个特征向量中找出潜在的信息。
1.3 Bib
@article{
Bao:2021:104351,
author = {
Wen Zheng Bao and Bin Yang and Bai Tong Chen},
title = {
2-hydr\_ensemble: Lysine 2-hydroxyisobutyrylation identification with ensemble method},
journal = {
Chemometrics and Intelligent Laboratory Systems},
volume = {
215},
pages = {
104351},
year = {
2021},
doi = {
10.1016/j.chemolab.2021.104351}
}
2 方法
2.1 修饰残基
2.1.1 相关系数 (CC)
皮尔逊相关系数是一个线性相关系数,一般用来修正残基两个变量之间的相关性。对于两个基因序列 X X X和 Y Y Y,皮尔逊相关系数计算如下:
R X , Y = ∑ ( X − X ‾ ) ( Y − Y ‾ ) ∑ ( X − X ‾ ) 2 ( Y − Y ‾ ) 2 , (1) \tag{1} R_{X,Y}=\frac{\sum{(X-\overline{X})(Y-\overline{Y})}}{\sqrt{\sum{(X-\overline{X})^2(Y-\overline{Y})^2}}}, RX,Y=∑(X−X)2(Y−Y)2∑(X−X)(Y−Y),(1)其中 X ‾ \overline{X} X表示 X X X的平均值。
2.1.2 偏相关系数 (PCC)
偏相关系数是两个变量在不受其他变量影响的情况下的相关系数。由于两个变量之间的关系非常复杂,可能会受到多个变量的影响,因此偏相关系数是比CC更好的选择。PCC可以根据其对应的CC来定义。令 R R R表示CC矩阵,其逆矩阵为 R − 1 R^{-1} R−1,则PCC计算为:
R X , Y ′ = R X , Y − 1 R X , X − 1 R Y , Y − 1 (2) \tag{2} R_{X,Y}'=\frac{R_{X,Y}^{-1}}{\sqrt{R_{X,X}^{-1}R_{Y,Y}^{-1}}} RX,Y′=RX,X−1RY,Y−1RX,Y−1(2)
2.1.3 条件互信息 (CMI)
互信息 (MI) 可以衡量修饰残基和非修饰残基之间的非线性相关性:
I ( X , Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log p ( x , y ) p ( x ) p ( y ) , (3) \tag{3} I(X,Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}, I(X,Y)=x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y),(3)其中 p ( x ) p(x) p(x)是 x x x的概率、 p ( x , y ) p(x,y) p(x,y)是联合概率,它们可以通过高斯核概率密度估计获得:
p ( x i ) = 1 N ∑ j = 1 N 1 ( 2 π ) n / 2 σ x n / 2 exp ( − 1 2 ( X j − X i ) T C − 1 ( X j − X i ) ) , (4) \tag{4} p\left(x_{i}\right)=\frac{1}{N} \sum_{j=1}^{N} \frac{1}{(2 \pi)^{n / 2} \sigma_{x}^{n / 2}} \exp \left(-\frac{1}{2}\left(X_{j}-X_{i}\right)^{T} C^{-1}\left(X_{j}-X_{i}\right)\right), p(xi)=N1j=1∑N(2π)n/2σxn/21exp(−21(Xj−Xi)TC−1(Xj−Xi)),(4)其中 C C C表示 X X X的协方差矩阵、 σ x \sigma_x σx表示 C C C的标准差,以及 n n n和 N N N分别表示基因的数量和基因表达式点的数量。因此,MI可以计算为:
I ( X , Y ) = 1 2 log ( σ X 2 σ Y 2 ∣ C ( X , Y ) ∣ ) , (5) \tag{5} I(X, Y)=\frac{1}{2} \log \left(\frac{\sigma_{X}^{2} \sigma_{Y}^{2}}{|C(X, Y)|}\right), I(X,Y)=21log(∣C(X,Y)∣σX2σY2),(5)其中 ∣ C ( X , Y ) ∣ |C(X, Y)| ∣C(X,Y)∣是行列式。
然而,MI有高预估问题。因此,条件互信息 (CMI) 被提出:
C M I ( X , Y ∣ Z ) = ∑ x ∈ X , y ∈ Y , z ∈ Z p ( x , y , z ) log p ( x , y ∣ z ) p ( x ∣ z ) p ( y ∣ z ) . (6) \tag{6} CMI(X, Y |Z) = \sum_{x \in X, y \in Y, z \in Z} p(x, y, z) \log \frac{p(x, y \mid z)}{p(x \mid z) p(y \mid z)}. CMI(X,Y∣Z)=x∈X,y∈Y,z∈Z∑p(x,y,z)logp(x∣z)p(y∣z)p(x,y∣z).(6)如果两个基因 X X X Y Y Y是不相关的, C M I ( X , Y ∣ Z ) = 0 CMI(X, Y|Z)=0 CMI(X,Y∣Z)=0。
2.1.4 最大信息系数 (MIC)
最大信息系数 (MIC) 被用于衡量两个变量之间的线性或非线性关系,其不需要对数据的分布做出假设。给定一个二元集合,其中数据元素是有序元组 ( a , b ) (a, b) (a,b)。 G G G是一个网格。 a a a和 b b b大小的所有网格的最大信息增益计算为:
I ∗ ( D , a , b ) = max I ( D ∣ G ) , (7) \tag{7} I^*(D,a,b)=\max I(D|_G), I∗(D,a,b)=maxI(D∣G),(7)其中 I ( D ∣ G ) I(D|_G) I(D∣G)表示 D ∣ G D|_G D∣G的互信息, M ( D ) M(D) M(D)是 D D D的特征矩阵,其被计算为:
M ( D ) a , b = I ∗ ( D , a , b ) log ( min ( a , b ) ) . (8) \tag{8} M(D)_{a,b}=\frac{I^*(D,a,b)}{\log(\min(a,b))}. M(D)a,b=log(min(a,b))I∗(D,a,b).(8) max ( M ( D ) ) \max(M(D)) max(M(D))是基因 a a a和 b b b之间的MIC,如果两个基因不相关,它们的MIC将等于0。
2.2 集成方法
为了提高检测直接修饰残基的准确性,提出了一种新的双重集成方法:
1)给定包含 m m m个基因和 n n n个样本点的基因数据集 D D D,生成 K K K个数据集 ( D 1 , D 2 , … , D k ) (D^1,D^2,\dots,D^k) (D1,D2,…,Dk);
2)对于数据集 D i D^i Di,CC、PCC、CMI,以及MIC用于直接计算基因之间的相关性,并获取四个秩列表 ( G C C i , G P C C i , G C M I i , G M I C i ) (G_{CC}^i,G_{PCC}^i,G_{CMI}^i,G_{MIC}^i) (GCCi,GPCCi,GCMIi,GMICi),并整合为 G i G^i Gi;
3)生成 ( G 1 , G 2 , … , G k ) (G^1,G^2,\dots,G^k) (G1,G2,…,Gk);
4)整合为 G G G。
边栏推荐
- Revil - blackmail Virus Emergency Response
- What is the personal finance interest rate in 2022? How do individuals choose financial products?
- 百度智能云5月产品升级观察站
- Method of copying web page content and automatically adding copyright information (compatible with ie, Firefox and chrome)
- 如何通过线上股票开户?在线开户安全么?
- Baidu AI Cloud product upgrade Observatory in May
- bypassuac提权
- Hapoxy cluster service setup
- JS reset form
- What is the problem with TS File Error 404 when easynvr plays HLS protocol?
猜你喜欢

Wechat applet: time selector for the estimated arrival date of the hotel
![[go] calling Alipay to scan code for payment in a sandbox environment](/img/d4/c6d72a697bc08f69f11121a15109b3.png)
[go] calling Alipay to scan code for payment in a sandbox environment

【30. 串联所有单词的子串】

torch学习(一):环境配置

qYKVEtqdDg

What does the timestamp 90K mean?

Crmeb second open SMS function tutorial

Practice sharing of chaos engineering in stability management of cloud native Middleware

MySQL事务及其特性与锁机制

【网络通信 -- WebRTC】WebRTC 源码分析 -- PacingController 相关知识点补充
随机推荐
内网渗透令牌窃取
Troubleshooting and modification process of easycvr interface dislocation in small screen
Installation, configuration, désinstallation de MySQL
What is the mobile account opening process? Is it safe to open an account online now?
Kotlin practical skills you should know
. Net cloud native architect training camp (responsibility chain mode) -- learning notes
[Hyperf]Entry “xxxInterface“ cannot be resolved: the class is not instantiable
Listen attentively and give back sincerely! Pay tribute to the best product people!
Intranet penetration token stealing
Query the size of each table in the database
Add new members to the connector family! Scenario connector helps enterprises comprehensively improve the operational efficiency of business systems
如何设计一个秒杀系统?
Postgresql_根据执行计划优化SQL
开户券商怎么选择?现在网上开户安全么?
Interpretation of eventbus source code
Intelligent supply chain collaborative management solution for logistics industry
Réponse 02: pourquoi le cercle Smith peut - il "se sentir haut et bas et se tenir à droite et à droite"?
Also using copy and paste to create test data, try the data assistant!
Ctfshow PHP features
【网络通信 -- WebRTC】WebRTC 源码分析 -- 接收端带宽估计