当前位置：网站首页>论文阅读 (57)：2-hydr_Ensemble: Lysine 2-Hydroxyisobutyrylation Identification with Ensemble Method (任务)

论文阅读 (57)：2-hydr_Ensemble: Lysine 2-Hydroxyisobutyrylation Identification with Ensemble Method (任务)

2022-06-23 16:49:00 【因吉】

文章目录

1 引入
2 方法

1 引入

1.1 题目

2021：集成法鉴定赖氨酸2-羟基异丁酰化 (Lysine 2-hydroxyisobutyrylation identification with ensemble method)

1.2 概述

赖氨酸2-羟基异丁酰化是蛋白质组学研究中检测到的一种新型翻译后修饰类型。这种修饰研究可能有助于多种疾病的研究和药物开发。在这项工作中，提出了一种新的2-hydr_Ensemble残基识别算法，该残基具有蛋白质水平的序列信息。该方法与典型的分类模型进行比较。结果显示HeLa 细胞、立球菌、水稻种子，以及酿酒酵母的 AUC 值分别达到0.9197、0.8192、0.9307，以及0.8897。进一步使用双轮廓贝叶斯的统计特征，从几个特征向量中找出潜在的信息。

1.3 Bib

@article{
    Bao:2021:104351,
author		=	{
    Wen Zheng Bao and Bin Yang and Bai Tong Chen},
title		=	{
    2-hydr\_ensemble: Lysine 2-hydroxyisobutyrylation identification with ensemble method},
journal		=	{
    Chemometrics and Intelligent Laboratory Systems},
volume		=	{
    215},
pages		=	{
    104351},
year		=	{
    2021},
doi			=	{
    10.1016/j.chemolab.2021.104351}
}

2 方法

2.1 修饰残基

2.1.1 相关系数 (CC)

皮尔逊相关系数是一个线性相关系数，一般用来修正残基两个变量之间的相关性。对于两个基因序列 $X$ 和 $Y$ ，皮尔逊相关系数计算如下：
$\tag{1} R_{X,Y}=\frac{\sum{(X-\overline{X})(Y-\overline{Y})}}{\sqrt{\sum{(X-\overline{X})^2(Y-\overline{Y})^2}}},$ 其中 $\overline{X}$ 表示 $X$ 的平均值。

2.1.2 偏相关系数 (PCC)

偏相关系数是两个变量在不受其他变量影响的情况下的相关系数。由于两个变量之间的关系非常复杂，可能会受到多个变量的影响，因此偏相关系数是比CC更好的选择。PCC可以根据其对应的CC来定义。令 $R$ 表示CC矩阵，其逆矩阵为 $R^{-1}$ ，则PCC计算为：
$\tag{2} R_{X,Y}'=\frac{R_{X,Y}^{-1}}{\sqrt{R_{X,X}^{-1}R_{Y,Y}^{-1}}}$

2.1.3 条件互信息 (CMI)

互信息 (MI) 可以衡量修饰残基和非修饰残基之间的非线性相关性：
$\tag{3} I(X,Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)},$ 其中 $p (x)$ 是 $x$ 的概率、 $p (x, y)$ 是联合概率，它们可以通过高斯核概率密度估计获得：
$\tag{4} p\left(x_{i}\right)=\frac{1}{N} \sum_{j=1}^{N} \frac{1}{(2 \pi)^{n / 2} \sigma_{x}^{n / 2}} \exp \left(-\frac{1}{2}\left(X_{j}-X_{i}\right)^{T} C^{-1}\left(X_{j}-X_{i}\right)\right),$ 其中 $C$ 表示 $X$ 的协方差矩阵、 $\sigma_x$ 表示 $C$ 的标准差，以及 $n$ 和 $N$ 分别表示基因的数量和基因表达式点的数量。因此，MI可以计算为：
$\tag{5} I(X, Y)=\frac{1}{2} \log \left(\frac{\sigma_{X}^{2} \sigma_{Y}^{2}}{|C(X, Y)|}\right),$ 其中 $∣ C (X, Y) ∣$ 是行列式。
然而，MI有高预估问题。因此，条件互信息 (CMI) 被提出：
$\tag{6} CMI(X, Y |Z) = \sum_{x \in X, y \in Y, z \in Z} p(x, y, z) \log \frac{p(x, y \mid z)}{p(x \mid z) p(y \mid z)}.$ 如果两个基因 $X$ $Y$ 是不相关的, $C M I (X, Y ∣ Z) = 0$ 。

2.1.4 最大信息系数 (MIC)

最大信息系数 (MIC) 被用于衡量两个变量之间的线性或非线性关系，其不需要对数据的分布做出假设。给定一个二元集合，其中数据元素是有序元组 $(a, b)$ 。 $G$ 是一个网格。 $a$ 和 $b$ 大小的所有网格的最大信息增益计算为：
$\tag{7} I^*(D,a,b)=\max I(D|_G),$ 其中 $I(D|_G)$ 表示 $D|_G$ 的互信息， $M (D)$ 是 $D$ 的特征矩阵，其被计算为：
$\tag{8} M(D)_{a,b}=\frac{I^*(D,a,b)}{\log(\min(a,b))}.$ $\max(M(D))$ 是基因 $a$ 和 $b$ 之间的MIC，如果两个基因不相关，它们的MIC将等于0。

2.2 集成方法

为了提高检测直接修饰残基的准确性，提出了一种新的双重集成方法：
1）给定包含 $m$ 个基因和 $n$ 个样本点的基因数据集 $D$ ，生成 $K$ 个数据集 $(D^1,D^2,\dots,D^k)$ ；
2）对于数据集 $D^i$ ，CC、PCC、CMI，以及MIC用于直接计算基因之间的相关性，并获取四个秩列表 $G_{CC}^i,G_{PCC}^i,G_{CMI}^i,G_{MIC}^i)$ ，并整合为 $G^i$ ；
3）生成 $(G^1,G^2,\dots,G^k)$ ；
4）整合为 $G$ 。