代谢组数据预处理

在代谢组学的研究中,进行主成分分析、差异分析等之前往往需要先对数据进行缺失值填补、标准化等处理,目前处理方法也有很多种,下面将介绍常见的缺失值填补和标准化方法。

对缺失值的处理,简单粗暴的方法是直接去除所有含有缺失的代谢物,对于一些代谢物如果是在样本中大量缺失(比如超过了50%)确实可以舍弃,而少量缺失如果丢弃则可能会丢失一些有重要生物学意义的代谢物,所以对于少量缺失,较为稳妥的办法就是用值填补。比较简单的方法是用0值、均值、中值或最小值的一半进行填补,复杂一点的则是使用机器学习的算法如邻近算法(KNN)、随机森林(RF)、奇异值分解(SVD)等方法。由于代谢组目前可分为靶向和非靶向两大类型,在不同的类型中往往是采取不同的处理办法。有研究者认为非靶向的推荐使用KNN算法(Do et al.,2018);也有认为GC-MS数据使用随机森林方法(Gromski et al.,2014);还有的则认为需要按缺失类型,对于完全非随机缺失的可使用最小值的一半进行填补,完全随机缺失或随机缺失的使用随机森林方法(Wei et al.,2018)。所以目前没有统一的标准。

标准化主要是为了去除实验、技术等带来的误差,常见的方法有:内标,即代谢物除以内标丰度,可用于GC-MS;总峰面积标准化,即代谢物除以所有代谢物的总峰面积,可用于非靶向LC-MS;对数变换即直接对丰度取对数,LC-MS和GC-MS都有用到;PQN (Probabilistic Quotient Normalization)即每个代谢物除以了一个稀释因子,这个因子则是依赖于样本与参考样本比值的分布,在NMR分析中被认为是一种稳健的方法;此外还有均值标准化、分位数标准化、中值标准化、z-score标准化等(Li et al.,2017),这些方法也可以结合使用(Di et al.,2016)。不同方法可能会引起不同分析目的的差异,比如进行差异分析的时候,使用分位数方法可能比PQN方法好,而在进行代谢标志物筛选时,则表现差不多(Li et al.,2017)。因此,在分析的时候也可多尝试一些标准化的方法。

总的来说,缺失值和标准化的处理方法目前并无完全统一的标准,需要结合具体的实验方法、目的进行多次的调试以达到所期望的目标。目前,百迈客云上的代谢组分析平台已包含上述部分处理方法,操作简单,分析速度快,后续也会不断增加更多的处理方式以满足不同需求。

 

参考文献:

[1]?Do K T, Wahl S, Raffler J, et al. Characterization of missing values in untargeted MS-based metabolomics data and evaluation of missing data handling strategies[J]. Metabolomics, 2018, 14(10): 128.

[2] Gromski P, Xu Y, Kotze H, et al. Influence of missing values substitutes on multivariate analysis of metabolomics data[J]. Metabolites, 2014, 4(2): 433-452.

[3] Wei R, Wang J, Su M, et al. Missing value imputation approach for mass spectrometry-based metabolomics data[J]. Scientific reports, 2018, 8(1): 663.

[4]?Di Guida R, Engel J, Allwood J W, et al. Non-targeted UHPLC-MS metabolomic data processing methods: a comparative investigation of normalisation, missing value imputation, transformation and scaling[J]. Metabolomics, 2016, 12(5): 93.

[5]?Li B, Tang J, Yang Q, et al. NOREVA: normalization and evaluation of MS-based metabolomics data[J]. Nucleic acids research, 2017, 45(W1): W162-W170.

推荐文章