视频有广告,清晰度不够高吗?在微信订阅号“meta-genome”后台回复“qiime2”获得1080p视频和测试数据下载链接。
对于上文提到了conda/docker两种常用安装方法,我们每次在分析数据前,需要打开工作环境,根据情况选择对应的打开方式。
Obtain the data
注意:QIIME 2 官方测试数据部分保存在Google服务器上,国内下载比较困难。公众号后台回复”qiime2”获取测试数据批量下载链接,你还可以跳过以后的wget步骤。
下载Google文档的国内备份实验设计
下载双端实验数据(使用10%抽样数据方便下载和演示):分别为正向、反向和barcodes序列三个文件;文来自亚马逊云,有时无法下载或断开,可不同时间多试几次就成功了。或使用后台百度云链接,或github备份永久链接。
注:github有些文件过大无法上传。建议自行原始地址下载。或后台百度云链接下载(可能会失效)。
Paired-end read analysis commands
双端数据导入,数据建库类型为EMP双端序列EMPPairedEndSequences(本示例来自EMP项目)
导入的压缩文件有300 MB,约耗时1m。
输出对象:
接下来,我们按Barcode序列信息进行样品拆分。这需要样本元数据文件,您必须指明该文件中的哪个列包含每个样本的条形码。 在这种情况下,该列名称是条形码序列barcode-sequence。 在此数据集中,条形码读长是样本元数据文件中包含的条形码读长的反向互补序列,因此我们还包括--p-rev-comp-mapping-barcodes参数。 在样品拆分之后,我们可以生成并查看每个样本获得多少序列的摘要。
输出对象:
结果可视化:
让我们对数据进行重采样。 我们将在本教程中执行此重采样有两个原因:一个是为了加快教程的运行时间,另一个是为了演示功能。
注意,下面的重采样示例旨在说明q2-demux的重采样功能。如果您正在考虑对序列进行重抽样,请确保您已仔细考虑并有合理理由。
输出对象:
输出可视化:
注意,以下过滤样本的示例旨在说明q2-demux的过滤能力,如果您考虑从研究中过滤样本,请确保您已仔细考虑并具有合理的理由。
输出对象:
接下来,我们将来看看这些序列的质量,这些序列是从过滤后的数据中经过10000次随机重采样产生的,然后对数据进行去噪。当你查看质量图时,请注意,与moving pictures教程中的相应图相比,现在有两个交互式图要一起考虑。 左侧的图显示了正向序列的质量得分,右侧的图显示了反向序列的质量得分。 我们将使用这些图来确定要用于DADA2去噪的调整参数,然后使用dada2 denoise-paired进行去噪。
在此示例中,我们有150个碱基的正向和反向序列。 由于我们需要序列的长度足够长,以便在合并序列末端时重叠,因此正向和反向序列的前13个碱基将被修剪,但不会对序列的末端进行修剪,以免修剪太长的序列。 在此示例中,为--p-trim-left-f和--p-trim-left-r以及--p-trunc-len-f和--p-trunc-len-r提供了相同修剪数值,但这不是必须的。
输出对象:
在这一阶段,您将拥有包含特征表、相应特征序列和DADA2去噪统计信息的对象。 您可以生成这些摘要。
可视化输出结果:
图3. 特征表统计
我们要根据数据量,来选择合适的重采样值
图4. 代表性序列统计
长度基本全一致,意义不大。可以点击序列查询相关注意比较方便。
Questions to guide data analysis
通过以下问题,来指导你分析数据。
接下来特征表重采样标准化参数--p-sampling-depth应该选多少?基于你重采样的参数,有多少样品应该从实验中剔除?在core-metrics-phylogenetic分析中,使用过滤后的样本有多少数据量?
实验设计中的那种分组方式下微生物组成差异最大?采用那种距离计算方法分开更明显,是unweighted UniFrac还是Bray-Curtis?根据你对这些距离计算方法的理解,这些不同代表什么意义呢?对于连续型的样本属性,考虑尝试使用qiime metadata distance-matrix与qiime diversity mantel和qiime diversity bioenv结合使用更有效,这些命令之前没有提到过,但可以使用--help查看详细帮助。
分析样本连续型属性与样本的丰富多、均匀度之间的关系?推荐使用qiime diversity alpha-correlation分析多样性与样本属性间的相关性,看看能得到什么结论?不会记得查看帮助文档。
在有无植被的取样地点,什么菌门差异明显?
接下来特征表重采样标准化参数--p-sampling-depth应该选多少?基于你重采样的参数,有多少样品应该从实验中剔除?在core-metrics-phylogenetic分析中,使用过滤后的样本有多少数据量?
进化树构建和多样性分析
实验设计中的那种分组方式下微生物组成差异最大?采用那种距离计算方法分开更明显,是unweighted UniFrac还是Bray-Curtis?根据你对这些距离计算方法的理解,这些不同代表什么意义呢?对于连续型的样本属性,考虑尝试使用qiime metadata distance-matrix与qiime diversity mantel和qiime diversity bioenv结合使用更有效,这些命令之前没有提到过,但可以使用--help查看详细帮助。
接下来我们探索几种可以统计连续型变量的统计方法。qiime metadata distance-matrix与qiime diversity mantel和qiime diversity bioenv
首先学习—help查看metadata distance-matrix命令的帮助,看一下新命令的介绍
它是计算元数据/特征中连续数值变量间欧式距离矩阵中命令。输入文件为元数据和列名。输出为qiime2对象qza
错误提示:数据中存在错误值,无法计算。一般需要手动在实验设计中移除缺失的样本,再计算。
我们计算一个信息完整的海拔列
qiime diversity mantel可以基于特征的距离矩阵,和样本元数据的距离矩阵,计算两者间的相关性。找到和微生物群落结构变化的相关因素。
我们看到 海拔 与 unifrac间存在显著相关。
qiime diversity bioenv计算元数据的欧式距离中那一类与距离矩阵秩最大相关。其中所有的数字列都会考虑,缺失值会自动移除,输出可视化结果。
average-soil-relative-humidity是最大相关因素。
分析样本连续型属性与样本的丰富多、均匀度之间的关系?推荐使用qiime diversity alpha-correlation分析多样性与样本属性间的相关性,看看能得到什么结论?不会记得查看帮助文档。
我们以observed_otus(richness)为例
看到elevation与richness显著相关,再Column切换其它参数,如average-soil-relative-humidity相关性更好,高达0.6909。
想分析门水平,必须先物种注释,再统计组成。
在有无植被的取样地点,什么菌门差异明显?
Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9
The data used in this tutorial is presented in: Significant Impacts of Increasing Aridity on the Arid Soil Microbiome. Julia W. Neilson, Katy Califf, Cesar Cardona, Audrey Copeland, Will van Treuren, Karen L. Josephson, Rob Knight, Jack A. Gilbert, Jay Quade, J. Gregory Caporaso, and Raina M. Maier. mSystems May 2017, 2 (3) e00195-16; DOI: 10.1128/mSystems.00195-16.