1. 什么是测序接头?
第二代DNA测序技术(Next-Generation Sequencing)是当前生物医学领域一项常用的技术。在该技术中,待测的DNA需要经过一系列的处理(即建库过程),其中一步是加测序接头(adapter,如下图所示)。只有加上了测序接头,待测的DNA才能结合到流通池(flowcell)上,被接头引物识别从而可以被测序。
2. 为什么测序数据要去接头?
测序时,测序仪从待测DNA的一端开始读取特定长度(read length)的碱基,当测序仪测序的长度比待测DNA更长的时候,测序接头会被测到(如下图所示)。这种情况在待测DNA较短或测序长度较长时普遍存在。包含测序接头的DNA读数(DNA read)难以被比对到参考基因组上,并且会影响后续分析的准确性,因此接头的数据需要从DNA读数中识别并去掉,去测序接头(一般会同时去掉DNA读数尾部的低质量循环(cycle))作为一种数据预处理步骤,在几乎所有二代测序数据的分析中都会用到。
3. Ktrim的优势在哪里?
随着测序技术的发展,测序的通量得到大幅提升。然而,随之而来的是,之前10分钟就可以运行完毕的预处理步骤,现在可能需要超过100小时(未考虑计算硬件的更新)。因此,预处理步骤成为了数据分析中的一个新瓶颈。当前已经有不少去测序接头(和低质量的测序循环)的软件,其中最为常用的有Trim Galore(2011;基于cutadapt)、Trimmomatic(2014)和SeqPurge(2016),而孙坤课题组则进一步开发了Ktrim软件。论文结果表明,Ktrim性能较当前的软件有大幅提升。同时Ktrim具有很高的准确度,并且在敏感度和特异性两方面做到了比较好的平衡(如下表所示)。而且,测序质量的下降对Ktrim的准确度影响也较低。此外,Ktrim功能较为全面,如内建了对多种常用建库试剂盒的支持(例如华大基因的试剂盒),支持单端/双端测序数据(SeqPurge不支持单端测序数据)、多文件支持(Trim Galore和Trimmomatic都不支持)、以及并行计算加速。因此,在超高通量测序时代,Ktrim可大幅提高预处理的性能,为生命健康大数据分析提供了一个更优化的数据预处理方案。
Table: Performance comparison of Ktrim and current tools
孙坤课题组简介
孙坤博士2014年在香港中文大学获得博士学位,并于2019年全职加入深圳湾实验室,任特聘研究员。孙坤博士长期从事生物信息学和基于外周血游离DNA的液态活检(无创产前测试和癌症诊断)方向的研究,拥有近10年的生物医学大数据分析经验,发表SCI文章40余篇,其中(共同)第一作者或通讯作者20余篇(包括Cancer Discovery、PNAS、Genome Research、EMBO Journal、Nature Communications、Bioinformatics等),总被引用1900余次。孙坤博士的工作注重原创性和转化价值,曾参与申请多项国际专利,其中一些已经转让给GRAIL、Illumina等多家液态活检领域内的知名公司。
孙坤博士课题组主要研究方向包括但不仅限于:(1) 生物信息学软件开发;(2) 大型数据集信息挖掘;(3) 高准确度、低成本的癌症生物标记物筛选;(4) 单细胞技术在分子诊断方向的应用探索。
健康大数据时代,生物信息学在生物医学的很多领域都扮演着重要的角色,孙坤博士课题组诚挚邀请对这些方向有兴趣的科研人才的加入。
PubMed链接:https://www.ncbi.nlm.nih.gov/pubmed/32159761
论文链接:https://doi.org/10.1093/bioinformatics/btaa171
Ktrim下载地址:https://github.com/hellosunking/Ktrim