来自深圳创美实业的研究人员设计了一套基于二代基因测序专用的实验室建设方案,完美的实验设计原理,一站式建设和规划方案,简化了数据分析过程中的人工操作,大大提高了运行效率。
二代基因测序实验室建设技术 大幅度降低了测序的时间和成本,使得大规模测序逐渐成为常规的实验室研究和临床检测手段。测序产生的数据量急剧增加,如何高效地分析这些数据,已成为迫切需要解决的问题。目前,分析序列信息的生物信息学软件纷繁复杂,但基本上每个软件只能完成单一的分析功能,实现一个完整的分析流程则需要对众多软件进行整合,而手动串联的效率往往不尽人意;同时,这些软件需要在Linux工作环境下以命令行运行,要求用户具备较好的计算机背景;另外,即便一些实验室完成了分析流程的构建,他们往往不会公开许多细节,新用户仍然要从头建起。
针对这一问题,研究人员希望能通过构建经典的二代基因测序实验室建设数据分析流程,并实现各个环节的高效自动化管理和分析,减轻研究者前期的工作负担,促进相关领域进一步对基因组测序研究项目的顺利开展。
研究人员为此设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程以测序原始序列数据作为输入,调用业界标准的数据处理软件(如:BWA,Samtools,GATK,ANNOVAR 等),较终生成带有相应功能注释、便于研究者进一步分析的变异位点列表。
这程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。用户只需填写配置文件或使用图形界面输入即可完成全部操作,为广大研究者分析二代基因测序实验室建设数据提供了便利的途径。
目前测序数据处理软件很多,研究人员综合考虑了适用性和效率,整合出了一套标准的数据处理流程。具体来说,获得 FASTQ格式的原始测序数据后,需要数据进行以下处理: (1)使用BWA 软件把这些短序列和参考基因组进行对比,确定短序列在基因组上的位置,把短序列组装成完整的人类参考基因组; (2)使用 Samtools 软件把这些短序列调整成按一定顺序(1-22,X,Y,其他)排列的序列,并进行数据格式的转换; (3)使用 Picard 软件把测序产生的冗余信息和噪声去掉; (4)使用 GATK 寻找样本测序数据与参考基因组的差异,列出这些差异点; (5)使用 Annovar对这些变异位点进行功能注释,得到一个易于理解的变异位点列表。