【科普】高通量测序的11个常用名词解释

时间:2015-04-23 作者:

点击上面蓝字↑↑↑关注【解螺旋】


——日读一帖,解螺旋大V团队伴你科研路

【科研热点】让你时间比别人花的少、知道的比他早!

【基金专栏】国自然等各项基金独到经验见解

【SCI 专栏】从开始到接收全程tips

【实验技能】这么棒快告诉你老板!

 关注我们,为您的科研路提速


来源:基迪奥生物微信公众号


我们在跟老师交流的时候,发现很多老师对一些高通量测序的概念还不了解。所以今天,我们来科普一下高通量测序领域的一些基本概念。我们尽量在语言上做了精简。还在迷糊中朋友的赶紧mark起来吧~



什么是Read?

高通量测序平台产生的序列标签就称为reads。


什么是soft-clipped reads?

当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。


什么是Contig?

拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。


什么是Scaffold?

基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。


什么是Contig N50?

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。


将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。


什么是Scaffold N50?

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。


将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。


什么是SNP、SNV(单核苷酸位点变异)


单核苷酸多态性singlenucleotide polymorphism,SNP或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。


人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。


什么是INDEL (基因组小片段插入)

基因组上小片段(>50bp)的插入或缺失,形同SNP/SNV。


什么是CNV?

copy number variation(CNV):基因组拷贝数变异


基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。例如人类正常染色体拷贝数是2,有些染色体区域拷贝数变成1或3,这样,该区域发生拷贝数缺失或增加,位于该区域内的基因表达量也会受到影响。如果把一条染色体分成A-B-C-D四个区域,则A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分别发生了C区域的扩增及缺失,扩增的位置可以是连续扩增如A-B-C-C-D也可以是在其他位置的扩增,如A-C-B-C-D。


什么是SV?

structure variation (SV):基因组结构变异

染色体结构变异是指在染色体上发生了大片段的变异。主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosome trans-location)等。一般SV的展示利用Circos 软件。


什么是genefusion?

将基因组位置不同的两个基因中的一部分或全部整合到一起,形成新的基因,称作融合基因,或嵌合体基因。该基因有可能翻译出融合或嵌合体蛋白。




解螺旋Meta分析培训班广州站5.09-10日举行,有兴趣的朋友请下拉到底部点击左下角“阅读原文”查看详细信息!




解螺旋每月为您精心准备一份科研资源包,4月资源包包含以下内容

  • snapgene软件;

  • SPSS 20.0软件;

  • GraphPad Prism 6 破解版;


  对上述资源包有兴趣的朋友请转发此文至朋友圈后向解螺旋微信助手索取,助手微信号:helixlife0,二维码如下


扫一扫添加(请长按上图,助手二维码不怕痛)喵~



近期解螺旋最受欢迎的文章

解螺旋订阅号页面回复索引号相关数字)


SCI作图实例演练(索引号:213)

医疗卫生系统的坑爹自黑式宣传(索引号:232)

2015年NSFC指南核心内容解读(索引号:244)

你的细胞太丑了,快救救它吧!(索引号:257)

OMG!NCBI竟然能批量下载基因序列!(索引号264)

杂志界的快枪手!投稿3天居然就接收了!!(索引号:272)

医学SCI投稿必须注意的“礼仪”你都知道了吗?收藏备查噢!(索引号276)

lncRNA 的研究策略和技术方法(索引号:282)

7分的Cell Reports文章深度剖析!(索引号:273)

基金摘要的凝、集、推、解四段心法(索引号:284)


【怎么查索引号对应的文章?】

  如需查看以上文章,请点击页面右上方,点击“查看公众号”并关注!在解螺旋订阅号页面下方此处输入索引号即可:

  输入“目录”查看文章列表!

解螺旋

做或不做科研,从医之路大不同!解螺旋,一个帮临床医生提高科研能力,分享学术经验,争取行业话语权的平台!

微信号:HelixLife





( 登录 后评论送积分,积分详情请登录 掌上医讯移动端 )