当前位置: 生命经纬 > 生命科学 > 生物化学与分子生物学 > 文章正文  
人类基因组

BIOX.CN 时间:2006-9-5 来源:New York University
人类基因组大约由30亿碱基对构成. 只有百分之一是含有与蛋白质合成相关基因的外显子(exon), 其余的99%是内含子(intron)重复序列(repetitive sequence),具体功能尚待证实. 也就是说,基因仅占基因组的1%. 破译一个碱基需要一美元, 所以破译全基因组耗资30亿美元. 含核细胞中含有人类基因组, 基因片断可以表达蛋白质. 细胞不同以及处于不同发育阶段导致了蛋白质不同. 换句话说, 一个人的所有细胞含有相同的基因组, 但是每个细胞根据环境表达不同的蛋白质. 骨细胞产生骨发育有关的基因, 肌肉细胞为肌肉生产蛋白质. 人类基因数量曾被估计为约100,000, 但现在估计约为 30,000 ~ 40,000左右, 不到低等生物如线虫(C. elegans)果蝇(drosophila)的基因数的两倍. 虽然没有确凿证据证明基因数量和现存生物中生命复杂程度之间的联系, 一场关于预估基因数的争论旋风仍然在进行. 因为如果研究者们不断研究已知基因的相似结构从而推断新的基因, 新的结构很可能被错过, 我们很可能看不到剩下的基因组的1%.

研究者们曾一度仅热衷于蛋白质在其上合成的基因. 从全基因组中利用mRNA的反合成仅破译基因的方法被广为使用, 在这一过程中基因表达蛋白质. mRNA可被用来合成相应的DNA链, 我们叫它cDNA, 或者 cDNA文库(library)因为一个细胞中的整个mRNA都被逆转录为cDNA. 一旦一个cDNA库渗透到大局杆菌(e.coli)中, 就可以培养含有cDNA的大局杆菌, 然后就可以进行测序. 通常读取首端及末端的几百个碱基序列, 然后把它们与已有数据库中的序列进行比较从而确定它们是新的还是已知基因. 国家卫生研究院(NIH)提供名位Blast的为此目的广泛使用的软件.

Blast 软件: http://www.ncbi.nlm.nih.gov/BLAST/ 

有时并不是全序列都被转录, 而是仅一些部分被取出以做成表达序列标签(EST). 尽管EST是不完全片断, 它们可以被组合起来描述最初完整序列或者揭示一些基因出现的频率. 然而, 因为一些基因非常罕见甚至根本难以见到, 描述完整基因序列仍然是非常重要的. 当我们知道了全序列后我们同样可以在基因组上定位EST发现的基因. 根据注册的EST数量计算, 人类基因数量超过100,000*(* 排除重叠结果是120,000). 如果相同基因仅表现为一些EST片断, 计算值将高于真实值.

EST 数据库 (Entrez): http://www.ncbi.nlm.nih.gov/Entrez/index.html

一个人类的基因组约有一米(稍逾3英尺). 如果可以把基因组列成一排成批破译, 人类基因组计划将是非常容易完成的. 然而解链DNS并将其列成一排非常难, 因为人类DNA包含相互折叠的46条染色体(chromosomes)-22对和一对XY(男性)或XX(女性)性染色体. 广泛应用的是一种替代方法,即用特定的 酶(enzymes)把DNA切成片断, 逐个分析然后得到全序列. DNA测序反应(Maxim-Gilbert, Sanger, 1977), PCR技术(K. Mullis, 1983), 及荧光自动测序法(Smith, 1986)是基因组计划的赖以进行的三种最重要的技术. 

多国合作小组将30亿碱基对切成几个细菌人工染色体(BAC)片断, 然后切成更短的片断以便使用碱基序列分析仪. 普通BAC含有约150,000碱基对, 这就是说200,000个BAC就可以足够包含全人类基因组. 理论上说200,000个BAC足够了, 但事实上他们使用了300,000个BAC. 因为DNA自动测序仪可一次读取约500碱基. 他们随机截取BAC克隆体并读取首端和末端各500个碱基, 然后组合得到大于1000碱基的全序列. 通过比较重叠的片断, 连接然后重建序列. 多国合作小组通过分析5800万碱基的重叠读取了230亿碱基对序列, 这是人类基因组的八倍. 99%草图有400,000个片断. 其余的1%是将这些片断连接以及24条染色体(22对和X,Y), 尚待后续工作. 


HGP 实验室 (350)

Whitehead Institute for Biomedical Research: www-genome.wi.mit.edu
Sanger Centre: www.sanger.ac.uk
Washington University St. Luis Genome Center: genome.wustl.edu/gsc
DOE JOINT GENOME INSTITUTE: www.jgi.doe.gov
Bayor College of Medicine human Genome Center: www.hgsc.bcm.tmc.edu

Celera的进展略有不同. 他没有使用BAC克隆体而是将全基因组随机切成几千万片断, 读取每一片段的序列然后拼接它们. 尽管看上去更直接, 由于要比较几千万个序列信息并找到重叠部分, 这项工作需要大量的计算机工作. 为解决这个问题Celera的合作者们发明了高效的生物信息学(Bioinformatics)运算法则, 从而得以短期内赶上多国合作小组的工作.

两个小组都使用了荧光分析仪来读取500-1000个丙烯酰胺硅胶中末端使用了荧光物质的DNA片断, 并通过分子量的不同来分离. A, T, G和C. 碱基显示指定的不同的颜色, 这样就测定了DNA序列.


ADAPTED FROM FIGURES PROVIDED BY E. GREEN
NATIONAL HUMAN GENOME RESEARCH INSTITUTE

根据百慕大宣言, 多国合作小组的碱基序列信息可被任何人24小时免费使用. 这些网站相互交流且每日更新, 每个提供的都是最新信息. 


GeneBank: www.ncbi.nlm.nih.gov/Genbank
EMBL: www.ebi.ac.uk/embl
DDBJ: www.ddbj.nig.ac.jp

但是Celera仅允许大学及研究机构在其网站上免费使用100万碱基的信息. 如果需要更多或者进行商业研发, 你将需要填一份仅供纯研究目的使用的誓词. 也就是说, 商业使用需要付费. 同时Celera将对大约200个基因申请专利, 这些基因被认为是和疾病相关的, 尽管绝大部分基因将被公诸于众.




阅读: 责任编辑:Vitamin

评论】【字体: 】【关闭

■ 相关链接
冻鲳鱼片
冻带鱼段
冻鲳鱼
冻黄鱼和冻带鱼
冻银鱼
冻生虾仁
冻熟虾仁
活体日本对虾出口
罗非鱼鱼糜生产
对虾的收获与保鲜

站内搜索