以人工智慧一窥基因钥匙孔

2020-06-17 浏览量: 811

以人工智慧一窺基因鑰匙孔

虽然每一个细胞携带的基因组相同,但不同的表观基因体影响着细胞的基因表现。过程中,需要分子辨识来判别组合的构造,这就如同钥匙与锁头的对应关係,若形状不符,即配对失败。科学家想知道的是:钥匙孔在哪里?型态如何?然而同一把钥匙,偌大的基因组中可能会有上千或上万个钥匙孔,如何按部就班地逐一排除,找出正确的配对,正是AI介入生医研究的契机。

我们都是超级电脑—基因运作机制与开关调控

人体有几十兆的细胞,每个细胞都拥有相同的染色体,双股螺旋状的含氮检基,承载着基因资讯。陈倩瑜教授将细胞比拟作小型的电脑,而装有十几兆细胞的人体,正如同超级电脑。这些小型电脑有着同样的作业系统、应用程式,她比拟每一个基因就像一种应用程式,有两万多种。

DNA 由 A、C、G、T 四种含氮硷基组成,可以视为四进位制的资讯科学。将数量加总,人体的基因组共有长达三十亿位元(3G)的资料。将资讯分作 23 对染色体,两套分别来自父系、母系,细胞像是有双作业系统,有时两套同时运作,有时只有一套。总和起来,每人有自己独特的 6G 资料,这些巨量的资料在当代社会已经不成问题,目前学术研究可用 1000 美金(约新台币 30000元)取得一个人身上的所有基因序列。

个体差异起因于人们身上的DNA变异,将个人的基因组和人类参考基因组相比,将会有很多相异之处,例如点突变(point mutation)。每个人身上的变异约有 3M,以总量 3G 计算,人们彼此约有千分之一的个体差异。这些差异中,又有 98% 变异发生在非编码区域,所产生的影响未知。

既然每一个细胞携带的基因组相同,何以细胞表现的形态差异极大?关键在于不同的细胞的表观基因体(epigenome),意即 DNA 当下的状态,某些基因区段关闭(off)、某些打开(on)。人有 1400~2000个转录因子影响着其他基因的表现,过程中需要分子辨识来判别组合的构造,这就如同钥匙与锁头的对应关係,若形状不符,即配对失败。科学家想知道的是:钥匙孔在哪里?型态如何?同一把钥匙,偌大的基因组中可能会有上千或上万个钥匙孔,这正是挑战所在。

机器学习基因钥匙孔

陈教授与我们分享生物学家如何利用染色质免疫沈澱-定序(ChIP-seq)技术来帮忙寻找钥匙孔,ChIP-seq先将卡在 DNA 上的蛋白质锁住,用抗体抓住特定的转录因子,接着把蛋白质洗掉,就可知道细胞在此时的状态,哪些蛋白质键结着哪些 DNA。透过电脑分析序列片段,可望知道何时基因会开启/关闭、有哪些钥匙孔存在。

电脑在DNA片段中寻找钥匙孔的过程和进行影像辨识很像,陈教授以乳房摄影的影像判读为例,说明AI工程师如何利用卷积神经网路(Convolutional Neural Networks,CNN)自大型的影像中寻找潜在的肿瘤。过往电脑判断总不精準,多是透过经验老道的放射科医师来分辨。如今透过专家标注、深度学习,机器也能辨识出潜在的乳房肿瘤。同理,含氮检基的四个字母可以转换成四维资料,放入卷积神经网路中,让电脑学习这些模式(pattern),学习成功以后,可以得知钥匙孔的模样,之后得以透过数学模型来评估人体的变异是否影响钥匙孔的功能。

精準医疗是当代医疗界的重要命题,期许能透过客製化的疗程、用药,让治疗发挥最大效益。若要了解疾病用药的了解,就必须先从变异切入。

DNA变异致病的可能途径为:序列变异(variant)、基因调控(regulator)、基因功能(gene)、基因表现(cell)、器官异常(organ)、临床病症(sign)、遗传疾病用药反应(disease),由小至大的层次是基因(genetic)、表现(expression)、症状(symptom)、疾病(disease)。

变异可能影响基因功能,也可能透过基因调控造成异常。这中间的漫漫长路,还有待科学家釐清。目前能透过大量资料进行研究,200 多种细胞型态(cell type)中,各有上百个转录因子,它们结合的影响,可透过机器学习来了解。

从理论到应用:实例分享

短讲结束前,陈教授和我们分享三个进行中的研究。第一是病虫害抗药性研究,农民使用农药以后,带有抗药性基因的个体会存活,而后大量繁殖,族群对该农药产生抗药性,使得农药失效。科学家想探究的,便是这些抗药群体与非抗药群体的关键差异。然而群体间的差异往往成千上万,在辨识过程,有许多伪阳性(false positive)需要仔细检验。

第二是抗豆象绿豆研究,在野生的绿豆中,有一品系具有抗豆象的基因,研究者希望可以将关键的序列差异找出,然而要从成千上万的差异中找到关键的变异,仍是挑战。最后,陈教授分享台湾特有种帝雉的全基因定序,透过生医研究解开美丽帝雉蕴含的基因密码,更进一步了解这种宝岛瑰宝所带有的秘密。

对于人工智慧在基因解码的应用,陈教授认为这是一个帮助大家了解自己、了解共生于地球生命的方法。透过这项技术,不只可以认识自己身上的基因变异,也可以为当代的医疗寻找新的解方。

(本文为教育部「人工智慧技术及应用人才培育计画」成果内容)

上一篇: 下一篇:

相关推荐