97人妻一区二区精品免费,好男人社区www在线官网,办公室娇喘的短裙老师在线视频,亚州精品久久久久久久久

咨詢電話:021-58952328
Science | 使用Evo實(shí)現(xiàn)從分子到基因組規(guī)模的序列建模與設(shè)計(jì)2024-12-05

分享一篇發(fā)表在Science上的文章,文章標(biāo)題“Sequence modeling and design from molecular to genome scale with Evo”,文章的通訊作者是來自斯坦福大學(xué)的Brian L. Hie教授和UC伯克利的Patrick D. Hsu教授,其中Brian L. Hie教授主要從事蛋白質(zhì)語言模型的研究。

1

大語言模型已成功地用于解釋生物序列數(shù)據(jù)。然而,這些模型是模態(tài)特異性的,即,它們專門地用于某種特定的生物序列,比如蛋白質(zhì)序列、RNA序列、DNA中的編碼序列等等。這些模型難以建模跨模式的分子互作,比如基因調(diào)控(蛋白質(zhì)-DNA)、CRISPR(蛋白質(zhì)-RNA)等等。因此本文中,作者開發(fā)了一個(gè)基于基因組數(shù)據(jù)的、具有7B參數(shù)的模型Evo,并聲稱它作為一個(gè)多模態(tài)模型能夠?qū)崿F(xiàn)不同分子的協(xié)同設(shè)計(jì)。

2

作者將訓(xùn)練數(shù)據(jù)集限定在原核生物和病毒的基因組中,共包含約270萬個(gè)基因組。為實(shí)現(xiàn)對(duì)長序列的建模(預(yù)訓(xùn)練中最長的基因組可達(dá)10 Mb),作者通過比較不同架構(gòu)下模型參數(shù)量和驗(yàn)證集上困惑度(Perplexity)的關(guān)系,最終選擇StripedHyena架構(gòu)用于自回歸預(yù)測(cè)。在一系列預(yù)測(cè)任務(wù)上,比如零樣本下的細(xì)菌蛋白質(zhì)適應(yīng)度預(yù)測(cè)、ncRNA適應(yīng)度預(yù)測(cè),以及啟動(dòng)子活性預(yù)測(cè)等任務(wù)上均與現(xiàn)有模型表現(xiàn)相當(dāng)。

3

隨后,為測(cè)試Evo的多模態(tài)協(xié)同設(shè)計(jì)能力,作者在包含CRISPR-Cas序列的數(shù)據(jù)集上微調(diào)了Evo。以需要設(shè)計(jì)的Cas系統(tǒng)種類(Cas9、Cas12、Cas13)為輸入,微調(diào)后的模型能夠生成與對(duì)應(yīng)系統(tǒng)相似的序列分布。生成的EvoCas9-1與已知的SpCas9具有73%的氨基酸序列同一性、相當(dāng)?shù)捏w外切割活性以及更高的切割效率。

5?

最后,作者在基因組規(guī)模上測(cè)試了Evo的生成能力。以物種類型為輸入,Evo將生成大約1 Mb長的基因組。在很多評(píng)估指標(biāo)上,比如序列的編碼密度、編碼序列的排布模式、不同終止子的使用頻率等等均與天然序列相似。作者還展示了由生成基因組所編碼的、由ESMFold所折疊的蛋白質(zhì)結(jié)構(gòu)。這些結(jié)構(gòu)大部分呈現(xiàn)出球形折疊,并且與自然界中的一些功能蛋白呈現(xiàn)出結(jié)構(gòu)相似性。

本文作者:ZF
責(zé)任編輯:WYQ
原文鏈接:https://doi.org/10.1126/science.ado9336
文章引用:10.1126/science.ado9336
主站蜘蛛池模板: 富蕴县| 康乐县| 甘谷县| 永登县| 思南县| 宁波市| 信丰县| 特克斯县| 峨眉山市| 鄂托克旗| 仙桃市| 昌吉市| 西华县| 健康| 通州市| 鄂托克前旗| 阿城市| 兴城市| 鄂伦春自治旗| 丹棱县| 嵊泗县| 馆陶县| 昌吉市| 东莞市| 郴州市| 太仓市| 武川县| 黄大仙区| 通河县| 黄骅市| 银川市| 丰城市| 林芝县| 海口市| 钟祥市| 永平县| 平阳县| 临西县| 澎湖县| 酒泉市| 枞阳县|