單細(xì)胞測序樣本制備儀,基于Drop-seq技術(shù)*,完成高通量的單細(xì)胞mRNA 3’端測序。關(guān)于單細(xì)胞RNA測序的技術(shù)教程講解,以下是我們整理的講解。
傳統(tǒng)“批量的”RNA測序方法可以一次處理成千上萬個(gè)細(xì)胞,并得到變異的平均水平。但是沒有兩個(gè)細(xì)胞是完全相同的,而scRNA-seq則可以揭示出每個(gè)細(xì)胞獨(dú)特的微妙變化,甚至可以揭示全新的細(xì)胞類型。
例如,在使用scRNA-seq技術(shù)檢測了約2,400個(gè)免疫細(xì)胞后,位于馬薩諸塞州劍橋市Broad研究所的Aviv Regev及其同事發(fā)現(xiàn)了一些具有強(qiáng)大T細(xì)胞刺激活性的樹突細(xì)胞,一種能夠刺激這些細(xì)胞的疫苗可能會(huì)潛在地增強(qiáng)免疫系統(tǒng)功能,并預(yù)防癌癥。
這些發(fā)現(xiàn)來之不易,操縱單個(gè)細(xì)胞比大群體要困難得多,而且因?yàn)槊總€(gè)細(xì)胞只產(chǎn)生少量的RNA,所以沒有任何犯錯(cuò)的余地。此外,另一個(gè)問題是如何分析海量數(shù)據(jù)產(chǎn)生的結(jié)果,因?yàn)槲覀兡壳八褂玫墓ぞ呖赡懿皇侵庇^的。
通常,研究人員需要費(fèi)力地在Unix操作系統(tǒng)中鍵入命令來分析RNA-seq數(shù)據(jù)。數(shù)據(jù)文件會(huì)從一個(gè)軟件包傳遞到下一個(gè)軟件包,每個(gè)工具包在這個(gè)過程中處理其中一個(gè)步驟:基因組比對(duì)、質(zhì)量控制、變異分析等。
這個(gè)過程十分復(fù)雜,但是對(duì)于“批量的”RNA-seq來說,至少已經(jīng)形成了一種共識(shí),即每一步哪種算法適合,以及它們?nèi)绾芜\(yùn)行。因此,現(xiàn)在已經(jīng)有了基本的流程,雖然仍有待調(diào)整,但至少對(duì)非專家來說是可處理的。在分析基因表達(dá)的差異方面,英國癌癥研究所計(jì)算生物學(xué)家Aaron Lun表示,RNA-seq的問題目前來說已基本解決。
但對(duì)于scRNA-seq來說,我們還不能妄言已經(jīng)解決:研究人員仍然在探索可以用數(shù)據(jù)集做什么、哪些算法是有用的。
但是一系列在線資源和工具正在簡化scRNA-seq數(shù)據(jù)分析的過程。在GitHub網(wǎng)站上,一個(gè)名為“Awesome Single Cell”的頁面收錄了70多種工具和資源,涵蓋了分析過程的每個(gè)步驟。西雅圖華盛頓大學(xué)的生物學(xué)家Cole Trapnell說,該領(lǐng)域已經(jīng)催生了計(jì)算生物學(xué)工具的小型產(chǎn)業(yè)。
夏威夷大學(xué)的生物信息學(xué)家Lana Garmire,在去年發(fā)表的一篇評(píng)論中列出了scRNA-seq數(shù)據(jù)分析以及約48項(xiàng)工具的基本步驟。盡管每個(gè)實(shí)驗(yàn)都不盡相同,但大多數(shù)分析流程都遵循著相同的步驟來清理和篩選測序數(shù)據(jù),找出哪些轉(zhuǎn)錄子可以表達(dá),并且對(duì)于擴(kuò)增效率的差異是正確的。研究人員隨后進(jìn)行一項(xiàng)或多項(xiàng)二級(jí)分析,以檢測亞群和其他功能。
Christina Kendziorsk,威斯康星大學(xué)麥迪遜分校的生物統(tǒng)計(jì)學(xué)家說到,在許多情況下,大規(guī)模RNA-seq中使用的工具也可以應(yīng)用于scRNA-seq。但數(shù)據(jù)的根本差異意味著,這并不總是可行的。Lun表示,一方面,單細(xì)胞測序數(shù)據(jù)的背景噪聲更大。在如此少量RNA的情況下,擴(kuò)增和捕獲效率的微小變化,就可能在細(xì)胞間產(chǎn)生與生物學(xué)無關(guān)的巨大差異。因此,研究人員需要對(duì)“批量效應(yīng)”保持警惕,因?yàn)樵诓煌掌谥苽涞目此葡嗤募?xì)胞,可能因?yàn)榧兇獾募夹g(shù)原因而不盡相同,導(dǎo)致“中途退出”的基因在細(xì)胞中表達(dá),但在測序的數(shù)據(jù)中卻沒有發(fā)現(xiàn)。
澳大利亞悉尼心臟研究所的生物信息學(xué)家Joshua Ho也談道,另一個(gè)挑戰(zhàn)是規(guī)模。典型的大規(guī)模RNA-seq實(shí)驗(yàn)涉及的樣品數(shù)量較少,但scRNA-seq研究可能涉及數(shù)千個(gè)樣本。能夠?qū)κ畮讉€(gè)樣本進(jìn)行處理的工具在遇到10倍或100倍數(shù)目的樣本時(shí),處理速度往往會(huì)十分緩慢。
此外,即使是看似簡單的問題,如一個(gè)良好的細(xì)胞制備是如何構(gòu)成的,在scRNA-seq的領(lǐng)域里也很復(fù)雜。Lun的工作流程假定大多數(shù)細(xì)胞具有大致相當(dāng)?shù)腞NA豐度。但他表示,“這種假設(shè)并不一定是正確的”。例如,他談道,從未被抗原激活并且相對(duì)靜止的初始T細(xì)胞往往比其他免疫細(xì)胞具有更少的信使RNA,并且在分析過程中可能會(huì)被移除,因?yàn)槌绦蛘J(rèn)為沒有足夠的RNA來進(jìn)行處理。
或許重要的是,執(zhí)行scRNA-seq的研究人員傾向于從分析大量RNA的問題中提出不同的問題?!芭俊钡姆治鐾ǔJ茄芯炕虮磉_(dá)在兩種或多種治療條件之間的區(qū)別。但是,研究單個(gè)細(xì)胞的研究人員通常旨在識(shí)別新的細(xì)胞類型或狀態(tài),或重建細(xì)胞的發(fā)育途徑。Lun強(qiáng)調(diào):“因?yàn)槟繕?biāo)是不同的,所以這就需要一套不同的工具來分析數(shù)據(jù)?!?/p>
例如,單細(xì)胞分析的一種常見類型是維數(shù)約簡。該過程簡化了數(shù)據(jù)集,以便于識(shí)別類似的細(xì)胞。據(jù)英國劍橋研究所的計(jì)算生物學(xué)家Martin Hemberg所說,scRNA-seq數(shù)據(jù)將每個(gè)細(xì)胞表示為“20,000個(gè)基因表達(dá)值的列表”。 主成分分析(PCA)和t分布式隨機(jī)相鄰嵌入(t-SNE)等維度降低算法,有效地將這些特征投射到二維或三維中,使得相似的細(xì)胞簇易于分辨。另一個(gè)流行的應(yīng)用程序是偽時(shí)間分析。2014年,Trapnell開發(fā)了一個(gè)名為“Monocle”的工具。Trapnell表示,這款機(jī)器學(xué)習(xí)軟件從scRNA-seq實(shí)驗(yàn)推斷出伴隨細(xì)胞分化的基因表達(dá)變化序列,這就像從空中拍攝跑步者的路徑一樣。
此外,其他工具解決了亞群檢測(例如,波士頓哈佛醫(yī)學(xué)院Peter Kharchenko開發(fā)的Pagoda)和空間定位的問題,其使用了關(guān)于組織中基因表達(dá)分布的數(shù)據(jù)來確定每個(gè)轉(zhuǎn)錄組產(chǎn)生自哪里。Rahul Satija工作于紐約基因組中心,他開發(fā)一種這樣的工具,名為“Seurat”。他表示,該軟件利用這些數(shù)據(jù),將細(xì)胞定位為三維空間中的點(diǎn)?!斑@就是為什么我們將其命名為Seurat(Seurat為法國印象派畫家,在繪畫技法上運(yùn)用畫筆一筆一筆點(diǎn)在畫面,這種作品被稱為點(diǎn)彩畫)?!彼忉屨f,“因?yàn)檫@些點(diǎn)讓我們聯(lián)想起了一副點(diǎn)彩畫?!?/p>
盡管針對(duì)特定的任務(wù),這些工具通常涉及多種功能。例如,Rahul Satija的研究團(tuán)隊(duì)通過Seurat進(jìn)行了細(xì)胞亞群分析,以識(shí)別新的免疫細(xì)胞。
加州大學(xué)圣地亞哥分校的生物信息學(xué)家Gene Yeo談道,大多數(shù)的scRNA-seq工具都是基于R語言的Unix程序或軟件包編程的,但相對(duì)而言,很少有生物學(xué)家在這些環(huán)境中工作。即便是這樣,他們也可能沒有時(shí)間下載和配置所有工作,使這些工具發(fā)揮作用。
目前,研究人員已經(jīng)開發(fā)了一些即用型的流程。還有端到端的圖形工具,包括來自FlowJo的商業(yè)化GenSeq軟件包,以及一對(duì)開源的Web工具:來自Garmire集團(tuán)的Granatum和來自瑞士聯(lián)邦理工學(xué)院Bart Deplancke實(shí)驗(yàn)室的ASAP(自動(dòng)單細(xì)胞分析流程)。
ASAP和Granatum使用Web瀏覽器提供相對(duì)簡單的交互式工作流程,使研究人員能夠以圖形的方式探索數(shù)據(jù)。用戶上傳了他們的數(shù)據(jù)后,軟件會(huì)逐步走完他們的步驟。對(duì)于ASAP,這意味著通過可預(yù)處理、可視化、聚類和基因表達(dá)差異分析獲取數(shù)據(jù);Granatum還允許偽時(shí)間分析和蛋白質(zhì)交互作用數(shù)據(jù)的整合。
Garmire和Deplancke也都表示,ASAP和Granatum旨在讓生物信息等多個(gè)領(lǐng)域的研究人員共同合作。研究人員曾經(jīng)認(rèn)為,“(生物信息學(xué)家)獲取數(shù)據(jù)并產(chǎn)生結(jié)果是十分神奇的,”夏威夷大學(xué)博士生、Granatum的開發(fā)人員Xun Zhu表示,“現(xiàn)在研究人員可以參與一些參數(shù)的調(diào)整,這是一件好事?!?/p>
當(dāng)然,這些工具也存在一定問題。例如,在識(shí)別細(xì)胞類型方面性能優(yōu)異的工具可能會(huì)因偽時(shí)間分析而出現(xiàn)問題。此外,加州大學(xué)伯克利分校生物統(tǒng)計(jì)學(xué)家Sandrine Dudoit強(qiáng)調(diào),合適的方法是“非常依賴于數(shù)據(jù)集的”。這可能需要對(duì)方法和參數(shù)進(jìn)行調(diào)整,以考慮諸如測序長度之類的變量。但Marioni談道,重要的是不要完全信任這些流程,他打比方說:“就像衛(wèi)星導(dǎo)航告訴你開車進(jìn)入河流,但你可不能真開進(jìn)河里?!?/p>
對(duì)于初學(xué)者來說,保持謹(jǐn)慎的態(tài)度是有道理的。生物信息學(xué)工具幾乎總是能給出答案;但問題是,這些答案究竟意味著什么?Dudoit的建議是進(jìn)行一些探索性的分析,并驗(yàn)證你所選擇算法的假定條件是有意義的。
Satija還談道,一些分析任務(wù)仍然頗具挑戰(zhàn)性,如在不同實(shí)驗(yàn)條件或生物體間進(jìn)行比較,并整合不同組學(xué)的數(shù)據(jù)。
但是,目前的工具已經(jīng)基本滿足了大多數(shù)研究人員的需求。Kendziorski建議那些感興趣的研究人員可以深入了解。每一種新的工具都可以揭示生物學(xué)的另一個(gè)方面,只要你關(guān)注科學(xué),并做出明智的選擇。
凈信誠邀各大測序公司及技術(shù)服務(wù)公司一起合作,為單細(xì)胞測序的發(fā)展貢獻(xiàn)力量。有合作意向請撥打:021-57790908,郵箱:zhujianming0374@163.com
轉(zhuǎn)摘請注明出處:謝謝配合