單細胞入門-讀一篇scRNA-seq綜述講解:
1.1. 實驗
簡單回顧測序技術的發(fā)展,從桑格爾發(fā)明雙脫氧末端終止法(一代測序)到人類基因組計劃歷時13年耗費30億美元,測序一直很貴,直到高通量的邊合成邊測序技術(二代測序)出現(xiàn)。隨著測序價格的不斷下降,2009年開發(fā)出了單細胞轉錄組測序方法(湯富酬)。
經(jīng)過8年多時間的發(fā)展,如今不同的scRNA-seq流程有了大量改進,它們一般都分為四步:
1. 單細胞(核)的分離和裂解
2. 反轉錄
3. cDNA擴增
4. 測序文庫制備
1.1.1. 單細胞分離的步驟至關重要
除游離細胞外的細胞分離,有兩條路線:
i. 組織切片 - 激光捕獲顯微切割(LCM)或者 膜片鉗(Patch clamp)
ii. 酶法去除細胞間質 - 各種微操技術分選出單個細胞(各有優(yōu)劣)
微吸(Micro-pipetting)適用于細胞量少或比較珍貴的樣品,通量低。
流式細胞分選(FACS)和微流控(Microfluidic)設備適用大量可用細胞,通量高。
● FACS同樣用于篩選特定標記的某類細胞,它可能分出不止一個細胞和造成細胞損傷。
● 微流控更加溫和,用于高度標準化的自動化流程,缺點是假定細胞損失和細胞大小偏好,目前的商用設備包括10X Genomics的Fluidigm C1系統(tǒng)和Illumina的Biorad SureCell系統(tǒng)(含ddSEQ細胞隔離器)。
微管平臺(Microwell platforms)能夠消除細胞大小偏好,也可以通過顯微觀察排除分出多個細胞的情況,商用設備有WaferGen的ICELL8單細胞系統(tǒng)。
多數(shù)單細胞收集方法都要求樣品是完好的新鮮組織,因為微環(huán)境的改變影響正常細胞過程;酶促反應也可能使細胞產(chǎn)生應激,從而改變基因表達。有一個辦法來避免這些問題,那就是只收集細胞核,細胞核包含未加工的mRNA和很少的mRNA。細胞核很黏,目前只有FACS能做到這一點。
1.1.2. 反轉錄
大部分公開的流程都是使用oligodT引物,可以捕獲到具有多聚結構的mRNA和少部分lncRNA。
SUPeR-seq使用了混合oligodT和六堿基隨機引物的方法,然而它沒有去除rRNA卻只檢測到很少的rRNA,猜測是沒有把二級結構打開。
MATQ-seq近期被報道比Smart-seq2更靈敏,產(chǎn)量更高。它是基于MALBAC引物設計的,能做到全基因覆蓋,檢測總RNA。
1.1.3. cDNA擴增
反轉錄結束后,有多種策略合成了第二條cDNA鏈
一種是SMART技術(switching mechanism at 5' end of RNA template)
這個系列包括Smart-seq,Smart-seq2,STRT,利用轉移酶和小鼠白血病病毒反轉錄酶來進行鏈置換并加上后續(xù)PCR擴增的接頭。
PCR是常用的指數(shù)擴增技術,很容易因為GC含量的差異造成擴增偏倚。
另一種就利用了體外轉錄的方式(IVT)進行線性擴增
這個系列包括CEL-seq,MARS-seq,CEL-seq2,通過將T7啟動子連在oligodT引物上,可以在cDNA合成后啟動IVT。IVT取消了對模板置換的需求。
另外,MALBAC-RNA使用準線性擴增,它的引物能生成末端互補的擴增子,形成閉環(huán)來防止指數(shù)復制。
1.1.4. 方法選擇以及測多少細胞
不同的技術流程按照cDNA覆蓋大致可以分為兩類:全長(full-length)和基于標簽(tag-based)。
全長的方法試圖得到基因體均勻讀長覆蓋并增加匹配序列數(shù),更適合亞型發(fā)現(xiàn)、剪切事件、SNP鑒定等等分析。一大缺陷是建庫通量較低,難以混樣測序。更重要的是,它不能結合UMIs(unique molecule identifiers)來進行數(shù)字量化。有一個例外,MATQ-seq可以把barcodes和UMIs整合到MALBAC引物上,從而克服這個缺陷。
基于標簽的方法可以繼續(xù)細分成5'還是3',主要優(yōu)點是能結合UMIs,可以混合多個樣品,允許基因水平的定量優(yōu)化。因為讀長被限制在序列一端,相對而言靈敏度較低,大部分僅用于基因表達定量。
選擇什么方法取決于要回答的生物學問題。如果是發(fā)現(xiàn)細胞類型和鑒別組織成分,兩種方法都可以?;跇撕灥姆椒梢栽诜崔D錄之后把所有樣品混在一起,價格更便宜規(guī)??梢愿蟆H绻堑任换虮磉_、不同亞型的發(fā)現(xiàn),全長的方法更加合適。這些方法中,Smart-seq2在靈敏度和產(chǎn)量上都表現(xiàn)出眾,不過要用到Tn5,比較貴,如果有很多很多的細胞要測,比如4000個,那么Drop-seq也是很好的選擇。
關于靈敏度,需要考慮測序深度。這些方法都有一個共同點,當一個樣品測到1M reads之后,靈敏度開始變得比較穩(wěn)定,從1M reads 測到 4.5M reads,靈敏度只略微提升。
需要多少細胞的數(shù)據(jù)用來分析,取決于細胞類型的罕見程度。
Nicholas E. Navin提供了一個計算公式 P(d) =1-(1-s)^n
P(d):檢出能力(detection power) s:等同于亞克隆頻率(subclonal frequency) n:要測的細胞數(shù)
如果感興趣的細胞亞型占比約為1%,需要測250個細胞使檢出能力達到0.9,需要測500個細胞使檢出能力達到1.0。另外也需要做重復實驗來評估假陽性率和假陰性率。
需要的細胞數(shù)和必要的測序深度同樣依賴于感興趣的細胞與其他細胞的差異程度,如果這種細胞有非常獨特的轉錄特征,那么測的細胞數(shù)少一點,測序深度淺一點也是可以的。
1.1.5. scRNA-seq的技術挑戰(zhàn)
SingleCell的問題:細胞與細胞之間有很強的異質性。
只有一個細胞,初始數(shù)據(jù)量就小,噪音就大。
RNA捕獲效率不穩(wěn)定,文庫制備的隨機丟失會制造技術噪音。
隨機基因表達,不同的細胞狀態(tài)細胞大小細胞周期會產(chǎn)生生物噪音。
批次效應使高通量的實驗數(shù)據(jù)存在系統(tǒng)誤差。
認真規(guī)劃實驗步驟,作多次生物學重復可以降低批次效應,然而生物樣品的遺傳背景是很難通過實驗步驟來控制的。
鑒定批次效應的一個辦法是通過主成分分析(PCA),看細胞是否會按照相應的起源進行分群。
為了解釋技術操作帶來的誤差,通常加入外源的RNA進行質控。不同濃度、長度、GC含量的合成RNA可以起到監(jiān)控作用。
但是外源樣品與內源RNA的分子特征并不會完全相同,對照作用有限。
怎么減少RNA損失,使信息能夠保真是scRNA-seq的關鍵性挑戰(zhàn),測序結果仍需要謹慎對待,建議做功能性驗證。
1.2. 應用
過去幾年,scRNA-seq已被應用于發(fā)現(xiàn)新的細胞類型,探索動態(tài)發(fā)育過程,鑒定基因調控機制,揭示隨機等位基因表達。
這篇綜述只著重介紹了胚胎植入前發(fā)育和大腦皮層,在這兩個方向上scRNA-seq有了巨大的概念性發(fā)展。
1.2.1. 胚胎植入前發(fā)育
生命起源于一個受精卵,受精卵的分化過程受轉錄水平調控形成三個主要的細胞譜系。這個過程里有幾個長期存在的問題:1. 單個卵裂球之間是何時出現(xiàn)差異的?2. 三個細胞譜系如何及時分離?3. 胚胎基因組是何時激活的?4. 早期的規(guī)范化事件是否存在物種間差異?
scRNA-seq為這些問題的解答提供了新的思路。早先對小鼠胚胎的早期卵裂球進行實驗操作(包括增、減單個細胞),都不會影響到胚胎發(fā)育,表明早期卵裂球會經(jīng)歷一個調節(jié)發(fā)育(受到感應信號可以變成任何細胞類型)。然而scRNA-seq的結果顯示,早在四分體時期,卵裂球間已經(jīng)存在分子不對稱了。后來通過比較滋養(yǎng)外胚層(TE)和內細胞團(ICM)的細胞命運,鑒定出Sox21基因在四分體時期存在穩(wěn)定的異質表達,并且影響后代細胞的分化路線。在植入前發(fā)育的各個階段,通過scRNA-seq可以得到一個全過程的基因動態(tài)表達視圖,跨物種數(shù)據(jù)比較發(fā)現(xiàn)人和小鼠的胚胎發(fā)育存在很多的生物學差異,如胚胎基因激活時間,細胞譜系建立時期,等位基因特異性表達情況等等。對人類胚胎細胞進行具體的功能研究比較困難,后面換成了相近的獼猴細胞。
1.2.2. 小鼠大腦皮層
在神經(jīng)系統(tǒng)科學領域,對所有哺乳動物的神經(jīng)細胞進行系統(tǒng)性分類是一個長期的目標。理解大腦的細胞構成有助于破譯它的功能和連接性。不同的研究表明,對來自小鼠大腦不同區(qū)域的細胞做scRNA-seq,進行細胞分群,發(fā)現(xiàn)中間神經(jīng)元具有更大的異質性,暗示中間神經(jīng)元細胞具備更加復雜多樣的功能。通過基因表達譜得到的細胞類型分類是否顯著關聯(lián)不同的功能性質還有待進一步的研究,這些實驗的方法都顯示有一定的偏好性。
為了讓基因表達直接關聯(lián)解剖、形態(tài)、功能的屬性,兩個實驗室同時開發(fā)出了Patch-seq,這個技術把全細胞電生理膜片鉗記錄與scRNA-seq相結合。
其中一個實驗室結合膜片鉗和Smart-seq2,在新皮質L1外層分析了58個皮層細胞,這項研究使用了機器學習以不同的放電模式來進行細胞形態(tài)分類,結果跟來自基因表達譜的分群結果對應的很好。58個細胞分出兩種細胞亞型,eNGCs和SBCs,重要的是,發(fā)現(xiàn)SBCs富集了四個神經(jīng)精神病相關的基因。
另一項研究使用膜片鉗和STRT-seq,在軀體感覺皮質的1/2層分析了45個中間神經(jīng)元和38個椎體神經(jīng)元細胞,根據(jù)電生理性質和形態(tài),分為5個亞型和3個亞型。這八個亞型跟scRNA-seq鑒定到的分群結果相吻合,從而確認了Patch-seq方法的有效性。
Patch-seq的分析適用于離子通道和受體基因研究,可以預測神經(jīng)生理學表型。跟鮮活細胞的scRNA-seq相比,Patch-seq捕獲到的基因顯然更少,通量相對更低,然而正因為有不同的單細胞測序方法,使得從單細胞尺度上深入分析分子特征、形態(tài)和異常復雜組織的功能成為可能。
1.3. 未來展望
1.3.1. 空間轉錄組
單分子原位熒光雜交技術(smFISH)在2008年被開發(fā)出來,用作單細胞尺度的組織RNA定量,它使用帶熒光基團的20bp核酸探針。這項技術受限于能夠同時檢測到的轉錄本數(shù)量,后來引入分組探針文庫的組合標簽克服了這一缺陷。隨著七種光轉換染料和空間條碼結合超分辨顯微技術的使用,能夠同時檢測到的基因數(shù)進一步增加。高分辨率的顯微鏡能夠識別結合了同一種探針實際序列不同的mRNA。接著,通過使用順序輪的雜交、成像、探針剝離來給mRNA加條碼,繼續(xù)優(yōu)化了該方法。smFISH的一大優(yōu)勢是雜交效率很高,能夠檢測到95%的mRNA。smFISH適用于剪切變異、染色體位點以及SNP。類似的,熒光原位RNA測序(FISSEQ)也使用基因特異的探針來讀取空間基因表達。跟smFISH明顯不同的是,F(xiàn)ISSEQ的reads比RNA-seq還少很多,豐度不夠??傮w上看,以上這些原位熒光的方法想要覆蓋整個轉錄組,都比較費時費力。
使用LCM的單細胞空間轉錄組方法已經(jīng)被開發(fā)出來了。LCM可以從速凍組織切片中仔細分離出單個細胞,分辨率能達到亞細胞水平。LCM適用于任何胚胎和成熟時期,特別是那些難以分離的組織。通過簡單的組織染色或者快速的抗體染色可以鑒定出感興趣的細胞。LCM是與全轉錄組基因芯片結合,然后是RNA-seq,直到現(xiàn)在,需要的細胞數(shù)也是數(shù)百上千。結合scRNA-seq和LCM的LCM-seq,通過直接裂解分離的細胞,消除通常是在LCM之后的RNA隔離步驟,可以簡化流程,降低技術噪音,減少費用。同時每個細胞的空間信息都保留了下來并且不需要組織分離步驟,從而能夠在單細胞水平同時研究細胞異質性和空間差異。保留空間信息的重要性不應該被低估它可能是組織內細胞識別的關鍵性因素。此外,因為細胞在分離前保留了原有位置的連接信息,比起需要進行組織裂解的測序方法,更能夠反映生物體內的真實情況。LCM-seq另一個優(yōu)勢是可以用于缺損和部分退化的組織。然而,至今為止的一大缺陷是RNA有一些片段化,即使處理的時間很短也一樣,所以覆蓋度比起鮮活細胞要低,不能作RNA剪切的深入分析。LCM染色的后續(xù)優(yōu)化有可能克服這一障礙。
一種叫作”空間轉錄組(spatial transcriptomics)“的優(yōu)雅方法近期被開發(fā)出來,能夠不分離細胞直接使用完整的組織切片進行轉錄組分析。組織切片被放置在slide上,使用含有獨特空間條碼標記的反轉錄引物。 slide上布滿直徑100微米間隔200微米的孔,孔內有接近兩億個寡核苷酸探針。組織經(jīng)過通透性處理后加上反轉錄試劑,組織被酶解,留下cDNA與slide上排列的探針結合。這種方法的分辨率很高,100微米,對于整體空間信息的接收在時間上非常高效。但是不容易顯示出細胞的異質性,因為細胞大小的差異,這種方法只能展示出特定二維坐標下單一或多個圖層的空間信息。
1.3.2. 單細胞多組學
測序技術目前已經(jīng)能夠從同一個細胞中獲取基因組、表觀組、轉錄組和蛋白組的情況。因此,可以整合每個細胞的DNA、RNA、蛋白還有表觀修飾的信息得到一個綜合的理解。為了這個目的開發(fā)的方法有:DR-seq和G&T-seq,同時分析基因組和轉錄組;scTrio-seq,基因組、轉錄組和甲基化譜;scM&T-seq,轉錄組和甲基化譜;PEA-qPCR,蛋白和一個基因panel。同時研究基因組和轉錄組可以在基因表達水平關聯(lián)CNV、染色體混合和調控因子的SNV。還可以揭示克隆結構和細胞亞型,直接聯(lián)系基因型和表型。另一方面,結合轉錄組和甲基化分析,可以知道單細胞中基因組不同功能因子的DNA甲基化水平與基因表達水平的關系。未來把總RNA,小RNA,染色體重組和結構結合到單細胞多組學里,可以更加詳細的描述正常細胞功能和疾病過程。
另一個新興的前沿研究是結合系統(tǒng)基因功能分析和scRNA-seq分析。
1.3.3. 人類細胞圖譜和精準醫(yī)學
2016年一群科學家開啟了人類細胞圖譜計劃(Human Cell Atlas),目前已經(jīng)包括了免疫系統(tǒng)、中樞神經(jīng)系統(tǒng)、上皮組織、胚胎細胞和癌癥。這個計劃將會提供一個囊括了細胞類型、標記基因、信號通路和調控機制的綜合參考視圖,給不同個體和疾病的組織帶來更好的生物靶標識別和藥物標靶,從而進一步發(fā)展精準醫(yī)學。
1.3.4. 把轉錄水平的差異關聯(lián)到細胞類型和功能
scRNA-seq的數(shù)據(jù)已經(jīng)表明,在大腦不同區(qū)域和不同的組織,細胞間的異質性比之前預計的還要大。面前更艱巨的任務是從功能上評估RNA成分的異質性具體在何種程度上影響了相關細胞表現(xiàn)出不同的功能。大部分的scRNA-seq研究對此有所描述,仍未清楚的是,多大程度的轉錄組差異會導致細胞功能的區(qū)別,使細胞成為不同的類型而不是同類型細胞的不同可選狀態(tài)。某(幾)種轉錄本的表達量積累到什么水平能夠看到明顯的細胞功能改變?這取決于該基因的功能以及其他的基因表達,還取決于特定轉錄本的穩(wěn)定性和半衰期。不經(jīng)過功能測試就將功能與轉錄水平關聯(lián)起來不是一個簡單的任務。無論如何,細胞和分子生物、生物化學、生理學以及數(shù)學模型的結合,將來肯定能夠解答革命性的scRNA-seq技術還不能回答的問題。單細胞技術在未來的生物功能注釋中將會是不可或缺的工具。
1.4. 分析
這篇綜述沒有提到具體的數(shù)據(jù)分析。
(文章來源: 單細胞天地 轉載僅供參考學習及傳遞有用信息,版權歸原作者所有,如侵犯權益,請聯(lián)系刪除)