
生命科學中的許多重大發現都是從細胞與生物功能密切相關性中認識到的。在發育生物學中,諸如子細胞之間的對稱破壞和細胞命運決定等中心主題都是基于細胞之間的空間關系。在臨床環境中,組織病理學常被用作一種結論性的診斷工具,正是因為許多疾病的特征是組織中的空間特異性。感染和炎癥過程可以徹底改變組織中的細胞結構。這些發現得到了包括原位雜交(ISH)和免疫組化在內的分子生物學方法的支持,這些方法通過繪制組織內的DNA、RNA和蛋白質,提供了更直接可視化的生物過程。然而,這些方法一次最多只能分析少量的基因或蛋白質。
“組學”革命深刻地改變了我們描述細胞特征的能力。新的方法可以檢測細胞中的全基因組、轉錄組或蛋白質組,而不僅僅是一些RNA或蛋白質標記物。基因組測序、蛋白質組學等分子圖譜技術已經改變了生物醫學研究,但這些技術大多需要組織分離,導致組織形態和空間信息的丟失。空間分子圖譜技術的最新發展使得細胞能夠在保持其空間和形態完整的情況下進行全面的分子表征。分子圖譜數據生成細胞的遺傳、轉錄和蛋白質組的深層特征,而組織圖像捕獲細胞的空間位置和形態特征。
空間轉錄組技術介紹
雖然空間轉錄組學技術的關鍵,在可檢測基因的數量和可檢測組織的大小方面存在很大差異,但本文重點討論了能夠跨組織區域進行轉錄組水平檢測的技術。主要是空間轉錄組技術:1)基于NGS技術,在NGS測序前將位置信息編碼到轉錄本上;2)基于成像的方法,包括原位測序(ISS)——轉錄本在組織中擴增和測序,和基于ISH的方法——成像探針在組織中被連續雜交。這些不同的技術可以被看作是匯聚在一個基因表達矩陣上,該矩陣捕獲了每個點(即一個像素、一個細胞或一組細胞)的轉錄組。
1. 基于NGS技術的方法
2016年發表的空間轉錄組學(ST)技術可以得到空間分辨的全轉錄組信息。2018年底,ST技術被10x Genomics公司收購并進一步開發,命名為 "10x Visium"。10x Visium檢測法在分辨率(直徑55μm,條形碼區域之間的距離更小)以及運行時間上都有改進。
Slide-seq代替在玻片上打印區域條形碼RT引物,它利用放置在載玻片上的隨機條形碼珠子來捕獲mRNA。在Slide-seq方法發表后不久,另一種使用更小的條形碼珠子的技術發布,命名為高分辨率空間轉錄組技術(HDST)。近期,開發了一種可在組織中使用確定性條形碼進行空間組測序(DBiT-seq)的方法,該方法基于微流體的方法將條形碼傳遞到組織玻片的表面,以實現10μm像素大小的分辨率。Stereo-seq使用隨機條形碼DNA納米球沉積在陣列模式中,以實現納米級分辨率。Seq-scope已經實現了亞細胞分辨率的空間條形碼,可以用來可視化核和細胞質轉錄。
在所有基于NGS的方法中,均為收集空間條形碼RNA并進行測序。每個reads的條形碼用于繪制空間位置,而測序reads的其余部分被映射到基因組,以識別轉錄源,共同生成一個基因表達矩陣。
2. 基于成像的方法
本文介紹了兩種主要的基于圖像的空間轉錄組學方法:基于ISS和基于ISH的方法。基于ISS的方法直接讀出組織內轉錄本的序列。具體來說,RNA被逆轉錄,通過滾圈擴增,并進行測序。BaristaSeq是另一種基于缺口填充掛鎖的方法,其讀取長度增加到15個堿基。STARmap使用條形碼掛鎖探針,與靶標雜交,通過添加第二個引物,針對掛鎖探針旁邊的位點,避免了逆轉錄(RT)步驟。這種方法避免了cDNA轉換的效率障礙,并通過增加第二個雜交步驟來降低噪音。到目前為止,所提到的方法都是基于對靶標的先驗知識,FISSEQ是一種非靶標的方法,即捕獲所有種類的RNA。盡管非靶向擴增會導致光學擁擠和靈敏度降低,但最近開發的擴張測序(ExSeq)已經證明其可以用于組織中的非靶向ISS 。
基于ISH的方法是基于成像的第二類方法,以ISH技術為基礎,通過互補熒光探針雜交檢測目標序列。smFISH利用多條短的寡核苷酸探針(大約20 bp)來靶向同一mRNA轉錄本的不同區域。雖然smFISH具有高靈敏度和亞細胞空間分辨率,但由于標準顯微鏡中光譜重疊的固有限制,它一次只能針對幾個基因。seqFISH是一種多路smFISH方法,通過連續幾輪雜交、成像和探針剝離,多次檢測單個轉錄本。然而,雜交輪數的增加需要增加smFISH探針的數量,這使得seqFISH既昂貴又耗時。為了彌補seqFISH的大量耗時,2015年發布了MERFISH技術。這種技術可以鑒定單個細胞中數千種RNA的拷貝數和空間定位。它利用組合標簽、連續成像等技術來提高檢測通量,并通過二進制條形碼來抵消單分子標記和檢測錯誤。
對于基于ISS和基于ISH的方法,是用圖像處理生成基因表達矩陣。為了獲得細胞級矩陣,要么手動分割小區域,要么系統地使用計算方法對圖像進行分割。雖然這些可能并不符合真正的物理邊界,但它們完成了將每個mRNA分配給細胞的任務。或者,數據分析可以從單個像素水平開始,并結合基因表達數據來描繪細胞。
空間轉錄組技術提供了一個基因表達矩陣
空間轉錄組學揭示發育、生理和疾病機制
由于空間轉錄組技術提供了一個無偏的空間組成圖像,已被用于生成組織圖譜,作為參考提供了有價值的資源。
在神經生物學方面:基于空間轉錄組學的方法已經建立了整個小鼠大腦或特定區域的詳細圖譜,如視覺皮層、初級運動皮層、中顳回、下丘腦視前區、海馬和小腦。相關研究在對背外側前額葉皮質的分析中確定了已知精神分裂癥和孤獨癥相關基因的空間模式,從而提出了精神分裂癥遺傳易感性的機制。
在發育生物學中:時間分辨的空間轉錄組圖譜有助于闡明心臟發育、精子發生和腸道發育的空間動力學。同樣,對人類子宮內膜在月經周期的增殖期和分泌期的全面研究發現了WNT和Notch信號在調節向纖毛或分泌型上皮細胞分化中的作用。這些圖譜一直是合作項目協調努力的重點,為研究界提供有效資源,并得到Human Cell Atlas項目和Allen Institute for Brain Science的支持。
除了正常的發育和生理之外,空間轉錄組學很適合研究疾病中的組織結構紊亂。空間轉錄組學能夠識別在癌癥中起作用的機制,即正常生理功能的組織結構發生改變。隨著人們對腫瘤微環境重要性的日益認識,空間轉錄組學已被用于研究其與不同狀態癌細胞的關系。特別是,空間轉錄組學能夠研究癌癥和正常組織之間的分子特征。例如,在皮膚鱗狀細胞癌中發現了免疫調節性癌細胞狀態。空間轉錄組學還為神經退行性疾病(包括阿爾茨海默病和肌萎縮側索硬化癥)、感染和炎癥過程(如麻風病、流感和敗血癥)以及風濕病(包括類風濕性關節炎和脊柱關節炎)中組織失調機制提供了見解。
基于空間轉錄組學的探測性數據分析
空間轉錄組技術產生了一個基因表達矩陣,對其進行分析既可以檢驗現有的假設,也可以通過探索性分析產生新的觀察結果。鑒于空間轉錄組數據集的復雜性和高維度,采用一種開放的思維方式,通過數據分析找到意想不到的關系,可以產生新的理解。
分析空間轉錄組數據通常需要排除低質量數據和基因表達矩陣上的初始轉換,以提高信噪比,這可以使用分析軟件包(如Giotto、Seurat、STutility和stLearn)執行。平滑算法可應用于數據,以提高靈敏度,并消除技術和生物變化的不必要來源。基于相鄰點之間可以共享信息的前提,沿空間坐標在移動窗口中平均物理相鄰點之間的基因表達可以減少噪聲。類似地,通過調整數據比例,使數據在不同點上具有相同的平均值和方差(z-score),可以幫助進行基因間的比較。
空間轉錄組數據集的探索性數據分析操作示意圖
1. Cluster
聚類操作揭示了數據中的結構,從最基本的角度定義了具有相似轉錄組的點集,或正交地,識別在點之間具有相似表達模式的基因。基因聚類,使用同樣的方法,可以識別與細胞類型或細胞狀態相對應的共表達基因模塊。目前正在開發諸如BayesSpace之類的聚類方法,這些方法側重于空間轉錄組學的特定特征。
2. Select
典型的空間轉錄組數據集包含的生物信息比任何單一分析都要多。基因可以根據它們的空間自相關性(使用Moran’s I或Geary’s C)、鄰域富集(例如,在BinSpect中)或熵(例如,在Haystack中)來評分。Trendsceek使用接近的標記點處理,能夠識別表達的熱點和梯度。SpatialDE利用高斯過程回歸將給定基因的表達變異分解為空間和非空間成分,SPARK也采用了類似的方法。
3. Score
雖然基因和spots是空間轉錄組學的主要觀察數據,但基礎生物學意味著基因作為模塊共同表達,spots轉錄組反映有限的細胞類型和狀態。這是評分函數的前提,評分函數用于將一組相似的點總結為單一基因表達譜,或正交地將一組連貫的基因總結為單一模式,以這種方式總結數據可以識別功能特性。評分可以簡單地通過對集合的值求平均值來完成,或者根據Seurat工作流中實現的零模型對表達式進行評分。
4. Characterize
通過對空間轉錄組數據點群和基因集的操作識別的對象,必須具有生物學理解和解釋的特征。要實現這一點,與其他數據源和其他先驗知識的集成是必不可少的。當一個集群與一個組織區域相匹配時,可以手動描述spots的特征,如在MERFISH中注釋大腦中的單個細胞類型,在胰腺癌樣本中注釋腫瘤的正常和惡性區域。通過識別一組標記基因并對其進行特征描述,也可以間接地對一個簇進行注釋。具體地說,基因集可以通過量化其與注釋基因集的重疊來描述。這是多模式交叉分析(MIA)和基因集富集分析(GSEA)的基礎,該分析可以從GO、KEGG、Hallmark 和其他數據庫中查詢獲得。
5. Relate
鑒于其系統性,空間轉錄組學非常適合于識別基因群體和組織區域之間的相似性、差異和關系。點簇可以通過查詢表達基因、空間重疊、發育或功能關系而相互關聯。例如RNA velocity利用未切片的轉錄本來推斷斑點在時間上是如何相互關聯的,并被應用于皮層來繪制神經發育的動力學圖譜。基于RNA-seq的拷貝數變異推斷識別染色體非整倍體,可用于區分惡性斑點和非惡性斑點,并識別不同的亞克隆。當兩組點在空間上相鄰時,可以通過使用已知數據庫(如CellPhoneDB或NicheNet)檢查它們的成對受體和配體來提出細胞之間的潛在相互作用模式。
數據分析操作路徑
利用空間轉錄組學的假設生成和檢驗
健康或疾病組織的空間轉錄組學圖譜自然有助于無偏見的探索和假設生成。即使是那些設計用于研究特定生物過程的空間轉錄組數據集,如時間進程研究或擾動實驗,也可以探索以揭示意想不到的變化并提出新的假說。從而利用數據集的高維性來產生可靠的生物推論。這些觀察到的細胞類型,基因表達的模式或兩種細胞狀態的共同定位可能推測一個新的可驗證的假設。
此外,空間轉錄組數據可以被納入經典的假設驅動的實驗設計中,使用充分有力的實驗來檢驗一個定義明確的預測。事實上,隨著空間轉錄技術變得更加容易,它已經準備好作為一種常規的檢測方法,與流式細胞儀或RNA測序相提并論。在實驗設計的指導下,空間轉錄組學在作為擾動或時間歷程實驗的讀數時可以證實或證偽一個假設。每個樣本都可以由一個單獨的數據點進行匯總,并在不同的重復和條件下進行比較,因此需要收集足夠數量的數據,以確保統計的嚴謹性和有效性。研究可能在同一樣本的多個切片上納入空間轉錄組學,以解釋技術變異性,或每個條件下的多個生物重復。該假設可在模型系統、體外或體內或臨床數據中進一步驗證。
利用空間轉錄組學的假設生成和檢驗
空間轉錄組學與其他數據形式的融合
隨著空間轉錄組技術的分辨率和靈敏度的提高,與其他數據模式的集成可以為更好的組織表征提供機會。組織圖像本身可以提取高分辨率的信息,特別是結合組織病理學領域獲得的大量知識來手動識別和注釋區域。在組織中檢測到的形態特征,如細胞形狀或細胞核大小,可以直接納入分析。在stLearn中,具有相似特征的點被識別出來,用對物理上接近而且在構圖上相似的點進行平均的方法使空間平滑性得以改進。另一項研究則是通過將空間轉錄組基因表達數據與高分辨率組織學圖像數據融合,提高其分辨率。深度學習也被用于預測來自基因表達和組織學的細胞類型注釋,優于單獨從任何一種方式預測的注釋。隨著可用于訓練的轉錄組學數據的增加,機器學習算法也被用于預測組織病理學圖像中的基因表達。這些算法不依賴于預先定義的形態特征,而是通過將整個圖像分解來提高性能。將空間轉錄組學與機器學習方法相結合,可以提高組織病理學的可解釋性,并在臨床決策中指導治療和告知預后。
在亞細胞分辨率下,染色質的空間結構可能為不同環境下基因表達的調控提供線索。將空間轉錄組數據集與基因組原位高通量成像以及組織中組蛋白標記的空間分布相結合將是非常有價值的。最近,利用完整組織內同步DNA測序的基因組組織進行空間制圖已經成為可能。這表明,將空間基因組測序與原位轉錄組分析相結合的目標可能即將實現,從而加深我們對基因組組織和功能編碼方式的理解。
用蛋白質聯合檢測等補充方式來增強基因表達數據,也可以闡明空間轉錄組學沒有捕捉到的過程,如蛋白質的翻譯后修飾和亞細胞定位及其在疾病中的失調。靶向蛋白聯合檢測可與空間轉錄組學同時進行,在同一組織切片上使用免疫染色,如Visium所支持的那樣。DBiT-seq使用抗體衍生的DNA標簽實現組織中mRNA和蛋白質的共映射。用于蛋白質檢測的高通量空間方法,如MIBI、CODEX、t-cyCIF和自動質譜分析,為組織切片內的蛋白質組提供了無與倫比的快照。將這些高通量蛋白質組學方法與空間轉錄組學相結合的技術進步將極大地提高我們研究組織復雜性的能力。
空間轉錄組學未來展望
隨著技術的不斷更新,空間轉錄組學領域正以指數級的速度增長。目前空間轉錄組學方法面臨的挑戰,包括分辨率和靈敏度的限制,以及通量和可獲得性正在被迅速克服。空間轉錄組學方法與石蠟包埋組織兼容,為回顧分析幾十年來收集的樣本打開了大門。隨著未來的創新,有可能系統性地分析更大的組織區域,以重建3D器官或生物體水平的圖譜,并將轉錄組范圍內的基因表達變化隨著時間的推移進行可視化。除了克服這些技術上的挑戰,未來的工作還需要開發新的計算工具和創造性的分析思維。這些將使數據探索能夠識別空間模式(空間轉錄組數據集的核心特征),并揭示潛在生物學的見解。
人類基因組初稿于2001年發表,為研究遺傳變異的來源和結果提供了參考。然而,基因組不同區域的功能和調控仍在積極研究中。繪制每個基因在空間的表達水平圖譜只是闡明組織生物學的組織原則的第一步。正是這些高分辨率細胞圖譜與無假設查詢的耦合,將有助于獲得新的見解并揭示生理學和疾病中組織結構的顯著特征。
這一領域的一個關鍵挑戰將是迭代構建一個多細胞空間模式。這些更深刻的生物學見解將把我們對簡單組織的理解擴展到更復雜的結構,包括發育中的生物體和患病組織,使我們更接近于征服空間前沿。
總結:如何選擇空間轉錄組研究技術
1. 基因通量
基于NGS的方法是無偏向性的,因為它們捕獲所有多聚腺苷酸化的轉錄本,因此非常適合探索新的系統。相比之下,ISH和大多數基于ISS的方法(FISSEQ和ExSeq除外)是有針對性的,需要對感興趣的基因有先驗知識。盡管如此,這些方法的通量近年來有所增加,達到了10,000個基因。靶向的空間轉錄組學方法也可以與scRNA-seq結合使用,這樣就可以更精確地定位已經識別的感興趣的基因。此外,非多聚腺苷酸化轉錄物的探針可用于查詢其他RNA,如成熟的microRNA和tRNA。
2. 序列信息
基于NGS和ISS的方法能夠檢測融合轉錄物、剪接異構體和單核苷酸變體及點突變。當與基因表達矩陣結合時,這些數據可以通過RNA速度或譜系追蹤幫助重建時間過程。
3. 靈敏度
基于ISH的方法靈敏度高,相對于金標準單分子熒光ISH (smFISH),最近達到了80%的檢測效率。NGS-based方法的靈敏度明顯較低,仍然低于scRNA-seq,但正在迅速提高到大約100個獨特的轉錄本/μm2。通常在敏感性和基因通量之間存在一種權衡,正如相對于非偏倚方法而言,基于ISS的靶向方法具有更高的敏感性。
4. 分辨率
原位方法的分辨率僅受光學衍射極限的限制,在擴張顯微鏡下,分辨率已達到100 nm左右。因此,這些方法非常適用于有關亞細胞組織的問題。基于NGS的方法受限于spots的直徑,但其分辨率自最初的方法以來迅速提高,最近達到約1μm。
5. 尺寸范圍
盡管在組織大小和成像時間之間存在權衡,但原位方法可以跨越廣泛的尺寸范圍。相比之下,基于NGS的方法是標準化的,陣列大小約為10mm2(目前商用的10x Genomics Visium為5mm2),這可能不適用于較小或較大的樣本。
6. 可行性
盡管這些技術非常強大,但它們的廣泛應用仍存在障礙,包括獲得用于原位方法的單分子成像,以及用于基于NGS方法的捕獲陣列的制造。商業化在某些情況下促進了這些技術的應用,如10x Genomics Visium。
參考文獻
Rao A, Barkley D, Fran?a GS, Yanai I. Exploring tissue architecture using spatial transcriptomics. Nature. 2021; 596(7871): 211-220.