簡(jiǎn)介
PacBio Sequel的長(cháng)讀長(cháng)可實(shí)現全長(cháng)轉錄本測序,并使基因可變剪接形式的識別成為可能,因此可以對新基因及其Iso-form進(jìn)行更全面的研究。同時(shí),長(cháng)讀長(cháng)不再需要對RNA-Seq的Reads進(jìn)行組裝,因此可以更完整的對基因模型和轉錄的基因進(jìn)行更全面的注釋?zhuān)靡愿倪M(jìn)參考基因組中的基因注釋信息。
技術(shù)流程
文庫構建流程
PacBio Sequel系統使用的全長(cháng)轉錄組建庫有SMARTer?和SuperScript®兩種方式。
1、使用Clontech公司的SMARTer® PCR cDNA Synthesis Kit(634925,634926,634928)進(jìn)行建庫時(shí),PolyA+RNA最少需要1 ng,總RNA最少需要2 ng,同時(shí)采用Takara公司的全能酶Tks Gflex? DNA Polymerase(R060A)進(jìn)行擴增,是PacBio推薦的方案;
2、 采用Life Technologies(旗下Invitrogen)公司的SuperScript® Full-length cDNA Library Construction Kit進(jìn)行建庫,建庫時(shí)間至少是SMARTer?的兩倍,PolyA+RNA最少需要10 μg。
相比前代RS系列測序儀,Sequel系統在SMRT Cell片段長(cháng)度偏好性方面已經(jīng)有很大改進(jìn),4 kb以下的建庫無(wú)需進(jìn)行片段大小選擇。目前Sequel系統一般采用SMARTer?建庫方式。經(jīng)過(guò)我們對儀器和試劑的調試,也推薦效率更高的SMARTer?建庫方式。當然,如果想要追求更精準的研究結果,仍可采用分段建庫的方式獲得更好的測序結果,其流程可參考下圖:
一般而言,對于初步研究一個(gè)物種的轉錄組序列情況通常推薦三個(gè)Cell的數據量(6 G),也就是建庫片段長(cháng)度1 ~ 2 kb一個(gè)Cell、2 ~ 3 kb一個(gè)Cell和3 ~ 6 kb測一個(gè)Cell。當然也有一些高分文章測了幾十個(gè)Cell,此類(lèi)文章中通常是對不同組織部位或者不同時(shí)間點(diǎn)的組織進(jìn)行測序,由此增加了測序所需的Cell數。數據量可以根據樣本電泳情況調整,多倍體建議數據量加大保證數據準確性。由于3' UTR + 5' UTR長(cháng)度>1 kb,所以不構建<1 kb文庫。
分析流程
數據分析內容
Iso-seq分析包含4個(gè)主要的步驟,分別是CCS,Classify,Cluster和Subset(可選)。
· CCS步驟:該步驟主要基于來(lái)自同一條Polymerase Read中的Subreads序列構建CCS序列。
· Classify步驟:該步驟通過(guò)分析CCS序列,輸出兩個(gè)文件。一個(gè)文件包含全長(cháng)非嵌合體序列(Full-length Non-chimeric Reads)和非全長(cháng)序列。在該過(guò)程中,Classify步驟會(huì )去除CCS序列中包含的PolyA/T Tails和Primer序列,去除污染序列,但是會(huì )保留PCR引起的嵌合體序列。
· Cluster步驟:該步驟基于全長(cháng)非嵌合體序列和非全長(cháng)序列,進(jìn)行質(zhì)量校正處理,生成Polished高質(zhì)量的一致性序列和低質(zhì)量一致性序列。
· Subset步驟:這是一個(gè)可選步驟,主要用于從輸出文件中將指定類(lèi)型的序列輸出出來(lái),比如非嵌合體Reads等。
轉錄組分析根據物種是否有已知的參考基因組和基因注釋文件,分為有參轉錄組測序和無(wú)參轉錄組測序。無(wú)參轉錄組測序常常需要基于測序得到的Reads根據Overlap信息進(jìn)行組裝,得到Unigene并進(jìn)行下面的分析。對于全長(cháng)轉錄組測序來(lái)講,根據物種是否有參,在分析策略上同意也分析有參和無(wú)參全長(cháng)轉錄組測序。由于測序上的先進(jìn)性,無(wú)參全長(cháng)轉錄組測序分析時(shí)不用軟件進(jìn)行組裝,只需要在進(jìn)行初級質(zhì)控后就可以進(jìn)行注釋。
無(wú)參轉錄組
主要包含序列特征鑒定和功能注釋兩大方面:
(1) 序列特征預測包含:CDS預測、SSR預測、lncRNA預測等;
(2) 功能注釋包括:NR注釋、Swissport注釋、COG/KOG注釋、GO注釋和KEGG注釋等。
*無(wú)參轉錄組測序不能做可變剪接分析。
有參轉錄組
對于有參全長(cháng)轉錄組分析,因為加入了與參考序列比對,所以分析內容上相對無(wú)參轉錄組有很大提升。