ChIP-seq(染色質(zhì)免疫沉淀測序)實驗指南和實踐(ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia),由ENCODE(Encyclopedia of DNA Elements)和modENCODE(Model Organism ENCODE)聯(lián)盟研究人員撰寫。文章發(fā)表在《Genome Research》期刊上,從ChIP概述、ChIP-seq實驗設(shè)計注意事項、數(shù)據(jù)評估及數(shù)據(jù)報告指南四個方面對ChIP-seq進行了相關(guān)介紹,旨在提供一個標準化框架,以確保ChIP-seq實驗的質(zhì)量和數(shù)據(jù)的可靠性。小編分享其中的ChIP-seq概述、ChIP-seq實驗設(shè)計指南和實驗設(shè)計注意事項。
ChIP概述:
全基因組ChIP實驗的目標是定位整個基因組中具有最大信噪比和完整性目標蛋白的結(jié)合位點。ChIP-seq的基本流程如圖1A所示。用化學(xué)試劑處理細胞或組織,使蛋白質(zhì)與DNA共價交聯(lián)。然后是通過細胞破碎和超聲處理,或是酶解(某些情況),將染色質(zhì)剪至100-300bp大小。再通過靶向該因子的特異性抗體純化目標蛋白(轉(zhuǎn)錄因子、組蛋白修飾、RNA聚合酶等)及其結(jié)合DNA,相對于起始染色質(zhì)進行富集。另外,也可以生成表達表位標記因子的細胞系,并通過表位標簽免疫沉淀融合蛋白。
免疫富集后,交聯(lián)被逆轉(zhuǎn),富集的DNA被純化并制備用于分析。在ChIP-chip中,DNA與差異標記的參考DNA一起被熒光標記并與DNA微陣列雜交。在ChIP-seq中,通過高通量DNA測序分析,在所有設(shè)計中,實驗樣品中的ChIP信號將與從適當?shù)膶φ杖旧|(zhì)或?qū)φ彰庖叱恋碇苽涞念愃铺幚淼膮⒖紭悠愤M行比較來確定假定富集的基因組區(qū)域。
不同的蛋白質(zhì)類別與基因組具有不同的互作模式,需要不同的分析方法:
1. 點源因子(Point-source factors)和某些染色質(zhì)修飾定位于特定位置,產(chǎn)生高定位的ChIP-seq信號。這一類包括大多數(shù)序列特異性轉(zhuǎn)錄因子、它們的輔助因子、以及在一些情況下與轉(zhuǎn)錄起始位點或增強子相關(guān)的組蛋白標記。這些構(gòu)成了ENCODE和modENCODE項目的大部分內(nèi)容。
2. 廣源因子(Broad-source factors)與大的基因組區(qū)域相關(guān)。例如,某些染色標記(H3K9me3、H3K36me3等)以及與轉(zhuǎn)錄延伸或抑制相關(guān)的染色質(zhì)蛋白(例如ZNF217)。
3. 混合源因子(Mixed-source factors)可以在基因組某些位點以點源方式結(jié)合,但在其他位置形成更廣泛結(jié)合域,如RNA聚合酶II以及一些染色質(zhì)修飾蛋白(SUZ12)以這種方式表現(xiàn)。
圖1:ChIP-seq工作流程和抗體表征程序概述
A. 特定ENCODE指南的步驟用紅色表示。其他步驟存在標準ENCODE協(xié)議,應(yīng)針對每種新的細胞系/組織類型或超聲進行驗證和優(yōu)化。(*)常用但可選的步驟。
B. 表征新抗體或抗體批次的流程圖。
C. 使用抗體表征檢測的流程圖。
ChIP 實驗設(shè)計指南
(1)測序和文庫復(fù)雜性
對于每個哺乳動物基因組的ChIP-seq點源庫,ENCODE的目標是在每次重復(fù)中獲得≥10M唯一比對reads,以及目標NRF(非冗余分數(shù))≥0.8。modENCODE點源因子的相應(yīng)目標是每次重復(fù)獲得≥2M唯一比對reads,≥0.8 NRF。果蠅中的廣源ChIP-seq,modENCODE目標reads是≥5M,哺乳動物廣源組蛋白標記的ENCODE臨時目標在NRF≥0.8時的唯一比對reads≥20M。
(2)對照文庫
ENCODE為每種細胞類型、組織或胚胎集合生成并測序一個對照ChIP庫,并將文庫測序至合適深度(至少等于且優(yōu)選大于測序最深的實驗文庫)。如果成本限制允許,應(yīng)該從每個染色質(zhì)制備和超聲處理批次中制備對照文庫。重要的是,如果培養(yǎng)條件、處理、染色質(zhì)剪切方案或儀器有明顯差異,則需要進行新的對照實驗。
(3)可重復(fù)性
實驗至少設(shè)置兩個生物學(xué)重復(fù)以確保可重復(fù)性。為了使ENCODE數(shù)據(jù)通過提交標準,使用IDR方法通過分析確定一致性,如果未達到標準,則需要進行第三次重復(fù)。通過IDR確定用于后續(xù)分析的高度可重復(fù)peak的截止值(通常使用1%的閾值)。
本ChIP實驗設(shè)計指南確保了ChIP-seq實驗?zāi)軌虍a(chǎn)生高質(zhì)量、可重復(fù)的數(shù)據(jù),這對于后續(xù)的分析和生物學(xué)發(fā)現(xiàn)至關(guān)重要。通過遵循這些標準,研究人員可以提高實驗的準確性和可靠性,從而為科學(xué)界提供有價值的數(shù)據(jù)資源。
ChIP-seq實驗設(shè)計注意事項:
(1)抗體和免疫共沉淀特異性:
ChIP實驗的質(zhì)量取決于抗體的特異性和親和沉淀步驟中實現(xiàn)的富集程度。人類細胞和果蠅胚胎中的大多數(shù)ENCODE/modENCODE ChIP實驗用抗個體因子和組蛋白修飾抗體進行。
抗體缺陷主要有兩種類型:(1)對預(yù)期靶點的反應(yīng)性差,和/或(2)與其他DNA相關(guān)蛋白的交叉反應(yīng)性。為此制定了一套工作標準和報告指南,旨在提供試劑識別目標抗原的置信度,并且與其他染色體蛋白的交叉反應(yīng)最小。用于測量抗體特異性和敏感性的廣泛可用的方法范圍從半定量到定性,每種方法都可能存在噪聲和解釋問題。因此強調(diào)報告抗體表征數(shù)據(jù),以便對ChIP數(shù)據(jù)或試劑本身做出明智的判斷。當然也可能使用不嚴格遵守這些指南的試劑進行成功實驗。例如,在免疫印跡分析中檢測到的交叉反應(yīng)蛋白可能不會干擾ChIP,因為該蛋白不附著于染色質(zhì)。不同類型的二次測試可以幫助提供關(guān)于初始評估失敗的抗體可接受性的信心。
兩個測試(初次測試和二次測試)用于表征每個單克隆抗體或不同批次的相同多克隆抗體。初次和二次測試的順序受執(zhí)行每個測試所需工作量的影響,初次試驗更容易對大量抗體進行。轉(zhuǎn)錄因子抗體與組蛋白修飾抗體的測試有所不同。典型的工作流程見圖2B和圖2C。通過和未通過這些測試的抗體示例如圖2A所示。
聯(lián)盟還包括五個標準之一作為二次測試表征:(1)通過突變或RNAi“敲低”因子,(2)使用靶向蛋白質(zhì)上多個表位或靶向同一復(fù)合物不同成員抗體的獨立ChIP實驗,(3)使用帶有表位標記的構(gòu)建體進行免疫沉淀,(4)親和富集,然后進行質(zhì)譜分析,或(5)結(jié)合位點基序(motif)分析。motif富集是最容易進行的檢測,但需要有關(guān)蛋白質(zhì)結(jié)合序列的預(yù)先存在的信息,并假設(shè)motif在給定的細胞來源中被感興趣的因子唯一識別。具有第二抗體或靶向表位標記的構(gòu)建體的ChIP和與ChIP結(jié)合的siRNA實驗提供了獨立的證據(jù),表明靶位點受目標因子結(jié)合。質(zhì)譜法對于在免疫印跡上觀察到多個或意外條帶并且懷疑存在剪接同種型,翻譯后修飾或降解的情況特別有用。此外,它可以精確識別潛在的ChIP信號替代源,通常具有新穎的生物學(xué)意義,可以通過額外的ChIP實驗進行測試。由于進行這些檢測需要大量精力和費用,聯(lián)盟標準僅要求進行一次二次測試。約20%(227個中的44個)的測試市售抗轉(zhuǎn)錄因子抗體符合這些表征指南,并且在ChIP-seq分析中也起作用。
迄今為止,55%的聯(lián)盟抗體已提交質(zhì)譜數(shù)據(jù),28%使用第二抗體、表位標簽或已知復(fù)合物的替代成員的ChIP數(shù)據(jù),10%使用來自motif分析的數(shù)據(jù),7%使用siRNA敲低數(shù)據(jù)。
驗證組蛋白修飾抗體涉及多個問題:(1)對其他細胞核/染色質(zhì)蛋白的特異性,(2)對未修飾的組蛋白和非靶修飾的組蛋白殘基(例如H3K9me與H3K27me)的特異性,(3)對同一殘基(例如H3K9me1,H3K9me2和H3K9me3)的單甲基化,二甲基化和三甲基化的特異性,以及(4)批次間變異。對于所有聯(lián)盟組蛋白檢測,設(shè)定了應(yīng)用免疫印跡分析和以下二級標準之一的標準:肽結(jié)合試驗(dot blots)、質(zhì)譜分析、含有相關(guān)組蛋白修飾酶或突變體組蛋白敲低細胞系中的免疫反應(yīng)性分析或基因組注釋富集。
圖2 來自抗體鑒定分析的代表性結(jié)果
(2)使用表位標記結(jié)構(gòu)物的免疫共沉淀:
鑒于在獲得適合ChIP抗體方面存在挑戰(zhàn),一個有吸引力的替代方法是用外源性表位標記該因子,并用對該標記特異性表征良好的單克隆試劑進行免疫沉淀。表位標記通過使用可用于許多不同因子的高度特異性試劑來解決抗體變異和與多基因家族不同成員的交叉反應(yīng)問題。然而,這引入了對表達水平以及標記是否會改變因子活性的擔憂。
(3)重復(fù)、測序深度、文庫復(fù)雜性和位點發(fā)現(xiàn):
來自獨立細胞培養(yǎng)物、胚胎庫或組織樣本的生物重復(fù)實驗用于評估可重復(fù)性。初始 RNA 聚合酶 II ChIP-seq 實驗表明,兩個以上的重復(fù)沒有顯著改善位點發(fā)現(xiàn)。因此ENCODE聯(lián)盟設(shè)置了標準,即所有ChIP檢測都將在兩個獨立的生物重復(fù)上進行。不可重復(fù)發(fā)現(xiàn)率(IDR)分析方法現(xiàn)在被用于評估重復(fù)一致性和設(shè)置閾值。
對于典型的點源DNA結(jié)合因子,ChIP-seq鑒定出的陽性位點數(shù)量通常會隨著測序reads數(shù)量而增加。因為ChIP信號強度的連續(xù)統(tǒng)一體,而不是一組界限分明且離散的陽性位點。由于更多reads提供了更高的統(tǒng)計能力,因此可以在更大的數(shù)據(jù)集中更有信心地檢測到較弱的位點。圖3顯示了對11個人類ENCODE ChIP-seq數(shù)據(jù)集的peak calling分析,這些數(shù)據(jù)集獲得了深度序列數(shù)據(jù)(3000~1億比對讀長)。對于結(jié)合位點很少的因子,觀察到reads數(shù)明顯飽和,但對于所有其他因子,reads數(shù)繼續(xù)以不同的速率增加,包括使用100M比對reads calling>150000 peaks的情況。對peaks信號分析表明,該信號在較大的測序深度下始終保持平穩(wěn)。目前將20M比對reads作為點源轉(zhuǎn)錄因子的所有ENCODE ChIP實驗的最低值,通常中位數(shù)富集5~13倍;在20M reads鑒定出的新peaks富集程度約為最強peaks富集程度的20%(圖3C)。且通過測序到更深深度可以發(fā)現(xiàn)許多新peaks,其富集值為3~7倍。這些區(qū)域中的許多可能對應(yīng)于低親和力位點和/或開放染色質(zhì)區(qū)域,這些區(qū)域與TF的特異性結(jié)合較少。
圖3:測序深度決定peaks數(shù)
(A) 11個ENCODE ChIP-seq數(shù)據(jù)集,使用Peak-seq(0.01%FDR截止值)calling的peaks數(shù)。
(B) peaks calling和唯一比對reads數(shù)之間的關(guān)系,為11個ChIP-seq數(shù)據(jù)集calling peaks數(shù)。插圖為HepG2細胞的MAFK數(shù)據(jù)集的peaks數(shù)據(jù),該數(shù)據(jù)集是目前測序最深的ENCODE ChIP-seq數(shù)據(jù)集(由于相對于其他數(shù)據(jù)集的reads明顯較大,因此單獨顯示)。數(shù)據(jù)集由細胞系和轉(zhuǎn)錄因子(例如細胞系HepG2,轉(zhuǎn)錄因子MAFK)表示。
(C) 隨著測序深度的增加,新calling peaks值的富集倍數(shù)變化。每增加2.5M唯一比對reads,計算新calling peaks與IgG對照數(shù)據(jù)集(在相同測序深度下測序)相比的中位數(shù)富集倍數(shù),并將其繪制成圖表。
ChIP信號強度與生物調(diào)節(jié)活性的關(guān)系是當前積極研究的領(lǐng)域。已知增強子的生物活性在文獻中被定義,并且與ChIP-seq信號強度相比,其分布相當廣泛。一些高活性轉(zhuǎn)錄增強子可重復(fù)地顯示適度的ChIP信號(圖4B)。這意味著不能先驗地為ChIP peaks數(shù)或ChIP信號強度設(shè)置特定的目標閾值,以確保包含所有功能位點。因此,一個實際的目標是通過在合理的經(jīng)費限制內(nèi),通過優(yōu)化免疫沉淀和深度測序來最大限度地發(fā)現(xiàn)位點。對于哺乳動物細胞中的點源因子,ENCODE對每個生物學(xué)重復(fù)至少產(chǎn)生10M唯一比對reads(每個因子至少提供20M唯一比對reads);蠕蟲和蒼蠅的每個重復(fù)至少產(chǎn)生2M唯一比對reads。對于廣泛的富集區(qū)域,目前正在研究適當數(shù)量的唯一比對reads,但目前哺乳動物細胞的大多數(shù)實驗,每個重復(fù)至少產(chǎn)生20M唯一比對reads,蠕蟲和蒼蠅每個重復(fù)至少產(chǎn)生5M唯一比對reads。
圖4:評估ChIP-seq實驗質(zhì)量的標準
(A) 文庫的復(fù)雜性。表示比對到正(紅色)或負鏈(藍色)的單個read。
(B) 功能性調(diào)控元件與ChIP-seq信號強度的分布。在分化的小鼠肌細胞中,針對肌細胞生成素(肌肉分化的主要調(diào)節(jié)劑)進行ChIP-seq。雖然許多廣泛表征的肌肉調(diào)節(jié)元件表現(xiàn)出強烈的肌生成素結(jié)合,但大量已知的功能位點處于結(jié)合強度連續(xù)體的低端。
(C) calling的peaks數(shù)量與ChIP富集的關(guān)系。除了特殊情況外,成功的實驗可以為大多數(shù)TF鑒定出數(shù)千到數(shù)萬個peaks,數(shù)百或低數(shù)千的數(shù)字表示失敗。使用具有默認閾值的MACS calling peaks。
(D) 生成交叉相關(guān)圖。通過將reads按照比對到的鏈方向移動增減堿基對,并計算了每條鏈的每個位置reads數(shù)向量之間的Pearson相關(guān)性。reads覆蓋以wigglegram圖表示。
(E) 在ChIP實驗中通常觀察到兩個交叉相關(guān)peaks,一個對應(yīng)于讀長(“phantom”peaks),另一個對應(yīng)于文庫的平均片段長度。
(F) 對于1052個人ChIP-seq實驗,calling區(qū)域內(nèi)的reads數(shù)與相對交叉相關(guān)系數(shù)之間的相關(guān)性。
(G) 兩個peaks的絕對高度和相對高度是ChIP-seq實驗成功的有用決定因素。高質(zhì)量IP的特征是ChIP peaks遠高于“phantom”peaks,而在失敗的實驗中通常很小或沒有這樣的峰。這個指標有助于判斷實驗中抗體對目標蛋白的富集效果。
位點發(fā)現(xiàn)和可重復(fù)性也受到ChIP-seq測序文庫復(fù)雜性的影響(圖4A)。將文庫復(fù)雜性定義為非冗余DNA片段的比例。隨著文庫測序深度的增加,最終達到了一個點,復(fù)雜性將耗盡,相同的PCR擴增DNA片段將被重復(fù)測序。當在IP期間分離出非常少量的DNA或由于文庫構(gòu)建問題時,文庫復(fù)雜性可能會降低。
一個有用的復(fù)雜性度量是數(shù)據(jù)集中非冗余比對 reads比例(非冗余比例或NRF),將其定義為基因組中唯一可比對reads比對到的位點與唯一可比對reads總數(shù)之間的比率,類似于冗余度量。NRF隨著測序深度的增加而降低,對于點源TF,目標在10M唯一比對reads的NRF≥0.8。隨著測序技術(shù)改進和每條泳道的reads達到100M將成為可能,即使來自點源因子庫的復(fù)雜文庫也可能在比必要的深度更大的深度進行測序。為了最大化每次DNA測序運行可以獲得的信息并防止過度測序,可以使用條形碼和合并策略。
(4)對照樣品(Control sample):
適當?shù)膶φ諗?shù)據(jù)集對于d任何ChIP-seq實驗的分析都至關(guān)重要,因為超聲處理過程中的DNA斷裂不均勻。例如開放染色質(zhì)的某些區(qū)域優(yōu)先在超聲處理的樣品中表示,還有一些平臺特定的測序效率偏差會導(dǎo)致不均勻性。有兩種產(chǎn)生對照DNA樣本的基本方法減輕了這些問題對結(jié)合位點鑒定的影響:(1)從與免疫沉淀DNA相同條件下交聯(lián)和片段化的細胞中分離DNA (“Input” DNA);(2)使用與不相關(guān)的非核抗原(“IgG”對照)反應(yīng)的對照抗體進行“模擬”ChIP反應(yīng)。對于這兩種類型的對照,編碼組序列的深度至少等于且優(yōu)選大于ChIP樣本的深度。雖然IgG對照比“Input”對照更接近于模擬ChIP實驗,但重要的是,IgG對照免疫沉淀可恢復(fù)足夠的DNA,以建立一個與實驗樣品具有足夠高復(fù)雜性的文庫;否則,使用該對照進行的結(jié)合位點識別可能會有很大偏差。
無論使用何種類型的對照,ENCODE和modENCODE組都會對每個細胞系,發(fā)育階段和不同的培養(yǎng)條件/處理進行單獨的對照實驗,因為影響染色質(zhì)制備的倍性、基因型和表觀遺傳特征存在已知和未知的差異。為了作為有效的對照,使用相同的協(xié)議來構(gòu)建ChIP和對照測序文庫(即與PCR擴增次數(shù)、片段大小等相同)。已經(jīng)觀察到具有特別強的超聲波偏差的對照文庫,它們可能會對peaks calling產(chǎn)生不利影響。ENCODE/modENCODE組還盡可能為每批超聲處理的樣品生成單獨的對照,以控制可能的超聲處理變化。
(5)Peak calling:
將reads比對到基因組后,使用peaks calling軟件來鑒定ChIP富集區(qū)域。SPP、PeakSeq和MACs這些算法的結(jié)果output通常按絕對信號(reads數(shù))或通過計算的富集顯著性(P值和錯誤發(fā)現(xiàn)率)對區(qū)域進行排序。因為ChIP信號強度是一個連續(xù)體,弱位點多于強位點(圖4B),最終peaks列表的組成在很大程度上取決于特定的參數(shù)設(shè)置和使用的算法以及實驗本身的質(zhì)量。閾值太寬松會導(dǎo)致每次重復(fù)假陽性比例很高,但后續(xù)分析可以從最終聯(lián)合peaks確定中去除假陽性。不同的peak calling算法依賴于不同的統(tǒng)計模型來計算P-values和錯誤發(fā)現(xiàn)率(FDR),這意味著來自不同軟件包的顯著性不能直接比較。當使用標準的peak calling閾值時,成功的實驗通常會為哺乳動物基因組中的大多數(shù)TF識別數(shù)千到數(shù)萬個peaks。在所有情況下,在peak calling中使用適當?shù)膶φ諏嶒灦己苤匾?br />
將離散的富集區(qū)域稱為廣源因子或混合源因子更具挑戰(zhàn)性,并且處于發(fā)展的早期階段。識別這些區(qū)域的方法正在出現(xiàn)(如ZINBA、MACS2、MACS的更新版本),專門用于處理混合信號類型。
參考文獻:
Landt SG, Marinov GK, Kundaje A, Kheradpour P, Pauli F, Batzoglou S, Bernstein BE, Bickel P, Brown JB, Cayting P, Chen Y, DeSalvo G, Epstein C, Fisher-Aylor KI, Euskirchen G, Gerstein M, Gertz J, Hartemink AJ, Hoffman MM, Iyer VR, Jung YL, Karmakar S, Kellis M, Kharchenko PV, Li Q, Liu T, Liu XS, Ma L, Milosavljevic A, Myers RM, Park PJ, Pazin MJ, Perry MD, Raha D, Reddy TE, Rozowsky J, Shoresh N, Sidow A, Slattery M, Stamatoyannopoulos JA, Tolstorukov MY, White KP, Xi S, Farnham PJ, Lieb JD, Wold BJ, Snyder M. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia. Genome Res. 2012 Sep;22(9):1813-31.