跳到主要內容

心血來潮的定序分析:起手配裝篇

任何人有五百萬(定序深度)都可以參加慈善論文王大賽

想不到和電腦差不多,全基因組分析在生命科學所扮演的角色在數年之間從最新最炫最頂尖,直教人傾家盪產也玩不起的奢侈品成了如果負擔得的起的話就該來上一點的錦上添花,如果單看幾家豪門期刊,甚至都要有些標準配備的味道了。

這類的研究看多了就有些好奇除了作者們注重的結果之外的其他地方究竟是什麼樣子。畢竟全基因組的賣點就在全面嘛,光是秀個相關係數分布圖說「大部分都沒差啦」然後就開始花式特寫想講的東西,感覺就像是看旅遊生活頻道那樣沒到現場去總覺得有些空虛寂寞又遺憾。

可是次世代定序資料它比起相對好理解的微陣列分析,方法本身已經比較抽象,又搭配上花樣百出的免疫沉澱或者鹼基配對之類就更讓人眼花撩亂了。以前雖然屢屢有進大觀園的念頭,但這一類沒有明確的目的、只是想學點新東西的念頭在懶病下的平均壽命大概只有一天。

不過俗話說得好,懶能載舟亦能覆舟,最近因為手上的題目鬼打牆,其中一部分的線索或許可以在GEO Dataset裡面翻出來,當然想知道的事定序的原作者都沒提到是說有提到的話我也不用做了,只好自己動手到別人的資料裡撈東西,畢竟這總比自己重做來得輕鬆又便宜

這一動手不禁感到十足困擾,網路上能找到台灣的相關資料不太多,即使有也不少是展示性質的要嘛太細節、要嘛魔法一般;換用英文看倒也不是不行,不過英文資料又是千頭萬緒,找什麼都有,就是沒個起點可以下手;最後呢,能接受的指南竟然是在日文找到的1

跟著跑完一次流程之後,我決定留個紀錄給自己備查,也或許有天會幫到打算以一種 IKEA 的氣勢來自家烘焙定序資料而開始 Google 的人,預設的目標是能對已發表的定序資料用現成的工具做一些探索。

那麼,就讓我們開始吧,在那之前首先低頭望向電腦:你扛得住定序分析嗎?

因為 Linux 平台可以使用的現成工具資源比較完整,所以用虛擬機器來跑 Linux 做分析是不錯的選擇,目前嘗試中的幾個重要數字是這樣的,請自行估算分析資料的規模和可以忍受的耗時。

在分析 ChIP-seq 的時候,最瓶頸的時間大概是把定序片段對回參考基因組的步驟2,一千萬個讀數 (reads) 的原始 .fastq 檔案使用 Bowtie2 來做排列的時間大約是:

  • 一百個小時 (Core i5 2500 @ 3.30 GHz, 4 GB RAM 中分配 3 GB 給虛擬機3
  • 十五分鐘 (Core i5 4570R @2.70 GHz, 16 GB RAM 中分配 8 GB 給虛擬機)

果然沒有一台強大的電腦還是很難繼續做下去,做單個樣本定序並對回參考基因組的時候 Bowtie 會消耗掉至少 2 GB 再多一些的記憶體放參考基因組,如果是使用 STAR 來處理個別單一細胞定序的結果的話,記憶體需求更高達 16 GB 起跳。

如果真的火力不足的話,購入或租借主機應該也是個選擇,不過以我目前做著玩玩的狀態是還沒機會測就是了。


  1. 這位 Kosugi Takatsuku 君的從零開始的定序筆記沒什麼廢話,也沒什麼一時三刻用不上的技術細節,恰好能一口令一動作地做下去但又不到一頭霧水的程度,真的十分感人。
  2. 在分析 RNA-seq 時應該也是。注意這邊的時間估算是使用參考基因組的情形,如果是在無參考的狀況下做 de novo 地拼湊基因組需要的運算能力應該會是完全不同等級。
  3. 感覺這應該是虛擬機能分到的資源極限了,程序跑下去本機連個功能表都叫不出來。

留言

這個網誌中的熱門文章

尿管水球考

Photo credit: Crystal Explosion via photopin (license)   那約莫是intern到一半的時候。記得那天我放尿管就要大功告成,隨手拿起換藥車上的空針想把固定用的水球打起來結束這回合的時候,碰巧路過的護理師一個飛身順手抄起空針: 「且住!你這針筒裡面裝的是……生理食鹽水吧!」   我定睛一看,啊呀,落在換藥車桌面上的空罐子果然是生理食鹽水,顯然是在抽的時候沒有專心。 「多謝女俠提醒,不過……那可以幫我抽一管純水嗎?我得扶著尿管,不太方便。」

文獻管理軟體:關於ReadCube, Mendeley, Papers有時還有其他

出發點 我家的文獻通常是這樣來的: 我有訂閱 Science 的 編輯精選 跟幾個與我題目有關的 關鍵字 實驗室平均來說每週會有一篇書報討論 臉書牆上看似有趣的玩意 它們會先成為瀏覽器上關不掉的分頁,過一段時間或是瀏覽器當掉幾次之後,心不甘情不願的搬家到下載項目,然後很多時候就長住在那兒,直到碰到比較無聊的演講開始整理時才會發現有些東西其實下載了五遍。 使用習慣 會在不同的裝置和系統上面閱讀 尋找一篇文的關鍵字通常是作者、期刊、跟內容的隨機組合 提到依稀記得的文章卻想不起來時會覺得很焦慮 從這幾點出發,對我來說特別重要的特質是 跨平台同步 、 全文檢索 (最好聰明點)、還有 執行速度快 。 除了這些之外,當然隨寫隨引的引用工具好不好用還有推薦文獻如何也有影響,不過就我來說為了配合協作,引用工具還是配合實驗室,反正也不是那麼頻繁的用上;至於推薦嘛,雖然廣泛閱讀是很重要啦,不過即使沒有推薦功能文獻資料夾裡也都充滿了不認識的孩子,我想推薦功能大半還是滿足屯書癖而已。 Endnote 老牌的文獻管理,作為和 Word 搭配的引用工具來說,除了厚重了點還有搭配追蹤修訂功能有點容易當機之外沒什麼大問題,最近的版本似乎也推出了跨平台同步的功能。其實它也能從 PDF 解析引用資料或是用引用資料尋找全文,不過 PDF 閱讀器相當陽春,我目前只有在寫東西時才會打開它,並不在上面閱讀。 ReadCube Nature Publishing Group 和 Wiley 推廣得相當認真的閱讀器,界面上也算漂亮。在文章管理上使用看起來像資料夾但實質上是標籤的處理方式。它雖然有跨平台同步功能,但只有付費用戶才能使用。 我一開始對於它的擴展 PDF 1 功能很感興趣,但使用起來其實還好,因為我的領域裡有不少論文本來就會用超連結放引用,但它的閱讀器本身卻不支援 PDF 原來就有的超連結,所以常常發生這篇論文沒辦法擴展,但原來的超連結又不能用,只好複製下來 Google 去也。擴展變成一個偶爾方便一些,但大多時候添麻煩的雞肋存在。 除了不支援超連結,它的 PDF 閱讀器在我的機器上 2 字體的渲染也有問題,比起 Acrobat自家的程式,字硬是模糊了不少,快速瀏覽的時候也常發生往後翻去的那頁空白了兩三秒才出現的狀態。另

ImageJ (1.51f) 在Mac OS 10.12 (Sierra)中會因為權限管理而無法使用Plugin

問題描述: 在將下載後的ImageJ資料夾搬到應用程式資料夾中後,程式可以使用但Plugin功能表下的項目消失。 系統資訊: OS Version: Mac OS 10.12 ImageJ: 1.51f  JAVA Version: 1.6.0_65 according to About ImageJ 1.8.0_111-b14 according to Control Panel Memory Assigned: 2854k of 7000MB (<1 li=""> No error message 原因: Mac OS 10.12為了解決使用者權限管理的漏洞,在執行應用程式時會建立一個隨機路徑的唯讀資料夾並把.app複製過去在其中執行(Gatekeeper Path Randomization)。這個作法會讓某些需要呼叫其他檔案的程式無法正常作用。   在ImageJ上,如果在Image>Show Info功能表(或Command + I)中的「ImageJ Home:」後面的路徑的開頭是"/private",那就可能是Gatekeeper Path Randomization在作怪。   將執行檔從應用程式資料夾中複製到桌面(Option+拖曳)後刪掉原檔再把執行檔複製回去可以修正這個權限問題。 參考資料: Sierra and Gatekeeper Path Randomization Kind and timely support from Wayne Rasband (NIH/NIMH)