心血來潮的定序分析：起手配裝篇

任何人有五百萬（定序深度）都可以參加慈善論文王大賽

想不到和電腦差不多，全基因組分析在生命科學所扮演的角色在數年之間從最新最炫最頂尖，直教人傾家盪產也玩不起的奢侈品成了如果負擔得的起的話就該來上一點的錦上添花，如果單看幾家豪門期刊，甚至都要有些標準配備的味道了。

這類的研究看多了就有些好奇除了作者們注重的結果之外的其他地方究竟是什麼樣子。畢竟全基因組的賣點就在全面嘛，光是秀個相關係數分布圖說「大部分都沒差啦」然後就開始花式特寫想講的東西，感覺就像是看旅遊生活頻道那樣沒到現場去總覺得有些空虛寂寞又遺憾。

可是次世代定序資料它比起相對好理解的微陣列分析，方法本身已經比較抽象，又搭配上花樣百出的免疫沉澱或者鹼基配對之類就更讓人眼花撩亂了。以前雖然屢屢有進大觀園的念頭，但這一類沒有明確的目的、只是想學點新東西的念頭在懶病下的平均壽命大概只有一天。

不過俗話說得好，懶能載舟亦能覆舟，最近因為手上的題目鬼打牆，其中一部分的線索或許可以在GEO Dataset裡面翻出來，當然想知道的事定序的原作者都沒提到~~是說有提到的話我也不用做了~~，只好自己動手到別人的資料裡撈東西，畢竟這總比自己重做來得輕鬆~~又便宜~~。

這一動手不禁感到十足困擾，網路上能找到台灣的相關資料不太多，即使有也不少是展示性質的要嘛太細節、要嘛魔法一般；換用英文看倒也不是不行，不過英文資料又是千頭萬緒，找什麼都有，就是沒個起點可以下手；最後呢，能接受的指南竟然是在日文找到的1。

跟著跑完一次流程之後，我決定留個紀錄給自己備查，也或許有天會幫到打算以一種 IKEA 的氣勢來自家烘焙定序資料而開始 Google 的人，預設的目標是能對已發表的定序資料用現成的工具做一些探索。

那麼，就讓我們開始吧，在那之前首先低頭望向電腦：你扛得住定序分析嗎？

因為 Linux 平台可以使用的現成工具資源比較完整，所以用虛擬機器來跑 Linux 做分析是不錯的選擇，目前嘗試中的幾個重要數字是這樣的，請自行估算分析資料的規模和可以忍受的耗時。

在分析 ChIP-seq 的時候，最瓶頸的時間大概是把定序片段對回參考基因組的步驟2，一千萬個讀數 (reads) 的原始 .fastq 檔案使用 Bowtie2 來做排列的時間大約是：

果然沒有一台強大的電腦還是很難繼續做下去，做單個樣本定序並對回參考基因組的時候 Bowtie 會消耗掉至少 2 GB 再多一些的記憶體放參考基因組，如果是使用 STAR 來處理個別單一細胞定序的結果的話，記憶體需求更高達 16 GB 起跳。

如果真的火力不足的話，購入或租借主機應該也是個選擇，不過以我目前做著玩玩的狀態是還沒機會測就是了。

這位 Kosugi Takatsuku 君的從零開始的定序筆記沒什麼廢話，也沒什麼一時三刻用不上的技術細節，恰好能一口令一動作地做下去但又不到一頭霧水的程度，真的十分感人。 ↩
在分析 RNA-seq 時應該也是。注意這邊的時間估算是使用參考基因組的情形，如果是在無參考的狀況下做 de novo 地拼湊基因組需要的運算能力應該會是完全不同等級。 ↩
感覺這應該是虛擬機能分到的資源極限了，程序跑下去本機連個功能表都叫不出來。 ↩