我想嘗試的 ChIP-seq 分析流程是這樣的:
- 取得需要的定序資料:從GEO Dataset下載
- 把載來的打包檔案 (.sra) 轉換成可分析的原始資料 (.fastq):使用SRAToolKit
- 確認定序品質: FastQC
- 排除品質不佳的資料:FastX Toolkit
- 將定序結果對應到參考的基因組上:Bowtie 2
- 整理對應完成的資料:BEDTools
- 尋找訊號峰值(是說中文維基百科上這個條目竟然就直接用英文上了):MACS
依樣畫葫蘆的過程中發現,啊呀 FastX Toolkit 、 BEDTools 還有 MACS 都要在 UNIX-like 系統上才能執行,原因我也沒去深究,用現成的工具也不能挑剔這個吧。
所以只好試著 Linux 一下了,這次嘗試我選擇在 Virtualbox 虛擬機器裡安裝長期支援版本 ( Long term support, LTS )的 Ubuntu Server ,過程跟平常重灌電腦沒有太大差異,也不難找到流程教學。
選擇用 Virtualbox + Ubuntu 的理由很簡單:大家用什麼我就跟著用,碰到問題的時候能夠從無窮之海的集體意志找到答案的機會大一點。
在安裝的過程當中如果Virtulbox不讓你裝 64 位元版的 Linux ,那可能是虛擬化功能沒有啟動,可以尋找一下符合你使用電腦的教學來啟動這個功能。由於 32 位元的作業系統只認得最多 2 GB 記憶體,在動輒就用掉 5 GB 以上的定序世界是沒有 32 位元的生存空間的。
OK ,到了這裡安裝應該也差不多完成了,如果你好奇為什麼裝 Ubuntu Server 而不是 Desktop 版本,那是因為接下來用上的工具反正沒有圖形介面,不想裝用不上的桌面介面,而且直接對著命令列下指令感覺比較帥。
說到命令,很多人到這裡可能會對不熟悉的介面過敏起疹子之類的,不過說真的扣掉工具本身靠複製貼上可以解決的指令,只會幾個指令也能活得很好的。
留言
張貼留言