大量のデータ - Tanakkyの留学ライフ

近年、Solexaという次世代シーケンシング技術が現れた。
このSolexaでまずDNA断片を回路上に付着させ、
その回路上で断片のコピーを作ります。これらのコピー
はそれぞれクラスターを形成し、ここに取り外し可能な
蛍光をつけた塩基を加えていくことによりＤＮＡ配列を
調べていく方法です。（ってわかりずらいな〜(>_<))
一応Solexaを作っているイルミナのサイト
(http://www.illuminakk.co.jp/tech/solexa_sequencing_tech.shtml)
では以下のように説明しています。

Solexaのアプローチは、まずランダムに断片化されたゲノムDNAを回路に付着させます。この回路は光学的に透明な固相表面となっており、1ミクロンあたり1,000コピーを持つクラスターが1,000万以上集まる超高密度フローセルを形成することが可能となっています。取り外し可能な蛍光を持つ可逆化ターミネーターを用いたSequence-by-Synthesis法を採用し、クラスター内のテンプレートDNA塩基配列の読み取りを行います。このアプローチにより、高い正確性をもたらし、さらにホモポリマー繰返し配列による誤差を避けることができます。高感度な蛍光検出はレーザー励起と内面反射の工学を用いることで達成されました。読み取られた短鎖はリファレンスとなるゲノム配列にアラインされ、このテクノロジーのために開発されたデータパイプラインによって遺伝の相違が判定されます。このシステムはサンプル調整法を変えることで、遺伝子発現やsmall RNA探索といった他の遺伝解析アプリケーションに幅広く使うことができます。

我等バイオインフォアティシャンがいままで「データがたりん！！！」っと
不満をたれていたのが、この技術によって十分な量のデータを得ることができるように
なったのだ。しかし、大量のデータを得ることはできたが、その反面データの用量の問題がでてきた。
一度に数千万ものデータが得られるので、最終的に一連の実験から得られるデータの用量は
数十、数百ギガ(G)の単位となってしまう。たとえハードディスクに保存できたとしても、
今度はそのデータを解析するのに大量のメモリを必要とする。
ラボの助教さん曰く、Solexa技術の登場により今まで研究の律速段階が実験によるデータの取得だったのが
今はコンピュータ側が研究の律速段階になりつつあるとのこと。
たしかにそうかもしれん(-"-)
そこでSolexaのデータに対応するために近年発表されたソフトウェアを調べてみた。
以下にSolexaリードのリファレンス配列へのマッピングプログラムを私なりのコメントとともに並べてみた。

ELAND:Solexaのデフォルトマッピングプログラム。2塩基までのミスマッチを許してマッピングする。パラメータの設定とかができないが、かなり高速。シーケンシングして見て、まずどうなるか見てみようという時にはよいかも。

MAQ64-bitでも32-bit（速度は劣る）でもコンパイル可能。だがリードファイルがfastqファイルに限られる。

SOAPこちらも64-bit、32-bit両方でコンパイル可能。しかしヒトゲノムなど大きなゲノム配列を扱う場合、32-bitコンパイルでは動かない。リファレンス配列のハッシュテーブルを一度RAMに保存し、クエリ配列のシードをリファレンスに当てるという方法。オプションでギャップを指定できるため欠失・挿入を考慮できる。また片方のみのstrandをターゲットにすることもオプションで可能。

RMAP少ないメモリで大量Solexaデータをマッピング可能なため、ローカルのマシンでも動かすことができる。しかし64-bitコンパイルのみ対応。

SXOligoSearchWeb経由のため、自身のマシンの制約はうけない。ただバイオインフォマティシャンなら自身のマシンにコンパイルorインストールして使いたいもの。

このようなプログラムを見ているとほとんどが64-bitコンパイルに対応。
コンピューターも次世代化しなくてはいけないのでしょうか？
Solexaがbiologyに与えている影響はかなり大きいものであるから、
まあきっと今後数年の間に効率的な大量データ解析プログラムがいくつも
開発されてくるでしょう。