Barファイルのタブ区切りテキストファイルへの変換

Affymetrix社のタイリングアレイの解析を行う場合、
CELファイルとBPMAPファイルを読み込んでゲノム上の各領域に
おけるシグナルを計算する必要がある。そのための
代表的なソフトウェアとしてMATをいうものがある。
http://liulab.dfci.harvard.edu/MAT/
さっそくLinuxのexecutiveファイルをダウンロードして
使ってみると

[tanakky@supacon]$ ./MAT sample.tag
[ Thu Apr 15 15:41:33 2010 ]

Hs35b_P06R_v01-3_NCBIv36.bpmap
Treat: DATA1.CEL DATA2.CEL
Control: DATA3.CEL DATA4.CEL
Reading Hs35b_P06R_v01-3_NCBIv36.bpmap Thu Apr 15 15:42:09 2010
PMX PMY MatchScore Thu Apr 15 15:42:09 2010
All probes
reading chr11
reading chr12
reading chr8
Making Uniq Index Thu Apr 15 15:43:12 2010
Maximum copy number: 1000000 duplicate probe measurements: 5948866
PMProbe Thu Apr 15 17:20:12 2010
Partial probes 400000
Making design matrix Thu Apr 15 17:26:22 2010
Chr Position PMX PMY Thu Apr 15 17:26:23 2010
All probes
reading chr11
reading chr12
reading chr8
Getting cel intensities: Thu Apr 15 17:27:26 2010
reading DATA1.CEL Thu Apr 15 17:27:26 2010
reading DATA2.CEL Thu Apr 15 17:27:26 2010
reading DATA3.CEL Thu Apr 15 17:27:26 2010
reading DATA4.CEL Thu Apr 15 17:27:26 2010
Standardizing Sample: DATA1.CEL Thu Apr 15 17:29:25 2010
Standardizing Sample: DATA2.CEL Thu Apr 15 17:29:31 2010
Standardizing Sample: DATA3.CEL Thu Apr 15 17:29:38 2010
Standardizing Sample: DATA4.CEL Thu Apr 15 17:29:44 2010
Making MAT score Thu Apr 15 17:29:52 2010
Control Input Variance : 0
100000 chr11 4.06
300000 chr11 8.58
500000 chr11 13.12
600000 chr11 15.35
700000 chr11 17.58
800000 chr11 19.79
900000 chr11 22.01
1000000 chr11 24.23
1100000 chr11 26.38
1200000 chr11 28.61
1300000 chr11 30.9
1500000 chr11 35.48
1600000 chr11 37.74
1700000 chr11 40.04
1800000 chr11 42.31
1900000 chr11 44.67
100000 chr12 48.04
200000 chr12 50.25
400000 chr12 54.86
500000 chr12 57.07
600000 chr12 59.36
700000 chr12 61.59
900000 chr12 66.15
1000000 chr12 68.42
1100000 chr12 70.7
1200000 chr12 73.02
1300000 chr12 75.31
1400000 chr12 77.49
1500000 chr12 79.68
1600000 chr12 81.77
1800000 chr12 85.89
100000 chr8 90.39
200000 chr8 92.62
400000 chr8 97.11
500000 chr8 99.3
600000 chr8 101.54
700000 chr8 103.75
800000 chr8 106.0
900000 chr8 108.34
1000000 chr8 110.59
1200000 chr8 115.2
1300000 chr8 117.5
1500000 chr8 121.96
1600000 chr8 124.27
1700000 chr8 126.58
1800000 chr8 128.78
1900000 chr8 130.93
2000000 chr8 133.14
2100000 chr8 135.47
Making FDR table Thu Apr 15 17:32:22 2010
Saving bar files Thu Apr 15 17:32:41 2010
Region calling with cutoff 4.43759673013 Thu Apr 15 17:33:41 2010
running error: exceptions.ImportError No module named numpy.core.multiarray

とエラーになってしまう。なんとかbarファイルは作成するのだがbedファイルを作成してくれない。
更なる解析を行っていくためにはbedファイルが必要不可欠なのだが・・・。
ちなみにbedファイルはUCSCゲノムブラウザで表示するためのタブ区切り形式のファイル、
barファイルも同様にゲノム上の位置とシグナル値を示すファイルだが、こちらはバイナリ形式である
ため、通常のテキストエディタやlessコマンド等では見ることができない。
困った・・・。
MATプログラムのインストールも別バージョン等で試してみたがうまくいかなかった。
そこでなんとかbarファイルを見れるようにしようとbarファイルのコンバートコマンドを探していると
見つけた「cisgenome」。
http://www.biostat.jhsph.edu/~hji/cisgenome/index.htm
この中にある「affy_bar2txt」というコマンドを使うと
タブ区切りのテキスト形式に変換できるようだ。

[tanakky@supacon]$ ./affy_bar2txt
/* ----------------------------- */
affy_bar2txt
-i input file
-o output file
example:
affy_bar2txt -i input.bar -o output.txt
/* ----------------------------- */
[tanakky@supacon]$ ./affy_bar2txt -o sample.txt -i sample.Hs35b_P06R_v01-3_NCBIv36.bpmap_matscore.bar

残念ながらMATのエラーに関しては解決はできず・・・。