マイクロアレイ解析における多重比較の補正について
マイクロアレイ解析などで多重比較な統計解析を行う時、個々の項目(遺伝子、パスウェイ、Gene Ontologyなど)について仮説検定を繰り返し行う場合、補正が必要になる。
簡単にいうと10個のGOtermについて個々に検定を行った場合、有意水準はα=0.05ではなく、補正をしてα=0.05/10=0.005としなければならない。これは0.05が20回検定した場合に1回は失敗する確率であって、これを10回も繰り返し行えば、失敗する確率(αエラー)も増えるためである。
実際GOなどの解析でよく使われる方法として以下の4つを例に挙げる。
- Bonferroni補正
- Dunn-Sidak補正
- Holm法
- BH法
Bonferroni補正は一般的で最もよく使われている方法(だと思う。)。有意水準に施行回数(項目数)のNで割るというもの。上の例ならば、α=0.05/N(=10)=0.005(個々のp-valueにNをかけて有意水準を0.05のままにしてもよい。)ただこの方法は各項目が互いに独立であることを前提としているため、相互依存関係の強い遺伝子やGOに対してこの方法を用いると厳しい評価になる(βエラーの増大、検出力の低下)。逆に言えばそれだけ厳しい評価をしているのだから、それによって得られたGOのリストなどは信頼性が高いと言えるかもしれないが・・・。
Dunn-Sidak補正はα=1-(1-0.05)^1/Nとするもの。(1-0.05)^Nは間違わない確率(1-0.05)がN回続けて起こる確率を示す。この方法も同様に厳しい方法だがBonferroni補正よりは甘い。
補正法を調べるにあったっていろいろサイトなどを見ていると、こういう補正では厳しすぎて結果が出ないよ~と考えている人も少なくないようだ。そういう人のためによりナイーブな方法として残りのふたつがある。
Holm法は個々の仮説検定で得られたp-valueを昇順にソートし(P1,P2,..Pk)、p-valueの小さい検定から有意水準α=0.05/k, α=0.05/(k-1), α=0.05/(k-2), ... とし、初めてp>αとなった場合、それ以降の仮説は有意差がないとするというもの。つまりp-valueの小さい仮説には厳しい有意水準を設定するというもの。
BH法もHolm法とよく似ており、p-valueを昇順にソート(P1,P2,..Pk)し、p-valueの大きい検定Piから有意水準α=0.05*i/kとし、はじめてp<αとなった時、その検定とそれ以下の検定は有意差があるとする。
おそらく調べればまだまだMethodはあるだろうが有名どころを挙げるとこんなところだろう。既存のGO解析用ソフトウェアでは"OntoExpress"が全補正法に対応しているようだ。まあ私はもっぱらR派だが・・・。
本内容は以下の文献orURLを参考にさせていただきましたm(_ _)m
<参考文献orURL>
- http://d.hatena.ne.jp/NATROM/20040823
- http://d.hatena.ne.jp/ryamada22/20060813/1155446318
- http://www.iu.a.u-tokyo.ac.jp/lectures/biostatistics/20060530.pdf
- http://www.seto.nanzan-u.ac.jp/msie/nas/academia/vol_006pdf/06-017-030.pdf
- http://blog.goo.ne.jp/self-educator/m/200506
- Kokocinski F et al., FACT--a framework for the functional interpretation of high-throughput experiments, BMC Bioinformatics. 2005 Jun 28;6:161.
- Rhee SY et al., Use and misuse of the gene ontology annotations., Nat Rev Genet. 2008 Jul;9(7):509-15. Epub 2008 May 13.