個体数を分散分析にかける際の正しい変数変換法

論文: Yamamura, K. 1999. Transformation using (x + 0.5) to stabilize the variance of populations.
掲載誌:Researches on Population Ecology 41: 229-234. [PDF (142KB)] (Copyright by the Society of Population Ecology and Springer-Verlag Tokyo) The original publication is available at http://www.springerlink.com


いくつかの環境で生物の個体数が異なっているかどうかを判定するとき,分散分析を行ってその違いをきちんと判定しなければならない。ただし,分散分析にかける前に,その前処理として「対数変換 log(x)」や「平方根変換」などの「変数変換」を行っておく必要がある。変数変換を行わずに分散分析を行うと,等分散性が満たされていないために有意差を得ることができず,その結論が大きく異なってしまうこともある。

ところが,ここで一つ問題が生じる場合がある。「個体数がゼロ」というデータが含まれているときには対数変換は計算できない。loge(0) は計算できないからである。このとき従来は個体数に1を足してから対数変換を行っていた。つまり loge(x + 1) といった形の変換である。 しかし「1を足すのがよい」といった理由は存在しない。
離散分布を連続分布で近似するという考え方からすれば,1でなく 0.5 を足す方がよい(図1)。数値積分により等分散化の効果を調べたところ,確かに 0.5 を足した方が1を足すよりも「変数変換」の効果が大きいことが確かめられた(図2〜5)。


関連論文,解説記事)
山村光司. 2002. 正しい分散分析結果を導くための変数変換法.植物防疫,56巻10号,
436-441頁


0.5を足す理由
図1.{0, 1, 2, …}で定義された離散分布を(0, ∞)で定義された連続分布で近似する方法。 左図:何も足さない例。右図:0.5を足すことにより近似が向上した例。
対数変換の場合

図2.対数変換loge(x + c)における定数c の効果。実線の曲線はs2 = m2 の関係に従う負の二項分布の場合。破線は同じ関係に従うガンマ分布(負の二項分布に対応する連続分布)の場合。曲線の横の数値は計算に用いられたc値を示す。線が水平に近い方が,分散を一定にする効果が優れている。c = 0.5の方が c = 1 よりも等分散化の効果が高いことがわかる。 ほとんどの統計学の教科書では loge(x + 1) 変換を掲載しているが,これが誤った慣習であることがわかる。(Copyright by the Society of Population Ecology and Springer-Verlag Tokyo)
平方根変換の場合

図3. s2 = m の場合の定数c の効果。最適な平方根変換 sqrt(x + c) を用いている。曲線の意味は図2と同じ。平方根変換の場合については Bartlett (1936) が既に論じている。c = 0.5 の曲線は速やかにガンマ分布の曲線に収束する。(Copyright by the Society of Population Ecology and Springer-Verlag Tokyo)
0.25乗変換の場合

図4. s2 = m1.5 の場合の定数c の効果。最適なべき乗変換 (x + c)0.25 を用いている。曲線の意味は図2と同じ。(Copyright by the Society of Population Ecology and Springer-Verlag Tokyo)
双曲線変換の場合

図5. s2 = 0.5(m + m2) の場合の定数c の効果。最適な双曲線関数変換 loge(sqrt(x + c) + sqrt(x + c + 1)) を用いている。曲線の意味は図2と同じ。(Copyright by the Society of Population Ecology and Springer-Verlag Tokyo)


トピック一覧へ戻る