樹木の葉形(レポート作成編)

前のページへ実験一覧に戻るホームに戻る

樹木の葉形(分析編)

計測データを元に、仮説を検証します。

データのばらつき

生物に関するさまざまな計測値には「ばらつき」がつきものであり、前回に計測したデータも例外ではありません。

ばらつきのソース(源)は、次の3つです。

測定誤差、観察・計測者による基準の「ブレ」
コントロールできない・計測できないにもかかわらず現象に影響力を持つ要因の存在
現象そのものの中に入り込んでいる偶然性

データにばらつきがあると、次の2つの問題が生じます。

データは「そのまま」では簡潔に表現できない→情報の「圧縮」をする必要がある
データと仮説の関係が「1対1」ではなくなる

「統計」の大きな役割は、上の2つに対処することです。1に対するのが「記述統計」、2に対するのが「統計的推定・検定」です。

母集団とサンプル(標本)

今回の実験では、約20(班によっては約15種)の樹木について仮説を調べますが、仮説が支持されたにしても、支持されなかったにしても、「たまたま調べた20種がそうだっただけじゃないの?」という反論が成り立ちます。統計的推定・検定のもう1つの役割は、これを乗り越えることです。

仮説とそれに基づく予測(作業仮説)は、単葉を持つ樹種であれば当てはめることができるものです。そこで、「単葉を持つ全ての樹種を対象とした仮説」を「計測した20種」を通じて調べる、という論理を取ります。つまり、「計測した20種」を「単葉を持つ全ての樹種から、仮説の検証のために選び出した代表」と見なします。

図式化すると、次のようになります。

あらゆる樹種(母集団)→標本抽出(サンプリング)→計測した20種(標本/サンプル)

このとき、母集団のメンバー(この場合は樹種)は、それぞれ等価・独立でなければならないし、標本抽出は無作為的(ランダムサンプリング)でなければいけません。実は、本実験では、この前提に大きく反する点が複数あります(が、あえて考慮しません)。

記述統計

記述統計の役割は、データの含まれる情報の圧縮です。

圧縮率が高いほどよい
必要な内容が残る

だから、記述統計における圧縮のデザインは、検証しようとしている仮説によって変わります。

よくある例: 平均値と標準偏差

データの分布や大小を表現するのに、上のような表現がよく使われます。

使用例1 (表の場合)

表3. 個体サイズにおける雌雄の比較
	体長 (cm)	体幅 (cm)
雄 (n＝12)	2.5±0.61	1.2±0.22
雌 (n＝10)	2.8±0.55	1.4±0.25

体長・体幅とも、雌が雄よりも大きかった(表3)。

この例のように、レポート・論文で表や図を使う場合は、通し番号を付け、文中では番号を使って表や図の説明をします(文での説明なしで表だけ、というのはダメです)。

使用例2 (文中の場合)

雌の体長が平均2.8cm (n＝10, s.d.＝0.55)なのに対して、雄は平均2.5cm (n＝12, s.d.＝0.61)と、雌の方がやや大きかった。

分布が既知の分布に近似している場合は、平均値と標準偏差で分布の特徴のほとんどを表現することができます。既知の分布のうちもっとも有名かつ重要なものは「正規分布」です。

右は、平均値0、標準偏差1の正規分布で「標準正規分布」といいます。正規分布を左右にシフトした分布、左右に引き伸ばした分布も正規分布です。

正規分布が重要なのは、次の2つの理由によります。

多数の因子がからむ計測値は、正規分布に近くなることが多い。このことは過去の例から経験的に知られていることですが、「中心極限定理」からも示唆されます。しかし、実際には非常に例外が多い経験則です。
上記の理由もあって、母集団が正規分布する場合に最適な多数の統計的検定法が開発されてきました。

ヒストグラム(度数分布・頻度分布)

平均値と標準偏差による表現法は、分布が既知の分布、特に正規分布に近いときには問題ありませんが、そうでないときには不十分です。だいいち、正規分布に似ているかどうかは平均値と標準偏差だけ見ても分かりません。そこで、ヒストグラムによる表現が必要となります。

樹木31種の葉身の長さ(mm)
181.4	38.4	100.2	54.4	139.7	57.1	33.7	218.8	119.2	98.9	110.6
66	90.8	102	55	116.5	43.7	73.9	118.6	95.4	75.7	64.4
60.1	108.5	31.7	175.7	183.8	106	110.8	71.9	84.9

上の表から作成した度数分布(上)・頻度分布(下)の表

樹木31種の葉身の長さ
20	40	60	80	100	120	140	160	180	200	220mm
0	3	4	6	4	9	1	0	1	2	1

樹木31種の葉身の長さ
20	40	60	80	100	120	140	160	180	200	220mm
0	9	12	18	12	27	3	0	3	6	3

図2. 樹木31種の葉身の長さ

ヒストグラムの例

散布図―2つの量の間の関係の表現

2種類の計測値の間の関係(この実験の場合は、葉柄の相対的な長さ(6)と葉身幅/葉身長(7)の関係が必要となります)は、散布図で表現します。

図4. 樹木31種の葉身の長さと幅の関係

散布図の例

上の例では、葉身が長いほど幅も広くなる、という傾向が見られます。このことを「正の相関関係がある」と表現します。

統計的検定(1)大小関係の検定

作業仮説2. 「葉の基部の広がり」は「直立型」の種より「背腹型」の種の方が大きい

作業仮説3. 「葉の基部の広がり」は常緑樹の種と落葉樹の種でははっきりとした差がない

上の2つは、いずれも、大小関係に関する仮説です。上で述べたように、サンプルの平均値の大小→母集団の平均値の大小、にはなりません。ばらつきがある場合は、母集団の平均値が同じであっても、サンプルの平均値に差が出ます。そこで、次のような論理で仮説の妥当性を検証します。

「統計量」を選びます。統計量とは、仮説が主張する傾向(この場合は、母集団の平均値の差)を反映する値です。統計量は、非常にさまざまな条件を考慮して選定しますが、ここでは「スチューデントのt」を用います。
次の仮説を設定します: 母集団には仮説が主張する傾向はなく(この場合は、母集団の平均値には差がない)、単にそのようなサンプルを偶然選んでしまったことによるものである。
この仮説を「帰無仮説」といいます。
帰無仮説を仮定したtの分布(帰無分布)を導きます。すると、サンプルから計算されたt以上の値が出る確率(p)を求めることができます。
pが十分に小さければ、偶然である可能性は低く、データが仮説を支持すると見なすことができます。その境界を「有意水準」と呼びますが、この実験では有意水準として0.05(5%)を用います。
p≦0.05のときには、「有意差があった」と表現し、仮説は支持されたことになります。p＞0.05のときには、「有意差がなかった」と表現し、仮説は支持されなかったことになります。

データに基づく議論では、「仮説は証明された」ではなく、「仮説は支持された」といいます。

以上の筋道はたいへん入り組んでいますが、Excelで、半自動的にpを算出することができます。

左の図は、2つのグループ(AとB)の差をt検定した例です。同じファイルがここを右クリック→保存でダウンロードできるので、図だけで理解できない人は、ダウンロードしたファイルを開いて確認して下さい。

セル「D4」と「I4」に、それぞれのt検定によるp(グループ間の差がないのに、サンプルで偶然差がついてしまった確率)が計算されています。

t検定の結果を計算する式は、
=TTEST(グループAの値がある範囲,グループBの値がある範囲,2,3)
となっています。最後の「,2,3」は、t検定にはいくつかの設定があるので、この実験に適した設定を指定している部分です。今回は説明を省略しますが、全ての場合に「,2,3」を入れるようにして下さい。