前のページへ 実験一覧に戻る ホームに戻る
樹木の葉形(分析編)

計測データを元に、仮説を検証します。

データのばらつき

生物に関するさまざまな計測値には「ばらつき」がつきものであり、前回に計測したデータも例外ではありません。

ばらつきのソース(源)は、次の3つです。
  1. 測定誤差、観察・計測者による基準の「ブレ」
  2. コントロールできない・計測できないにもかかわらず現象に影響力を持つ要因の存在
  3. 現象そのものの中に入り込んでいる偶然性

データにばらつきがあると、次の2つの問題が生じます。

  1. データは「そのまま」では簡潔に表現できない→情報の「圧縮」をする必要がある
  2. データと仮説の関係が「1対1」ではなくなる

「統計」の大きな役割は、上の2つに対処することです。1に対するのが「記述統計」、2に対するのが「統計的推定・検定」です。

母集団とサンプル(標本)

今回の実験では、約20(班によっては約15種)の樹木について仮説を調べますが、仮説が支持されたにしても、支持されなかったにしても、「たまたま調べた20種がそうだっただけじゃないの?」という反論が成り立ちます。統計的推定・検定のもう1つの役割は、これを乗り越えることです。

仮説とそれに基づく予測(作業仮説)は、単葉を持つ樹種であれば当てはめることができるものです。そこで、「単葉を持つ全ての樹種を対象とした仮説」を「計測した20種」を通じて調べる、という論理を取ります。つまり、「計測した20種」を「単葉を持つ全ての樹種から、仮説の検証のために選び出した代表」と見なします。

図式化すると、次のようになります。

あらゆる樹種(母集団)→標本抽出(サンプリング)→計測した20種(標本/サンプル)

このとき、母集団のメンバー(この場合は樹種)は、それぞれ等価・独立でなければならないし、標本抽出は無作為的(ランダムサンプリング)でなければいけません。実は、本実験では、この前提に大きく反する点が複数あります(が、あえて考慮しません)。
記述統計

記述統計の役割は、データの含まれる情報の圧縮です。

だから、記述統計における圧縮のデザインは、検証しようとしている仮説によって変わります。

よくある例: 平均値と標準偏差

データの分布や大小を表現するのに、上のような表現がよく使われます。

使用例1 (表の場合)
表3. 個体サイズにおける雌雄の比較
体長 (cm) 体幅 (cm)
雄 (n=12) 2.5±0.61 1.2±0.22
雌 (n=10) 2.8±0.55 1.4±0.25
体長・体幅とも、雌が雄よりも大きかった(表3)。
この例のように、レポート・論文で表や図を使う場合は、通し番号を付け、文中では番号を使って表や図の説明をします(文での説明なしで表だけ、というのはダメです)。
使用例2 (文中の場合)

雌の体長が平均2.8cm (n=10, s.d.=0.55)なのに対して、雄は平均2.5cm (n=12, s.d.=0.61)と、雌の方がやや大きかった。

分布が既知の分布に近似している場合は、平均値と標準偏差で分布の特徴のほとんどを表現することができます。既知の分布のうちもっとも有名かつ重要なものは「正規分布」です。

正規分布
右は、平均値0、標準偏差1の正規分布で「標準正規分布」といいます。正規分布を左右にシフトした分布、左右に引き伸ばした分布も正規分布です。
正規分布が重要なのは、次の2つの理由によります。
  1. 多数の因子がからむ計測値は、正規分布に近くなることが多い。このことは過去の例から経験的に知られていることですが、「中心極限定理」からも示唆されます。しかし、実際には非常に例外が多い経験則です。
  2. 上記の理由もあって、母集団が正規分布する場合に最適な多数の統計的検定法が開発されてきました。

ヒストグラム(度数分布・頻度分布)

平均値と標準偏差による表現法は、分布が既知の分布、特に正規分布に近いときには問題ありませんが、そうでないときには不十分です。だいいち、正規分布に似ているかどうかは平均値と標準偏差だけ見ても分かりません。そこで、ヒストグラムによる表現が必要となります。

樹木31種の葉身の長さ(mm)
181.438.4100.254.4139.757.133.7218.8119.298.9110.6
6690.810255116.543.773.9118.695.475.764.4
60.1108.531.7175.7183.8106110.8 71.984.9

上の表から作成した度数分布(上)・頻度分布(下)の表

樹木31種の葉身の長さ
20406080100120140160180200220mm
03464910121

樹木31種の葉身の長さ
20406080100120140160180200220mm
091218122730363
図2. 樹木31種の葉身の長さ
ヒストグラムの例

散布図―2つの量の間の関係の表現

2種類の計測値の間の関係(この実験の場合は、葉柄の相対的な長さ(6)と葉身幅/葉身長(7)の関係が必要となります)は、散布図で表現します。

図4. 樹木31種の葉身の長さと幅の関係
散布図の例

上の例では、葉身が長いほど幅も広くなる、という傾向が見られます。このことを「正の相関関係がある」と表現します。

統計的検定(1)大小関係の検定

作業仮説2. 「葉の基部の広がり」は「直立型」の種より「背腹型」の種の方が大きい

作業仮説3. 「葉の基部の広がり」は常緑樹の種と落葉樹の種でははっきりとした差がない

上の2つは、いずれも、大小関係に関する仮説です。上で述べたように、サンプルの平均値の大小→母集団の平均値の大小、にはなりません。ばらつきがある場合は、母集団の平均値が同じであっても、サンプルの平均値に差が出ます。そこで、次のような論理で仮説の妥当性を検証します。

  1. 「統計量」を選びます。統計量とは、仮説が主張する傾向(この場合は、母集団の平均値の差)を反映する値です。統計量は、非常にさまざまな条件を考慮して選定しますが、ここでは「スチューデントのt」を用います。
  2. 次の仮説を設定します: 母集団には仮説が主張する傾向はなく(この場合は、母集団の平均値には差がない)、単にそのようなサンプルを偶然選んでしまったことによるものである。
    この仮説を「帰無仮説」といいます。
  3. 帰無仮説を仮定したtの分布(帰無分布)を導きます。すると、サンプルから計算されたt以上の値が出る確率(p)を求めることができます。
  4. pが十分に小さければ、偶然である可能性は低く、データが仮説を支持すると見なすことができます。その境界を「有意水準」と呼びますが、この実験では有意水準として0.05(5%)を用います。
  5. p≦0.05のときには、「有意差があった」と表現し、仮説は支持されたことになります。p>0.05のときには、「有意差がなかった」と表現し、仮説は支持されなかったことになります。
データに基づく議論では、「仮説は証明された」ではなく、「仮説は支持された」といいます。

以上の筋道はたいへん入り組んでいますが、Excelで、半自動的にpを算出することができます。

t検定

左の図は、2つのグループ(AとB)の差をt検定した例です。同じファイルがここを右クリック→保存でダウンロードできるので、図だけで理解できない人は、ダウンロードしたファイルを開いて確認して下さい。

セル「D4」と「I4」に、それぞれのt検定によるp(グループ間の差がないのに、サンプルで偶然差がついてしまった確率)が計算されています。

t検定

t検定の結果を計算する式は、
=TTEST(グループAの値がある範囲,グループBの値がある範囲,2,3)
となっています。最後の「,2,3」は、t検定にはいくつかの設定があるので、この実験に適した設定を指定している部分です。今回は説明を省略しますが、全ての場合に「,2,3」を入れるようにして下さい。

t検定

関数入力ウィンドウを使った入力の例

統計的検定(2)相関関係の検定

作業仮説1. 丸い葉は細い葉に比べて葉柄が長い→葉が丸くなるほど葉柄が相対的に長くなる

2つの変数が連動している(一方が大きければ、もう一方も大きい、一方が小さければ、もう一方も小さい)度合いを示す相関係数r(厳密には、Pearsonの積率相関係数)の関数「CORREL」(相関 correlation の略)を入力します。

=CORREL(範囲名1,範囲名2)
という形になります。
関数A1:A5とB1:B5の相関をA6に入れます。関数ボタンを押して、関数の貼り付けウィンドウを出します。

関数「統計」の中から「CORREL」を選びます。

関数同じようにして、変数の一方の範囲(配列1)を指定します。

関数配列2を指定します。

関数指定の仕方はこれまでと一緒で、配列2の欄の右の小さなボタンを押して、D&Dで範囲指定をしてからEnterを押します。

関数配列1/配列2が両方埋まったら、「OK」を押します。

関数=CORREL(A1:A5,B1:B5)
となっています。赤いところが範囲名1、青いところが範囲名2です。


有意な相関があるかないかは、下の表で判定してください。

種数(N)とp=0.05となるrの絶対値
N789101112131415
|r|0.8170.7710.7320.6970.6670.6400.6160.5940.575
N161718192021222324
|r|0.5570.5410.5260.5120.4990.4870.4760.4660.456

データから算出されたrの絶対値が表の値以上なら、p≦0.05で有意な相関(rが正の値なら有意な正の相関、負の値なら有意な負の相関)があります。

実験レポートの構成
  1. 表紙 (Title)
  2. 序論 (Introduction)
  3. 材料と方法 (Materials and method)
  4. 結果 (Results)
  5. 考察 (Discussion)
  6. 参照文献 (References)
表紙

授業名・日付・実験のタイトル・課程またはコース名・学籍番号+氏名(全員分)。代表者1人または全員の携帯のアドレス。

序論

実験の概要(とくに目的の明示)

仮説を中心とするパターン(仮説検証型)の典型例
この実験では、教員が提示した仮説に沿って記述すれば十分です。
材料と方法

読者が同じ実験を再現できるだけの情報→再現性の確保

配付資料と口頭での指示に基づいて記述(表現などは自分にとって分かりやすいように工夫することが望ましい)。
結果
考察
参照文献

序論・材料と方法・考察で参照した文献のリスト

「参照」: 本文中で、文献の内容を述べたり、引用すること。

「文献」: 書籍・論文(学術雑誌論文)・ネット上のページ、など。学生実験の場合、教員が配付した資料・板書・口頭説明なども含まれます。

リストには、「書誌情報」をつける
リストに挙げた文献は、必ず本文の特定の個所と対応する

(本文中) 木下(1998)によれば、長野県堀金のマムシグサは、偽茎直径20〜25mmを境に雄と雌が分かれた。

(本文中) 長野県堀金のマムシグサは、偽茎直径20〜25mmを境に雄と雌が分かれた(木下 1998)。

(文献リスト中) 木下栄一郎 1998 性が変化する植物 『植物の世界36』朝日新聞社 pp. 52-79

上の例の「木下(1998)」「(木下 1998)」のことも「アンカー」という。文献のアンカーやリストの書き方は、分野によって違う。自然科学では上のような書き方が多数派。
感想

なくてもよい。書いても書かなくても評価に影響はありませんが、教員へのクレームや要望がある場合、ここに書くと以降の授業に反映されるかも知れません。


「樹木の葉形」レポートは、班ごとに提出してください。

  1. データ入力・まとめ・検定をしたExcelのファイル
  2. レポート本体のWordファイル
  3. レポート本体を印刷したもの

上の1・2はメールで、3は研究室(311)前の箱に入れてください。

〆切: 7/16(月) 16:00


前のページへ 実験一覧に戻る ホームに戻る