母集団と標本

研究

今回は「母集団」と「標本」です。

まず、両者の意味ですが「母集団」とは以下のようになっています。

統計学における母集団とは、調査対象となる数値、属性等の源泉となる集合全体を言う。統計学の目的の一つは、観測データの標本から母集団の性質を明らかにすることである。

wikipedia

分かりにくく書かれていますが、要は「全国民」や「全世界の人々」などおよそ分母にあたるものと考えて差し支えないでしょう。

もちろん上記の通りばかりではなく、脳卒中患者へのトレーニング効果を対象とした場合、母集団は全国の脳卒中患者となり、健常者は除外されるでしょう。また、両親と一緒に過ごす時間が幼少期の精神に及ぼす影響を調査する場合は、青年期以上の人々は除外すべきだと思います。

つまり「母集団」とは、研究対象となり得る全ての対象者を指します。しかし、実際にそれら全てに対して介入(調査)することは不可能なので、実行可能な人数を集めて行うことになります。

この実際に研究に参加することが可能な対象群を「標本」と言います。

タバコを吸う人と吸わない人の寿命を調査する場合、母集団は全国民、タバコを吸う人が1つ目の標本、タバコを吸わない人が2つ目の標本というように考えます。

母集団と2つの標本

ちなみに、私が過去に執筆した論文は、世界中で賛否のある内容がテーマだったので母集団は「世界中のある疾患に罹患した人」と想定しました。これが日本国内だけで議論されていた内容であれば、母集団も国内規模に想定したはずです。

母集団を明確に想定することは、先行研究の調査範囲や論文を発表する際に国内誌とするか否かを決める要素の一つとしても大事な考えだと思います。

また、統計学の差の検定手法にはいくつか種類があり、同じ標本か、異なる標本かで選択すべき統計手法が異なります。

先ほどの喫煙者と非喫煙者で言えば、2つの標本に同じ人物がいることはあり得ません。しかし、標本1の喫煙者にフォーカスを当てて、現在と20年後の呼吸機能を比較する場合は同じ指標ということになります。

母集団と1つの標本

同じ標本か否かは以下のように表現することもあります。

1つの標本で差の検定をする場合は「対応がある」

2つの標本で差の検定をする場合は「対応がない」

この「対応がある」場合と「対応がない」場合によって、選択する統計手法が異なるのですが、さらにこれらのデータの分布が、パラメトリックかノンパラメトリックかによっても選択すべき手法が異なります。

統計ソフトによって手法の名称が異なる場合もありますが、概ね以下のように考えながら選択していきます。

差の検定手法を選択するフローチャート

尺度や手法の詳細については、別の記事で説明します。

タイトルとURLをコピーしました