学習目標
統計調査の目的とデータの取得方法を理解する。公的統計の種類と特徴を把握し、データ品質(バイアス・代表性)の重要性を理解する。1. 統計の目的と種類
統計とは、集団の特性を数値で把握するための学問・手法です。
| 種類 | 内容 | 例 |
|---|
| 記述統計 | 収集データを整理・要約する | 平均・ヒストグラム |
| 推測統計 | 標本から母集団を推論する | 世論調査・品質管理 |
2. データソース
データの収集方法には一次データ(自ら収集)と二次データ(既存データを利用)があります。
2.1 公的統計
| 統計名 | 実施機関 | 調査方法 | 周期 |
|---|
| 国勢調査 | 総務省 | 全数調査 | 5年 |
| 家計調査 | 総務省 | 標本調査 | 毎月 |
| 労働力調査 | 総務省 | 標本調査 | 毎月 |
| 国民生活基礎調査 | 厚生労働省 | 標本調査 | 3年 |
e-Stat(政府統計の総合窓口):各省庁の統計データを一元提供するポータルサイト。
3. データ品質とバイアス
GIGO(Garbage In, Garbage Out):不良データからは不良な結果しか得られない。
- 選択バイアス:特定集団が過剰/過少に選ばれる
- 無回答バイアス:回答しない人の特性が回答者と異なる
- 測定バイアス:質問文や測定方法の問題
4. 例題
【例題 1-1】全数調査 vs 標本調査
次の記述のうち正しいものはどれか。
①国勢調査は標本調査である ②家計調査は全数調査である ③国勢調査は5年ごとの全数調査である ④消費者物価指数は家計の支出金額を直接集計したものである
解答
正解:③①誤:国勢調査は全数調査。②誤:家計調査は約9000世帯の標本調査。④誤:CPIは代表的な財・サービスの価格調査から算出。
【例題 1-2】バイアスの識別
市のWebサイトで満足度アンケートを実施した。この調査の問題点を述べよ。
解答
インターネットを使えない高齢者・低所得者が除外される
選択バイアス、および健康意識の高い人が積極的に回答する
自己選択バイアスが生じる。結果は市民全体を代表しない。
5. 練習問題
問題 1
次のうち一次データはどれか。
①e-Statから入手した家計調査結果 ②自社製品の消費者アンケート ③総務省公表の労働力調査 ④国立社会保障・人口問題研究所の人口推計
解答
正解:②一次データは調査目的のために自ら新たに収集したデータ。①③④はすでに他機関が収集・公表した二次データ。
問題 2
標本誤差と非標本誤差の違いを説明し、標本サイズを増やすことで解消できるのはどちらか答えよ。
解答
標本誤差:母集団の一部しか調査しないことで生じる不可避の誤差(\(\propto 1/\sqrt{n}\))。
非標本誤差:設計・実施上の問題(バイアス)による誤差。
標本サイズを増やすと
標本誤差は減少するが、非標本誤差(バイアス)は解消されない。
問題 3
ある選挙事務所が、自社の候補を支持する人々の集会で支持率調査を行い「支持率90%」という結果を得た。この結果の問題点を説明せよ。
解答
典型的な
選択バイアス(自己選択バイアス)。すでに支持している人々の集会で調査しているため、調査対象が母集団(有権者全体)を代表していない。無作為抽出による調査が必要。