高校数学 数学B 統計とコンピュータ
1. データの種類と代表値
(1) データの種類
- 質的データ(カテゴリ):性別・色・出身地など
- 量的データ(数値):身長・点数・時間など
-
量的データはさらに
(2) 代表値
データの「中心」を示す指標:
-
平均値:
\[
\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i
\]
- 中央値:データを並べたときの真ん中の値
- 最頻値:最も多く出現する値
(3) 分散と標準偏差
データのばらつきを表す指標:
分散:
\[
s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2
\]
標準偏差:
\[
s = \sqrt{s^2}
\]
2. 度数分布表・ヒストグラム
(1) 階級・階級値
- 階級:データを分類する区間
- 階級値:階級の中央の値
(2) ヒストグラム
階級ごとの度数を縦軸に取り,棒グラフとして表す図。
棒の面積が度数を表すことに注意。
(3) 相対度数
\[
\text{相対度数} = \frac{\text{階級の度数}}{\text{全体の度数}}
\]
3. 散布図と相関
(1) 散布図
2つの変量 \((x, y)\) の関係を点で表した図。
(2) 相関係数
\[
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}
{\sqrt{\sum (x_i - \bar{x})^2}\sqrt{\sum (y_i - \bar{y})^2}}
\]
- \(r = 1\):完全な正の相関
- \(r = -1\):完全な負の相関
- \(r = 0\):相関なし
(3) 回帰直線
\(x\) から \(y\) を予測する最小二乗法による直線:
\[
y = ax + b
\]
傾き:
\[
a = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}
{\sum (x_i - \bar{x})^2}
\]
切片:
\[
b = \bar{y} - a\bar{x}
\]
4. 確率分布(離散型)
(1) 確率変数
試行の結果に応じて値が決まる変数を確率変数という。
(2) 確率分布
各値をとる確率を対応させたもの。
(3) 期待値
\[
E(X) = \sum x_i p_i
\]
(平均的にどれくらいの値になるか)
(4) 分散
\[
V(X) = E(X^2) - (E(X))^2
\]
5. 標本分布と推測
(1) 標本調査
全数調査(母集団調査)が困難な場合,標本を抽出して調べる。
(2) 標本平均
母平均の推測に用いる。
(3) 標準誤差(SE)
\[
\text{SE} = \frac{\sigma}{\sqrt{n}}
\]
(\(\sigma\):母集団の標準偏差)
(4) 区間推定の概念
「母平均はだいたいこの範囲に入る」ことを確率的に表す。
6. コンピュータを使った統計的な処理
(1) 表計算ソフトでの操作
- 平均・分散・標準偏差の計算
- グラフ作成(散布図,ヒストグラム)
- フィルタによるデータ整理
(2) シミュレーション(乱数)
- 乱数を使って現象を模擬する(モンテカルロ法)
- 確率を試行で近似する
- \(\pi\) の近似なども可能
(3) データの可視化
7. ビッグデータ・AI的な視点(高校数学Bの範囲)
(1) ビッグデータの性質
- 大量(Volume)
- 高速(Velocity)
- 多様(Variety)
(2) AIと統計の関係
AI(機械学習)は基本的に「大量のデータから規則性を見つける」技術。
- 回帰 → 予測
- 分類 → 判断
- クラスタリング → グループ分け
(3) 活用例
8. 統計とコンピュータでよく出る問題の型
- 代表値を求める(平均・中央値・最頻値)
- 分散・標準偏差を計算する
- 散布図を読み,相関の程度を判断する
- 回帰直線の式を求める
- 度数分布表から階級値・相対度数を求める
- 乱数を使ったシミュレーション