יחידה 1: מבחן t למדגם בודד

הבעיה: השונות לא ידועה

בסטטיסטיקה א' למדנו לבדוק השערות על ממוצע יחיד באמצעות מבחן Z — אבל שם הנחנו שהשונות באוכלוסיה ידועה. במציאות, כמעט אף פעם אנחנו לא יודעים את $\sigma^2$ . אז מה עושים?

הרעיון המרכזי

כשהשונות לא ידועה, צריך לאמוד אותה מהמדגם. האומד שנשתמש בו ישפיע על סטטיסטי המבחן ועל ההתפלגות שלו.

אמידה (Estimation)

אמידה היא הסקת מסקנות מסטטיסטי (מדד במדגם) לפרמטר (מדד באוכלוסיה).

אומד חסר הטייה

אומד חסר הטייה (Unbiased Estimator): אומד שהתוחלת שלו שווה לפרמטר. לפעמים מעריך יתר, לפעמים חסר — אבל בממוצע (בתוחלת) פוגע בול.
אומד מוטה (Biased Estimator): אומד שנוטה באופן עקבי להיות גבוה מדי או נמוך מדי מהפרמטר.

הממוצע כאומד

הממוצע $\bar{X}$ הוא אומד חסר הטייה לתוחלת $\mu$ :

$E(\bar{X}) = \mu$

שונות המדגם — אומד מוטה!

שונות המדגם $S_n^2 = \frac{\sum(X_i - \bar{X})^2}{n}$ היא אומד מוטה כלפי מטה לשונות האוכלוסיה:

$E(S_n^2) = \frac{n-1}{n} \cdot \sigma^2 < \sigma^2$

למה מוטה כלפי מטה?

הערכים הקיצוניים באוכלוסיה לא בהכרח נכללים במדגם, ולכן שונות המדגם נוטה לפספס חלק מהפיזור האמיתי.

תיקון ההטייה

כדי לתקן, פשוט מחלקים ב- $n-1$ במקום ב- $n$ :

$s^2 = \frac{\sum(X_i - \bar{X})^2}{n-1}$

זהו אומד חסר הטייה לשונות האוכלוסיה: $E(s^2) = \sigma^2$

דרגות חופש (Degrees of Freedom)

דרגות חופש של אומד = מספר הערכים העצמאיים (החופשיים להשתנות) שעל פיהם מחושב האומד.

דרגות חופש של הממוצע

אם יש $n$ תצפיות, כולן חופשיות → דרגות חופש = $n$ .

דרגות חופש של האומד לשונות

כדי לחשב שונות צריך קודם את הממוצע, ומרגע שהממוצע ידוע — הערך האחרון נקבע מכולם. לכן דרגות חופש = $n - 1$ .

דוגמה

נתונים: 121, 123, 127, 129. הממוצע הוא 125.

דרגות חופש של הממוצע: 4 (כל 4 הערכים חופשיים).
דרגות חופש של השונות: 3 (מרגע שידוע ש- $\bar{X}=125$ , הערך הרביעי נגזר מהשלושה הראשונים).

סטטיסטי המבחן t

מעבר מ-Z ל-t

כשהשונות ידועה (מבחן Z):

$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$

כשהשונות לא ידועה (מבחן t):

$t = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}$

כאשר $s = \sqrt{\frac{\sum(X_i - \bar{X})^2}{n-1}}$

ההבדל היחיד: במכנה מופיע $s$ (אומד מהמדגם) במקום $\sigma$ (פרמטר ידוע).

משפחת התפלגויות t

למה לא נורמלית?

בסטטיסטי ה-Z, המכנה הוא קבוע ( $\sigma/\sqrt{n}$ ), ולכן Z הוא טרנספורמציה לינארית של $\bar{X}$ → מתפלג נורמלית.

בסטטיסטי ה-t, המכנה הוא משתנה מקרי ( $s/\sqrt{n}$ ), כי $s$ משתנה ממדגם למדגם. לכן t לא מתפלג נורמלית.

תכונות התפלגות t

התפלגות t היא משפחת התפלגויות שמאופיינת על ידי דרגות חופש ( $df = n-1$ ):

דמויית פעמון, סימטרית סביב 0
שכיח אחד (שהוא גם הממוצע והחציון)
שטוחה יותר מהנורמלית (זנבות כבדים יותר) — במיוחד כש- $df$ קטן
ככל ש- $df$ גדל, ההתפלגות מתקרבת לנורמלית ( $df \to \infty \Rightarrow t \to Z$ )

William Gosset

התפלגות ה-t פותחה על ידי ויליאם גוסט (William Gosset) שפרסם תחת שם העט "Student" — ולכן נקראת גם Student's t-distribution.

ביצוע מבחן t למדגם בודד

שלבי המבחן

ניסוח השערות: $H_0$ ו- $H_1$ (חד/דו-צדדי)
הנחות: דגימה מקרית; התפלגות הדגימה של הממוצעים מתפלגת t
קביעת $\alpha$ ואיזורי דחייה: בהתאם ל- $df = n-1$
חישוב סטטיסטי המבחן: $t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}}$
החלטה: השוואה לערך הקריטי מטבלת t

עוצמת המבחן

עוצמה ודרגות חופש

ככל שדרגות החופש גדולות יותר (= גודל מדגם גדול יותר), כך קל יותר לדחות את $H_0$ כשהיא לא נכונה — כלומר העוצמה עולה.

מבחן Z תמיד חזק יותר ממבחן t (כי בו אין אי-ודאות לגבי השונות), אבל בפועל כמעט אף פעם $\sigma$ לא ידוע.

דוגמה: דיוק ראייתי אחרי ניתוח קטרקט

השערת מחקר: ילדים לאחר ניתוח קטרקט רואים טוב יותר מרגישות ניגודיות (Contrast Sensitivity) של 3.

נתונים: $n = 30$ , $\bar{X} = 3$ , $s = 0.9$

השערות (חד-צדדי ימני): $H_0: \mu \le 3$ , $H_1: \mu > 3$

חישוב: $t = \frac{3 - 3}{0.9/\sqrt{30}}$

ערך קריטי: $t_{0.95, 29} = 1.699$

החלטה: משווים את ה-t שהתקבל לערך הקריטי ומחליטים אם לדחות את $H_0$ .

יחידה 1: מבחן t למדגם בודד

הבעיה: השונות לא ידועה

הרעיון המרכזי

כשהשונות לא ידועה, צריך לאמוד אותה מהמדגם. האומד שנשתמש בו ישפיע על סטטיסטי המבחן ועל ההתפלגות שלו.

אמידה (Estimation)

אמידה היא הסקת מסקנות מסטטיסטי (מדד במדגם) לפרמטר (מדד באוכלוסיה).

אומד חסר הטייה

אומד חסר הטייה (Unbiased Estimator): אומד שהתוחלת שלו שווה לפרמטר. לפעמים מעריך יתר, לפעמים חסר — אבל בממוצע (בתוחלת) פוגע בול.
אומד מוטה (Biased Estimator): אומד שנוטה באופן עקבי להיות גבוה מדי או נמוך מדי מהפרמטר.

הממוצע כאומד

הממוצע $\bar{X}$ הוא אומד חסר הטייה לתוחלת $\mu$ :

$E(\bar{X}) = \mu$

שונות המדגם — אומד מוטה!

שונות המדגם $S_n^2 = \frac{\sum(X_i - \bar{X})^2}{n}$ היא אומד מוטה כלפי מטה לשונות האוכלוסיה:

$E(S_n^2) = \frac{n-1}{n} \cdot \sigma^2 < \sigma^2$

למה מוטה כלפי מטה?

הערכים הקיצוניים באוכלוסיה לא בהכרח נכללים במדגם, ולכן שונות המדגם נוטה לפספס חלק מהפיזור האמיתי.

תיקון ההטייה

כדי לתקן, פשוט מחלקים ב- $n-1$ במקום ב- $n$ :

$s^2 = \frac{\sum(X_i - \bar{X})^2}{n-1}$

זהו אומד חסר הטייה לשונות האוכלוסיה: $E(s^2) = \sigma^2$

דרגות חופש (Degrees of Freedom)

דרגות חופש של אומד = מספר הערכים העצמאיים (החופשיים להשתנות) שעל פיהם מחושב האומד.

דרגות חופש של הממוצע

אם יש $n$ תצפיות, כולן חופשיות → דרגות חופש = $n$ .

דרגות חופש של האומד לשונות

כדי לחשב שונות צריך קודם את הממוצע, ומרגע שהממוצע ידוע — הערך האחרון נקבע מכולם. לכן דרגות חופש = $n - 1$ .

דוגמה

נתונים: 121, 123, 127, 129. הממוצע הוא 125.

דרגות חופש של הממוצע: 4 (כל 4 הערכים חופשיים).
דרגות חופש של השונות: 3 (מרגע שידוע ש- $\bar{X}=125$ , הערך הרביעי נגזר מהשלושה הראשונים).

סטטיסטי המבחן t

מעבר מ-Z ל-t

כשהשונות ידועה (מבחן Z):

$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$

כשהשונות לא ידועה (מבחן t):

$t = \frac{\bar{X} - \mu_0}{s / \sqrt{n}}$

כאשר $s = \sqrt{\frac{\sum(X_i - \bar{X})^2}{n-1}}$

ההבדל היחיד: במכנה מופיע $s$ (אומד מהמדגם) במקום $\sigma$ (פרמטר ידוע).

משפחת התפלגויות t

למה לא נורמלית?

בסטטיסטי ה-Z, המכנה הוא קבוע ( $\sigma/\sqrt{n}$ ), ולכן Z הוא טרנספורמציה לינארית של $\bar{X}$ → מתפלג נורמלית.

בסטטיסטי ה-t, המכנה הוא משתנה מקרי ( $s/\sqrt{n}$ ), כי $s$ משתנה ממדגם למדגם. לכן t לא מתפלג נורמלית.

תכונות התפלגות t

התפלגות t היא משפחת התפלגויות שמאופיינת על ידי דרגות חופש ( $df = n-1$ ):

דמויית פעמון, סימטרית סביב 0
שכיח אחד (שהוא גם הממוצע והחציון)
שטוחה יותר מהנורמלית (זנבות כבדים יותר) — במיוחד כש- $df$ קטן
ככל ש- $df$ גדל, ההתפלגות מתקרבת לנורמלית ( $df \to \infty \Rightarrow t \to Z$ )

William Gosset

התפלגות ה-t פותחה על ידי ויליאם גוסט (William Gosset) שפרסם תחת שם העט "Student" — ולכן נקראת גם Student's t-distribution.

ביצוע מבחן t למדגם בודד

שלבי המבחן

ניסוח השערות: $H_0$ ו- $H_1$ (חד/דו-צדדי)
הנחות: דגימה מקרית; התפלגות הדגימה של הממוצעים מתפלגת t
קביעת $\alpha$ ואיזורי דחייה: בהתאם ל- $df = n-1$
חישוב סטטיסטי המבחן: $t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}}$
החלטה: השוואה לערך הקריטי מטבלת t

עוצמת המבחן

עוצמה ודרגות חופש

מבחן Z תמיד חזק יותר ממבחן t (כי בו אין אי-ודאות לגבי השונות), אבל בפועל כמעט אף פעם $\sigma$ לא ידוע.

דוגמה: דיוק ראייתי אחרי ניתוח קטרקט

השערת מחקר: ילדים לאחר ניתוח קטרקט רואים טוב יותר מרגישות ניגודיות (Contrast Sensitivity) של 3.

נתונים: $n = 30$ , $\bar{X} = 3$ , $s = 0.9$

השערות (חד-צדדי ימני): $H_0: \mu \le 3$ , $H_1: \mu > 3$

חישוב: $t = \frac{3 - 3}{0.9/\sqrt{30}}$

ערך קריטי: $t_{0.95, 29} = 1.699$

החלטה: משווים את ה-t שהתקבל לערך הקריטי ומחליטים אם לדחות את $H_0$ .