יחידה 1: מבחן t למדגם בודד
הבעיה: השונות לא ידועה
בסטטיסטיקה א' למדנו לבדוק השערות על ממוצע יחיד באמצעות מבחן Z — אבל שם הנחנו שהשונות באוכלוסיה ידועה. במציאות, כמעט אף פעם אנחנו לא יודעים את . אז מה עושים?
כשהשונות לא ידועה, צריך לאמוד אותה מהמדגם. האומד שנשתמש בו ישפיע על סטטיסטי המבחן ועל ההתפלגות שלו.
אמידה (Estimation)
אמידה היא הסקת מסקנות מסטטיסטי (מדד במדגם) לפרמטר (מדד באוכלוסיה).
אומד חסר הטייה
- אומד חסר הטייה (Unbiased Estimator): אומד שהתוחלת שלו שווה לפרמטר. לפעמים מעריך יתר, לפעמים חסר — אבל בממוצע (בתוחלת) פוגע בול.
- אומד מוטה (Biased Estimator): אומד שנוטה באופן עקבי להיות גבוה מדי או נמוך מדי מהפרמטר.
הממוצע כאומד
הממוצע הוא אומד חסר הטייה לתוחלת :
שונות המדגם — אומד מוטה!
שונות המדגם היא אומד מוטה כלפי מטה לשונות האוכלוסיה:
הערכים הקיצוניים באוכלוסיה לא בהכרח נכללים במדגם, ולכן שונות המדגם נוטה לפספס חלק מהפיזור האמיתי.
תיקון ההטייה
כדי לתקן, פשוט מחלקים ב- במקום ב-:
זהו אומד חסר הטייה לשונות האוכלוסיה:
דרגות חופש (Degrees of Freedom)
דרגות חופש של אומד = מספר הערכים העצמאיים (החופשיים להשתנות) שעל פיהם מחושב האומד.
דרגות חופש של הממוצע
אם יש תצפיות, כולן חופשיות → דרגות חופש = .
דרגות חופש של האומד לשונות
כדי לחשב שונות צריך קודם את הממוצע, ומרגע שהממוצע ידוע — הערך האחרון נקבע מכולם. לכן דרגות חופש = .
נתונים: 121, 123, 127, 129. הממוצע הוא 125.
- דרגות חופש של הממוצע: 4 (כל 4 הערכים חופשיים).
- דרגות חופש של השונות: 3 (מרגע שידוע ש-, הערך הרביעי נגזר מהשלושה הראשונים).
סטטיסטי המבחן t
מעבר מ-Z ל-t
כשהשונות ידועה (מבחן Z):
כשהשונות לא ידועה (מבחן t):
כאשר
ההבדל היחיד: במכנה מופיע (אומד מהמדגם) במקום (פרמטר ידוע).
משפחת התפלגויות t
למה לא נורמלית?
בסטטיסטי ה-Z, המכנה הוא קבוע (), ולכן Z הוא טרנספורמציה לינארית של → מתפלג נורמלית.
בסטטיסטי ה-t, המכנה הוא משתנה מקרי (), כי משתנה ממדגם למדגם. לכן t לא מתפלג נורמלית.
תכונות התפלגות t
התפלגות t היא משפחת התפלגויות שמאופיינת על ידי דרגות חופש ():
- דמויית פעמון, סימטרית סביב 0
- שכיח אחד (שהוא גם הממוצע והחציון)
- שטוחה יותר מהנורמלית (זנבות כבדים יותר) — במיוחד כש- קטן
- ככל ש- גדל, ההתפלגות מתקרבת לנורמלית ()
התפלגות ה-t פותחה על ידי ויליאם גוסט (William Gosset) שפרסם תחת שם העט "Student" — ולכן נקראת גם Student's t-distribution.
ביצוע מבחן t למדגם בודד
שלבי המבחן
- ניסוח השערות: ו- (חד/דו-צדדי)
- הנחות: דגימה מקרית; התפלגות הדגימה של הממוצעים מתפלגת t
- קביעת ואיזורי דחייה: בהתאם ל-
- חישוב סטטיסטי המבחן:
- החלטה: השוואה לערך הקריטי מטבלת t
עוצמת המבחן
ככל שדרגות החופש גדולות יותר (= גודל מדגם גדול יותר), כך קל יותר לדחות את כשהיא לא נכונה — כלומר העוצמה עולה.
מבחן Z תמיד חזק יותר ממבחן t (כי בו אין אי-ודאות לגבי השונות), אבל בפועל כמעט אף פעם לא ידוע.
השערת מחקר: ילדים לאחר ניתוח קטרקט רואים טוב יותר מרגישות ניגודיות (Contrast Sensitivity) של 3.
נתונים: , ,
השערות (חד-צדדי ימני): ,
חישוב:
ערך קריטי:
החלטה: משווים את ה-t שהתקבל לערך הקריטי ומחליטים אם לדחות את .
רווח בר-סמך (Confidence Interval)
רווח בר-סמך מאפשר לאמוד את ממוצע האוכלוסיה, לא רק לבדוק השערה.
כשהשונות ידועה (רווח Z):
כשהשונות לא ידועה (רווח t):
גם אם בדיקת ההשערות הייתה חד-צדדית, רווח בר-סמך נבנה תמיד עם (ערך קריטי דו-צדדי).
ככל שהמדגם גדול יותר:
- טעות התקן () קטנה → רווח צר יותר
- דרגות חופש עולות → קריטי קטן → רווח צר עוד יותר
- התוצאה: אומדן מדויק יותר לממוצע האוכלוסיה
שאלות לתרגול
ציוני BA מתפלגים נורמלית: , . דיקן דגם סטודנטים, מצא , .
א. כשהשונות ידועה (מבחן Z, דו-צדדי, ):
→ לא דוחים . לא ניתן לומר שהממוצע השתנה.
ב. כשהשונות לא ידועה (מבחן t, דו-צדדי, ):
→ לא דוחים .
ג. רווח בר-סמך 90% (כש- ידועה):
מספר גפרורים בקופסה . מכונה חדשה: , , .
שימו לב: נתונה (שונות מדגם) ולא (אומד חסר הטייה). צריך לתקן:
→ דוחים . המכונה החדשה אורזת יותר גפרורים.
דיאטה דלת שומן, , , , ממוצע לפני = 7. מבחן חד-צדדי.
→ דוחים . תפוקת החלב עלתה.
רווח בר-סמך 95%:
כשאין בטבלת t את מספר דרגות החופש המבוקש — מחמירים: בוחרים קטן יותר (= ערך קריטי גבוה יותר = קשה יותר לדחות).
נקודות מבחן: מבחן Z מול מבחן t
ההבדל היחיד בין שני המבחנים הוא באופן התקנון — האם משתמשים ב- (ידועה) או ב- (אמדן מהמדגם). זה משפיע רק על שני דברים:
מה לא משתנה בין Z ל-t (כשרמת הביטחון זהה):
- שטח מעבר לערך הקריטי = (חד-צדדי) או (דו-צדדי)
- ההסתברות לטעות מסוג ראשון =
- תפלגות הדגימה של הממוצעים לפני התקנון (זו אותה אוכלוסיה!)
מה כן משתנה:
- סטטיסטי המבחן (Z או t)
- תפלגות הדגימה אחרי תקנון (נורמלית סטנדרטית או t)
- הערך הקריטי (וכתוצאה — השטח שמעבר לסטטיסטי המבחן עצמו)
טעויות נפוצות שצריך להיזהר מהן
אם ההשערה היא אבל הממוצע במדגם קטן יותר מ- (או להפך) — אין טעם לחשב כלום. לא ניתן לדחות בשום רמת ביטחון, כי הנתונים אפילו לא בכיוון ההשערה.
דוגמה: מצפים ש-, אבל במדגם — דחייה בלתי אפשרית.
שימו לב איזה מהם נתון בשאלה:
- — שונות מדגם (מוטה)
- — אומד חסר הטייה (זה מה שנכנס בנוסחת t!)
המרה:
כש-, הסטטיסטי יהיה שלילי, והערך הקריטי גם הוא שלילי.
דוחים את כאשר (כלומר, יותר שלילי מהערך הקריטי), למשל → דוחים.
אין יחס קבוע בין הערך הקריטי ב-Z לערך הקריטי ב-t. הוא משתנה עם :
- גדול → קרוב ל-
- קטן → רחוק מ- (מבחן יותר מחמיר)
שאלות נוספות (מטלה 1)
, , , . חד-צדדי שמאלי, .
, (חד-צדדי שמאלי, ).
→ דוחים ברמת ביטחון 99%.
הסטטיסטי במדגם יותר קיצוני (שלילי יותר) מהערך הקריטי בזנב השמאלי.
, , , . חד-צדדי שמאלי.
,
לא בטבלה → מחמירים ל-: (חד-צדדי, )
→ דוחים ברמת ביטחון 95% וגם ב-90% (כי אם דוחים ב-5% אז בוודאי דוחים בערך גבוה יותר).