मूल्य से सांख्यिकीय परीक्षण जनसंख्या से काफी अधिक होने का मतलब है: क्या यह जेड-टेस्ट या टी-टेस्ट है?


12

मूल्यों की सूची की तुलना में एक मूल्य कितना महत्वपूर्ण है? ज्यादातर मामलों में सांख्यिकीय परीक्षण में जनसंख्या के लिए एक नमूना सेट की तुलना करना शामिल है। मेरे मामले में नमूना एक मूल्य से बना है और हम इसकी तुलना जनसंख्या से करते हैं।

मैं सांख्यिकीय परिकल्पना परीक्षण में एक dilettante शायद सबसे बुनियादी समस्या के साथ सामना कर रहा हूँ। यह सिर्फ एक परीक्षा नहीं बल्कि सैकड़ों हैं। मेरे पास एक पैरामीटर स्पेस है, और हर बिंदु के लिए एक महत्वपूर्ण परीक्षण करना चाहिए। प्रत्येक पैरामीटर संयोजन के लिए मूल्य और पृष्ठभूमि सूची (जनसंख्या) दोनों उत्पन्न होती हैं। तब मैं इसे पी-वैल्यू द्वारा ऑर्डर कर रहा हूं और दिलचस्प पैरामीटर संयोजन ढूंढ रहा हूं। वास्तव में, पैरामीटर संयोजनों की खोज जहां यह पी-वैल अधिक है (निरर्थक) भी महत्वपूर्ण है।

तो चलो एक ही परीक्षा लेते हैं: मेरे पास एक चयनित सेट से उत्पन्न एक गणना मूल्य है और एक यादृच्छिक प्रशिक्षण सेट का चयन करके गणना की गई मूल्यों की एक पृष्ठभूमि सेट है। गणना की गई मान 0.35 है और पृष्ठभूमि सेट (शायद?) सामान्य रूप से 0.25 और बहुत संकीर्ण एसटीडी (ई -7) के साथ वितरित किया गया है। मुझे वास्तव में वितरण पर ज्ञान नहीं है, क्योंकि नमूनों की गणना किसी और चीज से की जाती है, वे कुछ वितरण से यादृच्छिक संख्या के नमूने नहीं हैं, इसलिए पृष्ठभूमि इसके लिए सही शब्द है।

अशक्त परिकल्पना यह होगी कि "नमूना परीक्षण का मतलब मेरे गणना मूल्य को 0.35 के बराबर करता है"। मुझे इसे जेड-टेस्ट या टी-टेस्ट कब मानना ​​चाहिए? मैं चाहता हूं कि मूल्य जनसंख्या की तुलना में काफी अधिक हो, इसलिए यह एकल-पूंछ वाला परीक्षण है।

मैं थोड़ा उलझन में हूं कि एक नमूने के रूप में क्या विचार करना है: मेरे पास या तो एक (अवलोकन) का एक नमूना है और पृष्ठभूमि या आबादी के रूप में सूची या मेरा नमूना पृष्ठभूमि सूची है और मैं इसकी तुलना पूरे (अपरिचित) से कर रहा हूं जनसंख्या जो शून्य परिकल्पना के अनुसार होती है, उसका मतलब समान होना चाहिए। एक बार जब यह तय हो जाता है, तो परीक्षण मुझे लगता है कि विभिन्न दिशाओं में जाता है।

यदि यह एक टी-परीक्षण है, तो मैं इसके पी-मूल्य की गणना कैसे करूं? मैं आर / पायथन / एक्सेल फ़ंक्शन (मैं पहले से ही जानता हूं कि यह कैसे करना है) का उपयोग करने के बजाय खुद को गणना करना चाहता हूं इसलिए मुझे पहले सही सूत्र स्थापित करना होगा।

T=Z/s,
Z=X¯σn
s=σ^/σ
  1. मैं पी-मूल्य की गणना कैसे करूं? (अर्थात आर / पायथन / एक्सेल फ़ंक्शन या पी-वैल्यू टेबल लुक-अप का उपयोग नहीं करना लेकिन वास्तव में एक सूत्र के आधार पर इसकी गणना करना, क्योंकि मैं जानना चाहता हूं कि मैं क्या कर रहा हूं)
  2. मैं अपने नमूना आकार के आधार पर एक महत्व सीमा कैसे तय करूं? (एक सूत्र अच्छा होगा)

3
1060.35=106×107+0.250.35

1
@grokkaine - यह सवाल दिलचस्प मुद्दों को उठाता है और मूल्यवान लगता है, लेकिन मैं इसे और भी अधिक मूल्यवान पाऊंगा यदि आपने इसे थोड़ा संपादित किया, तो अपनी शर्तों के साथ बहुत सटीक होने का ख्याल रखें।
rolando2

यह सिर्फ एक परीक्षा नहीं बल्कि सैकड़ों हैं। मेरे पास एक पैरामीटर स्पेस है, और हर बिंदु के लिए एक महत्वपूर्ण परीक्षण करना चाहिए। प्रत्येक पैरामीटर संयोजन के लिए मूल्य और पृष्ठभूमि सूची (जनसंख्या) दोनों उत्पन्न होती हैं। तब मैं इसे पी-वैल्यू द्वारा ऑर्डर कर रहा हूं और दिलचस्प पैरामीटर संयोजन ढूंढ रहा हूं। वास्तव में, पैरामीटर संयोजनों की खोज जहां यह पी-वैल अधिक है (निरर्थक) भी महत्वपूर्ण है। मैं थोड़ी देर बाद अपनी पोस्ट को संपादित करने की कोशिश करूँगा।
ग्रुकाइन

जवाबों:


10

आप एक दिलचस्प सवाल उठाते हैं। पहली बात, अगर आपके पास 0.35 का अवलोकन, 0.25 का मतलब है, और 1/10 ^ 7 का मानक विचलन है (यही कारण है कि मैं आपके ई -7 बिट की व्याख्या करता हूं) तो आपको वास्तव में किसी परिकल्पना में जाने की आवश्यकता नहीं है। परीक्षण अभ्यास। आपका 0.35 अवलोकन 0.25 दिए गए माध्य से बहुत अलग है कि यह माध्य से कई हजार मानक विचलन होगा और यह माध्य से संभवतः कई लाख मानक त्रुटियां होंगी।

जेड-टेस्ट और टी-टेस्ट के बीच अंतर मुख्य रूप से नमूना आकार को संदर्भित करता है। 120 से छोटे नमूनों के साथ, आपको पी मानों की गणना करने के लिए टी-टेस्ट का उपयोग करना चाहिए। जब नमूना आकार उससे अधिक होता है, तो इससे बहुत फर्क नहीं पड़ता है यदि आप जो उपयोग करते हैं, वह बिल्कुल नहीं है। नमूना आकार की परवाह किए बिना दोनों तरीकों की गणना करना मजेदार है और निरीक्षण करें कि दोनों परीक्षणों के बीच कितना कम अंतर है।

जहाँ तक चीजों की स्वयं गणना करने की बात है, आप अपने अवलोकन और माध्य के बीच के अंतर को विभाजित करके टी स्टेट की गणना कर सकते हैं और मानक त्रुटि से विभाजित कर सकते हैं। मानक त्रुटि नमूना आकार के वर्गमूल द्वारा विभाजित मानक विचलन है। अब, आपके पास अपनी टी स्टेट है। एपी मूल्य की गणना करने के लिए मुझे लगता है कि परीक्षण तालिका में आपके टी मूल्य को देखने के अलावा कोई विकल्प नहीं है। यदि आप एक सरल एक्सेल वैकल्पिक TDIST (टी स्टेट वैल्यू, डीएफ, 1 या 2 के लिए 1 या 2 टेल पी वैल्यू) स्वीकार करते हैं, तो यह ट्रिक है। Z का उपयोग करके एपी मूल्य की गणना करने के लिए, 1 पूंछ परीक्षण के लिए एक्सेल सूत्र है: (1 - NORMSDIST (Z मान)। Z मान टी स्टेट (या माध्य से दूर मानक त्रुटि की संख्या) के समान है।

एक चेतावनी के रूप में, परिकल्पना परीक्षण के वे तरीके नमूना आकार द्वारा विकृत हो सकते हैं। दूसरे शब्दों में, जितना बड़ा आपका नमूना आपके मानक त्रुटि से छोटा होगा, उतना ही उच्चतर परिणामी Z मूल्य या t स्टेट, कम p मान, और आपका सांख्यिकीय महत्व अधिक होगा। इस तर्क में एक छोटी कटौती के रूप में, बड़े नमूना आकार के परिणामस्वरूप उच्च सांख्यिकीय महत्व होगा। लेकिन, बड़े नमूना आकार के साथ उच्च सांख्यिकीय महत्व पूरी तरह से सारहीन हो सकता है। दूसरे शब्दों में, सांख्यिकीय रूप से महत्वपूर्ण एक गणितीय वाक्यांश है। यह जरूरी नहीं कि महत्वपूर्ण (प्रति वेबस्टर शब्दकोश) है।

इस बड़े नमूने के आकार के जाल से दूर जाने के लिए, सांख्यिकीविदों ने प्रभाव आकार के तरीकों को आगे बढ़ाया है। उत्तरार्द्ध मानक त्रुटि के बजाय दो टिप्पणियों मानक विचलन के बीच सांख्यिकीय दूरी की एक इकाई के रूप में उपयोग करते हैं। इस तरह के ढांचे के नमूने के आकार का आपके सांख्यिकीय महत्व पर कोई प्रभाव नहीं पड़ेगा। इफ़ेक्ट साइज़ का उपयोग करने से आप पी वैल्यू से दूर हो जाएंगे और कॉन्फिडेंस इंटरवल की ओर बढ़ेंगे जो सादे अंग्रेजी में अधिक सार्थक हो सकता है।


उत्तर के लिए धन्यवाद, मैं थोड़ा उलझन में हूं कि नमूने के रूप में क्या माना जाए: मेरे पास या तो एक नमूना (अवलोकन) और जनसंख्या के रूप में पृष्ठभूमि सूची या मेरा नमूना पृष्ठभूमि सूची है और मैं इसकी तुलना कर रहा हूं संपूर्ण (अपरिवर्तित) आबादी जो अशक्त परिकल्पना के अनुसार है, उसका मतलब समान होना चाहिए। एक बार जब यह तय हो जाता है, तो परीक्षण मुझे लगता है कि विभिन्न दिशाओं में जाता है।
ग्रोकेन

नमूने के रूप में आपके पास सभी टिप्पणियों का उपयोग करें (जो भी आप इसे कहते हैं)। और, अपने एक अवलोकन और परिभाषित नमूने के माध्य के बीच सांख्यिकीय दूरी की गणना करें। अपने नमूने के मानक विचलन और मानक त्रुटि की गणना करें। और, इस बीच से आपके अवलोकन की सांख्यिकीय दूरी है: (अवलोकन - माध्य) / मानक त्रुटि = टी स्टेट। एक्सेल टीडीआईएसटी फ़ंक्शन (डीएफ, टी स्टेट, 1 (एक पूंछ के लिए)) का उपयोग करें और आपको अपना पी मूल्य मिलता है।
सायम्पा

5

परिकल्पना परीक्षण हमेशा आबादी को संदर्भित करता है। यदि आप नमूने के बारे में एक बयान देना चाहते हैं, तो आपको परीक्षण करने की आवश्यकता नहीं है (बस जो आप देखते हैं उसकी तुलना करें)। फ़्रीक्वेटर्स एसिम्पोटिक्स में विश्वास करते हैं, इसलिए जब तक आपका नमूना आकार बड़ा है, तब तक अपने डेटा के वितरण के बारे में चिंता न करें। जेड-टेस्ट और टी-टेस्ट मूल रूप से टेस्ट स्टेटिस्टिक की गणना के संदर्भ में एक ही करते हैं, बस महत्वपूर्ण मान अलग-अलग वितरण (सामान्य बनाम छात्र-टी) से प्राप्त होते हैं। यदि आपका नमूना आकार बड़ा है, तो अंतर मामूली है।

Q1 के बारे में: बस इसे आज़ादी के n-1 डिग्री के साथ टी-वितरण से देखें, जहाँ n नमूना आकार है।

Q2 के बारे में: आप जेड-टेस्ट के लिए अपने वांछित महत्व के स्तर के आधार पर सीमा निर्धारित करते हैं, और टी-टेस्ट के मामले में नमूना आकार पर महत्व स्तर के आधार पर।

लेकिन गंभीरता से, आपको कुछ मूल बातों की समीक्षा करनी चाहिए।


जवाब के लिए धन्यवाद। यह वास्तव में टी-डिस्ट था जो मैं उपयोग कर रहा था, लेकिन मैं यह भी समझना चाहता था कि मैं "क्यों" का उपयोग करता हूं। आप "बड़े" नमूने को कैसे परिभाषित करते हैं और पी-वैल्यू अलग कैसे है। इससे भी महत्वपूर्ण बात यह है कि वितरण सामान्य या छात्र-टी होने पर हमें कैसे पता चलेगा? क्या इसके लिए एक सांख्यिकीय परीक्षण है? शायद दूसरे और हम्म के लिए कोलमोगोरोव-स्मिरनोव परीक्षण का उपयोग करें .. पहले के लिए क्या उपयोग करें?
ग्रांकेन 17

2
बड़े ... अच्छी तरह से जेड और टी n = 60 के साथ शुरू करते हैं। बस आपको दोनों परीक्षणों से प्राप्त पी-वैल्यू की तुलना करें। टी / सामान्य वितरण धारणा अंतर्निहित डेटा के वितरण पर निर्भर नहीं करती है। यह इस धारणा पर आधारित है, कि माध्य का नमूना वितरण सामान्य है। यहां तक ​​कि अगर आप जिस वेरिएबल का परीक्षण कर रहे हैं, वह गामा वितरित किया जाता है, तब भी वह धारण करता है। एन = 200 या तो यह ठीक काम करना चाहिए। फिर से, यह सब सामान लगातार आंकड़ों पर आधारित है।
संयुक्त_प

+1 परिकल्पना परीक्षण पर टिप्पणी के लिए हमेशा आबादी का उल्लेख करते हुए, लेकिन -1 इस बात को याद करने के लिए कि प्रश्नकर्ता के पास एक नमूना है 1.
पीटर एलिस

1
मुझे वास्तव में यकीन नहीं था कि "मेरे पास एक गणना मूल्य और यादृच्छिक रूप से उत्पन्न मानों की पृष्ठभूमि सेट है। गणना मूल्य 0.35 है" का अर्थ था ... मुझे लगा कि यह किसी भी तरह से निहित है कि 1 से अधिक अवलोकन है।
संयुक्त_प

अन्य पैराग्राफ से अपनी टिप्पणियों को फिर से पोस्ट करना: मैं थोड़ा उलझन में हूं कि एक नमूने के रूप में क्या विचार करना है: मेरे पास या तो एक (अवलोकन) का एक नमूना है और पृष्ठभूमि की सूची आबादी या मेरे नमूने की पृष्ठभूमि सूची है और मैं उस पूरी (अपरिचित) आबादी की तुलना कर रहा हूं जो अशक्त परिकल्पना के अनुसार एक ही मतलब होना चाहिए। एक बार जब यह तय हो जाता है, तो परीक्षण मुझे लगता है कि विभिन्न दिशाओं में जाता है।
ग्रोकेन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.