वेट के साथ फिशर का सटीक टेस्ट?


12

क्या किसी को फिशर के सटीक परीक्षण की भिन्नता के बारे में पता है जो वजन को ध्यान में रखता है? उदाहरण के लिए वजन का नमूना लेना
इसलिए सामान्य 2x2 क्रॉस टेबल के बजाय, प्रत्येक डेटा बिंदु में एक "द्रव्यमान" या "आकार" मूल्य होता है।

उदाहरण डेटा:

A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4

फ़िशर का सटीक परीक्षण फिर इस 2x2 क्रॉस टेबल का उपयोग करता है:

A\B  N  Y All
 N   2  2   4
 Y   2  4   6
All  4  6  10

यदि हम डेटा बिंदुओं की 'वास्तविक' संख्या के रूप में वजन लेंगे, तो इसका परिणाम होगा:

A\B  N  Y All
 N   4 13  17
 Y   3 10  13
All  7 23  30

लेकिन इससे बहुत अधिक आत्मविश्वास पैदा होगा। N / Y से N / N में परिवर्तित होने वाला एक डेटा बिंदु सांख्यिकीय में बहुत बड़ा अंतर लाएगा।
इसके अलावा, यह काम नहीं करेगा अगर किसी भी वजन में अंश होते हैं।

जवाबों:


10

मुझे संदेह है कि 'सटीक' परीक्षण और नमूना वजन अनिवार्य रूप से असंगत अवधारणाएं हैं। मैंने स्टाटा में जाँच की, जिसमें सैंपल सर्वेक्षण के लिए अच्छी सुविधाएँ हैं और सटीक परीक्षणों के लिए उचित हैं, और नमूना भार के साथ क्रॉसस्टैब के लिए इसके 8 संभावित परीक्षण आँकड़े जैसे फिशर के रूप में कोई 'सटीक' परीक्षण शामिल नहीं हैं।

प्रासंगिक स्टाटा मैनुअल प्रविष्टि ( svy के लिए: tabulate twoway ) सभी मामलों में अपने डिफ़ॉल्ट परीक्षण का उपयोग करने की सलाह देती है। यह डिफ़ॉल्ट विधि सामान्य पियर्सन के ची-स्क्वेर्ड स्टैटिस्टिक पर आधारित है। उद्धरण के लिए:

"सर्वेक्षण के डिजाइन के लिए खाते में, एक दूसरे क्रम के राव और स्कॉट (1981, 1984) सुधार का उपयोग करके सांख्यिकी को स्वतंत्रता के गैर-डिग्री वाले एफ सांख्यिकीय में बदल दिया जाता है"।

refs:

  • राव, जेएनके, और एजे स्कॉट। 1981. जटिल नमूना सर्वेक्षणों से श्रेणीबद्ध डेटा का विश्लेषण: दो-तरफ़ा तालिका में फिट और स्वतंत्रता की अच्छाई के लिए ची-चुकता परीक्षण। जर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 76: 221-230।
  • राव, जेएनके, और एजे स्कॉट। 1984. सर्वेक्षण डेटा से अनुमानित सेल अनुपात के साथ मल्टीवे आकस्मिक टेबल के लिए ची-चुकता परीक्षणों पर। आँकड़ों की संख्या 12: 46–60।

3

दिलचस्प सवाल। वजन से आपका क्या मतलब है?

मैं एक बूटस्ट्रैप करने के लिए इच्छुक हूं ... अपनी पसंदीदा आँकड़ा (यानी फिशर एक्जैक्ट) चुनें, और इसे अपने डेटा पर गणना करें। फिर अपने अशक्त परिकल्पना के अनुसार प्रत्येक उदाहरण के लिए नई कोशिकाओं को असाइन करें, और प्रक्रिया को 999 बार दोहराएं। यह अशक्त परिकल्पना के तहत आपके परीक्षण सांख्यिकीय के लिए एक बहुत अच्छा अनुभवजन्य वितरण देना चाहिए, और आपके पी-मूल्य की आसान गणना करने की अनुमति देता है!


धन्यवाद! लेकिन मैं एक आंकड़े के लिए आशा करता हूं कि गणना करने के लिए तेज और अधिक स्थिर है ...
मिशेल डी रुएटर

2

नमूना भार के बारे में एक त्वरित बात - वे आम तौर पर आबादी के बारे में कुछ जानकारी को शामिल करने का एक तरीका है जिसमें से एक नमूना है - लेकिन आमतौर पर वे "बड़े नमूना" प्रकार के परिदृश्यों पर आधारित होते हैं (आमतौर पर भेस में BLUP या BLUE भविष्यवाणी विवश)। इसलिए मुझे लगता है कि नमूना वजन शायद कोई वजन से बेहतर होगा। बेहतर क्या होगा मुझे लगता है कि आबादी के बारे में जानकारी का उपयोग करना है कि नमूना डिजाइन सीधे आधारित था।

उदाहरण के लिए, चयन संभावनाओं की गणना किस आधार पर की गई? मेरी शर्त यह है कि आप एक आबादी को जानते थे या किसी तरह की आबादी टूट जाती है जिसमें A या B शामिल नहीं होता है (सेक्स ग्रुप्स के अनुसार आयु)। यदि यह सही नहीं है तो मैं के बारे में कुछ जगह बर्बाद करने के लिए कर रहा हूँ, लेकिन अगर यह सही है, और मान आप जनसंख्या योग था के लिए समूहों (या तबके), और प्रत्येक समूह के भीतर आपके पास 2 "2" की आकस्मिक तालिका थी। तो अब हम को हमारे अनुमान के "लक्ष्य" के रूप में लिख सकते हैं । या शायद यह योग कि अनुमान का लक्ष्य है (जनसंख्या में से कितने प्रतिक्रिया एन / एन ??)। फिर आप बारे में तर्क देने की कोशिश कर रहे हैंR1,,RkkR1;11,R1;12,R1;21,R1;22,l=1kRl;ijRl;ijसैंपल किए गए नंबरों से बाधा के अधीन है कि for । (किसी को भी अधिकतम करें?)rl;iji,jRl;ij=Rl(l=1,,k)

ध्यान दें कि यदि नमूना संभावनाएं केवल उस डेटा पर आधारित थीं जो आपको प्राप्त होने की संभावना थी, तो वे अप्रासंगिक हैं (और फिशर का सटीक परीक्षण लागू होता है), क्योंकि एक बार जब आप डेटा प्राप्त करते हैं, तो आप जानते हैं कि आपको क्या नमूना प्राप्त हुआ। तो करने के लिए सुसंगत बात यह है कि नमूना संभावना अद्यतन करना है यदि mth इकाई नमूने में है, और यदि वे नमूने में नहीं थे। हालाँकि, आमतौर पर डिज़ाइन अधिक जानकारी में आधारित होता है, केवल एक डेटा जो अवलोकन करने की संभावना है। लेकिन ध्यान दें कि यह प्रति से अधिक सर्वेक्षण डिजाइन के बजाय सूचना है जो महत्वपूर्ण है। डिजाइन आधारित निष्कर्ष, आपके विश्लेषण में उस जानकारी को शामिल करने के लिए सिर्फ एक बल्कि कुशल तरीका है।P(Dm)=1P(Dm)=0

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.