आंशिक रूप से युग्मित और आंशिक रूप से अप्रकाशित डेटा के लिए टी-टेस्ट


28

एक अन्वेषक कई डेटासेट के संयुक्त विश्लेषण का उत्पादन करना चाहता है। कुछ डेटासेट में उपचार ए और बी के लिए युग्मित अवलोकन होते हैं। अन्य में अप्रकाशित ए और / या बी डेटा होते हैं। मैं ऐसे आंशिक रूप से युग्मित डेटा के लिए, टी-परीक्षण के अनुकूलन के लिए, या संभावना अनुपात परीक्षण के लिए एक संदर्भ की तलाश कर रहा हूं। मैं (अभी के लिए) समान विचरण के साथ सामान्यता मानने के लिए तैयार हूं और ए का मतलब है कि प्रत्येक अध्ययन के लिए जनसंख्या समान है (और इसी तरह बी)।


2
हाय फ्रैंक। शायद यह मॉडलिंग की मान्यताओं को और अधिक स्पष्ट करने में सहायक होगा। आम तौर पर जब मैं युग्मित डिजाइनों के बारे में सोचता हूं, तो मुझे लगता है कि निम्नलिखित में से एक (i) फिक्स्ड अनबॉर्सेबल यूनिट-लेवल इफेक्ट्स को हटाने की कोशिश कर रहा है, (ii) प्रायोगिक इकाइयों में यादृच्छिक प्रभाव की परिवर्तनशीलता को कम करने, या (iii) गैर-असमानता के लिए समायोजन जोड़े के बीच अंतर करके प्रतिक्रिया की प्रतिक्रिया, इस प्रकार एक बेहतर सन्निकटन प्राप्त करना। विशेष रूप से, मैं मिलान किए गए जोड़े में तुरंत कोई लाभ नहीं देखता हूं अगर अशक्त के तहत धारणा यह है कि अवलोकन सभी सामान्य सामान्य हैं।
कार्डिनल

4
कार्डिनल, मुझे वास्तव में बहुत अधिक डेटा मिला है जो इस तरह भी दिखता है। हम पूरी तरह से युग्मित डेटा एकत्र करने की कोशिश कर रहे थे, लेकिन तकनीकी समस्याओं या खराब भाग्य के कारण, ए या बी के तहत कुछ नमूने कभी-कभी खराब हो जाते हैं। दो स्पष्ट - लेकिन असंतोषजनक - समाधान 1 हैं) सभी अधूरे जोड़े को बाहर फेंक दें और एक युग्मित टी-टेस्ट करें, या 2) युग्मन को अनदेखा करें और सभी डेटा पर एक अनपेक्षित टी-परीक्षण करें। मुझे लगता है कि पोस्टर पेयरिंग का लाभ उठाने का एक तरीका पूछ रहा है जहां यह मौजूद है (आपके कारण # 1 और # 2 के लिए), जबकि वह दूसरे, अप्रभावित, डेटा बिंदुओं से जो कुछ भी कर सकता है, उसका निस्तारण करता है।
मैट क्रूस

2
मैं सभी टिप्पणियों की सराहना करता हूं। मिलान किए गए जोड़े विषयों के लिए ए और बी दोनों के तहत परीक्षण किया गया था। युग्मन का लाभ उठाने का एक तरीका ए और बी के बीच के अंतर के लिए बूटस्ट्रैप नॉनपैरेमेट्रिक पर्सेंटाइल विश्वास अंतराल का उपयोग करना है। इसमें क्लस्टर बूटस्ट्रैप का उपयोग करना शामिल होगा, प्रतिस्थापन से नमूनाकरण। विषयों। एक विषय जो युग्मित डेटा नहीं रखता है, एक अवलोकन में रखे गए या हटाए गए एक अवलोकन होगा, और युग्मित डेटा में दो रिकॉर्ड रखे या हटाए जाएंगे। यह युग्मन का सम्मान करने के लिए लगता है, लेकिन एक अनुमान को परिभाषित करने की आवश्यकता है और हम इष्टतमता के बारे में नहीं जानते हैं।
फ्रैंक हरेल

1
बायेसियन दृष्टिकोण को लागू करना आसान है।
स्टीफन लॉरेंट

2
हानी एम Samawi और रॉबर्ट वोगेल, एप्लाइड सांख्यिकी के जर्नल (2013): नोट्स आंशिक रूप से सहसंबद्ध (बनती) डेटा के लिए दो नमूना परीक्षण पर, dx.doi.org/10.1080/02664763.2013.830285
सुरेश

जवाबों:


6

गुओ और युआन एक वैकल्पिक विधि का सुझाव देते हैं जिसे सामावी और वोगेल के पूलित टी-टेस्ट से इष्टतम इष्टतम टी-टेस्ट कहा जाता है।

संदर्भ के लिए लिंक: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.865.734&rep=rep1&type=pdf

इस स्थिति के लिए कई विकल्पों के साथ महान पढ़ें।

टिप्पणी करने के लिए नया तो कृपया मुझे बताएं कि क्या मुझे कुछ और जोड़ने की आवश्यकता है।


8

ठीक है, अगर आपको पता था कि अनपेयर और पेयर में वेरिएंस (जो आमतौर पर एक छोटा सौदा होगा), तो समूहों में अंतर के दो अनुमानों के लिए इष्टतम वजन का मतलब होगा वेटर्स का अलग-अलग वेरिएंट के समानुपातिक होना। साधनों में अंतर का अनुमान।

[संपादित करें: पता चलता है कि जब परिवर्तन का अनुमान लगाया जाता है, तो इसे ग्रेबिल-डील अनुमानक कहा जाता है। इस पर काफी कुछ कागजात हैं। यहाँ एक है]

विचरण का अनुमान लगाने की आवश्यकता कुछ कठिनाई का कारण बनती है (विचरण अनुमानों का परिणामी अनुपात F है, और मुझे लगता है कि परिणामी भार का एक बीटा वितरण होता है, और एक परिणामी आँकड़ा जटिल होता है), लेकिन चूंकि आप बूटस्ट्रैपिंग पर विचार कर रहे हैं, यह हो सकता है एक चिंता का विषय है।

एक वैकल्पिक संभावना जो कुछ अर्थों में अच्छी हो सकती है (या कम से कम गैर-सामान्यता के लिए थोड़ा अधिक मजबूत हो, क्योंकि हम सामान्य रूप से दक्षता में बहुत कम नुकसान के साथ विचरण अनुपात के साथ खेल रहे हैं) शिफ्ट के संयुक्त अनुमान को आधार बनाना है युग्मित और अप्रकाशित रैंक परीक्षण - प्रत्येक मामले में एक प्रकार का होजेस-लेहमन का अनुमान, जोड़ीदार क्रॉस-सैंपल के अंतर के मध्यस्थों के आधार पर अनियोजित मामले में और युग्मित-औसत-ऑफ-द-युग्म अंतर के मध्यस्थों के युग्मित मामले में। फिर से, दोनों के न्यूनतम विचरण भारित रैखिक संयोजन, भिन्नताओं के व्युत्क्रमानुपाती वजन के साथ होंगे। उस मामले में मैं शायद बूटस्ट्रैप के बजाय एक क्रमपरिवर्तन (/ रैंडमाइजेशन) की ओर झुक जाऊंगा - लेकिन इस बात पर निर्भर करता है कि आप अपने बूटस्ट्रैप को कैसे लागू करते हैं, वे उसी स्थान पर समाप्त हो सकते हैं।

या तो मामले में आप अपने संस्करण को मजबूत करना चाहते हैं / अपने विचरण अनुपात को कम कर सकते हैं। वजन के लिए सही बॉलपार्क में प्राप्त करना अच्छा है, लेकिन आप इसे थोड़ा मजबूत बनाकर सामान्य रूप से बहुत कम दक्षता खो देंगे। ---

कुछ अतिरिक्त विचार जो मैंने स्पष्ट रूप से पर्याप्त नहीं किए थे पहले मेरे सिर में हल कर दिए थे:

इस समस्या के Behrens-Fisher समस्या के लिए अलग समानताएं हैं, लेकिन और भी कठिन है।

यदि हम वज़न तय करते हैं, तो हम एक वेल्च-स्टरथवेट प्रकार सन्निकटन में अजीब कर सकते हैं ; समस्या की संरचना समान है।

हमारा मुद्दा यह है कि हम वज़न का अनुकूलन करना चाहते हैं, जिसका प्रभावी अर्थ है कि वेटिंग तय नहीं है - और वास्तव में, बड़े नमूनों में अधिकतम (कम से कम लगभग और अधिक लगभग) को अधिकतम करने की प्रवृत्ति है, क्योंकि वजन का कोई भी सेट एक यादृच्छिक मात्रा है जो उसी का आकलन करता है। अंश, और हम हर को कम करने की कोशिश कर रहे हैं; दोनों स्वतंत्र नहीं हैं)।

यह, मैं उम्मीद करता हूं, ची-वर्ग के सन्निकटन को और खराब कर देगा, और लगभग निश्चित रूप से आगे भी एक सन्निकटन के df को प्रभावित करेगा।

[यदि यह समस्या है, तो यह भी निश्चित रूप से हो सकता है कि अंगूठे का एक अच्छा नियम हो जो कहेंगे 'आप लगभग ऐसा ही कर सकते हैं यदि आप परिस्थितियों के इन सेटों के तहत केवल युग्मित डेटा का उपयोग करते हैं, केवल इन अन्य सेटों के तहत अप्रभावित स्थितियाँ और बाकी हिस्सों में, यह निश्चित वजन-योजना आमतौर पर इष्टतम के बहुत करीब है '- लेकिन मैं अपनी सांस को उस मौके पर इंतजार नहीं करूंगा। इस तरह का निर्णय नियम निस्संदेह प्रत्येक मामले में वास्तविक महत्व पर कुछ प्रभाव डालता है, लेकिन अगर वह प्रभाव इतना बड़ा नहीं था, तो अंगूठे का ऐसा नियम लोगों को मौजूदा विरासत सॉफ्टवेयर का उपयोग करने का एक आसान तरीका देगा, इसलिए यह वांछनीय हो सकता है ऐसी स्थिति में उपयोगकर्ताओं के लिए एक नियम की पहचान करने का प्रयास करें।]

---

संपादित करें: स्वयं पर ध्यान दें - 'ओवरलैपिंग सैंपल' परीक्षणों, विशेषकर ओवरलैपिंग सैंपल्स टी- टेस्ट्स पर काम के विवरण को वापस लाने और भरने की आवश्यकता है

---

यह मेरे लिए होता है कि एक यादृच्छिककरण परीक्षण ठीक काम करना चाहिए -

  • जहां डेटा जोड़े जाते हैं, आप जोड़े के भीतर समूह लेबल को बेतरतीब ढंग से अनुमति देते हैं

  • जहां डेटा अप्रकाशित हैं, लेकिन माना जाता है कि सामान्य वितरण (शून्य के तहत) है, तो आप समूह असाइनमेंट की अनुमति देते हैं

  • अब आप सापेक्ष परिवर्तन अनुमानों ( से दो बदलाव के अनुमानों को आधार बना सकते हैंw1=1/(1+v1v2)


(बहुत बाद में जोड़ा गया)

संभवतः प्रासंगिक कागज:

डेरिक, बी।, रस बी।, टोहेर, डी।, और व्हाइट, पी। (2017),
"दो नमूनों के लिए साधनों की तुलना के लिए टेस्ट सांख्यिकी, जिसमें दोनों जोड़ी और स्वतंत्र अवलोकन शामिल हैं"
आधुनिक एप्लाइड सांख्यिकीय विधियों के जर्नल , मई , वॉल्यूम। 16, नंबर 1, 137-157।
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm


1
+1। मेरे पास आपके उत्तर के अंतिम भाग के बारे में एक प्रश्न है। क्या परिवर्तन का अनुमान है (यानी क्या वज़न) आप क्रमपरिवर्तन परीक्षण में उपयोग करेंगे - वास्तविक लोग जो वास्तविक नमूने पर गणना करते हैं, या आप उस क्रमपरिवर्तन से डेटा के आधार पर प्रत्येक क्रमपरिवर्तन के लिए भार की गणना करेंगे?
अमीबा का कहना है कि

@amoeba गणना के नमूने-आधारित प्रकृति के लिए ठीक से खाता है जिसे आप उस विशेष क्रमपरिवर्तन पर आधारित करेंगे।
Glen_b -Reinstate मोनिका

@amoeba मुझे समस्या के कुछ अन्य तरीकों के साथ तुलना करनी चाहिए।
ग्लेन_ब -इंटरनेट मोनिका

1
वैसे, मैं इस धागे के पार आया क्योंकि किसी ने मुझे निम्न डेटा के साथ संपर्क किया था: युग्मित डेटा के साथ दो विषय और अनपेक्षित डेटा के साथ दो विषय (अर्थात समूह ए में 3 माप, समूह बी में 3 माप, इन 6 मूल्यों में से 2+ 2 जोड़े हैं और बाकी अप्रभावित है)। इस मामले में यह अनपेक्षित शिफ्ट अनुमान के विचरण का अनुमान लगाने के लिए पर्याप्त डेटा नहीं है, इसलिए मैं युग्मन की अनदेखी करने और एक अनपेक्षित परीक्षण करने के अलावा कुछ भी सुझाव नहीं दे सकता था ... लेकिन यह निश्चित रूप से काफी चरम स्थिति है।
अमीबा का कहना है कि मोनिका

6

यहाँ कुछ विचार हैं। मैं मूल रूप से ग्रेग स्नो निष्कर्ष पर पहुंचता हूं कि इस समस्या में बेहरेंस-फिशर समस्या की समानताएं हैं । हस्त-मैथुन से बचने के लिए मैं पहले कुछ संकेतन प्रस्तुत करता हूं और परिकल्पना को औपचारिक रूप देता हूं।

  • nxipAxipBi=1,,n
  • nAnBxiAi=1,,nAxiBi=1,,nB
  • प्रत्येक अवलोकन एक रोगी प्रभाव और एक उपचार प्रभाव का योग है। इसी यादृच्छिक चर रहे हैं

    • XipA=Pi+TiAXipB=Pi+TiB
    • XiA=Qi+UiAXiB=Ri+ViB

    Pi,Qi,RiN(0,σP2)Tiτ,Uiτ,ViτN(μτ,σ2)τ=A,B

    • μA=μB

Xi=XipAXipBXiN(μAμB,2σ2)

XinXiAnAXiBnB

  • XN(μAμB,2nσ2)
  • XAN(μA,1nA(σP2+σ2))
  • XBN(μB,1nB(σP2+σ2))

अगले प्राकृतिक कदम पर विचार करना है

  • Y=X+XAXBN(2(μAμB),2nσ2+(1nA+1nB)(σP2+σ2))

σ2n1σP2+σ2nA1nB1(1nA+1nB)(σP2+σ2)nA+nB2Y

इस बिंदु पर मुझे लगता है कि आपकी समस्या का समाधान पाने के लिए Behrens Fisher समस्या के लिए प्रस्तावित किसी भी समाधान में प्लग-इन हो सकता है।


1
मैंने सूत्रों में कुछ टाइपो को तय किया। कृपया जांचें!
kjetil b halvorsen

5

मेरा पहला विचार एक मिश्रित प्रभाव वाला मॉडल था, लेकिन उस पर पहले ही चर्चा हो चुकी है इसलिए मैं उस पर और कुछ नहीं कहूंगा।

मेरा अन्य विचार यह है कि यदि यह सैद्धांतिक रूप से संभव था कि आप सभी विषयों पर युग्मित डेटा को माप सकते थे, लेकिन लागत, त्रुटियों या किसी अन्य कारण से आपके पास सभी जोड़े नहीं थे, तो आप अनपेक्षित विषयों के लिए बिना किसी प्रभाव के इलाज कर सकते थे गुम डेटा और उपयोग उपकरण जैसे कि EM एल्गोरिथ्म या मल्टीपल इम्प्यूटेशन (रैंडम पर गायब होना तब तक उचित लगता है जब तक कि किसी विषय को केवल 1 उपचार के तहत मापा न जाए, क्योंकि उनका परिणाम दूसरे उपचार के तहत क्या होगा, इससे संबंधित था)।

यह अधिकतम संभावना का उपयोग करते हुए डेटा के लिए सामान्य रूप से एक द्विभाजित फिट करने के लिए और भी सरल हो सकता है (प्रति विषय उपलब्ध डेटा के आधार पर संभावना के साथ), फिर समान अनुपात के साथ वितरण की तुलना समान अनुपात के साथ करें।

यह मेरे सिद्धांत वर्गों के लिए एक लंबा समय रहा है, इसलिए मुझे नहीं पता कि ये कैसे इष्टतमता पर तुलना करते हैं।


1
धन्यवाद ग्रेग मैं अनुकूलित अधिकतम संभावना दृष्टिकोण की ओर झुक रहा हूं।
फ्रैंक हरेल

4

शायद यादृच्छिक प्रभाव के रूप में रोगी के साथ मिश्रित मॉडलिंग एक तरीका हो सकता है। मिश्रित मॉडलिंग के साथ युग्मित मामले में सहसंबंध संरचना और अप्रकाशित मामले में आंशिक यादों के लिए जिम्मेदार हो सकता है।


2
चूंकि किसी भी डेटासेट का विश्लेषण व्यक्तिगत रूप से नहीं किया जाता है, इसलिए मैं यादृच्छिक प्रभावों का उपयोग कर सकता हूं, मैं यह नहीं देख रहा हूं कि यादृच्छिक प्रभाव यहां सहायक क्यों हैं। लेकिन सामान्यीकृत कम से कम वर्गों का उपयोग करना संभव हो सकता है ताकि प्रत्येक विषय को उसकी सहसंबंध संरचना की अनुमति मिल सके। अप्रकाशित टिप्पणियों का सहसंबंध शून्य होगा। सोचने लायक। धन्यवाद।
फ्रैंक हरेल

हां, आप सही हैं, अलग से उपयोग किए जाने पर डेटासेट को मिश्रित मॉडलिंग की आवश्यकता नहीं होगी। लेकिन अगर आप उन्हें एक एकल डेटासेट में जोड़ते हैं, तो आप युग्मित डेटा में सहसंबंध को शामिल करने के लिए दृष्टिकोण का उपयोग कर सकते हैं और साथ ही शून्य सहसंबंध को निर्दिष्ट करके अप्रकाशित डेटा का उपयोग कर सकते हैं।
भजन

1
हाँ; मेरा कहना था कि एक मिश्रित मॉडल एक ओवरकिल हो सकता है क्योंकि आप सामान्यीकृत कम से कम वर्गों का उपयोग करके आसानी से विषय-भिन्न सहसंबंध संरचना को निर्दिष्ट कर सकते हैं (उदाहरण के glsलिए nlme4पैकेज में आर के फ़ंक्शन का उपयोग करें ।
फ्रैंक हरेल

3

हनी एम। समैवी और रॉबर्ट वोगेल (जर्नल ऑफ एप्लाइड स्टैटिस्टिक्स, 2013) में प्रस्तावित विधियों में से एक में स्वतंत्र और आश्रित नमूनों से टी-स्कोर का भारित संयोजन है, जो नए टी स्कोर के बराबर है।

To=γ(μYμXSx2/nX+Sy2/nY)+(1γ)μDSD2/nD

Dγγ


1
T0
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.