लॉजिस्टिक रिग्रेशन या टी टेस्ट?


17

व्यक्तियों का एक समूह एक प्रश्न का उत्तर देता है। इसका उत्तर "हां" या "नहीं" हो सकता है। शोधकर्ता यह जानना चाहता है कि क्या आयु उत्तर के प्रकार से जुड़ी है।

संघ का आकलन एक लॉजिस्टिक रिग्रेशन करते हुए किया गया था, जहां आयु व्याख्यात्मक चर है और उत्तर का प्रकार (हां, नहीं) आश्रित चर है। यह उन समूहों की औसत आयु की गणना करके अलग से संबोधित किया गया था, जिन्होंने क्रमशः "हां" और "नहीं" का उत्तर दिया, और साधनों की तुलना करने के लिए एक टी परीक्षण का आयोजन किया ।

दोनों परीक्षण अलग-अलग व्यक्तियों की सलाह के बाद किए गए, और उनमें से कोई भी निश्चित नहीं है कि जाने का सही तरीका क्या है। शोध प्रश्न के मद्देनजर, बेहतर परीक्षा कौन सी होगी?

परिकल्पना के परीक्षण के लिए p मान महत्वपूर्ण (प्रतिगमन) और महत्वपूर्ण (T परीक्षण) नहीं थे। नमूना 20 मामलों से कम है।


2
मुझे यकीन नहीं है कि यह आपका असली सवाल है। आप पहले से ही उन दोनों विश्लेषणों को चला रहे हैं जिनके बारे में आप पूछ रहे हैं। मैं अनुमान लगा रहा हूं कि आप वास्तव में क्या जानना चाहते हैं, उन परीक्षणों के बीच तुलना या संबंधों के बारे में कुछ है, उदाहरण के लिए जो बेहतर है। इसे ठीक करने के लिए कृपया अपने प्रश्न को संपादित करें।
जॉन

दोनों परीक्षण अलग-अलग व्यक्तियों की सलाह के बाद किए गए थे, और उनमें से कोई भी निश्चित नहीं है कि क्या यह जाने का सही तरीका है। शोध के सवालों के मद्देनजर (आयु प्रतिक्रिया के प्रकार के साथ जुड़ा हुआ है?) जो बेहतर परीक्षा होगी, उम्र पर प्रतिक्रिया के प्रकार का लॉजिस्टिक रिग्रेशन या टी टेस्ट का मतलब उम्र की तुलना करने वाले व्यक्तियों की तुलना में "हां" का जवाब देना। "नहीं" जवाब देने वाले व्यक्तियों की आयु?
ग्वेन

जवाबों:


19

दोनों परीक्षण उम्र-प्रतिक्रिया संबंध को स्पष्ट रूप से दर्शाते हैं, लेकिन वे अलग-अलग तरीकों से ऐसा करते हैं। कौन सा चयन करना है यह इस बात पर निर्भर करता है कि आप उस रिश्ते को कैसे चुनते हैं आपकी पसंद एक अंतर्निहित सिद्धांत पर निर्भर होना चाहिए, अगर वहाँ एक है; परिणामों से आप किस तरह की जानकारी निकालना चाहते हैं; और नमूना का चयन कैसे किया जाता है। यह उत्तर क्रम में इन तीन पहलुओं पर चर्चा करता है।


मैं उस भाषा का उपयोग करते हुए टी-टेस्ट और लॉजिस्टिक रिग्रेशन का वर्णन करूँगा जो मानती है कि आप लोगों की एक अच्छी तरह से परिभाषित आबादी का अध्ययन कर रहे हैं और इस जनसंख्या के लिए नमूने से निष्कर्ष निकालना चाहते हैं।

किसी भी प्रकार के सांख्यिकीय अनुमान का समर्थन करने के लिए हमें यह मान लेना चाहिए कि नमूना यादृच्छिक है।

  • एक टी-टेस्ट नमूना मानने वाले लोगों को मानता है "नहीं" आबादी में सभी उत्तरदाताओं का एक सरल यादृच्छिक नमूना है और नमूना "हां" में जवाब देने वाले लोग सभी हां-उत्तरदाताओं का एक सरल यादृच्छिक नमूना हैं आबादी।

    एक टी-टेस्ट आबादी में दो समूहों में से प्रत्येक के भीतर उम्र के वितरण के बारे में अतिरिक्त तकनीकी धारणा बनाता है। टी-टेस्ट के विभिन्न संस्करण संभावित संभावनाओं को संभालने के लिए मौजूद हैं।

  • लॉजिस्टिक रिग्रेशन मान लेता है कि किसी भी उम्र के सभी लोग आबादी में उस उम्र के लोगों का एक सरल यादृच्छिक नमूना हैं। अलग-अलग आयु समूह "हां" प्रतिक्रियाओं की विभिन्न दरों का प्रदर्शन कर सकते हैं। ये दरें, जब लॉग ऑड्स (सीधे अनुपात के बजाय) के रूप में व्यक्त की जाती हैं, तो उन्हें उम्र के साथ (या उम्र के कुछ निर्धारित कार्यों के साथ) रैखिक रूप से संबंधित माना जाता है।

    उम्र और प्रतिक्रिया के बीच गैर-रैखिक संबंधों को समायोजित करने के लिए लॉजिस्टिक प्रतिगमन को आसानी से बढ़ाया जाता है। इस तरह के विस्तार का उपयोग प्रारंभिक रैखिक धारणा की बहुलता का मूल्यांकन करने के लिए किया जा सकता है। यह बड़े डेटासेट के साथ व्यवहार्य है, जो गैर-रैखिकता प्रदर्शित करने के लिए पर्याप्त विवरण देता है, लेकिन अन्य डेटासेट के साथ अधिक उपयोग की संभावना नहीं है। अंगूठे का एक सामान्य नियम - कि प्रतिगमन मॉडल में मापदंडों के रूप में कई अवलोकनों का दस गुना होना चाहिए - सुझाव देता है कि गैर-शुद्धता का पता लगाने के लिए 20 से अधिक टिप्पणियों की आवश्यकता होती है (जो एक रैखिक फ़ंक्शन के अवरोधन और ढलान के अलावा तीसरे पैरामीटर की आवश्यकता होती है )।

एक टी-परीक्षण यह पता लगाता है कि क्या जनसंख्या में औसत आयुएं हां और ना के उत्तरदाताओं के बीच भिन्न हैं। एक लॉजिस्टिक रिग्रेशन का अनुमान है कि प्रतिक्रिया दर उम्र के अनुसार कैसे बदलती है। जैसे कि यह अधिक लचीला है और टी-टेस्ट की तुलना में अधिक विस्तृत जानकारी की आपूर्ति करने में सक्षम है। दूसरी ओर, यह समूहों में औसत आयु के बीच अंतर का पता लगाने के मूल उद्देश्य के लिए टी-टेस्ट की तुलना में कम शक्तिशाली है।

यह महत्वपूर्ण और गैर-महत्व के सभी चार संयोजनों को प्रदर्शित करने के लिए परीक्षणों की जोड़ी के लिए संभव है। इनमें से दो समस्याग्रस्त हैं:

  • टी-टेस्ट महत्वपूर्ण नहीं है, लेकिन लॉजिस्टिक रिग्रेशन है। जब दोनों परीक्षणों की धारणाएँ प्रशंसनीय हैं, तो ऐसा परिणाम व्यावहारिक रूप से असंभव है, क्योंकि टी-परीक्षण ऐसे विशिष्ट संबंध का पता लगाने की कोशिश नहीं कर रहा है जैसा कि लॉजिस्टिक प्रतिगमन द्वारा प्रस्तुत किया गया है। हालाँकि, जब वह संबंध सबसे पुराना और सबसे कम उम्र के विषयों को एक राय और मध्यम आयु वर्ग के विषयों को दूसरे के साथ साझा करने के लिए पर्याप्त रूप से अछूता है, तो गैर-संबंध संबंधों के लिए लॉजिस्टिक प्रतिगमन का विस्तार उस स्थिति का पता लगा सकता है और इसकी मात्रा बढ़ा सकता है, जिसे कोई भी टी-टेस्ट नहीं पहचान सकता है ।

  • टी-टेस्ट महत्वपूर्ण है, लेकिन लॉजिस्टिक रिग्रेशन प्रश्न में नहीं है। यह अक्सर होता है, खासकर जब युवा उत्तरदाताओं का एक समूह होता है, पुराने उत्तरदाताओं का एक समूह और बीच में कुछ लोग होते हैं। यह बिना और- हां-जवाब देने वालों की प्रतिक्रिया दरों के बीच एक महान अलगाव पैदा कर सकता है। यह टी-टेस्ट द्वारा आसानी से पता लगाया जाता है। हालाँकि, लॉजिस्टिक रिग्रेशन या तो अपेक्षाकृत कम विस्तृत जानकारी होगी कि प्रतिक्रिया दर वास्तव में उम्र के साथ कैसे बदलती है या फिर यह अनिर्णायक जानकारी होगी: "पूर्ण पृथक्करण" का मामला जहां सभी पुराने लोग एक तरह से प्रतिक्रिया करते हैं और सभी युवा लोग दूसरे तरीके से - लेकिन उस मामले में दोनों परीक्षणों में आमतौर पर बहुत कम पी-मान होंगे।

ध्यान दें कि प्रयोगात्मक डिजाइन कुछ परीक्षण मान्यताओं को अमान्य कर सकता है। उदाहरण के लिए, यदि आप एक स्तरीकृत डिजाइन में अपनी उम्र के अनुसार लोगों का चयन करते हैं, तो टी-टेस्ट की धारणा (प्रत्येक समूह उम्र के एक सरल यादृच्छिक नमूने को दर्शाता है) संदिग्ध हो जाता है। यह डिजाइन लॉजिस्टिक रिग्रेशन पर भरोसा करने का सुझाव देगा। यदि इसके बजाय आपके पास दो पूल हैं, एक नहीं-उत्तरदाता और एक हां-उत्तर देने वालों में से एक है, और अपनी उम्र का पता लगाने के लिए उन लोगों से यादृच्छिक रूप से चुना गया है, तो लॉजिस्टिक प्रतिगमन की नमूना धारणाएं संदिग्ध हैं जबकि टी-टेस्ट की पकड़ होगी। यह डिज़ाइन टी-टेस्ट के कुछ रूप का उपयोग करने का सुझाव देगा।

(दूसरा डिज़ाइन यहाँ मूर्खतापूर्ण लग सकता है, लेकिन ऐसी परिस्थितियों में जहां "उम्र" को कुछ विशेषता द्वारा प्रतिस्थापित किया जाता है, जो कि मुश्किल है, महंगा है, या इसे मापने के लिए समय लेने वाला आकर्षक हो सकता है।)


अधिकांश गैर-रैखिकता और पृथक्करण चिंताओं को आयु चर पर एक तख़्ता का उपयोग करके कम नहीं किया जाएगा? उस मामले पर, माफी लेकिन मैं यह नहीं देख सकता कि "जमा" डिज़ाइन लॉजिस्टिक प्रतिगमन के निष्कर्षों को अमान्य क्यों कर देगा । ज़रूर, यादृच्छिक नमूने की धारणा खत्म हो गई है लेकिन क्या हम इस बात का ध्यान रखते हैं कि हम इस डिज़ाइन को पसंद करें? क्या आप पूर्वाग्रह को चुनने के लिए तैयार हैं? (आप जिस डिजाइन का वर्णन करते हैं वह मेरे लिए केस-कंट्रोल स्टडी जैसा लगता है लेकिन मैं गलत हो सकता हूं ...) (+1 स्पष्ट रूप से)
us2r11852 का कहना है कि 1

@ us @r11852 आपकी विचारशील टिप्पणियों के लिए धन्यवाद। आपके द्वारा लाए गए बिंदुओं को स्पष्ट करने के लिए मैंने कुछ मार्ग दिए हैं। हालांकि उम्र को विभाजित करने से लॉजिस्टिक प्रतिगमन में गैर-विहीनता का सामना किया जा सकता है, यह पूर्ण अलगाव की संभावना को बढ़ा सकता है। मुझे यकीन नहीं है कि आपको "पूल डिज़ाइन" से क्या मतलब है, लेकिन मुझे लॉजिस्टिक रिग्रेशन के पी-वैल्यूज़ की व्याख्या करने के प्रयासों के बारे में संदेह होगा जहां एक संभावना मॉडल को उचित नहीं ठहराया जा सकता है (जो कि यादृच्छिक नमूनाकरण हमें करने में सक्षम बनाता है)।
whuber

इसके लिए आपको धन्यवाद। हां, मैं आपके द्वारा पूर्ण पृथक्करण (हक-डोनर प्रभाव) के बारे में बताए गए बिंदु की पूरी तरह से सराहना करता हूं, मैंने उन पर विचार नहीं किया। ठीक है, मैं देख रहा हूँ कि अब तुम दोनों पूल के बारे में क्या मतलब है। उस स्थिति में हमारे पास एक सहमत अवलोकन अध्ययन अवधारणा होगी (हम दो पूलों का अवलोकन / परिभाषित करते हैं) इसलिए हमें इसके लिए नियंत्रण के तरीके के बारे में
जानने के

5

टीएक्सY

एक्स|Y=मैं~एन(μमैं,σ2)
Y~Bernoulli(पी)Yएक्स=एक्स
पी(Y=1|एक्स=एक्स)=एक्स|Y=1(एक्स)पी(Y=1)Σमैं=01एक्स|Y=मैं(एक्स)पी(Y=मैं)=पी-12σ2(एक्स-μ1)2पी-12σ2(एक्स-μ1)2+(1-पी)-12σ2(एक्स-μ0)2=11+1-पीपी-12σ2(एक्स-μ0)2+12σ2(एक्स-μ1)2=logit-1(β0+β1एक्स)
β0=lnपी1-पी-12σ2(μ12-μ02)β1=1σ2(μ1-μ0)

तो इस अर्थ में दो सशर्त मॉडल संगत हैं।


3

बेहतर परीक्षा वह है जो आपके प्रश्न को बेहतर तरीके से संबोधित करे। न ही यह सिर्फ चेहरे पर बेहतर है। यहाँ अंतर उन लोगों के बराबर है जो जब x और x पर y पर पुनः प्राप्त करते हैं और विभिन्न परिणामों के कारण समान होते हैं। मूल्यांकन किए जा रहे विचरण पर निर्भर करता है कि मॉडल में प्रतिसाद चर के रूप में किस चर को माना जा रहा है।

आपका शोध प्रश्न बहुत अस्पष्ट है। शायद यदि आप कार्य-कारण की दिशा पर विचार करते हैं, तो आप एक निष्कर्ष पर आने में सक्षम होंगे कि आप किस विश्लेषण का उपयोग करना चाहते हैं। क्या उम्र के कारण लोग "हाँ" का जवाब दे रहे हैं या "हाँ" का जवाब दे रहे हैं जिससे लोग बूढ़े हो रहे हैं? यह पहले से अधिक संभावना है, इस मामले में "हाँ" की संभावना में विचरण आप मॉडल की इच्छा रखते हैं और इसलिए लॉजिस्टिक प्रतिगमन सबसे अच्छा विकल्प है।

उस ने कहा, आपको परीक्षणों की मान्यताओं की जांच करनी चाहिए। वे विकिपीडिया पर या उन पर आपकी पाठ्य पुस्तकों में ऑनलाइन पाए जा सकते हैं। यह अच्छी तरह से हो सकता है कि आपके पास लॉजिस्टिक रिग्रेशन न करने के अच्छे कारण हैं और ऐसा होने पर आपको एक अलग प्रश्न पूछने की आवश्यकता हो सकती है।


1
क्या आपका मतलब है "लॉजिस्टिक रिग्रेशन नहीं करना"?
mark999
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.