द्विबीजपत्री और सतत चर के बीच सहसंबंध


10

मैं एक द्विबीजपत्री और एक सतत चर के बीच सहसंबंध को खोजने की कोशिश कर रहा हूं।

इस पर मेरे जमीनी कार्य से मैंने पाया कि मुझे स्वतंत्र टी-परीक्षण का उपयोग करना है और इसके लिए पूर्व शर्त यह है कि चर का वितरण सामान्य होना चाहिए।

मैंने सामान्यता के परीक्षण के लिए कोलमोगोरोव-स्मिरनोव परीक्षण किया और पाया कि निरंतर चर सामान्य नहीं है और तिरछा है (लगभग 4,000 डेटा बिंदुओं के लिए)।

मैंने चर की पूरी श्रृंखला के लिए कोलमोगोरोव-स्मिरनोव परीक्षण किया। क्या मुझे उन्हें समूहों में विभाजित करना चाहिए और परीक्षण करना चाहिए? यानी, अगर मेरे पास risk level( 0= जोखिम भरा नहीं, 1जोखिम भरा) और कोलेस्ट्रॉल का स्तर है, तो मुझे कहना चाहिए:

  • उन्हें दो समूहों में विभाजित करें, जैसे

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • उन्हें एक साथ ले जाएं और परीक्षण लागू करें? (मैंने इसे पूरे डेटासेट पर ही प्रदर्शन किया।)

उसके बाद, अगर यह अभी भी गैर-सामान्य है तो मुझे क्या परीक्षण करना चाहिए?

संपादित करें: उपरोक्त परिदृश्य सिर्फ एक विवरण था जिसे मैंने अपनी समस्या के लिए प्रदान करने का प्रयास किया था। मेरे पास एक डेटासेट है जिसमें 1000 से अधिक चर और लगभग 4000 नमूने हैं। वे प्रकृति में या तो निरंतर या श्रेणीबद्ध हैं। मेरा काम इन चरों पर आधारित एक द्विअर्थी चर की भविष्यवाणी करना है (शायद एक लॉजिस्टिक प्रतिगमन मॉडल के साथ आता है)। इसलिए मुझे लगा कि प्रारंभिक जांच में द्विबीजपत्री और एक सतत चर के बीच संबंध का पता लगाना शामिल होगा।

मैं यह देखने की कोशिश कर रहा था कि चर का वितरण कैसा है और इसलिए टी-टेस्ट में जाने की कोशिश की। यहां मुझे सामान्यता एक मुद्दे के रूप में मिली। कोलमोगोरोव-स्मिर्नोव परीक्षण ने इनमें से अधिकांश चर में 0.00 का महत्व दिया।

क्या मुझे यहां सामान्यता माननी चाहिए? इन चरों के तिरछापन और कुर्तोसिस यह भी दर्शाते हैं कि डेटा लगभग सभी मामलों में तिरछा (> 0) है।

नीचे दिए गए नोट के अनुसार मैं बिंदु-द्विभाषिक सहसंबंध की आगे जांच करूंगा। लेकिन चर के वितरण के बारे में मैं अभी भी अनिश्चित हूं।


1
एक निरंतरता और एक द्विआधारी (समूह) चर के बीच सहसंबंध (किसी भी प्रकार का), समूहों के बीच केवल साधनों (किसी प्रकार का मतलब ...) की तुलना में बहुत अधिक (और शायद कम ...) नहीं है, इसलिए आमतौर पर यह सिर्फ ऐसा करने के लिए बेहतर होना चाहिए!
kjetil b halvorsen

जवाबों:


14

मैं थोड़ा उलझन में हूँ; आपका शीर्षक "सहसंबंध" कहता है लेकिन आपकी पोस्ट टी-टेस्ट को संदर्भित करती है। एक टी-टेस्ट केंद्रीय स्थान का एक परीक्षण है - अधिक विशेष रूप से, डेटा के एक सेट का मतलब दूसरे सेट के माध्यम से अलग है? दूसरी ओर, सहसंबंध, दो चर के बीच संबंध को दर्शाता है। विभिन्न प्रकार के सहसंबंध उपाय हैं, ऐसा लगता है कि आपके मामले में बिंदु-द्विभाषी सहसंबंध उचित है।

आप सही हैं कि एक टी-टेस्ट सामान्यता मानता है; हालाँकि, सामान्यता के परीक्षणों में 4000 की N के साथ तुच्छ गैर-सामान्यताओं के लिए भी महत्वपूर्ण परिणाम दिए जाने की संभावना है। यदि डेटा के दो सेटों के संस्करण लगभग बराबर हैं और नमूना है तो T- परीक्षण सामान्य से मामूली विचलन के लिए अधिक मजबूत हैं। आकार लगभग बराबर। लेकिन एक गैरपारंपरिक परीक्षण आउटलेर्स के लिए अधिक मजबूत है और उनमें से अधिकांश के पास टी-परीक्षण की लगभग शक्ति है, भले ही वितरण सामान्य हो।

हालांकि, आपके उदाहरण में, आप "कोलेस्ट्रॉल" का उपयोग जोखिम भरा या जोखिम-रहित होने के रूप में करते हैं। यह लगभग निश्चित रूप से एक बुरा विचार है। एक सतत चर को विचलित करना जादुई सोच को आमंत्रित करता है। यह कहता है कि, कुछ बिंदु पर, कोलेस्ट्रॉल "जोखिम भरा नहीं" से "जोखिम भरा" हो जाता है। मान लीजिए कि आपने 200 को अपने कटऑफ के रूप में इस्तेमाल किया है - तो आप कह रहे हैं कि 201 के कोलेस्ट्रॉल वाला कोई व्यक्ति 400 के समान है, और 199 वाला कोई व्यक्ति 100 के समान है। इसका कोई मतलब नहीं है।


2
मैं सहमत हूं, और मुझे लगता है कि हम में से अधिकांश सहमत हैं, कि कचरे की जानकारी को बर्बाद करना और यह एक कच्चा या मोटे या अनाड़ी तरीका हो सकता है। मुझे लगता है कि "जादुई सोच" का तर्क थोड़ा उलट जाता है। एक अंतर पर चमक के लिए चयन करने के लिए के रूप में विश्वास नहीं है कि वहाँ कोई अंतर नहीं है। मुझे उम्मीद है कि आगे समय होगा जब मैं इसे सुविधाजनक और कुछ निरंतर चर से श्रेणियां बनाने के लिए ट्रेडऑफ के लायक समझूंगा, या तो विश्लेषणात्मक या रिपोर्टिंग उद्देश्यों के लिए। बस मेरे 2 सेंट।
rolando2

2
निरंतर चर से श्रेणियां बनाना जादुई से भी बदतर है। मधुमेह एक बेहतर शब्द हो सकता है। यदि आप मॉडल जटिलता को अधिकतम करना चाहते हैं, पूर्वाग्रह को बढ़ाते हैं, और एक ही समय में विचरण को बढ़ाते हैं, तो डाइकोटोमाइजेशन आपके लिए है। [यह जटिलता को अधिकतम करता है क्योंकि वर्गीकरण के कारण खोई गई जानकारी को उसी को प्राप्त करने के लिए मॉडल में अधिक चर जोड़ने की आवश्यकता होती है ।]R2
फ्रैंक हरेल

6

चलो चीजों को सरल करते हैं। कोलेस्ट्रॉल स्तर के लिए एन = 4,000 के साथ, आपको अपने परिणामों के आउटलेर्स द्वारा पक्षपाती होने के साथ कोई समस्या नहीं होनी चाहिए। इसलिए आप सहसंबंध का उपयोग कर सकते हैं, जैसा कि आपके प्रारंभिक वाक्य द्वारा निहित है। इससे बहुत कम फर्क पड़ेगा कि क्या आप पियर्सन, स्पीयरमैन या प्वाइंट-बाइसेरियल विधि के माध्यम से सहसंबंध का आकलन करते हैं।

यदि इसके बजाय आपको वास्तव में हाई-रिस्क और लो-रिस्क समूहों के बीच विशिष्ट कोलेस्ट्रॉल अंतर के संदर्भ में परिणामों को वाक्यांश करने की आवश्यकता है, तो मान-व्हिटनी यू परीक्षण का उपयोग करना ठीक है, लेकिन आप अधिक जानकारीपूर्ण टी -टेस्ट का उपयोग कर सकते हैं । इस एन के साथ (और फिर से, खगोलीय आउटलेर के साथ कुछ आप संदेह नहीं कर सकते हैं), आपको चिंता करने की ज़रूरत नहीं है कि सामान्यता की कमी आपके परिणामों से समझौता करेगी।


आपके जवाब के लिए धन्यवाद। लेकिन अगर मुझे आउटलेर्स के बारे में जानना है, तो यह पता लगाने के लिए कुर्तोसिस और तिरछापन का उपयोग करना एक बड़ी विकृति है? यदि यह ऊपर सच है, तो कर्टोसिस और तिरछापन के मूल्यों को क्या मान लेना चाहिए कि वितरण सामान्य नहीं है। आपके उत्तर के लिए धन्यवाद
श्री अरविंद

मैं सीमित सामग्री ज्ञान के आधार पर मान रहा हूं कि कोलेस्ट्रॉल के साथ, आपके पास कोई भी मूल्य नहीं होगा जो दूसरों की तुलना में अधिक परिमाण के कई आदेश हैं। इसलिए मुझे लगता है कि आप सहसंबंध या टी-टेस्ट जैसी एक पैरामीट्रिक विधि का उपयोग कर सकते हैं। ऐसा नहीं है कि मुझे लगता है कि वितरण सामान्य है। आपको इसे सामान्य करने की आवश्यकता नहीं है। वैसे, पीटर के उत्तर के प्रकाश में: मेरा मानना ​​था (और आशा है) कि आपके पास उच्च / निम्न जोखिम की स्थिति के कुछ स्रोत थे जो कोलेस्ट्रॉल स्कोर से स्वतंत्र थे। मैं मानता हूँ कि यह शायद डाइकोटोमाइज़ करने में मददगार नहीं है।
rolando2

2
क्या मैं आपको "EDIT: ...." चिह्नित अपने मूल प्रश्न में एक खंड जोड़ने का सुझाव दे सकता हूं, जो यह बताता है कि आपके लिए कौन से प्रश्न शेष हैं, जो आपके द्वारा अब तक प्राप्त किए गए उत्तरों और टिप्पणियों द्वारा संबोधित नहीं किए गए हैं।
rolando2

आपके सुझाव के लिए धन्यवाद।
मैंने
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.