मैं एक द्विबीजपत्री और एक सतत चर के बीच सहसंबंध को खोजने की कोशिश कर रहा हूं।
इस पर मेरे जमीनी कार्य से मैंने पाया कि मुझे स्वतंत्र टी-परीक्षण का उपयोग करना है और इसके लिए पूर्व शर्त यह है कि चर का वितरण सामान्य होना चाहिए।
मैंने सामान्यता के परीक्षण के लिए कोलमोगोरोव-स्मिरनोव परीक्षण किया और पाया कि निरंतर चर सामान्य नहीं है और तिरछा है (लगभग 4,000 डेटा बिंदुओं के लिए)।
मैंने चर की पूरी श्रृंखला के लिए कोलमोगोरोव-स्मिरनोव परीक्षण किया। क्या मुझे उन्हें समूहों में विभाजित करना चाहिए और परीक्षण करना चाहिए? यानी, अगर मेरे पास risk level
( 0
= जोखिम भरा नहीं, 1
जोखिम भरा) और कोलेस्ट्रॉल का स्तर है, तो मुझे कहना चाहिए:
उन्हें दो समूहों में विभाजित करें, जैसे
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
उन्हें एक साथ ले जाएं और परीक्षण लागू करें? (मैंने इसे पूरे डेटासेट पर ही प्रदर्शन किया।)
उसके बाद, अगर यह अभी भी गैर-सामान्य है तो मुझे क्या परीक्षण करना चाहिए?
संपादित करें: उपरोक्त परिदृश्य सिर्फ एक विवरण था जिसे मैंने अपनी समस्या के लिए प्रदान करने का प्रयास किया था। मेरे पास एक डेटासेट है जिसमें 1000 से अधिक चर और लगभग 4000 नमूने हैं। वे प्रकृति में या तो निरंतर या श्रेणीबद्ध हैं। मेरा काम इन चरों पर आधारित एक द्विअर्थी चर की भविष्यवाणी करना है (शायद एक लॉजिस्टिक प्रतिगमन मॉडल के साथ आता है)। इसलिए मुझे लगा कि प्रारंभिक जांच में द्विबीजपत्री और एक सतत चर के बीच संबंध का पता लगाना शामिल होगा।
मैं यह देखने की कोशिश कर रहा था कि चर का वितरण कैसा है और इसलिए टी-टेस्ट में जाने की कोशिश की। यहां मुझे सामान्यता एक मुद्दे के रूप में मिली। कोलमोगोरोव-स्मिर्नोव परीक्षण ने इनमें से अधिकांश चर में 0.00 का महत्व दिया।
क्या मुझे यहां सामान्यता माननी चाहिए? इन चरों के तिरछापन और कुर्तोसिस यह भी दर्शाते हैं कि डेटा लगभग सभी मामलों में तिरछा (> 0) है।
नीचे दिए गए नोट के अनुसार मैं बिंदु-द्विभाषिक सहसंबंध की आगे जांच करूंगा। लेकिन चर के वितरण के बारे में मैं अभी भी अनिश्चित हूं।