सहसंबंध मैट्रिक्स में एक सहसंबंध के सांख्यिकीय महत्व को इंगित करने के लिए सहसंबंध गुणांक के लिए थ्रेसहोल्ड


10

मैंने डेटा सेट के सहसंबंध मैट्रिक्स की गणना की है जिसमें 455 डेटा बिंदु हैं, प्रत्येक डेटा बिंदु जिसमें 14 विशेषताओं हैं। तो सहसंबंध मैट्रिक्स का आयाम 14 x 14 है।

मैं सोच रहा था कि क्या सहसंबंध गुणांक के मूल्य के लिए एक सीमा है जो बताता है कि उन विशेषताओं में से दो के बीच एक महत्वपूर्ण सहसंबंध है।

मेरा मान -0.2 से 0.85 तक है, और मैं सोच रहा था कि महत्वपूर्ण वे हैं जो 0.7 से ऊपर हैं।

  • क्या सहसंबंध गुणांक के लिए एक सामान्य मूल्य है जिसे थ्रेशोल्ड के लिए माना जाना चाहिए या केवल संदर्भ डेटा प्रकार पर निर्भर करता है जिसकी मैं जांच कर रहा हूं?

1
क्या आपने सांख्यिकी की जाँच की है ।stackexchange.com/questions/5750/… ?
user603

@ user603 अच्छी पकड़: यह व्यावहारिक रूप से एक ही सवाल है। यहाँ नवाचार यह पूछना है कि क्या महत्वपूर्ण सहसंबंध के लिए परीक्षण "डेटा प्रकार" (पढ़ें: डेटा वितरण) पर निर्भर हो सकते हैं। आइए आशा करते हैं कि उत्तर पुराने ज़मीन पर जाने के बजाय इस पहलू पर ध्यान केंद्रित करते हैं।
whuber

जवाबों:


8

सहसंबंध के लिए महत्वपूर्ण परीक्षण

सांख्यिकीय महत्व के परीक्षण हैं जो व्यक्तिगत सहसंबंधों पर लागू किए जा सकते हैं, जो कि नमूना परिकल्पना की तुलना में बड़े या बड़े के रूप में सहसंबंध प्राप्त करने की संभावना को इंगित करते हैं, जो कि अनुमान परिकल्पना सच है।

मुख्य बिंदु यह है कि सांख्यिकीय महत्वपूर्ण सहसंबंध गुणांक का गठन किस पर निर्भर करता है:

  • नमूना आकार : बड़ा नमूना आकार छोटे थ्रेसहोल्ड को जन्म देगा
  • अल्फ़ा : अक्सर .05 पर सेट होता है, छोटे अल्फ़ाज़ सांख्यिकीय महत्व के लिए उच्च थ्रेशोल्ड को जन्म देंगे
  • एक-पूंछ / दो-पूंछ परीक्षण : मैं अनुमान लगा रहा हूं कि आप दो-पूंछ का उपयोग कर रहे होंगे, इसलिए यह कोई फर्क नहीं पड़ता
  • सहसंबंध गुणांक का प्रकार : मुझे लगता है कि आप पियर्सन का उपयोग कर रहे हैं
  • एक्स और वाई की वितरण संबंधी धारणा

सामान्य परिस्थितियों में, जहां अल्फा .05 है, दो-पूंछ परीक्षण का उपयोग करते हुए, पियर्सन के सहसंबंध के साथ, और जहां सामान्यता कम से कम पर्याप्त सन्निकटन है, कट-ऑफ को प्रभावित करने वाला मुख्य कारक नमूना आकार है।

महत्व की सीमा

अपने प्रश्न की व्याख्या करने का एक और तरीका यह है कि आप इस बात पर विचार करें कि आप इस बात में दिलचस्पी नहीं रखते कि क्या कोई सहसंबंध सांख्यिकीय रूप से महत्वपूर्ण है, बल्कि यह कि क्या यह व्यावहारिक रूप से महत्वपूर्ण है।

कुछ शोधकर्ताओं ने सहसंबंध गुणांक के अर्थ की व्याख्या के लिए अंगूठे के नियमों की पेशकश की है, लेकिन अंगूठे के ये नियम डोमेन विशिष्ट हैं।

एकाधिक महत्व परीक्षण

हालाँकि, क्योंकि आप एक मैट्रिक्स में महत्वपूर्ण सहसंबंधों को फ़्लैग करने में रुचि रखते हैं, इससे हीन संदर्भ बदल जाता है। आपके पास सहसंबंध हैं जहां चर (यानी, । यदि मैट्रिक्स में सभी सहसंबंधों के लिए अशक्त परिकल्पना सही थी, तो आप जितना अधिक महत्व रखते हैं उतना ही चलेगा। , तो अधिक संभावना है कि आप एक टाइप I त्रुटि कर रहे हैं। उदाहरण के लिए, आपके मामले में आप औसतन टाइप करेंगे, यदि सभी अनुमानों के लिए अशक्त परिकल्पना सही थी।(-1)/214(13)/2=9191*.05=4.55

जैसा कि @ user603 ने इंगित किया है, इन मुद्दों पर इस पहले प्रश्न में अच्छी तरह से चर्चा की गई थी

सामान्य तौर पर, उच्च स्तरीय संरचना पर ध्यान केंद्रित करने के लिए सहसंबंध मैट्रिक्स की व्याख्या करते समय मुझे यह उपयोगी लगता है। यह सहसंबंध मैट्रिक्स में सामान्य पैटर्न को देखकर अनौपचारिक तरीके से किया जा सकता है। यह पीसीए और कारक विश्लेषण जैसी तकनीकों का उपयोग करके अधिक औपचारिक रूप से किया जा सकता है। इस तरह के दृष्टिकोण कई महत्व परीक्षण से जुड़े कई मुद्दों से बचते हैं।


1

एक विकल्प सिमुलेशन या क्रमपरिवर्तन परीक्षण होगा। यदि आप उस वितरण को जानते हैं जो आपके डेटा से आता है तो आप उस वितरण से अनुकरण कर सकते हैं, लेकिन सभी टिप्पणियों के साथ स्वतंत्र। यदि आप वितरण नहीं जानते हैं, तो आप अपने प्रत्येक चर को स्वतंत्र रूप से एक दूसरे के लिए अनुमति दे सकते हैं और यह आपको प्रत्येक चर के समान सामान्य सीमांत वितरण देगा, लेकिन किसी भी सहसंबंध को हटा दिया जाएगा।

ऊपर या तो (नमूना आकार और मैट्रिक्स आयामों को समान रखते हुए) पूरे समय (10,000 या तो) का एक पूरा गुच्छा रखें और अधिकतम पूर्ण सहसंबंध, या एक अन्य उच्च मात्रात्मक को देखें जो ब्याज का हो सकता है। यह आपको अशक्त परिकल्पना से वितरण देगा जिसे आप तब अपने वास्तविक देखे गए सहसंबंधों (और ब्याज के अन्य उच्च मात्राओं) की अधिकतम तुलना कर सकते हैं।


हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.