अनुपात डेटा पर पियर्सन सहसंबंध करना ठीक क्यों नहीं है?


10

एक ऑनलाइन मॉड्यूल मैं अध्ययन कर रहा हूं कि किसी को अनुपात डेटा के साथ पियर्सन सहसंबंध का उपयोग नहीं करना चाहिए । क्यों नहीं?

या, अगर यह कभी-कभी ठीक है या हमेशा ठीक है, क्यों?


3
यह क्या कहता है, और किस संदर्भ में है? "कभी नहीं" तब तक बहुत मजबूत लगता है जब तक कि वे कुछ बहुत ही सीमित स्थिति के बारे में बात नहीं कर रहे हैं। यह हो सकता है कि जिसने भी लिखा है वह केवल गलत है, लेकिन संदर्भ के बिना हम कैसे अनुमान लगा सकते हैं?
Glen_b -Reinstate मोनिका

2
ऑनलाइन मॉड्यूल मालिकाना है और मैं इसे लिंक नहीं कर सकता। हालाँकि, मुझे एक वीडियो मिला है जो समान बात बताता है: australianbioinformatics.net/the-pipeline/2013/3/19/… । दोनों मॉड्यूल जो मैंने देखे हैं और इस वीडियो से संकेत मिलता है कि कोई संदर्भ नहीं है जिसमें सहसंबंधी अनुपात स्वीकार्य है।
user1205901 - मोनिका

4
"कभी नहीं" बहुत मजबूत है। अनुपात से संबंधित सहसंबंध गुणांक की व्याख्या करने के बारे में सतर्क रहने के कारण हैं, विशेष रूप से उन लोगों पर जो छोटे मामलों पर आधारित हैं। लेकिन उन कारणों का समर्थन करने वाले एक ही विश्लेषण से यह भी पता चलता है कि जब अनुपात बड़ी गिनती पर आधारित होते हैं और अनुपात या 1 से "पर्याप्त रूप से दूर" होते हैं , तो सहसंबंध गुणांक समस्याग्रस्त नहीं होते हैं। इसके अलावा, कोई भी हमेशा युग्मित डेटा (जहां दोनों घटक भिन्नता प्रदर्शित करता है) के सारांश (विवरणात्मक) सांख्यिकीय के रूप में सहसंबंध गुणांक की रिपोर्ट कर सकता है । 01
whuber

जवाबों:


6

यह एक ऐसे मामले के लिए है जब प्रत्येक अवलोकन में कई चर एक साथ 1 हो जाते हैं। मेरा उत्तर अंतर्ज्ञान-स्तर होगा; यह जानबूझकर है (और यह भी, मैं संरचनागत डेटा का विशेषज्ञ नहीं हूं)।

आइए हमारे पास आइड (इसलिए शून्य-सहसंबद्ध) सकारात्मक-मूल्यवान चर हैं जिन्हें हम तब जोड़ते हैं और उस राशि के अनुपात के रूप में पुनर्मूल्यांकन करते हैं। फिर,

  • दो चर V1 V2 के मामले में , यदि V1 को स्वतंत्र रूप से भिन्न करने के लिए कहा जाता है, तो V2 में स्वतंत्रता के लिए कोई जगह नहीं है (V1 + V2 = निरंतर) और पूरी तरह से तय है; V1 जितना बड़ा है उतना ही कम V2 है, V1 जितना बड़ा है उतना ही V2 है। उनका सहसंबंध है लेकिन और हमेशा ऐसा है।1
  • 3 चर V1 V2 V3 के मामले में , यदि V1 को स्वतंत्र रूप से अलग-अलग कहा जाता है तो V2 + V3 तय हो गया है; वे औसत पर कर रहे हैं: यह कहना है कि अंदर (V2 + V3) दो चरों के प्रत्येक अभी भी आंशिक रूप से स्वतंत्र हैं, जो बार प्रत्येक तय, पूर्ण कुल में ठीक किया गया। इसलिए, यदि तीन में से किसी एक चर को नि: शुल्क लिया जाता है (जैसे हमने V1 लिया), तो शेष दो में से किसी एक के 1 या 2 होने की उम्मीद है। ताकि उनके बीच संबंध हो - 0.5 । यह अपेक्षित सहसंबंध है; यह नमूने से नमूने के लिए भिन्न हो सकते हैं।1/21/20.5
  • 4 चर के मामले में V1 से V2 V3 V4 एक ही तर्क है कि हम उस है, से हम मुक्त के रूप में चार तो शेष में से किसी एक होने की उम्मीद है में से किसी एक लेते हैं तय; इसलिए, उम्मीद चार के किसी भी जोड़े के बीच संबंध - मुफ्त के रूप में एक दूसरे के रूप में 1 / 3 तय - है - 0.3331/31/30.333
  • जैसे ही (आरंभ में आईआईडी) चर बढ़ते हैं, अपेक्षित युग्मक सहसंबंध नकारात्मक से ओर बढ़ता है , और इसके नमूने से नमूने तक भिन्नता बड़ी हो जाती है।0

ठीक है, लेकिन मुझे लगता है कि ब्याज जोड़े V1, V2 में है, प्रत्येक V 1 (100%) के बराबर है, लेकिन प्रत्येक अंश को छोड़कर व्यक्तिगत V पर कोई बाधा नहीं है।
निक कॉक्स

each V summing to 1 ( 100%)माफ़ कीजियेगा? मैं तुम्हें समझ नहीं पाया। मैंने अलग-अलग V पर कोई बाधा नहीं डाली, केवल एक अंश था। हालाँकि, प्रारंभिक बाधा यह थी कि मेरा उदाहरण शून्य बनाम सहसंबंधों को भिन्नों में बदलना है।
ttnphns

क्या आपका मतलब है कि प्रत्येक V में 1 ("लंबवत") का मान है? नहीं, मेरा मतलब था "भयानक", चर के पार। लेकिन दुर्भाग्य से ओपी ने अपने प्रश्न में इस बिंदु को स्पष्ट नहीं किया। इसलिए मैंने इसे लिया जैसा मैंने लिया था।
ttnphns

हाँ; मुझे लगता है कि आमतौर पर यहां क्या होता है, लेकिन सवाल विशेष रूप से स्पष्ट नहीं है।
निक कॉक्स

1
@ttnphns मैंने एक बयान देखा कि एक को कभी भी अनुपात के रूप में मापा जाने वाला पियर्सन सहसंबंध दो चर नहीं करना चाहिए। मैंने 'कभी नहीं' शब्द को उजागर करने के लिए ओपी को संपादित करके इसे स्पष्ट करने की कोशिश की है। वीडियो अपने शीर्षक में एक ही बयान करता है ("अनुपातों को सहसंबंधित न करें!"), हालांकि वे केवल रचना डेटा के संदर्भ में इस पर चर्चा करते हैं। मैंने जानबूझकर संदर्भ को अपरिभाषित छोड़ दिया क्योंकि मेरे स्रोत ने कहा कि किसी भी संदर्भ में पीयरसन सहसंबंधों का उपयोग आनुपातिक डेटा पर नहीं किया जाना चाहिए। हालाँकि, ऐसा लगता है कि मेरे प्रश्न का उत्तर है: "परस्पर संबंध ठीक है, कुछ संदर्भों को छोड़कर।"
user1205901 - मोनिका

10

आपकी टिप्पणी का वीडियो लिंक रचनाओं के संदर्भ को निर्धारित करता है , जिसे मिश्रण भी कहा जा सकता है इन मामलों में, प्रत्येक घटक के अनुपात का योग 1 तक होता है। उदाहरण के लिए, वायु 78% नाइट्रोजन, 21% ऑक्सीजन, और 1% अन्य (कुल 100%) है। यह देखते हुए कि एक घटक की मात्रा पूरी तरह से दूसरों द्वारा निर्धारित की जाती है, किसी भी दो घटकों का एक आदर्श बहु-रैखिक संबंध होगा। वायु उदाहरण के लिए, हमारे पास:

x1+x2+x3=1

तो फिर:

x1=1x2x3

x2=1x1x3

x3=1x1x2

इसलिए यदि आप किसी दो घटक को जानते हैं, तो तीसरा तुरंत ज्ञात हो जाता है।

सामान्य तौर पर, मिश्रण पर बाधा है

i=1qxi=1

xi

आप दो घटकों के बीच एक सहसंबंध की गणना कर सकते हैं, लेकिन जानकारीपूर्ण नहीं है , क्योंकि वे हमेशा सहसंबद्ध होते हैं। आप आनुपातिक रचना के रूप में मापा गया विश्लेषण डेटा में रचना विश्लेषण के बारे में अधिक पढ़ सकते हैं ।

आप अनुपात का उपयोग कर सकते हैं जब अनुपात डेटा विभिन्न डोमेन से होते हैं। कहें कि आपकी प्रतिक्रिया एलसीडी स्क्रीन पर मृत पिक्सेल का अंश है। आप इसे सहसंबद्ध करने की कोशिश कर सकते हैं, कहते हैं, स्क्रीन के रासायनिक प्रसंस्करण चरण में उपयोग किए जाने वाले हीलियम का अंश।


मैं देखता हूं - मैंने गलती से सोचा था कि रचनाएं सिर्फ एक उदाहरण थीं। इस प्रकार यह कहना उचित है कि सहसंबंधी अनुपात आम तौर पर तब तक अप्रमाणिक होता है जब तक कि आपको ऐसी स्थिति नहीं मिलती है जिसमें रचनाएँ 'सहसंबंध' को अस्तित्व में लाने के लिए बाध्य करती हैं?
user1205901 - मोनिका

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipस्पष्ट नहीं है। क्या आप इसका विस्तार कर सकते हैं?
ttnphns

मुझे भी यह उत्तर समझ में नहीं आ रहा है। आपके 3-चर उदाहरण में, प्रत्येक को TWO दूसरों द्वारा "निर्धारित" किया जाता है, लेकिन Pearson सहसंबंध केवल एक चर का एक दूसरे के संबंध में विश्लेषण करता है। इसलिए, उदाहरण के लिए, यदि नाइट्रोजन बनाम ऑक्सीजन को देखें तो आपके पास एक (नाइट्रोजन, ऑक्सीजन) डेटा सेट [(0.78, 0.21), (0.20, 0.41), (0.44, 0.44)] हो सकता है, और आप एक मान्य राज्याभिषेक गुणांक कर सकते हैं। उस डेटा पर गणना (और यह निश्चित रूप से सह-रैखिक नहीं है)। पियर्सन सहसंबंध गुणांक को "अन्य" के बारे में पता नहीं है या परवाह नहीं है ...
जेसन सी

3
एक प्रकार की मेटा-टिप्पणी के रूप में, मैं किसी भी सांख्यिकीय बिंदु के लिए अथॉरिटी के रूप में उद्धृत दुर्गम सामग्री को देखने की उम्मीद नहीं करूंगा, न कि आप ऐसा करने का प्रस्ताव कर रहे हैं। इसलिए, यह एक स्तर पर सरल है: संरचना संबंधी डेटा विश्लेषण पर एक साहित्य है, जो कि जहां देखना है; मैं एक विशेषज्ञ नहीं हूं, इसलिए मैं यह नहीं कह सकता कि सहसंबंध पर सबसे अधिक आधिकारिक क्या है, लेकिन मेरी वृत्ति यह है कि चेतावनी अतिरंजित है। सहसंबंध का वर्णनात्मक उपयोग सहायक हो सकता है। यह सिर्फ इतना है कि योगों में बाधा के कारण अनुमान जटिल होते हैं।
निक कॉक्स

मुझे लगता है कि "मृत पिक्सेल का अंश" ठीक होगा अगर हम एलसीडी स्क्रीन से माप इकट्ठा कर रहे थे जिसमें पिक्सेल की समान संख्या है और प्रक्रिया में गैस का दबाव निरंतर बना हुआ है। लेकिन एक बार जब आप इन अनुपातों को बदलने की अनुमति देने लगते हैं, तो कौन कह सकता है कि हीलियम का प्रभाव क्या है?
डेविड लववेल

5

यह एक गहरा प्रश्न है, और कुछ सूक्ष्मताओं के साथ जो कहा जाना चाहिए। मैं अपनी पूरी कोशिश करूँगा, लेकिन फिर भी मैंने इस विषय पर प्रकाशित किया है ( आनुपातिकता: सापेक्ष डेटा के लिए सहसंबंध के लिए एक वैकल्पिक विकल्प ) मैं हमेशा केवल सापेक्ष जानकारी वाले डेटा के विश्लेषण पर नई अंतर्दृष्टि से आश्चर्यचकित होने के लिए तैयार हूं।

जैसा कि इस धागे के योगदानकर्ताओं ने बताया है, संरचना संबंधी डेटा पर लागू होने के दौरान सहसंबंध कुख्यात (कुछ मंडलियों में) निरर्थक होता है जो तब उत्पन्न होता है जब घटकों का एक सेट निरंतर में जोड़ने के लिए विवश होता है (जैसा कि हम अनुपात, प्रतिशत के साथ देखते हैं,) भागों-प्रति-मिलियन, आदि)।

कार्ल पियर्सन ने इस बात को ध्यान में रखते हुए शब्द का सहसंबंध बनाया । (ध्यान दें: टायलर विगेन के लोकप्रिय स्पुरियस सहसंबंध साइट के बारे में इतना नहीं है कि यह सहसंबंध के रूप में " सहसंबंध का अर्थ है कारण " गिरावट )।

Aitchison's की धारा 1.7 (2003) कम्पोजल डेटा एनालिसिस के लिए एक संक्षिप्त गाइड इस संबंध में क्लासिकल डेटा (सुविधा के लिए, इस पूरक सूचना में उद्धृत के लिए सहसंबंध का एक अनुचित माप क्यों है) का एक क्लासिक चित्रण प्रदान करता है ।

समग्र डेटा न केवल तब उत्पन्न होता है जब गैर-नकारात्मक घटकों का एक सेट एक स्थिर राशि के लिए बनाया जाता है; जब भी वे केवल सापेक्ष जानकारी ले जाते हैं, तो डेटा को रचना कहा जाता है।

मुझे लगता है कि डेटा की सहसंबंध के साथ मुख्य समस्या जो केवल सापेक्ष जानकारी लेती है, परिणाम की व्याख्या में है। यह एक ऐसा मुद्दा है जिसे हम एक एकल चर के साथ चित्रित कर सकते हैं; मान लीजिए कि दुनिया के देशों में "डोनट्स प्रति डॉलर जीडीपी का उत्पादन होता है"। यदि एक राष्ट्र का मूल्य दूसरे से अधिक है, तो ऐसा इसलिए है क्योंकि

  • उनका डोनट उत्पादन अधिक है?
  • उनकी जीडीपी कम है?

...कौन कह सकता है?

बेशक, जैसा कि लोग इस धागे पर टिप्पणी करते हैं, एक वर्णनात्मक चर के रूप में चर के इन प्रकारों के सहसंबंधों की गणना कर सकता है । लेकिन ऐसे सहसंबंधों का क्या मतलब है?


3

मेरा भी यही सवाल था। मुझे यह संदर्भ बायोरैक्सिव उपयोगी लगा:

लवेल डी।, वी। पॉलोव्स्की-ग्लेन, जे। इगोज़क्यिफ़, एस। मार्गुएरेट, जे। ब्हलर (2014),
"आनुपातिकता: रिश्तेदार डेटा के लिए सहसंबंध का एक वैध विकल्प"

इस पत्र (लवेल, डेविड, एट अल; डीयू: dx.doi.org/10.1101/008417) की सहायक जानकारी में, लेखकों का उल्लेख है कि रिश्तेदार बहुतायत के बीच संबंध कुछ मामलों में कोई जानकारी प्रदान नहीं करते हैं। वे दो mRNA अभिव्यक्तियों के सापेक्ष बहुतायत का उदाहरण देते हैं। चित्रा S2 में, दो अलग-अलग mRNAs के सापेक्ष बहुतायत पूरी तरह से नकारात्मक रूप से सहसंबद्ध हैं, भले ही इन दो mRNA का पूर्ण मूल्यों में संबंध नकारात्मक रूप से संबंधित नहीं है (हरे बिंदु और बैंगनी बिंदु)।

शायद यह आपकी मदद कर सके।


2
आपके सुझाव के लिए धन्यवाद। मैंने स्पष्ट नहीं किया। इस पत्र (लवेल, डेविड, एट अल; डोई: dx.doi.org/10.1101/008417 ) की सहायक जानकारी में , लेखक उल्लेख करते हैं कि सापेक्ष बहुतायत के बीच संबंध कुछ मामलों में कोई जानकारी प्रदान नहीं करते हैं। वे दो mRNA अभिव्यक्तियों के सापेक्ष बहुतायत का उदाहरण देते हैं। चित्रा S2 में, दो di m erent mRNAs के सापेक्ष बहुतायत पूरी तरह से नकारात्मक रूप से सहसंबद्ध होते हैं, भले ही इन दो mRNA के पूर्ण मूल्यों में परस्पर संबंध नकारात्मक (हरे बिंदु और बैंगनी बिंदु) नहीं हैं।
मुकदमा

@shu शायद आप कह सकते हैं कि इस लेख ने आपको इसी तरह की समस्या में मदद की है और इसे संक्षेप में प्रस्तुत किया है ..? लिंक चिपकाना एक उत्तर नहीं है , इसलिए कृपया थोड़ा और विस्तृत करें। इसका कारण यह भी है क्योंकि लिंक मर जाते हैं और यदि आप चाहते हैं कि आपका उत्तर भविष्य में किसी के लिए सहायक हो तो आपको इसे आत्मनिर्भर बनाना चाहिए। बेशक आपके उत्तर के अतिरिक्त संदर्भ प्रदान करना एक अच्छी आदत है।
टिम
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.