सहसंयोजक की परिभाषा पर अंतर्ज्ञान


11

मैं दो यादृच्छिक चर के कोवरियन को बेहतर तरीके से समझने और समझने की कोशिश कर रहा था कि कैसे पहले व्यक्ति ने इसके बारे में सोचा था, जो परिभाषा में नियमित रूप से सांख्यिकी में उपयोग किया जाता है। मैं इसे बेहतर समझने के लिए विकिपीडिया पर गया । लेख से, ऐसा लगता है कि लिए अच्छे उम्मीदवार माप या मात्रा में निम्नलिखित गुण होने चाहिए:Cov(X,Y)

  1. जब दो यादृच्छिक चर समान होते हैं (यानी जब एक दूसरे को बढ़ाता है और जब एक घटता है तो दूसरा भी करता है) यह एक सकारात्मक संकेत है।
  2. हम यह भी चाहते हैं कि यह एक नकारात्मक संकेत हो जब दो यादृच्छिक चर समान रूप से समान हों (जैसे जब एक और यादृच्छिक चर घटता है तो बढ़ जाता है)
  3. अंत में, हम चाहते हैं कि यह कोवरिश मात्रा शून्य हो (या शायद बहुत छोटी?) जब दो चर एक दूसरे से स्वतंत्र होते हैं (अर्थात वे एक-दूसरे के संबंध में भिन्न नहीं होते हैं)।

उपरोक्त गुणों से, हम को परिभाषित करना चाहते हैं । मेरा पहला सवाल यह है, यह मेरे लिए पूरी तरह से स्पष्ट नहीं है कि उन गुणों को संतुष्ट क्यों करता है। हमारे पास मौजूद गुणों से, मैंने आदर्श उम्मीदवार होने के लिए "व्युत्पन्न"-समान समीकरण की अधिक उम्मीद की होगी। उदाहरण के लिए, कुछ अधिक पसंद है, "यदि एक्स पॉजिटिव में परिवर्तन होता है, तो वाई में परिवर्तन भी सकारात्मक होना चाहिए"। इसके अलावा, अंतर को "सही" करने के लिए क्यों लिया जा रहा है?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]Cov(X,Y)Cov(X,Y)=E[(XE[X])(YE[Y])]

एक और अधिक स्पष्ट, लेकिन अभी भी दिलचस्प सवाल है, क्या एक अलग परिभाषा है जो उन गुणों को संतुष्ट कर सकती है और अभी भी सार्थक और उपयोगी रही होगी? मैं यह पूछ रहा हूं क्योंकि ऐसा लगता है कि कोई भी सवाल नहीं कर रहा है कि हम इस परिभाषा का पहली जगह में उपयोग क्यों कर रहे हैं (यह इस तरह का महसूस करता है, इसका "हमेशा इस तरह से" रहा है, जो कि मेरी राय में, एक भयानक कारण है और यह वैज्ञानिकता में बाधा डालता है) गणितीय जिज्ञासा और सोच)। क्या स्वीकृत परिभाषा "सर्वश्रेष्ठ" परिभाषा है जो हमारे पास हो सकती है?


ये मेरे विचार हैं कि स्वीकृत परिभाषा क्यों समझ में आती है (इसका केवल एक सहज ज्ञान युक्त तर्क होना चाहिए):

Let चर X के लिए कुछ अंतर हो सकता है (अर्थात यह कुछ समय के मूल्य से कुछ अन्य मूल्य में बदल गया)। इसी तरह को परिभाषित करने के लिए ।Δ वाईΔXΔY

समय में एक उदाहरण के लिए, हम गणना कर सकते हैं कि क्या वे संबंधित हैं या नहीं:

sign(ΔXΔY)

यह कुछ अच्छा है! समय में एक उदाहरण के लिए, यह उन गुणों को संतुष्ट करता है जो हम चाहते हैं। यदि वे दोनों एक साथ बढ़ते हैं, तो अधिकांश समय, उपरोक्त मात्रा सकारात्मक होनी चाहिए (और इसी तरह जब वे विपरीत रूप से समान होते हैं, तो यह नकारात्मक होगा, क्योंकि के विपरीत संकेत होंगे)।Delta

लेकिन यह केवल हमें वह मात्रा देता है जो हम एक उदाहरण के लिए चाहते हैं, और जब से वे आरवी हैं हम ओवरफिट हो सकते हैं यदि हम केवल 1 अवलोकन के आधार पर दो चर के रिश्ते को आधार बनाते हैं। फिर मतभेदों के "औसत" उत्पाद को देखने के लिए इस की उम्मीद क्यों न करें।

sign(E[ΔXΔY])

जो औसत से ऊपर के रूप में परिभाषित किया गया है जो औसत पर कब्जा करना चाहिए! लेकिन इस स्पष्टीकरण में एकमात्र समस्या यह है कि हम इस अंतर को किस से मापते हैं? इस अंतर को मापने से पता लगता है (जो किसी कारण से सही काम करना है)।

मुझे लगता है कि मेरे पास मुख्य मुद्दा है जो परिभाषा के साथ अंतर को रूप ले रहा है । मैं अभी तक अपने आप को औचित्य नहीं दे सकता।


संकेत के लिए व्याख्या को एक अलग प्रश्न के लिए छोड़ा जा सकता है, क्योंकि यह अधिक जटिल विषय लगता है।


2
बहुत शुरुआती बिंदु क्रॉस-उत्पाद की अवधारणा या अंतर्ज्ञान हो सकता है (कोवरियन केवल इसका विस्तार है)। यदि हमारे पास समान लंबाई के X और Y की दो श्रृंखलाएं हैं, और हम सम-क्रॉस-उत्पाद को Sum (Xi * Yi) के रूप में परिभाषित करते हैं, तो इसे अधिकतम किया जाता है यदि दोनों श्रृंखलाओं को एक ही क्रम में क्रमबद्ध किया गया था, और यदि एक को कम किया गया है श्रृंखला आरोही और दूसरे अवरोही क्रमबद्ध की गई थी।
ttnphns

माध्य से अंतर मौलिक मुद्दा नहीं है। यह सिर्फ परिमाण है जो मायने रखता है, मूल से अंतर; कुछ कारणों से यह स्वाभाविक रूप से सुविधाजनक है और मूल को बीच में डाल देता है।
ttnphns

@ttnphns क्या आप कह रहे हैं कि यदि वे एक साथ सहवास करते हैं तो सहसंयोजक को "अधिकतम" होना चाहिए और यदि वे इसके विपरीत कोवरी करते हैं तो यह उतना ही नकारात्मक होना चाहिए जितना कि हो सकता है? (यानी कम से कम) इसे क्रॉस-उत्पाद की अपेक्षा के रूप में क्यों परिभाषित नहीं किया गया है?
चार्ली पार्कर

सहवर्ती के बिना चर के लिए कोवरिअन्स स्वाभाविक है। हम तब माध्य की गणना करते हैं, क्योंकि उत्पत्ति का अर्थ (संघ के विषय से संबंधित नहीं होने के कारण अच्छे गुण हैं, इसलिए इसे आम तौर पर चुना जाता है)। यदि मूल निहित है और सार्थक है, तो यह छड़ी करने के लिए उचित है, तो "सहसंयोजक" (सह-प्रकोप) सममित नहीं होगा, लेकिन कौन परवाह करता है?
ttnphns

1
यह उत्तर सहसंयोजक से संबंधित अंतर्ज्ञान का एक बहुत अच्छा टुकड़ा प्रदान करता है।
Glen_b -Reinstate मोनिका

जवाबों:


10

कल्पना कीजिए कि हम संख्याओं के एक खाली ढेर के साथ शुरू करते हैं। फिर हम उनके संयुक्त वितरण से जोड़े खींचना शुरू करते हैं । चार चीजों में से एक हो सकती है:(X,Y)

  1. यदि X और Y दोनों बड़े हैं, तो उनका संबंधित औसत हम कहते हैं कि जोड़ी समान है और इसलिए हम स्टैक पर एक सकारात्मक संख्या डालते हैं।
  2. यदि X और Y दोनों छोटे हैं, तो उनका संबंधित औसत हम कहते हैं कि जोड़ी समान है और स्टैक पर एक सकारात्मक संख्या डालते हैं।
  3. यदि X अपने औसत से बड़ा है और Y अपने औसत से छोटा है, तो हम कहते हैं कि जोड़ी असमान है और स्टैक पर एक नकारात्मक संख्या डालते हैं।
  4. यदि X अपने औसत से छोटा है और Y अपने औसत से बड़ा है, तो हम कहते हैं कि जोड़ी असमान है और स्टैक पर एक ऋणात्मक संख्या डालते हैं।

फिर, एक्स और वाई की समानता (डिस) की समग्र माप प्राप्त करने के लिए हम स्टैक पर संख्याओं के सभी मूल्यों को जोड़ते हैं। एक सकारात्मक राशि से पता चलता है कि चर एक ही समय में एक ही दिशा में चलते हैं। एक नकारात्मक राशि से पता चलता है कि चर विपरीत दिशाओं में अधिक से अधिक बार चलते हैं। एक शून्य राशि से पता चलता है कि एक चर की दिशा जानने से आपको दूसरे की दिशा के बारे में बहुत कुछ नहीं पता है।

केवल 'बड़ा' (या 'सकारात्मक') के बजाय 'औसत से बड़ा' के बारे में सोचना महत्वपूर्ण है क्योंकि किसी भी दो गैर-नकारात्मक चर को तब समान माना जाएगा (उदाहरण के लिए M42 पर अगली कार दुर्घटना का आकार और पैडिंगटन ट्रेन स्टेशन पर कल खरीदे गए टिकटों की संख्या)।

सहसंयोजक सूत्र इस प्रक्रिया का एक औपचारिककरण है:

Cov(X,Y)=E[(XE[X])(YE[Y])]

मोंटे कार्लो सिमुलेशन के बजाय प्रायिकता वितरण का उपयोग करना और संख्या का आकार निर्दिष्ट करना जो हम स्टैक पर डालते हैं।


वाह, यह बहुत अच्छा जवाब है। बस एक अंतिम बात, तुम क्यों इस पर औचित्य बारे में अधिक जानकारी जोड़ने मन कर है अंतर के रूप में होने के लिए मतलब ? कुछ और मूल्य क्यों नहीं? यह समझ में क्यों आता है? मुझे लगता है कि मुख्य बात यह है कि मुझे इस परिभाषा को पूरी तरह से आंतरिक बनाने के बारे में अटक रहा है। धन्यवाद btw!
चार्ली पार्कर १ '

धन्यवाद। मान लीजिए कि दो अलग-अलग देशों में दो बड़े ट्रक हैं। अब बड़े ट्रक बड़े भार ढोते हैं। यदि हम हर बार स्टैक में एक सकारात्मक संख्या जोड़ते हैं तो प्रत्येक ट्रक ने एक बड़ा भार वहन किया है जिसे हम यह कहते हुए समाप्त करेंगे कि दोनों ट्रकों का व्यवहार बहुत समान था। लेकिन वास्तव में एक ट्रक द्वारा किए गए लोड का आकार किसी विशेष समय में दूसरे द्वारा किए गए लोड के आकार से संबंधित नहीं है। वे सिर्फ दोनों बड़े ट्रकों के लिए होते हैं। इसलिए हमारी समानता का उपाय उपयोगी नहीं होगा। इसलिए हमें 'औसत से बड़ा' के बारे में सोचना होगा।
अनुमान

क्षमा करें, यह थोड़ा विलंबित है, लेकिन मैंने इस विषय की समीक्षा करने का निर्णय लिया है और मेरे मन में अभी भी यह सवाल है कि इसके माध्य से अंतर क्यों है। क्या उनके संबंधित साधनों से अंतर महत्वपूर्ण है क्योंकि प्रत्येक यादृच्छिक चर X और Y विभिन्न पैमानों से आ सकते हैं? इसका अर्थ है कि "बड़ा" क्या है, इसका आधार क्या है, इसके आधार पर वे भिन्न हैं। तो पैमाने के इस मुद्दे को दूर करने के लिए हम इसकी तुलना उनके संबंधित साधनों से करते हैं?
चार्ली पार्कर

1

यहाँ बिना किसी समीकरण के इसे देखने का मेरा सहज तरीका है।

  1. उच्चतर आयामों के लिए इसका सामान्यीकरण। प्रेरणा शायद यह वर्णन करने की कोशिश कर रही थी कि डेटा कैसे व्यवहार करता है। पहले क्रम में, हमारे पास इसका स्थान है - माध्य। दूसरे क्रम पर, हमारे पास बिखराव है - सहसंयोजक।

    मुझे लगता है कि परिभाषा के साथ मेरे पास मुख्य मुद्दा है जो अंतर के रूप को ले रहा है। मैं अभी तक अपने आप को औचित्य नहीं दे सकता।

    वितरण के केंद्र के सापेक्ष बिखराव का मूल्यांकन किया जाता है। विचरण की सबसे मूल परिभाषा 'माध्य से विचलन' है। इसलिए, आपको Covariance के मामले में भी माध्य को बदलना होगा।

  2. एक और मुख्य प्रेरणा जो मन में आती है वह है यादृच्छिक चर के बीच की दूरी को मापने के तरीके को परिभाषित करना। महालनोबिस दूरी और कोवरियनस हाथ में आते हैं: एक गौसियन वितरण और दो अन्य नमूनों को देखते हुए जिनके वितरण की समान यूक्लिडियन दूरी होती है। अगर मैं आपसे यह पूछूं कि नमूनों में से कौन सा अधिक होने की संभावना है, जो कि गौसियन वितरण से तैयार नहीं किया गया है, तो यूक्लिडियन दूरी नहीं करेगा। यूक्लिडियन दूरी से महालनोबिस दूरी में एक ही उल्लेखनीय अंतर है: यह वितरण के बिखराव (कोवरियन) को ध्यान में रखता है। यह आपको यादृच्छिक चर की दूरी को सामान्य करने की अनुमति देता है।


1
  1. अंत में, हम चाहते हैं कि यह कोवरिश मात्रा शून्य हो (या शायद बहुत छोटी?) जब दो चर एक दूसरे से स्वतंत्र होते हैं (अर्थात वे एक-दूसरे के संबंध में भिन्न नहीं होते हैं)।

ठीक है, आइए दो स्वतंत्र बर्नौली विचार करें(12)एक्सY[एक्सY][एक्सY]=14एक्स^=1000एक्सY^=1000Y[एक्स^Y^]=250,000(एक्स,Y)=[(एक्स-[एक्स])(Y-[Y])]

  1. हम यह भी चाहते हैं कि यह एक नकारात्मक संकेत हो जब दो यादृच्छिक चर समान रूप से समान हों (जैसे जब एक और यादृच्छिक चर घटता है तो बढ़ जाता है)

एक्सY=1-एक्स[एक्सY]=0(एक्स,Y)=[(एक्स-[एक्स])(Y-[Y])]

  1. यह चाहिए (sic) एक सकारात्मक संकेत है जब दो यादृच्छिक परिवर्तनीय समान हैं (यानी जब एक बढ़ जाती है एक दूसरे के लिए करता है और जब एक कम हो जाती है एक दूसरे को भी करता है)।

एक्सY=एक्स-1[एक्सY](एक्स,Y)=[(एक्स-[एक्स])(Y-[Y])] जैसा आप चाहते हैं वैसा ही एक सकारात्मक मूल्य देता है।

एक्स=Y


1

मैं उसी प्रश्न के बारे में सोच रहा था, और अनुमानों द्वारा दिए गए अंतर्ज्ञान ने मेरी मदद की। अंतर्ज्ञान की कल्पना करने के लिए, मैंने दो यादृच्छिक सामान्य वैक्टर, एक्स और वाई लिया, स्कैटलपॉट को प्लॉट किया और प्रत्येक विचलन को उनके संबंधित साधनों से उत्पाद (सकारात्मक मूल्यों के लिए नीला, नकारात्मक के लिए लाल) द्वारा चित्रित किया।

जैसा कि कथानक से स्पष्ट है, उत्पाद ऊपरी-दाएं और नीचे-बाएँ बाएँ में सबसे अधिक सकारात्मक है, जबकि यह नीचे-दाएँ और ऊपरी-बाएँ वृत्त का चतुर्थ भाग में सबसे अधिक नकारात्मक है। उत्पादों को संक्षेपित करने का परिणाम 0 होगा, क्योंकि नीले बिंदु लाल वाले को रद्द करते हैं।

लेकिन आप देख सकते हैं कि यदि हमने लाल बिंदुओं को हटा दिया है, तो शेष डेटा एक-दूसरे के साथ सकारात्मक संबंध प्रदर्शित करते हैं, जो उत्पादों के सकारात्मक योग (यानी नीले बिंदुओं के योग) द्वारा मान्य है।

यहां छवि विवरण दर्ज करें


0

यादृच्छिक चर की सदिश जगह में दो यादृच्छिक चर x और y के बीच की दूरी को E {(xy) ^ 2} के बीच की दूरी को परिभाषित करना उचित है। अब दूरी डॉट उत्पाद की इस परिभाषा के संबंध में या यादृच्छिक चर का संबंध E होगा। {xy} जो शर्तों -E {x} और -E {y} को छोड़कर सहसंयोजक की परिभाषा के समान है जो कि सामान्यीकरण के लिए हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.