क्या सहसंबंध में सुधार करने के लिए डेटासेट पर औसत उपयोग करने की अनुमति है?


9

मेरे पास एक आश्रित और एक स्वतंत्र चर के साथ एक डेटासेट है। दोनों एक समय श्रृंखला नहीं हैं। मेरे 120 अवलोकन हैं। सहसंबंध गुणांक 0.43 है

इस गणना के बाद, मैंने प्रत्येक 12 टिप्पणियों के लिए औसत के साथ दोनों चर के लिए एक कॉलम जोड़ा है, जिसके परिणामस्वरूप 108 टिप्पणियों (जोड़े) के साथ 2 नए कॉलम हैं। इन स्तंभों का सहसंबंध गुणांक 0.77 है

ऐसा लगता है कि मैंने इस तरह से सहसंबंध में सुधार किया। क्या ऐसा करने की अनुमति है? क्या मैंने औसत चर का उपयोग करके स्वतंत्र चर की व्याख्या शक्ति को बढ़ाया?


4
आपके द्वारा किया गया सभी डेटा एक चौरसाई फिल्टर के माध्यम से चलाया जाता है। यह सिग्नल प्रोसेसिंग में हर समय किया जाता है और यह पूरी तरह से स्वीकार्य है और आमतौर पर डेटा के उपयोग से पहले आवश्यक है। यह इलेक्ट्रॉनिक माप में प्रचलित शोर को समाप्त करता है। हालाँकि, क्या यह आपकी विशेष समस्या के लिए स्वीकार्य है, यह इस बात पर निर्भर करता है कि आप क्या हासिल करने की कोशिश कर रहे हैं और शायद एक बड़ी हद तक "शोर" बनाम "गुणवत्ता" आपके डेटा में है। मैंने अभी देखा "दोनों एक समय श्रृंखला नहीं हैं" इसलिए मुझे संदेह है कि आपने जो किया वह व्यर्थ है क्योंकि क्रम बदलने से परिणाम बदल जाते हैं
डंक

आप सभी को धन्यवाद। मेरा आश्रित चर एक सट्टेबाजी प्रणाली के मासिक परिणामों का एक सेरी है (ये परिणाम संबंधित नहीं हैं)। स्वतंत्र चर मेरे द्वारा निर्मित एक संकेतक का परिणाम है। यह संकेतक इस बारे में एक अंक उत्पन्न करता है कि किसी विशेष महीने में स्पोर्ट्समेच के स्कोर कितने चरम पर हैं (ये स्पोर्ट्ससैट संबंधित नहीं हैं)। मुझे संदेह था कि मैंने जो किया वह निरर्थक था, हालांकि इससे मुझे आश्चर्य हुआ कि सहसंबंध गुणांक में इतना सुधार हुआ।
user2165379

2
मुझे यकीन नहीं है लेकिन मुझे लगता है कि किसी भी डेटा का औसत समान परिणाम देगा। मुझे लगता है कि औसत आउटलेर्स के प्रभावों को कम करता है। इस प्रकार, सहसंबंध में सुधार करना होगा। हालाँकि, मैं शर्त लगाता हूँ कि कुछ मैथी-geek अच्छी तरह से चुने गए डेटा के साथ आ सकते हैं जो विपरीत प्रभाव का कारण बनेंगे, लेकिन मैं वास्तविक दुनिया में होने वाले डेटा की उम्मीद नहीं करूंगा।
डंक

मैं यह नहीं देख सकता था कि क्या आपने निर्दिष्ट किया कि यह डेटा किस लिए था। हालांकि, सामान्य तौर पर, जब आपके डेटा को आपके निर्दिष्ट दर्शकों के लिए प्रस्तुत किया जाता है, तो डेटा कैसे प्राप्त होता है, इस बारे में प्रकटीकरण प्रदान करना अच्छा अभ्यास है।
जॉन मिलिकेन

3
प्रतिनिधित्व करने के उद्देश्य से औसत मूल्यों का सहसंबंध क्या है? यह निश्चित रूप से अब मूल चर के बीच सहसंबंध का एक उचित अनुमान नहीं है।
Glen_b -Reinstate Monica

जवाबों:


15

चलो दो वैक्टरों पर एक नज़र डालें, पहला अस्तित्व

    2 6 2 6 2 6 2 6 2 6 2 6

और दूसरा वेक्टर जा रहा है

   6 2 6 2 6 2 6 2 6 2 6 2

Pearson सहसंबंध की गणना आपको मिलेगी

cor(a,b)
[1] -1

हालाँकि यदि आप मूल्यों के लिए क्रमिक जोड़े का औसत लेते हैं तो दोनों वैक्टर समान हैं। पहचान वाले वैक्टरों का सहसंबंध 1 है।

  4 4 4 4 4 4  

यह सरल उदाहरण आपकी पद्धति के नकारात्मक पहलू को दर्शाता है।

संपादित करें : इसे और अधिक सामान्य रूप से समझाने के लिए: सहसंबंध गुणांक की गणना निम्न तरीके से की जाती है।

[(एक्स-μएक्स)(Y-μY)]σएक्स σY

कुछ का लाभ उठा रहे हैं एक्सएस और कुछ Yके बीच के अंतर को बदल देता है एक्स तथा μएक्स साथ ही बीच का अंतर Y तथा μY


1
मैंने कुछ मार्क-अप जोड़े हैं, लेकिन आपको परिभाषित करना चाहिए μ तथा σस्पष्ट रूप से शर्तें।
निक कॉक्स

धन्यवाद। इसका मतलब यह है कि मेरे परिणाम औसत का उपयोग करके चापलूसी के 'फुलाए' हैं और औसत के बिना टिप्पणियों का उपयोग करना हमेशा बेहतर होता है?
user2165379

परिकल्पना परीक्षण के लिए आपको डेटा पर एक नज़र रखना चाहिए और औसतन नहीं। अन्य डोमेन में वर्णनात्मक आँकड़े एक उपयोगी उपकरण हो सकते हैं। आपको वर्णनात्मक आँकड़े जैसे कि क्वांटाइल्स (विशेष रूप से मध्य) और उच्च (केंद्रीकृत) क्षणों जैसे विचरण, तिरछापन और कुर्तोसिस के अन्य लक्षणों पर भी नज़र डालनी चाहिए। हालांकि हमारे मामले में यह उपयोगी नहीं है। वैक्टर और बी में समान मात्राएँ, समान क्षण और समान केंद्रीकृत क्षण हैं।
फेरी

1
एवरेजिंग में अर्ध-यादृच्छिक बिखराव को हटाकर सहसंबंधों को बढ़ाया जाता है, लेकिन पर्याप्त रूप से विकृत औसत सहसंबंधों को शून्य की ओर धकेल सकता है।
निक कॉक्स

धन्यवाद। तो अगर औसत सामान्य रूप से सहसंबंध को बढ़ाता है, तो इसका मतलब है कि यह सुधार नहीं है? या यह एक सुधार है क्योंकि अर्ध यादृच्छिक बिखराव को हटा दिया जाता है?
user2165379

10

एवरेजिंग आकर्षक या सुविधाजनक हो सकती है। यह धोखे का स्रोत भी हो सकता है, सबसे बुरे धोखे में, इसलिए औसत के लिए एक स्पष्ट तर्क होने पर भी सावधानी से चलना।

यहां एक स्थिति यह है कि यह एक अच्छा विचार नहीं है। इस बात पर विचार करें कि समूहों की सावधानीपूर्वक परिभाषा से आप (आमतौर पर) अपने डेटा को दो सारांश बिंदुओं तक कम कर सकते हैं, जो दो चर पर अलग-अलग होते हैं; और फिर आप परिमाण के साथ एक सही संबंध प्राप्त करेंगे1। बधाई हो, या नहीं! यहां सुधार प्रक्रिया के लिए एक अच्छा स्वतंत्र कारण के बिना फर्जी है। खतरे के दृष्टिकोण के लिए आपको इस चरम मामले में संपर्क करने की आवश्यकता नहीं है।

कुछ परिस्थितियां हैं जिनमें औसत समझ में आ सकता है। उदाहरण के लिए, यदि मौसमी विविधताएँ बहुत कम हैं या कोई दिलचस्पी नहीं है, तो वार्षिक मूल्यों में औसत एक कम डेटासेट बनाता है जिसमें आप उन वार्षिक मूल्यों पर ध्यान केंद्रित कर सकते हैं।

विभिन्न क्षेत्रों में, शोधकर्ताओं को कई अलग-अलग पैमानों पर सहसंबंधों में दिलचस्पी हो सकती है, जैसे कि व्यक्तियों, काउंटियों, राज्यों, देशों के लिए बेरोजगारी और अपराध के बीच (जो भी शब्द सबसे अधिक समझ में आता है)।

ब्याज, और अक्सर भी बचाव मुसीबतों का एक प्रमुख स्रोत है, विभिन्न पैमानों या स्तरों पर क्या हो रहा है, इसकी व्याख्या करना। उदाहरण के लिए, बेरोजगारी दर और क्षेत्रों के लिए अपराध दर के बीच एक उच्च सहसंबंध जरूरी नहीं है कि बेरोजगार अपराधियों के लिए एक उच्च प्रवृत्ति है; आपको उस पर स्पष्ट होने के लिए व्यक्तियों के डेटा की आवश्यकता है। डेटा का प्रावधान अधिकतम रूप से कम से कम दिलचस्प पैमाने पर उपलब्ध डेटा में अजीब हो सकता है, शायद अर्थव्यवस्था या गोपनीयता के मामले के रूप में।

मैं यह भी नोट करता हूं कि कई माप पहले स्थान पर होते हैं, अक्सर छोटे समय अंतराल और / या छोटे स्थान अंतराल पर औसत होते हैं, इसलिए डेटा अक्सर किसी भी मामले में औसत रूप से आते हैं।


3
मैं @ फेरडी के जवाब को रेखांकित करता हूं कि औसतन कई अलग-अलग तरीके हो सकते हैं। यह अनिश्चितता का एक अतिरिक्त स्रोत बनाता है। छोटे क्षेत्रों को बड़ा करने में कठिनाई विशेष रूप से तीव्र है।
निक कॉक्स
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.