इस साजिश में


38

निम्नलिखित कथानक में और बीच क्या संबंध है ? मेरे विचार में, नकारात्मक रैखिक संबंध है, लेकिन क्योंकि हमारे पास बहुत सारे आउटलेयर हैं, संबंध बहुत कमजोर है। क्या मैं सही हू? मैं सीखना चाहता हूं कि हम बिखराव को कैसे समझा सकते हैं।एक्सYX

यहाँ छवि विवरण दर्ज करें


3
क्या है ? क्या है ? आप किस प्रक्रिया से आउटलेयर का निर्माण करते हैं? आपको क्या लगता है कि वे वास्तविक माप नहीं हैं? सिद्धांत क्या है? वाईXY
अबुमान

4
आपके कमेंट के लिए धन्यवाद। मैं बस इस कथानक को एक किताब में देखता हूं। Y निर्भर चर है और X स्वतंत्र चर है। कोई सिद्धांत नहीं है। इसने Y दिए x के संबंध को दर्शाने के लिए एक स्कैल्पलॉट दिया। और पुस्तक में एक सवाल है जो पूछता है कि क्या कोई संबंध है या नहीं, रैखिक या नॉनलाइनर? मजबूत या कमजोर?
PSS

7
यह टैसोग्राफी में एक अभ्यास है । यह दिन के व्यापारियों के बीच बहुत लोकप्रिय है, और वे इसे तकनीकी विश्लेषण कहते हैं । मूल रूप से, डेटा की प्रकृति के बारे में कुछ जाने बिना यह एक बेकार व्यायाम है
अक्कल

1
@ आप व्हेलर को दान देने के लिए रॉक करते हैं =)
Cam.Davidson.Pilon

3
@ अककल सांख्यिकीय भाषा आमतौर पर "संबंध" को शाब्दिक रूप से समझती है: संख्याओं के टुपल्स के सेट का वर्णन करने के रूप में। उदाहरण के लिए, एक सहसंबंध गुणांक एक संबंध का वर्णन करता है। अंतर्निहित चर के बीच उत्पत्ति, प्रकृति या कारण संघों के बारे में कोई निहितार्थ नहीं है। मैं आपसे सहमत हूं कि "व्याख्या" आमतौर पर इस तरह के गहरे अर्थों में समझ में आती है, लेकिन क्योंकि रिश्तों में इस सवाल पर बहुत जोर दिया जाता है, मुझे लगता है कि "व्याख्या" के शाब्दिक अर्थ को बहुत दूर धकेलना उचित नहीं है। यह सुझाव देते हुए कि स्कैल्पलॉट्स का वर्णन करना सिर्फ चाय-पत्ती पढ़ना है, बहुत दूर चला जाता है, आईएमएचओ।
whuber

जवाबों:


50

प्रश्न कई अवधारणाओं से संबंधित है: केवल एक स्कैल्पप्लॉट के रूप में दिए गए डेटा का मूल्यांकन कैसे करें, स्कैप्लेट को संक्षेप में कैसे प्रस्तुत करें, और क्या (और किस हद तक) एक संबंध रैखिक दिखता है। चलो उन्हें क्रम में लेते हैं।

ग्राफिकल डेटा का मूल्यांकन

खोजपूर्ण डेटा विश्लेषण (EDA) के सिद्धांतों का उपयोग करें। ये (कम से कम मूल रूप से, जब वे पेंसिल-एंड-पेपर उपयोग के लिए विकसित किए गए थे) डेटा के सरल, आसान-से-गणना, मजबूत सारांश पर जोर देते हैं। बहुत सरल प्रकारों में से एक संख्या के एक सेट के भीतर पदों पर आधारित है , जैसे कि मध्य मूल्य, जो "विशिष्ट" मान का वर्णन करता है। Middles ग्राफिक्स से मज़बूती से अनुमान लगाना आसान है।

स्कैटरप्लॉट संख्याओं के जोड़े प्रदर्शित करते हैं। प्रत्येक जोड़ी में से पहला (क्षैतिज अक्ष पर प्लॉट किए गए) एकल संख्याओं का एक सेट देता है, जिसे हम अलग-अलग संक्षेप में प्रस्तुत कर सकते हैं।

इस विशेष स्कैल्पलॉट में, वाई-मान दो लगभग पूरी तरह से अलग समूहों के भीतर झूठ बोलते दिखाई देते हैं : शीर्ष पर से ऊपर के मान और सबसे नीचे या से कम के बराबर । (इस छाप की पुष्टि y- मानों के एक हिस्टोग्राम द्वारा की गई है, जो तेजी से बिमोडल है, लेकिन यह इस स्तर पर बहुत काम आएगा।) मैं स्कैल्पिक्स को स्कैल्पलॉट पर स्क्विंट में आमंत्रित करता हूं। जब मैं करता हूं - एक बड़े-त्रिज्या का उपयोग करते हुए, गामा-सही किए गए गॉसियन ब्लर (जो कि, एक मानक रैपिड इमेज प्रोसेसिंग रिजल्ट है) के स्कैटलपॉट में मैं इसे देखता हूं:606060

चित्र 0

दो समूह - ऊपरी और निचले - बहुत स्पष्ट हैं। (ऊपरी समूह निचले की तुलना में बहुत हल्का है क्योंकि इसमें कई कम डॉट्स हैं।)

तदनुसार, आइए अलग-अलग y- मानों के समूहों को संक्षेप में प्रस्तुत करें। मैं दो समूहों के मध्य में क्षैतिज रेखाएँ खींचकर ऐसा करूँगा। डेटा की छाप पर जोर देने के लिए और यह दिखाने के लिए कि हम किसी भी प्रकार की गणना नहीं कर रहे हैं, मेरे पास (ए) अक्षों और ग्रिडलाइन्स जैसी सभी सजावटों को हटा दिया गया है और (बी) ने बिंदुओं को धुंधला कर दिया है। डेटा में पैटर्न के बारे में थोड़ी जानकारी इस प्रकार ग्राफिक में "स्क्विंटिंग" द्वारा खो जाती है:

आकृति

इसी तरह, मैंने एक्स-वैल्यू के माध्यकों को ऊर्ध्वाधर लाइन सेगमेंट के साथ चिह्नित करने का प्रयास किया है। ऊपरी समूह (लाल रेखाओं) में आप जांच कर सकते हैं - बूँदें गिनकर - कि ये रेखाएँ वास्तव में समूह को दो समान हिस्सों में अलग-अलग करती हैं, दोनों क्षैतिज और लंबवत। निचले समूह (नीली रेखाओं) में मैंने केवल पदों की दृष्टि से अनुमान लगाया है कि वास्तव में कोई गिनती किए बिना।

रिश्तों का आकलन: प्रतिगमन

चौराहे के बिंदु दो समूहों के केंद्र हैं। X और y मानों के बीच संबंधों का एक उत्कृष्ट सारांश इन केंद्रीय स्थितियों की रिपोर्ट करना होगा। एक तो अपने समूह के चारों ओर - नीचे, ऊपर और नीचे - प्रत्येक समूह में डेटा कितना फैला हुआ है, इस विवरण के द्वारा इस सारांश को पूरक करना चाहते हैं। संक्षिप्तता के लिए, मैं यहां ऐसा नहीं करूंगा, लेकिन ध्यान दें कि मैंने जो रेखा खंड तैयार किए हैं, उनकी लंबाई प्रत्येक समूह के समग्र प्रसार को दर्शाती है।

अंत में, मैंने दोनों केंद्रों को जोड़ने वाली एक (धराशायी) रेखा खींच दी। यह एक उचित प्रतिगमन रेखा है। क्या यह डेटा का अच्छा विवरण है? निश्चित रूप से नहीं: देखो कि इस लाइन के आसपास डेटा कैसे फैला है। क्या यह रैखिकता का भी प्रमाण है? यह स्पष्ट रूप से प्रासंगिक है क्योंकि रैखिक विवरण बहुत खराब है। फिर भी, क्योंकि यह हमारे सामने प्रश्न है, तो इसे संबोधित करें।

रैखिकता का मूल्यांकन

एक संबंध एक सांख्यिकीय अर्थ में रैखिक है जब या तो y मान एक पंक्ति के चारों ओर एक संतुलित यादृच्छिक फैशन में भिन्न होते हैं या x मान एक पंक्ति (या दोनों) के चारों ओर एक संतुलित यादृच्छिक फैशन में भिन्न होते हैं।

पूर्व यहां ऐसा प्रतीत नहीं होता है: क्योंकि y मान दो समूहों में आते हैं, उनकी भिन्नता कभी भी रेखा के ऊपर या नीचे वितरित होने वाले मोटे तौर पर सममित होने के अर्थ में संतुलित नहीं दिखती है । (यह तुरंत डेटा को एक लीनियर रिग्रेशन पैकेज में डंप करने और x के मुकाबले y के एक न्यूनतम वर्ग को फिट करने की संभावना को नियंत्रित करता है: उत्तर प्रासंगिक नहीं होंगे।)

एक्स में भिन्नता के बारे में क्या? यह अधिक प्रशंसनीय है: भूखंड पर प्रत्येक ऊंचाई पर, बिंदीदार रेखा के चारों ओर बिंदुओं का क्षैतिज बिखराव बहुत संतुलित है। प्रसार इस बिखराव में कम ऊंचाई पर एक छोटा सा अधिक से अधिक (कम y मान) हो रहा है, लेकिन शायद ऐसा इसलिए है क्योंकि कई और अधिक अंक देखते हैं वहाँ। (आपके पास जितना अधिक यादृच्छिक डेटा होगा, उनके चरम मूल्यों के अलावा व्यापक होगा।)

इसके अलावा, जैसा कि हम ऊपर से नीचे तक स्कैन करते हैं, ऐसी कोई जगह नहीं है जहां प्रतिगमन रेखा के चारों ओर क्षैतिज बिखराव दृढ़ता से असंतुलित है: यह गैर-रैखिकता का प्रमाण होगा। (खैर, शायद y = 50 के आसपास या तो बहुत अधिक बड़े x मान हो सकते हैं। यह सूक्ष्म प्रभाव y = 60 मान के आसपास के दो समूहों में डेटा को तोड़ने के लिए और सबूत के रूप में लिया जा सकता है।)

निष्कर्ष

हमने वह देखा है

  • यह समझ में आता है कि x को y के रैखिक कार्य के रूप में देखा जा सकता है और कुछ "अच्छा" यादृच्छिक भिन्नता है।

  • यह x प्लस यादृच्छिक भिन्नता के रैखिक कार्य के रूप में y को देखने का कोई मतलब नहीं है

  • एक प्रतिगमन रेखा को डेटा को उच्च y मानों के समूह में और निम्न y मानों के समूह को अलग करके, दोनों समूहों के केंद्रों का पता लगाकर और उन केंद्रों को जोड़कर अनुमान लगाया जा सकता है।

  • परिणामी रेखा में नीचे की ओर ढलान है, जो एक नकारात्मक रैखिक संबंध को दर्शाता है ।

  • रैखिकता से कोई मजबूत प्रस्थान नहीं हैं।

  • फिर भी, क्योंकि लाइन के चारों ओर एक्स-वैल्यू के प्रसार अभी भी बड़े हैं (एक्स-वैल्यू के समग्र प्रसार के साथ शुरू होने की तुलना में), हमें इस नकारात्मक रैखिक संबंध को "बहुत कमजोर" के रूप में चित्रित करना होगा।

  • डेटा का वर्णन करने के लिए यह अधिक उपयोगी हो सकता है कि दो अंडाकार आकार के बादल (60 से ऊपर y के लिए एक और दूसरा y के निम्न मूल्यों के लिए)। प्रत्येक बादल के भीतर x और y के बीच थोड़ा पता लगाने योग्य संबंध होता है। बादलों के केंद्र (0.29, 90) और (0.38, 30) के पास हैं। बादलों में तुलनीय फैलता है, लेकिन ऊपरी बादल में कम एक (शायद 20% ज्यादा) की तुलना में कम डेटा होता है।

इन निष्कर्षों में से दो इस सवाल में खुद की पुष्टि करते हैं कि एक कमजोर नकारात्मक संबंध है। दूसरे उन निष्कर्षों का पूरक और समर्थन करते हैं।

प्रश्न में एक निष्कर्ष जो पकड़ में नहीं आता है, यह दावा है कि "आउटलेयर" हैं। एक अधिक सावधान परीक्षा (जैसा कि नीचे स्केच किया गया है) किसी भी व्यक्तिगत बिंदुओं या अंकों के छोटे समूहों को भी मोड़ने में विफल हो जाएगी, जिसे वैध रूप से आउटिंग माना जा सकता है। पर्याप्त रूप से लंबे विश्लेषण के बाद, किसी का ध्यान मध्य दाएं के पास दो बिंदुओं पर या निचले बाएं कोने में एक बिंदु पर खींचा जा सकता है, लेकिन यहां तक ​​कि ये डेटा के आकलन को बहुत अधिक नहीं बदलने जा रहे हैं, चाहे उन्हें माना जाए या नहीं दूरस्थ।


आगे की दिशा

बहुत कुछ कहा जा सकता है। अगला कदम उन बादलों के प्रसार का आकलन करना होगा। यहां दिखाए गए समान तकनीकों का उपयोग करके, प्रत्येक दो बादलों के भीतर x और y के बीच संबंधों का अलग-अलग मूल्यांकन किया जा सकता है। निचले बादल की थोड़ी सी विषमता (अधिक डेटा सबसे छोटे y मान पर दिखाई देते हैं) का मूल्यांकन किया जा सकता है और यहां तक ​​कि y मूल्यों को फिर से व्यक्त करके समायोजित किया जा सकता है (एक वर्गमूल अच्छी तरह से काम कर सकता है)। इस स्तर पर यह आउटलाइंग डेटा देखने के लिए समझ में आता है, क्योंकि इस बिंदु पर विवरण में विशिष्ट डेटा मूल्यों के साथ-साथ उनके प्रसार के बारे में जानकारी शामिल होगी; आउटलेर्स (परिभाषा के अनुसार) प्रसार की मनाया गई राशि के संदर्भ में समझाया जाना बीच में बहुत दूर होगा।

इस काम में से कोई भी - जो काफी मात्रात्मक है - डेटा के समूहों की पहेलियों को खोजने और उनके साथ कुछ सरल गणना करने की तुलना में बहुत अधिक की आवश्यकता होती है, और इसलिए डेटा ग्राफ़िकल रूप में उपलब्ध होने पर भी जल्दी और सही तरीके से किया जा सकता है। यहां बताए गए प्रत्येक परिणाम - मात्रात्मक मूल्यों सहित - प्रदर्शन प्रणाली (जैसे हार्डकॉपी और एक पेंसिल :-)) का उपयोग करके कुछ सेकंड के भीतर आसानी से पाया जा सकता है, जो ग्राफिक के शीर्ष पर प्रकाश अंक बनाने के लिए एक को अनुमति देता है।


4
वाह। मैंने उन दो समूहों और परिणामी लाइन को कभी नहीं देखा होगा। और मैं इस पर सवाल उठाता हूं।
rvl

4
@ मुझे यह सुनकर खुशी हुई कि कोई व्यक्ति इस अन्वेषण पर सवाल उठाता है, क्योंकि कोई ईडीए अद्वितीय या डिस्पोजल नहीं है। मैंने एक और छवि को शामिल किया है जो आपको यह देखने में मदद करेगा कि मैं क्या देखता हूं। मैं आपको एक जवाब पोस्ट करने के लिए आमंत्रित करना चाहता हूं जो समान या अधिक प्रशंसनीय है और उपयोगी वर्णनात्मक है।
whuber

12
मनुष्य के रूप में हम असाधारण रूप से पैटर्न खोजने में प्रवृत्त होते हैं, यहां तक ​​कि वे भी नहीं होते हैं। मुझे लगता है कि यह एक बिखराव की साजिश को प्राप्त करने के लिए काफी प्रशंसनीय है जैसे कि हमारे पास यहां सिर्फ दो स्वतंत्र आरवी हैं, उनमें से एक तिरछा है। मेरे पास इसका कोई सबूत नहीं है, और मेरे पास पेशकश करने के लिए कोई वैकल्पिक विश्लेषण नहीं है - एक के अलावा जो कहता है कि बहुत कम या कोई संबंध नहीं है। हां, यह संभव है कि जैवविविधता मौजूद हो। यदि प्रक्रिया आगे देखी जा सकती है, तो हम देख सकते हैं कि क्या होता है। मैं सिर्फ यह सोचता हूं कि हमें अपने झुकाव के बारे में सतर्क और सजग रहने की जरूरत है ताकि समय-समय पर आने वाले पैटर्न पर प्रतिक्रिया की जा सके।
rvl

4
@ आप सही हैं। पैटर्न में बहुत अधिक पढ़ने से रखने के लिए अनुभव की आवश्यकता होती है। मेरा अनुभव कहता है कि 150-200 अंकों के साथ यह मुश्किल है कि मैं y- निर्देशांक में मापी गई मजबूत जैव-विविधता को प्राप्त करना मुश्किल है। इस तरह के अनुभव को सिमुलेशन द्वारा आजकल आसानी से और जल्दी से पूरक किया जा सकता है: जब आपको लगता है कि आप एक पैटर्न देखते हैं, तो (1) इसे मात्रात्मक रूप से चिह्नित करें और (2) इसे यादृच्छिक नमूनों में देखें जो एक सरल वैकल्पिक परिकल्पना के अनुसार उत्पन्न होते हैं। यदि पैटर्न बहुत अधिक दिखाई देता है, तो आप अपने दृश्य कोर्टेक्स को दोष दे सकते हैं, लेकिन अन्यथा आपको कुछ मिल सकता है।
whuber

1
@ रुस धन्यवाद। वह अवशिष्ट कथानक नहीं था जिसका मैंने वर्णन किया है - x और y की भूमिकाएँ उलट हैं। हालांकि, यह फिर भी जानकारीपूर्ण है। विषमलैंगिकता सबसे हड़ताली बात है: यह वास्तव में दो-क्लस्टर परिकल्पना को समर्थन देने के लिए लगता है (जो विषमता को गायब कर देगा)। माइंड यू, मैं उस परिकल्पना के बारे में अज्ञेय हूं। मैंने यहां जो कुछ भी लिखा है वह डेटा की सावधानीपूर्वक, मजबूत विवरण की मूल भावना में है। इन आंकड़ों के विवरण के रूप में कोई भी वक्र, क्रूड और शायद असंतोषजनक होने वाला है।
whuber

31

चलो कुछ मज़ा करते हैं!

सबसे पहले, मैं स्क्रैप डेटा अपने ग्राफ बंद।

X=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

गुणांक का अनुमान था:

Y=50.937.7X26.74436max(X0.46,0)

मैं यह नोट करूंगा कि जबकि रिड्यूजेबल व्ह्यूबेर यह दावा करता है कि कोई मजबूत रैखिक संबंध नहीं हैं, लाइन से विचलन काज शब्द द्वारा निहित है (यानी 37.7) के ढलान के समान क्रम पर है , इसलिए मैं। सम्मानपूर्वक असहमत होंगे कि हम कोई मजबूत नॉनलाइनर रिलेशनशिप नहीं देखते हैं (यानी हां कोई मजबूत रिलेशनशिप नहीं हैं, लेकिन नॉनलाइन शब्द लीनियर के रूप में मजबूत है)।एक्सY=50.937.7XX

डेटा के साथ समय खेलें

व्याख्या
(मैंने मान लिया है कि आप केवल पर निर्भर चर के रूप में रुचि रखते हैं ।) मानों को द्वारा समायोजित (एक समायोजित- = 0.03) के साथ बहुत कमजोर भविष्यवाणी की जाती है । लगभग 0.46 पर ढलान में मामूली कमी के साथ एसोसिएशन लगभग रैखिक है। अवशिष्ट कुछ हद तक दाईं ओर तिरछे होते हैं, शायद इसलिए कि मूल्यों पर एक तेज निचली सीमा है । नमूना आकार को देखते हुए , मैं सामान्यता के उल्लंघन को सहन करने के लिए इच्छुक हूं । मूल्यों के लिए अधिक टिप्पणियों से नाखूनों को नीचे गिराने में मदद मिलेगी कि ढलान में परिवर्तन वास्तविक है, या के कम विचलन की एक कलाकृति हैY X R 2 Y N = 170 X > 0.5 YYYXR2YN=170X>0.5Y उस सीमा में।

ग्राफ़ के साथ अपडेट करना :ln(Y)

(लाल रेखा X पर केवल ln (Y) का एक रैखिक प्रतिगमन है)

ग्राफ प्रति रसेल लेन्थ के सुझाव के साथ अपडेट किया गया।

टिप्पणियों में रसेल लैंथ ने लिखा: "मुझे आश्चर्य है कि अगर यह पकड़ लेता है यदि आप बनाम चिकना करते हैं । का वितरण सही तिरछा है।" यह काफी अच्छा सुझाव है, क्योंकि ट्रांसफॉर्मेशन बनाम भी थोड़ा बेहतर फिट है कि और बीच की रेखा अवशिष्ट के साथ होती है जो अधिक सममित रूप से वितरित की जाती है। हालाँकि, उनके सुझाए गए और मेरे रेखीय काज दोनों के बीच एक संबंध के लिए वरीयता साझा करते हैं (अनियंत्रित) और जो एक सीधी रेखा द्वारा वर्णित नहीं है।logYXYlogYXYXlog(Y)XYX


1
मुझे आश्चर्य है कि अगर यह पकड़ लेता है यदि आप बनाम चिकना करते हैं । का वितरण सही तिरछा है, और मुझे लगता है कि एक परिवर्तन जो वितरण को अधिक सममित बनाता है वह भी आइकॉनिक नल स्कैल्प्लॉट जैसा नहीं दिखेगा। logYXY
rvl

1
@ रुस यह शास्त्रीय है कि बिमोडल वितरण तिरछा दिखाई दे सकता है और लॉग ट्रांसफ़ॉर्मेशन सुझा सकता है। लेकिन यहाँ y वितरण वास्तव में बिमोडल है और एक लॉग शायद इसे फिर से व्यक्त करने का एक उपयोगी तरीका नहीं है। जब दो घटकों को अलग किया जाता है, तो निचले एक को अभी भी सकारात्मक रूप से तिरछा किया जाता है और एक वर्गमूल एक सममित वितरण प्राप्त करने के लिए इसे बदलने के लिए सही मात्रा में होता है। वर्गमूल ऊपरी समूह की समरूपता को सराहनीय रूप से प्रभावित नहीं करता है, यह दर्शाता है कि जड़ एक अच्छा विकल्प हो सकता है। हालाँकि, यह द्विध्रुवीयता को ठीक नहीं करता है - और इस प्रकार की किसी भी समस्या के साथ समस्या है।
whuber

1
एलेक्सिस, हमारे जवाब में हम दोनों अपरिभाषित तरीकों से "मजबूत" का उपयोग करने के दोषी हैं। जिस अर्थ में "कमजोर" मेरा मतलब था कि मेरे कुछ वाक्यांशों में संकेत दिया गया था, जो यह संकेत देने के लिए था कि ढलान y मूल्यों में बिखराव की तुलना में छोटा है। मुझे नहीं लगता कि आपका विश्लेषण उस संबंध में किसी भिन्न निष्कर्ष के साथ आता है। मुझे सावधानी की आवश्यकता महसूस हुई क्योंकि, काल्पनिक रूप से स्वीकार करते हुए कि y के लिए मिश्रण मॉडल में योग्यता हो सकती है, ऐसा प्रतीत होता है कि ऊपरी समूह में वास्तव में x और y के बीच कमजोर सकारात्मक संबंध हो सकता है और निचले समूह में कोई संबंध नहीं है।
whuber

3
एलेक्सिस, टुकी की ईडीए पुस्तक उनमें से भरी हुई है। अधिक तकनीकों (अधिक से अधिक परिष्कार के लिए, गणितीय औचित्य के साथ) Hoaglin, Mosteller, और Tukey, अंडरस्टैंडिंग रोबस्ट एंड एक्सप्लोरेटरी डेटा एनालिसिस देखें
whuber

2
@rivu मैनुअल। 10 या 15 मिनट में टॉप किया। सूचक के साथ शुरू में प्रत्येक बिंदु को रखा, फिर तीर कुंजियों का उपयोग करके इसे ठीक से स्थित किया।
एलेक्सिस

21

यहाँ मेरा 2 ¢ 1.5 ¢ है। मेरे लिए सबसे प्रमुख विशेषता यह है कि वाई की सीमा के नीचे डेटा अचानक रुक जाता है और 'बंच अप' हो जाता है। मुझे दो (संभावित) 'क्लस्टर' और सामान्य नकारात्मक संघ दिखाई देते हैं, लेकिन सबसे मुख्य विशेषताएं हैं (संभावित) तल प्रभाव और तथ्य यह है कि शीर्ष, कम-घनत्व क्लस्टर केवल एक्स की सीमा के हिस्से में फैली हुई है।

क्योंकि 'क्लस्टर' सामान्य रूप से सामान्य रूप से द्विभाजित होते हैं, इसलिए प्रयास करने के लिए एक पैरामीट्रिक सामान्य मिश्रण मॉडल दिलचस्प हो सकता है। @ एलेक्सिस के डेटा का उपयोग करते हुए, मुझे लगता है कि तीन क्लस्टर बीआईसी को अनुकूलित करते हैं। उच्च घनत्व 'फर्श प्रभाव' को तीसरे क्लस्टर के रूप में निकाला जाता है। कोड निम्नानुसार है:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

यहाँ छवि विवरण दर्ज करें

अब, हम इससे क्या करेंगे? मुझे नहीं लगता कि Mclustयह केवल मानव प्रतिमान की मान्यता है। (जबकि मेरे स्कैटलप्लॉट का पाठ अच्छी तरह से हो सकता है।) दूसरी तरफ, कोई सवाल नहीं है कि यह पोस्ट-हॉक है । मैंने देखा कि मुझे क्या लगा कि यह एक दिलचस्प पैटर्न हो सकता है और इसलिए इसे जाँचने का फैसला किया। एल्गोरिथ्म कुछ पाता है, लेकिन फिर मैंने केवल उसके लिए जाँच की कि मैंने क्या सोचा था इसलिए मेरा अंगूठा निश्चित रूप से बड़े पैमाने पर है। कभी-कभी इसके खिलाफ शमन करने के लिए एक रणनीति तैयार करना संभव है (देखें @ whuber का उत्कृष्ट उत्तर यहां ), लेकिन मुझे नहीं पता कि इस तरह के मामलों में इस तरह की प्रक्रिया के बारे में कैसे जाना जाए। नतीजतन, मैं नमक की एक बहुत कुछ के साथ इन परिणामों ले (मैं बात इस तरह की पर्याप्त रूप से अक्सर है कि किसी को एक पूरी याद आ रही है किया है शेकर)। जब मैं मिलते हैं तो यह मुझे अपने क्लाइंट के बारे में सोचने और चर्चा करने के लिए कुछ सामग्री देता है। ये डेटा क्या हैं? क्या इसका कोई मतलब है कि कोई फर्श प्रभाव हो सकता है? क्या यह समझ में आएगा कि अलग-अलग समूह हो सकते हैं? कितना सार्थक / आश्चर्यजनक / रोचक / महत्वपूर्ण यह होगा यदि ये वास्तविक थे? क्या स्वतंत्र डेटा मौजूद है / क्या हम इन संभावनाओं का एक ईमानदार परीक्षण करने के लिए उन्हें आसानी से प्राप्त कर सकते हैं? आदि।


1
+1 यह इंगित करने के लिए कि स्वाभाविक रूप से एक खोजपूर्ण विश्लेषण कैसे दिलचस्प प्रश्नों की ओर जाता है । काश मैंने अपने उत्तर में उस बिंदु पर अधिक जोर दिया होता। हालांकि मुझे लगता है कि यह (इस बिंदु पर) विश्वास करने के लिए चीजों को आगे बढ़ाएगा कि वास्तव में तीन अलग-अलग समूह हैं, क्लस्टर परिणाम अभी भी यह देखने का एक वैध तरीका पेश करते हैं कि एक्स और वाई के बीच एक नकारात्मक संबंध है और उस रिश्ते को संक्षेप में प्रस्तुत करना है। मैं आश्चर्यचकित हूं कि किस हद तक स्वचालित क्लस्टरिंग एक आम तौर पर उपयोगी खोजपूर्ण उपकरण हो सकता है - बशर्ते कि हम परिणामों में बहुत अधिक पढ़ने के लिए लुभाए नहीं।
whuber

14

जैसे ही मैं इसे देखता हूं मैं इसका वर्णन करता हूं:

यदि हम के सशर्त वितरण में रुचि रखते हैं (जो कि यदि अक्सर जहां ब्याज पर ध्यान केंद्रित करता है अगर हम को IV और को DV के रूप में देखें), तो लिए का सशर्त वितरण एक ऊपरी समूह के साथ द्विअर्थी दिखाई देता है (? लगभग )० और १२५ के बीच, मतलब १०० से थोड़ा नीचे) और एक निचला समूह (० और लगभग ,० के बीच, जिसका अर्थ ३० या इसके आसपास है)। प्रत्येक मॉडल समूह के भीतर, के साथ संबंध लगभग सपाट है। (नीचे लाल और नीली रेखाएँ देखें जो मोटे तौर पर खींची जाती हैं जहाँ मुझे लगता है कि स्थान के कुछ मोटे भाव हैं)yxyx0.5Y|xx

फिर यह देखते हुए कि में वे दो समूह कहाँ कम या अधिक हैं , हम और अधिक कहने के लिए आगे बढ़ सकते हैं:X

के लिए ऊपरी समूह पूरी तरह से जो बनाता है के समग्र मतलब गायब हो जाता है, गिर जाते हैं, और 0.2 के बारे में नीचे, कम समूह बहुत कम यह ऊपर से घना है, समग्र औसत उच्च बना रही है।x>0.5x

इन दो प्रभावों के बीच, यह दोनों के बीच एक स्पष्ट नकारात्मक (लेकिन नॉनलाइनियर) रिश्ते को प्रेरित करता है, जैसा कि खिलाफ घटता हुआ प्रतीत होता है , लेकिन केंद्र में एक व्यापक, ज्यादातर सपाट क्षेत्र के साथ। (बैंगनी धराशायी लाइन देखें)E(Y|X=x)x

यहाँ छवि विवरण दर्ज करें

इसमें कोई संदेह नहीं है कि यह जानना महत्वपूर्ण होगा कि और क्या थे, क्योंकि तब यह स्पष्ट हो सकता है कि लिए सशर्त वितरण इसकी सीमा से अधिक क्यों हो सकता है (वास्तव में, यह भी स्पष्ट हो सकता है कि वास्तव में दो समूह हैं, जिनके में वितरण में स्पष्ट घटते संबंध को प्रेरित करता है )।YXYXY|x

यह जो मैंने देखा वह विशुद्ध रूप से "बाय-आई" निरीक्षण पर आधारित था। एक बुनियादी छवि हेरफेर कार्यक्रम की तरह कुछ में चारों ओर खेलने के साथ (जैसे मैंने लाइनों को आकर्षित किया) हम कुछ और सटीक संख्याओं का पता लगाना शुरू कर सकते हैं। यदि हम डेटा को डिजिटाइज़ करते हैं (जो कि सभ्य उपकरणों के साथ बहुत सरल है, यदि कभी-कभी सही पाने के लिए थोड़ा थकाऊ), तो हम उस तरह के छाप के अधिक परिष्कृत विश्लेषण कर सकते हैं।

इस तरह के खोजपूर्ण विश्लेषण से कुछ महत्वपूर्ण प्रश्न हो सकते हैं (कभी-कभी वे जो उस व्यक्ति को आश्चर्यचकित करते हैं जिनके पास डेटा है लेकिन केवल एक प्लॉट दिखाया गया है), लेकिन हमें इस बात पर कुछ ध्यान रखना चाहिए कि हमारे मॉडल को इस तरह के निरीक्षण द्वारा किस हद तक चुना जाता है - यदि हम एक प्लॉट की उपस्थिति के आधार पर चुने गए मॉडल लागू करते हैं और फिर उसी डेटा पर उन मॉडलों का अनुमान लगाते हैं, हम एक ही समस्याओं का सामना करते हैं जब हम एक ही डेटा पर अधिक औपचारिक मॉडल-चयन और अनुमान का उपयोग करते हैं। [यह खोजपूर्ण विश्लेषण के महत्व को बिल्कुल भी नकारने के लिए नहीं है - यह सिर्फ हमें यह करने के परिणामों के बारे में सावधान रहना चाहिए कि हम इसके बारे में कैसे जाएं। ]


प्रतिक्रिया के लिए रसेल 'टिप्पणी:

[बाद में संपादित करें: स्पष्ट करने के लिए - मैं मोटे तौर पर रस की आलोचनाओं के साथ एक सामान्य एहतियात के रूप में सहमत हूं, और निश्चित रूप से कुछ संभावना है जो मैंने देखा है वह वास्तव में वहां है। मैं वापस आने की योजना बना रहा हूं और इनको और अधिक व्यापक टिप्पणी के रूप में संपादित कर रहा हूं जिसमें हम आमतौर पर आंखों से पहचानते हैं और जिस तरीके से हम सबसे बुरे से बचने के लिए शुरू कर सकते हैं। मेरा मानना ​​है कि मैं इस बारे में कुछ औचित्य जोड़ने में सक्षम होऊंगा कि मुझे क्यों लगता है कि यह केवल इस विशिष्ट मामले में सहज नहीं है (उदाहरण के लिए एक regressogram या 0-ऑर्डर कर्नेल चिकनी के माध्यम से, हालांकि, निश्चित रूप से परीक्षण करने के लिए अधिक डेटा अनुपस्थित है, केवल इतनी दूर तक जा सकते हैं, उदाहरण के लिए, यदि हमारा नमूना अप्रमाणिक है, यहां तक ​​कि रेज़मैपलिंग से हमें केवल इतना ही मिलता है।]

मैं पूरी तरह से सहमत हूं कि हमारे पास सहज पैटर्न देखने की प्रवृत्ति है; यह एक ऐसा बिंदु है जिसे मैं अक्सर यहां और अन्य जगहों पर बनाता हूं।

एक बात जो मैं सुझाता हूं, उदाहरण के लिए, जब अवशिष्ट भूखंडों या QQ भूखंडों को देखते हुए, कई भूखंडों को उत्पन्न करना है, जहां स्थिति ज्ञात हो (दोनों ही चीजें होनी चाहिए और जहां धारणाएं नहीं हैं) एक स्पष्ट विचार प्राप्त करने के लिए कि कितना पैटर्न होना चाहिए अवहेलना करना।

यहां एक उदाहरण दिया गया है कि क्यूक्यू प्लॉट को 24 अन्य लोगों के बीच रखा गया है (जो मान्यताओं को पूरा करते हैं), हमारे लिए यह देखने के लिए कि प्लॉट कितना असामान्य है। इस तरह का व्यायाम महत्वपूर्ण है, क्योंकि यह हमें हर छोटी-छोटी गड़गड़ाहट की व्याख्या करके खुद को बेवकूफ बनाने से बचने में मदद करता है, जिनमें से अधिकांश सरल शोर होगा।

मैं अक्सर इंगित करता हूं कि यदि आप कुछ बिंदुओं को कवर करके एक छाप को बदल सकते हैं, तो हम शोर से अधिक कुछ नहीं द्वारा उत्पन्न धारणा पर भरोसा कर सकते हैं।

[हालांकि, जब यह कुछ के बजाय कई बिंदुओं से स्पष्ट होता है, तो यह बनाए रखना कठिन है कि यह वहां नहीं है।]

व्हिबर के उत्तर में प्रदर्शित मेरी धारणा का समर्थन करता है, गॉसियन कलंक की साजिश में द्विध्रुवीयता के लिए समान प्रवृत्ति उठाती है ।Y

जब हमारे पास जांच करने के लिए अधिक डेटा नहीं होता है, तो हम कम से कम यह देख सकते हैं कि क्या इंप्रेशन को जीवित रहने के लिए छोड़ दिया गया है (बाइवेरेट वितरण को बूटस्ट्रैप करें और देखें कि क्या यह लगभग हमेशा मौजूद है), या अन्य जोड़तोड़ जहां छाप स्पष्ट नहीं होनी चाहिए अगर यह आसान शोर है।

1) यहां यह देखने का एक तरीका है कि क्या स्पष्ट द्विध्रुवीयता सिर्फ तिरछी आवाज से अधिक है - क्या यह कर्नेल घनत्व अनुमान में दिखाई देता है? यदि हम विभिन्न परिवर्तनों के तहत कर्नेल घनत्व अनुमान लगाते हैं, तो क्या यह अभी भी दिखाई दे रहा है? यहां मैं इसे 85% डिफ़ॉल्ट बैंडविड्थ की तुलना में अधिक समरूपता की ओर बदल देता हूं (क्योंकि हम अपेक्षाकृत छोटे मोड की पहचान करने की कोशिश कर रहे हैं, और डिफ़ॉल्ट बैंडविड्थ उस कार्य के लिए अनुकूलित नहीं है):

यहाँ छवि विवरण दर्ज करें

भूखंड , और । ऊर्ध्वाधर रेखाएँ , और । बिमोडिटी कम हो जाती है, लेकिन फिर भी काफी दिखाई देती है। चूंकि यह मूल केडीई में बहुत स्पष्ट है, इसलिए इसकी पुष्टि होती है - और दूसरे और तीसरे भूखंड से कम से कम कुछ हद तक परिवर्तन के लिए मजबूत होने का सुझाव मिलता है।YYlog(Y)6868log(68)

2) यहां यह देखने का एक और मूल तरीका है कि क्या यह "शोर" से अधिक है:

चरण 1: Y पर क्लस्टरिंग करें

यहाँ छवि विवरण दर्ज करें

चरण 2: पर दो समूहों में विभाजित करें, और दो समूहों को अलग-अलग क्लस्टर करें, और देखें कि क्या यह काफी समान है। अगर दो हिस्सों में कुछ भी नहीं हो रहा है, तो उस सभी को समान रूप से विभाजित करने की उम्मीद नहीं की जानी चाहिए।X

यहाँ छवि विवरण दर्ज करें

डॉट्स के साथ अंक पिछले भूखंड में "सभी एक सेट में" क्लस्टर से अलग-अलग क्लस्टर किए गए थे। मैं कुछ और बाद में करूँगा, लेकिन ऐसा लगता है कि शायद उस स्थिति के पास एक क्षैतिज "विभाजन" हो सकता है।

मैं एक प्रतिगामी या नादराया-वाटसन अनुमानक (दोनों प्रतिगमन समारोह के स्थानीय अनुमान, ) का प्रयास करने जा रहा हूं । मैंने अभी तक उत्पन्न नहीं किया है, लेकिन हम देखेंगे कि वे कैसे जाते हैं। मैं शायद उन छोरों को छोड़ दूंगा जहाँ बहुत कम डेटा है।E(Y|x)

3) संपादित करें: यहाँ चौड़ाई 0.1 के डिब्बे के लिए, रेग्रेसोग्राम है, (बहुत ही सिरों को छोड़कर, जैसा कि मैंने पहले बताया):

यहाँ छवि विवरण दर्ज करें

यह मूल धारणा के साथ पूरी तरह से संगत है जो मेरे पास थी; यह साबित नहीं होता कि मेरा तर्क सही था, लेकिन मेरा निष्कर्ष उसी परिणाम पर आया, जो रेज्रोग्राम करता है।

अगर मैंने भूखंड में क्या देखा - और परिणामी तर्क - स्पष्ट था, तो मुझे शायद इस तरह पर सफल नहीं होना चाहिए था।E(Y|x)

(कोशिश करने के लिए अगली बात एक नादायरा-वाटसन अनुमानक होगी। फिर मैं देख सकता हूं कि अगर मेरे पास समय हो तो यह कैसे फिर से शुरू हो सकता है।)

4) बाद में संपादित करें:

नादार्य-वाटसन, गाऊसी कर्नेल, बैंडविड्थ 0.15:

यहाँ छवि विवरण दर्ज करें

फिर, यह आश्चर्यजनक रूप से मेरे प्रारंभिक प्रभाव के अनुरूप है। यहां दस बूटस्ट्रैप के अवशेषों के आधार पर NW के अनुमानक हैं:

यहाँ छवि विवरण दर्ज करें

व्यापक पैटर्न वहाँ है, हालांकि कुछ अवशेषों के रूप में स्पष्ट रूप से पूरे डेटा के आधार पर विवरण का पालन नहीं करते हैं। हम देखते हैं कि बाएं के स्तर का मामला दाईं ओर से कम निश्चित है - शोर का स्तर (कुछ टिप्पणियों से आंशिक रूप से, व्यापक प्रसार से) ऐसा है कि यह दावा करना कम आसान है कि वास्तव में मतलब अधिक है केंद्र की तुलना में छोड़ दिया।

मेरी समग्र धारणा यह है कि मैं शायद खुद को बेवकूफ नहीं बना रहा था, क्योंकि विभिन्न पहलुओं को विभिन्न प्रकार की चुनौतियों (सहजता, परिवर्तन, उपसमूहों में विभाजित करना, फिर से खोलना) के लिए अच्छी तरह से खड़ा किया गया है, जो उन्हें बस शोर करने पर अस्पष्ट करना चाहते हैं। दूसरी ओर, संकेत हैं कि प्रभाव, जबकि मेरी प्रारंभिक धारणा के अनुरूप है, अपेक्षाकृत कमजोर हैं, और यह बहुत अधिक हो सकता है कि यह उम्मीद है कि बाईं ओर से केंद्र की ओर बढ़ने वाली किसी भी वास्तविक परिवर्तन का दावा किया जाए।


1
मैंने एक उत्तर पर सवाल उठाया, लेकिन यह कहने में मुझे विश्वास है कि यह सामान है जो नहीं है
rvl

1
मैंने अपना वोट डाउन करने की कोशिश की, लेकिन मुझे लगता है कि मैं नहीं कर सकता। सिर्फ इसलिए कि मैं वास्तव में आपके उत्तर से असहमत हूं इसका मतलब यह नहीं है कि यह चर्चा में योगदान नहीं करता है। मुझे यकीन नहीं है कि नीचे-वोट का उपयोग कैसे करना है, और इसका व्यक्तिगत रूप से कोई मतलब नहीं है। पीपी
आरवीएल

4
@ रुस डाउनवोट के बारे में चिंता न करें, यह वास्तव में कोई फर्क नहीं पड़ता, इस तथ्य के बाहर कि यह संकेत है कि मुझे कुछ पता होना चाहिए। नकली इंटरनेट बिंदुओं के बारे में चिंता करने की तुलना में हम इस बात से अधिक महत्वपूर्ण हैं कि हम क्यों असहमत हैं (इस हद तक कि हम बिल्कुल भी नहीं)। आपको चर्चा करने के लायक एक आपत्ति है, और मैं इस संक्षिप्त चर्चा के लिए दस गुना भुगतान करना चाहता हूं। मैं आपको प्रोत्साहित करता हूं कि जब भी आप कहेंगे कि हर बार आप मुझसे असहमत होंगे। यही मेरा मौका है कुछ सीखने का।
Glen_b

1
@RussLenth आप डाउन वोट पर फिर से क्लिक करके एक डाउनवोट (या अपवोट) को पूर्ववत कर सकते हैं। यदि आप इस बात के बारे में अनिश्चित हैं कि आपके वोट नीचे (या ऊपर) तीर पर होवरटेक्स्ट में हैं तो आपको पता चल जाएगा।
एलेक्सिस

4
+1 मैंने वास्तव में इस विश्लेषण का बहुत कुछ किया था, लेकिन उन परिणामों के साथ अपने उत्तर को अधिक विस्तार नहीं देना चाहता था। आपने इसे एक स्पष्ट, पठनीय और ठोस रूप में प्रस्तुत करने में बहुत अच्छा काम किया है। इसके अलावा मैंने जो कुछ किया था, वह था (वास्तव में, सुचारू) x को फिर से y ("आश्रित" के रूप में y के लक्षण वर्णन के बावजूद): मुझे लगता है कि परिणाम उस तरह से रिश्ते में गैर-बराबरी का आकलन करने में मददगार था जैसा कि आप y के बारे में अज्ञेयवादी हैं। एक या दो समूहों के रूप में माना जाना चाहिए।
whuber

13

ठीक है दोस्तों, मैंने एलेक्सिस की अगुवाई की और डेटा पर कब्जा कर लिया। यहाँ बनाम का प्लॉट दिया गया है ।xlogyxलॉग (Y) बनाम X की साजिश

और सहसंबंध:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

सहसंबंध परीक्षण एक संभावित नकारात्मक निर्भरता का संकेत देता है। मैं किसी भी जैवविविधता (लेकिन यह भी अनुपस्थित है कि यह अनुपस्थित है) से असंबद्ध रहता हूं।

[मैंने पहले वाले संस्करण में एक अवशिष्ट साजिश को हटा दिया था क्योंकि मैंने उस बिंदु को अनदेखा कर दिया था जो @whuber भविष्यवाणी करने की कोशिश कर रहा था ।]X|Y


2
संयोग से ... यह सिर्फ मेरे लिए हुआ है कि निर्भरता के रूप में लॉग (Y) परिवर्तन को लेना अभी भी एक गैर-रैखिक संबंध खोजने के बराबर है ... लॉग (Y) उस हिंग फ़ंक्शन की तुलना में अवशिष्ट है जो मेरे साथ खेला गया था मेरा जवाब ... लेकिन निष्कर्ष में से एक समान है: और बीच संबंध में तुलना में बेहतर कार्यात्मक अभिव्यक्ति हैं । एक्स वाई = + बी एक्सYXY=a+bX
एलेक्सिस

उस अवशिष्ट भूखंड के लिए धन्यवाद, रस। यह कोई अनुरोध नहीं है, लेकिन मैं इंगित करना चाहूंगा कि मुझे जो कुछ भी मिला था - और शायद GoF की खोज के लिए अधिक से अधिक मूल्य - x का संबंध इस तरह के बजाय y के एक समारोह के रूप में था । एक्स अवशिष्टों को देखते हुए कुछ अतिरिक्त (शायद उपयोगी) प्रश्न दिए गए हैं, जिसमें हेरोफोर नहीं उठाए गए हैं, जैसे कि क्या हम एक्स के गैर-रेखीय पुन: अभिव्यक्तियों के माध्यम से कुछ सीख सकते हैं (हाँ, हम कर सकते हैं); चाहे दो-आबादी की परिकल्पना (हाँ, फिर से) के बारे में बहुत कुछ कहा जा सकता है, और मेरे फिट की मजबूती के बारे में (यह बहुत मजबूत है)।
whuber

ठीक है, शायद आप उस के लिए अवशिष्ट साजिश करना चाहते हैं। मैं अन्य सामान की ओर बढ़ रहा हूं।
rvl

5

रेज़ लेन्थ ने सोचा कि यदि वाई अक्ष लघुगणकीय है तो ग्राफ कैसा दिखेगा। एलेक्सिस ने डेटा को स्क्रैप किया, इसलिए लॉग एक्सिस के साथ प्लॉट करना आसान है:

यहाँ छवि विवरण दर्ज करें

लॉग स्केल पर, जैव-विविधता या प्रवृत्ति का कोई संकेत नहीं है। एक लॉग स्केल समझ में आता है या नहीं, इस बात पर निर्भर करता है कि डेटा किस चीज़ का प्रतिनिधित्व करता है। इसी तरह, क्या यह सोचने के लिए समझ में आता है कि डेटा दो आबादी से नमूने का प्रतिनिधित्व करता है जैसा कि व्हीबर सुझाव विवरण पर निर्भर करता है।


परिशिष्ट: नीचे दी गई टिप्पणियों के आधार पर, यहाँ एक संशोधित संस्करण है:

यहाँ छवि विवरण दर्ज करें


मैं अपने आलेख को पोस्ट करने वाले कुछ ही मिनटों के भीतर रसेल लेन्थ को पोस्ट कर दिया। मैंने उसका नहीं देखा था, या मैंने अपना पोस्ट नहीं किया होगा।
हार्वे मोटुलस्की

मुझे लगता है कि अनुमान में (सीधे रैखिक) प्रतिगमन परिणाम लॉग ( ) के साथ मजबूत होते हैं । Y
एलेक्सिस

9
यह ग्राफिक विज़ुअलाइज़ेशन की खराब पसंद के प्रभाव का एक दिलचस्प उदाहरण प्रस्तुत करता है: पहलू अनुपात को सिकोड़कर और वाई-एक्सिस को दो बार से अधिक जहाँ तक इसकी आवश्यकता है, का विस्तार करके, सॉफ्टवेयर ने स्वचालित रूप से किसी भी ऊर्ध्वाधर बिखराव के दृश्य प्रभाव को दबा दिया है, दर्शक के लिए किसी भी चीज़ को देखना काफी मुश्किल हो जाता है। यही कारण है कि एक अच्छा अन्वेषण, हालांकि ग्राफिकल प्रतिनिधित्व द्वारा निर्देशित है, (ए) को दबाने के बजाय, दृश्य के उपयुक्त तरीकों का उपयोग करना चाहिए जो प्रकट होते हैं, डेटा व्यवहार, और (बी) उन्हें अतिरिक्त विश्लेषण के साथ समर्थन करते हैं (जैसे कि @ ग्लेन_ब के पोस्ट में दिखाया गया है) ।
whuber

प्रश्न में Y की श्रेणियों के लिए, लॉग बेस 2 Y अक्ष के लिए उचित श्रेणी के लिए एक सरल विकल्प होगा। यह 1 और 1,000 के अच्छे मूल्यों से ऊपरी सीमा को भी रोकता है जो हाथ में डेटा के अनुरूप नहीं है।
एंडी डब्ल्यू

1

ठीक है, आप सही हैं, संबंध कमजोर है, लेकिन शून्य नहीं है। मैं सकारात्मक अनुमान लगाऊंगा। हालाँकि, अनुमान मत लगाओ, बस एक साधारण रैखिक प्रतिगमन (OLS प्रतिगमन) चलाओ और पता करो! वहां आपको xxx की एक ढलान मिलेगी जो आपको बताती है कि संबंध क्या है। और हां, आपके पास आउटलेयर हैं जो परिणामों को पूर्वाग्रहित कर सकते हैं। इससे निपटा जा सकता है। आप रिश्ते पर बाहरी प्रभाव का अनुमान लगाने के लिए कुक की दूरी का उपयोग कर सकते हैं या लीवरेज प्लॉट बना सकते हैं।

सौभाग्य


आपको क्या लगता है कि वे DGP के बजाय गैर-रेखीय होने के बजाय वास्तविक आउटलेयर हैं?
अबुमान

वैसे मुझे लगता है कि ऐसा भी हो सकता है। लेकिन यह बताना मुश्किल है, डॉट्स बहुत बिखरे हुए हैं।
हेल्गी गुडमंडसन

क्यों ओएलएस के साथ रैखिकता ग्रहण करते हैं? Nonparametric प्रतिगमन FTW! :)
एलेक्सिस

1
@ एलेक्सिस इस बात पर जोर देने में सही है कि लीनियरिटी जैसी मान्यताओं को सही ठहराया जाना चाहिए, चाहे डोमेन थ्योरी द्वारा या मॉडल जाँच द्वारा। हालांकि, मुझे लगता है कि इस तरह के मूल्यों को ध्यान में रखते हुए आउटलेर्स को एकमुश्त हटाया जाना सांख्यिकीय विश्लेषण में एक बहुत ही सामान्य त्रुटि है।
अबुमान

हां, एक अच्छा औचित्य, जैसे कि गलत मूल्य के बिना आउटलेर्स को हटाया नहीं जा सकता। लेकिन रूपांतरण एक बेहतर फिट के लिए मूल्य के वितरण को समायोजित करने में मदद कर सकते हैं, और आउटलेर को कम कर सकते हैं। और हां मैं सहमत हूं, मेरा मानना ​​है कि उचित कारणों के बिना आउटलेर्स को हटाना काफी आम है।
21:39 पर Helgi Gu atmundsson

1

आपने पहले से ही एक्स / वाई डेटा बिंदुओं के अभिविन्यास और उनके फैलाव को देखकर अपने प्रश्न को कुछ अंतर्ज्ञान प्रदान किया था। संक्षेप में आप सही हैं।

औपचारिक शब्दों में अभिविन्यास को सहसंबंध संकेत और विचरण के रूप में फैलाव कहा जा सकता है । ये दो लिंक आपको दो चर के बीच रैखिक संबंध की व्याख्या करने के बारे में अधिक जानकारी देंगे ।


0

यह एक घर का काम है। तो, आपके प्रश्न का उत्तर सरल है। X पर Y का रैखिक प्रतिगमन चलाएँ, आपको कुछ इस तरह मिलेगा:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

तो, 99% आत्मविश्वास पर एक्स चर पर टी-आँकड़े महत्वपूर्ण हैं। इसलिए, आप चर को किसी प्रकार का संबंध घोषित कर सकते हैं।

क्या यह रैखिक है? एक चर X2 = (X-mean (X)) ^ 2 जोड़ें, और फिर से पुनः प्राप्त करें।

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

X पर गुणांक अभी भी महत्वपूर्ण है, लेकिन X2 नहीं है। X2 गैर-शुद्धता का प्रतिनिधित्व करता है। तो, आप घोषणा करते हैं कि ते संबंध रैखिक प्रतीत होता है।

ऊपर एक घर के काम के लिए था।

वास्तविक जीवन में, चीजें अधिक जटिल हैं। कल्पना कीजिए, यह छात्रों के एक वर्ग का डेटा था। बेंच प्रेस पाउंड, एक्स - बेंच प्रेस से पहले किसी की सांस लेने के मिनटों में समय। मैं छात्रों के लिंग के लिए पूछना चाहता हूँ। बस इसके मज़े के लिए, चलो, एक और चर, Z जोड़ते हैं, और कहते हैं कि Z = 1 (लड़कियों) के लिए सभी Y <60, और Z = 0 (लड़के) जब Y> = 60। तीन चरों के साथ प्रतिगमन चलाएँ:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

क्या हुआ?! एक्स और वाई के बीच "संबंध" गायब हो गया है! ओह, ऐसा लगता है कि इस संबंध में परिवर्तनशील , लिंग के कारण संबंध सहज थे ।

कहानी से क्या शिक्षा मिलती है? आपको यह जानना होगा कि "संबंध" को "समझाने" के लिए या यहां तक ​​कि इसे पहली बार में स्थापित करने के लिए क्या डेटा है। इस मामले में, जिस क्षण मुझे बताया गया है कि छात्रों की शारीरिक गतिविधि का डेटा, मैं तुरंत उनके लिंग के बारे में पूछूँगा, और लिंग के परिवर्तन के बिना डेटा का विश्लेषण करने की जहमत भी नहीं उठाऊँगा।

दूसरी ओर, यदि आपसे स्कैटर प्लॉट का "वर्णन" करने के लिए कहा जाता है, तो कुछ भी हो जाता है। सहसंबंध, रैखिक फिट आदि। अपने घरेलू काम के लिए, पहले दो चरण पर्याप्त होने चाहिए: एक्स (संबंध) के गुणांक को देखें, फिर एक्स ^ 2 (रैखिकता)। सुनिश्चित करें कि आप एक्स चर का अर्थ करते हैं (मतलब घटाएं)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.