निम्नलिखित कथानक में और बीच क्या संबंध है ? मेरे विचार में, नकारात्मक रैखिक संबंध है, लेकिन क्योंकि हमारे पास बहुत सारे आउटलेयर हैं, संबंध बहुत कमजोर है। क्या मैं सही हू? मैं सीखना चाहता हूं कि हम बिखराव को कैसे समझा सकते हैं।एक्स
निम्नलिखित कथानक में और बीच क्या संबंध है ? मेरे विचार में, नकारात्मक रैखिक संबंध है, लेकिन क्योंकि हमारे पास बहुत सारे आउटलेयर हैं, संबंध बहुत कमजोर है। क्या मैं सही हू? मैं सीखना चाहता हूं कि हम बिखराव को कैसे समझा सकते हैं।एक्स
जवाबों:
प्रश्न कई अवधारणाओं से संबंधित है: केवल एक स्कैल्पप्लॉट के रूप में दिए गए डेटा का मूल्यांकन कैसे करें, स्कैप्लेट को संक्षेप में कैसे प्रस्तुत करें, और क्या (और किस हद तक) एक संबंध रैखिक दिखता है। चलो उन्हें क्रम में लेते हैं।
खोजपूर्ण डेटा विश्लेषण (EDA) के सिद्धांतों का उपयोग करें। ये (कम से कम मूल रूप से, जब वे पेंसिल-एंड-पेपर उपयोग के लिए विकसित किए गए थे) डेटा के सरल, आसान-से-गणना, मजबूत सारांश पर जोर देते हैं। बहुत सरल प्रकारों में से एक संख्या के एक सेट के भीतर पदों पर आधारित है , जैसे कि मध्य मूल्य, जो "विशिष्ट" मान का वर्णन करता है। Middles ग्राफिक्स से मज़बूती से अनुमान लगाना आसान है।
स्कैटरप्लॉट संख्याओं के जोड़े प्रदर्शित करते हैं। प्रत्येक जोड़ी में से पहला (क्षैतिज अक्ष पर प्लॉट किए गए) एकल संख्याओं का एक सेट देता है, जिसे हम अलग-अलग संक्षेप में प्रस्तुत कर सकते हैं।
इस विशेष स्कैल्पलॉट में, वाई-मान दो लगभग पूरी तरह से अलग समूहों के भीतर झूठ बोलते दिखाई देते हैं : शीर्ष पर से ऊपर के मान और सबसे नीचे या से कम के बराबर । (इस छाप की पुष्टि y- मानों के एक हिस्टोग्राम द्वारा की गई है, जो तेजी से बिमोडल है, लेकिन यह इस स्तर पर बहुत काम आएगा।) मैं स्कैल्पिक्स को स्कैल्पलॉट पर स्क्विंट में आमंत्रित करता हूं। जब मैं करता हूं - एक बड़े-त्रिज्या का उपयोग करते हुए, गामा-सही किए गए गॉसियन ब्लर (जो कि, एक मानक रैपिड इमेज प्रोसेसिंग रिजल्ट है) के स्कैटलपॉट में मैं इसे देखता हूं:60
दो समूह - ऊपरी और निचले - बहुत स्पष्ट हैं। (ऊपरी समूह निचले की तुलना में बहुत हल्का है क्योंकि इसमें कई कम डॉट्स हैं।)
तदनुसार, आइए अलग-अलग y- मानों के समूहों को संक्षेप में प्रस्तुत करें। मैं दो समूहों के मध्य में क्षैतिज रेखाएँ खींचकर ऐसा करूँगा। डेटा की छाप पर जोर देने के लिए और यह दिखाने के लिए कि हम किसी भी प्रकार की गणना नहीं कर रहे हैं, मेरे पास (ए) अक्षों और ग्रिडलाइन्स जैसी सभी सजावटों को हटा दिया गया है और (बी) ने बिंदुओं को धुंधला कर दिया है। डेटा में पैटर्न के बारे में थोड़ी जानकारी इस प्रकार ग्राफिक में "स्क्विंटिंग" द्वारा खो जाती है:
इसी तरह, मैंने एक्स-वैल्यू के माध्यकों को ऊर्ध्वाधर लाइन सेगमेंट के साथ चिह्नित करने का प्रयास किया है। ऊपरी समूह (लाल रेखाओं) में आप जांच कर सकते हैं - बूँदें गिनकर - कि ये रेखाएँ वास्तव में समूह को दो समान हिस्सों में अलग-अलग करती हैं, दोनों क्षैतिज और लंबवत। निचले समूह (नीली रेखाओं) में मैंने केवल पदों की दृष्टि से अनुमान लगाया है कि वास्तव में कोई गिनती किए बिना।
चौराहे के बिंदु दो समूहों के केंद्र हैं। X और y मानों के बीच संबंधों का एक उत्कृष्ट सारांश इन केंद्रीय स्थितियों की रिपोर्ट करना होगा। एक तो अपने समूह के चारों ओर - नीचे, ऊपर और नीचे - प्रत्येक समूह में डेटा कितना फैला हुआ है, इस विवरण के द्वारा इस सारांश को पूरक करना चाहते हैं। संक्षिप्तता के लिए, मैं यहां ऐसा नहीं करूंगा, लेकिन ध्यान दें कि मैंने जो रेखा खंड तैयार किए हैं, उनकी लंबाई प्रत्येक समूह के समग्र प्रसार को दर्शाती है।
अंत में, मैंने दोनों केंद्रों को जोड़ने वाली एक (धराशायी) रेखा खींच दी। यह एक उचित प्रतिगमन रेखा है। क्या यह डेटा का अच्छा विवरण है? निश्चित रूप से नहीं: देखो कि इस लाइन के आसपास डेटा कैसे फैला है। क्या यह रैखिकता का भी प्रमाण है? यह स्पष्ट रूप से प्रासंगिक है क्योंकि रैखिक विवरण बहुत खराब है। फिर भी, क्योंकि यह हमारे सामने प्रश्न है, तो इसे संबोधित करें।
एक संबंध एक सांख्यिकीय अर्थ में रैखिक है जब या तो y मान एक पंक्ति के चारों ओर एक संतुलित यादृच्छिक फैशन में भिन्न होते हैं या x मान एक पंक्ति (या दोनों) के चारों ओर एक संतुलित यादृच्छिक फैशन में भिन्न होते हैं।
पूर्व यहां ऐसा प्रतीत नहीं होता है: क्योंकि y मान दो समूहों में आते हैं, उनकी भिन्नता कभी भी रेखा के ऊपर या नीचे वितरित होने वाले मोटे तौर पर सममित होने के अर्थ में संतुलित नहीं दिखती है । (यह तुरंत डेटा को एक लीनियर रिग्रेशन पैकेज में डंप करने और x के मुकाबले y के एक न्यूनतम वर्ग को फिट करने की संभावना को नियंत्रित करता है: उत्तर प्रासंगिक नहीं होंगे।)
एक्स में भिन्नता के बारे में क्या? यह अधिक प्रशंसनीय है: भूखंड पर प्रत्येक ऊंचाई पर, बिंदीदार रेखा के चारों ओर बिंदुओं का क्षैतिज बिखराव बहुत संतुलित है। प्रसार इस बिखराव में कम ऊंचाई पर एक छोटा सा अधिक से अधिक (कम y मान) हो रहा है, लेकिन शायद ऐसा इसलिए है क्योंकि कई और अधिक अंक देखते हैं वहाँ। (आपके पास जितना अधिक यादृच्छिक डेटा होगा, उनके चरम मूल्यों के अलावा व्यापक होगा।)
इसके अलावा, जैसा कि हम ऊपर से नीचे तक स्कैन करते हैं, ऐसी कोई जगह नहीं है जहां प्रतिगमन रेखा के चारों ओर क्षैतिज बिखराव दृढ़ता से असंतुलित है: यह गैर-रैखिकता का प्रमाण होगा। (खैर, शायद y = 50 के आसपास या तो बहुत अधिक बड़े x मान हो सकते हैं। यह सूक्ष्म प्रभाव y = 60 मान के आसपास के दो समूहों में डेटा को तोड़ने के लिए और सबूत के रूप में लिया जा सकता है।)
हमने वह देखा है
यह समझ में आता है कि x को y के रैखिक कार्य के रूप में देखा जा सकता है और कुछ "अच्छा" यादृच्छिक भिन्नता है।
यह x प्लस यादृच्छिक भिन्नता के रैखिक कार्य के रूप में y को देखने का कोई मतलब नहीं है ।
एक प्रतिगमन रेखा को डेटा को उच्च y मानों के समूह में और निम्न y मानों के समूह को अलग करके, दोनों समूहों के केंद्रों का पता लगाकर और उन केंद्रों को जोड़कर अनुमान लगाया जा सकता है।
परिणामी रेखा में नीचे की ओर ढलान है, जो एक नकारात्मक रैखिक संबंध को दर्शाता है ।
रैखिकता से कोई मजबूत प्रस्थान नहीं हैं।
फिर भी, क्योंकि लाइन के चारों ओर एक्स-वैल्यू के प्रसार अभी भी बड़े हैं (एक्स-वैल्यू के समग्र प्रसार के साथ शुरू होने की तुलना में), हमें इस नकारात्मक रैखिक संबंध को "बहुत कमजोर" के रूप में चित्रित करना होगा।
डेटा का वर्णन करने के लिए यह अधिक उपयोगी हो सकता है कि दो अंडाकार आकार के बादल (60 से ऊपर y के लिए एक और दूसरा y के निम्न मूल्यों के लिए)। प्रत्येक बादल के भीतर x और y के बीच थोड़ा पता लगाने योग्य संबंध होता है। बादलों के केंद्र (0.29, 90) और (0.38, 30) के पास हैं। बादलों में तुलनीय फैलता है, लेकिन ऊपरी बादल में कम एक (शायद 20% ज्यादा) की तुलना में कम डेटा होता है।
इन निष्कर्षों में से दो इस सवाल में खुद की पुष्टि करते हैं कि एक कमजोर नकारात्मक संबंध है। दूसरे उन निष्कर्षों का पूरक और समर्थन करते हैं।
प्रश्न में एक निष्कर्ष जो पकड़ में नहीं आता है, यह दावा है कि "आउटलेयर" हैं। एक अधिक सावधान परीक्षा (जैसा कि नीचे स्केच किया गया है) किसी भी व्यक्तिगत बिंदुओं या अंकों के छोटे समूहों को भी मोड़ने में विफल हो जाएगी, जिसे वैध रूप से आउटिंग माना जा सकता है। पर्याप्त रूप से लंबे विश्लेषण के बाद, किसी का ध्यान मध्य दाएं के पास दो बिंदुओं पर या निचले बाएं कोने में एक बिंदु पर खींचा जा सकता है, लेकिन यहां तक कि ये डेटा के आकलन को बहुत अधिक नहीं बदलने जा रहे हैं, चाहे उन्हें माना जाए या नहीं दूरस्थ।
बहुत कुछ कहा जा सकता है। अगला कदम उन बादलों के प्रसार का आकलन करना होगा। यहां दिखाए गए समान तकनीकों का उपयोग करके, प्रत्येक दो बादलों के भीतर x और y के बीच संबंधों का अलग-अलग मूल्यांकन किया जा सकता है। निचले बादल की थोड़ी सी विषमता (अधिक डेटा सबसे छोटे y मान पर दिखाई देते हैं) का मूल्यांकन किया जा सकता है और यहां तक कि y मूल्यों को फिर से व्यक्त करके समायोजित किया जा सकता है (एक वर्गमूल अच्छी तरह से काम कर सकता है)। इस स्तर पर यह आउटलाइंग डेटा देखने के लिए समझ में आता है, क्योंकि इस बिंदु पर विवरण में विशिष्ट डेटा मूल्यों के साथ-साथ उनके प्रसार के बारे में जानकारी शामिल होगी; आउटलेर्स (परिभाषा के अनुसार) प्रसार की मनाया गई राशि के संदर्भ में समझाया जाना बीच में बहुत दूर होगा।
इस काम में से कोई भी - जो काफी मात्रात्मक है - डेटा के समूहों की पहेलियों को खोजने और उनके साथ कुछ सरल गणना करने की तुलना में बहुत अधिक की आवश्यकता होती है, और इसलिए डेटा ग्राफ़िकल रूप में उपलब्ध होने पर भी जल्दी और सही तरीके से किया जा सकता है। यहां बताए गए प्रत्येक परिणाम - मात्रात्मक मूल्यों सहित - प्रदर्शन प्रणाली (जैसे हार्डकॉपी और एक पेंसिल :-)) का उपयोग करके कुछ सेकंड के भीतर आसानी से पाया जा सकता है, जो ग्राफिक के शीर्ष पर प्रकाश अंक बनाने के लिए एक को अनुमति देता है।
चलो कुछ मज़ा करते हैं!
सबसे पहले, मैं स्क्रैप डेटा अपने ग्राफ बंद।
गुणांक का अनुमान था:
मैं यह नोट करूंगा कि जबकि रिड्यूजेबल व्ह्यूबेर यह दावा करता है कि कोई मजबूत रैखिक संबंध नहीं हैं, लाइन से विचलन काज शब्द द्वारा निहित है (यानी 37.7) के ढलान के समान क्रम पर है , इसलिए मैं। सम्मानपूर्वक असहमत होंगे कि हम कोई मजबूत नॉनलाइनर रिलेशनशिप नहीं देखते हैं (यानी हां कोई मजबूत रिलेशनशिप नहीं हैं, लेकिन नॉनलाइन शब्द लीनियर के रूप में मजबूत है)।एक्स
व्याख्या
(मैंने मान लिया है कि आप केवल पर निर्भर चर के रूप में रुचि रखते हैं ।) मानों को द्वारा समायोजित (एक समायोजित- = 0.03) के साथ बहुत कमजोर भविष्यवाणी की जाती है । लगभग 0.46 पर ढलान में मामूली कमी के साथ एसोसिएशन लगभग रैखिक है। अवशिष्ट कुछ हद तक दाईं ओर तिरछे होते हैं, शायद इसलिए कि मूल्यों पर एक तेज निचली सीमा है । नमूना आकार को देखते हुए , मैं सामान्यता के उल्लंघन को सहन करने के लिए इच्छुक हूं । मूल्यों के लिए अधिक टिप्पणियों से नाखूनों को नीचे गिराने में मदद मिलेगी कि ढलान में परिवर्तन वास्तविक है, या के कम विचलन की एक कलाकृति हैY X R 2 Y N = 170 X > 0.5 Y उस सीमा में।
ग्राफ़ के साथ अपडेट करना :
(लाल रेखा X पर केवल ln (Y) का एक रैखिक प्रतिगमन है)
टिप्पणियों में रसेल लैंथ ने लिखा: "मुझे आश्चर्य है कि अगर यह पकड़ लेता है यदि आप बनाम चिकना करते हैं । का वितरण सही तिरछा है।" यह काफी अच्छा सुझाव है, क्योंकि ट्रांसफॉर्मेशन बनाम भी थोड़ा बेहतर फिट है कि और बीच की रेखा अवशिष्ट के साथ होती है जो अधिक सममित रूप से वितरित की जाती है। हालाँकि, उनके सुझाए गए और मेरे रेखीय काज दोनों के बीच एक संबंध के लिए वरीयता साझा करते हैं (अनियंत्रित) और जो एक सीधी रेखा द्वारा वर्णित नहीं है।
यहाँ मेरा 2 ¢ 1.5 ¢ है। मेरे लिए सबसे प्रमुख विशेषता यह है कि वाई की सीमा के नीचे डेटा अचानक रुक जाता है और 'बंच अप' हो जाता है। मुझे दो (संभावित) 'क्लस्टर' और सामान्य नकारात्मक संघ दिखाई देते हैं, लेकिन सबसे मुख्य विशेषताएं हैं (संभावित) तल प्रभाव और तथ्य यह है कि शीर्ष, कम-घनत्व क्लस्टर केवल एक्स की सीमा के हिस्से में फैली हुई है।
क्योंकि 'क्लस्टर' सामान्य रूप से सामान्य रूप से द्विभाजित होते हैं, इसलिए प्रयास करने के लिए एक पैरामीट्रिक सामान्य मिश्रण मॉडल दिलचस्प हो सकता है। @ एलेक्सिस के डेटा का उपयोग करते हुए, मुझे लगता है कि तीन क्लस्टर बीआईसी को अनुकूलित करते हैं। उच्च घनत्व 'फर्श प्रभाव' को तीसरे क्लस्टर के रूप में निकाला जाता है। कोड निम्नानुसार है:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
अब, हम इससे क्या करेंगे? मुझे नहीं लगता कि Mclust
यह केवल मानव प्रतिमान की मान्यता है। (जबकि मेरे स्कैटलप्लॉट का पाठ अच्छी तरह से हो सकता है।) दूसरी तरफ, कोई सवाल नहीं है कि यह पोस्ट-हॉक है । मैंने देखा कि मुझे क्या लगा कि यह एक दिलचस्प पैटर्न हो सकता है और इसलिए इसे जाँचने का फैसला किया। एल्गोरिथ्म कुछ पाता है, लेकिन फिर मैंने केवल उसके लिए जाँच की कि मैंने क्या सोचा था इसलिए मेरा अंगूठा निश्चित रूप से बड़े पैमाने पर है। कभी-कभी इसके खिलाफ शमन करने के लिए एक रणनीति तैयार करना संभव है (देखें @ whuber का उत्कृष्ट उत्तर यहां ), लेकिन मुझे नहीं पता कि इस तरह के मामलों में इस तरह की प्रक्रिया के बारे में कैसे जाना जाए। नतीजतन, मैं नमक की एक बहुत कुछ के साथ इन परिणामों ले (मैं बात इस तरह की पर्याप्त रूप से अक्सर है कि किसी को एक पूरी याद आ रही है किया है शेकर)। जब मैं मिलते हैं तो यह मुझे अपने क्लाइंट के बारे में सोचने और चर्चा करने के लिए कुछ सामग्री देता है। ये डेटा क्या हैं? क्या इसका कोई मतलब है कि कोई फर्श प्रभाव हो सकता है? क्या यह समझ में आएगा कि अलग-अलग समूह हो सकते हैं? कितना सार्थक / आश्चर्यजनक / रोचक / महत्वपूर्ण यह होगा यदि ये वास्तविक थे? क्या स्वतंत्र डेटा मौजूद है / क्या हम इन संभावनाओं का एक ईमानदार परीक्षण करने के लिए उन्हें आसानी से प्राप्त कर सकते हैं? आदि।
जैसे ही मैं इसे देखता हूं मैं इसका वर्णन करता हूं:
यदि हम के सशर्त वितरण में रुचि रखते हैं (जो कि यदि अक्सर जहां ब्याज पर ध्यान केंद्रित करता है अगर हम को IV और को DV के रूप में देखें), तो लिए का सशर्त वितरण एक ऊपरी समूह के साथ द्विअर्थी दिखाई देता है (? लगभग )० और १२५ के बीच, मतलब १०० से थोड़ा नीचे) और एक निचला समूह (० और लगभग ,० के बीच, जिसका अर्थ ३० या इसके आसपास है)। प्रत्येक मॉडल समूह के भीतर, के साथ संबंध लगभग सपाट है। (नीचे लाल और नीली रेखाएँ देखें जो मोटे तौर पर खींची जाती हैं जहाँ मुझे लगता है कि स्थान के कुछ मोटे भाव हैं)
फिर यह देखते हुए कि में वे दो समूह कहाँ कम या अधिक हैं , हम और अधिक कहने के लिए आगे बढ़ सकते हैं:
के लिए ऊपरी समूह पूरी तरह से जो बनाता है के समग्र मतलब गायब हो जाता है, गिर जाते हैं, और 0.2 के बारे में नीचे, कम समूह बहुत कम यह ऊपर से घना है, समग्र औसत उच्च बना रही है।
इन दो प्रभावों के बीच, यह दोनों के बीच एक स्पष्ट नकारात्मक (लेकिन नॉनलाइनियर) रिश्ते को प्रेरित करता है, जैसा कि खिलाफ घटता हुआ प्रतीत होता है , लेकिन केंद्र में एक व्यापक, ज्यादातर सपाट क्षेत्र के साथ। (बैंगनी धराशायी लाइन देखें)
इसमें कोई संदेह नहीं है कि यह जानना महत्वपूर्ण होगा कि और क्या थे, क्योंकि तब यह स्पष्ट हो सकता है कि लिए सशर्त वितरण इसकी सीमा से अधिक क्यों हो सकता है (वास्तव में, यह भी स्पष्ट हो सकता है कि वास्तव में दो समूह हैं, जिनके में वितरण में स्पष्ट घटते संबंध को प्रेरित करता है )।
यह जो मैंने देखा वह विशुद्ध रूप से "बाय-आई" निरीक्षण पर आधारित था। एक बुनियादी छवि हेरफेर कार्यक्रम की तरह कुछ में चारों ओर खेलने के साथ (जैसे मैंने लाइनों को आकर्षित किया) हम कुछ और सटीक संख्याओं का पता लगाना शुरू कर सकते हैं। यदि हम डेटा को डिजिटाइज़ करते हैं (जो कि सभ्य उपकरणों के साथ बहुत सरल है, यदि कभी-कभी सही पाने के लिए थोड़ा थकाऊ), तो हम उस तरह के छाप के अधिक परिष्कृत विश्लेषण कर सकते हैं।
इस तरह के खोजपूर्ण विश्लेषण से कुछ महत्वपूर्ण प्रश्न हो सकते हैं (कभी-कभी वे जो उस व्यक्ति को आश्चर्यचकित करते हैं जिनके पास डेटा है लेकिन केवल एक प्लॉट दिखाया गया है), लेकिन हमें इस बात पर कुछ ध्यान रखना चाहिए कि हमारे मॉडल को इस तरह के निरीक्षण द्वारा किस हद तक चुना जाता है - यदि हम एक प्लॉट की उपस्थिति के आधार पर चुने गए मॉडल लागू करते हैं और फिर उसी डेटा पर उन मॉडलों का अनुमान लगाते हैं, हम एक ही समस्याओं का सामना करते हैं जब हम एक ही डेटा पर अधिक औपचारिक मॉडल-चयन और अनुमान का उपयोग करते हैं। [यह खोजपूर्ण विश्लेषण के महत्व को बिल्कुल भी नकारने के लिए नहीं है - यह सिर्फ हमें यह करने के परिणामों के बारे में सावधान रहना चाहिए कि हम इसके बारे में कैसे जाएं। ]
प्रतिक्रिया के लिए रसेल 'टिप्पणी:
[बाद में संपादित करें: स्पष्ट करने के लिए - मैं मोटे तौर पर रस की आलोचनाओं के साथ एक सामान्य एहतियात के रूप में सहमत हूं, और निश्चित रूप से कुछ संभावना है जो मैंने देखा है वह वास्तव में वहां है। मैं वापस आने की योजना बना रहा हूं और इनको और अधिक व्यापक टिप्पणी के रूप में संपादित कर रहा हूं जिसमें हम आमतौर पर आंखों से पहचानते हैं और जिस तरीके से हम सबसे बुरे से बचने के लिए शुरू कर सकते हैं। मेरा मानना है कि मैं इस बारे में कुछ औचित्य जोड़ने में सक्षम होऊंगा कि मुझे क्यों लगता है कि यह केवल इस विशिष्ट मामले में सहज नहीं है (उदाहरण के लिए एक regressogram या 0-ऑर्डर कर्नेल चिकनी के माध्यम से, हालांकि, निश्चित रूप से परीक्षण करने के लिए अधिक डेटा अनुपस्थित है, केवल इतनी दूर तक जा सकते हैं, उदाहरण के लिए, यदि हमारा नमूना अप्रमाणिक है, यहां तक कि रेज़मैपलिंग से हमें केवल इतना ही मिलता है।]
मैं पूरी तरह से सहमत हूं कि हमारे पास सहज पैटर्न देखने की प्रवृत्ति है; यह एक ऐसा बिंदु है जिसे मैं अक्सर यहां और अन्य जगहों पर बनाता हूं।
एक बात जो मैं सुझाता हूं, उदाहरण के लिए, जब अवशिष्ट भूखंडों या QQ भूखंडों को देखते हुए, कई भूखंडों को उत्पन्न करना है, जहां स्थिति ज्ञात हो (दोनों ही चीजें होनी चाहिए और जहां धारणाएं नहीं हैं) एक स्पष्ट विचार प्राप्त करने के लिए कि कितना पैटर्न होना चाहिए अवहेलना करना।
यहां एक उदाहरण दिया गया है कि क्यूक्यू प्लॉट को 24 अन्य लोगों के बीच रखा गया है (जो मान्यताओं को पूरा करते हैं), हमारे लिए यह देखने के लिए कि प्लॉट कितना असामान्य है। इस तरह का व्यायाम महत्वपूर्ण है, क्योंकि यह हमें हर छोटी-छोटी गड़गड़ाहट की व्याख्या करके खुद को बेवकूफ बनाने से बचने में मदद करता है, जिनमें से अधिकांश सरल शोर होगा।
मैं अक्सर इंगित करता हूं कि यदि आप कुछ बिंदुओं को कवर करके एक छाप को बदल सकते हैं, तो हम शोर से अधिक कुछ नहीं द्वारा उत्पन्न धारणा पर भरोसा कर सकते हैं।
[हालांकि, जब यह कुछ के बजाय कई बिंदुओं से स्पष्ट होता है, तो यह बनाए रखना कठिन है कि यह वहां नहीं है।]
व्हिबर के उत्तर में प्रदर्शित मेरी धारणा का समर्थन करता है, गॉसियन कलंक की साजिश में द्विध्रुवीयता के लिए समान प्रवृत्ति उठाती है ।
जब हमारे पास जांच करने के लिए अधिक डेटा नहीं होता है, तो हम कम से कम यह देख सकते हैं कि क्या इंप्रेशन को जीवित रहने के लिए छोड़ दिया गया है (बाइवेरेट वितरण को बूटस्ट्रैप करें और देखें कि क्या यह लगभग हमेशा मौजूद है), या अन्य जोड़तोड़ जहां छाप स्पष्ट नहीं होनी चाहिए अगर यह आसान शोर है।
1) यहां यह देखने का एक तरीका है कि क्या स्पष्ट द्विध्रुवीयता सिर्फ तिरछी आवाज से अधिक है - क्या यह कर्नेल घनत्व अनुमान में दिखाई देता है? यदि हम विभिन्न परिवर्तनों के तहत कर्नेल घनत्व अनुमान लगाते हैं, तो क्या यह अभी भी दिखाई दे रहा है? यहां मैं इसे 85% डिफ़ॉल्ट बैंडविड्थ की तुलना में अधिक समरूपता की ओर बदल देता हूं (क्योंकि हम अपेक्षाकृत छोटे मोड की पहचान करने की कोशिश कर रहे हैं, और डिफ़ॉल्ट बैंडविड्थ उस कार्य के लिए अनुकूलित नहीं है):
भूखंड , और । ऊर्ध्वाधर रेखाएँ , और । बिमोडिटी कम हो जाती है, लेकिन फिर भी काफी दिखाई देती है। चूंकि यह मूल केडीई में बहुत स्पष्ट है, इसलिए इसकी पुष्टि होती है - और दूसरे और तीसरे भूखंड से कम से कम कुछ हद तक परिवर्तन के लिए मजबूत होने का सुझाव मिलता है।
2) यहां यह देखने का एक और मूल तरीका है कि क्या यह "शोर" से अधिक है:
चरण 1: Y पर क्लस्टरिंग करें
चरण 2: पर दो समूहों में विभाजित करें, और दो समूहों को अलग-अलग क्लस्टर करें, और देखें कि क्या यह काफी समान है। अगर दो हिस्सों में कुछ भी नहीं हो रहा है, तो उस सभी को समान रूप से विभाजित करने की उम्मीद नहीं की जानी चाहिए।
डॉट्स के साथ अंक पिछले भूखंड में "सभी एक सेट में" क्लस्टर से अलग-अलग क्लस्टर किए गए थे। मैं कुछ और बाद में करूँगा, लेकिन ऐसा लगता है कि शायद उस स्थिति के पास एक क्षैतिज "विभाजन" हो सकता है।
मैं एक प्रतिगामी या नादराया-वाटसन अनुमानक (दोनों प्रतिगमन समारोह के स्थानीय अनुमान, ) का प्रयास करने जा रहा हूं । मैंने अभी तक उत्पन्न नहीं किया है, लेकिन हम देखेंगे कि वे कैसे जाते हैं। मैं शायद उन छोरों को छोड़ दूंगा जहाँ बहुत कम डेटा है।
3) संपादित करें: यहाँ चौड़ाई 0.1 के डिब्बे के लिए, रेग्रेसोग्राम है, (बहुत ही सिरों को छोड़कर, जैसा कि मैंने पहले बताया):
यह मूल धारणा के साथ पूरी तरह से संगत है जो मेरे पास थी; यह साबित नहीं होता कि मेरा तर्क सही था, लेकिन मेरा निष्कर्ष उसी परिणाम पर आया, जो रेज्रोग्राम करता है।
अगर मैंने भूखंड में क्या देखा - और परिणामी तर्क - स्पष्ट था, तो मुझे शायद इस तरह पर सफल नहीं होना चाहिए था।
(कोशिश करने के लिए अगली बात एक नादायरा-वाटसन अनुमानक होगी। फिर मैं देख सकता हूं कि अगर मेरे पास समय हो तो यह कैसे फिर से शुरू हो सकता है।)
4) बाद में संपादित करें:
नादार्य-वाटसन, गाऊसी कर्नेल, बैंडविड्थ 0.15:
फिर, यह आश्चर्यजनक रूप से मेरे प्रारंभिक प्रभाव के अनुरूप है। यहां दस बूटस्ट्रैप के अवशेषों के आधार पर NW के अनुमानक हैं:
व्यापक पैटर्न वहाँ है, हालांकि कुछ अवशेषों के रूप में स्पष्ट रूप से पूरे डेटा के आधार पर विवरण का पालन नहीं करते हैं। हम देखते हैं कि बाएं के स्तर का मामला दाईं ओर से कम निश्चित है - शोर का स्तर (कुछ टिप्पणियों से आंशिक रूप से, व्यापक प्रसार से) ऐसा है कि यह दावा करना कम आसान है कि वास्तव में मतलब अधिक है केंद्र की तुलना में छोड़ दिया।
मेरी समग्र धारणा यह है कि मैं शायद खुद को बेवकूफ नहीं बना रहा था, क्योंकि विभिन्न पहलुओं को विभिन्न प्रकार की चुनौतियों (सहजता, परिवर्तन, उपसमूहों में विभाजित करना, फिर से खोलना) के लिए अच्छी तरह से खड़ा किया गया है, जो उन्हें बस शोर करने पर अस्पष्ट करना चाहते हैं। दूसरी ओर, संकेत हैं कि प्रभाव, जबकि मेरी प्रारंभिक धारणा के अनुरूप है, अपेक्षाकृत कमजोर हैं, और यह बहुत अधिक हो सकता है कि यह उम्मीद है कि बाईं ओर से केंद्र की ओर बढ़ने वाली किसी भी वास्तविक परिवर्तन का दावा किया जाए।
ठीक है दोस्तों, मैंने एलेक्सिस की अगुवाई की और डेटा पर कब्जा कर लिया। यहाँ बनाम का प्लॉट दिया गया है ।x
और सहसंबंध:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
सहसंबंध परीक्षण एक संभावित नकारात्मक निर्भरता का संकेत देता है। मैं किसी भी जैवविविधता (लेकिन यह भी अनुपस्थित है कि यह अनुपस्थित है) से असंबद्ध रहता हूं।
[मैंने पहले वाले संस्करण में एक अवशिष्ट साजिश को हटा दिया था क्योंकि मैंने उस बिंदु को अनदेखा कर दिया था जो @whuber भविष्यवाणी करने की कोशिश कर रहा था ।]
रेज़ लेन्थ ने सोचा कि यदि वाई अक्ष लघुगणकीय है तो ग्राफ कैसा दिखेगा। एलेक्सिस ने डेटा को स्क्रैप किया, इसलिए लॉग एक्सिस के साथ प्लॉट करना आसान है:
लॉग स्केल पर, जैव-विविधता या प्रवृत्ति का कोई संकेत नहीं है। एक लॉग स्केल समझ में आता है या नहीं, इस बात पर निर्भर करता है कि डेटा किस चीज़ का प्रतिनिधित्व करता है। इसी तरह, क्या यह सोचने के लिए समझ में आता है कि डेटा दो आबादी से नमूने का प्रतिनिधित्व करता है जैसा कि व्हीबर सुझाव विवरण पर निर्भर करता है।
परिशिष्ट: नीचे दी गई टिप्पणियों के आधार पर, यहाँ एक संशोधित संस्करण है:
ठीक है, आप सही हैं, संबंध कमजोर है, लेकिन शून्य नहीं है। मैं सकारात्मक अनुमान लगाऊंगा। हालाँकि, अनुमान मत लगाओ, बस एक साधारण रैखिक प्रतिगमन (OLS प्रतिगमन) चलाओ और पता करो! वहां आपको xxx की एक ढलान मिलेगी जो आपको बताती है कि संबंध क्या है। और हां, आपके पास आउटलेयर हैं जो परिणामों को पूर्वाग्रहित कर सकते हैं। इससे निपटा जा सकता है। आप रिश्ते पर बाहरी प्रभाव का अनुमान लगाने के लिए कुक की दूरी का उपयोग कर सकते हैं या लीवरेज प्लॉट बना सकते हैं।
सौभाग्य
आपने पहले से ही एक्स / वाई डेटा बिंदुओं के अभिविन्यास और उनके फैलाव को देखकर अपने प्रश्न को कुछ अंतर्ज्ञान प्रदान किया था। संक्षेप में आप सही हैं।
औपचारिक शब्दों में अभिविन्यास को सहसंबंध संकेत और विचरण के रूप में फैलाव कहा जा सकता है । ये दो लिंक आपको दो चर के बीच रैखिक संबंध की व्याख्या करने के बारे में अधिक जानकारी देंगे ।
यह एक घर का काम है। तो, आपके प्रश्न का उत्तर सरल है। X पर Y का रैखिक प्रतिगमन चलाएँ, आपको कुछ इस तरह मिलेगा:
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
तो, 99% आत्मविश्वास पर एक्स चर पर टी-आँकड़े महत्वपूर्ण हैं। इसलिए, आप चर को किसी प्रकार का संबंध घोषित कर सकते हैं।
क्या यह रैखिक है? एक चर X2 = (X-mean (X)) ^ 2 जोड़ें, और फिर से पुनः प्राप्त करें।
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
X पर गुणांक अभी भी महत्वपूर्ण है, लेकिन X2 नहीं है। X2 गैर-शुद्धता का प्रतिनिधित्व करता है। तो, आप घोषणा करते हैं कि ते संबंध रैखिक प्रतीत होता है।
ऊपर एक घर के काम के लिए था।
वास्तविक जीवन में, चीजें अधिक जटिल हैं। कल्पना कीजिए, यह छात्रों के एक वर्ग का डेटा था। बेंच प्रेस पाउंड, एक्स - बेंच प्रेस से पहले किसी की सांस लेने के मिनटों में समय। मैं छात्रों के लिंग के लिए पूछना चाहता हूँ। बस इसके मज़े के लिए, चलो, एक और चर, Z जोड़ते हैं, और कहते हैं कि Z = 1 (लड़कियों) के लिए सभी Y <60, और Z = 0 (लड़के) जब Y> = 60। तीन चरों के साथ प्रतिगमन चलाएँ:
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
क्या हुआ?! एक्स और वाई के बीच "संबंध" गायब हो गया है! ओह, ऐसा लगता है कि इस संबंध में परिवर्तनशील , लिंग के कारण संबंध सहज थे ।
कहानी से क्या शिक्षा मिलती है? आपको यह जानना होगा कि "संबंध" को "समझाने" के लिए या यहां तक कि इसे पहली बार में स्थापित करने के लिए क्या डेटा है। इस मामले में, जिस क्षण मुझे बताया गया है कि छात्रों की शारीरिक गतिविधि का डेटा, मैं तुरंत उनके लिंग के बारे में पूछूँगा, और लिंग के परिवर्तन के बिना डेटा का विश्लेषण करने की जहमत भी नहीं उठाऊँगा।
दूसरी ओर, यदि आपसे स्कैटर प्लॉट का "वर्णन" करने के लिए कहा जाता है, तो कुछ भी हो जाता है। सहसंबंध, रैखिक फिट आदि। अपने घरेलू काम के लिए, पहले दो चरण पर्याप्त होने चाहिए: एक्स (संबंध) के गुणांक को देखें, फिर एक्स ^ 2 (रैखिकता)। सुनिश्चित करें कि आप एक्स चर का अर्थ करते हैं (मतलब घटाएं)।