प्रभावशाली अवशिष्ट बनाम बाहरी


11

पहले, मुझे यह बताना चाहिए कि मैंने उत्तर के लिए इस साइट पर खोज की है। मुझे या तो ऐसा प्रश्न नहीं मिला जिसने मेरे प्रश्न का उत्तर दिया हो या मेरे ज्ञान का स्तर इतना कम हो कि मुझे एहसास ही नहीं हुआ कि मैंने पहले ही उत्तर पढ़ लिया है।

मैं एपी सांख्यिकी परीक्षा के लिए अध्ययन कर रहा हूं। मुझे रैखिक प्रतिगमन सीखना है और विषयों में से एक अवशिष्ट है। मेरे पास पृष्ठ 253 पर सांख्यिकी और डेटा विश्लेषण के परिचय की एक प्रति है।

द्विभाजित डेटा सेट में असामान्य बिंदु वे होते हैं जो दिशा या वाई दिशा में स्कैप्लेटोट के अधिकांश अन्य बिंदुओं से दूर हो जाते हैंxy

एक अवलोकन संभावित रूप से एक प्रभावशाली अवलोकन है यदि इसमें एक मान है जो बाकी डेटा ( एक्स दिशा में बाकी डेटा से अलग) से बहुत दूर है । यह निर्धारित करने के लिए कि क्या अवलोकन वास्तव में प्रभावशाली है, हम आकलन करते हैं कि क्या इस अवलोकन को हटाने से ढलान के मूल्य या कम से कम वर्ग रेखा के अवरोधन पर बड़ा प्रभाव पड़ता है।xx

अगर यह एक बड़ा अवशिष्ट है, तो एक अवलोकन एक बाहरी है । बाह्य रूप से अवलोकन दिशा में सबसे कम-वर्ग रेखा से बहुत दूर पड़ता है ।y

Stattreck.com चार तरीकों को बताता है जो अवशिष्ट से एक बाहरी रूपरेखा निर्धारित करता है:

डेटा बिंदु जो समग्र पैटर्न से बड़े पैमाने पर विचलन करते हैं, आउटलेयर कहलाते हैं। वहाँ चार तरीके हैं कि एक डेटा बिंदु एक बाहरी माना जा सकता है।

  1. यह अन्य डेटा बिंदुओं की तुलना में एक एक्स एक्स मूल्य हो सकता है।
  2. अन्य डेटा बिंदुओं की तुलना में इसका चरम Y मान हो सकता है।
  3. इसमें अत्यधिक X और Y मान हो सकते हैं।
  4. यह चरम एक्स या वाई मूल्यों के बिना भी, बाकी डेटा से दूर हो सकता है।

ये दोनों स्रोत एक-दूसरे से टकराते दिख रहे हैं। किसी को भी मेरी उलझन को दूर करने में मदद कर सकता है। इसके अलावा, कैसे एक चरम को परिभाषित करता है। एपी सांख्यिकी नियम का उपयोग करती है यदि डेटा बिंदु (Q1-1.5IQR, Q3 + 1.5IQR) के बाहर है, तो यह एक बाहरी है। मैं नहीं जानता कि कैसे लागू करने के लिए बस एक ग्राफ से अवशिष्ट।

जवाबों:


5

स्टट्रेक साइट पर आपकी पाठ्यपुस्तक की तुलना में आउटलेर्स और प्रभावशाली बिंदुओं का अधिक बेहतर वर्णन है लेकिन आपने केवल एक छोटा रास्ता उद्धृत किया है जो भ्रामक हो सकता है। मेरे पास वह विशेष पुस्तक नहीं है इसलिए मैं इसे संदर्भ में जांच नहीं कर सकता। हालांकि, ध्यान रखें कि आपके द्वारा उद्धृत पाठ्यपुस्तक मार्ग "संभावित" है। यह अनन्य भी नहीं है। उन बिंदुओं को ध्यान में रखते हुए, स्टट्रेक और आपकी पुस्तक जरूरी असहमत नहीं हैं। लेकिन यह प्रतीत होता है कि आपकी पुस्तक इस अर्थ में भ्रामक है कि इसका अर्थ (इस छोटे से मार्ग से) है कि आउटलेयर और प्रभावशाली बिंदुओं के बीच एकमात्र अंतर यह है कि क्या वे x या y अक्ष पर विचलन करते हैं। यह गलत है।

आउटलेर्स के लिए "नियम" संदर्भ के आधार पर भिन्न होता है। आपके द्वारा उद्धृत नियम केवल अंगूठे का नियम है और हां, वास्तव में प्रतिगमन के लिए डिज़ाइन नहीं किया गया है। इसका उपयोग करने के कुछ तरीके हैं। यदि आप प्रत्येक x पर कई y-मानों की कल्पना करते हैं और अवशिष्टों की जांच करते हैं, तो कल्पना करना आसान हो सकता है। विशिष्ट पाठ्यपुस्तक प्रतिगमन उदाहरण यह देखने के लिए बहुत सरल हैं कि यह नियम कैसे काम कर सकता है, और अधिकांश वास्तविक मामलों में यह काफी बेकार है। उम्मीद है, वास्तविक जीवन में, आप बहुत अधिक डेटा एकत्र करते हैं। यदि यह आवश्यक है कि आप आउटलेर के लिए क्वांटाइल नियम को एक प्रतिगमन समस्या के लिए लागू कर रहे हैं, तो उन्हें डेटा प्रदान करना चाहिए जिसके लिए यह उपयुक्त है।


उत्तर के लिए धन्यवाद, यह सिर्फ यह कष्टप्रद है कि विभिन्न पुस्तकें इन नियमों को वास्तव में ईमानदारी से कहे बिना बताए जाने की कोशिश करती हैं, जैसा कि आप कह रहे हैं, यह डेटा पर निर्भर करता है।
MaoYiyi

1
वास्तव में, मैंने इसे गलत भी कहा है ... यह सिद्धांत, विधि और डेटा ... संपूर्ण अध्ययन पर निर्भर करता है।
जॉन

5

X(XX)1X

प्रभाव आपकी पाठ्यपुस्तक के अनुसार, डिज़ाइन बिंदुओं (X मान) का एक कार्य है।

ध्यान दें कि प्रभाव शक्ति है। एक डिज़ाइन किए गए प्रयोग में, आप प्रभावशाली एक्स मान चाहते हैं, यह मानकर कि आप संबंधित Y मान को सही तरीके से माप सकते हैं। आप इस तरह से हिरन के लिए और अधिक धमाका करते हैं।

मेरे लिए, एक स्पष्ट रूप से एक गलती है - वह है, एक अवलोकन जो बाकी डेटा के समान मॉडल का पालन नहीं करता है। यह डेटा संग्रह त्रुटि के कारण हो सकता है, या क्योंकि यह विशेष विषय किसी तरह से असामान्य था।

मुझे कई कारणों से स्टट्रेक की एक रूपरेखा की परिभाषा पसंद नहीं है। प्रतिगमन वाई और एक्स में सममित नहीं है। वाई को एक यादृच्छिक चर के रूप में तैयार किया गया है और एक्स को निश्चित और ज्ञात माना जाता है। वाई में अजीबता एक्स की अजीबता के समान नहीं है। प्रभाव और बहिष्कार का मतलब अलग-अलग चीजें हैं। कई प्रतिगमन में प्रभाव, अवशिष्ट भूखंडों को देखकर नहीं पाया जाता है। एकल चर मामले के लिए आउटलेर और प्रभाव का एक अच्छा विवरण आपको कई मामलों को समझने के लिए सेट करना चाहिए।

मैं जॉन द्वारा दिए गए कारणों के लिए आपकी पाठ्यपुस्तक को और भी अधिक नापसंद करता हूं।

नीचे की रेखा, प्रभावशाली आउटलेयर खतरनाक हैं। उन्हें बारीकी से जांचने और निपटाए जाने की जरूरत है।


यदि आप एक पृष्ठभूमि से आते हैं, जहां सही प्रयोग आदर्श हैं, तो स्टैट्रैक रिग्रेशन स्पष्टीकरण के प्रति आपकी नापसंदगी उपयुक्त है। आपके कारण सभी वहां लागू होते हैं। लेकिन अगर आप एक ऐसी पृष्ठभूमि से आते हैं जहाँ अर्ध-प्रायोगिक डिज़ाइन अधिक सामान्य हैं, तो स्टट्रेक साइट की अधिक प्रासंगिकता है। उन मामलों में एक्स और वाई दोनों मूल्य अक्सर यादृच्छिक नमूने होते हैं।
जॉन

@ जॉन ए पी स्टैटिस्टिक्स परीक्षा पास करने की इच्छा के बारे में कैसे? अर्ध-प्रयोगात्मक डिजाइन क्या है? क्या वह सिमुलेशन के लिए एक यादृच्छिक संख्या तालिका का उपयोग कर रहा है?
मौइय्या

1
मैं एपी सांख्यिकी परीक्षा के बारे में कुछ नहीं जानता। सच्चे प्रयोग वे हैं जहाँ आप भविष्यवक्ता चर में हेरफेर करते हैं और कई परिकल्पना या नियंत्रण और प्रायोगिक समूहों का परीक्षण करने के लिए समूह बनाते हैं, आदि-प्रायोगिक डिज़ाइन बहुत कुछ और हैं जो एक प्रयोग की तरह दिखता है। तो, एक प्रतिगमन की कल्पना करें जहां x मान वजन है और y मान कुछ खेल कौशल है। आप या तो चर को हेरफेर नहीं करते हैं, आप बेतरतीब ढंग से दोनों का नमूना लेते हैं। इसलिए, स्टैट्रैक की प्लासिडिया की आलोचना सही प्रयोगों के लिए काफी मान्य है लेकिन अर्ध के लिए उतनी नहीं।
जॉन

@ जॉन ... मैं एक पृष्ठभूमि से आता हूं जहां डिज़ाइन किए गए प्रयोगों को सोने के मानक के रूप में देखा जाता है। व्यवहार में, मुझे पता है कि एक्स और वाई अक्सर दोनों यादृच्छिक नमूने होते हैं, जो यह सवाल पूछते हैं कि प्रतिगमन का उपयोग क्यों किया जा रहा है, और अव्यक्त चर विश्लेषण के कुछ रूप नहीं।
प्लासिडिया

जब आपको केवल दो चर मिले हों ... :) कभी-कभी आपके पास एक चीज का सुझाव देने के लिए अच्छा सिद्धांत होता है, उदाहरण के लिए, एनबीए में होने की संभावना, ऊंचाई और संभावना ... दोनों यादृच्छिक नमूने। एक के मामले में, या कुछ (विशेषकर असंबंधित) रैखिक संबंध प्रतिगमन अच्छा है।
जॉन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.