क्यों कुछ लोग अपने कच्चे डेटा पर प्रतिगमन जैसी मॉडल मान्यताओं का परीक्षण करते हैं और अन्य लोग अवशिष्ट पर उनका परीक्षण करते हैं?


12

मैं प्रयोगात्मक मनोविज्ञान में एक पीएचडी छात्र हूं और मैं अपने कौशल और ज्ञान को बेहतर बनाने के लिए कड़ी मेहनत करता हूं कि मुझे अपने डेटा का विश्लेषण कैसे करना है।

मनोविज्ञान में मेरे 5 वें वर्ष तक, मैंने सोचा कि प्रतिगमन-जैसे मॉडल (जैसे, एनोवा) निम्नलिखित बातों को मानते हैं:

  • डेटा की सामान्यता
  • डेटा और इतने पर के लिए प्रसरण समरूपता

मेरे स्नातक पाठ्यक्रमों ने मुझे विश्वास दिलाया कि डेटा के बारे में धारणाएँ थीं। हालाँकि मेरे 5 वें वर्ष में, मेरे कुछ प्रशिक्षकों ने इस तथ्य को रेखांकित किया कि धारणाएँ अवशिष्ट (अवशिष्ट द्वारा अनुमानित) के बारे में हैं, न कि कच्चे आंकड़ों से।

हाल ही में मैं अपने कुछ सहयोगियों के साथ मान्यताओं के बारे में बात कर रहा था जिन्होंने यह भी स्वीकार किया कि उन्होंने विश्वविद्यालय के अपने अंतिम वर्षों में केवल अवशिष्ट पर मान्यताओं की जाँच के महत्व की खोज की।

अगर मैं अच्छी तरह से समझता हूं, तो प्रतिगमन जैसे मॉडल त्रुटि पर धारणा बनाते हैं। इस प्रकार यह अवशिष्टों पर मान्यताओं की जांच करने के लिए समझ में आता है। यदि हां, तो कुछ लोग कच्चे डेटा पर मान्यताओं की जांच क्यों करते हैं? क्या ऐसा इसलिए है क्योंकि इस तरह की जाँच प्रक्रिया अनुमानित है कि हम अवशिष्ट की जाँच करके क्या प्राप्त करेंगे?

मैं कुछ लोगों के साथ इस मुद्दे के बारे में एक विवाद में बहुत हस्तक्षेप करूंगा, जिन्हें मेरे सहयोगियों की तुलना में अधिक सटीक ज्ञान है और मैं आपके उत्तर के लिए अग्रिम धन्यवाद देता हूं।

जवाबों:


13

मूल रूप से, आप सही रास्ते पर हैं। आपको आश्रित चर की सामान्यता = अवशिष्टों की सामान्यता में सामान्यता के पहलू के बारे में चर्चा मिलेगी ?

क्लासिक लीनियर मॉडल की कुछ धारणाएं वास्तव में त्रुटियों के बारे में हैं (इनके अवशेषों के रूप में अवशिष्टों का उपयोग करके):

  • क्या वे असंबद्ध हैं? (ओएलएस-आकलनकर्ताओं की अनुमान और अनुकूलता के लिए प्रासंगिक)
  • क्या उनके पास समान रूपांतर है? (ओएलएस-आकलनकर्ताओं की अनुमान और अनुकूलता के लिए प्रासंगिक)
  • क्या वे 0 के आसपास केंद्रित हैं? (निष्पक्ष अनुमान और भविष्यवाणियां पाने के लिए महत्वपूर्ण धारणा)
  • यदि नमूना बहुत छोटा है: क्या वे सामान्य या कम से कम सममित रूप से वितरित हैं? (अनुमान के लिए प्रासंगिक)

अन्य शर्तें "कच्चे डेटा" के बारे में हैं:

  • क्या रजिस्टरों में कोई सकल आउटलेयर नहीं है? (उच्च उत्तोलन अवलोकन पूरे मॉडल को नष्ट कर सकते हैं)
  • कोई आदर्श बहुसंख्या नहीं? (कम्प्यूटेशनल समस्याओं का कारण होगा, कम से कम कुछ सॉफ्टवेयर पैकेजों में)

अब, आपका अंडरग्रेजुएट शिक्षक सही हो सकता है:

  • हो सकता है कि आप वन-सैंपल टी-टेस्ट जैसे यूनीवेट टेस्ट पर ध्यान दे रहे थे। वहाँ, मान्यताओं कच्चे डेटा के बारे में हैं।
  • आर2
  • कच्चे आंकड़ों के आधार पर आप होमोसैसिडिटी आदि की जांच कैसे करेंगे? हो सकता है आपने उसे गलत समझा हो।

ठीक है, आपके उत्तर के लिए और लिंक के लिए बहुत बहुत धन्यवाद जो बहुत उपयोगी है। मेरे कुछ सहयोगियों और मैंने हाल ही में माना कि कच्चे डेटा में समान रूप से भिन्न संस्करण होने चाहिए। जैसा कि आपने कहा कि हम अपने पाठ्यक्रमों में कुछ याद कर सकते हैं। कुछ किताबों में हम निम्नलिखित पढ़ सकते हैं:
मनोक्वाक

"अधिकांश सामान्य सांख्यिकीय प्रक्रियाएं दो धारणाएं बनाती हैं जो इस विषय के लिए प्रासंगिक हैं: (ए) एक धारणा है कि चर (या उनकी त्रुटि की शर्तें, अधिक तकनीकी रूप से) सामान्य रूप से वितरित की जाती हैं, और (बी) भिन्नता (समरूपता या समरूपता) की समानता की धारणा भिन्नता), जिसका अर्थ है कि चर का अंतर किसी अन्य चर की देखी गई सीमा पर स्थिर रहता है। " क्या इसका मतलब यह है कि जब कोई "चर" के बारे में बात करता है तो वह व्यवस्थित रूप से "अपनी त्रुटि शर्तों" के बारे में बात करता है? यदि ऐसा है तो मैं इसके साथ ठीक हूं लेकिन स्पष्ट उल्लेख के बिना यह स्पष्ट (कम से कम मेरे लिए) से बहुत दूर है।
साइकोवॉक

अंत में, मेरे पास आपके उत्तरों के बारे में एक अंतिम प्रश्न है। यदि टी-टेस्ट और एनोवा प्रतिगमन के विशेष मामले हैं, तो एक-नमूना टी-टेस्ट में डेटा के बारे में धारणाएं क्यों हैं? आपके उपयोगी उत्तर के लिए फिर से धन्यवाद।
साइकोवॉक

1
आपकी अंतिम टिप्पणी का उत्तर देने के लिए: एक-नमूना टी-परीक्षण को प्रतिगमन के विशेष मामले के रूप में भी देखा जा सकता है। मॉडल में केवल अवरोधन (= माध्य) और त्रुटि शब्द होते हैं, अर्थात प्रतिक्रिया एक स्थानांतरित त्रुटि है। चूंकि बदलाव किसी भी धारणा के लिए अप्रासंगिक हैं, इसलिए यह डेटा या अवशिष्ट के बारे में बात करने के बराबर है।
माइकल एम

4

मुझे अवशिष्ट और कच्चे डेटा के बीच अंतर का पता चलता है क्योंकि दोनों आपके वास्तविक नमूने के लिए अधिक संदर्भित हैं न कि अंतर्निहित जनसंख्या वितरण के लिए। कुछ आवश्यकताओं को "समूह की आवश्यकताओं" और अन्य को "समूह मान्यताओं के बीच" के रूप में समझना बेहतर है।

उदाहरण के लिए, प्रसरण समरूपता एक "बीच-समूह की धारणा" है क्योंकि यह कहती है कि समूह विचरण के भीतर सभी समूहों के लिए समान है।

सामान्यता एक "समूह के भीतर" धारणा है जिसके लिए आवश्यक है कि प्रत्येक समूह y के भीतर सामान्य रूप से वितरित किया जाए।

ध्यान दें कि आमतौर पर आपके पूरे कच्चे y पर सामान्यता का मतलब है कि आपके पास कोई प्रभाव नहीं है - लिंग के वितरण को महिलाओं और पुरुषों के बीच अंतर किए बिना देखें। लिंग के मजबूत होने के कारण इसे सामान्य रूप से वितरित नहीं किया जाएगा। लेकिन प्रत्येक लिंग के भीतर यह काफी अच्छी तरह से होता है।


1
आपके उत्तर के लिए भी धन्यवाद। यह प्रश्न देखने का एक दिलचस्प तरीका है। मैंने कभी भी इस तरह की सामान्यता के बारे में नहीं सोचा था (यानी, "[कि] पूरी कच्ची y पर सामान्यता होने का मतलब है [हम] का कोई प्रभाव नहीं है")।
साइकोवॉक
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.