प्रोफेसर (प्रतिगमन युद्धपोट) से एक प्रतिगमन मॉडल को छिपाना [बंद]

11

बंद हो गया । इस प्रश्न के विवरण या स्पष्टता की आवश्यकता है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है।

इस प्रश्न को सुधारना चाहते हैं? विवरण जोड़ें और इस पोस्ट को संपादित करके समस्या को स्पष्ट करें ।

2 साल पहले बंद हुआ ।

मैं एक होमवर्क असाइनमेंट पर काम कर रहा हूं, जहां मेरे प्रोफेसर हमें एक सच्चा प्रतिगमन मॉडल बनाना चाहते हैं, डेटा के एक नमूने का अनुकरण करते हैं और वह हमारे द्वारा कक्षा में सीखी गई कुछ तकनीकों का उपयोग करके हमारे वास्तविक प्रतिगमन मॉडल को खोजने का प्रयास करने जा रहे हैं। हम इसी तरह एक डेटासेट के साथ वही करेंगे जो उसने हमें दिया है।

वह कहता है कि वह पिछले सभी प्रयासों के लिए एक सटीक मॉडल का निर्माण करने में सक्षम है और उसे धोखा देने की कोशिश कर रहा है। कुछ छात्र ऐसे रहे हैं जो कुछ पागल मॉडल बनाते हैं लेकिन वह यकीनन एक सरल मॉडल का निर्माण करने में सक्षम थे जो सिर्फ पर्याप्त था।

मैं उसे खोजने के लिए एक मुश्किल मॉडल विकसित करने के बारे में कैसे जा सकता हूं? मैं 4 चतुर्भुज शब्द, 3 टिप्पणियों और बड़े पैमाने पर विचरण करके सुपर सस्ता नहीं होना चाहता? मैं एक सहज रूप से सहज डेटासेट कैसे बना सकता हूं, जिसके नीचे एक कठिन मॉडल है?

उसके पास अनुसरण करने के लिए बस 3 नियम हैं:

आपके डेटासेट में एक "Y" चर और 20 "X" चर "Y", "X1", ..., "X20" के रूप में होना चाहिए।
आपकी प्रतिक्रिया चर को एक रेखीय प्रतिगमन मॉडल से आना चाहिए जो संतुष्ट करता है: जहां और । $Y$

$Y_{i}^{'} = β_{0} + β_{1} X_{i 1}^{'} + \dots + β_{p - 1} X_{i, p - 1}^{'} + ϵ_{i}$ $Y_i^\prime = \beta_0 + \beta_1 X_{i1}^\prime + \ldots + \beta_{p-1}X_{i,p-1}^\prime + \epsilon_i$ $\epsilon_i \sim N(0,\sigma^2)$ $p \leq 21$
सभी Variables जो बनाने के लिए उपयोग किए गए थे वे आपके डेटासेट में समाहित हैं। $X$ $Y$

यह ध्यान दिया जाना चाहिए, सभी 20 एक्स चर को आपके वास्तविक मॉडल में होने की आवश्यकता नहीं है

मैं फामा-फ्रेंच 3 फैक्टर मॉडल जैसी किसी चीज का उपयोग करने के बारे में सोच रहा था और उसे स्टॉक डेटा (एसपीएक्स और एएपीएल) के साथ शुरू कर रहा हूं और इसे थोड़ा और अस्पष्ट करने के लिए उन चरों को लगातार जटिल रिटर्न में बदलना है। लेकिन जो मुझे पहले अवलोकन में लापता मूल्यों के साथ छोड़ देता है और यह समय श्रृंखला है (जिसकी चर्चा हमने अभी तक कक्षा में नहीं की है)।

अगर यह इस तरह से कुछ पोस्ट करने के लिए उचित जगह है तो अनसिक्योर करें। मुझे लगा कि यह कुछ अच्छी चर्चा पैदा कर सकता है।

संपादित करें: मैं विशेष रूप से "पूर्व-निर्मित" मॉडल के लिए नहीं कह रहा हूं। मैं सांख्यिकी में विषयों / उपकरणों के बारे में अधिक उत्सुक हूं जो किसी को इस बारे में जाने में सक्षम करेगा।

— dylanjm
स्रोत

4

अगर वह आपको एक लीनियर मॉडल तक सीमित कर रहा है तो मुश्किल हो रहा है ...

— फ्रैंक एच।

4

यदि आपका प्रोफेसर जीतता है यदि आपके सच्चे गुणांक 95% विश्वास अंतराल के अंदर हैं, तो मल्टीकोलिनरिटी मदद नहीं करेगा, क्योंकि मल्टीकोलिनियरिटी सीआईएस को बहुत बढ़ा देता है। यदि, दूसरी ओर, मूल्यांकन नए भविष्यवक्ताओं पर अनुमानित और वास्तविक डेटा के बीच के अंतर पर किया जाता है ("वास्तविक" डेटा आपके सच्चे DGP का उपयोग करके उत्पन्न किया गया है), तो बहुरूपता बहुत बेहतर दृष्टिकोण होगा। नीचे पंक्ति: पता लगाएँ कि लक्ष्य फ़ंक्शन क्या है और इसके लिए अपना दृष्टिकोण दर्जी करें। (यह जीवन में आम तौर पर अधिक लागू होता है ...)

— स्टीफन कोलासा

4

@dylanjm क्या आप अपनी जीत की परिस्थितियों को ठीक से परिभाषित कर सकते हैं?

— मैथ्यू गन

11

इस तरह की कवायद की बात यह है कि आप खुद कुछ सोचने की कोशिश करके सीखें । यदि आप उसके खिलाफ यहां विशेषज्ञों को गड्ढे में डालते हैं, तो प्रतिगमन के संबंध में आपके द्वारा दी गई जानकारी के विभिन्न टुकड़ों को समेकित करके आपके मस्तिष्क को वास्तव में फैलाने का अवसर नाटकीय रूप से कम हो जाता है (साथ ही साथ प्रोफेसर के साथ अन्याय हो रहा है)। इसके अलावा, किसी भी प्रतिष्ठित संस्थान में जब वह किसी अन्य व्यक्ति द्वारा आंशिक रूप से किया जाता है, तो उसके पास काम करना आपके लिए अकादमिक कदाचार और धोखाधड़ी के बीच कहीं हो सकता है (यदि यह आपके चिह्न के किसी हिस्से के लायक है)। आप इसे कैसे पूछते हैं, इसके बारे में बहुत सावधान रहें।

— Glen_b -Reinstate मोनिका

4

इस प्रश्न की लोकप्रियता के बावजूद, मैं इसे इस बिंदु पर बंद करने के लिए बाध्य महसूस करता हूं क्योंकि खेल के नियमों के बारे में स्पष्टीकरण के लिए बार-बार अनुरोध करने के बाद भी (सफलता का मूल्यांकन करने के लिए किन मानदंडों का उपयोग किया जाएगा, आपको कितने नमूनों की आपूर्ति करनी चाहिए) जानकारी अभी भी प्रश्न में प्रकट नहीं हुई है। हमारे उद्देश्य "चर्चा उत्पन्न करें" की तुलना में अधिक संकीर्ण और अधिक केंद्रित हैं: कृपया इस साइट पर हमारे द्वारा पूछे जाने वाले प्रश्नों के प्रकारों के लिए हमारे सहायता केंद्र से परामर्श करें।

— whuber

6

बस समझाया गया भाग की तुलना में त्रुटि शब्द बहुत बड़ा है। उदाहरण के लिए: , जहां , और । बेशक, आपको यह याद रखना होगा कि आपका बीज क्या था, ताकि आप अपने प्रोफेसर को साबित कर सकें कि आप सही थे और वह गलत था। $y_i=X_{i1}+\epsilon_i$ $X_{ij}=\sin(i+j)$ $i=1..1000$ $\sigma=1000000$

सौभाग्य इस शोर / संकेत अनुपात के साथ चरण की पहचान करना।

— Aksakal
स्रोत

यह सीआई की जीत की कसौटी पर काम नहीं करता है, क्या ऐसा होता है? हम बस विशाल सीआई प्राप्त करेंगे जो निश्चित रूप से 1 को कवर करेंगे। और निश्चित रूप से कुछ संख्यात्मक अस्थिरता।

— स्टीफन कोलासा

अस्थिरता कोई मुद्दा नहीं होगा, मैं जो कर रहा हूं वह शोर में संकेत को दफन कर रहा है। यह शुद्ध सफेद शोर के रूप में सामने आएगा।

— अक्कल A ’

4

यह ओपी

— सेक्स्टस एम्पिरिकस

5

अपने लक्ष्य है, तो सच डेटा पैदा करने की प्रक्रिया को ठीक है कि बनाता है , अपने प्रोफेसर बेवकूफ बनाना काफी तुच्छ है। आपको एक उदाहरण देने के लिए, गड़बड़ी और निम्नलिखित संरचनात्मक समीकरणों पर विचार करें: $Y$ $\epsilon_i\sim N(0,1)$

X_{1} = ϵ_{1} + ϵ_{0} X_{2} = ϵ_{1} + ϵ_{2} y = X_{1} + ϵ_{2}

$X_1 = \epsilon_1 + \epsilon_0\\ X_2 =\epsilon_1 + \epsilon_2\\ y = X_1 + \epsilon_2$

के सही DGP पर ध्यान दें , जिसमें केवल शामिल है , तुच्छ रूप से संतुष्ट स्थिति 2. शर्त 3 भी संतुष्ट है, क्योंकि बनाने के लिए एकमात्र चर है और आप और प्रदान कर रहे हैं । $Y$ $X_1$ $X_1$ $Y$ $X_1$ $X_2$

फिर भी, कोई रास्ता नहीं अपने प्रोफेसर बताती हैं कि वह केवल शामिल होना चाहिए कर सकते हैं केवल या और का असली पुलिस महानिदेशक ठीक करने के लिए (यदि आप इस उदाहरण का उपयोग करते हुए अंत में, चर की संख्या में परिवर्तन)। सबसे अधिक संभावना है, वह आपको सभी चर के साथ प्रतिगमन के जवाब के रूप में देगा, क्योंकि वे सभी महत्वपूर्ण भविष्यवाणियों के रूप में दिखाई देंगे। आप इसे 20 चर तक बढ़ा सकते हैं यदि आप चाहते हैं, तो आप इस उत्तर को और सिम्पसन के विरोधाभास मशीन को यहां जांचना चाहते हैं। $X_1$ $X_2$ $X_1$ $X_2$ $Y$

सभी सशर्त उम्मीदों नोट , या सही ढंग से निर्दिष्ट कर रहे हैं सशर्त उम्मीदों, लेकिन केवल का असली पुलिस महानिदेशक को दर्शाता है । इस प्रकार, आपके प्रोफेसर द्वारा कार्य को अनिवार्य रूप से विफल करने के बाद, वह तर्क दे सकता है कि उसका लक्ष्य बस किसी भी सशर्त अपेक्षा को पुनर्प्राप्त करना था, या आदि का सर्वोत्तम पूर्वानुमान प्राप्त करने के लिए आप यह तर्क दे सकते हैं कि उसने ऐसा नहीं कहा था, क्योंकि वह कहता है : $E[Y|X_1]$ $E[Y|X_2]$ $E[Y|X_1, X_2]$ $E[Y|X_1]$ $Y$ $Y$

वेरिएबल Y को एक लीनियर रिग्रेशन मॉडल से आना चाहिए जो संतोषजनक (...) वैरिएबल है जिसका उपयोग Y (...) आपके असली मॉडल ( ) बनाने के लिए किया गया था।

और आप कार्य-कारण के बारे में कक्षा में अच्छी चर्चा कर सकते हैं, जो सामान्य डीजीपी का मतलब है और सामान्य रूप से पहचान है।

— कार्लोस सिनेली
स्रोत

आप एक मॉडल का प्रस्ताव कर रहे हैं जो पोस्ट में # 2 के साथ अनुपालन कर रहा है

— अक्सकल

3

मल्टीकोलिनरिटी और विषमलैंगिकता जैसे आय बनाम उम्र के साथ चर का उपयोग करें: कुछ दर्दनाक फीचर इंजीनियरिंग करें जो स्केलिंग की समस्या प्रदान करता है: स्पार्सिटी में छिड़के हुए कुछ के लिए NA दें। रैखिकता का टुकड़ा वास्तव में इसे और अधिक चुनौतीपूर्ण बनाता है लेकिन इसे दर्दनाक बनाया जा सकता है। इसके अलावा, बाहरी लोग उसके लिए समस्या को बढ़ा सकते हैं।

— डेविड
स्रोत

मुझे लगता है कि विषमलैंगिकता समस्या के दायरे से बाहर है, लेकिन निश्चित रूप से सहमत बहुसंस्कृति सही विनिर्देश को खोजने के लिए कठिन बनाने के सर्वोत्तम तरीकों में से एक है।

— JDL

2

क्या बातचीत की शर्तों की अनुमति है? यदि ऐसा है, तो सभी निचले क्रम गुणांकों को 0 पर सेट करें और पूरे मॉडल को N-th ऑर्डर इंटरैक्शन (उदाहरण के लिए ) से । 20 रजिस्टरों के लिए संभावित इंटरैक्शन की संख्या खगोलीय रूप से बड़ी है और आपके द्वारा शामिल किए गए लोगों को ढूंढना बहुत मुश्किल होगा। $X_5X_8X_{12}X_{13}$

— रूबेन वैन बर्गन
स्रोत

0

कोई भी रैखिक मॉडल चुनें। उसे एक डेटा सेट दें जहां अधिकांश नमूने x = 0 के आसपास हों। उसे x = 1,000,000 के आसपास कुछ नमूने दें।

यहाँ अच्छी बात यह है कि x = 1,000,000 के आसपास के नमूने आउटलेर नहीं हैं। वे एक ही स्रोत से उत्पन्न होते हैं। हालांकि, चूंकि तराजू इतने अलग हैं, 1M के आसपास की त्रुटियाँ 0 के आसपास की त्रुटियों के साथ फिट नहीं होंगी।

Y_{i}^{'} = β_{0} + β_{1} X_{i 1}^{'} + ϵ_{i}

$Y_i^\prime = \beta_0 +\beta_1 X_{i1}^\prime + \epsilon_i$

हमारे पास x = 0 के पास, n नमूनों का डेटा सेट है। हम "अधिक पर्याप्त" मानों में 2 और अंक चुनेंगे। हम मानते हैं कि इन दोनों बिंदुओं में कुछ त्रुटि है।

एक "अभी तक पर्याप्त" मूल्य एक ऐसा मूल्य है जो एक अनुमान के लिए त्रुटि इन दो बिंदुओं में सीधे पास नहीं होती है, बाकी डेटासेट की त्रुटि की तुलना में बहुत बड़ा है।

इसलिए, रैखिक प्रतिगमन गुणांक का चयन करेगा जो इन दो बिंदुओं में पास होगा और शेष डेटासेट को याद करेगा और रेखांकित मॉडल से अलग होगा।

निम्न उदाहरण देखें। {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

यह वुल्फार्मअल्फा श्रृंखला प्रारूप में है। प्रत्येक जोड़ी में पहला आइटम x है और दूसरा सूत्र = A2 + NORMINV (RAND), 0,2000) का उपयोग करके Excel में उत्पन्न किया गया था।

$\beta_0=1, \beta_1=1$

$y= 178433. x - 426805$ $y=x$

— दल
स्रोत

यह वास्तव में कैसे काम करना चाहिए और इसका क्या प्रभाव पैदा करना चाहिए?

— रिचर्ड हार्डी

यह काम करता है क्योंकि शोर और परिशुद्धता अलग-अलग पैमानों में अलग-अलग काम करेंगे। उच्च संख्या में, चरम पर ले जाने और एक बिंदु पर विचार करने के लिए, लाइन को सीधे इसके माध्यम से जाना चाहिए या बहुत अधिक लागत से पीड़ित होना चाहिए। सही मूल्यों को याद करने के लिए कुछ शोर पर्याप्त है। शून्य के आसपास, फिर से चरम में - कोई पूर्णांक नहीं, आपको शोर के साथ छोड़ दिया जाता है।

— 7

गलत गुणांक वाले चर के लिए एक छोटे मूल्य का उपयोग करें और आप लागत का भुगतान कर रहे हैं।

— DaL

हां, लेकिन प्रोफेसर के लिए ऐसा मॉडल तैयार करना कठिन क्यों होगा? यह एक विशेष रूप से आसान काम की तरह दिखता है जब दिए गए regressor में बहुत भिन्नता है।

— रिचर्ड हार्डी

क्योंकि कोई भी मॉडल अच्छी तरह से दोनों समूहों में फिट नहीं होगा।

— 7