प्रोफेसर (प्रतिगमन युद्धपोट) से एक प्रतिगमन मॉडल को छिपाना [बंद]


11

मैं एक होमवर्क असाइनमेंट पर काम कर रहा हूं, जहां मेरे प्रोफेसर हमें एक सच्चा प्रतिगमन मॉडल बनाना चाहते हैं, डेटा के एक नमूने का अनुकरण करते हैं और वह हमारे द्वारा कक्षा में सीखी गई कुछ तकनीकों का उपयोग करके हमारे वास्तविक प्रतिगमन मॉडल को खोजने का प्रयास करने जा रहे हैं। हम इसी तरह एक डेटासेट के साथ वही करेंगे जो उसने हमें दिया है।

वह कहता है कि वह पिछले सभी प्रयासों के लिए एक सटीक मॉडल का निर्माण करने में सक्षम है और उसे धोखा देने की कोशिश कर रहा है। कुछ छात्र ऐसे रहे हैं जो कुछ पागल मॉडल बनाते हैं लेकिन वह यकीनन एक सरल मॉडल का निर्माण करने में सक्षम थे जो सिर्फ पर्याप्त था।

मैं उसे खोजने के लिए एक मुश्किल मॉडल विकसित करने के बारे में कैसे जा सकता हूं? मैं 4 चतुर्भुज शब्द, 3 टिप्पणियों और बड़े पैमाने पर विचरण करके सुपर सस्ता नहीं होना चाहता? मैं एक सहज रूप से सहज डेटासेट कैसे बना सकता हूं, जिसके नीचे एक कठिन मॉडल है?

उसके पास अनुसरण करने के लिए बस 3 नियम हैं:

  1. आपके डेटासेट में एक "Y" चर और 20 "X" चर "Y", "X1", ..., "X20" के रूप में होना चाहिए।

  2. आपकी प्रतिक्रिया चर को एक रेखीय प्रतिगमन मॉडल से आना चाहिए जो संतुष्ट करता है: जहां और ।Y
    ε मैं ~ एन ( 0 , σ 2 ) पी 21

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. सभी Variables जो बनाने के लिए उपयोग किए गए थे वे आपके डेटासेट में समाहित हैं।वाईXY

यह ध्यान दिया जाना चाहिए, सभी 20 एक्स चर को आपके वास्तविक मॉडल में होने की आवश्यकता नहीं है

मैं फामा-फ्रेंच 3 फैक्टर मॉडल जैसी किसी चीज का उपयोग करने के बारे में सोच रहा था और उसे स्टॉक डेटा (एसपीएक्स और एएपीएल) के साथ शुरू कर रहा हूं और इसे थोड़ा और अस्पष्ट करने के लिए उन चरों को लगातार जटिल रिटर्न में बदलना है। लेकिन जो मुझे पहले अवलोकन में लापता मूल्यों के साथ छोड़ देता है और यह समय श्रृंखला है (जिसकी चर्चा हमने अभी तक कक्षा में नहीं की है)।

अगर यह इस तरह से कुछ पोस्ट करने के लिए उचित जगह है तो अनसिक्योर करें। मुझे लगा कि यह कुछ अच्छी चर्चा पैदा कर सकता है।

संपादित करें: मैं विशेष रूप से "पूर्व-निर्मित" मॉडल के लिए नहीं कह रहा हूं। मैं सांख्यिकी में विषयों / उपकरणों के बारे में अधिक उत्सुक हूं जो किसी को इस बारे में जाने में सक्षम करेगा।


4
अगर वह आपको एक लीनियर मॉडल तक सीमित कर रहा है तो मुश्किल हो रहा है ...
फ्रैंक एच।

4
यदि आपका प्रोफेसर जीतता है यदि आपके सच्चे गुणांक 95% विश्वास अंतराल के अंदर हैं, तो मल्टीकोलिनरिटी मदद नहीं करेगा, क्योंकि मल्टीकोलिनियरिटी सीआईएस को बहुत बढ़ा देता है। यदि, दूसरी ओर, मूल्यांकन नए भविष्यवक्ताओं पर अनुमानित और वास्तविक डेटा के बीच के अंतर पर किया जाता है ("वास्तविक" डेटा आपके सच्चे DGP का उपयोग करके उत्पन्न किया गया है), तो बहुरूपता बहुत बेहतर दृष्टिकोण होगा। नीचे पंक्ति: पता लगाएँ कि लक्ष्य फ़ंक्शन क्या है और इसके लिए अपना दृष्टिकोण दर्जी करें। (यह जीवन में आम तौर पर अधिक लागू होता है ...)
स्टीफन कोलासा

4
@dylanjm क्या आप अपनी जीत की परिस्थितियों को ठीक से परिभाषित कर सकते हैं?
मैथ्यू गन

11
इस तरह की कवायद की बात यह है कि आप खुद कुछ सोचने की कोशिश करके सीखें । यदि आप उसके खिलाफ यहां विशेषज्ञों को गड्ढे में डालते हैं, तो प्रतिगमन के संबंध में आपके द्वारा दी गई जानकारी के विभिन्न टुकड़ों को समेकित करके आपके मस्तिष्क को वास्तव में फैलाने का अवसर नाटकीय रूप से कम हो जाता है (साथ ही साथ प्रोफेसर के साथ अन्याय हो रहा है)। इसके अलावा, किसी भी प्रतिष्ठित संस्थान में जब वह किसी अन्य व्यक्ति द्वारा आंशिक रूप से किया जाता है, तो उसके पास काम करना आपके लिए अकादमिक कदाचार और धोखाधड़ी के बीच कहीं हो सकता है (यदि यह आपके चिह्न के किसी हिस्से के लायक है)। आप इसे कैसे पूछते हैं, इसके बारे में बहुत सावधान रहें।
Glen_b -Reinstate मोनिका

4
इस प्रश्न की लोकप्रियता के बावजूद, मैं इसे इस बिंदु पर बंद करने के लिए बाध्य महसूस करता हूं क्योंकि खेल के नियमों के बारे में स्पष्टीकरण के लिए बार-बार अनुरोध करने के बाद भी (सफलता का मूल्यांकन करने के लिए किन मानदंडों का उपयोग किया जाएगा, आपको कितने नमूनों की आपूर्ति करनी चाहिए) जानकारी अभी भी प्रश्न में प्रकट नहीं हुई है। हमारे उद्देश्य "चर्चा उत्पन्न करें" की तुलना में अधिक संकीर्ण और अधिक केंद्रित हैं: कृपया इस साइट पर हमारे द्वारा पूछे जाने वाले प्रश्नों के प्रकारों के लिए हमारे सहायता केंद्र से परामर्श करें।
whuber

जवाबों:


6

बस समझाया गया भाग की तुलना में त्रुटि शब्द बहुत बड़ा है। उदाहरण के लिए: , जहां , और । बेशक, आपको यह याद रखना होगा कि आपका बीज क्या था, ताकि आप अपने प्रोफेसर को साबित कर सकें कि आप सही थे और वह गलत था।X i j = पाप ( i + j ) i = 1..1000 σ = 1000000yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

सौभाग्य इस शोर / संकेत अनुपात के साथ चरण की पहचान करना।


यह सीआई की जीत की कसौटी पर काम नहीं करता है, क्या ऐसा होता है? हम बस विशाल सीआई प्राप्त करेंगे जो निश्चित रूप से 1 को कवर करेंगे। और निश्चित रूप से कुछ संख्यात्मक अस्थिरता।
स्टीफन कोलासा

अस्थिरता कोई मुद्दा नहीं होगा, मैं जो कर रहा हूं वह शोर में संकेत को दफन कर रहा है। यह शुद्ध सफेद शोर के रूप में सामने आएगा।
अक्कल A ’


5

अपने लक्ष्य है, तो सच डेटा पैदा करने की प्रक्रिया को ठीक है कि बनाता है , अपने प्रोफेसर बेवकूफ बनाना काफी तुच्छ है। आपको एक उदाहरण देने के लिए, गड़बड़ी और निम्नलिखित संरचनात्मक समीकरणों पर विचार करें:ε मैं ~ एन ( 0 , 1 )YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

के सही DGP पर ध्यान दें , जिसमें केवल शामिल है , तुच्छ रूप से संतुष्ट स्थिति 2. शर्त 3 ​​भी संतुष्ट है, क्योंकि बनाने के लिए एकमात्र चर है और आप और प्रदान कर रहे हैं ।X 1 X 1 Y X 1 X 2YX1X1YX1X2

फिर भी, कोई रास्ता नहीं अपने प्रोफेसर बताती हैं कि वह केवल शामिल होना चाहिए कर सकते हैं केवल या और का असली पुलिस महानिदेशक ठीक करने के लिए (यदि आप इस उदाहरण का उपयोग करते हुए अंत में, चर की संख्या में परिवर्तन)। सबसे अधिक संभावना है, वह आपको सभी चर के साथ प्रतिगमन के जवाब के रूप में देगा, क्योंकि वे सभी महत्वपूर्ण भविष्यवाणियों के रूप में दिखाई देंगे। आप इसे 20 चर तक बढ़ा सकते हैं यदि आप चाहते हैं, तो आप इस उत्तर को और सिम्पसन के विरोधाभास मशीन को यहां जांचना चाहते हैं।एक्स 2 एक्स 1 एक्स 2 वाईX1X2X1X2 Y

सभी सशर्त उम्मीदों नोट , या सही ढंग से निर्दिष्ट कर रहे हैं सशर्त उम्मीदों, लेकिन केवल का असली पुलिस महानिदेशक को दर्शाता हैइस प्रकार, आपके प्रोफेसर द्वारा कार्य को अनिवार्य रूप से विफल करने के बाद, वह तर्क दे सकता है कि उसका लक्ष्य बस किसी भी सशर्त अपेक्षा को पुनर्प्राप्त करना था, या आदि का सर्वोत्तम पूर्वानुमान प्राप्त करने के लिए आप यह तर्क दे सकते हैं कि उसने ऐसा नहीं कहा था, क्योंकि वह कहता है :[ वाई | एक्स 2 ] [ वाई | एक्स 1 , एक्स 2 ] [ वाई | एक्स 1 ] वाई वाईE[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY

वेरिएबल Y को एक लीनियर रिग्रेशन मॉडल से आना चाहिए जो संतोषजनक (...) वैरिएबल है जिसका उपयोग Y (...) आपके असली मॉडल ( ) बनाने के लिए किया गया था।

और आप कार्य-कारण के बारे में कक्षा में अच्छी चर्चा कर सकते हैं, जो सामान्य डीजीपी का मतलब है और सामान्य रूप से पहचान है।


आप एक मॉडल का प्रस्ताव कर रहे हैं जो पोस्ट में # 2 के साथ अनुपालन कर रहा है
अक्सकल

3

मल्टीकोलिनरिटी और विषमलैंगिकता जैसे आय बनाम उम्र के साथ चर का उपयोग करें: कुछ दर्दनाक फीचर इंजीनियरिंग करें जो स्केलिंग की समस्या प्रदान करता है: स्पार्सिटी में छिड़के हुए कुछ के लिए NA दें। रैखिकता का टुकड़ा वास्तव में इसे और अधिक चुनौतीपूर्ण बनाता है लेकिन इसे दर्दनाक बनाया जा सकता है। इसके अलावा, बाहरी लोग उसके लिए समस्या को बढ़ा सकते हैं।


मुझे लगता है कि विषमलैंगिकता समस्या के दायरे से बाहर है, लेकिन निश्चित रूप से सहमत बहुसंस्कृति सही विनिर्देश को खोजने के लिए कठिन बनाने के सर्वोत्तम तरीकों में से एक है।
JDL

2

क्या बातचीत की शर्तों की अनुमति है? यदि ऐसा है, तो सभी निचले क्रम गुणांकों को 0 पर सेट करें और पूरे मॉडल को N-th ऑर्डर इंटरैक्शन (उदाहरण के लिए ) से । 20 रजिस्टरों के लिए संभावित इंटरैक्शन की संख्या खगोलीय रूप से बड़ी है और आपके द्वारा शामिल किए गए लोगों को ढूंढना बहुत मुश्किल होगा।X5X8X12X13


0

कोई भी रैखिक मॉडल चुनें। उसे एक डेटा सेट दें जहां अधिकांश नमूने x = 0 के आसपास हों। उसे x = 1,000,000 के आसपास कुछ नमूने दें।

यहाँ अच्छी बात यह है कि x = 1,000,000 के आसपास के नमूने आउटलेर नहीं हैं। वे एक ही स्रोत से उत्पन्न होते हैं। हालांकि, चूंकि तराजू इतने अलग हैं, 1M के आसपास की त्रुटियाँ 0 के आसपास की त्रुटियों के साथ फिट नहीं होंगी।

Yi=β0+β1Xi1+ϵi

हमारे पास x = 0 के पास, n नमूनों का डेटा सेट है। हम "अधिक पर्याप्त" मानों में 2 और अंक चुनेंगे। हम मानते हैं कि इन दोनों बिंदुओं में कुछ त्रुटि है।

एक "अभी तक पर्याप्त" मूल्य एक ऐसा मूल्य है जो एक अनुमान के लिए त्रुटि इन दो बिंदुओं में सीधे पास नहीं होती है, बाकी डेटासेट की त्रुटि की तुलना में बहुत बड़ा है।

इसलिए, रैखिक प्रतिगमन गुणांक का चयन करेगा जो इन दो बिंदुओं में पास होगा और शेष डेटासेट को याद करेगा और रेखांकित मॉडल से अलग होगा।

निम्न उदाहरण देखें। {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

यह वुल्फार्मअल्फा श्रृंखला प्रारूप में है। प्रत्येक जोड़ी में पहला आइटम x है और दूसरा सूत्र = A2 + NORMINV (RAND), 0,2000) का उपयोग करके Excel में उत्पन्न किया गया था।

β0=1,β1=1

y=178433.x426805y=x


यह वास्तव में कैसे काम करना चाहिए और इसका क्या प्रभाव पैदा करना चाहिए?
रिचर्ड हार्डी

यह काम करता है क्योंकि शोर और परिशुद्धता अलग-अलग पैमानों में अलग-अलग काम करेंगे। उच्च संख्या में, चरम पर ले जाने और एक बिंदु पर विचार करने के लिए, लाइन को सीधे इसके माध्यम से जाना चाहिए या बहुत अधिक लागत से पीड़ित होना चाहिए। सही मूल्यों को याद करने के लिए कुछ शोर पर्याप्त है। शून्य के आसपास, फिर से चरम में - कोई पूर्णांक नहीं, आपको शोर के साथ छोड़ दिया जाता है।
7

गलत गुणांक वाले चर के लिए एक छोटे मूल्य का उपयोग करें और आप लागत का भुगतान कर रहे हैं।
DaL

हां, लेकिन प्रोफेसर के लिए ऐसा मॉडल तैयार करना कठिन क्यों होगा? यह एक विशेष रूप से आसान काम की तरह दिखता है जब दिए गए regressor में बहुत भिन्नता है।
रिचर्ड हार्डी

क्योंकि कोई भी मॉडल अच्छी तरह से दोनों समूहों में फिट नहीं होगा।
7
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.