मैं एक होमवर्क असाइनमेंट पर काम कर रहा हूं, जहां मेरे प्रोफेसर हमें एक सच्चा प्रतिगमन मॉडल बनाना चाहते हैं, डेटा के एक नमूने का अनुकरण करते हैं और वह हमारे द्वारा कक्षा में सीखी गई कुछ तकनीकों का उपयोग करके हमारे वास्तविक प्रतिगमन मॉडल को खोजने का प्रयास करने जा रहे हैं। हम इसी तरह एक डेटासेट के साथ वही करेंगे जो उसने हमें दिया है।
वह कहता है कि वह पिछले सभी प्रयासों के लिए एक सटीक मॉडल का निर्माण करने में सक्षम है और उसे धोखा देने की कोशिश कर रहा है। कुछ छात्र ऐसे रहे हैं जो कुछ पागल मॉडल बनाते हैं लेकिन वह यकीनन एक सरल मॉडल का निर्माण करने में सक्षम थे जो सिर्फ पर्याप्त था।
मैं उसे खोजने के लिए एक मुश्किल मॉडल विकसित करने के बारे में कैसे जा सकता हूं? मैं 4 चतुर्भुज शब्द, 3 टिप्पणियों और बड़े पैमाने पर विचरण करके सुपर सस्ता नहीं होना चाहता? मैं एक सहज रूप से सहज डेटासेट कैसे बना सकता हूं, जिसके नीचे एक कठिन मॉडल है?
उसके पास अनुसरण करने के लिए बस 3 नियम हैं:
आपके डेटासेट में एक "Y" चर और 20 "X" चर "Y", "X1", ..., "X20" के रूप में होना चाहिए।
आपकी प्रतिक्रिया चर को एक रेखीय प्रतिगमन मॉडल से आना चाहिए जो संतुष्ट करता है: जहां और ।
ε मैं ~ एन ( 0 , σ 2 ) पी ≤ 21सभी Variables जो बनाने के लिए उपयोग किए गए थे वे आपके डेटासेट में समाहित हैं।वाई
यह ध्यान दिया जाना चाहिए, सभी 20 एक्स चर को आपके वास्तविक मॉडल में होने की आवश्यकता नहीं है
मैं फामा-फ्रेंच 3 फैक्टर मॉडल जैसी किसी चीज का उपयोग करने के बारे में सोच रहा था और उसे स्टॉक डेटा (एसपीएक्स और एएपीएल) के साथ शुरू कर रहा हूं और इसे थोड़ा और अस्पष्ट करने के लिए उन चरों को लगातार जटिल रिटर्न में बदलना है। लेकिन जो मुझे पहले अवलोकन में लापता मूल्यों के साथ छोड़ देता है और यह समय श्रृंखला है (जिसकी चर्चा हमने अभी तक कक्षा में नहीं की है)।
अगर यह इस तरह से कुछ पोस्ट करने के लिए उचित जगह है तो अनसिक्योर करें। मुझे लगा कि यह कुछ अच्छी चर्चा पैदा कर सकता है।
संपादित करें: मैं विशेष रूप से "पूर्व-निर्मित" मॉडल के लिए नहीं कह रहा हूं। मैं सांख्यिकी में विषयों / उपकरणों के बारे में अधिक उत्सुक हूं जो किसी को इस बारे में जाने में सक्षम करेगा।