प्रतिगमन विश्लेषण में 'डेटा-जेनरेशन प्रोसेस' और 'मॉडल' में क्या अंतर है?
प्रतिगमन विश्लेषण में 'डेटा-जेनरेशन प्रोसेस' और 'मॉडल' में क्या अंतर है?
जवाबों:
हम सभी को इस बात की अच्छी जानकारी है कि "मॉडल" का क्या मतलब हो सकता है, हालाँकि इसकी तकनीकी परिभाषा विषयों के बीच भिन्न होगी। डीजीपी से इसकी तुलना करने के लिए, मैंने शीर्ष पांच हिट (एक ही लेखक के साथ दो हिट गिनते हुए) को गोग्लिंग "डेटा जनरेशन प्रोसेस" में देखकर शुरू किया।
एक कागज अमेरिकी वायु सेना वास्तव में कैसे पर बनाता है रसद समर्थन में डेटा।
पर्यावरण और नियोजन ए में प्रकाशित एक पेपर का सार "कंप्यूटर" सिमुलेशन मॉडल के माध्यम से "सिंथेटिक माइक्रोप्रोप्यूलेशन" कैसे बनाया जाता है, इसके बारे में।
ए "सिंथेटिक डेटा जेनरेशन" पर वेब पेज ; वह है, "मॉडल पर कुछ डेटा विशेषताओं के प्रभावों का पता लगाने के लिए सिमुलेशन"।
डेटा माइनिंग में एक कॉन्फ्रेंस पेपर का सार , यह कहते हुए कि "डेटाबेस में डेटा एक अंतर्निहित डेटा पीढ़ी प्रक्रिया (dgg) का परिणाम है।"
एक पुस्तक अध्याय है कि "के रूप में कुछ परिवर्तन से उत्पन्न होने वाली ब्याज की डेटा की विशेषता एक अंतर्निहित [स्टोकेस्टिक] प्रक्रिया के वी टी ... कुछ या सभी [जिनमें से] अप्रमाणित हो सकता है ..."
ये लिंक "डेटा जेनरेशन प्रोसेस" शब्द के तीन अलग-अलग लेकिन बारीकी से संबंधित उपयोगों को प्रदर्शित करते हैं। सबसे आम सांख्यिकीय सिमुलेशन के संदर्भ में है। अन्य लोग वास्तविक साधनों का उल्लेख करते हैं जिनके द्वारा डेटा एक चालू स्थिति (लॉजिस्टिक्स) में और एक चल रहे डेटा निर्माण प्रक्रिया के लिए प्रायिकता मॉडल के लिए बनाया जाता है, जिसका उद्देश्य सीधे विश्लेषण नहीं करना है। अंतिम मामले में पाठ एक असभ्य स्टोकेस्टिक प्रक्रिया को विभेदित कर रहा है, जो फिर भी गणितीय रूप से मॉडलिंग की जाती है, वास्तविक संख्याओं से जो विश्लेषण किया जाएगा।
ये सुझाव दो अलग-अलग जवाब देने योग्य हैं:
विश्लेषण के लिए सिमुलेशन या "सिंथेटिक" डेटा बनाने के संदर्भ में, "डेटा पीढ़ी प्रक्रिया" बाद के अध्ययन के लिए डेटा बनाने का एक तरीका है, आमतौर पर कंप्यूटर के छद्म यादृच्छिक संख्या जनरेटर के माध्यम से। विश्लेषण कुछ मॉडल को अपनाएगा जो इस डीजीपी के गणितीय गुणों का वर्णन करता है।
सांख्यिकीय विश्लेषण के संदर्भ में, हम एक वास्तविक दुनिया की घटना (DGP) को उन टिप्पणियों से अलग करना चाह सकते हैं जिनका विश्लेषण किया जाएगा। हमारे पास मॉडल हैं दोनों घटना और टिप्पणियों के साथ-साथ कैसे दो जुड़े हुए हैं के लिए एक मॉडल के लिए।
प्रतिगमन में, तब, DGP सामान्य रूप से बताएगा कि डेटा का एक सेट = ( X 1 i , X 2 i , … , X p i , Y i ) , i = 1 , 2 , … , n उत्पादन किया जाता है। जैसे , X j i या Y i के मूल्यों से संबंधित हो । को प्रयोगकर्ता द्वारा निर्धारित किया जा सकता है या उन्हें किसी तरह से देखा जा सकता है और फिर इसका कारण माना जा सकता हैमॉडल संभव तरीकों से इन आंकड़ों गणितीय संबंधित हो सकता है का वर्णन होगा; जैसे , हम कह सकते हैं कि प्रत्येक उम्मीद के साथ एक यादृच्छिक चर रहा है एक्स β और विचरण σ 2 अज्ञात मापदंडों के लिए बीटा और σ ।
DGP ही सच्चा आदर्श है। मॉडल वह है जो हमने अपने सर्वोत्तम कौशल का उपयोग करते हुए, प्रकृति की वास्तविक स्थिति का प्रतिनिधित्व करने के लिए किया है। DGP "शोर" से प्रभावित होता है। शोर कई प्रकार का हो सकता है:
यदि आप इन 6 वस्तुओं के लिए नियंत्रण नहीं रखते हैं तो सही DGP की पहचान करने की आपकी क्षमता कम हो जाती है।
व्हीबर का उत्तर उत्कृष्ट है, लेकिन यह इस तथ्य पर जोर देने के लायक है कि सांख्यिकीय मॉडल को डेटा के हीन अन्वेषण के लिए एक उपयुक्त मॉडल होने के लिए हर संदर्भ में डेटा जनरेट करने वाले मॉडल जैसा नहीं होना चाहिए। लियू और मेंग बताते हैं कि उनके हाल ही में प्रकाशित कागज ( http://arxiv.org/abs/1510.03939 ) में बड़ी स्पष्टता के साथ :
गलतफहमी 1. एक संभावना मॉडल को डेटा की पीढ़ी का वर्णन करना चाहिए।
)। कंप्यूटर के प्रयोगों से जुड़े अनुप्रयोगों की तुलना में कहीं भी यह बिंदु स्पष्ट नहीं है, जहां एक ज्ञात (लेकिन अत्यधिक जटिल) निर्धारक पैटर्न (कैनेडी और ओ'हागन, 2001; कॉन्टी एट अल।, 2009) के बाद डेटा का वर्णन करने के लिए एक संभाव्य पैटर्न का उपयोग किया जाता है। हमें एक वर्णनात्मक मॉडल की आवश्यकता है, जरूरी नहीं कि एक जनरेटिव मॉडल। इस बिंदु पर लेहमैन (1990), ब्रेमेन (2001) और हैनसेन और यू (2001) देखें।
DGP आभासी वास्तविकता और सिमुलेशन के लिए एक अनूठा नुस्खा है। एक मॉडल डीजीपी या संभव तरीकों का एक संग्रह है जो डेटा उत्पन्न हो सकता था।
रसेल डेविडसन द्वारा इस मिनी पाठ्यक्रम का पहला पृष्ठ पढ़ें:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf