प्रतिगमन विश्लेषण में डेटा-जनरेशन प्रक्रिया और मॉडल में क्या अंतर है?


19

प्रतिगमन विश्लेषण में 'डेटा-जेनरेशन प्रोसेस' और 'मॉडल' में क्या अंतर है?


1
डेटा-जेनरेशन प्रक्रिया कभी ज्ञात नहीं होती है, हम इस उम्मीद में मॉडल चुनते हैं कि हम डेटा-जेनरेशन प्रक्रिया को पर्याप्त रूप से अनुमानित करते हैं। यह संभावित उत्तरों में से एक है, यदि आप अधिक संदर्भ प्रदान करते हैं, तो यह मदद करेगा, इसलिए यह स्पष्ट है कि आप किस तरह के उत्तर की तलाश कर रहे हैं। चैट देखें, वर्तमान में चल रहे जर्नल क्लब लेख पर चर्चा करते हैं जहां यह मुद्दा उठाया जाता है।
३६ बजे म्पिकटस

3
इस प्रश्न के उत्तर अलग-अलग होंगे, जैसा कि उन्हें होना चाहिए, क्योंकि "डेटा-जनरेशन प्रोसेस" और "मॉडल" दोनों का उपयोग विभिन्न लेखकों द्वारा विभिन्न तरीकों से किया जाता है। @ Weijie, क्या आपके मन में एक विशेष संदर्भ है?
व्हीबर

जवाबों:


15

हम सभी को इस बात की अच्छी जानकारी है कि "मॉडल" का क्या मतलब हो सकता है, हालाँकि इसकी तकनीकी परिभाषा विषयों के बीच भिन्न होगी। डीजीपी से इसकी तुलना करने के लिए, मैंने शीर्ष पांच हिट (एक ही लेखक के साथ दो हिट गिनते हुए) को गोग्लिंग "डेटा जनरेशन प्रोसेस" में देखकर शुरू किया।

  1. एक कागज अमेरिकी वायु सेना वास्तव में कैसे पर बनाता है रसद समर्थन में डेटा।

  2. पर्यावरण और नियोजन ए में प्रकाशित एक पेपर का सार "कंप्यूटर" सिमुलेशन मॉडल के माध्यम से "सिंथेटिक माइक्रोप्रोप्यूलेशन" कैसे बनाया जाता है, इसके बारे में।

  3. "सिंथेटिक डेटा जेनरेशन" पर वेब पेज ; वह है, "मॉडल पर कुछ डेटा विशेषताओं के प्रभावों का पता लगाने के लिए सिमुलेशन"।

  4. डेटा माइनिंग में एक कॉन्फ्रेंस पेपर का सार , यह कहते हुए कि "डेटाबेस में डेटा एक अंतर्निहित डेटा पीढ़ी प्रक्रिया (dgg) का परिणाम है।"

  5. एक पुस्तक अध्याय है कि "के रूप में कुछ परिवर्तन से उत्पन्न होने वाली ब्याज की डेटा की विशेषता एक अंतर्निहित [स्टोकेस्टिक] प्रक्रिया के वी टीWtVt ... कुछ या सभी [जिनमें से] अप्रमाणित हो सकता है ..."

ये लिंक "डेटा जेनरेशन प्रोसेस" शब्द के तीन अलग-अलग लेकिन बारीकी से संबंधित उपयोगों को प्रदर्शित करते हैं। सबसे आम सांख्यिकीय सिमुलेशन के संदर्भ में है। अन्य लोग वास्तविक साधनों का उल्लेख करते हैं जिनके द्वारा डेटा एक चालू स्थिति (लॉजिस्टिक्स) में और एक चल रहे डेटा निर्माण प्रक्रिया के लिए प्रायिकता मॉडल के लिए बनाया जाता है, जिसका उद्देश्य सीधे विश्लेषण नहीं करना है। अंतिम मामले में पाठ एक असभ्य स्टोकेस्टिक प्रक्रिया को विभेदित कर रहा है, जो फिर भी गणितीय रूप से मॉडलिंग की जाती है, वास्तविक संख्याओं से जो विश्लेषण किया जाएगा।

ये सुझाव दो अलग-अलग जवाब देने योग्य हैं:

  1. विश्लेषण के लिए सिमुलेशन या "सिंथेटिक" डेटा बनाने के संदर्भ में, "डेटा पीढ़ी प्रक्रिया" बाद के अध्ययन के लिए डेटा बनाने का एक तरीका है, आमतौर पर कंप्यूटर के छद्म यादृच्छिक संख्या जनरेटर के माध्यम से। विश्लेषण कुछ मॉडल को अपनाएगा जो इस डीजीपी के गणितीय गुणों का वर्णन करता है।

  2. सांख्यिकीय विश्लेषण के संदर्भ में, हम एक वास्तविक दुनिया की घटना (DGP) को उन टिप्पणियों से अलग करना चाह सकते हैं जिनका विश्लेषण किया जाएगा। हमारे पास मॉडल हैं दोनों घटना और टिप्पणियों के साथ-साथ कैसे दो जुड़े हुए हैं के लिए एक मॉडल के लिए।

प्रतिगमन में, तब, DGP सामान्य रूप से बताएगा कि डेटा का एक सेट = ( X 1 i , X 2 i , , X p i , Y i ) , i = 1 , 2 , , n उत्पादन किया जाता है। जैसे , X j i या Y i के मूल्यों से संबंधित हो(X,Y)i(X1i,X2i,,Xpi,Yi)i=1,2,,nXji को प्रयोगकर्ता द्वारा निर्धारित किया जा सकता है या उन्हें किसी तरह से देखा जा सकता है और फिर इसका कारण माना जा सकता हैYiमॉडल संभव तरीकों से इन आंकड़ों गणितीय संबंधित हो सकता है का वर्णन होगा; जैसे , हम कह सकते हैं कि प्रत्येक उम्मीद के साथ एक यादृच्छिक चर रहा है एक्स β और विचरण σ 2 अज्ञात मापदंडों के लिए बीटा और σYiXβσ2βσ


आप "कारण" या "संबंधित" शब्द लिखते हैं। इस बारे में मेरा एक सवाल है। आपके उत्तर से ऐसा लगता है कि DGP की अवधारणा का अर्थ कार्य नहीं है। हालाँकि यह "संबंध" सहसंबंध (या किसी भी प्रकार के संबंध) से अधिक है या नहीं? मेरे इस संबंधित प्रश्न को भी देखें: आंकड़े.stackexchange.com/questions/399671/…
markowitz

@markowitz "सहसंबंध," सख्ती से बोलना, द्विभाजित यादृच्छिक चर के दूसरे क्षण को संदर्भित करता है। मैं "संबंधित नहीं" के व्यापक अर्थ में "संबंधित" का उपयोग करता हूं।
whuber

मुझे पता है, और वास्तव में इस कारण से मैंने कहा "या किसी भी प्रकार का [केवल सांख्यिकीय] संघ"। क्या मैं अपना प्रश्न दोहरा सकता हूं: हालांकि यह "संबंध" संघ से अधिक कुछ है या नहीं? "सच्चे मॉडल" की अवधारणा से शुरू, कभी-कभी डीजीपी के पर्याय के रूप में उपयोग किया जाता है, यह कुछ अधिक लगता है। यदि हां, तो मुझे समझ में नहीं आता कि यह वास्तव में क्या है। मेरा पिछला लिंक एक उदाहरण देता है।
मार्कोविट्ज़

@markowitz मुझे डर है कि मुझे समझ नहीं आ रहा है कि आप क्या पूछना चाह रहे हैं। ऐसा इसलिए हो सकता है क्योंकि मुझे यकीन नहीं है कि "रिश्ते" या "जुड़ाव" से आपका क्या मतलब है। मैंने आपके लिंक को देखा, लेकिन असामान्य अंग्रेजी उपयोग मेरे लिए कुछ भी सार्थक नहीं करता है।
whuber

मैं अपनी अंग्रेजी के लिए माफी चाहता हूँ। मैंने लिंक किए गए प्रश्न को स्पष्ट अर्थों में संशोधित करने की कोशिश की। मुझे उम्मीद है कि यह समझ में आएगा।
चिह्न

4

DGP ही सच्चा आदर्श है। मॉडल वह है जो हमने अपने सर्वोत्तम कौशल का उपयोग करते हुए, प्रकृति की वास्तविक स्थिति का प्रतिनिधित्व करने के लिए किया है। DGP "शोर" से प्रभावित होता है। शोर कई प्रकार का हो सकता है:

  1. एक बार का हस्तक्षेप
  2. स्तर में बदलाव
  3. रुझान
  4. ऋतु में परिवर्तन
  5. मॉडल पैरामीटर में परिवर्तन
  6. परिवर्तन में परिवर्तन

यदि आप इन 6 वस्तुओं के लिए नियंत्रण नहीं रखते हैं तो सही DGP की पहचान करने की आपकी क्षमता कम हो जाती है।


4

व्हीबर का उत्तर उत्कृष्ट है, लेकिन यह इस तथ्य पर जोर देने के लायक है कि सांख्यिकीय मॉडल को डेटा के हीन अन्वेषण के लिए एक उपयुक्त मॉडल होने के लिए हर संदर्भ में डेटा जनरेट करने वाले मॉडल जैसा नहीं होना चाहिए। लियू और मेंग बताते हैं कि उनके हाल ही में प्रकाशित कागज ( http://arxiv.org/abs/1510.03939 ) में बड़ी स्पष्टता के साथ :

गलतफहमी 1. एक संभावना मॉडल को डेटा की पीढ़ी का वर्णन करना चाहिए।

θ)। कंप्यूटर के प्रयोगों से जुड़े अनुप्रयोगों की तुलना में कहीं भी यह बिंदु स्पष्ट नहीं है, जहां एक ज्ञात (लेकिन अत्यधिक जटिल) निर्धारक पैटर्न (कैनेडी और ओ'हागन, 2001; कॉन्टी एट अल।, 2009) के बाद डेटा का वर्णन करने के लिए एक संभाव्य पैटर्न का उपयोग किया जाता है। हमें एक वर्णनात्मक मॉडल की आवश्यकता है, जरूरी नहीं कि एक जनरेटिव मॉडल। इस बिंदु पर लेहमैन (1990), ब्रेमेन (2001) और हैनसेन और यू (2001) देखें।


+1। मैं विशेष रूप से के बीच के अंतर की तरह वर्णनात्मक और उत्पादक डेटा के मॉडल।
whuber

1

DGP आभासी वास्तविकता और सिमुलेशन के लिए एक अनूठा नुस्खा है। एक मॉडल डीजीपी या संभव तरीकों का एक संग्रह है जो डेटा उत्पन्न हो सकता था।

रसेल डेविडसन द्वारा इस मिनी पाठ्यक्रम का पहला पृष्ठ पढ़ें:

http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.