वास्तव में एक सांख्यिकीय मॉडल का निर्माण क्या है?


15

वास्तव में एक सांख्यिकीय मॉडल का निर्माण क्या है?

इन दिनों जैसा कि मैं अनुसंधान नौकरियों या परामर्श नौकरियों के लिए आवेदन कर रहा हूं, शब्द "एक मॉडल का निर्माण" या "मॉडलिंग" अक्सर सामने आता है। यह शब्द अच्छा लगता है, लेकिन वे वास्तव में क्या कह रहे हैं? आप अपने मॉडल का निर्माण कैसे करते हैं ?

मैंने भविष्य कहनेवाला मॉडलिंग देखा , जिसमें k-nn और लॉजिस्टिक रिग्रेशन शामिल हैं।


1
यही कारण है, बहुत व्यापक है, यह मॉडल की एक विशाल विविधता का उल्लेख कर सकते हैं - प्रतिगमन के विभिन्न प्रकार, बहुस्तरीय मॉडल, पेड़ और उनके वेरिएंट, क्लस्टरिंग .... आदि
पीटर Flom - को पुनः स्थापित मोनिका

एक सांख्यिकीय मॉडल एक गणितीय मॉडल के समान है, सिवाय एक सांख्यिकीय मॉडल में त्रुटियों के लिए एक चर लेखांकन है। गणितीय मॉडल: वजन = ऊंचाई * 2.7। सांख्यिकीय मॉडल: वजन = ऊंचाई * 2.7 + त्रुटि।
नील मैक्ग्यूगन

2
मैं इस पत्र का हवाला देना चाहता हूं : सांख्यिकीय मॉडलिंग: दो संस्कृतियां
user13985

जवाबों:


12

मैं इस पर एक दरार लूंगा, हालांकि मैं किसी भी तरह से एक सांख्यिकीविद् नहीं हूं, लेकिन बहुत सारे 'मॉडलिंग' कर रहा हूं - सांख्यिकीय और गैर-सांख्यिकीय।

पहले मूलभूत बातों से शुरू करते हैं:

क्या वास्तव में एक मॉडल है?

एक मॉडल वास्तविकता का एक प्रतिनिधित्व है जो अत्यधिक सरलीकृत है। एक घर के लिए एक मोम / लकड़ी 'मॉडल' के बारे में सोचो। आप इसे स्पर्श / महसूस / गंध कर सकते हैं। अब एक गणितीय मॉडल संख्याओं का उपयोग करके वास्तविकता का प्रतिनिधित्व है।

यह 'वास्तविकता' क्या है मैं आपको सुनता हूँ? ठीक है। तो इस सरल स्थिति के बारे में सोचें: आपके राज्य के राज्यपाल ने यह कहते हुए एक नीति लागू की है कि सिगरेट के एक पैकेट की कीमत अब अगले वर्ष के लिए $ 100 होगी। 'उद्देश्य' लोगों को सिगरेट खरीदने से रोकना है, जिससे धूम्रपान कम हो रहा है, जिससे धूम्रपान करने वाले स्वस्थ हो जाते हैं (क्योंकि वे छोड़ देंगे)।

1 साल बाद राज्यपाल ने आपसे पूछा - क्या यह एक सफलता थी? आप ऐसा कैसे कह सकते हैं? वैसे आप बिकने वाले पैकेटों की संख्या / दिन या प्रति वर्ष, सर्वेक्षण प्रतिक्रियाओं पर कब्जा करते हैं, कोई भी औसत दर्जे का डेटा जिस पर आप अपना हाथ रख सकते हैं वह समस्या के लिए प्रासंगिक है। आपने समस्या को 'मॉडल' करना शुरू कर दिया है। अब आप विश्लेषण करना चाहते हैं कि यह 'मॉडल' क्या कहता है । यहीं पर सांख्यिकीय मॉडलिंग काम आती है। आप यह देखने के लिए एक साधारण सहसंबंध / स्कैटर प्लॉट चला सकते हैं कि मॉडल 'कैसा दिखता है'। आप कार्य-कारण निर्धारित करने के लिए फैंसी प्राप्त कर सकते हैं, यदि बढ़ती कीमत ने धूम्रपान में कमी ला दी है या खेल में अन्य भ्रमित कारक थे (यानी, शायद यह पूरी तरह से कुछ और है और आपका मॉडल शायद इससे चूक गया है?)।

अब, इस मॉडल का निर्माण एक 'नियमों के सेट' (जैसे दिशा-निर्देश) द्वारा किया जाता है, अर्थात, क्या कानूनी है या क्या नहीं / इससे कोई मतलब नहीं है। आपको पता होना चाहिए कि आप क्या कर रहे हैं और इस मॉडल के परिणामों की व्याख्या कैसे करें। इस मॉडल का निर्माण / निष्पादन / व्याख्या करना सांख्यिकी के बुनियादी ज्ञान की आवश्यकता है। ऊपर दिए गए उदाहरण में आपको सहसंबंध / तितर बितर भूखंड, प्रतिगमन (यूनी और बहुभिन्नरूपी) और अन्य सामानों के बारे में जानने की आवश्यकता है। मेरा सुझाव है कि आप आंकड़ों को सहजता से समझने के लिए संपूर्ण मजेदार / ज्ञानवर्धक लेख पढ़ें: वैसे भी पी-वैल्यू क्या है, यह आंकड़ों के लिए एक विनम्र परिचय है और आपको सरल से उन्नत (यानी, रैखिक प्रतिगमन) के रास्ते 'मॉडलिंग' सिखाएगा। फिर आप अन्य सामान पर जा सकते हैं और पढ़ सकते हैं।

इसलिए, याद रखें कि एक मॉडल वास्तविकता का प्रतिनिधित्व है और यह कि "सभी मॉडल गलत हैं, लेकिन कुछ दूसरों की तुलना में अधिक उपयोगी हैं" । एक मॉडल वास्तविकता का एक सरलीकृत प्रतिनिधित्व है और आप संभवतः सब कुछ पर विचार नहीं कर सकते हैं, लेकिन आपको पता होना चाहिए कि एक अच्छे मॉडल के लिए क्या करना चाहिए और क्या नहीं, जो आपको सार्थक परिणाम दे सकता है।

यह यहाँ बंद नहीं करता है। आप वास्तविकता का अनुकरण करने के लिए मॉडल भी बना सकते हैं! इस तरह समय के साथ संख्याओं का एक गुच्छा बदल जाएगा (कहेंगे)। ये नंबर आपके डोमेन में कुछ सार्थक व्याख्या करने के लिए मैप करते हैं। आप अपने डेटा को माइन करने के लिए ये मॉडल भी बना सकते हैं कि यह देखने के लिए कि विभिन्न उपाय एक-दूसरे से कैसे संबंधित हैं (आंकड़ों का अनुप्रयोग शायद संदिग्ध है, लेकिन अब चिंता न करें)। उदाहरण: आप प्रति माह एक दुकान के लिए किराने की बिक्री को देखते हैं और महसूस करते हैं कि जब भी बीयर खरीदी जाती है तो डायपर का एक पैकेट होता है (आप एक मॉडल बनाते हैं जो डेटा सेट से चलता है और आपको यह एसोसिएशन दिखाता है)। यह अजीब हो सकता है लेकिन इसका मतलब यह हो सकता है कि ज्यादातर पिता इस सप्ताहांत पर खरीदते हैं जब बच्चा अपने बच्चों को बैठाता है? डायपर को बियर के पास रखें और आप अपनी बिक्री बढ़ा सकते हैं! आह! मॉडलिंग :)

ये सिर्फ उदाहरण हैं और किसी भी तरह से पेशेवर काम के लिए एक संदर्भ नहीं हैं। आप मूल रूप से मॉडल को समझने / अनुमान लगाने के लिए बनाते हैं कि वास्तविकता कैसे काम करेगी / करेगी और आउटपुट के आधार पर बेहतर निर्णय ले सकती है। सांख्यिकी या नहीं, आप शायद यह महसूस किए बिना अपने पूरे जीवन में मॉडलिंग कर रहे हैं। शुभकामनाएँ :)


11

एक सांख्यिकीय मॉडल के निर्माण में कुछ वास्तविक दुनिया की घटनाओं के गणितीय विवरण का निर्माण शामिल है जो उस प्रणाली में शामिल अनिश्चितता और / या यादृच्छिकता के लिए खाता है। आवेदन के क्षेत्र पर निर्भर करता है, यह जटिल बहुभिन्नरूपी कारक विश्लेषण या डेटा खनन के माध्यम से सरल से कुछ के रूप में रेखीय प्रतिगमन, या बुनियादी परिकल्पना परीक्षण के रूप में हो सकता है।


5
मैंने इसे इस वजह से उकेरा है क्योंकि यह एक अत्यंत व्यापक प्रश्न का उत्तर देने का एक बहादुर, पवित्र प्रयास है। मुझे इस बारे में कुछ संदेह है कि क्या "डेटा माइनिंग" में कोई सांख्यिकीय मॉडलिंग शामिल है, हालांकि, और एक उदाहरण देखकर या उस वाक्यांश द्वारा आपके द्वारा बताए गए स्पष्टीकरण को सराहा जाएगा।
whuber

@whuber LASSO में चयन की सुविधा है, क्या यह किसी अर्थ में प्रतिगमन मॉडल का निर्माण नहीं है?
user13985

दूसरे शब्दों में, यह केवल काल्पनिक ईंटों और मोर्टार का उपयोग करके घर बनाने जैसा है? मेरी गूढ़ टिप्पणी को मजाक में कहा गया है। :)
ग्रीम वाल्श

1
डेटा खनन का उपयोग किसी दिए गए मॉडल के निर्माण या सत्यापन की प्रक्रिया के हिस्से के रूप में किया जा सकता है।
डेव

5

मेरे लिए मॉडलिंग में अनुमानित मापदंडों के साथ अवलोकन किए गए डेटा के लिए एक संभाव्य रूपरेखा को निर्दिष्ट करना शामिल है, जिसका उपयोग वे मौजूद होने पर अवलोकन योग्य डेटा में मूल्यवान अंतरों को समझने के लिए कर सकते हैं। इसे शक्ति कहते हैं। संभाव्य मॉडल का उपयोग भविष्यवाणी या अनुमान के लिए किया जा सकता है। उनका उपयोग मशीनरी को कैलिब्रेट करने के लिए किया जा सकता है, निवेश पर बदले की कमी को प्रदर्शित करने के लिए, मौसम या स्टॉक का पूर्वानुमान लगाने या चिकित्सा निर्णय लेने को सरल बनाने के लिए।

एक मॉडल को बनाने की आवश्यकता नहीं है। एक पृथक प्रयोग में, एक गैर-पैरामीट्रिक मॉडलिंग दृष्टिकोण का उपयोग कर सकता है, जैसे कि यह निर्धारित करने के लिए कि क्या दो समूहों के बीच महत्वपूर्ण अंतर है या नहीं। हालांकि, कई पूर्वानुमान उद्देश्यों के लिए, समय में परिवर्तनों का पता लगाने के लिए मॉडल बनाया जा सकता है। उदाहरण के लिए, संक्रमण आधारित मार्कोव मॉडल का उपयोग निवेश के लिए बाजार मूल्य में उतार-चढ़ाव की भविष्यवाणी करने के लिए किया जा सकता है, लेकिन किस हद तक "डुबकी" को उम्मीद से बदतर माना जा सकता है? ऐतिहासिक साक्ष्य और प्रेक्षित भविष्यवक्ताओं का उपयोग करते हुए, कोई यह जांचने के लिए एक परिष्कृत मॉडल का निर्माण कर सकता है कि क्या अवलोकन किए गए डिप्स उन लोगों से काफी अलग हैं जो ऐतिहासिक रूप से बनाए हुए हैं। नियंत्रण चार्ट, संचयी घटना चार्ट, उत्तरजीविता वक्र और अन्य "समय आधारित" चार्ट जैसे उपकरणों का उपयोग करना, यह '

वैकल्पिक रूप से, कुछ मॉडल डेटा बढ़ने के रूप में अनुकूल होने के लिए लचीलापन होने से "निर्मित" होते हैं। ट्विटर पर ट्रेंडिंग और नेटफ्लिक्स की सिफारिश प्रणाली का पता लगाना ऐसे मॉडलों के प्रमुख उदाहरण हैं। उनके पास एक सामान्य विनिर्देश है (बादेस के लिए बायेसियन मॉडल एवरेजिंग), जो एक लचीली मॉडल को ऐतिहासिक बदलावों और रुझानों को समायोजित करने और सर्वोत्तम भविष्यवाणी को बनाए रखने की अनुमति देता है, जैसे कि उच्च प्रभाव वाली फिल्मों की शुरूआत, नए उपयोगकर्ताओं का एक बड़ा अपडेट या एक। मौसमी के कारण फिल्म वरीयता में नाटकीय बदलाव।

डेटा माइनिंग दृष्टिकोणों में से कुछ को पेश किया जाता है क्योंकि वे कुछ प्रकार के पूर्वानुमान दृष्टिकोण (फिर से, डेटा में "अपेक्षित" रुझान या मूल्यों को प्राप्त करने का मुद्दा) पर अत्यधिक अडिग हैं। के-एनएन उच्च आयामी डेटा को शामिल करने और इनफ़्रेग्मेंट करने का एक तरीका है कि क्या विषय निकटता (चाहे उम्र, संगीत स्वाद, यौन इतिहास, या कुछ अन्य औसत दर्जे का लक्षण) के कारण विश्वसनीय पूर्वानुमान प्राप्त कर सकते हैं। दूसरी ओर लॉजिस्टिक रिग्रेशन एक बाइनरी क्लासिफायरियर प्राप्त कर सकता है, लेकिन बहुत अधिक आमतौर पर एक द्विआधारी परिणाम और एक या अधिक एक्सपोज़र और शर्तों के बीच एसोसिएशन के बारे में अनुमान लगाने के लिए उपयोग किया जाता है, जिसे ऑडियंस अनुपात कहा जाता है। सीमा प्रमेयों और सामान्यीकृत रैखिक मॉडल के साथ इसके संबंध के कारण, ऑड्स अनुपात अत्यधिक नियमित पैरामीटर हैं जिनके पास "अत्यधिक संरक्षित" प्रकार I त्रुटि है (अर्थात


आपके शब्दों के लिए धन्यवाद। नेटफ्लिक्स के ट्विटर की पहचान के मामले में, मशीन सीखने के दायरे में कम या ज्यादा नहीं है? मैं अक्सर मॉडलिंग और मशीन लर्निंग के बीच की रेखा नहीं खींच सकता।
user13985

1
मशीन लर्निंग आमतौर पर उच्च आयामी मॉडलिंग है। कई विधियाँ मौजूदा संभावना आधारित मामलों के विशेष मामले हैं जिनमें दंड या भार को नियोजित किया गया है।
एडम जूल

मेरे विचारों को मान्य करने के लिए धन्यवाद, मुझे बताएं कि क्या आप कुछ और करना चाहते हैं।
user13985

3

मॉडलिंग एक उपयुक्त मॉडल की पहचान करने की प्रक्रिया है।

अक्सर एक मॉडेलर के पास महत्वपूर्ण चर का एक अच्छा विचार होगा, और शायद किसी विशेष मॉडल के लिए सैद्धांतिक आधार भी होगा। प्रतिक्रिया के बारे में और भविष्यवाणियों के साथ सामान्य प्रकार के संबंधों के बारे में उन्हें कुछ तथ्य भी पता होंगे, लेकिन फिर भी यह निश्चित नहीं हो सकता है कि उनके मॉडल का सामान्य विचार पूरी तरह से पर्याप्त है - यहां तक ​​कि कैसे काम करना चाहिए के एक उत्कृष्ट सैद्धांतिक विचार के साथ, वे उदाहरण के लिए, आश्वस्त नहीं हो सकता कि विचरण माध्य से संबंधित नहीं है, या उन्हें संदेह है कि कुछ सीरियल निर्भरता संभव हो सकती है।

तो मॉडल पहचान के कई चरणों का एक चक्र हो सकता है जो डेटा का संदर्भ (कम से कम कुछ) बनाता है। विकल्प नियमित रूप से काफी अनुपयुक्त मॉडल होने का जोखिम है।

(बेशक, यदि वे जिम्मेदार हो रहे हैं, तो उन्हें इस बात का अवश्य ध्यान रखना चाहिए कि इस तरह से डेटा का उपयोग उनके इंफ़ेक्शन को कैसे प्रभावित करता है।)

वास्तविक प्रक्रिया क्षेत्र से क्षेत्र और व्यक्ति से व्यक्ति में कुछ हद तक भिन्न होती है, लेकिन कुछ लोगों को उनकी प्रक्रिया में स्पष्ट रूप से सूचीबद्ध चरणों को खोजना संभव है (जैसे बॉक्स और जेनकिंस समय श्रृंखला पर अपनी पुस्तक में इस तरह के एक दृष्टिकोण को रेखांकित करते हैं)। समय के साथ मॉडल पहचान कैसे करें इसके बारे में विचार बदलते हैं।


0

मुझे नहीं लगता कि एक सांख्यिकीय मॉडल का गठन करने की एक सामान्य परिभाषा है। उद्योग में मेरे अनुभव से यह क्या अर्थमिति में एक कहा जाता है के लिए एक पर्याय हो रहा है कम प्रपत्र मॉडल। मैं समझाऊंगा।

एफ=2एक्सटी2

इस मॉडल में भौतिकविदों को "स्थिरांक" या "कोएफ़िसेक्टर्स" कहा जाएगा, उदाहरण के लिए किसी दिए गए तापमान और ऊंचाई पर एक वायु घनत्व। आपको पता लगाना होगा कि ये गुणांक प्रयोगात्मक रूप से क्या हैं। हमारे मामले में हमने तोपखाने को कई अलग-अलग, कसकर नियंत्रित स्थितियों, जैसे कोण, तापमान आदि के तहत तोपों को आग लगाने के लिए कहा होगा।

हम सभी डेटा एकत्र करते हैं, और सांख्यिकीय तकनीकों का उपयोग करके मॉडल को फिट करते हैं। यह रैखिक प्रतिगमन या औसत के रूप में सरल हो सकता है। एक बार सभी गुणांक मिल जाने के बाद, हम अब फायरिंग टेबल बनाने के लिए अपना गणितीय मॉडल चलाते हैं। इसे यहां के अवर्गीकृत दस्तावेज़ में बड़े करीने से वर्णित किया गया है , जिसे "तोप उत्पादन के लिए एफआईबी लेबल का उत्पादन" कहा जाता है।

जो मैंने अभी वर्णित किया है वह एक सांख्यिकीय मॉडल नहीं है। हां, यह आंकड़ों का उपयोग करता है, लेकिन यह मॉडल भौतिकी के नियमों को स्थापित करता है, जो मॉडल का सार हैं। यहाँ, आँकड़े कुछ महत्वपूर्ण मापदंडों के मूल्यों को निर्धारित करने के लिए एक मात्र उपकरण है। प्रणाली की गतिशीलता क्षेत्र द्वारा वर्णित और पूर्व निर्धारित है।

मान लीजिए, कि हमें भौतिकी के नियमों की जानकारी नहीं थी या परवाह नहीं थी, और बस "उड़ान मॉडल" का उपयोग करके तोप की उड़ान दूरी और फायरिंग कोण और तापमान जैसे मापदंडों के बीच संबंधों को स्थापित करने की कोशिश की। हम उम्मीदवार चर, या सुविधाओं के एक समूह के साथ एक बड़ा डेटा सेट, और चर, शायद तापमान के बहुपद श्रृंखला आदि का निर्माण करेंगे, फिर हम एक प्रकार का प्रतिगमन, और पहचाने गए गुणांक को चलाएंगे। इन गुणांकों ने आवश्यक रूप से क्षेत्र में व्याख्याओं की स्थापना नहीं की होगी। हम उन्हें तापमान आदि के वर्ग के प्रति संवेदनशीलता कहते हैं। यह मॉडल वास्तव में तोप के गोले के अंतिम बिंदुओं की भविष्यवाणी करने में काफी अच्छा हो सकता है, क्योंकि अंतर्निहित प्रक्रिया काफी स्थिर है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.