घातीय मॉडल का अनुमान


10

एक घातीय मॉडल समीकरण का अनुसरण करके वर्णित मॉडल है:

yमैं^=β0β1एक्स1मैं+...+βएक्समैं

इस तरह के मॉडल का अनुमान लगाने के लिए उपयोग किया जाने वाला सबसे आम दृष्टिकोण रैखिककरण है, जिसे दोनों पक्षों के लघुगणकों की गणना करके आसानी से किया जा सकता है। अन्य दृष्टिकोण क्या हैं? मुझे उन लोगों में विशेष रूप से दिलचस्पी है जो कुछ टिप्पणियों में को संभाल सकते हैं ।yमैं=0

अपडेट 31.01.2011
मैं इस तथ्य से अवगत हूं कि यह मॉडल शून्य का उत्पादन नहीं कर सकता है। मैं थोड़ा विस्तार करूँगा कि मैं क्या मॉडलिंग कर रहा हूँ और मैं इस मॉडल को क्यों चुन रहा हूँ। मान लीजिए कि हम भविष्यवाणी करना चाहते हैं कि ग्राहक किसी दुकान में कितना पैसा खर्च करता है। बेशक कई ग्राहक बस देख रहे हैं और वे कुछ भी नहीं खरीदते हैं, इसलिए कि 0. मैं रैखिक मॉडल का उपयोग नहीं करना चाहता हूं क्योंकि यह बहुत सारे नकारात्मक मूल्यों का उत्पादन करता है, जिसका कोई मतलब नहीं है। दूसरा कारण यह है कि यह मॉडल वास्तव में अच्छा काम करता है, रैखिक से बहुत बेहतर है। मैंने उन मापदंडों का अनुमान लगाने के लिए आनुवंशिक एल्गोरिथम का उपयोग किया है, इसलिए यह 'वैज्ञानिक' दृष्टिकोण नहीं था। अब मैं जानना चाहता हूं कि अधिक वैज्ञानिक तरीकों का उपयोग करके समस्या से कैसे निपटें। यह भी माना जा सकता है कि अधिकांश, या यहां तक ​​कि सभी, चर के द्विआधारी चर हैं।


1
यदि आपके डेटा में शून्य हैं, तो घातीय प्रतिगमन उचित नहीं हो सकता है, क्योंकि जैसा कि आपने कहा था कि यह शून्य मानों को देखने की अनुमति नहीं दे सकता है।
14

जवाबों:


11

यहां कई मुद्दे हैं।

(1) मॉडल को स्पष्ट रूप से संभाव्य होना चाहिए । लगभग सभी मामलों में मापदंडों का कोई सेट नहीं होगा जिसके लिए lhs आपके सभी डेटा के लिए rhs से मेल खाते हैं: वहाँ अवशिष्ट होंगे। आपको उन अवशेषों के बारे में धारणा बनाने की जरूरत है। क्या आप उनसे औसतन शून्य होने की उम्मीद करते हैं? सममित रूप से वितरित किया जाना है? लगभग सामान्य रूप से वितरित होने के लिए?

यहां दो मॉडल हैं जो एक निर्दिष्ट के साथ सहमत हैं, लेकिन काफी अलग-अलग अवशिष्ट व्यवहार की अनुमति देते हैं (और इसलिए आमतौर पर अलग-अलग पैरामीटर अनुमान होंगे)। आप के संयुक्त वितरण के बारे में अलग-अलग मान्यताओं के आधार पर इन मॉडलों को अलग कर सकते हैं :εमैं

बी: y मैं = β 0 exp ( β 1 एक्स 1 मैं + ... + β कश्मीर एक्स कश्मीर मैं ) + ϵ मैं

ए: yमैं=β0exp(β1एक्स1मैं+...+βएक्समैं+εमैं)
बी: yमैं=β0exp(β1एक्स1मैं+...+βएक्समैं)+εमैं

(ध्यान दें कि ये डेटा लिए मॉडल हैं ; आमतौर पर अनुमानित डेटा मूल्य रूप में ऐसी कोई चीज नहीं है ।)^ y iyमैंyमैं^

(2) y के लिए शून्य मानों को संभालने की आवश्यकता बताई गई मॉडल (ए) के गलत और अपर्याप्त दोनों है , क्योंकि यह शून्य मान का उत्पादन नहीं कर सकता है, भले ही यादृच्छिक त्रुटि के बराबर हो। ऊपर (बी) दूसरा मॉडल शून्य (या यहां तक ​​कि नकारात्मक) के लिए y के मूल्यों की अनुमति देता है। हालांकि, किसी को केवल इस तरह के आधार पर एक मॉडल नहीं चुनना चाहिए। # 1 को दोहराना: त्रुटियों को यथोचित रूप से मॉडल करना महत्वपूर्ण है।

(3) रैखिककरण मॉडल को बदलता है । आमतौर पर, यह (ए) जैसे मॉडल (बी) की तरह होता है। यह उन लोगों द्वारा उपयोग किया जाता है जिन्होंने इस परिवर्तन को जानने के लिए अपने डेटा का पर्याप्त विश्लेषण किया है, जो पैरामीटर के अनुमानों को सराहनीय रूप से प्रभावित नहीं करेगा और जो लोग इस बात से अनभिज्ञ हैं कि क्या हो रहा है। (यह अंतर बताने के लिए कई बार कठिन है।)

(4) शून्य मान की संभावना को संभालने का एक सामान्य तरीका यह है कि (या कुछ फिर से अभिव्यक्ति, जैसे कि वर्गमूल) को प्रस्तावित करने का एक समान तरीका है, समान रूप से शून्य का सख्ती से सकारात्मक मौका। गणितीय रूप से, हम कुछ अन्य वितरण के साथ एक बिंदु द्रव्यमान (एक "डेल्टा फ़ंक्शन") का मिश्रण कर रहे हैं। ये मॉडल इस तरह दिखते हैं:y

(yमैं)~एफ(θ);θजे=βजे0+βजे1एक्स1मैं++βजेएक्समैं

जहाँ , वेक्टर में निहित मापदंडों में से एक है , कुछ वितरणों का परिवार है जो मानकीकृत है। by , और का पुन: उपयोग है (सामान्यीकृत रैखिक मॉडल का "लिंक" फ़ंक्शन: onestop का उत्तर देखें)। (बेशक, तब, = जब ) उदाहरण हैं। शून्य-फुलाया हुआ पॉइसन और नकारात्मक द्विपद मॉडलपीआरएफθ[(Y)=0]=θजे+1>0θएफθ1,...,θजेyपीआरएफθ[(Y)टी](1-θजे+1)एफθ(टी)टी0

(५) किसी मॉडल के निर्माण और उसके फिटिंग के मुद्दे संबंधित हैं लेकिन अलग-अलग हैं । एक साधारण उदाहरण के रूप में, यहां तक ​​कि एक साधारण प्रतिगमन मॉडल को कई तरीकों से कम से कम वर्गों (जो अधिकतम संभावना और लगभग समान मानक त्रुटियों के रूप में एक ही पैरामीटर अनुमान देता है) द्वारा फिट किया जा सकता है, पुनरावृत्त कम से कम वर्ग , " मजबूत कम से कम वर्ग ," आदि के अन्य विभिन्न प्रकार फिटिंग का विकल्प अक्सर सुविधा, शीघ्रता ( उदाहरण के लिए , सॉफ्टवेयर की उपलब्धता), परिचित, आदत, या सम्मेलन पर आधारित है, लेकिन कम से कम एक विचार होना चाहिए त्रुटि शब्दों के ग्रहण किए गए वितरण के लिए क्या उपयुक्त है , को क्या दिया जाता हैY=β0+β1एक्स+εεमैंसमस्या के लिए नुकसान का कार्य यथोचित हो सकता है, और अतिरिक्त जानकारी (जैसे मापदंडों के लिए एक पूर्व वितरण ) के दोहन की संभावना हो सकती है ।


10

यह लॉग लिंक फ़ंक्शन के साथ एक सामान्यीकृत रैखिक मॉडल (GLM) है

शून्य पर गैर-शून्य घनत्व के साथ पर किसी भी संभावना वितरण कुछ टिप्पणियों में को संभाल ; सबसे आम पॉसों का वितरण होगा, जिसके परिणामस्वरूप पॉइसन रिग्रेशन , उर्फ ​​लॉग-लीनियर मॉडलिंग होगी। एक अन्य विकल्प एक नकारात्मक द्विपद वितरण होगा[0,)yमैं=0

आप गिनती डेटा नहीं है, या यदि गैर पूर्णांक मूल्यों लेता है, तो आप अभी भी पूरी तरह के लिए एक वितरण निर्धारित किए बिना ही मॉडल रैखिक सामान्यीकृत के ढांचे का उपयोग कर सकते लेकिन इसके बजाय केवल अर्ध-संभावना का उपयोग करके इसके माध्य और विचरण के बीच संबंध निर्दिष्ट करना ।yमैंपी(yमैं|एक्स)


शर्म की बात है कि मुझे विश्वविद्यालय में इसके बारे में पढ़ाया गया है: / ऐसा लगता है कि इस मामले में मददगार होगा, लेकिन मुझे विवरणों के बारे में गहराई से जानने के लिए कुछ समय चाहिए। धन्यवाद!
टोमेक टारसिनेस्की

yमैं

3

आप हमेशा गैर-रैखिक कम से कम वर्गों का उपयोग कर सकते हैं । तब आपका मॉडल होगा:

yमैं=β0exp(β1एक्स1मैं++βएक्समैं)+εमैं

yमैं


मापदंडों के प्रारंभिक मूल्यों के बारे में क्या? उन्हें चुनने का अच्छा तरीका क्या है? जैसा कि मैंने एक अद्यतन में कहा है कि यह माना जा सकता है कि कोई निरंतर चर नहीं हैं।
टोमेक टारसिनेस्की

@ टोमेक, मुझे लगता है कि उन्हें चुनने का कोई अच्छा तरीका नहीं है। आमतौर पर यह डेटा पर निर्भर करता है। मेरा सुझाव है कि अन्य गुणांकों के लिए इंटरसेप्ट और शून्य का मतलब है।
mpiktas
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.