गणना डेटा के लिए पॉइसन प्रतिगमन का उपयोग क्यों किया जाता है?


33

मैं समझता हूं कि कुछ डेटासेट जैसे मतदान के लिए यह बेहतर प्रदर्शन करता है। साधारण रेखीय प्रतिगमन या उपस्कर प्रतिगमन पर पोइसन प्रतिगमन का उपयोग क्यों किया जाता है? इसके लिए गणितीय प्रेरणा क्या है?


इस पोस्ट के लिए एक और दृष्टिकोण के लिए मेरा जवाब देखें : ysts.stackexchange.com/questions/142338/…
kjetil b halvorsen

जवाबों:


51

पॉसन वितरित डेटा आंतरिक रूप से पूर्णांक-मूल्यवान है, जो गणना डेटा के लिए समझ में आता है। साधारण लेस्टर स्क्वेयर (ओएलएस, जिसे आप "लीनियर रिग्रेशन" कहते हैं) मान लेता है कि सच्चे मूल्य सामान्य रूप से अपेक्षित मूल्य के आसपास वितरित किए जाते हैं और कोई भी वास्तविक मूल्य, सकारात्मक या नकारात्मक, पूर्णांक या भिन्नात्मक ले सकते हैं, जो भी। अंत में, लॉजिस्टिक रिग्रेशन केवल डेटा के लिए काम करता है जो 0-1-वैल्यू (TRUE-FALSE-मूल्यवान) है, जैसे "एक बीमारी है" बनाम "बीमारी नहीं है"। इस प्रकार, पॉसों वितरण गणना डेटा के लिए सबसे अधिक समझ में आता है।

उस ने कहा, एक सामान्य वितरण अक्सर 30 या इसके बाद के संस्करण के साथ डेटा के लिए एक पॉइसन के लिए एक अच्छा सन्निकटन है। और एक प्रतिगमन ढांचे में, जहां आपके पास गणना को प्रभावित करने वाले भविष्यवाणियां हैं, इसके सामान्य वितरण के साथ एक ओएलएस को फिट करना आसान हो सकता है और वास्तव में अधिक सामान्य होगा, क्योंकि पॉइसन वितरण और प्रतिगमन मानते हैं कि ओएलएस के दौरान माध्य और विचरण बराबर होते हैं। असमान साधनों और भिन्नताओं से निपट सकते हैं - अलग-अलग साधनों और भिन्नताओं वाले एक गणना डेटा मॉडल के लिए, उदाहरण के लिए, एक नकारात्मक द्विपद वितरण का उपयोग किया जा सकता है ।


17
ध्यान दें कि ओएलएस का उपयोग करते हुए सिर्फ फिटिंग के लिए सामान्यता की आवश्यकता नहीं होती है - यह तब होता है जब आप उन मापदंडों पर अनुमान लगाते हैं जो आपको सामान्य वितरण की आवश्यकता होती है
दासॉन

1
@ डासन: मैं सही करता हूं।
एस। कोलस्सा -

3
यदि आप विचरण के ह्यूबर / व्हाइट / सैंडविच अनुमानक का उपयोग करते हैं, तो आप माध्य-विचरण धारणा को आराम कर सकते हैं
दिमित्री वी। मास्टरोव

@ डासन जबकि इसकी कड़ाई की आवश्यकता नहीं है, जो आप फिट कर रहे हैं उसके लिए मॉडल के सही रूप का उपयोग करना हमेशा बेहतर अनुमान देता है, और आप इसे अवशिष्ट के भूखंडों में देख सकते हैं।
जो

24

अनिवार्य रूप से, ऐसा इसलिए है क्योंकि रैखिक और लॉजिस्टिक रिग्रेशन गलत प्रकार की धारणाएं बनाते हैं जो गिनती के परिणामों की तरह दिखते हैं। एक बहुत ही मूर्ख रोबोट के रूप में अपने मॉडल की कल्पना करें जो लगातार आपके आदेशों का पालन करेगा, चाहे वे आदेश कितने भी निरर्थक हों; यह पूरी तरह से मूल्यांकन करने की क्षमता का अभाव है कि आप इसे क्या बताते हैं। अगर आप अपने रोबोट को बताते हैं कि नकारात्मक अनंत से लेकर अनंत तक लगातार वोट बांटे जाते हैं, तो ऐसा माना जाता है कि वोट उसी की तरह हैं, और यह आपको निरर्थक भविष्यवाणियां दे सकता है (आगामी चुनाव में रॉस पेरोट को -10.469 वोट मिलेंगे)।

इसके विपरीत, पॉइसन वितरण असतत और सकारात्मक है (या शून्य ... शून्य के रूप में सकारात्मक, हाँ?) गिना जाता है। बहुत कम से कम, यह आपके रोबोट को आपको जवाब देने के लिए मजबूर करेगा जो वास्तव में वास्तविक जीवन में हो सकता है। वे अच्छे उत्तर दे सकते हैं या नहीं भी हो सकते हैं , लेकिन उन्हें कम से कम "वोट डाले जाने वाले वोटों" के संभावित सेट से निकाला जाएगा।

बेशक, पोइसन की अपनी समस्याएं हैं: यह मानता है कि वोट काउंट चर का मतलब भी इसके विचरण के समान होगा। मुझे नहीं पता कि क्या मैंने कभी गैर-विपरीत उदाहरण देखा है जहां यह सच था। सौभाग्य से, उज्ज्वल लोग अन्य वितरणों के साथ आए हैं जो सकारात्मक भी हैं और असतत भी हैं, लेकिन यह भिन्नता को जोड़ने की अनुमति देता है, विचरण, एर, भिन्न (जैसे, नकारात्मक द्विपद प्रतिगमन) की अनुमति देता है।


5

टी=1λटी=टीλटीλटी

पी(एन=n)=(λटी)n-λटीn!

यह और अधिकतम संभावना विधि और सामान्यीकृत रैखिक मॉडल (या कुछ अन्य विधि) के माध्यम से आप पॉइसन प्रतिगमन पर पहुंचते हैं ।

सरल शब्दों में पॉसन रिग्रेशन वह मॉडल है जो मॉडल में अन्य चर द्वारा निर्धारित दर (यानी प्रति यूनिट समय) पर एक छोटी संख्या में घटनाओं को उत्पन्न करने वाली अंतर्निहित यादृच्छिक प्रक्रिया की मान्यताओं को फिट करता है।


3

दूसरों ने मूल रूप से वही बात कही है जो मैं करने जा रहा हूं, लेकिन मुझे लगा कि मैं इस पर अपना ध्यान जोड़ूंगा। यह इस बात पर निर्भर करता है कि आप वास्तव में क्या कर रहे हैं लेकिन बहुत बार हम समस्या / डेटा को हाथ में लेना पसंद करते हैं। यह केवल एक मॉडल बनाने की तुलना में थोड़ा अलग दृष्टिकोण है जो बहुत अच्छी तरह से भविष्यवाणी करता है। यदि हम यह अनुमान लगाने की कोशिश कर रहे हैं कि क्या चल रहा है, तो यह गैर-नकारात्मक वितरण का उपयोग करके मॉडल की गणना करने के लिए समझ में आता है जो केवल पूर्णांक मानों पर द्रव्यमान डालता है। हमारे पास कई परिणाम हैं जो अनिवार्य रूप से यह कहने के लिए उबालते हैं कि कुछ शर्तों के तहत डेटा वास्तव में गिना जाता हैएक कविता के रूप में वितरित किया गया। इसलिए यदि हमारा लक्ष्य उस समस्या की संकल्पना करना है जो वास्तव में एक प्रतिसाद का उपयोग करने के लिए प्रतिक्रिया चर के रूप में समझ में आता है। अन्य लोगों ने अन्य कारणों को इंगित किया है कि यह एक अच्छा विचार क्यों है लेकिन अगर आप वास्तव में समस्या की अवधारणा की कोशिश कर रहे हैं और वास्तव में समझते हैं कि आप जो डेटा देखते हैं वह उत्पन्न हो सकता है तो एक पॉज़िशन प्रतिगमन का उपयोग करना कुछ स्थितियों में बहुत अधिक समझ में आता है।


2

मेरी समझ मुख्य रूप से है क्योंकि मायने हमेशा सकारात्मक और असतत होते हैं, पोइसन ऐसे डेटा को एक पैरामीटर के साथ संक्षेप में प्रस्तुत कर सकता है। मुख्य पकड़ यह है कि विचरण माध्य के बराबर है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.