बड़े डेटा के साथ पॉइसन रिग्रेशन: माप की इकाई को बदलना गलत है?


17

एक पोइसन डिस्ट्रीब्यूशन में फैक्टरियल के कारण, अवलोकन बड़े होने पर पॉइसन मॉडल (उदाहरण के लिए, अधिकतम संभावना का उपयोग करके) का अनुमान लगाना अव्यावहारिक हो जाता है। उदाहरण के लिए, यदि मैं किसी मॉडल को दिए गए वर्ष में आत्महत्याओं की संख्या समझाने के लिए अनुमान लगाने की कोशिश कर रहा हूं (केवल वार्षिक आंकड़े उपलब्ध हैं), और कहते हैं, हर साल हजारों आत्महत्याएं होती हैं, तो क्या सैकड़ों में आत्महत्या व्यक्त करना गलत है , ताकि 2998 29.98 ~ = 30 होगा? दूसरे शब्दों में, डेटा को प्रबंधनीय बनाने के लिए माप की इकाई को बदलना गलत है?

जवाबों:


15

जब आप एक प्याज़ोन डिस्ट्रीब्यूशन विथ द लैंबडा (इसके पैरामीटर) के बड़े मूल्यों के साथ काम कर रहे हैं, तो पॉयसन डिस्ट्रिब्यूशन के लिए एक सामान्य सन्निकटन का उपयोग करना आम है।

जैसा कि इस साइट में उल्लेख किया गया है, यह सब ठीक है कि जब लैम्बडा 20 से अधिक हो जाता है, तो सामान्य सन्निकटन का उपयोग किया जाता है, और सन्निकटन में सुधार होता है, क्योंकि लैम्ब्डा और भी अधिक हो जाता है।

Poisson वितरण केवल गैर-नकारात्मक पूर्णांक से युक्त राज्य स्थान पर परिभाषित किया गया है, इसलिए rescaling और गोलाई आपके डेटा में विषम चीज़ों को पेश करने जा रही है।

सामान्य लगभग का उपयोग करना। बड़े पॉसों के आंकड़ों के लिए बहुत आम है।


6

पॉइसन के मामले में यह बुरा है, क्योंकि गिनती मायने रखती है - उनकी इकाई एक एकता है। दूसरी ओर, यदि आप R जैसे कुछ उन्नत सॉफ़्टवेयर का उपयोग करते हैं, तो इसके पॉइसन हैंडलिंग फ़ंक्शंस को इतनी बड़ी संख्या के बारे में पता होगा और उन्हें संभालने के लिए कुछ संख्यात्मक चाल का उपयोग करेंगे।

जाहिर है मैं मानता हूं कि सामान्य सन्निकटन एक और अच्छा तरीका है।


3

अधिकांश सांख्यिकीय पैकेजों में सीधे फैक्टरियल के प्राकृतिक लघुगणक की गणना करने के लिए एक फ़ंक्शन होता है (जैसे R में lfactorial () फ़ंक्शन, Stata में lnfactorial) फ़ंक्शन। यह आपको लॉग-संभावना में निरंतर शब्द को शामिल करने की अनुमति देता है यदि आप चाहते हैं।


इसके अलावा, n!= के Gamma(n+1)लिए n> = 0. तो एक फ़ंक्शन की तलाश करने की कोशिश करें, जिसे कहा जाता है Gammaकि आपको तथ्यात्मक गणना करने की आवश्यकता है (या लॉग गामा यदि आप लॉग संभावना की गणना कर रहे हैं)
आंद्रे होल्ज़नर

3

मुझे डर है कि तुम ऐसा नहीं कर सकते। जैसा कि @Baltimark कहता है, बड़े लंबोदर के साथ वितरण अधिक सामान्य आकार (सममित) होगा, और इसे नीचे स्केल करने के साथ यह पॉइज़न डिस्ट्रब्यूशन नहीं होगा। निम्नलिखित कोड को R में आज़माएँ:

poi1 = rpois(100000, lambda = 5)  # poisson
poi2 = rpois(100000, lambda = 100)/20 # scaled-down poisson
poi2_dens = density(poi2)

hist(poi1, breaks = 0:30, freq = F, ylim = range(poi2_dens$y))
lines(poi2_dens, col = "red")

परिणाम नीचे है:

यहाँ छवि विवरण दर्ज करें

आप देख सकते हैं कि डाउनसोल्ड पॉइज़न (लाल रेखा) पोइसन वितरण से पूरी तरह से अलग है।


1

अधिकतम संभावना का उपयोग करते समय आप 'फैक्टरियल' को अनदेखा कर सकते हैं। यहाँ आपके आत्महत्या के उदाहरण के लिए तर्क है। करते हैं:

λ: प्रति वर्ष आत्महत्या की अपेक्षित संख्या हो

k i : वर्ष में आत्महत्याओं की संख्या हो।

फिर आप लॉग-लाइक को अधिकतम करेंगे:

LL = - (k i log (λ) - λ - k i !)

उपरोक्त को अधिकतम करना k को i के रूप में अधिकतम करने के बराबर है ! एक स्थिर है:

LL ' = - (k i log (λ) - λ)

यह बता सकता है कि तथ्य एक मुद्दा क्यों है? क्या मैं कुछ भूल रहा हूँ?


यदि आप कुछ करने की कोशिश कर रहे हैं तो आप कुछ याद नहीं कर रहे हैं। यह निश्चित रूप से ओपी के सवाल का मुख्य विचार था। हालांकि, वह भी आम तौर पर पूछ रही थी (यदि कठोरता से नहीं) "पॉसों मॉडल का अनुमान कैसे लगाया जाए"। शायद वह एक विशेष बिंदु पर पीडीएफ का मूल्य जानना चाहता है। उस मामले में, सामान्य लगभग। शायद पैरामीटर को स्केल करने से बेहतर होने वाला है, और 100, या जो भी हो, टिप्पणियों को स्केल करने से बेहतर है, यदि फैक्टरियल अव्यवहारिक की गणना करने के लिए पर्याप्त बड़े हैं।
बाल्टीमार्क

1
@ श्रीकांत, आप सही हैं, मापदंडों का अनुमान लगाने के लिए फैक्टरियल एक मुद्दा नहीं है, लेकिन सामान्य तौर पर आप किसी दिए गए मॉडल के लिए संभावना का मूल्य चाहते हैं, और आपको उसके लिए फैक्टरियल का उपयोग करना होगा। इसके अलावा, परिकल्पना परीक्षण (जैसे संभावना अनुपात परीक्षण) के लिए आपको संभावना के मूल्य की आवश्यकता होगी।
विवि

@ बल्टिमार्क: हां, मैं सामान्य रूप से जानना चाहता हूं कि क्या यह पॉइसन की माप की इकाई को बदलने के लिए मान्य है। मुझे यह सवाल पूछा गया था और मुझे नहीं पता था कि मुझे क्या कहना है।
विवि

@Vivi: मुझे यकीन नहीं है कि आप k_i के साथ संभावना की गणना क्यों करना चाहेंगे! अधिकांश अनुप्रयोगों में शामिल (उदाहरण के लिए, संभावना अनुपात परीक्षण, बायेसियन अनुमान) स्थिरांक मायने नहीं रखेगा। किसी भी मामले में, मुझे नहीं लगता कि आपने जैसा सुझाव दिया था, आप उसे फिर से स्केल कर सकते हैं। अगर मुझे लगता है तो अन्यथा मैं अपना जवाब अपडेट करूंगा।

@ श्रीकांत, मैं आपकी बात देख रहा हूं, लेकिन कुछ सॉफ्टवेयर्स (उदाहरण के लिए साक्षात्कार) इसमें डिफ़ॉल्ट रूप से शामिल हैं, और बड़ी संख्या एक मुद्दा है जो आपको पसंद है या नहीं। मुझे लगता है कि मैं वास्तव में एक स्पष्टीकरण के बाद था कि आप इसके चारों ओर एक तरीके के बजाय ऐसा क्यों कर सकते हैं या नहीं कर सकते हैं, लेकिन चर्चा दिलचस्प और शिक्षाप्रद है फिर भी :)
विवि
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.