पॉइसन वितरण को सामान्य वितरण में बदलें


10

मेरे पास मुख्य रूप से एक कंप्यूटर विज्ञान पृष्ठभूमि है, लेकिन अब मैं खुद को बुनियादी आँकड़े सिखाने की कोशिश कर रहा हूँ। मेरे पास कुछ डेटा है जो मुझे लगता है कि एक पॉइसन वितरण है

यहाँ छवि विवरण दर्ज करें

मेरे दो सवाल हैं:

  1. क्या यह पोइसन वितरण है?
  2. दूसरे, क्या इसे सामान्य वितरण में परिवर्तित करना संभव है?

किसी भी सहायता की सराहना की जाएगी। बहुत धन्यवाद


3
1. नहीं, एक पॉइसन वितरण में आम तौर पर इसके पैरामीटर के आसपास एक मोड होता है, और इसलिए इसे पॉइसन वितरण के साथ मिलान करने के लिए पैरामीटर के लिए बहुत कम मूल्य का मतलब होगा। 2. हाँ और नहीं। आप सामान्य वितरण के साथ क्या करना चाहेंगे?
दिलीप सरवटे

मैं इस डेटा को एक लॉजिस्टिक रिग्रेशन में फीड करने की कोशिश कर रहा हूं। मुझे विश्वास है कि सामान्य रूप से वितरित डेटा बेहतर परिणाम का उत्पादन करने के लिए नेतृत्व किया गया था
Abhi

जवाबों:


11

1) जो दर्शाया गया है वह एक बार चार्ट के रूप में खींचे गए (समूहीकृत) निरंतर डेटा प्रतीत होता है।

आप काफी सुरक्षित रूप से निष्कर्ष निकाल सकते हैं कि यह एक पॉइसन वितरण नहीं है।

एक पॉसन रैंडम वैरिएबल में 0, 1, 2, ... मान लेता है और 0 पर उच्चतम शिखर होता है, जब माध्य 1 से कम होता है। इसका उपयोग काउंट डेटा के लिए किया जाता है; यदि आप पोइसन डेटा के समान चार्ट को आकर्षित करते हैं, तो यह नीचे दिए गए प्लॉट जैसा दिख सकता है:

यहाँ छवि विवरण दर्ज करें

पहला एक पोइसन है जो आपके लिए समान तिरछापन दिखाता है। आप देख सकते हैं कि इसका मतलब काफी छोटा है (लगभग 0.6)।

दूसरा एक पोइसन है जिसका अर्थ आपके समान (बहुत मोटे अनुमान पर) है। जैसा कि आप देखते हैं, यह बहुत सममित दिखता है।

आपके पास तिरछापन या बड़ा मतलब हो सकता है, लेकिन एक ही समय में दोनों नहीं।

2) (i) आप असतत डेटा को सामान्य नहीं बना सकते -

समूहीकृत डेटा के साथ, किसी भी मोनोटोनिक-बढ़ते परिवर्तन का उपयोग करके, आप एक समूह में सभी मानों को एक ही स्थान पर स्थानांतरित कर देंगे, इसलिए सबसे कम समूह में अभी भी उच्चतम शिखर होगा - नीचे दिए गए भूखंड को देखें। पहले प्लॉट में, हम एक्स-वैल्यूज की पोजिशन को एक सामान्य सीएफडी से बारीकी से मिलाते हैं:

यहाँ छवि विवरण दर्ज करें

दूसरे प्लॉट में, हम ट्रांसफॉर्मेशन के बाद प्रायिकता फ़ंक्शन को देखते हैं। हम वास्तव में सामान्यता की तरह कुछ भी हासिल नहीं कर सकते क्योंकि यह असतत और तिरछा दोनों है; पहले समूह की बड़ी छलांग एक बड़ी छलांग होगी, चाहे आप इसे बाएं या दाएं धक्का दें।

(ii) यथोचित सामान्य दिखने के लिए निरंतर तिरछे डेटा को रूपांतरित किया जा सकता है। यदि आपके पास कच्चे (अनियंत्रित) मूल्य हैं और वे भारी असतत नहीं हैं, तो आप संभवतः कुछ कर सकते हैं, लेकिन फिर भी अक्सर जब लोग अपने डेटा को बदलना चाहते हैं तो यह अनावश्यक है या उनकी अंतर्निहित समस्या को एक अलग (आम तौर पर बेहतर) तरीके से हल किया जा सकता है । कभी-कभी परिवर्तन एक अच्छा विकल्प होता है, लेकिन यह आमतौर पर बहुत अच्छे कारणों से नहीं होता है।

तो ... आप इसे क्यों बदलना चाहते हैं?


बहुत विस्तृत उत्तर के लिए धन्यवाद ग्लेन। यह कई अवधारणाओं की व्याख्या करता है। मैं इस डेटा को लॉजिस्टिक रिग्रेशन मॉडल में फीड करने की कोशिश कर रहा हूं। मैंने सोचा (मुझे अब यकीन नहीं है) कि आम तौर पर वितरित डेटा बेहतर परिणाम पैदा करता है। आप क्या सलाह देते हैं?
अभय

1
यह स्वतंत्र चर (एक परिवर्तनीय) है? इस संदर्भ में "बेहतर परिणाम" से आपका क्या अभिप्राय है? x
Glen_b -Reinstate मोनिका

@Glen_b अद्भुत उत्तर के लिए बहुत बहुत धन्यवाद। मैं कंप्यूटर साइंस बैकग्राउंड से भी हूं और इस सवाल में फंस गया हूं : आंकड़े.stackexchange.com/questions/408232/… कृपया मुझे इस पर अपने विचार बताएं। तुम्हारे उत्तर की प्रतीक्षा है मुझे। बहुत-बहुत धन्यवाद एक बार फिर से :)
EmJ

कृपया अपने सवालों के जवाब देने के लिए लोगों को भर्ती करने की कोशिश करने के लिए टिप्पणियों का उपयोग न करें। मैंने आपका प्रश्न पहले ही देख लिया था।
Glen_b -Reinstate मोनिका

0

पोस्टरिटी के लिए अधिक मजेदार जानकारी पोस्ट करना।

एक पुरानी पोस्ट है जो लॉजिस्टिक रजिस्टरों के लिए एक स्वतंत्र चर के रूप में गणना डेटा के उपयोग के बारे में इसी तरह की समस्या पर चर्चा करती है।

यह रहा:

क्या गणना डेटा को स्वतंत्र चर के रूप में उपयोग करने से जीएलएम मान्यताओं का उल्लंघन होता है?

जैसा कि ग्लेन ने उल्लेख किया है कि यदि आप बस एक द्विपदीय परिणाम की भविष्यवाणी करने की कोशिश कर रहे हैं, तो संभव है कि आप अपने लॉजिस्टिक रिग्रेशन मॉडल के प्रत्यक्ष घटक के रूप में अनियंत्रित गणना डेटा का उपयोग करने में सक्षम हों। हालांकि, सावधानी का एक नोट: जब एक स्वतंत्र चर (IV) दोनों पॉसों को वितरित किया जाता है और कच्चे मूल्यों का उपयोग करके परिमाण के कई आदेशों का उपयोग किया जाता है, जिसके परिणामस्वरूप अत्यधिक प्रभावशाली अंक हो सकते हैं, जो आपके मॉडल को पूर्वाग्रह कर सकते हैं। यदि यह मामला है तो आपके आईवी में परिवर्तन करने के लिए और अधिक मजबूत मॉडल प्राप्त करने के लिए उपयोगी हो सकता है।

वर्गमूल, या लॉग जैसे परिवर्तन IV और अंतर अनुपात के बीच संबंध को बढ़ा सकते हैं। उदाहरण के लिए, यदि परिमाण के तीन पूरे क्रमों (औसत माध्य X मान से दूर) में X में परिवर्तन Y के अनुसार केवल 0.1 परिवर्तन (0.5 से दूर) की संभावना के साथ किया जाता है, तो यह किसी भी मॉडल विसंगतियों को मानने के लिए बहुत सुरक्षित है बाहरी एक्स मानों से अत्यधिक लाभ उठाने के कारण महत्वपूर्ण पूर्वाग्रह पैदा होता है।

आगे चित्रण करने के लिए, कल्पना करें कि हम विभिन्न मिर्च मिर्च (डोमेन [X] = {0, 3.2 मिलियन}) की स्कोविल रेटिंग का उपयोग करना चाहते थे, इस संभावना की भविष्यवाणी करने के लिए कि कोई व्यक्ति काली मिर्च को "असुविधाजनक मसालेदार" (श्रेणी [Y] =) के रूप में वर्गीकृत करता है। {1 = हां, 0 = नहीं}) संबंधित रेटिंग X की काली मिर्च खाने के बाद।

https://en.wikipedia.org/wiki/Scoville_scale

यदि आप स्कोविल रेटिंग के चार्ट को देखते हैं, तो आप देख सकते हैं कि कच्चे स्कोविल रेटिंग का एक लॉग ट्रांसफ़ॉर्मेशन आपको प्रत्येक मिर्च के व्यक्तिपरक (1-10) रेटिंग के करीब आने देगा।

तो इस मामले में, अगर हम एक अधिक मजबूत मॉडल बनाना चाहते थे जो कच्चे स्कॉविल रेटिंग और व्यक्तिपरक गर्मी रेटिंग के बीच के वास्तविक संबंध को पकड़ता है, तो हम एक्स मूल्यों पर एक लघु परिवर्तन कर सकते हैं। ऐसा करने से हम अत्यधिक बड़े एक्स डोमेन के प्रभाव को कम कर देते हैं, प्रभावी रूप से उन मूल्यों के बीच की दूरी को "सिकुड़" कर देते हैं जो परिमाण के आदेशों से भिन्न होते हैं, और इसके परिणामस्वरूप किसी भी एक्स आउटलेर (जैसे कि कैप्सैसिन असहिष्णु और / या पागल मसाला) वजन कम करते हैं! !!) हमारी भविष्यवाणियों पर है।

आशा है कि यह कुछ मजेदार संदर्भ जोड़ता है!

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.