बीटा रिग्रेशन में 0,1 मान के साथ काम करना


20

मेरे पास [0,1] में कुछ डेटा है जिसे मैं बीटा रिग्रेशन के साथ विश्लेषण करना चाहूंगा। बेशक 0,1 मूल्यों को समायोजित करने के लिए कुछ किया जाना चाहिए। मैं एक मॉडल को फिट करने के लिए डेटा को संशोधित करना पसंद करता हूं। मैं यह भी नहीं मानता कि शून्य और 1 मुद्रास्फीति एक अच्छा विचार है क्योंकि मेरा मानना ​​है कि इस मामले में किसी को 0 के बहुत छोटे सकारात्मक मूल्यों पर विचार करना चाहिए (लेकिन मैं यह नहीं कहना चाहता कि क्या मूल्य उचित है। एक उचित विकल्प। मेरा मानना ​​है कि .001 और .999 जैसे छोटे मूल्यों को चुनना होगा और बीटा के लिए संचयी डिस्ट्रक्ट का उपयोग करके मॉडल को फिट करना होगा। इसलिए टिप्पणियों के लिए y_i लॉग की संभावना LL_iwould होगी।

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

इस मॉडल के बारे में मुझे जो पसंद है वह यह है कि यदि बीटा प्रतिगमन मॉडल वैध है तो यह मॉडल भी मान्य है, लेकिन यह चरम मूल्यों के प्रति संवेदनशीलता को थोड़ा हटा देता है। हालाँकि यह ऐसा स्वाभाविक दृष्टिकोण है कि मुझे आश्चर्य है कि मुझे साहित्य में कोई स्पष्ट संदर्भ क्यों नहीं मिला। इसलिए मेरा प्रश्न डेटा को संशोधित करने के बजाय, मॉडल को संशोधित करना क्यों नहीं है। डेटा को संशोधित करना परिणामों को पूर्वाग्रह करता है (इस धारणा के आधार पर कि मूल मॉडल मान्य है), जबकि चरम मूल्यों को बांधने से मॉडल को संशोधित करना परिणामों को पूर्वाग्रह नहीं करता है।

शायद वहाँ एक समस्या है जो मैं देख रहा हूँ?


1
विशेष समस्या के बारे में अधिक जानकारी के बिना इस सवाल का एक अच्छा जवाब देना वास्तव में संभव नहीं है। महत्वपूर्ण सवाल यह है कि क्या सटीक शून्य और लोगों को एक अलग प्रक्रिया द्वारा उत्पन्न किया जाता है जो डेटा (0,1) में उत्पन्न करता है। एक क्लासिक उदाहरण बारिश है, जहां सटीक शून्य हैं जो उन दिनों को दर्शाते हैं जहां बारिश नहीं होती है। अपने आवेदन में शून्य और किसी तरह "विशेष" हैं?
डिक्रान मार्सुपियल

जवाबों:


16

इस पत्र के अनुसार , एक उपयुक्त परिवर्तन है

x=x(N1)+sN

"जहां N नमूना का आकार है और s 0 और 1. के बीच एक स्थिरांक है। एक बायेसियन दृष्टिकोण से, एस कार्य करता है जैसे कि हम एक पूर्व खाते में ले रहे हैं। s के लिए एक उचित विकल्प होगा।"

यह उस डेटा को निचोड़ देगा जो में निहित है । उपरोक्त उद्धरण, और परिवर्तन का एक गणितीय कारण कागज के पूरक नोटों में उपलब्ध है ।( , )[0,1](0,1)


1
+1 .. लेकिन क्या आप पहले लिंक को ठीक कर सकते हैं या कम से कम पेपर का हवाला दे सकते हैं ताकि हम इसे स्वतंत्र रूप से पा सकें?
व्हिबर

1
लेकिन यह मेरे सवाल का जवाब नहीं है। मुझे अच्छी तरह पता है कि कोई डेटा को रूपांतरित कर सकता है। मेरा सवाल यह है कि मॉडल को बदले क्यों नहीं?
चौदह

1
डेव, तो कृपया इसे प्रतिबिंबित करने के लिए अपने प्रश्न को संपादित करें: वर्तमान में, यह पढ़ता है जैसे कि आप डेटा को रूपांतरित करने के लिए रास्ता ढूंढ रहे हैं । इस प्रक्रिया में यह इंगित करने में आपकी मदद करेगा कि आपको क्या लगता है कि अंतर एक डेटा परिवर्तन और मॉडल के परिवर्तन के बीच है, क्योंकि यदि कोई एक है, तो यह सूक्ष्म है।
whuber

@davefournier, यदि आप पेपर कैम पढ़ते हैं, तो यह आपके प्रश्नों का समाधान करता है। वे वैकल्पिक मॉडल सिफारिशें भी देते हैं (पृष्ठ 69 देखें), और सिफारिशों का हिस्सा डेटा की प्रकृति पर टिका है। आपकी समायोजित संभावना "मिश्रित असतत-महाद्वीप प्रक्रिया" (69 पृष्ठ के अंत की ओर उल्लिखित) की तरह दिखती है। यह ऐसा भी हो सकता है कि टोबिट मॉडल आपके डेटा को देखते हुए संतोषजनक होगा, हालाँकि स्पष्ट रूप से प्रतिगमन प्रतिगमन पर स्कॉट लॉन्ग की पुस्तक की तरह, टोबिट मॉडल की उपयुक्तता के लिए अन्य संदर्भों को देखना सबसे अच्छा होगा।
एंडी डब्ल्यू

1
लेकिन वे यह तरीका नहीं अपनाते। वे एक अलग मॉडल, एक मिश्रित असतत सतत प्रक्रिया का प्रस्ताव करते हैं। यह चरम मूल्यों को दूर करने से बहुत अलग है। जैसा कि मैंने पहले कहा था कि अगर बीटा मॉडल वैध है तो बिनिंग मॉडल वैध है। यदि असतत निरंतर मॉडल मान्य है तो बीटा मॉडल अमान्य है। मुझे संदेह है कि वे अपने विश्लेषण में उन मिश्रित मॉडलों के प्रकार से प्रेरित थे जिन्हें वे अपने सॉफ़्टवेयर के साथ फिट कर सकते थे। बिन्ड बीटा मिश्रित मॉडल को फिट करना थोड़ा अधिक कठिन है।
चार

3

डेव,

इस समस्या के लिए एक सामान्य दृष्टिकोण 2 लॉजिस्टिक रिग्रेशन मॉडल को फिट करना है ताकि यह अनुमान लगाया जा सके कि मामला 0 या 1 है। फिर, रेंज (0,1) में उन लोगों के लिए एक बीटा रिग्रेशन का उपयोग किया जाता है।


क्या आप एक उदाहरण प्रदान कर सकते हैं? या एक पेपर इस पर अधिक विस्तार से चर्चा कर रहा है?
user1607

2

(log(x),log(1x))

x(x,x2)

मेरा मानना ​​है कि दोनों को बायेसियन तरीके से आसानी से अनुमान लगाया जाता है क्योंकि वे दोनों घातीय परिवार हैं। यह मॉडल का एक संशोधन है जैसा आप उम्मीद कर रहे थे।


1

मुझे लगता है कि इस प्रश्न का वास्तविक "सही" उत्तर शून्य-एक फुलाया हुआ बीटा प्रतिगमन है। यह उन डेटा को संभालने के लिए डिज़ाइन किया गया है जो अंतराल [0,1] पर लगातार बदलता रहता है, और कई वास्तविक 0 और 1 को डेटा में रहने की अनुमति देता है। यह दृष्टिकोण बायसेशियन संदर्भ में तीन अलग-अलग मॉडल फिट बैठता है, जो @B_Miner प्रस्तावित के समान है।

मॉडल 1: क्या एक मान 0/1 है, या मान (0,1) है? बर्नौली वितरण के साथ फिट।

मॉडल 2: एक बर्नौली वितरण के साथ फ़िट असतत सबसेट।

मॉडल 3: फ़िट (0,1) बीटा प्रतिगमन के साथ सबसेट।

भविष्यवाणी के लिए, पहले मॉडल के परिणामों का उपयोग मॉडल 2 और 3 की भविष्यवाणियों को वजन करने के लिए किया जा सकता है। इसे zoibआर पैकेज के भीतर लागू किया जा सकता है , या बीयूजीएस / जेएजीएस / एसटीएएन / आदि में घर से पीसा जा सकता है ।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.