तिरछे डेटा के साथ प्रतिगमन


12

जनसांख्यिकी और सेवा से यात्रा की गणना करने की कोशिश कर रहा है। डेटा बहुत तिरछा है।

हिस्टोग्राम:

हिस्टोग्राम

qq भूखंड (बाएं लॉग है):

Qq भूखंड - सही लॉग है

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityऔर serviceकारक चर हैं।

मुझे सभी चर के लिए कम p मान मिलता है, लेकिन मुझे .05 का निम्न r-squared भी मिलता है। मुझे क्या करना चाहिए? क्या एक और मॉडल काम करेगा, जैसे घातीय या कुछ और?


चूँकि मैंने जो मूल रूप से सोचा था कि जीरो की उच्च आवृत्ति वास्तव में ट्वोस की उच्च आवृत्ति थी, क्या आप हमें डेटा जनरेट करने की प्रक्रिया के बारे में कुछ और बता सकते हैं? लोग किस तरह की सेवा के लिए जा रहे थे, और विश्लेषण का "अंतिम लक्ष्य" क्या है? क्या आप संख्याओं (संख्याओं) की भविष्यवाणी करने की कोशिश कर रहे हैं, उन्हें विशेषताओं का एक सेट (अर्थात सेवा की गुणवत्ता के उपाय के रूप में) दिया गया है? क्या आपको अपने शोध प्रश्न का उत्तर देने के उद्देश्य के लिए परिणाम को मायने रखने की आवश्यकता है, या आप परिणाम चर को कम, लेकिन बड़ी श्रेणियों में ध्वस्त कर सकते हैं?
मार्क्विस डी कारबास

2
आपके पास डेटा है। पोइसन प्रतिगमन के लिए इस साइट को खोजें।
kjetil b halvorsen

जवाबों:


11

रैखिक प्रतिगमन आपके परिणाम के लिए सही विकल्प नहीं है, दिए गए:

  1. परिणाम चर सामान्य रूप से वितरित नहीं किया जाता है
  2. परिणाम चर को उन मानों में सीमित किया जा सकता है, जो (गणना डेटा का अर्थ है कि अनुमानित मान ऋणात्मक नहीं हो सकते हैं)
  3. 0 विज़िट के साथ मामलों की उच्च आवृत्ति प्रतीत होती है

गिनती डेटा के लिए सीमित आश्रित मॉडल

आपके द्वारा चुनी जा सकने वाली अनुमान रणनीति आपके परिणाम चर की "संरचना" द्वारा निर्धारित होती है। यही है, यदि आपका परिणाम चर उन मूल्यों में सीमित है जो वह ले सकता है (यानी यदि यह सीमित निर्भर चर है ), तो आपको एक मॉडल चुनने की आवश्यकता है जहां अनुमानित मान आपके परिणाम के लिए संभव सीमा के भीतर गिर जाएंगे। जबकि कभी-कभी रैखिक प्रतिगमन सीमित निर्भर चर (उदाहरण के लिए, बाइनरी लॉगिट / प्रोबिट के मामले में) के लिए एक अच्छा सन्निकटन है, अक्सर यह नहीं होता है। सामान्यीकृत रैखिक मॉडल दर्ज करें । आपके मामले में, क्योंकि परिणाम चर गणना डेटा है, आपके पास कई विकल्प हैं:

  1. पोइसन मॉडल
  2. नकारात्मक द्विपद मॉडल
  3. जीरो इन्फ्लेशन पोइजन (जिप) मॉडल
  4. ज़ीरो इन्फ्लेटेड निगेटिव बिनोमियल (ZINB) मॉडल

पसंद आमतौर पर अनुभवजन्य रूप से निर्धारित की जाती है। मैं नीचे इन विकल्पों के बीच चयन करने के बारे में संक्षेप में चर्चा करूंगा।


पॉसन बनाम नकारात्मक द्विपद

θH0:θ=0H1:θ0θ

ज़िप बनाम ZINB

एक संभावित जटिलता शून्य मुद्रास्फीति है, जो यहां एक मुद्दा हो सकता है। यह वह जगह है जहां शून्य-फुलाया मॉडल ज़िप और ZINB आते हैं। इन मॉडलों का उपयोग करते हुए, आप मानते हैं कि शून्य मान उत्पन्न करने वाली प्रक्रिया अन्य, गैर-शून्य मानों को उत्पन्न करने वाली प्रक्रिया से अलग है। पहले की तरह, ZINB उचित है जब परिणाम में अत्यधिक शून्य होता है और ओवरस्पीड होता है, जबकि ज़िप उपयुक्त होता है जब परिणाम में अत्यधिक शून्य होता है लेकिन सशर्त का मतलब = सशर्त विचरण होता है। शून्य-फुलाए गए मॉडल के लिए, आपके द्वारा ऊपर सूचीबद्ध मॉडल कोवरिएट्स के अलावा, आपको उन चरों के बारे में सोचना होगा, जिनके परिणाम में आपके द्वारा देखे गए अतिरिक्त शून्य उत्पन्न हुए होंगे। फिर, ऐसे सांख्यिकीय परीक्षण होते हैं जो इन मॉडलों के आउटपुट के साथ आते हैं (कभी-कभी जब आप एक कमांड निष्पादित करते हैं तो आपको उन्हें निर्दिष्ट करना पड़ सकता है)θ

θH0:θ=0H1:θ0H0:Excess zeroes is not a o f a s e p a r a t e presult of a separate processH1:Excess zeroes is a result of a separate process


θθ

अंत में, मैं R का उपयोग नहीं करता हूं, लेकिन UCLA डेटा विश्लेषण उदाहरणों में IDRE इन मॉडलों को फिट करने में आपका मार्गदर्शन कर सकता है।

[टिप्पणी के लिए पर्याप्त प्रतिष्ठा के बिना किसी अन्य उपयोगकर्ता द्वारा संपादित करें: यह पत्र बताता है कि शून्य-मुद्रास्फीति मॉडल की तुलना करने और विकल्प प्रदान करने के लिए आपको वुंग परीक्षण का उपयोग क्यों नहीं करना चाहिए।

पी। विल्सन, "द मिस्यूज ऑफ़ द वुंग टेस्ट फॉर नॉन-नेस्टेड मॉडल्स टू टेस्ट टू जीरो-इनफ्लेशन।" अर्थशास्त्र पत्र, 2015, खंड। 127, अंक C, 51-53 ]


बहुमत 2 ~ यात्राओं का है। सभी अभिलेख 1 से अधिक हैं
pxxd

मुझे पोसीन और गामा दोनों की चमक के लिए समान qq भूखंड मिल रहे हैं, क्या यह ठीक है?
pxxd

3
1. परिणाम चर सामान्य रूप से वितरित नहीं किया जाता है, प्रति रेखीय प्रतिगमन के खिलाफ एक वैध तर्क नहीं है । प्रतिगमन मान्यताओं का एक सेट जो अनुमानक के अच्छे गुणों की गारंटी देता है (जैसे कि संगति और विषमता सामान्यता), इसमें परिणाम चर की सामान्यता शामिल नहीं है (और त्रुटियों की सामान्यता भी नहीं)।
रिचर्ड हार्डी

2

गामा वितरण के साथ सामान्यीकृत रैखिक मॉडल का प्रयास करें। यह आपके आश्रित चर को अच्छी तरह से अनुमानित कर सकता है क्योंकि यह सकारात्मक है और x = 0 पर शून्य के बराबर है। मैंने इसी तरह के मामले में कुछ सफलता के साथ आर और जीएलएम का उपयोग किया है।


वीमैंरोंमैंटीरों 

1
नहीं, मेरा मानना ​​है कि आपको लॉग लिंक नहीं बल्कि पहचान लिंक का उपयोग करना चाहिए। लेकिन पहले जांच लें कि गामा फ़ंक्शन आपके वितरण को कितनी अच्छी तरह फिट करता है।
डिएगो

0

सभी सांख्यिकीय धारणा एक मॉडल से त्रुटियों के बारे में हैं। यदि आप सप्ताह के दिन को दर्शाते हुए 6 इंडिकेटर श्रृंखला का उपयोग करके एक सरल मॉडल बनाते हैं ... तो आपको त्रुटियों का बहुत अच्छा वितरण दिखाई देने लगेगा। मासिक प्रभाव और अवकाश प्रभाव (BEFORE, ON और AFTER) को शामिल करने के लिए आगे बढ़ें और त्रुटियों की विकृति और भी अच्छी हो जाएगी। दिन के महीने, सप्ताह के महीने, लंबे सप्ताहांत के संकेतक और चीजों को जोड़ने से भी अच्छाई मिलेगी।

को देखो वर्तमान और ऐतिहासिक डेटा दिया मेहमानों की भविष्यवाणी संख्या की सरल विधि और https://stats.stackexchange.com/search?q=user%3A3382+daily+data अधिक मज़ा पढ़ने के लिए।


1
यह जवाब वास्तव में पूछे गए सवाल की चिंता नहीं करता है। क्या आप कनेक्शन स्पष्ट कर सकते हैं?
whuber

मैंने दैनिक डेटा का सुझाव देने के लिए उनके DVISITS को लिया ... यदि ऐसा नहीं है तो मैं अपना उत्तर दूंगा। यदि यह वास्तव में क्रॉस-सेक्शनल है .. तो शायद उसे प्रमुख वर्गीकरण द्वारा डेटा को स्तरीकृत करने पर विचार करना चाहिए।
आयरिशस्टैट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.