क्वांटग्राम का उपयोग करके वक्र आकृति की पहचान करने की सलाह


10

मैं एक डेटा सेट में मेरे मूल्यों के 99 वें प्रतिशत का उपयोग करके एक प्रतिगमन मॉडल बनाने के लिए क्वांटग्राम पैकेज का उपयोग कर रहा हूं । पिछले स्टैकओवरफ़्लो प्रश्न से सलाह के आधार पर मैंने पूछा, मैंने निम्नलिखित कोड संरचना का उपयोग किया है।

mod <- rq(y ~ log(x), data=df, tau=.99)    
pDF <- data.frame(x = seq(1,10000, length=1000) ) 
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )

जिसे मैं अपने डेटा के ऊपर प्लॉट दिखाता हूं। मैंने इसे ggplot2 का उपयोग करके प्लॉट किया है, अंकों के लिए एक अल्फा मान के साथ। मुझे लगता है कि मेरे विश्लेषण में मेरे वितरण की पूंछ को पर्याप्त रूप से नहीं माना जा रहा है। शायद यह इस तथ्य के कारण है कि व्यक्तिगत बिंदु हैं, कि प्रतिशत के प्रकार के माप द्वारा अनदेखा किया जा रहा है।

टिप्पणियों में से एक ने सुझाव दिया कि

पैकेज विगनेट में नॉनलाइनियर क्वांटाइल रिग्रेशन पर सेक्शन और स्मूदनिंग स्पाइन के साथ मॉडल आदि शामिल हैं।

मेरे पिछले प्रश्न के आधार पर मैंने एक लघुगणक संबंध माना, लेकिन मुझे यकीन नहीं है कि यह सही है। मुझे लगा कि मैं 99 वें प्रतिशत के अंतराल पर सभी बिंदुओं को निकाल सकता हूं और फिर उन्हें अलग से जांच सकता हूं, लेकिन मुझे यकीन नहीं है कि यह कैसे करना है, या यदि यह एक अच्छा तरीका है। मैं इस संबंध को पहचानने में सुधार करने के बारे में किसी भी सलाह की सराहना करूंगा।

यहां छवि विवरण दर्ज करें


इस तरह के डेटा को बदलने के बारे में पहले से ही बात कर रहे साइट पर कुछ अच्छे सवाल हैं। देखिए आंकड़े ।stackexchange.com
एंडी डब्ल्यू

क्या आप सशर्त मध्यिका को जोड़ने की साजिश को अपडेट कर सकते हैं? यह मेरे लिए डेटा ट्रांसफ़ॉर्मेशन समस्या की तुलना में
क्वांटिल

@ user603 सशर्त मंझले से आपका क्या अभिप्राय है? (मैंने ऑनलाइन खोज की लेकिन मुझे यकीन नहीं है कि इसकी गणना कैसे की जाए)
सेलेनियस

tau = 0.5 rq () फ़ंक्शन में।
user603

1
यदि आपका लक्ष्य विशेष रूप से सशर्त 99 वें प्रतिशत का अनुमान लगाने के लिए है, तो मैं नॉनलाइनियर क्वांटाइल रिग्रेशन (किसी प्रकार का - मैं आर पैकेज को अच्छी तरह से नहीं जानता) के लिए वोट करूंगा, क्योंकि यह आपको सही कार्यात्मक रूप से पता नहीं है। । मैं अभी भी अपने पिछले प्रश्न से मेरे लिए स्पष्ट नहीं किया गया था कि क्या वास्तविक लक्ष्य है, हालांकि, तो मैं 17:01 पर Spacedman जनवरी 4 से अपने पिछले प्रश्न पर टिप्पणी दोहराना होगा
डेविड एम कापलान

जवाबों:


1

सभी मॉडल गलत हैं, लेकिन कुछ उपयोगी हैं (जॉर्ज बॉक्स)। आप अपने फिट वक्र के लिए एक लघु आकृति मजबूर कर रहे हैं, और ईमानदारी से यह बुरा नहीं दिखता है। पूंछ में फिट खराब है क्योंकि वहां कम अंक हैं; आपने जिन दो मापदंडों की अनुमति दी है वे डेटा के थोक फिट होंगे। दूसरे शब्दों में, लॉग स्केल पर, यह पूंछ उत्तोलन प्रदान करने के लिए आपके डेटा के थोक से बहुत दूर नहीं है। यह प्रतिगमन की मात्रात्मक प्रकृति के साथ नहीं है; OLS भी उन बिंदुओं की अवहेलना करेगा (विशेषकर लॉग स्केल पर)।

कुछ अधिक गैर-रैखिकता के लिए अनुमति देना बहुत आसान है। मैं प्राकृतिक विभाजन के लिए आंशिक हूं, लेकिन फिर से, सभी मॉडल गलत हैं:

library(splines)
mod <- rq(y ~ ns(log(x), df=6), data=df, tau=.99)

quantregपैकेज है कि आप के लिए चिंता का विषय है monotonic splines के लिए कुछ विशेष हुक है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.