चौरसाई - इसका उपयोग कब करना है और कब नहीं?


18

विलियम ब्रिग्स के ब्लॉग पर काफी पुरानी पोस्ट है जो डेटा को सुचारू करने और विश्लेषण के माध्यम से उस स्मूथ डेटा को ले जाने के नुकसान को देखती है। प्रमुख तर्क है:

यदि, पागलपन के एक पल में, आप सुचारु समय श्रृंखला डेटा करते हैं और आप इसे अन्य विश्लेषणों के इनपुट के रूप में उपयोग करते हैं, तो आप नाटकीय रूप से खुद को बेवकूफ बनाने की संभावना को बढ़ाते हैं! इसका कारण यह है कि चौरसाई सहज संकेतों-संकेतों को प्रेरित करती है जो अन्य विश्लेषणात्मक तरीकों के लिए वास्तविक दिखते हैं। कोई फर्क नहीं पड़ता कि आप अपने अंतिम परिणामों के बारे में बहुत कुछ करेंगे!

हालाँकि, मैं व्यापक चर्चाएँ करने के लिए संघर्ष कर रहा हूँ कि कब क्या करना है और कब नहीं।

क्या यह केवल दूसरे विश्लेषण के इनपुट के रूप में उस चिकने डेटा का उपयोग करते समय सुचारू रूप से करने के लिए है या क्या अन्य परिस्थितियां हैं जब चौरसाई की सलाह नहीं दी जाती है? इसके विपरीत, क्या ऐसी परिस्थितियां हैं जहां चौरसाई की सलाह दी जाती है?


1
समय श्रृंखला विश्लेषण के अधिकांश अनुप्रयोग कुछ प्रकार के चौरसाई होते हैं, तब भी जब इस तरह का वर्णन नहीं किया जाता है। चौरसाई का उपयोग एक खोजकर्ता या सारांश उपकरण के रूप में किया जा सकता है - कुछ क्षेत्रों में, जो कि मुख्य या केवल उपयोग की जाने वाली विधि है - या किसी उद्देश्य के लिए उपद्रव या माध्यमिक हित के रूप में सुविधाओं को हटाने के लिए।
निक कॉक्स

4
डिस्क्लेमर: मैंने पूरी ब्लॉग पोस्ट को उद्धृत नहीं किया है। मैं प्राथमिक टाइपोस ("टाइम सीरीज़", "मोंटे कैरोल") से पीछे नहीं हट सका और इसका स्वर और शैली आकर्षक नहीं थी। लेकिन मैं किसी के ब्लॉग के माध्यम से, आमतौर पर समय श्रृंखला विश्लेषण, या आँकड़ों के सिद्धांतों को सीखने की कोशिश करने की सलाह नहीं दूंगा।
निक कॉक्स

@NickCox सहमत है, और विशेष रूप से उस ब्लॉग से नहीं जो पीसने के लिए एक कुल्हाड़ी प्रतीत होता है।
हांग ओई

@ हाँगोई! मैंने अपनी टिप्पणी के एक मसौदे से कुछ विकल्प वाक्यांशों को हटा दिया, जो शायद ब्लॉग से कम नहीं लगता था।
निक कॉक्स

1
मुझे लगता है कि ब्रिग्स नमक के एक दाने के साथ लिखते हैं।
मोमो

जवाबों:


16

एक्सपोनेंशियल स्मूथिंग एक क्लासिक तकनीक है जिसका उपयोग गैर-कोशिकीय समय श्रृंखला पूर्वानुमान में किया जाता है। जब तक आप इसे केवल सीधे-सीधे पूर्वानुमान में उपयोग करते हैं और किसी अन्य डेटा माइनिंग या सांख्यिकीय एल्गोरिथ्म के इनपुट के रूप में इन-सैंपल स्मूथेड फिट का उपयोग नहीं करते , ब्रिग्स की समालोचना लागू नहीं होती है। (तदनुसार, मैं इसे "प्रस्तुति के लिए सुचारू डेटा का उत्पादन करने के लिए" के बारे में संदेह कर रहा हूं, जैसा कि विकिपीडिया कहता है - यह सुचारू रूप से परिवर्तनशील परिवर्तन को छिपाकर भ्रामक हो सकता है।)

यहां एक्सपोनेंशियल स्मूथिंग के लिए एक टेक्स्टबुक परिचय दिया गया है।

और यहां एक (10-वर्षीय, लेकिन अभी भी प्रासंगिक) समीक्षा लेख है।


EDIT: ब्रिग्स की समालोचना की वैधता के बारे में कुछ संदेह प्रतीत होता है , संभवतः इसकी पैकेजिंग से कुछ हद तक प्रभावित है । मैं इस बात से पूरी तरह सहमत हूं कि ब्रिग्स का लहजा अक्खड़ हो सकता है। हालांकि, मैं यह बताना चाहता हूं कि मुझे क्यों लगता है कि उसके पास एक बिंदु है।

नीचे, मैं समय श्रृंखलाओं के 10,000 जोड़े, 100 टिप्पणियों में से प्रत्येक का अनुकरण कर रहा हूं। सभी श्रृंखलाएं सफेद शोर वाली हैं, जिनका कोई संबंध नहीं है। तो एक मानक सहसंबंध परीक्षण चलाने के लिए p मान प्राप्त करना चाहिए जो समान रूप से [0,1] पर वितरित किए जाते हैं। जैसा कि यह होता है (नीचे बाईं तरफ हिस्टोग्राम)।

हालांकि, लगता है हम पहले प्रत्येक श्रृंखला चिकनी और करने के लिए सह-संबंध परीक्षण लागू समतल डेटा। कुछ आश्चर्यजनक प्रतीत होता है: चूंकि हमने डेटा से बहुत अधिक परिवर्तनशीलता को हटा दिया है, इसलिए हमें ऐसे पी मान मिलते हैं जो बहुत छोटे हैं । हमारा सहसंबंध परीक्षण भारी पक्षपातपूर्ण है। इसलिए हम मूल श्रृंखला के बीच किसी भी जुड़ाव के बारे में निश्चित होंगे, जो कि ब्रिग्स कह रहा है।

यह सवाल वास्तव में लटका हुआ है कि क्या हम पूर्वानुमान के लिए स्मूथ डेटा का उपयोग करते हैं, जिस स्थिति में स्मूथिंग वैध है, या क्या हम इसे कुछ विश्लेषणात्मक एल्गोरिथ्म में एक इनपुट के रूप में शामिल करते हैं , जिस स्थिति में परिवर्तनशीलता को दूर करने से हमारे डेटा में उच्च निश्चितता को चेतावनी दी जाएगी। इनपुट डेटा में यह अनौपचारिक निश्चितता अंतिम परिणामों के माध्यम से होती है और इसके लिए जिम्मेदार होने की जरूरत है, अन्यथा सभी अनुमान भी निश्चित होंगे। (और अगर हम पूर्वानुमान के लिए "फुलाए गए निश्चितता" पर आधारित मॉडल का उपयोग करते हैं, तो निश्चित रूप से हमें बहुत छोटे पूर्वानुमान अंतराल भी मिलेंगे।)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

p मान


1
मैं इसे अच्छे समय श्रृंखला विश्लेषण के लिए स्वयंसिद्ध के रूप में लेता हूं कि कच्चे डेटा के बिना भी कोई चिकना नहीं दिखाया गया है।
निक कॉक्स

1

यह दावा करते हुए कि मॉडलिंग विश्लेषण के लिए चौरसाई अनुचित है, यह अन्यथा की तुलना में उच्च माध्य वर्ग त्रुटि होने की निंदा करता है। माध्य वर्ग त्रुटि या MSE को तीन शब्दों में विघटित किया जा सकता है, मान `bias 'नामक एक वर्ग, एक विचरण और कुछ अप्रासंगिक त्रुटि। (यह नीचे के उद्धरणों में दिखाया गया है।) बहुत अधिक चिकनी मॉडल में उच्च पूर्वाग्रह होते हैं, भले ही उनके पास कम विचरण हो, और बहुत अधिक मोटे मॉडल में उच्च संस्करण, और निम्न पूर्वाग्रह होते हैं।

इस बारे में कुछ भी दार्शनिक नहीं है। यह एक गणितीय लक्षण वर्णन है। यह शोर के चरित्र या प्रणाली के चरित्र पर निर्भर नहीं करता है।

देख:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (इसमें अपघटन की व्युत्पत्ति है।)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/ अनियमितized-regression.pdf (Blei एक अलग तरीके से एक ही करता है, और जब कोई भविष्यवाणी करने की कोशिश करता है तो क्या होता है।

शास्त्रीय आंकड़े लगभग हमेशा निष्पक्ष अनुमानों पर जोर देते हैं। 1955 में, स्टैनफोर्ड के सांख्यिकीविद चार्ल्स स्टीन ने दिखाया कि निष्पक्ष अनुमानकर्ताओं के संयोजन थे जिनके पास महत्वपूर्ण विशेष मामलों के लिए एमएसई कम था, विशेष रूप से जो जेम्स-स्टीन एस्टीमेटर कहा जाता था। ब्रैडली एफ्रॉन ने अंतर्दृष्टि में इस क्रांति के बारे में एक बहुत ही प्रशंसनीय लेख लिखा: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.