अस्वीकरण: निम्नलिखित बिंदुओं पर, यह निश्चित रूप से मानता है कि आपका डेटा सामान्य रूप से वितरित किया गया है। यदि आप वास्तव में कुछ भी इंजीनियरिंग कर रहे हैं तो एक मजबूत सांख्यिकी पेशेवर से बात करें और उस व्यक्ति को लाइन पर यह कहते हुए हस्ताक्षर करने दें कि स्तर क्या होगा। उनमें से पांच, या उनमें से 25 से बात करें। यह उत्तर एक सिविल इंजीनियरिंग छात्र के लिए है, जो "क्यों" एक इंजीनियरिंग पेशेवर के लिए "क्यों" नहीं पूछ रहा है।
मुझे लगता है कि सवाल के पीछे का सवाल है "चरम मूल्य वितरण क्या है?"। हाँ यह कुछ बीजगणित है - प्रतीक। तो क्या? सही?
1000 साल की बाढ़ के बारे में सोचते हैं। वे बड़े हैं।
जब वे होते हैं, तो वे बहुत से लोगों को मारने वाले होते हैं। पुल के बहुत नीचे जा रहे हैं।
तुम्हें पता है कि क्या पुल नीचे नहीं जा रहा है? मैं करता हूँ। तुम नहीं ... अभी तक।
प्रश्न: 1000 साल की बाढ़ में कौन सा पुल नीचे नहीं जा रहा है?
उत्तर: इसे झेलने के लिए बनाया गया पुल।
डेटा आपको इसे अपने तरीके से करने की आवश्यकता है:
तो मान लें कि आपके पास 200 साल का दैनिक डेटा है। क्या वहां 1000 साल बाढ़ है? दूर से नहीं। आपके पास वितरण की एक पूंछ का एक नमूना है। आपके पास आबादी नहीं है। यदि आप बाढ़ के इतिहास के बारे में सभी जानते हैं तो आपके पास डेटा की कुल जनसंख्या होगी। इस बारे में सोचते हैं। कम से कम एक मूल्य, जिसकी संभावना 1000 में 1 है, के लिए आपके पास कितने वर्षों के डेटा की आवश्यकता है, कितने नमूने हैं? एक आदर्श दुनिया में, आपको कम से कम 1000 नमूनों की आवश्यकता होगी। वास्तविक दुनिया गड़बड़ है, इसलिए आपको और अधिक की आवश्यकता है। आपको लगभग 4000 नमूनों पर 50/50 की छूट मिलनी शुरू हो जाती है। आपको लगभग 20,000 नमूनों में 1 से अधिक होने की गारंटी मिलनी शुरू हो जाती है। नमूना का मतलब "पानी एक सेकंड बनाम अगले" नहीं है, लेकिन भिन्नता के प्रत्येक अद्वितीय स्रोत के लिए एक उपाय है - जैसे साल-दर-साल भिन्नता। एक साल में एक उपाय, एक और उपाय के साथ एक और वर्ष में दो नमूनों का गठन होता है। यदि आपके पास 4,000 वर्ष का अच्छा डेटा नहीं है, तो संभवतः आपके पास डेटा में 1000 वर्ष की बाढ़ का उदाहरण नहीं है। अच्छी बात यह है कि एक अच्छा परिणाम प्राप्त करने के लिए आपको अधिक डेटा की आवश्यकता नहीं है।
यहां बताया गया है कि कम डेटा के साथ बेहतर परिणाम कैसे प्राप्त करें:
यदि आप वार्षिक मैक्सिमा को देखते हैं, तो आप "चरम मूल्य वितरण" को वर्ष-अधिकतम-स्तर के 200 मानों में फिट कर सकते हैं और आपके पास वह वितरण होगा जिसमें 1000 वर्ष की बाढ़ शामिल है। स्तर के। यह बीजगणित होगा, न कि वास्तविक "यह कितना बड़ा है"। आप समीकरण का उपयोग करके यह निर्धारित कर सकते हैं कि 1000 वर्ष की बाढ़ कितनी बड़ी होगी। फिर, पानी की मात्रा को देखते हुए - आप इसका विरोध करने के लिए अपने पुल का निर्माण कर सकते हैं। सटीक मूल्य के लिए शूट न करें, बड़े के लिए शूट करें, अन्यथा आप इसे 1000 साल की बाढ़ पर विफल होने के लिए डिज़ाइन कर रहे हैं। यदि आप बोल्ड हैं, तो आप यह पता लगाने के लिए रेज़मैपलिंग का उपयोग कर सकते हैं कि आपके द्वारा इसका विरोध करने के लिए इसे बनाने के लिए 1000 साल के मूल्य पर कितना अधिक भुगतान करना होगा।
यहां बताया गया है कि ईवी / जीईवी प्रासंगिक विश्लेषणात्मक रूप क्यों हैं:
सामान्यीकृत चरम मूल्य वितरण इस बारे में है कि अधिकतम कितना भिन्न होता है। माध्य में भिन्नता की तुलना में अधिकतम में भिन्नता वास्तव में भिन्न होती है। केंद्रीय सीमा प्रमेय के माध्यम से सामान्य वितरण, बहुत सारी "केंद्रीय प्रवृत्तियों" का वर्णन करता है।
प्रक्रिया:
- निम्नलिखित 1000 बार करें:
i। मानक सामान्य वितरण से 1000 नंबर उठाओ
ii। नमूनों के उस समूह की अधिकतम गणना करें और उसे संग्रहीत करें
अब परिणाम के वितरण की साजिश रचें
#libraries
library(ggplot2)
#parameters and pre-declarations
nrolls <- 1000
ntimes <- 10000
store <- vector(length=ntimes)
#main loop
for (i in 1:ntimes){
#get samples
y <- rnorm(nrolls,mean=0,sd=1)
#store max
store[i] <- max(y)
}
#plot
ggplot(data=data.frame(store), aes(store)) +
geom_histogram(aes(y = ..density..),
col="red",
fill="green",
alpha = .2) +
geom_density(col=2) +
labs(title="Histogram for Max") +
labs(x="Max", y="Count")
यह "मानक सामान्य वितरण" नहीं है:
शिखर 3.2 पर है, लेकिन अधिकतम 5.0 की ओर जाता है। यह तिरछा है। यह लगभग 2.5 से नीचे नहीं मिलता है। यदि आपके पास वास्तविक डेटा (मानक सामान्य) था और आप सिर्फ पूंछ उठाते हैं, तो आप समान रूप से इस वक्र के साथ यादृच्छिक रूप से कुछ उठा रहे हैं। यदि आप भाग्यशाली हैं तो आप केंद्र की ओर हैं न कि निचली पूंछ के। इंजीनियरिंग भाग्य के विपरीत है - यह हर बार लगातार वांछित परिणाम प्राप्त करने के बारे में है। " रैंडम संख्याएँ अवसर के लिए छोड़ना बहुत महत्वपूर्ण हैं " (फ़ुटनोट देखें), खासकर एक इंजीनियर के लिए। विश्लेषणात्मक फ़ंक्शन परिवार जो इस डेटा को सबसे अच्छी तरह से फिट बैठता है - वितरण का चरम मूल्य परिवार।
नमूना फिट:
मान लें कि हमारे पास मानक सामान्य वितरण से वर्ष-अधिकतम के 200 यादृच्छिक मूल्य हैं, और हम बहाना करने जा रहे हैं कि वे अधिकतम जल स्तर (जो भी मतलब हो) के हमारे 200 साल के इतिहास हैं। वितरण प्राप्त करने के लिए हम निम्नलिखित कार्य करेंगे:
- "स्टोर" चर का नमूना (लघु / आसान कोड बनाने के लिए)
- एक सामान्यीकृत चरम मूल्य वितरण के लिए उपयुक्त है
- वितरण का मतलब ज्ञात करें
- माध्य की भिन्नता में 95% CI ऊपरी सीमा ज्ञात करने के लिए बूटस्ट्रैपिंग का उपयोग करें, इसलिए हम उसके लिए अपनी इंजीनियरिंग को लक्षित कर सकते हैं।
(कोड उपर्युक्त पहले चलाया गया है)
library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE) #this is our data
myfit <- gevmle(y2)
यह परिणाम देता है:
> gevmle(y2)
loc scale shape
3.0965530 0.2957722 -0.1139021
20,000 सैंपल बनाने के लिए इन्हें जनरेटिंग फंक्शन में प्लग किया जा सकता है
y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])
निम्नलिखित में से किसी भी वर्ष में विफल रहने पर 50/50 की दर से भवन देना होगा:
माध्य (y3)
3.23681
1000 वर्ष "बाढ़" का स्तर क्या है यह निर्धारित करने के लिए यहाँ कोड है:
p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000
इसके अनुसरण में आपको 1000 वर्ष की बाढ़ पर 50/50 की विफलता देनी चाहिए।
p1000
4.510931
95% ऊपरी CI का निर्धारण करने के लिए मैंने निम्नलिखित कोड का उपयोग किया:
myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021
N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)
for (i in 1:N){
#generate samples
yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)
#compute fit
fit_d <- gevmle(yd)
#compute quantile
p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
}
mytarget <- quantile(p_1000,probs=0.95)
परिणाम था:
> mytarget
95%
4.812148
इसका मतलब यह है, कि 1000 साल के बाढ़ के बड़े हिस्से का विरोध करने के लिए, यह देखते हुए कि आपका डेटा बेहद सामान्य है (संभावना नहीं), आपको इसके लिए निर्माण करना होगा ...
> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)
या
> 1/(1-out)
shape
1077.829
... 1078 साल की बाढ़।
निचली रेखाएं:
- आपके पास डेटा का एक नमूना है, न कि वास्तविक कुल जनसंख्या। इसका मतलब है कि आपके मात्रात्मक अनुमान हैं, और बंद हो सकते हैं।
- वास्तविक पूंछों को निर्धारित करने के लिए नमूनों का उपयोग करने के लिए सामान्यीकृत चरम मूल्य वितरण जैसे वितरण बनाए जाते हैं। वे नमूना मूल्यों का उपयोग करने की तुलना में अनुमान लगाने में बहुत कम बुरी तरह से बंद हैं, भले ही आपके पास क्लासिक दृष्टिकोण के लिए पर्याप्त नमूने न हों।
- यदि आप मजबूत हैं तो छत ऊंची है, लेकिन इसका नतीजा यह है - आप असफल नहीं होते।
शुभकामनाएँ
पुनश्च:
पुनश्च: अधिक मज़ा - एक यूट्यूब वीडियो (मेरा नहीं)
https://www.youtube.com/watch?v=EACkiMRT0pc
फुटनोट: कोवेयु, रॉबर्ट आर। "यादृच्छिक संख्या पीढ़ी को मौका देने के लिए छोड़ा जाना बहुत महत्वपूर्ण है।" एप्लाइड प्रोबेबिलिटी और मोंटे कार्लो तरीके और गतिशीलता के आधुनिक पहलू। लागू गणित में अध्ययन 3 (1969): 70-111।
extreme value distribution
बजाय उपयोग क्यों करेंthe overall distribution
, और 98.5% मान प्राप्त करें।