अनुभवजन्य वितरण विकल्प


13

इनाम:

पूर्ण इनाम किसी ऐसे व्यक्ति को दिया जाएगा जो किसी भी प्रकाशित पेपर का संदर्भ प्रदान करता है जो नीचे दिए गए आकलनकर्ता का उपयोग करता है या उसका उल्लेख करता है ।F~

प्रेरणा:

यह खंड शायद आपके लिए महत्वपूर्ण नहीं है और मुझे संदेह है कि यह आपको इनाम पाने में मदद नहीं करेगा, लेकिन जब से किसी ने प्रेरणा के बारे में पूछा, तो यहां मैं बता रहा हूं कि मैं क्या काम कर रहा हूं।

मैं एक सांख्यिकीय ग्राफ सिद्धांत समस्या पर काम कर रहा हूं। मानक घने ग्राफ को सीमित करने वाली वस्तु इस अर्थ में एक सममित फलन है कि । पर एक ग्राफ नमूना कोने नमूने के रूप में सोचा जा सकता है वर्दी मूल्यों इकाई अंतराल पर ( के लिए ) बढ़त की संभावना और उसके बाद है । परिणामी आसन्न मैट्रिक्स को कहा जाता है ।डब्ल्यू ( यू , वी ) = डब्ल्यू ( वी , यू ) एन एन यू मैं मैं = 1 , ... , एन ( मैं , जे ) डब्ल्यू ( यू मैं , यू जे ) W:[0,1]2[0,1]W(u,v)=W(v,u)nnUii=1,,n(i,j)W(Ui,Uj)A

हम को एक घनत्व जो कि \ iint W> 0 को दर्शाता है । यदि हमारे अनुमान के आधार पर एक के लिए किसी भी बाधाओं के बिना , तो हम एक सुसंगत अनुमान नहीं मिल सकता है। मैं लगातार आकलन करने के बारे में एक दिलचस्प परिणाम नहीं मिला जब संभव कार्यों के एक कंस्ट्रेन्ड सेट से आता है। इस अनुमानक और \ _ A से , हम W का अनुमान लगा सकते हैं ।Wf=W/WW>0fAfffAW

दुर्भाग्य से, जिस विधि को मैंने पाया, वह घनत्व साथ वितरण से नमूना होने पर स्थिरता दिखाता है । जिस तरह से का निर्माण किया जाता है, उसके लिए मुझे अंकों की एक ग्रिड का नमूना देना होगा (जैसा कि मूल से ड्रॉ लेने का विरोध किया गया है )। इस आँकड़े में। सवाल है, मैं 1 आयामी (सरल) समस्या के लिए पूछ रहा हूं कि क्या होता है जब हम केवल ग्रिड पर नमूना बर्नौलीस को इस तरह से नमूना कर सकते हैं जैसे कि वास्तव में सीधे वितरण से नमूना लेना।fAf

ग्राफ सीमाओं के लिए संदर्भ:

एल। लोवाज़ और बी। सेजेडी। घने ग्राफ अनुक्रमों की सीमा ( arxiv )।

सी। बोर्ग्स, जे। चेयेस, एल। लोवाज़, वी। सोस, और के। वेस्ज़्टरगॉम्बी। घने रेखांकन के संमिलित क्रम I: सबग्राफ आवृत्तियों, मीट्रिक गुण और परीक्षण। ( अर्क्सिव )।

संकेतन:

CDF के साथ निरंतर वितरण पर विचार और पीडीएफ जो अंतराल पर सकारात्मक समर्थन हासिल है । मान लीजिए कोई pointmass है, , हर जगह जो विभेदक है और यह भी कि की supremum है अंतराल पर । चलो मतलब है कि यादृच्छिक चर वितरण से नमूना । पर iid एकसमान यादृच्छिक चर हैं ।Ff[0,1]fF[ 0 , 1 ]supz[0,1]f(z)=c<f[0,1]एक्स एफ यू मैं [ 0 , 1 ]XFXFUi[0,1]

समस्या सेट अप:

अक्सर, हम को वितरण साथ यादृच्छिक चर दे सकते हैं और सामान्य अनुभवजन्य वितरण फ़ंक्शन के साथ काम कर सकते हैं जैसे कि " जहां संकेतक कार्य करता । ध्यान दें कि यह अनुभवजन्य वितरण स्वयं यादृच्छिक है (जहाँ निर्धारित है)। एफ एफ एन ( टी ) = 1X1,,XnFमैं एफ एन(टी)टी

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

दुर्भाग्य से, मैं सीधे से नमूने नहीं ले पा रहा हूं । हालांकि, मुझे पता है कि को केवल पर सकारात्मक समर्थन है , और मैं यादृच्छिक चर उत्पन्न कर सकता जहां एक यादृच्छिक चर है जिसमें बर्नौली वितरण के साथ सफलता की संभावना जहां और ऊपर परिभाषित किए गए हैं। तो, । एक स्पष्ट तरीका है कि मैं इन मूल्यों से अनुमान लगा सकता हूं, जहां[ 0 , 1 ] Y 1 , ... , वाई एन वाई मैं पी मैं = ( ( मैं - 1 + यू मैं ) / n ) /यू मैं Y मैं ~ बर्न ( पी मैंFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
cUiएफ वाई मैं ~ एफ n ( t ) = 1YiBern(pi)FYiΣ n मैं = 1 Yमैं=0 ~ एफ (टी)वाईमैं
F~n(t)=1i=1nYii=1tnYi
सीलिंग फंक्शन है (जो कि निकटतम पूर्णांक तक गोल है), और redraw if (शून्य से विभाजित होने और ब्रह्मांड के पतन से बचने के लिए) । ध्यान दें कि एक यादृच्छिक चर भी है क्योंकि यादृच्छिक चर हैं।i=1nYi=0F~(t)Yi

प्रशन:

सबसे मुश्किल से (मुझे लगता है कि होना चाहिए) सबसे आसान।

  1. क्या किसी को पता है कि इस (या कुछ इसी तरह) का कोई नाम है? क्या आप एक संदर्भ प्रदान कर सकते हैं जहाँ मैं इसके कुछ गुण देख सकता हूँ?F~n

  2. के रूप में , है के अनुरूप आकलनकर्ता (और आप इसे साबित कर सकते हैं)?~ एफ एन ( टी ) एफ ( टी )nF~n(t)F(t)

  3. को रूप में सीमित वितरण क्या है ?nF~n(t)n

  4. आदर्श रूप में, मैं निम्नलिखित को - जैसे, फ़ंक्शन के रूप में बाध्य करना चाहता हूं , लेकिन मुझे नहीं पता कि सच्चाई क्या है। के लिए खड़ा है संभावना में बिग ओहे पी ( लॉग ( एन ) / nपीOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

कुछ विचार और नोट्स:

  1. यह ग्रिड-आधारित स्तरीकरण के साथ स्वीकृति-अस्वीकृति के नमूने जैसा लगता है । ध्यान दें कि हालांकि यह नहीं है क्योंकि हम प्रस्ताव को अस्वीकार करते हैं तो हम एक और नमूना नहीं बनाते हैं।

  2. मुझे पूरा यकीन है कि यह पक्षपाती है। मुझे लगता है कि वैकल्पिक निष्पक्ष है, लेकिन इसमें अप्रिय संपत्ति है ।~ एफ एन ( टी ) = सीF~nP(

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. मैं एक प्लग-इन अनुमानक के रूप में का उपयोग करने में रुचि रखता हूं । मुझे नहीं लगता कि यह उपयोगी जानकारी है, लेकिन शायद आप किसी कारण से जानते हैं कि ऐसा क्यों हो सकता है।F~n

आर में उदाहरण

यदि आप अनुभवजन्य वितरण की तुलना करना चाहते हैं तो यहां कुछ R कोड है । क्षमा करें कुछ इंडेंटेशन गलत है ... मुझे नहीं लगता कि इसे कैसे ठीक किया जाए।F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

उपरोक्त डेटा से आउटपुट

संपादन:

EDIT 1 -

मैंने इसे @ व्हिबर की टिप्पणियों को संबोधित करने के लिए संपादित किया।

EDIT 2 -

मैंने आर कोड जोड़ा और इसे थोड़ा और साफ किया। मैंने पठनीयता के लिए धारणा को थोड़ा बदल दिया, लेकिन यह अनिवार्य रूप से एक ही है। जैसे ही मुझे अनुमति दी जाती है, मैं इस पर एक इनाम देने की योजना बना रहा हूं, इसलिए कृपया मुझे बताएं कि क्या आप और स्पष्टीकरण चाहते हैं।

EDIT 3 -

मुझे लगता है कि मैंने @ कार्डिनल की टिप्पणियों को संबोधित किया। मैंने कुल भिन्नता में टाइपो को तय किया। मैं एक इनाम जोड़ रहा हूं।

EDIT 4 -

@Cardinal के लिए "प्रेरणा" खंड जोड़ा गया।


1
आपका प्रश्न अपरिभाषित वस्तुओं को संदर्भित करने और कुछ अज्ञात संकेतन का उपयोग करने के क्षण को अस्पष्ट करने लगा। उदाहरण के लिए, जल्दी दिखाई देता है , लेकिन का कोई स्पष्ट संबंध नहीं है और यह केवल बहुत आगे पढ़ने से है कि हम सीखते हैं कि आप इसे "असतत वितरण नहीं" के रूप में सोच रहे हैं - लेकिन यह किस प्रकार की वस्तु है? महत्वपूर्ण बात है, क्या करता है " मतलब?" "आम तौर पर इसका मतलब supremum लेकिन शायद यह एक वितरण के आवश्यक समर्थन के साथ कुछ है? क्योंकि सवाल में सब कुछ है कि इन मतलब है, मैं समझ नहीं कर सकते हैं पर निर्भर करता है प्रश्न की।fFsupzf(z)sup
whuber

1
आपकी टिप्पणियों के लिए धन्यवाद @whuber। कृपया मुझे बताएं कि क्या संशोधित प्रश्न अभी भी भ्रमित कर रहा है।
user1448319

1
अहा! यह पहला संकेत है कि मैंने देखा है कि तय नहीं है और आप asymptotics में रुचि रखते हैं। यदि यह सच है कि आपके पास चुनने का लचीलापन है , तो क्या यह संभावनाओं का खजाना नहीं खोलता है, जैसे कि नमूना बिंदुओं के अनुकूली विकल्प (बजाय एक निश्चित ग्रिड को सीमित करने के लिए )? यह भी स्पष्ट आप अनकहा मान्यताओं, ऐसी है कि कर रहे हैं है निरंतर है (समतुल्य रूप, है बिल्कुल निरंतर )। अंतर्निहित वितरण बारे में आप और क्या मान सकते हैं जो इस विश्लेषण में मदद कर सकता है? nn{i/n}fFF
whuber

2
कुछ अन्य प्रश्न / टिप्पणी: यह स्पष्ट रूप से इस बात पर आधारित है कि आप कैसे निर्माण का प्रस्ताव कर रहे हैं कि आप वास्तव में एक त्रिकोणीय सरणी , को अभिसरण विश्लेषण के प्रयोजनों के लिए विचार कर रहे हैं । आप निर्माण कैसे करते हैं , ऐसा लगता है कि आपको सफलता के सशर्त प्रायिकता जहां एक समान रैंडम वैरिएबल है, के साथ बर्नौली यादृच्छिक चर का नमूना (बस आसानी से) सक्षम होना चाहिए । क्या यह सच है? (आपके प्रश्न के लिए थोड़ा और संदर्भ संभवतः इन प्रश्नों का एक बहुत हल करेगा।) चीयर्स। Y i , n i = 1 , , n p i f ( U ) / c UpiYi,ni=1,,npif(U)/cU
कार्डिनल

2
इस सवाल में इतना सुधार किया गया है कि मैंने इसे तब तक पहचाना भी नहीं था जब तक मुझे एहसास नहीं हुआ था कि मैंने पहले टिप्पणियों को देखा था। यह अब वास्तव में दिलचस्प और बहुत अधिक लिखित प्रश्न है।
Glen_b -Reinstate मोनिका

जवाबों:


1

जबकि यह संदर्भ

संपादित करें: अधूरा अवलोकनों से बहुत बड़े पैमाने पर "गैर-प्रायोगिक अनुमान", ईएल कपलान और पॉल मीयर, अमेरिकी सांख्यिकी संघ, वॉल्यूम के जर्नल में प्रकाशित संदर्भ। 53, नंबर 282 (जून।, 1958), पीपी 457-481

पर आपके ईसीडीएफ-जैसे अनुमानक के लिए नहीं है, मेरा मानना ​​है कि यह तार्किक रूप से कापालन- मायर अनुमानक (उर्फ। उत्पाद सीमा अनुमानक) के बराबर है, जिसका उपयोग उत्तरजीविता विश्लेषण में किया जाता है, भले ही वह समय सीमा लागू हो ।[ 0 , )[0,1][0,)

पूर्वाग्रह का अनुमान लगाना तब संभव होगा जब आपके पास कर्नेल स्मूदी के माध्यम से वितरण का एक उचित अनुमान होगा यदि यह अच्छी तरह से पर्याप्त व्यवहार किया गया है (देखें, उदाहरण के लिए, विकिपीडिया पर खलाडेज़ परिवर्तन )।

अपने ग्राफ की समस्या में मामले में से एक तुच्छ समरूपता बाधा के साथ जीन-डेविड फ़र्मनियन, ड्रैगन रेडुलोविक, और मार्टन वीगैम्प (2004) में दृष्टिकोण के समान लगता है, अनुभवजन्य कॉपुला का कमजोर अभिसरण। प्रक्रियाओं , बर्नौली , वॉल्यूम। 10, नहीं। ५, "४ ,-card६०, @कार्डिनल ने "मल्टीवेरेट डेल्टा विधि" के रूप में इंगित किया।f=W/WA


0

यह ऊपर 2 और 3 सवालों के जवाब देता है। मैं अभी भी वास्तव में एक संदर्भ चाहता हूं (प्रश्न 1 से)।

यह अभी तक ध्यान में नहीं लेता है जब ।Yi=0

पर विचार करें , तो जहां सब्सक्राइबर्स डेरिवेटिव्स को दर्शाते हैं। स्मरण करें । Let तो ध्यान दें कि और । इसके अलावा, g(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t)
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
ध्यान दें कि s की स्वतंत्रता के द्वारा । Cov(R,S)=0Yi

अब, हम प्राप्त करने के लिए एक टेलर विस्तार का उपयोग करते हैं

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
जहां विशेष रूप से, हम get
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

अगर आपको इसमें कुछ गलत लगता है तो कृपया कमेंट करें।

संपादन:

1 संपादित करें -

में एक टाइपो फिक्स्ड । प्रश्न 4 के बारे में टिप्पणियों में आपके सुझाव के लिए धन्यवाद @cardinal।VF(t)

2 संपादित करें -

टाइप किए गए बहुत सारे टाइपो: मेरे पास कई जगहों पर जहां मुझे होना चाहिए था । मुझे अभी भी @ बारे में कार्डिनल की प्रतिक्रिया को संबोधित करने की आवश्यकता है ।c1cYi=0


1
प्रिय @user: यह सही रास्ते पर है; यहाँ कुछ सुझाव हैं। ( 1 ) ) का अर्थ मौजूद नहीं है, कम से कम तब तक नहीं जब तक आप निर्दिष्ट नहीं करते कि क्या होता है जब , इसलिए उत्तर में विश्लेषण को सख्ती से बोलना सही नहीं है। शून्य पर एक व्यवहार को परिभाषित करना स्वतंत्रता संरचना को तोड़ देगा, लेकिन सभी खो नहीं है। ( ) अनिवार्य रूप से, आप जो कर रहे हैं वह मल्टीवेरेट डेल्टा विधि को लागू कर रहा है। ध्यान दें कि यह के माध्य के अस्तित्व की आवश्यकता नहीं है , इसलिए यदि आप इस मार्ग पर जाते हैं तो यह क्लीनर (और अधिक सही) होगा। F~n(t)iYi=0F~n(t)
कार्डिनल

2
( ) आपकी सूची में आइटम ४ को निम्नानुसार संभाला गया है। ध्यान दें किदायीं ओर का पहला शब्द, , is, तो स्पष्ट रूप से । आप केवल मध्य अवधि से निपटने के लिए रह गए हैं, लेकिन जेन्सेन द्वारा पीछा किए गए मार्कोव की असमानता के लिए तत्परता से है और यह भी ।
supC[0,1]C|F~F|sup[0,1]|F~F~|+01|F~EF~|+O(n1).
{iYi>0}|1cn1iYi|Op(n1/2)Op(n1/2)
कार्डिनल

प्रिय @user: यह मामला पर विचार करने की आवश्यकता नहीं है के बारे में आपकी टिप्पणी के लिए कुछ और विस्तार देखने के लिए उपयोगी होगा । आप जो वर्णन कर रहे हैं वह सशर्त नमूना है। पर सशर्त हैं नहीं स्वतंत्र (या सशर्त स्वतंत्र), तो जवाब में (छुपा हुआ) विश्लेषण नहीं रखता है। इसे देखने के लिए मामले को देखना उपयोगी हो सकता है (बस तालिका बनाएं)। iYi=0Yi{iYi>0}n=22×2
कार्डिनल

अतिरिक्त रूप से, यह ध्यान देने योग्य हो सकता है कि, इसलिए इस परिभाषा को सरल बनाया जा सकता है। supCC|F~F|=01|F~F|
कार्डिनल
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.