अनुभवजन्य संभाव्यता घनत्व के बीच ओवरलैप की गणना कैसे करें?


14

मैं दो नमूनों के बीच समानता के एक उपाय के रूप में, आर में दो कर्नेल घनत्व अनुमानों के बीच ओवरलैप के क्षेत्र की गणना करने के लिए एक विधि की तलाश कर रहा हूं। स्पष्ट करने के लिए, निम्नलिखित उदाहरण में, मुझे क्षेत्र के अतिव्यापी क्षेत्र की मात्रा निर्धारित करने की आवश्यकता होगी:

library(ggplot2)
set.seed(1234)
d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3)))
ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA)

यहाँ छवि विवरण दर्ज करें

इसी तरह के एक सवाल पर यहां चर्चा की गई , यह अंतर कि मुझे पूर्वनिर्धारित सामान्य वितरणों के बजाय मनमाने अनुभवजन्य डेटा के लिए ऐसा करने की आवश्यकता है। overlapपैकेज पते इस सवाल है, लेकिन जाहिरा तौर पर केवल टाइमस्टैम्प डेटा है, जो मेरे लिए काम नहीं करता है के लिए। ब्रे-कर्टिस इंडेक्स (जैसा veganपैकेज के vegdist(method="bray")फंक्शन में लागू किया गया है ) भी प्रासंगिक है लेकिन कुछ अलग डेटा के लिए फिर से।

मैं सैद्धांतिक दृष्टिकोण और आर कार्यों दोनों में रुचि रखता हूं जो इसे लागू करने के लिए नियोजित कर सकते हैं।


2
"बैंगनी क्षेत्र की मात्रा निर्धारित करें" अनुमान में एक समस्या है, परिकल्पना परीक्षण में नहीं, इसलिए आप "मानक मानक सांख्यिकीय परीक्षण का उपयोग करके इसे पूरा करने" की उम्मीद नहीं कर सकते । आप स्वयं विरोधाभास करते हैं। कृपया स्पष्ट करें कि आप वास्तव में क्या चाहते हैं। यदि आप चाहते हैं कि दो केडीई के ओवरलैप के क्षेत्र का अनुमान है, तो यह एक सरल गणना है।
Glen_b -Reinstate मोनिका

@Glen_b टिप्पणी के लिए धन्यवाद, मेरी गैर-सांख्यिकीय सोच को स्पष्ट करने में मदद की। मेरा मानना ​​है कि केडीई के बीच ओवरलैप का क्षेत्र वास्तव में वही है जिसकी मैं तलाश कर रहा हूं - मैंने उस प्रश्न को प्रतिबिंबित करने के लिए संपादित किया है।
mmk

2
मैं इस पद्धति में मनमानी के जोखिम के बारे में बहुत चिंतित हूं। कर्नेल बैंडविड्थ के आधार पर, किसी भी दो डेटासेट के बीच गणना किए गए ओवरलैप को अंतराल में किसी भी चुने हुए मूल्य के बराबर किया जा सकता है । इस उद्देश्य के लिए डिफ़ॉल्ट बैंडवीड्स को अनुकूलित नहीं किया गया है और इसलिए यह आश्चर्यजनक रूप से आश्चर्यजनक, मनमाना या असंगत परिणाम दे सकता है। प्राकृतिक सीमा के साथ डेटासेट (जैसे गैर-नकारात्मक डेटा या अनुपात, आदि) आगे अवांछित बढ़त प्रभाव पेश करेंगे। इसके बजाय क्या करना है? इस गणना के कारण के साथ शुरू करें: इस "समानता" का मतलब क्या है? (0,1)
whuber

कुछ महीने बाद भी यही सवाल सामने आया लेकिन चौराहे के बिंदुओं का हवाला दिया गया लेकिन कुछ मान्य नोट थे जिन्हें ध्यान में रखा जा सकता था। संदर्भित प्रश्न में दो अनुभवजन्य वितरण के बारे में है। मैं लिंक जोड़ता हूं क्योंकि यह पोस्ट केवल कर्नेल घनत्व अनुमान के माध्यम से और सामान्य वितरण के लिए इसका जवाब देता है। नीचे दी गई लिंक मुझे लगता है कि अनुभवजन्य वितरण के जोड़े के लिए सवाल पर फैली हुई है। आंकड़े.stackexchange.com/questions/122857/… - Barnaby 7 घंटे पहले
Barnaby

जवाबों:


9

दो कर्नेल घनत्व अनुमानों के ओवरलैप के क्षेत्र को सटीकता के किसी भी वांछित डिग्री के लिए अनुमानित किया जा सकता है।

1) के बाद से मूल KDEs शायद कुछ ग्रिड पर मूल्यांकन किया जाता किया गया है, यदि ग्रिड दोनों के लिए एक ही है (या आसानी से एक ही बनाया जा सकता है), व्यायाम कर सकता है के रूप में आसान के रूप में बस ले जा प्रत्येक बिंदु पर 2 ( x ) ) और फिर ट्रेपोजॉइडल नियम, या यहां तक ​​कि एक मध्य बिंदु नियम का उपयोग करना।min(K1(x),K2(x))

यदि दोनों अलग-अलग ग्रिड पर हैं और आसानी से एक ही ग्रिड पर पुनर्गणना नहीं की जा सकती है, तो प्रक्षेप का उपयोग किया जा सकता है।

2) आपको चौराहे के बिंदु (या अंक) मिल सकते हैं और प्रत्येक अंतराल में दो केडीई के निचले हिस्से को एकीकृत कर सकते हैं जहां प्रत्येक एक कम है। ऊपर दिए गए अपने आरेख में, आप नीले वक्र को चौराहे के बाईं ओर और गुलाबी को दाईं ओर जो भी आपके द्वारा पसंद किया गया है, उपलब्ध हैं / उपलब्ध कराएंगे। यह अनिवार्य रूप से प्रत्येक कर्नेल घटक तहत क्षेत्र पर विचार करके अनिवार्य रूप से किया जा सकता है1hK(xxih)

हालांकि , ऊपर दिए गए व्हिबर की टिप्पणियों को स्पष्ट रूप से ध्यान में रखा जाना चाहिए - यह जरूरी नहीं कि बहुत सार्थक बात है।


आप विधि एक और विधि 2 से जुड़ी त्रुटि की गणना कैसे करेंगे?
17 बजे ollollpower

सामान्य परिस्थितियों में, कर्नेल घनत्व के अनुमानों में त्रुटि की तुलना में दोनों न्यूनतम होंगे, इसलिए मुझे बहुत चिंता नहीं होगी। त्रुटि सीमा की गणना ट्रेपोज़ाइडल विधियों और पाठ्यक्रम के अन्य संख्यात्मक एकीकरण पर की जा सकती है - इस तरह की गणना बहुत मानक है - लेकिन यह व्यर्थ चिंताजनक है कि केडीई को बड़ी अनिश्चितता है। पद्धति 2 गणना की संचित गोलाई त्रुटि के लिए सटीक होगी।
Glen_b -Reinstate मोनिका

1
ये कार्यप्रणाली सुझाव समझ में आती है, आपके उत्तर के लिए बहुत बहुत धन्यवाद। मैं आर में इसे लागू करने पर काम करूंगा, लेकिन एक नौसिखिए के रूप में मुझे इस पर सुझाव देना चाहिए कि इस सफाई को कैसे कोडित किया जाए।
मिमीक

10

पूर्णता के लिए, यहाँ बताया गया है कि मैंने R में यह कैसे किया:

# simulate two samples
a <- rnorm(100)
b <- rnorm(100, 2)

# define limits of a common grid, adding a buffer so that tails aren't cut off
lower <- min(c(a, b)) - 1 
upper <- max(c(a, b)) + 1

# generate kernel densities
da <- density(a, from=lower, to=upper)
db <- density(b, from=lower, to=upper)
d <- data.frame(x=da$x, a=da$y, b=db$y)

# calculate intersection densities
d$w <- pmin(d$a, d$b)

# integrate areas under curves
library(sfsmisc)
total <- integrate.xy(d$x, d$a) + integrate.xy(d$x, d$b)
intersection <- integrate.xy(d$x, d$w)

# compute overlap coefficient
overlap <- 2 * intersection / total

जैसा कि कहा गया है, केडीई पीढ़ी में निहित अनिश्चितता और व्यक्तिवाद भी है और एकीकरण में भी।


2
अब CRAN पर एक पैकेज है जिसे कहा जाता है overlappingकि 2 के ओवरलैप के क्षेत्र (या अधिक) अनुभवजन्य वितरण का अनुमान है। यहाँ दस्तावेज़ देखें: rdocumentation.org/packages/overlapping/versions/1.5.0/topics/…
स्टीफन एवे

x,dx,dx,d

@ आप 2 डी घनत्व के लिए ऐसा कर सकते हैं?
ओवरफ्लो पुलिस

4

सबसे पहले, मैं गलत हो सकता हूं, लेकिन मुझे लगता है कि आपका समाधान उस स्थिति में काम नहीं करेगा जहां गुणक बिंदु हैं जहां कर्नेल घनत्व अनुमान (केडीई) प्रतिच्छेद है। दूसरा, हालांकि overlapपैकेज टाइमस्टैम्प डेटा के साथ उपयोग के लिए बनाया गया था, फिर भी आप किसी भी दो एडीडी के ओवरलैप के क्षेत्र का अनुमान लगाने के लिए इसका उपयोग कर सकते हैं। आपको बस अपने डेटा को फिर से बेचना है ताकि यह 0 से 2c तक हो।
उदाहरण के तौर पर :

# simulate two sample    
 a <- rnorm(100)
 b <- rnorm(100, 2)

# To use overplapTrue(){overlap} the scale must be in radian (i.e. 0 to 2pi)
# To keep the *relative* value of a and b the same, combine a and b in the
# same dataframe before rescaling. You'll need to load the ‘scales‘ library.
# But first add a "Source" column to be able to distinguish between a and b
# after they are combined.
 a = data.frame( value = a, Source = "a" )
 b = data.frame( value = b, Source = "b" )
 d = rbind(a, b)
 library(scales) 
 d$value <- rescale( d$value, to = c(0,2*pi) )

# Now you can created the rescaled a and b vectors
 a <- d[d$Source == "a", 1]
 b <- d[d$Source == "b", 1]

# You can then calculate the area of overlap as you did previously.
# It should give almost exactly the same answers.
# Or you can use either the overlapTrue() and overlapEst() function 
# provided with the overlap packages. 
# Note that with these function the KDE are fitted using von Mises kernel.
 library(overlap)
  # Using overlapTrue():
   # define limits of a common grid, adding a buffer so that tails aren't cut off
     lower <- min(d$value)-1 
     upper <- max(d$value)+1
   # generate kernel densities
     da <- density(a, from=lower, to=upper, adjust = 1)
     db <- density(b, from=lower, to=upper, adjust = 1)
   # Compute overlap coefficient
     overlapTrue(da$y,db$y)


  # Using overlapEst():            
    overlapEst(a, b, kmax = 3, adjust=c(0.8, 1, 4), n.grid = 500)

# You can also plot the two KDEs and the region of overlap using overlapPlot()
# but sadly I haven't found a way of changing the x scale so that the scale 
# range correspond to the initial x value and not the rescaled value.
# You can only change the maximum value of the scale using the xscale argument 
# (i.e. it always range from 0 to n, where n is set with xscale = n).
# So if some of your data take negative value, you're probably better off with
# a different plotting method. You can change the x label with the xlab
# argument.  
  overlapPlot(a, b, xscale = 10, xlab= "x metrics", rug=T)
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.