घनत्व अनुमान विधि का नाम क्या है जहां एक सामान्य मिश्रण वितरण बनाने के लिए सभी संभव जोड़े का उपयोग किया जाता है?

मैंने केवल एक आयामी घनत्व अनुमान बनाने का एक साफ (जरूरी नहीं कि अच्छा) तरीका सोचा है और मेरा सवाल है:

क्या इस घनत्व आकलन विधि का कोई नाम है? यदि नहीं, तो क्या यह साहित्य में किसी अन्य पद्धति का विशेष मामला है?

यहाँ विधि है: हमारे पास एक वेक्टर जो हम मानते हैं कि कुछ अज्ञात वितरण से लिया गया है जिसका हम अनुमान लगाना चाहते हैं। ऐसा करने का एक तरीका यह है कि में मूल्यों के सभी संभव जोड़े लें और प्रत्येक जोड़ी के लिए अधिकतम संभावना का उपयोग करके एक सामान्य वितरण फिट करें। परिणामी घनत्व अनुमान तब मिश्रण वितरण होता है जिसमें सभी परिणामी नॉर्मल होते हैं, जहां प्रत्येक नॉर्मल को समान वजन दिया जाता है। $X = [x_1,x_2,...,x_n]$ $X$ $[x_i,x_j]_{i \neq j}$

नीचे दी गई आकृति वेक्टर पर इस पद्धति का उपयोग करके दिखाती है । यहां मंडलियां डाटापॉइंट्स हैं, रंगीन नॉर्मल्स अधिकतम संभावित वितरण हैं जो प्रत्येक संभावित जोड़ी का उपयोग करके अनुमानित हैं और मोटी काली रेखा परिणामी घनत्व अनुमान (यानी, मिश्रण वितरण) को दर्शाती है। $[-1.3,0.15,0.73,1.4]$

यहाँ छवि विवरण दर्ज करें

वैसे, आर में एक विधि को लागू करना वास्तव में आसान है जो परिणामस्वरूप मिश्रण वितरण से एक नमूना खींचता है:

# Generating some "data"
x <- rnorm(30)

# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
  pair <- sample(x, size = 2)
  rnorm(1, mean(pair), sd(pair))
})

# Plotting the density estimate compared with 
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')

यहाँ छवि विवरण दर्ज करें

— रासमस बैसथ
स्रोत

अपने तरीके को आजमा कर देखेंx <- c(rnorm(30), rnorm(30, 10))

— दासोन

@Dason हां, उस मामले में विधि बिल्कुल भी काम नहीं करती है! :) इसके अलावा यह बड़े n के साथ अभिसरण नहीं करता है।

— रासमस बैथ

यह कर्नेल घनत्व अनुमान के दूषित संस्करण की तरह लगता है जहां बैंडविड्थ को क्रॉस-मान्यता द्वारा अनुमानित किया जाता है!

— शीआन

'हमारे पास एक वेक्टर

जो हम मानते हैं कि कुछ अज्ञात वितरण से हम अनुमान लगाना चाहेंगे' जैसा कि शायद स्पष्ट किया जाना चाहिए क्योंकि यह मेरे जैसा लगता है। प्रश्न एक अवलोकन के आधार पर एक सामान्य

-आयामी आयामी बहुभिन्नरूपी वितरण का अनुमान लगाने के बारे में था ।

X = [x_{1}, x_{2}, \dots, x_{n}]

$X=[x_1,x_2,\ldots,x_n]$

n

$n$

— जुहो कोक्कल

यह एक पेचीदा विचार है, क्योंकि मानक विचलन का अनुमानक सामान्य रूट-मीन-स्क्वायर दृष्टिकोणों की तुलना में आउटलेर्स के प्रति कम संवेदनशील प्रतीत होता है। हालांकि, मुझे संदेह है कि यह अनुमानक प्रकाशित किया गया है। तीन कारण हैं: यह कम्प्यूटेशनल रूप से अक्षम है, यह पक्षपातपूर्ण है, और यहां तक कि जब पूर्वाग्रह को ठीक किया जाता है, तो यह सांख्यिकीय रूप से अक्षम है (लेकिन केवल थोड़ा सा)। इन्हें थोड़ा प्रारंभिक विश्लेषण के साथ देखा जा सकता है, तो चलिए पहले ऐसा करते हैं और फिर निष्कर्ष निकालते हैं।

विश्लेषण

$\mu$ $\sigma$ $(x_i, x_j)$

\hat{μ} ({एक्स}_{मैं}, {एक्स}_{जे}) = \frac{{एक्स}_{मैं} + {एक्स}_{जे}}{2}

$\hat\mu(x_i,x_j) = \frac{x_i+x_j}{2}$

तथा

\hat{σ} ({एक्स}_{मैं}, {एक्स}_{जे}) = \frac{| {एक्स}_{मैं} - {एक्स}_{जे} |}{2} ।

$\hat\sigma(x_i,x_j) = \frac{|x_i-x_j|}{2}.$

इसलिए प्रश्न में वर्णित विधि है

\hat{μ} ({एक्स}_{1}, {एक्स}_{2}, ..., {एक्स}_{n}) = \frac{2}{n (n - 1)} \underset{मैं > जे}{Σ} \frac{{एक्स}_{मैं} + {एक्स}_{जे}}{2} = \frac{1}{n} Σ_{मैं = 1}^{n} {एक्स}_{मैं},

$\hat\mu(x_1, x_2, \ldots, x_n) = \frac{2}{n(n-1)} \sum_{i\gt j} \frac{x_i+x_j}{2} = \frac{1}{n}\sum_{i=1}^nx_i,$

जो माध्य का सामान्य अनुमानक है, और

\hat{σ} ({एक्स}_{1}, {एक्स}_{2}, ..., {एक्स}_{n}) = \frac{2}{n (n - 1)} \underset{मैं > जे}{Σ} \frac{| {एक्स}_{मैं} - {एक्स}_{जे} |}{2} = \frac{1}{n (n - 1)} \underset{मैं, जे}{Σ} | {एक्स}_{मैं} - {एक्स}_{जे} | ।

$\hat\sigma(x_1, x_2, \ldots, x_n) = \frac{2}{n(n-1)}\sum_{i\gt j}\frac{|x_i-x_j|}{2} = \frac{1}{n(n-1)}\sum_{i,j}|x_i-x_j|.$

$E = \mathbb{E}(|x_i-x_j|)$ $i$ $j$

इ (\hat{σ} ({एक्स}_{1}, {एक्स}_{2}, ..., {एक्स}_{n})) = \frac{1}{n (n - 1)} \underset{मैं, जे}{Σ} इ (| {एक्स}_{मैं} - {एक्स}_{जे} |) = इ ।

$\mathbb{E}(\hat\sigma(x_1, x_2, \ldots, x_n)) = \frac{1}{n(n-1)}\sum_{i,j}\mathbb{E}(|x_i-x_j|) = E.$

$x_i$ $x_j$ $2\sigma^2$ $\sqrt{2}\sigma$ $\chi(1)$ $\sqrt{2/\pi}$

इ = \frac{2}{\sqrt{π}} σ ।

$E = \frac{2}{\sqrt{\pi}} \sigma.$

$2/\sqrt{\pi} \approx 1.128$

$\hat\sigma$

निष्कर्ष

$\hat\sigma$ $n=20,000$
$\sum_{i,j}|x_i-x_j|$ $O(n^2)$ $O(n)$ $n$ $10,000$ R। (अन्य प्लेटफार्मों पर रैम की आवश्यकताएं बहुत कम होंगी, शायद गणना समय में थोड़ी लागत पर।)
यह सांख्यिकीय रूप से अक्षम है। इसे सबसे अच्छा दिखाने के लिए, आइए निष्पक्ष संस्करण पर विचार करें और इसकी तुलना कम से कम वर्गों या अधिकतम संभावना अनुमानक के निष्पक्ष संस्करण से करें।

${\hat{σ}}_{हे एल एस} = \sqrt{(\frac{1}{n - 1} Σ_{मैं = 1}^{n} {({एक्स}_{मैं} - \hat{μ})}^{2})} \frac{(n - 1) Γ ((n - 1) / 2)}{2 Γ (n / 2)} ।$ $\hat\sigma_{OLS} = \sqrt{\left(\frac{1}{n-1} \sum_{i=1}^n \left(x_i - \hat\mu\right)^2\right)} \frac{(n-1)\Gamma((n-1)/2)}{2\Gamma(n/2)}.$
R $n=3$ $n=300$ $\hat\sigma_{OLS}$ $\sigma$

इसके बाद

$\hat\sigma$

कोड

sigma <- function(x) sum(abs(outer(x, x, '-'))) / (2*choose(length(x), 2))
#
# sigma is biased.
#
y <- rnorm(1e3) # Don't exceed 2E4 or so!
mu.hat <- mean(y)
sigma.hat <- sigma(y)

hist(y, freq=FALSE,
     main="Biased (dotted red) and Unbiased (solid blue) Versions of the Estimator",
     xlab=paste("Sample size of", length(y)))
curve(dnorm(x, mu.hat, sigma.hat), col="Red", lwd=2, lty=3, add=TRUE)
curve(dnorm(x, mu.hat, sqrt(pi/4)*sigma.hat), col="Blue", lwd=2, add=TRUE)
#
# The variance of sigma is too large.
#
N <- 1e4
n <- 10
y <- matrix(rnorm(n*N), nrow=n)
sigma.hat <- apply(y, 2, sigma) * sqrt(pi/4)
sigma.ols <- apply(y, 2, sd) / (sqrt(2/(n-1)) * exp(lgamma(n/2)-lgamma((n-1)/2)))

message("Mean of unbiased estimator is ", format(mean(sigma.hat), digits=4))
message("Mean of unbiased OLS estimator is ", format(mean(sigma.ols), digits=4))
message("Variance of unbiased estimator is ", format(var(sigma.hat), digits=4))
message("Variance of unbiased OLS estimator is ", format(var(sigma.ols), digits=4))
message("Efficiency is ", format(var(sigma.ols) / var(sigma.hat), digits=4))

— व्हीबर
स्रोत

प्रासंगिक साहित्य थोड़ी देर के लिए वापस चला जाता है जैसे डाउटन, एफ। 1966 बहुपद गुणांक के साथ रैखिक अनुमान। बायोमेट्रिक 53: 129-141 डोई: 10.1093 / बायोमेट्रिक / 53.1-2.129

— निक कॉक्स

वाह, मैं जितना मैं के लिए सौदेबाजी की तुलना में अधिक मिला! :)

— रासमस बैथ