गनी गुणांक और त्रुटि सीमा


11

मेरे पास प्रत्येक समय बिंदु पर एन = 14 गणनाओं के साथ डेटा की एक समय श्रृंखला है, और मैं प्रत्येक समय बिंदु पर इस अनुमान के लिए गनी गुणांक और एक मानक त्रुटि की गणना करना चाहता हूं।

चूँकि मेरे पास प्रत्येक समय बिंदु पर केवल N = 14 काउंट्स हैं, जो मैं जैकनेफ विचरण, अर्थात गणना करके आगे समीकरण 7 से टॉमसन ओग्वांग का समीकरण 7 'जीनी इंडेक्स की गणना का एक सुविधाजनक तरीका और इसकी' मानक त्रुटि ' । कहाँ तत्व के बिना एन मूल्यों की गिनी गुणांक है और का मध्यमान है ।जी(एन,कश्मीर)कश्मीर ˉ जी (एक्स)जी(एन,कश्मीर)var(G)=n1n×k=1n(G(n,k)G¯(n))2G(n,k)kG¯(x)G(n,k)

वेरिएंस के लिए उपरोक्त सूत्र का प्रत्यक्ष अनुभवहीन कार्यान्वयन।

calc.Gini.variance <- function(x) {
  N <- length(x)
  # using jacknifing as suggested by Tomson Ogwang - equation 7
  # in the Oxford Bulletin of Economics and Statistics, 62, 1 (2000)
  # ((n-1)/n) \times \sum_{k=1}^n (G(n,k)-\bar{G}(n))^2
  gini.bar <- Gini(x)

  gini.tmp <- vector(mode='numeric', length=N)
  for (k in 1:N) {
    gini.tmp[k] <- Gini(x[-k])
  }
  gini.bar <- mean(gini.tmp)
  sum((gini.tmp-gini.bar)^2)*(N-1)/N
 }
 calc.Gini.variance(c(1,2,2,3,4,99)) 
 # [1] 0.1696173
 Gini(c(1,2,2,3,4,99))
 # [1] 0.7462462

क्या यह एक छोटे एन के लिए एक उचित दृष्टिकोण है? कोई अन्य सुझाव?


हो सकता है कि आप नमूना अनुमान और मानक त्रुटि दोनों के लिए आपके द्वारा उपयोग की जाने वाली वास्तविक गणना जोड़ सकते हैं क्योंकि बहुत से लोगों को प्रदान किए गए लिंक पर कागज तक पहुंच नहीं हो सकती है।
कार्डिनल

जवाबों:


5

एक समस्या यह होगी कि इस छोटे नमूने के आकार और एक जटिल आँकड़ा (gini गुणांक) के साथ, आपके आँकड़ों की संभाव्यता वितरण निश्चित रूप से लगभग सामान्य नहीं होगा, इसलिए "मानक त्रुटि" भ्रामक हो सकती है यदि आप आत्मविश्वास अंतराल बनाने के लिए इसका उपयोग करने का इरादा रखते हैं। या परिकल्पना परीक्षण सामान्यता पर निर्भर करता है।

मैंने सोचा होगा कि पर्सेंटाइल बूटस्ट्रैप एक बेहतर तरीका होगा, और इसे लागू करने के लिए सरल होगा। उदाहरण के लिए:

> library(reldist) # just for the gini() function
> library(boot) # for the boot() function
> x <- c(1,2,2,3,4,99)
> gini(x)
[1] 0.7462462 # check get same result as in your question
> y <- boot(x, gini, 500)
> quantile(y$t, probs=c(0.025, 0.975))
     2.5%     97.5% 
0.6353158 0.7717868 
> plot(density(y$t))

मैंने अंत तक उत्पन्न प्लॉट को संलग्न नहीं किया है, लेकिन यह दिखाता है कि विश्वास अंतराल बहुत ही असममित है, इसलिए एक विश्वास अंतराल के लिए +/- 1.96 * se जैसी विधि का उपयोग करना भ्रामक होगा। मैं मुख्य रूप से इस कारण से विश्वास अंतराल के लिए कटहल के तरीकों का प्रशंसक नहीं हूं; जैकनाइफ का आविष्कार बिंदु अनुमानों के लिए पूर्वाग्रह घटाने की तकनीक के रूप में किया गया था, जबकि विश्वास अंतराल बूटस्ट्रैप के पूरे विचार के लिए आंतरिक हैं।


यह वास्तव में मूल पेपर के बिंदुओं में से एक है - विधि को विकसित किया जाता है ~ जिनि एसईएस की गणना करने के लिए जैकनाइफ का उपयोग करने के कम्प्यूटेशनल बोझ को राहत देने के लिए। साथ , शायद ही कोई भी बोझ है। N=14
माइकलचिरिको
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.