बहुभिन्नरूपी मोड का कम्प्यूटेशनल रूप से कुशल अनुमान


14

लघु संस्करण: एक बहुआयामी डेटा सेट के मोड का आकलन करने का सबसे कम्प्यूटेशनल तरीका क्या है, जो निरंतर वितरण से नमूना है?

लंबा संस्करण: मुझे एक डेटा सेट मिला है, जिसके लिए मुझे मोड का अनुमान लगाना होगा। मोड माध्य या माध्यिका के साथ मेल नहीं खाता। एक नमूना नीचे दिखाया गया है, यह एक 2 डी उदाहरण है, लेकिन एक एनडी समाधान बेहतर होगा: यहाँ छवि विवरण दर्ज करें

वर्तमान में, मेरी विधि है

  1. मोड के वांछित रिज़ॉल्यूशन के बराबर ग्रिड पर कर्नेल घनत्व अनुमान की गणना करें
  2. सबसे बड़ी गणना बिंदु के लिए देखें

जाहिर है, यह बहुत गैर-प्रशंसनीय बिंदुओं पर केडीई की गणना करता है, जो विशेष रूप से खराब है यदि उच्च आयामों के बहुत सारे डेटा बिंदु हैं या मैं मोड पर अच्छे समाधान की उम्मीद करता हूं।

केडीई में वैश्विक शिखर को खोजने के लिए एक वैकल्पिक एनीलिंग, जेनेटिक एल्गोरिदम आदि का उपयोग किया जाएगा।

सवाल यह है कि क्या इस गणना को करने का एक स्मार्ट तरीका है?


मुझे इसका जवाब नहीं पता, लेकिन लगता है कि यह एक बड़ा सवाल है। मेरे लिए आपके द्वारा बताए गए तरीकों से बेहतर दृष्टिकोणों के बारे में सोचना कठिन है। मुझे लगता है कि बहुभिन्नरूपी की तुलना में एकतरफा कर्नेल अनुमान के दृष्टिकोण के बीच अंतर हैं। डेविड स्कॉट की यह पुस्तक बहुभिन्नरूपी कर्नेल दृष्टिकोण के बारे में सहायक हो सकती है, हालांकि मुझे यकीन नहीं है कि वह चोटी के शिकार पर चर्चा करती है। amazon.com/…
बजे माइकल आर। चेरिक

जवाबों:


7

KKf(x)Kf(x)K

इस ब्लॉग प्रविष्टि में एल्गोरिथ्म पर एक बहुत विस्तृत विवरण भी दिया गया है ।


3
अच्छा संदर्भ, लैरी वासरमैन ने भी हाल ही में कम विस्तार में तकनीक का वर्णन करते हुए एक छोटा पोस्ट किया था, द अमेजिंग मीन शिफ्ट एल्गोरिथम
एंडी डब्ल्यू

1
@AndyW अच्छा कॉल! लैरी वासरमैन की पोस्ट (और सामान्य तौर पर उनका ब्लॉग) बढ़िया है। टिप्पणियों के माध्यम से जा रहे हैं, मुझे माया-शिफ्ट, मेडियोड-शिफ्ट और एक संस्करण, क्विकशिफ्ट पर यह चित्रण संदर्भ मिला ।
समीर

2
धन्यवाद। यह नहीं कहा जा सकता कि क्या यह सबसे तेज़ है, लेकिन यह निश्चित रूप से स्थानीय अधिकतम पाता है। यहाँ कुछ सिंथेटिक डेटा पर प्रक्षेपवक्र और सीखने की दर के कुछ भूखंड हैं
tkw954

9

यदि आपकी मुख्य रुचि 2-आयामी समस्याएं हैं, तो मैं कहूंगा कि कर्नेल घनत्व का अनुमान एक अच्छा विकल्प है क्योंकि इसमें अच्छा विषम गुण हैं (ध्यान दें कि मैं यह नहीं कह रहा हूं कि यह सबसे अच्छा है)। उदाहरण के लिए देखें

परजन, ई। (1962)। एक संभावना घनत्व समारोह और मोड के आकलन परगणितीय सांख्यिकी 33: 1065-1076।

डी वैल्पाइन, पी। (2004)। मोंटे कार्लो राज्य अंतरिक्ष संभावनाएं भारित कर्नेल घनत्व अनुमान द्वाराजर्नल ऑफ़ द अमेरिकन स्टैटिस्टिकल एसोसिएशन 99: 523-536।

उच्चतर आयामों (4+) के लिए यह विधि वास्तव में धीमी है क्योंकि इष्टतम बैंडविड्थ मैट्रिक्स का अनुमान लगाने में अच्छी तरह से ज्ञात कठिनाई है, देखें

अब, ksपैकेज में कमांड के साथ समस्या KDEयह है, जैसा कि आपने उल्लेख किया है कि यह एक विशिष्ट ग्रिड में घनत्व का मूल्यांकन करता है जो बहुत सीमित हो सकता है। यदि आप KDEबैंडविड्थ मैट्रिक्स का अनुमान लगाने के लिए पैकेज का उपयोग करते हैं, तो उदाहरण के लिए Hscv, कर्नेल घनत्व अनुमानक को लागू करें और फिर कमांड का उपयोग करके इस फ़ंक्शन को ऑप्टिमाइज़ करें, तो यह समस्या हल हो सकती है optim। यह नीचे सिम्युलेटेड डेटा और एक गाऊसी कर्नेल का उपयोग करके नीचे दिखाया गया है R

rm(list=ls())

# Required packages
library(mvtnorm)
library(ks)

# simulated data
set.seed(1)
dat = rmvnorm(1000,c(0,0),diag(2))

# Bandwidth matrix
H.scv=Hlscv(dat)

# [Implementation of the KDE](http://en.wikipedia.org/wiki/Kernel_density_estimation)
H.eig = eigen(H.scv)
H.sqrt = H.eig$vectors %*% diag(sqrt(H.eig$values)) %*% solve(H.eig$vectors)
H = solve(H.sqrt)
dH = det(H.scv)

Gkde = function(par){
return( -log(mean(dmvnorm(t(H%*%t(par-dat)),rep(0,2),diag(2),log=FALSE)/sqrt(dH))))
}

# Optimisation
Max = optim(c(0,0),Gkde)$par
Max

उदाहरण के लिए, आकार-प्रतिबंधित अनुमानक तेज़ होते हैं

Cule, ML, Samworth, RJ and Stewart, MI (2010)। बहु-आयामी लॉग-अवतल घनत्व का अधिकतम संभावना अनुमानजर्नल रॉयल स्टैटिस्टिकल सोसाइटी बी 72: 545-600।

लेकिन वे इस उद्देश्य के लिए बहुत अधिक उत्साहित हैं ।

4

अन्य तरीके जो आप उपयोग करने पर विचार कर सकते हैं, वे हैं: मानदंडों (या अन्य लचीले वितरण) या एक बहुभिन्नरूपी परिमित मिश्रण की फिटिंग

अब्राहम, सी।, बियू, जी। और कैडर, बी। (2003)। एक बहुभिन्नरूपी घनत्व के मोड का सरल अनुमानकनाडाई जर्नल ऑफ़ स्टैटिस्टिक्स 31: 23-34।

आशा है कि ये आपकी मदद करेगा।


0

हाल ही में हमने एक तेज़ सुसंगत मोड अनुमानक का सुझाव देते हुए एक पेपर प्रकाशित किया है।

पीएस रुज़ैंकिन और एवी लोगाचोव (2019)। बहुआयामी अंतरिक्ष में एक तेज मोड अनुमानक। सांख्यिकी और संभाव्यता पत्र

O(dn)dn

मैं अपने हालिया पेपर से नए न्यूनतम विचरण मोड के अनुमानकों का भी सुझाव दूंगा

पीएस रुज़ंकिन (2020)। नोनपामेट्रिक मोड के एक वर्ग के अनुमानक। सांख्यिकी में संचार - सिमुलेशन और कम्प्यूटेशन

O(dn2)nRd

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.