डेटा के संभाव्यता वितरण के आकलन के लिए विभिन्न गैर-पैरामीट्रिक तरीके


10

मेरे पास कुछ डेटा है और मैं इसे एक चिकनी वक्र फिट करने की कोशिश कर रहा था। हालाँकि, मैं इस पर (या मेरे प्रश्न के बाकी हिस्सों द्वारा निहित लोगों को छोड़कर) बहुत अधिक पूर्व मान्यताओं या बहुत मजबूत पूर्व-धारणाओं को लागू नहीं करना चाहता हूं या कोई विशिष्ट वितरण।

मैं बस इसे कुछ चिकनी वक्र के साथ फिट करना चाहता था (या संभावना वितरण का एक अच्छा अनुमान है कि यह कहां से आया होगा)। एकमात्र तरीका जो मुझे ऐसा करने के लिए पता है वह है कर्नेल घनत्व अनुमान (KDE)। मैं सोच रहा था, अगर लोगों को इस तरह के अनुमान लगाने के अन्य तरीकों के बारे में पता था। मैं सिर्फ उनकी एक सूची चाहता था और उसमें से मैं यह पता लगाने के लिए अपना शोध कर सकता हूं कि मैं किन चीजों का उपयोग करना चाहता हूं।

किसी भी लिंक या अच्छे संदर्भ (या जिन पर अंतर्ज्ञान अच्छे हैं) देते हुए हमेशा स्वागत है (और प्रोत्साहित किया जाता है)!


3
" मैं इस पर किसी भी पूर्व विश्वास को लागू नहीं करना चाहता था " - तो आप यह नहीं मान सकते कि यह चिकनी है, या यहां तक ​​कि निरंतर (वे पूर्व विश्वास होंगे)। जिस मामले में ecdf आपके एकमात्र सहारा के बारे में है।
Glen_b -Reinstate मोनिका

1
मेरे विश्वास को मजबूत करने के लिए अपने प्रश्न को बेहतर बनाने का एक बेहतर तरीका है। मेरा मतलब है कि मैं बर्नौली या ऐसा कुछ भी नहीं बोलना चाहता, जो प्रतिबंधक हो सकता है। मुझे नहीं पता कि क्या है कि क्या है। यदि आपके पास कोई अच्छा सुझाव या सुझावों की सूची है, तो इसे पोस्ट करने के लिए स्वतंत्र महसूस करें।
पिनोच्चियो

मैंने अपना प्रश्न अपडेट कर दिया है। क्या वो बेहतर है? अधिक स्पष्ट? मेरे सवाल का कोई सही जवाब नहीं है, केवल अच्छे और कम उपयोगी हैं। :)
पिनोचियो

2
ecdf = आनुभविक cdf , सॉरी। हम केवल आपके द्वारा पूछे गए प्रश्न का उत्तर दे सकते हैं, न कि आप जो पूछना चाहते हैं, इसलिए जब आप अपनी मान्यताओं को व्यक्त करते हैं, तो आपको स्पष्ट होने के लिए सावधान रहना होगा।
Glen_b -Reinstate Monica

एक सामान्यीकृत हिस्टोग्राम को घनत्व के अनुमान के रूप में देखा जा सकता है
दासन

जवाबों:


5

आप यह निर्दिष्ट नहीं करते हैं कि आप निरंतर यादृच्छिक चर के बारे में बात कर रहे हैं, लेकिन मैं मानता हूँ, जब से आप केडीई का उल्लेख करते हैं, कि आप इसका इरादा रखते हैं।

चिकनी घनत्व फिटिंग के लिए दो अन्य तरीके:

1) लॉग-स्लाइन घनत्व का अनुमान। यहाँ एक वक्र वक्र लॉग-घनत्व के लिए फिट है।

एक उदाहरण कागज:

कोपरबर्ग एंड स्टोन (1991),
"लॉगस्पलाइन घनत्व आकलन का एक अध्ययन,"
कम्प्यूटेशनल सांख्यिकी और डेटा विश्लेषण , 12 , 327-347

कोपरबर्ग "1991" के तहत, यहां अपने पेपर के पीडीएफ के लिए एक लिंक प्रदान करता है ।

यदि आप R का उपयोग करते हैं, तो इसके लिए एक पैकेज है। इसके द्वारा उत्पन्न एक फिट का एक उदाहरण यहाँ है । नीचे दिए गए डेटा के लॉग का एक हिस्टोग्राम है, और उत्तर के लिए लॉगस्पलाइन और कर्नेल घनत्व के अनुमानों का प्रजनन है:

लॉग-डेटा का हिस्टोग्राम

Logspline घनत्व अनुमान:

logspline प्लॉट

कर्नेल घनत्व का अनुमान:

कर्नेल घनत्व का अनुमान

2) परिमित मिश्रण मॉडल । यहां वितरण के कुछ सुविधाजनक परिवार को चुना जाता है (कई मामलों में, सामान्य), और घनत्व को उस परिवार के कई अलग-अलग सदस्यों का मिश्रण माना जाता है। ध्यान दें कि कर्नेल घनत्व अनुमानों को इस तरह के मिश्रण के रूप में देखा जा सकता है (गॉसियन कर्नेल के साथ, वे गॉसियन का मिश्रण हैं)।

आम तौर पर इन्हें एमएल, या ईएम एल्गोरिथ्म के माध्यम से या कुछ मामलों में पल मिलान के माध्यम से फिट किया जा सकता है, हालांकि विशेष परिस्थितियों में अन्य दृष्टिकोण संभव हो सकते हैं।

(आर संकुल के ढेर सारे मिश्रण हैं जो मिश्रण मॉडलिंग के विभिन्न रूपों को करते हैं।)

संपादित में जोड़ा गया:

3) एवरेज्ड शिफ्टेड हिस्टोग्राम
(जो शाब्दिक रूप से सुचारू नहीं हैं, लेकिन शायद आपके अस्थिर मानदंडों के लिए पर्याप्त चिकनी हैं):

कल्पना करें कि कुछ निश्चित बैंडविड्थ पर हिस्टोग्राम के अनुक्रम की गणना करें (), एक बिन-मूल के पार जो पार करता है / कुछ पूर्णांक के लिए हर बार, और फिर औसत। यह पहली नज़र को बिनस्टॉप पर किए गए हिस्टोग्राम की तरह लगता है/, लेकिन बहुत चिकनी है।

उदाहरण के लिए, 1 बैंडविड्थ पर प्रत्येक में 4 हिस्टोग्राम की गणना करें, लेकिन + 0, + 0.25, + 0.5, + 0.75 से ऑफसेट करें और फिर किसी भी दिन औसत ऊंचाई दें एक्स। आप कुछ इस तरह से समाप्त करते हैं:

एवरेज्ड शिफ्ट हिस्टोग्राम

इस उत्तर से लिया गया आरेख । जैसा कि मैं वहां कहता हूं, यदि आप प्रयास के उस स्तर पर जाते हैं, तो आप कर्नेल घनत्व का अनुमान लगा सकते हैं।


इससे जोड़ना है। मिश्रण मॉडल के लिए - मुझे लगता है कि आप 2 का मिश्रण कर सकते हैं, फिर 3, फिर 4 वितरण और बंद होने के बाद लॉग-
लाइक

4

ऊपर दिए गए टिप्पणियों के विषय में जैसे कि चिकनाई इत्यादि। आप डार्सिलेट प्रक्रिया के साथ मिश्रण मॉडल का उपयोग करके बायेसियन नॉनपैरेमेट्रिक घनत्व का अनुमान लगा सकते हैं।

नीचे दी गई तस्वीर 'पुराने वफादार' डेटा के लिए एक bivariate सामान्य DP-मिश्रण मॉडल के MCMC आकलन से बरामद संभावना घनत्व आकृति दिखाती है। अंतिम MCMC कदम पर प्राप्त क्लस्टरिंग के अनुसार अंक IIRC रंगीन हैं।

यहाँ छवि विवरण दर्ज करें

तेह 2010 कुछ अच्छी पृष्ठभूमि प्रदान करता है।


1

एक लोकप्रिय विकल्प रैंडम फ़ॉरेस्ट है (देखें समसामयिक अध्याय पाँच " निर्णय वन: वर्गीकरण के लिए एक एकीकृत रूपरेखा, प्रतिगमन, घनत्व अनुमान, कई गुना सीखना और अर्ध-पर्यवेक्षण सीखना " देखें।

यह एल्गोरिथ्म का विस्तार से वर्णन करता है और अन्य लोकप्रिय विकल्पों जैसे कि-मी, जीएमएम और केडीई के खिलाफ इसका मूल्यांकन करता है। रैंडम फ़ॉरेस्ट को आर और स्किकिट-लर्न में लागू किया जाता है।

रैंडम फ़ॉरेस्ट को चतुर तरीके से निर्णय लेने वाले पेड़ हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.