पीडीएफ आकलन के तरीकों का मूल्यांकन करने का सबसे अच्छा तरीका


10

मैं अपने कुछ विचारों का परीक्षण करना चाहता हूं जो मुझे लगता है कि मैंने जो कुछ भी देखा है, उससे बेहतर है। मैं गलत हो सकता हूं लेकिन मैं अपने विचारों का परीक्षण करना चाहता हूं और कुछ निश्चित टिप्पणियों द्वारा अपने संदेह को मिटा देना चाहता हूं।

मैं जो करने की सोच रहा था वह निम्नलिखित है:

  1. विश्लेषणात्मक रूप से वितरण का एक सेट परिभाषित करें। इनमें से कुछ आसान हैं जैसे गौसियन, वर्दी, या टोपहट। लेकिन इनमें से कुछ कठिन और चुनौतीपूर्ण होने चाहिए जैसे कि सिम्पसंस वितरण।
  2. उन विश्लेषणात्मक वितरणों के आधार पर सॉफ्टवेयर को लागू करें, और कुछ नमूने उत्पन्न करने के लिए उनका उपयोग करें।
  3. क्योंकि वितरण विश्लेषणात्मक रूप से परिभाषित हैं, मैं पहले से ही परिभाषा में- उनके सच्चे पीडीएफ को जानता हूं। यह भी खूब रही।
  4. फिर मैं उपरोक्त नमूनों के खिलाफ निम्नलिखित पीडीएफ अनुमान विधियों का परीक्षण करूंगा:
    • मौजूदा पीडीएफ अनुमान विधियां (जैसे विभिन्न कर्नेल और बैंडवीड के साथ केडीई)।
    • मेरा अपना विचार है कि मुझे लगता है कि कोशिश करने के लायक है।
  5. फिर मैं सही PDF के विरुद्ध अनुमानों की त्रुटि को मापूँगा।
  6. तब मुझे बेहतर पता चलेगा कि पीडीएफ आकलन के कौन से तरीके अच्छे हैं।

मेरे प्रश्न हैं:

  • Q1: क्या मेरी योजना में कोई सुधार हुआ है?
  • Q2: मुझे लगता है कि कई वास्तविक PDF को विश्लेषणात्मक रूप से परिभाषित करना मेरे लिए मुश्किल है। क्या पहले से ही अलग-अलग कठिनाइयों (बहुत मुश्किलों सहित) के साथ कई विश्लेषणात्मक रूप से परिभाषित सच्चे पीडीएफ की एक व्यापक सूची है जिसे मैं यहां फिर से उपयोग कर सकता हूं?

यह मेरे लिए एक मोंटे कार्लो सिमुलेशन की तरह लगता है?
क्रिस्टोफ हैनक जूल

जवाबों:


2

A2: आप बेंचमार्क के निम्नलिखित सेट पर 1D में अपने तरीकों का परीक्षण कर सकते हैं ।


ठीक वैसा ही मैं देख रहा था। और हाँ इस समय मेरी रुचि का मामला 1 डी है।
गुफावासी

11
  • A1। यह मुझे एक समझदार योजना की तरह लगता है। बस कुछ बिंदुओं का उल्लेख करना है। आप विभिन्न त्रुटि मीट्रिक के साथ परीक्षण करना चाहते हैं (एलपी, केएल विचलन, आदि) के बाद से तरीकों नुकसान समारोह के आधार पर अलग-अलग प्रदर्शन करेंगे। इसके अलावा, आप विभिन्न नमूनों की संख्या के लिए परीक्षण करना चाहेंगे। अंत में, कई घनत्व अनुमान विधियाँ कुरूपता / सीमाओं के निकट कुख्यात रूप से खराब प्रदर्शन करती हैं, इसलिए अपने सेट में छंटनी किए गए pdfs को शामिल करना सुनिश्चित करें।

  • ए 2। क्या आप केवल 1-डी पीडीएफ में रुचि रखते हैं या आपकी योजना बहुभिन्नरूपी मामले का परीक्षण करने की है? Pdfs के बेंचमार्क सूट के रूप में, मैंने MCMC एल्गोरिदम के परीक्षण के लक्ष्य के साथ अतीत में कुछ हद तक संबंधित प्रश्न पूछा था, लेकिन मुझे pdfs के सुस्थापित सेट जैसा कुछ नहीं मिला।

यदि आपके पास बहुत समय और कम्प्यूटेशनल संसाधन हैं, तो आप अपने विचार के कुछ प्रकार के प्रतिकूल परीक्षण करने पर विचार कर सकते हैं:

  • Pdfs के बहुत लचीले पैरामीट्रिक परिवार को परिभाषित करें (जैसे, ज्ञात pdfs का एक बड़ा मिश्रण), और अपने गैर-अनुवर्ती वैश्विक अनुकूलन विधि (*) के माध्यम से मिश्रण के पैरामीटर स्थान पर घूमें ताकि आपकी विधि का प्रदर्शन कम से कम हो सके और अधिकतम हो सके कुछ अन्य अत्याधुनिक घनत्व आकलन विधि (और संभवतः इसके विपरीत) का प्रदर्शन। यह आपके तरीके की ताकत / कमजोरी का एक मजबूत परीक्षण होगा।

अंत में, अन्य सभी तरीकों से बेहतर होने की आवश्यकता एक अत्यधिक उच्च बार है; काम पर कोई मुफ्त भोजन सिद्धांत नहीं होना चाहिए (किसी भी एल्गोरिथ्म में कुछ अंतर्निहित पूर्व धारणा होती है, जैसे कि चिकनाई, लंबाई पैमाने, आदि)। आपकी पद्धति के लिए एक मूल्यवान योगदान होने के लिए, आपको केवल यह दिखाने की आवश्यकता है कि कुछ सामान्य हित के नियम / डोमेन हैं जिनमें आपका एल्गोरिथ्म बेहतर तरीके से काम करता है (ऊपर दिया गया प्रतिकूल परीक्षण आपको ऐसा डोमेन खोजने / परिभाषित करने में मदद कर सकता है)।

(*) चूंकि आपका प्रदर्शन मीट्रिक स्टोचस्टिक है (आप मोंटे कार्लो नमूनाकरण के माध्यम से इसका मूल्यांकन कर रहे हैं), आप शोर, महंगा उद्देश्य कार्यों के अनुकूलन के बारे में भी इस उत्तर की जांच करना चाह सकते हैं ।


1

Q1: क्या मेरी योजना में कोई सुधार हुआ है?

वह निर्भर करता है। मिक्सचर वितरण अवशिष्ट अक्सर मूर्खतापूर्ण चीजें करने के परिणामस्वरूप होते हैं जैसे कि एक अनावश्यक मिश्रण वितरण को डेटा मॉडल के रूप में निर्दिष्ट करना। इसलिए, मेरा अपना अनुभव कम से कम आउटपुट में मिश्रण वितरण की शर्तों को निर्दिष्ट करने का सुझाव देता है क्योंकि मॉडल में हैं। इसके अलावा, मिश्रण पीडीएफ का आउटपुट मॉडल में पीडीएफ के विपरीत है। Mathematica डिफ़ॉल्ट खोज में दो शर्तों के साथ मिश्रण वितरण शामिल हैं, और इसे बड़ी संख्या के रूप में निर्दिष्ट किया जा सकता है।

Q2: क्या पहले से ही अलग-अलग कठिनाइयों (बहुत मुश्किलों सहित) के साथ कई विश्लेषणात्मक रूप से परिभाषित सच्चे पीडीएफ की एक व्यापक सूची है जो मैं यहां फिर से उपयोग कर सकता हूं?

यह गणितज्ञ के FindDistribution दिनचर्या से एक सूची है:

TargetFunctions के लिए संभव निरंतर वितरण कर रहे हैं: BetaDistribution, कौशी बंटन, ChiDistribution, ChiSquareDistribution, ExponentialDistribution, ExtremeValueDistribution, FrechetDistribution, GammaDistribution, GumbelDistribution, HalfNormalDistribution, InverseGaussianDistribution, LaplaceDistribution, LevyDistribution, LogisticDistribution, LogNormalDistribution, MaxwellDistribution, NormalDistribution, ParetoDistribution, RayleighDistribution, StudentTDistribution, UniformDistribution, WeibullDistribution , हिस्टोग्रामडिस्ट्रिब्यूशन।

लक्ष्य विचलन के लिए संभावित असतत वितरण हैं: बेनफोर्डडिस्ट्रेशन, बिनोमियलडिस्ट्रेशन, बोरेलटनरडिस्ट्रिएशन, डिस्क्रीट यूनीफॉर्मडिस्ट्रिएशन, जियोमेट्रिकडिस्ट्रेशन, लॉजिस्ट्रीडिस्ट्रेशन, नेगेटिवबिनोमेडिएलडिशन, पॉसडैलडिस्ट्रेशन, पॉसिफैडियोनियन, पॉइसेफैडिएशन, पॉइस्सेडोनियन, पॉइसेन्ट्रिडियेशन, पॉसिफैडियोनियन, पॉसडेलियनडिशन

आंतरिक सूचना मानदंड एक बाइसेपियन सूचना मानदंड का उपयोग करता है जिसमें टारगेटक्शन्स पर पुजारी शामिल होते हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.