अज्ञात वितरण के डेटा को सामान्य कैसे करें


12

मैं एक निश्चित प्रकार के दोहराया माप डेटा के सबसे उपयुक्त विशेषता वितरण को खोजने की कोशिश कर रहा हूं।

अनिवार्य रूप से, भूविज्ञान की मेरी शाखा में, हम अक्सर नमूनों (चट्टान के टुकड़े) से खनिजों के रेडियोमेट्रिक डेटिंग का उपयोग करते हैं ताकि यह पता लगाया जा सके कि कितनी देर पहले एक घटना हुई (चट्टान एक दहलीज तापमान से नीचे ठंडा हो गई)। आमतौर पर, प्रत्येक नमूने से कई (3-10) माप किए जाएंगे। फिर, माध्य और मानक विचलन लिया जाता है। यह भूविज्ञान है, इसलिए स्थिति के आधार पर नमूनों की शीतलन उम्र से वर्ष तक हो सकती है।μσ105109

हालांकि, मेरे पास यह विश्वास करने का कारण है कि माप गौसियन नहीं हैं: 'आउटलेयर', या तो मनमाने ढंग से घोषित किए गए हैं, या कुछ मानदंडों के माध्यम से जैसे कि पीयरस की कसौटी [रॉस, 2003] या डिक्सन के क्यू-टेस्ट [डीन और डिक्सन, 1951] , काफी हैं। आम (कहते हैं, 30 में 1) और ये लगभग हमेशा पुराने होते हैं, यह दर्शाता है कि ये मापें सही ढंग से तिरछी हैं। खनिज अशुद्धियों के साथ ऐसा करने के कई कारण हैं।

औसत बनाम माध्य नमूना आयु।  लाल रेखा माध्य = माध्यिका इंगित करती है।  ध्यान दें पुराने साधन तिरछी माप के कारण।

इसलिए, अगर मैं एक बेहतर वितरण पा सकता हूं, जिसमें वसा पूंछ और तिरछा शामिल है, तो मुझे लगता है कि हम अधिक सार्थक स्थान और पैमाने के मापदंडों का निर्माण कर सकते हैं, और आउटलेर्स को इतनी जल्दी से दूर नहीं करना है। Ie यदि यह दिखाया जा सकता है कि इस प्रकार के माप तार्किक, या लॉग-लाप्लासियन हैं, या जो भी हो, तो अधिकतम संभावना के अधिक उपयुक्त उपायों का उपयोग और तुलना में किया जा सकता है , जो गैर-मजबूत हैं और शायद मामले में पक्षपाती हैं। व्यवस्थित रूप से दाएं तिरछा डेटा।μσ

मैं सोच रहा हूं कि ऐसा करने का सबसे अच्छा तरीका क्या है। अब तक, मेरे पास लगभग 600 नमूनों के साथ एक डेटाबेस है, और 2-10 (या तो) प्रति नमूना माप दोहराता है। मैंने माध्य या माध्यिका द्वारा प्रत्येक को विभाजित करके नमूनों को सामान्य करने की कोशिश की है, और फिर सामान्यीकृत डेटा के हिस्टोग्राम को देख रहा हूं। यह उचित परिणाम उत्पन्न करता है, और यह इंगित करता है कि डेटा वर्णात्मक रूप से लॉग-लाप्लासियन की तरह है:

यहाँ छवि विवरण दर्ज करें

हालांकि, मुझे यकीन नहीं है कि यह इस बारे में जाने का उपयुक्त तरीका है, या अगर वहाँ कि मैं इस बात से अनजान हूं कि मेरे परिणामों को पूर्वाग्रहित किया जा सकता है तो वे इस तरह दिखते हैं। क्या किसी को इस तरह की चीज़ के साथ अनुभव है, और सर्वोत्तम प्रथाओं के बारे में पता है?


4
चूँकि Since नॉर्मलाइज़ ’का इस्तेमाल इस तरह से संदर्भों में कई अलग-अलग चीज़ों के लिए किया जाता है, ठीक उसी तरह“ सामान्यीकरण ”से आपका क्या मतलब है? डेटा से बाहर निकलने के लिए आप कौन सी जानकारी की कोशिश कर रहे हैं?
ग्लेन_ब -रिटेनेट मोनिका

1
@ गेलन_ बी: 'सामान्यीकरण' से मेरा मतलब है कि माध्यिका (या माध्य), या माध्य (या जो भी हो) के नमूने की सभी माप की गई चीजों को मापना। प्रायोगिक साक्ष्य है कि नमूनों में फैलाव उम्र के साथ रैखिक रूप से बढ़ता है। मैं डेटा से बाहर क्या चाहता हूं यह देखने के लिए कि क्या इस प्रकार के माप को एक सामान्य, या लॉग-सामान्य, या बीटा या जो भी वितरण की विशेषता है, ताकि सबसे सटीक स्थान और पैमाने प्राप्त किया जा सके, या एल 1 बनाम। L2 प्रतिगमन न्यायोचित है, आदि इस पोस्ट में मैं पूछ रहा हूं कि मैं कैसे डेटा ले सकता हूं जो मैंने वर्णित किया है और इसकी जांच कर रहा हूं।
14 नवंबर

1
मुझे इस क्षेत्र में कोई विशेषज्ञता नहीं है, लेकिन आपके रेखांकन और आपके विचार में यह अच्छा लगता है। आपने पहले से ही इसे देखा होगा, लेकिन लॉग-लैप्लस पर विकिपीडिया लेख एक अच्छे पेपर से लिंक करता है, जो आपके प्रश्न को सीधे संबोधित नहीं करता है, लेकिन इसमें कुछ दिलचस्प जानकारियां हो सकती हैं: wolfweb.unr.edu/homepage/tkozubb/0_logs.pdf
वेन

मुझे यकीन नहीं है कि मैं पूरी तरह से समझता हूं, लेकिन शायद बूटस्ट्रैपिंग मदद कर सकता है? यदि आप बूटस्ट्रैपिंग विधियों का उपयोग करके अपने वितरण के विचरण आदि को पुनर्प्राप्त करते हैं, तो आप अपने डेटा को सामान्य करने के लिए पुनर्प्राप्त जानकारी का उपयोग कर सकते हैं। en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

जवाबों:


1

क्या आपने प्रत्येक नमूने से माप (3-10) माप लेने का विचार किया है? क्या तब आप परिणामी वितरण के साथ काम कर सकते हैं - जो कि t- वितरण को अनुमानित करेगा, जो बड़े n के लिए सामान्य वितरण को अनुमानित करेगा?


1

मुझे नहीं लगता कि आप इसका सामान्य रूप से मतलब निकालने के लिए सामान्यीकरण का उपयोग कर रहे हैं, जो आम तौर पर औसत और / या विचरण को सामान्य करने और / या श्वेतकरण की तरह कुछ है, उदाहरण के लिए।

मुझे लगता है कि आप जो करने की कोशिश कर रहे हैं, वह एक गैर-रेखीय पुनर्संरचना और / या ऐसी विशेषताएं है जो आपको अपने डेटा पर रैखिक मॉडल का उपयोग करने देती हैं।

यह गैर-तुच्छ है, और इसका कोई सरल उत्तर नहीं है। यही कारण है कि डेटा वैज्ञानिकों को बहुत सारे पैसे दिए जाते हैं ;-)

गैर-रैखिक सुविधाओं को बनाने का एक अपेक्षाकृत सीधा तरीका फीड-फॉरवर्ड न्यूरल नेटवर्क का उपयोग करना है, जहां परतों की संख्या और प्रति परत न्यूरॉन्स की संख्या, सुविधाओं को उत्पन्न करने के लिए नेटवर्क की क्षमता को नियंत्रित करती है। उच्च क्षमता => अधिक गैर-रैखिकता, अधिक ओवरफिटिंग। कम क्षमता => अधिक रैखिकता, उच्च पूर्वाग्रह, कम विचरण।

एक और तरीका जो आपको थोड़ा और नियंत्रण देता है वह है स्प्लिन का उपयोग करना।

अंत में, आप हाथ से ऐसी विशेषताएं बना सकते हैं, जो मुझे लगता है कि आप क्या करने की कोशिश कर रहे हैं, लेकिन फिर, कोई सरल 'ब्लैक बॉक्स' उत्तर नहीं है: आपको डेटा का सावधानीपूर्वक विश्लेषण करने की आवश्यकता होगी, पैटर्न और इतने पर देखें ।


सामान्यीकरण के गणित और विज्ञान के कई अर्थ हैं; यह घोषणा करते हुए कि व्यक्तिगत रूप से सबसे परिचित एक मानक है, जो कि ज्यादातर लोगों को करने के लिए लुभाता है, लेकिन यह दूसरों के साथ नहीं धोएगा। अधिक गंभीरता से, यह विषय पर शुरू होता है, लेकिन फिर बंद हो जाता है। गैर-मॉडल में रुचि का संकेत कहां है? तंत्रिका जाल? Splines? वितरण या वितरण के परिवार की पहचान के साथ इनका क्या करना है, जो सवाल है? मैं कनेक्शन नहीं देख सकता, इसलिए जो प्रासंगिक नहीं है उसे काटने की सिफारिश करें या यह दिखाने के लिए कि यह कैसे प्रासंगिक है।
निक कॉक्स

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.