लॉग-ऑड वितरण क्या है?


11

मैं मशीन लर्निंग पर एक पाठ्यपुस्तक पढ़ रहा हूं (डेटा खनन द्वारा लिखित, एट अल।, 2011) और इस मार्ग पर आया:

... इसके अलावा, विभिन्न वितरणों का उपयोग किया जा सकता है। यद्यपि सामान्य वितरण आमतौर पर संख्यात्मक विशेषताओं के लिए एक अच्छा विकल्प है, यह उन विशेषताओं के लिए उपयुक्त नहीं है जिनमें पूर्व निर्धारित न्यूनतम है लेकिन कोई ऊपरी सीमा नहीं है; इस स्थिति में "लॉग-सामान्य" वितरण अधिक उपयुक्त है। संख्यात्मक विशेषताएँ जो ऊपर और नीचे बंधी हैं, उन्हें "लॉग-ऑड्स" वितरण द्वारा मॉडल किया जा सकता है ।

मैंने इस वितरण के बारे में कभी नहीं सुना। मैं "लॉग-ऑड डिस्ट्रीब्यूशन" के लिए गया था, लेकिन कोई सटीक सटीक मिलान नहीं मिला। क्या कोई मेरी मदद कर सकता है? यह वितरण क्या है, और यह ऊपर और नीचे बंधी संख्याओं की सहायता क्यों करता है?

PS मैं एक सॉफ्टवेयर इंजीनियर हूं, न कि सांख्यिकीविद्।

जवाबों:


14

यह ऊपर और नीचे बंधी संख्याओं की सहायता क्यों करता है?

पर परिभाषित एक वितरण वह है जो इसे पर डेटा के लिए एक मॉडल के रूप में उपयुक्त बनाता है । मुझे नहीं लगता कि पाठ का मतलब " पर डेटा के लिए एक मॉडल " (या आमतौर पर, ऑन ) से अधिक है।(0,1)(0,1)(0,1)(a,b)

यह वितरण क्या है ...?

शब्द 'लॉग-ऑड डिस्ट्रीब्यूशन' दुर्भाग्य से पूरी तरह से मानक नहीं है (और तब भी बहुत सामान्य शब्द नहीं है)।

मैं इसका क्या मतलब हो सकता है के लिए कुछ संभावनाओं पर चर्चा करेंगे। आइए यूनिट अंतराल में मूल्यों के लिए वितरण के निर्माण के तरीके पर विचार करके शुरू करें।

एक आम तरीका है एक सतत यादृच्छिक चर, मॉडल करने के लिए में है बीटा वितरण , और एक आम रास्ते में असतत अनुपात मॉडल करने के लिए एक छोटा द्विपद (है , कम से कम जब पर एक गिनती है)।P(0,1)[0,1]P=X/nX

बीटा वितरण का उपयोग करने का एक विकल्प कुछ निरंतर उलटा सीडीएफ ( ) लेने के लिए होगा और इसका उपयोग वास्तविक लाइन (या शायद ही कभी, वास्तविक आधा लाइन) में मूल्यों में बदलने के लिए होगा। और फिर किसी भी प्रासंगिक वितरण ( ) का उपयोग करके परिवर्तित सीमा पर मूल्यों को मॉडल करें। यह कई संभावनाओं को खोलता है, क्योंकि परिवर्तन और मॉडल के लिए वास्तविक लाइन ( ) पर निरंतर वितरण की कोई भी जोड़ी उपलब्ध है।F1(0,1)GF,G

इसलिए, उदाहरण के लिए, लॉग-ऑड ट्रांसफ़ॉर्मेशन (जिसे लॉगिट भी कहा जाता है ) एक ऐसा प्रतिलोम-cdf परिवर्तन होगा (मानक लॉजिस्टिक का उलटा CDF होने के नाते ) , और फिर कई वितरण हैं जिन्हें हम लिए मॉडल के रूप में मान सकते हैं ।Y=log(P1P)Y

फिर हम लिए एक लॉजिस्टिक मॉडल का उपयोग कर सकते हैं , जो वास्तविक लाइन पर एक साधारण दो-पैरामीटर परिवार है। उलटा लॉग-ऑड ट्रांसफॉर्मेशन (यानी माध्यम से पर वापस जाना , लिए दो पैरामीटर वितरण का पैदावार करता है , जो एक हो सकता है यूमोडल, या यू आकार, या जे आकार, सममित या तिरछा, कई मायनों में कुछ हद तक एक बीटा वितरण की तरह (व्यक्तिगत रूप से, मैं इस लॉग-लॉजिस्टिक को कॉल करूंगा, क्योंकि इसका लॉजिस्टिक लॉजिस्टिक है)। यहाँ विभिन्न मूल्यों के कुछ उदाहरण दिए गए हैं :वाई ( 0 , 1 ) पी = exp ( वाई )(μ,τ)Y(0,1) पीμ,τP=exp(Y)1+exp(Y)Pμ,τ

यहां छवि विवरण दर्ज करें

Witten एट अल द्वारा पाठ में संक्षिप्त उल्लेख को देखते हुए, यह "लॉग-ऑड्स वितरण" के उद्देश्य से हो सकता है - लेकिन वे आसानी से कुछ और मतलब हो सकते हैं।

एक और संभावना यह है कि लॉगिट-नॉर्म का इरादा था।

हालाँकि, शब्द का उपयोग वैन एरप और वैन गेल्डर (2008) , उदाहरण के लिए, बीटा वितरण पर लॉग-ऑड ट्रांसफ़ॉर्म को संदर्भित करने के लिए (इसलिए प्रभावी रूप से को एक लॉजिस्टिक और के रूप में लेना। एक बीटा-प्राइम यादृच्छिक चर के लॉग के वितरण के रूप में , या दो चि-वर्ग यादृच्छिक चर के लॉग के अंतर के समान वितरण)। हालांकि, वे इसका उपयोग मॉडल गणना अनुपात करने के लिए कर रहे हैं, जो असतत हैं। यह निश्चित रूप से, कुछ समस्याओं की ओर जाता है (0 और 1 पर परिमित संभावना वाले वितरण को मॉडल करने की कोशिश के कारण पर एक के साथ एफजी(,)[1]FG(0,1)), जो तब वे बहुत प्रयास करते हैं। (यह अनुचित मॉडल से बचने के लिए आसान प्रतीत होता है, लेकिन शायद यह सिर्फ मेरे लिए है।)

कई अन्य दस्तावेज (मुझे कम से कम तीन मिले) लॉग-ऑड्स (यानी ऊपर के पैमाने पर) के नमूने वितरण को "लॉग-ऑड्स वितरण" के रूप में संदर्भित करते हैं (कुछ मामलों में जहां एक असतत अनुपात है * और कुछ में ऐसे मामले जहां यह एक सतत अनुपात है) - तो उस स्थिति में यह एक संभावना मॉडल नहीं है, लेकिन यह ऐसा कुछ है जिसके लिए आप वास्तविक लाइन पर कुछ वितरण मॉडल लागू कर सकते हैं।Yपी

* फिर से, यह समस्या है कि यदि ठीक 0 या 1 है, तो का मान क्रमशः होगा या ... जो बताता है कि हमें इस उद्देश्य के लिए इसका उपयोग करने के लिए वितरण को 0 और 1 से दूर करना होगा। ।वाई - पीY-

यान गुओ (2009) द्वारा निबंध शब्द का उपयोग लॉग-लॉजिस्टिक डिस्ट्रीब्यूशन, वास्तविक हाफ-लाइन पर राइट-स्क्यू डिस्ट्रीब्यूशन को संदर्भित करने के लिए करता है ।[2]

इसलिए जैसा कि आप देख रहे हैं, यह एक अर्थ के साथ एक शब्द नहीं है। Witten से स्पष्ट संकेत के बिना या उस पुस्तक के अन्य लेखकों में से एक, हम अनुमान लगाने के लिए बचे हैं कि क्या इरादा है।

[१]: नोएल वैन एर्प एंड पीटर वैन जेलर, (२००)),
"ब्रेकडाउन के मामले में बीटा डिस्ट्रीब्यूशन की व्याख्या कैसे करें,"
६ वीं इंटरनेशनल प्रोबायलिस्टिक वर्कशॉप की कार्यवाही , डार्मस्टैड
पीडीएफ लिंक

[२]: यान गुओ, (२०० ९),
द न्यू मेथड्स ऑन एनडीई सिस्टम्स पॉड कैपेबिलिटी एसेस्मेंट एंड रोबस्टनेस,
शोध के लिए ग्रेजुएट स्कूल ऑफ वेन स्टेट यूनिवर्सिटी, डेट्रायट, मिशिगन


1
(+1) संपूर्ण पुस्तक की खोज इंगित करती है कि कोई स्पष्टीकरण आगामी नहीं है। संदर्भ बताता है कि "लॉग-ऑड्स डिस्ट्रीब्यूशन" कुछ विशेष मॉडल को संदर्भित करता है, जिस तरह "लॉगऑनॉर्मल" पिछले वाक्य में सभी नॉनगेटिव वैल्यूज (!) के लिए एक सार्वभौमिक वितरण के रूप में प्रस्तावित है।
whuber

1
@ जब भी मैं पुस्तक में आपके लक्षण वर्णन से सहमत होता हूं - मैंने इरादा नहीं किया कि नमूना वितरण को संदर्भित करने के लिए अन्य संदर्भों में शब्द के उपयोग से संबंधित मेरी टिप्पणी का मतलब है कि यह पुस्तक में इरादा था, लेकिन केवल इसका एक संकेत कई अर्थों के साथ एक शब्द है। प्रश्न में अंशों पर, इस सामग्री को सीखने वाले लोगों को मेरी सलाह (कई चीजों पर) एक से अधिक किताबों को पढ़ना होगा।
Glen_b -Reinstate मोनिका

2

मैं एक सॉफ्टवेयर इंजीनियर हूं (एक सांख्यिकीविद् नहीं) और मैंने हाल ही में एक परिचय के लिए एक किताब पढ़ी है जिसका नाम है सांख्यिकीय शिक्षा। आर में अनुप्रयोगों के साथ।

मुझे लगता है कि आप जो पढ़ रहे हैं वह लॉग-ऑड्स या लॉगिट है। पृष्ठ 132

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

शानदार किताब - मैंने इसे कवर से कवर तक पढ़ा। उम्मीद है की यह मदद करेगा


सूचक के लिए धन्यवाद। लॉग-ऑड वितरण को "लॉजिस्टिक वितरण" के समान माना जाता है, मैंने विकिपीडिया पर उत्तरार्द्ध को देखा। ऐसा प्रतीत होता है कि इसकी पीडीएफ की कोई निचली या ऊपरी सीमा नहीं है। इसलिए मैं अभी भी सोच रहा हूं कि मूल रूप से उद्धृत की गई पाठ्यपुस्तक को इस वितरण के साथ "न्यूमेरिक विशेषताएँ जो ऊपर और नीचे बंधी हैं, उन्हें मॉडल किया जा सकता है"।
stackoverflowuser2010

मुझे लगता है कि इसकी शायद फ़ंक्शन के उत्पादन के बारे में बात कर रहे हैं जहां सीमा 0.0 (असंभव) से 1.0 (निश्चित) है। (मैं यहां पूरी तरह से गलत हो सकता है)
जेसनएडेनबर्ग

यह संभव है कि आपका मॉडल मनमाने ढंग से बड़े सकारात्मक या नकारात्मक परिणाम उत्पन्न कर सके। ये एक बाउंडेड रेंज जैसे कि प्रायिकता के संदर्भ में व्याख्या करने योग्य नहीं हो सकते हैं, लेकिन लॉजिक्ट फ़ंक्शन का उपयोग करके लॉग-ऑड्स के रूप में व्याख्या योग्य हो सकते हैं और लॉजिस्टिक फ़ंक्शन को उलटा कर सकते हैं।
हेनरी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.