लॉग-लाइक बनाम बनाम संभावना का उपयोग करने के लिए सैद्धांतिक प्रेरणा


18

मैं एक गहरे स्तर पर सांख्यिकी और संभाव्यता सिद्धांत में लॉग-लाइबिलिटी (और शायद अधिक सामान्यतः लॉग-प्रायिकता) की सर्वव्यापीता को समझने की कोशिश कर रहा हूं। लॉग-संभाव्यताएं सभी जगह दिखाई देती हैं: हम आमतौर पर विश्लेषण के लिए लॉग-लाइबिलिटी के साथ काम करते हैं (उदाहरण के लिए अधिकतमकरण), फिशर सूचना को लॉग-लाइबिलिटी के दूसरे व्युत्पन्न के संदर्भ में परिभाषित किया गया है, एन्ट्रापी एक अपेक्षित लॉग-प्रायिकता है , कुलबबैक-लिबलर विचलन में लॉग-प्रायिकता शामिल है, अपेक्षित विभाजन एक अपेक्षित लॉग-लाइबिलिटी है, आदि।

अब मैं कई व्यावहारिक और सुविधाजनक कारणों की सराहना करता हूं । कई आम और उपयोगी pdfs घातीय परिवारों से हैं, जो लॉग-ट्रांसफ़ॉर्म होने पर सुरुचिपूर्ण ढंग से सरलीकृत शब्दों की ओर जाता है। उत्पादों की तुलना में काम करना आसान है (विभेदकों के लिए जासूसी)। लॉग-प्रोब्स का सीधा प्रोब्स पर एक महान फ्लोटिंग पॉइंट लाभ है। लॉग-ट्रांसफ़ॉर्मिंग पीडीएफ अक्सर एक अवतल फ़ंक्शन को एक अवतल फ़ंक्शन में परिवर्तित करता है। लेकिन लॉग-प्रोब्स के लिए सैद्धांतिक कारण / औचित्य / प्रेरणा क्या है?

मेरी गड़बड़ी के उदाहरण के रूप में, फिशर जानकारी (एफआई) पर विचार करें। FI को अंतर्ज्ञान के लिए सामान्य व्याख्या यह है कि लॉग-लाइबिलिटी का दूसरा व्युत्पन्न हमें बताता है कि लॉग-लाइक की "चोटी" कैसे होती है: एक अत्यधिक शिखर वाली लॉग-लाइबिलिटी का अर्थ है कि MLE अच्छी तरह से निर्दिष्ट है और हम इसके मूल्य के बारे में अपेक्षाकृत सुनिश्चित हैं , जबकि लगभग सपाट लॉग-लाइकहुड (कम वक्रता) का अर्थ है कई अलग-अलग पैरामीटर मान MLE के रूप में लगभग (लॉग-लाइकेलिटी के रूप में) अच्छे हैं, इसलिए हमारा MLE अधिक अनिश्चित है।

यह सब अच्छी तरह से और अच्छा है, लेकिन क्या यह केवल संभावना फ़ंक्शन की वक्रता को खोजने के लिए और अधिक स्वाभाविक नहीं है (लॉग-ट्रांसफ़र्ड नहीं है)? पहली नज़र में लॉग-ट्रांसफॉर्म पर जोर देना मनमाना और गलत लगता है। निश्चित रूप से हम वास्तविक संभावना समारोह की वक्रता में अधिक रुचि रखते हैं। इसके बजाय स्कोर फ़ंक्शन और लॉग-लाइबिलिटी के हेस्सियन के साथ काम करने के लिए फिशर की प्रेरणा क्या थी?

क्या इसका उत्तर बस इतना है कि अंत में, हमें लॉग-लाइम से विषम परिणाम के अच्छे परिणाम मिले हैं? जैसे, Cramer-Rao और MLE की सामान्यता / पश्च। या कोई गहरा कारण है?


2
मैंने यहां
Haitao Du

जवाबों:


13

यह वास्तव में केवल loglikelihood की सुविधा है, इससे अधिक कुछ नहीं।

: मैं उत्पादों बनाम रकम की सुविधा मतलब ln(ixi)=ilnxi , रकम ऐसे differentialtion या एकीकरण के रूप में कई मामलों में से निपटने के लिए आसान होता है। यह केवल घातीय परिवारों के लिए एक सुविधा नहीं है, मैं कहने की कोशिश कर रहा हूं।

जब आप एक यादृच्छिक नमूने के साथ सौदा, likelihoods के रूप में हैं: L=ipi , इसलिए loglikelihood बजाय योग है, जो आसान है हेरफेर और विश्लेषण करने के लिए में इस उत्पाद टूट जाएगा। यह मदद करता है कि हम देखभाल करते हैं अधिकतम का बिंदु, अधिकतम पर मूल्य महत्वपूर्ण नहीं है, से हम किसी भी नीरस परिवर्तन जैसे लघुगणक को लागू कर सकते हैं।

वक्रता अंतर्ज्ञान पर। यह मूल रूप से loglikelihood के दूसरे व्युत्पन्न के रूप में अंत में एक ही बात है।

अद्यतन: यह वही है जो मैं वक्रता पर था। यदि आपके पास एक फ़ंक्शन , तो यह वक्रता होगी ( देखें (14) वोल्फ्राम पर): = f κ ( x )y=f(x)

κ=f(x)(1+f(x)2)3/2

लॉग संभावना का दूसरा व्युत्पन्न:

A=(lnf(x))=f(x)f(x)(f(x)f(x))2

अधिकतम के बिंदु पर, पहले व्युत्पन्न, शून्य स्पष्ट रूप से है, इसलिए हम पाते हैं:

κmax=f(xmax)=Af(xmax)
इसलिए, मेरी चुटकुले कि संभावना की वक्रता और loglikelihood के दूसरे व्युत्पन्न एक ही चीज़ हैं, जैसे।

दूसरी ओर, अगर संभावना के पहले व्युत्पन्न न केवल पर लेकिन अधिकतम के बिंदु के आसपास छोटा है, यानी संभावना समारोह सपाट है तो हम पाते हैं: अब फ्लैट संभावना यह हमारे लिए अच्छी बात नहीं है, क्योंकि यह संख्यात्मक रूप से अधिक से अधिक कठिन खोज करता है, और अधिकतम संभावना यह नहीं है कि इसके आसपास के अन्य बिंदुओं की तुलना में बेहतर है, अर्थात पैरामीटर अनुमान त्रुटियां अधिक हैं।

κf(x)Af(x)

और फिर, हमारे पास अभी भी वक्रता और दूसरा व्युत्पन्न संबंध है। तो क्यों फिशर संभावना समारोह की वक्रता को नहीं देखा? मुझे लगता है कि यह सुविधा के समान कारण के लिए है। उत्पाद के बजाय रकम की वजह से loglikelihood में हेरफेर करना आसान है। इसलिए, वह तार्किकता के दूसरे व्युत्पन्न का विश्लेषण करके संभावना की वक्रता का अध्ययन कर सकता है। हालांकि वक्रता के लिए बहुत ही सरल समीकरण दिखता , वास्तविकता में आप उत्पाद है, जो दूसरे डेरिवेटिव की राशि से मेसियर है की एक दूसरा व्युत्पन्न ले जा रहे हैं।κmax=f(xmax)

अद्यतन 2:

यहाँ एक प्रदर्शन है। मैं एक (पूरी तरह से बना हुआ) संभावना फ़ंक्शन, इसकी क) वक्रता और बी) को इसके लॉग का दूसरा व्युत्पन्न बनाता हूं। बाईं ओर आप संकीर्ण संभावना देखते हैं और दाईं ओर यह चौड़ा है। आप देखते हैं कि अधिकतम संभावना के बिंदु पर ए) और बी) कैसे अभिसरण होते हैं। अधिक महत्वपूर्ण बात यह है कि, आप इसकी लॉग-लाइबिलिटी के दूसरे व्युत्पन्न की जांच करके संभावना फ़ंक्शन की चौड़ाई (या समतलता) का अध्ययन कर सकते हैं। जैसा कि मैंने पहले लिखा था कि बाद का विश्लेषण करने के लिए पूर्व की तुलना में तकनीकी रूप से सरल है।

आश्चर्यजनक रूप से गहरा नहीं है 2 डी व्युत्पत्ति लॉगग्लिइलहुड संकेतों की चापलूसी की संभावना को अधिकतम के आसपास कार्य करता है, जो इसके लिए वांछित नहीं है यह बड़े पैरामीटर अनुमान त्रुटि का कारण बनता है।

यहाँ छवि विवरण दर्ज करें

MATLAB कोड के मामले में आप भूखंडों को पुन: उत्पन्न करना चाहते हैं:

f=@(x,a)a.^2./(a.^2+x.^2);
c = @(x,a)(-2*a.^2.*(a.^2-3*x.^2)./(a.^2+x.^2).^3/(4*a.^4.*x.^2/(a.^2+x.^2).^4+1).^(3/2));
ll2d = @(x,a)(2*(x.^2-a.^2)./(a.^2+x.^2).^2);

h = 0.1;
x=-10:h:10;

% narrow peak
figure
subplot(1,2,1)
a = 1;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Narrow Likelihood'
ylim([-2 1])

% wide peak
subplot(1,2,2)
a=2;
y = f(x,a);
plot(x,y,'LineWidth',2)
%dy = diff(y)/h;
hold on
%plot(x(2:end),dy)
plot(x,c(x,a),'LineWidth',2)
plot(x,ll2d(x,a),'LineWidth',2)
title 'Wide Likelihood'
legend('likelihood','curvature','2nd derivative LogL','location','best')
ylim([-2 1])

अद्यतन 3:

ऊपर दिए गए कोड में मैंने वक्रता समीकरण में कुछ मनमाना घंटी के आकार के फ़ंक्शन को प्लग किया, फिर इसके लॉग के दूसरे व्युत्पन्न की गणना की। मैंने कुछ भी पुनः-स्केल नहीं किया, जो समीकरण मैंने समीकरणों से सीधे दिखाए हैं जो मैंने पहले उल्लेख किया था।

विश्वविद्यालय में रहते हुए फ़िशर द्वारा प्रकाशित की गई संभावना के आधार पर यहां पहला पेपर है, "मैथमैटिक्स के मैसेंजर, 41: 155-160 (1912) के मैसेंजर, फिटिंग फ्रिक्वेंसी कर्व्स के लिए एक निरपेक्ष मानदंड" पर।

लॉगपी'=Σ1nलॉगपी

लॉगपी=-लॉगएक्स
पी

एक बात पर ध्यान दें जब वह पेपर पढ़ रहा था, वह केवल अधिकतम संभावना आकलन कार्य के साथ शुरू कर रहा था, और बाद के 10 वर्षों में और अधिक काम किया, इसलिए यहां तक ​​कि MLE शब्द अभी तक तैयार नहीं हुआ था, जहां तक ​​मुझे पता है।


5
आपका अंतिम वाक्य (वक्रता के बारे में) वहाँ सही मायने में लॉग संभावना के बारे में कुछ मौलिक है और यह कि लॉग लेना केवल एक "सुविधा" नहीं है। मेरा मानना ​​है कि आप जितना दे रहे हैं, उससे कहीं अधिक यहाँ पर चल रहा है।
whuber

2
वक्रता की आपकी चर्चा प्रासंगिक नहीं दिखाई देती है, क्योंकि यह स्वयं संभावना के विश्लेषण से लॉग संभावना के विश्लेषण को अलग नहीं करता है। यह उत्तर "लॉग्स सुविधाजनक हैं" के लिए नीचे आता है, लेकिन इस मुद्दे की तुलना में बहुत अधिक है, क्योंकि अन्य उत्तर सुझाए जाने लगे हैं।
whuber

f(xmax)f(xmax)=1

तो फिशर जानकारी के लिए लॉग-लाइबिलिटी का उपयोग करना स्पष्ट रूप से दो व्यावहारिक उद्देश्यों को पूरा करता है: (1) लॉग-लाइबिलिटी के साथ काम करना आसान है, और (2) यह स्वाभाविक रूप से मनमाने ढंग से स्केलिंग कारक की उपेक्षा करता है। और, यह उसी तरह का उत्तर देता है जैसा कि सीधी संभावना का दूसरा व्युत्पन्न है। यह मेरे लिए एक महत्वपूर्ण बिंदु लगता है, जो स्पष्ट नहीं था और जो मैंने कभी किसी आंकड़े के पाठ में नहीं देखा है। संभवतः इसे फिशर के नाम से जाना जाता था।
रात्सलद

f(xmax)=(lnf(x))f(xmax)
f(xmax)=1
(एक्सएक्स)"=(ln(एक्स))"

5

अतिरिक्त बिंदु । सामान्य रूप से उपयोग किए जाने वाले कुछ वितरण (सामान्य वितरण, घातीय वितरण, लाप्लास वितरण, बस कुछ नाम रखने के लिए) लॉग-अवतल हैं । इसका मतलब है कि उनका लघुगणक अवतल है। यह मूल संभाव्यता को अधिकतम करने की तुलना में लॉग-प्रायिकता को अधिक से अधिक आसान बनाता है (जो कि अधिकतम संभावना या अधिकतम-पश्चवर्ती तरीकों में विशेष रूप से आसान है)। एक उदाहरण देने के लिए, न्यूटन की विधि का उपयोग करते हुए एक बहुभिन्नरूपी गौसियन वितरण को अधिकतम करने के लिए सीधे एक बड़ी संख्या में कदम उठाना पड़ सकता है, जबकि एक परवलोइड (बहुभिन्नरूपी गौसियन वितरण का लॉग) में अधिकतम एक कदम होता है।


2
इतना शीघ्र नही। पीपी पर व्यायाम 7.4 देखें 393-394। Web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf
मार्क एल स्टोन

यह लॉग-कॉन्क्लेव नहीं है। गाऊसी अपने तर्क या मतलबी पैरामीटर के लिए लॉग-अवतल wrt है, न कि विचरण को भी। यदि आप पैमाने को निर्धारित करना चाहते हैं, तो आप सामान्य-गामा वितरण का उपयोग कर सकते हैं, जो लॉग-कॉन्क्लेव (विचरण के बजाय सटीक का उपयोग करके) भी है।
लुका सिटी

2
बिल्कुल यह। लॉग कैसे अधिक सुविधाजनक हैं, इस बारे में सभी बातें अच्छी हैं, लेकिन उत्तलता (या दृष्टिकोण के आधार पर), वास्तव में लॉग-लिबरलिटी को "सही" चीज़ के साथ काम करने के लिए अलग करती है।
मेनी रोसेनफेल्ड

2
ध्यान दें कि मैंने पहले ही ओपी में लॉग-कॉन्फिडेंस का उल्लेख किया था। लेकिन यह अभी भी सिर्फ एक "सुविधा" है, लॉग-कंसॉल्विटी के लिए यहां कोई सैद्धांतिक औचित्य नहीं है, और किसी भी मामले में लॉग-लाइकहुड सामान्य रूप से लॉग-कॉन्क्लेव नहीं हैं।
रतसाल जूल

1
@ratsalad, हाँ, आप सही हैं, यह सुविधा है। मुझे लगता है कि प्रायिकता फ़ंक्शन को देखने के लिए लॉग-प्रायिकता एक अतिरिक्त तरीका है। मैं निश्चित रूप से नहीं कह सकता कि कौन सा बेहतर है। यदि आप [ en.wikipedia.org/wiki/… उपायों) को देखते हैं, तो कुछ प्रभावी रूप से लॉग-प्रायिकता पर काम करते हैं (उदाहरण केएल विचलन जो प्रभावी रूप से लॉग-संभाव्यता के अंतर का अपेक्षित मूल्य है), कुछ सीधे प्रायिकता पर ( उदा। KS दूरी)।
लुका सिटी

4

लॉग-लाइकैलिटी के सैद्धांतिक महत्व को (कम से कम) दो दृष्टिकोणों से देखा जा सकता है: एसिम्प्टोटिक संभावना सिद्धांत और सूचना सिद्धांत।

इनमें से पहले (मेरा मानना ​​है) लॉग-लाइबिलिटी का विषम सिद्धांत है। मुझे लगता है कि फिशर द्वारा 20 वीं शताब्दी के प्रभुत्व की ओर अपने पाठ्यक्रम पर अधिकतम संभावना निर्धारित किए जाने के बाद सूचना सिद्धांत अच्छी तरह से चल रहा था।

संभावना सिद्धांत में, एक पैराबोलिक लॉग-लाइबिलिटी के अनुमान में एक केंद्रीय स्थान है। ल्युसिएन ले कैम ने विषम सिद्धांत में द्विघात तर्क- क्षमता के महत्व को स्पष्ट करने में महत्वपूर्ण भूमिका निभाई है

जब आपके पास एक द्विघात लॉग-संभावना होती है, तो न केवल एमएलई के बारे में वक्रता आपको गुणात्मक रूप से बताती है कि आप कितने सटीक रूप से पैरामीटर का अनुमान लगा सकते हैं, लेकिन हम यह भी जानते हैं कि त्रुटि सामान्य रूप से वक्रता के पारस्परिक के बराबर विचरण के साथ वितरित की जाती है। जब लॉग-लाइबिलिटी लगभग द्विघात होती है, तो हम कहते हैं कि ये परिणाम लगभग या विषमतापूर्वक आयोजित होते हैं।

एक दूसरा कारण सूचना सिद्धांत में लॉग-लाइबिलिटी (या लॉग-संभावना) की प्रमुखता है , जहां यह सूचना सामग्री को मापने के लिए उपयोग की जाने वाली मुख्य मात्रा है।

ggf(θ)f(θ^)θ^

lnL^

इसलिए, एक संभावित संख्यात्मक परिवर्तन होने के अलावा, संभावना की लॉग इन करें, गहन संबंध और सूचना सिद्धांत के संबंध हैं।


लॉग-लाइक के उपयोग के सिद्धांत के उपयोग के बारे में आपका संदर्भ परिपत्र है। वे लॉग का उपयोग क्यों करते हैं ? संभवतः उसी कारण से, विशेष रूप से, यदि आप उस सूचना सिद्धांत को आंकड़ों की तुलना में अपेक्षाकृत नया क्षेत्र मानते हैं।
अक्कल

@ अक्षल हां और नहीं। सूचना सिद्धांत को इसकी नींव आंशिक रूप से सांख्यिकीय यांत्रिकी और एन्ट्रापी से मिली: en.wikipedia.org/wiki/Entropy । बोल्ट्जमैन ने माइक्रोस्टेट्स की संख्या के लॉग का उपयोग करते हुए एक प्रणाली की एन्ट्रॉपी को परिभाषित किया। क्यों लॉग करता है? क्योंकि यह एन्ट्रापी / सूचना को जोड़ देता है (जैसा कि आपका उत्तर बताता है)? तो क्या? संख्यात्मक स्तर पर, रैखिकता / परिवर्धन रैखिक बीजगणित के शक्तिशाली तरीकों के उपयोग को खोलता है।

1
@ अक्सकल हालांकि, एक अधिक बुनियादी स्तर पर व्यसनीकरण एक चीज की तरह एन्ट्रापी / सूचना को मापता है ... द्रव्यमान के समान। यदि आप दो सांख्यिकीय स्वतंत्र प्रणालियों को जोड़ते हैं, तो संयुक्त प्रणाली का एन्ट्रापी प्रत्येक प्रणाली के एन्ट्रॉपी का योग है। : यहाँ एक अच्छा व्याख्याता है physics.stackexchange.com/questions/240636/...

1
@Bey थर्मोडायनामिक सांख्यिकीय एन्ट्रॉपी वास्तव में माइक्रोस्टेट्स और शास्त्रीय मैक्रोस्कोपिक थर्मो के बोल्ट्जमैन वितरण से सीधे अनुसरण करता है (स्टेट मच एन्ट्रापी का रूप "पसंद" नहीं था)। बोल्ट्जमैन वितरण स्वयं में दो परिसरों का परिणाम है: (1) भौतिक संपत्ति जो ऊर्जा केवल एक मनमाने ढंग से योजक स्थिरांक तक निर्दिष्ट होती है और (2) मौलिक स्टेट मीच धारणा है कि एक ही ऊर्जा के साथ सभी माइक्रोस्टेट समान संभावना है। तो, सबसे गहरे स्तर पर थर्मो एन्ट्रॉपी में लॉग-प्रोब्स शामिल होता है क्योंकि ऊर्जा लॉग-प्रो के लिए additive और आनुपातिक है।
रटसालड

2
इस पर विस्तार करने के लिए @ratsalad धन्यवाद ... जैसा कि आप देख सकते हैं, सरल "लॉग्स से परे होना आसान है" लॉग-लाइबिलिटी के स्पष्टीकरण एक बहुत दूर तक ले जा सकते हैं। अक्षल ने जो कारण बताए हैं, उनके लिए मैं लॉग-लाइक का उपयोग करता हूं ... हालांकि, आपके ओपी ने कुछ गहरा करने के लिए कहा। मैंने दो उदाहरण दिए जो अन्य क्षेत्रों के कनेक्शन दिखाते हैं जिन्होंने सांख्यिकी और संभावना सिद्धांत को प्रभावित किया है। मुझे लगता है कि स्पर्शोन्मुख स्पष्टीकरण अधिक प्रत्यक्ष हैं, लेकिन एन्ट्रापी और प्रायिकता उन तरीकों से जुड़ी हुई हैं जो लॉग-संभाव्यता चीजें बनाती हैं जो हम मात्र संख्यात्मक सुविधा से परे हैं।

0

TLDR: उत्पादों की तुलना में रकम निकालना बहुत आसान है, क्योंकि व्युत्पन्न ऑपरेटर समन के साथ रैखिक होता है, लेकिन उत्पाद के साथ उत्पाद नियम करना होता है। यह कुछ उच्च क्रम बहुपद जटिलता बनाम रैखिक जटिलता है


3
यह वह है जो प्रश्न का अर्थ "सुविधाजनक और व्यावहारिक" है। यह एकमात्र, या यहां तक ​​कि मुख्य से दूर है, यही कारण है कि विश्लेषण लॉग संभावना पर केंद्रित है। उदाहरण के लिए, फ़िशर सूचना की अभिव्यक्ति लॉग लाइबिलिटी के बजाय संभावना की दृष्टि से क्या दिखती है , इस पर विचार करें ।
whuber

सुनिश्चित करने के लिए हाँ; मुझे लगता है कि जब उसने सीधे इसे खोजने के लिए अपनी "आसान" कहा, तो मुझे लगा कि वह इसके विपरीत का मतलब है, क्योंकि लॉग परिवर्तन लागू करने के बाद निश्चित रूप से इसे खोजना आसान है।
चार्ली तियान
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.