व्यवहार में "संभावना का केवल आनुपातिकता के गुणक स्थिर तक परिभाषित किया गया है" क्या करता है?


19

मैं एक पेपर पढ़ रहा हूं, जहां लेखक बेयर्स प्रमेय के लिए अधिकतम संभावना अनुमान की चर्चा से अग्रणी हैं, शुरुआती लोगों के लिए एक परिचय के रूप में।

एक संभावना उदाहरण के रूप में, वे एक द्विपद वितरण के साथ शुरू करते हैं:

p(x|n,θ)=(nx)θx(1θ)nx

और फिर दोनों पक्षों को लॉग इन करें

(θ|x,n)=xln(θ)+(nx)ln(1θ)

औचित्य के साथ:

"क्योंकि संभावना को केवल आनुपातिकता के एक गुणक स्थिर (या लॉग-लाइबिलिटी के लिए एक योजक स्थिरांक) तक परिभाषित किया जाता है, हम पुनरुत्थान कर सकते हैं ... द्विपद गुणांक को गिराकर और संभावना के स्थान पर लॉग-संभावना को लिखकर"

गणित समझ में आता है, लेकिन मैं समझ नहीं पा रहा हूं कि "किस तरह की संभावना केवल आनुपातिकता के एक गुणा गुणक तक परिभाषित की जाती है" और यह कैसे द्विपद गुणांक को छोड़ने और p(x|n,θ) जाने की अनुमति देता है। (θ|x,n)

अन्य प्रश्नों ( यहाँ और यहाँ ) में भी इसी तरह की शब्दावली सामने आई है , लेकिन यह अभी भी स्पष्ट नहीं है कि व्यावहारिक रूप से, संभावना को किस प्रकार परिभाषित किया जा रहा है या जानकारी को एक गुणात्मक स्थिर साधनों तक लाया जा रहा है। क्या आम आदमी की शर्तों में यह समझाना संभव है?

जवाबों:


18

मुद्दा यह है कि कभी-कभी, अलग-अलग मॉडल (एक ही डेटा के लिए) संभावना कार्यों को जन्म दे सकते हैं जो एक गुणक निरंतर द्वारा भिन्न होते हैं, लेकिन सूचना सामग्री स्पष्ट रूप से समान होनी चाहिए। एक उदाहरण:

हम स्वतंत्र बर्नौली प्रयोगों को मॉडल करते हैं, जिससे डेटा ( , प्रत्येक बर्नौली वितरण के साथ (प्रायिकता) पैरामीटर । यह संभावना फ़ंक्शन या हम द्विपदीय रूप से वितरित चर द्वारा डेटा को सारांशित कर सकते हैं , जिसका एक द्विपद वितरण होता है, जिसके कारण संभावना फ़ंक्शन होता है, जो अज्ञात पैरामीटर एक फ़ंक्शन के रूप में , पूर्व की संभावना फ़ंक्शन के लिए आनुपातिक है। । दो संभावना वाले कार्यों में स्पष्ट रूप से एक ही जानकारी होती है, और एक ही संदर्भ के लिए नेतृत्व करना चाहिए!nX1,,Xnp

i=1npxi(1p)1xi
Y=X1+X2++Xn
(ny)py(1p)ny
p

और वास्तव में, परिभाषा के अनुसार, उन्हें समान संभावना फ़ंक्शन माना जाता है।

एक और दृष्टिकोण: निरीक्षण करें कि जब बेयस प्रमेय में संभावना कार्यों का उपयोग किया जाता है, जैसा कि बायेसियन विश्लेषण के लिए आवश्यक है, ऐसे गुणक स्थिरांक बस रद्द कर देते हैं! इसलिए वे स्पष्ट रूप से बेइज़ियन अनुमान के लिए अप्रासंगिक हैं। इसी तरह, यह संभावना अनुपात की गणना करते समय रद्द कर देगा, जैसा कि इष्टतम परिकल्पना परीक्षणों (Neyman-Pearson lemma।) में उपयोग किया जाता है और इसका अधिकतम संभावना अनुमानकों के मूल्य पर कोई प्रभाव नहीं होगा। इसलिए हम देख सकते हैं कि अक्सर अतिशयोक्ति में यह भूमिका नहीं निभा सकता है।

हम अभी भी एक और दृष्टिकोण से बहस कर सकते हैं। बर्नौली संभाव्यता फ़ंक्शन (इसके बाद हम ऊपर "घनत्व" शब्द का उपयोग करते हैं) वास्तव में गिनती माप के संबंध में एक घनत्व है, अर्थात, प्रत्येक गैर-नकारात्मक पूर्णांक के लिए बड़े पैमाने पर गैर-नकारात्मक पूर्णांकों पर माप। लेकिन हम कुछ अन्य प्रभावी उपायों के संबंध में घनत्व को परिभाषित कर सकते थे। इस उदाहरण में यह प्रतीत होता है (और है) कृत्रिम, लेकिन बड़े स्थानों (फ़ंक्शन रिक्त स्थान) में यह वास्तव में मौलिक है! आइए, उदाहरण के लिए, विशिष्ट ज्यामितीय वितरण का उपयोग करें, लिखित , , , और के साथ जल्द ही। तब बर्नौली वितरण के घनत्व के साथ संबंध मेंλλ(0)=1/2λ(1)=1/4λ(2)=1/8λλ ( एक्स ) = पी एक्स ( 1 - पी ) 1 - एक्स2 एक्स + 1 पी ( एक्स = एक्स ) = λ ( एक्स ) λद्वारा दिया जाता है जिसका अर्थ है कि इस नए, हावी, माप के साथ, संभावना समारोह बन जाता है (ऊपर से संकेतन के साथ) अतिरिक्त कारक नोट करें । इसलिए जब संभावना फ़ंक्शन की परिभाषा में उपयोग किए गए वर्चस्वकारी उपाय को बदलते हैं, तो एक नया गुणक स्थिरांक उत्पन्न होता है, जो अज्ञात पैरामीटर पर निर्भर नहीं करता है

fλ(x)=px(1p)1x2x+1
P(X=x)=fλ(x)λ(x)
i=1npxi(1p)1xi2xi+1=py(1p)ny2y+n
2y+np, और स्पष्ट रूप से अप्रासंगिक है। यह देखने का एक और तरीका है कि गुणक स्थिरांक अप्रासंगिक कैसे होना चाहिए। रेडॉन-निकोडियम डेरिवेटिव का उपयोग करके इस तर्क को सामान्यीकृत किया जा सकता है (जैसा कि ऊपर दिया गया तर्क इसका उदाहरण है।)


"सूचना सामग्री स्पष्ट रूप से समान होनी चाहिए" यह केवल तभी सच है जब आप संभावना सिद्धांत पर विश्वास करते हैं!
jsk

हाँ, हो सकता है, लेकिन मैंने दिखाया कि यह कैसे बायेसियन सिद्धांतों से चलता है।
kjetil b halvorsen

1
@kjetilbhalvorsen विचारशील उत्तर के लिए धन्यवाद! एक बात मैं अभी भी उलझन में हूं कि बर्नौली वितरण की संभावना में एक द्विपद गुणांक शामिल क्यों नहीं है। आपके उत्तर से यह स्पष्ट हो जाता है कि यह क्यों मायने नहीं रखता है, लेकिन मुझे समझ में नहीं आता है कि यह पहली जगह में संभावना से क्यों दूर है।
jvans

@jvans: यह इसलिए है क्योंकि द्विपद गुणांक अज्ञात पैरामीटर पर निर्भर नहीं करता है, इसलिए संभावना फ़ंक्शन के आकार को प्रभावित नहीं कर सकता है
kjetil b halvorsen

12

इसका मूल रूप से मतलब है कि पीडीएफ का केवल सापेक्ष मूल्य मायने रखता है। उदाहरण के लिए, मानक सामान्य (गाऊसी) पीडीएफ है: , आपकी पुस्तक कह रही है कि वे उपयोग कर सकते हैं बजाय, क्योंकि वे पैमाने की परवाह नहीं करते हैं, अर्थात ।जी(x)=-एक्स2/2=1f(x)=12πex2/2g(x)=ex2/2c=12π

ऐसा इसलिए होता है क्योंकि वे संभावना फ़ंक्शन को अधिकतम करते हैं, और और की अधिकतम सीमा होगी। इसलिए, अधिकतम संख्या के समान होगी । इसलिए, वे पैमाने के बारे में परेशान नहीं करते हैं।जी ( x ) - एक्स 2 / 2( एक्स )cg(x)g(x)ex2/2f(x)


6

मैं उद्धरण का अर्थ नहीं समझा सकता हूं, लेकिन अधिकतम-संभावना अनुमान के लिए, इससे कोई फर्क नहीं पड़ता है कि क्या हम संभावना फ़ंक्शन The का अधिकतम पता लगाने के लिए चुनते हैं (माना जाता है कि या a का कार्य है अधिकतम जहां कुछ स्थिरांक है। ऐसा इसलिए है क्योंकि हम के अधिकतम मान में रुचि नहीं रखते हैं, बल्कि मान का मान रखते हैं जहां यह अधिकतम होता है, और दोनों और समान पर अपना अधिकतम मूल्य प्राप्त करते हैं। θ एक एल ( एक्स , θ ) एक एल ( एक्स , θ ) θ एमएल एल ( एक्स , θ ) एक एल ( एक्स , θ ) θ एमएल जी ( ) एल ( एक्स , θ ) जी ( एल ( एक्स , θ ) ) θ एमएल एक lnL(x;θ)θaL(x;θ)aL(x;θ)θMLL(x;θ)aL(x;θ)θML। तो, गुणक स्थिरांक को अनदेखा किया जा सकता है। इसी तरह, हम किसी भी मोनोटोन फंक्शन (जैसे कि लॉगरिदम) के लिली के प्रकार्य फ़ंक्शन पर विचार करने के लिए चुन सकते हैं , अधिकतम निर्धारित कर सकते हैं , और इस से के मान का अनुमान लगाएं । लघुगणक के लिए, multipliative लगातार additive स्थिर हो जाता और यह भी अधिकतम के स्थान खोजने की प्रक्रिया में अनदेखा किया जा सकता: को उसी बिंदु पर अधिकतम किया जाता है, जो ।g()L(x;θ)g(L(x;θ))θMLaln ( एक ) + ln ( एल ( एक्स , θ ) ln ( एल ( एक्स , θ )ln(a)ln(a)+ln(L(x;θ)ln(L(x;θ)

एक पोस्टीरियर प्रायिकता (एमएपी) अनुमान को अधिकतम करने के लिए , को रैंडम वेरिएबल अहसास के रूप में माना जाता है , जिसमें प्री- डेन्सिटी फंक्शन , डेटा का एक बोध माना जाता है। एक यादृच्छिक चर , और संभावना है फंक्शन का मान माना जाता है सशर्त घनत्व की पर वातानुकूलित ; सशर्त घनत्व फ़ंक्शन का मूल्यांकन पर किया जा रहा है । ΘθΘएक्स एक्सfΘ(θ)xXएक्स Θ = θ एक्सfXΘ(xΘ=θ)XΘ=θx का एक पश्च घनत्व घनत्व जिसमें हम अंश को संयुक्त घनत्व रूप में पहचानते हैं डेटा और पैरामीटर का अनुमान लगाया जा रहा है। बिंदु जहां पा लेता है इसकी अधिकतम मूल्य की एमएपी अनुमान है , और, एक ही तर्क के रूप में उपयोग करते हुए पैराग्राफ में, हम देखते हैं कि हम को दाईं ओर अनदेखा कर सकते हैंΘ

(1)fΘX(θx)=fXΘ(xΘ=θ)fΘ(θ)fX(x)
fX,Θ(x,θ)θMAPfΘX(θx)θ[fX(x)]1(1)बहुसांस्कृतिक स्थिरांक के रूप में, जैसा कि हम दोनों और दोनों में गुणक स्थिरांक को अनदेखा कर सकते हैं । इसी तरह जब लॉग-लाइक का उपयोग किया जा रहा है, हम additive स्थिरांक को अनदेखा कर सकते हैं।fXΘ(xΘ=θ)fΘ(θ)

सोच की इस पंक्ति को बेयस के माध्यम से भी किया जा सकता है: यदि आप या को बेयस के प्रमेय में , तो कोई फर्क नहीं पड़ता, रद्द हो जाएगा ताकि पीछे वाला समान हो। LaLa
kjetil b halvorsen

5

आम आदमी की शर्तों में, आप अक्सर अधिकतम संभावना की तलाश करेंगे और और समान महत्वपूर्ण बिंदुओं को साझा करेंगे।f(x)kf(x)


3
इसलिए और f ( x ) + 2 करें लेकिन वे समान संभावना वाले कार्य नहीं करेंगेf(x)f(x)+2
हेनरी

कृपया, जैसा कि एलेकोस पापाडोपोलस ने अपने जवाब में लिखा है, "संभावना पहले एक संयुक्त संभावना घनत्व समारोह है"। यादृच्छिक नमूनों के लिए आईआईडी धारणा के कारण, यह संयुक्त कार्य सरल घनत्व कार्यों का एक उत्पाद है, इसलिए गुणक कारक उत्पन्न होते हैं, जोड़ नहीं करते हैं।
सर्जियो

1
संयुक्त फ़ंक्शन एक ऐसा उत्पाद है यदि और केवल अगर डेटा स्वतंत्र हैं। लेकिन MLE निर्भर चर तक फैली हुई है, इसलिए उत्पाद तर्क असंबद्ध दिखाई देता है।
whuber

1

मेरा सुझाव है कि संभावना फ़ंक्शन (अर्थात ऐसे शब्द जिनमें पैरामीटर शामिल नहीं हैं) में किसी भी स्थिर शब्दों को दृष्टि से नहीं छोड़ना चाहिए। सामान्य परिस्थितियों में, वे पहले से ही उल्लेख की संभावना के को प्रभावित नहीं करते हैं । परंतु: argmax

असामान्य परिस्थितियां हो सकती हैं जब आपको किसी छत के लिए संभावना के अधीन अधिकतम करना होगा -और फिर आपको किसी भी स्थिरांक को उसके मूल्य की गणना में शामिल करने के लिए "याद रखना" चाहिए।

इसके अलावा, आप गैर-नेस्टेड मॉडल के लिए मॉडल चयन परीक्षण कर रहे हैं, प्रक्रिया में संभावना के मूल्य का उपयोग कर सकते हैं और, क्योंकि मॉडल गैर-नेस्टेड हैं दो संभावना अलग-अलग स्थिरांक होंगे।

इनके अलावा, वाक्य

"क्योंकि संभावना केवल आनुपातिकता (या लॉग-लाइबिलिटी के लिए एक योजक स्थिरांक) के गुणा गुणक तक परिभाषित है"

है गलत है क्योंकि संभावना है, पहले एक संयुक्त प्रायिकता घनत्व समारोह , बस "किसी भी" उद्देश्य समारोह को बड़ा किया जा करने के लिए नहीं।


3
हम्मम ... बायेसियन हैट पहनते समय, मैंने हमेशा इस संभावना के बारे में सोचा कि डेटा के सशर्त घनत्व फ़ंक्शन के रूप में पैरामीटर दिए गए हैं और संयुक्त संभावना घनत्व फ़ंक्शन के रूप में नहीं । डेटा और पैरामीटर के संयुक्त प्रायिकता घनत्व की अधिकतम का स्थान (अज्ञात पैरामीटर के एक समारोह के रूप में माना ; डेटा तय किया जा रहा) अधिकतम देता है का अनुमान किया हुआ की संभावना (एमएपी) अनुमान θ , यह नहीं है? θθ
दिलीप सरवटे

3
मुझे लगता है कि आपको भाषा के साथ थोड़ा और सावधान रहने की जरूरत है। संभावना एक निश्चित नमूने के लिए मापदंडों का एक कार्य है, लेकिन नमूना स्थान पर संयुक्त घनत्व के बराबर है । यही कारण है, यह नमूना स्थान पर 1 को एकीकृत करेगा , लेकिन पैरामीटर स्थान पर एकीकृत होने पर 1 आवश्यक नहीं है । जब आप कहते हैं कि "संभावना एक घनत्व है, तो मापदंडों के एक फ़ंक्शन के रूप में देखा जाता है," यह ध्वनि करता है जैसे कि आप का अर्थ है "मापदंडों के संबंध में घनत्व," जो यह नहीं है।
L(θx)=f(xθ).
11
हेरूप

1
@heropup मैंने पहले ही लिखा है कि यह जरूरी नहीं कि पैरामीटर स्पेस पर एकता को एकीकृत करता है, और इसलिए, तुरंत, इसे "घनत्व फ़ंक्शन" के रूप में नहीं माना जा सकता है जब इसे "मापदंडों के फ़ंक्शन" के रूप में देखा जाता है।
एलेकोस पापाडोपोलोस

1
हाँ मैं जानता हूँ। मेरा कहना है कि वाक्यांश "संभावना फ़ंक्शन एक घनत्व फ़ंक्शन है, जिसे मापदंडों के एक फ़ंक्शन के रूप में देखा जाता है" स्वयं भ्रामक है। ऐसा कुछ कहना अधिक सटीक होगा, "संभावना फ़ंक्शन एक निश्चित नमूने के लिए मापदंडों का एक फ़ंक्शन है, और नमूना स्थान पर संयुक्त घनत्व के बराबर (या आनुपातिक) है।"

1
@heropup आपका वांछित कथन कि "नमूना स्थान पर संयुक्त घनत्व के बराबर संभावना ... (समानुपाती) है" वास्तव में बहुत अधिक सटीक लेकिन समान रूप से गलत होगा। संभावना फ़ंक्शन न तो संयुक्त घनत्व के बराबर और न ही आनुपातिक है क्योंकि "आनुपातिकता का गुणांक" एक स्थिर नहीं है (जब तक कि अज्ञात पैरामीटर का पूर्व वितरण एक अंतराल पर समान रूप से वितरित नहीं किया जाता है)। संयुक्त घनत्व है जहां एल संभावना और है ( θ ) पैरामीटर की पूर्व वितरण है।L(xθ)f(θ)Lf(θ)
दिलीप सरवटे
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.