सांख्यिकीय और गणितीय अवधारणाएं एक समान हैं, यह समझना कि "परिवार" विभिन्न परिस्थितियों के लिए अनुकूलित तकनीकी विविधताओं के साथ एक सामान्य गणितीय शब्द है:
एक पैरामीट्रिक परिवार सभी वितरणों के स्थान में एक वक्र (या सतह या अन्य परिमित आयामी सामान्यीकरण) है।
इस पोस्ट के बाकी हिस्सों का मतलब है कि इसका क्या मतलब है। एक तरफ के रूप में, मुझे नहीं लगता कि इसमें से कोई भी विवादास्पद है, या तो गणितीय या सांख्यिकीय रूप से (एक मामूली मुद्दे के अलावा जो नोट किया गया है)। इस राय के समर्थन में मैंने कई संदर्भों (ज्यादातर विकिपीडिया लेखों) की आपूर्ति की है।
"परिवारों" की इस शब्दावली का उपयोग तब किया जाता है जब कक्षाओं के को कार्यों के सेट Y या "मैप्स" में अध्ययन किया जाता है । एक डोमेन को देखते हुए एक्स , एक परिवार एफ नक्शे की एक्स parameterized कुछ सेट द्वारा Θ ( "पैरामीटर") एक समारोह हैCYYX FX Θ
F:X×Θ→Y
जो (1) प्रत्येक के लिए के लिए , समारोह एफ θ : एक्स → वाई द्वारा दिए गए एफ θ ( एक्स ) = एफ ( एक्स , θ ) में है सी वाई और (2) एफ ही कुछ "अच्छा" गुण है।θ∈ΘFθ:X→YFθ(x)=F(x,θ)CYF
विचार यह है कि हम से वाई तक के कार्यों को "सहज" या नियंत्रित तरीके से अलग-अलग करना चाहते हैं । संपत्ति (1) का अर्थ है कि प्रत्येक θ निर्दिष्ट इस तरह के एक समारोह है, जबकि संपत्ति (2) का ब्यौरा भावना है, जिसमें में एक "छोटे" परिवर्तन पर कब्जा θ लाती में एक पर्याप्त "छोटे" परिवर्तन एफ θ ।XYθθFθ
एक मानक गणितीय उदाहरण, प्रश्न में वर्णित एक के करीब, एक होमोटोपी है । इस मामले में , टोपोलॉजिकल स्पेस X से टोपोलॉजिकल स्पेस Y में निरंतर मैप्स की श्रेणी है ; Θ = [ 0 , 1 ] ⊂ आर अपने सामान्य टोपोलॉजी के साथ इकाई अंतराल है, और हम चाहते हैं कि एफ एक हो निरंतर संस्थानिक उत्पाद से नक्शा एक्स × Θ में वाई । इसे " F के निरंतर विकृति" के रूप में माना जा सकता हैCY XYΘ=[0,1]⊂RFX×ΘY करने के लिए एफ 1 । "जब एक्स = [ 0 , 1 ] ही एक अंतराल है, इस तरह के नक्शे हैंघटतामें वाई और होमोटॉपी एक वक्र से दूसरे में एक चिकनी विरूपण है।F0F1X=[0,1]Y
सांख्यिकीय अनुप्रयोगों के लिए, , R (या, व्यवहार में, R n पर कुछ n पर सभी वितरणों का सेट है , लेकिन प्रदर्शनी को सरल रखने के लिए मैं n = 1 पर ध्यान केंद्रित करूंगा )। हम सभी गैर-घटते càdlàg फ़ंक्शन R → [ 0 , 1 ] के सेट से इसकी पहचान कर सकते हैं , जहां उनकी सीमा को बंद करने में 0 और 1 दोनों शामिल हैं: ये संचयी वितरण कार्य हैं, या बस वितरण कार्य हैं। इस प्रकार, एक्स = आर औरCYRRnnn=1R→[0,1]01X=R ।Y=[0,1]
वितरण का एक परिवार का कोई सबसेट है । CY एक परिवार का दूसरा नाम सांख्यिकीय मॉडल है। इसमें सभी वितरण शामिल हैं जिन्हें हम अपनी टिप्पणियों को नियंत्रित करते हैं, लेकिन हम अन्यथा यह नहीं जानते कि कौन सा वितरण वास्तविक है।
- एक परिवार खाली हो सकता है।
- स्वयं एक परिवार है।CY
- एक परिवार में एक ही वितरण या उनमें से केवल एक परिमित संख्या हो सकती है।
ये अमूर्त सेट-सिद्धांत संबंधी विशेषताएँ अपेक्षाकृत कम रुचि या उपयोगिता की हैं। यह केवल तब होता है जब हम पर अतिरिक्त (प्रासंगिक) गणितीय संरचना पर विचार करते हैं कि यह अवधारणा उपयोगी हो जाती है। लेकिन C Y के कौन से गुण सांख्यिकीय रुचि के हैं? कुछ जो अक्सर दिखाई देते हैं:CYCY
एक हैउत्तल सेट: किसी भी दो वितरण दिए गए एफ , जी ∈ सी वाई , हम फार्म कर सकते हैंमिश्रण वितरण(1-टी) एफ +टी जी ∈वाईसभी के लिएटी∈[0,1]। यहएफसेजीतक एक प्रकार की "होमोटोपी" है।CYF,G∈CY (1−t)F+tG∈Yt∈[0,1]FG
बड़े हिस्से विभिन्न छद्म मैट्रिक्स का समर्थन करते हैं, जैसे कि कुल्बैक-लीब्लर डाइवर्जेंस या निकटता से संबंधित फ़िशर सूचना मीट्रिक।CY
एक additive संरचना है: किसी भी दो वितरण के लिए इसीएफऔरजीउनका योग, है एफ ⋆ जी ।CYFGF⋆G
कई उपयोगी, प्राकृतिक कार्यों का समर्थन करता है, जिन्हें अक्सर "गुण" कहा जाता है। इनमें कोई निश्चित मात्रात्मक (जैसे कि माध्यिका) और साथ हीक्यूम्यूलेंट भी शामिल हैं।CY
एकफंक्शन स्पेसका सबसेटहै। इस प्रकार, यह इस तरह के रूप में कई उपयोगी मेट्रिक्स, विरासत मेंsup आदर्श( एल ∞ आदर्श) द्वारा दिया गया | | एफ-जी | | ∞ = sup एक्स ∈ आर | एफ(एक्स)-जी(एक्स) | ।CYL∞
||F−G||∞=supx∈R|F(x)−G(x)|.
R पर प्राकृतिक समूह क्रियाएं C Y पर क्रियाओं को प्रेरित करती हैं । आम कार्यों हैं अनुवाद टी μ : एक्स → एक्स + μ और scalings एस σ : एक्स → x σ के लिए σ > 0 । प्रभाव एक वितरण पर इन राशि भेजने के लिए है एफ द्वारा दिए गए वितरण के लिए एफ μ , σ ( x ) = एफ ( ( एक्स - μ )RCY Tμ:x→x+μ Sσ:x→xσσ>0F । ये स्थान-स्तरीय परिवारों और उनके सामान्यीकरण की अवधारणाओं को जन्म देते हैं। (मैं एक संदर्भ की आपूर्ति नहीं करता हूं, क्योंकि व्यापक वेब खोजें विभिन्न परिभाषाओं की एक किस्म को बदल देती हैं: यहां, कम से कम, थोड़ा विवाद हो सकता है।)Fμ,σ(x)=F((x−μ)/σ)
गुण जो मायने रखते हैं वह सांख्यिकीय समस्या पर निर्भर करते हैं और आप डेटा का विश्लेषण कैसे करना चाहते हैं। पूर्ववर्ती विशेषताओं द्वारा सुझाए गए सभी विविधताओं को संबोधित करते हुए इस माध्यम के लिए बहुत अधिक स्थान लेगा। आइए एक सामान्य महत्वपूर्ण एप्लिकेशन पर ध्यान केंद्रित करें।
उदाहरण के लिए, अधिकतम संभावना को ही लें। अधिकांश अनुप्रयोगों में आप अनुमान प्राप्त करने के लिए पथरी का उपयोग करने में सक्षम होना चाहेंगे। इस काम के लिए, आपको परिवार में "डेरिवेटिव लेने" में सक्षम होना चाहिए।
( एक तरफ तकनीकी: हमेशा की तरह, जिसमें इस पूरा किया है एक डोमेन का चयन करने के लिए है के लिए घ ≥ 0 और एक निर्दिष्ट निरंतर, स्थानीय स्तर पर उलटी समारोह पी से Θ में सी वाई । इस का अर्थ है (है कि हर के लिए θ ∈ Θ वहाँ एक गेंद मौजूद बी ( θ , ε ) , के साथ ε > 0 , जिसके लिए पी | बी ( θ , ε ) :Θ⊂Rdd≥0pΘCYθ∈ΘB(θ,ϵ)ϵ>0 एक-से-एक है। दूसरे शब्दों में, अगर हम बदल θ एक पर्याप्त छोटी राशि से हम हमेशा एक अलग वितरण मिल जाएगा।))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYθ
नतीजतन, अधिकांश एमएल अनुप्रयोगों में हमें ently घटक में निरंतर (और उम्मीद है, लगभग हर जगह भिन्न) आवश्यकता होती है । (निरंतरता के बिना, संभावना को अधिकतम करना आम तौर पर एक अकाट्य समस्या बन जाता है।) यह एक पैरामीट्रिक परिवार की निम्नलिखित संभावना-उन्मुख परिभाषा की ओर जाता है :pΘ
(Univariate) वितरण का एक पैरामीट्रिक परिवार एक स्थानीय रूप से उलटी नक्शा है साथ Θ ⊂ आर एन , जिसके लिए (क) प्रत्येक एफ θ एक वितरण समारोह और (ख) प्रत्येक के लिए है x ∈ आर , समारोह एल एक्स : θ → [ 0 , 1 ] द्वारा दिए गए एल एक्स ( θ ) = एफ ( एक्स , θ )
F:R×Θ→[0,1],
Θ⊂RnFθx∈RLx:θ→[0,1]Lx(θ)=F(x,θ) निरंतर है और लगभग हर जगह अलग है।
नोट एक पैरामीट्रिक परिवार कि बस के संग्रह की तुलना में अधिक है एफ θ : यह भी विशिष्ट तरीके से जो पैरामीटर मूल्यों में शामिल θ अनुरूप वितरण करने के लिए।FFθθ
आइए कुछ उदाहरणों के साथ समाप्त करते हैं।
बता दें कि सभी सामान्य वितरणों का सेट है । जैसा कि दिया गया है, यह एक पैरामीट्रिक परिवार नहीं है: यह सिर्फ एक परिवार है। पैरामीट्रिक होने के लिए, हमें एक पैरामीटर चुनना होगा। एक तरह से चयन करने के लिए है Θ = { ( μ , σ ) ∈ आर 2 | σ > 0 }
और मैप करने के लिए ( μ , σ ) मतलब के साथ सामान्य वितरण के लिए μ
और विचरण σ 2 ।CYΘ={(μ,σ)∈R2∣σ>0}(μ,σ)μσ2
के सेट प्वासों वितरण(λ) के साथ एक पैरामीट्रिक परिवार है ।λ∈Θ=(0,∞)⊂R1
वर्दी के सेट वितरण (जो कई पाठ्यपुस्तक अभ्यास में प्रमुखता से शामिल हैं) के साथ एक पैरामीट्रिक परिवार है
θ ∈ आर 1 । इस मामले में, एफ θ ( एक्स ) = अधिकतम ( 0 , मिनट ( 1 , एक्स - θ ) ) में जो विभेदक है θ के अलावा
θ ∈ { x , एक्स - 1 } ।(θ,θ+1)θ∈R1Fθ(x)=max(0,min(1,x−θ))θθ∈{x,x−1}
चलो और जी होना किसी भी दो वितरण। तब एफ ( एक्स , θ ) = ( 1 - θ ) एफ ( एक्स ) + θ जी ( एक्स ) के लिए एक पैरामीट्रिक परिवार है θ ∈ [ 0 , 1 ] । (सबूत: की छवि एफ वितरण का एक सेट है और में अपनी आंशिक व्युत्पन्न θ के बराबर होती है - एफ ( एक्स ) + जी (FGF(x,θ)=(1−θ)F(x)+θG(x)θ∈[0,1]Fθ जिसे हर जगह परिभाषित किया गया है।)−F(x)+G(x)
पियर्सन परिवार एक चार आयामी परिवार, है , जो (दूसरों के बीच) भी शामिल है सामान्य वितरण, बीटा वितरण, और उलटा गामा वितरण। यह इस तथ्य को दर्शाता है कि किसी भी दिए गए वितरण का संबंध कई अलग-अलग वितरण परिवारों से हो सकता है । यह देखने के लिए पूरी तरह से अनुरूप है कि अंतरिक्ष (पर्याप्त रूप से बड़ी) जगह में कोई भी बिंदु कई मार्गों से संबंधित हो सकता है जो वहां प्रतिच्छेद करते हैं। यह, पिछले निर्माण के साथ मिलकर, हमें दिखाता है कि कोई भी वितरण विशिष्ट रूप से एक परिवार को निर्धारित नहीं करता है कि यह किसका है।Θ⊂R4
सभी परिमित-विचरण के परिवार बिल्कुल निरंतर वितरण पैरामीट्रिक नहीं है। सबूत टोपोलॉजी की गहरी प्रमेय की आवश्यकता है: अगर हम प्रदान करना सी वाई के साथ किसी भी टोपोलॉजी (सांख्यिकीय उपयोगी है या नहीं) और पी : Θ → सी वाई निरंतर है और स्थानीय स्तर पर एक सतत उलटा है, तो स्थानीय स्तर पर सी वाई के रूप में एक ही आयाम होना आवश्यक है वह Θ । हालांकि, सभी सांख्यिकीय महत्व का टोपोलोजी में, सी वाई है अनंत आयामी।CYCYp:Θ→CYCYΘCY