एक वितरण के परिवार की परिभाषा?


14

क्या वितरण का एक परिवार अन्य विषयों की तुलना में सांख्यिकी के लिए एक अलग परिभाषा है?

सामान्य तौर पर, घटता का एक परिवार घटता का एक समूह होता है, जिनमें से प्रत्येक को एक फ़ंक्शन या पैरामीरिज़ेशन द्वारा दिया जाता है जिसमें एक या अधिक पैरामीटर विविध होते हैं। ऐसे परिवारों का उपयोग किया जाता है, उदाहरण के लिए, इलेक्ट्रॉनिक घटकों को चिह्नित करने के लिए ।

आंकड़ों के लिए, एक स्रोत के अनुसार एक परिवार आकार पैरामीटर को अलग करने का परिणाम है। फिर हम कैसे समझ सकते हैं कि गामा वितरण का एक आकार और पैमाना पैरामीटर है और केवल सामान्यीकृत गामा वितरण है, इसके अलावा, एक स्थान पैरामीटर? क्या इससे परिवार को स्थान पैरामीटर अलग-अलग हो जाता है? @Whuber के अनुसार परिवार का अर्थ स्पष्ट रूप से एक परिवार का "पैरामीटराइजेशन" है , जो सामान्य रूप से ology n के सबसेट से एक निरंतर मानचित्र है , इसकी सामान्य टोपोलॉजी के साथ, वितरण के स्थान में, जिसकी छवि उस परिवार की है।n

क्या, सरल भाषा में, सांख्यिकीय वितरण के लिए एक परिवार है?

एक ही परिवार से वितरण के सांख्यिकीय गुणों के बीच संबंधों के बारे में एक सवाल पहले ही एक अलग प्रश्न के लिए काफी विवाद उत्पन्न कर चुका है, इसलिए इसका अर्थ तलाशने के लिए सार्थक है।

यह जरूरी नहीं है कि मुहावरेदार घातीय परिवार में इसके उपयोग से एक साधारण सवाल पैदा होता है, जिसका कर्व के परिवार से कोई लेना-देना नहीं है, लेकिन यह केवल मापदंडों के ही नहीं, बल्कि पुनर्संरचना द्वारा वितरण के पीडीएफ के रूप को बदलने से संबंधित है , लेकिन स्वतंत्र यादृच्छिक चर के कार्यों का प्रतिस्थापन भी।


1
"वितरण का परिवार" को फिर से तैयार करने से, क्या आपका मतलब "वितरण का परिवार" है? एक घातीय परिवार वितरण का एक परिवार है (कुछ गुणों के साथ), और प्रत्येक वितरण के पीडीएफ को एक वक्र के रूप में व्याख्या करना, यह यहां तक ​​कि घटता के परिवार से मेल खाता है, इसलिए अंतिम पैराग्राफ उलझन में लगता है।
जुहो कोक्कला

@ जुहूकोक्कल यह भ्रामक लगता है क्योंकि "परिवार" का अर्थ संदर्भ पर निर्भर है। उदाहरण के लिए, अज्ञात माध्य और ज्ञात विचरण का एक सामान्य वितरण घातीय परिवार में है। एक सामान्य वितरण अनंत समर्थन, है , और एक घातीय वितरण अर्द्ध अनंत समर्थन, है [ 0 , + ) , इसलिए वहाँ एक घातीय वितरण के लिए घटता का कोई परिवार है कि कवर एक सामान्य की सीमा वितरण, वे कभी भी एक ही आकार के नहीं होते ...(,+)[0,+)
कार्ल

@JuhoKokkala ... और एक घातांक पीडीएफ में एक स्थान पैरामीटर भी नहीं है, जबकि एक सामान्य वितरण एक के बिना नहीं कर सकता। आवश्यक प्रतिस्थापन के लिए ऊपर दिए गए लिंक को देखें, और जिस संदर्भ में एक सामान्य पीडीएफ घातीय परिवार में है।
कार्ल

1
आंकड़े . stackexchange.com/questions/129990/… प्रासंगिक हो सकते हैं। "अज्ञात माध्य और ज्ञात विचरण का सामान्य वितरण घातीय परिवार में है", मेरी जानकारी में, शब्दावली का दुरुपयोग (हालांकि कुछ हद तक) है। सटीक होने के लिए, एक घातीय परिवार कुछ गुणों के साथ वितरण का एक परिवार है। अज्ञात माध्य और ज्ञात विचरण के साथ सामान्य वितरण का परिवार एक घातीय परिवार है; घातीय वितरण का परिवार एक और घातीय परिवार है, आदि
जुहो कोक्कल

1
@ जुहूकोक्कल: वह "परिवार" आमतौर पर (एब) का उपयोग किया जाता है, एक विशेष मामले में, जिसका अर्थ है "परिवारों का सेट" शायद दूसरे जवाब में बाहर खींचने के लायक है। (मैं अन्य मामलों के बारे में सोच नहीं सकते हैं - किसी कारण से ऐसा लगता है कोई है "की बात कर रहे होने का खतरा स्थान पैमाने पर परिवार"।)
Scortchi - को पुनः स्थापित मोनिका

जवाबों:


14

सांख्यिकीय और गणितीय अवधारणाएं एक समान हैं, यह समझना कि "परिवार" विभिन्न परिस्थितियों के लिए अनुकूलित तकनीकी विविधताओं के साथ एक सामान्य गणितीय शब्द है:

एक पैरामीट्रिक परिवार सभी वितरणों के स्थान में एक वक्र (या सतह या अन्य परिमित आयामी सामान्यीकरण) है।

इस पोस्ट के बाकी हिस्सों का मतलब है कि इसका क्या मतलब है। एक तरफ के रूप में, मुझे नहीं लगता कि इसमें से कोई भी विवादास्पद है, या तो गणितीय या सांख्यिकीय रूप से (एक मामूली मुद्दे के अलावा जो नोट किया गया है)। इस राय के समर्थन में मैंने कई संदर्भों (ज्यादातर विकिपीडिया लेखों) की आपूर्ति की है।


"परिवारों" की इस शब्दावली का उपयोग तब किया जाता है जब कक्षाओं के को कार्यों के सेट Y या "मैप्स" में अध्ययन किया जाता है । एक डोमेन को देखते हुए एक्स , एक परिवार एफ नक्शे की एक्स parameterized कुछ सेट द्वारा Θ ( "पैरामीटर") एक समारोह हैCYYX FX Θ

F:X×ΘY

जो (1) प्रत्येक के लिए के लिए , समारोह एफ θ : एक्स वाई द्वारा दिए गए एफ θ ( एक्स ) = एफ ( एक्स , θ ) में है सी वाई और (2) एफ ही कुछ "अच्छा" गुण है।θΘFθ:XYFθ(x)=F(x,θ)CYF

विचार यह है कि हम से वाई तक के कार्यों को "सहज" या नियंत्रित तरीके से अलग-अलग करना चाहते हैं । संपत्ति (1) का अर्थ है कि प्रत्येक θ निर्दिष्ट इस तरह के एक समारोह है, जबकि संपत्ति (2) का ब्यौरा भावना है, जिसमें में एक "छोटे" परिवर्तन पर कब्जा θ लाती में एक पर्याप्त "छोटे" परिवर्तन एफ θXYθθFθ

एक मानक गणितीय उदाहरण, प्रश्न में वर्णित एक के करीब, एक होमोटोपी है । इस मामले में , टोपोलॉजिकल स्पेस X से टोपोलॉजिकल स्पेस Y में निरंतर मैप्स की श्रेणी है ; Θ = [ 0 , 1 ] आर अपने सामान्य टोपोलॉजी के साथ इकाई अंतराल है, और हम चाहते हैं कि एफ एक हो निरंतर संस्थानिक उत्पाद से नक्शा एक्स × Θ में वाई । इसे " F के निरंतर विकृति" के रूप में माना जा सकता हैCY XYΘ=[0,1]RFX×ΘY करने के लिए एफ 1 । "जब एक्स = [ 0 , 1 ] ही एक अंतराल है, इस तरह के नक्शे हैंघटतामें वाई और होमोटॉपी एक वक्र से दूसरे में एक चिकनी विरूपण है।F0F1X=[0,1]Y

सांख्यिकीय अनुप्रयोगों के लिए, , R (या, व्यवहार में, R n पर कुछ n पर सभी वितरणों का सेट है , लेकिन प्रदर्शनी को सरल रखने के लिए मैं n = 1 पर ध्यान केंद्रित करूंगा )। हम सभी गैर-घटते càdlàg फ़ंक्शन R[ 0 , 1 ] के सेट से इसकी पहचान कर सकते हैं , जहां उनकी सीमा को बंद करने में 0 और 1 दोनों शामिल हैं: ये संचयी वितरण कार्य हैं, या बस वितरण कार्य हैं। इस प्रकार, एक्स = आर औरCYRRnnn=1R[0,1]01X=RY=[0,1]

वितरण का एक परिवार का कोई सबसेट हैCY एक परिवार का दूसरा नाम सांख्यिकीय मॉडल है। इसमें सभी वितरण शामिल हैं जिन्हें हम अपनी टिप्पणियों को नियंत्रित करते हैं, लेकिन हम अन्यथा यह नहीं जानते कि कौन सा वितरण वास्तविक है।

  • एक परिवार खाली हो सकता है।
  • स्वयं एक परिवार है।CY
  • एक परिवार में एक ही वितरण या उनमें से केवल एक परिमित संख्या हो सकती है।

ये अमूर्त सेट-सिद्धांत संबंधी विशेषताएँ अपेक्षाकृत कम रुचि या उपयोगिता की हैं। यह केवल तब होता है जब हम पर अतिरिक्त (प्रासंगिक) गणितीय संरचना पर विचार करते हैं कि यह अवधारणा उपयोगी हो जाती है। लेकिन C Y के कौन से गुण सांख्यिकीय रुचि के हैं? कुछ जो अक्सर दिखाई देते हैं:CYCY

  1. एक हैउत्तल सेट: किसी भी दो वितरण दिए गए एफ , जी सी वाई , हम फार्म कर सकते हैंमिश्रण वितरण(1-टी) एफ +टी जीवाईसभी के लिएटी[0,1]। यहएफसेजीतक एक प्रकार की "होमोटोपी" है।CYF,GCY (1t)F+tGYt[0,1]FG

  2. बड़े हिस्से विभिन्न छद्म मैट्रिक्स का समर्थन करते हैं, जैसे कि कुल्बैक-लीब्लर डाइवर्जेंस या निकटता से संबंधित फ़िशर सूचना मीट्रिक।CY

  3. एक additive संरचना है: किसी भी दो वितरण के लिए इसीएफऔरजीउनका योग, है एफ जीCYFGFG

  4. कई उपयोगी, प्राकृतिक कार्यों का समर्थन करता है, जिन्हें अक्सर "गुण" कहा जाता है। इनमें कोई निश्चित मात्रात्मक (जैसे कि माध्यिका) और साथ हीक्यूम्यूलेंट भी शामिल हैंCY

  5. एकफंक्शन स्पेसका सबसेटहै। इस प्रकार, यह इस तरह के रूप में कई उपयोगी मेट्रिक्स, विरासत मेंsup आदर्श( एल आदर्श) द्वारा दिया गया | | एफ-जी | | = sup एक्स आर | एफ(एक्स)-जी(एक्स) | CYL

    ||FG||=supxR|F(x)G(x)|.
  6. R पर प्राकृतिक समूह क्रियाएं C Y पर क्रियाओं को प्रेरित करती हैं । आम कार्यों हैं अनुवाद टी μ : एक्स एक्स + μ और scalings एस σ : एक्स x σ के लिए σ > 0 । प्रभाव एक वितरण पर इन राशि भेजने के लिए है एफ द्वारा दिए गए वितरण के लिए एफ μ , σ ( x ) = एफ ( ( एक्स - μ )RCY Tμ:xx+μ Sσ:xxσσ>0F । ये स्थान-स्तरीय परिवारों और उनके सामान्यीकरण की अवधारणाओं को जन्म देते हैं। (मैं एक संदर्भ की आपूर्ति नहीं करता हूं, क्योंकि व्यापक वेब खोजें विभिन्न परिभाषाओं की एक किस्म को बदल देती हैं: यहां, कम से कम, थोड़ा विवाद हो सकता है।)Fμ,σ(x)=F((xμ)/σ)

गुण जो मायने रखते हैं वह सांख्यिकीय समस्या पर निर्भर करते हैं और आप डेटा का विश्लेषण कैसे करना चाहते हैं। पूर्ववर्ती विशेषताओं द्वारा सुझाए गए सभी विविधताओं को संबोधित करते हुए इस माध्यम के लिए बहुत अधिक स्थान लेगा। आइए एक सामान्य महत्वपूर्ण एप्लिकेशन पर ध्यान केंद्रित करें।

उदाहरण के लिए, अधिकतम संभावना को ही लें। अधिकांश अनुप्रयोगों में आप अनुमान प्राप्त करने के लिए पथरी का उपयोग करने में सक्षम होना चाहेंगे। इस काम के लिए, आपको परिवार में "डेरिवेटिव लेने" में सक्षम होना चाहिए।

( एक तरफ तकनीकी: हमेशा की तरह, जिसमें इस पूरा किया है एक डोमेन का चयन करने के लिए है के लिए 0 और एक निर्दिष्ट निरंतर, स्थानीय स्तर पर उलटी समारोह पी से Θ में सी वाई । इस का अर्थ है (है कि हर के लिए θ Θ वहाँ एक गेंद मौजूद बी ( θ , ε ) , के साथ ε > 0 , जिसके लिए पी | बी ( θ , ε ) :ΘRdd0pΘCYθΘB(θ,ϵ)ϵ>0 एक-से-एक है। दूसरे शब्दों में, अगर हम बदल θ एक पर्याप्त छोटी राशि से हम हमेशा एक अलग वितरण मिल जाएगा।))pB(θ,ϵ):B(θ,ϵ)ΘCYθ

नतीजतन, अधिकांश एमएल अनुप्रयोगों में हमें ently घटक में निरंतर (और उम्मीद है, लगभग हर जगह भिन्न) आवश्यकता होती है । (निरंतरता के बिना, संभावना को अधिकतम करना आम तौर पर एक अकाट्य समस्या बन जाता है।) यह एक पैरामीट्रिक परिवार की निम्नलिखित संभावना-उन्मुख परिभाषा की ओर जाता है :pΘ

(Univariate) वितरण का एक पैरामीट्रिक परिवार एक स्थानीय रूप से उलटी नक्शा है साथ Θ आर एन , जिसके लिए (क) प्रत्येक एफ θ एक वितरण समारोह और (ख) प्रत्येक के लिए है x आर , समारोह एल एक्स : θ [ 0 , 1 ] द्वारा दिए गए एल एक्स ( θ ) = एफ ( एक्स , θ )

F:R×Θ[0,1],
ΘRnFθxRLx:θ[0,1]Lx(θ)=F(x,θ) निरंतर है और लगभग हर जगह अलग है।

नोट एक पैरामीट्रिक परिवार कि बस के संग्रह की तुलना में अधिक है एफ θ : यह भी विशिष्ट तरीके से जो पैरामीटर मूल्यों में शामिल θ अनुरूप वितरण करने के लिए।FFθθ

आइए कुछ उदाहरणों के साथ समाप्त करते हैं।

  • बता दें कि सभी सामान्य वितरणों का सेट है जैसा कि दिया गया है, यह एक पैरामीट्रिक परिवार नहीं है: यह सिर्फ एक परिवार है। पैरामीट्रिक होने के लिए, हमें एक पैरामीटर चुनना होगा। एक तरह से चयन करने के लिए है Θ = { ( μ , σ ) आर 2 | σ > 0 } और मैप करने के लिए ( μ , σ ) मतलब के साथ सामान्य वितरण के लिए μ और विचरण σ 2CYΘ={(μ,σ)R2σ>0}(μ,σ)μσ2

  • के सेट प्वासों वितरण(λ) के साथ एक पैरामीट्रिक परिवार है λΘ=(0,)R1

  • वर्दी के सेट वितरण (जो कई पाठ्यपुस्तक अभ्यास में प्रमुखता से शामिल हैं) के साथ एक पैरामीट्रिक परिवार है θ आर 1 । इस मामले में, एफ θ ( एक्स ) = अधिकतम ( 0 , मिनट ( 1 , एक्स - θ ) ) में जो विभेदक है θ के अलावा θ { x , एक्स - 1 }(θ,θ+1)θR1Fθ(x)=max(0,min(1,xθ))θθ{x,x1}

  • चलो और जी होना किसी भी दो वितरण। तब एफ ( एक्स , θ ) = ( 1 - θ ) एफ ( एक्स ) + θ जी ( एक्स ) के लिए एक पैरामीट्रिक परिवार है θ [ 0 , 1 ] । (सबूत: की छवि एफ वितरण का एक सेट है और में अपनी आंशिक व्युत्पन्न θ के बराबर होती है - एफ ( एक्स ) + जी (FGF(x,θ)=(1θ)F(x)+θG(x)θ[0,1]Fθ जिसे हर जगह परिभाषित किया गया है।)F(x)+G(x)

  • पियर्सन परिवार एक चार आयामी परिवार, है , जो (दूसरों के बीच) भी शामिल है सामान्य वितरण, बीटा वितरण, और उलटा गामा वितरण। यह इस तथ्य को दर्शाता है कि किसी भी दिए गए वितरण का संबंध कई अलग-अलग वितरण परिवारों से हो सकता है । यह देखने के लिए पूरी तरह से अनुरूप है कि अंतरिक्ष (पर्याप्त रूप से बड़ी) जगह में कोई भी बिंदु कई मार्गों से संबंधित हो सकता है जो वहां प्रतिच्छेद करते हैं। यह, पिछले निर्माण के साथ मिलकर, हमें दिखाता है कि कोई भी वितरण विशिष्ट रूप से एक परिवार को निर्धारित नहीं करता है कि यह किसका है।ΘR4

  • सभी परिमित-विचरण के परिवार बिल्कुल निरंतर वितरण पैरामीट्रिक नहीं है। सबूत टोपोलॉजी की गहरी प्रमेय की आवश्यकता है: अगर हम प्रदान करना सी वाई के साथ किसी भी टोपोलॉजी (सांख्यिकीय उपयोगी है या नहीं) और पी : Θ सी वाई निरंतर है और स्थानीय स्तर पर एक सतत उलटा है, तो स्थानीय स्तर पर सी वाई के रूप में एक ही आयाम होना आवश्यक है वह Θ । हालांकि, सभी सांख्यिकीय महत्व का टोपोलोजी में, सी वाई है अनंत आयामी।CYCYp:ΘCYCYΘCY


2
आपके उत्तर को पचाने में मुझे एक दिन लगेगा। मुझे धीरे-धीरे चबाना पड़ेगा। इस बीच, धन्यवाद।
कार्ल

(+1) OK, I slogged through it. So is F:R×Θ[0,1] a Polish space or not? Can we do a simple answer so people know how to avoid using the word family improperly, please. @JuhoKokkala related, for example, that Wikipedia abused language in their exponential family, that needs clarification.
Carl

1
Doesn't the second sentence of this answer serve that request for simplicity?
whuber

IMHO, however uninformed, no, it does not due to incompleteness, it doesn't say what a family isn't. The concept "in the space of all distributions" seems to relate to statistics only.
Carl

1
I have accepted your answer. You have enough information in it that I could apply it to the question in question.
Carl

1

To address a specific point brought up in the question: "exponential family" does not denote a set of distributions. (The standard, say, exponential distribution is a member of the family of exponential distributions, an exponential family; of the family of gamma distributions, also an exponential family; of the family of Weibull distributions, not an exponential family; & of any number of other families you might dream up.) Rather, "exponential" here refers to a property possessed by a family of distributions. So we shouldn't talk of "distributions in the exponential family" but of "exponential families of distributions"—the former is an abuse of terminology, as @JuhoKokkala points out. For some reason no-one commits this abuse when talking of location–scale families.


0

Thanks to @whuber there is enough information to summarize in what I hope is a simpler form relating to the question from which this post arose. "Another name for a family [Sic, statistical family] is [a] statistical model."

From that Wikipedia entry: A statistical model consists of all distributions that we suppose govern our observations, but we do not otherwise know which distribution is the actual one. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e., some of the variables are stochastic. A statistical model is usually thought of as a pair (S,P), where S is the set of possible observations, i.e., the sample space, and P is a set of probability distributions on S.

Suppose that we have a statistical model (S,P) with P={Pθ:θΘ}. The model is said to be a Parametric model if Θ has a finite dimension. In notation, we write that ΘRd where d is a positive integer (R denotes the real numbers; other sets can be used, in principle). Here, d is called the dimension of the model.

As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that

P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.
In this example, the dimension, d, equals 2, end quote.

Thus, if we reduce the dimensionality by assigning, for the example above, μ=0, we can show a family of curves by plotting σ=1,2,3,4,5 or whatever choices for σ.

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.