आम आदमी की शर्तों में एक मॉडल और एक वितरण के बीच अंतर क्या है?


28

विकिपीडिया पर परिभाषित उत्तर (परिभाषाएँ) यकीनन उच्च गणित / आँकड़ों से अपरिचित लोगों के लिए थोड़े गुप्त हैं।

गणितीय शब्दों में, एक सांख्यिकीय मॉडल को आमतौर पर एक जोड़ी ( ) के रूप में समझा जाता है , जहां संभावित अवलोकनों का सेट है, अर्थात नमूना स्थान, और संभाव्यता वितरण का एक सेट है पर । एस पी एसS,PSPS

संभाव्यता और सांख्यिकी में, एक संभाव्यता वितरण एक यादृच्छिक प्रयोग, सर्वेक्षण, या सांख्यिकीय अनुमान की प्रक्रिया के संभावित परिणामों के प्रत्येक औसत दर्जे का सबसेट को एक संभावना प्रदान करता है। ऐसे उदाहरण पाए जाते हैं जिनका नमूना स्थान गैर-संख्यात्मक है, जहां वितरण एक श्रेणीगत वितरण होगा।

मैं एक हाई स्कूल का छात्र हूँ जो इस क्षेत्र में एक शौक के रूप में बहुत रुचि रखता है और वर्तमान में मैं एक statistical modelऔर एक के बीच के मतभेदों से जूझ रहा हूँprobability distribution

मेरी वर्तमान, और बहुत अल्पविकसित, समझ यह है:

  • सांख्यिकीय मॉडल मापा माप के अनुमानित गणितीय प्रयास हैं

  • संभाव्यता वितरण को उन प्रयोगों से विवरण मापा जाता है जो यादृच्छिक घटना के प्रत्येक संभावित परिणाम के लिए संभाव्यता प्रदान करते हैं

"वितरण" और "मॉडल" शब्दों को देखने के लिए साहित्य में प्रवृत्ति से भ्रम को और अधिक जटिल कर दिया जाता है - या कम से कम बहुत समान स्थितियों में (जैसे द्विपद वितरण बनाम द्विपद मॉडल)

क्या कोई मेरी परिभाषाओं को सत्यापित / सही कर सकता है, और शायद इन अवधारणाओं के लिए एक अधिक औपचारिक (यद्यपि अभी भी सरल अंग्रेजी के संदर्भ में) प्रस्ताव देता है?


1
निचला रेखा: सांख्यिकीय मॉडल और संभाव्यता वितरण के बीच कोई अंतर नहीं है। प्रत्येक सांख्यिकीय मॉडल एक संभावना वितरण और इसके विपरीत का वर्णन करता है। उन्हें लंबे ग्रंथों के साथ भ्रमित न होने दें।
कैगदास ओजेंक

3
@Cagdas परिभाषा के अनुसार प्रश्न में उद्धृत, वहाँ है एक अंतर: सांख्यिकीय मॉडल संभाव्यता वितरण की एक विशेष संगठित संग्रह है। जब केवल एक संभाव्यता वितरण साक्ष्य में होता है, तो हम अब आंकड़े बिल्कुल नहीं कर रहे हैं, क्योंकि सांख्यिकीय विश्लेषण का उद्देश्य प्राप्त किया गया है: हम वितरण को जानते हैं!
whuber

2
@cagdas विकिपीडिया सर्वोत्तम ग्रंथों के साथ कंपनी रखता है। मैं इससे पूरी तरह सहमत हूं।
whuber

4
@CagdasOzgenc, अपने तीखे और निश्चित दावों को प्रमाणित करने के लिए कुछ सबूत क्यों नहीं पेश करते हैं। अधिकार से प्रमाण शायद ही कभी (यदि कभी हो) स्वीकार्य है। ईडवांस के बिना एक उत्पादक चर्चा करना मुश्किल (यदि असंभव नहीं है); बिना सोचे समझे किए गए दावे शायद ही कभी शोर से ज्यादा होते हैं।
रिचर्ड हार्डी

2
@ रीचर्डहार्डी ने सवाल पूछा कि "आम आदमी की शर्तें", और उसके जवाबों को देखें। मुझे माफ करना, लेकिन मैं छात्रों को सिर्फ इसलिए पीड़ित देखना पसंद करता हूं क्योंकि किसी ने दिखावा करने का फैसला किया है। इसका उत्तर 2 + 2 = 4 जितना सरल है, और मुझे वास्तव में नहीं लगता कि इसके लिए 20 पेज के आधिकारिक संदर्भ की आवश्यकता है।
Cagdas Ozgenc 14

जवाबों:


25

संभाव्यता वितरण एक गणितीय फ़ंक्शन है जो एक यादृच्छिक चर का वर्णन करता है। थोड़ा और अधिक सटीक रूप से, यह एक ऐसा फ़ंक्शन है जो संख्याओं को संभाव्यता प्रदान करता है और यह आउटपुट को प्रायिकता के स्वयंसिद्धों से सहमत होना है

सांख्यिकीय मॉडल संभावना वितरण का उपयोग करके गणितीय संदर्भों में कुछ घटना का एक सार, आदर्श वर्णन है। कोटा वासरमैन (2013):

एक सांख्यिकीय मॉडल वितरण (या घनत्व या प्रतिगमन कार्यों) का एक सेट है। एक पैरामीट्रिक मॉडल एक सेट जिसे परिमित संख्या के मापदंडों द्वारा किया जा सकता है। [...] एफFF

सामान्य तौर पर, एक पैरामीट्रिक मॉडल रूप लेता है

F={f(x;θ):θΘ}

जहां एक अज्ञात पैरामीटर (या मापदंडों का वेक्टर) है जो पैरामीटर space में मान ले सकता है । अगर एक वेक्टर है, लेकिन हम केवल एक घटक में रुचि रखते हैं , तो हम शेष मापदंडों को उपद्रव पैरामीटर कहते हैं । एक nonparametric मॉडल एक सेट जो पैरामीटर की एक सीमित संख्या द्वारा पैरामीटर नहीं किया जा सकता है।Θ θ θ एफθ ΘθθF

कई मामलों में हम मॉडल के रूप में वितरण का उपयोग करते हैं (आप इस उदाहरण की जांच कर सकते हैं )। आप सिक्का फेंकने की श्रृंखला में सिर के एक मॉडल के रूप में द्विपद वितरण का उपयोग कर सकते हैं । ऐसे मामले में हम मानते हैं कि यह वितरण सरल तरीके से, वास्तविक परिणामों का वर्णन करता है। इसका मतलब यह नहीं है कि यह एकमात्र तरीका है कि आप इस तरह की घटना का वर्णन कैसे कर सकते हैं, न ही द्विपद वितरण कुछ ऐसा है जिसका उपयोग केवल इस उद्देश्य के लिए किया जा सकता है। मॉडल एक या एक से अधिक वितरण का उपयोग कर सकता है, जबकि बायेसियन मॉडल भी पूर्व वितरण निर्दिष्ट करते हैं।

अधिक औपचारिक रूप से मैककुल्फ (2002) द्वारा इस पर चर्चा की गई है:

वर्तमान में स्वीकृत सिद्धांतों के अनुसार [कॉक्स एंड हिंकले (1974), अध्याय 1; लेहमैन (1983), अध्याय 1; बैन्डॉर्फ-नीलसन और कॉक्स (1994), धारा 1.1; बर्नार्डो और स्मिथ (1994), अध्याय 4] एक सांख्यिकीय मॉडल नमूना अंतरिक्ष पर संभाव्यता वितरण का एक सेट है । एक पैरामीटरयुक्त सांख्यिकीय मॉडल एक पैरामीटर जो एक फ़ंक्शन , जो प्रत्येक पैरामीटर बिंदु को निर्दिष्ट करता है प्रायिकता वितरण on । यहाँ का सेट है सब पर संभाव्यता वितरणSपी : Θ पी ( एस ) θ Θ पी θ एस पी ( एस ) एस पी : Θ पी ( एस ) पी Θ पी ( एस )ΘP:ΘP(S)θΘPθSP(S)S । निम्नलिखित में से अधिकांश में, एक फ़ंक्शन रूप में मॉडल के बीच अंतर करना महत्वपूर्ण है , और वितरणों से संबंधित सेट ।P:ΘP(S)PΘP(S)

इसलिए सांख्यिकीय मॉडल अपनी शर्तों में डेटा का वर्णन करने के लिए संभाव्यता वितरण का उपयोग करते हैं। मापदंडों के परिमित सेट के संदर्भ में पैरामीट्रिक मॉडल भी वर्णित हैं।

इसका मतलब यह नहीं है कि सभी सांख्यिकीय तरीकों को संभाव्यता वितरण की आवश्यकता है। उदाहरण के लिए, रैखिक प्रतिगमन को सामान्यता धारणा के संदर्भ में अक्सर वर्णित किया जाता है , लेकिन वास्तव में यह सामान्यता से प्रस्थान के लिए बहुत मजबूत है और हमें विश्वास अंतराल और परिकल्पना परीक्षण के लिए त्रुटियों की सामान्यता के बारे में धारणा की आवश्यकता है। इसलिए प्रतिगमन के लिए काम करने के लिए हमें ऐसी धारणा की आवश्यकता नहीं है, लेकिन पूरी तरह से निर्दिष्ट सांख्यिकीय मॉडल होने के लिए हमें इसे यादृच्छिक चर के संदर्भ में वर्णन करने की आवश्यकता है, इसलिए हमें संभावना वितरण की आवश्यकता है। मैं इस बारे में लिखता हूं क्योंकि आप अक्सर लोगों को यह कहते हुए सुन सकते हैं कि उन्होंने अपने डेटा के लिए प्रतिगमन मॉडल का उपयोग किया था - ऐसे ज्यादातर मामलों में उनका मतलब यह है कि वे सशर्त पर जोर देने की तुलना में कुछ मापदंडों का उपयोग करते हुए लक्ष्य मानों और भविष्यवाणियों के बीच रैखिक संबंध के संदर्भ में डेटा का वर्णन करते हैं सामान्य।


मैककुलघ, पी। (2002)। सांख्यिकीय मॉडल क्या है? आंकड़ों का इतिहास, 1225-1267।

वासरमैन, एल। (2013)। सांख्यिकी के सभी: सांख्यिकीय निष्कर्ष में एक संक्षिप्त पाठ्यक्रम। स्प्रिंगर।


4
@ JCLeitão यही कारण है कि मैंने नोटिस जोड़ा;) शास्त्रीय ओएलएस केवल लाइन फिटिंग के बारे में है। सामान्यता की धारणाएं केवल शोर के बारे में हैं जबकि मुख्य विचार यह है कि हम एक्स के एक रैखिक कार्य के रूप में ई (वाई) मॉडलिंग कर रहे हैं। आत्मविश्वास अंतराल और परीक्षण के लिए सामान्यता की आवश्यकता है, लेकिन प्रतिगमन लाइन फिटिंग के बारे में है और त्रुटियों का कम महत्व है। (शिथिल बोल।)
टिम

आपके उत्तर के लिए धन्यवाद। क्या आप संक्षेप में 2 संक्षिप्त परिभाषा प्रदान कर सकते हैं? (यह भी मैं अंतिम पंक्ति को नहीं समझता In much of the following, it is important to distinguish between the model as a function and the associated set of distributions) क्या आप सिर्फ एक ही शब्द को साझा करने वाले दो अर्थों के बीच निहित अस्पष्टता की टिप्पणी कर रहे हैं modelया मैं कुछ याद कर रहा हूं?
एलनस्टैक

@ पहले दो पैराग्राफ में दो संक्षिप्त परिभाषा दी गई हैं, जबकि उद्धरण और संदर्भों में अधिक कठोर - क्या आप स्पष्ट कर सकते हैं कि क्या अस्पष्ट है? उद्धरण की अंतिम पंक्ति के बारे में: यह मूल रूप से कहता है कि मॉडल को संभाव्यता वितरण और मापदंडों के संदर्भ में परिभाषित किया गया है और यह याद रखना अच्छा है कि उनके दो पहलू हैं, कभी-कभी उन्हें भेद करना अच्छा होता है। मैं कठोर चर्चा के लिए उद्धृत पेपर की सिफारिश करता हूं (यह लिंक के तहत स्वतंत्र रूप से उपलब्ध है)।
टिम

8

टिकटों के एक सेट के रूप में बारे में सोचें । आप टिकट पर सामान लिख सकते हैं। आमतौर पर एक टिकट किसी वास्तविक दुनिया के व्यक्ति या वस्तु के नाम के साथ शुरू होता है जिसे वह "मॉडल" या "मॉडल" दर्शाता है। अन्य चीजों को लिखने के लिए प्रत्येक टिकट पर बहुत सारी खाली जगह होती है।S

आप प्रत्येक टिकट की जितनी चाहें उतनी प्रतियां बना सकते हैं। इस वास्तविक दुनिया की आबादी या प्रक्रिया के लिए एक प्रायिकता मॉडल में हर टिकट की एक या अधिक प्रतियां बनाने, उन्हें मिलाने और उन्हें एक बॉक्स में रखने के होते हैं। यदि आप - विश्लेषक - स्थापित कर सकते हैं कि इस बॉक्स से एक टिकट को बेतरतीब ढंग से खींचने की प्रक्रिया आपके द्वारा अध्ययन किए जा रहे सभी महत्वपूर्ण व्यवहार का अनुकरण करती है, तो आप इस बॉक्स के बारे में सोचकर दुनिया के बारे में बहुत कुछ सीख सकते हैं। क्योंकि कुछ टिकट दूसरों की तुलना में बॉक्स में अधिक संख्या में हो सकते हैं, उनके पास खींचे जाने की संभावना अलग हो सकती है। संभावना सिद्धांत इन अवसरों का अध्ययन करता है।P

जब टिकटों पर (सुसंगत तरीके से) नंबर लिखे जाते हैं , तो वे वितरण (संभावना) वितरण को जन्म देते हैं। एक संभावना वितरण केवल एक बॉक्स में टिकटों के अनुपात का वर्णन करता है, जिनकी संख्या किसी भी अंतराल के भीतर होती है।

क्योंकि हम आमतौर पर यह नहीं जानते हैं कि दुनिया कैसे व्यवहार करती है, हमें अलग-अलग बक्से की कल्पना करनी होगी, जिसमें टिकट अलग-अलग सापेक्ष आवृत्तियों के साथ दिखाई देते हैं। इन बक्सों का सेट । हम दुनिया को एक के बक्से में से एक के व्यवहार द्वारा पर्याप्त रूप से वर्णित किया जा रहा है । यह आपके लिए उचित अनुमान लगाना है कि यह आपके द्वारा खींचे गए टिकटों पर जो दिखता है, उसके आधार पर यह किस बॉक्स में है।पीPP


एक उदाहरण के रूप में (जो कि व्यावहारिक और यथार्थवादी है, पाठ्यपुस्तक का खिलौना नहीं है), मान लीजिए कि आप रासायनिक प्रतिक्रिया की दर का अध्ययन कर रहे हैं क्योंकि यह तापमान के साथ बदलता रहता है। मान लीजिए कि रसायन विज्ञान का सिद्धांत भविष्यवाणी करता है कि और डिग्री के बीच तापमान की सीमा के भीतर, तापमान के लिए आनुपातिक है।१००y0100

आप प्रत्येक तापमान पर कई अवलोकनों को बनाते हुए, और डिग्री दोनों पर इस प्रतिक्रिया का अध्ययन करने की योजना बनाते हैं । इसलिए आप बहुत बड़ी संख्या में बॉक्स बनाते हैं। आप प्रत्येक बॉक्स को टिकट से भरने जा रहे हैं। प्रत्येक पर एक दर स्थिर लिखा है। किसी भी बॉक्स में सभी टिकटों पर समान दर स्थिर है। विभिन्न बक्से अलग-अलग दर स्थिरांक का उपयोग करते हैं। 1000100

किसी भी टिकट पर लिखे गए दर स्थिर का उपयोग करते हुए, आप पर दर और डिग्री पर दर भी लिखते हैं : इन और कॉल करें । लेकिन यह अभी तक एक अच्छे मॉडल के लिए पर्याप्त नहीं है। रसायनज्ञ यह भी जानते हैं कि कोई भी पदार्थ शुद्ध नहीं है, कोई भी मात्रा बिल्कुल मापी नहीं जाती है, और अन्य प्रकार के अवलोकन परिवर्तन होते हैं। इन "त्रुटियों" को मॉडल करने के लिए, आप अपने टिकटों की बहुत, बहुत प्रतियां बनाते हैं। प्रत्येक प्रति पर आप और के मान बदलते हैं । उनमें से अधिकांश पर आप उन्हें केवल थोड़ा बदल देते हैं। बहुत कम होने पर, आप उन्हें बहुत बदल सकते हैं। जब आप प्रत्येक तापमान पर निरीक्षण करने की योजना बनाते हैं, तो आप कई बदले हुए मूल्य लिखते हैं। ये अवलोकन संभव का प्रतिनिधित्व करते हैं0100y0y100y0y100नमूदार अपने प्रयोग के परिणामों। बॉक्स में इन टिकटों के प्रत्येक सेट पर जाएं: यह एक संभावना मॉडल है कि आप किसी दिए गए दर स्थिर के लिए क्या देख सकते हैं।

आप जो निरीक्षण करते हैं, वह उस बॉक्स से टिकट खींचकर और वहां लिखी टिप्पणियों को पढ़कर बनाया जाता है। आपको या के अंतर्निहित (सच्चे) मान देखने को नहीं मिलते हैं । आपको सही (सत्य) दर स्थिर पढ़ने को नहीं मिलती है। जिन्हें आपके प्रयोग द्वारा बर्दाश्त नहीं किया गया है।y0y100

प्रत्येक सांख्यिकीय मॉडल को इन (काल्पनिक) बक्से में टिकटों के बारे में कुछ धारणाएं बनानी चाहिए। उदाहरण के लिए, हम आशा करते हैं कि जब आपने और के मूल्यों को संशोधित किया था, तो आपने ऐसा लगातार किए बिना या लगातार घटते हुए किया (एक पूरे के रूप में, बॉक्स के भीतर): यह व्यवस्थित पूर्वाग्रह का एक रूप होगा y0y100

क्योंकि प्रत्येक टिकट पर लिखी गई टिप्पणियां संख्याएं हैं, वे संभाव्यता वितरण को जन्म देती हैं। बक्से के बारे में बनाई गई धारणाएं आमतौर पर उन वितरणों के गुणों के संदर्भ में चित्रित की जाती हैं, जैसे कि उन्हें शून्य से औसत होना चाहिए, सममित होना चाहिए, "घंटी वक्र" आकार होना चाहिए, असंबंधित या जो भी हो।


वास्तव में यह सब वहाँ है। बहुत कुछ इस तरह से कि एक आदिम बारह-स्वर पैमाने ने पश्चिमी शास्त्रीय संगीत के सभी को जन्म दिया, टिकट युक्त बक्से का एक संग्रह एक सरल अवधारणा है जिसे बेहद समृद्ध और जटिल तरीकों से इस्तेमाल किया जा सकता है। यह किसी भी चीज के बारे में मॉडल कर सकता है, जिसमें एक सिक्का फ्लिप से लेकर वीडियो लाइब्रेरी, वेबसाइट इंटरैक्शन के डेटाबेस, क्वांटम मैकेनिकल एनसेंबल, और कुछ भी है जिसे देखा और रिकॉर्ड किया जा सकता है।


3

वितरण की परिभाषा के रूप में प्रत्येक संभावित घटना के लिए संभावनाओं को असाइन करने के लिए असतत वितरण के लिए काम करता है, लेकिन निरंतर वितरण के लिए पेचीदा हो जाता है, जहां वास्तविक रेखा पर कोई भी संख्या परिणाम हो सकती है। बहुत बार जब वितरण के बारे में बात करते हैं, तो हम उन्हें तय मापदंडों के रूप में सोचते हैं जैसे कि द्विपद वितरण दो पैरामीटर होते हैं: पहला, टिप्पणियों की संख्या और दूसरा एक घटना होने के एक अवलोकन के एक प्रायिकता ।π

विशिष्ट पैरामीट्रिक सांख्यिकीय मॉडल वर्णन करते हैं कि कैसे वितरण का पैरामीटर कुछ कारकों पर निर्भर करता है जैसे कि कारक (एक चर जिसमें असतत मान हैं) और कोवरिएट्स (निरंतर चर)। उदाहरण के लिए, यदि एक सामान्य वितरण में आप मानते हैं कि किसी निश्चित संख्या (एक "अवरोधन") और कुछ संख्या (एक "प्रतिगमन गुणांक") द्वारा वर्णित किया जा सकता है, एक कोवरिएट के मान से, तो आप एक रेखीय प्रतिगमन मॉडल प्राप्त करते हैं सामान्य रूप से वितरित त्रुटि शब्द। एक द्विपद बंटन के लिए, एक आम तौर पर इस्तेमाल किया मॉडल ( "रसद प्रतिगमन") ग्रहण करने के लिए संभावना के logit कि है एक घटना (के ) के रूप में एक प्रतिगमन समीकरण द्वारा वर्णित किया जा सकता हैππ/(1π)intercept+β1covariate1+। इसी तरह, एक पॉइसन वितरण के लिए एक सामान्य मॉडल दर पैरामीटर ("पॉइसन रिग्रेशन") के लघुगणक के लिए यह मान लेना है।


2
हां, लेकिन ... मॉडल न केवल मापदंडों के बारे में है, बल्कि समस्या की संरचना के बारे में भी हो सकता है (उदाहरण के लिए संभाव्य मॉडल जो ग्रहण किए गए डेटा जनरेट करने की प्रक्रिया जैसा दिखता है); गैर-पैरामीट्रिक मॉडल भी हैं।
टिम

2

एक संभाव्यता वितरण सभी जानकारी देता है कि कैसे एक यादृच्छिक मात्रा में उतार-चढ़ाव होता है। व्यवहार में हमारे पास आमतौर पर हमारी ब्याज की मात्रा की पूर्ण संभावना वितरण नहीं होता है। हम इस बारे में बिना कुछ जाने या मान सकते हैं या मान सकते हैं कि हम इसके बारे में सब कुछ जानते हैं। उदाहरण के लिए, हम मान सकते हैं कि कुछ मात्रा सामान्य रूप से वितरित की गई है, लेकिन माध्य और विचरण के बारे में कुछ भी नहीं जानते हैं। फिर हमारे पास चुनने के लिए वितरण के लिए उम्मीदवारों का एक संग्रह है; हमारे उदाहरण में, यह सभी संभव सामान्य वितरण हैं। वितरण का यह संग्रह एक सांख्यिकीय मॉडल बनाता है। हम इसका उपयोग डेटा एकत्र करके करते हैं और फिर अपने उम्मीदवारों के वर्ग को प्रतिबंधित करते हैं ताकि शेष सभी उम्मीदवार कुछ उपयुक्त अर्थों में डेटा के अनुरूप हों।


2

एक मॉडल एक पीडीएफ द्वारा निर्दिष्ट किया जाता है, लेकिन यह एक पीडीएफ नहीं है।

प्रायिकता वितरण (PDF) एक ऐसा कार्य है जो संख्याओं को संभाव्यता प्रदान करता है और इसके आउटपुट को प्रायिकता के स्वयंसिद्धों से सहमत होना पड़ता है, जैसे टिम ने समझाया

एक मॉडल पूरी तरह से एक संभावना वितरण द्वारा परिभाषित किया गया है, लेकिन यह उससे अधिक है। सिक्का उछालने के उदाहरण में, हमारा मॉडल "सिक्का उचित है" + "प्रत्येक फेंक स्वतंत्र है" हो सकता है। यह मॉडल एक पीडीएफ द्वारा निर्दिष्ट है जो p = 0.5 के साथ एक द्विपद है।

हालांकि, कोई ऐसे मॉडल की कल्पना कर सकता है जहां थ्रो स्वतंत्र नहीं हैं, इस स्थिति में यह अब द्विपद पीडीएफ द्वारा वर्णित नहीं है। फिर भी, मॉडल सभी घटनाओं के संयुक्त वितरण (एक पीडीएफ) द्वारा निर्दिष्ट किया गया है । बिंदु, औपचारिक रूप से, एक मॉडल हमेशा घटनाओं पर संयुक्त वितरण द्वारा निर्दिष्ट किया जाता है।P(x1,x2,x3,...)

मॉडल और पीडीएफ के बीच एक अंतर यह है कि एक मॉडल की व्याख्या एक सांख्यिकीय परिकल्पना के रूप में की जा सकती है। उदाहरण के लिए, सिक्का उछालने में, हम उस मॉडल पर विचार कर सकते हैं जहां सिक्का उचित है (पी = 0.5), और यह कि प्रत्येक थ्रो स्वतंत्र (द्विपद) है, और कहते हैं कि यह हमारी परिकल्पना है, जिसे हम एक प्रतिस्पर्धा परिकल्पना के खिलाफ परीक्षण करना चाहते हैं। ।

आपके पास प्रतिस्पर्धी मॉडल भी हो सकते हैं (जैसे हम नहीं जानते हैं और हम गणना करना चाहते हैं कि कौन सा सबसे उपयुक्त है)। प्रतिस्पर्धी पीडीएफ की बात करने का कोई मतलब नहीं है क्योंकि वे सिर्फ एक गणितीय वस्तु हैं।pp


क्या आप अपने अंतिम वाक्य पर विस्तार से बता सकते हैं? ऐसा लगता है कि मेरे लिए गैरपारंपरिक आंकड़ों का एक बड़ा हिस्सा है।
इयान

मैंने हमेशा गैर-पैरामीट्रिक मॉडल की व्याख्या x_i के पीडीएफ पर कम प्रतिबंधक के रूप में की थी, लेकिन फिर भी उन्हें उपयोग किए जाने वाले आंकड़ों के लिए एक पीडीएफ की आवश्यकता होती है। जैसे Kendal रैंक सहसंबंध सामान्यता मान लेता है कि p- मान की गणना करें । लेकिन यह हो सकता है कि एक काउंटर उदाहरण हो। मुझे दिलचस्पी होगी।
जॉर्ज लेइताओ

मुझे अभी यह समझ में नहीं आया कि आपके कहने का मतलब क्या है "प्रतिस्पर्धा करने वाले पीडीएफ की बात करने का कोई मतलब नहीं है"। यह वास्तव में हम क्या कर रहे हैं, यहां तक ​​कि पैरामीट्रिक आंकड़ों में भी: हमारे पास पीडीएफ का एक गुच्छा है जो हमें लगता है कि समस्या के लिए वैध हो सकता है, हम कुछ डेटा लेते हैं, और हम डेटा से निष्कर्ष निकालते हैं कि हमारे पीडीएफ का कुछ सबसेट बेहतर है। फिर हम "बेहतर" से हमारा मतलब है। (इसके अलावा, प्राथमिक संदर्भ में, आपको वास्तव में हर चीज के लिए "पीडीएफ" का उपयोग नहीं करना चाहिए। वितरण की दृष्टि से यह अंततः काम करता है, लेकिन यह काफी परिष्कृत मशीनरी है ...)
इयान

A model is specified by a PDFमैं असहमत हूं। एक मॉडल कई पीडीएफ द्वारा निर्दिष्ट किया जा सकता है। और एक मॉडल को कोई पीडीएफ द्वारा निर्दिष्ट किया जा सकता है: एक एसवीएम या प्रतिगमन पेड़ की तरह कुछ सोचो।
रिकार्डो क्रूज़

2

आप एक बहुत ही महत्वपूर्ण सवाल पूछते हैं, एलन, और ऊपर कुछ ठीक जवाब मिले हैं। मैं एक सरल उत्तर देना चाहूंगा, और इसके अतिरिक्त अंतर को इंगित करूंगा कि उपरोक्त उत्तरों को संबोधित नहीं किया गया है। सादगी के लिए, मैं यहां जो कुछ भी कहूंगा वह पैरामीट्रिक सांख्यिकीय मॉडल से संबंधित है ।

सबसे पहले, आप अपने परिवार को हाई स्कूल में सीखी गई चीजों से अपने परिवार को जोड़ने के लिए मददगार हो सकते हैं । (मुझे आश्चर्य है कि यह शब्द अभी तक इस पृष्ठ पर प्रकट नहीं हुआ है!) आपने बहुत पहले वक्रों के द्विघात परिवार के बारे में सीखा , । आप एक पैरामीट्रिक सांख्यिकीय मॉडल को उसी तरह से सोच सकते हैं, जैसे वितरण का परिवार । आपने शायद रसायन विज्ञान या भौतिकी कक्षाओं में प्रयोगशाला प्रयोग किए हैं, जहां आपने डेटा एकत्र किया है और उन्हें या जैसे मॉडल के साधारण परिवार से मापदंडों की पहचान करने के लिए प्लॉट किया है । उच्चतम स्तर पर, एक सांख्यिकीय मॉडल के मापदंडों का अनुमान लगाना ढलान को खोजने की प्रक्रिया से बहुत मिलता जुलता हैy = m x + b F = - k x m b ky=ax2+bx+cy=mx+bF=kxm और इंटरसेप्ट , या वसंत स्थिर पता लगाना । जैसा कि आप गणित का अध्ययन करना जारी रखते हैं, आप विभिन्न प्रकार की संस्थाओं के 'परिवारों' को हर जगह देखेंगे।bk

तो, आपके प्रश्न का मेरा संक्षिप्त उत्तर # 1 है: एक सांख्यिकीय मॉडल वितरण का एक परिवार है।

आगे का बिंदु मैं क्वालीफायर, सांख्यिकीय से संबंधित बनाना चाहता था । जैसा कि यहूदिया पर्ल अपने "कारण विश्लेषण के सुनहरे नियम" में बताते हैं [1, p350],

विशुद्ध रूप से सांख्यिकीय विधि द्वारा कोई कारण दावा स्थापित नहीं किया जा सकता है, यह प्रवृत्ति स्कोर, प्रतिगमन, स्तरीकरण या किसी अन्य वितरण-आधारित डिज़ाइन हो।

(वर्तमान उद्देश्यों के लिए, मैं आपको "वितरण-आधारित," और "मॉडल" के स्थान पर "डिजाइन" के स्थान पर "सांख्यिकीय" पढ़ने के लिए आमंत्रित करूंगा। पर्ल जो संदेश देना चाहता है वह यह है कि हमारे कार्य-कारण प्रभाव के मॉडल । दुनिया (विचार , उदाहरण के लिए!) जरूरी विशुद्ध रूप से सांख्यिकीय विचारों से अधिक अवतार लेते हैं । इस प्रकार, अपने प्रश्न को शीर्षक के रूप में लें --- अर्थात, मॉडल से जुड़ी योग्यता सांख्यिकीय के बिना --- एक पूर्ण उत्तर के लिए और अधिक सामंजस्य की आवश्यकता होती है, जो मॉडल आमतौर पर कारण विचारों को शामिल करते हैं जो आंकड़ों के प्रांत के बाहर निहित होते हैं , यानी संभाव्यता वितरण के बारे में बयानों के। ।F=kx

इस प्रकार, आपके प्रश्न का मेरा उत्तर # 2 है: मॉडल आमतौर पर कारण विचारों को मूर्त रूप देते हैं जिन्हें विशुद्ध रूप से वितरण की शर्तों में व्यक्त नहीं किया जा सकता है।


[१]: पर्ल, जुडिया कारण: मॉडल, तर्क और आविष्कार। दूसरा संस्करण। कैम्ब्रिज, यूके; न्यूयॉर्क: कैम्ब्रिज यूनिवर्सिटी प्रेस, 2009. .11.3.5 का लिंक, जिसमें उद्धृत पी भी शामिल हैं। 351।


मेरी अज्ञानता को क्षमा करें, लेकिन शब्द के साथ आपका क्या मतलब है causal? क्या इसके बारे में कुछ और अधिक स्पष्ट अर्थ है या क्या यह केवल causalityऔर के बीच बंधी हुई causesऔर रिश्तों की धारणा को संदर्भित करता है effects? आपके उत्तर के लिए धन्यवाद, btw।
एलनस्टैक

कारण ज्ञान में हस्तक्षेपों का प्रभाव शामिल है यदि आपके पास कारण ज्ञान है, तो आप जानते हैं कि आपके द्वारा किए गए किसी कार्य के लिए कुछ सिस्टम कैसे प्रतिक्रिया देगा। (Cf. सामान्य अपवित्रता, "संगति कार्य-कारण नहीं है।") केवल आँकड़ों के प्रांत से परे कारण-संबंधी ज्ञान कैसे निहित है, इसकी सराहना करने का एक तरीका यह है कि मैं ऊपर उल्लिखित हूक के नियम उदाहरण पर विचार करूं। इस बात पर निर्भर करता है कि एक वसंत का उपयोग कैसे किया जाता है (उदाहरण के लिए, मछली के पैमाने बनाम वसंत-भरी हुई खिलौना बंदूक में), या इसके विपरीत का कारण हो सकता है । फिर भी यहाँ कार्य-कारण के लिए है (क्योंकि एक सममित संबंध है)। एक्स एफ = - के एक्स =FxF=kx=
डेविड सी। नॉरिस
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.