मैं आर के साथ सिमुलेशन के बारे में आपकी बात का जवाब दूंगा क्योंकि यह एकमात्र ऐसा है जिससे मैं परिचित हूं। आर में बहुत सारे बिलियन डिस्ट्रीब्यूशन हैं जिन्हें आप अनुकरण कर सकते हैं। नामकरण का तर्क यह है कि एक वितरण नामांकित करने के dis
लिए नाम होगा rdis
।
नीचे वे हैं जिनका मैं अक्सर उपयोग करता हूं
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
आप आर के साथ फिटिंग वितरण में कुछ पूरक पा सकते हैं ।
परिवर्धन: वितरण की एक व्यापक सूची और वे संबंधित पैकेज के साथ एक लिंक प्रदान करने के लिए @jthetzel का धन्यवाद ।
लेकिन रुकिए, और भी है: ठीक है, @ व्हिबर की टिप्पणी के बाद मैं अन्य बिंदुओं को संबोधित करने की कोशिश करूंगा। बिंदु 1 के बारे में, मैं कभी भी एक अच्छाई-के-फिट दृष्टिकोण से नहीं जाता। इसके बजाय मैं हमेशा संकेत की उत्पत्ति के बारे में सोचता हूं, जैसे कि घटना का कारण क्या है, क्या इसमें कुछ प्राकृतिक समरूपता है जो इसे पैदा करता है आदि। आपको इसे कवर करने के लिए कई पुस्तक के अध्यायों की आवश्यकता है इसलिए मैं सिर्फ दो उदाहरण दूंगा।
यदि डेटा मायने रखता है और कोई ऊपरी सीमा नहीं है, तो मैं एक पॉइसन की कोशिश करता हूं। पॉइसन चर को समय खिड़की के दौरान क्रमिक स्वतंत्र के मायने के रूप में समझा जा सकता है, जो एक बहुत ही सामान्य रूपरेखा है। मैं वितरण को फिट करता हूं और देखता हूं (अक्सर नेत्रहीन) कि क्या विचरण अच्छी तरह से वर्णित है। काफी बार, नमूने का विचरण बहुत अधिक होता है, उस स्थिति में मैं एक नकारात्मक द्विपद का उपयोग करता हूं। नकारात्मक द्विपद की व्याख्या अलग-अलग चरों के साथ पॉइसन के मिश्रण के रूप में की जा सकती है, जो कि और भी सामान्य है, इसलिए यह आमतौर पर नमूने के लिए बहुत अच्छी तरह से फिट बैठता है।
अगर मुझे लगता है कि डेटा माध्य के चारों ओर सममित है, अर्थात विचलन समान रूप से सकारात्मक या नकारात्मक होने की संभावना है, तो मैं एक गाऊसी को फिट करने की कोशिश करता हूं। मैं तब जांच (फिर से नेत्रहीन) करता हूं कि क्या आउटलेयर का एक बहुत कुछ है, अर्थात डेटा बिंदु से बहुत दूर है। अगर वहाँ हैं, मैं एक छात्र के बजाय का उपयोग करें। स्टूडेंट के टी डिस्ट्रीब्यूशन की व्याख्या अलग-अलग वर्जन के साथ गॉसियन के मिश्रण के रूप में की जा सकती है, जो फिर से बहुत सामान्य है।
उन उदाहरणों में, जब मैं नेत्रहीन कहता हूं, तो मेरा मतलब है कि मैं क्यूक्यू साजिश का उपयोग करता हूं
प्वाइंट 3, कई किताबों के अध्यायों का भी हकदार है। दूसरे के बजाय वितरण का उपयोग करने के प्रभाव असीम हैं। इसलिए मैं यह सब करने के बजाय ऊपर दिए दो उदाहरण जारी रखूंगा।
अपने शुरुआती दिनों में, मुझे नहीं पता था कि नकारात्मक द्विपद की एक सार्थक व्याख्या हो सकती है इसलिए मैंने हर समय पॉइज़न का उपयोग किया (क्योंकि मुझे मानव शब्दों में मापदंडों की व्याख्या करने में सक्षम होना पसंद है)। बहुत बार, जब आप एक पॉइज़न का उपयोग करते हैं, तो आप माध्य को अच्छी तरह से फिट करते हैं, लेकिन आप विचरण को कम आंकते हैं। इसका मतलब है कि आप अपने नमूने के चरम मूल्यों को पुन: पेश करने में असमर्थ हैं और आप ऐसे मानों को आउटलेर के रूप में मानेंगे (डेटा बिंदु जिनके पास अन्य बिंदुओं के समान वितरण नहीं है) जबकि वे वास्तव में नहीं हैं।
अपने शुरुआती दिनों में, मुझे नहीं पता था कि स्टूडेंट के लिए भी एक सार्थक व्याख्या है और मैं हर समय गाऊसी का उपयोग करूंगा। एक ऐसी ही बात हुई। मैं माध्य और विचरण को अच्छी तरह से फिट करूंगा, लेकिन मैं अभी भी आउटलेर्स पर कब्जा नहीं करूंगा क्योंकि लगभग सभी डेटा बिंदुओं को माध्य के 3 मानक विचलन के भीतर होना चाहिए। वही हुआ, मैंने निष्कर्ष निकाला कि कुछ बिंदु "असाधारण" थे, जबकि वास्तव में वे नहीं थे।