वितरण वितरित करना


9

मैं एक कैपेसिटी प्लानिंग असाइनमेंट पर काम कर रहा हूं और मैंने कुछ किताबें पढ़ी हैं। यह विशेष रूप से वितरण के बारे में है। मैं आर का उपयोग करता हूं।

  1. मेरे डेटा वितरण की पहचान करने के लिए अनुशंसित दृष्टिकोण क्या है? क्या इसकी पहचान करने के लिए सांख्यिकीय तरीके हैं?

मेरा यह डायग्राम है।

PROBABILISTIC APPROACHES: SCENARIO ANALYSIS, DECISION TREES और SIMULATIONS

  1. R का उपयोग करके सिमुलेशन दृष्टिकोण क्या उपलब्ध हैं? यहां मैं एक निश्चित वितरण जैसे घातीय के लिए डेटा उत्पन्न करना चाहता हूं। अगर मैं इसे जावा के साथ एकीकृत करना चाहता हूं तो क्या आर-जावा सही तरीका है?

  2. क्या यह अनुमान लगाने का एक तरीका है कि किसी विशेष वितरण के लिए डेटा पाइप करते समय प्रभाव (CPU उपयोग आदि) का क्या वितरण होगा? डेटा के कुछ वितरण भेजने के विभिन्न प्रभाव क्या हैं?

कृपया इन्हें शुरुआती प्रश्न मानें। क्या ऐसी किताबें या सामग्री हैं जो इस प्रकार के सिमुलेशन से निपटती हैं?

टिप्पणियाँ

यह आरेख http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf के अंत से है ।

फिट तकनीकों की अच्छाई मैं भर आया हूँ

नेकनीयती का आकलन

  1. ची-चुकता
  2. Kolmogorov-स्मिर्नोव,
  3. एंडरसन-डार्लिंग सांख्यिकी घनत्व, cdf, PP और QQ भूखंड

मुझे यकीन नहीं है कि व्याख्या या अगले चरण क्या होने चाहिए यदि मुझे पता चलता है कि मेरा वितरण सामान्य या घातीय है आदि यह मुझे क्या करने की अनुमति देता है? भविष्यवाणी? आशा है कि यह प्रश्न स्पष्ट है।

एक्सपोनेंशियल देरी नील गनथर द्वारा मेरी क्षमता योजना पुस्तक के अनुसार कतार के उतार-चढ़ाव को प्रेरित करेगी। तो मुझे पता है कि एक बिंदु।


यदि आपको लगता है कि आपका आरेख महत्वपूर्ण है, तो आपको चित्र की गुणवत्ता में सुधार करने का प्रयास करना चाहिए ...
समुद्रमंथन

मैं उस देखभाल की सराहना करता हूं जो एक अच्छा प्रश्न बनाने के लिए लेता है। मेरी राय में आपकी बात 2. (जो कि मुझे 3 होनी चाहिए) को स्पष्टीकरण की आवश्यकता है, या आप इसे स्टैक ओवरफ्लो में भी स्थानांतरित कर सकते हैं।
gui11aume

1
मुझे लगता है कि मेरा आखिरी सवाल यहां है। मान लीजिए कि मैं अपने डेटा वितरण की पहचान करता हूं। क्या यह है कि मैं भविष्यवाणी करता हूं कि भविष्य के वितरण इस संभावना का पालन करेंगे? मुझे यहाँ डेटा विश्लेषण भाग याद आ रहा है। मुझे पता है कि एक बॉक्स-व्हिक्सर साजिश आसानी से चतुर्थक दिखाती है जिसे मैं समझता हूं। मुझे वितरण की उपयोगिता नहीं मिलती है। मई इस वितरण के गुण हैं जिनकी मुझे भविष्यवाणी के लिए जांच करने की आवश्यकता है।
मोहन राधाकृष्णन

@ocram यदि गुणवत्ता खराब है, तो अपने ब्राउज़र में पृष्ठ बढ़ाएँ: विवरण है। BTW, ये चित्र कुछ क्रिस्टल बॉल प्रलेखन से होना चाहिए ।
whuber

@ शुभंकर: वास्तव में, मैंने भी कोशिश नहीं की! टिप्पणी के लिए क्षमा करें।
ओशम

जवाबों:


7

मैं आर के साथ सिमुलेशन के बारे में आपकी बात का जवाब दूंगा क्योंकि यह एकमात्र ऐसा है जिससे मैं परिचित हूं। आर में बहुत सारे बिलियन डिस्ट्रीब्यूशन हैं जिन्हें आप अनुकरण कर सकते हैं। नामकरण का तर्क यह है कि एक वितरण नामांकित करने के disलिए नाम होगा rdis

नीचे वे हैं जिनका मैं अक्सर उपयोग करता हूं

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

आप आर के साथ फिटिंग वितरण में कुछ पूरक पा सकते हैं ।

परिवर्धन: वितरण की एक व्यापक सूची और वे संबंधित पैकेज के साथ एक लिंक प्रदान करने के लिए @jthetzel का धन्यवाद ।

लेकिन रुकिए, और भी है: ठीक है, @ व्हिबर की टिप्पणी के बाद मैं अन्य बिंदुओं को संबोधित करने की कोशिश करूंगा। बिंदु 1 के बारे में, मैं कभी भी एक अच्छाई-के-फिट दृष्टिकोण से नहीं जाता। इसके बजाय मैं हमेशा संकेत की उत्पत्ति के बारे में सोचता हूं, जैसे कि घटना का कारण क्या है, क्या इसमें कुछ प्राकृतिक समरूपता है जो इसे पैदा करता है आदि। आपको इसे कवर करने के लिए कई पुस्तक के अध्यायों की आवश्यकता है इसलिए मैं सिर्फ दो उदाहरण दूंगा।

  1. यदि डेटा मायने रखता है और कोई ऊपरी सीमा नहीं है, तो मैं एक पॉइसन की कोशिश करता हूं। पॉइसन चर को समय खिड़की के दौरान क्रमिक स्वतंत्र के मायने के रूप में समझा जा सकता है, जो एक बहुत ही सामान्य रूपरेखा है। मैं वितरण को फिट करता हूं और देखता हूं (अक्सर नेत्रहीन) कि क्या विचरण अच्छी तरह से वर्णित है। काफी बार, नमूने का विचरण बहुत अधिक होता है, उस स्थिति में मैं एक नकारात्मक द्विपद का उपयोग करता हूं। नकारात्मक द्विपद की व्याख्या अलग-अलग चरों के साथ पॉइसन के मिश्रण के रूप में की जा सकती है, जो कि और भी सामान्य है, इसलिए यह आमतौर पर नमूने के लिए बहुत अच्छी तरह से फिट बैठता है।

  2. अगर मुझे लगता है कि डेटा माध्य के चारों ओर सममित है, अर्थात विचलन समान रूप से सकारात्मक या नकारात्मक होने की संभावना है, तो मैं एक गाऊसी को फिट करने की कोशिश करता हूं। मैं तब जांच (फिर से नेत्रहीन) करता हूं कि क्या आउटलेयर का एक बहुत कुछ है, अर्थात डेटा बिंदु से बहुत दूर है। अगर वहाँ हैं, मैं एक छात्र के बजाय का उपयोग करें। स्टूडेंट के टी डिस्ट्रीब्यूशन की व्याख्या अलग-अलग वर्जन के साथ गॉसियन के मिश्रण के रूप में की जा सकती है, जो फिर से बहुत सामान्य है।

उन उदाहरणों में, जब मैं नेत्रहीन कहता हूं, तो मेरा मतलब है कि मैं क्यूक्यू साजिश का उपयोग करता हूं

प्वाइंट 3, कई किताबों के अध्यायों का भी हकदार है। दूसरे के बजाय वितरण का उपयोग करने के प्रभाव असीम हैं। इसलिए मैं यह सब करने के बजाय ऊपर दिए दो उदाहरण जारी रखूंगा।

  1. अपने शुरुआती दिनों में, मुझे नहीं पता था कि नकारात्मक द्विपद की एक सार्थक व्याख्या हो सकती है इसलिए मैंने हर समय पॉइज़न का उपयोग किया (क्योंकि मुझे मानव शब्दों में मापदंडों की व्याख्या करने में सक्षम होना पसंद है)। बहुत बार, जब आप एक पॉइज़न का उपयोग करते हैं, तो आप माध्य को अच्छी तरह से फिट करते हैं, लेकिन आप विचरण को कम आंकते हैं। इसका मतलब है कि आप अपने नमूने के चरम मूल्यों को पुन: पेश करने में असमर्थ हैं और आप ऐसे मानों को आउटलेर के रूप में मानेंगे (डेटा बिंदु जिनके पास अन्य बिंदुओं के समान वितरण नहीं है) जबकि वे वास्तव में नहीं हैं।

  2. अपने शुरुआती दिनों में, मुझे नहीं पता था कि स्टूडेंट के लिए भी एक सार्थक व्याख्या है और मैं हर समय गाऊसी का उपयोग करूंगा। एक ऐसी ही बात हुई। मैं माध्य और विचरण को अच्छी तरह से फिट करूंगा, लेकिन मैं अभी भी आउटलेर्स पर कब्जा नहीं करूंगा क्योंकि लगभग सभी डेटा बिंदुओं को माध्य के 3 मानक विचलन के भीतर होना चाहिए। वही हुआ, मैंने निष्कर्ष निकाला कि कुछ बिंदु "असाधारण" थे, जबकि वास्तव में वे नहीं थे।


2
एक नोट gui11aume के जवाब में जोड़ने के लिए: वहाँ आर में वितरण संबंधित कार्यों के लिए एक "डी, पी, क्यू, आर" वाक्य रचना उदाहरण के लिए है, dnorm, pnorm, qnorm, और rnormघनत्व, संचयी बंटन फ़ंक्शन (CDF), CDF उलटा कर रहे हैं, और क्रमशः सामान्य वितरण के लिए यादृच्छिक चर जनरेटर कार्य करता है। उपलब्ध वितरण की व्यापक सूची के लिए प्रायिकता वितरण कार्य दृश्य देखें ।
jthetzel

हां, बहुत बहुत धन्यवाद (+1)। मैं लंबे समय से ऐसी सूची की तलाश में था। मैंने इसे उत्तर में रखा ताकि यह अधिक दिखाई दे।
gui11aume

1
मैं आपको यह भी नहीं बता सकता कि उन वितरणों में से एक तिहाई क्या हैं। इतना कुछ और सीखना है ...। +1, लेकिन आइए शेष प्रश्न को न भूलें, जो कि मौलिक है (लेकिन शायद थोड़ा बहुत व्यापक है): एक सिमुलेशन में वितरण के विकल्पों पर क्या प्रभाव पड़ता है? इन विकल्पों को बनाने के बारे में कैसे जाना चाहिए?
whuber

@ जब मैंने कतार में उतार-चढ़ाव पर देरी के घातीय वितरण का प्रभाव जोड़ा। देखें। सीपी या कतार में किताबें।
मोहन राधाकृष्णन

मैंने आर के साथ फिटिंग वितरण पढ़ा है और एक बार क्यूक्यू प्लॉट का भी उपयोग किया है। नमूना डेटा की संभावना फ़ंक्शन के रूप में ज्ञात गणितीय अभिव्यक्ति के साथ अधिकतम संभावना अनुमान शुरू होता है .. धीरे-धीरे बोलना, डेटा के एक सेट की संभावना डेटा के उस विशेष सेट को प्राप्त करने की संभावना है जिसे चुना गया संभावना मॉडल दिया गया है। क्या इसका मतलब यह है कि गणना करने का एक तरीका है कि वितरण फिर से हो सकता है? इसे सिद्ध करने के लिए कितने माप की आवश्यकता है?
मोहन राधाकृष्णन
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.