मैं बर्नौली यादृच्छिक चर का योग कैसे कुशलता से कर सकता हूं?


38

मैं एक रैंडम वैरिएबल ( ) मॉडलिंग कर रहा हूं, जो कि कुछ ~ 15-40k स्वतंत्र बर्नौली रैंडम वैरिएबल ( ) का , प्रत्येक एक अलग सफलता की संभावना ( ) के साथ है। औपचारिक रूप से, जहां और \ Pr (X_i = 0) = 1-p_iYXipiY=XiPr(Xi=1)=piPr(Xi=0)=1pi

मुझे Pr(Y<=k) (जहाँ k दिया गया है) जैसे प्रश्नों का उत्तर देने में दिलचस्पी है ।

वर्तमान में, मैं ऐसे प्रश्नों का उत्तर देने के लिए यादृच्छिक सिमुलेशन का उपयोग करता हूं। मैं प्रत्येक Xi को उसके p_i के अनुसार यादृच्छिक रूप से आकर्षित करता हूंpi , फिर सभी Xi मानों को Y प्राप्त करने के लिए योग करता हूंY । मैं इस प्रक्रिया को कुछ हज़ार बार दोहराता हूँ और कई बार \ Pr (Y '\ leq k) का अंश लौटाता हूँ Pr(Yk)

जाहिर है, यह पूरी तरह से सटीक नहीं है (हालांकि सटीकता बहुत बढ़ जाती है क्योंकि सिमुलेशन की संख्या बढ़ जाती है)। इसके अलावा, ऐसा लगता है कि मेरे पास उपयोग सिमुलेशन से बचने के लिए वितरण के बारे में पर्याप्त डेटा है। क्या आप सटीक संभावना पाने के लिए एक उचित तरीका सोच सकते हैं Pr(Yk) ?

ps

मैं पर्ल एंड आर का उपयोग करता हूं।

संपादित करें

प्रतिक्रियाओं के बाद मुझे लगा कि कुछ स्पष्टीकरण की आवश्यकता हो सकती है। मैं जल्द ही अपनी समस्या की सेटिंग का वर्णन करूँगा। दी गई परिधि के साथ एक गोलाकार जीन है cऔर nइसमें मैप की गई श्रेणियों का एक समूह है। उदाहरण के लिए, c=3*10^9और ranges={[100,200],[50,1000],[3*10^9-1,1000],...}। नोट सभी सीमाएँ बंद हैं (दोनों सिरे समावेशी हैं)। यह भी ध्यान दें कि हम केवल पूर्णांकों (संपूर्ण इकाइयों) से निपटते हैं।

मैं सर्कल पर उन क्षेत्रों की तलाश कर रहा हूं जो दिए गए nमैप किए गए पर्वतमाला द्वारा रेखांकित किए गए हैं। इसलिए यह जांचने के लिए कि क्या xसर्कल पर लंबाई की एक सीमा को रेखांकित किया गया है, मैं इस परिकल्पना का परीक्षण करता हूं कि nरेंज अनियमित रूप से संचालित होती हैं। लंबाई की संभावना एक मैप की गई सीमा q>xपूरी तरह से दी गई श्रेणी को कवर किया जाएगा की लंबाई xहै (q-x)/ccबड़े होने और / या छोटे होने पर यह संभावना काफी छोटी हो जाती qहै। मुझे जो दिलचस्पी है वह पर्वतमाला (बाहर n) की संख्या है जो कवर करती है x। इस प्रकार Yबनता है।

मैं अपने शून्य परिकल्पना बनाम एक तरफा विकल्प (अंडरकवरेज) का परीक्षण करता हूं। यह भी ध्यान दें कि मैं कई परिकल्पना (अलग-अलग xलंबाई) का परीक्षण कर रहा हूं , और इसके लिए सही होना सुनिश्चित करता हूं ।


क्या आपके p_i पूरे मॉडलिंग अभ्यास में तय किए गए हैं या वे एक गणना से दूसरे में बदल सकते हैं?
whuber

p_iरों तय कर रहे हैं।
डेविड बी

वर्तमान प्रतिक्रियाओं के प्रकाश में, क्या आप (ए) पी के योग का अनुमान साझा कर सकते हैं (बी) उनके वर्गों का योग? ये मूल्य आपके विकल्पों को निर्धारित करते हैं।
whuber

@ व्हाइट: ये मामलों के बीच बहुत भिन्न होते हैं। यह एक बार का मॉड्यूल नहीं है जिसे मैं बना रहा हूं (दुर्भाग्य से)।
डेविड बी

@ डेविड, लेकिन क्या आप कुछ दिशानिर्देश नहीं दे सकते हैं, जैसे कि विशिष्ट रेंज? उदाहरण के लिए, यदि 1 और 100 के बीच p की श्रेणियों का योग उपयोगी जानकारी है और कुछ कुशल समाधान सुझाता है, लेकिन अगर यह 10,000 तक मिल सकता है जो कुछ दृष्टिकोणों को बाहर कर सकता है।
whuber

जवाबों:


24

यदि यह अक्सर एक पॉइसन से मिलता जुलता है , तो क्या आपने इसे पैरामीटर साथ एक पॉइसन द्वारा अनुमानित करने की कोशिश की है ?λ=pi

संपादित करें : मैंने इसे सही ठहराने के लिए एक सैद्धांतिक परिणाम पाया है, साथ ही के वितरण के लिए एक नाम : इसे पॉइसन द्विपद वितरण कहा जाता है । ले कैम की असमानता आपको बताती है कि इसका वितरण पैरामीटर वितरण से कितनी बारीकी से जुड़ा हुआ है । यह बताता है कि इस लगभग की गुणवत्ता s के वर्गों द्वारा शासित होती है, Steele (1994) के लिए । इसलिए यदि आपके सभी यथोचित रूप से छोटे हैं, जैसा कि अब यह प्रतीत होता है कि वे हैं, यह एक बहुत अच्छा सन्निकटन होना चाहिए।Yλ=pipipi

EDIT 2 : 'यथोचित रूप से छोटा' कितना छोटा है? ठीक है, यह निर्भर करता है कि आपको सन्निकटन की कितनी अच्छी आवश्यकता है! Le कैम की प्रमेय पर विकिपीडिया लेख परिणाम मैं ऊपर करने के लिए भेजा की सटीक रूप देता है: के बीच पूर्ण मतभेद की राशि संभावना बड़े पैमाने पर समारोह का (PMF) और प्वासों ऊपर वितरण के PMF दो बार राशि से अधिक नहीं है s के वर्गों में । ले कैम (1960) से एक और परिणाम का उपयोग करना आसान हो सकता है: यह राशि भी सबसे बड़ी से 18 गुना अधिक नहीं है । इस तरह के कुछ और परिणाम हैं ... एक समीक्षा के लिए Serfling (1978) देखें ।Ypipi


1
+1 बुरा विचार नहीं है। यह संभावना है कि पोइसन्स का एक छोटा सा मिश्रण अच्छा काम करेगा, यह इस बात पर निर्भर करता है कि प्रश्न कैसे स्पष्ट किया जाता है।
whuber

1
मैंने एक नकारात्मक द्विपद वितरण के बारे में सुझाव देने के बारे में सोचा था, जो गामा-पॉइसन मिश्रण के रूप में उत्पन्न होता है, लेकिन इसका माध्य से बड़ा विचरण होता है, जबकि इस समस्या का माध्य से छोटा विचरण होता है। उसके आधार पर, मुझे यकीन नहीं है कि अगर पोइसन का कोई भी मिश्रण काम करेगा, तो निश्चित रूप से ऐसे किसी भी मिश्रण का विचरण बड़ा होगा ??
onestop

@onestop यह कहाँ कहा गया था कि विचरण माध्य से कम है? मुझे वह कथन याद आ गया।
whuber

क्षमा करें, जो कि थोड़ा गूढ़ था, लेकिन इन टिप्पणियों से इतना विस्तार नहीं होने दिया गया। mpiktas का प्रसरण है, जो माध्य से कम है, । केवल थोड़ा कम है अगर औसतन बहुत छोटा है, लेकिन मानक पॉसन एक अच्छा पर्याप्त लगभग हो सकता है। हो सकता है कि मुझे अपने उत्तर का विस्तार करना चाहिए .. लेकिन फिर संवादी धागा भ्रमित हो जाता है। Σ पी मैं पी मैंBn=pi(1pi)pipi
OneStop

आप से क्या मतलब है ? मुझे मान कैसे हैं? एक्स मैंXiXi
डेविड बी

11

आपकी इस समस्या का हल खोजते हुए मैं आपके प्रश्न पर आया। मैं यहाँ के जवाबों से बहुत संतुष्ट नहीं था, लेकिन मुझे लगता है कि एक बहुत ही सरल समाधान है जो आपको सटीक वितरण देता है, और बहुत ही ट्रैक्टेबल है।

दो असतत यादृच्छिक चर के योग का वितरण उनकी घनत्वों का दृढ़ संकल्प है। इसलिए यदि आपके पास जहां आप और जानते हैं तो आप गणना कर सकते हैं:P ( X ) P ( Y )Z=X+YP(X)P(Y)

P(Z=z)=k=P(X=k)P(Y=zk)

(Bernoulli यादृच्छिक चर के लिए बेशक आप जाने की जरूरत नहीं है काफी अनंत को।)

आप इसका उपयोग अपने आरवी के योग के सटीक वितरण का पता लगाने के लिए कर सकते हैं। आरवी के पहले दो योगों को एक साथ उनके पीडीएफ (जैसे [0.3, 0.7] * * [0.6, 0.4] = [0.18, 0.54, 0.28] को हल करके। फिर अपने अगले बर्नौली पीडीएफ (जैसे [0.18, 0.54, 0.28] * [0.5, 0.5] = [0.09, 0.36, 0.41, 0.14] के साथ उस नए वितरण को हल करें। इसे तब तक दोहराते रहें जब तक कि सभी आरवी जोड़ नहीं दिए गए। और वोइला, परिणामस्वरूप वेक्टर आपके सभी चर के योग का सटीक पीडीएफ है।

मैंने सिमुलेशन के साथ सत्यापित किया है कि यह सही परिणाम पैदा करता है। यह किसी भी स्पर्शोन्मुख मान्यताओं पर भरोसा नहीं करता है, और इसकी कोई आवश्यकता नहीं है कि बर्नौली प्रोब छोटे हैं।

बार-बार समझाने की तुलना में इसे अधिक कुशलता से करने का कोई तरीका भी हो सकता है, लेकिन मैंने इसके बारे में बहुत गहराई से नहीं सोचा है। मुझे आशा है कि यह किसी के लिए उपयोगी है!


2
क्या आपने इसे 40K चरों के साथ आज़माया है ?? (मुझे आश्चर्य है कि गणना के कितने घंटे या दिन लगते हैं ...)
व्ह्यूबर

5
(+1) मुझे इस विचार को काम करने का एक तरीका मिला। इसके लिए दो तकनीकों की आवश्यकता होती है: पहला, दृढ़ संकल्प के लिए एफएफटी का उपयोग करना; दूसरा, उन्हें क्रमिक रूप से न करें, लेकिन विभाजित करें और जीतें: उन्हें असंतुष्ट जोड़े में करें, फिर नतीजे जोड़े में करें, आदि एल्गोरिथ्म अब बजाय रूप में स्केल करता है। के लिए संभावनाओं। उदाहरण के लिए, गणितज्ञ केवल 0.4 सेकंड में 40,000 संभावनाओं के लिए संपूर्ण वितरण की गणना कर सकता है । (1,000,000 की गणना 10.5 सेकंड में की जाती है।) मैं एक फॉलोअप टिप्पणी में कोड प्रदान करूंगा। O ( n 2 ) nO(nlogn)O(n2)n
whuber

7
यहाँ Mathematica कोड है: multinomial[p_] := Module[{lc, condense}, lc = Function[{s}, ListConvolve[s[[1]], s[[2]], {1, -1}, 0]]; condense = Function[{s}, Map[lc, Partition[s, 2, 2, {1, 1}, {{1}}]]]; Flatten[NestWhile[condense, Transpose[{1 - p, p}], Length[#] > 1 &]]] इसे लागू करने के लिए, कुछ ऐसा करें p = RandomReal[{0, 1}, 40000]; pp = multinomial[p];। यह संभावनाएँ बनाता है pऔर फिर सटीक वितरण की गणना करता है ppएनबी जब का मतलब pचरम नहीं है, तो वितरण सामान्य के बहुत करीब है: जो अभी तक बहुत तेज एल्गोरिदम की ओर जाता है।
whuber

9

@onestop अच्छे संदर्भ प्रदान करता है। पोइसन द्विपद वितरण पर विकिपीडिया लेख सटीक संभावना वितरण की गणना के लिए एक पुनरावर्ती सूत्र देता है; इसके लिए प्रयास की आवश्यकता है। दुर्भाग्य से, यह एक वैकल्पिक राशि है, इसलिए यह संख्यात्मक रूप से अस्थिर होगा: फ्लोटिंग पॉइंट अंकगणित के साथ इस गणना को करना निराशाजनक है। सौभाग्य से, जब छोटा होता है, तो आपको केवल थोड़ी संख्या में संभावनाओं की गणना करने की आवश्यकता होती है, इसलिए प्रयास वास्तव में लिए आनुपातिक है । तर्कसंगत अंकगणितीय ( यानी, बिल्कुल, ताकि संख्यात्मक अस्थिरता कोई समस्या नहीं है) के साथ गणना करने के लिए आवश्यक सटीकता धीरे-धीरे बढ़ती है कि समग्र समय अभी भी लगभगपी मैं हे ( एन लॉग ( Σ मैं पी मैं ) ) हे ( एन 2 )O(n2)piO(nlog(ipi))O(n2)। यह संभव है।

एक परीक्षण के रूप में, मैं संभावनाओं की एक सरणी बनाया के विभिन्न मूल्यों के लिए करने के लिए , जो इस समस्या का आकार है। के छोटे मानों के लिए ( ) संभावनाओं की सटीक गणना का समय सेकंडों में था और इसे चतुष्कोणीय रूप से बढ़ाया गया था, इसलिए मैंने के लिए तीन एसडी तक की गणना की। माध्य (0, 1, ..., 22 सफलताओं के लिए संभावनाएं)। भविष्यवाणी के समय के अनुसार, इसमें 80 मिनट (गणितज्ञ 8 के साथ) लगे। (परिणामी संभावनाएं भिन्न हैं जिनके अंश और भाजक में लगभग 75,000 अंक हैं!) इससे पता चलता है कि गणना की जा सकती है।n n = 2 16 n n = 2 12 n = 2 16pi=1/(i+1)nn=216nn=212n=216

एक विकल्प एक लंबे सिमुलेशन (एक लाख परीक्षणों को करना चाहिए) को चलाना है। यह केवल एक बार किया जाना चाहिए, क्योंकि नहीं बदलता है।pi


9

(क्योंकि यह दृष्टिकोण पोस्ट किए गए अन्य समाधानों से स्वतंत्र है, जिनमें से एक मैंने पोस्ट किया है, मैं इसे एक अलग प्रतिक्रिया के रूप में पेश कर रहा हूं)।

आप सेकंड (या उससे कम) में सटीक वितरण की गणना कर सकते हैं बशर्ते कि पी का योग छोटा हो।

हमने पहले ही सुझाव देखे हैं कि वितरण लगभग गौसेन (कुछ परिदृश्यों के तहत) या पॉइज़न (अन्य परिदृश्यों के तहत) हो सकता है। किसी भी तरह से, हम जानते हैं कि इसका मतलब का योग है और इसका भिन्नता का योग है । इसलिए वितरण अपने मतलब के कुछ मानक विचलन के भीतर केंद्रित किया जाएगा, कहना के साथ एसडीएस 4 और 6 या आस के बीच। इसलिए हम केवल संभावना है कि राशि की गणना की जरूरत के बराबर होती है (एक पूर्णांक) के लिए के माध्यम से । जब अधिकांशपी मैं σ 2 पी मैं ( 1 - पी मैं ) जेड जेड एक्स कश्मीर कश्मीर = μ - जेड σ कश्मीर = μ + z σ पी मैं σ 2 μ कश्मीर [ μ - जेड μpiσ2pi(1pi)zzXkk=μzσk=μ+zσpiछोटे हैं, लगभग बराबर (लेकिन थोड़ा कम) , इसलिए रूढ़िवादी होने के लिए हम अंतराल में लिए गणना कर सकते हैं । उदाहरण के लिए, जब का योग बराबर होता है और पूंछों को अच्छी तरह से ढंकने के लिए को चुनना होता है, तो हमें में को कवर करने के लिए गणना की आवश्यकता होगी। = , जो सिर्फ 28 मान है।σ2μkपीमैं9जेड=6कश्मीर[9-6[μzμ,μ+zμ]pi9z=6k[, २27][969,9+69][0,27]

वितरण की गणना पुनरावर्ती रूप से की जाती है । बता दें कि इन बर्नौली वेरिएबल्स के पहले के योग का वितरण है । माध्यम से से किसी भी के लिए, पहले चर का योग को दो परस्पर अनन्य तरीकों से बराबर कर सकता है: प्रथम चर का योग और बराबर है। वरना पहले का योग चर के बराबर होती है और है । इसलिये मैं जे 0 मैं + 1 मैं + 1 जे मैं जे मैं + 1 सेंट 0 मैं j - 1 मैं + 1 सेंट 1fiij0i+1i+1jiji+1st0ij1i+1st1

fi+1(j)=fi(j)(1pi+1)+fi(j1)pi+1.

हमें केवल इस संगणना को इंटीग्रल के लिए अंतराल में सेअधिकतम ( 0 , μ - जेड j μ+zmax(0,μzμ) μ+zμ.

जब अधिकांश छोटे होते हैं (लेकिन अभी भी उचित परिशुद्धता के साथ से भिन्न होते हैं ), यह दृष्टिकोण फ्लोटिंग पॉइंट राउंडऑफ़ त्रुटियों के विशाल संचय से ग्रस्त नहीं है जिसका उपयोग मैंने पहले किए गए समाधान में किया था। इसलिए, विस्तारित-सटीक संगणना की आवश्यकता नहीं है। उदाहरण के लिए, संभावनाओं के लिए एक दोहरी सटीकता की गणना ( , और बीच राशि की संभावनाओं के लिए गणना की आवश्यकता होती है 1 - p i 1 2 16 p i = 1 / ( i + 1 ) μ = 10.6676 0 31 3 × 10 - 15 z = 6 3.6 × 10 - 8pi1pi1216pi=1/(i+1)μ=10.6676031) ने गणितज्ञ 8 के साथ 0.1 सेकंड और एक्सेल 2002 के साथ 1-2 सेकंड (दोनों एक ही उत्तर प्राप्त किए)। चौगुनी सटीकता के साथ इसे दोहराते हुए (गणितज्ञ में) लगभग 2 सेकंड लगे लेकिन से अधिक किसी भी उत्तर को नहीं बदला । कुल पूंछ में SDs पर वितरण को समाप्त करने से कुल संभावना का केवल खो गया ।3×1015z=63.6×108

0 और 0.001 ( ) के बीच 40,000 दोहरे परिशुद्धता यादृच्छिक मानों की एक सरणी के लिए एक और गणना ने गणितज्ञ के साथ 0.08 सेकंड का समय लिया।μ=19.9093

यह एल्गोरिथ्म समानांतर है। बस के सेट को लगभग बराबर आकार के एक सबसेट के में तोड़ दें । प्रत्येक उपसमुच्चय के लिए वितरण की गणना करें, फिर पूर्ण उत्तर प्राप्त करने के लिए परिणाम (यदि आप चाहें तो एफएफटी का उपयोग करके) को हल करें। यह तब भी उपयोग करने के लिए व्यावहारिक बनाता है जब बड़े हो जाते हैं, जब आपको पूंछ ( बड़े) में बहुत दूर देखने की जरूरत होती है , और / या बड़ा होता है। μ z npiμzn

प्रोसेसर की सरणी के लिए प्रोसेसर के साथ चर का समय । मैथमेटिका की गति एक मिलियन प्रति सेकंड के क्रम पर है। उदाहरण के लिए, प्रोसेसर, वैरिएंट, की कुल संभावना , और ऊपरी पूंछ में मानक विचलन के लिए बाहर जाना , मिलियन: कंप्यूटिंग समय के एक जोड़े सेकंड आंकड़ा। यदि आप इसे संकलित करते हैं, तो आप परिमाण के दो क्रमों को तेज़ कर सकते हैं।एम ( n ( μ + z nmमीटर=1n=20000μ=100जेड=6n(μ+zO(n(μ+zμ)/m)m=1n=20000μ=100z=6n(μ+zμ)/m=3.2

संयोग से, इन परीक्षण मामलों में, वितरण के रेखांकन ने स्पष्ट रूप से कुछ सकारात्मक तिरस्कार दिखाया: वे सामान्य नहीं हैं।

रिकॉर्ड के लिए, यहाँ एक गणितीय समाधान है:

pb[p_, z_] := Module[
  {\[Mu] = Total[p]},
  Fold[#1 - #2 Differences[Prepend[#1, 0]] &, 
   Prepend[ConstantArray[0, Ceiling[\[Mu] + Sqrt[\[Mu]] z]], 1], p]
  ]

( एनबी इस साइट द्वारा लागू किया गया रंग कोडिंग मैथेमेटिका कोड के लिए अर्थहीन है। विशेष रूप से, ग्रे सामग्री टिप्पणी नहीं है : यह वह जगह है जहां सभी काम किया जाता है!)

इसके उपयोग का एक उदाहरण है

pb[RandomReal[{0, 0.001}, 40000], 8]

संपादित करें

इस परीक्षण के मामले में गणितज्ञR की तुलना में एक समाधान दस गुना धीमा है - शायद मैंने इसे बेहतर तरीके से कोडित नहीं किया है - लेकिन यह अभी भी जल्दी से निष्पादित होता है (लगभग एक सेकंड):

pb <- function(p, z) {
  mu <- sum(p)
  x <- c(1, rep(0, ceiling(mu + sqrt(mu) * z)))
  f <- function(v) {x <<- x - v * diff(c(0, x));}
  sapply(p, f); x  
}
y <- pb(runif(40000, 0, 0.001), 8)
plot(y)

पीडीएफ का प्लॉट


8

विभिन्न साथ आपकी सबसे अच्छी शर्त मुझे लगता है कि सामान्य सन्निकटन है। आज्ञा देना । फिरB n = n i = 1 p i ( 1 - p i )piBn=i=1npi(1pi)

Bn1/2(i=1nXii=1npi)N(0,1),
के रूप में , प्रत्येक के लिए प्रदान की है किnε>0

Bn1i=1nE((Xipi)21{|Xipi|>εBn1/2})0,
रूप में , जो कि बर्नौली चर के लिए । यह तथाकथित लिंडेबर्ग स्थिति है, जो मानक सामान्य के अभिसरण के लिए पर्याप्त और आवश्यक है।nBn

अद्यतन: अनुमानित त्रुटि की गणना निम्न असमानता से की जा सकती है:

supx|Fn(x)Φ(x)|ALn,
जहाँ और , के और केन्द्रित योग का ।
Ln=Bn3/2i=1nE|Xipi|3
FnXi

जैसा कि व्हीबर ने बताया, अभद्र व्यवहार लिए धीमा हो सकता है । के लिए हमारे पास और । फिर हमें लगता है कि मानक सामान्य cdf से अधिकतम विचलन 0.3 है।pipi=11+iBnlnnLn(lnn)1/2n=216


3
जब मैं बढ़ता हूं तो यह सच नहीं है जब p_i दृष्टिकोण शून्य हो जाता है। अन्यथा, आपने अभी-अभी यह सिद्ध किया है कि पॉसों का वितरण सामान्य है!
whuber

1
यही कारण है कि यह होना चाहिए । अगर , से अधिक गति से शून्य पर । Bnpi1/ilimBn<
एमपिकटास

@mpiktas सही है। Poisson वितरण के अनुरूप यहाँ बहुत फिट नहीं है।

वैसे, मैं वास्तव में दूसरे पैराग्राफ में उस राक्षसी स्थिति की जांच नहीं करता था।

@G। जे कर्न्स मैं सहमत हूं कि पोइसन की उपमा अपूर्ण है, लेकिन मुझे लगता है कि यह अच्छा मार्गदर्शन देता है। पी के, पी_आई = 10 ^ {- जे} के अनुक्रम की कल्पना करें, जहां जे आई के परिमाण का क्रम है (i के लिए 1 के बराबर <= 10, 2 के लिए i <= 100, आदि)। जब n = 10 ^ k, p के बराबर 10 ^ {- k} का 90% और उनका योग उम्मीद 0.9 के साथ पॉइसन दिखता है। एक और 9% बराबर 10 ^ {1-के} और उनकी राशि पोइसन (उसी उम्मीद के साथ) दिखती है। इस प्रकार वितरण लगभग पो पोसों के योग की तरह दिखता है। यह स्पष्ट रूप से सामान्य के पास कहीं नहीं है। "राक्षसी स्थिति" की आवश्यकता है।
whuber

4

खैर, आपके विवरण और टिप्पणियों में चर्चा के आधार पर यह स्पष्ट है कि का मतलब और भिन्नता । के वितरण का आकार अंततः के व्यवहार पर निर्भर करेगा । उपयुक्त रूप से "अच्छा" (इस अर्थ में कि उनमें से बहुत सारे वास्तव में शून्य के करीब नहीं हैं), का वितरण लगभग सामान्य होगा (दाईं ओर पर केंद्रित )। लेकिन जैसे ही शून्य की ओर बढ़ना शुरू होता है वितरण बाईं ओर स्थानांतरित हो जाएगा और जब यह भीड़Yipiipi(1pi)YpipiYpiipiy-अक्सर यह बहुत कम सामान्य और बहुत अधिक पॉइज़न दिखना शुरू कर देगा, जैसा कि @whuber और @onestop ने उल्लेख किया है।

आपकी टिप्पणी से "वितरण पॉइसन दिखता है" मुझे संदेह है कि यह बाद का मामला है जो हो रहा है, लेकिन वास्तव में बारे में कुछ प्रकार के दृश्य प्रदर्शन या सारांश आंकड़ों के बिना सुनिश्चित नहीं किया जा सकता है । हालांकि नोट करें, जैसा कि @whuber ने किया है, कि पर्याप्त रूप से पैथोलॉजिकल व्यवहार के साथ आपके पास हर तरह की स्पूकी चीजें हो सकती हैं, जैसे कि सीमाएं जो मिश्रण वितरण हैं। मुझे संदेह है कि यहाँ मामला है, लेकिन फिर, यह वास्तव में इस बात पर निर्भर करता है कि आपके क्या कर रहे हैं।ppp

"कुशलतापूर्वक मॉडल कैसे करें" के मूल प्रश्न के रूप में, मैं आपके लिए एक पदानुक्रमित मॉडल का सुझाव देने जा रहा था, लेकिन यह वास्तव में उचित नहीं है यदि के स्थिर स्थिरांक हैं। संक्षेप में, हिस्टोग्राम पर एक नज़र डालें और जो आप देखते हैं उसके आधार पर पहला अनुमान लगाएं। यदि आपके के बाईं ओर बहुत भीड़ नहीं है, तो मैं @mpiktas (और एक्सटेंशन @csgillespie द्वारा) जवाब देने की सलाह दूंगा, और यदि वे बाएं-भीड़ वाले हैं तो मैं @onestop द्वारा उत्तर की सिफारिश करूंगा।ppp

वैसे, यहाँ R कोड है जिसका उपयोग मैंने इस समस्या के साथ खेलने के दौरान किया था: यदि आपका बहुत छोटा है, तो कोड वास्तव में उपयुक्त नहीं है , लेकिन लिए विभिन्न मॉडलों में प्लग करना आसान होना चाहिए (डरावना सहित) पागल) जो के अंतिम वितरण के लिए होता है ।ppY

set.seed(1)
M <- 5000
N <- 15000
p <- rbeta(N, shape1 = 1, shape2 = 10)
Y <- replicate(M, sum(rbinom(N, size = 1, prob = p)))

अब परिणामों पर एक नज़र डालें।

hist(Y)
mean(Y)
sum(p)
var(Y)
sum(p*(1 - p))

मज़े करो; मेने पक्का किया था।


यदि आपका बहुत छोटा है तो आप यह क्यों कहते हैं "कोड वास्तव में उचित नहीं है ?" मुझे ठीक काम करने लगता है, जैसे आकार 1 = 1, आकार 2 = 999, मतलब 0.001 का माध्य । pp
22

@onestop का मतलब था कि ऊपर लिखी गई (1,10) की विशिष्ट पसंद मान नहीं है जो कि बहुत छोटा है, इस बिंदु पर कि सामान्य सन्निकटन बहुत अच्छा लग रहा है। यदि कोई व्यक्ति चाहता था कि पोइसन बाहर आए, तो उन्हें कुछ और प्रयास करने की आवश्यकता होगी; यह आपकी पसंद का लगता है (1,999) एक अच्छा काम करता है, हाँ? मैं भी बनाने के लिए सोचा था , कहते हैं, 0.25, लेकिन मैं प्रयास नहीं किया है कि। pα<1

2

मुझे लगता है कि अन्य उत्तर बहुत अच्छे हैं, लेकिन मैंने आपकी संभावना का अनुमान लगाने के किसी भी बायेसियन तरीके को नहीं देखा। उत्तर का स्पष्ट रूप नहीं है, लेकिन आर का उपयोग करके संभाव्यता का अनुकरण किया जा सकता है।

यहाँ प्रयास है:

Xi|piBer(pi)

piBeta(α,β)

विकिपीडिया का उपयोग करके हम और अनुमान प्राप्त कर सकते हैं (पैरामीटर अनुमान अनुभाग देखें)।α^β^

अब आप उत्पन्न कर सकते हैं के लिए ड्रॉ कदम है, उत्पन्न से और उसके बाद उत्पन्न से । आपके द्वारा यह बार करने के बाद आप प्राप्त कर सकते हैं । यह Y की पीढ़ी के लिए एक एकल चक्र है, इस (बड़ी) संख्या को बार-बार करें और Ys के लिए हिस्टोग्राम Y के घनत्व का अनुमान होगा। पी मैं बी टी एक ( α , β ) एक्स मैं बी आर ( पी मैं ) एन वाई = Σ एक्स मैं एम एमithpiBeta(α^,β^)XiBer(pi)NY=XiMM

Prob[Yy]=#YyM

यह विश्लेषण केवल तभी मान्य होता है जब को ठीक नहीं किया जाता है। piयहां ऐसा मामला नहीं है। लेकिन मैं इसे यहां छोड़ दूंगा, अगर किसी के पास एक समान प्रश्न है।


1
कुछ शुद्धतावादियों के लिए यह बायेसियन नहीं हो सकता है। यह वास्तव में अनुभवजन्य बायेसियन है, लेकिन यह हाइपर पूर्व मम्बो जंबो का सहारा लिए बिना, आर में अपनी संभावनाओं को अनुकरण करने का एक त्वरित तरीका है।
सनकूलू डिस

1
जब आपको p_i दिया जाता है तो आपको पादरियों की आवश्यकता क्यों है?
whuber

@whuber। धन्यवाद, आप सही हैं। मुझे तय हिस्सा याद आ गया। मुझे लगा कि डेविड केवल रूप में (qx) / c होने के लिए मान का उपयोग कर रहा है और निश्चित नहीं है। मैं अपने उत्तर को संपादित करूंगा। pi
सनकूलसु डिसे

@suncoolsu - ध्यान दें कि एक "बीटा-बर्नौली" वितरण सिर्फ एक और बर्नौली वितरण है, लेकिन प्रतिस्थापित करना । यह becase । इसलिए मूल रूप से को मिलाकर आप यहाँ द्विपद सन्निकटन लागू कर रहे हैं । piαα+β(1xi)B(α+xi,β+1xi)B(α,β)=αxiβ1xiα+βpip1=p2==pn
संभाव्यता

2

जैसा कि अन्य उत्तरों में उल्लेख किया गया है, आपके द्वारा वर्णित संभावना वितरण पोइसन द्विपद वितरण है। हांग, यिली में सीडीएफ की गणना के लिए एक कुशल विधि दी गई है Poisson द्विपद वितरण के लिए वितरण समारोह की गणना करने पर

दृष्टिकोण कुशलता समारोह के डीएफटी (असतत फूरियर रूपांतरण) की कुशलता से गणना करने के लिए है।

Poisson द्विपद वितरण की विशेषता कार्य ( ) द्वारा दिया जाता है।ϕ(t)=jn[(1pj)+pjeit]i=1

एल्गोरिथ्म है:

  1. आज्ञा देना , for ।zj(k)=1pj+pjcos(ωk)+ipjsin(ωk)ω=2πn+1
  2. परिभाषित करें , परिभाषित ।xk=exp{jnlog(zj(k))}x0=1
  3. लिए गणना करें । आराम पाने के लिए सममिति का उपयोग करें।xkk=1,,[n/2]x¯k=xn+1k
  4. वेक्टर FFT लागू करें ।1n+1<x0,x1,,xn>
  5. CDF प्राप्त करने के लिए परिणाम का संचयी योग लें।

एल्गोरिथ्म पॉइबिन आर पैकेज में उपलब्ध है ।

यह दृष्टिकोण पुनरावर्ती योगों की तुलना में बहुत बेहतर परिणाम देता है क्योंकि वे संख्यात्मक स्थिरता की कमी करते हैं।


3
मेरे पास केवल उस कागज के सार तक पहुंच है, लेकिन ऐसा लगता है कि यह उस विधि को लागू करता है जो मैंने आंकड़े पर इस्तेमाल किया था ।stackexchange.com / questions / 41247 / और चर्चा करता है कि यह इस धागे में दिए गए अन्य तरीकों की तुलना कैसे करता है। यदि आप इस बारे में अधिक जानते हैं कि कागज ने क्या पूरा किया है, तो हमें सारांश पढ़कर खुशी होगी।
whuber

1

मैं पोइसन सन्निकटन लागू करने का सुझाव दूंगा। यह सर्वविदित है (AD Barbour, L. Holst and S. Janson: Poisson Approximation देखें) कि और rv बीच कुल भिन्नता दूरी के साथ पैरामीटर साथ Poisson वितरण छोटा है, सूचना के विचलन (कुल्लबैक-लिबलर की दूरी के संदर्भ में भी सीमाएँ हैं, आप पी। हरमू को देख सकते हैं: सूचना विचलन में पॉइसन वितरण का अभिसरण। प्रिफरेंस नंबर 2, फ़रवरी 2003, गणितीय विभाग, कोपेनहेगन विश्वविद्यालय। http: http: //www.harremoes.dk/Peter/poisprep.pdfYZipi

supA|P(YA)P(ZA)|min{1,1ipi}ipi2.
और P.Harremoёs के अन्य प्रकाशन, ची-चुकता दूरी (बोरिसोव और वोरोज़ेइकिन https://link.springer.com/article/10.1007%2Fs11202-008-0002-3 और कुछ अन्य दूरी देखें )।

सन्निकटन की सटीकता के लिए असीम कार्यों के लिए आप बोरिसोव और Ruzankin देख सकते हैं https://projecteuclid.org/euclid.aop/1039548369 । इसके अलावा, उस पेपर में प्रायिकताओं के लिए एक सरल बाउंड होता है: सभी , हमारे पास |Ef(Y)Ef(Z)|fA

P(YA)1(1maxipi)2P(ZA).


1
+1 सन्निकटन सीमा के बारे में उपयोगी मात्रात्मक जानकारी के लिए धन्यवाद। हमारी साइट पर आपका स्वागत है!
whuber
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.