अगर मुझे 95% संभावना है कि 1% से कम वस्तुएं दोषपूर्ण हैं, तो मुझे कितने नमूनों की आवश्यकता है?


9

मुझे यह सुनिश्चित करने की ज़रूरत है कि मेरे XML साइटमैप में से कम बकवास (टूटे लिंक) हैं। URL की सूची हज़ारों में है, और भले ही कई कारणों से उन सभी को 1 से 1 परीक्षण करना संभव हो, लेकिन मैं नहीं कर सकता:1%

1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...

इसलिए मुझे लगता है कि एक यादृच्छिक सबसेट लेना पर्याप्त होगा, समस्या यह है कि मैं संभावनाओं को नहीं जानता।

क्या कोई सरल कार्य है जिसका मैं उपयोग कर सकता हूं?

यदि यह मदद करता है, तो हम मान सकते हैं कि एक पूर्व सूचना के लिए लिंक के पार होने की संभावना के बारे में जानकारी हो सकती है। मान लीजिए कि किसी भी लिंक को तोड़ने के लिए रन के पार ।0.75%


आपके पास कितने URL हैं? (एक परिमित आबादी के बारे में अनुमान एक अनंत आबादी के बारे में अनुमान के सामान्य मामले से कुछ अलग है।)
कोडियालॉजिस्ट

?? एक परिमित संख्या स्पष्ट रूप से
gurghet 15

यह कहे बिना जाता है, लेकिन कौन सा परिमित संख्या?
कोडियालॉजिस्ट

हज़ारों की तादाद में, हर दिन थोड़ा अलग होता है
gurghet

आपकी साइट के नक्शे का क्या हो रहा है जो इसे बदल रहा है? क्या आपके पास प्रत्येक दिन पूरी तरह से अलग साइट का नक्शा है, या कुछ URL जोड़े और हटाए गए हैं? यदि बाद में, क्या आप उन पर नज़र रख सकते हैं जिन्हें जोड़ा या हटा दिया गया है, ताकि आपको केवल नए की जाँच करने की आवश्यकता हो?
कोडियालॉजिस्ट

जवाबों:


4

तो यह टूटने की दर के बारे में आपके पूर्व विश्वास के वितरण पर निर्भर करता है, लेकिन: लगभग 3600।

import scipy as sp

p = 0.0075
threshold = .01
confidence = .95

f = lambda n: sp.stats.beta(a=n*p, b=n*(1-p)).cdf(threshold) - confidence
print(sp.optimize.fsolve(f, 1000)[0])

>> 3627.45119614

यहाँ एक बर्नौली परीक्षण के रूप में लिंक टूटना मॉडल है, और बीटा वितरण के रूप में टूटना दर के बारे में अपने विश्वासों को मॉडल करना है। बीटा वितरण बर्नौली वितरण के लिए संयुग्मित है , और जब आप परीक्षण चलाते हैं तो बीटा वितरण को अपडेट करने का तरीका बहुत सुंदर है:

  • यदि यह विफल है, तो आप पहले पैरामीटर, एक जोड़ते हैंα
  • यदि यह एक सफलता है, तो आप दूसरे पैरामीटर में एक, को जोड़ते हैंβ

इसलिए यदि हम एक वितरण के साथ शुरू करते हैं और समय के .75% के बारे में विफलताओं को देखते हैं, तो वितरण के 95% बड़े होने से पहले कितने परीक्षणों में लगेगा 0.01 से नीचे है? लगभग 3600।Beta(0,0)


उन मामलों में से एक जहां बेयसियन विश्लेषण अधिक समझ में आता है क्योंकि पहले सिर्फ एक जंगली गधा अनुमान नहीं है या खराब होने का इरादा है। लेकिन शायद आप पैरामीटर पर एक स्वीप 0.5 से 0.9% तक कह सकते हैं और इसके लिए आवश्यक साजिश कर सकते हैंpn
डेविड अर्न्स्ट

1

के लिए के साथ नमूने असफलता का मौका, विफलताओं की संख्या के लिए विचरण है । तो केंद्रीय सीमा प्रमेय का उपयोग करते हुए, साथ एक मानक सामान्य, अब हम ऊपर 95 के बराबर करना चाहते हैं %, जो मेल खाती है । लिए समाधान , मुझे मिलता है ।np=0.0075np(1p)Z

P(failures<.01n)P(Z<n(.01p)np(1p))P(Z<n.02898)
Z=1.645n.02898=1.645n=3222
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.