सामान्य रूप से वितरित यादृच्छिक चर के अनुपात में महत्वपूर्ण अंतर के लिए परीक्षण


9

चर के अनुपात का विश्लेषण करने से संबंधित है और दो सामान्य रूप से वितरित चर, या एक के व्युत्क्रम के अनुपात को कैसे मापें?

मान लीजिए कि मेरे पास चार अलग-अलग निरंतर यादृच्छिक वितरणों से कई नमूने हैं, जिनमें से सभी को हम लगभग सामान्य मान सकते हैं। मेरे मामले में, ये दो अलग-अलग फाइल सिस्टम (जैसे, ext4 और XFS) के कुछ प्रदर्शन मेट्रिक्स के अनुरूप हैं, दोनों एन्क्रिप्शन के साथ और बिना। मीट्रिक हो सकता है, उदाहरण के लिए, प्रति सेकंड बनाई गई फ़ाइलों की संख्या, या कुछ फ़ाइल ऑपरेशन के लिए औसत विलंबता। हम मान सकते हैं कि इन वितरणों से तैयार किए गए सभी नमूने हमेशा सख्ती से सकारात्मक होंगे। आइए इन वितरणों को जहाँ और ।पर्फ़रोंटीyपी,nसीआरyपीटीमैंnरोंटीyपी{एक्सरों,एक्सटी4}encryption{crypto,nocrypto}

अब, मेरी परिकल्पना यह है कि एन्क्रिप्शन एक फ़ाइल सिस्टम को दूसरे की तुलना में बड़े कारक द्वारा धीमा कर देता है। क्या ?E[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto]


कुछ पाठ इस प्रश्न के बीच से हटाए गए प्रतीत होते हैं। क्या आपको लगता है कि आप इसे पुनर्स्थापित कर सकते हैं?
whuber

मुझे लगता है कि "इस प्रकार," गलती से वहाँ छोड़ दिया गया था, कम से कम मैं यह नहीं सोच सकता कि मैं क्या जोड़ना चाहता था। संभवतः यह कुछ ऐसा था जिसे मैं अंत में दूसरे पैराग्राफ में स्थानांतरित कर दिया था।
सामी झूठ 15

आप लॉग लिंक फ़ंक्शन के साथ सामान्य वितरण के लिए एक सामान्यीकृत रैखिक मॉडल फिट कर सकते हैं ।
OneStop

1
"फाइलों की संख्या" और "औसत विलंबता" को आम तौर पर वितरित नहीं किया जा सकता है (न ही एक शुरुआत के लिए नकारात्मक हो सकता है)। दोनों कुछ हद तक सही तिरछा होने की संभावना है। फ़ाइलों की संख्या एक असतत गिनती है।
Glen_b -Reinstate Monica

जवाबों:


12

StasK के ठीक उत्तर का एक विकल्प क्रमचय परीक्षण का उपयोग करना है। पहला कदम एक परीक्षण सांख्यिकीय को परिभाषित करना है , शायद:T

T=Perf^ext4,cryptoPerf^ext4,nocryptoPerf^xfs,cryptoPerf^xfs,nocrypto

जहाँ है, शायद, , आदि की टिप्पणियों का नमूना मतलब है (यह परिकल्पना की आपकी परिभाषा के अनुपात के साथ फिट बैठता है) अनुपात की अपेक्षा की वैकल्पिक संभावना के बजाय अपेक्षाएं - जो विकल्प आप वास्तव में चाहते हैं हो सकता है।) दूसरा कदम लेबल को बेतरतीब ढंग से अनुमति देना है में डेटा में कई बार, कहते हैं, , और प्रत्येक क्रमपरिवर्तन के लिए गणना करें । अंतिम चरण मनाया साथ अपने मूल तुलना करना है ; -अनुमानित पी-मान का अंश होगा । Perf^ext4,cryptoPerfext4,cryptoext4, xfsi=1,,10000TiTTiTiT

क्रमचय परीक्षण आपको स्पर्शोन्मुखता पर निर्भरता से मुक्त करता है, लेकिन निश्चित रूप से आपके नमूना आकार (और डेटा भी, निश्चित रूप से) के आधार पर, डेल्टा विधि, जिसे मैं कभी-कभी भी उपयोग करता हूं, बस ठीक काम कर सकता है।


यह एक अच्छा सुझाव है, साथ ही!
StasK

ध्यान दें कि दो केंद्रित सामान्य चर का अनुपात एक कैची चर है।
शीआन

1
@ शीआन: क्या यह स्पष्ट है कि हम मान सकते हैं कि वे यहाँ स्वतंत्र हैं? जैसा कि आप जानते हैं, इस परिणाम को धारण करने के लिए आवश्यक होगा (और उपयोगी होने का एक मौका है)।
कार्डिनल

@कार्डिनल: हाँ, वास्तव में, उन्हें स्वतंत्र होना होगा!
शीआन

1
एक बहुत ही स्नोबबिश तकनीकी बिंदु के रूप में - क्रमपरिवर्तन थोड़ा बेहतर काम करता है जब आपका परीक्षण सांख्यिकीय महत्वपूर्ण है / इसमें अज्ञात पैरामीटर शामिल नहीं है / विचरण-स्थिर है ... कम से कम अशक्त के तहत। अनुपात के साथ, आप एक चाप पाप परिवर्तन कर सकते हैं। सख्ती से सकारात्मक निरंतर मात्रा के साथ, मैं शायद लॉग से शुरू करूंगा। लेकिन यह वास्तव में केक पर आइसिंग है।
StasK

4

आप डेल्टा-विधि का उपयोग करके अनुपात के (असममित) मानक त्रुटि की गणना कर सकते हैं । यदि आपके पास दो यादृच्छिक चर और ऐसे हैं, तो वितरण में वितरण (जो कि आपके पास स्वतंत्र डेटा होने पर मामला होगा, लेकिन यह अधिक सामान्य मामले में भी होगा क्लस्टर किए गए डेटा जब आपने विभिन्न मशीनों पर अपने परीक्षण चलाए थे), तो के जनसंख्या एनालॉग के साथ अनुपात के लिए , हमारे पास है XY

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
r=Y¯/X¯ro=μY/μX
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
यदि और स्वतंत्र हैं, जैसा कि आपके मामले में हो सकता है, तो यह अभिव्यक्ति कुछ हद तक को छोड़ने के लिए सरल करती है , इसलिए हमें पता चलता है कि विविधताओं के वर्ग गुणांक बराबर हैं: यह है अतिरिक्त लाभ यह है कि नमूना आकार भिन्न हो सकते हैं। इसके अलावा, यदि आपका RHS और LHS स्वतंत्र हैं, तो आप लिए -est आँकड़ा बना सकते हैंXYσXY
CV2[r]=CV2[X¯]+CV2[Y¯]
zH0: अनुपात का अंतर लेने से कोई अंतर नहीं है और इन सीवी से प्राप्त संगत मानक त्रुटि से इसे विभाजित करना है।

मुझे आशा है कि आप इसे वहां से ले जा सकते हैं और अंतिम सूत्र प्राप्त करने के लिए लिफाफे की शेष गणना कर सकते हैं।

ध्यान दें कि परिणाम है , और अनुपात छोटे नमूनों में का एक पक्षपाती अनुमानक है । पूर्वाग्रह में का क्रम होता है , और नमूना परिवर्तनशीलता की तुलना में तब असमान रूप से गायब हो जाता है जो क्रम ।rr0O(1/n)O(1/n)


उत्कृष्ट और ज्ञानवर्धक उत्तर के लिए धन्यवाद! मुझे लगता है कि मैं अपनी पढ़ाई के लिए जंबोन के क्रमपरिवर्तन परीक्षण को चुनूंगा क्योंकि मुझे लगता है कि मैं इसे और इसकी सीमाओं को बेहतर ढंग से समझता हूं, लेकिन डेल्टा विधि निश्चित रूप से कुछ ऐसी दिखती है, जिसका मुझे अध्ययन करने और पता लगाने की आवश्यकता है।
समी लेदेस

@stask यह कहीं नहीं किया जा सकता है? आंकड़े.stackexchange.com/questions/398436/…
जेवियर

जेवियर, मुझे लगता है कि @ usεr11852 ने एक अच्छा जवाब दिया। मैं उस से जोड़ने को परेशान नहीं करूंगा।
StasK

@StasK - आपके द्वारा अपने जवाब में मान्य शर्तों के तहत क्या शर्तें हैं? क्या पिछली धारणा और डेल्टा विधि द्वारा गारंटीकृत अनुपात का अभिसरण है?
जेवियर बॉरेट सिस्कोट

यह asymptotics है ... कुछ भी कभी भी गारंटी नहीं है, और त्रुटि सीमाओं को प्राप्त करना असंभव है। सभी डेल्टा विधि (या किसी अन्य कमजोर अभिसरण परिणाम) कह रही है कि जैसा कि आप नमूना आकार बढ़ाते हैं, एसिम्प्टोटिक वितरण से वास्तविक परिमित नमूना वितरण के बीच का अंतर छोटा हो जाएगा। इसका मतलब यह हो सकता है कि जैसा कि आप नमूना आकार को 1000 से बढ़ाकर 10000 कर रहे हैं, cdfs के बीच ऊर्ध्वाधर अंतर 0.2 से 0.1 से नीचे चला जाएगा, और उत्तरार्द्ध अभी भी व्यावहारिक उद्देश्यों के लिए अस्वीकार्य है। या इसका मतलब यह हो सकता है कि अंतर 0.01 से 0.001 तक जाता है।
StasK

0

सामान्य चर के अनुपात को काउची वितरित किया जाता है। यह जानते हुए कि, आप बस एक बेयस फैक्टर टेस्ट कर सकते हैं।

यह एक सहज विचार था। मैं अब डेटा-जनरेट करने वाले तंत्र के बारे में अनिश्चित हूं। क्या आप दो मामलों के लिए एक ही पीसी और फिर बेंचमार्क पर अलग-अलग फ़ाइल सिस्टम स्थापित करते हैं, ताकि हम एक पदानुक्रमित डेटा संरचना मान सकें?

इसके अलावा, मुझे यकीन नहीं है कि अनुपात वास्तव में समझ में आता है।

और फिर आपने अपेक्षित मूल्यों के अनुपात को लिखा, जबकि मैंने अनुपातों के अपेक्षित मूल्य के बारे में सोचा। मुझे लगता है कि मुझे आगे बढ़ने से पहले डेटा निर्माण के बारे में अधिक जानकारी चाहिए।


1
मानदंडों का अनुपात केवल कैची है यदि (ए) वे स्वतंत्र हैं और (बी) में एक ही रूपांतर है।
कार्डिनल

शीआन का वही विचार था जो मुझे लगता है ...
संयुक्त_प

1
यह स्पष्ट नहीं है (मेरे लिए, कम से कम) कि कोई भी ऐसी स्वतंत्रता संरचना मौजूद है या उनका शून्य मतलब होगा। शायद, यदि आप अपने जवाब पर विस्तार कर सकते हैं तो यह आपके दृष्टिकोण का सुझाव देने में मदद करेगा। :)
कार्डिनल

1
@कार्डिनल - मुझे लगा कि यह शून्य के साथ स्वतंत्र मानदंडों का एक अनुपात था, जो सामान्य मानक विचलन के अनुपात के बराबर शून्य मंझला और स्केल पैरामीटर था। यदि उनके पास गैर शून्य का मतलब है तो यह सावधानी नहीं है।
probabilityislogic

@prob: (+1) आप सही कह रहे हैं! उस पकड़ने के लिए धन्यवाद। मैंने अपनी पहली टिप्पणी में "मानक" और "शून्य माध्य" को गिरा दिया (बाद वाले ने इसे मेरे दूसरे में बनाने का प्रबंधन किया)।
कार्डिनल

0

ऐसे मामलों में जहां आप क्रमपरिवर्तन नहीं कर सकते हैं, उदाहरण के लिए जब नमूना आकार लाखों संभावनाएं बनाता है, तो एक अन्य समाधान मोंटे कार्लो का पुनरुत्थान होगा।

अशक्त परिकल्पना यह है कि बीच की गति में कोई अंतर नहीं है ext4 तथा xfs, के लिये nocrypto तथा crypto। इसलिए, औसत अनुपातext4xfs के सभी nocrypto नमूने इससे भिन्न नहीं हैं crypto

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

कहाँ पे x=ext4xfs

तथा n=samplesize

अगर H0 सच है, के अनुपात के लिए बेतरतीब ढंग से परिणाम उठा रहा है nocrypto या crypto में भी परिणाम होगा Tobserved=0। एक गणना करेगा:

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

और प्रदर्शन, कहते हैं, रेज़मैपलिंग के 10,000 राउंड। के परिणामस्वरूप वितरण Tresampling मूल्यों के लिए विश्वास अंतराल है H0। के बीच भिन्नताnocrypto तथा crypto यदि गणना की जाए तो अनुपात महत्वपूर्ण है Tobserved मान, 95% की सीमा के बाहर है (p<0.05) का Tresampling मान।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.