वितरण का उपयोग आमतौर पर मॉडल प्रतिक्रिया समय के लिए किस चीज के लिए किया जाता है?

16

मेरे पास एक सर्वलेट-आधारित अनुप्रयोग है, जिसमें मैं उस सर्वलेट के लिए प्रत्येक अनुरोध को पूरा करने में लगने वाले समय को मापता हूं। मैं पहले से ही औसत और अधिकतम जैसे सरल आंकड़ों की गणना करता हूं; मैं हालांकि कुछ अधिक परिष्कृत विश्लेषण का उत्पादन करना चाहूंगा, और ऐसा करने के लिए मुझे विश्वास है कि मुझे इन प्रतिक्रिया समयों को ठीक से मॉडल करने की आवश्यकता है।

निश्चित रूप से, मैं कहता हूं, प्रतिक्रिया समय कुछ प्रसिद्ध वितरण का पालन करता है, और यह मानने के अच्छे कारण हैं कि वितरण सही मॉडल है। हालाँकि, मुझे नहीं पता कि यह वितरण क्या होना चाहिए।

लॉग-सामान्य और गामा दिमाग में आते हैं, और आप एक प्रकार का फिट वास्तविक प्रतिक्रिया समय डेटा बना सकते हैं। क्या किसी के पास इस बात पर कोई विचार है कि प्रतिक्रिया के समय वितरण का क्या पालन करना चाहिए?

distributions web

— सीन ओवेन
स्रोत

17

लॉग-सामान्य वितरण एक मैं समय की अवधि में सभी उपयोगकर्ता आधार भर में सर्वर प्रतिक्रिया समय की सुप्तावस्था का वर्णन में सबसे अच्छा लगता है।

आप aptly- नामित साइट lognormal.com पर कुछ उदाहरण देख सकते हैं, जिसका समय और अधिक से साइट लेटेंसी वितरण को मापने के व्यवसाय में है। एक खुश उपयोगकर्ता होने के अलावा मेरे पास साइट से कोई संबद्धता नहीं है। यहां बताया गया है कि वितरण कैसा दिखता है; प्रतिक्रिया (जैसे वेब पेज लोड) समय बनाम प्रतिक्रियाओं की संख्या:

लॉग-सामान्य वितरण

ध्यान दें कि इस चार्ट में, लोड-टाइम (एक्स-एक्सिस) स्केल रैखिक है। यदि आप x- अक्ष को लॉग-स्केल पर स्विच करते हैं, तो वितरण का आकार शिखर के दाईं ओर अधिक सामान्य (घंटी के आकार का) दिखेगा।

— arielf
स्रोत

यह पीडीएफ वास्तव में मेरी राय में एक Fréchet की तरह लग रहा है।

— us --r11852

4

उदाहरण ग्राफ। अधिक गहराई के लिए लेख देखें।

मेरे शोध से पता चलता है कि सबसे अच्छा मॉडल कुछ चीजों से निर्धारित होता है: 1) क्या आप शरीर, पूंछ या दोनों से चिंतित हैं? यदि "दोनों" नहीं हैं, तो फ़िल्टर किए गए डेटासेट को मॉडलिंग करना अधिक उपयोगी हो सकता है। 2) क्या आप एक बहुत ही सरल या एक बहुत ही सटीक चाहते हैं? यानी कितने पैरामीटर?

यदि 1 का उत्तर "दोनों" और 2 "सरल" था, तो पेरेटो सबसे अच्छा काम करता है। अन्यथा, यदि 1 "शरीर" था और 2 "सरल" था - एक फ़िल्टर्ड एरांग मॉडल चुनें। यदि 1 "दोनों" और 2 "सटीक" था, तो आप संभवतः लॉग डोमेन में अपने डेटा पर एक गाऊसी मिश्रण मॉडल चाहते हैं - प्रभावी रूप से एक लॉगऑनलाइन फिट।

मैं हाल ही में इस पर शोध कर रहा हूं, और मुझे सार्वजनिक इंटरनेट पर विषय को अच्छी तरह से कवर करने के लिए नहीं मिला, इसलिए मैंने इस विषय पर अपने शोध का विवरण देते हुए एक ब्लॉग पोस्ट लिखा ।

— एंड्रयू चार्नेस्की
स्रोत

1

चार्ट के लिए धन्यवाद। आपके (मोटे तौर पर) त्रिकोणीय वितरण के आधार पर, मेरा मानना है कि यह एक सरल (एकल सर्वर) सेटिंग नहीं है। आपको लगता है कि कुछ मिडलवेयर या बैक-एंड्स धीमे हैं। जब उपयोगकर्ता का सामना करने वाला सर्वर संभावित रूप से कैश्ड के लिए प्रतीक्षा करता है तो समग्र प्रतिक्रिया धीमी हो जाती है) प्रतिक्रिया देने के लिए बैक-एंड सबसिस्टम। यह भी स्पष्ट नहीं है कि एक्स और वाई अक्ष क्या दर्शाते हैं। क्या आपने लोड-टाइम (मूल रूप से एक्स-एक्सिस) और काउंट्स (मूल रूप से वाई-एक्सिस) को उल्टा किया है?

— arielf

आपकी प्रतिक्रिया के लिए धन्यवाद! वेब सेवा अनुरोधों की तुलना में स्रोत डेटासेट पिंग्स के लिए अधिक महत्वपूर्ण था, लेकिन मुझे लगता है कि ट्राइमोडल वितरण मुख्य रूप से दो चीजों के कारण होता है: 1) मुख्य द्वि-मोडल विषमता दो नेटवर्क पथों के कारण है, जबकि 2) लंबी-पूंछ 3 जी घटक tcp त्रुटि पुनर्प्राप्ति परिदृश्यों के कारण है। हालांकि यह केवल एक अनुमान है ... मेरा मुख्य ध्यान विभिन्न मॉडलों की अनुभवजन्य उपयोगिता पर था, न कि प्रक्रिया और सिद्धांत पर। मुझे पूरी तरह से यकीन नहीं है कि आप उल्टे धुरी के बारे में क्या पूछ रहे हैं, हालांकि ... क्या आपके पास एक उदाहरण की साजिश है?

— एंड्रयू चार्नेस्की

इसके अलावा, मैला ग्राफिक पर मेरी माफी। X- अक्ष माइक्रोसेकंड है, और y अक्ष संभावना घनत्व है। (हाँ, मुझे पता है ... क्षमा करें ... प्रतिलिपि प्रस्तुत करने योग्य विज्ञान के लिए नोटबुक देखें।)

— एंड्रयू चार्नेस्की