मानक विचलन का 2 डी एनालॉग?


19

निम्नलिखित प्रयोग पर विचार करें: लोगों के एक समूह को शहरों की एक सूची दी गई है, और दुनिया के नक्शे पर (अन्यथा अप्रकाशित) मानचित्र पर संबंधित स्थानों को चिह्नित करने के लिए कहा गया है। प्रत्येक शहर के लिए, आपको संबंधित शहर में लगभग बिंदुओं का एक बिखरना मिलेगा। कुछ शहरों, इस्तांबुल कहते हैं, दूसरों की तुलना में कम बिखरने का प्रदर्शन करेंगे, मास्को कहते हैं।

मान लें कि किसी दिए गए शहर के लिए, हमें 2 डी नमूनों का एक सेट मिलता है {(xi,yi)} , शहर का (x,y) स्थान का प्रतिनिधित्व (उदाहरण के लिए एक स्थानीय समन्वय प्रणाली में) परीक्षण द्वारा निर्दिष्ट मानचित्र पर विषय i । मैं समुच्चय (किमी) में एकल संख्या के रूप में इस सेट में बिंदुओं के "फैलाव" की मात्रा व्यक्त करना चाहता हूं।

1 डी समस्या के लिए, मैं मानक विचलन चुनूंगा, लेकिन क्या एक 2 डी एनालॉग है जो उपरोक्त वर्णित स्थिति के लिए यथोचित रूप से चुना जा सकता है?


विजय प्राप्त करना
रॉकसाइंस

मैंने जोड़ा स्थानिक टैग दिया उदाहरण दिया स्पष्ट रूप से स्थानिक है। यदि आप (या किसी और) को लगता है कि यह अनावश्यक रूप से उस रोल को वापस करने के लिए स्वतंत्र है।
एंडी डब्ल्यू

जवाबों:


12

एक बात आप कर सकते थे उपयोग एक केंद्रीय बिंदु, से एक दूरी उपाय है c=(c1,c2) इस तरह के अंक का नमूना मतलब के रूप में, (x¯,y¯) , या शायद मनाया अंक के केन्द्रक। तब फैलाव का एक माप उस केंद्रीय बिंदु से औसत दूरी होगा:

1ni=1n||zic||

जहां । दूरी माप के लिए कई संभावित विकल्प हैं लेकिन एल 2 मानदंड (जैसे यूक्लिडियन दूरी) एक उचित विकल्प हो सकता है:zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

हालांकि अन्य संभावित विकल्प बहुत सारे हैं। Http://en.wikipedia.org/wiki/Norm_%28mathematics%29 देखें


हालांकि दूरी नॉनजरू होगी यह वास्तव में एक अजीब विकल्प है क्योंकि यह एक आयाम में सामान्य मानक विचलन के साथ पतित मामले में सहमत नहीं है। तो विचार करना के बजाय। zic2
एलेक्स आर

6

बिंदु पैटर्न के स्थानिक वितरण के लिए मैट्रिक्स पर एक अच्छा संदर्भ क्राइमस्टैट मैनुअल है (विशेष रूप से इस प्रश्न के लिए, अध्याय 4 ब्याज का होगा)। मैट्रिक मैक्रो के समान सुझाव दिया गया, मानक दूरी विचलन एक 2 डी मानक विचलन के समान है (केवल अंतर यह है कि आप मैक्रो द्वारा दिए गए पहले सूत्र में "n-2" नहीं "n" से विभाजित करेंगे)।

आपका उदाहरण प्रयोग वास्तव में मुझे याद दिलाता है कि कैसे अध्ययन भौगोलिक अपराधी रूपरेखा का मूल्यांकन करते हैं , और इसलिए उन कार्यों में उपयोग किए जाने वाले मैट्रिक्स ब्याज के हो सकते हैं। विशेष रूप से शर्तों को सटीक और सटीकता का काफी उपयोग किया जाता है और अध्ययन के लिए उपयुक्त होगा। अनुमानों में एक छोटा मानक विचलन (यानी सटीक) हो सकता है लेकिन फिर भी इसकी सटीकता बहुत कम है।


1

मुझे लगता है कि आपको यूक्लिडियन मानदंड के बजाय 'महालनोबिस डिस्टेंस' का उपयोग करना चाहिए, क्योंकि यह डेटा सेट के सहसंबंध को ध्यान में रखता है और 'स्केल-इनवेरिएंट' है। लिंक यहां दिया गया है:

http://en.wikipedia.org/wiki/Mahalanobis_distance

आप 'हाफ-स्पेस डेप्थ' का भी उपयोग कर सकते हैं। यह थोड़ा अधिक जटिल है लेकिन कई आकर्षक गुणों को साझा करता है। किसी डेटा सेट P के सापेक्ष दिए गए बिंदु के आधे स्थान की गहराई (जिसे स्थान की गहराई के रूप में भी जाना जाता है) P के बिंदुओं की न्यूनतम संख्या है जो किसी भी बंद आधे भाग में लाइन द्वारा निर्धारित होती है। यहाँ लिंक हैं:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
मैं समझता हूं कि जब आप सेट के लिए "अंक" से संबंधित विशेष बिंदु "चाहे" बताने की कोशिश कर रहे हों, तो महालनोबिस दूरियों का उपयोग कर सकते हैं, लेकिन सामान्य रूप से भिन्न / मानक विचलन की अवधारणा से संबंधित केन्द्रक से औसत यूक्लिडियन दूरी अधिक नहीं है एकतरफा सेटिंग?
मैक्रों

2
क्या आप "डेटा के सहसंबंध को ध्यान में रखते हैं" और "स्केल इनवेरियंट" बयानों पर विस्तार से ध्यान देते हैं? इन बातों में से किस तरह की समझदारी का सवाल है?
एंडी डब्ल्यू

उच्च आयामों के लिए मानक विचलन का सामान्य विस्तार निश्चित रूप से डेटा के केंद्र से एक विशेष बिंदु की दूरी की गणना करने का एक तरीका है - लेकिन यहां हम प्रत्येक बिंदु को सामान्य कर रहे हैं, जिससे क्लस्टर विश्लेषण या आउटलाइडर का पता लगाना आसान हो जाता है। इसके अलावा, महालनोबिस दूरी उन मामलों के लिए अधिक अनुकूल है जहां अंकों का वितरण गैर-गोलाकार है। गोलाकार सममित मामलों के लिए, यह सामान्य रूप से विस्तारित मानक विचलन के समान है - जहां डेटा बिंदुओं के सहसंयोजक मैट्रिक्स पहचान मैट्रिक्स को कम करते हैं।
विटालस्टैटिस्टिक्स

1

मैं वास्तव में हाल ही में एक ऐसी ही समस्या में भाग गया। ऐसा लगता है कि आप मापने के लिए एक तरीका चाहते हैं कि अंक कितनी अच्छी तरह से बिखरे हुए हैं। बेशक, किसी दिए गए माप के लिए, आपको यह महसूस करना होगा कि यदि सभी बिंदु एक सीधी रेखा में हैं, तो उत्तर शून्य है, क्योंकि कोई 2 आयामी विविधता नहीं है।

मैंने जो गणनाएँ कीं, उनसे यही हुआ:

SxxSyySxy²

इस मामले में, Sxx और Syy क्रमशः x और y के भिन्न रूप हैं, जबकि Sxy x और y के मिश्रित विचरण की तरह है।

विस्तृत करने के लिए, यह मानते हुए कि n तत्व हैं, और xxμ के औसत मान का प्रतिनिधित्व करता है और yyμ के माध्य का प्रतिनिधित्व करता है:

Sxx=1ni=1n(xxμ)²
Syy=1ni=1n(yyμ)²
Sxy=1ni=1n(xxμ)(yyμ)

उम्मीद है कि यह आपके लिए काम करना चाहिए।

इसके अलावा, अगर आप सोच रहे हैं कि इसे उच्च आयामों में कैसे किया जा सकता है, जैसे 4 आयामों में वॉल्यूम फैल या सर्टन थोक को मापना, तो आपको एक मैट्रिक्स बनाना होगा जैसे:

Sxx Sxy Sxz ...

Syx Syy Syz ...

सज़्ज़ सज़ी सज़ ...

... ... ... ...

और फिर भी कई आयामों की आवश्यकता होती है। आपको ऊपर दी गई परिभाषाओं को देखते हुए एस मूल्यों का पता लगाने में सक्षम होना चाहिए, लेकिन विभिन्न चर के लिए।

एक बार मैट्रिक्स बन जाने के बाद, निर्धारक को लें, वर्गमूल को खोजें, और आपका काम हो गया।


0

के लिए इस विशिष्ट उदाहरण - जहां एक पूर्व निर्धारित 'सही' जवाब है - मैं पुनः काम x / y cooridnates शहर वे नक्शे पर निशान करने के लिए कहा जा रहा था चारों ओर ध्रुवीय निर्देशांक किया जाना है। सटीकता फिर रेडियल घटक (मतलब, एसडी, आदि) को मापा जाता है। एक "औसत कोण" का उपयोग पूर्वाग्रह को मापने के लिए भी किया जा सकता है।

खुद के लिए, मैं अभी भी एक अच्छा समाधान की तलाश कर रहा हूं जब कोई पूर्व निर्धारित केंद्र बिंदु नहीं है, और सेंट्रोइड बनाने के लिए डेटा पर प्री-पास का विचार पसंद नहीं है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.