जवाबों:
"परिपत्र" से मैं समझता हूं कि वितरण एक परिपत्र क्षेत्र पर केंद्रित है, जैसे कि एक पीडीएफ के समोच्च भूखंड में।
यदि इस तरह की संरचना मौजूद है, तो आंशिक रूप से, इसकी पहचान करने और मापने का एक प्राकृतिक तरीका वितरण को अपने केंद्र के चारों ओर औसत रूप से रखना है । (सहज रूप से, इसका मतलब है कि प्रत्येक संभव त्रिज्या हमें केंद्र से दूरी पर सभी दिशाओं में समान रूप से चारों ओर होने की संभावना को फैलाना चाहिए ।) चर रूप में नकारते हुए , केंद्र बिंदु पर स्थित होना चाहिए। पहले क्षण । औसत करने के लिए रेडियल वितरण फ़ंक्शन को परिभाषित करना सुविधाजनक हैr ( X , Y ) ( μ X , μ Y )
यह केंद्र की दूरी और के बीच झूठ बोलने की कुल संभावना को है। सभी दिशाओं में इसे बाहर से वितरित करने के जाने के साथ CDF एक यादृच्छिक चर हो और पर एक समान यादृच्छिक चर हो के स्वतंत्र । द्विचर यादृच्छिक चर है परिपत्र औसत के । (यह एक "परिपत्र औसत" के हमारे अंतर्ज्ञान की मांग को पूरा करता है क्योंकि (क) इसका सही रेडियल वितरण है, अर्थात् , निर्माण द्वारा, और (बी) केंद्र से सभी दिशाओं () समान रूप से संभावित हैं।)
इस बिंदु पर आपके पास कई विकल्प हैं: जो सभी अवशेष के वितरण की तुलना उस । संभावनाओं में एक दूरी और कुल्बैक-लीब्लर विचलन (असंख्य संबंधित दूरी के उपायों के साथ: सममितीय विचलन, हेलिंगर दूरी, आपसी जानकारी आदि ) शामिल हैं। तुलना का सुझाव है में एक परिपत्र संरचना हो सकती है जब यह करीब हो । इस मामले में संरचना गुणों से "निकाली" जा सकती है । उदाहरण के लिए, के केंद्रीय स्थान का एक उपाय , जैसे कि इसका माध्य या माध्यिका, वितरण के "त्रिज्या" की पहचान करता है , और के मानक विचलन (या पैमाने के अन्य माप) यह व्यक्त करते हैं कि "कैसे फैलता है" उनके केंद्रीय स्थान बारे में रेडियल दिशाओं में हैं ।
जब एक वितरण से नमूना , डेटा साथ एक उचित परीक्षण केंद्रीय स्थान को सामान्य रूप से अनुमान लगाने के लिए होता है (साधनों या मध्यस्थों के साथ) और प्रत्येक मान को परिवर्तित करते हैं ध्रुवीय निर्देशांक में उस अनुमानित केंद्र के सापेक्ष। रेडी के मानक विचलन (या IQR) की उनके मतलब (या माध्यिका) से तुलना करें। गैर-परिपत्र वितरण के लिए अनुपात बड़ा होगा; परिपत्र वितरण के लिए यह अपेक्षाकृत छोटा होना चाहिए। (यदि आपके पास अंतर्निहित वितरण के लिए एक विशिष्ट मॉडल है, तो आप रेडियल स्टेटिस्टिक के नमूना वितरण का काम कर सकते हैं और इसके साथ एक महत्व परीक्षण का निर्माण कर सकते हैं।) अलग से, अंतराल में एकरूपता के लिए कोणीय समन्वय का परीक्षण करें। । यह परिपत्र वितरण के लिए लगभग समान होगा (और कुछ अन्य वितरणों के लिए भी); गैर-एकरूपता परिपत्रता से प्रस्थान का संकेत देती है।
पारस्परिक जानकारी में गुणसूत्र के अनुरूप कुछ गुण होते हैं। Covariance एक संख्या है जो स्वतंत्र चर के लिए 0 और वैरिएबल के लिए नॉनज़रो है जो रैखिक रूप से निर्भर हैं। विशेष रूप से, यदि दो चर समान हैं, तो सहसंयोजन विचरण के बराबर है (जो आमतौर पर एक सकारात्मक संख्या है)। सहसंयोजक के साथ एक मुद्दा यह है कि यह शून्य हो सकता है भले ही दो चर स्वतंत्र न हों, बशर्ते कि निर्भरता अशुभ हो।
पारस्परिक जानकारी (एमआई) एक गैर-नकारात्मक संख्या है। यह शून्य है अगर और केवल अगर दो चर सांख्यिकीय रूप से स्वतंत्र हैं। यह संपत्ति सहसंयोजक की तुलना में अधिक सामान्य है और इसमें गैर निर्भर लोगों सहित किसी भी निर्भरता को शामिल किया गया है।
यदि दो चर समान हैं, तो एमआई चर की एन्ट्रापी (फिर से, आमतौर पर एक सकारात्मक संख्या) के बराबर है। यदि चर अलग-अलग हैं और नियतात्मक रूप से संबंधित नहीं हैं, तो एमआई एंट्रॉपी से छोटा है। इस अर्थ में, दो चर का एमआई 0 और एच (एन्ट्रापी) के बीच जाता है, केवल 0 के साथ यदि स्वतंत्र और एच केवल यदि निर्धारक रूप से निर्भर हैं।
सह-अस्तित्व से एक अंतर यह है कि निर्भरता के "संकेत" को अनदेखा किया जाता है। जैसे , लेकिन ।
कृपया विज्ञान से निम्नलिखित लेख पर एक नज़र डालें - यह आपकी बात को ठीक से संबोधित करता है:
डेविड एन। रेशे एट अल द्वारा बड़े डेटा सेट में उपन्यास संघों का पता लगाना।
अमूर्त से:
बड़े डेटा सेट में चर के जोड़े के बीच दिलचस्प संबंधों की पहचान करना महत्वपूर्ण है। यहां, हम दो-चर संबंधों के लिए निर्भरता का एक उपाय पेश करते हैं: अधिकतम जानकारी गुणांक (एमआईसी)। MIC, कार्यात्मक और नहीं दोनों प्रकार की संघों की एक विस्तृत श्रृंखला को पकड़ता है, और कार्यात्मक संबंधों के लिए एक ऐसा स्कोर प्रदान करता है जो लगभग प्रतिगमन फ़ंक्शन के सापेक्ष डेटा के निर्धारण (R ^ 2) के गुणांक के बराबर होता है। एमआईसी संबंधों को पहचानने और वर्गीकृत करने के लिए अधिकतम सूचना-आधारित गैर-समरूप अन्वेषण (MINE) आंकड़ों का एक बड़ा वर्ग है। हम वैश्विक स्वास्थ्य, जीन अभिव्यक्ति, प्रमुख-लीग बेसबॉल और मानव आंत माइक्रोबायोटा के डेटा सेटों में एमआईसी और एमईएन लागू करते हैं और ज्ञात और उपन्यास संबंधों की पहचान करते हैं।
आप यहाँ पूरक सामग्री पाते हैं: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
लेखक उपन्यास पद्धति को शामिल करते हुए एक नि: शुल्क उपकरण भी प्रदान करते हैं जिसका उपयोग आर और पायथन के साथ किया जा सकता है: http : //www.exploredata..net/