दो डेटा सेट के बीच समानता की मात्रा


12

सारांश : एक एकल मान का उपयोग करके डेटा के दो संरेखित डेटा सेटों के बीच समानता को सारांशित करने के लिए सबसे अच्छा तरीका खोजने की कोशिश करना।

विवरण :

मेरा प्रश्न एक आरेख के साथ सबसे अच्छा समझाया गया है। नीचे दिए गए ग्राफ़ दो अलग-अलग डेटा सेट दिखाते हैं, जिनमें से प्रत्येक लेबल nfऔर मानों के साथ है nr। X- अक्ष के साथ बिंदुओं को दर्शाया गया है कि माप कहाँ लिया गया था, और y- अक्ष पर मान परिणामी मापा गया मान हैं।

प्रत्येक ग्राफ के लिए मुझे प्रत्येक माप बिंदु पर समानता nfऔर nrमूल्यों की समानता के लिए एक एकल संख्या चाहिए । इस उदाहरण में यह स्पष्ट रूप से स्पष्ट है कि पहले रेखांकन में परिणाम दूसरे ग्राफ की तुलना में कम हैं। लेकिन मेरे पास बहुत से अन्य डेटा हैं जहां अंतर कम स्पष्ट है, इसलिए इस मात्रा को रैंक करने में सक्षम होना सहायक होगा।

मैंने सोचा कि एक मानक तकनीक हो सकती है जो आमतौर पर उपयोग की जाती है। सांख्यिकीय समानता की खोज करने से बहुत सारे अलग-अलग परिणाम मिले हैं, लेकिन मुझे यकीन नहीं है कि क्या चुनना है या अगर चीजें तैयार हैं तो मैं अपनी समस्या पर लागू करूंगा। तो मुझे लगा कि यह सवाल यहाँ पूछने लायक हो सकता है जब कोई सरल जवाब हो।

यहाँ छवि विवरण दर्ज करें


1
आप इस पत्र को देखना चाहते हैं जिसमें सूचीबद्ध उपायों की अधिकता है। ( users.uom.gr/~kouiruki/sung.pdf ) यदि लिंक गणितीय उपकरणों और विधियों के अंतर्राष्ट्रीय जर्नल में सुंग-हयूक चा द्वारा अपने "व्यापक सर्वेक्षण / संभाव्यता घनत्व कार्यों के बीच व्यापकता माप पर आधारित सर्वेक्षण" नामक काम नहीं करता है। एप्लाइड साइंस में जो समानता के उपायों की अधिकता की समीक्षा करता है।
ary64

दो टाइम-सीरीज़ के बीच समानता को मापने के लिए डायनेमिक टाइम वार्पिंग का उपयोग किया जाता है। यह तकनीक यहां कार्य कर सकती है। इस लिंक की जाँच करें: en.wikipedia.org/wiki/Dynamic_time_warping
अमन आनंद

जवाबों:


6

2 घटता के बीच का क्षेत्र आपको अंतर दे सकता है। इसलिए सम (एनआर-एनएफ) (सभी अंतरों का योग) 2 घटता के बीच के क्षेत्र का एक अनुमान होगा। यदि आप इसे सापेक्ष बनाना चाहते हैं, तो sum (nr-nf) / sum (nf) का उपयोग किया जा सकता है। ये आपको प्रत्येक ग्राफ के लिए 2 घटता के बीच समानता का संकेत देने वाला एक एकल मान देंगे।

संपादित करें: मतभेदों के योग की उपरोक्त विधि उपयोगी होगी भले ही ये अलग-अलग बिंदु या अवलोकन हों और कनेक्टेड लाइनें या वक्र न हों, लेकिन उस स्थिति में, अंतर का मतलब भी एक संकेतक हो सकता है और बेहतर हो सकता है क्योंकि यह ध्यान में रखेगा। टिप्पणियों की संख्या।


1
मैं यह कोशिश करता हूं और देखता हूं कि यह कैसे काम करता है। मैं अभी भी इसे और अधिक औपचारिक तकनीक से संबंधित होने में सक्षम होने की उम्मीद कर रहा हूं। मैं यूक्लिडियन दूरी के बारे में पढ़ रहा हूं और ऐसा लगता है कि यह यहां की तकनीक के समान है। एक अतिरिक्त नोट के रूप में भी, भले ही मेरे ग्राफ में कनेक्टिंग लाइनें हों, मैं केवल व्यक्तिगत बिंदुओं की परवाह करता हूं। मैं वास्तव में घटता तुलना नहीं कर रहा हूँ, बस मापा मूल्यों। मुझे नहीं पता कि मेरे प्रश्न में यह स्पष्ट था।
गेब्रियल सदर्न

यदि अंक जुड़े नहीं हैं तो भी यह काम करना चाहिए।
rnso

1

आपको define समानता ’से और अधिक परिभाषित करने की आवश्यकता है। परिमाण मायने रखता है? या केवल आकार?

यदि केवल आकार मायने रखता है, तो आप अपने अधिकतम मूल्य से दोनों समय श्रृंखला को सामान्य करना चाहते हैं (इसलिए वे दोनों 0 से 1 तक हैं)।

यदि आप एक रैखिक सहसंबंध की तलाश कर रहे हैं, तो एक साधारण पियरसन सहसंबंध ठीक काम करेगा - जो अनिवार्य रूप से सहसंयोजक को मापता है।

उदाहरण के लिए, अन्य तकनीकें हैं, जो समय श्रृंखला (अनिवार्य रूप से इसे चिकना करना) के लिए एक पंक्ति या बहुपद फिट कर सकती हैं, और फिर चिकनी बहुपद की तुलना कर सकती हैं।

यदि आप आवधिक समानता की तलाश कर रहे हैं (यानी समय श्रृंखला में एक निश्चित साइनसोइडल घटक या मौसमी है), तो प्रवृत्ति में एक समय श्रृंखला अपघटन और मौसम घटकों का उपयोग करने पर विचार करें। या फ़्रीक्वेंसी डोमेन में डेटा की तुलना करने के लिए FFT जैसी किसी चीज़ का उपयोग करना।

सभी के बारे में मुझे पता है कि 'समान' की अधिक परिभाषा के बिना क्या होना चाहिए। आशा करता हूँ की ये काम करेगा।


0

आप प्रत्येक माप बिंदु के लिए (nr-nf) का उपयोग कर सकते हैं, संख्या जितनी अधिक (निरपेक्ष मूल्य) मूल्य के समान होती है। बिल्कुल वैज्ञानिक दृष्टिकोण नहीं, कृपया मुझे क्षमा करें, इस सामान में मेरा कोई वास्तविक औपचारिक प्रशिक्षण नहीं है। यदि आप केवल दृश्य के संख्यात्मक प्रतिनिधित्व की तलाश कर रहे हैं, तो यह करना चाहिए।


1
तुम्हारे सुझाव के लिए धन्यवाद। मैंने उसके बारे में भी सोचा था, लेकिन समस्या यह है कि सापेक्ष अंतर के बजाय पूर्ण अंतर से भारित किया जाएगा। उदाहरण में मैंने अधिक समान डेटा सेटों को भी शामिल किया था जिनके छोटे पूर्ण मान थे, लेकिन यदि स्थिति उलट हो जाती है तो आप इस तकनीक का उपयोग करके गलत व्याख्या प्राप्त कर सकते हैं। मुझे पूर्ण अंतर के बजाय सापेक्ष समानता / अंतर को संक्षेप में प्रस्तुत करने की आवश्यकता है।
गेब्रियल सदर्न

करेगा (nr-nf) / nf काम? वह आपको सापेक्ष मिलेगा। मैं वास्तव में वास्तविक जवाब देखने में दिलचस्पी रखता हूं क्योंकि मैं खुद उसी तरह की स्थिति से निपट रहा हूं।
माइक जी

यदि वे सभी इस तुलनात्मक पैमाने पर हैं कि आपके समान रूप से कम समान हैं, तो वे सापेक्ष मूल्यों के बारे में नहीं हैं, यह समानता की व्याख्या के बारे में है। यदि दूसरे ग्राफ में मान 101-104 से लेकर आते हैं तो क्या यह उनकी समानता की व्याख्या को बदल देगा? यदि हां, तो आपको यह समझाने की जरूरत है। वाई-चर क्या होगा, इस पर अधिक जानकारी आवश्यक है।
जॉन

@ जो कि एक अच्छी बात है। मुझे लगता है कि मुझे इस बारे में और सोचने की जरूरत है। Y पर मान एक मानदंड के लिए गति मान हैं और मैं विभिन्न विन्यासों के बीच समानता की तुलना करने की कोशिश कर रहा हूं। इसलिए मुझे लगता है कि इस उत्तर में सुझाव काम कर सकता है, मैं यह देखने की कोशिश कर सकता हूं कि संख्याएं कैसी दिखती हैं। मैं अभी भी एक सांख्यिकीय तकनीक का उपयोग करना पसंद करूंगा जो कि अधिक औपचारिक रूप से स्वीकार की जाती है (यदि मेरी समस्या के लिए कोई है)।
गेब्रियल सदर्न
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.