डेटा खनन में एसोसिएशन के नियमों और निर्णय पेड़ों के बीच व्यावहारिक अंतर क्या है?


19

क्या इन दोनों तकनीकों के बीच व्यावहारिक अंतर का वास्तव में सरल वर्णन है?

  • दोनों का उपयोग पर्यवेक्षित अधिगम के लिए किया जाता है (हालाँकि संघ के नियम भी अप्राप्त को संभाल सकते हैं)।

  • दोनों का उपयोग भविष्यवाणी के लिए किया जा सकता है

मैंने 'अच्छा' वर्णन के सबसे करीब जो पाया है, वह स्टैट्सॉफ्ट टेक्स्टबुक से है । वे कहते हैं कि एसोसिएशन के नियमों का उपयोग किया जाता है:

... बड़े डेटा सेट में श्रेणीबद्ध चर के विशिष्ट मूल्यों के बीच संबंधों या संघों का पता लगाएं।

जब भी निर्णय ट्री क्लासिफायर का वर्णन किया जाता है:

... एक या एक से अधिक पूर्वसूचक चरों पर उनके मापन से एक श्रेणीबद्ध आश्रित चर की कक्षाओं में मामलों या वस्तुओं की सदस्यता की भविष्यवाणी करें।

हालाँकि, आर डेटा माइनिंग में, वे एक लक्ष्य क्षेत्र के साथ उपयोग किए जा रहे एसोसिएशन नियमों का एक उदाहरण देते हैं ।

इसलिए समूह सदस्यता की भविष्यवाणी करने के लिए दोनों का उपयोग किया जा सकता है, क्या मुख्य अंतर यह है कि निर्णय पेड़ गैर-श्रेणीबद्ध इनपुट डेटा को संभाल सकते हैं जबकि एसोसिएशन नियम नहीं कर सकते हैं? या कुछ और मौलिक है? एक साइट ( sqlserverdatamining.com ) का कहना है कि मुख्य अंतर यह है:

निर्णय पेड़ के नियम सूचना लाभ पर आधारित होते हैं जबकि एसोसिएशन के नियम लोकप्रियता और / या आत्मविश्वास पर आधारित होते हैं।

तो (संभवतः मेरे स्वयं के प्रश्न का उत्तर देते हुए) इसका मतलब यह है कि एसोसिएशन के नियमों का मूल्यांकन विशुद्ध रूप से किया जाता है कि वे डेटासेट में कितनी बार दिखाई देते हैं (और कितनी बार वे 'सत्य' हैं) जबकि निर्णय के पेड़ वास्तव में विचरण को कम करने की कोशिश कर रहे हैं?

अगर किसी को एक अच्छे विवरण के बारे में पता है तो वे मुझे उस ओर इशारा करने को तैयार होंगे जो बहुत अच्छा होगा।

जवाबों:


14

एफ=एफ1,...,एफसीएफसीएफ

टी1={मैं1,मैं2}टी2={मैं1,मैं3,मैं4,मैं5}टी3={मैं2,मैं3,मैं4,मैं5}टीn={मैं2,मैं3,मैं4,मैं5}
{मैं3,मैं5}{मैं4}

यह पता चला है कि आप कुछ विशिष्ट वर्गीकरण कार्यों के लिए एसोसिएशन विश्लेषण का उपयोग कर सकते हैं, उदाहरण के लिए जब आपकी सभी विशेषताएं स्पष्ट हैं। आपको केवल आइटम को सुविधाओं के रूप में देखना है, लेकिन यह वह नहीं है जिसके लिए एसोसिएशन विश्लेषण का जन्म हुआ था।


3
  • "एसोसिएशन के नियमों का उद्देश्य दिए गए थ्रेशोल्ड के ऊपर दिए गए सभी नियमों को रिकॉर्ड के ओवरलैपिंग सबसेट में शामिल करना है, जबकि निर्णय पेड़ अंतरिक्ष में ऐसे क्षेत्र पाते हैं जहां अधिकांश रिकॉर्ड एक ही वर्ग के होते हैं। दूसरी ओर, निर्णय के पेड़ एसोसिएशन के नियमों द्वारा पाए गए कई पूर्वानुमान नियमों को याद कर सकते हैं। क्योंकि वे क्रमिक रूप से छोटे उप-भागों में विभाजित होते हैं। जब एक निर्णय वृक्ष द्वारा पाया गया नियम संघ के नियमों द्वारा नहीं पाया जाता है, तो यह या तो इसलिए होता है क्योंकि किसी बाधा ने खोज स्थान को छिन्न-भिन्न कर दिया था या क्योंकि समर्थन या विश्वास बहुत अधिक था। "

  • "एसोसिएशन के नियम एल्गोरिदम धीमी गति से हो सकते हैं, साहित्य में प्रस्तावित कई अनुकूलन के बावजूद, क्योंकि वे एक जुझारू स्थान पर काम करते हैं, जबकि निर्णय पेड़ तुलनात्मक रूप से बहुत तेज़ हो सकते हैं क्योंकि प्रत्येक विभाजन रिकॉर्ड के क्रमिक रूप से छोटे सबसेट प्राप्त करता है।"

  • एक और मुद्दा यह है कि निर्णय पेड़ एक ही नियम के लिए एक ही विशेषता को कई बार दोहरा सकते हैं क्योंकि इस तरह का गुण एक अच्छा भेदभाव करनेवाला है। यह एक बड़ा मुद्दा नहीं है क्योंकि नियम संयुग्मन हैं और इसलिए नियम को विशेषता के लिए एक अंतराल तक सरल बनाया जा सकता है, लेकिन ऐसा अंतराल आम तौर पर छोटा होगा और नियम भी विशिष्ट होगा। "

इसके कुछ अंश:

ऑर्डोनेज़, सी।, और झाओ, के। (2011)। कई लक्ष्य विशेषताओं का अनुमान लगाने के लिए एसोसिएशन के नियमों और निर्णय पेड़ों का मूल्यांकन करना। इंटेलिजेंट डेटा एनालिसिस, 15 (2), 173-192।

इस विषय को कवर करने वाला एक अच्छा लेख, निश्चित रूप से पढ़ने लायक है।


2

हम यह तर्क दे सकते हैं कि एसोसिएशन के नियम और निर्णय पेड़ दोनों ही उपयोगकर्ता को नियमों के एक सेट का सुझाव देते हैं और इसलिए दोनों समान हैं, लेकिन हमें निर्णय पेड़ों और एसोसिएशन नियमों के बीच सैद्धांतिक अंतर को समझना चाहिए, और आगे दोनों द्वारा सुझाए गए नियम कैसे अर्थ में भिन्न हैं या उपयोग में।

सबसे पहले, निर्णय पेड़ एक पर्यवेक्षित दृष्टिकोण है जहां एल्गोरिथ्म एक "परिणाम" की भविष्यवाणी करने की कोशिश करता है। वास्तविक जीवन की स्थितियों में एक "परिणाम" का एक विशिष्ट उदाहरण हो सकता है, जैसे मंथन, धोखाधड़ी, किसी अभियान की प्रतिक्रिया आदि, इसलिए, परिणाम का अनुमान लगाने के लिए निर्णय वृक्ष के नियमों का उपयोग किया जाता है।

एसोसिएशन रूल लर्निंग एक असुरक्षित दृष्टिकोण है जहां एल्गोरिथम वस्तुओं के बीच संघों को खोजने की कोशिश करता है, अक्सर बड़े वाणिज्यिक डेटाबेस के भीतर। एक बड़े वाणिज्यिक डेटाबेस का एक विशिष्ट उदाहरण खुदरा विक्रेताओं के लेनदेन से है, जैसे कि ई-कॉमर्स वेबसाइट पर ग्राहक खरीद इतिहास। आइटम स्टोर से खरीदे जाने वाले उत्पाद या ऑनलाइन स्ट्रीमिंग प्लेटफॉर्म पर देखी जाने वाली फिल्में हो सकती हैं। एसोसिएशन नियम सीखना यह सब है कि कैसे एक उत्पाद की खरीद दूसरे उत्पाद की खरीद को प्रेरित कर रही है।

दूसरे, निर्णय पेड़ों का निर्माण कुछ अशुद्धता / अनिश्चितता मेट्रिक्स के आधार पर किया जाता है, जैसे सूचना लाभ, गिन्नी गुणांक, या एन्ट्रॉपी, जबकि एसोसिएशन के नियम समर्थन, आत्मविश्वास और लिफ्ट के आधार पर प्राप्त होते हैं।

तीसरा, जैसा कि निर्णय वृक्ष एक "पर्यवेक्षित" दृष्टिकोण है, इसकी सटीकता औसत दर्जे का है, जबकि एसोसिएशन शासन सीखना एक "अनुपयोगी" दृष्टिकोण है, और इसलिए इसकी सटीकता व्यक्तिपरक है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.