ILP के बिना रिलेशनल डेटा माइनिंग


9

मेरे पास रिलेशनल डेटाबेस से एक विशाल डेटासेट है, जिसके लिए मुझे एक वर्गीकरण मॉडल बनाने की आवश्यकता है। आम तौर पर इस स्थिति के लिए मैं इंडक्टिव लॉजिक प्रोग्रामिंग (ILP) का उपयोग करता हूं , लेकिन विशेष परिस्थितियों के कारण मैं ऐसा नहीं कर सकता।

इससे निपटने का दूसरा तरीका यह होगा कि जब मैं एक विदेशी संबंध रखता हूं तो मूल्यों को एकत्र करने की कोशिश करूं। हालाँकि, मेरे पास कुछ नाममात्र विशेषताओं के लिए हजारों महत्वपूर्ण और विशिष्ट पंक्तियाँ हैं (उदाहरण के लिए: कई अलग-अलग दवा के नुस्खे के साथ एक रोगी)। इसलिए, मैं ऐसा नहीं कर सकता कि उस नाममात्र विशेषता के प्रत्येक अलग पंक्ति के लिए एक नई विशेषता बनाए बिना, और इसके अलावा यदि मैं ऐसा करता हूं तो अधिकांश नए स्तंभों में पूर्ण मान नहीं होंगे।

क्या कोई गैर-ILP एल्गोरिथ्म है जो मुझे पिविंग जैसी तकनीकों का सहारा लिए बिना रिलेशनल डेटाबेस को डेटा करने की अनुमति देता है, जिससे हजारों नए कॉलम बनेंगे?


2
नियम खनन के बारे में क्या? यह मुझे स्पष्ट नहीं है कि आपका उद्देश्य क्या है।
एडीसेंटोस

जबकि एक अच्छा प्रश्न है कि मैं नोटिस करता हूं कि यह कई स्टैक एक्सचेंज मंचों पर दिखाई देता है ... stackoverflow.com/questions/24260299/… ; ऐसा नहीं है कि मैं उस तरह के सामान के बारे में एक स्टिकर हूं, लेकिन मुझे लगता है कि हम इसे करने वाले नहीं हैं
हैक-आर

इसके अलावा, यह बहुत उपयोगी होगा यदि आप अपने वर्गीकरण के संबंध में थोड़ा अधिक विशिष्ट हो सकते हैं, जिस बाधा का आप सामना कर रहे हैं और एक आदर्श दुनिया में हमें देखने के लिए कुछ नमूना डेटा प्रदान करते हैं
हैक-आर

जवाबों:


1

सबसे पहले, कुछ चेतावनी

मुझे यकीन नहीं है कि आप अपनी पसंदीदा प्रोग्रामिंग (उप-) प्रतिमान *, इंडिक्टिव लॉजिक प्रोग्रामिंग (ILP) का उपयोग क्यों नहीं कर सकते हैं , या यह है कि आप क्या वर्गीकृत करने का प्रयास कर रहे हैं। अधिक विवरण देने से संभवतः बेहतर उत्तर मिलेगा; विशेष रूप से चूंकि यह प्रोग्रामिंग प्रतिमान के आधार पर वर्गीकरण एल्गोरिदम के चयन के लिए थोड़ा असामान्य है, जिसके साथ वे जुड़े हुए हैं। यदि आपका वास्तविक विश्व उदाहरण गोपनीय है, तो बस एक काल्पनिक-लेकिन-अनुरूप उदाहरण बनाइए।

आईएलपी के बिना बड़ा डेटा वर्गीकरण

कहा जाता है कि, ILP को समाप्त करने के बाद, हमारे पास 4 अन्य लॉजिक प्रोग्रामिंग प्रतिमान हैं, जो हमारे विचार सेट में हैं:

  1. Abductive
  2. उत्तर सेट करें
  3. बाधा
  4. कार्यात्मक

तर्क प्रोग्रामिंग के बाहर दर्जनों प्रतिमानों और उप-प्रतिमानों के अलावा।

उदाहरण के लिए फ़ंक्शनल लॉजिक प्रोग्रामिंग के भीतर , इंडिपेक्टिव फ़ंक्शनल लॉजिक प्रोग्रामिंग नामक ILP के एक्सटेंशन मौजूद हैं , जो कि व्युत्क्रम संकीर्णता (यानी संकरा तंत्र के व्युत्क्रम) पर आधारित है। यह दृष्टिकोण ILP की कई सीमाओं को पार करता है और ( कुछ विद्वानों के अनुसार, कम से कम ) प्रतिनिधित्व के मामले में आवेदन के लिए उपयुक्त है और समस्याओं को अधिक प्राकृतिक तरीके से व्यक्त करने की अनुमति देने का लाभ है।

अपने डेटाबेस की बारीकियों और ILP का उपयोग करने के लिए आपके द्वारा सामना की जाने वाली बाधाओं के बारे में अधिक जानकारी के बिना, मैं नहीं जान सकता कि क्या यह आपकी समस्या को हल करता है या समान समस्याओं से ग्रस्त है। जैसे, मैं एक पूरी तरह से अलग दृष्टिकोण के रूप में अच्छी तरह से बाहर फेंक दूँगा।

ILP डेटा खनन के लिए "शास्त्रीय" या "प्रस्ताव" के विपरीत है । उन दृष्टिकोणों में मशीन लर्निंग का मांस और हड्डियां शामिल हैं जैसे निर्णय पेड़, तंत्रिका नेटवर्क, प्रतिगमन, बैगिंग और अन्य सांख्यिकीय तरीके। अपने डेटा के आकार के कारण इन तरीकों को छोड़ देने के बजाय, आप कई डेटा वैज्ञानिकों, बड़े डेटा इंजीनियरों और सांख्यिकीविदों के रैंक में शामिल हो सकते हैं जो बड़े पैमाने पर डेटा सेट के साथ इन तरीकों को नियोजित करने के लिए उच्च प्रदर्शन कम्प्यूटिंग (एचपीसी) का उपयोग करते हैं (वहाँ हैं) नमूनाकरण और अन्य सांख्यिकीय तकनीकों का उपयोग आप कम्प्यूटेशनल संसाधनों और अपने संबंधपरक डेटाबेस में बिग डेटा का विश्लेषण करने के लिए आवश्यक समय को कम करने के लिए उपयोग करने के लिए चुन सकते हैं)।

एचपीसी में कई सीपीयू कोर का उपयोग करना, उच्च स्मृति के साथ सर्वरों के लोचदार उपयोग और बड़ी संख्या में तेजी से सीपीयू कोर के साथ अपने विश्लेषण को स्केल करना, उच्च प्रदर्शन डेटा वेयरहाउस उपकरणों का उपयोग करना, क्लस्टर या समानांतर कंप्यूटिंग के अन्य रूपों को नियोजित करना आदि शामिल हैं। ' मुझे यकीन नहीं है कि आप किस भाषा या सांख्यिकीय सूट के साथ अपने डेटा का विश्लेषण कर रहे हैं, लेकिन एक उदाहरण के रूप में यह CRAN टास्क व्यू R भाषा के लिए कई एचपीसी संसाधनों को सूचीबद्ध करता है जो आपको एक प्रोपोज़ल एल्गोरिथ्म को स्केल करने की अनुमति देगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.