डेटा माइनिंग में अराजकता सिद्धांत के ज्ञात, मौजूदा व्यावहारिक अनुप्रयोग क्या हैं?


13

पिछले कुछ वर्षों में अव्यवस्था के सिद्धांत पर कुछ बड़े पैमाने पर बाजार के कामों को पढ़ने के दौरान मुझे आश्चर्य हुआ कि इसके विभिन्न पहलुओं को डेटा खनन और संबंधित क्षेत्रों में कैसे लागू किया जा सकता है, जैसे कि तंत्रिका जाल, पैटर्न मान्यता, अनिश्चितता प्रबंधन, आदि। प्रकाशित शोध में ऐसे अनुप्रयोगों के इतने कम उदाहरणों में भाग लेते हैं कि मुझे आश्चर्य होता है कि यदि क) उन्हें वास्तव में ज्ञात, प्रकाशित प्रयोगों और परियोजनाओं में लगाया गया है और ख) यदि नहीं, तो इन अंतःसंबंधित में इतना कम उपयोग क्यों किया जाता है खेत?

अव्यवस्था सिद्धांत के अधिकांश विचार-विमर्श मैंने आज तक वैज्ञानिक अनुप्रयोगों के इर्द-गिर्द घूमते देखे हैं जो पूरी तरह से उपयोगी हैं, लेकिन डेटा माइनिंग और संबंधित क्षेत्रों जैसे पैटर्न की मान्यता के साथ बहुत कम हैं; भौतिक विज्ञान से तीन शारीरिक समस्याओं में से एक आर्कटिक उदाहरण है। मैं इस तरह के सामान्य वैज्ञानिक अनुप्रयोगों की चर्चा करना चाहता हूं और केवल उन अनुप्रयोगों पर सवाल को प्रतिबंधित करता हूं जो स्पष्ट रूप से डेटा खनन और संबंधित क्षेत्रों के लिए प्रासंगिक हैं, जो साहित्य में कुछ और दूर लगते हैं। नीचे दिए गए संभावित अनुप्रयोगों की सूची प्रकाशित शोध के लिए एक खोज के शुरुआती बिंदु के रूप में इस्तेमाल की जा सकती है, लेकिन मुझे केवल उन अनुप्रयोगों में दिलचस्पी है जिन्हें वास्तव में अभ्यास में डाल दिया गया है, यदि कोई हो। मैं जो देख रहा हूं वह डेटा माइनिंग को अराजकता सिद्धांत के कार्यान्वयन के लिए जाना जाता है, संभावित अनुप्रयोगों की सूची के विपरीत, जो बहुत व्यापक है। यहां डेटा माइनिंग एप्लिकेशन के लिए ऑफ-द-कफ विचारों का एक छोटा सा नमूना है जो मुझे पढ़ते समय हुआ; शायद उनमें से कोई भी व्यावहारिक नहीं है, शायद कुछ को हम बोलने के लिए व्यावहारिक रूप से उपयोग में ला रहे हैं, लेकिन ऐसे शब्दों से जाएं जिनके बारे में मैं परिचित नहीं हूं:

  1. पैटर्न मान्यता में आत्म-समान संरचनाओं की पहचान करना, जैसा कि कुछ दशकों पहले एनालॉग टेलीफोन लाइनों में त्रुटि के मामले में मंडेलब्रोट ने व्यावहारिक रूप से किया था।
  2. खनन परिणामों में Feigenbaum की निरंतरता का सामना करना (शायद एक तरह से कैसे स्ट्रिंग सिद्धांतकारों को मैक्सवेल के समीकरणों को अपने शोध के दौरान अप्रत्याशित स्थानों में पॉप अप करने के लिए चौंका दिया गया था)।
  3. तंत्रिका जाल वजन और विभिन्न खनन परीक्षणों के लिए इष्टतम बिट गहराई की पहचान करना। मैं इस बारे में सोचता था कि गायब होने वाले छोटे संख्यात्मक तराजू के कारण, जिस पर प्रारंभिक स्थितियों में संवेदनशीलता खेल में आती है, जो अराजक-संबंधित कार्यों की अप्रत्याशितता के लिए आंशिक रूप से जिम्मेदार हैं।
  4. आवश्यक रूप से आकर्षक फ्रैक्टल जिज्ञासाओं से संबंधित अन्य तरीकों से भिन्नात्मक आयामों की धारणा का उपयोग करना, जैसे कि मेन्जर स्पॉन्ज, कोच कर्व्स या सीरपिन्स्की कालीन नहीं हैं। शायद अवधारणा को कुछ फायदेमंद तरीके से खनन मॉडल के आयामों पर लागू किया जा सकता है, उन्हें भिन्नात्मक मानकर?
  5. फ्रैक्टल्स में खेलने वाले लोगों की तरह शक्ति कानूनों को प्राप्त करना।
  6. चूंकि फ्रैक्टल्स में सामना किए जाने वाले कार्य नॉनलाइनर हैं, मुझे आश्चर्य है कि क्या नॉनलाइनर रिग्रेशन के लिए कुछ व्यावहारिक अनुप्रयोग है।
  7. कैओस सिद्धांत में एन्ट्रापी के कुछ स्पर्शरेखा (और कभी-कभी अतिरंजित) संबंध होते हैं, इसलिए मुझे आश्चर्य होता है कि शैनोस एन्ट्रॉपी (या उस पर और उसके रिश्तेदारों की सीमा) की गणना अराजकता सिद्धांत या इसके विपरीत में उपयोग किए गए कार्यों से करने का कोई तरीका है।
  8. डेटा में अवधि-दोहरीकरण व्यवहार की पहचान करना।
  9. एक समझदार तरीके से एक तंत्रिका जाल के लिए इष्टतम संरचना की पहचान करना जो एक उपयोगी तरीके से "आत्म-आयोजन" की सबसे अधिक संभावना है।
  10. कैओस और फ्रैक्टल्स आदि भी कम्प्यूटेशनल जटिलता से संबंधित हैं, इसलिए मुझे आश्चर्य है कि क्या अराजक संरचनाओं की पहचान करने के लिए जटिलता का इस्तेमाल किया जा सकता है, या इसके विपरीत।
  11. मैंने अराजकता सिद्धांत के संदर्भ में पहली बार ल्यापुनोव के प्रतिपादक के बारे में सुना और इसे कुछ समय बाद से विशिष्ट तंत्रिका जाल के लिए व्यंजनों में और एंट्रॉपी की चर्चा के बाद देखा।

दर्जनों अन्य रिश्ते हैं जिन्हें मैंने यहां सूचीबद्ध नहीं किया है; यह सब मेरे सिर के ऊपर से निकल गया। मैं इन विशेष अनुमानों के विशिष्ट उत्तरों में बहुत दिलचस्पी नहीं रखता, लेकिन मैं उन्हें केवल उन अनुप्रयोगों के प्रकार के उदाहरण के रूप में बाहर फेंक रहा हूं जो जंगली में मौजूद हो सकते हैं। मैं उन उत्तरों को देखना चाहता हूं जिनमें वर्तमान शोध और इस तरह के विचारों के मौजूदा कार्यान्वयन के उदाहरण हैं, जब तक कि एप्लिकेशन विशेष रूप से डेटा खनन पर लागू होते हैं।

संभवत: अन्य प्रचलित क्रियान्वयन हैं, जिनके बारे में मुझे जानकारी नहीं है, यहां तक ​​कि मैं उन क्षेत्रों से भी अधिक परिचित हूं (जैसे सूचना सिद्धांत, फजी सेट और तंत्रिका जाल) और अन्य वे जिन्हें मैं कम क्षमता में जानता हूं, जैसे प्रतिगमन, इसलिए अधिक इनपुट स्वागत है। यहां मेरा व्यावहारिक उद्देश्य यह निर्धारित करना है कि अराजकता सिद्धांत के विशेष पहलुओं के बारे में सीखने में अधिक निवेश करना है या नहीं, जो मैं कुछ स्पष्ट उपयोगिता नहीं पा सकता हूं, तो मैं बैक बर्नर पर रखूंगा।

मैंने CrossValidated की खोज की, लेकिन किसी भी विषय को नहीं देखा जो सीधे डेटा माइनिंग आदि अराजकता सिद्धांत के उपयोगितावादी अनुप्रयोगों को संबोधित करता है। निकटतम मैं आ सकता था थ्रेड कैओस सिद्धांत, समीकरण-मुक्त मॉडलिंग और गैर-पैरामीट्रिक आँकड़े , जो सौदों एक विशिष्ट सबसेट के साथ।


टिप्पणियाँ विस्तारित चर्चा के लिए नहीं हैं; इस वार्तालाप को बातचीत में स्थानांतरित कर दिया गया है ।
whuber

जवाबों:


7

एक व्यावहारिक दृष्टिकोण के रूप में डेटा माइनिंग (डीएम) गणितीय मॉडलिंग (एमएम) दृष्टिकोण और यहां तक ​​कि एक अराजकता सिद्धांत (सीटी) के विरोधाभासी के पूरक के रूप में प्रतीत होता है। मैं पहले डीएम और सामान्य एमएम के बारे में बात करूंगा, फिर सीटी पर ध्यान केंद्रित करूंगा।

गणितीय मॉडलिंग

आर्थिक मॉडलिंग डीएम में जब तक हाल ही में लगभग एक टैबू नहीं माना जाता था, कार्य-कारण और संबंधों के बारे में जानने के बजाय सहसंबंधों के लिए मछली की हैक, एसएएस ब्लॉग में इस पोस्ट को देखें । नज़रिया बदल रहा है, लेकिन कई रिश्ते ख़राब होते हैं , डेटा ड्रेजिंग , पी-हैकिंग आदि।

कुछ मामलों में, डीएम स्थापित एमएम प्रथाओं के साथ खेतों में भी एक वैध दृष्टिकोण प्रतीत होता है। उदाहरण के लिए, डीएम का उपयोग भौतिक प्रयोगों में कण इंटरैक्शन की खोज करने के लिए किया जा सकता है जो बहुत अधिक डेटा उत्पन्न करते हैं, कण स्मैशर्स के बारे में सोचते हैं। इस मामले में भौतिकविदों को एक विचार हो सकता है कि कण कैसे दिखते हैं, और डेटासेट में पैटर्न खोजते हैं।

अराजकता सिद्धांत

अराजक प्रणाली शायद डीएम तकनीकों के साथ विश्लेषण के लिए विशेष रूप से प्रतिरोधी है। एक परिचित रैखिक सर्वांगसम विधि ( LCG ) पर विचार करें, जिसका उपयोग सामान्य psudo-random संख्या जनरेटर में किया जाता है । यह अनिवार्य रूप से एक अराजक प्रणाली है । यही कारण है कि इसका उपयोग "नकली" यादृच्छिक संख्याओं के लिए किया जाता है। एक अच्छा जनरेटर यादृच्छिक संख्या अनुक्रम से अप्रभेद्य होगा। इसका अर्थ है कि आप यह निर्धारित नहीं कर पाएंगे कि यह सांख्यिकीय तरीकों का उपयोग करके यादृच्छिक है या नहीं। मैं यहाँ डेटा माइनिंग भी शामिल करूँगा। डेटा खनन के साथ RAND () उत्पन्न अनुक्रम में एक पैटर्न खोजने की कोशिश करें! फिर भी, यह एक पूरी तरह से निर्धारक अनुक्रम है जैसा कि आप जानते हैं, और इसके समीकरण भी बेहद सरल हैं।

अराजकता सिद्धांत बेतरतीब ढंग से समानता पैटर्न की तलाश में नहीं है। कैओस सिद्धांत में प्रक्रियाओं और गतिशील संबंधों के बारे में सीखना शामिल है जैसे कि छोटी गड़बड़ी प्रणाली में अस्थिर व्यवहार पैदा करती है, जबकि किसी तरह इस अराजकता में स्थिर पैटर्न उभर आते हैं। यह सब शांत सामान खुद समीकरणों के गुणों के कारण होता है। फिर शोधकर्ता इन समीकरणों और उनकी प्रणालियों का अध्ययन करते हैं। यह लागू डेटा माइनिंग के माइंड सेट से बहुत अलग है।

उदाहरण के लिए, आप अराजक प्रणालियों का अध्ययन करते समय आत्म-समानता पैटर्न के बारे में बात कर सकते हैं, और ध्यान दें कि डेटा खनिक पैटर्न के लिए खोज के बारे में भी बात करते हैं। हालांकि, ये "पैटर्न" अवधारणा बहुत अलग तरीके से संभालती है। अराजक प्रणाली इन पैटर्न को समीकरणों से उत्पन्न कर रही होगी। वे वास्तविक प्रणालियों आदि को देखकर समीकरणों के अपने सेट के साथ आने की कोशिश कर सकते हैं, लेकिन वे हमेशा कुछ बिंदुओं पर समीकरणों से निपटते हैं। डेटा खनिक दूसरी तरफ से आएंगे, और सिस्टम की आंतरिक संरचना के बारे में बहुत कुछ नहीं जानते या अनुमान लगाते हुए, पैटर्न की तलाश करने की कोशिश करेंगे। मुझे नहीं लगता कि ये दोनों समूह कभी एक ही वास्तविक सिस्टम या डेटा सेट को देखते हैं।

एक अन्य उदाहरण सबसे सरल लॉजिस्टिक मानचित्र है जिसे फीजेनबाम ने अपने प्रसिद्ध काल द्विभाजन को बनाने के लिए काम किया।

यहाँ छवि विवरण दर्ज करें

xn+1=rxn(1xn)


(+1)। मैं जोड़ूंगा कि जब आप एक अराजक प्रणाली के व्यवहार को निर्धारित करने वाले समीकरण को इंगित कर सकते हैं, तो आप उस व्यवहार का पूरी तरह से अनुमान लगा सकते हैं, या उसके करीब हो सकते हैं। हम शायद ही कभी डेटा माइनिंग / प्रेडिक्टिव मॉडलिंग में भी .5 तक आर-स्क्वेर प्राप्त कर सकते हैं।
1930 में rolando2

+1 यह निश्चित रूप से उस उत्तर के लिए पूरक है जिसे मैं अभी कुछ समय के लिए तैयार कर रहा हूं, जिसे मैं कुछ घंटों में पोस्ट करूंगा।
SQLServerSteve

4

इस सवाल का जवाब देने के लिए अराजकता के सिद्धांत पर पढ़ते समय मैंने जो सबसे अजीब बात उजागर की, वह प्रकाशित शोध की एक आश्चर्यजनक कमी थी जिसमें डेटा खनन और इसके रिश्तेदार अराजकता सिद्धांत का लाभ उठाते हैं। ए बी'sम्बेल के एप्लाइड कैओस थ्योरी: ए पैराडिग्म फॉर कॉम्प्लेक्सिटी एंड एलीगूड, एट अल। कैओस: ए इंट्रोडक्शन टू डायनामिक सिस्टम (उत्तरार्द्ध अविश्वसनीय रूप से उपयोगी है जो स्रोत बुकबुक के लिए एक स्रोत के रूप में है) इस विषय) और उनकी ग्रंथ सूची छापे। आखिरकार, मुझे केवल एक ही अध्ययन के साथ आना था जो कि योग्य हो सकता है और मुझे इस किनारे के मामले को शामिल करने के लिए "डेटा माइनिंग" की सीमा को लंबा करना पड़ा: टेक्सास विश्वविद्यालय की एक टीम ने बेलौसोव-ज़बोटिंस्की (बीजेड) प्रतिक्रियाओं पर शोध किया है (जो पहले से ही एपेरियोडिज्म के लिए जाना जाता था) गलती से अराजक पैटर्न के कारण उनके प्रयोगों में इस्तेमाल किए गए मैलिक एसिड में विसंगतियों की खोज की गई थी, जिससे उन्हें एक नई खोज करने के लिए प्रेरित किया गया था। सप्लायर। [1] संभवतः अन्य लोग भी हैं - मैं अराजकता के सिद्धांत का विशेषज्ञ नहीं हूं और शायद ही साहित्य का संपूर्ण मूल्यांकन दे सकता हूं - लेकिन भौतिक विज्ञान से थ्री-बॉडी प्रॉब्लम जैसे साधारण वैज्ञानिक उपयोगों के साथ असंतुष्टता बहुत ज्यादा नहीं बदलेगी यदि हम सभी की गणना करें। वास्तव में, अंतरिम में जब यह सवाल बंद हो गया था, मैंने इसे शीर्षक के तहत पुनर्लेखन माना "डेटा खनन और संबंधित क्षेत्रों में अराजकता सिद्धांत के कुछ कार्यान्वयन क्यों हैं?" यह बीमार परिभाषित अभी तक व्यापक भावना के साथ असंगत है कि वहाँ डेटा खनन और संबंधित क्षेत्रों में आवेदनों की एक भीड़ होना चाहिए, जैसे तंत्रिका जाल, पैटर्न मान्यता, अनिश्चितता प्रबंधन, फ़ज़ी सेट, आदि; आखिरकार, अराजकता सिद्धांत कई उपयोगी अनुप्रयोगों के साथ एक अत्याधुनिक विषय भी है। मुझे लंबे और कठिन के बारे में सोचना था, जहां इन क्षेत्रों के बीच की सीमाएं यह समझने के लिए थीं कि मेरी खोज क्यों बेकार थी और मेरी धारणा गलत थी।

; Tldr उत्तर

अध्ययनों की संख्या और अपेक्षाओं से विचलन में इस निरा असंतुलन के लिए संक्षिप्त स्पष्टीकरण इस तथ्य पर निर्भर किया जा सकता है कि अराजकता सिद्धांत और डेटा माइनिंग आदि सवालों के दो अलग-अलग वर्गों का जवाब देते हैं; उनके बीच का तेज द्वंद्व स्पष्ट है एक बार इंगित किया गया है, फिर भी इतना मौलिक है कि किसी का ध्यान नहीं जाना चाहिए। इस धारणा के लिए कुछ औचित्य हो सकता है कि अराजकता सिद्धांत और खेतों में डेटा माइनिंग जैसे रिश्तेदार नएपन को लागू करने में कुछ कमी बताते हैं, लेकिन हम सापेक्ष असंतुलन की उम्मीद कर सकते हैं क्योंकि ये क्षेत्र भी परिपक्व होते हैं क्योंकि वे अलग-अलग पक्षों को संबोधित करते हैं एक ही सिक्का। लगभग सभी कार्यान्वयन आज तक अच्छी तरह से परिभाषित आउटपुट के साथ ज्ञात कार्यों के अध्ययन में हुए हैं, जो कि कुछ हैरान कर देने वाली अव्यवस्थाओं का प्रदर्शन करने के लिए हुआ है, जबकि डेटा माइनिंग और व्यक्तिगत तकनीक जैसे तंत्रिका जाल और निर्णय पेड़ सभी में एक अज्ञात या खराब परिभाषित फ़ंक्शन का निर्धारण शामिल है। इसी तरह के पैटर्न मान्यता और फजी सेट जैसे संबंधित क्षेत्रों को उन कार्यों के परिणामों के संगठन के रूप में देखा जा सकता है जो अक्सर अज्ञात या खराब परिभाषित होते हैं, जब उस संगठन के साधन आसानी से स्पष्ट नहीं होते हैं। यह एक व्यावहारिक रूप से दुर्गम चेस बनाता है जिसे केवल कुछ दुर्लभ परिस्थितियों में ही पार किया जा सकता है - लेकिन यहां तक ​​कि इन्हें एकल उपयोग के मामले के तहत एक साथ समूहीकृत किया जा सकता है: डेटा खनन एल्गोरिदम के साथ एपेरियोडिक हस्तक्षेप को रोकना। संबंधित क्षेत्रों जैसे पैटर्न की पहचान और फजी सेट को उसी तरह के कार्यों के संगठन के रूप में देखा जा सकता है जो अक्सर अज्ञात या खराब परिभाषित होते हैं, जब उस संगठन के साधन या तो स्पष्ट रूप से स्पष्ट नहीं होते हैं। यह एक व्यावहारिक रूप से दुर्गम चेस बनाता है जिसे केवल कुछ दुर्लभ परिस्थितियों में ही पार किया जा सकता है - लेकिन यहां तक ​​कि इन्हें एकल उपयोग के मामले के तहत एक साथ समूहीकृत किया जा सकता है: डेटा खनन एल्गोरिदम के साथ एपेरियोडिक हस्तक्षेप को रोकना। संबंधित क्षेत्रों जैसे पैटर्न की पहचान और फजी सेट को उसी तरह के कार्यों के संगठन के रूप में देखा जा सकता है जो अक्सर अज्ञात या खराब परिभाषित होते हैं, जब उस संगठन के साधन या तो स्पष्ट रूप से स्पष्ट नहीं होते हैं। यह एक व्यावहारिक रूप से दुर्गम चेस बनाता है जिसे केवल कुछ दुर्लभ परिस्थितियों में ही पार किया जा सकता है - लेकिन यहां तक ​​कि इन्हें एकल उपयोग के मामले के तहत एक साथ समूहीकृत किया जा सकता है: डेटा खनन एल्गोरिदम के साथ एपेरियोडिक हस्तक्षेप को रोकना।

अराजकता विज्ञान वर्कफ़्लो के साथ असंगति

"अराजकता विज्ञान" में विशिष्ट वर्कफ़्लो एक ज्ञात फ़ंक्शन के आउटपुट का एक कम्प्यूटेशनल विश्लेषण करने के लिए होता है, अक्सर चरण अंतरिक्ष के दृश्य एड्स के साथ, जैसे द्विभाजित आरेख, हेने मैप्स, पॉइंकेरे अनुभाग, चरण आरेख और चरण प्रक्षेपवक्र। यह तथ्य कि शोधकर्ता कम्प्यूटेशनल प्रयोग पर भरोसा करते हैं, यह बताता है कि कैसे अराजक प्रभाव खोजने के लिए कठिन हैं; यह कुछ ऐसा नहीं है जिसे आप आमतौर पर कलम और कागज के साथ निर्धारित कर सकते हैं। वे भी विशेष रूप से nonlinear कार्यों में होते हैं। जब तक हमारे पास काम करने के लिए एक ज्ञात कार्य नहीं होगा तब तक यह वर्कफ़्लो संभव नहीं है। डेटा माइनिंग में प्रतिगमन समीकरण, फ़ज़ी फ़ंक्शंस और पसंद की उपज हो सकती है, लेकिन वे सभी एक ही सीमा साझा करते हैं: वे बस सामान्य सन्निकटन हैं, त्रुटि के लिए बहुत व्यापक विंडो के साथ। इसके विपरीत, अराजकता के अधीन ज्ञात कार्य अपेक्षाकृत दुर्लभ हैं, जैसे कि अराजक पैटर्न उत्पन्न करने वाले इनपुट्स की सीमाएं हैं, इसलिए अराजक प्रभावों के परीक्षण के लिए भी उच्च स्तर की विशिष्टता की आवश्यकता होती है। अज्ञात कार्यों के चरण स्थान में मौजूद कोई भी अजीब आकर्षित करने वाले निश्चित रूप से शिफ्ट या गायब हो जाएंगे क्योंकि उनकी परिभाषाएं और इनपुट बदल गए हैं, एलीगूड, एट अल जैसे लेखकों द्वारा उल्लिखित पहचान प्रक्रियाओं को बहुत जटिल करते हैं।

डाटा माइनिंग रिजल्ट में एक कंटेस्टेंट के रूप में कैओस

वास्तव में, अराजकता सिद्धांत के डेटा खनन और इसके रिश्तेदारों के संबंध व्यावहारिक रूप से प्रतिकूल हैं। यह शाब्दिक रूप से सच है अगर हम क्रिप्टोनैलिसिस को मोटे तौर पर डेटा माइनिंग के एक विशिष्ट रूप के रूप में देखते हैं, यह देखते हुए कि मैंने एन्क्रिप्शन स्कीमों में अराजकता का लाभ उठाने के लिए कम से कम एक शोध पत्र चलाया है (मैं फिलहाल उद्धरण नहीं पा सकता, लेकिन शिकार कर सकता हूं यह अनुरोध पर नीचे)। एक डेटा खनिक के लिए, अराजकता की उपस्थिति आम तौर पर एक बुरी बात है, क्योंकि प्रतीत होता है कि निरर्थक मूल्य पर्वतमाला यह बहुत ही अज्ञात फ़ंक्शन को अंजाम देने की पहले से ही कठिन प्रक्रिया को जटिल कर सकती है। डेटा माइनिंग और संबंधित क्षेत्रों में अराजकता के लिए सबसे आम उपयोग इसे बाहर करना है, जिसका कोई मतलब नहीं है। यदि अव्यवस्थित प्रभाव मौजूद हैं, लेकिन undetected हैं, तो डेटा माइनिंग वेंचर पर उनके प्रभाव को कम करना मुश्किल हो सकता है। जरा सोचिए कि एक साधारण तंत्रिका जाल या निर्णय वृक्ष कितनी आसानी से अराजक आकर्षित करने वाले के निरर्थक आउटपुट से अधिक हो सकता है, या इनपुट मूल्यों में अचानक स्पाइक्स निश्चित रूप से प्रतिगमन विश्लेषण को कैसे भ्रमित कर सकता है और खराब नमूनों या त्रुटि के अन्य स्रोतों पर चढ़ा सकता है। सभी फ़ंक्शंस और इनपुट रेंज के बीच अराजक प्रभावों की दुर्लभता का मतलब है कि प्रयोगकर्ताओं द्वारा जांच को गंभीर रूप से चित्रित किया जाएगा।

डेटा खनन परिणामों में अराजकता का पता लगाने के तरीके

अराजकता सिद्धांत से जुड़े कुछ उपाय एपेरियोडिक प्रभावों की पहचान करने में उपयोगी होते हैं, जैसे कि कोलमोगोरोव एन्ट्रॉपी और आवश्यकता जो कि चरण स्थान एक सकारात्मक ल्यपुनोव एक्सपोनेंट को प्रदर्शित करता है। ये दोनों अराजकता का पता लगाने के लिए चेकलिस्ट पर हैं [2] AB'sambel के एप्लाइड कैओस थ्योरी में प्रदान किए गए हैं, लेकिन सबसे अधिक अनुमानित कार्यों के लिए उपयोगी नहीं हैं, जैसे कि Lyapunov घातांक, जिसे ज्ञात सीमाओं के साथ निश्चित कार्यों की आवश्यकता होती है। सामान्य प्रक्रिया वह बताती है कि डेटा खनन स्थितियों में फिर भी उपयोगी हो सकती है; ओम्बेल का उद्देश्य अंततः "अराजकता नियंत्रण" का एक कार्यक्रम है, यानी हस्तक्षेप करने वाले एपेरियोडिक प्रभाव को समाप्त करना। [३] भिन्नात्मक आयामों का पता लगाने के लिए बॉक्स-काउंटिंग और सहसंबंध आयामों की गणना करने जैसी अन्य विधियाँ, लियपुनोव और उनकी सूची के अन्य की तुलना में डेटा माइनिंग अनुप्रयोगों में अधिक व्यावहारिक हो सकती हैं। अराजक प्रभावों का एक अन्य गप्पी संकेत फ़ंक्शन आउटपुट में अवधि दोहरीकरण (या ट्रिपलिंग और परे) पैटर्न की उपस्थिति है, जो अक्सर चरण आरेखों में एपेरियोडिक (यानी "अराजक") व्यवहार से पहले होता है।

स्पर्शरेखा अनुप्रयोगों को विभेदित करना

इस प्राथमिक उपयोग के मामले को अनुप्रयोगों के एक अलग वर्ग से अलग किया जाना चाहिए जो केवल अराजक सिद्धांत से संबंधित हैं। करीब से निरीक्षण करने पर, मेरे प्रश्न में प्रदान की गई "संभावित अनुप्रयोगों" की सूची में वास्तव में उन अवधारणाओं का लाभ उठाने के लिए लगभग पूरी तरह से विचार शामिल थे जो अराजकता के सिद्धांत पर निर्भर करते हैं, लेकिन जिसे स्वतंत्र रूप से एपेरियोडिक व्यवहार की अनुपस्थिति में लागू किया जा सकता है (अवधि को छोड़कर दोहरीकरण)। मैंने हाल ही में एक उपन्यास पोटेनिअल आला उपयोग के बारे में सोचा था, जो स्थानीय मिनिमा से बाहर तंत्रिका जाल को एपेरियोडिक व्यवहार पैदा करता है, लेकिन यह भी स्पर्शरेखा अनुप्रयोगों की सूची में होगा। अराजकता विज्ञान में शोध के परिणामस्वरूप उनमें से कई की खोज की गई या उन्हें निकाल दिया गया, लेकिन अन्य क्षेत्रों में लागू किया जा सकता है। इन "स्पर्शनीय अनुप्रयोगों" में केवल एक दूसरे से फ़ज़ी कनेक्शन होते हैं, फिर भी एक अलग वर्ग बनाते हैं, डेटा माइनिंग में अराजकता सिद्धांत के मुख्य उपयोग के मामले से एक कठिन सीमा से अलग; पहला एपेरियोडिक पैटर्न के बिना अराजकता सिद्धांत के कुछ पहलुओं का लाभ उठाता है, जबकि बाद वाला पूरी तरह से डेटा खनन के परिणामों में एक जटिल कारक के रूप में अराजकता का शासन करने के लिए समर्पित है, शायद ल्यपुनोव के घटक की सकारात्मकता और अवधि का पता लगाने जैसे पूर्वापेक्षाओं के उपयोग के साथ दोहरीकरण। । यदि हम अराजकता सिद्धांत और अन्य अवधारणाओं के बीच अंतर करते हैं, तो यह सही तरीके से उपयोग करता है, यह देखना आसान है कि पूर्व के अनुप्रयोग स्वाभाविक वैज्ञानिक अध्ययन में ज्ञात कार्यों के लिए स्वाभाविक रूप से प्रतिबंधित हैं। अराजकता के अभाव में इन माध्यमिक अवधारणाओं के संभावित अनुप्रयोगों के बारे में उत्साहित होने का वास्तव में अच्छा कारण है, लेकिन यह भी मौजूद है जब डेटा खनन प्रयासों पर अप्रत्याशित aperiodic व्यवहार के दूषित प्रभाव के बारे में चिंता करने का कारण। इस तरह के अवसर दुर्लभ होंगे, लेकिन यह दुर्लभता का मतलब यह भी है कि वे अनिर्धारित हो जाएंगे। हालांकि इस तरह की समस्याओं को दूर करने में avambel की विधि का उपयोग किया जा सकता है।

[१] पीपी १४३-१४,, एलीगूड, कैथलीन टी।; सॉयर, टिम डी और यॉर्क, जेम्स ए।, 2010, कैओस: एन इंट्रोडक्शन टू डायनामिकल सिस्टम्स, स्प्रिंगर: न्यूयॉर्क। [२] पीपी २० 2-२१३, ]म्बेल, एबी, १ ९९ ३, एप्लाइड कैओस थ्योरी: ए पैराडिग फॉर कॉम्पलेक्सिटी, एकेडमिक प्रेस, इंक .: बोस्टन। [३] पी। 215, elम्बेल।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.