डेटा माइनिंग और सांख्यिकीय विश्लेषण के बीच अंतर क्या है?


19

डेटा माइनिंग और सांख्यिकीय विश्लेषण के बीच अंतर क्या है?

कुछ पृष्ठभूमि के लिए, मेरी सांख्यिकीय शिक्षा रही है, मुझे लगता है, बल्कि पारंपरिक। एक विशिष्ट प्रश्न प्रस्तुत किया गया है, अनुसंधान तैयार किया गया है, और उस प्रश्न पर कुछ अंतर्दृष्टि प्रदान करने के लिए डेटा एकत्र और विश्लेषण किया जाता है। नतीजतन, मैं हमेशा "डेटा ड्रेजिंग" पर संदेह करता रहा हूं, अर्थात एक बड़े डेटासेट में पैटर्न ढूंढ रहा हूं और निष्कर्ष निकालने के लिए इन पैटर्नों का उपयोग कर रहा हूं। मैं डेटा-माइनिंग के साथ उत्तरार्द्ध को संबद्ध करता हूं और हमेशा इसे कुछ अप्रत्याशित माना जाता है (एल्गोरिथम चर चयन रूटिंग जैसी चीजों के साथ)।

बहरहाल, डेटा माइनिंग पर एक बड़ा और बढ़ता हुआ साहित्य है। अक्सर, मैं इस लेबल को विशिष्ट तकनीकों जैसे क्लस्टरिंग, ट्री-बेस्ड वर्गीकरण आदि का संदर्भ देता हूं, फिर भी, कम से कम मेरे दृष्टिकोण से, इन तकनीकों को डेटा के एक सेट पर "ढीला" सेट किया जा सकता है या संरचित तरीके से संबोधित किया जा सकता है। सवाल। मैं पूर्व डेटा खनन और बाद के सांख्यिकीय विश्लेषण को कॉल करूंगा।

मैं अकादमिक प्रशासन में काम करता हूं और मुद्दों और अवसरों की पहचान करने के लिए कुछ "डेटा माइनिंग" करने के लिए कहा गया है। मेरी पृष्ठभूमि के अनुरूप, मेरे पहले प्रश्न थे: आप क्या सीखना चाहते हैं और ऐसी कौन सी चीजें हैं जो आपको लगता है कि जारी करने में योगदान करें? उनकी प्रतिक्रिया से, यह स्पष्ट था कि प्रश्न पूछने वाले व्यक्ति और डेटा खनन की प्रकृति और मूल्य पर अलग-अलग विचार थे।



3
यदि यह डुप्लिकेट है तो मैं अनुमान लगा सकता हूं कि डेटा माइनिंग और मशीन लर्निंग एक ही बात है!
बजे जॉर्ज डोंटास

@George Dontas हाँ, मैं यहाँ टिप्पणियों में एक लिंक से आया था अगर वहाँ देखने की उम्मीद में अन्य प्रश्न एमएल और डेटा खनन के बीच अंतर था।
डीजेजी

जवाबों:


20

जेरोम फ्राइडमैन ने कुछ समय पहले एक पेपर लिखा था: डेटा माइनिंग एंड स्टैटिस्टिक्स: व्हाट द कनेक्शन? , जो मुझे लगता है कि आपको दिलचस्प लगेगा।

डेटा माइनिंग एक मुख्य रूप से व्यावसायिक चिंता थी और व्यावसायिक आवश्यकताओं द्वारा संचालित होती थी (विक्रेताओं को सॉफ़्टवेयर और हार्डवेयर सिस्टम को व्यवसायों को बेचने के लिए "आवश्यकता" के साथ मिलकर)। फ्राइडमैन ने एक बात नोट की थी कि सभी "विशेषताओं" को आंकड़ों के बाहर उत्पन्न किया जा रहा है - एल्गोरिदम और तंत्रिका जाल से लेकर जीयूआई संचालित डेटा विश्लेषण जैसे तरीके - और कोई भी पारंपरिक सांख्यिकीय प्रसाद इन प्रणालियों में से किसी का भी हिस्सा नहीं लगता था। (प्रतिगमन, परिकल्पना परीक्षण, आदि)। "हमारी मुख्य कार्यप्रणाली को काफी हद तक नजरअंदाज किया गया है।" यह भी बेचा गया था कि आपके द्वारा बताए गए तर्ज पर उपयोगकर्ता द्वारा संचालित किया गया है: यहां मेरा डेटा, यहां मेरा "व्यावसायिक प्रश्न" है, मुझे उत्तर दें।

मुझे लगता है कि फ्रीडमैन भड़काने की कोशिश कर रहा था। उन्होंने नहीं सोचा था कि डेटा माइनिंग में गंभीर बौद्धिक आधार थे जहां कार्यप्रणाली चिंतित थी, लेकिन यह बदलेगा और सांख्यिकीविदों को इसे अनदेखा करने के बजाय एक भूमिका निभानी चाहिए।

मेरी अपनी धारणा है कि यह कमोबेश हुआ है। लाइनों को धुंधला कर दिया गया है। सांख्यिकीविद् अब डेटा खनन पत्रिकाओं में प्रकाशित करते हैं। डेटा खनिक इन दिनों सांख्यिकीय प्रशिक्षण के कुछ प्रकार है। जबकि डेटा खनन पैकेज अभी भी सामान्यीकृत रैखिक मॉडल प्रचारित नहीं करते हैं, लॉजिस्टिक प्रतिगमन विश्लेषकों के बीच अच्छी तरह से जाना जाता है - क्लस्टरिंग और तंत्रिका जाल के अलावा। इष्टतम प्रायोगिक डिज़ाइन डेटा माइनिंग कोर का हिस्सा नहीं हो सकता है, लेकिन सॉफ्टवेयर को पी-मान से बाहर करने के लिए मनाना किया जा सकता है। प्रगति!


1
यह एक महान पेपर है और डेटा परिप्रेक्ष्य क्या है और यह आंकड़ों से कैसे अलग है, इस बारे में मेरे दृष्टिकोण के अनुरूप है। पकड़ है, यह 1997 से है! कागज या अपनी सिफारिश के अभियोग पर ध्यान दें, लेकिन जिस डिग्री के साथ मैंने डेटा खनन किया है। ऐसा लगता है कि मुझे पकड़ने के लिए डेटा माइनिंग पर करंट बुक को हथियाने की जरूरत है।
ब्रेट

हेह, मैंने इस उद्देश्य के लिए तारीख रखी क्योंकि मुझे लगा कि समय की अवधि को नोटिस करना मनोरंजक होगा। :) माइकल बेरी और गॉर्डन लिनॉफ़ की पुस्तकें बहुत अच्छी हैं और सांख्यिकीय विशेषज्ञों से अपील करेंगे (सांख्यिकीय तकनीकों को सीखने के बजाय व्यापक प्रदर्शन के लिए)। यदि आप इस क्षेत्र की फ़ज़ी, "एंटरप्राइज़" पक्ष की भावना चाहते हैं, तो विक्रेता के उत्पाद पर पुस्तकों में से एक के माध्यम से स्किम करना, जैसे एसएएस के एंटरप्राइज माइनर या एसपीएसएस की क्लेमेंटाइन, मदद कर सकता है। जब तक आप उत्पाद के साथ काम नहीं करेंगे, मैं उन्हें खरीदने की सलाह नहीं दूंगा।
आर्स

10

सांख्यिकी और डेटा खनन के बीच का अंतर काफी हद तक एक ऐतिहासिक है, क्योंकि वे विभिन्न परंपराओं से आए थे: आंकड़े और कंप्यूटर विज्ञान। आर्टिफिशियल इंटेलिजेंस और स्टैटिस्टिक्स के क्षेत्र में समानांतर रूप से काम से डेटा माइनिंग बढ़ी।

Witten और फ्रैंक से धारा 1.4 मेरे दृष्टिकोण को सारांशित करता है इसलिए मैं इसे लंबाई पर उद्धृत करने जा रहा हूं:

मशीन सीखने और आंकड़ों के बीच अंतर क्या है? Cynics, इस क्षेत्र में वाणिज्यिक हित (और प्रचार) के विस्फोट में भयंकर रूप से देख रहा है, आंकड़ों के विपणन के लिए डेटा खनन को समान करता है। सच में, आपको मशीन लर्निंग और आंकड़ों के बीच एक विभाजन रेखा की तलाश नहीं करनी चाहिए क्योंकि एक निरंतरता है - और उस पर एक बहुआयामी - डेटा विश्लेषण तकनीक। कुछ मानक कौशल पाठ्यक्रमों में सिखाए गए कौशल से प्राप्त होते हैं, और अन्य अधिक तरह से मशीन सीखने से जुड़े होते हैं जो कंप्यूटर विज्ञान से उत्पन्न हुए हैं। ऐतिहासिक रूप से, दोनों पक्षों की अलग-अलग परंपराएँ हैं। यदि जोर के एक अंतर को इंगित करने के लिए मजबूर किया जाता है, तो यह हो सकता है कि आंकड़े परिकल्पना के परीक्षण के साथ अधिक चिंतित रहे हैं,

अतीत में, मशीन सीखने और सांख्यिकी में समानांतर में बहुत समान तरीके विकसित हुए हैं ...

लेकिन अब दो दृष्टिकोणों ने अभिसरण किया है।

NB1 IMO, डेटा माइनिंग और मशीन लर्निंग बहुत ही संबंधित शब्द हैं। एक अर्थ में, डेटा माइनिंग में मशीन लर्निंग तकनीक का उपयोग किया जाता है। मैं नियमित रूप से इन शर्तों को विनिमेय के रूप में देखता हूं, और जहां तक ​​वे अलग हैं, वे आमतौर पर एक साथ चलते हैं। मैं अपने मूल प्रश्न से "द टू कल्चर" पेपर के साथ-साथ अन्य सूत्र के माध्यम से देखने का सुझाव दूंगा।

NB2 शब्द "डेटा माइनिंग" का एक नकारात्मक अर्थ हो सकता है जब बोलचाल की भाषा में किसी एल्गोरिदम को बिना किसी वैचारिक समझ के कुछ एल्गोरिदम को ढीला करने के लिए उपयोग किया जाता है। इसका अर्थ यह है कि डाटा माइनिंग से परिणाम और बेहतर होंगे। परिणामस्वरूप, गैर-विशेषज्ञों से बात करते समय मैं आमतौर पर शब्द का उपयोग करने से बचता हूं, और इसके बजाय एक पर्याय के रूप में मशीन सीखने या सांख्यिकीय सीखने का उपयोग करता हूं।


NB2 के बारे में - मुझे लगता है कि आप डेटा माइनिंग के अनुमान के बारे में बिल्कुल सही हैं और मैंने मशीन लर्निंग से कनेक्शन नहीं बनाया है। मेरे प्रशिक्षण ने हमेशा ओवर-फिटिंग, सहजता और मौका पर कैपिटलाइज़िंग की समस्याओं पर जोर दिया और जैसे कि मैंने डीएम पर संदेह किया है - और अभी भी, शायद जब तक कोई वास्तव में मुझे नहीं बताता कि वे क्या कर रहे हैं और कैसे कर रहे हैं। धन्यवाद।
ब्रेट

1
एमएल / डीएम के अंतर पर मेरी एकमात्र शंका यह होगी कि मुझे लगता है कि डीएम व्यापक है। उदाहरण के लिए, OLAP और संबंधित उपकरणों में खनन प्रौद्योगिकियां शामिल हैं। लेकिन ये मशीन सीखने के बजाय कंप्यूटर विज्ञान के डेटाबेस पक्ष से आते हैं। डेटा माइनिंग के "अर्थ" को आकार देने में वाणिज्य की भूमिका को नजरअंदाज करना कठिन है - यह प्रबंधन विज्ञान, संचालन अनुसंधान, मशीन सीखने और सांख्यिकी के तत्वों को आवश्यकतानुसार लाता है। यह कुछ भड़कीले का आभास भी देता है, लेकिन यह आम तौर पर चिकित्सकों को नहीं बल्कि शुद्धतावादियों के लिए एक समस्या है।
आर्स

@ जार: मैं सहमत हूँ। मैं यह कहने की कोशिश कर रहा था कि "मशीन लर्निंग तकनीकों का उपयोग डेटा माइनिंग में किया जाता है" (यानी डेटा माइनिंग एक सुपर-सेट है)। वाणिज्यिक अनुप्रयोगों के बारे में आपकी बात भी हाजिर है। हालाँकि अब व्यावसायिक दिनों में कोई व्यक्ति अपने काम को कुछ और कह सकता है (उदाहरण के लिए "डेटा साइंस")।
शेन

सही है, मुझे कहना चाहिए कि मैंने जो कुछ लिखा था उससे वास्तव में विचलित होने के बजाय मैं अंतर को समझने की कोशिश कर रहा था। ग़लतफ़हमी के लिए क्षमा याचना। बदलते समय और "डेटा साइंस" को अपनाने जैसे शब्दों पर अच्छी बात है। गेलमैन की पुस्तकों में से एक "आंकड़ों का विज्ञान है" जैसी किसी चीज़ से शुरू नहीं होती है? इसलिए "वे" सांख्यिकीविदों से चोरी कर रहे हैं। फिर। :)
आर्स

8

डेटा माइनिंग को वर्णनात्मक या पूर्वानुमान के रूप में वर्गीकृत किया जाता है। वर्णनात्मक डेटा खनन बड़े पैमाने पर डेटा सेट की खोज करने और डेटा में अप्रत्याशित संरचनाओं या संबंधों, पैटर्न, रुझान, क्लस्टर और आउटलेर के स्थानों की खोज करने के लिए है। दूसरी ओर, प्रिडिक्टिव रिग्रेशन, वर्गीकरण, पैटर्न मान्यता, या मशीन सीखने के कार्यों के लिए मॉडल और प्रक्रियाओं का निर्माण करना है, और नए डेटा के लिए लागू होने पर उन मॉडल और प्रक्रियाओं की अनुमानित सटीकता का आकलन करना है।

उच्च-आयामी डेटा में पैटर्न या संरचना की खोज करने के लिए उपयोग किया जाने वाला तंत्र मैनुअल या स्वचालित हो सकता है; खोज के लिए एक डेटाबेस प्रबंधन प्रणाली के अंतःक्रियात्मक रूप से क्वेरी की आवश्यकता हो सकती है, या यह डेटा में विसंगतियों को देखने के लिए विज़ुअलाइज़ेशन सॉफ़्टवेयर का उपयोग करके प्रवेश कर सकता है। मशीन-लर्निंग के संदर्भ में, वर्णनात्मक डेटा खनन को अप्रयुक्त सीखने के रूप में जाना जाता है, जबकि पूर्वानुमानित डेटा खनन को पर्यवेक्षित शिक्षण के रूप में जाना जाता है।

डेटा खनन में उपयोग किए जाने वाले अधिकांश तरीके सांख्यिकी और मशीन सीखने में विकसित तरीकों से संबंधित हैं। उन विधियों में सबसे आगे हैं प्रतिगमन, वर्गीकरण, क्लस्टरिंग और विज़ुअलाइज़ेशन के सामान्य विषय। डेटा सेटों के विशाल आकार के कारण, डेटा माइनिंग के कई अनुप्रयोग आयामीता-कमी तकनीकों (जैसे, चर चयन) और उन स्थितियों पर ध्यान केंद्रित करते हैं जिनमें उच्च-आयामी डेटा के निचले-आयामी हाइपरप्लेन पर झूठ बोलने की आशंका होती है। हाल के ध्यान को गैर-रेखीय सतहों या मैनिफोल्ड्स पर पड़े उच्च-आयामी डेटा की पहचान करने के तरीकों के लिए निर्देशित किया गया है।

डेटा खनन में ऐसी स्थितियाँ भी होती हैं जब सांख्यिकीय निष्कर्ष - अपने शास्त्रीय अर्थ में - या तो इसका कोई अर्थ नहीं है या संदिग्ध वैधता का है: पूर्व तब होता है जब हमारे पास उत्तर खोजने के लिए पूरी आबादी होती है, और बाद वाला तब होता है जब डेटा सेट एक होता है "सुविधा" नमूना कुछ बड़ी आबादी से तैयार यादृच्छिक नमूना होने के बजाय। जब डेटा समय के माध्यम से एकत्र किया जाता है (उदाहरण के लिए, खुदरा लेनदेन, स्टॉक-मार्केट लेनदेन, रोगी रिकॉर्ड, मौसम रिकॉर्ड), नमूना भी समझ में नहीं आ सकता है; प्रेक्षणों का समय-क्रम डेटा को उत्पन्न करने वाली घटना को समझने के लिए महत्वपूर्ण है, और प्रेक्षणों को स्वतंत्र मानने के लिए जब वे अत्यधिक सहसंबद्ध हो सकते हैं पक्षपाती परिणाम प्रदान करेंगे।

डेटा माइनिंग के केंद्रीय घटक हैं - सांख्यिकीय सिद्धांत और विधियों के अलावा - कंप्यूटिंग और कम्प्यूटेशनल दक्षता, स्वचालित डेटा प्रसंस्करण, गतिशील और इंटरैक्टिव डेटा विज़ुअलाइज़ेशन तकनीक और एल्गोरिथम विकास।

डेटा माइनिंग में सबसे महत्वपूर्ण मुद्दों में से एक स्केलेबिलिटी की कम्प्यूटेशनल समस्या है । कंप्यूटिंग के लिए विकसित एल्गोरिदम मानक खोजपूर्ण और पुष्टिकरण सांख्यिकीय विधियों को छोटे और मध्यम आकार के डेटा सेटों पर लागू होने पर तेज और कम्प्यूटेशनल रूप से कुशल बनाने के लिए डिज़ाइन किया गया था; अभी तक, यह दिखाया गया है कि इनमें से अधिकांश एल्गोरिदम विशाल डेटा सेट को संभालने की चुनौती तक नहीं हैं। जैसे-जैसे डेटा सेट बढ़ता है, कई मौजूदा एल्गोरिदम नाटकीय रूप से धीमा करने की प्रवृत्ति प्रदर्शित करते हैं (या यहां तक ​​कि एक पड़ाव को पीसते हैं)।


8

डेटा माइनिंग सांख्यिकी है, जिसमें कुछ मामूली अंतर हैं। आप इसे फिर से ब्रांडिंग आंकड़ों के रूप में सोच सकते हैं, क्योंकि सांख्यिकीविद थोड़े अजीब हैं।

यह अक्सर कम्प्यूटेशनल आंकड़ों के साथ जुड़ा होता है, अर्थात केवल सामान जो आप कंप्यूटर के साथ कर सकते हैं।

डेटा खनिकों ने बहुभिन्नरूपी आँकड़ों का एक महत्वपूर्ण अनुपात चुरा लिया और इसे अपना कहा। किसी भी 1990 के मल्टीवेरेट बुक की सामग्री की तालिका की जाँच करें और इसकी तुलना एक नए डेटा माइनिंग बुक से करें। मिलता जुलता।

सांख्यिकी परीक्षण परिकल्पना और मॉडल निर्माण के साथ जुड़ा हुआ है, जबकि डेटा खनन भविष्यवाणी और वर्गीकरण के साथ अधिक जुड़ा हुआ है, चाहे कोई भी समझने योग्य मॉडल हो।


1
नकल क्या है? मैं कुछ भी स्पष्ट नहीं देख सकता।
Rob Hyndman

1
यह मेरे विचार के समान है: आंकड़े.स्टैकएक्सचेंज.com
नील

1
ठीक। मैं डाटा माइनिंग की खोज कर रहा था, मशीन सीखने की नहीं। यदि आपको लगता है कि यह एक डुप्लिकेट है, तो कृपया बंद करें।
रोब हंडमैन

हम्म, इसलिए डेटा माइनिंग == मशीन लर्निंग?
आर्स

1
1) मैं COMP स्टेट भेद नहीं देख रहा हूँ। बहुत ज्यादा ऐसा नहीं है कि सांख्यिकीविद ऐसा करते हैं जिन्हें कंप्यूटर की आवश्यकता नहीं है। मुझे लगता है कि आप कम्प्यूटेशनल सघन प्रक्रियाओं जैसे कि पुनरावृत्त समाधान, आदि का मतलब है? लेकिन फिर, ये आधुनिक सांख्यिकीय कार्यों में भी आम हैं जो डेटा खनन नहीं है। 2) अपने स्वयं के (आँकड़े) कार्य में, मैं मॉडल बिल्डिंग में रुचि के लिए और भविष्यवाणी के लिए दिलचस्पी के आधार पर समस्या पर निर्भर करता हूं-मैंने उस डेटा खनन पर विचार नहीं किया होगा। 3) मैं इस निष्कर्ष पर पहुंचा हूं कि आधुनिक डीएम आंकड़ों का एक विशेष अनुप्रयोग है, जो मुझे लगता है कि एक अच्छा निष्कर्ष है।
ब्रेट

6

मैंने पहले एक पोस्ट लिखी थी जहाँ मैंने डेटा माइनिंग की तुलना मनोविज्ञान से करते हुए कुछ अवलोकन किए। मुझे लगता है कि ये अवलोकन आपके द्वारा पहचाने जाने वाले कुछ अंतरों को पकड़ सकते हैं:

  1. "अव्यवस्थित चर के कारण प्रणाली को समझने की तुलना में अवलोकन किए गए चर का उपयोग करके डेटा खनन अधिक अनुमानित लगता है; मनोविज्ञान आमतौर पर अव्यक्त चर के कारण प्रणाली के साथ अधिक चिंतित है।
  2. डेटा माइनिंग में आम तौर पर बड़े डेटासेट (जैसे 10,000 + पंक्तियाँ) शामिल होते हैं जो डेटा माइनिंग के उद्देश्य के अलावा किसी उद्देश्य के लिए एकत्र किए जाते हैं। मनोवैज्ञानिक डेटासेट आमतौर पर छोटे होते हैं (जैसे, 1,000 या 100 पंक्तियों से कम) और एक शोध प्रश्न का पता लगाने के लिए स्पष्ट रूप से एकत्र किया जाता है।
  3. मनोवैज्ञानिक विश्लेषण में आमतौर पर विशिष्ट मॉडलों का परीक्षण शामिल होता है। स्वचालित मॉडल विकास दृष्टिकोण सैद्धांतिक रूप से दिलचस्प नहीं है। "- डेटा माइनिंग और आर

मुझे लगता है कि अंक 2 और 3 उपयोगी टिप्पणियां हैं और मुझे दो एसए और डीएम के बीच अंतर के रूप में देखा जाता है। मैं आपके पहले बिंदु के बारे में निश्चित नहीं हूं। मैंने सांख्यिकीय कार्य किया है जहां मुझे कार्य-कारण संबंधों के बारे में समझ में सुधार करने में रुचि थी। हालाँकि, मैंने सांख्यिकीय कार्य भी किया है जहाँ कार्य ज्ञात रिश्तों को लेना था और भविष्यवाणी के एकमात्र उद्देश्य के साथ मॉडल विकसित करना था लेकिन जो "डेटा माइनिंग" की अन्य विशेषताओं के बारे में साझा नहीं करता था।
ब्रेट

4

मुझे नहीं लगता कि आपके द्वारा किया गया भेद डेटा खनन और सांख्यिकीय विश्लेषण के बीच अंतर से संबंधित है। आप खोजपूर्ण विश्लेषण और मॉडलिंग-भविष्यवाणी दृष्टिकोण के बीच अंतर के बारे में बात कर रहे हैं।

मुझे लगता है कि सांख्यिकीय की परंपरा सभी चरणों के साथ निर्मित होती है: खोजपूर्ण विश्लेषण, फिर मॉडलिंग, फिर अनुमान, फिर परीक्षण, फिर पूर्वानुमान / अनुमान। सांख्यिकीविद् यह पता लगाने के लिए खोजपूर्ण विश्लेषण करते हैं कि डेटा कैसा दिखता है (आर के तहत फ़ंक्शन सारांश!) मुझे लगता है कि डेटामाइनिंग कम संरचित है और खोजपूर्ण विश्लेषण के साथ पहचाना जा सकता है। हालाँकि यह आँकड़ों से तकनीकों का उपयोग करता है जो अनुमान, पूर्वानुमान, वर्गीकरण से हैं…।


मैं वह खरीद सकता हूं। डेटा खनन सांख्यिकीय तकनीकों का अधिक खोजपूर्ण अनुप्रयोग है। हालाँकि, मुझे नहीं लगता कि भेद पर्याप्त है। जब मैं एक प्रयोग किए गए प्रयोग से अपने 100 टिप्पणियों के सेट पर ईडीए कर रहा हूं, तो मुझे नहीं लगता कि कोई भी उस डेटा खनन को कॉल करेगा, क्या वे करेंगे?
ब्रेट
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.