डाटा माइनिंग, स्टैटिस्टिक्स, मशीन लर्निंग और AI में क्या अंतर है?


208

डाटा माइनिंग, स्टैटिस्टिक्स, मशीन लर्निंग और AI में क्या अंतर है?

क्या यह कहना सही होगा कि वे 4 क्षेत्र समान समस्याओं को हल करने का प्रयास कर रहे हैं लेकिन विभिन्न दृष्टिकोणों के साथ? वास्तव में उनके पास क्या है और वे कहाँ भिन्न हैं? यदि उनके बीच किसी प्रकार का पदानुक्रम है, तो यह क्या होगा?

इसी तरह के सवाल पहले पूछे गए हैं लेकिन मुझे अभी भी यह नहीं मिला है:

जवाबों:


109

इनमें से काफी ओवरलैप है, लेकिन कुछ भेद किए जा सकते हैं। आवश्यकता होने पर, मुझे कुछ चीजों को सरल बनाना होगा या दूसरों को संक्षिप्त रूप देना होगा, लेकिन मैं इन क्षेत्रों में कुछ अर्थ देने की पूरी कोशिश करूंगा।

सबसे पहले, आर्टिफिशियल इंटेलिजेंस बाकी से काफी अलग है। एआई इस बात का अध्ययन है कि बुद्धिमान एजेंटों को कैसे बनाया जाए। व्यवहार में, यह है कि एक बुद्धिमान एजेंट (कहते हैं, एक व्यक्ति) के रूप में कार्य करने और प्रदर्शन करने के लिए कंप्यूटर को कैसे प्रोग्राम करना है। इसमें सीखने या प्रेरण को शामिल करने की आवश्यकता नहीं है , यह सिर्फ 'बेहतर मूसट्रैप बनाने' का तरीका हो सकता है। उदाहरण के लिए, AI अनुप्रयोगों में चल रही प्रक्रियाओं की निगरानी और नियंत्रण के लिए कार्यक्रम शामिल हैं (उदाहरण के लिए, यदि यह बहुत कम लगता है, तो पहलू को बढ़ाएं)। ध्यान दें कि AI एक मशीन के द्वारा किए जाने वाले किसी भी चीज़ के बारे में बता सकता है, जब तक कि यह 'मूर्खतापूर्ण' नहीं करता।

व्यवहार में, हालांकि, अधिकांश कार्यों के लिए बुद्धिमत्ता की आवश्यकता होती है, उन्हें अनुभवों से नए ज्ञान को प्रेरित करने की क्षमता की आवश्यकता होती है। इस प्रकार, AI के भीतर एक बड़ा क्षेत्र मशीन लर्निंग है । एक कंप्यूटर प्रोग्राम को कुछ कार्य को अनुभव से सीखने के लिए कहा जाता है यदि कुछ प्रदर्शन माप के अनुसार कार्य में इसका प्रदर्शन अनुभव के साथ बेहतर होता है। मशीन लर्निंग में एल्गोरिदम का अध्ययन शामिल है जो स्वचालित रूप से जानकारी निकाल सकता है (यानी, ऑन-लाइन मानव मार्गदर्शन के बिना)। यह निश्चित रूप से मामला है कि इनमें से कुछ प्रक्रियाओं में शास्त्रीय सांख्यिकी से सीधे या व्युत्पन्न विचार शामिल हैं, लेकिन उनके पास नहीं हैहोने के लिए। एआई के समान, मशीन लर्निंग बहुत व्यापक है और इसमें लगभग सब कुछ शामिल हो सकता है, इसलिए जब तक कि इसमें कुछ प्रेरक घटक न हो। मशीन लर्निंग एल्गोरिदम का एक उदाहरण एक कलमन फ़िल्टर हो सकता है।

डाटा माइनिंग एक ऐसा क्षेत्र है जिसने मशीन सीखने (और कुछ, आंकड़ों से भी) से इसकी प्रेरणा और तकनीकें ज्यादा ली हैं, लेकिन अलग-अलग छोरों पर लगाई जाती हैं । डेटा माइनिंग किसी व्यक्ति द्वारा , किसी विशिष्ट स्थिति में, किसी विशेष डेटा सेट पर, एक लक्ष्य को ध्यान में रखकर किया जाता है। आमतौर पर, यह व्यक्ति विभिन्न पैटर्न मान्यता तकनीकों की शक्ति का लाभ उठाना चाहता है जिन्हें मशीन लर्निंग में विकसित किया गया है। काफी बार, डेटा सेट बड़े पैमाने पर , जटिल है , और / या विशेष समस्याएं हो सकती हैं(जैसे कि प्रेक्षणों की तुलना में अधिक चर होते हैं)। आमतौर पर, लक्ष्य या तो ऐसे क्षेत्र में कुछ प्रारंभिक अंतर्दृष्टि की खोज / उत्पन्न करना है जहां वास्तव में पहले से बहुत कम ज्ञान था, या भविष्य की टिप्पणियों का सटीक अनुमान लगाने में सक्षम होने के लिए। इसके अलावा, डेटा माइनिंग प्रक्रियाएं 'अनपर्वलाइज़्ड' (हम उत्तर - खोज नहीं जानते) या 'सुपरवाइज़्ड' (हम उत्तर - भविष्यवाणी को जानते हैं) हो सकते हैं। ध्यान दें कि लक्ष्य आम तौर पर अंतर्निहित डेटा निर्माण प्रक्रिया की अधिक परिष्कृत समझ विकसित करने के लिए नहीं है। सामान्य डेटा खनन तकनीकों में क्लस्टर विश्लेषण, वर्गीकरण और प्रतिगमन पेड़, और तंत्रिका नेटवर्क शामिल होंगे।

मुझे लगता है कि इस साइट पर क्या आँकड़े हैं , यह समझाने के लिए मुझे बहुत कुछ कहने की ज़रूरत नहीं है, लेकिन शायद मैं कुछ बातें कह सकता हूँ। शास्त्रीय आँकड़े (यहाँ मेरा अर्थ है लगातार और बायेसियन दोनों) गणित के भीतर एक उप-विषय है। मैं इसे मोटे तौर पर उस चौराहे के बारे में सोचता हूं जिसे हम संभाव्यता के बारे में जानते हैं और अनुकूलन के बारे में हम क्या जानते हैं। यद्यपि गणितीय आँकड़ों का अध्ययन केवल एक प्लेटोनिक वस्तु के रूप में किया जा सकता है, लेकिन इसे अधिक व्यावहारिक समझा जाता है और गणित के अन्य दुर्लभ क्षेत्रों की तुलना में चरित्र में लागू किया जाता है। जैसे (और विशेष रूप से ऊपर डेटा खनन के विपरीत), यह ज्यादातर कुछ विशेष डेटा बनाने की प्रक्रिया को बेहतर ढंग से समझने की दिशा में नियोजित है। इस प्रकार, यह आमतौर पर एक औपचारिक रूप से निर्दिष्ट मॉडल के साथ शुरू होता हैऔर इससे व्युत्पन्न प्रक्रियाएं उस मॉडल को शोर के उदाहरणों (यानी, अनुमान - कुछ हानि फ़ंक्शन का अनुकूलन करके) को सटीक रूप से निकालने और इसे अन्य संभावनाओं (यानी, नमूना वितरण के ज्ञात गुणों के आधार पर इनफिनिटी) से अलग करने में सक्षम होने के लिए निकाली गई हैं। प्रोटोटाइप सांख्यिकीय तकनीक प्रतिगमन है।


1
मैं ज्यादातर पोस्ट से सहमत हूं, लेकिन मैं कहूंगा कि AI ज्यादातर समय बुद्धिमान एजेंट (क्या है, बुद्धिमानी है?) बनाने की कोशिश नहीं करता है, लेकिन तर्कसंगत एजेंट। तर्कसंगत द्वारा इसका मतलब है "इष्टतम दुनिया के बारे में उपलब्ध ज्ञान"। हालांकि माना जाता है कि अंतिम लक्ष्य एक सामान्य समस्या सॉल्वर जैसा है।
कुत्स्कम

3
क्षमा करें, मुझे अभी भी डेटा माइनिंग और मशीन लर्निंग के बीच अंतर नहीं मिलता है। मैं जो देख रहा हूं, उससे डेटा माइनिंग = मशीन लर्निंग की अनप्रोसेस्ड लर्निंग। नई अंतर्दृष्टि की खोज के बारे में मशीन सीखने के बारे में अनिश्चित नहीं है?
dtc

एक अनाम उपयोगकर्ता ने इस ब्लॉगपोस्ट को एक पैरामीटर के आधार पर डेटा माइनिंग और मशीन लर्निंग के बीच अंतर को तोड़ते हुए एक टेबल के लिए सुझाव दिया ।
गंग

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.क्या यह कहना सुरक्षित है कि एक तंत्रिका नेटवर्क एक क्लस्टर विश्लेषण की तुलना में डेटा माइनिंग में प्रयुक्त मशीन लर्निंग टूल का एक उदाहरण है , जो एक एल्गोरिथ्म है जो डेटा माइनिंग के लिए उपयोग किए जाने वाले मशीन लर्निंग के लिए डिज़ाइन नहीं किया गया है ?
t0mgs 14

वास्तव में यह सब बहुत ही अजीब है, @ TomGranot-Scalosub। मैं कहूंगा कि तंत्रिका नेटवर्क निश्चित रूप से एमएल हैं, और निश्चित रूप से क्लस्टर विश्लेषण और कार्ट का अध्ययन एमएल शोधकर्ताओं द्वारा किया जाता है। मैं विचारों को कुछ हद तक स्पष्ट और विशिष्ट बनाने की कोशिश करता हूं, लेकिन इन श्रेणियों के बीच वास्तव में एक उज्ज्वल रेखा नहीं है।
गंग

41

अन्य जवाबों में से कई ने मुख्य बिंदुओं को कवर किया है लेकिन आपने पदानुक्रम मांगा है यदि कोई मौजूद है और जिस तरह से मैं इसे देखता हूं, हालांकि वे अपने आप में प्रत्येक विषय हैं, पदानुक्रम है कोई भी अभी तक उल्लेख नहीं करता है क्योंकि प्रत्येक बनाता है पिछला वाला।

सांख्यिकी केवल संख्याओं के बारे में है, और डेटा की मात्रा निर्धारित करती है। डेटा के प्रासंगिक गुणों को खोजने के लिए कई उपकरण हैं लेकिन यह शुद्ध गणित के काफी करीब है।

डेटा माइनिंग सांख्यिकी के साथ-साथ अन्य प्रोग्रामिंग विधियों का उपयोग करके डेटा में छिपे हुए पैटर्न को खोजने के बारे में है ताकि आप कुछ घटना की व्याख्या कर सकें । डाटा माइनिंग अंतर्ज्ञान का निर्माण करता है जो वास्तव में कुछ डेटा में हो रहा है और अभी भी प्रोग्रामिंग की तुलना में गणित की ओर बहुत कम है, लेकिन दोनों का उपयोग करता है।

मशीन लर्निंग कुछ आंकड़ों के पीछे क्या हो रहा है इसके मॉडल बनाने के लिए डेटा माइनिंग तकनीक और अन्य लर्निंग एल्गोरिदम का उपयोग करता है ताकि यह भविष्य के परिणामों की भविष्यवाणी कर सके। गणित कई एल्गोरिदम का आधार है, लेकिन यह प्रोग्रामिंग की ओर अधिक है।

आर्टिफिशियल इंटेलिजेंस मशीन लर्निंग द्वारा निर्मित मॉडल और अन्य तरीकों से दुनिया के बारे में तर्क करने और बुद्धिमान व्यवहार को जन्म देता है चाहे वह गेम खेल रहा हो या रोबोट / कार चला रहा हो। आर्टिफिशियल इंटेलिजेंस के पास यह अनुमान लगाने के लिए कुछ लक्ष्य है कि कार्रवाई दुनिया के मॉडल को कैसे प्रभावित करेगी और उन कार्यों को चुनती है जो उस लक्ष्य को प्राप्त करेंगे। बहुत प्रोग्रामिंग आधारित।

संक्षेप में

  • सांख्यिकी संख्या निर्धारित करती है
  • डाटा माइनिंग पैटर्न की व्याख्या करता है
  • मशीन लर्निंग मॉडल के साथ भविष्यवाणी करता है
  • आर्टिफिशियल इंटेलिजेंस व्यवहार और कारण

अब यह कहा जा रहा है, कुछ AI समस्याएं होंगी जो केवल AI में आती हैं और इसी तरह अन्य क्षेत्रों के लिए लेकिन आज की अधिकांश दिलचस्प समस्याएं (उदाहरण के लिए सेल्फ ड्राइविंग कार) आसानी से और सही तरीके से इन सभी को कहा जा सकता है। आशा है कि यह उन दोनों के बीच के संबंध को स्पष्ट करता है जिनके बारे में आपने पूछा था।


क्या आपने कभी WEKA या RapidMiner का उपयोग किया है? उदाहरण के लिए, EM डेटा माइनिंग के भीतर है और यह एक मॉडल लागू करता है। इसके अलावा, मरिना सोफ़र द्वारा दी गई परिभाषा को देखें और अपने उत्तर से तुलना करें। यह कुछ साल पहले की बात है कि मैंने बिशप और रसेल / नॉरविग को पढ़ा, लेकिन जहाँ तक मुझे हार याद है। मारियाना सोफ़र द्वारा अधिक उपयुक्त है। btw डेटा माइनिंग ("केवल") ज्ञान खोज से पहले प्रमुख कदम है। डेटा माइनिंग केवल डेटा के लिए हथियाने है -और बाद में जानकारी के लिए- जब पर्याप्त मापदंडों के साथ एक एल्गोरिथ्म का उपयोग कर रहा हो। डेटा माइनिंग पैटर्न की व्याख्या नहीं कर सकता।
मेमनोनिक

नहीं, @ हेमोनिक, एआई की यह परिभाषा रियान और नॉरविग के साथ मरिना की तुलना में कहीं अधिक है, जो काफी दिनांकित है
nealmcb

2
मुझे लगता है कि आंकड़ों का वर्णन खराब है; क्वांटिफाइंफ संख्या वे आंकड़े हैं जो राष्ट्रीय सांख्यिकी विभाग रिपोर्ट करते हैं, लेकिन यह सांख्यिकीय विज्ञान के समान नहीं है जो डेटा के लिए मॉडल बनाता है, उनके मापदंडों का अनुमान लगाता है और अनुमान लगाता है। इसके अलावा, डेटा माइनिंग और मशीन लर्निंग के बीच संबंध उल्टा है; डेटा विज्ञान मशीन सीखने की तकनीक का उपयोग करता है, न कि दूसरे तरीके से। केन वैन हरेन का जवाब भी देखें।
रिचर्ड हार्डी

25
  • सांख्यिकी संभावित मॉडल के साथ संबंध है, विशेष रूप से डेटा का उपयोग कर इन मॉडलों पर अनुमान है।
  • मशीन लर्निंग कुछ डेटा दिए गए एक विशेष परिणाम की भविष्यवाणी करने से संबंधित है। लगभग किसी भी उचित मशीन लर्निंग विधि को एक औपचारिक संभाव्य मॉडल के रूप में तैयार किया जा सकता है, इसलिए इस अर्थ में मशीन लर्निंग आंकड़े के समान ही है, लेकिन यह अलग है कि यह आम तौर पर पैरामीटर अनुमानों (सिर्फ भविष्यवाणी) के बारे में परवाह नहीं करता है और यह ध्यान केंद्रित करता है कम्प्यूटेशनल दक्षता और बड़े डेटासेट पर।
  • डेटा माइनिंग (जैसा कि मैं इसे समझता हूं) लागू मशीन लर्निंग। यह बड़े डेटासेट पर मशीन लर्निंग एल्गोरिदम को तैनात करने के व्यावहारिक पहलुओं पर अधिक ध्यान केंद्रित करता है। यह मशीन सीखने के समान है।
  • आर्टिफिशियल इंटेलिजेंस एक ऐसी चीज है जो कंप्यूटर में इंटेलिजेंस की (कुछ मनमानी परिभाषा) से संबंधित है। तो, इसमें बहुत सी चीजें शामिल हैं।

सामान्य तौर पर, संभाव्य मॉडल (और इस प्रकार आंकड़े) एक मशीन में औपचारिक रूप से ज्ञान और समझ को समझने के लिए सबसे प्रभावी तरीका साबित हुए हैं, इस हद तक कि अन्य तीनों (एआई, एमएल और डीएम) आज ज्यादातर उप-क्षेत्र हैं आंकड़े। सांख्यिकी का छाया बाहुल बनने वाला पहला अनुशासन नहीं ... (अर्थशास्त्र, मनोविज्ञान, जैव सूचना विज्ञान आदि)।


5
@Ken - अर्थशास्त्र मनोविज्ञान या AI को आँकड़ों की छाया बाहों के रूप में वर्णित करना गलत होगा - भले ही आँकड़ों का उपयोग प्रत्येक के भीतर भारी हो, इन क्षेत्रों में रुचि रखने वाली कई समस्याओं का विश्लेषण करने के लिए। आप दवा का सुझाव नहीं देना चाहते हैं। भले ही अधिकांश चिकित्सीय निष्कर्ष डेटा विश्लेषण पर निर्भर हों।
13

@Ken - यह एक शानदार प्रतिक्रिया है लेकिन आप और अधिक पूरी तरह से वर्णन कर सकते हैं कि AI में कौन सी अन्य चीजें हैं। उदाहरण के लिए, ऐतिहासिक रूप से AI में गैर-संभाव्य मॉडल (जैसे उत्पादन प्रणाली, सेलुलर ऑटोमेटा आदि) के विश्लेषण की बड़ी मात्रा को शामिल किया गया है, उदाहरण के लिए नेवेल और साइमन 1972 देखें)। बेशक इस तरह के सभी मॉडल कुछ संभाव्य मॉडल के मामलों को सीमित कर रहे हैं, लेकिन वे बहुत बाद तक ऐसी नस में विश्लेषण नहीं किया गया था।
मपीजर

4
डेटा माइनिंग मशीन लर्निंग से परे जाती है, क्योंकि इसमें वास्तव में शामिल होता है कि एल्गोरिदम को बहुत तेज़ बनाने के लिए डेटा को कैसे संग्रहीत और अनुक्रमित किया जाता है। यह ज्यादातर एआई, एमएल और आंकड़ों से तरीकों को लेने और कुशल और चतुर डेटा प्रबंधन और डेटा लेआउट तकनीकों के साथ संयोजन के रूप में विशेषता हो सकता है। जब इसमें डेटा प्रबंधन शामिल नहीं होता है, तो आप अक्सर इसे "मशीन लर्निंग" कह सकते हैं। हालाँकि, कुछ कार्य हैं, विशेष रूप से "अनसुपर्विज़्ड", जहाँ कोई "लर्निंग" शामिल नहीं है, लेकिन कोई डेटा प्रबंधन भी नहीं है, इन्हें अभी भी "डेटा माइनिंग" (क्लस्टरिंग, आउटलाइर डिटेक्शन) कहा जाता है।
एनी-मौसे

21

हम कह सकते हैं कि वे सभी संबंधित हैं, लेकिन वे सभी अलग-अलग चीजें हैं। यद्यपि आप उनके बीच सामान्य रूप से चीजें रख सकते हैं, जैसे कि आंकड़े और डेटा खनन में आप क्लस्टरिंग विधियों का उपयोग करते हैं।
मुझे संक्षेप में प्रत्येक को परिभाषित करने का प्रयास करें:

  • सांख्यिकी मुख्य रूप से शास्त्रीय गणितीय विधियों पर आधारित एक बहुत पुराना अनुशासन है, जिसका उपयोग उसी उद्देश्य के लिए किया जा सकता है कि डेटा माइनिंग कभी-कभी चीजों को वर्गीकृत और समूहित करता है।

  • डेटा माइनिंग में उन मॉडलों का पता लगाने के लिए बिल्डिंग मॉडल होते हैं जो हमें तथ्यों या कारकों की मात्रा को देखते हुए स्थितियों को वर्गीकृत या भविष्यवाणी करने की अनुमति देते हैं।

  • आर्टिफिशियल इंटेलिजेंस (Marvin Minsky की जाँच करें) वह अनुशासन है जो मस्तिष्क को प्रोग्रामिंग के तरीकों के साथ काम करने की कोशिश करता है, उदाहरण के लिए एक प्रोग्राम का निर्माण जो शतरंज खेलता है।

  • मशीन लर्निंग ज्ञान के निर्माण और कंप्यूटर में इसे किसी रूप में संग्रहीत करने का कार्य है; वह रूप गणितीय मॉडल, एल्गोरिदम, आदि का हो सकता है ... कुछ भी जो पैटर्न का पता लगाने में मदद कर सकता है।


2
नहीं, अधिकांश आधुनिक एआई इस बात का अनुसरण नहीं करता है कि "मस्तिष्क का अनुकरण करें" दृष्टिकोण। यह "तर्कसंगत एजेंट" बनाने पर केंद्रित है जो उपयोगिता को अधिकतम करने के लिए वातावरण में कार्य करता है, और मशीन सीखने से अधिक निकटता से संबंधित है। रसेल और नॉरविग की पुस्तक देखें।
nealmcb

1
मुझे आपकी परिभाषा में एमएल और डेटा खनन के बीच का अंतर नहीं दिखता है
मार्टिन थोमा

16

मैं मशीन-लर्निंग - डेटा माइनिंग एक्सिस से सबसे ज्यादा परिचित हूँ - इसलिए मैं उस पर ध्यान केंद्रित करूँगा:

मशीन लर्निंग गैर-मानक स्थितियों में उदाहरण के लिए गैर-आईआईडी डेटा, सक्रिय सीखने, अर्ध-पर्यवेक्षणीय सीखने, संरचित डेटा के साथ सीखने (उदाहरण के तार या ग्राफ़ के लिए) में रुचि रखने के लिए जाता है। एमएल भी जो सीखने योग्य है, उस पर सैद्धांतिक सीमा में रुचि रखता है, जो अक्सर उपयोग किए गए एल्गोरिदम (जैसे समर्थन वेक्टर मशीन) के लिए आधार बनाता है। एमएल एक बायेसियन प्रकृति का है।

डेटा माइनिंग डेटा में पैटर्न खोजने में रुचि रखता है जिसके बारे में आपको पहले से जानकारी नहीं है। मुझे यकीन नहीं है कि आंकड़ों में खोजपूर्ण डेटा विश्लेषण से काफी अलग है, जबकि मशीन सीखने में आम तौर पर हल करने के लिए एक अधिक अच्छी तरह से परिभाषित समस्या है।

एमएल छोटे डेटासेट में अधिक रुचि रखते हैं, जहां ओवर-फिटिंग समस्या है और डेटा खनन बड़े पैमाने पर डेटासेट में रुचि रखता है जहां समस्या डेटा की मात्रा के साथ काम कर रही है।

सांख्यिकी और मशीन सीखने से डेटा खनिक द्वारा उपयोग किए जाने वाले कई बुनियादी उपकरण मिलते हैं।


मैं "एमएल छोटे डेटासेट में अधिक रुचि रखता है" से सहमत नहीं हूं।
मार्टिन थोमा

डेटा डेटा खनन छोटे डेटासेट के साथ बहुत अधिक कठिन हो जाता है क्योंकि यह एक सहज संघ को खोजने की संभावना को बढ़ाता है (और इसका पता लगाने की कठिनाई को बढ़ाता है)। छोटे डेटासेट इंफ़ॉर्मेशन के साथ जो संभव के रूप में कुछ विकल्प बनाते हैं वे अधिक सुरक्षित होते हैं।
डिक्रान मार्सुपियल

13

यहाँ पर इसे ले रहा हूँ। चलो दो बहुत व्यापक श्रेणियों के साथ शुरू करते हैं:

  • कुछ भी जो केवल स्मार्ट होने का दिखावा करता है वह कृत्रिम बुद्धिमत्ता (एमएल और डीएम सहित) है।
  • डेटा को सारांशित करने वाली कोई भी चीज़ आँकड़े है , हालाँकि आप आमतौर पर इसे केवल उन तरीकों पर लागू करते हैं जो परिणामों की वैधता पर ध्यान देते हैं (अक्सर एमएल और डीएम में उपयोग किया जाता है)

एमएल और डीएम दोनों आम तौर पर एआई और आँकड़े होते हैं, क्योंकि वे आम तौर पर दोनों से बुनियादी तरीकों को शामिल करते हैं। यहाँ कुछ अंतर हैं:

  • में मशीन सीखने , आप एक है अच्छी तरह से परिभाषित उद्देश्य (आमतौर पर भविष्यवाणी )
  • में डाटा माइनिंग , आप अनिवार्य रूप से उद्देश्य "है कुछ मैं था नहीं से पहले पता "

इसके अतिरिक्त, डेटा माइनिंग में आमतौर पर बहुत अधिक डेटा प्रबंधन शामिल होता है , अर्थात कुशल इंडेक्स संरचनाओं और डेटाबेस में डेटा को कैसे व्यवस्थित किया जाए।

दुर्भाग्य से, वे अलग करना आसान नहीं है। उदाहरण के लिए, "अप्राप्त शिक्षा" है, जो अक्सर डीएम से एमएल से अधिक निकटता से संबंधित है, क्योंकि यह लक्ष्य की ओर अनुकूलन नहीं कर सकता है। दूसरी ओर, डीएम तरीकों का मूल्यांकन करना कठिन है (आप कुछ नहीं जानते हैं कि आप कैसे रेट करते हैं?) और अक्सर मशीन लर्निंग के समान कार्यों पर मूल्यांकन किया जाता है, कुछ जानकारी को छोड़कर। यह, हालांकि, आमतौर पर उन्हें मशीन सीखने के तरीकों से भी बदतर काम करने के लिए प्रकट करेगा जो वास्तविक मूल्यांकन लक्ष्य की ओर अनुकूलित कर सकते हैं।

इसके अलावा, वे अक्सर संयोजन में उपयोग किए जाते हैं। उदाहरण के लिए, डेटा प्रीप्रोसेस करने के लिए एक डेटा माइनिंग मेथड (कहते हैं, क्लस्टरिंग या अनप्रूव्ड आउटलाइयर डिटेक्शन) का उपयोग किया जाता है, फिर बेहतर क्लासीफायर को प्रशिक्षित करने के लिए मशीन लर्निंग विधि को प्रीप्रोसेस किए गए डेटा पर लागू किया जाता है।

मशीन लर्निंग आमतौर पर मूल्यांकन करना बहुत आसान है: एक लक्ष्य है जैसे स्कोर या क्लास भविष्यवाणी। आप सटीक गणना कर सकते हैं और याद कर सकते हैं। डेटा माइनिंग में, अधिकांश मूल्यांकन कुछ जानकारी (जैसे कि कक्षा लेबल) को छोड़कर और फिर परीक्षण करके पता लगाया जाता है कि क्या आपके तरीके ने समान संरचना की खोज की है। यह इस अर्थ में भोला है, जैसा कि आप मानते हैं कि वर्ग लेबल पूरी तरह से डेटा की संरचना को कूटबद्ध करते हैं; आप वास्तव में डेटा खनन एल्गोरिथ्म को सजाते हैं जो आपके डेटा में कुछ नया खोजता है। अप्रत्यक्ष रूप से - इसका मूल्यांकन करने का एक और तरीका है, यह पता चलता है कि खोजी गई संरचना वास्तविक एमएल एल्गोरिथ्म के प्रदर्शन में सुधार करती है (जैसे कि डेटा को विभाजित करते समय या आउटलेयर को हटाते हुए)। फिर भी, यह मूल्यांकन मौजूदा परिणामों को पुन: प्रस्तुत करने पर आधारित है , जो वास्तव में डेटा माइनिंग उद्देश्य नहीं है ...


1
आपकी प्रतिक्रिया बहुत ही आनंददायक है। मैं विशेष रूप से अंतिम पैराग्राफ की सराहना करता हूं, एमएल के प्रदर्शन का मूल्यांकन करने और डीएम के प्रदर्शन का मूल्यांकन करने में अंतर के बारे में।
justis

8

जो कुछ कहा गया है, उसमें कुछ टिप्पणियां जोड़ूंगा ...

एआई किसी भी चीज के लिए एक बहुत ही व्यापक शब्द है जिसे तर्क-संबंधी या भावुक दिखने वाली गतिविधियां करने वाली मशीनों के साथ करना है, किसी कार्य की योजना बनाने या अन्य संस्थाओं के साथ सहयोग करने से लेकर चलने के लिए अंगों का संचालन करना सीखना है। एक पैथी की परिभाषा यह है कि एआई कंप्यूटर से संबंधित कुछ भी है जिसे हम अभी तक अच्छी तरह से नहीं जानते हैं। (एक बार जब हम यह जानते हैं कि इसे कैसे करना है, तो यह आम तौर पर अपना नाम हो जाता है और अब "एआई" नहीं है।)

यह मेरी धारणा है, विकिपीडिया के विपरीत, कि पैटर्न रिकॉग्निशन एंड मशीन लर्निंग एक ही क्षेत्र है, लेकिन पूर्व का अभ्यास कंप्यूटर-विज्ञान के लोगों द्वारा किया जाता है जबकि बाद का अभ्यास सांख्यिकीविदों और इंजीनियरों द्वारा किया जाता है। (कई तकनीकी क्षेत्रों को अलग-अलग उपसमूहों द्वारा खोजा जाता है, जो अक्सर अपनी खुद की लिंगो और मानसिकता को तालिका में लाते हैं।)

डेटा माइनिंग, मेरे दिमाग में किसी भी तरह मशीन लर्निंग / पैटर्न रिकग्निशन (डेटा के साथ काम करने वाली तकनीक) लेता है और उन्हें डेटाबेस, इन्फ्रास्ट्रक्चर, और डेटा सत्यापन / सफाई तकनीकों में लपेटता है।


6
मशीन लर्निंग और पैटर्न की पहचान एक ही बात नहीं है, मशीन लर्निंग भी चीजों में दिलचस्पी है जैसे प्रतिगमन और कारण निष्कर्ष आदि। पैटर्न की मान्यता केवल मशीन लर्निंग में रुचि की समस्याओं में से एक है। अधिकांश मशीन सीखने वाले लोगों को मैं जानता हूं कि कंप्यूटर विज्ञान विभाग में हैं।
डिक्रान मार्सुपियल

2
@ डिकरन सहमत हैं, लेकिन एमएल और पीआर को अक्सर डेटा विश्लेषण के समान विषयों के तहत अलियास और प्रस्तुत किया जाता है। मेरी पसंदीदा पुस्तक वास्तव में क्रिस्टोफ़ एम बिशप से पैटर्न मान्यता और मशीन लर्निंग है । यहाँ JSS, j.mp/etg3w1 में जॉन मेनडॉनल्ड की समीक्षा है ।
chl

मुझे यह भी लगता है कि शब्द "मशीन लर्निंग" सीएस दुनिया में "पैटर्न मान्यता" की तुलना में बहुत अधिक सामान्य है।
बायरज

यहां यह भी महसूस करें कि एमएल अधिक सीएस शब्द है।
कार्ल मॉरिसन

3

अफसोस की बात है कि इन क्षेत्रों के बीच का अंतर काफी हद तक सिखाया जाता है: आंकड़े मैथ्स डिपो, एआई, कंप्यूटर साइंस डिपार्टमेंट में मशीन लर्निंग पर आधारित होते हैं, और डेटा माइनिंग अधिक लागू होती है (सॉफ्टवेयर कंपनियों द्वारा विकसित बिजनेस या मार्केटिंग डिपो द्वारा उपयोग की जाती है) ।

सबसे पहले AI (हालांकि इसका मतलब किसी भी बुद्धिमान प्रणाली से हो सकता है) का पारंपरिक रूप से सांख्यिकीय अनुमान के बजाय तर्क आधारित दृष्टिकोण (जैसे विशेषज्ञ प्रणाली) है। मैथ्स डिपो में आधारित सांख्यिकी की प्रयोगात्मक विज्ञान में मजबूत लागू अनुभव के साथ, जहां एक स्पष्ट वैज्ञानिक मॉडल है, एक बहुत अच्छी सैद्धांतिक समझ है, और उपलब्ध प्रयोगात्मक डेटा के साथ निपटने के लिए आंकड़ों की आवश्यकता है। ध्यान अक्सर बहुत छोटे डेटा सेट से अधिकतम जानकारी को निचोड़ने पर होता है। इसके अलावा गणितीय प्रमाणों के प्रति एक पूर्वाग्रह है: आप तब तक प्रकाशित नहीं होंगे जब तक आप अपने दृष्टिकोण के बारे में चीजों को साबित नहीं कर सकते। इसका मतलब यह है कि विश्लेषण को स्वचालित करने के लिए कंप्यूटर के उपयोग में आँकड़े पिछड़ गए हैं। फिर, प्रोग्रामिंग ज्ञान की कमी ने सांख्यिकीविदों को बड़े पैमाने पर समस्याओं पर काम करने से रोका है जहां कम्प्यूटेशनल मुद्दे महत्वपूर्ण हो जाते हैं (GPUs और वितरित सिस्टम जैसे हडूप पर विचार करें)। मेरा मानना ​​है कि जैव सूचना विज्ञान जैसे क्षेत्र अब इस दिशा में आँकड़े अधिक बढ़ा चुके हैं। अंत में मैं कहूंगा कि सांख्यिकीविद एक अधिक संदेहपूर्ण गुच्छा हैं: वे यह दावा नहीं करते हैं कि आप आंकड़ों के साथ ज्ञान की खोज करते हैं- बल्कि एक वैज्ञानिक एक परिकल्पना के साथ आता है, और सांख्यिकीविद् का काम यह जांचना है कि परिकल्पना डेटा द्वारा समर्थित है। मशीन लर्निंग को सीएस विभागों में पढ़ाया जाता है, जो दुर्भाग्य से उपयुक्त गणित नहीं सिखाता है: मल्टीवार्जेबल कैलकुलस, प्रायिकता, सांख्यिकी और अनुकूलन सामान्य नहीं है ... किसी के पास उदाहरणों से सीखने जैसी अस्पष्ट 'ग्लैमरस' अवधारणा है ...सांख्यिकीय सीखने के पृष्ठ ३० के तत्व। इसका अर्थ यह है कि बहुत कम सैद्धांतिक समझ और एल्गोरिदम का एक विस्फोट है क्योंकि शोधकर्ताओं को हमेशा कुछ डेटासेट मिल सकते हैं, जिस पर उनका एल्गोरिथ्म बेहतर साबित होता है। इसलिए बड़ी संख्या में प्रचार के चरण आते हैं, क्योंकि विधायक अगली बड़ी बात का पीछा करते हैं: तंत्रिका नेटवर्क, गहन शिक्षा आदि। दुर्भाग्य से सीएस विभागों में बहुत अधिक पैसा है (Google, माइक्रोसॉफ्ट, साथ में अधिक विपणन योग्य 'सीखने' के बारे में सोचें) अधिक संशयवादी सांख्यिकीविदों की उपेक्षा की जाती है। अंत में, एक अनुभवजन्य तुला है: मूल रूप से एक अंतर्निहित धारणा है कि यदि आप एल्गोरिथ्म में पर्याप्त डेटा फेंकते हैं तो यह सही भविष्यवाणियों को सीखेगा। जब भी मैं एमएल के खिलाफ पक्षपाती हूं, एमएल में एक बुनियादी अंतर्दृष्टि है जिसे सांख्यिकीविदों ने नजरअंदाज कर दिया है: कि कंप्यूटर आंकड़ों के आवेदन में क्रांति ला सकते हैं।

दो तरीके हैं- ए) मानक परीक्षणों और मॉडलों के आवेदन को स्वचालित करना। जैसे मॉडल की बैटरी (रैखिक प्रतिगमन, यादृच्छिक वन, आदि) इनपुट, पैरामीटर सेटिंग्स आदि के विभिन्न संयोजनों की कोशिश कर रहे हैं। यह वास्तव में नहीं हुआ है- हालाँकि मुझे संदेह है कि कागल पर प्रतियोगियों ने अपनी स्वचालन तकनीक विकसित की है। b) विशाल डेटा के लिए मानक सांख्यिकीय मॉडल लागू करना: जैसे कि Google अनुवाद, अनुशंसाकर्ता सिस्टम आदि के बारे में सोचें (कोई भी दावा नहीं कर रहा है कि जैसे लोग अनुवाद करते हैं या उस तरह की सलाह देते हैं..लेकिन यह एक उपयोगी उपकरण है)। अंतर्निहित सांख्यिकीय मॉडल सीधे हैं लेकिन इन विधियों को अरबों डेटा बिंदुओं पर लागू करने में भारी कम्प्यूटेशनल मुद्दे हैं।

डेटा माइनिंग इस दर्शन की परिणति है ... डेटा से ज्ञान निकालने के स्वचालित तरीके विकसित करना। हालांकि, इसका एक और अधिक व्यावहारिक दृष्टिकोण है: अनिवार्य रूप से यह व्यवहार संबंधी डेटा पर लागू होता है, जहां कोई व्यापक वैज्ञानिक सिद्धांत (विपणन, धोखाधड़ी का पता लगाने, स्पैम आदि) नहीं है और इसका उद्देश्य डेटा के बड़े संस्करणों का विश्लेषण स्वचालित करना है: इसमें कोई संदेह नहीं है सांख्यिकीविदों की टीम पर्याप्त समय दिए गए बेहतर विश्लेषणों का उत्पादन कर सकती है, लेकिन कंप्यूटर का उपयोग करने के लिए यह अधिक प्रभावी है। इसके अलावा डी। हैंड बताते हैं कि यह द्वितीयक डेटा का विश्लेषण है - डेटा जो डेटा के बजाय वैसे भी लॉग इन किया जाता है जो एक ठोस प्रयोगात्मक डिजाइन में वैज्ञानिक प्रश्न का उत्तर देने के लिए स्पष्ट रूप से एकत्र किया गया है। डेटा खनन सांख्यिकी और अधिक, डी हाथ

इसलिए मैं यह बताना चाहूंगा कि पारंपरिक AI सांख्यिकीय के बजाय तर्क आधारित है, मशीन लर्निंग बिना सिद्धांत के आँकड़े हैं और आँकड़े 'कंप्यूटर के बिना आँकड़े' हैं, और डेटा माइनिंग न्यूनतम उपयोगकर्ता हस्तक्षेप के साथ सांख्यिकीय विश्लेषण के लिए स्वचालित उपकरणों का विकास है।


यह उत्तर बहुत अधिक है, इसलिए इसका पालन करना कठिन है और अनावश्यक रूप से लंबा है, लेकिन यह वास्तव में इस निशान से टकराता है कि मतभेदों का अनुशासनात्मक परंपराओं और किसी भी चीज़ की तुलना में अधिक है।
Tripartio

1

डेटा माइनिंग छिपे हुए पैटर्न या अज्ञात ज्ञान की खोज के बारे में है, जिसका उपयोग लोगों द्वारा निर्णय लेने के लिए किया जा सकता है।

मशीन सीखना नई वस्तुओं को वर्गीकृत करने के लिए एक मॉडल सीखने के बारे में है।


क्या मशीन केवल वर्गीकरण के बारे में सीख रही है? क्या मशीन लर्निंग का उपयोग अन्य लक्ष्यों को पूरा करने के लिए नहीं किया जा सकता है?
गंग

@ गुंग बिल्कुल नहीं। सुदृढीकरण सीखना, IMHO, एमएल का सबसे अधिक लक्षण वर्णन करने वाला उपक्षेत्र है और मैं यह नहीं कहूंगा कि यह वर्गीकरण पर आधारित है, लेकिन लक्ष्य प्राप्त करने पर।
नबर

@nbro, उस टिप्पणी को ओपी को पुनर्विचार करने के लिए संकेत देना चाहिए था कि वे एमएल को कैसे परिभाषित कर रहे थे।
गंग

0

मेरी राय में, आर्टिफिशियल इंटेलिजेंस को मशीन लर्निंग, डेटा माइनिंग, पैटर्न पहचान आदि जैसे क्षेत्रों का "सुपरसेट" माना जा सकता है।

  • सांख्यिकी, गणित का एक क्षेत्र है जिसमें एआई में उपयोग किए जा रहे सभी गणितीय मॉडल, तकनीक और प्रमेय शामिल हैं।

  • मशीन लर्निंग एआई का एक क्षेत्र है जिसमें सभी एल्गोरिदम शामिल हैं जो उपर्युक्त सांख्यिकीय मॉडल को लागू करते हैं और डेटा की समझ रखते हैं, अर्थात्, भविष्य कहनेवाला विश्लेषण जैसे क्लस्टरिंग और क्लासिफिकेशन।

  • डेटा माइनिंग वह विज्ञान है जो डेटा से उपयोगी और महत्वपूर्ण पैटर्न निकालने के लिए उपरोक्त सभी तकनीकों (मुख्य रूप से सीखने की मशीन) का उपयोग करता है। डेटा माइनिंग को आमतौर पर बड़े डेटासेट, यानी बिग डेटा से उपयोगी जानकारी निकालने के साथ करना पड़ता है।


-1

कैसे के बारे में: सीखने के लिए शिक्षण मशीनें

डेटा में सार्थक पैटर्न को पहचानें: डेटा माइनिंग

ज्ञात पैटर्न से भविष्यवाणी का परिणाम: एमएल

कच्चे डेटा को हटाने के लिए नई सुविधाएँ खोजें: AI

इस पक्षी के मस्तिष्क को वास्तव में सरल परिभाषाओं की आवश्यकता होती है।


-1

अक्सर डेटा माइनिंग कुछ भविष्य के डेटा की "भविष्यवाणी" या "समझाने" की कोशिश करता है कि कुछ क्यों होता है।

मेरी आंखों में परिकल्पना को मान्य करने के लिए सांख्यिकी का अधिक उपयोग किया जाता है। लेकिन यह एक व्यक्तिपरक चर्चा है।

सांख्यिकीविदों और डेटा खनिक के बीच एक स्पष्ट अंतर उन सारांश आँकड़ों के प्रकार में पाया जा सकता है जिन्हें वे देखते हैं।

आँकड़े अक्सर खुद को R² और सटीकता तक सीमित कर लेंगे, जबकि डेटा खनिक AUC, ROC घटता, लिफ्ट घटता आदि को देखेंगे और लागत-संबंधित सटीकता वक्र को नियोजित करके भी चिंतित हो सकते हैं।

डेटा माइनिंग पैकेज (उदाहरण के लिए ओपन सोर्स वीका), ने इनपुट चयन, सपोर्ट वेक्टर मशीनों के वर्गीकरण आदि के लिए तकनीकों का निर्माण किया है, जबकि ये जेएमपी जैसे सांख्यिकीय पैकेजों में सबसे अधिक अनुपस्थित हैं। मैं हाल ही में जब jmp के लोगों से "डेटा माइनिंग इन जेएमपी" पर एक कोर्स कर रहा हूं, और हालांकि यह एक नेत्रहीन मजबूत पैकेज है, कुछ आवश्यक डेटा माइनिंग प्री / पोस्ट / मिड तकनीकें अभी गायब हैं। इनपुट चयन मैन्युअल रूप से किया गया था, डेटा में जानकारी प्राप्त करने के लिए, अभी भी डेटा माइनिंग में, एल्गोरिदम को स्मार्ट तरीके से, बड़े डेटा पर रिलीज़ करना और स्वचालित रूप से जो सामने आता है उसे देखना आपका उद्देश्य है। पाठ्यक्रम को स्पष्ट रूप से सांख्यिकी लोगों द्वारा सिखाया गया था, जिसमें दोनों के बीच अलग मानसिकता पर जोर दिया गया था।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.