क्या डाटा साइंस को डाटा माइनिंग कहा जाता है?


22

मुझे यकीन है कि डेटा विज्ञान पर चर्चा की जाएगी क्योंकि इस मंच में कई समानार्थी शब्द या कम से कम संबंधित क्षेत्र हैं जहां बड़े डेटा का विश्लेषण किया जाता है।

मेरा विशेष प्रश्न डाटा माइनिंग के संबंध में है। मैंने कुछ साल पहले डेटा माइनिंग में स्नातक वर्ग लिया था। डेटा साइंस और डेटा माइनिंग के बीच क्या अंतर हैं और विशेष रूप से डेटा खनन में कुशल बनने के लिए मुझे और क्या देखने की आवश्यकता होगी?


आपके प्रश्न के दूसरे भाग के रूप में, मैंने मेटा में एक चर्चा का प्रस्ताव दिया है: meta.datascience.stackexchange.com/questions/5/… यह कैसे प्राप्त किया जा सकता है कि आपकी प्रवीणता चिंता का विषय है या दायरे के भीतर।
क्लेटन

जवाबों:


25

@statsRus एक अन्य प्रश्न में आपके उत्तर के लिए जमीनी कार्य करना शुरू कर देता है /datascience/1/what-characterises-the-difference-between-data-ncience-and-statistics :

  • डेटा संग्रह : वेब स्क्रैपिंग और ऑनलाइन सर्वेक्षण
  • डेटा हेरफेर : गन्दा डेटा को फिर से भरना और भाषाई और सामाजिक नेटवर्क डेटा से अर्थ निकालना
  • डेटा स्केल : बहुत बड़े डेटा सेट के साथ काम करना
  • डेटा माइनिंग : एल्गोरिदम तकनीकों पर जोर देने के साथ बड़े, जटिल डेटा सेट में पैटर्न ढूंढना
  • डेटा संचार : विज़ुअलाइज़ेशन के माध्यम से "मानव-पठनीय" जानकारी में "मशीन-पठनीय" डेटा को चालू करने में मदद करना

परिभाषा

को डेटा वैज्ञानिक के टूलकिट में एक आइटम (या कौशल और अनुप्रयोगों के सेट) के रूप में देखा जा सकता है। मुझे पसंद है कि कैसे वह एक प्रकार के व्यापार-विशिष्ट शब्दजाल में संग्रह से खनन की परिभाषा को अलग करता है।

हालाँकि, मुझे लगता है कि डेटा-माइनिंग एक यूएस-अंग्रेजी बोलचाल की परिभाषा में डेटा-संग्रह का पर्याय होगा ।

प्रवीण बनने के लिए कहां जाएं? मुझे लगता है कि यह प्रश्न बहुत व्यापक है क्योंकि यह वर्तमान में कहा गया है और ऐसे उत्तर प्राप्त करेंगे जो मुख्य रूप से राय आधारित हैं। शायद अगर आप अपने प्रश्न को परिष्कृत कर सकते हैं, तो यह देखना आसान हो सकता है कि आप क्या पूछ रहे हैं।


11

@Clayton ने जो पोस्ट किया है, वह मेरे लिए सही है, उन शर्तों के लिए, और "डेटा माइनिंग" के लिए डेटा वैज्ञानिक का एक उपकरण है। हालांकि, मैंने वास्तव में "डेटा संग्रह" शब्द का उपयोग नहीं किया है, और यह मुझे "डेटा माइनिंग" के पर्याय के रूप में हड़ताल नहीं करता है।

आपके प्रश्न का मेरा स्वयं का उत्तर: नहीं , शर्तें समान नहीं हैं। इस क्षेत्र में परिभाषाएँ ढीली हो सकती हैं, लेकिन मैंने उन शब्दों को देखा नहीं है जिनका इस्तेमाल परस्पर किया जाता है। मेरे काम में, हम कभी-कभी उनका उपयोग लक्ष्यों, या कार्यप्रणाली के बीच अंतर करने के लिए करते हैं। हमारे लिए, एक परिकल्पना का परीक्षण करने के बारे में अधिक है, और आमतौर पर डेटा केवल उस उद्देश्य के लिए एकत्र किया गया है। मौजूदा डेटा के माध्यम से स्थानांतरण, संरचना की तलाश और शायद परिकल्पना पैदा करने के बारे में अधिक है। डेटा खनन एक परिकल्पना के साथ शुरू हो सकता है, लेकिन यह अक्सर बहुत कमजोर या सामान्य है, और आत्मविश्वास से हल करना मुश्किल हो सकता है। (काफी लंबा खोदो और तुम कुछ पाओगे , हालांकि यह पाइराइट हो सकता है।)

हालाँकि, हमने "डेटा साइंस" का उपयोग "डेटा माइनिंग" को शामिल करने के लिए एक व्यापक शब्द के रूप में भी किया है। हम "डेटा मॉडलिंग" के बारे में भी बात करते हैं, जो हमारे लिए डेटा और साथ ही अन्य ज्ञान और उद्देश्यों के आधार पर, ब्याज की एक प्रणाली के लिए एक मॉडल खोजने के बारे में है। कभी-कभी इसका मतलब है कि गणित को खोजने की कोशिश करना जो वास्तविक प्रणाली की व्याख्या करता है, और कभी-कभी इसका अर्थ है एक भविष्य कहनेवाला मॉडल ढूंढना जो एक उद्देश्य के लिए पर्याप्त है।


8

मेरा जवाब होगा नहीं। मैं डेटा खनन को डेटा साइंस में विविध क्षेत्रों में से एक मानता हूं। डेटा माइनिंग ज्यादातर सवालों के जवाब देने के बजाए उपज देने पर विचार किया जाता है। इसे अक्सर डेटा विज्ञान की तुलना में "कुछ नया पता लगाने" के रूप में कहा जाता है, जहां डेटा वैज्ञानिक जटिल समस्याओं को हल करने की कोशिश करते हैं ताकि वे अपने अंतिम परिणामों तक पहुंच सकें। हालाँकि दोनों ही शब्दों में उनके बीच कई समानताएँ हैं। उदाहरण के लिए..यदि आपके पास एक कृषि भूमि है जहाँ आप प्रभावित पौधों को खोजने का लक्ष्य रखते हैं..यहां स्थानिक डेटा खनन इस कार्य को करने में महत्वपूर्ण भूमिका निभाता है। इस बात की अच्छी संभावना है कि आप केवल प्रभावित पौधों का पता लगाने के साथ ही समाप्त हो सकते हैं भूमि में, लेकिन यह भी कि वे किस हद तक प्रभावित हैं ....... यह कुछ ऐसा है जो डेटा विज्ञान के साथ संभव नहीं है।


आपका उत्तर बहुत अच्छा है, और अच्छा यह भी होगा कि यदि आप थोड़ा सा उदाहरण जोड़ते हैं, तो इस तरह से डेटा माइनिंग पर अपनी बात पर जोर देने के बजाय परिणाम को सुलझाने और पहुंचाने की कोशिश करने के बजाय कुछ नया जानने से संबंधित है ।
रुबेंस

6

डेटा माइनिंग और डेटासाइंस के बीच कई ओवरलैप्स हैं। मैं कहूंगा कि डेटामाइनिंग की भूमिका वाले लोग डेटा संग्रह और अनफ़िल्टर्ड, असंगठित और ज्यादातर कच्चे / जंगली डेटासेट से सुविधाओं के निष्कर्षण से चिंतित हैं। कुछ बहुत महत्वपूर्ण डेटा निकालने में मुश्किल हो सकती है, कार्यान्वयन मुद्दों पर नहीं, लेकिन क्योंकि इसमें विदेशी कलाकृतियां हो सकती हैं।

उदाहरण के लिए। अगर मुझे 70 के दशक में लिखित कर रिटर्न से वित्तीय डेटा को देखने के लिए किसी की ज़रूरत थी, जिसे स्कैन किया गया था और यह जानने के लिए मशीन पढ़ी गई कि क्या लोग कार बीमा पर अधिक बचत करते हैं; एक डाटामिनर पाने वाला व्यक्ति होगा।

अगर मुझे ब्राजील के ट्वीट्स में नाइक के ट्विटर प्रोफाइल के प्रभाव की जांच करने और प्रोफ़ाइल से महत्वपूर्ण सकारात्मक विशेषताओं की पहचान करने के लिए किसी की आवश्यकता है, तो मैं एक डेटाविज्ञानी की तलाश करूंगा।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.