डेटा माइनिंग के बारे में पढ़ना कैसे शुरू करें?


14

मैं एक नौसिखिया हूं जो डेटा माइनिंग के बारे में पढ़ना शुरू करने जा रहा हूं। मुझे एआई और सांख्यिकी का बुनियादी ज्ञान है। चूँकि कई लोग कहते हैं कि मशीन लर्निंग डेटा माइनिंग में भी महत्वपूर्ण भूमिका निभाता है, क्या इससे पहले कि मैं डेटा माइनिंग के साथ चल सकूं, मशीन लर्निंग के बारे में पढ़ना ज़रूरी है?


1
डाटा माइनिंग: कॉन्सेप्ट्स एंड टेक्निक्स बाय जियावेई हान एक अच्छी शुरुआत है
aaronjg

जवाबों:


12

इस स्थिति में कुछ होने के नाते, मैं कुछ अंतर्दृष्टि देने की कोशिश करूँगा।

सबसे पहले, सांख्यिकीय लर्निंग के तत्वों को डाउनलोड करें । यह पथरी और रैखिक बीजगणित को मानता है, और यद्यपि यह बहुत ही तकनीकी है, यह भी बहुत अच्छी तरह से लिखा गया है।

दूसरी बात (या सबसे पहले) एंड्रयू एन के ट्यूटोरियल को मशीन लर्निंग पर देखें।

तीसरा, कुछ डेटा प्राप्त करें, और डेटा का विश्लेषण करने का प्रयास करना शुरू करें। आपको प्रशिक्षण और परीक्षण सेट में विभाजित करने की आवश्यकता होगी, और फिर प्रशिक्षण सेट पर मॉडल बनाएं और परीक्षण सेट के खिलाफ परीक्षण करें। मुझे इस सब के लिए R का कैरेट पैकेज बहुत उपयोगी लगा। इसके बाद इसका अभ्यास, अभ्यास अभ्यास (जैसे लगभग सब कुछ)।


1
आप गरीब आदमी को हमेशा के लिए दूर कर देंगे!
नील मैकगिगन

एंड्यू एनजी के पाठ्यक्रम में एमएल -क्लास.ऑर्ग के
आंद्रे

5

टैन, स्टीनबेच द्वारा डेटा माइनिंग का परिचय, कुमार वहाँ की सबसे अच्छी इंट्रो बुक है

http://www.amazon.com/Introduction-Data-Mining-Pang-Ning-Tan/dp/0321321367

जब आप गहरी खुदाई करना चाहते हैं तब ईओएसएल को बचाएं। यह एक संदर्भ से अधिक है।


4

डेटा माइनिंग वर्णनात्मक या भविष्य कहनेवाला हो सकता है।

एक तरफ, यदि आप वर्णनात्मक डेटा खनन में रुचि रखते हैं, तो मशीन सीखने में मदद नहीं मिलेगी।

दूसरी ओर, यदि आप पूर्वानुमानित डेटा खनन में रुचि रखते हैं, तो मशीन सीखने से आपको यह समझने में मदद मिलेगी कि आप अनुभवजन्य जोखिम को कम करते समय अज्ञात जोखिम (हानि समारोह की उम्मीद) को कम करने का प्रयास करते हैं: आप ओवरफिटिंग, सामान्यीकरण को ध्यान में रखेंगे। त्रुटि और क्रॉस-सत्यापन। उदाहरण के लिए, स्थिरता की बात के लिए , आकार प्रशिक्षण नमूने के लिए -N ऐसा होना चाहिए:nkn

  • nk अनंत तक जाता है जब अनंत तक जाता है,n
  • nkn 0 पर जाता है जब अनंत तक जाता है।n

3
यह ध्यान देने योग्य है कि कुछ लेखक के परिमाण के आधार पर DM और ML के बीच अंतर करना पसंद करते हैं । मैं व्यक्तिगत रूप से रेडफोर्ड नेले के दृष्टिकोण को पसंद करता हूं, मशीन लर्निंग और डेटा माइनिंग के लिए सांख्यिकीय विधियों पर अपने पाठ्यक्रम में : कई मशीन सीखने की समस्याओं में बड़ी संख्या में चर होते हैं, डेटा खनन अनुप्रयोगों में अक्सर बहुत बड़ी संख्या में मामले शामिल होते हैं। k/n
११'११ को

3

मैं केवल टॉम मिशेल द्वारा डेटा खनन / मशीन सीखने पर ट्यूटोरियल का एक और बहुत अच्छा स्रोत जोड़ता हूं ।

वह इसे बहुत स्पष्ट रूप से समझाता है और आप अपनी वेबसाइट से उसकी प्रस्तुतियाँ भी डाउनलोड कर सकते हैं (साथ में उसके व्याख्यान देखने के साथ)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.