डेटा माइनिंग को वर्णनात्मक या पूर्वानुमान के रूप में वर्गीकृत किया जाता है। वर्णनात्मक डेटा खनन बड़े पैमाने पर डेटा सेट की खोज करने और डेटा में अप्रत्याशित संरचनाओं या संबंधों, पैटर्न, रुझान, क्लस्टर और आउटलेर के स्थानों की खोज करने के लिए है। दूसरी ओर, प्रिडिक्टिव रिग्रेशन, वर्गीकरण, पैटर्न मान्यता, या मशीन सीखने के कार्यों के लिए मॉडल और प्रक्रियाओं का निर्माण करना है, और नए डेटा के लिए लागू होने पर उन मॉडल और प्रक्रियाओं की अनुमानित सटीकता का आकलन करना है।
उच्च-आयामी डेटा में पैटर्न या संरचना की खोज करने के लिए उपयोग किया जाने वाला तंत्र मैनुअल या स्वचालित हो सकता है; खोज के लिए एक डेटाबेस प्रबंधन प्रणाली के अंतःक्रियात्मक रूप से क्वेरी की आवश्यकता हो सकती है, या यह डेटा में विसंगतियों को देखने के लिए विज़ुअलाइज़ेशन सॉफ़्टवेयर का उपयोग करके प्रवेश कर सकता है। मशीन-लर्निंग के संदर्भ में, वर्णनात्मक डेटा खनन को अप्रयुक्त सीखने के रूप में जाना जाता है, जबकि पूर्वानुमानित डेटा खनन को पर्यवेक्षित शिक्षण के रूप में जाना जाता है।
डेटा खनन में उपयोग किए जाने वाले अधिकांश तरीके सांख्यिकी और मशीन सीखने में विकसित तरीकों से संबंधित हैं। उन विधियों में सबसे आगे हैं प्रतिगमन, वर्गीकरण, क्लस्टरिंग और विज़ुअलाइज़ेशन के सामान्य विषय। डेटा सेटों के विशाल आकार के कारण, डेटा माइनिंग के कई अनुप्रयोग आयामीता-कमी तकनीकों (जैसे, चर चयन) और उन स्थितियों पर ध्यान केंद्रित करते हैं जिनमें उच्च-आयामी डेटा के निचले-आयामी हाइपरप्लेन पर झूठ बोलने की आशंका होती है। हाल के ध्यान को गैर-रेखीय सतहों या मैनिफोल्ड्स पर पड़े उच्च-आयामी डेटा की पहचान करने के तरीकों के लिए निर्देशित किया गया है।
डेटा खनन में ऐसी स्थितियाँ भी होती हैं जब सांख्यिकीय निष्कर्ष - अपने शास्त्रीय अर्थ में - या तो इसका कोई अर्थ नहीं है या संदिग्ध वैधता का है: पूर्व तब होता है जब हमारे पास उत्तर खोजने के लिए पूरी आबादी होती है, और बाद वाला तब होता है जब डेटा सेट एक होता है "सुविधा" नमूना कुछ बड़ी आबादी से तैयार यादृच्छिक नमूना होने के बजाय। जब डेटा समय के माध्यम से एकत्र किया जाता है (उदाहरण के लिए, खुदरा लेनदेन, स्टॉक-मार्केट लेनदेन, रोगी रिकॉर्ड, मौसम रिकॉर्ड), नमूना भी समझ में नहीं आ सकता है; प्रेक्षणों का समय-क्रम डेटा को उत्पन्न करने वाली घटना को समझने के लिए महत्वपूर्ण है, और प्रेक्षणों को स्वतंत्र मानने के लिए जब वे अत्यधिक सहसंबद्ध हो सकते हैं पक्षपाती परिणाम प्रदान करेंगे।
डेटा माइनिंग के केंद्रीय घटक हैं - सांख्यिकीय सिद्धांत और विधियों के अलावा - कंप्यूटिंग और कम्प्यूटेशनल दक्षता, स्वचालित डेटा प्रसंस्करण, गतिशील और इंटरैक्टिव डेटा विज़ुअलाइज़ेशन तकनीक और एल्गोरिथम विकास।
डेटा माइनिंग में सबसे महत्वपूर्ण मुद्दों में से एक स्केलेबिलिटी की कम्प्यूटेशनल समस्या है । कंप्यूटिंग के लिए विकसित एल्गोरिदम मानक खोजपूर्ण और पुष्टिकरण सांख्यिकीय विधियों को छोटे और मध्यम आकार के डेटा सेटों पर लागू होने पर तेज और कम्प्यूटेशनल रूप से कुशल बनाने के लिए डिज़ाइन किया गया था; अभी तक, यह दिखाया गया है कि इनमें से अधिकांश एल्गोरिदम विशाल डेटा सेट को संभालने की चुनौती तक नहीं हैं। जैसे-जैसे डेटा सेट बढ़ता है, कई मौजूदा एल्गोरिदम नाटकीय रूप से धीमा करने की प्रवृत्ति प्रदर्शित करते हैं (या यहां तक कि एक पड़ाव को पीसते हैं)।