सांख्यिकीय परीक्षण डेटा से अनुमान लगाने के लिए है, यह आपको बताता है कि चीजें कैसे संबंधित हैं। परिणाम कुछ ऐसा है जिसका वास्तविक दुनिया अर्थ है। उदाहरण के लिए दिशा और परिमाण दोनों के हिसाब से फेफड़े के कैंसर के साथ धूम्रपान कैसे जुड़ा हुआ है। यह अभी भी आपको नहीं बताता है कि चीजें क्यों हुईं। यह क्यों हुआ, इसका उत्तर देने के लिए, हमें अन्य चर के साथ अंतर्संबंध पर भी विचार करने और उचित समायोजन करने की आवश्यकता है (देखें पर्ल, जे। (2003) CAUSALITY: मॉडल, रीज़निंग, और सूचना)।
पर्यवेक्षित अधिगम भविष्यवाणियाँ करने के लिए है, यह बताता है कि क्या होगा। उदा। किसी व्यक्ति की धूम्रपान की स्थिति को देखते हुए, हम यह अनुमान लगा सकते हैं कि क्या उसे फेफड़े का कैंसर होगा। साधारण मामलों में, यह अभी भी आपको बताता है कि "कैसे", उदाहरण के लिए एल्गोरिथ्म द्वारा पहचाने जाने वाले धूम्रपान की स्थिति के कटऑफ को देखकर। लेकिन अधिक जटिल मॉडल व्याख्या करना कठिन या असंभव है (बहुत सारी विशेषताओं के साथ गहन सीखने / बढ़ाने)।
उपर्युक्त दो को सुविधाजनक बनाने में अक्सर अप्रशिक्षित शिक्षा का उपयोग किया जाता है।
- सांख्यिकीय परीक्षण के लिए, डेटा के कुछ अज्ञात अंतर्निहित उपसमूह (क्लस्टरिंग) की खोज करके, हम चर के बीच संघों में विषमता का अनुमान लगा सकते हैं। उदा। धूम्रपान से उप-समूह A के लिए फेफड़े के कैंसर होने की संभावना बढ़ जाती है, लेकिन उपसमूह B के लिए नहीं।
- पर्यवेक्षित सीखने के लिए, हम भविष्यवाणी सटीकता और मजबूती को बेहतर बनाने के लिए नई सुविधाएँ बना सकते हैं। उदाहरण के लिए उपसमूह (क्लस्टरिंग) या सुविधाओं के संयोजन (आयाम में कमी) जो फेफड़ों के कैंसर होने की बाधाओं से जुड़े हैं।
जब सुविधाओं / चरों की संख्या बड़ी हो जाती है, तो सांख्यिकीय परीक्षण और पर्यवेक्षित शिक्षण के बीच अंतर अधिक पर्याप्त हो जाता है। सांख्यिकीय परीक्षण आवश्यक रूप से इससे लाभान्वित नहीं हो सकता है, यह उदाहरण के लिए निर्भर करता है कि क्या आप अन्य कारकों के लिए नियंत्रण करके या जैसा कि ऊपर उल्लेख किया गया है, संघों में विषमता की पहचान करके कारण निष्कर्ष निकालना चाहते हैं। सुपरवाइज्ड लर्निंग बेहतर प्रदर्शन करेगा अगर फीचर्स प्रासंगिक हैं और यह ब्लैकबॉक्स की तरह बन जाएगा।
जब नमूने की संख्या बड़ी हो जाती है, तो हम सांख्यिकीय परीक्षण के लिए और अधिक सटीक परिणाम प्राप्त कर सकते हैं, पर्यवेक्षित सीखने के लिए अधिक सटीक परिणाम और अनियोजित सीखने के लिए अधिक मजबूत परिणाम प्राप्त कर सकते हैं। लेकिन यह डेटा की गुणवत्ता पर निर्भर करता है। खराब गुणवत्ता डेटा परिणामों के लिए पूर्वाग्रह या शोर का परिचय दे सकता है।
कभी-कभी हम "कैसे" और "क्यों" जानना चाहते हैं ताकि पारंपरिक क्रियाओं को सूचित किया जा सके, जैसे कि यह पहचानने से कि धूम्रपान फेफड़ों के कैंसर का कारण बनता है, इससे निपटने के लिए नीति बनाई जा सकती है। कभी-कभी हम निर्णय लेने की सूचना देने के लिए "क्या" जानना चाहते हैं, जैसे कि यह पता लगाना कि फेफड़े का कैंसर होने की संभावना है और उन्हें शुरुआती उपचार दे सकते हैं। भविष्यवाणी और उसकी सीमाओं के बारे में विज्ञान पर प्रकाशित एक विशेष मुद्दा है ( http://science.sciencemag.org/content/355/6324/468)। "सफलता तब लगातार प्राप्त होती है जब प्रश्नों को उन बहु-विषयक प्रयासों से निपटाया जाता है जो डेटा की टेराबाइट्स को संभालने के लिए एल्गोरिदमिक क्षमता के साथ संदर्भ की मानवीय समझ में शामिल होते हैं।" मेरी राय में, उदाहरण के लिए, परिकल्पना परीक्षण का उपयोग करके पता चला ज्ञान हमें सूचित करके सीखने की निगरानी में मदद कर सकता है। हमें पहले कौन सा डेटा / सुविधाएँ एकत्र करनी चाहिए। दूसरी ओर, पर्यवेक्षित शिक्षण किस चर को सूचित करके परिकल्पना पैदा करने में मदद कर सकता है