जवाबों:
मैंने पहले कभी इस शब्द का सामना नहीं किया है। मैं अनिश्चित हूं कि यह या तो आंकड़ों के दायरे में प्रकाश या अंधकार फैलाएगा: मशीन लर्निंग (जहां पर्यवेक्षण और अनियोजित अंतर समस्या को हल करने के लिए केंद्रीय हैं) और ह्रासमान आंकड़े (जहां प्रतिगमन, पुष्टिकरण विश्लेषण और एनएचएसटी सबसे अधिक बार नियोजित हैं)।
जहाँ वे दो दर्शन ओवरलैप होते हैं, वहाँ प्रतिगमन और संबद्ध शब्दावली का बहुमत कड़ाई से देखरेख में स्थापित किया जाता है। हालांकि, मुझे लगता है कि अप्रशिक्षित सीखने में कई मौजूदा अवधारणाएं प्रतिगमन आधारित दृष्टिकोणों से निकटता से संबंधित हैं, खासकर जब आप प्रत्येक कक्षा में एक परिणाम के रूप में इसे सहज रूप से पुनरावृत्त करते हैं और परिणामों को पूल करते हैं। इसका एक उदाहरण पीसीए और बीवरिएट सहसंबंध विश्लेषण है। कई प्रकार के चरों पर पुनरावृत्ति के लिए सर्वोत्तम उपसमुच्चय प्रतिगमन लागू करके, आप नेटवर्क अनुमान का एक बहुत ही जटिल प्रकार कर सकते हैं, जैसा कि संरचनात्मक समीकरण मॉडलिंग (सख्ती से ईएफए अर्थ) में माना जाता है। यह मेरे लिए, प्रतिगमन के साथ एक अनिश्चित सीखने की समस्या की तरह लगता है।
सबसे करीबी बात जो मैं सोच सकता हूं, वह एक छोटा काला जादू है, जिसने कुछ साल पहले घोषणा किए जाने पर लोगों में हड़कंप मचा दिया था, लेकिन मैं नहीं मानता कि इसने समुदाय में कोई वास्तविक कर्षण हासिल किया है। लेखकों ने एक आँकड़ा विकसित किया, जिसे उन्होंने "मैक्सिमल इन्फ़ॉर्मेशन गुणांक (एमआईसी)" कहा। उनकी पद्धति के पीछे सामान्य विचार यह है कि अत्यधिक आयामी डेटा लें, प्रत्येक जोड़े में प्रत्येक चर के खिलाफ प्रत्येक चर की साजिश करें, और फिर प्रत्येक भूखंड के लिए एक दिलचस्प विंडो-बिनिंग एल्गोरिथ्म लागू करें (जो कि उन दो चर के लिए एमआईसी की गणना करता है) यदि यह निर्धारित करने के लिए कि क्या है संभावित रूप से दो चर के बीच संबंध। तकनीक को केवल रेखीय नहीं, बल्कि मनमाने ढंग से संरचित संबंधों की पहचान करने के लिए मजबूत माना जाता है ।
तकनीक चर के जोड़े को लक्षित करती है, लेकिन मुझे यकीन है कि इसे बहुभिन्नरूपी संबंधों की जांच के लिए बढ़ाया जा सकता है। मुख्य समस्या यह होगी कि आपको चर के अधिक संयोजन पर तकनीक को चलाना होगा क्योंकि आप अधिक से अधिक चर के क्रमपरिवर्तन के लिए अनुमति देते हैं। मैं कल्पना करता हूं कि शायद जोड़े के साथ कुछ समय लगता है: दूरस्थ रूप से उच्च आयामी डेटा पर भी इसका उपयोग करने का प्रयास करना और चर के जोड़े की तुलना में अधिक जटिल संबंधों पर विचार करना तेजी से अव्यावहारिक हो जाएगा।
बड़े डेटासेट्स (2011) में उपन्यास एसोसिएशन का पता लगाने वाले संदर्भ
ऑटो रिग्रेशन मैट्रिक्स के भार की गणना करने का एक तरीका है जो दिए गए इनपुट से पुनर्निर्मित इनपुट पर त्रुटि को कम करता है।
पर्यवेक्षित और अनुपयोगी तरीकों के बीच के अंतर पर शोध करते समय यह सवाल मेरे दिमाग में आया था। एक अर्थमितीय पृष्ठभूमि से आकर मैं मॉडल में सोचना पसंद करता हूं, जिसने मेरी समझ को धीमा कर दिया क्योंकि मैंने जिन मशीन लर्निंग साहित्य का सामना किया, उनमें से अधिकांश में तरीकों पर ध्यान केंद्रित किया गया था।
इस प्रकार मैंने जो पाया है, वह यह है कि एक सख्त भेद clustering
(बनाम अनुपयोगी) बनाम classification
(पर्यवेक्षित) के बीच होना चाहिए । इन मॉडल डिजाइनों के बीच संबंध की निरंतर सादृश्य principal component analysis
(अप्रकाशित) बनाम linear regression
(पर्यवेक्षित) होगी।
हालाँकि, मैं तर्क दूंगा कि क्लस्टरिंग और वर्गीकरण के बीच संबंध विशुद्ध रूप से संयोग है; यह केवल तब मौजूद होता है जब हम दोनों मॉडल डिजाइनों की व्याख्या एक ज्यामितीय संबंध के रूप में करते हैं, जो मुझे अनावश्यक रूप से प्रतिबंधात्मक लगता है। सभी अनचाहे तरीके जिन्हें मैं (के-मीन्स, इलास्टिक मैप एल्गोरिदम जैसे कोहोनन / न्यूरल गैस, डीबीएससीएएन, पीसीए) के रूप में जाना जाता है, को भी अव्यक्त चर मॉडल के रूप में व्याख्या किया जा सकता है। क्लस्टरिंग विधियों के मामले में, यह एक राज्य में होने के नाते क्लस्टर से संबंधित देखने की राशि होगी, जिसे राज्य के डमी को पेश करके एक अव्यक्त चर मॉडल के रूप में कोडित किया जा सकता है।
अव्यक्त चर मॉडल के रूप में व्याख्या को देखते हुए, आप निरंतर अव्यक्त चर के संदर्भ में अपनी विशेषताओं का वर्णन करने वाले किसी भी, संभवतः गैर-रेखीय मॉडल को निर्दिष्ट करने के लिए स्वतंत्र हैं।