संक्षिप्त जवाब:
हां, समानांतर में रेखीय प्रतिगमन चल रहा है। उदाहरण के लिए, जियानग्रुई मेंग एट अल। (2016) अपाचे स्पार्क में मशीन लर्निंग के लिए। जिस तरह से यह काम करता है स्टोचैस्टिक ग्रेडिएंट डिसेंट (SGD) का उपयोग कर रहा है। खंड 3, मुख्य विशेषताओं में, लेखक ने उल्लेख किया है:
सामान्यीकृत रेखीय मॉडल अनुकूलन एल्गोरिदम के माध्यम से सीखे जाते हैं जो तेजी से C ++ - कार्यकर्ता संगणना के लिए रेखीय बीजगणित पुस्तकालयों का उपयोग करके ढाल संगणना को समानांतर करते हैं।
इस बात पर एक उदाहरण है कि किस तरह से काम करता है यहाँ मेरे जवाब में पाया जा सकता है: स्टोकेस्टिक ग्रेडिएंट वंश कैसे मानक ढाल वंश की तुलना में समय बचा सकता है?
लंबा जवाब:
ध्यान दें, नोटेशन मेरे द्वारा दिए गए लिंक के अनुरूप नहीं है, मुझे लगता है कि इस प्रश्न में मैट्रिक्स नोटेशन बेहतर है।
एक रैखिक प्रतिगमन करने के लिए हम करने की कोशिश कर रहे हैं
minimize ∥Xβ−y∥2
व्युत्पन्न है
2XT(Xβ−y)
0X
Xsys2XTs(Xsβ−ys)β
R2R2
यह कैसे काम करता है इस पर अंतर्ज्ञान (मानचित्रण प्रतिमान):
मैं एक सबसेट का उपयोग करते हुए अनुमान लगाता रहता हूं; इस काम के लिए अंतर्ज्ञान को निम्न उदाहरण में वर्णित किया जा सकता है: मान लीजिए कि मेरे पास 100 बिलियन डेटा बिंदु हैं और हम सभी डेटा बिंदुओं के औसत की गणना करना चाहते हैं। मान लीजिए कि इस तरह के ऑपरेशन का संचालन करने में बहुत लंबा समय लगता है, और आगे कि पूरे डेटा को मेमोरी में संग्रहीत नहीं किया जा सकता है।
हम क्या कर सकते हैं, बस एक सबसेट लेने के लिए, 1 बिलियन आइटम कहें, और इनमें से औसत की गणना करें। इस प्रकार उत्पन्न सन्निकटन सत्य से दूर नहीं होना चाहिए (यानी, संपूर्ण डेटा का उपयोग करके)।
समानांतर करने के लिए, हम 100 कंप्यूटर का उपयोग कर सकते हैं, जिनमें से प्रत्येक 1 बिलियन डेटा बिंदुओं का एक अलग सबसेट ले रहा है और इनमें से औसत की गणना कर रहा है। (आमतौर पर एमएपी कदम के रूप में जाना जाता है)। अंत में, इन 100 नंबरों (उर्फ REDUCE कदम) पर एक और औसत चलाएं।
mean(<x,y>)=mean(x)+mean(y)xy
संदर्भ:
जियानग्रुई मेंग एट अल। (२०१६) है । MLlib: Apache Spark में मशीन लर्निंग