डेटा साइंस

डेटा विज्ञान पेशेवरों, मशीन लर्निंग विशेषज्ञों और क्षेत्र के बारे में अधिक जानने में दिलचस्पी रखने वालों के लिए प्रश्नोत्तर

2
क्या सपोर्ट वेक्टर मशीन को अभी भी उनके आला में "कला की स्थिति" माना जाता है?
यह सवाल एक टिप्पणी के जवाब में है जो मैंने दूसरे प्रश्न पर देखा था। कौरसेरा पर मशीन लर्निंग कोर्स पाठ्यक्रम के बारे में टिप्पणी थी, और "एसवीएम का उपयोग आजकल इतना नहीं किया जाता है" की तर्ज पर किया गया था। मैंने केवल प्रासंगिक व्याख्यान खुद ही समाप्त कर …

11
आयामीता में कमी क्या है? फीचर चयन और निष्कर्षण के बीच अंतर क्या है?
विकिपीडिया से, आयाम में कमी या आयाम में कमी विचाराधीन यादृच्छिक चर की संख्या को कम करने की प्रक्रिया है, और इसे फीचर चयन और सुविधा निष्कर्षण में विभाजित किया जा सकता है। सुविधा चयन और सुविधा निष्कर्षण के बीच अंतर क्या है? एक प्राकृतिक भाषा प्रसंस्करण कार्य में आयामी …

5
जब एक मॉडल को कम कर दिया जाता है?
लॉजिक अक्सर बताता है कि किसी मॉडल को कम करके, इसे सामान्य करने की क्षमता बढ़ जाती है। कहा कि, स्पष्ट रूप से एक मॉडल के कारण कुछ बिंदु पर डेटा की जटिलता की परवाह किए बिना मॉडल खराब हो जाते हैं। जब आपके मॉडल ने सही संतुलन बिगाड़ लिया …

4
कैसे 1x1 संकल्प पूरी तरह से जुड़े परत के समान हैं?
मैंने हाल ही में 1x1 संकल्पों पर यान लेकुंस टिप्पणी पढ़ी है : संवेदी नेट में, "पूरी तरह से जुड़ी हुई परतें" जैसी कोई चीज नहीं है। 1x1 दृढ़ संकल्प गुठली और एक पूर्ण कनेक्शन तालिका के साथ केवल कन्वेंशन परतें हैं। यह एक बहुत ही दुर्लभ तथ्य है कि …

8
डेटा वैज्ञानिक नौकरी के लिए इंटरनेट कंपनियां जावा / पायथन को क्यों पसंद करती हैं?
मैं कई बार डेटा साइंटिस्ट के लिए नौकरी के विवरण में पायथन / जावा के अनुभव और आर की उपेक्षा के बारे में बताता हूं। नीचे एक व्यक्तिगत ईमेल है जिसे मैंने एक कंपनी के मुख्य डेटा वैज्ञानिक से प्राप्त किया है जिसे मैंने लिंक्डिन के माध्यम से आवेदन किया …

3
उच्च स्तर पर आरएनएन बनाम सीएनएन
मैं आवर्तक तंत्रिका नेटवर्क (RNN) और उनकी किस्मों और रूपांतरण तंत्रिका नेटवर्क (CNN) और उनकी किस्मों के बारे में सोच रहा हूं। क्या ये दो बिंदु कहना उचित होगा: एक घटक (जैसे छवि के रूप में) को तोड़ने के लिए CNNs का उपयोग करें। (जैसे छवि में कोई वस्तु, जैसे …

2
कब उपयोग करना है (वह या ग्लोरोट) एक समान इनिट पर सामान्य इनिशियलाइज़ेशन? और बैच सामान्यीकरण के साथ इसके प्रभाव क्या हैं?
मुझे पता था कि अवशिष्ट नेटवर्क (ResNet) ने उन्हें सामान्य आरंभीकरण को लोकप्रिय बना दिया था। ResNet में, वह सामान्य इनिशियलाइज़ेशन का उपयोग करता है , जबकि पहली परत He यूनिफॉर्म इनिशियलाइज़ेशन का उपयोग करती है। मैंने ResNet पेपर और "डिलीटिंग डीप इन रेक्टिफायर्स" पेपर (उन्होंने इनिशियलाइज़ेशन पेपर) के माध्यम …

8
क्लस्टरिंग भू स्थान निर्देशांक (लट, लंबे जोड़े)
जियोलोकेशन क्लस्टरिंग के लिए सही दृष्टिकोण और क्लस्टरिंग एल्गोरिदम क्या है? मैं क्लस्टर जियोलोकेशन निर्देशांक के लिए निम्न कोड का उपयोग कर रहा हूं: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = …

9
पायथन का उपयोग कर प्रतिलिपि प्रस्तुत करने योग्य डेटा विज्ञान के लिए उपकरण और प्रोटोकॉल
मैं पायथन का उपयोग कर एक डेटा विज्ञान परियोजना पर काम कर रहा हूं। परियोजना के कई चरण हैं। प्रत्येक चरण में पायथन लिपियों, सहायक डेटा, कॉन्फ़िगरेशन और मापदंडों का उपयोग करके और एक अन्य डेटा सेट बनाने के लिए डेटा सेट लेना शामिल है। मैं कोड को git में …

3
गहरे तंत्रिका जाल में कैसे लड़ना है
जब मैंने कृत्रिम तंत्रिका नेटवर्क (एनएन) के साथ शुरुआत की, तो मुझे लगा कि मुझे मुख्य समस्या के रूप में ओवरफिटिंग से लड़ना होगा। लेकिन व्यवहार में मैं अपना NN 20% त्रुटि दर अवरोध को पास करने के लिए भी नहीं कर सकता। मैं भी यादृच्छिक जंगल पर अपने स्कोर …

4
अव्यक्त डिरिचलेट आवंटन बनाम पदानुक्रमित डिरिचलेट प्रक्रिया
अव्यक्त डिरिचलेट आवंटन (LDA) और पदानुक्रमित डिरिचलेट प्रक्रिया (HDP) दोनों विषय मॉडलिंग प्रक्रियाएं हैं। प्रमुख अंतर एलडीए को विषयों की संख्या के विनिर्देश की आवश्यकता है, और एचडीपी नहीं है। ऐसा क्यों हैं? और दोनों विषय मॉडलिंग विधियों के अंतर, पेशेवरों और विपक्ष क्या हैं?
49 nlp  topic-model  lda 

8
क्यों मशीन सीखने में खराब है?
तर्क अक्सर कहता है कि एक मॉडल को ओवरफिट करने से, इसकी सामान्यीकरण करने की क्षमता सीमित होती है, हालांकि इसका मतलब केवल यह हो सकता है कि ओवरफिटिंग एक मॉडल को एक निश्चित जटिलता के बाद सुधारने से रोकता है। क्या ओवरफिटिंग के कारण डेटा की जटिलता की परवाह …

4
तंत्रिका नेटवर्क: किस लागत का उपयोग करना है?
मैं मुख्य रूप से तंत्रिका नेटवर्क के साथ प्रयोगों के लिए TensorFlow का उपयोग कर रहा हूं । हालाँकि मैंने अभी कुछ प्रयोग किए हैं (XOR- प्रॉब्लम, MNIST, कुछ रिग्रेशन स्टफ, ...) अब, मैं विशिष्ट समस्याओं के लिए "सही" लागत फ़ंक्शन चुनने के साथ संघर्ष करता हूं क्योंकि कुल मिलाकर …

9
क्या कोई डोमेन है जहां बेयसियन नेटवर्क तंत्रिका नेटवर्क से बेहतर प्रदर्शन करता है?
कंप्यूटर विज़न कार्यों में तंत्रिका नेटवर्क को शीर्ष परिणाम मिलते हैं ( MNIST , ILSVRC , कागल गैलेक्सी चैलेंज देखें )। वे कंप्यूटर विजन में हर दूसरे दृष्टिकोण से बेहतर प्रदर्शन करते हैं। लेकिन अन्य कार्य भी हैं: कागल आणविक गतिविधि चुनौती रिग्रेशन: कागल रेन प्रेडिक्शन , दूसरा स्थान भी …

9
क्या R भाषा बिग डेटा के लिए उपयुक्त है
R में कई पुस्तकालय हैं जो डेटा विश्लेषण (जैसे JAGS, BUGS, ARULES आदि) के उद्देश्य से हैं, और लोकप्रिय पाठ्यपुस्तकों में इसका उल्लेख किया गया है जैसे: J.Krusche, Doing Bayesian Data Analysis; बी। लैंट्ज़, "मशीन लर्निंग विथ आर"। मैंने एक डेटासेट के लिए 5TB की एक दिशानिर्देश देखा है जिसे …
48 bigdata  r 

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.