डेटा साइंस

डेटा विज्ञान पेशेवरों, मशीन लर्निंग विशेषज्ञों और क्षेत्र के बारे में अधिक जानने में दिलचस्पी रखने वालों के लिए प्रश्नोत्तर

5
क्या मुझे 'संतुलित' डेटासेट या 'प्रतिनिधि' डेटासेट के लिए जाना चाहिए?
मेरा 'मशीन लर्निंग' कार्य सौम्य इंटरनेट ट्रैफ़िक को दुर्भावनापूर्ण ट्रैफ़िक से अलग करना है। वास्तविक विश्व परिदृश्य में, इंटरनेट ट्रैफ़िक का अधिकांश (90% या अधिक) कहना सौम्य है। इस प्रकार मुझे लगा कि मुझे अपने मॉडलों के प्रशिक्षण के लिए भी इसी तरह का डेटा सेटअप चुनना चाहिए। लेकिन मुझे …

9
(बाइनरी) डेटा की बड़ी मात्रा के संस्करण नियंत्रण से कैसे निपटें
मैं भूभौतिकी का पीएचडी छात्र हूं और बड़ी मात्रा में छवि डेटा (सैकड़ों जीबी, दसियों हजारों फाइलें) के साथ काम करता हूं। मुझे पता है svnऔर gitकाफी अच्छी तरह से और एक परियोजना के इतिहास को महत्व देने के लिए आते हैं, आसानी से एक साथ काम करने की क्षमता …

9
R प्रोग्रामिंग के लिए IDE विकल्प (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)
मैं R प्रोग्रामिंग के लिए RStudio का उपयोग करता हूं। मुझे विज़ुअल स्टूडियो या एक्लिप्स जैसे अन्य टेक्नोलॉजी स्टैक से ठोस आईडीई-एस के बारे में याद है। मेरे दो सवाल हैं: RStudio की तुलना में अन्य IDE-s का क्या उपयोग किया जाता है (कृपया उन पर कुछ संक्षिप्त विवरण प्रदान …
46 r  tools  rstudio  programming 

10
मशीन लर्निंग - तारीख / समय डेटा से इंजीनियरिंग सुविधाएँ
मशीन लर्निंग एप्लिकेशन के लिए समय डेटा को संभालने के लिए सामान्य / सर्वोत्तम अभ्यास क्या हैं? उदाहरण के लिए, यदि डेटा सेट में घटना के टाइमस्टैम्प के साथ एक कॉलम है, जैसे "2014-05-05", तो आप इस कॉलम से उपयोगी सुविधाओं को कैसे निकाल सकते हैं यदि कोई हो? अग्रिम …

9
डेटा साइंटिस्ट का काम कितना डाटा कम करना है?
मैं वर्तमान में एक खुदरा कंपनी में डेटा वैज्ञानिक के रूप में काम कर रहा हूं (डीएस के रूप में मेरी पहली नौकरी है, इसलिए यह प्रश्न मेरे अनुभव की कमी का परिणाम हो सकता है)। उनके पास वास्तव में महत्वपूर्ण डेटा विज्ञान परियोजनाओं का एक बड़ा बैकलॉग है जिसे …

3
एक LSTM मॉडल में मापदंडों की संख्या
सिंगल स्टैक्ड LSTM के कितने पैरामीटर हैं? मापदंडों की संख्या आवश्यक प्रशिक्षण उदाहरणों की संख्या पर कम बाध्य करती है और प्रशिक्षण के समय को भी प्रभावित करती है। इसलिए मापदंडों की संख्या को जानना एलएसटीएम का उपयोग करके प्रशिक्षण मॉडल के लिए उपयोगी है।

4
समय श्रृंखला मॉडल LSTM में सुविधाएँ जोड़ना
LSTM और समय श्रृंखला के लिए उनके उपयोग पर थोड़ा पढ़ रहा है और एक ही समय में दिलचस्प लेकिन मुश्किल है। एक बात जो मुझे समझ में आई है वह यह है कि अतिरिक्त सुविधाओं को जोड़ने के लिए दृष्टिकोण क्या पहले से ही समय श्रृंखला सुविधाओं की सूची …

6
मैं इसे गोपनीय बनाने के लिए सेट किए गए गोपनीय डेटा में नाम कैसे बदल सकता हूं, लेकिन नामों की कुछ विशेषताओं को संरक्षित कर सकता हूं?
प्रेरणा मैं ऐसे डेटासेट के साथ काम करता हूं जिसमें व्यक्तिगत रूप से पहचान योग्य जानकारी (पीआईआई) होती है और कभी-कभी किसी तीसरे पक्ष के साथ एक डेटासेट का हिस्सा साझा करने की आवश्यकता होती है, इस तरह से कि पीआईआई को उजागर नहीं करता है और मेरे नियोक्ता को …

1
LeakyReLU और PReLU में क्या अंतर है?
मुझे लगा कि दोनों, PRLLU और Leaky ReLU f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) हालाँकि, केरस के पास डॉक्स में दोनों कार्य हैं । लीक से हटकर LeakyReLU का स्रोत : return K.relu(inputs, alpha=self.alpha) इसलिए (देखें relu कोड ) …

2
तंत्रिका नेटवर्क के लिए छवियों को कैसे तैयार / संवर्धित करें?
मैं छवि वर्गीकरण के लिए एक तंत्रिका नेटवर्क का उपयोग करना चाहूंगा। मैं पूर्व-प्रशिक्षित कैफनेट के साथ शुरू करूँगा और इसे अपने आवेदन के लिए प्रशिक्षित करूँगा। मुझे इनपुट छवियों को कैसे तैयार करना चाहिए? इस मामले में, सभी चित्र एक ही वस्तु के होते हैं लेकिन विविधताओं के साथ …

6
दूरी मैट्रिक्स के रूप में कोसाइन समानता बनाम डॉट उत्पाद
ऐसा लगता है कि दो विशेषताओं की कोसाइन समानता केवल उनके डॉट उत्पाद को उनके परिमाण के उत्पाद द्वारा बढ़ाया जाता है। कोसाइन समानता कब डॉट उत्पाद की तुलना में बेहतर दूरी मीट्रिक बनाती है? यानी डॉट उत्पाद और कोज़ेन समानता में अलग-अलग स्थितियों में अलग-अलग ताकत या कमजोरियां हैं?

7
ValueError: इनपुट में NaN, अनंत या dtype के लिए बहुत बड़ा मान है ('float32')
रैंडमफॉरस्ट मॉडल का उपयोग करते हुए परीक्षण डेटा की भविष्यवाणी करते समय मुझे वैल्यूआवर मिला। मेरा कोड: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) त्रुटि: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). मुझे परीक्षण डेटासेट में खराब …

10
मशीन लर्निंग मॉडल को ब्लैक बॉक्स क्यों कहा जाता है?
मैं इस ब्लॉग पोस्ट को पढ़ रहा था जिसका शीर्षक था: द फाइनेंशियल वर्ल्ड वॉन्ट्स टू ओपन एआईज़ ब्लैक बॉक्स , जहाँ लेखक बार-बार एमएल मॉडल को "ब्लैक बॉक्स" के रूप में संदर्भित करता है। एमएल मॉडल का जिक्र करते समय कई स्थानों पर एक समान शब्दावली का उपयोग किया …

4
सभी प्रशिक्षण डेटा के साथ मिनी बैच का आकार एक एकल "बैच" से बेहतर क्यों है?
मैं अक्सर पढ़ता हूं कि डीप लर्निंग मॉडल के मामले में सामान्य अभ्यास कई प्रशिक्षण युगों में मिनी बैच (आमतौर पर एक छोटा, 32/64) लागू करना है। मैं वास्तव में इसके पीछे का कारण नहीं समझ सकता। जब तक मैं गलत नहीं हूँ, बैच का आकार एक प्रशिक्षण पुनरावृत्ति के …

11
C (या C ++) में डेटा साइंस
मैं एक Rभाषा प्रोग्रामर हूं । मैं उन लोगों के समूह में भी हूं, जिन्हें डेटा वैज्ञानिक माना जाता है, लेकिन जो सीएस के अलावा अन्य शैक्षणिक विषयों से आते हैं। यह एक डेटा साइंटिस्ट के रूप में मेरी भूमिका में अच्छी तरह से काम करता है, हालांकि, अपना करियर …

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.