डेटा साइंस

डेटा विज्ञान पेशेवरों, मशीन लर्निंग विशेषज्ञों और क्षेत्र के बारे में अधिक जानने में दिलचस्पी रखने वालों के लिए प्रश्नोत्तर

3
क्या रैंडम फ़ॉरेस्ट के साथ मॉडलिंग को क्रॉस-मान्यता की आवश्यकता है?
जहाँ तक मैंने देखा है, इस बारे में राय अलग-अलग है। सबसे अच्छा अभ्यास निश्चित रूप से क्रॉस-वैलिडेशन का उपयोग करके निर्देशित करेगा (विशेषकर यदि एक ही डेटासेट पर अन्य एल्गोरिदम के साथ आरएफ की तुलना करें)। दूसरी ओर, मूल स्रोत बताता है कि मॉडल प्रशिक्षण के दौरान ओओबी त्रुटि …

3
डेटा विज्ञान परियोजना के विचार [बंद]
बंद हो गया । यह सवाल राय आधारित है । यह वर्तमान में उत्तर स्वीकार नहीं कर रहा है। इस सवाल में सुधार करना चाहते हैं? प्रश्न को अपडेट करें ताकि इस पोस्ट को संपादित करके तथ्यों और उद्धरणों के साथ उत्तर दिया जा सके । 5 साल पहले बंद …

4
क्या क्लस्टरिंग से पहले अपने डेटा को मानकीकृत करना आवश्यक है?
क्या क्लस्टर से पहले अपने डेटा को मानकीकृत करना आवश्यक है? scikit learnDBSCAN के बारे में उदाहरण में, यहाँ वे इस पंक्ति में करते हैं: X = StandardScaler().fit_transform(X) लेकिन मुझे समझ नहीं आता कि यह क्यों जरूरी है। आखिरकार, क्लस्टरिंग डेटा के किसी विशेष वितरण को ग्रहण नहीं करता है …

3
K- साधन कोहनी, बीआईसी, विचरण समझाया और सिल्हूट के साथ कश्मीर का चयन करने वाला असंगत व्यवहार
मैं K- साधनों के साथ 90 विशेषताओं के साथ कुछ वैक्टरों को क्लस्टर करने की कोशिश कर रहा हूं। चूंकि यह एल्गोरिथ्म मुझसे क्लस्टर की संख्या पूछता है, मैं अपनी पसंद को कुछ अच्छे गणित के साथ सत्यापित करना चाहता हूं। मैं 8 से 10 समूहों से होने की उम्मीद …

7
उच्च आयामी डेटा को देखने का उद्देश्य?
उच्च आयाम डेटासेट की कल्पना करने के लिए कई तकनीकें हैं, जैसे कि टी-एसएनई, आइसोमैप, पीसीए, पर्यवेक्षित पीसीए, आदि। और हम डेटा को 2 डी या 3 डी स्थान पर प्रोजेक्ट करने की गतियों से गुजरते हैं, इसलिए हमारे पास "सुंदर चित्र" हैं। "। इनमें से कुछ एम्बेडिंग (कई गुना …

5
मैं विभिन्न डेटा फ़्रेमों में कॉलम की तुलना कैसे करूं?
मैं अन्य df के साथ df के एक कॉलम की तुलना करना चाहूंगा। कॉलम नाम और अंतिम नाम हैं। मैं जांचना चाहूंगा कि क्या एक डेटा फ्रेम में एक व्यक्ति दूसरे में है।
23 pandas  dataframe 

6
महीने और घंटे जैसी सुविधाओं को एन्कोडिंग या संख्यात्मक के रूप में एन्कोडिंग?
मशीन लर्निंग मॉडल में कारक या संख्यात्मक के रूप में महीने और घंटे जैसी सुविधाओं को एनकोड करना बेहतर है? एक ओर, मुझे लगता है कि संख्यात्मक एन्कोडिंग उचित हो सकती है, क्योंकि समय एक आगे बढ़ने की प्रक्रिया है (पांचवें महीने के बाद छठे महीने), लेकिन दूसरी तरफ मुझे …

4
क्या XGBoost मल्टीकोलिनरिटी को खुद से संभालता है?
मैं वर्तमान में 21 सुविधाओं (कुछ 150 सुविधाओं की सूची में से चयनित) के साथ डेटा-सेट पर XGBoost का उपयोग कर रहा हूं, फिर ~ 98 सुविधाओं को प्राप्त करने के लिए एक-हॉट ने उन्हें कोडित किया। इन 98 में से कुछ विशेषताएं कुछ हद तक बेमानी हैं, उदाहरण के …

2
ग्रिडसर्च के आउटपुट का उपयोग कैसे करें?
मैं वर्तमान में वर्गीकरण उद्देश्यों के लिए पायथन और स्किकिट के साथ काम कर रहा हूं, और ग्रिडसर्च के आसपास कुछ पठन कर रहा हूं मैंने सोचा कि यह सबसे अच्छा परिणाम प्राप्त करने के लिए मेरे अनुमानक मापदंडों को अनुकूलित करने का एक शानदार तरीका था। मेरी कार्यप्रणाली यह …

2
वास्तव में सुदृढीकरण सीखने में बूटस्ट्रैपिंग क्या है?
स्पष्ट रूप से, सुदृढीकरण सीखने में, अस्थायी-अंतर (टीडी) विधि एक बूटस्ट्रैपिंग विधि है। दूसरी ओर, मोंटे कार्लो तरीके बूटस्ट्रैपिंग तरीके नहीं हैं। वास्तव में आरएल में बूटस्ट्रैपिंग क्या है? RL में बूटस्ट्रैपिंग विधि क्या है?

3
इनपुट डेटा पर फ़ीचर परिवर्तन
मैं इस ओटीटीओ कागले चुनौती के समाधान के बारे में पढ़ रहा था और पहला स्थान समाधान इनपुट डेटा एक्स के लिए कई परिवर्तनों का उपयोग करने के लिए लगता है, उदाहरण के लिए लॉग (X + 1), sqrt (X + 3/8), आदि। सामान्य दिशानिर्देश कब, किस तरह के विभिन्न …

3
संभावना अनुमान का उपयोग करते हुए श्रेणीबद्ध चर एन्कोडिंग
मैं यह समझने की कोशिश कर रहा हूं कि कैसे मैं संभावना अनुमान का उपयोग करके श्रेणीबद्ध चर को सांकेतिक शब्दों में बदलना कर सकता हूं, लेकिन अभी तक बहुत कम सफलता मिली है। किसी भी सुझाव के लिए बहुत आभार होगा।

6
एक टीम के भीतर जयुपर नोटबुक साझा करना
मैं एक सर्वर स्थापित करना चाहूंगा जो निम्नलिखित तरीके से एक डेटा साइंस टीम का समर्थन कर सकता है: स्टोरिंग, वर्जनिंग, शेयरिंग और संभव के लिए भी जुपाइटर नोटबुक निष्पादित करना एक केंद्रीय बिंदु हो। कुछ वांछित गुण: विभिन्न उपयोगकर्ता सर्वर तक पहुंच सकते हैं और उन नोटबुक को खोल …

5
पायथन में केएल डाइवर्जेंस की गणना
मैं इसके लिए नया हूँ और यह नहीं कह सकता कि मुझे इसके पीछे सैद्धांतिक अवधारणाओं की पूरी समझ है। मैं पायथन में कई सूचियों के बीच केएल डाइवर्जेंस की गणना करने की कोशिश कर रहा हूं। मैं यह प्रयास करने और करने के लिए http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html का उपयोग कर रहा …

6
दीप सीखना मूल बातें
मैं एक पेपर की तलाश कर रहा हूं जो गहन शिक्षा के मूल सिद्धांतों का विवरण दे। आदर्श रूप से गहन शिक्षा के लिए एंड्रयू एनजी पाठ्यक्रम। क्या आप जानते हैं कि मुझे यह कहां मिल सकता है?

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.