डेटा साइंस

डेटा विज्ञान पेशेवरों, मशीन लर्निंग विशेषज्ञों और क्षेत्र के बारे में अधिक जानने में दिलचस्पी रखने वालों के लिए प्रश्नोत्तर

1
टाइमस्टैम्प डेटाटाइप के लिए int का एक पांडा कॉलम बदलें
मेरे पास एक डेटाफ्रेम है जिसमें अन्य चीजों के अलावा, 1970-1-1 के बाद से मिली मिलीसेकंड की संख्या का एक कॉलम शामिल है। मुझे इनस्टेट्स के इन कॉलम को टाइमस्टैम्प डेटा में बदलने की आवश्यकता है, इसलिए मैं आखिरकार इसे टाइमस्टैम्प कॉलम श्रृंखला में एक श्रृंखला में जोड़कर डेटाटाइम के …

5
स्किकिट-रैंडम फॉरेस्ट के साथ फ़ीचर महत्व बहुत उच्च मानक विचलन दर्शाता है
मैं scikit- रैंडम फॉरेस्ट क्लासिफायरियर का उपयोग कर रहा हूं और मैं इस उदाहरण में फीचर महत्व को प्लॉट करना चाहता हूं । हालांकि मेरा परिणाम पूरी तरह से अलग है, इस मायने में कि फीचर महत्व मानक विचलन लगभग हमेशा फीचर महत्व से बड़ा है (संलग्न छवि देखें)। क्या …

1
फजी टोकन के अनुक्रम में एक व्याकरण को पहचानें
मेरे पास टेक्स्ट डॉक्यूमेंट हैं जिनमें मुख्य रूप से आइटम की सूची है। प्रत्येक आइटम विभिन्न प्रकारों से कई टोकन का एक समूह है: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation, आदि। टोकन एक शब्दों का समूह है। आइटम कई लाइनों पर झूठ बोल सकते हैं। दस्तावेज़ के आइटम में समान …

2
गैर-सममितीय लागत फ़ंक्शन के साथ रैखिक प्रतिगमन?
मैं कुछ मूल्य भविष्यवाणी करना चाहता हूं और मैं कुछ भविष्यवाणी प्राप्त करने का प्रयास कर रहा हूं जो कि यथासंभव कम होने के बीच अनुकूलन करता है, लेकिन अभी भी से बड़ा है । दूसरे शब्दों में: Y(x)Y(x)Y(x)Y^(x)Y^(x)\hat Y(x)Y(x)Y(x)Y(x)cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}cost{Y(x)≳Y^(x)}>>cost{Y^(x)≳Y(x)}\text{cost}\left\{ Y(x) \gtrsim \hat Y(x) \right\} >> \text{cost}\left\{ \hat Y(x) \gtrsim …

2
डेटाफ्रेम कॉलम के माध्य की गणना कैसे करें और शीर्ष 10% खोजें
मैं स्काला और स्पार्क के लिए बहुत नया हूं, और बेसबॉल आंकड़ों का उपयोग करके कुछ स्व-निर्मित अभ्यासों पर काम कर रहा हूं। मैं एक केस क्लास का उपयोग कर रहा हूँ, एक RDD बनाएँ और डेटा को एक स्कीमा असाइन करें, और फिर इसे एक DataFrame में बदल रहा …

2
एक क्लासिफायर के लिए आरओसी वक्र की गणना करने के लिए कुशल एल्गोरिथ्म जिसमें असंतुष्ट सहपाठियों का एक समूह शामिल है
मान लीजिए कि मेरे पास क्लासिफायर सी 1 है ... C_n इस मायने में असहमति जताता है कि कोई भी एक ही इनपुट पर सही नहीं लौटेगा (जैसे कि डिसीजन ट्री में नोड्स)। मैं एक नए क्लासिफायर का निर्माण करना चाहता हूं जो कि इनमें से कुछ सबसेट का मिलन …
13 algorithms 

7
मैं एक प्रोग्रामर हूं, मैं डेटा साइंस के क्षेत्र में कैसे पहुंचूं?
सबसे पहले यह शब्द बहुत अस्पष्ट लगता है। वैसे भी..मैं एक सॉफ्टवेयर प्रोग्रामर हूं। मैं जिन भाषाओं को कोड कर सकता हूं उनमें से एक पायथन है। डेटा की बात करें तो मैं एसक्यूएल का उपयोग कर सकता हूं और डेटा स्क्रैपिंग कर सकता हूं। क्या मैं कई लेखों को …
13 beginner  career 

1
फीचर जनरेशन और फीचर एक्सट्रैक्शन में क्या अंतर है?
क्या कोई मुझे बता सकता है कि फीचर जेनरेशन का उद्देश्य क्या है? और छवि को वर्गीकृत करने से पहले फीचर स्पेस संवर्धन की आवश्यकता क्यों है? क्या यह एक आवश्यक कदम है? क्या फीचर स्पेस को समृद्ध करने की कोई विधि है?

1
Neo4j बनाम ओरिएंटडीबी बनाम टाइटन
मैं सामाजिक संबंध खनन से संबंधित डेटा-विज्ञान परियोजना पर काम कर रहा हूं और कुछ ग्राफ़ डेटाबेस में डेटा संग्रहीत करने की आवश्यकता है। शुरू में मैंने Neo4j को डेटाबेस के रूप में चुना। लेकिन यह Neo4j अच्छी तरह से स्केल नहीं करता है। मुझे पता चला वैकल्पिक टाइटन और …

2
गहरी तंत्रिका नेटवर्क प्रशिक्षण की कल्पना करना
मैं प्रशिक्षण के दौरान वेट प्लॉट करने के लिए बहुपरत नेटवर्क के लिए Hinton आरेखों के बराबर खोजने की कोशिश कर रहा हूं। प्रशिक्षित नेटवर्क कुछ हद तक डीप एसआरएन के समान है, अर्थात इसमें कई वेट मैट्रिसेस की अधिक संख्या है जो कई हिंटन आरेखों के एक साथ भूखंड …

1
अधिक एकल निर्णय पेड़ जोड़कर ऑन लाइन यादृच्छिक वन
रैंडम फॉरेस्ट (RF) डिसीजन ट्रीज (DT) के एक पहनावा द्वारा बनाया जाता है। बैगिंग का उपयोग करके, प्रत्येक डीटी को एक अलग डेटा सब्मिट में प्रशिक्षित किया जाता है। इसलिए, नए डेटा पर अधिक निर्णय तनाव को जोड़कर एक ऑन-लाइन यादृच्छिक वन को लागू करने का कोई तरीका है? उदाहरण …

2
एनएलपी में वर्गीकरण प्रक्रिया में पार्स के पेड़ों से आम तौर पर किन विशेषताओं का उपयोग किया जाता है?
मैं विभिन्न प्रकार के पार्स ट्री संरचनाओं की खोज कर रहा हूं। दो व्यापक रूप से ज्ञात पार्स ट्री संरचनाएं हैं एक) संविधान आधारित पार्स ट्री और बी) निर्भरता आधारित पार्स ट्री संरचनाएं। मैं स्टैनफोर्ड एनएलपी पैकेज का उपयोग करके दोनों प्रकार के पार्स ट्री संरचनाओं को उत्पन्न करने में …

4
मशीन लर्निंग एल्गोरिदम का अध्ययन: समझ की गहराई बनाम एल्गोरिदम की संख्या
हाल ही में मुझे डेटा साइंस (इसके 6 महीने लगभग हो गए हैं) के क्षेत्र में पेश किया गया था, और Ii ने एंड्रयू एनजी द्वारा मशीन लर्निंग कोर्स और जेएचयू द्वारा डेटा साइंस स्पेशलाइजेशन पर काम करना शुरू कर दिया था। व्यावहारिक अनुप्रयोग के मोर्चे पर, मैं एक भविष्य …

6
डेटासैट सर्वोत्तम प्रथाओं को समझ रहा है
मैं डाटा माइनिंग में सीएस मास्टर छात्र हूं। मेरे पर्यवेक्षक ने एक बार मुझसे कहा था कि इससे पहले कि मैं कोई क्लासिफायर चलाऊं या किसी डेटासेट के साथ कुछ भी करूं, मुझे डेटा को पूरी तरह से समझना चाहिए और सुनिश्चित करना चाहिए कि डेटा साफ और सही है। …

1
जब एक रिलेशनल डेटाबेस में बिना रिलेशनल के बेहतर प्रदर्शन होता है
जब MySQL की तरह एक रिलेशनल डेटाबेस, MongoDB की तरह कोई रिलेशनल से बेहतर प्रदर्शन करता है? मैंने दूसरे दिन Quora पर एक प्रश्न देखा, कि क्यों Quora अभी भी MySQL को अपने बैकएंड के रूप में उपयोग करता है, और यह कि उनका प्रदर्शन अभी भी अच्छा है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.