डेटा वैज्ञानिक नौकरी के लिए इंटरनेट कंपनियां जावा / पायथन को क्यों पसंद करती हैं?


53

मैं कई बार डेटा साइंटिस्ट के लिए नौकरी के विवरण में पायथन / जावा के अनुभव और आर की उपेक्षा के बारे में बताता हूं। नीचे एक व्यक्तिगत ईमेल है जिसे मैंने एक कंपनी के मुख्य डेटा वैज्ञानिक से प्राप्त किया है जिसे मैंने लिंक्डिन के माध्यम से आवेदन किया था।

एक्स, कनेक्ट करने और रुचि व्यक्त करने के लिए धन्यवाद। आपके पास अच्छे Analytics कौशल हैं। हालांकि, हमारे सभी डेटा वैज्ञानिकों के पास जावा / पायथन में अच्छी प्रोग्रामिंग कौशल होना चाहिए क्योंकि हम एक इंटरनेट / मोबाइल संगठन हैं और हम जो कुछ भी करते हैं वह ऑनलाइन है।

जब मैं मुख्य डेटा वैज्ञानिक के फैसले का सम्मान करता हूं, तो मुझे स्पष्ट तस्वीर नहीं मिल पा रही है कि वे कौन से कार्य हैं जो पायथन कर सकते हैं कि आर नहीं कर सकते हैं। क्या कोई विस्तृत देखभाल कर सकता है? मैं वास्तव में अजगर / जावा सीखने के लिए उत्सुक हूं, बशर्ते मुझे थोड़ा और विस्तार मिले।

संपादित करें: मुझे Quora पर एक दिलचस्प चर्चा मिली। पाइथन डेटा वैज्ञानिकों की पसंद की भाषा क्यों है?

Edit2: मशीन लर्निंग के लिए भाषाओं और पुस्तकालयों पर उपयोगिता से ब्लॉग


8
पायथन एक अच्छा समझौता है: यह डेटासाइंस (पांडा, स्किटिट, ...) के लिए कई (गैर-मानक) पुस्तकालय प्रदान करता है और कई औद्योगिक प्रक्रिया पहले से ही अजगर में कोडित हैं।
मनु H

4
"हमारे डेटा वैज्ञानिकों के पास जावा / पायथन में अच्छी प्रोग्रामिंग कौशल होना चाहिए क्योंकि हम एक इंटरनेट / मोबाइल संगठन हैं और हम जो कुछ भी करते हैं वह ऑनलाइन है" एक बड़े पैमाने पर गैर-अनुक्रमिक है - निष्कर्ष का पालन नहीं होता है। मुझे संदेह है कि सीडीएस आपसे छुटकारा पाने की कोशिश कर रहा है।
10

5
@ManuH यदि "अमानक," से आपका मतलब है, "मानक पुस्तकालय में नहीं," आप सही हैं। लेकिन उन उपकरणों को बहुत व्यापक प्रसार का उपयोग मिलता है, और वे निश्चित रूप से भाषा के स्टेपल हैं। numpy में वर्तमान में SO पर 100k से अधिक प्रश्न हैं, पांडा का 74k है। मुझे लगता है कि आप निश्चित रूप से एक मामला बना सकते हैं कि वे उद्योग के मानक हैं । (कम से कम सॉफ्टवेयर विकास पक्ष पर। मैं शायद ही खुद को "डेटा वैज्ञानिक"
कहूंगा

2
"डेटा साइंटिस्ट" अच्छी तरह से परिभाषित शब्द नहीं है। डेटा साइंटिस्ट मूल रूप से कोई है जो डेटा के साथ उपयोगी चीजें कर सकता है। उन्हें मशीन सीखने या सांख्यिकीय पैकेज का उपयोग करने की आवश्यकता नहीं है। कोई व्यक्ति जावा / स्काला / स्पार्क / जो कुछ भी बड़ी मात्रा में डेटा का प्रबंधन करने और किसी भी मशीन सीखने के बिना उपयोगी अंतर्दृष्टि प्राप्त करने के लिए उपयोग कर सकता है।
अकवाल २०'१६

2
@ jpmc26 हां, मेरा यही मतलब था। अब मुझे एहसास हुआ है कि यहां तक ​​कि पुस्तकालय जो अभी तक उद्योग के मानकों तक नहीं पहुंचे हैं, उनका उल्लेख किया जा सकता है (अजगर के लिए एक और तर्क)
मनु एच

जवाबों:


67

तो आप बाकी कोड आधार के साथ एकीकृत कर सकते हैं। ऐसा लगता है कि आपकी कंपनी जावा और अजगर के मिश्रण का उपयोग करती है। यदि साइट के एक छोटे से कोने में मशीन लर्निंग की जरूरत है तो आप क्या करने जा रहे हैं; डेटाबेस, या कैश, ड्रॉप टू आर, और इसी तरह से डेटा पास करें? सिर्फ एक ही भाषा में यह सब क्यों नहीं? यह तेज़, क्लीनर और बनाए रखने में आसान है।

किसी भी ऑनलाइन कंपनियों को जानें जो केवल R पर चलती हैं? न ही मैं...

सभी ने कहा कि जावा अंतिम भाषा है जिसमें मैं डेटा साइंस करूंगा।


1
मैं एक सेवा-उन्मुख वास्तुकला के बारे में कहने वाला था जो पुल प्रौद्योगिकियों को भी मदद करता है। पीएमएमएल थोड़ा उद्यमी है; मैंने इसका इस्तेमाल नहीं किया है, लेकिन आपकी एक जावा शॉप, मदर एंटरप्राइज भाषाएँ हैं, इसलिए आप कभी नहीं जानते ...
Emre

3
@ एंथेरियन यह मत भूलो कि आप आरपी को आरवाई 2 (उदाहरण के लिए) का उपयोग करके अजगर के नीचे चला सकते हैं ताकि आप (जैसे कि मैंने पिछली नौकरी में किया था) पायथन के माध्यम से आर में लिखे गए मॉडल चलाएं ताकि उन्हें वेब इंटरफ़ेस के माध्यम से प्रस्तुत किया जा सके django के माध्यम से।
एमडी-टेक

2
हमने मॉडल को सादे पाठ में बनाया है .r फाइलें जिन्हें आर इंटरप्रेटर में लोड किया गया था परीक्षण करने के लिए (और भवन को सुविधाजनक बनाने के लिए)। जब भी इसका निर्माण और परीक्षण किया गया, हमने एक खंड django परियोजना का निर्माण किया, जिसमें RPy2 का उल्लेख किया गया था और RPy2 वस्तुओं का निर्माण किया। इन वस्तुओं का उपयोग तब आर फ़ाइलों को उसी तरह से लोड करने के लिए किया जाता था जैसे आप उन्हें दुभाषिया में लोड करेंगे ताकि हम मॉडल को लपेटने वाले कार्यों तक पहुंच सकें। हम तब डेटाबेस से आर तक अजगर के माध्यम से डेटा पास कर सकते थे। अजगर की परत ने हमें django और डेटाबेस आदि पर नियंत्रण के साथ वेब फ्रंटेंड दिया।
MD-Tech

1
@ एंथिरियन मॉडल के परिणाम आरपी 2 के भीतर आर द्वारा वापस कर दिए गए थे और विभिन्न छोरों में सामने के छोर पर प्रस्तुत किए गए थे, जिनमें ज्यादातर ग्राफ़ थे।
एमडी-टेक

2
@ एंथिरियन यह वित्त के लिए एक बायेसियन नेटवर्क था लेकिन मैं इससे ज्यादा नहीं कह सकता। मॉडल सीधे आर। में लिखा गया था। बस सादा पाठ; जब भी मुझे जरूरत हो, मैं इसे विम में संपादित कर रहा था और आरपी 2 वस्तुओं पर स्रोत ("our_code.r") का उपयोग करके आर कोड को पाठ के रूप में आर कोड लोड करके इसे "तैनात" किया गया था। यह इस तरह से किया गया था ताकि हम मॉडल को संपादित कर सकें। यह इस सवाल का जवाब नहीं है; इसका एक उत्तर जो पूछा नहीं गया है;)
MD-Tech

24

इसके कई कारण हो सकते हैं जैसे:

  1. कार्यबल लचीलापन: एक जावा / पायथन प्रोग्रामर को अन्य कार्यों या परियोजनाओं में आसानी से ले जाया जा सकता है।

  2. उम्मीदवारों की उपलब्धता: जावा / पायथन प्रोग्रामर के बहुत सारे हैं। आप एक नई प्रोग्रामिंग भाषा का परिचय नहीं देना चाहते हैं ताकि बाद में पता चले कि कोई योग्य कर्मचारी नहीं हैं या वे बहुत महंगे हैं।

  3. एकीकरण और ईटीएल: कभी-कभी सही गुणवत्ता के साथ डेटा प्राप्त करना परियोजना का सबसे कठिन हिस्सा है। इसलिए बाकी प्रणालियों के समान भाषा का उपयोग करना स्वाभाविक है।

  4. बिजनेस मॉडल की परिभाषा: ज्यादातर व्यावसायिक नियम और बिजनेस मॉडल पहले से ही इस भाषा में लिखे गए हैं।

  5. बस चीजों को सरल रखते हुए। तकनीकों के साथ अप-टू-डेट होना पहले से ही काफी कठिन है। भाषा का एक विविध आधार अराजक हो सकता है। इसके लिए आर, उस के लिए रूबी, स्काला, क्लोजर, एफ #, स्विफ्ट, डार्ट ... उन्हें अलग-अलग सर्वर, अलग-अलग रास्ते, प्रशासन करने के लिए एक नरक की आवश्यकता हो सकती है। सभी के पास टूल और प्लगइन्स के साथ अपनी आईडीई है (हमेशा मुफ्त नहीं)। भाषाओं की पसंद और नई तकनीकों के बारे में अंकल बॉब के कुछ बिंदु देखें

यहां तक ​​कि अगर आपके पास विशिष्ट कार्य के लिए R का उपयोग करते हुए 5% - 15% उत्पादकता लाभ है, तो वे एक ऐसे उपकरण को पसंद कर सकते हैं जो काम करता है भले ही सबसे कुशल तरीके से न हो।


हालांकि यह सच है, उपरोक्त में से कोई भी वास्तव में सवाल का जवाब नहीं देता है। डेटाबेस प्राप्त करना या .csvफ़ाइलों को पढ़ने के लिए डेटा प्राप्त करना कई बार 99% कम हो जाता है - जिसका उद्देश्य आर वास्तव में बाजार पर सबसे उपयुक्त उपकरण है। उम्मीदवारों की उपलब्धता: कि आर प्रोग्रामर की तुलना में अधिक जावा प्रोग्रामर हैं इसका मतलब यह नहीं है कि यदि आपके पास एक आर उम्मीदवार को छोड़ना है। यह वास्तव में कोई फर्क नहीं पड़ता कि वैज्ञानिक अपने अभ्यासों को तब तक कैसे करते हैं जब तक कि वे पठनीय कोड को तैनात करते हैं जो कुछ सर्वरों द्वारा चलाया जा सकता है (या किसी अन्य चीज जो कंपनी चला रही है)।
14

बेशक आपको उम्मीदवार को त्यागना नहीं चाहिए। उपकरण की तुलना में व्यक्ति बहुत अधिक महत्वपूर्ण है। उनकी टीम आर सीख सकती है और उम्मीदवार जावा / पायथन सीख सकते हैं। लेकिन इसमें समय लगेगा जिसका अर्थ है पैसा।
बोरबिज

मैं निश्चित रूप से इस बात से असहमत हूं कि यह भाषा को बुरा नहीं मानता। जब टीम का एकमात्र सदस्य जो आर जानता है कि कोई छुट्टियां नहीं हैं और उन्हें परिवर्तन करने की आवश्यकता है तो बॉस खुश नहीं होंगे। या बस टीम से पूछें "ओह महान, हमें सिर्फ एक नई भाषा सीखने की जरूरत है क्योंकि नया इस तरह से चीजें करता है"। हो सकता है कि सर्वर प्रशासन एक और विभाग है और नए प्रकार के सर्वर को कुछ नए विश्लेषण, प्रक्रियाओं, आदि की आवश्यकता हो सकती है। हो सकता है कि आपको एक नई भाषा का उपयोग करने के लिए आईटी सुरक्षा से हरी बत्ती की आवश्यकता हो।
बोरबिज

@GennaroTedesco उम्मीदवार द्वारा लिखे गए कोड को अन्य प्रोग्रामरों द्वारा बनाए रखा जाना चाहिए , जबकि एक साथ काम करना और कुछ भविष्य में भी जब मूल लेखक आगे बढ़ेगा। एक उम्मीदवार के लिए पर्याप्त नहीं है कि वह किसी तकनीक को अच्छी तरह से जानता है, यह विचार करना अभी भी महत्वपूर्ण है कि किसी अन्य उम्मीदवार को नियुक्त करना कितना आसान होगा जो तकनीक को अच्छी तरह से जानता है जब आपको एक की आवश्यकता होगी। बेशक, आला तकनीक का एक नया टुकड़ा पेश किया जा सकता है अगर वहाँ एक अच्छा कारण है, लेकिन कुछ व्यावसायिक जोखिमों को दूर करने के लिए एक अच्छा कारण होने की आवश्यकता है।
पीटरिस

आर का उपयोग करके आपके पास $ x उत्पादकता में सुधार हो सकता है, लेकिन अगर उन्हें अपने वर्कफ़्लो में बदलाव के लिए $ 2x का प्रयास करना पड़े तो यह कोई मदद नहीं है। वे ऐसा क्यों करेंगे, खासकर यदि वे किसी और को किराए पर ले सकते हैं जो उन्हें $ 2x खर्च नहीं कर सकते हैं ?
user1908704

14

यह सामान्य रूप से सही है कि विशुद्ध रूप से डेटा विज्ञान और सांख्यिकी अभ्यासों के लिए R सबसे अच्छा और सबसे तेज़ (विशेषकर यदि data.tableपैकेज का उपयोग करते हुए ) औज़ार और तरीके प्रदान करता है, जो अन्यथा पायथन में लागू करने के लिए भारी होगा (मुझे लगता है कि हम सभी पंडों का मतलब पंडों से हैं, हालाँकि )। अधिकांश डेटा वैज्ञानिक वास्तव में आर का उपयोग अपने मॉडल और गणना करने के लिए करते हैं, या केवल यह देखने के लिए कि डेटा कैसे व्यवहार करता है।

एक बार अभ्यास पूरा हो जाने के बाद इसे बाकी लोगों के लिए उपलब्ध कराने का समय है, जिन्हें इसका उपयोग करना है (यानी तैनात करने के लिए); इस उद्देश्य के लिए यह दो मुख्य कारणों के लिए पायथन में कोड जमा करना पसंद है:

  1. अधिकांश आर्किटेक्चर पाइथन में लिखे गए हैं या पाइथन के अनुकूल हैं, इसलिए उन भाषाओं में मूल रूप से लिखे गए मॉडल को लागू करना आसान होगा।
  2. वाक्य रचना और व्याकरण अत्यंत जटिल है। मैं खुद को आर के अलावा किसी अन्य चीज़ का दृढ़ता से समर्थन करता हूं, लेकिन यह स्वीकार करना होगा कि वाक्यविन्यास वास्तव में सीधा नहीं है और इसमें बहुत अधिक सीखने वाला वक्र है।

उपरोक्त ने कहा, यह अभी भी सच है कि कोई भी आर कोड को आसानी से किसी भी अन्य भाषा में अनुवाद कर सकता है, बशर्ते विधियां, पुस्तकालय और पैकेज उपलब्ध हों (उनमें से अधिकांश पायथन में हैं, ताकि कोई समस्या न हो)। इन्फ्रास्ट्रक्चर और डेटाबेस के बहुत से अंतर्निहित आर कोड का समर्थन करते हैं, इसलिए पोर्टेबिलिटी वास्तव में एक समस्या नहीं है, खासकर अगर किसी को केवल गणनाओं के परिणामों को प्रस्तुत करना है (उस विस्तार तक, कोई भी वास्तव में अंतर्निहित कोड को नहीं देखता है)।

जावा स्वयं शुद्ध डेटा विज्ञान के लिए लगभग किसी काम का नहीं है (हालाँकि स्टैनफोर्ड यूनिवर्सिटी के पास जावा में लिखित मशीन लर्निंग एनएलपी लाइब्रेरी का एक संग्रह है, जहाँ तक मुझे याद है - लेकिन कृपया जाँच करें)। इसका एकमात्र कारण यह हो सकता है कि बस इतना ही है कि कंपनी के बाकी बड़े विस्तारक इसका उपयोग करते हैं और वे इसे कुछ नए से बदलना नहीं चाहते हैं।


अपना नजरिया और अनुभव साझा करने के लिए धन्यवाद !! यह मददगार है। अपने दूसरे अंतिम पैराग्राफ से, मैं मानता हूँ कि आप डरावनी सीख रहे हैं? या आप आरपी का मतलब था? विस्तृत करने के लिए परवाह?
उत्साही

1
मेरा सीधा सा मतलब है कि आप जो कुछ भी आर में कर रहे हैं, वहाँ सबसे अधिक संभावना एक समान पायथन पैकेज की है जो समान काम करता है। पंडों ने सबसे अधिक चीजें data.tableप्रदान की हैं; scikit-learn, जैसा कि आपने उल्लेख किया है, एक और उदाहरण है, लेकिन हाथ में मामले के अनुसार कई और भी हैं।
gent

1
वास्तव में मैं क्या करता हूं। आर में अनुसंधान, एक बार समाप्त होने के बाद, कोडबेस में एकीकृत करने के लिए अजगर का अनुवाद करें। लेकिन @ एंथेरियन आप उस कंपनी में वही कर सकते हैं जो उसकी संस्कृति पर निर्भर करता है। अधिकांश लोग प्रोग्रामिंग भाषा का उपयोग करते हैं जो उनके मालिक उपयोग करते हैं। और अजगर सीखना मुश्किल नहीं है।
jf328

1
@GennaroTedesco: "मेरा सीधा सा मतलब है कि आप जो कुछ भी आर में कर रहे हैं, सबसे अधिक संभावना एक समान पायथन पैकेज की है जो समान काम करता है"। मैं वास्तव में इस कथन से बहुत असहमत हूं। R के साथ सबसे बड़ा लाभ यह है कि 90% सांख्यिकीविद् पायथन के बजाय R में अपना नवीनतम और "सबसे बड़ा" प्रकाशित करते हैं। यदि ये विधियाँ पकड़ लेती हैं, तो वे अंततः पायथन के लिए अपना रास्ता बना सकते हैं। लेकिन यह भी पायथन के लिए एक प्लस है; वहाँ बहुत सारे आर आँकड़े पैकेज हैं जो सिर्फ कचरा हैं, जबकि मुझे लगता है कि पायथन स्टैटिस्टिक्स पैकेज में कोशिश की गई और सही तरीके होने की अधिक संभावना है।
क्लिफ एबी

"आर सिंटैक्स और व्याकरण अत्यंत जटिल है। मैं खुद को आर के अलावा किसी अन्य चीज़ का दृढ़ता से समर्थन करता हूं, लेकिन यह स्वीकार करना होगा कि सिंटैक्स वास्तव में सीधा नहीं है और इसमें बहुत ही सीखने वाला वक्र है।" ये दोनों ही राय हैं, लेकिन एक को एक वस्तुनिष्ठ कथन के रूप में तैयार किया जाता है और दूसरा इसका विरोध करता है। मैं चकरा गया। मुझे यह भी लगता है कि पायथन का वाक्यविन्यास और मुहावरे अधिक जटिल हैं (OOP जोर, एक के लिए), इसलिए मैं इस उत्तर से दोगुना भ्रमित हूं।
उज्ज्वल सितारा

7

मैंने "डेटा इंजीनियर" प्रकार की भूमिकाओं के लिए डेटा साइंटिस्ट का उपयोग करते हुए काफी कुछ कंपनियों को देखा है। विशेष रूप से बड़े डेटा स्पेस में।

यदि कंपनी Hadoop या स्पार्क जैसी वितरित फ्रेमवर्क का उपयोग कर रही है, तो यह जावा या पाइथन (या शायद स्काला) में एनालिटिक्स है जो सबसे अधिक समझ में आएगी।


इस मामले में मुझे पता है कि भूमिका मॉडलिंग के लिए थी क्योंकि यह मशीन सीखने के कौशल और तकनीकों की निर्दिष्ट सूची के लिए कहा गया था।
सरगना

वे अभी भी उन तकनीकों के अंदर जा रहे हैं जो जावा / पायथन पुस्तकालयों का उपयोग कर रहे हैं, मन में एच 20 या एमएललिब स्प्रिंग जैसी कुछ चीजें।
ग्रीनपेंगिन

4

जावा

मुझे जावा प्रश्न पर अन्य पोस्टरों से असहमत होना पड़ेगा। कुछ noSQL डेटाबेस (जैसे हडूप) हैं कि किसी को जावा में मैप्रेड्यूस जॉब लिखने की आवश्यकता होती है । अब आप उसी परिणाम को प्राप्त करने के लिए HIVE का उपयोग कर सकते हैं ।

अजगर

अजगर / आर बहस जारी है। दोनों ही एक्स्टेंसिबल लैंग्वेज हैं, इसलिए संभावित रूप से दोनों को प्रोसेस करने की समान क्षमता हो सकती है। मैं केवल आर जानता हूं और मेरा अजगर ज्ञान काफी सतही है। एक छोटे व्यवसाय के स्वामी के रूप में बोलते हुए, आप अपने व्यवसाय में बहुत अधिक उपकरण नहीं रखना चाहते हैं अन्यथा उनमें गहराई की सामान्य कमी होगी, और उन्हें समर्थन देने में कठिनाई होगी। मुझे लगता है कि यह टीम में उपकरण ज्ञान की गहराई तक उतर जाएगा। यदि टीम अजगर पर केंद्रित है, तो एक और अजगर डेटा वैज्ञानिक को काम पर रखने से समझ में आने वाला है क्योंकि वे मौजूदा कोड आधार और ऐतिहासिक प्रयोग कोड के साथ संलग्न हो सकते हैं।


2

कम से कम मेरी वर्तमान टीम (~ 80 डेटा वैज्ञानिकों और इंजीनियरों) के लिए, हमारी ऐसी प्राथमिकता नहीं है। यहां के आधे डेटा वैज्ञानिक आर का उपयोग करते हैं और दूसरा आधा पायथन का उपयोग करते हैं। दोनों में कई कोड कर सकते हैं। हम उत्पादन में पायथन और आर कोड की तैनाती करते हैं।

मुझे नहीं लगता कि हमारे किसी भी डेटा वैज्ञानिक जावा का उपयोग करते हैं। यदि उन्हें बड़े डेटा से निपटने की आवश्यकता है, तो वे स्पार्कक्यूसी या प्यस्पार्क का उपयोग कर सकते हैं। डेटा इंजीनियरिंग टीम जावा / स्काला / पायथन / गो के मिश्रण का उपयोग करती है।

यदि आप एक छोटी सी कंपनी में कुछ डेटा लोगों में से एक हैं, तो मैं समझ सकता हूं कि उन्हें कुछ भाषा कौशल की आवश्यकता क्यों है ताकि आप डेटा विज्ञान और इंजीनियरिंग दोनों कर सकें। लेकिन tbh, मुझे लगता है कि ज्यादातर छोटी कंपनियों के पास इतना बड़ा डेटा नहीं होगा कि पायथन या आर उत्पादन में काम न कर सकें।


क्या आप अपने संगठन के व्यवसाय के प्रकार के बारे में विस्तार से बता सकते हैं? और क्या यह घर में एमएल काम या बाहरी ग्राहकों के लिए है?
उत्साही

1
@ एंथेरियन रिटेल बिजनेस। इन-हाउस एमएल के लिए 100%।
पिग्गीबॉक्स

0

एक छोटे से आर अनुभव के साथ एक सामान्य उद्देश्य प्रोग्रामर के रूप में मेरा दृष्टिकोण: आर डेटा विज्ञान के लिए उत्कृष्ट है, लेकिन यह मैन्युअल रूप से डेटा की व्याख्या करने वाले लोगों की ओर गियर है। यदि आप कुछ स्वचालित के लिए परिणामों का उपयोग करना चाहते हैं, तो आपको कुछ और के साथ इंटरफेस करना होगा, और यह कि कुछ और करना मुश्किल होगा जैसे विशिष्ट भाषा में आर। क्या आप आर में एक वेब साइट कर सकते हैं? :) दूसरी ओर, अजगर के पास डेटा स्केनेंस सामान के लिए तैयार पुस्तकालय हैं और यह एक सामान्य प्रयोजन प्रोग्रामिंग भाषा है जो इसके साथ आपके कुछ और करने के तरीके से नहीं मिलती है। जावा के लिए, कोड की हजारों-लाखों लाइनों के साथ बड़ी प्रोग्रामिंग परियोजनाओं के लिए यह अच्छा है। यदि डेटा विज्ञान भाग को इसके साथ इंटरफेस करने की आवश्यकता है, तो यह जावा में सब कुछ करने के लिए समझ में आता है।

रैंडम व्हाइन: मुझे प्रत्येक StackExchange साइट पर अलग से साइन इन क्यों करना है?


4
बाजार में उपलब्ध लगभग सभी साधनों द्वारा आर कोड आसानी से चलाया जा सकता है। जावा डेटा विज्ञान के लिए लगभग कोई फायदा नहीं है।
19'16

1
@GennaroTedesco JAVA बिगडाटा टूल में कोडिंग के लिए उपयोगी है। तो डेटा को क्वेरी करने के लिए आंशिक रूप से उपयोगी है।
उत्साही

-1

पायथन में उपकरण आर से बेहतर हैं। आर आर समुदाय बहुत स्थिर है, जबकि पायथन समुदाय वास्तव में जल्दी विकसित हो रहा है। खासतौर पर डेटा साइंस के टूल्स में।
इसके अलावा पायथन काम करता है जो इसके चारों ओर सब कुछ आसान है। आप आसानी से वेब को स्क्रैप कर सकते हैं, डेटाबेस से जुड़ सकते हैं और इसी तरह। यह वास्तव में तेजी से प्रोटोटाइप बनाता है।
और अगर आपके पास एक कार्यशील प्रोटोटाइप है और इसे तेजी से बनाने या कंपनी के वर्कफ़्लो में एकीकृत करने का ख्याल है, तो यह आमतौर पर जावा में फिर से लागू हो जाता है।

आर के पास कुछ साफ-सुथरे उपकरण और विज़ुअलाइज़ेशन हैं, लेकिन इसमें नया सामान बनाने के लिए यह बहुत अच्छा नहीं है।


4
जो सभी तरह से पूरी तरह से गलत है।
gented
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.