पायथन एक सांख्यिकी कार्यक्षेत्र के रूप में


355

बहुत से लोग अपनी मुख्य जरूरतों के लिए एक्सेल या किसी अन्य स्प्रेडशीट, एसपीएसएस, स्टाटा या आर जैसे मुख्य उपकरण का उपयोग करते हैं। वे कुछ विशेष आवश्यकताओं के लिए कुछ विशिष्ट पैकेज की ओर रुख कर सकते हैं, लेकिन बहुत सी चीजें एक साधारण स्प्रेडशीट या एक सामान्य आँकड़े पैकेज या सांख्यिकी प्रोग्रामिंग वातावरण के साथ की जा सकती हैं।

मैंने पायथन को हमेशा एक प्रोग्रामिंग भाषा के रूप में पसंद किया है, और साधारण आवश्यकताओं के लिए, एक छोटा प्रोग्राम लिखना आसान है जो मेरी आवश्यकता की गणना करता है। माटप्लोटलिब मुझे इसे प्लॉट करने की अनुमति देता है।

क्या किसी ने आर, पायथन से पूरी तरह से स्विच किया है? आर (या किसी अन्य सांख्यिकी पैकेज) में सांख्यिकी के लिए बहुत अधिक कार्यक्षमता है, और इसमें डेटा संरचनाएं हैं जो आपको उन आंकड़ों के बारे में सोचने की अनुमति देती हैं जिन्हें आप प्रदर्शन करना चाहते हैं और अपने डेटा के आंतरिक प्रतिनिधित्व के बारे में कम करते हैं। पायथन (या कुछ अन्य गतिशील भाषा) में मुझे एक परिचित, उच्च-स्तरीय भाषा में कार्यक्रम करने की अनुमति देने का लाभ है, और यह मुझे वास्तविक-विश्व प्रणालियों के साथ प्रोग्राम करने की अनुमति देता है जिसमें डेटा रहता है या जिसमें से मैं माप ले सकता हूं। लेकिन मुझे ऐसा कोई पायथन पैकेज नहीं मिला है जो मुझे "सांख्यिकीय शब्दावली" के साथ चीजों को व्यक्त करने की अनुमति देगा - सरल वर्णनात्मक आंकड़ों से अधिक जटिल बहुभिन्नरूपी विधियों तक।

आर, एसपीएसएस, आदि को बदलने के लिए मैं "सांख्यिकी कार्यक्षेत्र" के रूप में अजगर का उपयोग करना चाहता था तो आप क्या सुझा सकते हैं?

आपके अनुभव के आधार पर मुझे क्या लाभ और हानि होगी?


5
FYI करें, एक नया पायथन
सांख्यिकी उपखंड

जब आपको कमांड लाइन पर चीजों को स्थानांतरित करने की आवश्यकता होती है, तो pythonpy ( github.com/Russell91/pythonpy ) एक अच्छा उपकरण है।
रसेलस्टैवर्ट

जवाबों:


307

R / CRAN में उपलब्ध सांख्यिकीय पैकेजों के धन की उपेक्षा करना कठिन है। उस ने कहा, मैं पायथन भूमि में बहुत समय बिताता हूं और कभी भी किसी के साथ ऐसा करने से मना नहीं करूंगा जितना मैं करता हूं। :) यहाँ कुछ पुस्तकालय / लिंक हैं जो आपको सांख्यिकीय कार्यों के लिए उपयोगी लग सकते हैं।

  • NumPy / Scipy आप शायद इन के बारे में पहले से ही जानते हैं। लेकिन मुझे कुकबुक को इंगित करने दें जहां आप पहले से उपलब्ध कई सांख्यिकीय सुविधाओं के बारे में पढ़ सकते हैं और उदाहरण सूची जो फ़ंक्शन (डेटा हेरफेर और अन्य कार्यों सहित) के लिए एक महान संदर्भ है। स्कैपी में जॉन कुक के डिस्ट्रीब्यूशन का एक और आसान संदर्भ है ।

  • पांडा यह सांख्यिकीय डेटा - सारणीबद्ध डेटा, समय श्रृंखला, पैनल डेटा के साथ काम करने के लिए एक बहुत अच्छा पुस्तकालय है। डेटा सारांश, समूहीकरण / एकत्रीकरण, धुरी के लिए कई अंतर्निहित कार्य शामिल हैं। इसके अलावा एक सांख्यिकी / अर्थमिति पुस्तकालय है।

  • लैरी लेबल वाला एरे जो कि न्यूमपी के साथ अच्छा खेलता है। NumPy में मौजूद सांख्यिकीय फ़ंक्शन प्रदान नहीं करता है और डेटा हेरफेर के लिए अच्छा है।

  • अजगर-स्टेटलिब एक हालिया प्रयास है जिसने कई बिखरे हुए आँकड़े पुस्तकालयों को संयोजित किया है। यदि आप NumPy या पांडा का उपयोग नहीं कर रहे हैं, तो बुनियादी और वर्णनात्मक आंकड़ों के लिए उपयोगी है।

  • statsmodels रैखिक मॉडल, GLMs, दूसरों के बीच: सांख्यिकीय मॉडलिंग।

  • scikits सांख्यिकीय और वैज्ञानिक कंप्यूटिंग पैकेज - विशेष रूप से चौरसाई, अनुकूलन और मशीन लर्निंग।

  • PyMC आपके बायेसियन / MCMC / पदानुक्रमित मॉडलिंग जरूरतों के लिए। अत्यधिक सिफारिशित।

  • PyMix मिश्रण मॉडल।

  • बायोपथॉन अपने जैविक डेटा को अजगर में लोड करने के लिए उपयोगी है, और विश्लेषण के लिए कुछ अल्पविकसित सांख्यिकीय / मशीन सीखने के उपकरण प्रदान करता है।

यदि गति एक समस्या बन जाती है, तो थीनो पर विचार करें - गहन सीखने वाले लोगों द्वारा अच्छी सफलता के साथ उपयोग किया जाता है।

वहाँ बाहर अन्य सामान के बहुत सारे है, लेकिन यह वही है जो मुझे आपके द्वारा बताई गई लाइनों के साथ सबसे अधिक उपयोगी लगता है।


16
सभी उत्तर उपयोगी और उपयोगी दोनों थे, और सभी स्वीकार किए जाने योग्य होंगे। यह एक, हालांकि, सवाल का जवाब देने में बहुत अच्छा काम करता है: पायथन के साथ, आपको बहुत सारे टुकड़ों को एक साथ रखना होगा जो आप चाहते हैं। ये संकेत किसी को भी आँकड़े / मॉडलिंग / आदि करने के इच्छुक के लिए बहुत उपयोगी नहीं होंगे। अजगर के साथ। सभी को धन्यवाद!
फाबियान फगारहोम

1
@ क्या आप जानते हैं कि विंडोज के साथ पायथन का उपयोग करने का सबसे अच्छा तरीका क्या है?
स्टीफन लॉरेंट

1
@ StéphaneLaurent मैं आमतौर पर विभिन्न टुकड़ों को खुद स्थापित करता हूं, लेकिन एक त्वरित शुरुआत / स्थापित करने के लिए, आप इस पर विचार कर सकते हैं: pyyonxy
आर्स

यह स्क्रिप्ट ऊपर उद्धृत कई पुस्तकालयों को स्थापित करती है: fonnesbeck.github.com/ScipySuperpack
.

Pythonxy अच्छा है, लेकिन अगर आप केवल 32 बिट्स के लिए उपलब्ध हैं तो आप बड़ी गणना करना चाहते हैं, तो यह आपको परेशान कर सकता है। यहां कई अजगर पैकेज स्थापित करने के लिए अनौपचारिक बायनेरिज़ हैं। यदि आप खिड़कियों के नीचे काम करने का निर्णय लेते हैं तो वे काफी उपयोगी हो सकते हैं। lfd.uci.edu/~gohlke/pythonlibs @ StéphaneLaurent
JEquihua

140

एक संख्यात्मक मंच और MATLAB के विकल्प के रूप में, पायथन कम से कम 2-3 साल पहले परिपक्वता पर पहुंच गया, और अब कई मामलों में MATLAB से बेहतर है। मैंने उस समय के आसपास आर से पायथन में जाने की कोशिश की, और बुरी तरह विफल रहा। मेरे द्वारा दैनिक आधार पर उपयोग किए जाने वाले बहुत सारे आर पैकेज हैं जिनका कोई पायथन समकक्ष नहीं है। Ggplot2 की अनुपस्थिति शोस्टॉपर बनने के लिए पर्याप्त है, लेकिन कई और भी हैं। इसके अलावा, डेटा विश्लेषण के लिए आर का एक बेहतर सिंटैक्स है। निम्नलिखित मूल उदाहरण पर विचार करें:

अजगर :

results = sm.OLS(y, X).fit()

आर :

results <- lm(y ~ x1 + x2 + x3, data=A)

आप अधिक अभिव्यंजक क्या मानते हैं? आर में, आप चर के संदर्भ में सोच सकते हैं, और आसानी से एक मॉडल को बढ़ा सकते हैं, कह सकते हैं,

lm(y ~ x1 + x2 + x3 + x2:x3, data=A)

आर की तुलना में, पायथन मॉडल निर्माण के लिए एक निम्न-स्तरीय भाषा है।

यदि मेरे पास उन्नत सांख्यिकीय कार्यों के लिए कम आवश्यकताएं थीं और पहले से ही पायथन को एक बड़ी परियोजना पर कोडित कर रहे थे, तो मैं पायथन को एक अच्छा उम्मीदवार मानूंगा। मैं इस पर भी विचार करूंगा जब नंगे-हड्डी के दृष्टिकोण की आवश्यकता होती है, या तो गति सीमाओं के कारण, या क्योंकि आर पैकेज एक बढ़त प्रदान नहीं करते हैं।

अभी अपेक्षाकृत रूप से उन्नत सांख्यिकी करने वालों के लिए , इसका जवाब है, यह दिमाग नहीं है, और नहीं है । वास्तव में, मेरा मानना ​​है कि पायथन आपके डेटा विश्लेषण के बारे में सोचने के तरीके को सीमित करेगा। 100 आवश्यक आर पैकेजों के लिए मॉड्यूल प्रतिस्थापन का उत्पादन करने में कुछ साल और कई मानव-वर्ष लगेंगे, और फिर भी, पायथन को एक भाषा की तरह महसूस होगा, जिस पर डेटा विश्लेषण क्षमताओं पर बोल्ट लगाया गया है। चूंकि आर ने पहले से ही कई क्षेत्रों में लागू सांख्यिकीविदों के सबसे बड़े रिश्तेदार हिस्से पर कब्जा कर लिया है, इसलिए मुझे यह जल्द ही दिखाई नहीं देता है। यह कहने के बाद कि, यह एक स्वतंत्र देश है, और मुझे पता है कि लोग एपीएल और सी में सांख्यिकी कर रहे हैं।


9
+1 मुझे यह प्रतिक्रिया पसंद है क्योंकि सूत्र के उपयोग और डेटा के साथ काम करने के लिए एक सांख्यिकीय भाषा के रूप में आर पर जोर दिए जाने के कारण। कहा जा रहा है, मैं पायथन समुदाय में पंडों के एक बड़े सकारात्मक प्रभाव (स्टैटसमोडल्स के साथ संयुक्त) की उम्मीद कर रहा हूं।
CHL

28
पायथन समुदाय में, patsy "सूत्र" की आवश्यकता को संबोधित कर रहा है, जिसे आप वर्णन करते हैं, जो समय पर सुधार करता है कि R क्या ऑफ़र करता है: patsy.readthedocs.org/en/v0.1.0/index.html पायथन में क्या अच्छा है? पहलुओं को मौखिक रूप से नियंत्रित किया जाता है। पंडों समयसीमा और डेटाफ़्रेम / श्रृंखला प्रतिनिधित्व का ध्यान रखेंगे। सूत्रों के लिए patsy सरणी प्रतिनिधित्व और वैश्वीकरण के लिए सुन्न। सांख्यिकीमॉडल ने आंकड़े को बदल दिया। अनुकूलन के लिए डरपोक और अन्य सामान का एक गुच्छा। परिणाम क्लीनर इंटरफेस है। आर, तुलना में, अधिक परिपक्व है, लेकिन एक हेयरबॉल है। ../ ..
कलंक

3
../ .. मुझे लगता है कि लंबे समय में बलों को अधिक से अधिक पायथन एकीकरण की दिशा में धकेल दिया जाएगा और आप पाएंगे कि यह आर के लिए एक प्रतियोगी बन जाएगा। आर में डेटा की सफाई करना पायथन की तुलना में ऐसा PIA है, और यह कभी भी नौकरी का मामूली हिस्सा नहीं है। - blais
chl

9
एक अद्यतन के रूप में: अब स्टैटमोडल प्रलेखन में पहला उदाहरण है results = smf.ols('Lottery ~ Literacy + np.log(Pop1831)', data=dat).fit()। Statsmodels कवरेज के संदर्भ में R जैसे अन्य सांख्यिकीय पैकेजों से अभी भी बहुत पीछे है, लेकिन अधिक से अधिक चीजें आप अजगर में कर सकते हैं इससे पहले कि आपको किसी अन्य भाषा या सांख्यिकीय पैकेज को हथियाना पड़े। (GEE और मिश्रित अगली रिलीज में होंगे।)
जोसेफ

4
"पायथन में क्या अच्छा है कि इन सभी पहलुओं को मौखिक रूप से नियंत्रित किया जाता है ..."। मैं कई मायने रखता हूं। सुन्न, घिसी-पिटी, सांख्यिकीमॉडल के बीच महत्वपूर्ण ओवरलैप हैं। आर का डिज़ाइन बहुत अधिक मॉड्यूलर और आर्थिक है। इसके अलावा, डेटा-ओरिएंटेड भाषाओं में सभी वैचारिक नवाचारों में सबसे अधिक नहीं (न केवल सूत्र, बल्कि डेटा फ्रेम भी, ग्राफिक्स का एक व्याकरण, मेडल्स, व्याकरण के व्याकरण के रूप में कैरेट, और dplyr के डेटा के अभी भी विकसित व्याकरण) आर। में उत्पन्न हुआ है पायथन समुदाय हमेशा एक कदम पीछे लगता है, और अत्यधिक प्रदर्शन पर ध्यान केंद्रित करता है।
गप्पी

95

सबसे पहले, मैं कहता हूं कि मैं जॉन डी कुक के जवाब से सहमत हूं: पायथन आर की तरह एक डोमेन विशिष्ट भाषा नहीं है, और तदनुसार, बहुत कुछ है जो आप इसके साथ आगे सड़क पर करने में सक्षम होंगे। बेशक, आर एक डीएसएल होने का मतलब है कि जेएएसए में प्रकाशित नवीनतम एल्गोरिदम लगभग निश्चित रूप से आर में होंगे। यदि आप ज्यादातर तदर्थ काम कर रहे हैं और नवीनतम लासो रिग्रेशन तकनीक के साथ प्रयोग करना चाहते हैं, तो कहते हैं, आर को हराना मुश्किल है। यदि आप अधिक उत्पादन विश्लेषणात्मक कार्य कर रहे हैं, तो मौजूदा सॉफ़्टवेयर और वातावरण के साथ एकीकरण, और गति, विस्तार और स्थिरता के बारे में चिंतित, पायथन आपको बेहतर सेवा देगा।

दूसरे, ars ने अच्छे लिंक के साथ शानदार जवाब दिया। यहां कुछ और पैकेज दिए गए हैं, जिन्हें मैं पायथन में विश्लेषणात्मक कार्य के लिए आवश्यक मानता हूं:

  • सुंदर, प्रकाशन गुणवत्ता ग्राफिक्स के लिए matplotlib
  • एक बढ़ाया, इंटरैक्टिव पायथन कंसोल के लिए आईपीथॉन । महत्वपूर्ण रूप से, अजगर अजगर में इंटरैक्टिव, समानांतर कंप्यूटिंग के लिए एक शक्तिशाली ढांचा प्रदान करता है।
  • पायथन में सी एक्सटेंशन को आसानी से लिखने के लिए साइथन । यह पैकेज आपको कम्प्यूटेशनल रूप से गहन पायथन कोड का एक हिस्सा लेने देता है और आसानी से इसे सी एक्सटेंशन में बदल देता है। फिर आप किसी भी अन्य पायथन मॉड्यूल की तरह सी एक्सटेंशन को लोड करने में सक्षम होंगे, लेकिन सी के बाद से कोड बहुत तेजी से चलेगा।
  • PyIMSL स्टूडियो सैकड़ों गणितीय और सांख्यिकीय एल्गोरिदम के संग्रह के लिए जो पूरी तरह से प्रलेखित और समर्थित हैं। आप लगभग एक ही एपीआई के साथ पायथन और सी से सटीक एक ही एल्गोरिदम को कॉल कर सकते हैं और आपको समान परिणाम मिलेंगे। पूर्ण प्रकटीकरण: मैं इस उत्पाद पर काम करता हूं, लेकिन मैं इसका उपयोग भी करता हूं।
  • एक्सेल फ़ाइलों में आसानी से पढ़ने के लिए xlrd

यदि आप एक अधिक MATLAB की तरह इंटरैक्टिव IDE / कंसोल चाहते हैं, तो स्पाइडर , या ग्रहण के लिए PyDev प्लगइन देखें ।


15
R सामान्य अर्थों में एक DSL नहीं है। यह एक पूर्ण, ट्यूरिंग पूर्ण प्रोग्रामिंग भाषा है।
हैडली

4
@hadley: शायद मैं "DSL" का भी बोलचाल में उपयोग कर रहा हूं, लेकिन इसकी कीमत क्या है, इसके लिए DSLs पर विकिपीडिया पृष्ठ स्पष्ट रूप से S + और DSL और पायथन के उदाहरणों को सामान्य प्रयोजन की भाषा के रूप में सूचीबद्ध करता है। En.wikipedia.org/wiki/Domain-specific_language देखें । उसी नस में, एसएएस ट्यूरिंग-पूर्ण है (केवल अगर आईएमएल मैक्रो घटक का उपयोग किया जाता है), लेकिन मैं इसे व्यावहारिक रूप से एक पूरी भाषा कहूंगा। मुझे अपने काम में R अमूल्य लगता है, लेकिन मैं R (या उस चीज़ के लिए Excel) में सब कुछ करने की कोशिश करने के बजाय सामान्य उद्देश्य भाषाओं का उपयोग करके कोड करने की कोशिश करता हूं।
जोश हेमन

16
मुझे लगता है कि R और S को विकिपीडिया में अन्य भाषाओं के समान सूची में शामिल करना अनुचित है - ऐसा कुछ भी नहीं है जो आप R में नहीं कर सकते हैं जो आप अजगर में कर सकते हैं। बेशक, कई चीजें हैं जो एक अन्य प्रोग्रामिंग भाषा के लिए बेहतर हैं, लेकिन वही पायथन के बारे में सच है।
हेली

6
आह, हैडली ने आर और एस + को विकिपीडिया पृष्ठ से हटा दिया था उसी दिन हमने 13 अक्टूबर, 2011 को टिप्पणियों का आदान-प्रदान किया था। इसलिए, मैं अक्सर "आर द्वारा विकसित और सांख्यिकीविदों के लिए" मंत्र को अपनी मौलिक शक्ति के रूप में सुनता हूं। जाहिर है, अब यह एक सामान्य प्रयोजन की भाषा भी है ...
जोश हेमन

5
ठीक है, क्या मेरे पास आर के साथ बहु-थ्रेडेड कोड हो सकता है? नेटवर्क एसिंक्रोनस I / O? मेरा विश्वास करो, ये usecases वास्तव में वैज्ञानिक कंप्यूटिंग में उत्पन्न होते हैं। आर एक डीएसएल है, मेरी राय में। यह आंकड़ों में मजबूत है, और अधिकांश अन्य चीजों पर बुरा है।
गेल वरक्वाउक्स

61

मैं वहाँ किसी भी तर्क है कि में सांख्यिकीय संकुल की सीमा है नहीं लगता कि Cran और BioConductor दूर अन्य भाषाओं से प्रस्ताव पर कुछ भी अधिक है, तथापि, कि न केवल बात पर विचार करना है।

अपने शोध में, मैं आर का उपयोग तब करता हूं जब मैं कर सकता हूं लेकिन कभी-कभी आर बहुत धीमी गति से होता है। उदाहरण के लिए, एक बड़ी एमसीएमसी चलती है।

हाल ही में, मैंने इस समस्या से निपटने के लिए अजगर और सी को मिलाया। संक्षिप्त सारांश: ~ 60 मापदंडों के साथ एक बड़े स्टोकेस्टिक जनसंख्या मॉडल को फिट करना और एमसीएमसी का उपयोग करते हुए लगभग 150 अव्यक्त राज्यों का उल्लेख करना।

  1. अजगर में डेटा में पढ़ें
  2. Ctypes का उपयोग करके अजगर में सी डेटा संरचनाओं का निर्माण ।
  3. एक पायथन forलूप का उपयोग करके , सी फ़ंक्शन को कॉल करें जो मापदंडों को अपडेट करते हैं और संभावना की गणना करते हैं।

एक त्वरित गणना से पता चला कि कार्यक्रम ने सी कार्यों में 95% खर्च किया। हालांकि, मुझे डेटा में पढ़ने या सी डेटा संरचनाओं के निर्माण के लिए दर्दनाक सी कोड लिखने की ज़रूरत नहीं थी।


मुझे पता है कि वहाँ भी खस्ता है , जहां अजगर आर कार्यों को कॉल कर सकते हैं। यह उपयोगी हो सकता है, लेकिन यदि आप "बस" आंकड़े कर रहे हैं तो मैं आर का उपयोग करूंगा।


29
Rcpp के लिए बेशर्म प्लग लगाना :)
डिर्क एडल्डबुलेटेल

जिज्ञासु अगर आपने PyMC की कोशिश की है और आपके मॉडलों के लिए प्रदर्शन की तुलना (अजगर / C के सापेक्ष) कैसे की जाती है।
7:13

@ जार: उपरोक्त मामले में, प्रत्येक पुनरावृत्ति (10 ^ 8 पुनरावृत्तियों में से) में 5 ओडीई को हल करना शामिल था। यह वास्तव में सी में किया जाना था। बाकी कोड काफी सरल था और इसलिए सी कोड सीधा था। मेरा आवेदन अमानक था और इसलिए PyMC लागू नहीं था - यह भी ~ 2 साल पहले था।
csgillespie

40

इन सभी चर्चाओं को हटा दिया गया है :-( शायद इस जवाब को भी हटा दिया जाना चाहिए?
जोनाथन

12
यह दुख की बात है। मैंने वेकबैक मशीन प्रतियों को संदर्भित करने के लिए लिंक अपडेट किए हैं।
जेरोमे एंग्लीम

36

मैंने उपर्युक्त उत्तरों में स्पष्ट रूप से उल्लिखित शिकयत को नहीं देखा है। यह पायथन में मशीन सीखने के लिए एक पायथन पैकेज है। यह काफी युवा है, लेकिन बहुत तेजी से बढ़ रहा है (अस्वीकरण: मैं एक स्किट-लर्न डेवलपर हूं)। यह लक्ष्य एक एकीकृत इंटरफ़ेस में मानक मशीन लर्निंग एल्गोरिदम उपकरण प्रदान करना है, जिसमें गति और प्रयोज्य पर ध्यान केंद्रित किया गया है। जहाँ तक मुझे पता है, आप मतलाब में ऐसा कुछ भी नहीं पा सकते हैं। यह मजबूत बिंदु हैं:

  • एक विस्तृत प्रलेखन , कई उदाहरणों के साथ

  • उच्च गुणवत्ता वाले मानक पर्यवेक्षित शिक्षण (प्रतिगमन / वर्गीकरण) उपकरण। विशेष रूप से:

  • कई सीपीयू का उपयोग करके क्रॉस-वैलिडेशन द्वारा मॉडल चयन करने की क्षमता

  • डेटा का पता लगाने या पहली आयामी कमी करने के लिए अप्रशिक्षित सीखने , जिसे आसानी से पर्यवेक्षित शिक्षण के लिए जंजीर किया जा सकता है।

  • खुला स्रोत, बीएसडी लाइसेंस प्राप्त है। यदि आप विशुद्ध रूप से शैक्षणिक माहौल में नहीं हैं (मैं राज्य में एक राष्ट्रीय प्रयोगशाला होगी) तो यह बहुत मायने रखता है क्योंकि मतलब की लागत तब बहुत अधिक है, और आप अपने काम से उत्पादों को प्राप्त करने के बारे में सोच रहे होंगे।

मतलाब एक महान उपकरण है, लेकिन मेरे अपने काम में, scipy + scikit-learn मुझे मतलाब पर बढ़त देना शुरू कर रहा है क्योंकि पायथन अपने दृश्य तंत्र (और मेरे पास बड़ा डेटा) के कारण स्मृति के साथ एक बेहतर काम करता है, और क्योंकि scikit-learn मुझे बहुत आसानी से विभिन्न दृष्टिकोणों की तुलना करने में सक्षम बनाता है।


29

पायथन में जाने का एक लाभ एक भाषा में अधिक काम करने की संभावना है। पायथन नंबर क्रंचिंग, वेब साइट्स लिखने, प्रशासनिक स्क्रिप्टिंग आदि के लिए एक उचित विकल्प है, इसलिए यदि आप पायथन में अपने आंकड़े करते हैं, तो आपको अन्य प्रोग्रामिंग कार्यों को करने के लिए भाषाओं को स्विच नहीं करना पड़ेगा।

अद्यतन: 26 जनवरी को, 2011 माइक्रोसॉफ्ट रिसर्च की घोषणा की Sho , डेटा विश्लेषण के लिए एक नया अजगर आधारित वातावरण। मुझे अभी तक इसे आज़माने का मौका नहीं मिला है, लेकिन अगर पायथन को चलाना चाहते हैं और .NET पुस्तकालयों के साथ बातचीत करना चाहते हैं तो यह एक दिलचस्प संभावना है।


4
मैंने आर में बहुत सी क्रंचिंग, एक वेबसाइट और कुछ प्रशासनिक स्क्रिप्ट की हैं और वे काफी अच्छी हैं।

28

शायद यह जवाब धोखा है, लेकिन यह अजीब लगता है कि किसी ने भी खस्ता परियोजना का उल्लेख नहीं किया है , जो आर और पायथन के बीच एक इंटरफ़ेस प्रदान करता है। जब आप (मैं नीसर का तर्क होगा) वाक्यविन्यास, डाटा प्रोसेसिंग और कुछ मामलों में पायथन की गति को बनाए रखते हुए आर की अधिकांश कार्यक्षमता के लिए एक पायथोनिक एपी प्राप्त करता हूं। यह संभावना नहीं है कि पायथन में कभी भी आर के रूप में कई रक्तस्रावी किनारे के आँकड़े उपकरण होंगे, सिर्फ इसलिए कि आर एक डीएसएल है और सांख्यिकी समुदाय आर में किसी अन्य भाषा की तुलना में अधिक निवेश किया गया है।

मैं इसे SQL के फायदों का लाभ उठाने के लिए ORM के उपयोग के अनुरूप देखता हूं, जबकि पायथन को पायथन और SQL को SQL होना चाहिए।

विशेष रूप से डेटा संरचनाओं के लिए अन्य उपयोगी पैकेजों में शामिल हैं:

  • pydataframe एक डेटा.फ्रेम दोहराता है और खस्ता के साथ इस्तेमाल किया जा सकता है। आपको R- जैसे फ़िल्टरिंग और संचालन का उपयोग करने की अनुमति देता है।
  • pyTables , नीचे दिए गए तेज़ hdf5 डेटा प्रकार का उपयोग करता है, जो उम्र भर के लिए होता है
  • h5py भी hdf5, लेकिन विशेष रूप से सुन्न के साथ interoperating के उद्देश्य से
  • पांडा एक अन्य परियोजना है जो डेटा की तरह प्रबंधित करती है। डेटा की तरह, rpy, pyTables और numpy के साथ काम करती है

1
मैंने हमेशा साथ काम करने के लिए खस्ता ढलान पाया है। उदाहरण के लिए, कुछ सरल कार्यों के साथ कोड की बड़ी लाइनों की आवश्यकता होती है।
नेस्टर

शायद IPython (@CarlSmith द्वारा बताया गया है) के लिए r Disney एक्सटेंशन को खस्ता 2 के साथ काम करना आसान बना सकता है? Ipython.org/ipython-doc/dev/config/extensions/rmagic.html देखें ।
जोनाथन

26

मैं मूल रूप से एक आर दुकान (~ 80 लोगों के आर को उनके प्राथमिक उपकरण के रूप में उपयोग करता है) में एक जीवविज्ञानी हूं। फिर भी, मैं अपना लगभग 3/4 समय पायथन में काम करते हुए बिताता हूँ। मैं इसे मुख्य रूप से इस तथ्य के लिए जिम्मेदार ठहराता हूं कि मेरे काम में सांख्यिकीय मॉडलिंग के बेयसियन और मशीन लर्निंग दृष्टिकोण शामिल हैं। पायथन आर / की तुलना में प्रदर्शन / उत्पादकता मीठे स्थान के बहुत करीब पहुंचता है, कम से कम सांख्यिकीय तरीकों के लिए जो पुनरावृत्त या सिमुलेशन-आधारित हैं। यदि मैं एनोवा, रेजगारी और सांख्यिकीय परीक्षण कर रहा था, तो मुझे यकीन है कि मैं मुख्य रूप से आर का उपयोग करूंगा। मुझे सबसे ज्यादा जरूरत है, हालांकि, डिब्बाबंद आर पैकेज के रूप में उपलब्ध नहीं है।


5
+1 यह जानने के लिए कि आप किस क्षेत्र के आँकड़ों में काम करते हैं। सांख्यिकीय कंप्यूटिंग के क्षेत्र हैं (जैसे असंरचित पाठ विश्लेषण और कंप्यूटर दृष्टि) जो कि पायथन में बहुत अधिक कार्यक्षमता के लिए मौजूद हैं, और पायथन को उन उप-डोमेन में लिंगुआ फ़्रैंक प्रतीत होता है। मुझे लगता है कि जहां पायथन समुदाय को पकड़ना है, वह शास्त्रीय सांख्यिकीय मॉडलिंग के आसपास डेटा संरचनाओं और शब्दार्थों में सुधार कर रहा है कि आर का डिज़ाइन इतना अच्छा है। Scikits.statsmodels डेवलपर्स उस मोर्चे पर बहुत प्रगति कर रहे हैं: scikits.appspot.com/statsmodels
जोश हेमन

26

मैं यह कहना चाहूंगा कि किसी ऐसे व्यक्ति के दृष्टिकोण से जो मेरे सांख्यिकीय कार्यों के लिए रैखिक मॉडल पर बहुत अधिक निर्भर करता है, और अपनी नौकरी के अन्य पहलुओं के लिए पायथन से प्यार करता है, मुझे पायथन में एक मंच के रूप में बहुत निराश किया गया है, लेकिन कुछ बुनियादी आँकड़े।

मुझे लगता है कि आर को सांख्यिकीय समुदाय से बहुत बेहतर समर्थन है, रैखिक मॉडल का बेहतर कार्यान्वयन है, और चीजों के आंकड़ों के पक्ष से फ्रैंक होने के लिए, यहां तक ​​कि उत्साही जैसे उत्कृष्ट वितरण के साथ, पायथन वाइल्ड वेस्ट की तरह महसूस करता है।

और जब तक आप एकल काम नहीं कर रहे हैं, आप के सहयोगी जो आंकड़े के लिए पायथन का उपयोग करते हैं, इस बिंदु पर, बहुत पतले हैं।


26

वास्तव में वैसे भी पायथन के लिए आर को छोड़ने की कोई आवश्यकता नहीं है। यदि आप IPython का उपयोग पूर्ण स्टैक के साथ करते हैं, तो आपके पास R, Octave और Cython एक्सटेंशन हैं, जिससे आप आसानी से और साफ-सफाई से उन भाषाओं का उपयोग अपने IPython पुस्तिकाओं के भीतर कर सकते हैं। आपके पास उनके और आपके पायथन नामस्थान के बीच मूल्यों को पारित करने के लिए भी समर्थन है। आप अपने डेटा को प्लॉट के रूप में, matplotlib का उपयोग करके, और ठीक से गणितीय अभिव्यक्तियों को प्रस्तुत कर सकते हैं। अन्य सुविधाओं के टन हैं, और आप अपने ब्राउज़र में यह सब कर सकते हैं।

IPython ने एक लंबा सफर तय किया :)


19

आप जिसे खोज रहे हैं उसे ऋषि कहा जाता है: http://www.sagemath.org/

यह गणित के लिए पायथन उपकरणों के एक अच्छी तरह से निर्मित संयोजन के लिए एक उत्कृष्ट ऑनलाइन इंटरफ़ेस है।


4
ऋषि के बारे में शानदार बात यह है कि यह अनिवार्य रूप से गणित, सांख्यिकी, डेटा विश्लेषण आदि के लिए कई महान मुफ्त उपकरणों का संघ है यह सिर्फ पायथन से अधिक है; इसकी पहुंच R, मैक्सिमा, GLPK, GSL और अधिक तक है।
shabbychef

18

Rpy2 - पायथन में R स्टे के साथ खेलते हैं ...

गंग के अनुरोध के अनुसार आगे विस्तार:

Rpy2 प्रलेखन http://rpy.sourceforge.net/rpy2/doc-dev/html/into.html पर पाया जा सकता है

प्रलेखन से, rpy2 में उच्च-स्तरीय इंटरफ़ेस पायथन प्रोग्रामर्स द्वारा आर के उपयोग को सुविधाजनक बनाने के लिए डिज़ाइन किया गया है। आर वस्तुओं को पायथन-कार्यान्वित वर्गों के उदाहरणों के रूप में उजागर किया जाता है, आर के रूप में उन वस्तुओं को कई मामलों में बाध्य तरीकों के रूप में कार्य करता है। इस खंड में R: trellis (जाली) भूखंडों के साथ-साथ ggplot2 में लागू किए गए ग्राफिक्स के व्याकरण के साथ ग्राफिक्स का परिचय भी है, जो कि एक छोटे से कोड के साथ जटिल और सूचनात्मक प्लॉट बनाते हैं, जबकि अंतर्निहित ग्रिड ग्राफिक्स में सभी संभव अनुकूलन उल्लिखित हैं।

मुझे यह क्यों पसंद है:

मैं अजगर के लचीलेपन का उपयोग करके अपने डेटा को संसाधित कर सकता हूं, इसे एक मैट्रिक्स में बदल सकता हूं जो कि खसखस ​​या पांडा का उपयोग कर सकता है और आर में गणना कर सकता है, और पोस्ट प्रोसेसिंग करने के लिए वापस आर ऑब्जेक्ट प्राप्त कर सकता है। मैं अर्थमिति और अजगर का उपयोग करता हूं, बस R. के खून बहने वाले किनारे के आँकड़े उपकरण नहीं होंगे और आर कभी भी अजगर की तरह लचीले नहीं होंगे। इससे आपको R. सौभाग्य से समझने की आवश्यकता है, इसमें एक अच्छा डेवलपर समुदाय है।

Rpy2 ही अच्छी तरह से समर्थित है और इसका समर्थन करने वाले सज्जन SO फ़ोरम को फ़्रीक्वेट करते हैं। विंडोज इंस्टॉलेशन शायद हल्का दर्द - https://stackoverflow.com/questions/5068760/bizzarre-issue-trying-to-make-rpy2-2-1-9-work-with-r-2-12-1-use -पीथॉन-2-6-संयुक्त राष्ट्र? rq = 1 मदद कर सकता है।


1
साइट में आपका स्वागत है, @pythOnometrist। मुझे संदेह है कि यह एक सहायक योगदान है। क्या आप Rpy2 का एक संक्षिप्त सारांश देने का मन करेंगे, इसलिए पाठक यह तय कर सकते हैं कि क्या वे देख रहे हैं?
गुंग

17

मैं सांख्यिकीय विश्लेषण और पूर्वानुमान के लिए पायथन का उपयोग करता हूं। जैसा कि ऊपर दूसरों ने उल्लेख किया है, नेम्पी और माटप्लोटिब अच्छे वर्कहॉर्स हैं। मैं PDF आउटपुट का उत्पादन करने के लिए भी ReportLab का उपयोग करता हूं।

मैं वर्तमान में Resolver और Pyspread दोनों को देख रहा हूं जो Excel जैसे स्प्रेडशीट एप्लिकेशन हैं जो कि पायथन पर आधारित हैं। रिज़ॉल्वर एक वाणिज्यिक उत्पाद है लेकिन Pyspread अभी भी खुला-स्रोत है। (क्षमायाचना, मैं केवल एक लिंक तक सीमित हूं)


1
फिर से कुछ दिलचस्प उपकरण। मैं Numpy, Matplotlib और ReportLab के बारे में जानता था, लेकिन Pyspread एक दिलचस्प विचार की तरह लगता है। कम से कम मैं स्प्रेडशीट कोशिकाओं में पायथन अभिव्यक्ति टाइप करना चाहूंगा। हालांकि यह सभी संभावित समस्याओं को हल नहीं करता है, यह प्रोटोटाइप और डेटा के साथ खेलने के लिए अच्छा हो सकता है।
फैबियान फागिरहोम

1
+1 वाह अजगर स्प्रेडशीट! अभी तक उन लोगों के बारे में नहीं सुना था। मैं हमेशा चाहता था कि OpenOffice / LibreOffice वास्तव में अपने स्प्रेडशीट सॉफ़्टवेयर में अजगर स्क्रिप्टिंग को गले लगाएगा और एकीकृत करेगा
उपयोगकर्ता

15

अब तक का महान अवलोकन। मैं 3 साल से यूनिवर्सिटी में काम करने के बाद से एक मैटलैब रिप्लेसमेंट के रूप में अजगर (विशेष रूप से डांट + मैटप्लोटलिब) का उपयोग कर रहा हूं। मैं कभी-कभी फिर भी वापस चला जाता हूं क्योंकि मैं विशिष्ट पुस्तकालयों से परिचित हूं जैसे कि मटलब वेलेट पैकेज विशुद्ध रूप से भयानक है।

मुझे http://enthought.com/ python वितरण पसंद है। यह व्यावसायिक है, फिर भी शैक्षणिक उद्देश्यों के लिए मुफ़्त है और जहाँ तक मुझे पता है, पूरी तरह से खुला-स्रोत है। जैसा कि मैं बहुत से छात्रों के साथ काम कर रहा हूं, इससे पहले कि यह उपयोग करने से पहले कभी-कभी उनके लिए सुन्न, डरावना, आईपाइथन आदि स्थापित करने के लिए परेशानी होती थी। उत्साहित, विंडोज, लिनक्स और मैक के लिए एक इंस्टॉलर प्रदान करता है।

उल्लेख के लायक दो अन्य पैकेज:

  1. ipython (पहले से ही उत्साहित होकर) महान उन्नत खोल है। एक अच्छा परिचय showmedo http://showmedo.com/videotutorials/series?name=PythonIPythonSeries पर है

  2. nltk - प्राकृतिक भाषा टूलकिट http://www.nltk.org/ महान पैकेज के मामले में जब आप किसी आंकड़े पर कुछ आँकड़े / मशीन सीखना चाहते हैं।


12

यह एक दिलचस्प सवाल है, जिसमें कुछ शानदार जवाब हैं।

आपको एक पेपर में कुछ उपयोगी चर्चा मिल सकती है जो मैंने रोजलिन बिलिना के साथ लिखा था। अंतिम संस्करण यहां है: http://www.enac.fr/recherche/leea/Steve%20Lawford/papers/python_paper_revised.pdf (यह तब से लगभग इसी रूप में प्रकट हुआ है, जैसा कि अर्थमिति और सांख्यिकी में एकीकृत अनुसंधान के लिए पायथन है। ", इकोनोमेट्रिक रिव्यूज़ (2012), 31 (5), 558-591 में।


10

शायद सीधे संबंधित नहीं है, लेकिन आर में इंटरएक्टिव सत्रों के लिए एक अच्छा जीयूआई वातावरण है (संपादित करें: मैक / विंडोज पर)। IPython बहुत अच्छा है लेकिन Matlab के नज़दीक के वातावरण के लिए आप स्पाइडर या IEP आज़मा सकते हैं। मुझे आईईपी का उपयोग करने में देरी का सौभाग्य मिला है, लेकिन स्पाइडर अधिक आशाजनक दिखता है।

IEP: http://code.google.com/p/iep/

स्पाइडर: http://packages.python.org/spyder/

और IEP साइट में संबंधित सॉफ़्टवेयर की संक्षिप्त तुलना शामिल है: http://code.google.com/p/iep/wiki/Alternatives


9

मुझे यहां पंडों के लिए एक महान पहचान मिली कि मैं बाहर की जाँच करने का सुझाव देता हूं। पंडस एक अद्भुत टूलसेट है और पायथन के व्यापक पुस्तकालयों और उत्पादन गुणवत्ता के साथ आर के उच्च स्तरीय डेटा विश्लेषण क्षमताओं को प्रदान करता है।

यह ब्लॉग पोस्ट एक पूर्ण शुरुआत के परिप्रेक्ष्य से पंडों को एक महान परिचय देता है:

http://manishamde.github.com/blog/2013/03/07/pandas-and-python-top-10/


3
क्या आप कृपया कुछ शब्द लिख सकते हैं कि कौन से गुण इसे "महान" बनाते हैं ताकि पाठक पहले से निर्धारित कर सकें कि क्या यह देखना उनके लिए उचित होगा?
whuber

1
माफ़ करना। मुझे एहसास हुआ कि मैंने अपनी मूल पोस्ट में गलत लिंक संलग्न किया है।
पदवन

8

मुझे Sho के लिए एक चिल्ला-आउट जोड़ना चाहिए, जो आयरनपायथन पर निर्मित संख्यात्मक कंप्यूटिंग वातावरण है। मैं इसे अभी स्टैनफोर्ड मशीन लर्निंग क्लास के लिए उपयोग कर रहा हूं और यह वास्तव में मददगार रहा है। यह रैखिक बीजगणित पैकेज और चार्टिंग क्षमताओं में बनाया गया है। होने के नाते। नेट यह सी # या किसी अन्य। नेट भाषा के साथ विस्तार करने के लिए आसान है। मैंने इसे शुरू करना बहुत आसान पाया है, एक विंडोज़ उपयोगकर्ता होने के नाते, सीधे पायथन और न्यूपी की तुलना में।


8

इससे पहले किसी ने भी ऑरेंज का उल्लेख नहीं किया है :

दृश्य प्रोग्रामिंग या पायथन स्क्रिप्टिंग के माध्यम से डेटा खनन। मशीन सीखने के लिए घटक। जैव सूचना विज्ञान और पाठ खनन के लिए ऐड-ऑन। डेटा एनालिटिक्स के लिए सुविधाओं के साथ पैक किया गया।

मैं इसे दैनिक आधार पर उपयोग नहीं करता हूं, लेकिन यह उन लोगों के लिए अवश्य है जो कमांड लाइन इंटरफेस पर GUI पसंद करते हैं।

यहां तक ​​कि अगर आप बाद वाले को पसंद करते हैं, तो ऑरेंज के साथ परिचित होना एक अच्छी बात है, क्योंकि आप आसानी से ऑरेंज के टुकड़ों को अपनी पायथन लिपियों में आयात कर सकते हैं, अगर आपको इसकी कुछ कार्यक्षमता की आवश्यकता है।


7

ध्यान दें कि SPSS सांख्यिकी में एक एकीकृत पायथन इंटरफ़ेस (भी आर) है। तो आप पायथन प्रोग्राम लिख सकते हैं जो सांख्यिकी प्रक्रियाओं का उपयोग करते हैं और सामान्य रूप से तैयार किए गए सांख्यिकी आउटपुट का उत्पादन करते हैं या आगे के प्रसंस्करण के लिए आपके प्रोग्राम पर परिणाम देते हैं। या आप सांख्यिकी कमांड स्ट्रीम में पायथन प्रोग्राम चला सकते हैं। आपको अभी भी सांख्यिकी कमांड भाषा को जानना है, लेकिन आप सभी डेटा प्रबंधन, प्रस्तुति आउटपुट आदि का लाभ उठा सकते हैं जो सांख्यिकी के साथ-साथ प्रक्रियाओं को प्रदान करता है।


7

DataCamp की हाल की तुलना R और Python के बारे में स्पष्ट तस्वीर प्रदान करती है।

डेटा विश्लेषण क्षेत्र में इन दो भाषाओं का उपयोग। पाइथन का उपयोग आम तौर पर तब किया जाता है जब डेटा विश्लेषण कार्यों को वेब एप्लिकेशन के साथ एकीकृत करने की आवश्यकता होती है या यदि आंकड़े कोड को उत्पादन डेटाबेस में शामिल करने की आवश्यकता होती है। R का उपयोग मुख्य रूप से तब किया जाता है जब डेटा विश्लेषण कार्यों के लिए व्यक्तिगत सर्वर पर स्टैंडअलोन कंप्यूटिंग या विश्लेषण की आवश्यकता होती है।

मुझे यह इस ब्लॉग में इतना उपयोगी लगा और मुझे उम्मीद है कि यह इन दोनों भाषाओं में हाल के रुझानों को समझने में भी दूसरों की मदद करेगा। जूलिया भी क्षेत्र में आ रहा है। उम्मीद है की यह मदद करेगा !


6

मेरा मानना ​​है कि पायथन मेरे क्षेत्र में एक बेहतर कार्यक्षेत्र है। मैं बहुत अधिक स्क्रैपिंग, डेटा की विकरालता, बड़े डेटा कार्य, नेटवर्क विश्लेषण, बायेसियन मॉडलिंग और सिमुलेशन करता हूं। इन सभी चीजों के लिए आमतौर पर गति और लचीलेपन की आवश्यकता होती है इसलिए मुझे लगता है कि इन मामलों में आर से बेहतर काम करने के लिए पायथन है। यहाँ अजगर के बारे में कुछ बातें हैं जो मुझे पसंद हैं (कुछ में ऊपर उल्लेख किया गया है, अन्य बिंदु नहीं हैं):

-क्लीनर सिंटैक्स; अधिक पठनीय कोड। मेरा मानना ​​है कि पायथन एक अधिक आधुनिक और वाक्यविन्यास भाषा है।

-पीथॉन में नोटबुक, इफ्थॉन और कोड शेयरिंग, सहयोग, प्रकाशन के लिए अन्य अद्भुत उपकरण हैं।

-पिथॉन की नोटबुक एक को पायथन कोड में आर का उपयोग करने में सक्षम बनाती है, इसलिए आर पर वापस जाना हमेशा संभव होता है।

सी।, NUMBA, और C एकीकरण के अन्य तरीकों का उपयोग करके सी। संभोग के बिना तेजी से तेजी से शुद्ध सी के साथ तुलना करने के लिए आपके कोड को डाल दिया जाएगा। जहां तक ​​मुझे पता है, आर में हासिल नहीं किया जा सकता है।

-पंडास, नेम्पी, और स्किपी मानक आर पानी से बाहर उड़ाते हैं। हां, कुछ चीजें हैं जो R एक पंक्ति में कर सकता है, लेकिन पंडों को 3 या 4 लेता है। सामान्य तौर पर, हालांकि, पंडास बड़े डेटा सेट को संभाल सकता है, उपयोग करना आसान है, और अन्य पायथन के साथ एकीकरण के संबंध में अविश्वसनीय लचीलापन प्रदान करता है। पैकेज और तरीके।

-पिथॉन अधिक स्थिर है। RStudio में 2gig डेटासेट लोड करने का प्रयास करें।

-एक साफ पैकेज जो ऊपर उल्लिखित नहीं लगता है वह है PyMC3 - आपके अधिकांश बायेसियन मॉडलिंग के लिए महान सामान्य पैकेज।

-इसके अलावा, ऊपर ggplot2 का उल्लेख करें और अजगर से इसकी अनुपस्थिति के बारे में समझें। यदि आपने कभी मतलब की रेखांकन क्रियाओं का उपयोग किया और / या पाइथन में माटप्लोटलिब का उपयोग किया तो आपको पता चल जाएगा कि बाद वाले विकल्प आमतौर पर ggplot2 की तुलना में बहुत अधिक सक्षम होते हैं।

हालांकि, शायद आर सीखना आसान है और मैं अक्सर उन मामलों में इसका उपयोग करता हूं जहां मैं अभी भी मॉडलिंग प्रक्रियाओं से परिचित नहीं हूं। उस मामले में, R की ऑफ-द-शेल्फ सांख्यिकी पुस्तकालयों की गहराई अपराजेय है। आदर्श रूप से, मुझे पता होगा कि दोनों पर्याप्त रूप से आवश्यकता पर उपयोग करने में सक्षम होंगे।


5

उन लोगों के लिए जिन्हें विंडोज के तहत काम करना है, एनाकोंडा ( https://store.continuum.io/cshop/anaconda/ ) वास्तव में बहुत मदद करता है। विंडोज के तहत पैकेज स्थापित करना सिरदर्द था। एनाकोंडा स्थापित होने के साथ, आप एक-लाइनर के साथ एक तैयार-से-उपयोग विकास वातावरण स्थापित कर सकते हैं।

उदाहरण के लिए, साथ

conda create -n stats_env python pip numpy scipy matplotlib pandas

इन सभी पैकेजों को स्वचालित रूप से लाया और स्थापित किया जाएगा।


5

पाइथन के पास आर की तुलना में आने से पहले एक लंबा रास्ता तय करना है। इसमें आर और कम गुणवत्ता की तुलना में काफी कम पैकेज हैं। जो लोग मूल बातें करते हैं या केवल अपने कस्टम पुस्तकालयों पर भरोसा करते हैं, वे शायद पायथन में विशेष रूप से अपना काम कर सकते हैं, लेकिन अगर आप किसी ऐसे व्यक्ति हैं जिसे अधिक उन्नत मात्रात्मक समाधानों की आवश्यकता है, तो मैं यह कहने की हिम्मत करता हूं कि कुछ भी नहीं है जो आर के करीब आता है।

यह भी ध्यान दिया जाना चाहिए कि, तिथि करने के लिए, पायथन के पास आर-स्टूडियो (कृपया स्पाइडर मत कहो) के लिए तुलनीय कोई उचित वैज्ञानिक मतलाब-शैली आईडीई नहीं है और आपको कंसोल पर सब कुछ काम करने की आवश्यकता है। आम तौर पर, पूरे पायथन अनुभव के लिए "गीकनेस" की अच्छी मात्रा की आवश्यकता होती है, जिसमें अधिकांश लोगों की कमी होती है और परवाह नहीं करते हैं।

मुझे गलत मत समझिए, मुझे पायथन से प्यार है, यह वास्तव में मेरी पसंदीदा भाषा है, जो आर के विपरीत, एक वास्तविक प्रोग्रामिंग भाषा है। फिर भी, जब शुद्ध डेटा विश्लेषण की बात आती है, तो मैं आर पर निर्भर हूं, जो अब तक का सबसे विशिष्ट और विकसित समाधान है। जब मैं सॉफ्टवेयर इंजीनियरिंग के साथ डेटा विश्लेषण को संयोजित करने की आवश्यकता होती है, तो मैं पायथन का उपयोग करता हूं, उदाहरण के लिए एक उपकरण बनाता हूं जो उन तरीकों पर स्वचालितता का प्रदर्शन करेगा जो मैंने पहली बार गंदी आर स्क्रिप्ट में प्रोग्राम किए थे। कई मौकों पर मैं Rpy2 का उपयोग R को पायथन से कॉल करने के लिए करता हूं क्योंकि अधिकांश मामलों में R पैकेज बहुत बेहतर होते हैं (या पायथन में मौजूद नहीं होते हैं)। इस तरह मैं दोनों दुनियाओं में सर्वश्रेष्ठ पाने की कोशिश करता हूं।

मैं अभी भी शुद्ध एल्गोरिथ्म के विकास के लिए कुछ मैटलैब का उपयोग करता हूं क्योंकि मुझे इसकी गणितीय-शैली वाक्य रचना और गति से प्यार है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.