मैं स्वीकार किए गए उत्तर को थोड़ा अर्हता प्राप्त करना और स्पष्ट करना चाहूंगा।
तीन पैकेज एक-दूसरे के पूरक हैं क्योंकि वे विभिन्न क्षेत्रों को कवर करते हैं, अलग-अलग मुख्य उद्देश्य रखते हैं, या मशीन सीखने / सांख्यिकी में विभिन्न क्षेत्रों पर जोर देते हैं।
- पांडा मुख्य रूप से डेटा को सीधे संभालने और संचालित करने के लिए एक पैकेज है।
- scikit-learn अक्सर बड़े और विरल डेटा के साथ भविष्य कहनेवाला मॉडलिंग पर जोर देने के साथ मशीन लर्निंग कर रहा है
- सांख्यिकीमॉडल "पारंपरिक" सांख्यिकी और अर्थमिति कर रहा है, जिसमें पैरामीटर अनुमान और (सांख्यिकीय) परीक्षण पर अधिक जोर दिया गया है।
आँकड़ेमॉडल में एक निर्भरता के रूप में पांडा होते हैं, पांडा कुछ आंकड़ों के लिए वैकल्पिक रूप से सांख्यिकीमॉडल का उपयोग करते हैं। आँकड़ेमॉडल, patsyआर के रूप में मॉडल को एक समान सूत्र इंटरफ़ेस प्रदान करने के लिए उपयोग कर रहा है।
स्किकिट-लर्न और स्टैटमोडेल के बीच मॉडल में कुछ ओवरलैप है, लेकिन विभिन्न उद्देश्यों के साथ। उदाहरण के लिए देखें दो संस्कृति: सांख्यिकी बनाम मशीन सीखने?
सांख्यिकीमॉडल के बारे में कुछ और
सांख्यिकीमॉडल में सबसे कम विकास गतिविधि है और तीनों का सबसे लंबा रिलीज चक्र है। स्टैटमॉडल के कई योगदानकर्ता हैं लेकिन दुर्भाग्य से अभी भी केवल दो "अनुरक्षक" हैं (मैं उनमें से एक हूं।)
स्टैटमोडेल का मूल "प्रोडक्शन रेडी" है: लीनियर मॉडल, मजबूत लीनियर मॉडल, सामान्यीकृत लीनियर मॉडल और असतत मॉडल लगभग कई वर्षों से हैं और स्टाटा और आर के खिलाफ सत्यापित हैं। सांख्यिकीमॉडल में AR, ARMA और VAR (वेक्टर ऑटोर्रिजिव) रिग्रेशन, जो किसी अन्य अजगर पैकेज में उपलब्ध नहीं हैं।
मशीन-लर्निंग दृष्टिकोण के बीच कुछ विशिष्ट अंतर दिखाने के लिए कुछ उदाहरण और आँकड़े-सांख्यिकी में सांख्यिकी और अर्थमिति दृष्टिकोण:
सरल रेखीय प्रतिगमन, OLSमें बड़ी संख्या में आकलन के बाद का विश्लेषण है
http://statsmodels.sourceforge.net/devel/generated/statsmodels.regression.linear_model.OLSReshow.html मापदंडों, बाह्य उपायों और विनिर्देश परीक्षणों पर परीक्षण सहित http: / /statsmodels.sourceforge.net/devel/stats.html#residual-diagnostics-and-specification-tests
लॉजिस्टिक रिग्रेशन को स्टैटमोडल में या तो Logitअसतत मॉडल के रूप में या सामान्यीकृत रैखिक मॉडल ( GLM) में एक परिवार के रूप में किया जा सकता है । http://statsmodels.sourceforge.net/devel/glm.html#module-reference
GLMसामान्य परिवारों में शामिल हैं, असतत मॉडल के अलावा शामिल Logitभी Probit, बहुपद और प्रतिगमन गिनती।
Logit
Logitइस http://statsmodels.sourceforge.net/devel/examples/generated/example_discrete.html का उपयोग करना उतना ही सरल है
>>> import statsmodels.api as sm
>>> x = sm.add_constant(data.exog, prepend=False)
>>> y = data.endog
>>> res1 = sm.Logit(y, x).fit()
Optimization terminated successfully.
Current function value: 0.402801
Iterations 7
>>> print res1.summary()
Logit Regression Results
==============================================================================
Dep. Variable: y No. Observations: 32
Model: Logit Df Residuals: 28
Method: MLE Df Model: 3
Date: Sat, 26 Jan 2013 Pseudo R-squ.: 0.3740
Time: 07:34:59 Log-Likelihood: -12.890
converged: True LL-Null: -20.592
LLR p-value: 0.001502
==============================================================================
coef std err z P>|z| [95.0% Conf. Int.]
------------------------------------------------------------------------------
x1 2.8261 1.263 2.238 0.025 0.351 5.301
x2 0.0952 0.142 0.672 0.501 -0.182 0.373
x3 2.3787 1.065 2.234 0.025 0.292 4.465
const -13.0213 4.931 -2.641 0.008 -22.687 -3.356
==============================================================================
>>> dir(res1)
...
>>> res1.predict(x.mean(0))
0.25282026208742708