शिकरत में जड़ता का सूत्र सीखना


9

मैं पंडों और स्किटिट लर्न का उपयोग करते हुए अजगर में एक किमी क्लस्टरिंग को कोड करना चाहूंगा। अच्छे कश्मीर का चयन करने के लिए, मैं टीपीशीरानी और अल 2001 ( पीडीएफ ) से गैप स्टेटिस्टिक को कोड करना चाहूंगा ।

मैं जानना चाहूंगा कि क्या मैं scitit से जड़ता_ परिणाम का उपयोग कर सकता हूं और सभी दूरियों की गणना को फिर से शुरू किए बिना अंतराल सांख्यिकीय सूत्र को अनुकूलित कर सकता हूं ।

क्या कोई व्यक्ति scikit में उपयोग किए जाने वाले जड़त्व सूत्र को जानता है / उच्च स्तर की दूरी के कार्यों का उपयोग करके अंतर सांख्यिकीय को फिर से जानने का एक आसान तरीका जानता है?


मुझे लगता है कि इस प्रश्न में सीवी के लिए ऑन-टॉपिक होने के लिए पर्याप्त सांख्यिकीय सामग्री है, लेकिन ध्यान दें कि इसके लिए काफी परिष्कृत प्रोग्रामिंग और पायथन ज्ञान की भी आवश्यकता है। इसका अच्छा जवाब मिलना मुश्किल हो सकता है। आप स्यूडोकोड के लिए भी व्यवस्थित होने के लिए तैयार होना चाहते हैं , और / या आपको इस प्रश्न को 2 भागों में विभाजित करने की आवश्यकता हो सकती है, 1 यहाँ सांख्यिकीय पहलुओं के बारे में और 1 हिस्सा पाइथन प्रोग्रामिंग पहलुओं के बारे में स्टैक ओवरफ्लो पर । (या शायद नहीं, मैं निश्चित रूप से नहीं जानता, लेकिन मैं आपको उचित चेतावनी देना चाहता हूं; हम देखेंगे कि यह कैसे चलता है।)
गंग - मोनिका

1
इस प्रश्न को शब्द "जड़ता" की आवश्यकता है। ऐसा लग रहा है कि इसके भीतर गढ़ा हुआ है python
tnnphns

जवाबों:


6

मुझे लगता है कि मुझे किमीवार क्लस्टरिंग के लिए अपना जवाब मिल गया है:

Git source कोड को देखकर, मैंने पाया कि scikit सीखने के लिए, जड़ता की गणना प्रत्येक बिंदु के निकटतम वर्ग की दूरी के योग के रूप में की जाती है, जो कि उसके निकटतम क्लस्टर है। इसलिएI=i(d(i,cr)) कहाँ पे cr असाइन किए गए क्लस्टर का केंद्रक है और d वर्ग दूरी है।

अब गैप स्टैटिस्टिक का फॉर्मूला शामिल है

Wk=r=1k1(2nr)Dr
कहाँ पे Dr क्लस्टर में सभी बिंदुओं के बीच वर्ग दूरी का योग है r

परिचय देने से +c, c वर्ग दूरी के सूत्र में (c क्लस्टर का केन्द्रक है r निर्देशांक), मेरे पास एक शब्द है जो कि जड़ता से मिलता-जुलता है (जैसा कि scitit में) + एक शब्द जो गायब हो जाता है यदि प्रत्येक cप्रत्येक क्लस्टर का बैरियर है (जो कि किमी में होना चाहिए)। तो मुझे लगता हैWk वास्तव में जड़ता जड़ता है।

मेरे पास अभी भी दो प्रश्न हैं:

  1. क्या आपको लगता है कि मेरा पथरी सही है? (उदाहरण के लिए, मुझे नहीं पता कि यह पदानुक्रमिक क्लस्टरिंग के लिए है।)
  2. अगर मैं ऊपर सही हूं, तो मैंने अंतर सांख्यिकीय (अनुमान और क्लस्टरिंग के बीच लॉग इनर्टिस के अंतर के रूप में) को कोडित किया है और यह विशेष रूप से आईरिस डेटासेट पर बुरी तरह से प्रदर्शन करता है, क्या किसी ने कोशिश की है?

2
अपने उत्तरों में प्रश्नों को न देना सबसे अच्छा है। यदि यह वास्तव में असली सवाल स्पष्ट करने के लिए अपने प्रश्न का उत्तर, लेकिन सिर्फ एक आंशिक समाधान है, यह संपादित करने के लिए बेहतर होगा अपने प्रश्न और में यह जानकारी पेस्ट करें।
गुंग - को पुनः स्थापित मोनिका

1
@ क्रैच क्या आपको आइरिस डेटा सेट पर काम करने के लिए गैप स्टैटिस्टिक का एक अजगर कार्यान्वयन मिला है? मैं उसी मुद्दे से जूझ रहा हूं।
ज़ेलज़नी

हां मैंने कुछ महीने पहले एक कोड किया था। मैं आपको कैसे भेज सकता हूं?
स्क्रैच

1
सूत्र यह नहीं होना चाहिए
Wk=r=1kDr(2nr)
?
बिस्वनाथ
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.