"आइरिस" डेटा सेट के कौन से पहलू इसे उदाहरण / शिक्षण / परीक्षण डेटा सेट के रूप में सफल बनाते हैं


28

"आइरिस" डाटासेट शायद यहां ज्यादातर लोगों के लिए परिचित है - यह विहित परीक्षण डेटा सेट में से एक और डेटा दृश्य से मशीन सीखने के लिए सब कुछ के लिए एक उदाहरण के जाने के लिए डाटासेट है। उदाहरण के लिए, इस प्रश्न में सभी ने उपचार द्वारा अलग किए गए स्कैप्लेट्स की चर्चा के लिए इसका उपयोग किया।

आइरिस डेटा सेट क्या उपयोगी है? बस इतना है कि यह पहले वहाँ था? यदि कोई उपयोगी उदाहरण / परीक्षण डेटा सेट बनाने की कोशिश कर रहा था , तो वे इससे क्या सबक ले सकते हैं?


13
छोटा लेकिन तुच्छ नहीं। सरल लेकिन चुनौतीपूर्ण। वास्तविक डेटा। फिशर की प्रतिष्ठा, हालांकि यह उसका डेटा नहीं है। परंपरा। जड़ता। निरंतरता। आप इसे बाहर वर्तनी के लिए फूल चित्र पा सकते हैं।
निक कॉक्स

और अब यह घड़ी की तरह चलता है।
माइकल एम

मैं कहूंगा कि @NickCox निशान पर सही है।
मार्क क्लेसेन 20

@NickCox जवाब के रूप में उस पर थोड़ा विस्तार करना चाहते हैं?
18

6
'आईरिस' डेटासेट का उपयोग विभेदक विश्लेषण के लिए किया जा सकता है, साथ ही उदाहरण के लिए अप्रकाशित वर्गीकरण (मॉडल-आधारित या मॉडल-मुक्त क्लस्टरिंग)। यह प्रश्न क्रॉस-रेफ़रेंस के योग्य है कि सांख्यिकीय विश्लेषण के विशेष पहलुओं को स्पष्ट करने के लिए अच्छे डेटासेट क्या हैं?
CHL

जवाबों:


40

आइरिस डाटासेट यथायोग्य व्यापक रूप से विशेष रूप से सांख्यिकीय ग्राफिक्स, मल्टीवेरिएट सांख्यिकी और मशीन सीखने में विभिन्न समस्याओं को दर्शाता हुआ के लिए, सांख्यिकीय विज्ञान प्रयोग किया जाता है।

  • 150 टिप्पणियों से युक्त, यह छोटा है लेकिन तुच्छ नहीं है।

  • यह कार्य आइरिस की तीन प्रजातियों के बीच भेदभाव करने के लिए उनके पंखुड़ियों और सीपल्स के माप से होता है, सरल लेकिन चुनौतीपूर्ण है।

  • डेटा वास्तविक डेटा हैं, लेकिन स्पष्ट रूप से अच्छी गुणवत्ता के हैं। सिद्धांत रूप में और व्यवहार में, परीक्षण डेटासेट सिंथेटिक हो सकता है और यह एक बिंदु बनाने के लिए आवश्यक या उपयोगी हो सकता है। फिर भी, कुछ लोगों को वास्तविक डेटा पर आपत्ति है।

  • डेटा का इस्तेमाल 1936 में प्रतिष्ठित ब्रिटिश सांख्यिकीविद् रोनाल्ड फिशर द्वारा किया गया था। (बाद में उन्हें सर रोनाल्ड कर दिया गया और सर रोनाल्ड हो गए।) कम से कम कुछ शिक्षकों को किसी के लिंक के साथ एक डेटासेट के विचार पसंद हैं, जो क्षेत्र के भीतर बहुत प्रसिद्ध है। डेटा मूल रूप से सांख्यिकीय रूप से दिमाग वाले वनस्पति विज्ञानी एडगर एस एंडरसन द्वारा प्रकाशित किए गए थे, लेकिन यह पहले की उत्पत्ति एसोसिएशन को कम नहीं करता है।

  • कुछ प्रसिद्ध डेटासेट का उपयोग करना हम उन परंपराओं में से एक है, जिसे हम प्रत्येक नई पीढ़ी को बता रहे हैं कि छात्र ने गिनीज के लिए काम किया या कई प्रसिद्ध सांख्यिकीविद एक-दूसरे के साथ बाहर हो गए। यह जड़ता की तरह लग सकता है, लेकिन पुराने और नए तरीकों की तुलना में, और किसी भी विधि का मूल्यांकन करने में, उन्हें अक्सर ज्ञात डेटासेट पर आज़माने में मददगार माना जाता है, इस प्रकार हम कुछ तरीकों को बनाए रखते हैं।

  • अंतिम, लेकिन कम से कम, आइरिस डाटासेट को संबंधित फूलों के चित्रों के साथ मज़बूती से जोड़ा जा सकता है, जैसे कि डेटासेट पर उपयोगी विकिपीडिया प्रविष्टि

ध्यान दें। ध्यान से संबंधित पौधों का हवाला देते हुए जैविक शुद्धता के लिए अपनी बिट करें। आइरिस सेटोसा , आइरिस वर्सिकोलर और आइरिस वर्जिनिका तीन प्रजातियां हैं (कुछ सांख्यिकीय खातों की तरह किस्में नहीं); उनके द्विपक्षों को इटैलिक में प्रस्तुत किया जाना चाहिए, जैसा कि यहां; और आईरिस जीनस नाम के रूप में और अन्य प्रजातियों को इंगित करने वाले नामों को क्रमशः ऊपरी और निचले मामले से शुरू होना चाहिए।


3
(+1) उत्तर में अपनी टिप्पणी का अच्छी तरह से विस्तार करने के लिए धन्यवाद।
कार्डिनल

5
अगर मैं जैविक शुद्धता के लिए एक रियायती स्टैंड के लिए एक अतिरिक्त +1 दे सकता हूं।
फोमाइट

6

डेटासेट गैर-तुच्छ होने के लिए बड़ा और दिलचस्प है, लेकिन "आपकी जेब में फिट" होने के लिए पर्याप्त छोटा है, और इसके साथ प्रयोग धीमा नहीं है।

मुझे लगता है कि एक महत्वपूर्ण पहलू यह है कि यह ओवर-फिटिंग के बारे में भी सिखाता है। एक पूर्ण स्कोर देने के लिए पर्याप्त कॉलम नहीं हैं: हम इसे तुरंत देखते हैं जब हम स्कैल्प्लॉट्स को देखते हैं, और वे एक-दूसरे को ओवरलैप करते हैं और चलाते हैं। इसलिए किसी भी मशीन-सीखने के दृष्टिकोण को एक आदर्श स्कोर माना जाता है जिसे संदिग्ध माना जा सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.