मैं अन्य जवाबों की सराहना करता हूं, लेकिन मुझे लगता है कि कुछ टोपोलॉजिकल बैकग्राउंड ने प्रतिक्रियाओं को बहुत जरूरी संरचना दी है।
परिभाषाएं
आइए डोमेन की परिभाषाएँ स्थापित करने के साथ शुरू करें:
श्रेणीगत चर वह है जिसके डोमेन में तत्व होते हैं, लेकिन उनके बीच कोई ज्ञात संबंध नहीं है (इस प्रकार हमारे पास केवल श्रेणियां हैं)। उदाहरण, संदर्भ पर निर्भर करते हैं, लेकिन मैं सामान्य मामले में कहूंगा, सप्ताह के दिनों की तुलना करना मुश्किल है: सोमवार रविवार से पहले है, यदि हां, तो अगले सोमवार के बारे में क्या है? शायद एक आसान, लेकिन कम इस्तेमाल किया जाने वाला उदाहरण कपड़े के टुकड़े हैं: कुछ संदर्भ प्रदान किए बिना जो एक आदेश की भावना पैदा करेगा, यह कहना मुश्किल है कि क्या जंपर्स से पहले पतलून आते हैं या इसके विपरीत।
क्रमिक चर वह है जिसका कुल आदेश डोमेन पर परिभाषित होता है, अर्थात डोमेन के प्रत्येक दो तत्वों के लिए, हम बता सकते हैं कि या तो वे समान हैं, या एक दूसरे से बड़ा है। एक लिकिएंट-स्केल ऑर्डिनल वेरिएबल की परिभाषा का एक अच्छा उदाहरण है। "कुछ हद तक सहमत" निश्चित रूप से "असहमत" की तुलना में "दृढ़ता से सहमत" के करीब है।
अंतराल चर एक है, जिसका डोमेन तत्वों (एक मीट्रिक ) के बीच की दूरी को परिभाषित करता है , इस प्रकार हमें अंतराल को परिभाषित करने की अनुमति देता है।
डोमेन उदाहरण
जैसा कि सबसे आम सेट जो हम उपयोग करते हैं, प्राकृतिक और वास्तविक संख्याओं में मानक कुल आदेश और मीट्रिक हैं। यही कारण है कि जब हम अपनी श्रेणियों को नंबर असाइन करते हैं तो हमें सावधान रहने की आवश्यकता होती है। यदि हम आदेश और दूरी की अवहेलना करने के लिए सावधान नहीं हैं, तो हम व्यावहारिक रूप से अंतराल डेटा में अपने श्रेणीबद्ध डेटा को परिवर्तित करते हैं। जब कोई यह जानने के बिना मशीन लर्निंग एल्गोरिदम का उपयोग करता है, तो कोई अनिच्छा से इस तरह की धारणाएं बनाता है, इस प्रकार संभावित रूप से किसी के स्वयं के परिणामों को अमान्य करता है। उदाहरण के लिए, सबसे लोकप्रिय गहरे शिक्षण एल्गोरिदम वास्तविक संख्या के साथ काम करते हैं जो उनके अंतराल और निरंतर गुणों का लाभ उठाते हैं। एक और उदाहरण, 5-पॉइंट लिकेर्ट स्केल के बारे में सोचें, और हम उन पर कैसे विश्लेषण लागू करते हैं, यह मानता है कि आपस में सहमति और सहमति के बीच की दूरीअसहमति के समान है और न ही सहमत है और न ही असहमत है । ऐसे रिश्ते के लिए एक मामला बनाना मुश्किल है।
एक और सेट जो हम अक्सर काम करते हैं वह है स्ट्रिंग्स । स्ट्रिंग स्ट्रिंग समानता मैट्रिक्स की एक संख्या है जो स्ट्रिंग्स के साथ काम करते समय काम में आती है। हालांकि, ये हमेशा उपयोगी नहीं होते हैं। उदाहरण के लिए, पते के लिए, जॉन स्मिथ स्ट्रीट और जॉन स्मिथ रोड, स्ट्रिंग समानता के संदर्भ में काफी करीब हैं, लेकिन स्पष्ट रूप से दो अलग-अलग संस्थाओं का प्रतिनिधित्व करते हैं जो मीलों अलग हो सकते हैं।
सारांश आँकड़े
ठीक है, अब देखते हैं कि इसमें कुछ सारांश आंकड़े कैसे फिट होते हैं। चूंकि आंकड़े संख्याओं के साथ काम करते हैं, इसके कार्यों को अंतराल पर अच्छी तरह से परिभाषित किया गया है। लेकिन आइए उदाहरण देखें कि क्या हम उन्हें श्रेणीबद्ध या क्रमिक डेटा के लिए सामान्य कर सकते हैं:
- मोड - दोनों जब श्रेणीबद्ध और क्रमिक डेटा के साथ काम कर रहे हैं, हम बता सकते हैं कि किस तत्व का सबसे अधिक उपयोग किया जाता है। तो हमारे पास यह है। फिर हम उन सभी अन्य उपायों को भी प्राप्त कर सकते हैं जो @Maddenker अपने उत्तर में सूचीबद्ध करते हैं। @ गंग का आत्मविश्वास अंतराल भी उपयोगी हो सकता है।
- माध्यिका - जैसा कि @ पीटर-फ्लॉम कहते हैं, जब तक आपके पास एक आदेश है, आप अपने माध्य को प्राप्त कर सकते हैं।
- मतलब है , लेकिन यह भी मानक विचलन, प्रतिशत, आदि - आप केवल दूरी के मीट्रिक की आवश्यकता के कारण अंतराल डेटा के साथ ये प्राप्त करते हैं।
डेटा संदर्भ का उदाहरण
अंत में, मैं फिर से जोर देना चाहता हूं कि आपके डेटा पर आपके द्वारा परिभाषित आदेश और मैट्रिक्स बहुत प्रासंगिक हैं। यह अब तक स्पष्ट होना चाहिए, लेकिन मैं आपको एक अंतिम उदाहरण देता हूं: भौगोलिक स्थानों के साथ काम करते समय, हमारे पास दृष्टिकोण करने के लिए बहुत से अलग तरीके हैं:
- यदि हम उनके बीच की दूरी में रुचि रखते हैं, तो हम उनके जियोलोकेशन के साथ काम कर सकते हैं, जो मूल रूप से हमें दो आयामी संख्यात्मक स्थान देता है, इस प्रकार अंतराल।
- यदि हम उनके संबंधों के भाग में रुचि रखते हैं , तो हम कुल आदेश को परिभाषित कर सकते हैं (जैसे एक सड़क एक शहर का हिस्सा है, दो शहर समान हैं, एक महाद्वीप में एक देश शामिल है)
- अगर हम इस बात में रुचि रखते हैं कि क्या दो तार एक ही पते का प्रतिनिधित्व करते हैं, तो हम कुछ स्ट्रिंग दूरी के साथ काम कर सकते हैं जो वर्तनी की गलतियों और शब्दों की अदला-बदली को बर्दाश्त करेंगे, लेकिन विभिन्न शब्दों और नामों को अलग करना सुनिश्चित करेंगे। यह एक आसान बात नहीं है, लेकिन सिर्फ मामला बनाने के लिए।
- अन्य उपयोग के बहुत सारे मामले हैं, हम सभी का सामना रोजाना होता है, जहां इसका कोई मतलब नहीं है। उनमें से कुछ में सिर्फ अलग-अलग श्रेणियों के रूप में पते का इलाज करने के अलावा और कुछ नहीं है, दूसरों में यह बहुत स्मार्ट डेटा मॉडलिंग और प्रीप्रॉफ़िंग के लिए नीचे आता है।