फीचर और लेबल में क्या अंतर है?


100

मैं मशीन लर्निंग बेसिक्स के बारे में एक ट्यूटोरियल का अनुसरण कर रहा हूं और इसमें उल्लेख किया गया है कि कुछ एक सुविधा या एक लेबल हो सकता है ।

मुझे जो पता है, उससे एक विशेषता डेटा का एक गुण है जिसका उपयोग किया जा रहा है। मैं यह नहीं जान सकता कि लेबल क्या है, मैं शब्द का अर्थ जानता हूं, लेकिन मैं यह जानना चाहता हूं कि मशीन सीखने के संदर्भ में इसका क्या मतलब है।


विशेषताएँ इनपुट के रूप में उपयोग किए जाने वाले क्षेत्र हैं और लेबल का उपयोग आउटपुट के रूप में किया जाता है। एक सरल उदाहरण के रूप में, इस बात पर विचार करें कि कैसे भविष्यवाणी की जाए कि किसी को कार के माइलेज, वर्ष, आदि के आधार पर कार बेचनी चाहिए। हां / नहीं यह लेबल है जबकि माइलेज और वर्ष की विशेषताएं होंगी।
amcneil206

जवाबों:


200

संक्षेप में, सुविधा इनपुट है; लेबल आउटपुट है। यह वर्गीकरण और प्रतिगमन समस्याओं दोनों पर लागू होता है।

आपके इनपुट सेट में एक फीचर डेटा का एक कॉलम होता है। उदाहरण के लिए, यदि आप किसी के पालतू जानवर के प्रकार का अनुमान लगाने की कोशिश कर रहे हैं, तो आपकी इनपुट विशेषताओं में उम्र, गृह क्षेत्र, परिवार की आय आदि शामिल हो सकते हैं। लेबल अंतिम पसंद है, जैसे कि कुत्ते, मछली, इगुआना, रॉक, आदि। आदि।

एक बार जब आप अपने मॉडल को प्रशिक्षित कर लेते हैं, तो आप इसे उन विशेषताओं वाले नए इनपुट के सेट दे देंगे; यह उस व्यक्ति के लिए अनुमानित "लेबल" (पालतू प्रकार) वापस कर देगा।


1
तो [आयु, गृह क्षेत्र, परिवार की आय] "3 फ़ीचर वैक्टर" होंगे। और केरस में, आपके LSTM नेटवर्क के लिए आपका NumPy सरणी [नमूने, समय के चरण, 3] होगा?
naisanza

1
@naisanza: यह निश्चित रूप से एक संभावना है। मैं केरस से परिचित नहीं हूं, लेकिन यह उच्च-स्तरीय संगठन निश्चित रूप से एक वैध कार्यान्वयन की शुरुआत हो सकती है।
प्रून

सुविधा और चर एक ही बात है?
देबदत्त

मैं बताना चाहूंगा कि "लेबल" भी संदर्भ पर निर्भर है; उदाहरण के लिए, एक मॉडल को प्रशिक्षित करने के लिए, आप "लेबल" डेटा का उपयोग करेंगे। इस स्थिति में, लेबल जमीनी सच्चाई है जिससे आपके आउटपुट डेटा की तुलना की जाती है।
एन। अतलसोव

वाह। महान जवाब, धन्यवाद इस विषय अंतरिक्ष पर सुस्त सवालों का एक बहुत साफ करता है।
एंड्रयू रे

31

फ़ीचर:

मशीन लर्निंग फीचर में आपके प्रशिक्षण डेटा की संपत्ति का मतलब है। या आप अपने प्रशिक्षण डेटासेट में एक कॉलम नाम कह सकते हैं।

मान लीजिए कि यह आपका प्रशिक्षण डेटासेट है

Height   Sex   Age
 61.5     M     20
 55.5     F     30
 64.5     M     41
 55.5     F     51
 .     .     .
 .     .     .
 .     .     .
 .     .     .

फिर यहाँ Height, Sexऔर Ageविशेषताएं हैं।

लेबल:

प्रशिक्षण के बाद आपके मॉडल से जो आउटपुट मिलता है, उसे लेबल कहा जाता है।

मान लीजिए कि आपने उपर्युक्त डेटासेट को कुछ एल्गोरिथ्म में खिलाया है और लिंग या पुरुष के रूप में भविष्यवाणी करने के लिए एक मॉडल तैयार करता है। ऊपर दिए गए मॉडल में आप जैसे हैं age, heightआदि।

इसलिए गणना करने के बाद, यह लिंग को नर या मादा के रूप में लौटाएगा। वह लेबल कहलाता है


5

यहां अवधारणा को समझाने के लिए अधिक दृश्य दृष्टिकोण आता है। कल्पना कीजिए कि आप एक फोटो में दिखाए गए जानवर को वर्गीकृत करना चाहते हैं।

जानवरों की संभावित कक्षाएं उदाहरण के लिए बिल्ली या पक्षी हैं। उस मामले में लेबल संभव वर्ग संघों होगा जैसे बिल्ली या पक्षी, जो आपके मशीन लर्निंग एल्गोरिदम की भविष्यवाणी करेगा।

सुविधाओं पैटर्न, रंग, रूपों है कि आपकी छवियों जैसे furr, पंख, या अधिक निम्न स्तर व्याख्या, पिक्सेल मूल्यों का हिस्सा हैं।

चिड़िया लेबल: बर्ड
फीचर्स: पंख

बिल्ली

लेबल: बिल्ली
विशेषताएं: गड़गड़ाहट


5

आइए एक उदाहरण लेते हैं जहां हम हस्तलिखित तस्वीरों का उपयोग करके वर्णमाला का पता लगाना चाहते हैं। हम कार्यक्रम में इन नमूना छवियों को खिलाते हैं और कार्यक्रम इन छवियों को उन विशेषताओं के आधार पर वर्गीकृत करता है जो उन्हें मिली थीं।

इस संदर्भ में एक विशेषता का एक उदाहरण है: पत्र 'C'को एक अवतल के समान माना जा सकता है।

अब एक सवाल यह उठता है कि इन सुविधाओं को कैसे स्टोर किया जाए। हमें उनका नाम लेना चाहिए। यहाँ उस लेबल की भूमिका है जो अस्तित्व में आता है। ऐसी विशेषताओं के लिए उन्हें अन्य विशेषताओं से अलग करने के लिए एक लेबल दिया जाता है।

इस प्रकार, हम इनपुट के रूप में सुविधाएँ प्रदान करने पर आउटपुट के रूप में लेबल प्राप्त करते हैं ।

लेबल अप्रमाणित शिक्षा से जुड़े नहीं हैं ।


4

शर्त: मूल सांख्यिकी और एमएल के लिए जोखिम (रैखिक प्रतिगमन)

इसका उत्तर एक वाक्य में दिया जा सकता है -

वे एक जैसे हैं लेकिन उनकी परिभाषा आवश्यकताओं के अनुसार बदल जाती है।

व्याख्या

मुझे अपने कथन की व्याख्या करें। मान लीजिए कि आपके पास एक डेटासेट है, इस उद्देश्य पर विचार करें exercise.csv। डेटासेट में प्रत्येक कॉलम को सुविधाओं के रूप में कहा जाता है। लिंग, आयु, ऊंचाई, हृदय गति, Body_temp और कैलोरी विभिन्न स्तंभों में से एक हो सकती हैं। प्रत्येक स्तंभ अलग-अलग विशेषताओं या संपत्ति का प्रतिनिधित्व करता है।

exercise.csv

User_ID  Gender Age  Height  Weight Duration    Heart_Rate  Body_Temp   Calories
14733363 male   68  190.0   94.0    29.0           105.0    40.8        231.0
14861698 female 20  166.0   60.0    14.0            94.0    40.3        66.0
11179863 male   69  179.0   79.0    5.0             88.0    38.7        26.0

समझ को ठोस बनाने और पहेली को साफ करने के लिए हम दो अलग-अलग समस्याओं (भविष्यवाणी मामले) को लेते हैं।

CASE1: इस मामले में हम प्रयोग करने पर विचार कर सकते हैं - व्यायाम के दौरान जलाए गए कैलोरी का अनुमान लगाने के लिए लिंग, ऊँचाई और वजन। यह भविष्यवाणी (वाई) कैलोरी यहाँ एक लेबल हैकैलोरी वह कॉलम है जिसे आप विभिन्न विशेषताओं का उपयोग करके भविष्यवाणी करना चाहते हैं जैसे - X1: लिंग, x2: ऊंचाई और x3: वजन

CASE2: यहां दूसरे मामले में हम एक सुविधा के रूप में जेंडर और वेट का उपयोग करके हार्ट_रेट की भविष्यवाणी करना चाहते हैं। यहाँ Heart_Rate एक लेबल है जो सुविधाओं का उपयोग करके पूर्वानुमानित है - X1: लिंग और x2: वजन

एक बार जब आप उपरोक्त स्पष्टीकरण को समझ गए हैं तो आप वास्तव में लेबल और विशेषताओं के साथ भ्रमित नहीं होंगे।


3

संक्षिप्त रूप से समझाया गया एक फीचर इनपुट होगा जो आपने सिस्टम को खिलाया है और लेबल वह आउटपुट होगा जिसकी आप अपेक्षा कर रहे हैं। उदाहरण के लिए, आपने एक कुत्ते की कई विशेषताओं को खिलाया है जैसे उसकी ऊंचाई, फर का रंग, आदि, इसलिए कंप्यूटिंग के बाद, यह उस कुत्ते की नस्ल को वापस कर देगा जिसे आप जानना चाहते हैं।


0

मान लीजिए कि आप जलवायु की भविष्यवाणी करना चाहते हैं तो आपको दी जाने वाली सुविधाएँ ऐतिहासिक जलवायु डेटा, वर्तमान मौसम, तापमान, हवा की गति, आदि होंगी और लेबल महीनों होंगे। उपरोक्त संयोजन भविष्यवाणियों को प्राप्त करने में आपकी सहायता कर सकता है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.