वैज्ञानिक साहित्य में "वन-हॉट" एन्कोडिंग को क्या कहा जाता है?

10

ऑपरेटर का नाम क्या है जो एक श्रेणीगत वेक्टर लेता है और इसे एक-गर्म एन्कोडिंग का उपयोग करके द्विआधारी प्रतिनिधित्व में बदल देता है? मैं सोच रहा हूं कि मैं एक वैज्ञानिक पत्र लिख रहा हूं और उसके लिए एक उचित नाम की आवश्यकता है।

terminology categorical-encoding

— fractile
स्रोत

3

डमी एन्कोडिंग एक और नाम है। मशीन लर्निंग में, हर कोई केवल एक सरल प्रकार का उपयोग करता है इसलिए यह बहुत स्पष्ट है कि यह क्या है, लेकिन अन्य प्रकार के कंट्रास्ट कोडिंग (दूसरा नाम) माइनस वाले और अन्य विचारों के साथ होते हैं, जो एक समान भूमिका निभाते हैं, आंकड़ों में उपयोग किया जाता है, और इसी तरह आप कुछ अधिक विशिष्ट हो सकते हैं।

— गिज्स

7

आंकड़े और डेटा विश्लेषण में, मशीन सीखने से बहुत पहले, इस प्रकार के श्रेणीबद्ध एन्कोडिंग को डमी वैरिएबल उर्फ इंडिकेटर टाइप वैरिएबल के रूप में जाना जाता है ।

— ttnphns

18

सांख्यिकीविद् डमी कोडिंग के रूप में एक-हॉट एन्कोडिंग कहते हैं । जैसा कि दूसरों ने सुझाव दिया ( टिप्पणियों में स्कॉर्टची सहित ), यह सटीक पर्याय नहीं है, लेकिन यह वह शब्द है जो आमतौर पर 0-1 एन्कोडेड श्रेणीबद्ध चर के लिए उपयोग किया जाएगा।

यह भी देखें: नाममात्र / श्रेणीबद्ध डेटा के लिए "डमी चर" बनाम "संकेतक चर"

— टिम
स्रोत

3

ओह !! विश्वास नहीं कर सकता कि मैं भूल गया। मैं उन्हें संकेतक के रूप में भी संदर्भित करता हूं।

— टिम एटराइड्स

2

मुझे नहीं लगता कि "डमी कोडिंग" एक अच्छा पर्याय है। इसका उपयोग सामान्य अर्थ में या तो संख्यात्मक चर के सेट के साथ एक श्रेणीगत चर का प्रतिनिधित्व करने के लिए होता है, या "संदर्भ-स्तरीय कोडिंग" के लिए "एक-गर्म एन्कोडिंग" से अलग होता है, उदाहरण के लिए एक-गर्म एन्कोडिंग बनाम डमी एन्कोडिंग के साथ समस्याएं । "स्तर-मतलब कोडिंग" (देखें कि क्या प्रतिगमन मॉडल में "मतलब कोडिंग" (जैसे डमी कोडिंग और प्रभाव कोडिंग) कहा जाता है? ) एक-गर्म एन्कोडिंग को दर्शाता है, लेकिन शायद एक रैखिक मॉडल संदर्भ को भी

— दर्शाता है

2

... सामान्य उपयोग के लिए दृढ़ता से।

— Scortchi - को पुनः स्थापित मोनिका

3

मैंने कभी भी एक परिभाषा नहीं देखी है, लेकिन आंकड़ों में मुझे डमी चर हमेशा (एन -1) चर के साथ एन कारकों के कोडिंग का मतलब है, जबकि एक-गर्म एन्कोडिंग एन चर के साथ एन कारकों को कोड करेगा। व्यवहार में यह अंतर काफी महत्वपूर्ण है। यदि कोई प्रतिगमन के लिए एक-गर्म एन्कोडिंग का उपयोग करता है, तो चर की निर्भरता के कारण किसी को बकवास मिलेगा!

— meh

2

@aginensky हालांकि लोगों को निश्चित रूप से ध्यान देना चाहिए कि उनके पास कौन से चर हैं, एक अच्छा प्रतिगमन दिनचर्या उस परिस्थिति में बकवास नहीं पैदा करेगा: यह सिर्फ एक भविष्यवक्ता को छोड़ देगा और आपको ऐसा बताएगा।

— निक कॉक्स

8

यह आपके लक्षित दर्शकों पर निर्भर करता है।

जैसा कि टिम ने कहा, सांख्यिकीविद् इसे डमी कोडिंग कहते हैं, और यही मैं एक प्रतिगमन मॉडल की तरह कुछ का वर्णन करते समय देखने की उम्मीद करूंगा। "डमी कोडित चर को स्टोर के स्थान के लिए समायोजित करने के लिए शामिल किया गया था।" मुझे लगता है कि इसे वन-हॉट एन्कोडिंग कहना थोड़ा अजीब लगेगा।

हालांकि, जैसा कि एक अन्य टिम ने भी कहा, मशीन लर्निंग साहित्य में एक-गर्म एन्कोडिंग काफी आम है। यह स्पष्ट रूप से नोड्स (एक तंत्रिका नेटवर्क के रूप में), भौतिक तारों (एक उपकरण में), या ऐसा कुछ का अस्तित्व का अर्थ है, कम से कम मेरे लिए।

औपचारिक रूप से, मुझे लगता है कि आप संकेतक फ़ंक्शन का एक सेट लागू कर रहे हैं , लेकिन यह संभवतः एक प्रमाण के बाहर बहुत औपचारिक है। $\mathbb{I}_X$

— मैट क्रूस
स्रोत

6

यह शब्द इलेक्ट्रॉनिक्स इंजीनियरिंग से आया है। जरा सोचिए 1 "हॉट" किसे कहेंगे? केवल वे जो बिजली से काम करते हैं, जहां "गर्म" या "लाइव" का मतलब है कि तार पर विद्युत क्षमता है । "एक गर्म" सर्किट डिजाइन को संदर्भित करता है जहां तारों के एक सेट पर एक तार पर असतत विद्युत संकेत स्तर को डिकोड किया जाएगा। मुझे लगता है कि ईई पृष्ठभूमि वाले कुछ मशीन सीखने वाले लोगों को सादृश्य सम्मोहक मिला।

अर्थमिति और आंकड़ों में आपका सामना dummyया indicatorपरिवर्तन हो सकता है , जो काफी समान हैं क्योंकि इनका उपयोग उनके अलग-अलग संकेतकों के साथ अलग-अलग श्रेणियों का प्रतिनिधित्व करने के लिए किया जाता है। हालांकि एक सूक्ष्म अंतर है। उदाहरण के लिए, आप K श्रेणियों के लिए K-1 डमी बनाते हैं, क्योंकि बेस श्रेणी 0. से सेट सभी डमी से मेल खाती है, इसके विपरीत, मुझे लगता है कि एक गर्म एन्कोडिंग में आपके पास K तार हैं, जहां आधार श्रेणी का अपना तार होगा ( चर)।

— Aksakal
स्रोत

5

मैं सांख्यिकीय रूप से प्रशिक्षित हूं, और हाल ही में मशीन लर्निंग / कंप्यूटर साइंस में "वन-हॉट एन्कोडिंग" के बारे में सुना है। मैंने आमतौर पर केवल एक-हेट मैट्रिक्स को एक डिज़ाइन मैट्रिक्स / डेटा मैट्रिक्स / डिज़ाइन फ़्रेम के रूप में संदर्भित किया है।

— टिम एटराइड्स
स्रोत

क्या आपके पास एक संदर्भ है जो मैं उसके लिए उद्धृत कर सकता हूं? मैं एक वैज्ञानिक प्रकाशन लिख रहा हूं और सभी पाठकों के लिए इस पद्धति के बारे में स्पष्ट करना चाहूंगा क्योंकि कागज एमएल समुदाय के लिए नहीं बल्कि व्यापक है।

— भंगुर

नहीं कह सकता कि मैंने कभी क्रिया के रूप में "वन-हेट" सुना है। लेकिन मैं इसी तरह गणितीय / सांख्यिकीय दिशा से आता हूं। (Google के "वन-हेटड" के परिणाम दिलचस्प हैं - मुझे मशीन सीखने का अर्थ मिलता है और लोग "वन-हेट-अप कार" के बारे में बात करते हैं।)

— माइकल लुगो

3

भौतिक विज्ञान और इंजीनियरिंग में, इसे (सामान्यीकृत) क्रोनकर डेल्टा कहा जाता है ।

सबसे सरल रूप में, क्रॉंकर डेल्टा को start start case के रूप में परिभाषित किया गया है। हालांकि यह सामान्य तौर पर सामान्य रूप से

\begin{aligned} δ_{i, j} \equiv {\begin{cases} 1 & if & i = j \\ 0 & else \end{cases} \end{aligned},

$\begin{align*} {\delta}_{i,j} {\equiv} \begin{cases} 1 &\text{if} & i=j \\ 0 &\text{else} \end{cases} \end{align*},$

\begin{aligned} δ_{[condition]} \equiv {\begin{cases} 1 & if & [condition] \\ 0 & else \end{cases} \end{aligned} .

$\begin{align*} {\delta}_{\left[\text{condition}\right]} {\equiv} \begin{cases} 1 &\text{if} & \left[\text{condition}\right] \\ 0 &\text{else} \end{cases} \end{align*}.$

तो, " " पढ़ने के लिए के रूप में करते हैं जो सबसे यदि लेखक संदर्भ से श्रेणी स्पष्ट है, तो लेखक " " को काट देगा । ${\delta}_{i{\in}\text{category}}$

\begin{aligned} δ_{i \in category} \equiv {\begin{cases} 1 & if & i \in category \\ 0 & else \end{cases} \end{aligned},

$\begin{align*} {\delta}_{i{\in}\text{category}} {\equiv} \begin{cases} 1 &\text{if} & i{\in}\text{category} \\ 0 &\text{else} \end{cases} \end{align*},$

δ_{i}

${\delta}_{i}$

क्रोनकर डेल्टा सिग्मा / पाई / आइंस्टीन / आदि में वास्तव में उपयोगी है । क्योंकि यह शर्तों के लिए सशर्त रूप से निर्दिष्ट करने की अनुमति देता है।

बस आम प्रोग्रामिंग संरचनाओं को यह संबंधित, क्रोनेकर डेल्टा के condition?1:0है, जहां ?:है सशर्त ऑपरेटर ।

स्पर्शरेखा नोट के रूप में, मैं लेखकों को पुराने-फ़ैशन को सामान्यीकृत समकक्ष, पक्ष में छोड़ने के लिए प्रोत्साहित करूंगा । पुराने ढंग के नोटेशन का कोई फायदा नहीं है, जबकि सामान्यीकृत नोटेशन अधिक स्पष्ट और एक्स्टेंसिबल है। ${\delta}_{i,j}$ ${\delta}_{i=j}$

— नेट
स्रोत

मुझे यहाँ लिंक दिखाई नहीं दे रहा है। एक गर्म एक चर में से प्रत्येक अवस्था के लिए एक चर को डीकोड करता है। इस एप्लिकेशन में क्रोनकर डेल्टा का उपयोग कैसे किया जाता है?

— अक्‍सल

{0, 1}

$\left\{0,1\right\}$

δ_{VW}

${\delta}_{\text{VW}}$

δ_{Acura}

${\delta}_{\text{Acura}}$

δ_{Honda}

${\delta}_{\text{Honda}}$

δ_{i, j}

${\delta}_{i,j}$

δ_{CompanyName, VW}

${\delta}_{\text{CompanyName},\text{VW}}$

V W

$VW$

A C U R A

$ACURA$

i = 1.. N

$i=1..N$

V W_{i}

$VW_i$

A C U R A_{i}

$ACURA_i$

i

$i$

C A R_{i}

$CAR_i$

V W_{i} = δ (C A R_{i}, V W)

$VW_i=\delta(CAR_i,VW)$

{V W}_{i}

${VW}_{i}$

{δ_{VW}}_{i}

${{\delta}_{\text{VW}}}_i$

δ_{i \in VW}

${\delta}_{i{\in}\text{VW}}$

i

$i$

1

$1$

0

$0$

2

$1$ $K$

यहाँ पुस्तक से एक उद्धरण है,

$K$ $1$ $K$ $K$ $\textbf{x}$ $x_k$ $1$ $0$ $K = 6$ $x_3 = 1$ $\textbf{x}$

$\textbf{x} = (0, 0, 1, 0, 0, 0)^{T}$

— kedarps
स्रोत