एक निरंतर भविष्यवक्ता चर को तोड़ने से क्या लाभ है?


78

मैं सोच रहा हूं कि एक मॉडल में उपयोग करने से पहले एक निरंतर भविष्य कहनेवाला चर लेने और इसे (जैसे, क्विंटलों में) तोड़ने का क्या मूल्य है।

यह मुझे लगता है कि चर को कम करके हम जानकारी खो देते हैं।

  • क्या यह सिर्फ इतना है कि हम गैर-रैखिक प्रभाव मॉडल कर सकते हैं?
  • यदि हमने चर को जारी रखा है और यह वास्तव में एक सीधा रैखिक संबंध नहीं है तो क्या हमें डेटा को सबसे अच्छी तरह फिट करने के लिए किसी तरह के वक्र के साथ आने की आवश्यकता होगी?

12
1) नहीं। आप सही हैं कि बिनिंग जानकारी खो देता है। संभव हो तो इससे बचना चाहिए। 2) आम तौर पर, वक्र फ़ंक्शन जो डेटा के पीछे सिद्धांत के अनुरूप है, को प्राथमिकता दी जाती है।
O_Devinyak

8
मुझे लाभों के बारे में पता नहीं है, लेकिन कई व्यापक रूप से मान्यता प्राप्त खतरे हैं
ग्लेन_ब

2
इस अवसर पर एक अनिच्छुक तर्क: यह नैदानिक ​​व्याख्या और परिणामों की प्रस्तुति को सरल बना सकता है - जैसे। रक्तचाप अक्सर एक द्विघात भविष्यवक्ता होता है और एक चिकित्सक निम्न, सामान्य और उच्च बीपी के लिए कटऑफ के उपयोग का समर्थन कर सकता है और इन व्यापक समूहों की तुलना करने में दिलचस्पी ले सकता है।
user20650

4
@ user20650: मुझे पूरा यकीन है कि मैं आपको समझ नहीं पाया, लेकिन बेहतर होगा कि आप जो सबसे अच्छा मॉडल फिट कर सकें, और फिर उस मॉडल के पूर्वानुमानों का उपयोग करके कुछ भी बोलें जो आप व्यापक समूहों के बारे में कहना चाहते हैं? मेरे अध्ययन में 'हाई ब्लड-प्रेशर ग्रुप' को सामान्य आबादी की तरह दबावों का समान वितरण जरूरी नहीं होगा, इसलिए उनके परिणाम सामान्य नहीं होंगे।
Scortchi

7
सरलीकृत नैदानिक ​​व्याख्या एक मृगतृष्णा है। वर्गीकृत निरंतर चर से प्रभाव अनुमानों की कोई ज्ञात व्याख्या नहीं है।
फ्रैंक हरेल

जवाबों:


64

तुम दोनों मायने में सही हो। फ्रैंक Harrell के पृष्ठ देखें यहाँ सतत चर binning के साथ समस्याओं की एक लंबी सूची के लिए। यदि आप कुछ डिब्बे का उपयोग करते हैं तो आप भविष्यवाणियों में बहुत सारी जानकारी फेंक देते हैं; यदि आप कई का उपयोग करते हैं, तो आप एक सरल, जो कि रैखिक नहीं होना चाहिए, संबंध, और स्वतंत्रता की बहुत सारी डिग्री का उपयोग करते हैं, में विगल्स फिट करते हैं। आमतौर पर भविष्यवाणियों के लिए बहुपद ( ) या स्प्लिन्स (आसानी से जुड़ने वाले पॉलीमोनियल) का उपयोग करना बेहतर होता है । बिनिंग का वास्तव में केवल एक अच्छा विचार है, जब आप कट-पॉइंट्स पर प्रतिक्रिया में एक असंतोष की उम्मीद करेंगे - कहते हैं कि तापमान कुछ उबलता है, या ड्राइविंग के लिए कानूनी उम्र, और जब प्रतिक्रिया उनके बीच सपाट होती है ..एक्स+एक्स2+...

मान? - यह, इसके बारे में सोचने के बिना वक्रता को ध्यान में रखने का एक त्वरित और आसान तरीका है, और जो आप इसके लिए उपयोग कर रहे हैं उसके लिए मॉडल काफी अच्छा हो सकता है। जब आप पूर्वानुमानकर्ताओं की संख्या की तुलना में बहुत सारा डेटा प्राप्त करते हैं, तो यह सब ठीक काम करता है, प्रत्येक भविष्यवक्ता को बहुत सारी श्रेणियों में विभाजित किया जाता है; इस मामले में प्रत्येक भविष्यवक्ता बैंड के भीतर प्रतिक्रिया की सीमा छोटी होती है और औसत प्रतिक्रिया सटीक रूप से निर्धारित होती है।

[टिप्पणियों के जवाब में संपादित करें:

कभी-कभी एक निरंतर चर के लिए एक क्षेत्र के भीतर मानक कट-ऑफ का उपयोग किया जाता है: जैसे कि दवा रक्तचाप में निम्न, मध्यम या उच्च के रूप में वर्गीकृत किया जा सकता है। जब आप मॉडल प्रस्तुत करते हैं या लागू करते हैं तो ऐसे कट-ऑफ का उपयोग करने के कई अच्छे कारण हो सकते हैं। विशेष रूप से, निर्णय नियम अक्सर एक मॉडल में जाने की तुलना में कम जानकारी पर आधारित होते हैं, और लागू करने के लिए सरल होने की आवश्यकता हो सकती है। लेकिन यह इस बात का पालन नहीं करता है कि जब आप मॉडल फिट करते हैं, तो भविष्यवाणियों को दूर करने के लिए ये कट-ऑफ उपयुक्त हैं।

मान लीजिए कुछ प्रतिक्रिया रक्तचाप के साथ लगातार बदलती रहती है। यदि आप अपने अध्ययन में एक उच्च रक्तचाप समूह को भविष्यवक्ता के रूप में परिभाषित करते हैं, तो आप जिस प्रभाव का अनुमान लगा रहे हैं, वह उस समूह के व्यक्तियों के विशेष रक्तचाप पर औसत प्रतिक्रिया है। यह नहीं हैएक अन्य अध्ययन में उच्च रक्तचाप वाले लोगों की औसत प्रतिक्रिया या किसी अन्य अध्ययन में उच्च रक्तचाप समूह के लोगों की औसत प्रतिक्रिया का अनुमान है, जब तक कि आप इसे बनाने के लिए विशिष्ट उपाय नहीं करते हैं। यदि सामान्य आबादी में रक्तचाप का वितरण ज्ञात है, जैसा कि मैं कल्पना करता हूं, तो आप सामान्य जनसंख्या में उच्च रक्तचाप वाले लोगों की औसत प्रतिक्रिया की गणना बेहतर तरीके से करेंगे, जो रक्तचाप के रूप में मॉडल से भविष्यवाणियों के आधार पर होती हैं। लगातार बदलने वाला। क्रूड बिनिंग आपके मॉडल को केवल सामान्य बनाने योग्य बनाता है।

सामान्य तौर पर, यदि आपके पास कट-ऑफ के बीच प्रतिक्रिया के व्यवहार के बारे में प्रश्न हैं, तो सबसे अच्छा मॉडल फिट करें जो आप पहले कर सकते हैं, और फिर उन्हें जवाब देने के लिए इसका उपयोग कर सकते हैं।]

[प्रस्तुति के संबंध में; मुझे लगता है कि यह एक लाल हेरिंग है:

(1) प्रस्तुति में आसानी मॉडलिंग के बुरे फैसलों को सही नहीं ठहराती है। (और उन मामलों में जहां बिनिंग एक अच्छा मॉडलिंग निर्णय है, इसे अतिरिक्त औचित्य की आवश्यकता नहीं है।) निश्चित रूप से यह स्वयं स्पष्ट है। कोई भी कभी भी एक मॉडल से एक महत्वपूर्ण बातचीत करने की सिफारिश नहीं करता है क्योंकि यह पेश करना मुश्किल है।

(2) आप जिस भी प्रकार के मॉडल को फिट करते हैं, आप अभी भी श्रेणियों के संदर्भ में इसके परिणाम प्रस्तुत कर सकते हैं यदि आपको लगता है कि यह व्याख्या की सहायता करेगा। हालांकि ...

(3) आपको यह सुनिश्चित करने के लिए सावधान रहना होगा कि यह ऊपर दिए गए कारणों के लिए गलत व्याख्या में सहायता नहीं करता है।

(४) गैर-रेखीय प्रतिक्रियाओं को प्रस्तुत करना वास्तव में कठिन नहीं है। व्यक्तिगत राय, स्पष्ट रूप से, और दर्शक अलग-अलग होते हैं; लेकिन मैंने कभी भी किसी के लिए फिटेड रिस्पांस वैल्यूज का कोई ग्राफ नहीं देखा है। इंटरैक्शन, लॉगिट्स, रैंडम इफेक्ट्स, मल्टीकोलिनरिटी, ... - ये सब समझाने के लिए बहुत कठिन हैं।]

[@ रोलैंड द्वारा लाया गया एक अतिरिक्त बिंदु भविष्यवक्ताओं की माप की सटीकता है; वह सुझाव दे रहा है, मुझे लगता है, कि श्रेणीकरण उचित हो सकता है जब वे विशेष रूप से सटीक नहीं होते हैं। सामान्य ज्ञान का सुझाव हो सकता है कि आप मामलों को फिर से ठीक करके उन्हें कम सटीक बताते हुए सुधार नहीं करते हैं, और सामान्य ज्ञान सही होगा: MacCallum et al (2002), "क्वांटिटेटिव वेरिएबल्स के द्विअर्थीकरण के अभ्यास पर", मनोवैज्ञानिक तरीके , 7 । 1, पीपी 17-19]


6
एक व्यापक मुद्दे पर उत्कृष्ट टिप्पणी। यहां अच्छी तरह से मात्रात्मक सोच के लिए प्रचार करना महत्वपूर्ण है। थ्रेसहोल्ड को पार करने पर पहले से ही बहुत जोर है, जैसे कुछ स्तर की आपदा के ऊपर, कुछ स्तर के आराम के नीचे।
निक कॉक्स

14
मैं किसी को भी चुनौती दूंगा कि वह चिकित्सकों द्वारा इस्तेमाल किए जाने वाले किसी भी कटऑफ का सत्यापन दिखाए।
फ्रैंक हरेल

यह ध्यान देने योग्य है कि बिनिंग दृष्टिकोण के अन्य क्षेत्रों में कुछ लाभ हैं - यह विशेष रूप से लोकप्रिय है जब वाहन उन्मुखीकरण जैसे बहु-मोडल वितरण की भविष्यवाणी के लिए बड़े तंत्रिका जाल के साथ जोड़ा जाता है। उदाहरण के लिए arxiv.org/abs/1612.00496 देखें ।
एन। मैक।

11

इस उत्तर का एक हिस्सा जो मैंने पूछने के बाद सीखा है, वह है कि बिनिंग और बायनिंग दो अलग-अलग सवालों के जवाब देना नहीं चाहता है - डेटा में वृद्धिशील परिवर्तन क्या है? और सबसे कम और उच्चतम के बीच क्या अंतर है?

बिनिंग नहीं कहते हैं "यह डेटा में देखी गई प्रवृत्ति का एक परिमाण है" और बिनिंग कहते हैं "मेरे पास यह कहने के लिए पर्याप्त जानकारी नहीं है कि यह प्रत्येक वेतन वृद्धि से कितना बदल जाता है, लेकिन मैं कह सकता हूं कि शीर्ष नीचे से अलग है" ।


5

एक चिकित्सक के रूप में मुझे लगता है कि उत्तर इस बात पर निर्भर करता है कि आप क्या करना चाहते हैं। यदि आप सबसे अच्छा फिट बनाना चाहते हैं या सबसे अच्छा समायोजन करना चाहते हैं तो आप निरंतर और चुकता चर का उपयोग कर सकते हैं।

यदि आप गैर-सांख्यिकीय रूप से उन्मुख दर्शकों के लिए जटिल संघों का वर्णन और संवाद करना चाहते हैं, तो वर्गीकृत वैरिएबल का उपयोग बेहतर है, यह स्वीकार करते हुए कि आप पिछले दशमलव में कुछ थोड़े पक्षपाती परिणाम दे सकते हैं। मैं अरेखीय संघों को दिखाने के लिए कम से कम तीन श्रेणियों का उपयोग करना पसंद करता हूं। इसका विकल्प कुछ बिंदुओं पर ग्राफ और अनुमानित परिणामों का उत्पादन करना है। फिर आपको प्रत्येक निरंतर कोवरिएट के लिए रेखांकन के एक परिवार का उत्पादन करने की आवश्यकता हो सकती है जो दिलचस्प हो सकता है। यदि आप बहुत अधिक पूर्वाग्रह होने से डरते हैं, तो मुझे लगता है कि आप दोनों मॉडलों का परीक्षण कर सकते हैं और देख सकते हैं कि अंतर महत्वपूर्ण है या नहीं। आपको व्यावहारिक और यथार्थवादी होने की आवश्यकता है।

मुझे लगता है कि हम महसूस कर सकते हैं कि कई नैदानिक ​​स्थितियों में हमारी गणना सटीक डेटा पर आधारित नहीं है और जब मैं उदाहरण के लिए एक वयस्क को एक दवा लिखता हूं तो मैं ऐसा नहीं करता हूं, सटीक मिलीग्राम प्रति किलो वैसे भी (सर्जरी और चिकित्सा उपचार के बीच विकल्प के साथ दृष्टान्त बस बकवास है)।


1
क्यों वास्तव में अनुरूप बकवास है? क्योंकि निरंतर चर को वर्गीकृत करने से कभी भी बदतर मॉडल नहीं बनते हैं? या क्योंकि काफी बदतर मॉडल का उपयोग करने का कोई व्यावहारिक परिणाम कभी नहीं होता है?
Scortchi

9
यह केवल मामला नहीं है @ रोलैंड। कटऑफ से प्राप्त अनुमान केवल सरल हैं क्योंकि लोग समझ नहीं पाते हैं कि अनुमान क्या है। ऐसा इसलिए है क्योंकि वे एक वैज्ञानिक मात्रा का अनुमान नहीं लगाते हैं, अर्थात्, एक मात्रा जिसका नमूना या प्रयोग के बाहर अर्थ होता है। उदाहरण के लिए: यदि आप डेटासेट में अल्ट्रा-हाई या अल्ट्रा-लो वैल्यू वाले मरीजों को जोड़ते हैं, तो निम्न अंतर अनुपात या माध्य अंतर बढ़ जाएगा। साथ ही, कटऑफ के उपयोग का अर्थ है कि जीवविज्ञान बंद है, जो कि मामला नहीं है।
फ्रैंक हरेल

@Scortchi मेडिकल से सर्जिकल उपचार में बदलना क्योंकि यह समझाना आसान है (क्या यह वास्तव में है?) व्याख्यात्मक चर के रूप में ऊंचाई के साथ उम्र की जगह की तरह होगा।
रोलैंड

मैं द्विअर्थी चर से बचने के बारे में सहमत हूं। नैदानिक ​​चिकित्सा एक चट्टानी विज्ञान नहीं है जहां अंतिम दशमलव महत्वपूर्ण है। यदि मैं अंतिम बनाम उम्र की श्रेणियों का उपयोग निरंतर और वर्ग चर के रूप में करता हूं, तो केवल अंतिम दशमलव पर परिणाम बदलने के साथ काम करने वाले मॉडल में, लेकिन संघों की समझ और संप्रेषणीयता बहुत बढ़ जाती है।
रोलैंड

4

जैसा कि पिछले पोस्टरों ने उल्लेख किया है, यह आम तौर पर एक सतत चर को द्विभाजित करने से बचने के लिए सबसे अच्छा है। हालांकि, आपके प्रश्न के उत्तर में, ऐसे उदाहरण हैं जहां एक सतत चर को द्विदिश करने से फायदे मिलते हैं।

उदाहरण के लिए, यदि किसी दिए गए चर में जनसंख्या के एक महत्वपूर्ण अनुपात के लिए लापता मान शामिल हैं, लेकिन अत्यधिक पूर्वानुमान के लिए जाना जाता है और लापता मान स्वयं ही अनुमानित मूल्य को सहन करते हैं। उदाहरण के लिए, क्रेडिट स्कोरिंग मॉडल में, एक वैरिएबल पर विचार करें, मान लें कि औसत-परिक्रामी-क्रेडिट-बैलेंस (जो प्रदान किया गया है, तकनीकी रूप से निरंतर नहीं है, लेकिन इस मामले में एक सामान्य वितरण को दर्पण के समान माना जाता है), जिसमें शामिल है किसी दिए गए लक्ष्य बाजार में आवेदक पूल के बारे में 20% के लिए लापता मान। इस मामले में, इस चर के लिए लापता मान एक अलग वर्ग का प्रतिनिधित्व करते हैं - जिनके पास एक खुली, परिक्रामी-क्रेडिट रेखा नहीं है; ये ग्राहक उपलब्ध रिवॉल्विंग क्रेडिट-लाइन वाले लोगों की तुलना में पूरी तरह से अलग व्यवहार प्रदर्शित करेंगे, लेकिन जो नियमित रूप से कोई संतुलन नहीं रखते हैं।

डाइकोटोमाइजेशन का एक अन्य लाभ: इसका उपयोग महत्वपूर्ण आउटलेयर के प्रभाव को कम करने के लिए किया जा सकता है जो कि गुणांक को कम करता है, लेकिन यथार्थवादी मामलों का प्रतिनिधित्व करता है जिन्हें संभालने की आवश्यकता होती है। यदि आउटकैलर्स निकटतम प्रतिशत में अन्य मूल्यों से बहुत भिन्न नहीं होते हैं, लेकिन सीमांत सटीकता को प्रभावित करने के लिए पर्याप्त मापदंडों को तिरछा करते हैं, तो उन्हें समान प्रभाव प्रदर्शित करने वाले मूल्यों के साथ समूहित करना फायदेमंद हो सकता है।

कभी-कभी एक वितरण स्वाभाविक रूप से खुद को कक्षाओं के एक सेट के लिए उधार देता है, जिस स्थिति में द्विभाजन वास्तव में आपको एक निरंतर कार्य की तुलना में उच्च सटीकता प्रदान करेगा।

साथ ही, जैसा कि पहले उल्लेख किया गया है, दर्शकों पर निर्भर करता है, प्रस्तुति में आसानी नुकसान को सटीकता से दूर कर सकती है। एक उदाहरण के रूप में क्रेडिट स्कोरिंग का उपयोग करने के लिए, व्यवहार में, उच्च डिग्री विनियमन समय पर विवेक के लिए एक व्यावहारिक मामला बनाता है। हालांकि सटीकता की उच्च डिग्री ऋणदाता कटौती के नुकसान में मदद कर सकती है, चिकित्सकों को यह भी विचार करना चाहिए कि मॉडल को नियामकों द्वारा आसानी से समझने की आवश्यकता है (जो मॉडल प्रलेखन के हजारों पृष्ठों का अनुरोध कर सकते हैं) और उपभोक्ताओं, जिन्हें अगर क्रेडिट से इनकार किया जाता है, कानूनी रूप से हकदार हैं क्यों की व्याख्या।

यह सब हाथ और डेटा पर समस्या पर निर्भर करता है, लेकिन निश्चित रूप से ऐसे मामले हैं जहां डाइकोटोमाइजेशन की अपनी खूबियां हैं।


Dichotomization दो डिब्बे में डाल रहा है - क्या आपके पास विवेक का मतलब है?
Scortchi

2
आपके पहले दो उदाहरणों में, विवेक ने एक पार्टी के अतिथि के रूप में मंच पर पार्टी में अपना रास्ता बनाने की कोशिश की है। मूर्ख मत बनो। (1) यदि आप एक विशिष्ट वर्ग के रूप में खुली घूमने वाली क्रेडिट लाइन नहीं बनाना चाहते हैं, तो उस स्थिति को दर्शाने के लिए एक डमी चर का उपयोग करें और औसत परिक्रामी ऋण संतुलन के लिए कोई निरंतर मूल्य प्रदान करें। (२) अगर आप कुछ चरम भविष्यवक्ता मूल्यों को पहचानना चाहते हैं, जैसा कि "बड़ा" या "छोटा" है, तो उन्हें काट दें; बाकी मूल्यों के बारे में बताने की जरूरत नहीं है। तीसरा मामला निर्विरोध है - उदाहरण जोड़ने के लिए स्वतंत्र महसूस करें।
Scortchi

3

यदि किसी विशेष सीमा पर एक चर का प्रभाव पड़ता है, तो एक नया चर बनाकर इसे कम करना एक अच्छी बात है। मैं हमेशा दोनों चर, मूल एक और बिनिंग एक रखता हूं, और जांचता हूं कि कौन सा चर एक बेहतर भविष्यवक्ता है।


3

मैं फ्रैंक हैरेल की सलाह का प्रतिबद्ध प्रशंसक हूं कि विश्लेषकों को निरंतर डेटा के समयपूर्व विवेक का विरोध करना चाहिए। और मेरे पास सीवी और एसओ पर कई उत्तर हैं जो प्रदर्शित करते हैं कि निरंतर चर के बीच बातचीत की कल्पना कैसे करें, क्योंकि मुझे लगता है कि यह जांच का एक और अधिक मूल्यवान रेखा है। हालाँकि, मुझे इस सलाह का पालन करने के लिए बाधाओं के चिकित्सा जगत में वास्तविक दुनिया का अनुभव भी है। अक्सर आकर्षक विभाजन होते हैं जो चिकित्सक और गैर-चिकित्सक दोनों "विभाजन" की उम्मीद करते हैं। पारंपरिक "सामान्य की ऊपरी सीमा" एक ऐसा "प्राकृतिक" विभाजन बिंदु है। एक अनिवार्य रूप से पहले एक संबंध के सांख्यिकीय अंडरपिनिंग की जांच कर रहा है और फिर निष्कर्ष के पदार्थ को उन शब्दों में संप्रेषित करता है जो आपके दर्शकों को उम्मीद है और आसानी से समझ सकते हैं। मेरी "एलर्जी" के बावजूद to barplots, वे वैज्ञानिक और चिकित्सा प्रवचन में अत्यधिक सामान्य हैं। इसलिए दर्शकों के पास उन्हें तैयार करने के लिए एक तैयार संज्ञानात्मक पैटर्न होने की संभावना है और वे अपने ज्ञान के आधार पर परिणामों को एकीकृत करने में सक्षम होंगे।

इसके अलावा, भविष्यवक्ता चर के गैर-रेखीय रूपों के बीच मॉडलिंग की बातचीत के ग्राफिकल प्रदर्शन के लिए समोच्च भूखंडों या वायरफ्रेम डिस्प्ले की प्रस्तुतियों की आवश्यकता होती है, जिनमें से अधिकांश दर्शकों को पचाने में कुछ कठिनाई होगी। मैंने मेडिकल और आम जनता को उन प्रस्तुतियों के लिए अधिक ग्रहणशील पाया है जिनके परिणाम और खंड खंडित हैं। इसलिए मुझे लगता है कि निष्कर्ष यह है कि सांख्यिकीय विश्लेषण पूरा होने के बाद विभाजन ठीक से किया जाता है; और प्रस्तुति चरण में किया जाता है।


1

कई बार निरंतर चर को कम करते हुए जानकारी खो जाने के कारण नुकसान की एक असहज भावना के साथ आता है। हालांकि, न केवल कि आप सूचना के नुकसान को सीमित कर सकते हैं, आप जानकारी प्राप्त कर सकते हैं और अधिक लाभ प्राप्त कर सकते हैं।

यदि आप बिनिंग का उपयोग करते हैं और वर्गीकृत वैरिएबल प्राप्त करते हैं, तो आप लर्निंग एल्गोरिदम लागू करने में सक्षम हो सकते हैं जो कि कंट्रोस वैरिएबल पर लागू नहीं होते हैं। आपका डेटासेट बेहतर हो सकता है कि इनमें से कोई एक एल्गोरिथम यहां दिया गया हो ताकि आपका पहला लाभ हो।

बिनिंग के कारण होने वाले नुकसान का अनुमान लगाने का विचार "अप्रासंगिक विशेषताओं के साथ पीएसी सीखने" कागज पर आधारित है। मान लीजिए कि हमारी अवधारणा द्विआधारी है तो हम नमूनों को सकारात्मक और नकारात्मक में विभाजित कर सकते हैं। एक नकारात्मक और एक सकारात्मक नमूने की प्रत्येक जोड़ी के लिए, अवधारणा में अंतर को सुविधाओं में से एक में अंतर से समझाया जा सकता है (या अन्यथा, यह दी गई सुविधाओं द्वारा व्याख्या योग्य नहीं है)। फीचर अंतर का सेट अवधारणा अंतर के संभावित स्पष्टीकरण का सेट है, इसलिए अवधारणा को निर्धारित करने के लिए उपयोग किया जाने वाला डेटा। यदि हमने बिनिंग किया और हम अभी भी जोड़े के लिए स्पष्टीकरण का एक ही सेट प्राप्त करते हैं, तो हमें किसी भी जानकारी की आवश्यकता नहीं है (इस तरह की तुलना द्वारा काम करने वाले एल्गोरिदम सीखने के संबंध में)। यदि हमारा वर्गीकरण बहुत सख्त होगा तो संभवतया हमारे पास संभावित स्पष्टीकरणों का एक छोटा समूह होगा लेकिन हम सही तरीके से माप सकते हैं कि हम कितना और कहाँ खो जाते हैं। यह हमें व्याख्याओं के सेट बनाम डिब्बे की संख्या से व्यापार करने में सक्षम करेगा।

अब तक हमने देखा कि श्रेणीकरण के कारण हम नहीं खो सकते हैं, लेकिन यदि हम इस तरह के कदम को लागू करने पर विचार करते हैं तो हम लाभ उठाना चाहेंगे। वास्तव में, हम वर्गीकरण से लाभ उठा सकते हैं

कई शिक्षण एल्गोरिदम जिन्हें ट्रेन सेट पर नहीं देखे गए मूल्यों के साथ एक नमूना वर्गीकृत करने के लिए कहा जाएगा, मूल्य को "अज्ञात" के रूप में मानेंगे। इसलिए हमें "अज्ञात" की एक बिन मिलेगी जिसमें ट्रेन के दौरान नहीं देखे गए सभी मूल्य शामिल हैं (या यहां तक ​​कि पर्याप्त नहीं देखा गया है)। ऐसे एल्गोरिदम के लिए, वर्गीकरण में सुधार करने के लिए अज्ञात मूल्यों के जोड़े के बीच अंतर का उपयोग नहीं किया जाएगा। अज्ञात के साथ जोड़े के लिए बिनिंग के बाद अपने जोड़े की तुलना करें और देखें कि क्या आपका बिनिंग उपयोगी है और आपने वास्तव में प्राप्त किया है।

आप अनुमान लगा सकते हैं कि प्रत्येक सुविधा के मान वितरण की जाँच करके अज्ञात मान कितना सामान्य होगा। फ़ीचर वे मान थे जो केवल कुछ ही बार दिखाई देते हैं, उनके वितरण का एक बड़ा हिस्सा है जो बिनिंग के लिए अच्छे उम्मीदवार हैं। ध्यान दें कि कई परिदृश्यों में आपके पास कई विशेषताएं होंगी जिनमें अज्ञात संभावना बढ़ जाएगी कि एक नमूना में अज्ञात मूल्य होगा। एल्गोरिदम जो सभी या कई विशेषताओं का इलाज करते हैं, ऐसी स्थितियों में त्रुटि का खतरा होता है।

ए। धईत और एल। हेलरस्टीन, "आईईईई सिम्प की कार्यवाही में अप्रासंगिक विशेषताओं के साथ पीएसी सीखने"। कंप्यूटर विज्ञान के फाउंडेशन पर, 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.