निरंतर और श्रेणीबद्ध दोनों विशेषताओं के साथ भविष्यवाणी करना


26

कुछ भविष्य कहनेवाला मॉडलिंग तकनीक निरंतर भविष्यवाणियों को संभालने के लिए डिज़ाइन की गई है, जबकि अन्य श्रेणीबद्ध या असतत चर को संभालने के लिए बेहतर हैं। बेशक एक प्रकार से दूसरे (विवेक, डमी चर, आदि) को बदलने की तकनीक मौजूद है। हालाँकि, क्या कोई भी भविष्य कहनेवाला मॉडलिंग तकनीक है जो एक ही समय में दोनों प्रकार के इनपुट को संभालने के लिए डिज़ाइन की गई है, बस बिना सुविधाओं के प्रकार को बदलने के? यदि हां, तो क्या ये मॉडलिंग तकनीकें डेटा पर बेहतर काम करती हैं, जिसके लिए वे अधिक प्राकृतिक फिट हैं?

सबसे करीबी बात जो मुझे पता है कि आमतौर पर निर्णय लेने वाले पेड़ असतत डेटा को अच्छी तरह से संभालते हैं और वे निरंतर सामने के विवेक की आवश्यकता के बिना निरंतर डेटा को संभालते हैं। हालाँकि, यह नहीं है कि मैं क्या देख रहा था क्योंकि प्रभावी रूप से निरंतर सुविधाओं पर विभाजन गतिशील विवेक का एक रूप है।

संदर्भ के लिए, यहां कुछ संबंधित, गैर-डुप्लिकेट प्रश्न हैं:


1
क्या आप इसके बारे में अधिक कह सकते हैं कि आप क्या करना चाहते हैं? निश्चित रूप से, आप एक भविष्य कहनेवाला मॉडल बनाने के लिए निरंतर और श्रेणीबद्ध कोवरिएट दोनों के साथ कई प्रतिगमन का उपयोग कर सकते हैं। यह बल्कि प्रारंभिक है। क्या आपको इसके बजाय कई प्रतिक्रिया चर की भविष्यवाणी करने का मतलब है (जहां कुछ कंट और कुछ बिल्ली, जैसे हैं)?
गंग -

@gung आप श्रेणीबद्ध भविष्यवक्ताओं को कुछ अर्थों में संख्याओं में परिवर्तित किए बिना श्रेणीगत सहसंयोजकों को शामिल करने वाले कई प्रतिगमन कैसे करते हैं ?
माइकल मैक्गोवन

1
'संख्या' का कोई मतलब नहीं है - वे वास्तव में संख्यात्मक नहीं हैं । कैसे के संदर्भ में, आप एक कोडिंग योजना का उपयोग करते हैं; संदर्भ सेल कोडिंग (आमतौर पर 'डमी कोडिंग' कहा जाता है) सबसे आम है, लेकिन कई योजनाएं हैं। विभिन्न प्रकार की योजनाओं के बारे में जानने के लिए यह एक अच्छा संसाधन है। आर में, उदाहरण के लिए, आपको वास्तव में ऐसा नहीं करना है, हालांकि, यदि आप एक वेक्टर या चरित्र डेटा (जैसे, नाम) शामिल करते हैं, तो यह आपके लिए सब कुछ संभाल लेगा।
गूँग - मोनिका

2
मुझे डर है कि मैं अभी भी सवाल के पीछे की गति का अनुसरण नहीं कर रहा हूं (मैं थोड़ा धीमा हूं)। श्रेणीगत चर "रूपांतरित" या "रूपांतरित" संख्यात्मक चर में नहीं होते हैं; उन्हें 1 से दर्शाया जाता है, लेकिन यह 1 वास्तव में संख्यात्मक नहीं है। गुणात्मक भविष्यवाणियों को कई प्रतिगमन में अधिक संख्यात्मक नहीं हैं, जैसे वे निर्णय पेड़ों (जैसे, कार्ट) में हैं। सैद्धांतिक दृष्टिकोण से, वहाँ कुछ भी नहीं है; व्यावहारिक दृष्टिकोण से, यदि आप कोड की कुछ पंक्तियों को बचाने की कोशिश कर रहे हैं, उदाहरण के लिए, सॉफ़्टवेयर (R, उदा) अक्सर ऐसा आपके लिए करेंगे।
गूँग - मोनिका

1
पर्याप्त रूप से, क्या आप बता सकते हैं कि आपको क्या लगता है (सैद्धांतिक दृष्टिकोण से)? डमी कोडिंग एक श्रेणीगत चर को सार्थक रूप से संख्यात्मक में कैसे बदल देता है ? यह कैसे होता है कि CART वैरिएबल को अपने 'श्रेणीबद्ध-नेस' को बनाए रखने की अनुमति देता है, लेकिन वह डमी कोडिंग नहीं करता है? मैं यह पता लगाने के लिए एक नुकसान में हूं कि इन प्रश्नों के उत्तर आपके प्रश्न के ऊपर से क्या हो सकते हैं, और मुझे आपकी पिछली पोस्ट दिखाई नहीं दे रही है।
गंग -

जवाबों:


6

जहां तक ​​मुझे पता है, और मैंने अतीत में इस मुद्दे पर गहराई से शोध किया है, वहाँ कोई भविष्य कहनेवाला मॉडलिंग तकनीक नहीं हैं (पेड़ों, XgBoost, आदि के बगल में) जो एक ही समय में दोनों प्रकार के इनपुट को संभालने के लिए डिज़ाइन किए गए हैं, बस बिना रूपांतरित किए। सुविधाओं के प्रकार।

ध्यान दें कि रैंडम फ़ॉरेस्ट और XGBoost जैसे एल्गोरिदम मिश्रित सुविधाओं के एक इनपुट को स्वीकार करते हैं, लेकिन नोड के विभाजन के दौरान उन्हें संभालने के लिए कुछ तर्क लागू करते हैं। सुनिश्चित करें कि आप "हुड के नीचे" तर्क को समझते हैं और ब्लैक-बॉक्स में जो कुछ भी हो रहा है, उसके साथ आप ठीक हैं।

u1u2fid(u1,u2)fi=(discategorical(u1,u2)fi यदि फीचरfi ,d(u1,u2)fi=disnumeric(u1,u2)fi , d ( u 1 , u 2 ) f i = d i s - n u m e r i सी ( यू 1 , यू 2 ) मैं अगर सुविधाfi संख्यात्मक है। और 1 यदि फीचरfi कोu1 याu2 में परिभाषित नहीं किया गया है।

श्रेणीबद्ध विशेषताओं के लिए कुछ ज्ञात दूरी समारोह:

  • लेवेन्शिएन की दूरी (या "संपादित दूरी" का कोई भी रूप)

  • सबसे लंबे समय तक सामान्य मीट्रिक

  • गोवर दूरी
  • और यहाँ अधिक मैट्रिक्स

5

मुझे पता है कि इस प्रश्न को पोस्ट किए जाने के बाद कुछ समय हो गया है, लेकिन यदि आप अभी भी इस समस्या (या इसी तरह के) को देख रहे हैं, तो आप सामान्यीकृत additive मॉडल (GAM) का उपयोग करने पर विचार कर सकते हैं। मैं कोई विशेषज्ञ नहीं हूं, लेकिन ये मॉडल आपको एक ही भविष्यवाणी बनाने के लिए विभिन्न मॉडलों को संयोजित करने की अनुमति देते हैं। प्रक्रिया का उपयोग उन सभी के लिए एक साथ गुणांक खोजने के लिए किया जाता है, ताकि आप एक ही बार में उन सभी के लिए एक सामान्यीकृत एडिटिव मॉडल भेज सकें, श्रेणीबद्ध भविष्यवक्ताओं के लिए अपना पसंदीदा मॉडल और निरंतर भविष्यवक्ताओं के लिए आपका पसंदीदा मॉडल और एक एकल मॉडल प्राप्त करने के लिए RSS को न्यूनतम करता है या जो भी अन्य त्रुटि मानदंड आप उपयोग करना चाहते हैं।

मेरे सिर के ऊपर से, एकमात्र सॉफ्टवेयर पैकेज, जो मुझे पता है कि इसमें GAM की भाषा R का कार्यान्वयन है, लेकिन मुझे यकीन है कि अन्य हैं।


एसएएस में प्रोक गाम नामक प्रक्रिया है।
अल्फ

1
अधिकांश प्रमुख सांख्यिकीय पैकेज (जैसे, स्टैटा) संभवतः GAMs को लागू कर सकते हैं। हालाँकि इस बिंदु पर अधिक, गामा भविष्यवाणियों के रूप में श्रेणीबद्ध चर का प्रतिनिधित्व करने के लिए डमी कोड का उपयोग करेंगे। यह स्पष्ट नहीं है कि ओपी एक मॉडल की तलाश में क्या चाहता है जो श्रेणीबद्ध भविष्यवक्ताओं को श्रेणीबद्ध के रूप में उपयोग करता है, लेकिन डमी कोड द्वारा w / o उनका प्रतिनिधित्व करता है, लेकिन ऐसा होने की संभावना नहीं है।
गंग -

सीवी में आपका स्वागत है। ध्यान दें कि आपका उपयोगकर्ता नाम, पहचान पत्र, और आपके उपयोगकर्ता पृष्ठ का एक लिंक आपके द्वारा किए गए प्रत्येक पोस्ट में स्वचालित रूप से जुड़ जाता है, इसलिए इन पोस्ट पर हस्ताक्षर करने की कोई आवश्यकता नहीं है। वास्तव में, हम आपको पसंद नहीं करते।
गंग -

4

जबकि विवेकीकरण डेटा को असतत करने के लिए निरंतर डेटा को रूपांतरित करता है, यह शायद ही कहा जा सकता है कि डमी वैरिएबल डेटा को निरंतर डेटा में बदल देते हैं। दरअसल, चूंकि एल्गोरिदम कंप्यूटर पर चलाए जा सकते हैं, इसलिए शायद ही कोई ऐसा क्लासिफिकेशन एल्गोरिथ्म हो सकता है, जो श्रेणीबद्ध डेटा को डमी वैरिएबल में न बदल दे।

उसी अर्थ में एक क्लासिसिपेटर अंततः इसे भविष्यवाणियों को एक असतत चर में बदल देता है जो वर्ग से संबंधित है (भले ही यह एक वर्ग संभावना को आउटपुट करता है, आप अंततः एक कटऑफ चुनते हैं)। वास्तव में कई वर्ग जैसे लॉजिस्टिक रिग्रेशन, रैंडम फॉरेस्ट, डिसीजन ट्री और एसवीएम सभी दोनों प्रकार के डेटा के साथ ठीक काम करते हैं।

मुझे संदेह है कि एक एल्गोरिथ्म खोजना मुश्किल होगा जो निरंतर डेटा के साथ काम करता है, लेकिन श्रेणीबद्ध डेटा को बिल्कुल भी संभाल नहीं सकता है। आमतौर पर मुझे लगता है कि आपके मॉडल के बाईं ओर आपके पास किस प्रकार का डेटा है, इस पर अधिक अंतर है।


2
नहीं, मेरा कहना यह है कि लॉजिस्टिक रिग्रेशन एट अल इस अर्थ में "काम" नहीं करता कि मैं दोनों प्रकार के डेटा के साथ वर्णन कर रहा हूं। उन्हें आपको कम से कम कुछ अर्थों में, सभी भविष्यवाणियों को संख्या के रूप में या उनमें से कोई भी संख्या के रूप में व्यवहार करना होगा। उदाहरण के लिए, मुझे पता है कि किसी व्यक्ति को अक्सर "लिंग" के लिए "पुरुष" के लिए 1 और "महिला" के लिए कोडिंग करके लॉजिस्टिक रिग्रेशन के साथ शानदार परिणाम मिल सकते हैं। हालांकि, मैं सोच रहा हूं कि क्या इस प्रकार की प्रक्रिया को किसी भी ज्ञात मॉडलिंग प्रतिमान से बचा जा सकता है।
माइकल मैकगोवन

1

यह एक गहरा दार्शनिक प्रश्न है जिसे आमतौर पर सांख्यिकीय और साथ ही मशीन सीखने के अंत से संबोधित किया जाता है। कुछ कहते हैं, श्रेणीबद्ध संकेतक के लिए असतत के लिए श्रेणीबद्ध करना बेहतर है, ताकि पैकेज आसानी से मॉडल इनपुट को पचा सकें। दूसरों का कहना है, कि बिनिंग से सूचना की हानि हो सकती है, लेकिन हालांकि मॉडल अवशिष्ट के लिए अंतिम वर्ग को छोड़कर वैधानिक चर को {1,0} संकेतक चर में परिवर्तित किया जा सकता है।

पुस्तक - एप्लाइड लीनियर रिग्रेशन (कुटनर एट अल।) पहले कुछ अध्यायों में मॉडल में संकेतक चर पेश करने के तर्क के बारे में उल्लेख करती है। इसी तरह का अन्य पाठ भी हो सकता है।

इस पर मेरा विचार शायद बहुत दूर की बात है: यदि हम प्रायोगिक डिजाइन में ब्लॉक जैसे श्रेणीबद्ध चर की कल्पना करते हैं, तो संकेतक चर गैर-प्रयोग आधारित डेटा विश्लेषण के लिए एक प्राकृतिक विस्तार है। डेटा माइनिंग एल्गोरिदम (निर्णय पेड़ परिवारों) के संबंध में, वर्गीकरण अपरिहार्य है (या तो मैन्युअल या स्वचालित-बिनिंग) जिसे मॉडल को खिलाया जाना है।

इसलिए, ऐसा कोई मॉडल नहीं हो सकता है जो संख्यात्मक के साथ-साथ श्रेणीबद्ध चर के लिए भी उसी तरह से विशिष्ट हो (बिनिंग-संख्यात्मक या संकेतक-श्रेणी का उपयोग किए बिना)।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.