24,000 श्रेणियों के साथ एक वर्ग को कैसे एनकोड करना है?

10

मैं वर्तमान में जीनोमिक्स के लिए एक लॉजिस्टिक रिग्रेशन मॉडल पर काम कर रहा हूं। इनपुट क्षेत्रों में से एक मैं एक कोवरिएट के रूप में शामिल करना चाहता हूं genes। लगभग 24,000 ज्ञात जीन हैं। कम्प्यूटेशनल जीव विज्ञान में परिवर्तनशीलता के इस स्तर के साथ कई विशेषताएं हैं और सैकड़ों हजारों नमूनों की आवश्यकता है।

अगर मैं LabelEncoder()उन 24K जीन
और फिर OneHotEncoder()उन्हें ...

क्या २४,००० कॉलम मेरे केर प्रशिक्षण समय को २.२ गीगाहर्ट्ज़ क्वाड-कोर आई? सीपीयू के लिए अनुचित बनाने जा रहे हैं?

यदि हां, तो क्या एन्कोडिंग के लिए एक अलग दृष्टिकोण है जो मैं इसके साथ ले जा सकता हूं?

क्या मुझे किसी तरह अपने मॉडल की एक परत इस सुविधा के लिए समर्पित करने की कोशिश करनी चाहिए?

क्या इसका मतलब मुझे 24K इनपुट नोड्स की आवश्यकता है?

machine-learning keras scikit-learn

— HashRocketSyntax
स्रोत

VAE का उपयोग करके प्रतिनिधित्व क्यों नहीं सीखा? मुझे लगता है कि जीन अनुक्रम में प्रतिनिधित्व सीखना (जैसे एनएलपी में किया जाता है) सिर्फ एक साधारण पीसीए के साथ तुलना में बहुत कुछ समझ में

— आएगा

10

हां, 24k सुविधाओं पर एक-हॉट एन्कोडिंग का उपयोग करने के लिए 24k इनपुट नोड्स की आवश्यकता होती है। हालांकि यह केरस (या किसी अन्य गहन शिक्षण पुस्तकालय) के लिए एक समस्या नहीं होनी चाहिए। प्राकृतिक भाषा प्रसंस्करण अक्सर एक ही बॉलपार्क में शब्दावली आकार के साथ शब्दों पर एक-गर्म एन्कोडिंग का उपयोग करता है।

यदि आप एक "गहरी" मॉडल का उपयोग कर रहे हैं, तो आपकी एक छिपी हुई परत को आपके डेटा की गतिशीलता को कम करने का ध्यान रखना चाहिए। एक अलग पूर्व-प्रसंस्करण कदम की आमतौर पर आवश्यकता नहीं होती है।

प्रशिक्षण का समय अनुचित नहीं होना चाहिए।

— सी। यदुकोली
स्रोत

पवित्रता की जाँच के लिए धन्यवाद।

— HashRocketSyntax

मैंने देखा कि आपने एक परत का उल्लेख किया है, स्केलेर में पीसीए नहीं। क्या आप ऑटोकेनोडर्स को आयामीता में कमी के रूप में सुझाएंगे?

— 1

2

आपने उल्लेख किया कि आप केर का उपयोग करते हैं, इसलिए आप किसी प्रकार के तंत्रिका नेटवर्क का उपयोग कर रहे हैं? यदि आपके नेटवर्क में कहीं है, तो आपके इनपुट की तुलना में कम संख्या में नोड्स के साथ एक परत है, नेटवर्क स्वचालित रूप से आयामी कमी कर रहा है। मुझे लगता है कि आपके पास केवल एक (या एक छोटी संख्या) प्रतिगमन आउटपुट है। तो एक सरल तरीका है इनपुट लेयर (d = 24k), एक या एक से अधिक मध्यवर्ती परतें (d = 1k या ऐसा कुछ) और आपकी आउटपुट लेयर (d = 1)।

— सी। यदुकोली

जबकि एनएलपी में समान आकार की परतें आम हैं, यह आमतौर पर सीपीयू पर आधुनिक एनएलपी मॉडल को प्रशिक्षित करने के लिए अनुचित है, शक्तिशाली जीपीयू वास्तव में छोटे 'टॉय' मॉडल से परे एनएलपी में टेबल स्टेक हैं। दूसरी ओर, यह एक बड़ा अवरोध नहीं है, क्योंकि भौतिक और क्लाउड दोनों ही GPU बहुत आसानी से उपलब्ध हैं।

— पीटरिस

6

श्रेणीबद्ध चर ( मूल पेजर ) के लिए एंटिटी एंबेडिंग यहां एक बहुत ही उपयुक्त दृष्टिकोण होगा। यहाँ , या यहाँ पढ़ें । मैंने वास्तव में यहाँ और वहाँ से कोड के टुकड़े डाल दिए हैं और एक पूर्ण चलने वाला कार्यान्वयन किया है, इस गिट रेपो को देखें। यह आसानी से तंत्रिका नेटवर्क का उपयोग करते हुए बहुत उच्च कार्डिनल श्रेणीगत चर को संभालता है। मैं ओएचई के पेशेवरों और विपक्षों को सूचीबद्ध नहीं करूंगा, आप इसे केवल Google करेंगे, लेकिन इसके मुख्य दोषों में से एक एस्प। जब बहुत अधिक कार्डिनल श्रेणीगत चर होता है, तो यह आपके फीचर स्पेस को अनावश्यक रूप से बढ़ा रहा है, जो मेरी राय में आदर्श नहीं है। और अधिक महत्वपूर्ण बात, ओएचई, मेरे ज्ञान के लिए, यदि इस तरह के संबंध मौजूद हैं, तो श्रेणियों के बीच शब्दार्थ संबंध के लिए खाता नहीं है! हालांकि, एनएलपी में एंटिटी एंबेडिंग वर्ड कॉन्सेप्टिंग के लिए एक अवधारणा है, श्रेणियों को सांकेतिक शब्दों में बदलना करने के लिए सीखा जा रहा वजन संभावित रूप से इंट्रा-श्रेणी संबंधों पर कब्जा कर सकता है।

— TwinPenguins
स्रोत

3

आम तौर पर, जीन की संख्या को सार्थक विशेषताओं के बहुत छोटे सेट तक कम किया जाना चाहिए। फिर, कम किए गए फ़ीचर सेट का उपयोग मॉडल में किया जा सकता है। उदाहरण के लिए, प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) सबसे आम कमी तकनीकों में से एक है और इसका उपयोग जीन एक्सप्रेशन डेटा के लिए किया गया है ।

" जीव विज्ञान और चिकित्सा में डेटा को एकीकृत करने के लिए मशीन सीखना: सिद्धांत, अभ्यास और अवसर" Zitnika et al द्वारा। जीन के लिए विभिन्न प्रकार की सुविधा इंजीनियरिंग तकनीक शामिल हैं।

— ब्रायन स्पिरिंग
स्रोत

धन्यवाद आपको समझ में आता है। प्रासंगिक जीन (और wgs में विनियामक क्षेत्र) की संख्या के लिए स्थान कम करें।

— HashRocketSyntax

क्या यह पूछने के लिए एक नोबल प्रश्न बहुत अधिक है कि आप किस प्रकार की आयामीता में कमी की सिफारिश करेंगे ?: पीसीए, कई गुना, क्लस्टरिंग / घनत्व, किसी प्रकार का तंत्रिका जाल?

— HashRocketSyntax