मैं एक मौजूदा पर्यवेक्षित क्लासिफ़ायर को बेहतर बनाने पर काम कर रहा हूं, {प्रोटीन} दृश्यों को एक विशिष्ट वर्ग (न्यूरोपेप्टाइड हार्मोन अग्रदूत) से संबंधित वर्गीकृत करने के लिए, या नहीं।
लगभग 13 मिलियन प्रोटीन अनुक्रमों ("अज्ञात / खराब एनोटेट पृष्ठभूमि") की पृष्ठभूमि के बारे में 1,150 ज्ञात "पॉज़िटिव" हैं, या लगभग 100,000 की समीक्षा की गई है, प्रासंगिक प्रोटीन, विभिन्न प्रकार के गुणों के साथ एनोटेट किया गया है (लेकिन स्पष्ट रूप से बहुत कम एनोटेट। "नकारात्मक" तरीका)।
मेरे पिछले कार्यान्वयन ने इसे एक द्विआधारी वर्गीकरण समस्या के रूप में देखा: सकारात्मक सेट = प्रोटीन न्यूरोपेप्टाइड्स के रूप में चिह्नित। नकारात्मक सेट: लगभग समान लंबाई-वार वितरण के शेष प्रोटीनों में से 1,300 नमूनों (कुल) का यादृच्छिक नमूना।
यह काम किया है, लेकिन मैं मशीनों की भेदभावपूर्ण क्षमताओं में बहुत सुधार करना चाहता हूं (वर्तमान में, यह सटीकता के मामले में 83-86% के बारे में है, AUC, F1, CV द्वारा मापा गया, कई बेतरतीब ढंग से नमूना नकारात्मक सेट पर)।
मेरे विचार से थे: 1) इसे एक बहुस्तरीय समस्या बनाइए, प्रोटीन के 2-3 अलग-अलग वर्गों को चुनना जो निश्चित रूप से नकारात्मक होंगे, उनके गुणों / कार्यात्मक वर्ग के साथ, (शायद) एक और बेतरतीब ढंग से सैंपल सेट। (यहां प्राथमिकता नकारात्मक सेट होगी जो उनकी विशेषताओं / विशेषताओं में सकारात्मक सेट के समान है, जबकि अभी भी विशेषताओं को परिभाषित कर रही है)। 2) एक कक्षा सीखना - अच्छा होगा, लेकिन जैसा कि मैं इसे समझता हूं, यह सिर्फ विसंगति का पता लगाने के लिए है, और इसमें भेदभावपूर्ण दृष्टिकोण की तुलना में खराब प्रदर्शन है।
*) मैंने पीयू सीखने के बारे में सुना है, जो साफ-सुथरा लगता है, लेकिन मैं एक प्रोग्रामिंग N00b हूं, और मुझे इसके लिए कोई मौजूदा कार्यान्वयन नहीं पता है। (अजगर / विज्ञान-किट में सीखें)।
तो, क्या दृष्टिकोण 1 एक सैद्धांतिक पीओवी में समझ में आता है? क्या कई नकारात्मक सेट बनाने का सबसे अच्छा तरीका है? (मैं भी "नकारात्मक" प्रोटीन के एक बड़े पैमाने पर [50K] पिक का उपयोग कर सकता हूं, लेकिन वे सभी एक दूसरे से बहुत अलग हैं, इसलिए मुझे नहीं पता कि क्लासिफायर उन्हें एक बड़े, असंतुलित मिश्रण के रूप में कितनी अच्छी तरह से संभाल लेगा। )। धन्यवाद!