ध्यान दें कि मैं आर में सब कुछ कर रहा हूं।
समस्या इस प्रकार है:
मूल रूप से, मेरे पास रिज्यूमे (सीवी) की एक सूची है। कुछ उम्मीदवारों को पहले काम का अनुभव होगा और कुछ को नहीं। यहाँ लक्ष्य है: उनके सीवी पर पाठ के आधार पर, मैं उन्हें विभिन्न नौकरी क्षेत्रों में वर्गीकृत करना चाहता हूं। मैं उन मामलों में विशेष रूप से शामिल हूं, जिनमें उम्मीदवारों के पास कोई अनुभव नहीं है / एक छात्र है, और मैं यह वर्गीकृत करने के लिए एक भविष्यवाणी करना चाहता हूं कि इस नौकरी के उम्मीदवारों के स्नातक होने के बाद सबसे अधिक संभावना होगी।
प्रश्न 1: मैं मशीन लर्निंग एल्गोरिदम को जानता हूं। हालांकि, मैंने पहले कभी एनएलपी नहीं किया। मैं इंटरनेट पर लेटेंट डिरिचलेट आवंटन पर आया था। हालांकि, मुझे यकीन नहीं है कि यह मेरी समस्या से निपटने का सबसे अच्छा तरीका है।
मेरा मूल विचार: इसे एक पर्यवेक्षित शिक्षण समस्या बनाना । मान लीजिए हमारे पास पहले से ही बड़ी मात्रा में लेबल डेटा हैं, जिसका अर्थ है कि हमने उम्मीदवारों की सूची के लिए नौकरी क्षेत्रों को सही ढंग से लेबल किया है। हम ML एल्गोरिदम (यानी निकटतम पड़ोसी ...) का उपयोग करके मॉडल को प्रशिक्षित करते हैं और उन अनलॉक्ड डेटा में फ़ीड करते हैं , जो ऐसे उम्मीदवार हैं जिनके पास कोई कार्य अनुभव नहीं है / छात्र हैं, और यह अनुमान लगाने की कोशिश करते हैं कि वे किस नौकरी क्षेत्र से संबंधित हैं।
अद्यतन प्रश्न 2: क्या एक फिर से शुरू में सब कुछ निकालकर एक पाठ फ़ाइल बनाने के लिए एक अच्छा विचार होगा और पाठ फ़ाइल में इन आंकड़ों को प्रिंट करें, ताकि प्रत्येक फिर से शुरू एक पाठ फ़ाइल के साथ जुड़ा हो, जिसमें असंरचित तार शामिल हैं, और फिर हम पाठ फ़ाइलों पर लागू माइनिंग तकनीक और डेटा को संरचित या यहां तक कि पाठ फ़ाइलों से बाहर इस्तेमाल की जाने वाली शर्तों की आवृत्ति मैट्रिक्स बनाने के लिए बनाते हैं? उदाहरण के लिए, पाठ फ़ाइल कुछ इस तरह दिख सकती है:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
यही मेरा मतलब है 'असंरचित', यानी एक ही लाइन स्ट्रिंग में सब कुछ ढह जाना।
क्या यह दृष्टिकोण गलत है? कृपया मुझे सही करें अगर आपको लगता है कि मेरा दृष्टिकोण गलत है।
प्रश्न 3: मुश्किल हिस्सा यह है: कीवर्ड को कैसे पहचानें और निकालें ? tm
आर में पैकेज का उपयोग करना ? tm
पैकेज किस एल्गोरिथ्म पर आधारित है? क्या मुझे एनएलपी एल्गोरिदम का उपयोग करना चाहिए? यदि हाँ, तो मुझे किस एल्गोरिदम को देखना चाहिए? कृपया मुझे कुछ अच्छे संसाधनों की ओर भी ध्यान दें।
सभी विचारों का स्वागत है।