किस मशीन / डीप लर्निंग / ampp तकनीक का उपयोग किसी दिए गए शब्दों को नाम, मोबाइल नंबर, पता, ईमेल, राज्य, काउंटी, शहर आदि के रूप में वर्गीकृत करने के लिए किया जाता है।


9

मैं एक बुद्धिमान मॉडल उत्पन्न करने की कोशिश कर रहा हूं जो शब्दों या तारों के एक सेट को स्कैन कर सकता है और उन्हें मशीन लर्निंग या डीप लर्निंग का उपयोग करके नाम, मोबाइल नंबर, पते, शहर, राज्य, देश और अन्य संस्थाओं के रूप में वर्गीकृत कर सकता है।

मैं दृष्टिकोण के लिए खोज की थी, लेकिन दुर्भाग्य से मुझे लेने के लिए कोई दृष्टिकोण नहीं मिला। मैंने शब्दों के बैग के साथ प्रयास किया था और यह बताने के लिए कि यह एक स्ट्रिंग नाम या शहर आदि है, यह बताने के लिए दस्ताने शब्द एम्बेड किए गए हैं।

लेकिन, मैं शब्दों के मॉडल के बैग के साथ सफल नहीं हुआ और GloVe के साथ बहुत सारे नाम हैं जो एम्बेडिंग उदाहरण में शामिल नहीं हैं: - लॉरेन ग्लोव में मौजूद है और लॉरेना नहीं है

मुझे यह पोस्ट यहाँ मिली, जिसका एक उचित उत्तर था, लेकिन मैं इस समस्या को हल करने के लिए उपयोग नहीं किया जा सकता था इस तथ्य के अलावा कि इसे हल करने के लिए एनएलपी और एसवीएम का उपयोग किया गया था।

किसी भी सुझाव की सराहना की है

धन्यवाद और सादर, साईं चरण Adurthi


4
उत्तर नहीं, लेकिन इसे नामांकित मान्यता कहा जाता है। उन शर्तों के साथ खोज करने से उपयोगी जानकारी बदल सकती है।
kbrose

थैंक्स @kbrose, नेम एंटिटी रिकग्निशन तकनीकों में दिखेगा।
साईं चरण अदूरथी

जवाबों:


1

आप वर्ण ग्राम लागू कर सकते हैं - सहज रूप से, फ़ोन नंबर और ईमेल पते के बीच निर्धारित वर्ण में भारी अंतर हो सकता है। और फिर एक भविष्यवाणी करने के लिए एसवीएम के चरित्र ग्राम वेक्टर पास करें। आप इसे नीचे दिए गए फ़ीचर एक्सट्रैक्टर्स का उपयोग करके स्केलेर में उपयोग कर सकते हैं।

  1. TfIdfVectorizer (विश्लेषक = 'चरित्र')

  2. CountVectorizer (विश्लेषक = 'चरित्र')

अपने मॉडल को ठीक करने के लिए Ngram रेंज पर क्रॉस वैरीफाई करें और SVM के वैरिएबल को धीमा करें।


धन्यवाद! @karthikbharadwaj। मैं वर्तमान में R का उपयोग कर काम कर रहा हूं, स्केलेर में देखूंगा और यह देखूंगा कि क्या यह काम करता है ..
साईं चरण आदिर्थ

@ सई चरण अदूरथी - कृपया अपवोट करें यदि आपको यह मददगार लगा और यदि आपने उन्हें मददगार पाया तो उत्तर स्वीकार करें।
कार्तिकभ्रद्वाज

एक बार, पाइथन में जाँच करने के बाद, निश्चित रूप से इसे करूँगा ...
साईं चरण अदूरथी

0

सामान्य श्रेणीगत लेबल को शब्दों में लागू करना आमतौर पर नामांकित-इकाई मान्यता (एनईआर) कहा जाता है ।

NER को स्थैतिक नियमों (जैसे, नियमित अभिव्यक्ति) या सीखे गए नियमों (जैसे, निर्णय पेड़) द्वारा किया जा सकता है। ये नियम अक्सर भंगुर होते हैं और सामान्यीकरण नहीं करते हैं। सशर्त यादृच्छिक फ़ील्ड (CRF) अक्सर एक बेहतर समाधान होता है क्योंकि वे भाषाओं के अव्यक्त अवस्थाओं को मॉडल करने में सक्षम होते हैं। एनईआर में वर्तमान अत्याधुनिक प्रदर्शन डीप लर्निंग मॉडल के संयोजन के साथ किया जाता है

स्टैनफोर्ड वर्णित निकाय पहचानकर्ता और spacy एनईआर प्रदर्शन करने के लिए संकुल रहे हैं।


थैंक यू डॉ। ब्रेन! .. लेकिन, मैं एक मॉडल बनाना चाहता हूं जो केवल एक शब्द या तार का एक शब्द लेता है और भविष्यवाणी करता है कि क्या यह एक नाम, पता, आदि है। मैंने आरईआर में अपाचे द्वारा ओपनएनएलपी का उपयोग करके एनईआर की कोशिश की थी। मैं काफी सफल नहीं हुआ। इस में। शब्दों के पैराग्राफ की जरूरत है कि व्याकरण और भाषण के कुछ हिस्सों का उपयोग करें, मैं एक मॉडल रखना चाहता हूं जो डाक कोड, ज़िप कोड और राज्य कोड जैसी चीजों को भी समझ सकता है। यहाँ सही दृष्टिकोण के साथ जा रहा है डॉ। मस्तिष्क?
साईं चरण आदिशक्ति

आपको एक सामान्य मॉडल होने के बारे में नहीं सोचना चाहिए। आपको प्रत्येक प्रकार के तत्व के लिए एक मॉडल बनाना चाहिए। उदाहरण के लिए, अधिकांश पोस्टल कोड एक नियमित अभिव्यक्ति के साथ मिल सकते हैं। संदर्भ भी राजा है, एक एकल शब्द दिया गया मॉडल एनईआर की भविष्यवाणी करने वाला एक खराब काम करेगा। पाठ के बड़े वर्गों को रखना बेहतर है।
ब्रायन स्पिरिंग

नमस्ते, @ श्री। मस्तिष्क, मैंने आर के लिए text2vec पैकेज के साथ कोशिश की थी, मैंने यह जांचने के लिए दस्ताने शब्द एम्बेडिंग का उपयोग किया था कि कैसे समान शब्द हैं। Ex: मेरे पास नाम, शहर, राज्य, देश आदि जैसी श्रेणियों के साथ 1000 पंक्तियों का डेटा है। विभिन्न मूल्यों के साथ डेटा का परीक्षण करें। मैंने दोनों ट्रेन के लिए टीसीएम के निर्माण के लिए text2vec का उपयोग किया, डेटा मानों का परीक्षण किया, फिर उन TCMs के लिए दस्ताने मॉडल फिट किया और परीक्षण डेटा में प्रत्येक शब्द की समानता को कोसाइन समानता फ़ंक्शन का उपयोग करके श्रेणी के डेटा को प्रशिक्षित करने के लिए जाँच की। लेकिन, मैं हर बार जब मैं दस्ताने मॉडल तैयार करता हूं और समानता के लिए जांचता हूं तो अच्छी सटीकता और इसके चर भी हासिल नहीं कर सकता।
साईं चरण आदिशक्ति

धन्यवाद, डॉ। ब्रायन यह काम करता है अगर मैं संदर्भ प्राप्त करने के लिए और एनईआर का उपयोग करने के लिए वाक्यों का उपयोग करता हूं। लेकिन, मैं इसे केवल शब्दों का उपयोग करके करना चाहता हूं और देखें कि क्या कोई मॉडल शब्दों से पैटर्न सीख सकता है।
साईं चरण अदूरथी

हाय ब्रेन, मैंने पूर्व प्रशिक्षित एनईआर मॉडल का उपयोग करने के लिए अपाचे ओपन एनएलपी का उपयोग किया था। और हाँ यह शब्दों पर भी काम करता है।
साईं चरण अदूरथी
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.