गैर-परमाणु सुविधाओं के साथ भविष्यवाणी


10

मैं गैर-परमाणु डेटा का उपयोग करना चाहूंगा, एक भविष्यवाणी के लिए एक सुविधा के रूप में। मान लीजिए कि मेरे पास इन सुविधाओं के साथ एक तालिका है:

- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]

मैं भविष्यवाणी करना / वर्गीकृत करना चाहूंगा, उदाहरण के लिए, कॉलम 2।

मैं स्वचालित रूप से सवालों के जवाब देने के लिए कुछ बना रहा हूं, किसी भी प्रकार का प्रश्न, जैसे "फू बॉर्न कहां था?" ...

मैं पहले एक खोज इंजन के लिए एक प्रश्न बनाता हूं, फिर मुझे कुछ पाठ डेटा प्राप्त होता है, फिर मैं सभी पार्सिंग सामान (टैगिंग, स्टेमिंग, पार्सिंग, विभाजन ...) करता हूं

मेरा पहला दृष्टिकोण एक तालिका बनाना था, प्रत्येक पंक्ति पाठ की एक पंक्ति और बहुत सारी विशेषताओं के साथ, जैसे "फर्स्ट वर्ड", "फर्स्ट वर्ड का टैग", "चंक्स", आदि ...

लेकिन इस दृष्टिकोण के साथ मैं वाक्यों के बीच संबंधों को याद कर रहा हूं।

मैं जानना चाहूंगा कि क्या कोई एल्गोरिथ्म है जो पेड़ की संरचनाओं (या वैक्टर) के अंदर दिखता है और जो कुछ भी भविष्यवाणी / वर्गीकरण के लिए प्रासंगिक है उसे संबंध बनाता है और निकालता है। मैं एक ऐसे पुस्तकालय के बारे में जानना चाहता हूँ जो कि एक एल्गोरिथ्म की तुलना में है जिसे मुझे लागू करना है।


कृपया स्पष्ट करें: आप कहते हैं कि आप कॉलम 2 को एक विशेषता के रूप में उपयोग करना चाहते हैं, लेकिन फिर आप कहते हैं कि आप कॉलम 2 का पूर्वानुमान / वर्गीकरण करना चाहते हैं। इसके अलावा, आप इस सुविधा को 'गैर-परमाणु' कहते हैं ... क्या आपका मतलब यह स्पष्ट नहीं है?
लॉग

जवाबों:


7

जब यह कई प्रकार के डेटा से निपटने की बात आती है, खासकर जब उनके बीच के संबंध स्पष्ट नहीं होते हैं, तो मैं दृढ़ता से निर्णय पेड़ों के आधार पर एक तकनीक की सिफारिश करूंगा , सबसे लोकप्रिय आज मेरे ज्ञान का सबसे अच्छा जंगल यादृच्छिक हैं , और बेहद यादृच्छिक पेड़

दोनों के पास स्केलेर में कार्यान्वयन है , और वे उपयोग करने के लिए बहुत सरल हैं। बहुत उच्च स्तर पर, कारण यह है कि एक- decision treeआधारित दृष्टिकोण कई अलग-अलग प्रकार के डेटा के लिए फायदेमंद है, क्योंकि निर्णय के पेड़ उन विशिष्ट डेटा से काफी हद तक स्वतंत्र हैं , जिनसे वे निपट रहे हैं, बस इतने लंबे समय तक वे आपके प्रतिनिधित्व को समझने में सक्षम हैं।

आपको अभी भी अपने डेटा को किसी प्रकार के फ़ीचर वेक्टर में फिट करना होगा, लेकिन आपके उदाहरण के आधार पर, जो बहुत ही सरल कार्य की तरह प्रतीत होता है, और यदि आप अपने कार्यान्वयन पर थोड़ा गहराई से जाने के इच्छुक हैं, तो आप निश्चित रूप से साथ आ सकते हैं वास्तव में अंतर्निहित एल्गोरिथ्म में कुछ भी बदलने के बिना एक कस्टम ट्री-स्प्लिटिंग नियम। मूल पत्र शुरू करने के लिए यदि आप एक शॉट है कि देना चाहता हूँ एक बहुत सभ्य जगह है।

यदि आप अपने पाठ डेटा से छद्म संरचनात्मक डेटा चाहते हैं, तो मैं सुझाव दे सकता हूं कि doc2vecहाल ही में Google द्वारा विकसित किया गया है। मुझे नहीं लगता कि अब कोई अच्छा ओपन-सोर्स कार्यान्वयन है, लेकिन यह word2vecएल्गोरिथ्म पर एक बहुत सीधा सुधार है, जिसमें कम से कम Cऔर में कार्यान्वयन हैं python

उम्मीद है की वो मदद करदे! यदि आपको कोई और प्रश्न मिला हो तो मुझे बताएं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.