मैं गैर-परमाणु डेटा का उपयोग करना चाहूंगा, एक भविष्यवाणी के लिए एक सुविधा के रूप में। मान लीजिए कि मेरे पास इन सुविधाओं के साथ एक तालिका है:
- Column 1: Categorical - House
- Column 2: Numerical - 23.22
- Column 3: A Vector - [ 12, 22, 32 ]
- Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ]
- Column 5: A List [ 122, Boolean ]
मैं भविष्यवाणी करना / वर्गीकृत करना चाहूंगा, उदाहरण के लिए, कॉलम 2।
मैं स्वचालित रूप से सवालों के जवाब देने के लिए कुछ बना रहा हूं, किसी भी प्रकार का प्रश्न, जैसे "फू बॉर्न कहां था?" ...
मैं पहले एक खोज इंजन के लिए एक प्रश्न बनाता हूं, फिर मुझे कुछ पाठ डेटा प्राप्त होता है, फिर मैं सभी पार्सिंग सामान (टैगिंग, स्टेमिंग, पार्सिंग, विभाजन ...) करता हूं
मेरा पहला दृष्टिकोण एक तालिका बनाना था, प्रत्येक पंक्ति पाठ की एक पंक्ति और बहुत सारी विशेषताओं के साथ, जैसे "फर्स्ट वर्ड", "फर्स्ट वर्ड का टैग", "चंक्स", आदि ...
लेकिन इस दृष्टिकोण के साथ मैं वाक्यों के बीच संबंधों को याद कर रहा हूं।
मैं जानना चाहूंगा कि क्या कोई एल्गोरिथ्म है जो पेड़ की संरचनाओं (या वैक्टर) के अंदर दिखता है और जो कुछ भी भविष्यवाणी / वर्गीकरण के लिए प्रासंगिक है उसे संबंध बनाता है और निकालता है। मैं एक ऐसे पुस्तकालय के बारे में जानना चाहता हूँ जो कि एक एल्गोरिथ्म की तुलना में है जिसे मुझे लागू करना है।