मेरे पास पेड़ों का एक बड़ा डेटासेट है और मैं इसे एक ट्रीलेट (जुड़ा हुआ उपसमूह ) निर्दिष्ट करके खोज करना चाहता हूं । क्वेरी को डेटासेट में ट्रीलेट के सभी सुधारों को वापस करना चाहिए।
क्या ऐसा करने के लिए कुशल एल्गोरिदम हैं?
मैं प्रत्यय सरणियों की तरह कुछ सोच रहा था, हालांकि, भोलेपन से पेड़ों को तार के रूप में एन्कोडिंग (उनके नोड्स के एक निश्चित ट्रावल ऑर्डर करके) काम नहीं करेगा, क्योंकि खोज ट्रीलेट किसी भी मनमाने आकार का हो सकता है।
अपडेट करें:
कुछ विशिष्ट उदाहरणों के बारे में जो मुझे उम्मीद है:
डेटासेट में कम से कम दसियों हजार पेड़ होंगे, जिनमें से प्रत्येक में लगभग बीस से तीस नोड्स होंगे। पेड़ बाइनरी नहीं होंगे, लेकिन प्रति नोड्स ठेठ बच्चे छोटे होंगे (आमतौर पर चार या पांच से अधिक नहीं, हालांकि कुछ पतित मामलों में यह लगभग तीस तक पहुंच सकता है)। लेबल की संख्या हजारों की संख्या में होगी।
मुझे इसकी आवश्यकता है कि एनएलपी अनुप्रयोगों के लिए: प्रत्येक पेड़ एक वाक्य की निर्भरता प्रतिमान होगा, प्रत्येक नोड एक शब्द के शब्द का प्रतिनिधित्व करता है और प्रत्येक एक शब्दकोष (कुछ सजावट के साथ) एक शब्द लेबल।