जवाबों:
पाठ खनन / सूचना पुनर्प्राप्ति / आदि के कुछ फार्म को शामिल करते हुए निश्चित रूप से अनुसंधान परियोजनाएं दिखाई देती हैं। और StackExchange साइटें।
कुछ उदाहरण जो मैं गूगल / गूगल स्कॉलर के माध्यम से खोजने में सक्षम था (एक विस्तृत सूची के पास कहीं भी होने की संभावना नहीं):
अधिक सामान्य रूप से, स्वचालित प्रश्न उत्तर प्रणाली अभी भी अनुसंधान के बजाय एक सक्रिय क्षेत्र प्रतीत होती है, न कि एक तुच्छ / "हल" समस्या। StackExchange ऐसी प्रणालियों के लिए डेटा का एक स्रोत हो सकता है, लेकिन डेटा के अन्य स्रोत भी बहुत हैं (विकिपीडिया, Quora, आदि)।
DuckDuckGo StackExchange से तकनीकी प्रश्नों के उत्तर सीखता है। डकडकगो में "चल रही परियोजनाओं का उपयोग स्टेक्सएक्सचेंज" जैसे एक तकनीकी प्रश्न टाइप करें और यह दाईं ओर उत्तर का एक हाइलाइट किया गया सारांश प्रदान करेगा। और बतख के पास डेटा स्रोतों का जवाब देने वाले कई (100) अधिक सवाल के लिए एक खुला एपीआई है। या आप सीधे स्टैकटेक्चेंज एपी में जा सकते हैं ।
जब तक वे अपने TOU का अनुपालन करते हैं, प्रोजेक्ट SE खुले API से डेटा का उपयोग कर सकते हैं । मूल रूप से सिर्फ यह सुनिश्चित करें कि आपके उपयोगकर्ता बता सकते हैं कि डेटा स्टैक एक्सचेंज से आया था। कॉपीराइट लाइसेंस पाठ की सामग्री को बदलने के लिए आपकी क्षमता को सीमित कर सकता है, एक सीखा सार संक्षेप के साथ। शायद यही कारण है कि डक डॉट कॉम केवल कीवर्ड पर प्रकाश डालता है।
डेटा अधिकार कानून प्रवाह में है, खासकर जब यह आपके द्वारा किसी साइट पर सबमिट किए गए डेटा और उस डेटा से प्राप्त मशीन लर्निंग मॉडल की बात आती है। नए यूरोपीय डेटा और गोपनीयता नियम आपको स्टैक एक्सचेंज जैसी साइट पर सबमिट किए गए सभी डेटा को डाउनलोड करने या हटाने के लिए सशक्त बनाते हैं।