StackExchange वेबसाइटों में मशीन सीखने के तरीकों का अनुप्रयोग


37

मेरे पास इस सेमेस्टर में मशीन लर्निंग कोर्स है और प्रोफेसर ने हमें वास्तविक दुनिया की समस्या का पता लगाने और कक्षा में पेश किए गए मशीन सीखने के तरीकों में से एक के द्वारा हल करने के लिए कहा , जैसे:

मैं के प्रशंसकों में से एक हूँ stackoverflow और stackexchange और पता डेटाबेस उदासीनता के इन वेबसाइटों जनता के लिए प्रदान की जाती हैं, क्योंकि वे भयानक हैं! मुझे आशा है कि मुझे इन डेटाबेस के बारे में एक अच्छी मशीन सीखने की चुनौती मिल सकती है और इसे हल कर सकते हैं।

मेरा विचार

एक विचार मेरे दिमाग में आया कि प्रश्न शरीर में दर्ज शब्दों के आधार पर प्रश्नों के लिए टैग की भविष्यवाणी कर रहा है। मुझे लगता है कि बायेसियन नेटवर्क एक प्रश्न के लिए टैग सीखने का सही उपकरण है, लेकिन अधिक शोध की आवश्यकता है। वैसे भी, सीखने के चरण के बाद जब उपयोगकर्ता प्रश्न दर्ज करना समाप्त करता है तो कुछ टैग उसे सुझाए जाने चाहिए।

कृपया मुझे बताओ :

मैं एमएल दो प्रश्नों के बारे में अनुभवी लोगों के रूप में सांख्यिकी समुदाय से पूछना चाहता हूं:

  1. क्या आपको लगता है कि टैग सुझाव कम से कम एक समस्या है जिसे हल करने का कोई मौका है? क्या आपके पास इसके बारे में कोई सलाह है? मैं थोड़ा चिंतित हूं क्योंकि स्टैटेक्सचेंज इस तरह की सुविधा को अभी तक लागू नहीं करता है।

  2. क्या आपके पास एमएल प्रोजेक्ट के लिए कोई अन्य / बेहतर विचार है जो स्टैकटेक्चेंज डेटाबेस पर आधारित है? मुझे स्टैटेक्सचेंज डेटाबेस से कुछ सीखना बहुत मुश्किल है ।


डेटाबेस त्रुटियों के बारे में विचार: मैं यह बताना चाहूंगा कि यद्यपि डेटाबेस विशाल हैं और कई उदाहरण हैं, वे सही नहीं हैं और त्रुटि के लिए प्रवण हैं। स्पष्ट एक उपयोगकर्ताओं की उम्र है जो अविश्वसनीय है। यहां तक ​​कि प्रश्न के लिए चयनित टैग भी 100% सही नहीं हैं। वैसे भी, हमें समस्या का चयन करने में डेटा की शुद्धता के प्रतिशत पर विचार करना चाहिए।

समस्या के बारे में विचार: मेरी परियोजना के बारे में data-miningया ऐसा कुछ नहीं होना चाहिए । यह सिर्फ वास्तविक दुनिया में एमएल तरीकों का एक आवेदन होना चाहिए।

जवाबों:


28

हां , मुझे लगता है कि टैग भविष्यवाणी एक दिलचस्प और एक है जिसके लिए आपके पास "सफलता" पर एक अच्छा शॉट है।

नीचे कुछ विचार मंथन और इस विषय के आगे अन्वेषण में संभावित सहायता करने के लिए किए गए हैं। मुझे लगता है कि ऐसी परियोजना के लिए कई संभावित दिलचस्प दिशा-निर्देश हैं। मुझे लगता है कि नीचे के सिर्फ एक या दो पर एक गंभीर प्रयास पर्याप्त परियोजना से अधिक के लिए बना देगा और आप उन लोगों की तुलना में अधिक दिलचस्प सवालों के साथ आने की संभावना है।

मैं मशीन लर्निंग के रूप में बहुत व्यापक दृष्टिकोण रखने जा रहा हूं । निस्संदेह मेरे कुछ सुझाव बेहतर डेटा विश्लेषण और अधिक पारंपरिक सांख्यिकीय विश्लेषण के रूप में वर्गीकृत किए जाएंगे । लेकिन, शायद, यह कुछ छोटे तरीके से मदद करेगा क्योंकि आप अपने स्वयं के दिलचस्प प्रश्नों को तैयार करते हैं। आप ध्यान देंगे, मैं उन सवालों को हल करने की कोशिश करता हूं जो मुझे लगता है कि साइट की कार्यक्षमता बढ़ाने के मामले में दिलचस्प होगा। बेशक, कई अन्य दिलचस्प सवाल भी हैं जो साइट मित्रता से संबंधित नहीं हो सकते हैं।

  1. उपयोगकर्ता व्यवहार का मूल वर्णनात्मक विश्लेषण : मैं अनुमान लगा रहा हूं कि इस साइट पर उपयोगकर्ता की भागीदारी के लिए एक बहुत ही स्पष्ट चक्रीय साप्ताहिक पैटर्न है। साइट को सबसे अधिक ट्रैफ़िक कब मिलता है? साइट पर उपयोगकर्ता की भागीदारी का ग्राफ कैसा दिखता है, कहते हैं, सप्ताह में घंटे के आधार पर स्तरीकृत? आप समय के साथ साइट की समग्र लोकप्रियता में संभावित परिवर्तनों के लिए समायोजित करना चाहते हैं। इससे यह सवाल होता है कि स्थापना के बाद से साइट की लोकप्रियता कैसे बदल गई है? शामिल होने के बाद से समय के साथ "विशिष्ट" उपयोगकर्ता की भागीदारी कैसे बदलती है? मैं अनुमान लगा रहा हूं कि यह शुरुआत में बहुत तेज़ी से रैंप करता है, फिर प्लैटियस, और शायद कुछ हफ़्ते के बाद दक्षिण में शामिल हो जाता है।
  2. प्रश्नों और उत्तरों का इष्टतम प्रस्तुत करना: पहले प्रश्न पर अंतर्दृष्टि प्राप्त करना स्वाभाविक रूप से कुछ अधिक रोचक (एक एमएल अर्थ में) प्रश्नों को जन्म देता है। कहो मेरे पास एक सवाल है जिसका मुझे जवाब चाहिए। यदि मुझे प्रतिक्रिया प्राप्त करने की मेरी संभावना को अधिकतम करना है, तो मुझे इसे कब प्रस्तुत करना चाहिए? यदि मैं किसी प्रश्न का उत्तर दे रहा हूं और मैं अपना मत गिनना चाहता हूं, तो मुझे अपना जवाब कब प्रस्तुत करना चाहिए? हो सकता है कि इन दोनों के जवाब बहुत अलग हों। यह प्रश्न के विषय से कैसे भिन्न होता है (जैसे, संबंधित टैग द्वारा परिभाषित)?
  3. उपयोगकर्ताओं और विषयों की नकल करना : कौन से उपयोगकर्ता अपने हितों के संदर्भ में सबसे समान हैं, फिर से, शायद टैग द्वारा मापा जाता है? वे कौन से विषय हैं जिनके अनुसार उपयोगकर्ता भाग लेते हैं? क्या आप इन रिश्तों का अच्छा दृश्य देख सकते हैं? इसके बारे में यह अनुमान लगाने की कोशिश की जाएगी कि कौन सा उपयोगकर्ता किसी विशेष प्रश्न का उत्तर प्रस्तुत करने की सबसे अधिक संभावना है। (एसई को ऐसी तकनीक प्रदान करने की कल्पना करें ताकि उपयोगकर्ताओं को संभावित रूप से दिलचस्प सवालों के बारे में सूचित किया जा सके, न कि केवल टैग पर आधारित।)
  4. व्यवहार द्वारा उत्तरदाताओं का क्लस्टरिंग : ऐसा लगता है कि इस साइट का उपयोग करने वाले उत्तरदाताओं के बारे में कुछ अलग बुनियादी व्यवहार पैटर्न हैं। क्या आप अपने व्यवहार के अनुसार क्लस्टर उत्तर देने वालों के लिए सुविधाओं और क्लस्टरिंग एल्गोरिदम के साथ आ सकते हैं। क्या क्लस्टर व्याख्या करने योग्य हैं?
  5. नए टैग सुझाना : क्या आप डेटाबेस में वर्तमान में मौजूद प्रश्नों और उत्तरों से संबंधित विषयों पर आधारित नए टैग के लिए सुझाव ले सकते हैं । उदाहरण के लिए, मेरा मानना ​​है कि टैग [मिश्रण-मॉडल] को हाल ही में जोड़ा गया था क्योंकि किसी ने देखा था कि हमें संबंधित प्रश्नों का एक समूह मिल रहा है। लेकिन, ऐसा लगता है कि सूचना-पुनर्प्राप्ति दृष्टिकोण सीधे ऐसे विषयों को निकालने में सक्षम होना चाहिए और संभावित रूप से उन्हें मध्यस्थों को सुझाव देना चाहिए।
  6. भौगोलिक स्थानों का अर्ध-प्रशिक्षित ज्ञान : ( यह एक गोपनीयता के दृष्टिकोण से थोड़ा मार्मिक हो सकता है। ) कुछ उपयोगकर्ता जहां वे स्थित हैं, उनकी सूची बनाते हैं। दूसरों को नहीं। उपयोग पैटर्न और संभावित शब्दावली आदि का उपयोग करके, क्या आप प्रत्येक उपयोगकर्ता के स्थान पर भौगोलिक विश्वास क्षेत्र डाल सकते हैं? सहज रूप से, ऐसा लगेगा कि अक्षांश के मुकाबले देशांतर के संदर्भ में यह (बहुत) अधिक सटीक होगा।
  7. संभावित डुप्लिकेट और अत्यधिक संबंधित प्रश्नों के स्वचालित फ़्लैगिंग : साइट में पहले से ही संबंधित मार्जिन के साथ सही मार्जिन में एक समान प्रकार की सुविधा है । लगभग सटीक डुप्लिकेट ढूँढना और उनका सुझाव देना मध्यस्थों के लिए उपयोगी हो सकता है। ऐसा करने से भर एसई समुदाय में साइटों नया होने के लिए प्रतीत होता है।
  8. मंथन की भविष्यवाणी और उपयोगकर्ता प्रतिधारण : प्रत्येक उपयोगकर्ता के इतिहास से सुविधाओं का उपयोग करते हुए, क्या आप अगली बार जब आप उन्हें देखने की उम्मीद करते हैं, तो क्या आप अनुमान लगा सकते हैं? क्या आप इस संभावना की भविष्यवाणी कर सकते हैं कि वे साइट सशर्त पर कब तक अनुपस्थित रहेंगे और उनके पिछले व्यवहार की विशेषताएं हैं? यह इस्तेमाल किया जा सकता है, उदाहरण के लिए, जब उपयोगकर्ताओं को "मंथन" का खतरा हो तो नोटिस करने की कोशिश करें और उन्हें बनाए रखने के प्रयास में उन्हें (कहना, ईमेल के माध्यम से) संलग्न करें। एक विशिष्ट दृष्टिकोण निष्क्रियता के कुछ निश्चित अवधि के बाद एक ईमेल को शूट करेगा। लेकिन, प्रत्येक उपयोगकर्ता बहुत अलग है और बहुत सारे उपयोगकर्ताओं के बारे में बहुत सारी जानकारी है, इसलिए एक अधिक सुसंगत दृष्टिकोण विकसित किया जा सकता है।

1
@ कार्डिनल। यह एक अद्भुत जवाब है, और इस सभी डेटा की उपलब्धता को देखते हुए, यह एक आकर्षक परियोजना बना देगा।
रिचमीमोर्रिसो

1
आपके अधिकांश सुझाव मुझे व्यावहारिक और एमएल-संबंधी लगते हैं। वैसे भी, उनमें से कुछ को गलत और अधूरे डेटा से निपटना चाहिए। अफसोस की बात है कि मुझे डेटा माइनिंग और क्लींजिंग का गहरा ज्ञान नहीं है और न ही इसे सीखने के लिए पर्याप्त समय। मुझे उम्मीद है कि आँकड़े के अन्य सदस्य इन विचारों के बारे में कुछ काम करेंगे और एसई समुदाय के लिए एक योगदान देंगे और उन्हें प्रभावित करेंगे :)
इसहाक

2
@Isaac, मैंने जो सूची प्रदान की है, वह अभिभूत करने का इरादा नहीं था। यह बस मंथन के साथ संभावित मदद करने के लिए किया गया था। परियोजना की प्रकृति के आधार पर, मुझे लगता है कि उनमें से 1-2 को संभालना सबसे अधिक होगा जिसकी उम्मीद की जा सकती है। चीयर्स।
कार्डिनल

1
सभी विचार अच्छे या महान हैं, लेकिन मुझे "उपयोगकर्ताओं और विषयों के बारे में सलाह देना" सबसे अच्छा लगता है ... संभावित दिलचस्प सवालों के लिए एक सिफारिशकर्ता प्रणाली भयानक होगी।
स्टीफन

9

मैं टैग भविष्यवाणी के बारे में सोच रहा था, मुझे भी यह विचार पसंद आया। मुझे लगता है कि यह संभव है, लेकिन आपको अपने अंतिम डेटासेट में आने से पहले कई मुद्दों को दूर करने की आवश्यकता हो सकती है। इसलिए मुझे लगता है कि टैग भविष्यवाणी में बहुत समय की आवश्यकता हो सकती है। गलत टैग के अलावा अधिकतम 5 टैग की सीमा एक भूमिका निभा सकती है। यह भी कि कुछ टैग दूसरों के उपश्रेणियाँ हैं (उदाहरण के लिए "एकाधिक तुलना" को "महत्व परीक्षण" के उपश्रेणी के रूप में देखा जा सकता है)।

मैंने चेक नहीं किया कि क्या अप-वोट बार डाउनलोड करने योग्य डेटाबेस में शामिल हैं, लेकिन एक अधिक सरल और अभी भी दिलचस्प परियोजना प्रारंभिक वोटों के आधार पर एक प्रश्न पर "अंतिम" वोटों की संख्या (शायद 5 महीने बाद) की भविष्यवाणी करने के लिए हो सकती है, और एक उत्तर को स्वीकार करने का समय।


जो मुझे याद है, उससे लगता है कि प्रत्येक उपयोगकर्ता के लिए आपके पास दिनांक / प्रश्न आईडी के साथ उसका वोट है।
CHL

(+1) वोट की भविष्यवाणी के लिए। महान विचार!
स्टीफन

1
यह परियोजना बहुत अच्छी लगती है, खासकर यदि हम उपयोगकर्ता के लिए बहुत जल्द ही vpvote गिनती की भविष्यवाणी करते हैं। एक और काम यह हो सकता है कि उपयोगकर्ता यह बता सके कि उसके प्रश्न को क्या रखा गया है और क्या सुधार उसके प्रश्न को लोकप्रिय बना सकता है। वैसे भी, हमेशा की तरह सुविधा का चुनाव वास्तव में एक महत्वपूर्ण और चुनौतीपूर्ण काम है और इस तरह की भविष्यवाणियों का प्रदर्शन इस चयन पर निर्भर करता है। TL; DR मुझे आपका विचार पसंद है
आइजैक

2

यह अच्छा प्रश्न है। मैंने भी सोचा है कि सार्वजनिक रूप से उपलब्ध StackExchange डेटासेट विश्लेषण के लिए अच्छे विषय बनाएंगे। ये पर्याप्त रूप से असामान्य हैं कि वे नए सांख्यिकीय तरीकों के लिए अच्छे परीक्षण भी हो सकते हैं। किसी भी दर पर इतनी बड़ी मात्रा में अच्छी तरह से संरचित डेटा का होना असामान्य है।

कार्डिनल ने उन चीजों का एक गुच्छा सुझाया जो वास्तव में StackExchange के लिए उपयोगी होगा। मैं खुद को इस तक सीमित नहीं रखूंगा।

यहां विश्लेषण के लिए एक स्पष्ट उम्मीदवार है, हालांकि इसका कोई स्पष्ट उपयोग नहीं है जो दिमाग में आता है। यह ध्यान देने योग्य प्रभाव है कि उच्च प्रतिनिधि उपयोगकर्ताओं को अपवित्र होने की संभावना है, अन्य चीजें समान हैं। हालांकि, यह प्रभाव संभवतः मॉडल के लिए गैर-तुच्छ है। चूंकि हम बहुत आसानी से उपयोगकर्ताओं की उपयोगिता की तुलना नहीं कर सकते हैं, इसलिए एक स्पष्ट दृष्टिकोण यह होगा कि उपयोगकर्ता जवाब हमेशा समान रूप से उपयोगी होते हैं (सामान्य रूप से सही नहीं है लेकिन किसी को कहीं शुरू करना है) और फिर उसकी बढ़ती प्रतिष्ठा के लिए एक मुद्रास्फीति शब्द जोड़ें । तब (मैं मान सकता हूं) कुछ शब्दों में जोड़ सकता है जो बढ़ते अनुभव के साथ बेहतर होने के लिए उसके जवाबों का हिसाब देंगे। हो सकता है कि यह किसी प्रकार की समय श्रृंखला द्वारा संभाला जा सके। मुझे यकीन नहीं है कि डेटा अंतराल कैसे प्रभावित होगा। यह एक दिलचस्प व्यायाम हो सकता है।

यदि मैं उनके बारे में सोचता / लगाता हूं तो मैं और उदाहरण जोड़ूंगा।

क्या कोई एसई डेटा पर आधारित सांख्यिकीय शोध पत्रों से अवगत है? इसके अलावा, इसहाक ने उल्लेख किया कि डेटा में त्रुटियां हैं। क्या किसी को इसके बारे में कुछ और पता है?


यह, वास्तव में, एक दिलचस्प सवाल है और एक जो मुझे लगता है कि एंडीव ने एक ब्लॉग पोस्ट में विश्लेषण करना शुरू किया था और कुछ समय पहले प्रश्न वापस किया था। मैं आपके कथन को जानने के लिए उत्सुक हूं कि "ध्यान देने योग्य" ऐसा प्रभाव है, जिसे मैं वास्तव में पूरी तरह से आश्वस्त नहीं हूं। इसके बाद आप इसे मॉडल करने का एक तरीका सुझाते हैं, लेकिन क्या इसमें आमतौर पर आपके द्वारा पहले से ही पुष्ट उत्तर दिए गए सटीक प्रश्न का उत्तर देने का प्रयास शामिल नहीं है?
कार्डिनल

@कार्डिनल: क्या आपके पास ब्लॉग पोस्ट का लिंक है? मुझे यकीन नहीं है कि मैं आपके अंतिम वाक्य को समझ सकता हूं। टेस, मुझे लगता है कि प्रभाव वास्तविक और ध्यान देने योग्य है, कम से कम यदि उपयोगकर्ता का नाम स्कीट है, लेकिन इस बिंदु पर यह केवल एक महत्वपूर्ण धारणा है, हालांकि एक मजबूत। इसलिए, यदि आप पसंद करते हैं, तो आप "ध्यान देने योग्य प्रभाव" को परिकल्पना के साथ बदल सकते हैं। विश्लेषण निश्चित रूप से इसकी पुष्टि या खंडन करने का प्रयास करेगा, साथ ही यदि यह मौजूद है तो प्रभाव की ताकत को मापता है।
फहीम मीठा

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.