ऑनलाइन डेटिंग साइटों के लिए आँकड़े


10

मैं उत्सुक हूं कि एक ऑनलाइन डेटिंग प्रणाली कैसे मैचों का निर्धारण करने के लिए सर्वेक्षण डेटा का उपयोग कर सकती है।

मान लीजिए कि उनके पास पिछले मैचों के डेटा हैं (उदाहरण के लिए, 1 = खुशी से विवाहित, 0 = कोई दूसरा दिनांक नहीं)।

अगला, मान लें कि उनके पास 2 प्राथमिकता वाले प्रश्न थे,

  • "आप बाहरी गतिविधियों का कितना आनंद लेते हैं? (1 = जोरदार नापसंद, 5 = जोरदार पसंद)"
  • "आप जीवन के प्रति कितने आशावादी हैं? (1 = दृढ़ता से नापसंद, 5 = दृढ़ता से पसंद)

यह भी मान लें कि प्रत्येक वरीयता प्रश्न के लिए उनके पास एक संकेतक है "यह कितना महत्वपूर्ण है कि आपका जीवनसाथी आपकी प्राथमिकता साझा करता है? (1 = महत्वपूर्ण नहीं, 3 = बहुत महत्वपूर्ण)"

यदि उनके पास प्रत्येक जोड़ी के लिए 4 प्रश्न हैं और क्या यह मैच सफल रहा है, तो एक बुनियादी मॉडल क्या है जो भविष्य के मैचों की भविष्यवाणी करने के लिए उस जानकारी का उपयोग करेगा?


2
मुझे लगा कि एक सफल मैच तब होता है जब लड़की सुंदर होती है या पुरुष अमीर होता है। बाकी सब कुछ गौण है।
user4951

4
Blog.okcupid.com की जाँच करें - कहीं वे अंतर्निहित मिलान वाले मॉडल के बारे में बात करते हैं।
फेलिक्स एस

क्या आप उल्लेख कर सकते हैं कि आप किस तरह की चीजों पर अधिक गहराई चाहते हैं? माइकल का जवाब एक बहुत ही ठोस अवलोकन है।
दान

यदि आप EHarmony के लिए पेटेंट (पेटेंट 6,735,568 - google.com/… ) पढ़ते हैं, तो उनका सिस्टम प्रिंसिपल कंपोनेंट एनालिसिस, फैक्टर एनालिसिस के संयोजन का उपयोग करता है, और एक न्यूरल नेटवर्क का उपयोग करता है। जैसा कि अन्य लोगों ने के-एनएन, कार्स और जीएलएम जैसे तरीकों का उल्लेख किया है, वे भी अच्छी तरह से काम करेंगे।
क्रिस सिमोकैट

@ChrisSimokat - वाह! अद्भुत लिंक के लिए बहुत बहुत धन्यवाद। हालांकि यह दिलचस्प है। मैंने कभी नहीं सोचा था कि आप सांख्यिकीय तरीकों और एल्गोरिदम को "कॉपीराइट" कर सकते हैं।
d_a_c321

जवाबों:


4

मैंने एक बार किसी ऐसे व्यक्ति से बात की जो ऑनलाइन डेटिंग साइटों में से एक के लिए काम करता है जो सांख्यिकीय तकनीकों का उपयोग करता है (वे शायद यह कहते हैं कि मैं कौन नहीं था)। यह काफी दिलचस्प था - शुरू करने के लिए उन्होंने बहुत ही साधारण चीजों का इस्तेमाल किया, जैसे कि पास के पड़ोसियों जैसे यूक्लिडियन या L_1 (सिटीब्लॉक) प्रोफाइल वैक्टर के बीच की दूरी, लेकिन इस बात पर बहस चल रही थी कि क्या दो लोगों से मिलना जुलना भी अच्छा था या बुरा चीज़। इसके बाद उन्होंने कहा कि अब उन्होंने बहुत सारा डेटा इकट्ठा कर लिया है (जो इसमें रुचि रखते थे, जिन्होंने डेट किया, जिन्होंने शादी की आदि आदि), वे उस मॉडल का लगातार उपयोग कर रहे हैं। वृद्धिशील-बैच ढांचे में काम, जहां वे समय-समय पर डेटा के बैचों का उपयोग करके अपने मॉडल को अपडेट करते हैं, और फिर डेटाबेस पर मैच की संभावनाओं को पुनर्गणना करते हैं। काफी दिलचस्प चीजें, लेकिन मैं '


3

आपने एक साधारण मॉडल के लिए कहा। यहां बताया गया है कि मैं आर कोड के साथ कैसे शुरू करूंगा:

 glm(match ~ outdoorDif*outdoorImport + optimistDif*optimistImport,
     family=binomial(link="logit"))

आउटडोरडिफ = दो लोगों के उत्तरों का अंतर कि वे बाहरी गतिविधियों का कितना आनंद लेते हैं। आउटडोरइमपोर्ट = बाहरी गतिविधियों के आनंद पर उत्तरों के संबंध में एक मैच के महत्व पर दो उत्तरों का औसत।

* इंगित करता है कि पूर्ववर्ती और निम्नलिखित शब्दों को परस्पर जोड़ा गया है और अलग से शामिल किया गया है।

आप सुझाव देते हैं कि मैच डेटा केवल दो विकल्पों के साथ द्विआधारी है, "खुशी से विवाहित" और "कोई दूसरी तारीख नहीं," तो यही वह है जो मैंने एक लॉजिट मॉडल को चुनने में माना था। यह यथार्थवादी नहीं लगता है। यदि आपके पास दो से अधिक संभावित परिणाम हैं, तो आपको एक बहुराष्ट्रीय या ऑर्डर किए गए लॉगिट या कुछ ऐसे मॉडल पर स्विच करना होगा।

यदि, जैसा कि आप सुझाव देते हैं, कुछ लोगों के पास कई प्रयास किए गए मैच हैं, तो यह संभवतः मॉडल के लिए खाते में लाने की कोशिश करने के लिए एक बहुत महत्वपूर्ण बात होगी। ऐसा करने का एक तरीका यह हो सकता है कि प्रत्येक व्यक्ति के लिए पिछले प्रयास के # मैचों को दर्शाने के लिए अलग-अलग चर हों, और फिर दोनों के बीच बातचीत हो।


महान जवाब के लिए धन्यवाद .. मैं आपको इनाम दे रहा हूं! :) यह एक अच्छा दृष्टिकोण की तरह लगता है। शायद अगर आपके पास एन सवाल थे जो कि एम की तरह श्रेणियों में फिट होते हैं (उदाहरण के लिए, एथलेटिक्स के सवाल) तो आप उस श्रेणी के भीतर महत्व और मतभेदों के औसत का उपयोग करके मॉडल को समृद्ध कर सकते हैं और इसे अतिरिक्त शब्द के रूप में जोड़ सकते हैं। यह सही नहीं है, लेकिन यह कई सहसंबद्ध चर की बातचीत को पकड़ने का एक सरल तरीका हो सकता है। फिर से धन्यवाद, मुझे कोई अन्य विचार सुनकर खुशी होगी जो आपका जवाब नहीं देता;)।
d_a_c321

क्या आपको पहले उत्तरों को सामान्य नहीं करना चाहिए? यदि हर कोई बाहर का आनंद लेता है, तो बाहरी उत्तर कम प्रासंगिक हो जाना चाहिए, क्योंकि यह संगतता का एक खराब भविष्यवाचक होगा।
स्किलिविज़

@ स्लीव्ज़, मुझे यकीन नहीं है कि आप एक बहु विकल्प (क्रम) का जवाब कैसे सामान्य करेंगे। यह भी याद रखें कि निरंतर भविष्यवक्ता चर के रेखीय परिवर्तन कभी-कभी यहां चर्चा किए गए कारणों के लिए वांछनीय होते हैं: आंकड़े . stackexchange.com/q/7112/3748 और यहां: आंकड़े . stackexchange.com/q/19216/3748 - वे बदलाव नहीं करेंगे मॉडल की भविष्यवाणी कुछ असामान्य कम्प्यूटेशनल मुद्दों को छोड़कर। यदि हर कोई बाहर का आनंद लेता है, तो बाहरी रूप से समान रूप से बाहरी उत्तर कम प्रासंगिक है, लेकिन मुझे नहीं लगता कि यह वास्तव में मॉडल के लिए एक समस्या है क्योंकि मैंने इसे निर्दिष्ट किया है। (ऐसा नहीं है कि मेरा मॉडल सही है)
माइकल बिशप

1

एक सरल दृष्टिकोण इस प्रकार होगा।

दो वरीयता वाले प्रश्नों के लिए, चार के बजाय दो वेरिएबल, दो वेरिएबल्स, z1 और z2 कहते हुए, दोनों के उत्तर के बीच पूर्ण अंतर लें।

महत्वपूर्ण प्रश्नों के लिए, मैं एक स्कोर बना सकता हूं जो दो प्रतिक्रियाओं को जोड़ता है। यदि प्रतिक्रियाएँ थीं, तो, (1,1), मैं एक 1, (1,2) या (2,1) देता हूँ एक 2, (1,3) या (3,1) एक हो जाता है 3, एक (2,3) या (3,2) को 4 मिलता है, और (3,3) को एक 5 मिलता है। आइए हम बताते हैं कि "महत्व स्कोर।" एक विकल्प केवल अधिकतम (प्रतिक्रिया) का उपयोग करना होगा, 5 के बजाय 3 श्रेणियां देगा, लेकिन मुझे लगता है कि 5 श्रेणी का संस्करण बेहतर है।

अब मैं दस चर बनाऊंगा, X1 - x10 (समवर्ती के लिए), सभी शून्य के डिफ़ॉल्ट मानों के साथ। पहले प्रश्न = 1, X1 = z1 के लिए एक महत्वपूर्ण स्कोर के साथ उन टिप्पणियों के लिए। यदि दूसरे प्रश्न के लिए महत्व स्कोर भी = 1, x2 = z2 है। पहले प्रश्न = 2, x3 = z1 के लिए एक महत्व स्कोर के साथ उन टिप्पणियों के लिए और यदि दूसरा प्रश्न = 2, x4 = z2, और इतने पर के लिए महत्व स्कोर। प्रत्येक अवलोकन के लिए, बिल्कुल X1, x3, x5, x7, x9! = 0 में से एक, और इसी तरह x2, x4, x6, x8, x10 के लिए।

यह सब करने के बाद, मैं लक्ष्य चर के रूप में द्विआधारी परिणाम के साथ एक लॉजिस्टिक प्रतिगमन चलाऊंगा और रेजिस्टर के रूप में एक्स 1 - एक्स 10।

इसके अधिक परिष्कृत संस्करण पुरुष और महिला प्रतिवादी के महत्व को अलग-अलग तरीके से व्यवहार करने की अनुमति देकर अधिक महत्व स्कोर बना सकते हैं, उदाहरण के लिए, (1,2)! = A (2,1), जहां हमने सेक्स द्वारा प्रतिक्रियाओं का आदेश दिया है।

इस मॉडल की एक कमी यह है कि आपके पास एक ही व्यक्ति के कई अवलोकन हो सकते हैं, जिसका अर्थ होगा "त्रुटियां", शिथिल रूप से बोलना, टिप्पणियों के पार स्वतंत्र नहीं हैं। हालाँकि, नमूने में बहुत से लोगों के साथ, मैं शायद इसे अनदेखा करूँगा, पहले पास के लिए, या एक ऐसे नमूने का निर्माण करूँगा जहाँ कोई डुप्लिकेट नहीं थे।

एक और कमी यह है कि यह प्रशंसनीय है कि जैसे-जैसे महत्व बढ़ता है, पी (वरीयताओं) पर प्राथमिकताओं के बीच अंतर के प्रभाव में भी वृद्धि होगी, जो (X1, x3, x5, x7, x9) के गुणांकों के बीच संबंध और भी (x2, x4, x6, x8, x10) के गुणांक के बीच। (संभवत: पूर्ण आदेश नहीं है, क्योंकि यह मेरे लिए स्पष्ट नहीं है कि कैसे (2,2) महत्व स्कोर एक (1,3) महत्व स्कोर से संबंधित है।) हालांकि, हमने इसे मॉडल में नहीं लगाया है। मैं शायद पहली बार में इसे अनदेखा कर दूंगा, और देखूंगा कि क्या मैं परिणामों से हैरान हूं।

इस दृष्टिकोण का लाभ यह है कि "महत्व" और वरीयता प्रतिक्रियाओं के बीच अंतर के बीच संबंध के कार्यात्मक रूप के बारे में कोई धारणा नहीं है। यह पिछली कमी की टिप्पणी का खंडन करता है, लेकिन मुझे लगता है कि लगाए जा रहे कार्यात्मक रूप की कमी संभवतया गुणांक के बीच अपेक्षित संबंधों को ध्यान में रखने के लिए संबंधित विफलता की तुलना में अधिक लाभदायक है।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.