Google से प्रासंगिक सहसंबंध और कार्य के बीच अंतर किस सीमा तक है?


21

प्रसंग

इस साइट पर एक लोकप्रिय सवाल " सामान्य सांख्यिकीय पाप क्या हैं? "। उल्लेख किए गए पापों में से एक यह मान रहा है कि "सहसंबंध का अर्थ कार्य ..." लिंक है

फिर, 5 अपवोट के साथ टिप्पणियों में यह सुझाव दिया गया है कि: "Google $ 65B को एक वर्ष में फर्क नहीं करता है।"

प्रकाश क्विप का अधिक विश्लेषण करने के जोखिम पर, मैंने सोचा कि यह सहसंबंध और कार्य के बीच के अंतर और भेद की व्यावहारिक प्रासंगिकता के लिए एक उपयोगी चर्चा बिंदु हो सकता है; और शायद यह मशीन सीखने और सहसंबंध और कार्य के बीच अंतर के संबंध के बारे में कुछ उजागर कर सकता है।

मैं मान रहा हूं कि टिप्पणी उन प्रौद्योगिकियों को संबोधित कर रही है जो खोज इंजन परिणामों और विज्ञापन प्रदर्शन संबंधित प्रौद्योगिकियों की पीढ़ी को आगे बढ़ाती हैं।

सवाल

  • Google की आय निर्माण के लिए प्रासंगिक सहसंबंध और कारण के बीच का अंतर किस हद तक है, शायद विज्ञापन प्रदर्शन संबंधित प्रौद्योगिकियों और गुणवत्ता खोज परिणामों के माध्यम से आय सृजन पर विशेष रूप से ध्यान केंद्रित कर रहा है?

यह मजेदार है, मैं उस टिप्पणी को थोड़ा पहले देख रहा था।
Iterator

2
क्रांतियों ब्लॉग में पिछले हफ्ते एक पोस्ट था कि कैसे गूगल ऑनलाइन विज्ञापन को अधिक प्रभावी बनाने के लिए आर का उपयोग करता है । दुर्भाग्य से वे बहुत विस्तार में नहीं जाते हैं ...
निको

जवाबों:


13

इसका सरल उत्तर यह है कि Google (या किसी को) को इस भेद की परवाह करनी चाहिए कि वे किस हद तक जाने का इरादा रखते हैं हस्तक्षेप करना । कारण ज्ञान आपको किसी दिए गए डोमेन में हस्तक्षेप (कार्यों) के प्रभावों के बारे में बताता है।

यदि, उदाहरण के लिए, Google विज्ञापनों पर क्लिक-थ्रू दरें बढ़ाना चाहता है, GMail या Google+ के उपयोगकर्ताओं की संख्या बढ़ाता है, या उपयोगकर्ताओं को बिंग के बजाय Google का उपयोग करने के लिए प्रेरित करता है, तो उन्हें संभावित क्रियाओं के प्रभावों को जानना होगा (उदाहरण के लिए, बढ़ती) विज्ञापनों का फ़ॉन्ट आकार, प्रिंट पत्रिकाओं में Google+ को बढ़ावा देना, या क्रमशः Google और बिंग खोज परिणामों के बीच अंतर को सार्वजनिक करना)। Google के खोज इंजन को अच्छी तरह से काम करने के लिए सहसंबंध काफी अच्छा है, लेकिन उनके अन्य प्रणालियों (और उनके व्यवसाय के लिए) का अंतर अक्सर मायने रखता है।

यह ध्यान देने योग्य है कि Google (और वेब-आधारित व्यवसायों वाली कई फर्म) लगातार ऑनलाइन प्रयोग कर रहे हैं। यह कार्य-निर्भरता की पहचान और अनुमान लगाने का सबसे सरल और सर्वोत्तम तरीका है।


(+1) जब तक भविष्यवक्ता क) सहसंबंधी और ख) भविष्य के परिणामों की सही भविष्यवाणी करने की अनुमति देते हैं, तब तक किसी को कार्य-कारण की परवाह नहीं करनी चाहिए।
स्टीफ़न

2
हम व्यवहार विज्ञान में प्रायोगिक अनुसंधान के पुनरुद्धार के युग में प्रवेश कर रहे हैं। 1950 के दशक में, कृषि में अनुप्रयोगों के साथ लगभग सभी सांख्यिकीय प्रयोगात्मक अनुसंधान थे। लेकिन 1980 के दशक के आसपास, लोगों ने माना है कि इन तकनीकों का अवलोकन डेटा की अधिक मदद नहीं है, जो कि आप सभी सामाजिक विज्ञानों में कर सकते हैं। अब, कम से कम ऑनलाइन मार्केटिंग अनुसंधान के niches में, यदि आप अमेज़ॅन या Google या बिंग हैं, तो आप प्रयोगों को चला सकते हैं और संभावित औचित्य का सबसे स्वच्छ रूप प्राप्त कर सकते हैं।
StasK

@StasK, नमूना आकारों को ध्यान में रखते हुए वे "लघु" प्रयोग से निपटने की संभावना रखते हैं और वे अत्यधिक उपयोगी परिणाम उत्पन्न करने की संभावना रखते हैं। क्या एक खजाना है कि होना चाहिए।
ब्रैंडन बर्टेल्सन

यह ध्यान रखना दिलचस्प है कि Google की "समूह" सुविधा वास्तव में, वास्तव में गरीब है। यह उस तरह का है जैसे उन्होंने एक समूह चर्चा सुविधा का निर्माण किया है जो अच्छे होने के साथ संबद्ध है, लेकिन उन्होंने यह पता नहीं लगाया है कि समूह चर्चा सुविधा के अच्छे होने का क्या कारण है। लेकिन यह विपणन में एक आम समस्या है - सभी अक्सर प्रतिस्पर्धा वाले उत्पादों की विशेषताओं को कॉपी किया जाता है ताकि सुविधाओं के लिए अंतर्निहित प्रेरणा समझ में न आए।
डैनियल आर हिक्स

1
@StasK: असली दुनिया शायद उतनी आदर्श नहीं है जितनी आप यहाँ दिखाते हैं। मैं इस बात से सहमत हूँ कि प्रयोग कार्यनिष्पादन करने के लिए एक महान उपकरण हैं। हालांकि, प्रयोग विशिष्ट समस्याओं को भी बढ़ाते हैं। कभी-कभी यह एक प्रयोग के बजाय एक अवलोकन अध्ययन के साथ कारण निष्कर्ष बनाने के लिए बेहतर हो सकता है। एक आलोचना इस मायने में हो सकती है कि नियंत्रित प्रयोगों के परिणामस्वरूप "वास्तविक लाइव" सेटिंग को सामान्यीकृत किया जा सकता है। कुछ लेखक इसे "बाहरी वैधता" कहते हैं।

6

सबसे पहले, यह सिर्फ एक चुटकी है और गलत है। Google में बहुत प्रतिभाशाली सांख्यिकीविद्, सूचना पुनर्प्राप्ति विशेषज्ञ, भाषाविद्, अर्थशास्त्री, कुछ मनोवैज्ञानिक और अन्य हैं। ये लोग सहसंबंध और कार्य-कारण के अंतर के बारे में बहुत सारे गैर-सांख्यिकीविदों को शिक्षित करने में बहुत समय बिताते हैं। यह देखते हुए कि यह एक बड़ा संगठन है, अज्ञानता के कारण जेब, यहां तक ​​कि बड़ी जेबें भी हो सकती हैं, लेकिन दावा निश्चित रूप से गलत है। इसके अलावा, बहुत सी शिक्षा ग्राहकों, विशेषकर विज्ञापनदाताओं का सामना करती है।

गहरा उत्तर: अंतर है अत्यंत महत्वपूर्ण है। खोज परिणामों की रैंकिंग देखें, और मुझे समानता, स्कोरिंग कार्यों आदि के उपायों को शामिल करने के लिए सिर्फ "सहसंबंध" से परे का विस्तार करने की अनुमति दें, कुछ पृष्ठ कुछ प्रश्नों के अच्छे परिणाम के लिए मापा जाता है। इनमें कई प्रकार की भविष्यवाणियाँ हैं जो उनकी रैंकिंग के लिए महत्वपूर्ण हैं। इन अच्छे पृष्ठों के विपरीत जो प्रश्नों के लिए अच्छे परिणाम हैं, वेबपेजों का एक सेट है जो ऐसे पृष्ठ हैं जो समान प्रश्नों के लिए बहुत बुरे परिणाम हैं। हालांकि, उन पृष्ठों के निर्माता उन्हें अच्छे पृष्ठों की तरह बनाने के लिए बहुत प्रयास करते हैं संख्यात्मक दृष्टिकोण से, जैसे कि टेक्स्ट मैच, इंटरनेट लिंकेज और बहुत कुछ। हालाँकि, सिर्फ इसलिए कि ये पृष्ठ अच्छे पृष्ठों के लिए "समान" हैं, इसका मतलब यह नहीं है कि ये वास्तव में, अच्छे पृष्ठ हैं। इसलिए, Google ने निवेश किया है और यह सुनिश्चित करने के लिए बहुत सारे प्रयास करना जारी रखेगा कि कौन सी उचित सुविधाएँ अच्छे और बुरे पृष्ठों को अलग करती हैं।

यह काफी सहसंबंध और कारण नहीं है, लेकिन यह उससे कहीं अधिक गहरा है। कुछ प्रश्नों के लिए अच्छे पृष्ठ एक संख्यात्मक स्थान पर मैप हो सकते हैं, जहाँ वे कई अप्रासंगिक या बुरे पृष्ठों से मिलते-जुलते और अलग-अलग दिखाई देते हैं, लेकिन सिर्फ इसलिए कि परिणाम फ़ीचर स्पेस के एक ही क्षेत्र में हैं, इसका अर्थ यह नहीं है कि वे समान "उच्च गुणवत्ता" वाले सबसेट से आते हैं वेब का।

सरल उत्तर: परिणामों की रैंकिंग को संबोधित करने के लिए एक बहुत ही सरल परिप्रेक्ष्य है। सबसे अच्छा परिणाम पहले होना चाहिए, लेकिन सिर्फ इसलिए कि कुछ को पहले स्थान पर रखा गया है इसका मतलब यह नहीं है कि यह सबसे अच्छा परिणाम है। स्कोरिंग के कुछ मेट्रिक्स से, आप पा सकते हैं कि Google की रैंकिंग गुणवत्ता के आकलन के सुनहरे मानक से संबंधित है, लेकिन इसका मतलब यह नहीं है कि उनकी रैंकिंग का अर्थ है कि गुणवत्ता और प्रासंगिकता के संदर्भ में इस क्रम में परिणाम वास्तव में हैं।

अपडेट (तीसरा उत्तर): समय के साथ, एक और पहलू है जो हम सभी को प्रभावित करता है: यह है कि शीर्ष Google परिणाम को आधिकारिक माना जा सकता है, क्योंकि यह Google पर शीर्ष परिणाम है। यद्यपि लिंक विश्लेषण (उदाहरण के लिए "पेजरैंक" - लिंक विश्लेषण के लिए एक विधि) कथित अनुभवशीलता को प्रतिबिंबित करने का एक प्रयास है, समय के साथ किसी विषय पर नए पृष्ठ Google पर शीर्ष परिणाम से लिंक करके उस लिंक संरचना को सुदृढ़ कर सकते हैं। एक नया पृष्ठ जो अधिक आधिकारिक है, पहले परिणाम के सापेक्ष हेडस्टार्ट के साथ एक समस्या है। जैसा कि Google वर्तमान में सबसे अधिक प्रासंगिक पृष्ठ वितरित करना चाहता है है, तथाकथित "समृद्ध-प्राप्त-समृद्ध" घटना सहित कई कारक, कथित कार्य पर सहसंबंध के निहित प्रभाव के कारण उत्पन्न होते हैं।

अद्यतन (चौथा उत्तर): मुझे एहसास हुआ (नीचे एक टिप्पणी के लिए) कि वास्तविकता के "प्रतिबिंब / अनुमान" के परिणामस्वरूप सहसंबंध और कारण की व्याख्या करने के तरीके के बारे में प्लेटो के रूपक को पढ़ने के लिए उपयोगी हो सकता है और कैसे हम (या हमारी मशीनें) इसका अनुभव करती हैं। सहसंबंध, कड़ाई से पियर्सन के सहसंबंध तक ही सीमित है, गलतफहमी एसोसिएशन (सिर्फ सहसंबंध की तुलना में व्यापक) और कार्य के मुद्दे की व्याख्या के रूप में बहुत सीमित है।


मैं असहमत हूं। यदि कोई कृत्रिम उच्च पृष्ठ रैंक बनाने के लिए भविष्यवाणियों का दुरुपयोग करता है, तो लक्ष्य का अर्थ है कि पृष्ठ-रैंक एल्गोरिथ्म बनाते समय Google का इरादा क्या है, इसके विपरीत, भविष्यवाणियों का संकेत देता है। चूँकि सच्ची मीट्रिक वही रहती है ("सही पृष्ठ", जिसके लिए पृष्ठ-रैंक केवल एक सन्निकटन है), भविष्यवाणियाँ इसे सहसंबंध खो देती हैं और इसलिए इसे बदलना पड़ता है। इसलिए Google सच्चे मीट्रिक "सही पृष्ठ" के बारे में कार्य-कारण की परवाह नहीं करता है, लेकिन पृष्ठ-रैंक नामक अनुमानित के लिए।
स्टेफ़ेन

कोई अपराध नहीं है, लेकिन आप कई मुद्दों के बारे में थोड़ा उलझन में हैं। "पेजरैंक" एक स्पष्ट रूप से परिभाषित अवधारणा है और एक भविष्यवक्ता है। मुख्य मुद्दा जो आप देख रहे हैं, वह औद्योगिक प्रक्रिया है जो उपयोगकर्ता अपेक्षाओं के मिलान के साथ-साथ प्रशिक्षण सेट को परिभाषित करने और बनाने में शामिल है। दुर्भाग्य से, टिप्पणियां लागू मशीन सीखने के लिए एक लंबा परिचय शुरू करने के लिए एक भयानक जगह हैं।
आइटर

क्या आपका मतलब यह है कि भविष्यवक्ता की प्रक्रिया और विशेषज्ञ ज्ञान द्वारा मूल्यांकन में केवल "कारण" -प्रकारक उत्पन्न होते हैं? जब तक कोई इस तरह की प्रक्रिया का पालन करता है और परीक्षण-और-त्रुटि-दृष्टिकोण पर वापस नहीं आता है, आप सही हैं, Google कार;)
स्टीफन

तुम काफी सही हो। समस्या यह है कि समय के साथ यह बहुत मुश्किल हो जाता है कि भविष्यवक्ताओं को बाहर निकालने की कोशिश करें जो कि कार्यदक्षता को दर्शाते हैं जब विरोधी आपको ठग रहे हैं। यदि एक भविष्यवक्ता के पास किसी प्रकार का कारण स्पष्टीकरण नहीं है (क्योंकि वे प्रकृति में वास्तव में उचित कारण हैं), तो यह अनुमान लगाना कठिन है कि जब खलनायक विकसित होते हैं और भविष्यवाणी क्षेत्र के उस क्षेत्र को पिघला देते हैं।
इटरेटर

2
@ ब्रैंडन: नो किडिंग। यह सबसे अच्छा उदाहरण है जब मैं हाल की घटनाओं या आगामी घटनाओं की तलाश करता हूं। अधिक से अधिक बार, मुझे प्रासंगिक पृष्ठ प्राप्त करने के लिए चालू वर्ष या यहां तक ​​कि वर्तमान MM-YYYY (या उन्नत खोज) दर्ज करना होगा। यह लिंक संरचना और ताजगी के बीच एक व्यापार है और Google को मुझसे अधिक मदद के बिना यह गलत है। वास्तव में, इसने मुझे कई बार बिंग की ओर अग्रसर किया, बस पुराने पन्नों को नजरअंदाज करने की कोशिश से जलन के साथ। एसओ पर भी यही बात लागू होती है: पहले उत्तर अक्सर बाद के उत्तरों की तुलना में अधिक उठने लगते हैं, जो अधिक सही हो सकते हैं। :)
Iterator

5

क्विप का लेखक यहाँ।

डेविड माझी (Google पर), जहां उन्होंने कहा, और मैं paraphrase, कार बीमा कंपनियों द्वारा पुरुष कारणों का ध्यान नहीं रखने पर टिप्पणी से प्रेरित था। अधिक दुर्घटनाओं का , जब तक कि यह सहसंबद्ध नहीं होता है, तब तक उन्हें अधिक चार्ज करना पड़ता है। यह वास्तव में, किसी के लिंग को एक प्रयोग में बदलना असंभव है, इसलिए इसका कारण कभी नहीं दिखाया जा सकता है।

उसी तरह, अगर रंग लाल हो जाता है , तो Google को वास्तव में देखभाल करने की आवश्यकता नहीं है , किसी को किसी विज्ञापन पर क्लिक करता है, तो यह अधिक क्लिक के साथ सहसंबद्ध है, तब वे उस विज्ञापन के लिए और अधिक चार्ज कर सकते हैं।

यह वायर्ड: द एंड ऑफ थ्योरी: द डेटा डिलीजेंस साइंटिफिक मेथड अप्रचलित में भी इस लेख से प्रेरित था । एक बोली:

"Google का संस्थापक दर्शन यह है कि हम नहीं जानते कि यह पृष्ठ उस से बेहतर क्यों है: यदि आने वाले लिंक के आंकड़े कहते हैं कि यह काफी अच्छा है।"

जाहिर है, Google के पास बहुत ही स्मार्ट लोग हैं जो कार्य और सहसंबंध के बीच अंतर को जानते हैं, लेकिन उनके मामले में, वे बहुत पैसा कमा सकते हैं, इसके बारे में परवाह नहीं करते हैं।


1
विस्तृत करने के लिए ... जैसा कि मैंने उल्लेख किया है, Google पर बहुत सारे लोग हैं जो वास्तव में इसकी परवाह करते हैं, जैसा कि डेविड मिज करते हैं। (Btw, वह स्टैनफोर्ड में नहीं है, जब तक कि कोई ऐसी खबर नहीं है, जिसमें मैं चूक गया था; हो सकता है कि आपने उसके 2007 के पाठ्यक्रम में भाग लिया हो?) लेकिन, आप सही हैं कि जैसे बहुत से लोग नहीं जानते कि आंतरिक दहन इंजन कैसे काम करते हैं, यह प्रभावित नहीं करता है। उनकी गाड़ी चलाने की क्षमता। अच्छे ऑटो इंजीनियर और शोधकर्ता, हालांकि, यह बेहतर काम करते हैं क्योंकि वे करते हैं। Google पर इंजीनियरों और शोधकर्ताओं के लिए एक ही बात। दुर्भाग्य से, यह वायर्ड लेख नॉर्विग की थीसिस की सबसे स्पष्ट प्रस्तुति नहीं है।
Iterator

संदर्भ के लिए धन्यवाद नील। मुझे आशा है कि आप किसी प्रश्न के लिए प्रेरणा के रूप में अपनी टिप्पणी का उपयोग करने से मुझे गुरेज नहीं करेंगे।
जेरोमे एंग्लीम

@ जेरेमी, बिल्कुल भी नहीं
नील

1

मैं डेविड से सहमत हूं : यदि आप हस्तक्षेप करने का इरादा रखते हैं, तो अंतर मायने रखता है, और Google नियंत्रित प्रयोगों को चलाकर हस्तक्षेपों के परिणामों का परीक्षण कर सकता है। (ऐसे प्रयोगों का इष्टतम शेड्यूल आपके कार्य-कारण परिकल्पना के सेट पर निर्भर करता है, जिसे आप पिछले प्रयोगों और अवलोकन डेटा से सीखते हैं , इसलिए सहसंबंध अभी भी उपयोगी हैं!)

एक दूसरा कारण है कि Google कार्य-कारण संबंध सीखना चाह सकता है। अन्य लोगों के साथ संबंध अधिक मजबूत होते हैं खिलाड़ियों के हस्तक्षेप के । हस्तक्षेप स्थानीय होते हैं, इसलिए वे कारण नेटवर्क के एक हिस्से को बदल सकते हैं, लेकिन अन्य सभी कारण तंत्र को अपरिवर्तित छोड़ देते हैं। इसके विपरीत, यदि दूर का कारण लिंक टूट गया है, तो भविष्य कहनेवाला रिश्ते विफल हो सकते हैं। इंटरनेट लगातार बदल रहा है, और Google को दिलचस्पी लेनी चाहिए जिसमें ऑनलाइन वातावरण की विशेषताएं उन परिवर्तनों के लिए अधिक मजबूत हैं।

हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.