मैं कुछ आँकड़ों की तलाश कर रहा हूं (और संभावना है, मुझे लगता है) साक्षात्कार के सवालों को सबसे बुनियादी से अधिक उन्नत के माध्यम से। उत्तर आवश्यक नहीं हैं (हालांकि इस साइट पर विशिष्ट प्रश्नों के लिंक अच्छा करेंगे)।
मैं कुछ आँकड़ों की तलाश कर रहा हूं (और संभावना है, मुझे लगता है) साक्षात्कार के सवालों को सबसे बुनियादी से अधिक उन्नत के माध्यम से। उत्तर आवश्यक नहीं हैं (हालांकि इस साइट पर विशिष्ट प्रश्नों के लिंक अच्छा करेंगे)।
जवाबों:
निश्चित नहीं है कि नौकरी क्या है, लेकिन मुझे लगता है कि "एक नौसिखिए को एक्स समझाएं" शायद अच्छा होगा-
a) क्योंकि उन्हें नौकरी में ऐसा करने की आवश्यकता होगी
बी) यह समझने की एक अच्छी परीक्षा है, मुझे विश्वास है।
मानक क्यू जहां मैं काम करता हूं:
आपके द्वारा उपयोग किए जाने वाले एक सांख्यिकीय पैकेज से कई लॉजिस्टिक प्रतिगमन के इस आउटपुट पर एक नज़र डालें (अधिमानतः एक हम भी उपयोग करते हैं)। XXX मूल ब्याज का स्वतंत्र चर है। आप किसी सहकर्मी के लिए विषय की जानकारी के साथ परिणामों की व्याख्या कैसे करते हैं लेकिन कोई औपचारिक सांख्यिकीय प्रशिक्षण नहीं है? (यदि बिंदु अनुमान, सीआई, पी-मूल्य की अलग व्याख्या के लिए आवश्यक संकेत)।
आप यह भी प्रतिबिंबित करना चाह सकते हैं कि ब्याज के निर्माण को मापने के लिए साक्षात्कार सबसे अच्छा माध्यम है या नहीं। यदि आप संभावना या आँकड़ों के पूर्व ज्ञान को मापना चाहते हैं, तो आप एक लिखित परीक्षा पर अधिक भरोसा करने से बेहतर हो सकते हैं। आप अधिक प्रश्न पूछ सकते हैं, और इस प्रकार माप की विश्वसनीयता बढ़ा सकते हैं। यह प्रशासन में और स्कोरिंग दोनों में अधिक मानकीकृत है। और एक बार साधन विकसित हो जाने के बाद, यह शायद प्रशासन के लिए कम संसाधनों का उपयोग करता है।
फिर आप साक्षात्कार का उपयोग एक अधिक फोकस्ड टूल के रूप में कर सकते हैं जैसे कि मौखिक और पारस्परिक कौशल जैसे कारकों को देखते हुए।
मेरे द्वारा पूछे गए दो प्रश्न:
1) आप एक विशेष विभाग में एक कार्यकर्ता को किसी अन्य चर के प्रभाव की जांच करने के लिए एक एकाधिक प्रतिगमन फिट करते हैं। किसी अन्य विभाग में रुचि रखते हैं। चर वापस आ जाता है, लेकिन आपके सहकर्मी का कहना है कि यह असंभव है क्योंकि यह एक प्रभाव के लिए जाना जाता है। आप क्या कहेंगे / करते हैं?
2) आपके पास 1000 चर और 100 अवलोकन हैं। आप किसी विशेष प्रतिक्रिया के लिए महत्वपूर्ण चर खोजना चाहेंगे। तुम क्या करोगे?
यहाँ एक बड़ा डेटा सेट है। आउटलेर्स से निपटने के लिए आपकी क्या योजना है? लापता मूल्यों के बारे में कैसे? परिवर्तनों के बारे में कैसे?
क्या वे वास्तविक दुनिया के आंकड़ों से निपट सकते हैं?
इस साइट पर कई प्रश्न / उत्तर अच्छे प्रश्नों के लिए विचार दे सकते हैं। मैं कुछ ऐसे लिंक के साथ एक सूची दूंगा जो मुझे लगता है कि अच्छे हैं। जिन पोस्टों का मैंने उत्तर दिया है, वे अतिप्रमाणित हैं, क्योंकि मैं उन पदों को बेहतर जानता हूं, इसलिए नहीं कि वे आवश्यक रूप से सर्वश्रेष्ठ हैं! मैं प्रत्येक लिंक पर छोटी टिप्पणियाँ देता हूं, इसलिए आप यह तय कर सकते हैं कि क्या आप लिंक का अनुसरण करना चाहते हैं।
एसवीडी के पीछे अंतर्ज्ञान क्या है? "क्या आप हमारे ग्राहकों में से एक को समझा सकते हैं कि एसवीडी कैसे काम करता है?"
आम शब्दों में अधिकतम संभावना अनुमान (MLE) "क्या आप गैर-भाषा में अधिकतम संभावना अनुमान का विचार समझा सकते हैं?"
तालेब और काला हंस "मुझे बताओ, एक काला हंस क्या है, और यह क्यों प्रासंगिक है? यह कब प्रासंगिक है?"
नमूना के बारे में सांख्यिकीय अनुमान "जब नमूना" जनसंख्या "है तो आप नमूना की संपूर्ण जनसंख्या के बारे में सांख्यिकीय अनुमान के बारे में क्या कह सकते हैं?"
फिट की अच्छाई और लीनियर रिग्रेशन या पॉइसन को चुनने के लिए कौन सा मॉडल है "हमें एक रिग्रेशन की समस्या है जहाँ प्रतिक्रिया एक काउंट वैरिएबल है। आप इस संदर्भ में किसे चुनेंगे, साधारण कम से कम वर्ग या पॉइसन रिग्रेशन (या शायद कुछ अन्य)? अपनी पसंद स्पष्ट करें? , इन मॉडलों के बीच मुख्य अंतर क्या है? "
परिमित और अनंत भिन्नता के बीच क्या अंतर है "क्या आप समझा सकते हैं, जितनी सरल भाषा में संभव है, एक यादृच्छिक चर के लिए अनंत अपेक्षा या अनंत भिन्नता के लिए इसका क्या अर्थ है? इस अंतर का व्यावहारिक महत्व क्या है? उदाहरण।"
चरणबद्ध प्रतिगमन के लिए आधुनिक, आसानी से उपयोग किए जाने वाले विकल्प क्या हैं? "आप एक संभावित प्रतिगमन मॉडल का निर्माण कैसे करेंगे जब कई संभावित भविष्यवक्ता चर हैं। विभिन्न संभावित रणनीतियों का वर्णन करें, और उनमें से प्रत्येक के साथ समस्याओं के बारे में बताएं"
लॉजिस्टिक रिग्रेशन में सही अलगाव से कैसे निपटें? "लॉजिस्टिक रिग्रेशन, इसके कारणों, लक्षणों में अलगाव की समस्या क्या है? यदि आप वास्तव में समस्या है तो आप इसका समाधान क्या कर सकते हैं?"
सहसंबंध मैट्रिक्स को सकारात्मक अर्ध-निश्चित होने की आवश्यकता क्यों है और सकारात्मक अर्ध-निश्चित होने का क्या मतलब है या नहीं है? और
एक गैर सकारात्मक निश्चित सहसंयोजक मैट्रिक्स मुझे अपने डेटा के बारे में क्या बताती है? "समझाएं कि एक सहसंयोजक मैट्रिक्स को सकारात्मक (अर्ध) निश्चित क्यों होना चाहिए, और इसका क्या मतलब है। उस तथ्य का उपयोग कैसे किया जा सकता है?"
माध्यिका के बहुआयामी संस्करण क्या हैं "क्या आप माडियन को बहुभिन्नरूपी डेटा को सामान्य बनाने के लिए किसी तरह का प्रस्ताव कर सकते हैं?"
श्रेणीगत चर के साथ लॉजिट रिग्रेशन में परस्पर क्रिया की शर्तों की व्याख्या करना और इंटरैक्शन प्रभाव की पहचान करने में सर्वोत्तम प्रथाएं क्या हैं? और दो नकारात्मक मुख्य प्रभाव अभी तक सकारात्मक बातचीत प्रभाव? और बातचीत नहीं बल्कि एक मॉडल में मुख्य प्रभाव भी शामिल है और कैसे मुख्य प्रभाव की व्याख्या करने के लिए जब बातचीत प्रभाव महत्वपूर्ण नहीं है? "बताएं कि प्रतिगमन मॉडल में बातचीत से क्या मतलब है। विशेष रूप से, इसका क्या मतलब है अगर बातचीत महत्वपूर्ण है, जबकि मुख्य प्रभाव नहीं हैं? क्या साधारण रैखिक प्रतिगमन और लॉजिस्टिक प्रतिगमन के बीच बातचीत की व्याख्या में कुछ अंतर है?"
डेटा पर वर्गमूल परिवर्तन का उपयोग करने का कारण क्या हो सकता है? और उपयुक्त डेटा परिवर्तन "जब, कैसे और क्यों आप प्रतिगमन चर (या एनोवा) मॉडल में प्रतिक्रिया चर को बदलते हैं? क्या कोई विकल्प है?
मैं एक गैर-सामान्य रूप से वितरित DV के लिए एनोवा परिणामों पर भरोसा कर सकता हूं? "आप गैर-सामान्य अवशिष्ट के साथ एक एनोवा का इलाज कैसे करेंगे?
आँकड़े उपयोगी क्यों होते हैं जब कई चीजें जो एक शॉट वाली चीजें होती हैं?
मैं बर्नौली यादृच्छिक चर का योग कैसे कुशलता से कर सकता हूं?
मिश्रित प्रभाव मॉडल बनाम सामान्यीकृत आकलन समीकरणों का उपयोग कब करें?
यहां क्या हो रहा है, जब मैं लॉजिस्टिक रिग्रेशन सेटिंग में स्क्वार्ड लॉस का उपयोग करता हूं? "हम लॉजिस्टिक प्रतिगमन के लिए मैक्सिमम संभावना का उपयोग क्यों करते हैं? कम से कम वर्ग क्यों नहीं?"
मुझसे एक बार पूछा गया था कि मैं सामाजिक विज्ञानों में नए लोगों के एक वर्ग को केंद्रीय सीमा प्रमेय की प्रासंगिकता के बारे में कैसे समझाऊंगा जो आंकड़ों के बारे में मुश्किल से जानते हैं।
आप कुछ ऐसा कैसे कर सकते हैं जो संख्यात्मक नहीं है?
उदाहरण, "ऑडियो डेटा को वर्गीकृत करने के लिए स्वचालित सुविधा निष्कर्षण"
औचित्य: क्या वे यह पता लगा सकते हैं कि किसी सांख्यिकीय का विश्लेषण कैसे किया जाए जो पहले से ही एक बड़ी तालिका में नहीं है?
जब आप एक सांख्यिकीय मॉडल बना रहे हैं तो आप ओवर-फिटिंग को कैसे रोक सकते हैं?
अच्छा जवाब: क्रॉस-मान्यता
मैं अक्सर पूछता हूं "आप कैसे परिभाषित करेंगे / समझाएंगे कि पूर्वानुमान क्या है?"
उस प्रकार के बहुत सामान्य प्रश्न का उत्तर मुझे यह देखने में मदद करता है कि क्या लोग पूर्वानुमान के किसी विशेष मामले से जुड़े हैं। एक सही उत्तर नहीं है, लेकिन एक साक्षात्कार के दौरान इस कृत्रिम रूप से जवाब देना हमेशा आसान नहीं होता है :)
एक अवलोकन डेटा संदर्भ के लिए:
इस ठोस समस्या पर लागू प्रतिगमन मॉडल पर विचार करें। क्या, अगर कुछ भी, इसमें कारण की व्याख्या की जा सकती है? [आगे की जांच] अपनी राय बदलने के लिए आपको क्या सीखना होगा?
आप बैंगलोर में चंदन की लकड़ी के पेड़ों की संख्या कैसे गिनेंगे?
शीर्षक सहसंबंध बनाम सहसंबंध के तहत :
भविष्यवाणी मॉडल के लिए सुविधाओं के रूप में ग्राहक / उपयोगकर्ता के जुड़ाव का उपयोग करना आम है। उदाहरण के लिए, जो लोग इस बटन पर क्लिक करते हैं वे उन लोगों की तुलना में अधिक सदस्यता लेते हैं जो नहीं करते हैं। जो लोग सोमवार को खरीदारी करते हैं, वे मंगलवार को खरीदारी करने वालों की तुलना में अधिक खरीदारी करते हैं।
यदि हम इसे चरम पर ले जाते हैं: जो उपयोगकर्ता "खरीद" पर क्लिक करते हैं, वे उन उत्पादों की खरीद की अधिक संभावना रखते हैं जो खरीद नहीं करते हैं।
लेकिन जाहिर है कि यह समझाने में बहुत मददगार नहीं है कि कुछ उपयोगकर्ता सदस्यता क्यों लेते हैं और कुछ नहीं।
आप ग्राहक सुविधाओं का उपयोग करते हुए संतुलन के बारे में कैसे जानेगें जो यह समझाते हैं कि वे सदस्यता क्यों लेते हैं जो सदस्यता के साथ अत्यधिक सहसंबद्ध हैं, लेकिन कार्य को पूरा करने के लिए आवश्यक हैं?
यहाँ एक TinkerToy सेट है। मुझे दिखाओ कि यूक्लिडियन दूरी तीन आयामों में कैसे काम करती है। अब मुझे दिखाओ कि कैसे एकाधिक प्रतिगमन काम करता है।
क्या वे बता सकते हैं कि भौतिक दुनिया में आँकड़े कैसे काम करते हैं?
हम एक ग्राहक सेवा केंद्र चला रहे हैं। हमें प्रति माह 1 मिलियन कॉल मिल रहे हैं। हम इसे दस हजार तक कैसे कम कर सकते हैं?
बहुत सारे प्रश्न हम पूछते हैं जो पहले से वर्णित हैं। लेकिन कुछ जो मैंने अभी तक नहीं पढ़े हैं, जिनका उपयोग किया जाता है: आपको कुछ करने के लिए व्हाइटबोर्ड पर एक प्रोग्राम को स्केच करने के लिए कहा जा सकता है: पासा रोलिंग या अन्य संभाव्यता समस्या का अनुकरण करना, या अभाज्य संख्याओं की एक श्रृंखला की गणना करना (जैसे सभी अभाज्य संख्या जो 1,000,000 से कम है) - आप इसे जिस भी भाषा में चाहते हैं, उसमें कर पाएंगे, लेकिन अधिकांश लोग R चुनते हैं, और कुछ लोग Python (मेरा मानना है) चुनते हैं, लेकिन मुझे लगता है कि आप Stata, SAS, SPSS चुन सकते हैं। , Matlab, आदि। आपको शायद अपनी पसंद की प्रोग्रामिंग भाषा के अपने ज्ञान की गहराई से जांच करने के लिए प्रश्न पूछा जाएगा - उदाहरण के लिए, R में लूप के बजाय क्यों लागू करें।
आपको किसी चीज़ की जांच के लिए एक प्रयोग या अन्य अध्ययन डिज़ाइन करने के लिए भी कहा जा सकता है - आमतौर पर कुछ व्यावहारिक - कभी-कभी यह उस कार्य से संबंधित होगा जो हम करते हैं, लेकिन अक्सर नहीं। (आपको उस कार्य का ज्ञान नहीं है जो हम करते हैं, लेकिन आपको उस समस्या के बारे में जानकारी प्राप्त करने में सक्षम होना चाहिए जो आपने नहीं सुनी है और उस पर अटकलें लगाते हैं, भले ही आपको निश्चित डोमेन ज्ञान दिया गया हो यह गलत था - यह ठीक है, आपको डोमेन ज्ञान होने की उम्मीद नहीं है)। आपको बिजली जैसी चीजों को ध्यान में रखने के लिए कहा जा सकता है।
मात्रात्मक चर के विचरण विश्लेषण करते समय, कभी-कभी यह पाया गया कि चर की आवृत्ति बहुत अधिक है (> 5) तब हम चर की स्वतंत्रता का पता लगाने के लिए फिशर के सटीक परीक्षण का उपयोग करते हैं।
पिछले साल यांकीस गेम्स में औसत भुगतान उपस्थिति 55,000 थी। यदि आप पिछले सीजन में यांकीज़ गेम में गए थे, तो आप NYC में लोगों के एक समूह से बेतरतीब ढंग से पूछेंगे, और अगर उन्होंने ऐसा किया, तो आप भुगतान की गई उपस्थिति को रिकॉर्ड करते हैं। उन खेलों के लिए औसत भुगतान उपस्थिति क्या है जो आपने उन लोगों से पूछा था जो एक खेल में गए थे?
मैं आपको अपने उत्तर के लिए संकेत दूंगा (संकेत प्रदान नहीं किया गया था): लंबाई-पक्षपाती नमूना। मैंने उस पर एक घरेलू रन बनाया, लेकिन यह गेम जीतने के लिए पर्याप्त नहीं था, हा हा। नोट: मैंने कई कैविएट का उल्लेख किया है कि नमूना कैसे किया गया था, और साक्षात्कारकर्ता ने मुझे उन सभी की उपेक्षा करने के लिए कहा था।