सांख्यिकीय एल्गोरिथ्म डेवलपर उम्मीदवारों के लिए कुछ अच्छे साक्षात्कार प्रश्न क्या हैं?


15

मैं एक सांख्यिकी / मशीन सीखने / डेटा खनन संदर्भ में एल्गोरिथ्म डेवलपर / शोधकर्ता की स्थिति के लिए लोगों का साक्षात्कार कर रहा हूं।

मैं यह निर्धारित करने के लिए प्रश्नों की तलाश कर रहा हूं, विशेष रूप से, एक उम्मीदवार की परिचितता, अंतर्निहित सिद्धांत के साथ समझ और तरलता, जैसे अपेक्षा और विचरण के बुनियादी गुण, कुछ सामान्य वितरण, आदि।

मेरा वर्तमान जाना सवाल है: "एक अज्ञात मात्रा जिसका हम अनुमान लगाना चाहते हैं। इस अंत तक हमारे पास अनुमानक , जिन्हें दिया गया है , सभी निष्पक्ष और स्वतंत्र हैं, और प्रत्येक के पास है एक ज्ञात , प्रत्येक के लिए अलग-अलग। इष्टतम अनुमानक जो निष्पक्ष है और जिसमें न्यूनतम विचरण है। "एक्सY1,Y2,...,Ynएक्सσमैं2Y=(Y1,...,Yn)

मुझे उम्मीद है कि किसी भी गंभीर उम्मीदवार को इसे आसानी से संभालने के लिए (गणनाओं को हल करने के लिए कुछ समय दिया जाएगा), और फिर भी मुझे आश्चर्य है कि कितने उम्मीदवार जो प्रासंगिक क्षेत्रों से हैं, वे प्रगति के सबसे छोटे हिस्से को भी विफल कर सकते हैं। इस प्रकार मैं इसे एक अच्छा, विवेकशील प्रश्न मानता हूं। इस प्रश्न के साथ एकमात्र समस्या यह है कि यह केवल एक है।

इसके लिए और कौन से प्रश्नों का उपयोग किया जा सकता है? वैकल्पिक रूप से, मुझे इस तरह के सवालों का संग्रह कहां मिल सकता है?


7
कई मशीन सीखने वाले लोगों (अच्छे लोगों सहित) के लिए, यह सवाल उनके आराम क्षेत्र से बाहर का रास्ता है। यह एक स्पष्ट सांख्यिकीय प्रश्न है।
मार्क क्लेसेन

4
यह प्रश्न वैध रूप से / बंद विषय पर सीमा रेखा है। हालाँकि, इसके कई विचार हैं, कई अपवोट्स, एक उत्तर w / कई अपवोट्स, और, इसके अलावा, CW है। यह खुला रह सकता है, IMO।
गुंग - को पुनः स्थापित मोनिका

2
गो-टू प्रश्न को भ्रामक तरीके से लिखा जा सकता है। उदाहरण के लिए, एक पूंजी के साथ का उपयोग को यादृच्छिक प्रतीत होगा । लेकिन जब से आप न्यूनतम विचरण का उल्लेख कर रहे हैं, ऐसा लगता है कि आप चाहते हैं कि गैर-यादृच्छिक हो (किस मामले में, अनुमानकर्ताओं के विचरण का पर लिखित निर्भरता क्यों नहीं है ?)एक्सएक्सएक्सएक्स
बैटमैन

4
सावधानी के एक बिंदु, Google ने उनकी आंतरिक मानव संसाधन प्रक्रिया का एक बड़ा अध्ययन किया और पाया कि साक्षात्कारकर्ता स्कोर बाद की नौकरी के प्रदर्शन के साथ बिल्कुल भी संबद्ध नहीं थे !! यहाँ साहित्य की मेरी धारणा यह है कि (1) पहेली प्रकार के प्रश्न सबसे खराब हैं, केवल साक्षात्कारकर्ता को स्मार्ट महसूस कराने के लिए सेवा कर रहे हैं (यानी 0 पूर्वानुमान शक्ति) और (2) फिर से शुरू करें, अनुभव आधारित प्रश्नों का पूर्वानुमानात्मक मूल्य हो सकता है। पिछला प्रदर्शन भविष्य के प्रदर्शन का अनुमान लगाता है और आप यह जानना चाहते हैं कि उनके पिछले प्रदर्शन का क्या था, यह पता लगाने के लिए प्रश्नों पर ध्यान केंद्रित करना चाहते हैं, लेकिन साक्षात्कार साक्षात्कार के बारे में बहुत कम जानकारीपूर्ण है।
मैथ्यू गन

3
एकता को भार योग होने से निष्पक्षता की गारंटी है। हालांकि, यहां तक ​​कि अपने समाधान को अनुमानकर्ताओं के रैखिक संयोजनों तक सीमित करते हुए, यह लगभग हमेशा ऐसा ही होने वाला है कि एक ही डेटा पर आधारित कई अनुमानक अत्यधिक सहसंबद्ध होंगे। (यदि वे वास्तव में स्वतंत्र हैं, तो उन्हें आंकड़ों के स्वतंत्र उप-विभाजन को लागू करने के लिए लागू किया जाएगा।) यह बिल्कुल स्पष्ट नहीं है कि अनुमानकर्ताओं का एक रैखिक संयोजन इष्टतम होगा, हालांकि।
whuber

जवाबों:


12

आप अपने सांख्यिकीय डेवलपर को क्या करना चाहते हैं?

अमेरिकी सेना का कहना है "ट्रेन आप लड़ेंगे, क्योंकि आप लड़ेंगे जैसे आप प्रशिक्षित थे"। उन्हें टेस्ट करें कि आप उन्हें दिन भर क्या करना चाहते हैं। वास्तव में, आप चाहते हैं कि वे कंपनी के लिए "मूल्य बनाएं" या "पैसा कमाएं"।

बॉस 101

सोचो "मुझे पैसे दिखाओ।"

  • पैसा पेड़ों पर बढ़ता है जिसे कर्मचारी कहते हैं। आप एक "पैसा" (उनकी मजदूरी) में डालते हैं और वे आपको "तिमाही" (उनके मूल्य) का भुगतान करते हैं।
  • यदि आप उनके काम से संबंधित नहीं कर सकते हैं कि वे कंपनी के लिए पैसा कैसे बनाते हैं तो न तो आप और न ही वे अपना काम सही तरीके से कर रहे हैं।

नोट: यदि आपका प्रतीकात्मक हेरफेर सवाल सफाई से "पैसे" से नहीं जुड़ता है, तो आप गलत सवाल पूछ सकते हैं।

कर्मचारी होने के लिए 3 चीजें हर कर्मचारी को करनी होती हैं:

  • वास्तव में काम करने में सक्षम हो
  • टीम के साथ अच्छा काम करें
  • तैयार रहें / वास्तव में काम करने के लिए प्रेरित हों

यदि आपको ये ठोस चट्टान नहीं मिलती हैं, तो कोई भी जवाब आपको अच्छा नहीं लगेगा।

यदि आप उन्हें एक अच्छे सॉफ्टवेयर या एक अच्छी तरह से प्रशिक्षित किशोर के साथ बदल सकते हैं, तो आपको अंततः यह करना होगा, और यह आपको खर्च करेगा।

डेटा 101

वे क्या करने में सक्षम होना चाहिए:

  • सॉफ्टवेयर (नेटवर्क, ओएस, कार्यालय, प्रस्तुति, और विश्लेषण) के अपने आंतरिक जायके का उपयोग करें
  • सॉफ्टवेयर के कुछ उद्योग मानक फ्लेवर (एक्सेल, आर, जेएमपी, मैटलैब , पिक_थ्री ) का उपयोग करें
  • डेटा स्वयं प्राप्त करें। उन्हें बुनियादी कार्यों के लिए बुनियादी डेटा सेट जानना चाहिए। उन्हें रिपॉजिटरी पता होना चाहिए। उन्हें पता होना चाहिए कि किस कार्य के लिए प्रसिद्ध डेटा का उपयोग किया जाता है। फिशर आइरिस। पियर्सन केकड़ा। ... शायद 20 तत्व हैं जो यहां जाने चाहिए। यूसीआई, एनआईएसटी, एनओएए।
  • उन्हें डेटा को संभालने के नियम पता होने चाहिए। बाइनरी डेटा (टी / एफ) में श्रेणीबद्ध (ए, बी, सी, डी) या निरंतर की तुलना में बहुत अलग जानकारी सामग्री है। डेटा-प्रकार द्वारा डेटा की उचित हैंडलिंग महत्वपूर्ण है।
  • कुछ बुनियादी सांख्यिकीय कार्यों में शामिल हैं: ये दो समान या अलग (उर्फ क्लस्टर / वर्गीकृत) हैं, यह कैसे संबंधित है
    (रेखीय मॉडल, चमक, रेडियल आधार,
    अंतर समीकरण सहित प्रतिगमन / फिटिंग ), क्या यह सच है कि एक्स "(परिकल्पना परीक्षण), मुझे कितने नमूनों की ज़रूरत है (स्वीकृति नमूनाकरण), मुझे
    कुछ / सस्ते / कुशल प्रयोगों (प्रयोग के सांख्यिकीय डिजाइन
    ) से सबसे अधिक डेटा कैसे मिलेगा - अस्वीकरण, मैं इंजीनियर नहीं हूं सांख्यिकीविद् आप उनसे पूछ सकते हैं प्रश्न "विभिन्न मौलिक कार्य क्या हैं, और आप कैसे परीक्षण करते हैं कि सांख्यिकीविद् उन्हें कुशलतापूर्वक और सही तरीके से कर सकते हैं?"
  • डेटा का उपयोग / उपयोग स्वयं करें। यह प्रारूप और टूल के बारे में है।
    उन्हें csv, xlsx (एक्सेल), SQL और
    चित्रों से पढ़ने में सक्षम होना चाहिए । (HDF5, Rdata) यदि आपके पास एक कस्टम प्रारूप है, तो वे
    इसके माध्यम से पढ़ सकते हैं और उपकरणों के साथ जल्दी और
    कुशलता से काम कर सकते हैं । उन्हें प्रारूप की ताकत / कमजोरी पता होनी चाहिए। सीएसवी त्वरित उपयोग है, हमेशा के लिए चारों ओर रहा है, तेजी से प्रोटोटाइप, लेकिन फूला हुआ, अक्षम और चलाने के लिए धीमा है।
  • सर्वोत्तम प्रथाओं का उपयोग करके, और पाप नहीं करने पर डेटा को ठीक से संसाधित करें। कभी भी, डेटा को मत फेंको। एक सतत लाइन के साथ द्विपद डेटा फिट नहीं है। भौतिकी की अवहेलना मत करो।
  • ऐसे परिणाम आएं जो दोहराए और प्रतिलिपि प्रस्तुत करने योग्य हों। कुछ
    लोगों का कहना है "झूठ, लानत झूठ और आँकड़े हैं" लेकिन मेरी
    कंपनी में नहीं। एक ही अच्छा इनपुट एक ही अच्छा आउटपुट देता है। आउटपुट एक संख्या नहीं है, यह हमेशा एक व्यावसायिक निर्णय होता है जो एक
    तकनीकी कार्रवाई और एक व्यावसायिक परिणाम के बारे में सूचित करता है । विभिन्न परीक्षण 5.5, या 6.5 पर डायल सेट कर सकते हैं, लेकिन क्षमता हमेशा 1.33 से ऊपर होती है।
  • भाषा में मौजूद निष्कर्ष और उस स्तर पर जो निर्णय
    निर्माताओं, और / या मिनियन-डेवलपर्स, और / या खुद एक वर्ष में,
    कम से कम त्रुटियों के साथ समझ सकते हैं। एक सुंदर चीज यह समझाने में सक्षम हो रही है ताकि आपकी दादी को यह मिल जाए। यह ( लिंक ) मेरा उत्तर है, लेकिन मुझे यह पसंद है।

विश्लेषणात्मक जिंगर्स:

मुझे लगता है कि असंभव प्रश्न महान हैं। वे एक कारण के लिए असंभव हैं। गेट के बाहर कुछ असंभव है या नहीं यह जानने में सक्षम होना एक अच्छी बात है। यह जानना कि क्यों, इसे उलझाने के कुछ तरीके हो सकते हैं, या एक अलग सवाल पूछने में सक्षम होना बेहतर हो सकता है।

अन्य सीवी प्रश्न। ( लिंक ) रेडिट पर। ( लिंक ) अन्य ( लिंक )

BTW: यह एक अच्छा सवाल था। मुझे समय के साथ इस उत्तर को अपडेट करना पड़ सकता है।


3
यह एक अच्छा जवाब लगता है, एक अलग सवाल के लिए जो मैंने पूछा था। मैंने यह नहीं पूछा कि अच्छे कर्मचारियों को कैसे चुना जाए (मैं शायद कार्यस्थल पर ऐसा कुछ पूछूं। यदि मेरी आवश्यकता हो तो), मैंने एक विशिष्ट योग्यता के परीक्षण के बारे में पूछा।
मेनी रोसेनफेल्ड

मैं इसे आँकड़ों के लिए नीचे तबाह होगा।
EngrStudent -
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.