हैशिंग ट्रिक - वास्तव में क्या होता है


12

जब एमएल एल्गोरिदम, उदाहरण के लिए Vowpal Wabbit या जीतने वाले कुछ कारक मशीनों ने दर प्रतियोगिताओं ( कागल ) के माध्यम से क्लिक किया , तो उल्लेख किया कि विशेषताएं ' हैशेड ' हैं, वास्तव में मॉडल के लिए इसका क्या मतलब है? कहते हैं कि एक चर है जो एक इंटरनेट ऐड की आईडी का प्रतिनिधित्व करता है, जो '236BG231' जैसे मूल्यों को लेता है। तब मैं समझता हूं कि यह सुविधा यादृच्छिक पूर्णांक के लिए हैशेड है। लेकिन, मेरा सवाल यह है:

  • क्या पूर्णांक अब मॉडल में पूर्णांक (संख्यात्मक) या के रूप में उपयोग किया जाता है
  • क्या हैशेड मूल्य वास्तव में एक श्रेणीगत चर और एक-गर्म-एन्कोडेड की तरह व्यवहार किया जाता है? इस प्रकार हैशिंग ट्रिक केवल बड़े डेटा के साथ किसी तरह अंतरिक्ष को बचाने के लिए है?

जवाबों:


7

दूसरी गोली फीचर हैशिंग में मूल्य है। डेटा को विरल करने के लिए हैशिंग और एक हॉट एन्कोडिंग स्थान बचाता है। हैश एल्गो के आधार पर आपके पास विभिन्न प्रकार के टकराव हो सकते हैं जो एक प्रकार की आयामी कमी के रूप में कार्य करता है।

इसके अलावा, कागले फ़ीचर हैशिंग के विशिष्ट मामले में और एक हॉट एन्कोडिंग सुविधा के विस्तार के साथ मदद करता है / इंजीनियरिंग के लिए सभी संभव ट्यूपल्स (आमतौर पर सिर्फ दूसरे क्रम पर, लेकिन कभी-कभी तीसरे) जो कि तब टक्करों के साथ हैशेड होते हैं जो स्पष्ट रूप से अक्सर निष्क्रिय होते हैं। जबकि व्यक्तिगत विशेषताएं नहीं हैं।

ज्यादातर मामलों में यह तकनीक एलआर में फ़ीचर चयन और लोचदार शुद्ध नियमितीकरण के साथ संयुक्त रूप से एक छिपी हुई परत एनएन के समान काम करती है, इसलिए यह प्रतियोगिताओं में काफी अच्छा प्रदर्शन करती है।


तो एक-हॉट-एन्कोडिंग का उपयोग अभी भी किया जाता है, बस हैशेड मूल्यों पर * जो आप कहते हैं कि अंतरिक्ष बचाता है और आयामीता में कमी (कोलॉर्जिन) को जन्म दे सकता है। क्या वो सही है?
B_Miner

1
एक होस्ट एन्कोडिंग हैशिंग सुविधाओं का एक आवश्यक हिस्सा नहीं है, लेकिन अक्सर इसके साथ प्रयोग किया जाता है क्योंकि यह पूर्वानुमानित शक्ति के साथ एक अच्छा सा मदद करता है। एक गर्म एन्कोडिंग के बारे में सोचने का एक तरीका एन असतत मूल्यों के एक सेट से एक सेट एन बाइनरी प्रश्नों में एक विशेषता को बदल रहा है। शायद यह जानना मेरे लिए महत्वपूर्ण नहीं है कि क्या फीचर जे 2 या 3 है केवल यह 4 नहीं है। एक हॉट उस विशिष्टता को विशिष्ट बनाता है। यह रैखिक मॉडल के साथ बहुत मदद करता है जबकि पहनावा दृष्टिकोण (जैसे आरएफ) उस अंतर को खोजने के लिए सुविधा में ब्रेक पॉइंट को स्कैन करेगा।
cwharland
हमारी साइट का प्रयोग करके, आप स्वीकार करते हैं कि आपने हमारी Cookie Policy और निजता नीति को पढ़ और समझा लिया है।
Licensed under cc by-sa 3.0 with attribution required.