मैं तथाकथित "शब्दों के बैग" या "दृश्य शब्दों" दृष्टिकोण पर एक नज़र होगा। इसका उपयोग छवि वर्गीकरण और पहचान के लिए तेजी से किया जाता है। यह एल्गोरिथ्म आमतौर पर एक छवि में, मजबूत बिंदुओं जैसे कि SIFT अंक का पता लगाने से शुरू होता है। इन पाया बिंदुओं के आसपास का क्षेत्र (आपके मामले में 128 बिट SIFT विवरणक) का उपयोग किया जाता है।
सबसे सरल रूप में, सभी विवरणों से सभी डेटा सभी डेटा एकत्र कर सकते हैं और उन्हें क्लस्टर कर सकते हैं, उदाहरण के लिए k- साधनों का उपयोग करते हुए। प्रत्येक मूल छवि में तब वर्णनकर्ता होते हैं जो कई समूहों में योगदान करते हैं। इन समूहों के केंद्रक यानी दृश्य शब्द, छवि के लिए एक नए विवरणक के रूप में इस्तेमाल किए जा सकते हैं। मूल रूप से आप आशा करते हैं कि क्लस्टर एक छवि जिसका वर्णनकर्ता योगदान देता है, छवि श्रेणी का सूचक है।
फिर से, सबसे सरल मामले में, आपके पास क्लस्टर की एक सूची है, और प्रति चित्र में, आप यह गिनते हैं कि इनमें से कौन से क्लस्टर में उस छवि के विवरणकर्ता हैं और कितने हैं। यह पाठ पुनर्प्राप्ति में प्रयुक्त शब्द आवृत्ति / व्युत्क्रम दस्तावेज़ आवृत्ति (TD / IFD) विधि के समान है। इस त्वरित और गंदे Matlab स्क्रिप्ट को देखें।
इस दृष्टिकोण पर सक्रिय रूप से शोध किया गया है और आसपास बहुत अधिक उन्नत एल्गोरिदम हैं।
VLfeat वेबसाइट में कैलटेक 101 डेटासेट को वर्गीकृत करते हुए इस दृष्टिकोण का एक अच्छा और उन्नत डेमो है। इसके अलावा उल्लेखनीय, कैलटेक से ही परिणाम और सॉफ्टवेयर हैं ।