An IIT Bombay study using satellite data shows rising greenhouse gas levels over Delhi and Mumbai and also identifies emission hotspots in these cities.

बोली भाषेत प्रश्न विचारून दूरस्थ प्रतिमांमधील तपशील शोधणे आता शक्य

Mumbai
Satellite images

आपण घरामध्ये फोटो काढून कृत्रिम बुद्धिमत्ता (AI) वापरणाऱ्या ॲपला त्यातून आपला रिमोट किंवा मांजर शोधायला सांगितले तर आश्चर्य वाटेल इतक्या अचूकपणे ॲप ते लगेच शोधून देतं. पण जेव्हा उपग्रहाद्वारे किंवा ड्रोनमधून घेतलेल्या व प्रचंड तपशील दाटीवाटीने भरलेल्या प्रतिमांमध्ये (इमेज) काही विशिष्ट तपशील शोधायचा प्रयत्न करतो, तेव्हा असे दिसून आले आहे की आजची अत्याधुनिक AI मॉडेल्सही आपण शोधायला सांगितलेल्या गोष्टी ओळखण्यात अनेकदा अपयशी ठरतात.

या समस्येवर तोडगा काढण्यासाठी मुंबईच्या भारतीय तंत्रज्ञान संस्थेतील (आयआयटी मुंबई) प्राध्यापक बिप्लब बॅनर्जी यांच्या नेतृत्वाखाली संशोधकांनी एक नवीन मॉडेल विकसित केलं आहे. या मॉडेलला ‘अडॅप्टिव्ह मोडॅलिटी-गाईडेड व्हिज्युअल ग्राउंडिंग’ (Adaptive Modality-guided Visual Grounding - AMVG) असं नाव दिले आहे. हे मॉडेल प्रतिमेमध्ये काय आहे हे ओळखतेच, शिवाय वापरकर्त्याने बोली भाषेत विचारलेले प्रश्नही त्याला समजतात, ते संदिग्ध किंवा विशिष्ट संदर्भावर आधारित असले तरीही.

उदाहरणार्थ, “पुरामुळे नुकसान झालेल्या, नदीजवळ असलेल्या इमारती शोधा” असा सोपा निर्देश (कमांड) आपण दिला तर एखादी व्यक्ती प्रतिमेतून इमारती सहज शोधू शकेल. पण अशा शेकडो, हजारो प्रतिमांमधून काही मिनिटांतच ही माहिती शोधायची असेल, तर यंत्रांनाही माणसांप्रमाणेच किंवा त्याहून अधिक अचूकतेने माहितीचे विश्लेषण करायला शिकवणे आवश्यक आहे. यंत्रांना या प्रकारे प्रशिक्षित करण्याच्या प्रक्रियेला 'व्हिज्युअल ग्राउंडिंग' (दृष्यात्मक आधार: पायाभूत दृष्यात्मक माहितीचे शिक्षण देणे) किंवा 'फ्रेज ग्राउंडिंग' (संज्ञा आधार: विशिष्ट शब्द किंवा संज्ञा याचा प्रतिमेतील भागाशी संबंध जोडणारे शिक्षण देणे) म्हणतात.

आयआयटी मुंबईच्या या संशोधनाच्या प्रमुख लेखिका आणि पीएचडी संशोधक शबनम चौधुरी सांगतात, “दूरस्थ संवेदनातून (remote sensing) मिळणाऱ्या प्रतिमा खूप तपशीलवार असतात, पण त्यांचे संगणक अथवा यंत्राद्वारे विश्लेषण करणे अत्यंत अवघड असते. व्हिज्युअल ग्राउंडिंग मध्ये बरीच प्रगती झाली असली तरी, सध्याची मॉडेल्स दूरस्थ संवेदी प्रतिमांसाठी तेवढी प्रभावी ठरत नाहीत. विशेषतः जेव्हा निर्देश अस्पष्ट किंवा विशिष्ट संदर्भानुसार विचारले जातात, तेव्हा ही मॉडेल अयशस्वी ठरतात.”

दरवर्षी दूरस्थ संवेदनातून मिळणाऱ्या माहितीचा साठा खूप वेगाने वाढत आहे. उपग्रह, ड्रोन किंवा विमानांमधून खूप उंचावरून टिपलेल्या प्रतिमांमध्ये अनेक लहान-लहान गोष्टी असतात, त्यात हवेतील धुळीमुळे स्पष्टता कमी होते. प्रतिमांमध्ये वस्तूंचे आकारही लहान-मोठे दिसतात. या चित्रांमध्ये एखादी इमारत धावपट्टीसारखी दिसू शकते आणि धावपट्टी एखाद्या नदीसारखी. ‘आयएसआरपीएस जर्नल ऑफ फोटोग्रामेट्री अँड रिमोट सेन्सिंग’ मध्ये प्रकाशित झालेल्या या संशोधनातून हे दिसते की, AMVG कशाप्रकारे एक प्रगत भाषांतर प्रणालीप्रमाणे काम करते, जे रोजच्या वापरातील बोली भाषेत दिलेल्या सूचना समजून घेऊन प्रतिमांमधील वस्तू अचूकपणे ओळखते.

आयआयटी मुंबईच्या संशोधकांनी हे कसे साधले ते पाहूया. चौधुरी सांगतात की, सध्याची बहुतांश मॉडेल्स दोन टप्प्यांत काम करतात: आधी प्रतिमेचे भाग तयार करतात आणि मग त्यांचे वर्गीकरण करतात. AMVG मात्र, चार मुख्य नाविन्यपूर्ण तंत्रांचा वापर करते. ‘मल्टी-मोडल डीफॉर्मेबल अटेंशन लेयर’, ‘मल्टी-स्टेज टोकनाईज्ड एन्कोडर’ (MTE), ‘मल्टी-मोडल कंडिशनल डिकोडर’ आणि ‘अटेंशन अलाइनमेंट लॉस’ (AAL) या चार घटकांचा AMVG मध्ये समावेश आहे.

पहिला घटक AMVG ला प्रत्येक पिक्सेलचे (डिजिटल प्रतिमांचा सर्वात छोटा भाग) विश्लेषण करण्याऐवजी, विचारलेल्या विशिष्ट प्रश्नासाठी आवश्यक असलेल्या भागांना प्राधान्य देण्यास मदत करतो. दुसरा घटक, MTE कुशलपणे विचारलेले अवघड प्रश्न टप्प्याटप्प्याने समजून घेत, चित्रातील माहिती प्रश्नांशी जुळवत शोध प्रक्रिया सुधारत जातो. तिसरा घटक, ‘मल्टी-मोडल कंडिशनल डिकोडर’ एकदाच अंदाज लावून उत्तर देण्याऐवजी, आपली शोध प्रक्रिया टप्प्याटप्प्याने सुधारतो. हा घटक एखाद्या गुप्तहेरासारखा काम करत टप्प्याटप्प्याने शक्यता कमी करत जातो. चौथा घटक, आणि कदाचित या मॉडेलचं सर्वात अनोखं वैशिष्ट्य म्हणजे ‘अटेंशन अलाइनमेंट लॉस’ (AAL). हे मॉडेल साठी प्रशिक्षण तंत्र असून ज्याप्रमाणे एक शिक्षक विद्यार्थ्याला योग्य ठिकाणी लक्ष केंद्रित करायला शिकवतो, त्याचप्रमाणे AAL मॉडेलला योग्य जागी लक्ष द्यायला मार्गदर्शन करतो. 

“AAL ची तुलना एका प्रशिक्षकाशी करता येते. उदाहरणार्थ, 'इंधनाच्या टाकीजवळचा पांढरा ट्रक' असे जेव्हा आपण म्हणतो, तेव्हा आपल्या डोळ्यांना चित्रात कुठे बघायचे हे आपोआप समजते. AMVG मॉडेल यंत्र असल्यामुळे त्याला हे आकलन विकसित करण्यासाठी मदत लागते. AAL चे काम नेमके तेच आहे. AAL मॉडेलला प्रतिमांमध्ये कुठे लक्ष द्यायचे ते शिकवते. जर मॉडेलचे ‘लक्ष’ थोडेसे भरकटले, तर AAL त्याला हळूच योग्य ठिकाणी परत आणते,” चौधुरी स्पष्ट करतात.

या चार घटकांच्या मदतीने AMVG संदर्भ विचारात घेऊन ‘पाहू’ शकते आणि सूचनेतील बारकावे ‘ऐकू’ शकते, ज्यामुळे ते या प्रकारच्या आधीच्या प्रयत्नांपेक्षा सरस ठरते. AMVG मॉडेल ने केवळ तांत्रिक प्रगती साधली आहे असे नाही, तर या मॉडेलचे व्यावहारिक उपयोग आपत्ती व्यवस्थापन, लष्करी संनिरीक्षण (सर्व्हेलन्स), नागरी योजना आणि कृषी उत्पादन या सारख्या वेगवेगळ्या क्षेत्रांमध्ये होऊ शकतात. 

“AMVG मॉडेलचा सर्वात महत्त्वाचा उपयोग म्हणजे आपत्ती व्यवस्थापन,” चौधुरी सांगतात.

पूर, भूकंप किंवा वणव्यासारख्या आपत्कालीन परिस्थितीत आपत्ती निवारणासाठी केवळ काही निर्देश देऊन AMVG कडून माहिती मिळवता येते. उदाहरणार्थ ‘महामार्गाजवळच्या नुकसान झालेल्या इमारती दाखवा’ असा निर्देश दिल्यास नेमके ठिकाण लगेच दाखवले जाऊ शकते. त्याचप्रमाणे, शेतकरी ‘सिंचन वाहिनी जवळ पिवळे पडलेले पिकांचे भाग शोधा’ असे विचारू शकतात आणि त्यांना वास्तविक वेळे मधील माहिती मिळू शकते. 

या संशोधनातील सर्वात महत्त्वाची गोष्ट म्हणजे, संशोधकांनी AMVG मॉडेल पूर्णपणे मुक्त-स्रोत (ओपन सोर्स), म्हणजेच सर्वांसाठी GitHub वर खुले ठेवले आहे. रिमोट सेन्सिंगच्या संशोधनात हे खूप दुर्मिळ मानले जाते.

“आमचं काम केवळ एका मर्यादित गटासाठी न राहता, सर्वांसाठी उपलब्ध असावं अशी आमची इच्छा होती. यामुळे विज्ञानाच्या प्रगतीला गती मिळते,” चौधरी सांगतात.

“AMVG मॉडेल मुक्त-स्रोत करण्याचा निर्णय आम्ही जाणीवपूर्वक घेतला. हा निर्णय तितकाच वैयक्तिकही होता. आमचं ठाम मत आहे की वैज्ञानिक संशोधन जेव्हा सर्वांसाठी मुक्तपणे निःशुल्क उपलब्ध असते तेव्हाच ते खरोखर प्रभावी ठरते. आमच्या मॉडेल चा संपूर्ण आराखडा (framework) प्रकाशित केल्यामुळे, आम्हाला दूरस्थ संवेदन आणि व्हिज्युअल ग्राऊंडिंग संशोधनामध्ये पारदर्शकता, पुनरुत्पादनक्षमता आणि जलद सुधारणा यांना प्रोत्साहन मिळेल अशी आशा आहे,” त्या पुढे सांगतात.

अर्थात, कोणतंही मॉडेल परिपूर्ण वा आदर्श नसतं. AMVG चे कार्य अजूनही ॲनोटेट केलेल्या (स्पष्टीकरण अथवा टिप्पणी सहित असलेला) उच्च दर्जाच्या माहितीसाठ्याच्या (डेटासेट) उपलब्धतेवर अवलंबून आहे. जेव्हा कधीही न पाहिलेले प्रदेश किंवा संवेदक पहिल्यांदा मॉडेल समोर येतात तेव्हा मॉडेलची कार्यक्षमता वेगवेगळी असू शकते. यापूर्वीच्या मॉडेल्सच्या तुलनेत जरी AMVG जास्त कार्यक्षम असले तरी वास्तविक अवधी किंवा एज डिव्हाइसेस मध्ये (edge devices; डेटा स्रोताला नेटवर्कशी जोडणारी उपकरणे ज्यांचा ‘इंटरनेट-ऑफ़-थिंग्स’ मध्ये वापर केला जातो ) वापरण्यासाठी त्यात आणखी सुधारणांची आवश्यकता आहे. 

शोधकार्याची भविष्याची दिशा मात्र स्पष्ट आहे. आयआयटी मुंबईच्या संशोधकांनी आता मॉडेलचा सेन्सर-अवेअर प्रकार (संवेदकाबद्दल माहिती ठेवून काम करणारा), संरचनात्मक व्हिज्युअल ग्राउन्डिंग (उदाहरणार्थ, “झाडाजवळच्या निळ्या टाकीमागील लहान झोपडी”), आणि लार्ज-व्हिजन-लँग्वेज मॉडेल्स यावर काम सुरु केले आहे. याआधारे त्यांना हे मॉडेल वेगवेगळे संवेदक, भौगोलिक स्थिती आणि कार्य यासाठी वापरण्यास योग्य करायचे आहे.

“शेवटी, दूरस्थ संवेदनासाठी एक एकीकृत प्रणाली तयार व्हावी अशी आमची इच्छा आहे. नैसर्गिक भाषेमध्ये (नॅचरल लँग्वेज) ग्राउन्डिंग, वर्णन, शोधणे आणि तर्क लावणे या क्षमता या प्रणालीत असाव्यात,” असे चौधुरी यांनी सांगितले. 

आयआयटी मुंबईचे AMVG मॉडेल केवळ तंत्रज्ञानाच्या दृष्टीनेच श्रेष्ठ नाही, तर त्यामुळे प्रत्यक्ष व मोठ्या अनुप्रयोगांंध्ये दूरस्थ संवेदनाचा वापर शक्य होईल. आपली बोली भाषा आणि यंत्र गोष्टी कसे शोधते यामधला दुवा साधून, हे मॉडेल, दूरस्थ संवेदनाने भौगोलिक निरीक्षण करण्याची गुंतागुंतीची साधने, त्या साधनांची सर्वाधिक गरज आहे, अश्या लोकांच्या आवाक्यात आणते व आपली अधिक सुनियोजित आणि सुसज्ज विश्वाकडे जाण्याची वाटचाल सुकर करते.

Marathi

Search Research Matters