Home News Webqoof ऑनलाइन नफरत फैलाने के लिए अपनाये जा रहे नए तरीके, इंसान-मशीन को मिलाना होगा हाथ

ऑनलाइन नफरत फैलाने के लिए अपनाये जा रहे नए तरीके, इंसान-मशीन को मिलाना होगा हाथ

Izlam, Muzlims और j!hadists जैसे शब्दों से IA को चकमा देने की कोशिश कर रहे नफरती

ऐश्वर्या वर्मा

वेबकूफ

Published: 29 Apr 2022, 6:41 PM IST

Izlam, Muzlims और j!hadists जैसे शब्दों से IA को चकमा देने की कोशिश कर रहे नफरती

(फोटो: Altered by The Quint)

देशभर में हाल में कई सांप्रदायिक घटनाएं (Communal Incidents) हुई, जिन्हें लेकर ऑनलाइन चर्चा बढ़ी है. यूजर्स इन घटनाओं से जुड़ी जानकारी अलग-अलग क्षेत्रीय भाषाओं में शेयर कर रहे हैं.

इन मुद्दों को लेकर जो पोस्ट की गईं, उनमें से एक बड़ा हिस्सा ऐसी पोस्ट का है जिनमें गलत सूचना (Misinformation) और हेट स्पीच (Hate Speech) शामिल हैं. इनमें अपशब्दों और अपमानजनक भाषा का इस्तेमाल कर अल्पसंख्यक समुदाय को टारगेट किया गया.

सांप्रदायिक दावे में 'जिहादी' और 'शांतिदूत' जैसे अपमानजनक शब्दों का इस्तेमाल किया गया

(सोर्स: स्क्रीनशॉट/ट्विटर)

हालांकि, इस तरह के कंटेंट के बड़े हिस्से का इस्तेमाल, चाहे वो टेक्स्ट, फोटो या वीडियो के फॉर्म में हो, समुदायों को टारगेट करने के लिए किया जाता है. ऐसा करने के लिए, किसी खास कोडवर्ड या घुमा फिराकर बोले जाने वाले शब्दों का इस्तेमाल किया जाता है.

इन पोस्ट में ऐसी भाषा का इस्तेमाल किया जाता है जो प्लेटफॉर्म की नीतियों का उल्लंघन करती हैं, उसके बावजूद इन्हें हटाया नहीं जाता. इसलिए ऐसी पोस्ट पर इंगेजमेंट बढ़ता रहता है. और इसी वजह से इस तरह के कंटेट को बढ़ावा मिलता है.

इस आर्टिकल में हम बात करेंगे:

कैसे सांप्रदायिक भाषा फैक्ट चेकर्स, मॉडरेटर्स और ऑटोमेटेड टूल्स के लिए चुनौती पैदा करती है.
क्या सोशल मीडिया प्लेटफॉर्म पर इंसानों और एआई यानी आर्टिफिशियल इंटेलीजेंस के साथ मिलकर किए गए प्रयासों से इन पर काबू पाया जा सकता है?

Also Readदेह व्यापार में लिप्त आरोपियों की पुरानी फोटो, इलाहाबाद यूनिवर्सिटी की बता वायरल

स्लैंग, अस्पष्ट उच्चारण वाले शब्द: हेटफुल कंटेट को ट्रैक करने पर आने वाली मानवीय चुनौतियां

भारत में मॉडरेटर्स और फैक्ट चेकर्स के बढ़ते नेटवर्क के बावजूद, अपशब्द, गलत उच्चारण वाले शब्दों और अपमानजनक शब्दों का इस्तेमाल होने की वजह से ऐसा कंटेंट उनकी नजरों से बच जाता है.

इसका एक उदाहरण देखते हैं. दिल्ली के नरायणा में एक शख्स की हत्या से जुड़ा दावा सोशल मीडिया पर वायरल हुआ. हत्या को झूठे सांप्रदायिक एंगल से शेयर किया गया. हमने देखा कि दावे से जुड़े पोस्ट में कुछ खास तरह के शब्द इस्तेमाल किए गए थे. यूजर्स ने इस हत्या के लिए मुस्लिम समुदाय को दोषी ठहराते हुए ‘‘Izlam’,’Muzlims’ और ‘j!hadists’ जैसे शब्दों का इस्तेमाल किया.

शिवा गुर्जर हत्याकांड को झूठे सांप्रदायिक दावे से किया गया वायरल

(सोर्स: स्क्रीनशॉट/फेसबुक)

ये उन फैक्ट चेकर्स, मॉडरेटर्स और जर्नलिस्ट के लिए एक चुनौती भरा काम है, जो हर रोज ऐसी भड़काऊ सामग्री पर नजर रख रहे हैं. लेकिन, एक्सपर्ट्स का मानना है कि ऑटोमेटेड टेक्नॉलजी टूल्स का इस्तेमाल ऐसी नफरती भाषा और पोस्ट को ट्रैक करने के लिए किया जा सकता है.

Tattle की रिसर्च लीड तरुणिमा प्रभाकर ने क्विंट से बातचीत में बताया कि सोशल मीडिया प्लेटफॉर्म को मॉडरेट करने वाले टेक टूल्स से शब्दों के अनुमानित मिलान को ट्रैक करना संभव है. बता दें कि Tattle टेक्नॉलजिस्ट, रिसर्चर्स, जर्नलिस्ट और आर्टिस्ट का एक समूह है जो मिसइनफॉर्मेशन से निपटने के लिए टूल्स बनाते हैं.

अगर आपके पास ''स्लर लिस्ट'' (ऐसे शब्दों की लिस्ट जो अस्पष्ट तरीके से उच्चारित किए जाते हैं) जिन्हें हम क्राउड सोर्सिंग कर रहे हैं, तो आपको एक अनुमानित मिलान और एक जैसे शब्दों को देखने में सक्षम होना चाहिए. लेकिन, इसकी सीमाएं हैं. कोई टेक्स्ट के बजाय किसी खास सिंबल का इस्तेमाल करता है, जिससे प्लेटफॉर्म को समझ न आए और वो उसे डिटेक्ट न कर पाए.

तरुणिमा प्रभाकर, Tattle में रिसर्च लीड

उन्होंने कहा कि हालांकि ये ''चूहे-बिल्ली'' के खेल की तरह होगा, लेकिन प्लेटफॉर्म्स के लिए ये मुमकिन है कि वो अपने यूजर्स के पोस्ट में इस्तेमाल किए गए शब्दों की भिन्नता को डिटेक्ट कर पाएं और उसे मॉडरेटर्स को फ्लैग कर पाएं.

सांप्रदायिक शब्दों का इस्तेमाल होने पर संदर्भ हो जाता है अहम

कई सांप्रदायिक दावों में, हमें ऐसे शब्द दिखते हैं जो देखने पर तो आपत्तिजनक नहीं लगते, लेकिन समुदायों को टारगेट करने के लिए इस्तेमाल किया जाते हैं. उदाहरण के लिए: मुस्लिम कहने के बजाय, उन्हें 'अब्दुल', 'शांतिदूत' कहा जाता है.

(नोट: 'अब्दुल' नाम के इस्तेमाल से जुड़े पोस्ट देखने के लिए दाएं स्वाइप करें)

'अब्दुल', 'शांतिदूत' जैसे शब्दों का इस्तेमाल

अब इस मामले में, मानव और टेक्नॉलजिकल मॉडरेशन, दोनों के लिए संदर्भ की जरूरत होगी.

प्रभाकर कहती हैं, ''संदर्भ का पता लगाने के लिए, आपको संदर्भ को लेबल करने के लिए सच में किसी की जरूरत होगी. आपको डेटा के ऐसे उदाहरणों की जरूरत होगी जहां इसे कंटेंट में समस्या होने या नहीं होने के उदाहरणों के तौर पर लेबल किया गया हो. प्रभाकर आगे कहती हैं कि ये आसान नहीं है, क्योंकि ऐसा हो सकता है कि लोग कंटेंट में समस्या होने या नहीं होने पर असहमत हों.

उदाहरण के लिए, अगर डेवलपर उत्पीड़न का शिकार नहीं हुआ है, तो उसे इस बात का अंदाजा नहीं लग पाता कि जिन्हें इसका शिकार होना पड़ा है उन पर किस चीज का बुरा असर पड़ सकता है. ऐसे में डेवलपर का ऐसे आपत्तिजनक कंटेंट को कोड करने का तरीका बहुत अलग होगा.

संदर्भ आधारित पोस्ट का एक और उदाहरण यहां देखा जा सकता है, जहां 2019 की एक फोटो को हाल में हुई दिल्ली के जहांगीरपुर हिंसा से जोड़कर शेयर किया गया था.

Also Readबदायूं की 2 साल पुरानी फोटो, जहांगीरपुरी हिंसा से जोड़कर गलत दावे से वायरल

एक दूसरी पोस्ट, जिसमें एक टोपी पहने शख्स जमीन पर पड़े एक पुलिसकर्मी पर पत्थर मारते दिख रहा है, को 'peacefuls' टेक्स्ट के साथ शेयर किया गया. इस शब्द को अक्सर इस्लाम को 'शांति का धर्म' बताकर व्यंग्यात्मक तरीके से इस्तेमाल किया जाता है.

हमें ये पोस्ट वेरिफिकेशन के दौरान मिली थी

(फोटो: स्क्रीनशॉट/ट्विटर)

Peaceful की गलत स्पेलिंग लिखने से जुड़ा एक और उदाहरण

(फोटो: स्क्रीनशॉट/ट्विटर)

इस पोस्ट में 'peacefools' और 'muzlimz का इस्तेमाल किया गया है

(सोर्स: स्क्रीनशॉट/फेसबुक)

इंटरनेट फ़्रीडम फ़ाउंडेशन (IFF) के अपार गुप्ता के मुताबिक, नफरती भाषा सिर्फ तब पैदा नहीं होती जब व्यंग्यात्मक तरीके से इशारे करने वाले शब्द या कोड वर्ड्स का इस्तेमाल किया जाता है, बल्कि, तब भी होती है जब ''कुछ धार्मिक या जाति आधारित प्रथाओं की आलोचना बड़े स्तर पर की जाती है. इस वजह से इन समूहों के खिलाफ हिंसा का वातावरण बनता है.''

उदाहरण के लिए हलाल की प्रथा का अर्थ अलग-अलग तरीकों से बताया गया. इस वजह से, मुस्लिम स्वामित्व वाले बिजनेसेज के आर्थिक बहिष्कार के बारे में बोला जाने लगा.

ढेर सारी भाषाओं से बढ़ी चुनौती

जब भारत में भाषाओं की भिन्नता की बात आती है, तो संदर्भ और स्लैंग (अशिष्ट भाषा) से जुड़ी समस्या और बढ़ जाती है. सेंटर फॉर इंटरनेट एंड सिक्योरिटी (CIS) में अलग-अलग भाषाओं में एनोटेटर्स (जो किसी भाषा से जुड़े शब्दों को डॉक्युमेंटेशन करते हैं) हैं. लेकिन ये एनोटेटर्स भी इसी समस्या का सामना करते हैं, क्योंकि किसी शब्द का अर्थ या उसे इस्तेमाल करने की जगह अलग-अलग भाषाओं में अलग-अलग होती है. हो सकता है जो शब्द एक भाषा में समस्या वाला हो वही दूसरी भाषा में न हो.

सोशल मीडिया पर समस्याग्रस्त भाषा की पहचान करने से जुड़े, CIS के प्रोजेक्ट की शुरुआत अंग्रेजी भाषा के डेटासेट पर काम करने से शुरू हुई. इसके आधार पर भविष्य में एनोटेटर्स (व्याख्याकारों) के काम करने के लिए गाइडलाइन्स का एक सेट बनाया गया.

Also ReadElon Musk ट्विटर से जिन बोट्स को हटाना चाहते हैं वो क्या और कितने खतरनाक हैं?

प्रोजेक्ट पर काम करने वाले एक रिसर्चर ने क्विंट को बताया, ''हमारे पास गाइडलाइन्स से जुड़ा एक सेट था और हमारे पास एनोटेटर्स का एक ग्रुप है. हर भाषा के लिए 6 एनोटेटर्स हैं और उनका काम है कि वो अपने अनुभव से और हमारी गाइडलाइन के मुताबिक, ये बताएं कि कौन सी पोस्ट ठीक नहीं है.''

एक समस्या जिसका उन्हें सामना करना पड़ा वो थी इंग्लिश के कुछ खास अपशब्द या अस्पष्ट उच्चारण वाले शब्दों का इस्तेमाल. इनका हिंदी में अनुवाद करने पर उनका गलत मतलब निकला. इसलिए, एनोटेटर्स को लगा कि ऐसे शब्दों को सोशल मीडिया पर नहीं होना चाहिए.

जहां इंग्लिश एनोटेटर्स के पास अपने विवेक के आधार पर ये चुनने की स्वतंत्रता थी कि कौन सी पोस्ट ठीक है और कौन सी नहीं. वहीं, ये हिंदी जैसी दूसरी भाषाओं के मॉडरेटर पर लागू नहीं होता.

Also Readअजय देवगन भी हिंदी को 'राष्ट्रीय भाषा' मानने वाली गलत धारणा को सच मान बैठे

इसी तरह, ट्रांसलिटरेटेड भाषा (जैसे हिंदी वर्ड्स को रोमन में लिखा जाए), उदाहरण के लिए 'शांतिदूत' (peace messenger) को 'shantidoot' लिखना. इस तरह से लिखकर, खास भाषा के डेटासेट पर बने टूल्स की पकड़ में आने से बचने के लिए किया जाता है.

ट्रांसलिटरेटेड शब्द का इस्तेमाल कर शेयर किया गया पोस्ट

(सोर्स: स्क्रीनशॉट/ट्विटर)

ओला ऊबर जैसे शब्दों का इस्तेमाल इशारे के लिए किया गया है

(सोर्स: स्क्रीनशॉट/ट्विटर)

इस स्क्रीनशॉट में ‘Ola’ और ‘Uber’ का इस्तेमाल किया गया है, जो भारत में टैक्सी सर्विस के लिए इस्तेमाल होने वाले ऐप्लिकेशन हैं, लेकिन दरअसल यहां पर इसे 'अल्लाहु अकबर' (अल्लाह सबसे महान है) की ओर इशारा करते हुए लिखा गया है. ये एक अरबी भाषा में बोला जाने वाला वाक्य है जिसे दुनियाभर में उर्दू और अरबी भाषी लोग बोलते हैं.

खासकर इंग्लिश में काम करने वाला मॉडरेटर यहां पर इन शब्दों के जरिए किए जा रहे इशारों की पहचान नहीं कर पाएगा, क्योंकि उसे तो ये शब्द सामान्य इंग्लिश में बोले जाने वाले शब्द ही लगेंगे.

Also ReadNYT ने नहीं छापा- गुजरात में AAP की रैली में शामिल हुए 25 करोड़ लोग, फेक है फोटो

Logically के आयुष्मान कौल ने हमें "जातीयता और भाषाओं की विविधता के साथ-साथ सामग्री की भारी मात्रा" की वजह से इस समस्या की जटिलता को लेकर बताया कि, ''एल्गोरिदम का लगातार अपडेट होना और उसमें बदलाव होना जरूरी है, ताकि देश में चरमपंथी या सांप्रदायिक मामलों को ट्रैक किया जा सके.''

तो इससे निपटने का क्या है तरीका?

समस्या का तुरंत जवाब ये होगा कि जिस तरह से ऑटोमेटेड सिस्टम तैयार किया जाता है, उसमें बदलाव किया जाए और प्लेटफॉर्म्स को ऐसे लोगों को काम पर रखना चाहिए जो अलग-अलग भाषाओं को जानते हों.

रिसर्चर ने बताया कि CIS का जो अप्रोच है, ऐसा नहीं है कि उसमें समस्याएं नहीं है. लेकिन फिर भी ये टेक कंपनी ऐसे कदम नहीं उठा रही.

IFF के गुप्ता ने कहा, "मैं कहूंगा कि जो समस्याएं सामने आई हैं उन्हें लेकर सिलिकॉन वैली की कंपनीज ने वो नहीं किया है जो वो हेट स्पीच के स्पष्ट उदाहरणों पर कर सकती हैं. और ऐसा जांच से पता चला है.''

Meta ने क्विंट को दिए जवाब में कहा, कि कंपनी ने 'सेफ्टी और सिक्योरिटी' बढ़ाने के लिए 16 मिलियन डॉलर का निवेश किया है. लेकिन, The New York Times पर 2021 में पब्लिश एक रिपोर्ट से पता चलता है कि भारत में कंपनी का खर्च बहुत कम है, जबकि ये उनका बहुत बड़ा बाजार है.

समय, संसाधन और मैनपावर में कमी होने के बावजूद, इंडिपेंडेंट ऑर्गनाइजेशन्स ने बहुभाषी सिस्टम की सख्त जरूरत को उजागर करने का काम किया है.

''बेशक इशारे में बोली गई बात, हेट केसेज और कोड वर्ड में किया गया भाषा का इस्तेमाल, उसके संदर्भ की वजह से एक समस्या है'' लेकिन गुप्ता कहते हैं कि प्लेटफॉर्म ''ऑर्गनाइज्ड तरीके से चलाए जा रहे इस नेटवर्क के खात्मे को लेकर कम से कम जरूरी कार्रवाई'' भी नहीं कर रहे हैं. इस वजह से ज्यादा ताकतवर संस्थाएं या लोग बड़े लेवल पर नैरेटिव बनाकर सांप्रदायिक सद्भाव को कमजोर कर रहे हैं.

कौल ने इस बात पर भी जोर दिया कि ऐसे इंसानी मॉडरेटर्स पर बड़े स्तर पर निवेश करने की जरूरत है, जिन्हें सोशियो-कल्चरल संदर्भों की बारीकी की समझ हो.

कौल लिखते हैं, ''इस समस्या का कोई सटीक और साधारण समाधान नहीं है.'' वो आगे कहते हैं कि लोगों को 'इस तरह के कंटेंट को लेकर पूरी तरह से कम संवेदनशील बनाने के लिए जरूरी है कि सोशल मीडिया प्लेटफॉर्म पर सामाजिक स्तर पर, मेजबान देशों के नियामक और न्यायिक निकायों, स्वतंत्र और मजबूत मीडिया के साथ-साथ सिविल सोसायटी की ओर से साथ में प्रयास किए जाएं.''

ज्यादातर एक्सपर्ट इस बात से सहमत हैं कि प्लेटफॉर्म्स के पास ये संसाधन हैं, लेकिन वो अपने कंटेंट के लिए 'सभी के लिए एक' जैसी अप्रोच रखते हैं. इसलिए, ये काम नहीं करता.

Also Readगलत सूचनाओं के फैलने में इमोशन्स की क्या होती है भूमिका?

अलग-अलग समुदायों की ओर से फेस की जाने वाली छोटी समस्याओं से निपटने के लिए, बेहतर मॉडरेशन अप्रोच (जिसे सोशल मीडिया प्लेटफॉर्म फॉलो करते हैं) और बहुत छोटी और कम अच्छी मॉडरेशन अप्रोच के बीच एक बहस मौजूद है.

हालांकि, ये तरीके धीरे-धीरे नफरत भरी भाषा वाले कंटेंट को ऑनलाइन रहने और उसे हटाने के बीच के समय को कम कर देंगे. यानी ऐसा आपत्तिजनक कंटेंट कम समय में ही हटा दिया जाएगा. प्रभाकर कहते हैं कि पूरी सक्रियता से ऐसे कंटेंट को हटाने के लिए, ऐसा कोई तरीका नहीं है.

IFF के गुप्ता ने सांप्रदायिक सद्भाव बनाए रखने की पूरी जिम्मेदारी राज्य की बताते हुए, विस्तार से बताया कि ऐसे प्लेटफॉर्म्स जो लोगों को संगठित होने (कंटेंट को बढ़ाने और पोस्ट करने और नैरेटिव सेट करने से जुड़े मामले में) और कोऑर्डिनेटेट तरीके से व्यवहार करने से जुड़े फीचर रखते हैं, वो इसे कम करने या इसे बढ़ाने से जुड़े कदम उठा सकते हैं.

यूजर्स, मॉडरेटर्स और सोशल मीडिया प्लेटफॉर्म टीम और संसाधनों के बीच एक सहयोगात्मक प्रयास ये पक्का करने का आदर्श तरीका है कि आने वाले सालों में हमारे बीच मौजूद सोशल मीडिया अपने सभी यूजर्स के लिए एक बेहतर जगह के तौर पर विकसित हो.

Also Readतिरुपति बालाजी के मुख्य पुजारी ने नहीं कहा-ना दो दान, दूसरे धर्मों पर होता खर्च

(अगर आपके पास भी ऐसी कोई जानकारी आती है, जिसके सच होने पर आपको शक है, तो पड़ताल के लिए हमारे वॉट्सऐप नंबर 9643651818 या फिर मेल आइडी webqoof@thequint.com पर भेजें. सच हम आपको बताएंगे. हमारी बाकी फैक्ट चेक स्टोरीज आप यहां पढ़ सकते हैं )

(क्विंट हिन्दी, हर मुद्दे पर बनता आपकी आवाज, करता है सवाल. आज ही मेंबर बनें और हमारी पत्रकारिता को आकार देने में सक्रिय भूमिका निभाएं.)

Published: undefined

SCROLL FOR NEXT