Home Created by potrace 1.16, written by Peter Selinger 2001-2019News Created by potrace 1.16, written by Peter Selinger 2001-2019Webqoof Created by potrace 1.16, written by Peter Selinger 2001-2019ऑनलाइन नफरत फैलाने के लिए अपनाये जा रहे नए तरीके, इंसान-मशीन को मिलाना होगा हाथ

ऑनलाइन नफरत फैलाने के लिए अपनाये जा रहे नए तरीके, इंसान-मशीन को मिलाना होगा हाथ

Izlam, Muzlims और j!hadists जैसे शब्दों से IA को चकमा देने की कोशिश कर रहे नफरती

ऐश्वर्या वर्मा
वेबकूफ
Published:
<div class="paragraphs"><p>Izlam, Muzlims और j!hadists जैसे शब्दों से IA को चकमा देने की कोशिश कर रहे नफरती</p></div>
i

Izlam, Muzlims और j!hadists जैसे शब्दों से IA को चकमा देने की कोशिश कर रहे नफरती

(फोटो: Altered by The Quint)

advertisement

देशभर में हाल में कई सांप्रदायिक घटनाएं (Communal Incidents) हुई, जिन्हें लेकर ऑनलाइन चर्चा बढ़ी है. यूजर्स इन घटनाओं से जुड़ी जानकारी अलग-अलग क्षेत्रीय भाषाओं में शेयर कर रहे हैं.

इन मुद्दों को लेकर जो पोस्ट की गईं, उनमें से एक बड़ा हिस्सा ऐसी पोस्ट का है जिनमें गलत सूचना (Misinformation) और हेट स्पीच (Hate Speech) शामिल हैं. इनमें अपशब्दों और अपमानजनक भाषा का इस्तेमाल कर अल्पसंख्यक समुदाय को टारगेट किया गया.

सांप्रदायिक दावे में 'जिहादी' और 'शांतिदूत' जैसे अपमानजनक शब्दों का इस्तेमाल किया गया

(सोर्स: स्क्रीनशॉट/ट्विटर)

हालांकि, इस तरह के कंटेंट के बड़े हिस्से का इस्तेमाल, चाहे वो टेक्स्ट, फोटो या वीडियो के फॉर्म में हो, समुदायों को टारगेट करने के लिए किया जाता है. ऐसा करने के लिए, किसी खास कोडवर्ड या घुमा फिराकर बोले जाने वाले शब्दों का इस्तेमाल किया जाता है.

इन पोस्ट में ऐसी भाषा का इस्तेमाल किया जाता है जो प्लेटफॉर्म की नीतियों का उल्लंघन करती हैं, उसके बावजूद इन्हें हटाया नहीं जाता. इसलिए ऐसी पोस्ट पर इंगेजमेंट बढ़ता रहता है. और इसी वजह से इस तरह के कंटेट को बढ़ावा मिलता है.

इस आर्टिकल में हम बात करेंगे:

  • कैसे सांप्रदायिक भाषा फैक्ट चेकर्स, मॉडरेटर्स और ऑटोमेटेड टूल्स के लिए चुनौती पैदा करती है.

  • क्या सोशल मीडिया प्लेटफॉर्म पर इंसानों और एआई यानी आर्टिफिशियल इंटेलीजेंस के साथ मिलकर किए गए प्रयासों से इन पर काबू पाया जा सकता है?

स्लैंग, अस्पष्ट उच्चारण वाले शब्द: हेटफुल कंटेट को ट्रैक करने पर आने वाली मानवीय चुनौतियां

भारत में मॉडरेटर्स और फैक्ट चेकर्स के बढ़ते नेटवर्क के बावजूद, अपशब्द, गलत उच्चारण वाले शब्दों और अपमानजनक शब्दों का इस्तेमाल होने की वजह से ऐसा कंटेंट उनकी नजरों से बच जाता है.

इसका एक उदाहरण देखते हैं. दिल्ली के नरायणा में एक शख्स की हत्या से जुड़ा दावा सोशल मीडिया पर वायरल हुआ. हत्या को झूठे सांप्रदायिक एंगल से शेयर किया गया. हमने देखा कि दावे से जुड़े पोस्ट में कुछ खास तरह के शब्द इस्तेमाल किए गए थे. यूजर्स ने इस हत्या के लिए मुस्लिम समुदाय को दोषी ठहराते हुए ‘‘Izlam’,’Muzlims’ और ‘j!hadists’ जैसे शब्दों का इस्तेमाल किया.

शिवा गुर्जर हत्याकांड को झूठे सांप्रदायिक दावे से किया गया वायरल

(सोर्स: स्क्रीनशॉट/फेसबुक)

ये उन फैक्ट चेकर्स, मॉडरेटर्स और जर्नलिस्ट के लिए एक चुनौती भरा काम है, जो हर रोज ऐसी भड़काऊ सामग्री पर नजर रख रहे हैं. लेकिन, एक्सपर्ट्स का मानना है कि ऑटोमेटेड टेक्नॉलजी टूल्स का इस्तेमाल ऐसी नफरती भाषा और पोस्ट को ट्रैक करने के लिए किया जा सकता है.

Tattle की रिसर्च लीड तरुणिमा प्रभाकर ने क्विंट से बातचीत में बताया कि सोशल मीडिया प्लेटफॉर्म को मॉडरेट करने वाले टेक टूल्स से शब्दों के अनुमानित मिलान को ट्रैक करना संभव है. बता दें कि Tattle टेक्नॉलजिस्ट, रिसर्चर्स, जर्नलिस्ट और आर्टिस्ट का एक समूह है जो मिसइनफॉर्मेशन से निपटने के लिए टूल्स बनाते हैं.

अगर आपके पास ''स्लर लिस्ट'' (ऐसे शब्दों की लिस्ट जो अस्पष्ट तरीके से उच्चारित किए जाते हैं) जिन्हें हम क्राउड सोर्सिंग कर रहे हैं, तो आपको एक अनुमानित मिलान और एक जैसे शब्दों को देखने में सक्षम होना चाहिए. लेकिन, इसकी सीमाएं हैं. कोई टेक्स्ट के बजाय किसी खास सिंबल का इस्तेमाल करता है, जिससे प्लेटफॉर्म को समझ न आए और वो उसे डिटेक्ट न कर पाए.
तरुणिमा प्रभाकर, Tattle में रिसर्च लीड

उन्होंने कहा कि हालांकि ये ''चूहे-बिल्ली'' के खेल की तरह होगा, लेकिन प्लेटफॉर्म्स के लिए ये मुमकिन है कि वो अपने यूजर्स के पोस्ट में इस्तेमाल किए गए शब्दों की भिन्नता को डिटेक्ट कर पाएं और उसे मॉडरेटर्स को फ्लैग कर पाएं.

सांप्रदायिक शब्दों का इस्तेमाल होने पर संदर्भ हो जाता है अहम

कई सांप्रदायिक दावों में, हमें ऐसे शब्द दिखते हैं जो देखने पर तो आपत्तिजनक नहीं लगते, लेकिन समुदायों को टारगेट करने के लिए इस्तेमाल किया जाते हैं. उदाहरण के लिए: मुस्लिम कहने के बजाय, उन्हें 'अब्दुल', 'शांतिदूत' कहा जाता है.

(नोट: 'अब्दुल' नाम के इस्तेमाल से जुड़े पोस्ट देखने के लिए दाएं स्वाइप करें)

अब इस मामले में, मानव और टेक्नॉलजिकल मॉडरेशन, दोनों के लिए संदर्भ की जरूरत होगी.

प्रभाकर कहती हैं, ''संदर्भ का पता लगाने के लिए, आपको संदर्भ को लेबल करने के लिए सच में किसी की जरूरत होगी. आपको डेटा के ऐसे उदाहरणों की जरूरत होगी जहां इसे कंटेंट में समस्या होने या नहीं होने के उदाहरणों के तौर पर लेबल किया गया हो. प्रभाकर आगे कहती हैं कि ये आसान नहीं है, क्योंकि ऐसा हो सकता है कि लोग कंटेंट में समस्या होने या नहीं होने पर असहमत हों.

उदाहरण के लिए, अगर डेवलपर उत्पीड़न का शिकार नहीं हुआ है, तो उसे इस बात का अंदाजा नहीं लग पाता कि जिन्हें इसका शिकार होना पड़ा है उन पर किस चीज का बुरा असर पड़ सकता है. ऐसे में डेवलपर का ऐसे आपत्तिजनक कंटेंट को कोड करने का तरीका बहुत अलग होगा.

संदर्भ आधारित पोस्ट का एक और उदाहरण यहां देखा जा सकता है, जहां 2019 की एक फोटो को हाल में हुई दिल्ली के जहांगीरपुर हिंसा से जोड़कर शेयर किया गया था.

एक दूसरी पोस्ट, जिसमें एक टोपी पहने शख्स जमीन पर पड़े एक पुलिसकर्मी पर पत्थर मारते दिख रहा है, को 'peacefuls' टेक्स्ट के साथ शेयर किया गया. इस शब्द को अक्सर इस्लाम को 'शांति का धर्म' बताकर व्यंग्यात्मक तरीके से इस्तेमाल किया जाता है.

हमें ये पोस्ट वेरिफिकेशन के दौरान मिली थी

(फोटो: स्क्रीनशॉट/ट्विटर)

Peaceful की गलत स्पेलिंग लिखने से जुड़ा एक और उदाहरण

(फोटो: स्क्रीनशॉट/ट्विटर)

इस पोस्ट में 'peacefools' और 'muzlimz का इस्तेमाल किया गया है

(सोर्स: स्क्रीनशॉट/फेसबुक)

इंटरनेट फ़्रीडम फ़ाउंडेशन (IFF) के अपार गुप्ता के मुताबिक, नफरती भाषा सिर्फ तब पैदा नहीं होती जब व्यंग्यात्मक तरीके से इशारे करने वाले शब्द या कोड वर्ड्स का इस्तेमाल किया जाता है, बल्कि, तब भी होती है जब ''कुछ धार्मिक या जाति आधारित प्रथाओं की आलोचना बड़े स्तर पर की जाती है. इस वजह से इन समूहों के खिलाफ हिंसा का वातावरण बनता है.''

उदाहरण के लिए हलाल की प्रथा का अर्थ अलग-अलग तरीकों से बताया गया. इस वजह से, मुस्लिम स्वामित्व वाले बिजनेसेज के आर्थिक बहिष्कार के बारे में बोला जाने लगा.

ढेर सारी भाषाओं से बढ़ी चुनौती

जब भारत में भाषाओं की भिन्नता की बात आती है, तो संदर्भ और स्लैंग (अशिष्ट भाषा) से जुड़ी समस्या और बढ़ जाती है. सेंटर फॉर इंटरनेट एंड सिक्योरिटी (CIS) में अलग-अलग भाषाओं में एनोटेटर्स (जो किसी भाषा से जुड़े शब्दों को डॉक्युमेंटेशन करते हैं) हैं. लेकिन ये एनोटेटर्स भी इसी समस्या का सामना करते हैं, क्योंकि किसी शब्द का अर्थ या उसे इस्तेमाल करने की जगह अलग-अलग भाषाओं में अलग-अलग होती है. हो सकता है जो शब्द एक भाषा में समस्या वाला हो वही दूसरी भाषा में न हो.

सोशल मीडिया पर समस्याग्रस्त भाषा की पहचान करने से जुड़े, CIS के प्रोजेक्ट की शुरुआत अंग्रेजी भाषा के डेटासेट पर काम करने से शुरू हुई. इसके आधार पर भविष्य में एनोटेटर्स (व्याख्याकारों) के काम करने के लिए गाइडलाइन्स का एक सेट बनाया गया.

ADVERTISEMENT
ADVERTISEMENT

प्रोजेक्ट पर काम करने वाले एक रिसर्चर ने क्विंट को बताया, ''हमारे पास गाइडलाइन्स से जुड़ा एक सेट था और हमारे पास एनोटेटर्स का एक ग्रुप है. हर भाषा के लिए 6 एनोटेटर्स हैं और उनका काम है कि वो अपने अनुभव से और हमारी गाइडलाइन के मुताबिक, ये बताएं कि कौन सी पोस्ट ठीक नहीं है.''

एक समस्या जिसका उन्हें सामना करना पड़ा वो थी इंग्लिश के कुछ खास अपशब्द या अस्पष्ट उच्चारण वाले शब्दों का इस्तेमाल. इनका हिंदी में अनुवाद करने पर उनका गलत मतलब निकला. इसलिए, एनोटेटर्स को लगा कि ऐसे शब्दों को सोशल मीडिया पर नहीं होना चाहिए.

जहां इंग्लिश एनोटेटर्स के पास अपने विवेक के आधार पर ये चुनने की स्वतंत्रता थी कि कौन सी पोस्ट ठीक है और कौन सी नहीं. वहीं, ये हिंदी जैसी दूसरी भाषाओं के मॉडरेटर पर लागू नहीं होता.

इसी तरह, ट्रांसलिटरेटेड भाषा (जैसे हिंदी वर्ड्स को रोमन में लिखा जाए), उदाहरण के लिए 'शांतिदूत' (peace messenger) को 'shantidoot' लिखना. इस तरह से लिखकर, खास भाषा के डेटासेट पर बने टूल्स की पकड़ में आने से बचने के लिए किया जाता है.

ट्रांसलिटरेटेड शब्द का इस्तेमाल कर शेयर किया गया पोस्ट

(सोर्स: स्क्रीनशॉट/ट्विटर)

ओला ऊबर जैसे शब्दों का इस्तेमाल इशारे के लिए किया गया है

(सोर्स: स्क्रीनशॉट/ट्विटर)

इस स्क्रीनशॉट में ‘Ola’ और ‘Uber’ का इस्तेमाल किया गया है, जो भारत में टैक्सी सर्विस के लिए इस्तेमाल होने वाले ऐप्लिकेशन हैं, लेकिन दरअसल यहां पर इसे 'अल्लाहु अकबर' (अल्लाह सबसे महान है) की ओर इशारा करते हुए लिखा गया है. ये एक अरबी भाषा में बोला जाने वाला वाक्य है जिसे दुनियाभर में उर्दू और अरबी भाषी लोग बोलते हैं.

खासकर इंग्लिश में काम करने वाला मॉडरेटर यहां पर इन शब्दों के जरिए किए जा रहे इशारों की पहचान नहीं कर पाएगा, क्योंकि उसे तो ये शब्द सामान्य इंग्लिश में बोले जाने वाले शब्द ही लगेंगे.

Logically के आयुष्मान कौल ने हमें "जातीयता और भाषाओं की विविधता के साथ-साथ सामग्री की भारी मात्रा" की वजह से इस समस्या की जटिलता को लेकर बताया कि, ''एल्गोरिदम का लगातार अपडेट होना और उसमें बदलाव होना जरूरी है, ताकि देश में चरमपंथी या सांप्रदायिक मामलों को ट्रैक किया जा सके.''

तो इससे निपटने का क्या है तरीका?

समस्या का तुरंत जवाब ये होगा कि जिस तरह से ऑटोमेटेड सिस्टम तैयार किया जाता है, उसमें बदलाव किया जाए और प्लेटफॉर्म्स को ऐसे लोगों को काम पर रखना चाहिए जो अलग-अलग भाषाओं को जानते हों.

रिसर्चर ने बताया कि CIS का जो अप्रोच है, ऐसा नहीं है कि उसमें समस्याएं नहीं है. लेकिन फिर भी ये टेक कंपनी ऐसे कदम नहीं उठा रही.

IFF के गुप्ता ने कहा, "मैं कहूंगा कि जो समस्याएं सामने आई हैं उन्हें लेकर सिलिकॉन वैली की कंपनीज ने वो नहीं किया है जो वो हेट स्पीच के स्पष्ट उदाहरणों पर कर सकती हैं. और ऐसा जांच से पता चला है.''

Meta ने क्विंट को दिए जवाब में कहा, कि कंपनी ने 'सेफ्टी और सिक्योरिटी' बढ़ाने के लिए 16 मिलियन डॉलर का निवेश किया है. लेकिन, The New York Times पर 2021 में पब्लिश एक रिपोर्ट से पता चलता है कि भारत में कंपनी का खर्च बहुत कम है, जबकि ये उनका बहुत बड़ा बाजार है.

समय, संसाधन और मैनपावर में कमी होने के बावजूद, इंडिपेंडेंट ऑर्गनाइजेशन्स ने बहुभाषी सिस्टम की सख्त जरूरत को उजागर करने का काम किया है.

''बेशक इशारे में बोली गई बात, हेट केसेज और कोड वर्ड में किया गया भाषा का इस्तेमाल, उसके संदर्भ की वजह से एक समस्या है'' लेकिन गुप्ता कहते हैं कि प्लेटफॉर्म ''ऑर्गनाइज्ड तरीके से चलाए जा रहे इस नेटवर्क के खात्मे को लेकर कम से कम जरूरी कार्रवाई'' भी नहीं कर रहे हैं. इस वजह से ज्यादा ताकतवर संस्थाएं या लोग बड़े लेवल पर नैरेटिव बनाकर सांप्रदायिक सद्भाव को कमजोर कर रहे हैं.

कौल ने इस बात पर भी जोर दिया कि ऐसे इंसानी मॉडरेटर्स पर बड़े स्तर पर निवेश करने की जरूरत है, जिन्हें सोशियो-कल्चरल संदर्भों की बारीकी की समझ हो.

कौल लिखते हैं, ''इस समस्या का कोई सटीक और साधारण समाधान नहीं है.'' वो आगे कहते हैं कि लोगों को 'इस तरह के कंटेंट को लेकर पूरी तरह से कम संवेदनशील बनाने के लिए जरूरी है कि सोशल मीडिया प्लेटफॉर्म पर सामाजिक स्तर पर, मेजबान देशों के नियामक और न्यायिक निकायों, स्वतंत्र और मजबूत मीडिया के साथ-साथ सिविल सोसायटी की ओर से साथ में प्रयास किए जाएं.''

ज्यादातर एक्सपर्ट इस बात से सहमत हैं कि प्लेटफॉर्म्स के पास ये संसाधन हैं, लेकिन वो अपने कंटेंट के लिए 'सभी के लिए एक' जैसी अप्रोच रखते हैं. इसलिए, ये काम नहीं करता.

अलग-अलग समुदायों की ओर से फेस की जाने वाली छोटी समस्याओं से निपटने के लिए, बेहतर मॉडरेशन अप्रोच (जिसे सोशल मीडिया प्लेटफॉर्म फॉलो करते हैं) और बहुत छोटी और कम अच्छी मॉडरेशन अप्रोच के बीच एक बहस मौजूद है.

हालांकि, ये तरीके धीरे-धीरे नफरत भरी भाषा वाले कंटेंट को ऑनलाइन रहने और उसे हटाने के बीच के समय को कम कर देंगे. यानी ऐसा आपत्तिजनक कंटेंट कम समय में ही हटा दिया जाएगा. प्रभाकर कहते हैं कि पूरी सक्रियता से ऐसे कंटेंट को हटाने के लिए, ऐसा कोई तरीका नहीं है.

IFF के गुप्ता ने सांप्रदायिक सद्भाव बनाए रखने की पूरी जिम्मेदारी राज्य की बताते हुए, विस्तार से बताया कि ऐसे प्लेटफॉर्म्स जो लोगों को संगठित होने (कंटेंट को बढ़ाने और पोस्ट करने और नैरेटिव सेट करने से जुड़े मामले में) और कोऑर्डिनेटेट तरीके से व्यवहार करने से जुड़े फीचर रखते हैं, वो इसे कम करने या इसे बढ़ाने से जुड़े कदम उठा सकते हैं.

यूजर्स, मॉडरेटर्स और सोशल मीडिया प्लेटफॉर्म टीम और संसाधनों के बीच एक सहयोगात्मक प्रयास ये पक्का करने का आदर्श तरीका है कि आने वाले सालों में हमारे बीच मौजूद सोशल मीडिया अपने सभी यूजर्स के लिए एक बेहतर जगह के तौर पर विकसित हो.

(अगर आपके पास भी ऐसी कोई जानकारी आती है, जिसके सच होने पर आपको शक है, तो पड़ताल के लिए हमारे वॉट्सऐप नंबर 9643651818 या फिर मेल आइडी webqoof@thequint.com पर भेजें. सच हम आपको बताएंगे. हमारी बाकी फैक्ट चेक स्टोरीज आप यहां पढ़ सकते हैं )

(हैलो दोस्तों! हमारे Telegram चैनल से जुड़े रहिए यहां)

Published: undefined

Read More
ADVERTISEMENT
SCROLL FOR NEXT