देशभर में हाल में कई सांप्रदायिक घटनाएं (Communal Incidents) हुई, जिन्हें लेकर ऑनलाइन चर्चा बढ़ी है. यूजर्स इन घटनाओं से जुड़ी जानकारी अलग-अलग क्षेत्रीय भाषाओं में शेयर कर रहे हैं.
इन मुद्दों को लेकर जो पोस्ट की गईं, उनमें से एक बड़ा हिस्सा ऐसी पोस्ट का है जिनमें गलत सूचना (Misinformation) और हेट स्पीच (Hate Speech) शामिल हैं. इनमें अपशब्दों और अपमानजनक भाषा का इस्तेमाल कर अल्पसंख्यक समुदाय को टारगेट किया गया.
हालांकि, इस तरह के कंटेंट के बड़े हिस्से का इस्तेमाल, चाहे वो टेक्स्ट, फोटो या वीडियो के फॉर्म में हो, समुदायों को टारगेट करने के लिए किया जाता है. ऐसा करने के लिए, किसी खास कोडवर्ड या घुमा फिराकर बोले जाने वाले शब्दों का इस्तेमाल किया जाता है.
इन पोस्ट में ऐसी भाषा का इस्तेमाल किया जाता है जो प्लेटफॉर्म की नीतियों का उल्लंघन करती हैं, उसके बावजूद इन्हें हटाया नहीं जाता. इसलिए ऐसी पोस्ट पर इंगेजमेंट बढ़ता रहता है. और इसी वजह से इस तरह के कंटेट को बढ़ावा मिलता है.
इस आर्टिकल में हम बात करेंगे:
कैसे सांप्रदायिक भाषा फैक्ट चेकर्स, मॉडरेटर्स और ऑटोमेटेड टूल्स के लिए चुनौती पैदा करती है.
क्या सोशल मीडिया प्लेटफॉर्म पर इंसानों और एआई यानी आर्टिफिशियल इंटेलीजेंस के साथ मिलकर किए गए प्रयासों से इन पर काबू पाया जा सकता है?
स्लैंग, अस्पष्ट उच्चारण वाले शब्द: हेटफुल कंटेट को ट्रैक करने पर आने वाली मानवीय चुनौतियां
भारत में मॉडरेटर्स और फैक्ट चेकर्स के बढ़ते नेटवर्क के बावजूद, अपशब्द, गलत उच्चारण वाले शब्दों और अपमानजनक शब्दों का इस्तेमाल होने की वजह से ऐसा कंटेंट उनकी नजरों से बच जाता है.
इसका एक उदाहरण देखते हैं. दिल्ली के नरायणा में एक शख्स की हत्या से जुड़ा दावा सोशल मीडिया पर वायरल हुआ. हत्या को झूठे सांप्रदायिक एंगल से शेयर किया गया. हमने देखा कि दावे से जुड़े पोस्ट में कुछ खास तरह के शब्द इस्तेमाल किए गए थे. यूजर्स ने इस हत्या के लिए मुस्लिम समुदाय को दोषी ठहराते हुए ‘‘Izlam’,’Muzlims’ और ‘j!hadists’ जैसे शब्दों का इस्तेमाल किया.
ये उन फैक्ट चेकर्स, मॉडरेटर्स और जर्नलिस्ट के लिए एक चुनौती भरा काम है, जो हर रोज ऐसी भड़काऊ सामग्री पर नजर रख रहे हैं. लेकिन, एक्सपर्ट्स का मानना है कि ऑटोमेटेड टेक्नॉलजी टूल्स का इस्तेमाल ऐसी नफरती भाषा और पोस्ट को ट्रैक करने के लिए किया जा सकता है.
Tattle की रिसर्च लीड तरुणिमा प्रभाकर ने क्विंट से बातचीत में बताया कि सोशल मीडिया प्लेटफॉर्म को मॉडरेट करने वाले टेक टूल्स से शब्दों के अनुमानित मिलान को ट्रैक करना संभव है. बता दें कि Tattle टेक्नॉलजिस्ट, रिसर्चर्स, जर्नलिस्ट और आर्टिस्ट का एक समूह है जो मिसइनफॉर्मेशन से निपटने के लिए टूल्स बनाते हैं.
अगर आपके पास ''स्लर लिस्ट'' (ऐसे शब्दों की लिस्ट जो अस्पष्ट तरीके से उच्चारित किए जाते हैं) जिन्हें हम क्राउड सोर्सिंग कर रहे हैं, तो आपको एक अनुमानित मिलान और एक जैसे शब्दों को देखने में सक्षम होना चाहिए. लेकिन, इसकी सीमाएं हैं. कोई टेक्स्ट के बजाय किसी खास सिंबल का इस्तेमाल करता है, जिससे प्लेटफॉर्म को समझ न आए और वो उसे डिटेक्ट न कर पाए.तरुणिमा प्रभाकर, Tattle में रिसर्च लीड
उन्होंने कहा कि हालांकि ये ''चूहे-बिल्ली'' के खेल की तरह होगा, लेकिन प्लेटफॉर्म्स के लिए ये मुमकिन है कि वो अपने यूजर्स के पोस्ट में इस्तेमाल किए गए शब्दों की भिन्नता को डिटेक्ट कर पाएं और उसे मॉडरेटर्स को फ्लैग कर पाएं.
सांप्रदायिक शब्दों का इस्तेमाल होने पर संदर्भ हो जाता है अहम
कई सांप्रदायिक दावों में, हमें ऐसे शब्द दिखते हैं जो देखने पर तो आपत्तिजनक नहीं लगते, लेकिन समुदायों को टारगेट करने के लिए इस्तेमाल किया जाते हैं. उदाहरण के लिए: मुस्लिम कहने के बजाय, उन्हें 'अब्दुल', 'शांतिदूत' कहा जाता है.
(नोट: 'अब्दुल' नाम के इस्तेमाल से जुड़े पोस्ट देखने के लिए दाएं स्वाइप करें)
अब इस मामले में, मानव और टेक्नॉलजिकल मॉडरेशन, दोनों के लिए संदर्भ की जरूरत होगी.
प्रभाकर कहती हैं, ''संदर्भ का पता लगाने के लिए, आपको संदर्भ को लेबल करने के लिए सच में किसी की जरूरत होगी. आपको डेटा के ऐसे उदाहरणों की जरूरत होगी जहां इसे कंटेंट में समस्या होने या नहीं होने के उदाहरणों के तौर पर लेबल किया गया हो. प्रभाकर आगे कहती हैं कि ये आसान नहीं है, क्योंकि ऐसा हो सकता है कि लोग कंटेंट में समस्या होने या नहीं होने पर असहमत हों.
उदाहरण के लिए, अगर डेवलपर उत्पीड़न का शिकार नहीं हुआ है, तो उसे इस बात का अंदाजा नहीं लग पाता कि जिन्हें इसका शिकार होना पड़ा है उन पर किस चीज का बुरा असर पड़ सकता है. ऐसे में डेवलपर का ऐसे आपत्तिजनक कंटेंट को कोड करने का तरीका बहुत अलग होगा.
संदर्भ आधारित पोस्ट का एक और उदाहरण यहां देखा जा सकता है, जहां 2019 की एक फोटो को हाल में हुई दिल्ली के जहांगीरपुर हिंसा से जोड़कर शेयर किया गया था.
एक दूसरी पोस्ट, जिसमें एक टोपी पहने शख्स जमीन पर पड़े एक पुलिसकर्मी पर पत्थर मारते दिख रहा है, को 'peacefuls' टेक्स्ट के साथ शेयर किया गया. इस शब्द को अक्सर इस्लाम को 'शांति का धर्म' बताकर व्यंग्यात्मक तरीके से इस्तेमाल किया जाता है.
इंटरनेट फ़्रीडम फ़ाउंडेशन (IFF) के अपार गुप्ता के मुताबिक, नफरती भाषा सिर्फ तब पैदा नहीं होती जब व्यंग्यात्मक तरीके से इशारे करने वाले शब्द या कोड वर्ड्स का इस्तेमाल किया जाता है, बल्कि, तब भी होती है जब ''कुछ धार्मिक या जाति आधारित प्रथाओं की आलोचना बड़े स्तर पर की जाती है. इस वजह से इन समूहों के खिलाफ हिंसा का वातावरण बनता है.''
उदाहरण के लिए हलाल की प्रथा का अर्थ अलग-अलग तरीकों से बताया गया. इस वजह से, मुस्लिम स्वामित्व वाले बिजनेसेज के आर्थिक बहिष्कार के बारे में बोला जाने लगा.
ढेर सारी भाषाओं से बढ़ी चुनौती
जब भारत में भाषाओं की भिन्नता की बात आती है, तो संदर्भ और स्लैंग (अशिष्ट भाषा) से जुड़ी समस्या और बढ़ जाती है. सेंटर फॉर इंटरनेट एंड सिक्योरिटी (CIS) में अलग-अलग भाषाओं में एनोटेटर्स (जो किसी भाषा से जुड़े शब्दों को डॉक्युमेंटेशन करते हैं) हैं. लेकिन ये एनोटेटर्स भी इसी समस्या का सामना करते हैं, क्योंकि किसी शब्द का अर्थ या उसे इस्तेमाल करने की जगह अलग-अलग भाषाओं में अलग-अलग होती है. हो सकता है जो शब्द एक भाषा में समस्या वाला हो वही दूसरी भाषा में न हो.
सोशल मीडिया पर समस्याग्रस्त भाषा की पहचान करने से जुड़े, CIS के प्रोजेक्ट की शुरुआत अंग्रेजी भाषा के डेटासेट पर काम करने से शुरू हुई. इसके आधार पर भविष्य में एनोटेटर्स (व्याख्याकारों) के काम करने के लिए गाइडलाइन्स का एक सेट बनाया गया.
प्रोजेक्ट पर काम करने वाले एक रिसर्चर ने क्विंट को बताया, ''हमारे पास गाइडलाइन्स से जुड़ा एक सेट था और हमारे पास एनोटेटर्स का एक ग्रुप है. हर भाषा के लिए 6 एनोटेटर्स हैं और उनका काम है कि वो अपने अनुभव से और हमारी गाइडलाइन के मुताबिक, ये बताएं कि कौन सी पोस्ट ठीक नहीं है.''
एक समस्या जिसका उन्हें सामना करना पड़ा वो थी इंग्लिश के कुछ खास अपशब्द या अस्पष्ट उच्चारण वाले शब्दों का इस्तेमाल. इनका हिंदी में अनुवाद करने पर उनका गलत मतलब निकला. इसलिए, एनोटेटर्स को लगा कि ऐसे शब्दों को सोशल मीडिया पर नहीं होना चाहिए.
जहां इंग्लिश एनोटेटर्स के पास अपने विवेक के आधार पर ये चुनने की स्वतंत्रता थी कि कौन सी पोस्ट ठीक है और कौन सी नहीं. वहीं, ये हिंदी जैसी दूसरी भाषाओं के मॉडरेटर पर लागू नहीं होता.
इसी तरह, ट्रांसलिटरेटेड भाषा (जैसे हिंदी वर्ड्स को रोमन में लिखा जाए), उदाहरण के लिए 'शांतिदूत' (peace messenger) को 'shantidoot' लिखना. इस तरह से लिखकर, खास भाषा के डेटासेट पर बने टूल्स की पकड़ में आने से बचने के लिए किया जाता है.
इस स्क्रीनशॉट में ‘Ola’ और ‘Uber’ का इस्तेमाल किया गया है, जो भारत में टैक्सी सर्विस के लिए इस्तेमाल होने वाले ऐप्लिकेशन हैं, लेकिन दरअसल यहां पर इसे 'अल्लाहु अकबर' (अल्लाह सबसे महान है) की ओर इशारा करते हुए लिखा गया है. ये एक अरबी भाषा में बोला जाने वाला वाक्य है जिसे दुनियाभर में उर्दू और अरबी भाषी लोग बोलते हैं.
खासकर इंग्लिश में काम करने वाला मॉडरेटर यहां पर इन शब्दों के जरिए किए जा रहे इशारों की पहचान नहीं कर पाएगा, क्योंकि उसे तो ये शब्द सामान्य इंग्लिश में बोले जाने वाले शब्द ही लगेंगे.
Logically के आयुष्मान कौल ने हमें "जातीयता और भाषाओं की विविधता के साथ-साथ सामग्री की भारी मात्रा" की वजह से इस समस्या की जटिलता को लेकर बताया कि, ''एल्गोरिदम का लगातार अपडेट होना और उसमें बदलाव होना जरूरी है, ताकि देश में चरमपंथी या सांप्रदायिक मामलों को ट्रैक किया जा सके.''
तो इससे निपटने का क्या है तरीका?
समस्या का तुरंत जवाब ये होगा कि जिस तरह से ऑटोमेटेड सिस्टम तैयार किया जाता है, उसमें बदलाव किया जाए और प्लेटफॉर्म्स को ऐसे लोगों को काम पर रखना चाहिए जो अलग-अलग भाषाओं को जानते हों.
रिसर्चर ने बताया कि CIS का जो अप्रोच है, ऐसा नहीं है कि उसमें समस्याएं नहीं है. लेकिन फिर भी ये टेक कंपनी ऐसे कदम नहीं उठा रही.
IFF के गुप्ता ने कहा, "मैं कहूंगा कि जो समस्याएं सामने आई हैं उन्हें लेकर सिलिकॉन वैली की कंपनीज ने वो नहीं किया है जो वो हेट स्पीच के स्पष्ट उदाहरणों पर कर सकती हैं. और ऐसा जांच से पता चला है.''
Meta ने क्विंट को दिए जवाब में कहा, कि कंपनी ने 'सेफ्टी और सिक्योरिटी' बढ़ाने के लिए 16 मिलियन डॉलर का निवेश किया है. लेकिन, The New York Times पर 2021 में पब्लिश एक रिपोर्ट से पता चलता है कि भारत में कंपनी का खर्च बहुत कम है, जबकि ये उनका बहुत बड़ा बाजार है.
समय, संसाधन और मैनपावर में कमी होने के बावजूद, इंडिपेंडेंट ऑर्गनाइजेशन्स ने बहुभाषी सिस्टम की सख्त जरूरत को उजागर करने का काम किया है.
''बेशक इशारे में बोली गई बात, हेट केसेज और कोड वर्ड में किया गया भाषा का इस्तेमाल, उसके संदर्भ की वजह से एक समस्या है'' लेकिन गुप्ता कहते हैं कि प्लेटफॉर्म ''ऑर्गनाइज्ड तरीके से चलाए जा रहे इस नेटवर्क के खात्मे को लेकर कम से कम जरूरी कार्रवाई'' भी नहीं कर रहे हैं. इस वजह से ज्यादा ताकतवर संस्थाएं या लोग बड़े लेवल पर नैरेटिव बनाकर सांप्रदायिक सद्भाव को कमजोर कर रहे हैं.
कौल ने इस बात पर भी जोर दिया कि ऐसे इंसानी मॉडरेटर्स पर बड़े स्तर पर निवेश करने की जरूरत है, जिन्हें सोशियो-कल्चरल संदर्भों की बारीकी की समझ हो.
कौल लिखते हैं, ''इस समस्या का कोई सटीक और साधारण समाधान नहीं है.'' वो आगे कहते हैं कि लोगों को 'इस तरह के कंटेंट को लेकर पूरी तरह से कम संवेदनशील बनाने के लिए जरूरी है कि सोशल मीडिया प्लेटफॉर्म पर सामाजिक स्तर पर, मेजबान देशों के नियामक और न्यायिक निकायों, स्वतंत्र और मजबूत मीडिया के साथ-साथ सिविल सोसायटी की ओर से साथ में प्रयास किए जाएं.''
ज्यादातर एक्सपर्ट इस बात से सहमत हैं कि प्लेटफॉर्म्स के पास ये संसाधन हैं, लेकिन वो अपने कंटेंट के लिए 'सभी के लिए एक' जैसी अप्रोच रखते हैं. इसलिए, ये काम नहीं करता.
अलग-अलग समुदायों की ओर से फेस की जाने वाली छोटी समस्याओं से निपटने के लिए, बेहतर मॉडरेशन अप्रोच (जिसे सोशल मीडिया प्लेटफॉर्म फॉलो करते हैं) और बहुत छोटी और कम अच्छी मॉडरेशन अप्रोच के बीच एक बहस मौजूद है.
हालांकि, ये तरीके धीरे-धीरे नफरत भरी भाषा वाले कंटेंट को ऑनलाइन रहने और उसे हटाने के बीच के समय को कम कर देंगे. यानी ऐसा आपत्तिजनक कंटेंट कम समय में ही हटा दिया जाएगा. प्रभाकर कहते हैं कि पूरी सक्रियता से ऐसे कंटेंट को हटाने के लिए, ऐसा कोई तरीका नहीं है.
IFF के गुप्ता ने सांप्रदायिक सद्भाव बनाए रखने की पूरी जिम्मेदारी राज्य की बताते हुए, विस्तार से बताया कि ऐसे प्लेटफॉर्म्स जो लोगों को संगठित होने (कंटेंट को बढ़ाने और पोस्ट करने और नैरेटिव सेट करने से जुड़े मामले में) और कोऑर्डिनेटेट तरीके से व्यवहार करने से जुड़े फीचर रखते हैं, वो इसे कम करने या इसे बढ़ाने से जुड़े कदम उठा सकते हैं.
यूजर्स, मॉडरेटर्स और सोशल मीडिया प्लेटफॉर्म टीम और संसाधनों के बीच एक सहयोगात्मक प्रयास ये पक्का करने का आदर्श तरीका है कि आने वाले सालों में हमारे बीच मौजूद सोशल मीडिया अपने सभी यूजर्स के लिए एक बेहतर जगह के तौर पर विकसित हो.
(अगर आपके पास भी ऐसी कोई जानकारी आती है, जिसके सच होने पर आपको शक है, तो पड़ताल के लिए हमारे वॉट्सऐप नंबर 9643651818 या फिर मेल आइडी webqoof@thequint.com पर भेजें. सच हम आपको बताएंगे. हमारी बाकी फैक्ट चेक स्टोरीज आप यहां पढ़ सकते हैं )
(क्विंट हिन्दी, हर मुद्दे पर बनता आपकी आवाज, करता है सवाल. आज ही मेंबर बनें और हमारी पत्रकारिता को आकार देने में सक्रिय भूमिका निभाएं.)