Method to stop Hate Language on Social Media।ऑनलाइन नफरत फैलाने के लिए अपनाये जा रहे नए तरीके, इंसान-मशीन को मिलाना होगा हाथ। New methods are being adopted to spread hatred online

देशभर में हाल में कई सांप्रदायिक घटनाएं (Communal Incidents) हुई, जिन्हें लेकर ऑनलाइन चर्चा बढ़ी है. यूजर्स इन घटनाओं से जुड़ी जानकारी अलग-अलग क्षेत्रीय भाषाओं में शेयर कर रहे हैं.

इन मुद्दों को लेकर जो पोस्ट की गईं, उनमें से एक बड़ा हिस्सा ऐसी पोस्ट का है जिनमें गलत सूचना (Misinformation) और हेट स्पीच (Hate Speech) शामिल हैं. इनमें अपशब्दों और अपमानजनक भाषा का इस्तेमाल कर अल्पसंख्यक समुदाय को टारगेट किया गया.

ADVERTISEMENTREMOVE AD

हालांकि, इस तरह के कंटेंट के बड़े हिस्से का इस्तेमाल, चाहे वो टेक्स्ट, फोटो या वीडियो के फॉर्म में हो, समुदायों को टारगेट करने के लिए किया जाता है. ऐसा करने के लिए, किसी खास कोडवर्ड या घुमा फिराकर बोले जाने वाले शब्दों का इस्तेमाल किया जाता है.

इन पोस्ट में ऐसी भाषा का इस्तेमाल किया जाता है जो प्लेटफॉर्म की नीतियों का उल्लंघन करती हैं, उसके बावजूद इन्हें हटाया नहीं जाता. इसलिए ऐसी पोस्ट पर इंगेजमेंट बढ़ता रहता है. और इसी वजह से इस तरह के कंटेट को बढ़ावा मिलता है.

इस आर्टिकल में हम बात करेंगे:

कैसे सांप्रदायिक भाषा फैक्ट चेकर्स, मॉडरेटर्स और ऑटोमेटेड टूल्स के लिए चुनौती पैदा करती है.
क्या सोशल मीडिया प्लेटफॉर्म पर इंसानों और एआई यानी आर्टिफिशियल इंटेलीजेंस के साथ मिलकर किए गए प्रयासों से इन पर काबू पाया जा सकता है?

स्लैंग, अस्पष्ट उच्चारण वाले शब्द: हेटफुल कंटेट को ट्रैक करने पर आने वाली मानवीय चुनौतियां

भारत में मॉडरेटर्स और फैक्ट चेकर्स के बढ़ते नेटवर्क के बावजूद, अपशब्द, गलत उच्चारण वाले शब्दों और अपमानजनक शब्दों का इस्तेमाल होने की वजह से ऐसा कंटेंट उनकी नजरों से बच जाता है.

इसका एक उदाहरण देखते हैं. दिल्ली के नरायणा में एक शख्स की हत्या से जुड़ा दावा सोशल मीडिया पर वायरल हुआ. हत्या को झूठे सांप्रदायिक एंगल से शेयर किया गया. हमने देखा कि दावे से जुड़े पोस्ट में कुछ खास तरह के शब्द इस्तेमाल किए गए थे. यूजर्स ने इस हत्या के लिए मुस्लिम समुदाय को दोषी ठहराते हुए ‘‘Izlam’,’Muzlims’ और ‘j!hadists’ जैसे शब्दों का इस्तेमाल किया.

ये उन फैक्ट चेकर्स, मॉडरेटर्स और जर्नलिस्ट के लिए एक चुनौती भरा काम है, जो हर रोज ऐसी भड़काऊ सामग्री पर नजर रख रहे हैं. लेकिन, एक्सपर्ट्स का मानना है कि ऑटोमेटेड टेक्नॉलजी टूल्स का इस्तेमाल ऐसी नफरती भाषा और पोस्ट को ट्रैक करने के लिए किया जा सकता है.

ADVERTISEMENTREMOVE AD

Tattle की रिसर्च लीड तरुणिमा प्रभाकर ने क्विंट से बातचीत में बताया कि सोशल मीडिया प्लेटफॉर्म को मॉडरेट करने वाले टेक टूल्स से शब्दों के अनुमानित मिलान को ट्रैक करना संभव है. बता दें कि Tattle टेक्नॉलजिस्ट, रिसर्चर्स, जर्नलिस्ट और आर्टिस्ट का एक समूह है जो मिसइनफॉर्मेशन से निपटने के लिए टूल्स बनाते हैं.

अगर आपके पास ''स्लर लिस्ट'' (ऐसे शब्दों की लिस्ट जो अस्पष्ट तरीके से उच्चारित किए जाते हैं) जिन्हें हम क्राउड सोर्सिंग कर रहे हैं, तो आपको एक अनुमानित मिलान और एक जैसे शब्दों को देखने में सक्षम होना चाहिए. लेकिन, इसकी सीमाएं हैं. कोई टेक्स्ट के बजाय किसी खास सिंबल का इस्तेमाल करता है, जिससे प्लेटफॉर्म को समझ न आए और वो उसे डिटेक्ट न कर पाए.

तरुणिमा प्रभाकर, Tattle में रिसर्च लीड

उन्होंने कहा कि हालांकि ये ''चूहे-बिल्ली'' के खेल की तरह होगा, लेकिन प्लेटफॉर्म्स के लिए ये मुमकिन है कि वो अपने यूजर्स के पोस्ट में इस्तेमाल किए गए शब्दों की भिन्नता को डिटेक्ट कर पाएं और उसे मॉडरेटर्स को फ्लैग कर पाएं.

ADVERTISEMENTREMOVE AD

सांप्रदायिक शब्दों का इस्तेमाल होने पर संदर्भ हो जाता है अहम

कई सांप्रदायिक दावों में, हमें ऐसे शब्द दिखते हैं जो देखने पर तो आपत्तिजनक नहीं लगते, लेकिन समुदायों को टारगेट करने के लिए इस्तेमाल किया जाते हैं. उदाहरण के लिए: मुस्लिम कहने के बजाय, उन्हें 'अब्दुल', 'शांतिदूत' कहा जाता है.

(नोट: 'अब्दुल' नाम के इस्तेमाल से जुड़े पोस्ट देखने के लिए दाएं स्वाइप करें)

'अब्दुल', 'शांतिदूत' जैसे शब्दों का इस्तेमाल

(फोटो: ट्विटर)

अब इस मामले में, मानव और टेक्नॉलजिकल मॉडरेशन, दोनों के लिए संदर्भ की जरूरत होगी.

प्रभाकर कहती हैं, ''संदर्भ का पता लगाने के लिए, आपको संदर्भ को लेबल करने के लिए सच में किसी की जरूरत होगी. आपको डेटा के ऐसे उदाहरणों की जरूरत होगी जहां इसे कंटेंट में समस्या होने या नहीं होने के उदाहरणों के तौर पर लेबल किया गया हो. प्रभाकर आगे कहती हैं कि ये आसान नहीं है, क्योंकि ऐसा हो सकता है कि लोग कंटेंट में समस्या होने या नहीं होने पर असहमत हों.

ADVERTISEMENTREMOVE AD

उदाहरण के लिए, अगर डेवलपर उत्पीड़न का शिकार नहीं हुआ है, तो उसे इस बात का अंदाजा नहीं लग पाता कि जिन्हें इसका शिकार होना पड़ा है उन पर किस चीज का बुरा असर पड़ सकता है. ऐसे में डेवलपर का ऐसे आपत्तिजनक कंटेंट को कोड करने का तरीका बहुत अलग होगा.

संदर्भ आधारित पोस्ट का एक और उदाहरण यहां देखा जा सकता है, जहां 2019 की एक फोटो को हाल में हुई दिल्ली के जहांगीरपुर हिंसा से जोड़कर शेयर किया गया था.

ADVERTISEMENTREMOVE AD

एक दूसरी पोस्ट, जिसमें एक टोपी पहने शख्स जमीन पर पड़े एक पुलिसकर्मी पर पत्थर मारते दिख रहा है, को 'peacefuls' टेक्स्ट के साथ शेयर किया गया. इस शब्द को अक्सर इस्लाम को 'शांति का धर्म' बताकर व्यंग्यात्मक तरीके से इस्तेमाल किया जाता है.

इंटरनेट फ़्रीडम फ़ाउंडेशन (IFF) के अपार गुप्ता के मुताबिक, नफरती भाषा सिर्फ तब पैदा नहीं होती जब व्यंग्यात्मक तरीके से इशारे करने वाले शब्द या कोड वर्ड्स का इस्तेमाल किया जाता है, बल्कि, तब भी होती है जब ''कुछ धार्मिक या जाति आधारित प्रथाओं की आलोचना बड़े स्तर पर की जाती है. इस वजह से इन समूहों के खिलाफ हिंसा का वातावरण बनता है.''

उदाहरण के लिए हलाल की प्रथा का अर्थ अलग-अलग तरीकों से बताया गया. इस वजह से, मुस्लिम स्वामित्व वाले बिजनेसेज के आर्थिक बहिष्कार के बारे में बोला जाने लगा.

ADVERTISEMENTREMOVE AD

ढेर सारी भाषाओं से बढ़ी चुनौती

जब भारत में भाषाओं की भिन्नता की बात आती है, तो संदर्भ और स्लैंग (अशिष्ट भाषा) से जुड़ी समस्या और बढ़ जाती है. सेंटर फॉर इंटरनेट एंड सिक्योरिटी (CIS) में अलग-अलग भाषाओं में एनोटेटर्स (जो किसी भाषा से जुड़े शब्दों को डॉक्युमेंटेशन करते हैं) हैं. लेकिन ये एनोटेटर्स भी इसी समस्या का सामना करते हैं, क्योंकि किसी शब्द का अर्थ या उसे इस्तेमाल करने की जगह अलग-अलग भाषाओं में अलग-अलग होती है. हो सकता है जो शब्द एक भाषा में समस्या वाला हो वही दूसरी भाषा में न हो.

सोशल मीडिया पर समस्याग्रस्त भाषा की पहचान करने से जुड़े, CIS के प्रोजेक्ट की शुरुआत अंग्रेजी भाषा के डेटासेट पर काम करने से शुरू हुई. इसके आधार पर भविष्य में एनोटेटर्स (व्याख्याकारों) के काम करने के लिए गाइडलाइन्स का एक सेट बनाया गया.

ADVERTISEMENTREMOVE AD

प्रोजेक्ट पर काम करने वाले एक रिसर्चर ने क्विंट को बताया, ''हमारे पास गाइडलाइन्स से जुड़ा एक सेट था और हमारे पास एनोटेटर्स का एक ग्रुप है. हर भाषा के लिए 6 एनोटेटर्स हैं और उनका काम है कि वो अपने अनुभव से और हमारी गाइडलाइन के मुताबिक, ये बताएं कि कौन सी पोस्ट ठीक नहीं है.''

एक समस्या जिसका उन्हें सामना करना पड़ा वो थी इंग्लिश के कुछ खास अपशब्द या अस्पष्ट उच्चारण वाले शब्दों का इस्तेमाल. इनका हिंदी में अनुवाद करने पर उनका गलत मतलब निकला. इसलिए, एनोटेटर्स को लगा कि ऐसे शब्दों को सोशल मीडिया पर नहीं होना चाहिए.

जहां इंग्लिश एनोटेटर्स के पास अपने विवेक के आधार पर ये चुनने की स्वतंत्रता थी कि कौन सी पोस्ट ठीक है और कौन सी नहीं. वहीं, ये हिंदी जैसी दूसरी भाषाओं के मॉडरेटर पर लागू नहीं होता.

ADVERTISEMENTREMOVE AD

इसी तरह, ट्रांसलिटरेटेड भाषा (जैसे हिंदी वर्ड्स को रोमन में लिखा जाए), उदाहरण के लिए 'शांतिदूत' (peace messenger) को 'shantidoot' लिखना. इस तरह से लिखकर, खास भाषा के डेटासेट पर बने टूल्स की पकड़ में आने से बचने के लिए किया जाता है.

इस स्क्रीनशॉट में ‘Ola’ और ‘Uber’ का इस्तेमाल किया गया है, जो भारत में टैक्सी सर्विस के लिए इस्तेमाल होने वाले ऐप्लिकेशन हैं, लेकिन दरअसल यहां पर इसे 'अल्लाहु अकबर' (अल्लाह सबसे महान है) की ओर इशारा करते हुए लिखा गया है. ये एक अरबी भाषा में बोला जाने वाला वाक्य है जिसे दुनियाभर में उर्दू और अरबी भाषी लोग बोलते हैं.

खासकर इंग्लिश में काम करने वाला मॉडरेटर यहां पर इन शब्दों के जरिए किए जा रहे इशारों की पहचान नहीं कर पाएगा, क्योंकि उसे तो ये शब्द सामान्य इंग्लिश में बोले जाने वाले शब्द ही लगेंगे.

ADVERTISEMENTREMOVE AD

Logically के आयुष्मान कौल ने हमें "जातीयता और भाषाओं की विविधता के साथ-साथ सामग्री की भारी मात्रा" की वजह से इस समस्या की जटिलता को लेकर बताया कि, ''एल्गोरिदम का लगातार अपडेट होना और उसमें बदलाव होना जरूरी है, ताकि देश में चरमपंथी या सांप्रदायिक मामलों को ट्रैक किया जा सके.''

तो इससे निपटने का क्या है तरीका?

समस्या का तुरंत जवाब ये होगा कि जिस तरह से ऑटोमेटेड सिस्टम तैयार किया जाता है, उसमें बदलाव किया जाए और प्लेटफॉर्म्स को ऐसे लोगों को काम पर रखना चाहिए जो अलग-अलग भाषाओं को जानते हों.

रिसर्चर ने बताया कि CIS का जो अप्रोच है, ऐसा नहीं है कि उसमें समस्याएं नहीं है. लेकिन फिर भी ये टेक कंपनी ऐसे कदम नहीं उठा रही.

IFF के गुप्ता ने कहा, "मैं कहूंगा कि जो समस्याएं सामने आई हैं उन्हें लेकर सिलिकॉन वैली की कंपनीज ने वो नहीं किया है जो वो हेट स्पीच के स्पष्ट उदाहरणों पर कर सकती हैं. और ऐसा जांच से पता चला है.''

ADVERTISEMENTREMOVE AD

Meta ने क्विंट को दिए जवाब में कहा, कि कंपनी ने 'सेफ्टी और सिक्योरिटी' बढ़ाने के लिए 16 मिलियन डॉलर का निवेश किया है. लेकिन, The New York Times पर 2021 में पब्लिश एक रिपोर्ट से पता चलता है कि भारत में कंपनी का खर्च बहुत कम है, जबकि ये उनका बहुत बड़ा बाजार है.

समय, संसाधन और मैनपावर में कमी होने के बावजूद, इंडिपेंडेंट ऑर्गनाइजेशन्स ने बहुभाषी सिस्टम की सख्त जरूरत को उजागर करने का काम किया है.

''बेशक इशारे में बोली गई बात, हेट केसेज और कोड वर्ड में किया गया भाषा का इस्तेमाल, उसके संदर्भ की वजह से एक समस्या है'' लेकिन गुप्ता कहते हैं कि प्लेटफॉर्म ''ऑर्गनाइज्ड तरीके से चलाए जा रहे इस नेटवर्क के खात्मे को लेकर कम से कम जरूरी कार्रवाई'' भी नहीं कर रहे हैं. इस वजह से ज्यादा ताकतवर संस्थाएं या लोग बड़े लेवल पर नैरेटिव बनाकर सांप्रदायिक सद्भाव को कमजोर कर रहे हैं.

ADVERTISEMENTREMOVE AD

कौल ने इस बात पर भी जोर दिया कि ऐसे इंसानी मॉडरेटर्स पर बड़े स्तर पर निवेश करने की जरूरत है, जिन्हें सोशियो-कल्चरल संदर्भों की बारीकी की समझ हो.

कौल लिखते हैं, ''इस समस्या का कोई सटीक और साधारण समाधान नहीं है.'' वो आगे कहते हैं कि लोगों को 'इस तरह के कंटेंट को लेकर पूरी तरह से कम संवेदनशील बनाने के लिए जरूरी है कि सोशल मीडिया प्लेटफॉर्म पर सामाजिक स्तर पर, मेजबान देशों के नियामक और न्यायिक निकायों, स्वतंत्र और मजबूत मीडिया के साथ-साथ सिविल सोसायटी की ओर से साथ में प्रयास किए जाएं.''

ज्यादातर एक्सपर्ट इस बात से सहमत हैं कि प्लेटफॉर्म्स के पास ये संसाधन हैं, लेकिन वो अपने कंटेंट के लिए 'सभी के लिए एक' जैसी अप्रोच रखते हैं. इसलिए, ये काम नहीं करता.

ADVERTISEMENTREMOVE AD

अलग-अलग समुदायों की ओर से फेस की जाने वाली छोटी समस्याओं से निपटने के लिए, बेहतर मॉडरेशन अप्रोच (जिसे सोशल मीडिया प्लेटफॉर्म फॉलो करते हैं) और बहुत छोटी और कम अच्छी मॉडरेशन अप्रोच के बीच एक बहस मौजूद है.

हालांकि, ये तरीके धीरे-धीरे नफरत भरी भाषा वाले कंटेंट को ऑनलाइन रहने और उसे हटाने के बीच के समय को कम कर देंगे. यानी ऐसा आपत्तिजनक कंटेंट कम समय में ही हटा दिया जाएगा. प्रभाकर कहते हैं कि पूरी सक्रियता से ऐसे कंटेंट को हटाने के लिए, ऐसा कोई तरीका नहीं है.

ADVERTISEMENTREMOVE AD

IFF के गुप्ता ने सांप्रदायिक सद्भाव बनाए रखने की पूरी जिम्मेदारी राज्य की बताते हुए, विस्तार से बताया कि ऐसे प्लेटफॉर्म्स जो लोगों को संगठित होने (कंटेंट को बढ़ाने और पोस्ट करने और नैरेटिव सेट करने से जुड़े मामले में) और कोऑर्डिनेटेट तरीके से व्यवहार करने से जुड़े फीचर रखते हैं, वो इसे कम करने या इसे बढ़ाने से जुड़े कदम उठा सकते हैं.

यूजर्स, मॉडरेटर्स और सोशल मीडिया प्लेटफॉर्म टीम और संसाधनों के बीच एक सहयोगात्मक प्रयास ये पक्का करने का आदर्श तरीका है कि आने वाले सालों में हमारे बीच मौजूद सोशल मीडिया अपने सभी यूजर्स के लिए एक बेहतर जगह के तौर पर विकसित हो.

(अगर आपके पास भी ऐसी कोई जानकारी आती है, जिसके सच होने पर आपको शक है, तो पड़ताल के लिए हमारे वॉट्सऐप नंबर 9643651818 या फिर मेल आइडी webqoof@thequint.com पर भेजें. सच हम आपको बताएंगे. हमारी बाकी फैक्ट चेक स्टोरीज आप यहां पढ़ सकते हैं )

(क्विंट हिन्दी, हर मुद्दे पर बनता आपकी आवाज, करता है सवाल. आज ही मेंबर बनें और हमारी पत्रकारिता को आकार देने में सक्रिय भूमिका निभाएं.)

मेंबर बनें

ऑनलाइन नफरत फैलाने के लिए अपनाये जा रहे नए तरीके, इंसान-मशीन को मिलाना होगा हाथ

Izlam, Muzlims और j!hadists जैसे शब्दों से IA को चकमा देने की कोशिश कर रहे नफरती

स्लैंग, अस्पष्ट उच्चारण वाले शब्द: हेटफुल कंटेट को ट्रैक करने पर आने वाली मानवीय चुनौतियां

सांप्रदायिक शब्दों का इस्तेमाल होने पर संदर्भ हो जाता है अहम

'अब्दुल', 'शांतिदूत' जैसे शब्दों का इस्तेमाल

'अब्दुल', 'शांतिदूत' जैसे शब्दों का इस्तेमाल

'अब्दुल', 'शांतिदूत' जैसे शब्दों का इस्तेमाल

'अब्दुल', 'शांतिदूत' जैसे शब्दों का इस्तेमाल

'अब्दुल', 'शांतिदूत' जैसे शब्दों का इस्तेमाल

ढेर सारी भाषाओं से बढ़ी चुनौती

तो इससे निपटने का क्या है तरीका?

क्विंट हिंदी पर लेटेस्ट न्यूज और ब्रेकिंग न्यूज़ पढ़ें, news और webqoof के लिए ब्राउज़ करें

टॉपिक: social media Fake News Webqoof