प्रौद्योगिकी विशेषज्ञों की एक टीम ने सोमवार को एक वैश्विक आह्वान जारी किया, जिसमें कृत्रिम बुद्धिमत्ता प्रणालियों से पूछे जाने वाले सबसे कठिन प्रश्नों की मांग की गई, जो कि लोकप्रिय बेंचमार्क परीक्षणों को बच्चों के खेल की तरह संभालते हैं।

“मानवता की अंतिम परीक्षा” नामक इस परियोजना का उद्देश्य यह निर्धारित करना है कि विशेषज्ञ स्तर का AI कब आ गया है। आयोजकों, सेंटर फॉर AI सेफ्टी (CAIS) नामक एक गैर-लाभकारी संस्था और स्टार्टअप स्केल AI के अनुसार, इसका उद्देश्य भविष्य के वर्षों में क्षमताओं के बढ़ने के बावजूद प्रासंगिक बने रहना है।

सीएआईएस के कार्यकारी निदेशक और एलन मस्क के एक्सएआई स्टार्टअप के सलाहकार डैन हेंड्रिक्स ने कहा कि यह कॉल चैटजीपीटी के निर्माता द्वारा ओपनएआई ओ1 नामक एक नए मॉडल का पूर्वावलोकन करने के कुछ दिनों बाद आया है, जिसने “सबसे लोकप्रिय तर्क बेंचमार्क को नष्ट कर दिया”।

हेंड्रिक्स ने 2021 में दो पेपर्स का सह-लेखन किया था, जिसमें AI सिस्टम के परीक्षण प्रस्तावित किए गए थे, जिनका अब व्यापक रूप से उपयोग किया जाता है, एक में अमेरिकी इतिहास जैसे विषयों के स्नातक स्तर के ज्ञान पर सवाल पूछे गए थे, जबकि दूसरे में मॉडल की प्रतिस्पर्धा-स्तर के गणित के माध्यम से तर्क करने की क्षमता की जांच की गई थी। स्नातक स्तर के परीक्षण को ऑनलाइन AI हब हगिंग फेस से किसी भी ऐसे डेटासेट की तुलना में अधिक डाउनलोड किया गया है।

उन पेपरों के समय, एआई परीक्षा में प्रश्नों के लगभग बेतरतीब उत्तर दे रहा था। हेंड्रिक्स ने रॉयटर्स को बताया, “अब वे कुचले जा चुके हैं।”


एक उदाहरण के रूप में, एक प्रमुख क्षमता लीडरबोर्ड के अनुसार, एआई लैब एंथ्रोपिक के क्लाउड मॉडल ने 2023 में स्नातक स्तर की परीक्षा में लगभग 77% स्कोर किया है, जो एक वर्ष बाद लगभग 89% हो जाएगा।

अपनी रुचि की कहानियाँ खोजें


परिणामस्वरूप इन सामान्य बेंचमार्क का अर्थ कम हो गया है। स्टैनफोर्ड यूनिवर्सिटी की अप्रैल की AI इंडेक्स रिपोर्ट के अनुसार, AI ने प्लान फॉर्मूलेशन और विज़ुअल पैटर्न-पहचान पहेलियों से जुड़े कम इस्तेमाल किए जाने वाले परीक्षणों पर खराब स्कोर किया है। उदाहरण के लिए, ARC आयोजकों ने शुक्रवार को कहा कि OpenAI o1 ने पैटर्न-पहचान ARC-AGI परीक्षण के एक संस्करण पर लगभग 21% स्कोर किया।

कुछ एआई शोधकर्ताओं का तर्क है कि इस तरह के परिणाम योजना और अमूर्त तर्क को बुद्धिमत्ता के बेहतर मापदंड के रूप में दर्शाते हैं, हालांकि हेंड्रिक्स ने कहा कि एआरसी का दृश्य पहलू इसे भाषा मॉडल का आकलन करने के लिए कम उपयुक्त बनाता है। उन्होंने कहा कि “मानवता की अंतिम परीक्षा” के लिए अमूर्त तर्क की आवश्यकता होगी।

उद्योग पर्यवेक्षकों ने कहा है कि सामान्य बेंचमार्क से प्राप्त उत्तर भी एआई सिस्टम को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटा में समाप्त हो सकते हैं। हेंड्रिक्स ने कहा कि “ह्यूमैनिटीज लास्ट एग्जाम” के कुछ प्रश्न निजी रहेंगे ताकि यह सुनिश्चित किया जा सके कि एआई सिस्टम के उत्तर याद करके नहीं दिए गए हैं।

परीक्षा में कम से कम 1,000 क्राउड-सोर्स्ड प्रश्न शामिल होंगे, जिनका उत्तर देना गैर-विशेषज्ञों के लिए कठिन होगा। इन प्रश्नों की समीक्षा की जाएगी, तथा विजयी प्रविष्टियों को सह-लेखक का दर्जा दिया जाएगा तथा स्केल एआई द्वारा प्रायोजित 5,000 डॉलर तक के पुरस्कार दिए जाएंगे।

स्केल के सीईओ एलेक्जेंडर वांग ने कहा, “हमें एआई की तीव्र प्रगति को मापने के लिए विशेषज्ञ स्तर के मॉडलों के लिए कठिन परीक्षणों की सख्त जरूरत है।”

एक प्रतिबंध: आयोजक चाहते हैं कि हथियारों के बारे में कोई प्रश्न न पूछा जाए, क्योंकि कुछ लोगों का कहना है कि हथियारों का अध्ययन करना ए.आई. के लिए बहुत खतरनाक होगा।

शेयर करना
Exit mobile version