মানবতার শেষ পরীক্ষা' শুরু হয়ে গেছে
যখন কৃত্রিম বুদ্ধিমত্তা ব্যবস্থা দীর্ঘস্থায়ী একাডেমিক মূল্যায়নে অংশগ্রহণ শুরু করে,তখন গবেষকরা বুঝতে পারেন যে তাদের একটি সমস্যা রয়েছে: পরীক্ষাগুলি খুব সহজ ছিল। জনপ্রিয় মূল্যায়ন, যেমন ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং (MMLU) পরীক্ষা, যা একসময় কঠিন বলে বিবেচিত হত, এখন আর উন্নত AI সিস্টেমগুলি অর্থপূর্ণভাবে পরীক্ষা করার জন্য যথেষ্ট চ্যালেঞ্জিং নয়।
পুরোটা পড়ুন