14/12/2025 10:10AM
كشفت "غوغل ديب مايند" عن إطار جديد لتقييم دقة نماذج الذكاء الاصطناعي تحت اسم FACTS Benchmark Suite، يهدف إلى قياس مدى موثوقية هذه النماذج في تقديم معلومات صحيحة.
ويخضع الاختبار النماذج لأربعة محاور أساسية، تشمل الإجابة اعتماداً على المعرفة الداخلية، وحسن توظيف البحث عبر الإنترنت، والتحقق من صحة الإجابات بالاستناد إلى وثائق مطوّلة، إضافة إلى فهم الصور وتفسيرها.
ووفقاً للتقييم، سجّل نموذج "جيميني 3 برو" من غوغل أعلى نتيجة بدقة بلغت 69%، متقدّماً بفارق واضح على نماذج منافسة، إلا أن النتائج أظهرت استمرار فجوة كبيرة بين سرعة النماذج وقدرتها اللغوية وبين موثوقيتها في تقديم حقائق دقيقة.
وتبرز أهمية هذه النتائج في القطاعات الحساسة، مثل المال والصحة والقانون، حيث قد تؤدي أخطاء بسيطة إلى تبعات جسيمة، ما يجعل معايير «FACTS» بمثابة إنذار مبكر وخارطة طريق لتحسين دقة الذكاء الاصطناعي، الذي لا يزال يخطئ في نحو ثلث إجاباته.
شارك هذا الخبر
إعلام إيراني: انفجار ضخم في أصفهان
غارة إسرائيلية على برغز وكفرتبنيت
غارة إسرائيلية على بلدة كفرصير جنوب لبنان
الحزب يعلن إطلاق مسيّرات نحو شمال إسرائيل والأخيرة توسّع ضرباتها على الضاحية
مجلس الخبراء الإيراني: اختيار خليفة خامنئي لن يستغرق وقتا طويلا
تفاصيل جديدة عن جراحة مي عز الدين بعد أزمة صحية مفاجئة
قفزة قياسية في تكاليف شحن النفط والغاز مع توقف الملاحة في هرمز
الذهب يواصل الصعود للجلسة الخامسة مع تصاعد التوترات
آخر الأخبار
أهم الأخبار و الفيديوهات في بريدك الالكتروني
إشتراك
Contact us on
[email protected]
Copyright 2026 © - Elsiyasa