14/12/2025 10:10AM
كشفت "غوغل ديب مايند" عن إطار جديد لتقييم دقة نماذج الذكاء الاصطناعي تحت اسم FACTS Benchmark Suite، يهدف إلى قياس مدى موثوقية هذه النماذج في تقديم معلومات صحيحة.
ويخضع الاختبار النماذج لأربعة محاور أساسية، تشمل الإجابة اعتماداً على المعرفة الداخلية، وحسن توظيف البحث عبر الإنترنت، والتحقق من صحة الإجابات بالاستناد إلى وثائق مطوّلة، إضافة إلى فهم الصور وتفسيرها.
ووفقاً للتقييم، سجّل نموذج "جيميني 3 برو" من غوغل أعلى نتيجة بدقة بلغت 69%، متقدّماً بفارق واضح على نماذج منافسة، إلا أن النتائج أظهرت استمرار فجوة كبيرة بين سرعة النماذج وقدرتها اللغوية وبين موثوقيتها في تقديم حقائق دقيقة.
وتبرز أهمية هذه النتائج في القطاعات الحساسة، مثل المال والصحة والقانون، حيث قد تؤدي أخطاء بسيطة إلى تبعات جسيمة، ما يجعل معايير «FACTS» بمثابة إنذار مبكر وخارطة طريق لتحسين دقة الذكاء الاصطناعي، الذي لا يزال يخطئ في نحو ثلث إجاباته.
شارك هذا الخبر
الدفاع السعودية: تعرض السفارة الأميركية بالرياض لهجوم بمسيّرتين
بالفيديو والصور: بعد تهديد أدرعي… الطيران الإسرائيلي يستهدف مبنى قناة المنار
غارة تحذيرية تستهدف حارة حريك
تراجع إسرائيلي عن رواية "مصدر الصواريخ"
القناة ١٢ الاسرائيلية تقول الان: اطلاق ١٠ صواريخ من لبنان على المستوطنات الاسرائيلية
حزب الله: العدوان لا يُردع بالتحركات الدبلوماسية والمواجهة حق مشروع
الحدث: أنباء عن استهداف القاعدة العسكرية البريطانية في قبرص
العاملون في قناة المنار يخلون المبنى و البث يتوقف
آخر الأخبار
أهم الأخبار و الفيديوهات في بريدك الالكتروني
إشتراك
Contact us on
[email protected]
Copyright 2026 © - Elsiyasa