14/12/2025 10:10AM
كشفت "غوغل ديب مايند" عن إطار جديد لتقييم دقة نماذج الذكاء الاصطناعي تحت اسم FACTS Benchmark Suite، يهدف إلى قياس مدى موثوقية هذه النماذج في تقديم معلومات صحيحة.
ويخضع الاختبار النماذج لأربعة محاور أساسية، تشمل الإجابة اعتماداً على المعرفة الداخلية، وحسن توظيف البحث عبر الإنترنت، والتحقق من صحة الإجابات بالاستناد إلى وثائق مطوّلة، إضافة إلى فهم الصور وتفسيرها.
ووفقاً للتقييم، سجّل نموذج "جيميني 3 برو" من غوغل أعلى نتيجة بدقة بلغت 69%، متقدّماً بفارق واضح على نماذج منافسة، إلا أن النتائج أظهرت استمرار فجوة كبيرة بين سرعة النماذج وقدرتها اللغوية وبين موثوقيتها في تقديم حقائق دقيقة.
وتبرز أهمية هذه النتائج في القطاعات الحساسة، مثل المال والصحة والقانون، حيث قد تؤدي أخطاء بسيطة إلى تبعات جسيمة، ما يجعل معايير «FACTS» بمثابة إنذار مبكر وخارطة طريق لتحسين دقة الذكاء الاصطناعي، الذي لا يزال يخطئ في نحو ثلث إجاباته.
شارك هذا الخبر
ا.ف.ب: قصف عنيف في محيط مدينة الرقة شمال سوريا
فالنتينو غارافاني في ذمة الله
حاصباني: مع قانون يحقق الانتظام المالي ويعيد الودائع بالفعل لا بالعنوان فقط
نتنياهو: نتابع بتأهب التطورات في إيران وإذا هاجمتنا فسنعمل ضدها بقوة لم تعرفها من قبل
مطلوب خطير... توقيف قاتل شكا
وزير الداخلية في البحرين
كنعان: اللمسات الأخيرة على أهم الاستحقاقات
وزارة الزراعة تحذّر من تداول منتجات شبيهة بالألبان تُصنّع بالزيوت النباتية: صحة المستهلك اولاً
آخر الأخبار
أهم الأخبار و الفيديوهات في بريدك الالكتروني
إشتراك
Contact us on
[email protected] | +96176111721
Copyright 2023 © - Elsiyasa