
قمنا بتدريب نماذج "الكتابة النقدية" لوصف العيوب في الملخصات. يجد المقيّمون البشريون عيوبًا في الملخصات في كثير من الأحيان عند عرض انتقادات نموذجنا. تعتبر النماذج الأكبر حجمًا أفضل في نقد الذات ، حيث يعمل المقياس على تحسين كتابة النقد أكثر من كتابة الملخص. وهذا يدل على وعد باستخدام أنظمة الذكاء الاصطناعي لمساعدة الإشراف البشري على أنظمة الذكاء الاصطناعي في المهام الصعبة.
قمنا بتدريب نماذج "الكتابة النقدية" لوصف العيوب في الملخصات. يجد المقيّمون البشريون عيوبًا في الملخصات في كثير من الأحيان عند عرض انتقادات نموذجنا. تعتبر النماذج الأكبر حجمًا أفضل في نقد الذات ، حيث يعمل المقياس على تحسين كتابة النقد أكثر من كتابة الملخص. وهذا يدل على وعد باستخدام أنظمة الذكاء الاصطناعي لمساعدة الإشراف البشري على أنظمة الذكاء الاصطناعي في المهام الصعبة.
إلى الموضوع ليس في الواقع مهمة صعبة: يفهمها البشر جيدًا ولا يستغرق الأمر سوى حوالي 10 دقائق لتقييم الملخص. لفهم حدود التقييم بمساعدة الذكاء الاصطناعي بشكل أفضل ، نحتاج إلى العمل مع المهام التي يصعب على البشر تقييمها.
ومع ذلك ، فإن هذه النتائج تجعلنا متفائلين بأنه يمكننا تدريب النماذج لتزويد البشر بمساعدة ردود الفعل ذات المغزى. يعد هذا أحد الركائز المهمة لاستراتيجية المواءمة لدينا ، بدءًا من العمل على المناظرة ونمذجة المكافآت المتكررة . على المدى الطويل ، نريد بناء مساعدين يمكن الوثوق بهم للقيام بكل العمل المعرفي المطلوب للتقييم ، بحيث يمكن للبشر التركيز على توصيل تفضيلاتهم.