الاختبارات المعتمدة على الحاسب الآلي
الفصل السادس عشر
الاختبارات المعتمدة على الحاسب الآلي
بيتر ديفيدسون Peter Davidson
جامعة زايد، دبي
ترجمة د. خالد بن عبدالعزيز الدامغ
جامعة الملك سعود - الرياض
على الرغم ممّا كان للحاسب الآلي من أثر كبير في التعليم خلال العشرين سنة الماضية، إلا أن تأثيره في اختبارات اللغة ليس ملحوظاً ومع أن عددا من المؤسسات التعليمية الكبيرة التي تعمل في مجال إعداد الاختبارات اللغوية مثل خدمات الاختبارات التربوية ETS، والإنجليزية للناطقين بلغات أخرى في جامعة كيمبرج Cambridge ESOL قامت بتصميم اختبارات معتمدة على الحاسوب، إلا أن عدداً محدوداً من المؤسسات التعليمية تبنـّـت هذه الاختبارات، وعدد قليل من المدرسين يقومون بتطبيقها على طلابهم، وهذا ما يفسر استمرار سيطرة الاختبارات الورقية على الحقل التعليمي.يتناول هذا المقال الأسباب التي تفسر تأخر عملية اعتماد المؤسسات التعليمية والمعلمين والقائمين على اختبارات اللغة في تطبيق الاختبار الحاسوبي على الطلاب بعد تناول الاختلافات بين الاختبارات المبنية على النظام المعتمد على الحاسب الآلي العادي من جهة والاختبارات الحاسوبية المتكيفة مع المقدرة اللغوية للطلاب من جهة أخرى، ستظهر لنا إيجابيات الاختبارات اللغوية المعتمدة على الحاسب إلا أن تحليل بعض سلبيات الاختبارات الحاسوبية ساعد في تبيان الأسباب التي أدت إلى عدم اعتماد تلك الاختبارات على نطاق واسع في المؤسسات التعليمية وأخيراً سيتم تقديم قائمة أكاديمية حول المتطلبات التي يجب توافرها من أجل استخدام الاختبارات اللغوية المعتمدة على الحاسب الآلي في العملية التعليمية
الاختبار المعتمد على الحاسب الآلي
هنالك نوعان من الاختبارات المعتمدة على الحاسب الآلي:
الاختبار العادي المعتمد على الحاسب (CBTs)
الاختبار الحاسوبي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار(CATs)
اختبار CBT هو باختصار النسخة الورقية المعتادة للاختبار، تم تحويلها إلى اختبار معتمد على الحاسب الآلي، وبالتالي يتسم الاختبار المعتمد على الحاسب الآلي بمنهج ثابت كما هو الحال في النسخ الورقية الأصلية للاختبار.وبمعنى آخر فإن كل المتقدمين لأداء هذا الاختبار الحاسوبي يجيبون عن الأسئلة بالترتيب نفسه الذي تقدم فيه الأسئلة في النسخة الورقية.
أما في الاختبار الحاسوبي المتكيف مع المقدرة اللغوية للطالب CAT فإن مؤدي الاختبار يجيبون عن مجموعات مختلفة من الأسئلة، تطرح عليهم بناء على مستوياتهم، حيث تؤثر إجابتهم عن سؤال ما على نوعية الأسئلة التالية التي يختارها الحاسب لهم ففي حال الإجابة الصحيحة عن السؤال سيختار الحاسب سؤالاً أصعب قليلا من الأول، ويطرحه على المتقدم إلى الاختبار، وبالعكس إذا كانت الإجابة خاطئة سيختار الحاسب سؤالاً أقل صعوبة، ومن هنا جاءت تسمية "الاختبار المتكيف"
إيجابيات الاختبارات المعتمدة على الحاسب الآلي:
تتميز الاختبارات المعتمدة على الحاسب الآلي بعدد من المميزات، أهمها:
اختبارات أكثر ثباتاً ومصداقية
يتفوق الاختبار المعتمد على الحاسب الآلي على الاختبار الورقي بالعديد من الجوانب الإيجابية، حيث يمتلك الاختبار الحاسوبي المتكيف مع مقدرة الطالب اللغوية (CAT) القدرة على إجراء اختبارات أكثر ثباتا ومصداقية في تحديد مستوى المعرفة اللغوية لدى الطلاب.ذلك لأنه يستخدم تحليلات إحصائية تساعد واضع الاختبار اللغوي في تحديد الأسئلة الضعيفة والجيدة (Zandvliet & Farragher, 1997) & (Niemeyer, 1999) فتحليل السؤال يساعد على تمييز مستوى صعوبة الأسئلة (عن طريق تحليل المدى الذي أجاب عنه الطلاب المتفوقون عن بند ما من بنود الاختبار والمدى الذي أخطأ فيه الطلاب في الإجابة عن البند نفسه) لكل سؤال من أسئلة الاختبار يمكن جمع كل هذه البيانات بسهولة، ومن ثم استخدامها في زيادة ثبات الاختبار ومصداقيته (Bergstorm et al, 1994).
إن الاختبار المعتمد على الحاسب الآلي يمتلك إمكانية زيادة صدق محتوى الاختبار من خلال زيادة المحتوى الذي يستطيع الاختبار أن يختبره، وذلك من خلال إمكانية استخدام أنماط اختباريه واسعة بما تتضمنه من استخدام نماذج الأسئلة التفاعلية (Interactive Questions) التي تقوم بتقييم مهارات الطالب في حل المشكلات (Problem-Solving Skills) التي يصعب قياسها في الاختبارات الورقية (Huff & Sireci, 2001) إن ثبات تصحيح الاختبار يمكن أن تزداد ازدياداً كبيراً في الاختبارات المعتمدة على الحاسب الآلي، لأنها تحسب درجات الاختبار آلياً (Parshall & Balizet, 2001)
إن الصدق الناتج عن الاختبارات المعتمدة على الحاسب الآلي يمكن أن يكون أعلى من الاختبارات الورقية، حيث وجد الباحثون أن العديد من المتقدمين إلى الاختبارات يفضلون الاختبارات المعتمدة على الحاسب الآلي على الاختبارات الورقية التقليدية (Ogilvie et al, 1999).فالمتقدمون إلى الاختبارات الحاسوبية قدموا إجابة إيجابية فيما يتعلق بحقيقة أن الاختبار الحاسوبي المتكيف مع المقدرة اللغوية للممتحن CAT تكون عادة أقصر من الاختبارات الورقية (Meijer & Nering, 1999) التي تتعب أداء المتقدمين إلى الاختبار بسبب طولها الزمني لقد وجدت إحدى الدراسات (Powers, 2001) أن المتقدمين إلى الاختبارات الحاسوبية يواجهون قلقاً أقل من الذين يخضعون للاختبار نفسه بالنسخة الورقية كما أن المتقدمين إلى الاختبارات المعتمدة على الحاسب الآلي يعبّرون عن الإيجابية التي يقدمها لهم الاختبار الآلي، حيث يعطيهم نتيجة الاختبار سريعا، بالإضافة إلى أن الاختبار المعتمد على الحاسب الآلي أكثر تنسيقاً وإدارة من الاختبار الورقي أفضل (Parshall & Balizet, 2001) ويعبّر المتقدمون إلى الاختبار عن إيجابية أخرى للاختبار الحاسوبي المتكيف مع المقدرة اللغوية للممتحن، وهي أنهم ليسوا مضطرين للإجابة عن أسئلة سهلة جداً، أو على العكس صعبة جداً لأن الحاسوب سيختار الأسئلة التي تقترب من مستوى مقدرتهم اللغوية (Alkhader wt al, 1998), (Dunkel, 1997) & (Hamilton, no date).
إدارة أكثر فاعلية للاختبار
يمتلك الاختبار المعتمد على الحاسب الآلي فوائد تطبيقية عديدة، ويمكن لعملية إجراء الاختبار أن تكون سهلة (Neuman & Baydoun, 1998) وأن تصبح أكثر تقنينا من خلال التطبيقات المختلفة (Vispoel, 2000).فالاختبار المعتمد على الحاسب الآلي يتسم بمرونة أكبر عند إعداد جداول الاختبار، ويمكن أن نشير إلى هذه المرونة بما يسمى بـ "الاختبار تحت الطلب".أما التصحيح التلقائي والفوري لنتائج الاختبار، فيخلص المعلمين من مهمات استهلاك الوقت في تصحيح الاختبارات مما يؤدي إلى تصحيح عدد كبير من الاختبارات بدقة وسرعة أكبر (Meijer & Nering, 1999) , (Niemeyer, 1999) & (Pomplun et al, 2002))، وبناءً عليه يستطيع المتقدمون إلى الاختبار معرفة نتائجهم حال انتهائهم من إنجاز الاختبار ويمتلك الاختبار المعتمد على الحاسب الآلي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار إيجابية أخرى من خلال إدارته قصر الوقت المستغرق لأداء الاختبار (Spray et al, 1989) & (Masson et al, 2001) والفائدة الإجرائية الأخيرة في تطبيق الاختبار المعتمد على الحاسب الآلي هي أنه يسمح باستخدام بنك البنود الاختيارية (Roid, 1989) & (McDolald, 2002)، حيث يمكـّننا الاختبار الآلي من جعل تكلفة الاختبارات أقل على المدى البعيد من الاختبارات الورقية.
3- التأثيرات الإيجابية للاختبار المعتمد على الحاسب الآلي في المناهج التعليمية
إن إحدى فوائد الاختبار المعتمد على الحاسب الآلي المغفول عنها تتلخص في أنه يتضمن تأثيرا إيجابيا في المناهج التعليمية، لأنه يزود المتقدمين إلى الاختبار فوريا بالتغذية الراجعة الشاملة (Vispoel, 2000)& (Pomplun et al, 2002) فأسئلة الاختبارات الفردية التي تتصل بمهارة محددة أو بمحتوى محدد من المعرفة يمكن أن تعنون (بفتح العين والواو) بهدف تزويد المتقدمين إلى الاختبار بالتغذية الراجعة المتصلة ببعض مناطق القوة والضعف لديهم كما أن قاعدة بيانات مسار الاختبار المذكورة سابقاً، تزود المعلمين بمعلومات أكثر حول قدرة طلابهم المعرفية، وهي معلومات ذات قيمة أكبر من المعلومات التي يتلقاها المعلمون من خلال إجابة خاطئة أو صحيحة للطلاب عن سؤال ما (Bergstrom et al, 1994) , (Mason et al, 2001) & (Roever, 2001) قد يستخدم المعلمون التشخيص الراجع من الاختبار وقاعدة بيانات مسار الاختبار استخداما منفردا لكل طالب وذلك بهدف التكيف مع الاحتياجات الخاصة لدى الطلاب، كما يمكن أن يقارن مطورو المناهج التعليمية هذا الاختبار ويحلّلوه من أجل إيجاد مناهج مناسبة تهدف إلى تعزيز عملية التعلم لدى الطالب ويجب ألا نستخف بقدرة تأثير الاختبار المعتمد على الحاسب الآلي المتوقعة في عملية تطوير المناهج التعليمية، فمن المحتمل في المستقبل القريب أن يعطى الطلاب الاختبار النهائي في اليوم الأول من الفصل الدراسي، حيث ستحدد نتائج الطلاب في هذا الاختبار تفاصيل المنهج التعليمي الانفرادي الذي سيتم تدريسه، وذلك وفقاً لاحتياجات الطلاب المعرفية من أجل تحقيق الأهداف التعليمية المحددة المتوقع الحصول عليها في نهاية الفصل بالإضافة إلى تحديد المواد التعليمية التي يحتاجون إليها خلال هذا الفصل الدراسي.
سلبيات الاختبار المعتمد على الحاسب الآلي
تتضمن الاختبارات المعتمدة على الحاسب الآلي سلبيات، منها:
اختبارات أقل ثباتا ومصداقية
لم يتم توثيق سلبيات الاختبار المعتمد على الحاسب الآلي في النتاج العلمي، كما هو الحال في تسطير إيجابياته وإحدى هذه السلبيات هي مشكلة تفاوت الطلاب في قدرات ليست ذات علاقة باللغة، أو ما يمكن تسميته" البنى غير ذات العلاقة Construct-Irrelevance" مثل إجادة الطلاب التعامل مع الحاسوب (Kobrin, 2000).وذلك مثل تدخل قدرة الطالب على استخدام الفأرة، أو قدرته على استخدام شريط التحويل عند قراءة النصوص الطويلة خلال الاختبار المعتمد على الحاسب الآلي في عملية الإجابة، فكأن الاختبار يتضمنها في بنيته فالبنى غير ذات العلاقة قد تؤدي إلى نقص في صدق الاختبار، كما أنها تساهم في تحديد سلبية أخرى للاختبار المحوسب، وهي عدم قدرته على تحقيق تكافؤ بين الاختبار المعتمد على الحاسب الآلي والاختبار الورقي للاختبار نفسه
بعد معاينة التكافؤ بين نسخة الاختبار المعتمد على الحاسب الآلي، ونسخة الاختبار الورقي لاختبار اللغة الإنجليزية كلغة أجنبية الـ (TOFEL) تبين من عدد من الدراسات (Eignor et al, 1998) & (Kirsh et al, 1998) & (Taylor et at, 1999) أن 16% من المتقدمين إلى الاختبار، لا يألفون التعامل مع الحاسوب، وأن درجاتهم قد تأثرت سلبيا عندما خضعوا للاختبار الآلي، والنتيجة هي أن أداء الاختبار المعتمد على الحاسب الآلي للغة الإنجليزية كلغة أجنبية يتطلب ثقافة حاسوبية إلزامية، يخضع لها جميع المتقدمين لهذا الاختبار وهنالك متغيرات أخرى تساهم في خلق عدم التكافؤ بين الاختبار المعتمد على الحاسب الآلي، والاختبار الورقي وتتضمن هذه المتغيرات حسب رأي (Bracey, 1990), (Webster Z& Compeau, 1996), (Kobrin, 2000), (Davidson, 2003) (Hamilton et al, no date) ما يلي:
1- مهارات استخدام لوحة المفاتيح
2- الفروق في هيكلية الاختبارين.
3- الصور المختلفة للاخراج (مثل بنط الخط وحجمه، واللون، والوضوح)
4- الاختلاف بين عدد الأسئلة على الشاشة وعلى نسخة الاختبار الورقية.
5- ظهور رسائل حدوث خطأ ما أثناء الاختبار.
6- إعطاء المعلومات عن عدد الأسئلة التي لم تتم الإجابة عنهما.
7- السرعة المثبتة لبعض الاختبارات المعتمدة على الحاسب الآلي.
8 - عجز المتقدم إلى الاختبار في نظام الاختبار المعتمد على الحاسب الآلي عن مراجعة الاختبار وتحديد الكلمات أو العبارات في الاختبار، والرجوع إلى الخلف، وتغيير الإجابات.
يمكن أن تتأثر درجة صدق الاختبار المعتمد على الحاسب الآلي سلبا خاصة في الاختبار المعتمد على الحاسب الآلي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار من خلال مناقشة صدق المحتوى، وذلك بسبب العدد المحدود للأسئلة المتوفرة حالياً في الاختبارات المعتمدة على الحاسب الآلي ومن جانب آخر فإن معظم أنواع أسئلة الاختبارات المعتمدة على الحاسب الآلي هي من نوع الأسئلة المتعددة الإجابات، حيث تتطلب من المتقدمين إلى الاختبار اختيار إجابة واحدة من بين الخيارات المعروضة عليهم.كما أن تقدم الاختبارات المعتمدة على الحاسب الآلي في قياس المستوى الأعلى من القدرة اللغوية لدى المتقدمين إلى الاختبار ومهاراتهم وكفاياتهم لا يزال في بدايته وكذلك درجة الصدق الظاهري للاختبارات الحاسوبية ولاسيما في الاختبار المعتمد على الحاسب الآلي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار (CATs) يمكن أن تنقص من صدق الاختبار ويقول بعض مطوري الاختبارات الآلية المتكيفة مع المقدرة اللغوية للمتقدم إلى الاختبار (CATs) إنه يمكن أن يتم تحديد مستوى الكفاية اللغوية للمتقدمين إلى الاختبار، بعد أن يقوموا بالإجابة على ثمانية بنود من أسئلة الاختبار، ويتساءل الطلاب عن مدى ثبات الاستدلال وصدقه عن مقدرة الطالب اللغوية استنادا إلى مثل هذا العدد القليل من الأسئلة، ولاسيما عندما يخضع الطالب لاختبارات حاسوبية أخرى تحتوي بنوداً أكثر من بنود الاختبار النموذجي المعتمد على الحاسب الآلي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار (CATs) ولكن بعض معدي هذه الاختبارات يدعون أنّ مستوى المتقدمين إلى الاختبار في إتقان اللغة، يمكن أن يحدد من خلال الإجابة عن بعض الأسئلة مثل ثمانية أسئلة من الاختبار.
غالبا ما يسأل المتقدمون إلى الاختبار عن مدى صلاحية الاستدلال على مستوى القدرة اللغوية المبنية على اختبارات قصيرة، ولاسيما عندما يكونون قد اعتادوا على الاختبارات الورقية التي تحوي أسئلة أكثر بكثير من الاختبار النموذجي المعتمد على الحاسب الآلي المتكيف مع المقدرة اللغوية للمتقدم للاختبار بالإضافة لذلك، وكما اشتهر عن برجستون وقيرشون (Bergstrom&Gershon, 1992:2) يمكن أن ينتج عن الاختبار القصير الحاسوبي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار فوضى في التصنيف، إذا لم يتم تقييم قدرة الممتحن جيدا في بداية الاختبار، أو إذا فشل المتقدم إلى الاختبار في الإجابة وفقا لتوقعات النموذج الاختباري في بداية الاختبار.
إن اتجاهات المتقدمين إلى الاختبار المتكيف مع المقدرة اللغوية للمتقدم والاختبار CATS، CBTS أمر آخر يقلل من صدق الاختبارات المعتمدة على الحاسب الآلي.فبينما تدل بعض البحوث على أن بعض المتقدمين إلى الاختبار لديهم اتجاهات إيجابية نحو الاختبارات المعتمدة على الحاسب الآلي، وأنهم يفضلونها على الاختبارات الورقية، وجدت أبحاث أخرى أن العديد من المتقدمين إلى الاختبار قد عبروا عن اتجاهات سلبية نحو الاختبارات الحاسوبية إن المتقدمين إلى الاختبار ذي المستوى اللغوي العالي وذوي المستوى اللغوي المنخفض قد أبدوا قلقهم بعد تقديم الاختبار المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار، حيث قال ذوو المستوى العالي إنهم شعروا بصعوبة الاختبار الشديدة، لأنه لم يحتو على أي سؤال سهل، بينما قال المتقدمون ذوو المستوى المنخفض إنهم شعروا بسهولة الاختبار الشديدة، وأنه لم يحتو على أي سؤال صعب كان المختبرون متشككين أيضا حول مدى الثقة في التصحيح الآلي وجمع الدرجات التلقائي وجد بحث قام به باور واخرون (Power et al, 2001) أنه من المحتمل أن ينخدع المصحح الآلي، ولذلك فالمصحح البشري ما زال ضروريا
المشكلات في إدارة الاختبار
أصبحت سرية الاختبار واحدة من التحديات الأساسية المصاحبة للاختبار المحوسب وقد ادعى ميجير ونيرنجMeijer & Nering, 1999))أن زيادة سرية الاختبار المعتمد على الحاسب الآلي تحتاج إلى أن تأخذ التغييرات الأخيرة للاختبارات المحررة على الحاسوب بعين الاعتبار وقد أوضح مؤخرا مركز خدمات الاختبارات التعليمية (2002 b) أنه أوقف اختبار GRE المعتمد على الحاسب الآلي في الصين وهونغ كونغ وتايوان وكوريا، وأعاد تقديم النسخة الورقية بعد أن عرض عدداً لا يحصى من المواقع باللغة الآسيوية على الإنترنت أسئلة لنماذج حية من الحاسوب مبنية على الاختبار العام لـ GRE، وقالو إن التحقيق بين أن الأسئلة والأجوبة حصل عليها أحد المتقدمين إلى الاختبار حصولاً غير شرعي عن طريق التذكر وإعادة بناء الأسئلة وتوزيعها على الآخرين
هناك مشكلة أخرى في الاختبار المعتمد على الحاسب الآلي وهي أن بعض المواقع لا تحتوي على إمكانات كافية للحواسيب، لتزودها بتطبيقات واسعة للاختبارات الحاسوبية (Wise & Plake, 1989) وقد أعيد الاختبار الورقي في أكثر من عشرين دولة بعد التغيير إلى الاختبارات المعتمدة على الحاسب الآلي في بعض البلدان عام 1998م، وذلك بعد الاعتراف برفض عدد من المتقدمين إلى الاختبار تطبيق الاختبار المعتمد على الحاسب الآلي CBTs (Guernsey, 1999) كما أوقف مركز خدمات الاختبارات التعليمية (2002a) مؤخرا 84 مركزا للاختبارات الحاسوبية حول العالم بسبب نقص عدد المتقدمين إلى الاختبار، وذلك على مراحل ومن المحتمل أن يكون هذا النقص نتيجة لازدياد تكلفة الاختبارات المعتمدة على الحاسب الآلي بالنسبة إلى الاختبارات الورقية، فالاختبارات الآلية ولا سيما الاختبار المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار CATs مكلف جدا من حيث الإعداد، لأنه يحتاج إلى عدد كبير من بيئات الأسئلة المختلفة، وذلك بسبب طبيعة الاختبار Meijer & Nering, 1999)) ويتحدث مطورو الاختبار الآن عن بحيرات البنود، بل وعن محيطات البنود المؤلفة من آلاف البنود التي يحتاج إليها الاختبار المعتمد على الحاسب الآلي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار CATs لتحديد كفايتهم، ولا سيما عند الحدين الأدنى والأعلى من المقياس وإضافة إلى ذلك فإن البنود الاختيارية- كما يرى بان (Ban, 2001) تحتاج إلى تبديل منتظم عندما تصبح من طراز قديم أو عندما تستهلك، ولا سيما تلك البنود ذات المستوى العالي في تمييز مستوى المتقدمين وبالتالي فإننا نحتاج إلى موارد بشرية ومالية كبيرة لصيانة برنامج هذا الاختبار Meijer & Nering, 1999) ) إن الصعوبات المتلازمة ونفقات الصيانة أدت بمركز خدمات الاختبارات التعليمية ETS إلى اتخاذ قرار أن يكون الجيل الجديد من اختبار اللغة الإنجليزية كلغة أجنبية اختباراً عاديا CBT يحتوي على أجزاء من الاختبار المعتمد على الحاسب الآلي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار CAT.
وتعد إمكانية فشل التقنية في الوقت الحاضر إحدى السلبيات الأخرى الواضحة للاختبار المحوسب ومن ذلك فتوقعا للحالات الطارئة، يجب أن تكون النسخة الورقية لاختبار CBT متوفرة في حال حصول مشكلة تقنية وبالتالي فإن الحاجة ضرورية لتأمين التكافؤ بين نسخة الاختبار الورقي واختبار CBT وقد بينت الجمعية النفسية الأمريكية American Psychological Association (1986: 18) أن التكافؤ بين الاختبارين الورقي والحاسوبي يحتاج إلى أن يثبت من خلال مقارنة درجات المتقدمين إلى الاختبارين إفراديا بواسطة أساليب متعددة ومتقاربة فيما بينها إلى حد كبير، مما يدل في نهاية الأمر على أن متوسطات وترتيب توزيع الدرجات هو نفسه تقريبا، وترى الجمعية أن ضمان تكافؤ الاختبارين صعب، ولا سيما مع الاختبار المعتمد على الحاسب الآلي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار CATs، كما يمكن أن يكون مكلفا ويحتاج إلى وقت طويل (Davidson, 2003).
التأثيرات السلبية على المناهج التعليمية
إن الاختبارات المعتمدة على الحاسب الآلي يمكن أن تتضمن تأثيرا سلبيا في المناهج التعليمية فالاختبارات القصيرة لها تأثير سلبي في دراسة المتقدمين إلى الاختبار والتحضير للاختبار، ويمكن للمتقدمين إلى الاختبار أن ينهمكوا في استراتيجيات مضللة، ولا سيما مع الاختبار المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار CATs حيث يمضون فترات طويلة تتناول أسئلة قليلة في بداية الاختبار، ولا يبقى لديهم سوى وقت قصير للأسئلة الأخيرة.كذلك تبين أن بعض المتقدمين إلى الاختبار المعتمد على الحاسب الآلي المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار CATs يستخدمون استراتيجيات سلبية لكسب الوقت عن طريق إجابتهم عمدا عن الأسئلة إجابات خاطئة، اعتمادا على الفرضية الخاطئة بأنهم سيحصلون على اختبارات أسهل كذلك فإن اعتماد الأساتذة الكليّ على الحاسوب للتحليل والتفسير والاستنتاج حول الاختبار له تأثير سلبي آخر في المناهج التعليمية (McMinn et al, 1999) وبناء على النقاط السلبية المهمة حول صدق الاختبار المعتمد على الحاسب الآلي والتي أوجزناها فيما سبق، فإن الحاسوب يمكن أن يقوم باستنتاج خاطئ حول ما يستطيع أو ما لا يستطيع الطلاب القيام به، وبالتالي يمكن أن يعطيهم تغذية راجعة تشخيصية خاطئة تضرّ بتعليمهم
زيادة الاتجاه الإيجابي نحو الاختبار المعتمد على الحاسب الآلي
من السهل التوصل إلى فهم فكرة عدم تبني الاختبار المعتمد على الحاسب الآلي تبنياً واسعاً في التعليم، إذا نظرنا إلى عدد من المساوئ والمشكلات المعطاة والمصاحبة للاختبار المحوسب ولكن معظم المشكلات المرافقة للاختبار المعتمد على الحاسب الآلي هي آراء ومفاهيم أكثر من كونها تقنية، وذلك كما بين فريس Frase, 1997) ( ومن الواضح أن هناك عددا من العوامل الأخرى نحتاج إلى أن نأخذها بعين الاعتبار قبل أن نقول بثقة إن درجات الاختبار المتكيف مع المقدرة اللغوية للمتقدم إلى الاختبار CAT والاختبار الورقي تتساويان ولكي يصبح الاختبار المعتمد على الحاسب الآلي مطبقا تطبيقا واسعا نحتاج إلى الاستيضاح العملي حول عدد من الموضوعات المتصلة بأساسيات الاختبار كالصدق والثبات كما نحتاج أكثر إلى أبحاث لنتوصل إلى ضمانة أن الاختبارات المعتمدة على الحاسب الآلي تقيس في الحقيقة ما تدعي أنها تقيسه
ونحتاج أيضا إلى بحوث إضافية لنتوصل إلى تحديد، ما إذا كان بناء الاختبار غير ممثل، ولنتوصل إلى حقيقة النقص في صدق المحتوى والعجز في الصدق الظاهري وأثر صدق الاختبار المعتمد على الحاسب الآلي يحتاج الباحثون أيضا إلى تحديد اتجاهات المتقدمين إلى الاختبار الحاسوبي (Bernt & Bugbee, 1990)، وتحديد تأثير هذه الاتجاهات في أدائهم.كما يحتاجون إلى تحديد التكافؤ بين الاختبارات الحاسوبية والورقية، وإلى تحديد العامل الذي يمكن أن يؤدي إلى العجز في هذا التكافؤ ونحتاج أن نطور أنواع الأسئلة التي هي أكثر من مجرد اختيار من متعدد، وذلك لاستثمار الطبيعة المتفاعلة للحواسيب.كما نحتاج إلى التحقق من طرق التصحيح التلقائي، لمعرفة إذا ما كانت وسيلة موثوقة وثابتة لتقييم النصوص المكتوبة للمتقدمين إلى الاختبار وأخيرا نحتاج إلى أن نحدد المشكلات التقنية والعجز في حماية الاختبار وسريته إذا أردنا أن يطبق الاختبار المعتمد على الحاسب الآلي تطبيقاً واسعاً.
خلاصــة
إن إمكانية الاختبار المعتمد على الحاسب الآلي في التقييم تتضمن بشكل لا يقبل الجدل تأثيرا إيجابيا كبيرا في عمليات التعليم، والتعلم، والاختبارات ويمكن أن يساعدنا الاختبار المعتمد على الحاسب الآلي على توليد اختبارات فعالة وموثوقة يمكن أن تقيس قدرة المتقدمين إلى الاختبار بدقة أكبر، خاصة أنه يحتاج إلى وقت أقل من الاختبارات الورقية في الأداء وفي التصحيح ويمكن أيضا للاختبار الحاسوبي أن يقدم تأثيرات إيجابية مهمة في المناهج التعليمية، حيث يزود المتقدمين إلى الاختبار والأساتذة بتغذية راجعة تشخيصية فورية، يمكن أن تفيد في الخطط التعليمية الفردية ومع ذلك فإن الاختبار المعتمد على الحاسب الآلي لا يستخدم في أي شهادة مهمة في التعليم، وذلك لأسباب نظرية أكثر منها تقنية إن إمكانيات الاختبار الحاسوبي قد أدت إلى إعادة النظر في مفاتيح الأسس الرئيسة للاختبارات خاصة: الصدق، والثبات، والعملية تحتاج الموضوعات الأساسية مثل التكافؤ بين الاختبار الورقي واختبار CBT واتجاهات المتقدمين إلى الاختبار تجاه الاختبار المعتمد على الحاسب الآلي وكيفية تأثيرها في أدائهم، كلها تحتاج إلى بحث أكثر قبل أن يقوم الأساتذة والمتقدمون إلى الاختبار بقبول الاختبار الحاسوبي، وقبل أن تنعكس فوائدها المتعددة بتأثير إيجابي في التعليم والتعلم
مراجــع الفصل السادس عشر
Alkhader، O.،Clarke، D. D.، & &erson، N. (1998). Equivalence & Predictive Validity of Paper-&-Pencil & Computerized Adaptive Formats of the Differential Aptitude Tests. Journal of Occupational & Organizational Psychology، 71: 205-217.
American Psychological Association (1986). Guidelines for Computer-Based Tests & Interpretations. Washington DC: Author.
Ban، J-C.، Hanson، B. A.، Wang، T، Yi، Q.، & Harris، D. J. (2001). A Comparative Study of On-line Pretest Item-Calibration/Scaling Methods in Computerized Adaptive Testing. Journal of Educational Measurement، 38/3: 191-212.
Bergstrom، B. A. & Gershon، R. (1992). Comparison of Item Targeting Strategies for Pass/Fail Computer Adaptive Tests. Paper presented at the Annual Meeting of the American Research Association، San Francisco، CA. (ED 400 286).
Bergstrom، B.، Gershon، R.، & Lunz، M. E. (1994). Computerized Adaptive Testing: Exploring Examinee Response Time Using Hierarchical Linear Modeling. Paper presented at the Annual Meeting of the National Council on Measurement in Education، New Orleans، Louisiana. (ED 400 287).
Bernt، F. M. & Bugbee، A. C. (1990). Factors Influencing Student Resistance to Computer Administered Testing. Journal of Research on Computing in Education، 22/1: 265-276.
Boodoo، G. M. (1998). Addressing Cultural Context in the Development of Performance-Based Assessments & Computer-Adaptive Testing: Preliminary Validity Considerations. Journal of Negro Education، 67/3: 211-219.
Bracey، G. (1990). Computerized Testing: A Possible Alternative to Paper & Pencil? Electronic Learning، February: 16-17.
Bugbee، A. C. & Bernt، F. M. (1990). Testing by Computer Findings in Six Years of Use 1982-1988. Journal of Research on Computing in Education، 23/1: 87-100.
Chin، C. H. L. & Donn، J. S. (1991). Effects of Computer-Based Tests on the Achievement، Anxiety، & Attitudes of Grade 10 Science Students. Educational & Psychological Measurement، 51/3: 735-745.
Coniam، D. (1999). Subjects’ Reactions to Computer-Based Tests. Journal of Educational Technology Systems، 27/3: 195-206.
Davidson، P. (2003). The Equivalence of Paper-Based & Computer-Based Tests. IATEFL Testing، Evaluation & Assessment SIG Newsletter، August، 2003.
Dunkel، P. A. (1997). Computer-Adaptive Testing of Listening Comprehension: A Blueprint for CAT Development. The Language Teacher Online، 21/10. Available at: http://langue. hyper. chubu. ac. jp/jalt/pub/tlt/97/oct/dunkel. html.
Educational Testing Service (2002a). ETS to Reorganize International Testing Operations. April 4. Available at: http://www/ets. org/news/02040301. html
Educational Testing Service (2002b). Paper-Based GRE General Test Returning to Parts of Asia. August 6. Available at: http://www/ets. org/news/02072301. html
Eignor، D.، Taylor، C.، Kirsch، I.، & Jamieson، J. (1998). Development of a Scale for Assessing the Level of Computer Familiarity of TOEFL Examinees. Educational Testing Service: Research Reports، Report 60. (RR-98-7).
Frase، L. T. (1997). Technology for Language Assessment & Learning: Introduction & Comments on the State of the Art. In Huhta، A.، Kohonen، V، Lurki-Suonio، L، & Luoma، S. (Eds). Current Developments & Alternatives in Language Assessment. Jyväskylä: Jyväskylä University.
Fulcher، G. (2000). Computers in Language Testing. In Brett، P. & Motteram، G. (Eds). A Special Interest in Computers. Whitesatble: IATEFL.
Guernsey، L. (1999). Bowing to Criticism، ETS Suspends Computerized Tests in 20 African Nations. The Chronicle of Higher Education، February 12، 45/23: A47-A48.
Hamilton، L.، Klien، S. P.، & Lorié (no date). Using Web-Based Testing For Large-Scale Assessment. R& Education.
Hawk، D. L. (2002). Is The ONC Exam Still a Paper-&-Pencil Test? Orthopaedic Nursing، 21/4: 74.
Hsu، T-C، & Yu، L. (1989). Using Computers to Analyze Item Response Data. Educational Measurement: Issues & Practice، 8/3: 21-28.
Huff، K. L. & Sireci، S. G. (2001). Validity Issues in Computer-Based Testing. Educational Measurement: Issues & Practices، 20/3: 16-25.
Kenyon، D. M. & Malabonga، V. (2001). Comparing Examinee Attitudes Toward Computer-Assisted & Other Oral Proficiency Assessments. Language Learning & Technology، 5/2: 60-83.
Kirsch، I.، Jamieson، J.، Taylor، C، & Eignor، D. (1998). Computer Familiarity Among TOEFL Examinees. Educational Testing Service: Research Reports، Report 59. (RR-98-6).
Kobrin، J. L. (2000). An Investigation of the Cognitive Equivalence of Computerized & Paper-&-Pencil Reading Comprehension Test Items. Paper presented at the Annual Meeting of the American Educational Research Association، New Orleans، Louisiana. (ED 442 836).
Mason، B. J.، Patry، M، & Bernstein، D. J. (2001). An Examination of the Equivalence between Non-Adaptive Computer-Based & Traditional Testing. Journal of Educational Computing Research، 24/1: 29-39.
Mason، O. & Grove-Stephensen، I. (2002). Automated Free Text Marking with Paperless School. Proceedings from the 6th CAA Conference، pgs. 213-219. Loughborough: Loughborough University.
McDonald، A. S. (2002). The Impact of Individual Differences on the Equivalence of Computer-Based & Paper-&-Pencil Educational Assessments. Computers & Education، 39/3: 299-312.
McMinn، M. R.، Ellens، B. M.، & Soref، E. (1999). Ethical Perspectives & Practice Behaviors Involving Computer-Based Test Interpretation. Psychological Assessment، 6/1: 71-77.
Mead، A. D. & Drasgow، F. (1993). Equivalence of Computerized & Paper-&-Pencil Cognitive Ability Tests: A Meta-Analysis. Psychological Bulletin، 114/3: 449-458.
Meijer، R. R. & Nering، M. L. (1999). Computerized Adaptive Testing: Overview & Introduction. Applied Psychological Measurement، 23/3: 187-194.
Mitchell، T.، Russell، T.، Broomhead، P.، & Aldridge، N. (2002). Towards Robust Computerized Marking of Free-Text Responses. Proceedings from the 6th CAA Conference، pgs. 233-249. Loughborough: Loughborough University.
Niemeyer، C. (1999). A Computerized Final Exam for a Library Skills Course. Reference Services Review، 27/1: 90-106.
Neuman، G. & Baydoun، R. (1998). Computerization of Paper-&-Pencil Tests: When are they equivalent? Applied Psychological Measurement، 22/1: 71-83.
Ogilvie، R. W.، Trusk، T. C.، & Blue، A. V. (1999). Student’s Attitudes Towards Computer Testing in a Basic Science Course. Medical Education، 33: 828-831.
Olsen، J. B.،Maynes، D. D.،Slawson، D.،Ho، K. (1986). Comparison & Equating of Paper-Administered، Computer-Administered & Computerized Adaptive Tests of Achievement. Paper presented at the Annual Meeting of the American Educational Research Association، San Franscisco، CA. (ED 274 714).
Olsen، B. & Krendl، K. A. (1990). At-risk students & microcomputers: What do we know & how do we know it? Journal of Educational Technology Systems، 19/2: 165-175.
Parshall، C. G. & Balizet، S. (2001). Audio Computer-Based Tests (CBTs): An Initial Framework for the Use of Sound in Compterized Tests. Educational Measurement: Issues & Practice، 20/2: 5-15.
Pomplun، M.، Frey، S، & Becker، D. F. (2002). The Score Equivalence of Paper-&-Pencil & Computerized Versions of a Speeded Test of Reading Comprehension. Educational & Psychological Measurement، 62/2: 337-354.
Powers، D. E. (2001). Test Anxiety & Test Performance: Comparing Paper-Based & Computer-Adaptive Versions of the Graduate Record Examinations (GRE) General Test. Journal of Educational Computing Research، 24/3: 249-273.
Powers، D. E.، Burstein، J. C، Chodorow، M.، Fowles، M. E. & Kukich، K. (2001). Stumping E-Rater: Challenging the Validity of Automated Essay Scoring. Educational Testing Service: GRE Board Professional Report No. 98-08bP. (RR-01-03).
Reckase، M. (1989). Adaptive Testing: The Evolution of a Good Idea. Educational Measurement: Issues & Practice، 8/3: 11-15.
Ricketts، C. & Wilks، S. (2001). Is Computer-Based Assessment Good for Students? In Danson، M. & Eabry، C. (Eds). Proceedings from the 5th CAA Conference. Loughborough: Loughborough University.
Roever، C. (2001). Web-Based Language Testing. Language Learning & Technology، 5/2: 84-94.
Roid، G. (1989). Item Writing & Item Banking by Microcomputer: An Update. Educational Measurement: Issues & Practice، 8/3: 17-20.
Sawaki، Y. (2001). Comparability of Conventional & Computerized Tests of Reading in a Second Language. Language Learning & Technology، 5/2: 38-59.
Spray، J. A.، Ackerman، T. A.، Reckase، M. D، & Carlson، J. E. (1989). Effect of the Medium of Item Presentation on Examinee Performance & Item Characteristics. Journal of Educational Measurement، 26/3: 261-271.
Taylor، C.، Jamieson، J، Eignor، D.، & Kirsch، I. (1998). The Relationship Between Computer Familiarity & Performance on Computer-Based TOEFL Test Tasks. Educational Testing Service: Research Reports. Report 61 (RR-98-8).
Taylor، C.، Kirsch، I.، & Eignor، D. (1999). Examining the Relationship Between Computer Familiarity & Performance on Computer-Based Language Tasks. Language Learning، 49/2: 219-274.
Vispoel، W. P. (2000). Computerized Versus Paper-&-Pencil Assessment of Self-Concept: Score Comparability & Respondent Preference. Measurement & Evaluation in Counseling & Development، 33/2: 130-143.
Vispoel، W. P.، Boo، J.، & Bleiler، T. (2001). Computerized & Paper-&-Pencil Versions of the Rosenberg Self-Esteem Scale: A Comparison of Psychometric Features & Respondent Preferences. Educational & Psychological Measurement، 61/3: 461-474.
Vispoel، W. P، Rocklin، T. R.، & Wang، T. (1994). Individual Differences & Test Administration Procedures: A Comparison of Fixed-Item، Computerized Adaptive، & Self Adapted Testing. Applied Measurement in Education، 7/1: 53-79.
Wainer، H. (1993). Some Practical Considerations when Converting a Linearly Administered Test to an Adaptive Format. Educational Measurement: Issues & Practice، 12/1: 15-20.
Webster، J. & Compeau، D. (1996). Computer-Assisted versus Paper-&-Pencil Administration of Questionnaires. Behavior Research Methods، Instruments، & Computers، 28/4: 567-576.
Wise، S. L. & Plake، B. S. (1989). Research on the Effects of Administering Tests via Computer. Educational Measurement: Issues & Practice، 8/3: 5-10.
Young، R.، Shermis، M. D، Brutten، S. R.، & Perkins، K. (1996). From Conventional to Computer-Adaptive Testing of ESL Reading Comprehension. System، 24/1: 23-40.
Z&vliet، D. & Farragher، P. (1997). A Comparison of Computer-Administered & Written Tests. Journal of Research on Computing in Education، 29/4: 423-438.
قائمة بمصطلحات هامة في الاختبارات
كرستين كوم Christine Coombe
نانسي هوبلي Nancy Hubley
Achievement test |
|
اختبار تحصيلي |
||||||
يقيس ما يعرفه المتعلم مما كان قد تعلمه، وهذا النمط من الاختبارات يعطيه المعلم على نحو نموذجيّ في وقت معين أثناء برنامج الدراسة ويغطي قدراً معيّنا من المادة. |
||||||||
Alignment |
|
ربط |
||||||
عملية ربط معايير المضمون ومحكات الأداء مع التقييم، والتدريس والتعلم في الصف. |
||||||||
Alternative assessment |
|
تقييم بديل |
||||||
يشير إلى طريقة غير تقليدية لتقييم ما يعرفه الطلاب وما يمكنهم عمله في مجال اللغة، وهو غير رسمي وغالبا ما يدار في الصف، ومن الأمثلة على هذا النوع من التقييم: التقييم الذاتي، وتقييم ملف نشاط الطالب. |
||||||||
Alternate forms |
|
أشكال بديلة |
||||||
هي إصدارات مختلفة من أهداف التقييم نفسها، تكتب لتتفق مع مواصفات عامة، وتكون قابلة للمقارنة في معظم المجالات باستثناء بعض الأسئلة -أو كلها- التي تختلف في المضمون. |
||||||||
Analytical scale |
|
مقياس تحليلي |
||||||
نموذج من سلم الدرجات يتطلب من المدرسين أن يقدموا درجات منفصلة للمكونات المختلفة للقدرة اللغوية مثل المضمون، والنحو، والمفردات.إلخ. وهذا النموذج من التقييم يتطلب من المدرسين أن يأخذوا في الاعتبار أبعاداً متعددة للأداء بدلاً من إعطاء انطباع عام. |
||||||||
Anchor items |
|
بنود معتمدة |
||||||
مجموعة من البنود التي تبقى في شكلين أو أكثر في اختبار يهدف إلى المعادلة. وتوجد هذه الميزة في اختبارات الحاسوب المتكيفة، وفي اختبارات نظرية الاستجابة للبند IRT. |
||||||||
Aptitude test |
|
اختبار استعداد |
||||||
اختبار القدرة العامة الذي يكون عادة أساساً للتنبؤ بالأداء المستقبلي، ولا يتصل بالمقرر الخاص اتصالاً وثيقاً. |
||||||||
Assessment |
|
تقييم |
||||||
عملية جمع وتحديد ووصف معلومات أو أداء. |
||||||||
Authenticity |
|
أصالة |
||||||
تشير إلى التقييم المبني بناءً رئيساً على تجارب الحياة الحقيقية، ويكشف الطلاب عما تعلموه بأداء مهام شبيهة بتلك المطلوبة في سياقات الحياة الحقيقية، وهذا أحد أحجار الزاوية في التدرب على الاختبار الجيّد. |
||||||||
Banding scale |
|
مقياس فئوي |
||||||
نموذج من السلم الجمعي الذي يقيس المقدرة اللغوية بوساطة وصف القدرة اللغوية. ومن الأمثلة على ذلك اختبار IELTS |
||||||||
Benchmark |
|
سمة |
||||||
وصف تفصيلي لمستوى معين من أداء الطلاب المتوقع عند أعمار أو صفوف معينة أو عند مستويات تطور |
||||||||
Bias |
|
انحياز |
||||||
في الاستخدام العام يشير هذا المصطلح إلى ظلم الاختبار للمتقدمين له. |
||||||||
Branching test |
|
اختبار متفرع |
||||||
تقييم يمكن أن يعطى فيه للشخص المتقدم للاختبار مجموعات مختلفة من البنود بالاعتماد على استجاباتهم للبنود الأولى، وهذه ميزة لاختبارات التكيف الحاسوبية. |
||||||||
Ceiling effect |
|
تأثير القدرة الأعلى |
||||||
الظاهرة التي يسجل فيها معظم المتقدمين للاختبار درجات عند قمة السلم في اختبار معين، فالاختبار لا يميز مستويات القدرة الأعلى بدقة. |
||||||||
Composite score |
|
درجة مركبة |
||||||
الدرجة المركبة من دمج درجتين أو أكثر بصيغة معينة ما. |
||||||||
Computer-adaptive testing(CAT) |
|
اختبار حاسوبي متكيّف |
||||||
يطرح بنوداً لغوية للمتعلم عبر الحاسوب، أما الأسئلة اللاحقة في الاختبار فهي "مكيفة" بناء على استجابة أو استجابات الطلاب للأسئلة السابقة. |
||||||||
Comouter-based testing(CBT) |
|
اختبار معتمد على الحاسب الآلي |
||||||
هي الاختبارات التي تجرى للطلاب بالحاسوب وتكون بنود الأسئلة في الغالب موضوعية وأهدافها منفصلة، وتصحّح هذه الاختبارات آليا في وقت لاحق. |
||||||||
Concurrent validity |
|
صدق تلازمي |
||||||
العلاقة بين اختبار ومقياس آخر موجود. |
||||||||
Construct |
|
البناء الاختباري |
||||||
المجموعة الكاملة من المعارف أو المهارات أو القدرات أو الصفات التي يقصد التقييم قياسها. |
||||||||
Content validity |
|
صدق المحتوى |
||||||
هذا النمط من الصدق يشير إلى اختبار ما تعلمه الطلاب وكيف تعلموه. واختبار المضمون يغطي بطريقة ما مواد الدورة باستخدام تصاميم اختبارية مألوفة للطالب. |
||||||||
Cornerstones of good testing practice |
|
أحجار الزاوية في التدريب الجيد على الاختبار |
||||||
هي المفاهيم التي تعزز التدريب على الاختبار الجيد، وهي تشمل الجدوى، والمصداقية، والفعالية، والموثوقية، والعلمية، والشفافية، والضمان. |
||||||||
Construct validity |
|
صدق البناء |
||||||
يشير إلى التوافق بين الخلفية النظرية والمنهجية المستخدمة في البرنامج ووسائل وأدوات التقييم التي تدير البرامج. |
||||||||
Constructed-response item |
|
بند الاستجابة المبنية |
||||||
نمط من بنود الاختبار الذي يتطلب من الطلاب أن ينتجوا استجاباتهم الخاصة بهم بدلاً من أن يختاروا من سلسلة من الاستجابات المقدمة لهم. |
||||||||
Criterion-referenced test |
|
اختبار معياري المحك |
||||||
يقارن بين أداء الطلاب ونواتج أو خبرات معينة. |
||||||||
Curve grades |
|
منحنى الدرجات |
||||||
يشير إلى ممارسة التدريب حيث يضيف المعلمون أو يطرحون نقاطا من اختبار كي يجعلوا الدرجات تبدو مقبولة، وتسمى أحيانا درجات تكييفية. |
||||||||
Cut score |
|
درجة فاصلة |
||||||
نقطة على سلم الدرجات يصنف الطلاب فوقها بطريقة ما، ويصنف الطلاب دونها بطريقة مختلفة.
|
||||||||
Descriptive statistics |
|
إحصاء وصفي |
||||||
الإحصاء الذي يصف المجتمع الإحصائي أو يقدم معلومات مختصرة عن الناس الذين يتقدمون للامتحان، إن أكثر الإحصائيات الوصفية شيوعاً تشمل المتوسط، والمنوال، والانحراف المعياري. |
||||||||
Diagnostic test |
|
اختبار تشخيصي |
||||||
نمط من التقييم الذي يسعى إلى تشخيص نقاط القوة ونقاط الضعف عند الطلاب، ومن الناحية النموذجية لا يحصل الطلاب على درجات على وسائل التشخيص. |
||||||||
Difficulty |
|
صعوبة |
||||||
الدرجة التي يكون البند الاختباري ضمن مدى قدرة الطالب. ومثال ذلك اختبارات البراعة والإنجاز. |
||||||||
Directed-response item |
|
بند الاستجابة الموجهة |
||||||
بند اختباري يصمم لاختيار إجابة من مجموعة مغلقة أو مقيدة الاختيارات. |
||||||||
Direct test |
|
اختيار مباشر |
||||||
اختبار يقيس القدرة عبر أداء يقترب من حوار لغوي حقيقي.
|
||||||||
Discrete-point test |
|
اختبار النقاط المتقطعة |
||||||
اختبار موضوعي يقيس قدرة الطالب على إجابة أسئلة حول جانب معين من اللغة، وتلقى بنود النقاط المقطعة شعبية بين المدرسين لسهولة تصحيحها. |
||||||||
Discrimination |
|
تمييز |
||||||
قوة بند ما على التفريق بين المتقدمين للاختبار في مستويات مختلفة لقدرة معينة. |
||||||||
Distractor |
|
مشتّت |
||||||
إجابة خاطئة تجذب الطالب إلى اختيارها في اختبار الاختيارات المتعددة أو اختبارات المزاوجة. |
||||||||
Distribution |
|
توزيع |
||||||
انتشار لمجموعة من درجات الاختبار أو المعلومات. |
||||||||
Equating |
|
تكافؤ |
||||||
عملية إحصائية تستخدم لتكييف الدرجات على شكلين بديلين أو أكثر لتقويم ما بحيث يمكن أن تستخدم استخداماً متبادلاً. |
||||||||
Equity |
|
إنصاف |
||||||
الاهتمام بالعدالة أو أن يكون التقويم خاليا من الانحياز أو المحسوبية. وينبغي أن تراعى التقييمات في الحدّ الأدنى ما يلي: أ- القوالب. ب- الحالات التي تفضل ثقافة ما على أخرى. ت- اللغة المفرطة ذات المتطلبات التي تمنع بعض الطلاب من إظهار معرفتهم. ث- الطاقة الكامنة للتقويم كي يشمل طلاباً من ذوي العاهات أو قدرة محدودة في اللغة الإنجليزية. |
||||||||
Equivalent forms |
|
أشكال متكافئة |
||||||
طبعات مختلفة للتقويم نفسه، تكتب لتوائم مواصفات شائعة وقابلة للمقارنة في معظم الأنحاء باستثناء اختلاف بعض الأسئلة أو جميعها المضمون. |
||||||||
Error |
|
خطأ |
||||||
التذبذبات غير المنتظمة تنشأ عن عوامل مثل التخمين والتصحيح غير الموثوق. الخطأ هو الفرق بين الدرجة الخام والدرجة الحقيقية للفرد. |
||||||||
Evaluation |
|
تقويم |
||||||
حين يستخدم لمعظم الأطر التربوية فإن التقويم يعني القياس، والمقارنة والحكم على نوعية عمل الطالب أو على المدارس أو على برنامج تربوي معين. |
||||||||
Face validity |
|
صدق ظاهري |
||||||
يشير إلى المظهر العام للاختبار، وهو الحد الذي يرضي المتقدم للاختبارين. |
||||||||
Fairness |
|
عدالة |
||||||
الحد الذي يكون عنده الاختبار ملائما لأعضاء المجموعات المختلفة بصرف النظر عن الجنس أو العرق..إلخ |
||||||||
Forced-choice item |
|
بند جبري الاختبار |
||||||
بند يتطلب من المتقدم للاختبار أن يختار من خيارات معطاة له. |
||||||||
Formative evaluation |
|
تقييم بنائي |
||||||
يشير إلى الاختبارات التي صممت لتقيس تحصيل الطلاب في أهداف تدريسية، وتقدم هذه الاختبارات تأثيرا راجعا عن الدرجة التي تمكّن الطلاب عندها من إتقان المواد التي درسها، وتشمل الأمثلة على هذا النمط من التقويم اختبارات التحصيل والإتقان. |
||||||||
Grade Inflation |
|
تضخم الدرجات |
||||||
يشير إلى قضية إعطاء الطلاب درجات أعلى مما يستحقون أو درجات لا تتناسب مع مستويات قدراتهم اللغوية.
|
||||||||
Halo effect |
|
تأثير الهالة |
||||||
نزعة لدى المقيّم بأن يجعل هناك انطباعات عامة لدى شخص ما تؤثر في مزيد من المعايير الخاصة في التقييم. |
||||||||
High-stakes test |
|
الاختبار المصيري |
||||||
يمكن أن تؤثر درجة ناتج اختبار أو تقييم في مستقبل المتقدم للاختبار، فالاختبار المصيري هو الاختبار الذي يتوقف عليه مستقبل المتقدم للاختبار في النجاح أو الرسوب. |
||||||||
Histogram |
|
رسم بياني |
||||||
طريقة لعرض المعلومات الإحصائية بصرياً بوساطة رسم بياني. |
||||||||
Holistic scoring |
|
تدريج جمعي |
||||||
يقوم على طريقة انطباعية في إعطاء الدرجات، وكمثال على هذا التدريج فإنه يستخدم في اختبار TOEFL في الإنجليزية المكتوبة أو في نظام اختبار IELTS |
||||||||
Impact |
|
أثر |
||||||
التأثير الذي يتضمنه الاختبار في الطالب الفرد، أو على النظام التعليمي، أو على المجتمع. |
||||||||
Indirect test |
|
اختبار غير مباشر |
||||||
لا يتطلب من الطالب أداء مهام تتصل مباشرة بنوع استخدام اللغة الهدف في الصف الدراسي. |
||||||||
Integrative testing |
|
اختبار تكاملي |
||||||
يذهب إلى ما وراء اختبار النقاط المنفصلة والقدرة اللغوية النصية، ويطلب من المتقدم للاختبارين أن يدمجوا مهارات مختلفة ليجيبوا عن أسئلة الاختبار، والإملاء الجزئي مثال على ذلك. |
||||||||
Interlocutor |
|
مُحاور |
||||||
هو الشخص الذي يتحدث مع المتقدم للاختبار في اختبار شفهي. |
||||||||
Inter-rater reliability |
|
صدق داخلي للتقييم |
||||||
يحاول أن يضع مقاييس التناسق في الدرجات بين مقيمين أداء الاختبار، وتتأسس عبر تأهيلهم على المعايرة. |
||||||||
Item |
|
بند |
||||||
سؤال واحد أو تمرين في تقييم أو وسيلة تقييم.
|
||||||||
Item bank |
|
بنك أسئلة |
||||||
محتوى كبير أو عدد من البنود تقيس المهارة أو القدرة نفسها، وغالباً ما يؤسس البنك في الاختبارات الموضوعية وخاصة في CBT / CAT |
||||||||
Item analysis |
|
تحليل البنود |
||||||
العملية التي يتم بموجبها فحص بنود الاختبار وبنود التضليل بناء على مستوى صعوبة البند وعلى الدرجة التي تميز بين التحصيل العالي والمنخفض عند الطلاب، وتستخدم نتائج التحليلات للاستمرار في حفظ مواد المصرف ومراجعتها. |
||||||||
Item response theory (IRT) |
|
نظرية الاستجابة للبند |
||||||
نموذج رياضي يتصل بالأداء حول أسئلة عن ميزات المتقدم للاختبارين وميزات البند. |
||||||||
Item violation |
|
انتهاك البند |
||||||
يشير إلى خطأ شائع يقترفه المدرسون حين يكتبون الاختبار. |
||||||||
Inter-rater reliability |
|
صدق خارجي للتقييم |
||||||
الدرجة التي تحقق انسجاماً بين عدد من واضعي الدرجات أو المقدرين في استخدام مقياس تقسيمي للكفاءة، وهو يشير إلى المطابقة الفكرية بينهم. |
||||||||
Key |
|
مفتاح |
||||||
إجابة صحيحة ودقيقة للسؤال. |
||||||||
Live pilot |
|
استطلاع حي |
||||||
ممارسة تستخدمها المؤسسات التي لا تملك الوقت أو المصادر لتوجيه بنود الاختبار، وهذا يشير إلى تطبيق الاختبار الذي لم يحصل تطبيقه من قبل بل هو الاختبار الذي يقوم بقوة على مواصفات صادقة تجريبيا وكتبها فاحصون مؤهلون. |
||||||||
Live test |
|
اختبار حي |
||||||
هو اختبار قيد الاستخدام حاليا، أو اختبار يخزّن لتطبيقه مستقبلاً. |
||||||||
Mean |
|
المتوسط |
||||||
هو المتوسط الحسابي، وهو إحصاء وصفي، وللحصول على المتوسط اجمع الدرجات معاً، وقسّمها على عدد الطلاب الذين أدوا الاختبار.
|
||||||||
Median |
|
الوسيط |
||||||
إحدى مقاييس النزعة المركزية، وهو يمثل 50% أو الدرجة الوسطى. |
||||||||
Mode |
|
المنوال |
||||||
أكثر الدرجات أو الأرقام شيوعاً في توزيع ما. |
||||||||
Moderation |
|
الاعتدال |
||||||
عملية مراجعة أو تقويم مواد الاختبار أو أداء وضع الدرجات. |
||||||||
Monkey score |
|
إجابة عشوائية صحيحة |
||||||
تعني التخمين العشوائي أو الحرفي للدرجة التي يمكن لمتقدم للاختبار أن يحصل عليها لو أشار إلى إحدى الإجابات عشوائياً، وفي الأسئلة متعددة الاختيار ذات الخيارات الأربع يسجل الفرد 25%. |
||||||||
Multiple-choice test |
|
اختبار متعدد الاختيارات |
||||||
بند يطلب فيه من الطالب أن يختار الإجابة الصحيحة من مجموعة مختارة من خيارات الاستجابات، تشمل أسئلة الاختيار من متعدد جذعاً (السؤال للإجابة عنه والجملة لإكمالها) وعدداً من الخيارات للإجابة، إحدى هذه الخيارات هي المفتاح في حين تكون الإجابات الأخرى مضللة. |
||||||||
Norm-referenced test |
|
اختبار معياري التفسير |
||||||
يقيس القدرة اللغوية مقابل معيار أو عادة في الأداء لمجموعة. إن الاختبارات المُعيّرة مثل TOFLE هي اختبارات معيارية لأنها تعدّ عبر إدارات سابقة لأعداد كبيرة من الطلاب. |
||||||||
Objective test |
|
اختبار موضوعي |
||||||
يمكن أن تعطى فيه الدرجات حصراً على مفتاح إجابة ولا تحتاج إلى حكم خبير أو إلى ذاتية المصحح. |
||||||||
Observed score |
|
درجة الملاحظة |
||||||
الدرجة التي يحرزها الطالب ليحصل على شكل خاص من التقويم في اختبار معين. |
||||||||
Ordering |
|
ترتيب |
||||||
يشير إلى تتابع مواد الاختبار في اختبار ما ويعدّ عاملاً مهماً في تطوير الاختبارات، ويمكن لهذا العامل أن يؤثر في الدرجات، وهناك عموماً طريقتان لترتيب أو لتتابع البنود وتنظيمها 1- عدد قليل من البنود في بداية الاختبار وتتابع بقية البنود عشوائياً. 2- تتابع البنود من السهل إلى الصعب.
|
||||||||
Outlier |
|
شذوذ |
||||||
يشير إلى درجة متطرفة أو شاذة لا يبدو أنها تنتمي إلى نمط الإجابة العامة من المجتمع، فالدرجات المتطرفة قد تحرف التوزيع لأن المتوسط حساس جداً إزاءها. |
||||||||
Parallel tests |
|
اختبار مواز |
||||||
طبعات متعددة من الاختبار، وهذه الاختبارات تكتب مع عدم إغفال أمن الاختبار، وتشترك هذه الاختبارات في الإطار نفسه ولكن البنود تختلف. |
||||||||
Patching |
|
تجميع |
||||||
ممارسة في اختبارات المؤسسات ذات المعايير العالية حيث تكون الدرجات الفرعية مقبولة لدى إجراء اختبارات مختلفة، فيمكن أن يأخذ الطالب اختبارا ويرسب في قسمين من ثلاثة أقسام وبذلك لن يحتاج إلى أن يعيد القسمين اللذين نجح فيهما. |
||||||||
Performance-based test |
|
اختبار قائم على الأداء |
||||||
يتطلب أن يظهر الطلاب ما يمكنهم عمله في اللغة مقابل ما يعرفونه عنها. وغالباً ما يشار إلى هذا باختبار المهمة . |
||||||||
Performance standards |
|
معايير الأداء |
||||||
التعريفات الصريحة عما يجب على الطالب أن يفعله ليظهر الكفاية في مستوى معين. |
||||||||
Piloting |
|
دراسة استطلاعية |
||||||
ممارسة شائعة بين فاحصي اللغة: فالاستطلاع هو عملية تجرى ببند أو بتصميم ( اختبار) على مجموعة صغيرة مختارة وممثلة للمجتمع ليجري اختبارها. وعادة ما تستخدم المعلومات من الاستطلاع لمراجعة البنود وتحسينها. كذلك تعرف بالاختبار الميداني أو التجريبي. |
||||||||
Placement test |
|
اختبار تحديد المستوى |
||||||
يجرى على الطلاب الجدد بهدف وضعهم في مستوى المقدرة الصحيح، أما مضمون اختبارات المستوى فهي خاصة بمنهج معين. وأكثر ما تكون اختبارات المستوى نجاحاً لدى إعدادها في المنزل . |
||||||||
Portfolio assessment |
|
تقييم ملف نشاط الطالب |
||||||
إحدى النماذج البديلة للتقييم، الملف هو مجموعة تمثيلية من أعمال الطالب عبر فترة ممتدة من الزمن. والهدف هو توثيق تقدم الطالب في تعلم اللغة عبر إكمال مهام مثل التقارير، والمشاريع، والأعمال الفنية، والمقالات.
|
||||||||
Practicality |
|
ممارسة عملية |
||||||
أحد أحجار الزاوية لممارسة الاختبار الجيد. الممارسة العلمية تشير إلى القضايا العملية التي ينبغي على المدرسين والإداريين أن يضعوها في حساباتهم حين يجرون الاختبارات بما يشمل الوقت والموارد المتاحة. |
||||||||
Practice effect |
|
أثر التدريب |
||||||
ظاهرة إجراء اختبارين بالمضمون نفسه أو ما يشبهه وكون النتيجة ذات درجة عالية في الاختبار الثاني دون زيادة حقيقية في القدرة اللغوية. |
||||||||
Predictive validity |
|
صدق التنبؤ |
||||||
يقيس كيف يتنبأ الاختبار بالأداء بوساطة معيار خارجي. |
||||||||
Pretest |
|
اختبار قبلي |
||||||
إجراء اختبار أو مجموعة بنود اختبارات قبل أن تطبق عملياً بغرض جمع المعلومات عن الطلاب أو تحديد المشكلات في بنود الاختبار. |
||||||||
Proficiency test |
|
اختبار كفاية |
||||||
ليس مختصاً بمنهج ما، إنه يقيم المستوى العام لمقدرة الطالب في اللغة بالمقارنة مع بقية الطلاب الذين يدرسون تلك اللغة كافة. والمثال على ذلك امتحان TOFLE مقابل أداء معين . |
||||||||
Profile marking |
|
درجة معتمدة على ملف |
||||||
ويدعى أيضا الدرجة التفصيلية. يعد الأساتذة ملفا خاصاً بدرجات الطلاب بعد وضعهم الدرجات للاختبارات. |
||||||||
Range |
|
مدى |
||||||
أحد الإحصائيات الوصفية أو مقاييس الانحراف عن المركز. المدى هو الحدّ الأعلى والحدّ الأدنى وهو أقلّ وأكبر درجة في التوزيع. |
||||||||
Rater |
|
مقيّم |
||||||
هو الشخص الذي يقيّم ويحكم على أداء الطالب في مقابل أداء خاص. |
||||||||
Rater training |
|
تأهيل القائم بتقييم الاختبار |
||||||
عملية تأهيل المقدر ليقوّم عمل الطالب ويعطي درجات موثوقة . |
||||||||
Rating scale |
|
سلّم الدّرجات |
||||||
الأدوات المستخدمة لتقويم الكتابة والقراءة. وهي إما تحليلية، أو تدريجية جمعية، أو الدمج بينهما .
|
||||||||
Raw score |
|
درجة خام |
||||||
عدد البنود صحيحة الإجابة. |
||||||||
Readability |
|
المقروئية |
||||||
هي مستوى صعوبة القراءة لنص ما. معظم الاستدلالات مبنيّة على المفردات (التكرار والطول) وبناء الجملة (الطول المتوسط للجملة) وتشمل المقروئية المعروفة ما ورد في (Flesch – Kincaid and Fry) . |
||||||||
Reliability |
|
الثبات |
||||||
أحد أحجار الزاوية في عملية الاختبار الجيد، والثبات يعني انسجام نتائج الاختبارات من خلال إجرائها إجراء متكرراً، ومن خلال الدرجة التي تكون فيها نتائج التقويم موثوقة ومنسجمة مع معرفة الطالب ومهارته . |
||||||||
Reported score |
|
درجة مسجلة |
||||||
الدرجة الواقعية التي تبلّغ للطالب . |
||||||||
Retired test |
|
اختبار متقاعد |
||||||
هو اختبار لم يعد (حياً) في المجال العام. ويدلّ على اختبار كان في وقت ما آنفاً صادقاًُ إحصائياً. فالاختبار المتقاعد يستخدم الآن غالباً مواد للتدريب. |
||||||||
Security |
|
سرية |
||||||
مقاييس إجراءات تتبع لتضمن أن يبقى الاختبار حياً وعاملاً وليس في يد الخاضعين للامتحان |
||||||||
Self-assessment |
|
التقييم الذاتي |
||||||
يطلب من الطلاب أن يحكموا على مستوى قدراتهم الخاصة في اللغة. وهذا نمط آخر للتقويم البديل . |
||||||||
Severity |
|
صرامة |
||||||
هذه صفة للمقدّر. يكون الكثير كرماء بشكل متساوٍ أو متساهلين في الدرجات (حمائم). بينما يكون آخرون بشكل متساوٍ قساة (صقور) . |
||||||||
Specifications |
|
مواصفات |
||||||
وثيقة تنص على الغاية من استخدام الاختبار ومن يقصد به. ويشمل السؤال عادة جميع التعليمات، وأمثلة من تصاميم / بنود اختبارات، ووزن المعلومات، ومعيار النجاح أو الرسوب. |
||||||||
Speededness |
|
سرعة |
||||||
المدى الزمني الذي يحتاج إليه الطلاب ليجيبوا عن بنود في معظم الاختبارات. والسرعة ليست صفة مرغوبة .
|
||||||||
Stakeholders |
|
ذوو اهتمام |
||||||
كل أولئك الذين يحملون جانبا أو مصلحة من استخدام أو تأثير أو تقويم اختبار ما . |
||||||||
Standardized test |
|
اختبار مقنن |
||||||
يقيس القدرة اللغوية على أساس أعراف علمية أو معايير. |
||||||||
Standard Error of Measurement (SEM) |
|
قياس الخطأ المعياري |
||||||
طريقة للتعبير عن ثبات الاختبار . |
||||||||
Stem |
|
جملة السؤال |
||||||
القسم الأول لسؤال متعدد الإجابة وغالباً ما يتخذ شكل السؤال أو جملة ناقصة. |
||||||||
Test Stimulus |
|
مواد اختبارية |
||||||
مادة تقدم على أنها جزء من الاختبار أو المهمة ينبغي على المتقدم للاختبار أن يجيب عنها. |
||||||||
Subjective test |
|
اختبار ذاتي |
||||||
يتطلب معرفة بمضمون المجال الذي يتمّ اختباره، وغالبا ما يعتمد الاختبار الذاتي على الانطباع، وعلى الحكم والرأي الإنسانيين وقت وضع الرجة. |
||||||||
Summative evaluation |
|
تقييم ختامي |
||||||
يشير إلى الاختبار الذي يعطى عند نهاية دورة أو قسم من الدورة، وهدف الاختبار الإجمالي هو أن يعطي الطالب درجة تمثل مدى إتقانه لمضمون الدورة. |
||||||||
Test anxiety |
|
قلق الاختبار |
||||||
الشعور بالعصبية أو بالخوف الذي يحيط بالتقويم، ويمكن أن يحدث قبل أو في أثناء الاختبار ويحمل إمكانية التأثير على الأداء في للاختبار. |
||||||||
Test equivalence |
|
اختبار متكافئ |
||||||
الاختبارات التي تبنى من مجموعة مواصفات الاختبار نفسها مع كون الهدف هو اختبار المهارات نفسها، ويتوقع أن تكون درجات هذين الاختبارين متماثلة أو متشابهة. |
||||||||
Test-Retest |
|
إعادة تطبيق الاختبار |
||||||
الاختبارات المتوازية تجرى قبل حصول التعليم، وبعد ذلك يجرى الاختبار بهدف تحديد أو قياس كمية اللغة التي تعلمها الطالب خلال وقت ما. |
||||||||
Test wiseness |
|
حكمة التعامل مع الاختبار |
||||||
يشير إلى مقدار ونمط الاستعداد أو الخبرة السابقة للشخص الذي يؤدي الاختبار. |
||||||||
Transparency |
|
وضوح |
||||||
فكرة أن للمدرسين والطلاب الحق في أن يعرفوا كيف سيقوّمون وما هو المعيار الذي سوف يستخدم لتقويمهم. |
||||||||
True score |
|
درجة حقيقية |
||||||
هي الدرجة التي يمكن أن يحصل عليها الطالب لو كان الاختبار موثوقاً تماماً. |
||||||||
Validity |
|
الصدق |
||||||
إحدى أحجار الزاوية في ممارسة الاختبار الجيد، وهذا يشير إلى الدرجة التي ينبغي على الاختبار بها أن يقيس ما يفترض قياسه. |
||||||||
Wash back |
|
تأثير انعكاسي |
||||||
أحد أحجار الزاوية في إعداد الاختبار الجيد، وهذا يشير إلى التأثير الذي يمتلكه اختبار أو برنامج اختباري في المنهج. |
||||||||
Weighting |
|
وزن السمة المقيسة |
||||||
يشير إلى القيمة التي تعطى لمهارات معينة ضمن اختبار محدد عبر إدارة سابقة لأعداد كبيرة من الطلاب. |
||||||||