تحليل البياناتعلم البيانات

اختبار أ/ب (A/B Testing)

كثيراً ما تصادفنا في بعض الإعلانات الترويجية جملة ” هذا المنتج الجديد لفترة محدودة ” أو ” العرض هذا لا يسري في كل المناطق. ” وبالمثل وبصورة مختلفة كليّاً قد تظهر مزايا وخصائص جديدة في تطبيقات التواصل الإجتماعي لدى بعض المستخدمين ولا تظهر لك، ألم تسأل نفسك لماذا هذه الانتقائية؟ نتحدث في هذا المقال بعون الله عن اختبار أ/ب (A/B Testing)، استخداماته، فوائده، وخصائصه، وأخيراً بعض أخطاؤه الشائعة.

اختبار أ/ب (A/B Testing)

اختبار أ/ب هو طريقة من تصميم التجارب (Design of experiment) وهو فرع من فروع الإحصاء التطبيقي يُعنى بالتخطيط وتحليل التغيرات التي تطرأ على النظام الحالي بهدف معرفة العوامل التي تؤثر في المتغير المستهدف (Target variable). تختلف مصادر كثيرة بأن أساس الاختبار كان من باحثين في مجال تجربة المستخدم (User Experience) ويقول آخرون أنه تسويقي بالأصل. والجميل في هذا الاختلاف أن نعلم قوة هذا الاختبار وتعدد استخداماته، فهي أداة إحصائية بحتة تستخدم أينما أردنا اختبار تغيير أو إضافة متغير في نظام معين.

تعتمد فلسفة اختبار أ/ب باختبار تغيير أو إضافة متغير ما إلى النظام وتعريضه إلى فئة معينة من العملاء أو الاستعمالات بهدف تقييم التغيير الذي طرأ على المتغير المستهدف.

متى يستخدم اختبار أ/ب

يستخدم اختبار أ/ب عندما لا يكون هناك بيانات سابقة كافية لنمذجة الحالة المراد تحليلها أو التنبؤ بها، وخصوصاً عندما لا يكون هناك الوقت والميزانية الكافية واحتمالية وجود مخاطر تشغيلية أو ربحية للتغيير.

متغيرات وعينات 

من الضروري عند القيام بتحليل لمتغير في نظام مكون من عدة متغيرات أن يتم تثبيت جميع المتغيرات الأخرى وتغيير أحدهم فقط ليتم معرفة تأثيره على النظام من دون الإنحياز أو الإلتباس بتأثير المتغيرات الأخرى. ومن نفس المنطلق فإنه قد يكون من المهم اختيار المتغير المراد تغييره في هذا الاختبار وهذا المتغير يسمى المتغير التجريبي (Experimental variable)، وهذا المتغير قد لا يكون له قيم عددية وسنوضح هذا فيما يلي. أما المتغيرات الأخرى التي لا يحدث عليها تغيير هي متغيرات الضبط (Control variables). 

أما فيما يخص العينات، فيجب تقسيم العينة إلى مجموعتين مختلفتين الأولى يُطلق عليها مجموعة الضبط (Control group) وهي الجزء من العينة التي لن يتم تعريضها للمتغير الجديد أو لن يتغير عليها شيء في النظام. المجموعة الأخرى هي المجموعة التي سوف يُختبر عليها تأثير وجود المتغير الجديد ويطلق عليها مجموعة المعالجة (Treatment group).

(مصدر الصورة)

قد يستطيع المحلل اختيار حجم العينة بشكل دقيق إذا كان الاختبار تقني، على عكس لو كان الاختبار لفرع مقهى أو مطعم فإن المحلل ليس له القدرة على التحكم بعدد الزوار. وعلى أي حال، فلا بد أن يحرص المحلل على اختيار أيام أو فروع متقاربة بالمبيعات وعدد الزيارات والديموغرافيا أو الكثافة العددية لكي لا تنتج عن الاختبار نتائج منحازة وتكون العينات مستقلة وعشوائية بما فيه الكفاية والمتغيرات الضابطة متشابهة إلى حد كبير لتحييد تأثيرها على النظام. وعلى أنه يُفضل بعض المحللين من جمع عينتين بالتساوي 50%-50% إلا أن العديد من المحللين لا يرون بأس من كونها 70%-30% والأهم هو التركيز على معدل التغيير ونسبته في المتغير المستهدف، والشيء المحوري هنا هو أن العينة تكون كافية للتمثيل. 

ويجدر بنا هنا التحدث قليلاً عن المتغير المستهدف (Target variable) وهو المتغير الذي سيتم تحديد أثر التغيير منه وقد يكون هو العامل الأهم في النظام. ففي أمثلة واجهات المستخدم إذا كان الموقع للمبيعات فإن تغيير زر لون الشراء لا يُقاس تأثيره بعدد الزوار الذين زاروا الموقع أثناء تغيير اللون ولكن نسبة الذين اشتروا من المجموعة التي ظهر لها اللون الجديد، وسنذكر عدة أمثلة في القسم التالي لبيان المفهوم بشكل أفضل.

ينبغي التنبيه إلى أن المتغير المستهدف ينبغي أن توضع له معادلة (Formula) تبعد انحياز حجم العينة عنه. فلو اعتبرنا عدد الأشخاص الذين ضغطوا على رابط إعلان إلكتروني هم المتغير المستهدف فسيتغير هذا العدد بحسب العينة التي شاهدت هذا الإعلان. وعلى العكس لو قلنا أن المتغير المستهدف هو عدد الأشخاص الذين ضغطوا على رابط الإعلان مقسوم على عدد العدد الكلي للأشخاص الذين شاهدوه لكل مجموعة على حدة.

تطبيقات وأمثلة

سنتحدث في هذا القسم عن عدة أمثلة وتطبيقات ونحدد فيها بعض المتغيرات والمتغير المستهدف والهدف من الاختبار.

التسعير

شركة تمتلك سلسلة من المقاهي في مدن مختلفة وتواجه منافسة من مقاهي أخرى في السوق ولُوحظ انخفاض في الايرادات (Target variable) للشركة بسبب شدة المنافسة. قرر أحد المحللين بالشركة استخدام اختبار أ/ب لتحديد ما إذا كان تقليل سعر القهوة (Treatment variable) سيزيد من إيرادات المقهى أم لا. قبل الشروع بالتغيير، تم تقسييم الفروع إلى عدة نطاقات بحسب المبيعات الشهرية وعدد الزوار ومساحة المكان وديموغرافية الموقع وتم اختيار فرعين متقاربين بشكل كبير بالنطاق وهذه تعتبر المتغيرات الضابطة (Control variables). الآن المقهى الذي سيتم تطبيق الخصم فيه يُطلق على زبائنه مجموعة المعالجة (Treatment group) بينما الفرع الذي أخذناه للمقارنة ولم يتغير به شيء يُطلق عليه مجموعة الضبط (Control group). بعد تحديد المدة الكافية واجراء الاختبار بنفس الوقت على الفرعين يتم حساب متوسط الإيرادات للفرد لكل فرع واختبار فرضية ما إذا كانت الإيرادات لمجموعة المعالجة أقل من مجموعة الضبط وبناءً عليه يتم تطبيق اختبار الفرضية باستخدام (Hypothesis testing). بناءً على النتائج من الاختبار يتم التأكد من أسباب ومنطقية النتائج وقد يتم تكرار الاختبار في نطاق آخر من الفروع قبل تعميمه.

الرعاية الصحية

(مصدر الصورة)

من أحد الصور المهمة لاختبار أ/ب هي اختبار فعالية الدواء لعلاج مرض معين. فيتم تقسيم المرضى إلى مجموعتين لهم مواصفات متشابهة بالعمر، العِرق، الجنس، ويحملون نفس المرض بكل تأكيد ونعتبر هذه المتغيرات هي الضابطة (control variables). مجموعة من المرضى سيتم إعطاؤهم دواء أو محلول ليس له أي تأثير على الجسم ويطلق عليه العلاج الوهمي (Placebo)، فمثلاً يتم إعطاؤهم ماء مُلوّن لإيهامهم بأنه دواء وهذه المجموعة يطلق عليها المجموعة الضابطة (Control group). أما المجموعة الأخرى فيتم إعطاؤهم الدواء الحقيقي وهؤلاء هم المجموعة المعالجة (Treatment group). تتم ملاحظة المجموعتين وعلاماتهم الحيوية لتحديد ما إذا كان للعلاج المُقترح أي تأثير حقيقي على حالة المريض الصحية أم أن الإيحاء النفسي للمريض من الدواء الوهمي كان له نفس التأثير. فهنا تختبر الفرضية (Hypothesis testing) إذا ما كانت حالة المرضى في المجموعة الضابطة الذين تلقوا علاج وهمي تحسنت بنفس القدر الذي تحسنت به حالة المجموعة المعالجة أم لا. وهنا يكون المتغير المستهدف (Target variable) هو حالة المرضى الصحية والدواء الحقيقي هو المتغير المعالج (Treatment variable). وبالمناسبة يتم تحديد ما إذا كان تأثير الدواء حقيقي إحصائيّاً إذا أثبتت مجموعة المعالجة فعالية أكبر من مجموعة الضبط. 

التجارة الالكترونية 

متجر الكتروني يريد معرفة ما إذا واجهة المستخدم الجديدة للمتجر ستزيد من إضافة المنتجات إلى السلة. تم برمجة الموقع حيث تظهر واجهة المستخدم الجديدة لبعض المستخدمين بشكل عشوائي على مدى أسبوع. مجموعة المعالجة هنا هي المجموعة التي سيظهر لها التصميم الجديد بينما مجموعة الضبط هي المجموعة التي سيظهر لها التصميم المعتاد. ليس العبرة بالتصميم الجديد هو زيادة عدد الزوار فقط فقد يكون سبب الزيارة هو التفاجئ بالتغيير أو أن عدد العينة يكون أكبر لكن العبرة بإضافة المنتج للسلة وزيادة احتمالية الشراء. فيكون هنا المتغير المستهدف (Target variable) نسبة الأشخاص الذين أضافوا منتجات إلى السلة. فهنا تكون المعادلة هي عدد الأشخاص الذين أضافوا منتجات مقسوم على عدد الزوار. ويطلق على هذا المقياس معدل التحويل (Conversion rate) فيتم حساب معدل التحويل لكل مجموعة وتختبر الفرضية على إثره وما إذا كان معدل التحويل للواجهة الجديدة أعلى من الواجهة المعتادة وتختبر الفرضية. ومن المهم هنا التركيز على أن معدل التحويل لا يكون بالغالب بمجموع التحويل للشخص ولكن بعدد الأشخاص الذين أقدموا على الإجراء المطلوب. 

أخطاء شائعة

هناك الكثير من الأخطاء التي قد يقع فيها المحلل عندما يشرع في تنفيذ اختبار أ/ب وأخص بالذكر هنا الأخطاء الإحصائية، فالأخطاء الفنيّة يفندها الخبراء كلٌ في مجاله أثناء تطبيقه للاختبار.

الإنحياز في العينة

أحد الأخطاء الفادحة هنا هو تقسيم العينات بحيث تكون غير تمثيلية للعموم. لنأخذ مثال التسعير هنا، فلو كانت المقارنة بين أحد الفروع التي تقع في أحد الأحياء عالية الدخل مع الفرع الآخر في الحي الأقل دخلاً فقد تنجح فكرة تقليل الأسعار عند الأحياء الأقل دخلاً بينما لا فرق لدى عالي الدخل بتقليل الأسعار بل قد تكون سلبية في نظرهم. فهنا لم نحافظ على العامل الديموغرافي في المقارنة فلا نستطيع تعميم نتائج الاختبار على كل الفروع الأخرى حتى لو نجح الاختبار برفع إيرادات الفرع الأقل دخلاً. 

الإنحياز في متغير المعالجة

متغير المعالجة هو مفتاح الاختبار وهو التغيير المستقبلي الذي ينتظر المحلل نتائجه. فتعريض أكثر من متغير معالج (Treatment varible) في نفس الاختبار بنفس الوقت قد يكون مربك ومُشتت لنتائج الاختبار فلن يتمكن المحلل من معرفة التأثير الحقيقي لكل متغير منهما. ففي مثال واجهة المستخدم إذا تم تغيير زريّن في الواجهة فلا يمكن قياس أثر كل زر لوحده فإما أن يتم اعتبار المتغيّر هو الصفحة الجديدة والصفحة القديمة أو يتم تغيير أحد الأزرار فقط لمعرفة تأثير الزر المفرد منهم. 

اختلاف الأوقات

عندما يتم المقارنة بين مجموعتين من العينة فمن الضروري جداً أن تتم المقارنة بنفس الوقت فإن لم يكن ذلك ممكناً فيحافظ على نفس الظروف الزمنية له، فالظروف الزمنية مهمة مع الأخذ بالاعتبار التأثير الموسمي (Seasonal effect). فلو تم اختبار فرضية تقليل سعر القهوة في أيام العمل فليس من الجيّد الحكم بتأثير النتيجة في عطل نهاية الأسبوع فالظروف الموسمية والزمنية هنا تختلف. فلابد من المقارنة في نفس الوقت أو بنفس الظروف الزمنية والموسمية على الأقل كالصيف والشتاء والعطل ليتم تعميم النتائج بموثوقية عالية.

الإيقاف المبكر

قد يستعجل المحلل النتائج حينما يرى أنها ناجحة ويريد إيجازها وسرعة تنفيذها وهذا قد يوقع في حرج كبير. حيث لابد أن يأخذ الاختبار دورة كاملة يحددها الخبير في مجاله. ففي مجال المبيعات قد نحتاج أن نكمل دورة اسبوعيّة أو شهرية لتغطية أنواع أخرى من الزبائن ولا نكتفي فقط بالانحياز إلى النتائج المبكرة. حتى لو وصل المحلل إلى حجم عينة مرضي ينبغي أن يكمل دورة الاختبار حتى النهاية. 

اختبار الفرضية الخاطئ

اختبار الفرضية (Hypothesis testing) هو اختبار افتراض معين عن مقياس يخص المجموعة الكلية (Population) بالاعتماد فقط على النتائج من عيّنة عشوائية تمثلها. ويهدف الاختبار لتحديد ما إذا كانت النتيجة حدثت عن طريق الصدفة أم لا بافتراض أن الفرضية الصفرية صحيحة (Null Hypothesis) ويتم فيها تحديد درجة الأهمية (Significance level) والتي تكون غالباً 0.05 أو 0.1 والمهم هنا هو معرفة عمل الاختبار وتصميم فرضيتاه الصفرية والبديلة (Alternative hypothesis). فيخطئ الكثير بتصميم الفرضية الصفرية خصوصاً، مما ينتج عنه نتائج مضللة ومربكة للنظام. 

قبل أن نختم هذا المقال، أحرص جداً للتنبيه على أن اختبار أ/ب هو أداة احصائية بحتة لها أساس علمي إحصائي، وهي ليست محصورة على صورة معينة أو مجال معين بل يمكن تطبيقها في مجالات كثيرة منها الصناعية والخدمية أيضاً. وأن هذا الاختبار هو صورة معينة من صور تصميم التجارب الإحصائية (Design of Experiment) التي – في المستوى المتقدم منها – يمكن قياس مدى تأثير عدة متغيرات بطرق مختلفة، لمن هو مهتم يستطيع البحث أكثر في هذا المجال. والمحلل هو المتحكم بتخطيط وتطبيق الاختبار جنباً إلى جنب مع خبير فني في مجال التطبيق. 

 

أرجو أن تكون هذه النبذة المبسطة توضح مبتغى الاختبار وأهدافه ومصطلحاته وتعين على التعمق في هذا المجال.

اظهر المزيد

AbdullahKhalid

بكالوريوس هندسة صناعية، ماجستير علوم وتحليل البيانات من جامعة الملك فهد للبترول والمعادن. مهتم بالنماذج الإحصائية وخوارزميات التجميع.

‫3 تعليقات

  1. مقال رائع ، واثرائي
    من الوهلة الأولى تراه يسلط الضوء ” تقنياً ” ولكن ما ان تتعمق فيه سوف تجده مزيجاً من الافكار التي تساعد المختصين في مجالات عدة Digital Marketing & UI-UX & Data-System analysis

    ممتن جدا لك

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى