تحليل البياناتتعلم الآلةعلم البيانات

الفرق بين تحليل الانحدار وتحليل الارتباط

كثيراً ما يطرح سؤال إحصائي لدى محللين البيانات عن الفرق بين تحليل الانحدار (regression) وتحليل الارتباط (correlation) وثمّة إلتباس لدى الكثير في أنه لا فرق بينهما، في هذه المقالة نستعرض بعون الله الفرق بينهما ومجالات استخدام كل منهما. سنشرع في البداية بالتحليل الانحداري ثم التحليل الارتباطي انتهاءً بالاستخدامات والفروقات بينهما.

تحليل الانحدار

بدايةً، الانحدار هو عبارة عن علاقة بين متغيرات مستقلة ومتغير تابع ويوجد به نوعان: انحدار خطي وانحدار لوجستي. الانحدار الخطي يبين مدى تأثير وحدة واحدة من المتغير المستقل في وحدة واحدة من المتغير التابع في معادلة الخط المستقيم -يمكن الرجوع لمقال الانحدار الخطي والانحدار المتعدد للدكتور فارس القنيعير- وهو يخص القيم المتواصلة (continuous number). بينما الانحدار اللوجستي يبين مدى تأثير تغيّر وحدة واحدة من المتغير المستقل في إحتمالية (probability) حدوث المتغير التابع الذي يتمثل بخيار ثنائي فقط أو بمعنى آخر، إحتمالية حدوث الحدث الإيجابي عندما يكون لدينا قيم متقطعة أو فئات لنوعين فقط (binary). 

وعلى كل حال ففي الانحدارات -لا داعي لأن تكون مُلم الآن بالانحدار اللوجستي- فإن تحليل الإنحدار يخبرنا عن مدى حسابي سينتج عنه تغير كل وحدة من المستقل في المتغير التابع ويكون هذا التغير مُمثل بالمُعامل في معادلة الخط المستقيم (coefficient). يجدر بنا هنا الإشارة الى أن العلاقة في الانحدار هي علاقة موجهة بمعنى أن الزيادة في المتغير التابع كان ناتج عن الزيادة في المتغير المستقل. ونستخدم هنا مثال الانحدار الخطي للبيوت فلو كان لدينا أسعار المنازل وعدد الغرف ونتج عن تدريب نموذج خطي يتكون من المساحة كمتغير مستقل والسعر كمتغير تابع Y = 50000 + 1800X ، فهنا كل متر مربع إضافي في مساحة الأرض تكون نتيجته زيادة $1800 في سعر البيت وعلى هذا فقِس. 

و أود أن أُلفت القارئ الكريم إلى نقطة أخرى جميلة -قد تكون لمستوى متقدم- فعند تدريب نموذج انحدار ننتقل لاختبار الفرضية (hypothesis testing) للمعاملات، واختبار الفرضية ينتج عنه قيم احتمالات (p-values) وهي احتمالية حدوث هذه العلاقة الانحدارية عن طريق الصدفة. كثير من الاحصائيين يعتبر العلاقة فعّالة وحقيقية وليست عن طريق الصدفة اذا كانت (p-value < 0.05) . المهم هنا فيما يخص التحليل الانحداري أنه كلما قلّت قيمة p-value عن 0.05 كلما كان المتغيّر المستقل مرتبط بشكل أقوى، و كلما اقترب من 1 كنا أكثر ثقة أنه لا يوجد علاقة انحدارية بينهم والمعامل الناتج في المعادلة الانحدارية كان عن طريق الصدفة فقط.

من المهم جداً هنا التفرقة بين تحليل الانحدار من ناحية قوّة ارتباط المتغيّر التابع بالمتغير المستقل، وبين نتيجة تغير المتغير المستقل في المتغير التابع. فالأولى (p-value) تخبرنا بنسبة (0-100%) عن مدى تأكدنا من وجود العلاقة (كلما اقتربت للصفر كنا أكثر ثقة من وجود العلاقة) وتكون ناتجة من اختبار الفرضية وتمثلها هنا (p-value). والثانية تخبرنا عن ماهو الناتج من هذه العلاقة -إن وجدت- وتكون ناتجة عن تدريب النموذج الانحداري وتمثلها المعاملات في معادلة الخط المستقيم (coefficients). وآخر نقطة ينبغي التنويه عليها في هذا الموضع، أنه لا يوجد ارتباط بين المعاملات واحتمالات (p-value)، فلا يوجد علاقة طردية أو عكسية بين المعاملات (coefficient) واحتمالية الصدفة (p-value). نكتفي هنا بهذا الكم فيما يخص التحليل الانحداري من زاوية اختبار الفرضية ولعلنا نسهب بالحديث عنه في مقال آخر مع استراتيجات تدريب النماذج الانحدارية.

وأختم ان نماذج الانحدار قد تكون فيه جميع انواع المتغيرات، فقد تكون المتغيرات المستقلة إما قيم مستمرة أو فئات وقد يجتمعان في نفس النموذج، والمتغير التابع يكون إما قيم مستمرة أو احتمال لفئات من اختيارين فقط (binary). 

الناتج من نموذج الانحدار

إن الناتج من تدريب نموذج انحداري هي معادلة على صورة المعادلة الخطية تحتوي على معاملات ومتغيرات تابعه ومستقلة. هذه المعادلة تمثل العلاقة بين كل المتغيرات المستقلة x والمتغير التابع y. وهذا النموذج يعتبر نموذج تنبؤي (predictive) ويستخدم لتوقع القيم المستقبلية للمتغير التابع عند معرفة قيم المتغيرات المستقلة. وبالرغم من كونه نموذج تنبؤي إلا أنه يستخدم للتحليل الوصفي ومن هنا نقول “تحليل الانحدار” وسنبين استخداماته في نهاية المقال.

تحليل الارتباط

لنعرّف أولاً الارتباط (correlation)، فالارتباط هو قيمة مُتجهة لوصف العلاقة الخطية بين متغيرين اثنين لهما قيم عددية، والعلاقة التي توصف بالارتباط تُمثّل في قيمة إحصائية تسمى (R) وقيمة R تقع في أي نقطة بين [1+,1-] وتمثل هذه القيمة مدى قوة الارتباط واتجاهه. فكلما اقتربنا من الصفر كانت العلاقة اضعف حيث صفر تعني أنه لا يوجد ارتباط بين المتغيرين، وكلما اقتربنا من الواحد في أي من الاتجاهات كان الارتباط أقوى، و غالبًا ما يقال أن العلاقة تكون قوية اذا كانت قيمة R أكبر من 0.7 أو أصغر من -0.7. أما إشارة R فتعني اتجاه الارتباط، فإذا كانت الإشارة موجبة فيعني ذلك أن الارتباط موجب أو طردي، وإذا كانت الإشارة سالبة فيعني ذلك أن الارتباط سلبي أو عكسي بينهم. 

جديرٌ بالانتباه هنا أن علاقة الارتباط ليست علاقة سببية بالضرورة أبداً أو كما هي المقولة المشهورة “correlation does NOT imply causation“. فالارتباط بين متغيرين لا يعني بالضرورة أن أحدهما يسبب الآخر، لكن ربما هناك عوامل أخرى تؤثر بهما جميعاً في نفس الوقت. مثال ذلك مبيعات المثلجات ومبيعات النظارات الشمسية يكون بينهما ارتباط طردي قوي لكن السبب في ذلك هو فصل الصيف. فكلما اشتدت حرارة الصيف كانت أشعة الشمس أقوى، فبالتالي يشتري الناس المثلجات ويشترون النظارات الشمسية في الصيف أكثر من الشتاء، فتزيد مبيعاتهما جميعاً في الصيف وتقل في الشتاء فيتغيران بنفس السلوك دائماً. بينما على العكس تمامًا، فزيادة درجات الحرارة مرتبطة مع زيادة مبيعات المثلجات وهي أيضاً سبب زيادة مبيعات المثلجات فالسببية هي علاقة منطقية بعد تحليل المتغيرات وليست ملازمة للارتباط.

الناتج من معامل الارتباط

وعلى عكس الناتج من نماذج الانحدار فإن الناتج من حساب معامل الارتباط R هي قيمة متجهة تقع بين [1+,1-] فالناتج هناك معادلة وهنا قيمة متجهة فقط. والقيمة الاحصائية R هي قيمة وصفية (descriptive) لتصنيف نوع العلاقة بين المتغيرين سواء كانت هذه المتغيرات مستقلة او تابعة. ومن الممكن دراسة الارتباط بين أي متغيرين لهما قيم عددية سواءً كانا في نفس النظام أم لا. ففي النماذج الانحدارية يمكن تحليل الارتباط بين متغيرين مستقلين وبين متغير مستقل ومتغير تابع في نفس الوقت ولا علاقة مباشرة لها بالتنبؤ.

الاستخدامات

تختلف استخدامات كثير من النماذج الإحصائية وقد تشترك بنفس معنى الخُلاصة وإن اختلف التفسير الوصفي لها، مع ذلك فلكل من هذه النماذج والتحاليل هدف من استخدامه. 

يستخدم التحليل الانحداري لضبط المتغيرات في النظام المدروس ولمعرفة مدى تأثير المتغيرات المستقلة في المتغير التابع مقارنة بالمتغيرات المستقلة الأخرى. ففي مثال البيوت اذا كان كل متر مربع يزيد من قيمة البيت بمقدار $1800، فلو أضفنا متغير مستقل آخر وهو عدد الغرف الى المعادلة فسوف ينتج لنا متغيّر آخر تستطيع به زيادة القيمة والربح. وهنا تكمن قوة محلل البيانات، فيقدم المحلل لمتخذ القرار الربح المتوقع من زيادة عدد الغرف دون زيادة في المساحة، أو زيادة المساحة دون زيادة عدد الغرف (تثبيت جميع المتغيرات ودراسة أحدهم بتغيير قيمته)، بعد ذلك يقارن متخذ القرار بين التكلفة والأرباح ويكون قراره قائم على نموذج احصائي علمي. ملاحظة هنا تستحق الاهتمام، ان زيادة عدد الغرف دون زيادة مساحة البيت سيُضيق مساحة الغرف الأخرى، وزيادة المساحة دون زيادة عدد الغرف ستزيد من مساحة الغرف. 

أما التحليل الارتباطي فيستخدم ببساطة لمعرفة اتجاه وقوة العلاقة الخطية بين أي متغيرين عدديّن. فهو فقط لتحديد العلاقة: قوة العلاقة (قوية، ضعيفة) واتجاهها (طردية، عكسية).

الفروقات

الخطوط المستقيمة تمثل نموذج الانحدار ومعامل الارتباط موضح اعلى الرسمة حسب قوة وضعف الارتباط

 

 

وعلى الرغم من أننا قلنا بأنه لا توجد علاقة مباشرة بين معامل الارتباط R وبين نموذج الإنحدار التنبؤي فيما يخص التحليل لكن معامل الارتباط مربعاً Rيستخدم لتقييم جودة نموذج الانحدار، فكلما كانت Rأكبر كانت معادلة الخط المستقيم أكثر دقة وأقل نسبة خطأ، وهذا دقيق جداً في الانحدار الخطي لمتغير واحد لكن ماذا لو كان نموذج الانحدار متعدد (أكثر من متغير مستقل واحد) ؟ ففي هذه الحالة قد يكون معامل الارتباط بين المتغير المستقل الأول والتابع x1⟺y قوي ومعامل الارتباط بين المتغير المستقل الثاني والتابع x2⟺y ضعيف بغض النظر عن قيمة R2. ومن هنا نزيد في التأكيد بأن علاقة الارتباط هي علاقة خطية فلا يمكنها دراسة علاقة ثلاث متغيرات y,x1,x2 في ذات الوقت، فمن المهم دراسة المتغيرات المستقلة والتابعة كل زوج على حِدته {(x1,x2),(y,x1),(y,x2)} وعلاقتها الارتباطية في النظام بغض النظر عن قوة نموذج الانحدار.

اظهر المزيد

AbdullahKhalid

بكالوريوس هندسة صناعية، ماجستير علوم وتحليل البيانات من جامعة الملك فهد للبترول والمعادن. مهتم بالنماذج الإحصائية وخوارزميات التجميع.

‫3 تعليقات

  1. موضوع جيد
    مع الاهذ بانه اذا كانت قيمة r مرتفعة دل ذلك على ان المتغيران يشبهوا بعض بتالي في عملية تدريب اي لوجستك مودل ممكن ان يتم الاستغناء عن احد هاذان المتغيران مع زيادة فاعلية الموودل.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى