تعلم الآلةعلم البياناتمترجم

5 أسباب لكي يكون الانحدار اللوجستي أول شيء تتعلمه عندما تصبح عالم بيانات

كتابة: Dima Shulga   ترجمة: أسيل الداود   مراجعة: فارس القنيعير

[تم ترجمة هذا الدرس من موقع kdnuggets]

قد بدأت طريقي في عالم علوم البيانات منذ بضع سنوات. فقد كنت مهندسًا للبرامج في ذلك الوقت، وبدأت أتعلم عبر الإنترنت أولاً (قبل بدء درجة الماجستير). أتذكر أنه عندما بحثت عن موارد على الإنترنت، رأيت أسماء خوارزميات التعلم فقط -الانحدار الخطي (Linear Regression)، آلة المتجهات الداعمة (Support Vector Machine)، شجرة القرار (Decision Tree)، الغابة العشوائية (Random Forest)، الشبكات العصبية (Neural Networks)، وما إلى ذلك. كان من الصعب جداً فهم من أين يجب أن أبدأ. اليوم أعلم أن أهم شيء لتتعلمه كي تصبح عالم بيانات هو خط سير العمل (pipeline)، ويتكون من عملية الحصول على البيانات ومعالجتها، وفهم البيانات، وبناء النموذج، وتقييم النتائج (كل من نتائج النموذج ومرحلة معالجة البيانات) والنشر. تعلم الانحدار اللوجستي في البداية يمكنك من أن تصبح محيطاً بخط سير العمل وألا ترتبك بالخوارزميات المعقدة الأخرى.

يمكنك قراءة المزيد عن تجربتي في الانتقال من هندسة البرامج إلى علم البيانات في هذا المنشور.

إذن، هناك 5 أسباب تجعلني أعتقد اليوم أنه يجب أن تبدأ بالانحدار اللوجستي أولاً لكي تصبح عالم بيانات. هذا هو رأيي بالطبع، بالنسبة للأشخاص الآخرين، قد يكون من الأسهل عليهم القيام بالأشياء بطريقة مختلفة.

لأن خوارزمية التعلم ليست سوى جزء من خط سير العمل

كما قلت في البداية، إن عمل علوم البيانات ليس مجرد بناء نموذج. حيث يشمل هذه الخطوات:

يمكنك أن ترى أن “النمذجة” (“Modeling”) هي جزء من هذه العملية المتكررة. عند إنشاء منتج بيانات، من الأفضل إنشاء خط سير العمل بأكمله أولاً، والاحتفاظ به بسيطا قدر الإمكان، وفهم ما تحاول تحقيقه بالضبط، وكيف يمكنك قياس نفسك وما هو خطك الأساسي (baseline). بعد ذلك، يمكنك القيام بتعلم الآلة بشكل رائع والقدرة على معرفة ما إذا كنت تتحسن.

بالمناسبة، يمكن استخدام الانحدار اللوجستي (أو أي خوارزمية لتعلم الآلة) ليس فقط في جزء “النمذجة” ولكن أيضًا في “فهم البيانات” و “إعداد البيانات”.

لأنك ستفهم تعلم الآلة بشكل أفضل

أعتقد أن السؤال الأول الذي يطرحه الناس على أنفسهم عند قراءة هذا العنوان هو لماذا الانحدار “اللوجستي” وليس الانحدار “الخطي”. والحقيقة هي أنه لا يهم. هذا السؤال وحده يضيف إلى المفهوم نوعين من خوارزميات التعلم الموجه (supervised learning): 1- التصنيف (الانحدار اللوجستي) 2- والانحدار (الانحدار الخطي). عند إنشاء خط سير العمل باستخدام الانحدار اللوجستي أو الانحدار الخطي، تصبح على دراية بمعظم مفاهيم تعلم الآلة مع المحافظة على بساطة الأشياء. مفاهيم مثل التعلم الموجه والغير موجه (Supervised and Unsupervised Learning)، التصنيف مقابل الانحدار، المشاكل الخطية مقابل غير الخطية، وغيرها الكثير. كما أنك تحصل على فكرة حول كيفية إعداد البيانات الخاصة بك، والتحديات التي قد تكون هناك (مثل اختيار الخصائص)، كيف يمكنك قياس النموذج الخاص بك، إذا كنت تستخدم “الضبط” (Accuracy)، “الدقة – الاستدعاء” (Precision-Recall)، “المساحة تحت منحنى دقة الأداء” (ROC AUC)؟ أو ربما “متوسط ​​تربيع الخطأ” (Mean Squared Error) و “ارتباط بيرسون” (Pearson Correlation)؟ كل هذه المفاهيم هي من أهم أجزاء سير عملية علوم البيانات. بعد أن تكون على دراية بها، ستتمكن من استبدال نموذجك البسيط بنماذج أكثر تعقيدًا بكثير.

لأن “الانحدار اللوجستي” هو (في بعض الأحيان) كافي

الانحدار اللوجستي هو خوارزمية قوية للغاية، حتى بالنسبة للمشاكل المعقدة للغاية فهي قد تعمل بشكل جيد. لنأخذ MNIST (قاعدة بيانات للأرقام بخط اليد) على سبيل المثال، يمكنك تحقيق نسبة 95٪ من الدقة باستخدام الانحدار اللوجستي فقط، فهي ليست نتيجة رائعة، ولكنها أكثر من كافية لتضمن أن خط سير العمل جيد. في الواقع، مع التمثيل المناسب للخصائص، يمكنها القيام بعمل رائع. عند التعامل مع المشكلات غير الخطية، نحاول أحياناً تمثيل البيانات الأصلية بطريقة يمكن تفسيرها بشكل خطي. إليك مثال بسيط لهذه الفكرة: نريد إجراء مهمة تصنيف بسيطة على البيانات التالية:

Y X2 X1
1 0 2-
1 0 2
0 0 1-
0 0  1

 

 

إذا رسمنا هذه البيانات، فسنتمكن من رؤية أنه لا يوجد سطر واحد يمكنه فصلها:

 plt.scatter([-2, 2], [0, 0 ], c=’b’)

plt.scatter([-1, 1], [0, 0 ], c=’r’)

 في هذه الحالة، لن يساعدنا الانحدار اللوجستي دون عمل شيء ما مع البيانات، ولكن إذا أسقطنا خاصية x2 الخاصة بنا واستخدمنا x1² بدلاً من ذلك، فسيبدو كالتالي:

Y x1^2 x1
1 4 2-
1 4 2
0 1 1-
0 1 1

الآن، هناك خط بسيط يمكنه فصل البيانات. بالطبع، هذا المثال البسيط لا يشبه الحياة الواقعية، وفي الحياة الواقعية، سيكون من الصعب معرفة كيف تحتاج بالضبط إلى تغيير بياناتك حتى يساعدك المصنف الخطّي، ولكن إذا استغرقت بعض الوقت في هندسة واختيار الخصائص لديك قد يقوم الانحدار اللوجستي بعمل جيد للغاية.

لأنها أداة مهمة في الإحصاء

الانحدار الخطي جيد ليس فقط للتنبؤ، بمجرد تدريبك لنموذج الانحدار الخطي يمكنك تعلم أشياء حول العلاقات بين المتغيرات المستقلة والغير مستقلة، أو بلغة تعلم الآلة “ML”، يمكنك معرفة العلاقات بين الخصائص والقيمة المستهدفة. فلننظر في مثال بسيط حيث لدينا بيانات حول أسعار المنازل، لدينا مجموعة من الخصائص والسعر الفعلي. نحن ندرب نموذج الانحدار الخطي لنحصل على نتائج جيدة. يمكننا أن ننظر إلى الأوزان الفعلية التي تعلمها النموذج لكل خاصية وإذا كانت ذات أهمية، فيمكننا القول أن بعض الخصائص أكثر أهمية من غيرها. علاوة على ذلك، يمكننا القول أن حجم المنزل، على سبيل المثال، مسؤول عن 50٪ من التغير في سعر المنزل، والزيادة 1 متر مربع في الحجم يؤدي إلى زيادة في 10 آلاف في سعر المنزل. الانحدار الخطي هو أداة قوية لتعلم العلاقات في البيانات، والإحصائيون يستخدمونها في كثير من الأحيان.

لأنها بداية رائعة لتعلم الشبكات العصبية

بالنسبة لي، ساعدني دراسة الانحدار اللوجستي كثيرًا عندما بدأت في تعلم الشبكات العصبية. يمكنك التفكير في كل عصبون في الشبكة كانحدار لوجستي، فهو يحتوي على المدخلات، والأوزان، والتحيز، وتقوم بعمل dot product لكل ذلك، ثم تقوم بتطبيق بعض الوظائف غير الخطية. علاوة على ذلك، فإن الطبقة الأخيرة للشبكة العصبية هي نموذج خطي بسيط (معظم الوقت). ألقِ نظرة على هذه الشبكة العصبية الأساسية للغاية:

دعونا نلقي نظرة أقرب على “طبقة المخرجات” (output layer)، يمكنك أن ترى أن هذا هو انحدار خطي (أو لوجستي) بسيط، لدينا المدخلات (الطبقة الخفية 2)، لدينا الوزن، نقوم ب dot product ثم نضيف دالة غير خطية (وذلك يعتمد على المهمة). طريقة لطيفة للتفكير في الشبكات العصبية هي تقسيم الشبكة العصبية (NN) إلى قسمين، جزء التمثيل، وجزء التصنيف/الانحدار:

يحاول الجزء الأول (على اليسار) تعلم تمثيل جيد للبيانات التي ستساعد الجزء الثاني (على اليمين) على إجراء تصنيف/انحدار خطي. يمكنك قراءة المزيد عن هذه الفكرة في هذه المشاركة الرائعة.

الخاتمة

هناك الكثير الذي يجب معرفته إذا كنت تريد أن تصبح أحد علماء البيانات، وللوهلة الأولى، يبدو أن خوارزميات التعلم هي الجزء الأكثر أهمية. والحقيقة هي أن خوارزميات التعلم معقدة للغاية في معظم الحالات وتتطلب الكثير من الوقت والجهد لفهمها، ولكنها ليست سوى جزء صغير من خط سير العمل في علوم البيانات.

المصدر
kdnuggets
اظهر المزيد

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى