علم البياناتمترجم

أساسيات الرياضيات لعلم البيانات: “لماذا” و “كيف”

كتابة: Tirthajyoti Sarkar ترجمة ومراجعة: يحيى خوجه وهيا الداوود

[المقال الأصلي بالإنجليزي اضغط هنا]

الرياضيات هي حجر الأساس لأي مادة علمية معاصرة. لذلك أمر غير مستغرب أن تكون جميع أساليب علم البيانات الحديثة (و التي تشمل تعلم الآلة) مبنية على مبادئ رياضية عميقة. في هذا المقال سنتحدث عن مواضيع الرياضيات الأساسية لتصبح عالم بيانات أفضل من جميع النواحي.

مقدمة

الرياضيات هي حجر الأساس لأي مادة علمية معاصرة. لذلك، أمر غير مستغرب أن تكون جميع أساليب علم البيانات الحديثة (و التي تشمل تعلم الآلة) مبنية على مبادئ رياضية عميقة.

أحياناً كعالم بيانات (أو حتى كمحلل بيانات في فريق) يجب عليك تعلم أساسيات رياضية عن ظهر قلب لاستعمال أو تطبيق التقنيات بشكل جيد. أحياناً أخرى تستطيع تجاوز ذلك باستعمال API أو الخوارزميات الجاهزة.

على أي حال، حصولك على فهم قوي لمبادئ الرياضيات في الخوارزميات التي تستعملها لبناء منصة اقتراحات شرائية لعملاءك مثلاً لن يضرك أبداً. في معظم الأحيان سيجعلك هذا متقدماً عن زملائك وسيعطيك ثقةً أكبر. معرفة كيف يعمل محرك السيارة (حتى و إن كان بشكل سطحي) يجعلك أفضل ممن يقودها دون أي علم بكيفية عملها.

كما أنه أمر مفروغ منه أنك تحتاج قدر كبير من العلم والقدرة على البرمجة والبعض من المعرفة بإدارة الأعمال وعقليتك المتميزة لتحليل واستكشاف البيانات لتكون من أفضل عالمي البيانات. كل ما أحاول فعله من خلال هذا المقال هو تقديم مؤشرات لأهم مهارات الرياضيات التي ستساعدك في الوصول لذلك المستوى.

نقطة مهمة للمبتدئين

معرفة أساسيات الرياضيات تعتبر ذات أهمية عالية بالذات لمن يحاول دخول مجال علم البيانات بعد قضاء وقت طويل في مجال آخر مثل الهندسة أو البيع بالتجزئة أو صناعة الكيماويات أو الطب والقطاع الصحي أو إدارة الأعمال أو غيرها.

قد تعتقد أنك عملت بما فيه الكفاية على جداول البيانات والحسابات الكمية والتنبؤية في عملك الحالي، لكن الطلب على مهارات الرياضيات الأساسية يختلف بشكل كبير في تطبيقات علم البيانات.

لماذا و كيف تختلف – السبب في المنهجية العلمية وليست البيانات

خذ على سبيل المثال مطور ويب (أو محلل أعمال). ربما يتعاملون مع الكثير من البيانات والمعلومات بشكل يومي، لكن ذلك قد لايتطلب تطوير أي نماذج دقيقة لمعالجة هذه البيانات. أغلب الأحيان يكون هناك ضغط زمني كبير ويكون التركيز على “استعمال البيانات لاحتياجاتك الحالية” دون التعمق في خواص البيانات نفسها بمنهجية علمية. شئت أم أبيت، يحب أن يكون تركيز عالم البيانات على المنهجية العلمية (وليس البيانات)، وعلى هذا السياق تصبح بعض الأدوات و التقنيات جوهرية. معظمها تشكل أساسيات المنهجية العلمية السليمة:

  • بناء نموذج رياضي لآلية (ملموسة أو معلوماتية) من خلال فهم الديناميكيات التي تشكلها
  • بناء الفرضيات
  • تنبؤ جودة مصدر البيانات بتمعن
  • تحديد مدى الشك في البيانات والتنبؤات
  • تدريب حدس الشخص على تحديد الأنماط المخفية في مجموعة البيانات
  • فهم حدود ونقاط ضعف النموذج الرياضي
  • (أحياناً) فهم إثبات رياضي والمنطق المجرد الذي خلفه

هذا النوع من التدريب، أو معظمه – القدرة على التفكير، ليس فقط عن طريق أرقام جافة بل عن طريق مبادئ رياضية مجردة (وخواصها والعلاقات التي تربطها ببعض)، جزء من أي برنامج جامعي للتخصصات العلمية. لا يحتاج أن يكون الشخص الأول على الدفعة من جامعة عليا حتى يتعرض لهذه المبادئ ولكن للأسف تعرضنا لهذه المبادئ غالباً يتوقف بعد الجامعة ولا يكتمل نموه ليرسخ في عقلياتنا، و لا أتحدث عن مادة التفاضل والتكامل التي قد درستها في سنتك الأولى بالجامعة. أنا أتحدث عن ما هو أبسط من ذلك … مثل الرقم 2…

“افترض أنك تجلس على مكتبك في الصباح – مستعد لمواجهة تحديات العمل المعقدة. فجأة يصلك بريد إلكتروني من مديرك (أو صديقك المحب للرياضيات) بهذا التحدي – أوجد الإثبات الرياضي أن الجذر التربيعي للرقم 2 عدد غير نسبي في أقل من دقيقتين

هذه هي الفكرة…

كفانا حديثاً – أريد أن أرى المخطط الأساسي للنجاح

هذه مشكلة. لا يوجد مخطط معروف. علم البيانات بطبيعته غير مرتبط بأي موضوع محدد فقد يتعامل مع ظواهر متنوعة مثل تشخيص مرض السرطان وتحليل التعاملات الاجتماعية في نفس المشروع. هذا يؤدي إلى تقاطع تشكيلة معقدة ذات أبعاد كثيرة من العوامل الرياضية و التوزيعات الإحصائية ودوال الهدف التحسيني وغيرها.

توقف رجاءاً.

ماهي هذه الأشياء المذكورة أعلاه؟ بدقة وبشكلٍ جاد.

هذه اقتراحاتي المنتقاة للمواضيع التي نحتاج دراستها أو التشبع منها حتى نكون من الصفوة في مجال علم البيانات.

دوال، متغيرات، معادلات، رسومات بيانية

ماذا؟: سنبدأ من أهم المبادئ مثل معادلة الخط المستقيم لنظرية المعادلات ذات الحدين وخواصها:

  • اللوغاريتمات، الأس، دوال كثيرات الحدود، الأرقام النسبية
  • أساسيات علم الهندسة ونظرياتها، خواص الدوال المثلثية
  • الأرقام الحقيقية والمركبة وخواصها الأساسية
  • المتسلسلات والجمع والمتباينات
  • الرسم البياني، الإحداثيات الكارتيزية والقطبية، المقطوعات المخروطية

مثال (أو اثنين) لكيفية استعمالها: إذا أردت أن تفهم كيف يمكن أن تسرع عملية البحث في قاعدة بيانات تحتوي على مليون وحدة بعد أن تم فرزها، ستتعامل مع مبدأ البحث الثنائي (binary search). حتى تفهم خواصه، يجب أن تفهم اللوغاريتمات والمعادلات التكرارية. أو إذا أردت تحليل متسلسلة زمنية فقد تواجه مبادئ مثل الدوال الدورية والتضاؤل الأسي.

أين تتعلم:

الإحصاء

ماذا؟: بالتأكيد يجب عليك أن تكون ملماً بالإحصاء لتنمو كعالم بيانات. أهمية حيازة فهم بتمكن للمبادئ الأساسية للإحصاء والإحتمالات لا يمكن المبالغة فيها في نقاش حول علم البيانات. الكثير من المتمرسين في علم البيانات يطلقون على تعلم الآلة التقليدي (غير الشبكات العصبية) بأنها شكل آخر للتعلم الإحصائي. موضوع الإحصاء واسع ولا ينتهي ولذلك يجب التخطيط بتركيز على أهم المبادئ:

  • ملخصات البيانات والإحصاء الوصفية، الميول المركزي، التباين (variance)، التغاير (covariance)، الارتباط (correlation)
  • أساسيات الاحتمالات: الأفكار الأساسية، التوقع، تفاضل وتكامل الاحتمالات، نظرية بايز (Bayes)، الاحتمالات الشرطية
  • دوال توزيع الاحتمالات: موحد، طبيعي، ثنائي المتغيرات، كاي-تربيع، توزيع-t، نظرية الحد المركزي
  • العينات، القياس، الخطأ، توليد الأرقام العشوائي
  • اختبار الفرضيات، اختبار أ/ب، فترات الثقة، قيم-p
  • اختبار-t و ANOVA
  • الانحدار الخطي والضبط

مثال (أو اثنين) لكيفية استعمالها: في المقابلات الشخصية دون شك. تمكنك من جميع المبادئ المذكورة أعلاه كعالم بيانات ناشئ سينال إعجاب الشخص الجالس أمامك بسرعة. كما أنك سوف تستخدم بعض هذه المبادئ بشكل يومي في عملك كعالم بيانات.

أين تتعلم:

الجبر الخطي

ماذا؟: اقتراح إضافة صديق على Facebook. اقتراح فيديو جديد على Youtube. تحويل صورتك الشخصية لرسمة شخصية من الفنان سلفادور دالي باستعمال التعلم العميق. ماهو العامل المشترك؟ المصفوفات والجبر الخطي. هذا فرع أساسي من الرياضيات لفهم كيف تعمل معظم خوارزميات تعلم الآلة لإيجاد شيء جديد في مجموعة بيانات. هذه أهم المواضيع

  • الخواص الأساسية للمصفوفات والمتجهات – الضرب العددي، التحول الخطي، المنقول (transpose)، الرتبة (rank)، المحدد (determinant)، المرافق (conjugate)
  • الضرب الداخلي و الخارجي، قانون ضرب المصفوفات، معكوس المصفوفة
  • المصفوفات الخاصة – المصفوفة المربعة، مصفوفة الوحدة، المصفوفة المثلثة، المصفوفات المتناثرة والكثيفة، المتجهات الأحادية، المصفوفات المتماثلة، المصفوفات الهرماتية
  • مفهوم تحليل المصفوفات الى عوامل باستخدام التفكيك العلوي والسفلي، الإلغاء الجاوسي وجاوس-جوردان، حل نظام معادلات خطي Ax = b
  • فضاء المتجهات، قاعدة المصفوفات، مدى المصفوفات، تعامد المصفوفات، التعامد الطبيعي، طريقة المربعات الصغرى
  • قيم آيقن، متجهات آيقن، تفكيك القيم الأحادية، استقطار المصفوفة

مثال (أو اثنين) لكيفية استعمالها: إذا كنت تستعمل طريقة لتقليص الأبعاد مثل تحليل المكونات الرئيسية (PCA)، فإنك بالتأكيد تستعمل تفكيك القيم الأحادية للوصول إلى تمثيل لمجموعة البيانات بأبعاد وقيم أقل. كما أن جميع خوارزميات الشبكات العصبية تستعمل الجبر الخطي لتمثيل ومعالجة تركيبة الشبكة والقيام بعمليات التعلم.

أين تتعلم:

علم التفاضل و التكامل

ماذا: ها قد عاد! سواء أحببته أم كرهته خلال أيام الجامعة، الحقيقة هي أن مفهوم وتطبيقات علم التفاضل والتكامل يعاود الظهور مراراً و تكرارً في مواضيع مختلفة في مجال علم البيانات و تعلم الآلة. انه متواجد خلف الحلول التحليلية البسيطة لمشكلة المربعات الصغرى العادية في الانحدار الخطي، و مضمن في كل انتشار عكسي في شبكتك العصبية مما سيجعلها تتعرف على نمط جديد. إنها مهارة في غاية الأهمية وإضافة مهمة لمخزونك المعرفي. هنا بعض مواضيع التعلم:

  1. دالة المتغير الوحيد، النهاية(Limit)، الاستمرارية و التفاضل
  2. نظرية القيمة المتوسطة، الصيغة غير المعينة وقاعدة لوبيتال
  3. النقاط العظمى والصغرى
  4. قاعدة الضرب وقاعدة السلسلة
  5. متسلسلة تايلور، مفاهيم جمع و تكامل المتسلسلات اللانهائية
  6. نظرية القيمة الأساسية و نظرية القيمة المتوسطة لحساب التكامل، التكامل المحدد والتكامل غير المحدد
  7. دالتي غاما و بيتا
  8. دوال القيم المتعددة، النهاية، الاستمرارية، المشتقات الجزئية
  9. أساسيات المعادلة التفاضلية العادية و الجزئية (ليس متقدماً جداً)

مثال (أو اثنين) لكيفية استعمالها: هل سبق و تساءلت كيف بالضبط يتم تطبيق خوارزمية الانحدار اللوجستي. هناك احتمال كبير أنه يستخدم طريقة تدعى “النزول الاشتقاقي” لإيجاد دالة الحد الأدنى من الخسارة. لكي تفهم كيف تعمل عليك أن تستخدم مفاهيم مختلفة من علم التفاضل والتكامل- الإنحدار، المشتقات، النهايات وقاعدة السلسلة.

أين تتعلم:

الرياضيات المتقطعة

ماذا: هذا الموضوع قليل أن يتم مناقشته في سياق “الرياضيات في علم البيانات”. لكن الحقيقة هي أن علوم البيانات الحديثة يتم عملها بمساعدة أنظمة حاسوبية، والرياضيات المتقطعة تعد جوهر هذه الأنظمة. مراجعة الرياضيات المتقطعة ستزود المتعلم بمفاهيم أساسية لاستخدام الخوارزميات وهياكل البيانات في مشاريع تحليل البيانات، بعض مواضيع التعلم هنا:

  • المجموعات، المجموعات الجزئية، مجموعة القوى
  • دوال التعداد، الرياضيات التوافقية، قابلية العد
  • مهارات البرهان الرياضي- البرهان بالاستقراء، البرهان العكسي
  • أساسيات المنطق الاستقرائي
  • أساسيات هياكل البيانات- مكدس (stacks)، رتل (queues)، الرسوم البيانية، المصفوفات، جداول التقطيع (hash tables)، الهيكل الشجري
  • ميزات الرسوم البيانية – العناصر المترابطة، المستوى، مفاهيم الحد الأقصى للتدفق/ القص الأدنى، الترميز اللوني
  • العلاقات والمعادلات المتكررة
  • مفاهيم نمو الدوال و مفهوم تعقيد O الكبيرة (big O notation)

مثال (أو اثنين) لكيفية استعمالها: في أي تحليل الشبكة الاجتماعية تحتاج أن تكون ملماً بخصائص الرسوم البيانية والخوارزميات السريعة لإجراء عمليات البحث و المسح على الشبكة. مهما كان اختيارك من الخوارزميات عليك أن تفهم تعقيدات الزمن و مساحة الذاكرة، مثلاً كيف أن زمن التشغيل والمساحة المطلوبة تكبر مع حجم البيانات المدخلة باستخدام تعقيد O الكبيرة.

أين تتعلم:

التحسين الرياضي (optimization) ومواضيع أبحاث العمليات

هذه المواضيع مختلفة قليلاً عن الحوارات التقليدية في مجال الرياضيات التطبيقية، بحيث أنها أكثر ارتباطا واستخداماً في المجالات الدراسية المتخصصة – علوم الحاسب النظرية، نظرية التحكم أو أبحاث التشغيل. بالرغم من ذلك، حصولك على فهم مبدئي لهذه التقنيات القوية يمكن أن يفيدك في ممارسة تعلم الآلة. عملياً تهدف جميع خوارزميات/تقنيات تعلم الآلة إلى تقليل معدل الخطأ المقدر والذي يكون خاضع للقيود المختلفة. هذا هنا يعد مشكلة تحسين (optimization). مواضيع للتعلم:

  • مبادئ التحسين الرياضي (optimization) – كيفية صياغة المشكلة
  • الحد الأقصى، الحد الأدنى، الدالة المحدبة، الحل المطلق
  • البرمجة الخطية، خوارزمية التبسيط
  • برمجة الأعداد الصحيحة
  • البرمجة القيدية، مسألة حقيبة الظهر

مثال (أو اثنين) لكيفية استعمالها: مشاكل الإنحدار الخطي البسيط لها حل تحليلي معين باستخدام دالة الخسارة في المربعات الصغرى لكن مشاكل الانحدار اللوجيستي لا ينطبق عليها ذلك. لفهم السبب تحتاج ان تكون لديك معرفة بمبدأ التحدب في التحسين الرياضي. مسار البحث هذا سيوضح لماذا علينا أن نرضى بالحلول التقريبية في أغلب مشاكل تعلم الآلة. هذه حقيقة عظيمة علينا أن نفهمها بعمق.

أين تتعلم:
روابط لمقالات ممتازة مرتبطة بهذا الموضوع:

ختاماً، بعض الأفكار الإضافية

لا داعي للشعور بالخوف أو الضياع، هذا الموضوع يحتوى على أشياء كثيرة لتعلمها وإتقانها، خصوصاً اذا كنت لا تمارسها بشكل منتظم. لكن هناك مصادر كثيرة و فيديوهات رائعة على الإنترنت. مع القليل من الوقت والجهد تستطيع عمل خطتك الخاصة التي تتضمن مصادر تعلم حسب حاجتك و مستواك.

لكن تأكد أنك بعد أن تكون حدثت معرفتك بهذه المواضيع (العديد منها قد تكون درستها مسبقاً)، وتعلمت مفاهيم جديدة، سوف تشعر بأنك جاهز لتسمع الألحان المخفية التي لم تكن تسمعها مسبقاً اثناء عملك على مشاريع متعلقة بتعلم الآلة أو تحليل البيانات المعتادة. وهذه تعد قفزة كبيرة نحو أن تصبح عالم أو عالمة بيانات

اظهر المزيد

Haya Aldawood

هيا مهتمه بتعلم الآلة وعلم البيانات وتطبيقاتهما. متخرجة من جامعة الملك سعود بدرجة بكالوريوس العلوم في إدارة الأعمال.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى