هل تساءلت يوماً ما الفرق بين علم البيانات وتحليل البيانات؟ وماهي المهام الموكلة لكل وظيفة؟
إذا كانت إجابتك بنعم فأنت تقرأ المقال المناسب.
في هذا المقال سنجيب على هذا التساؤل بشكل مبسط وشامل، وقبل ذلك سنتعرف على ما هو علم البيانات وما هو تحليل البيانات وبالنهاية سنوضح الفرق بينهما.
ما هو علم البيانات؟
قبل أن نتعرف على ما هو علم البيانات، يجب أن نقوم بتوضيح المفاهيم الأساسية التالية: ماهي البيانات؟ وماهي المعلومات؟ وكيف نصل للمعرفة التي تجعلنا نختار بحكمة؟
بالإشارة إلى الصورة بالأعلى، البيانات هي مجموعة إما تكون رموز أو ارقام أو حروف، بينما المعلومات هي عندما نضع البيانات في سياقها (Context) فتنتقل البيانات التي تم تحليلها ومعالجتها وأصبحت تحمل معنى إلى معرفة. المستوى المتقدم من المعرفة يسمى حكمة.
على سبيل المثال، لدينا درجات الطالبة منيرة لاختبار منتصف الشهر والاختبار النهائي. فعندما نقول 55 و 40 فقط فنحن في مستوى البيانات، لأن 55 لربما تمثل 55 ريال أو 55 يوم، لكن عندما نقول 55/60 و 40/40 فنحن في مستوى المعلومة، وعندما أقوم بجمع القيمتين ونحصل على 95 فنحن في مستوى المعرفة (حصل الطالب على تقدير امتياز). الحكمة هي عملية تراكمية من الخبرة، مثل سأقوم بتوظيف منيرة بشركتي. فانتقلت من بيانات جُمعت من الجامعة إلى معلومات ومن ثم معرفة وبالنهاية اتخاذ القرار والحصول على رؤى (Insights).
علم البيانات (Data Science) علم يغلب عليه تداخل الاختصاصات، ويقوم على استخدام الأساليب العلمية والمعالجات والخوارزميات والنظم لاستخراج المعرفة والأفكار والتنبؤ بالمستقبل من البيانات بشكليها، سواء مُهيكلة، أو غير مهيكلة (يركز على تحسين المستقبل). يهدف علم البيانات إلى استخراج قيمة من البيانات، حيث أن البيانات تعطي رؤى والرؤى تجعلني أفعل والفعل يعطي قيمة. الصورة التالية توضح موقع علم البيانات بالنسبة للعلوم الأخرى.
ماهي منهجية دورة حياة علم البيانات؟
الصورة التالية تُعطي نظرة شاملة للمنهجية، يليها تفصيل كل مرحلة.
- تحديد المشكلة والمتطلبات: في هذه المرحلة يتم الفهم العميق للمشكلة وتحديد الأهداف، بالإضافة إلى المتغير الذي سيتم التنبؤ به وطرح السؤال.
- جمع البيانات: تعتبر هذه المرحلة من أصعب المراحل وذلك لخصوصية البيانات وصعوبة الحصول عليها. في هذه المرحلة يتم تحديد مصادر البيانات وآلية جمعها للإجابة على الأسئلة المطروحة سابقاً بالإضافة إلى كيفية تخزينها.
- التحليل الاستكشافي للبيانات: تركز هذه المرحلة على اكتشاف البيانات عن قرب وتحديد الأخطاء وأفضل طريقة عن طريق تصوير البيانات.
- معالجة البيانات: تعتبر هذه المرحلة من أهم المراحل وأكثرها استهلاك للوقت. حيث يتم فيها تنظيف البيانات مثل حل مشاكل البيانات المتكررة والناقصة وتحويلها إلى الشكل المناسب للمرحلة التالية. يوجد مقولة شهيرة “Garbage in garbage out” وتعني أن البيانات السيئة سينتج عنها نتائج سيئة.
- بناء النماذج والخوارزميات: في هذه المرحلة يتم بناء النماذج التي تعتمد في تدريبها على البيانات النظيفة وتساعد في التنبؤ.
- اتخاذ القرار: في هذه المرحلة يتم مشاركة النتائج مع متخذي القرار وعليها يتم اتخاذ القرار.
ملاحظة: العملية تعتبر متكررة في مرحلة التحليل الاستكشافي ثم تنظيف البيانات، أي بعد مرحلة التنظيف نعود ونتأكد من صحة البيانات عن طريق تصوير البيانات، وهكذا.
ما هو تحليل البيانات؟
الاستفادة من دراسة البيانات وتحليلها وذلك لاستنتاج الرؤى وحل المشكلات (يهتم ويشرح الماضي).
ماهي منهجية دورة حياة تحليل البيانات؟
- تحديد المشكلة وطرح الاسئلة: في هذه المرحلة يتم الفهم العميق للمشكلة وتحديد الأهداف، وما هو نوع تحليل البيانات، بالإضافة إلى طرح الاسئلة.
- جمع البيانات: تعتبر هذه المرحلة من أصعب المراحل، وذلك لخصوصية البيانات وصعوبة الحصول عليها. في هذه المرحلة يتم تحديد مصادر البيانات وآلية جمعها للإجابة على الأسئلة المطروحة سابقاً، بالإضافة إلى كيفية تخزينها.
- التحليل الاستكشافي للبيانات: تركز هذه المرحلة على اكتشاف البيانات عن قرب وتحديد الأخطاء وأفضل طريقة لعرضها عن طريق تصوير البيانات.
- (Wrangle data) تنظيف البيانات: يتم تقسيم هذه المرحلة إلى مراحل صغيرة (تجميع، تنظيف، تقييم) وتكون بشكل متتالي حسب السؤال المطروح.
- استخلاص النتائج: في هذه المرحلة عادةً ما يتم التعامل مع تعلم الآلة أو الإحصائيات الاستنتاجية التي تقع خارج نطاق هذا المقال حيث سيتم التركيز على استخلاص النتائج باستخدام الإحصاء الوصفي.
- مشاركة النتائج: غالبًا ما تحتاج إلى تبرير ونقل المعنى في الإحصاءات التي تم إجادها. في حال كان الهدف النهائي هو إنشاء نظام، فعادة ما تحتاج إلى مشاركة ما قمت بإنشائه، وشرح كيفية توصلك إلى قرارات التصميم، والإبلاغ عن مدى جودة أدائه. تصوير البيانات دائمًا يعتبر ذا قيمة لإيصال نتائجك سواء كان عن طريق التقارير أو العروض التقديمية.
ما هو الفرق بين علم البيانات وتحليل البيانات؟
على الرغم من أن كل من محللي وعلماء البيانات يتشاركون العديد من الأهداف والمهام كما هو موضح بالأعلى، إلا أنه هناك بعض الاختلافات. المثال التالي عبارة عن موقع إلكتروني لتسوق المنتجات الطبية يوضح بعض الفروقات.
تحليل البيانات | علم البيانات |
تقرير شهري بأكثر العقاقير طلباً على الموقع. | التنبؤ بعدد الطلبات لمنتج طبي معين قبل طرحه. |
جمع وتحليل البيانات الخاصة باستبيانات رضا المستخدمين. | بناء نظام توصية للمنتجات الطبية. |
تحليل المناطق/البُلدان التي يتواجد فيها عدد كبير من المستخدمين وإبلاغ قسم التسويق بنتائج التحليل. | اكتشاف أنماط وعلاقات بالبيانات الموجودة باستخدام خوارزميات تعلم الآلة واستخدام هذه الاكتشافات في تحسين خدمات الموقع. |
إعداد التقارير الخاصة بمؤشرات الأداء الرئيسية الخاصة بالشركة (KPI) (مثلاً: عدد المشتركين الجدد -إجمالي الربح الشهري-عدد الأشخاص الذين يخرجون من الموقع دون إتمام عملية الطلب) |
تطبيق خوارزميات التصنيف (Classification) لتحليل المنتجات الطبية الموجودة في الموقع وتصنيفها في إحدى الفئات التالية: – يحتوي على نسبة كحول -لا يحتوي على نسبة كحول وفي حال كان العميل مسلم فسيتم تنبيهه تلقائياً |
بالاستفادة من المثال أعلاه نجد أن علم البيانات يقوم على التنبؤ في المستقبل بناءً على الأنماط السابقة، بينما تحليل البيانات لإيجاد معلومات مفيدة للإجابة على الأسئلة المطروحة. علم البيانات يتطلب مهارات برمجية وإحصائية عالية المستوى على النقيض نت تحليل البيانات.
المراجع
[1] Zhu, Y. and Xiong, Y., 2021. Towards Data Science. [online] Available at: <http://file:///Users/lubnaalhenaki/Downloads/562-1286-1-PB.pdf> [Accessed 14 July 2021].
[2] Igual and S. Seguí, Introduction to data science. Cham, Switzerland: Springer, 2017.
[3] Cao, “Data Science: A Comprehensive Overview”, 2021. [Online]. Available: https://dl.acm.org/doi/pdf/10.1145/3076253. [Accessed: 15- Jul- 2021].
[4] Burnham, “Data Analytics vs. Data Science: A Breakdown”, Northeastern University Graduate Programs, 2021. [Online]. Available: https://www.northeastern.edu/graduate/blog/data-analytics-vs-data-science/. [Accessed: 14- Jul- 2021].
مقال مفيد لتوضح الفرق بين المجالين.
إضافة بسيطة، في اعتقادي علم البيانات لا يقتصر فقط على التوقع المستقبلي، ولكن تحليل الأنماط واستخراج العلاقات المعقدة قد يدخل من ضمن اختصاصاته، حتى لو كان من بيانات ماضية. أي قد يكون التفكير في الموضوع من ناحية تعقيد المشكلة وليس من خلال الزمن (ماضي أو مستقبل) مفيد أيضاً.
نقطة أخرى أحب التأكيد عليها -وتم ذكرها في المقال، وهي أن عالم البيانات المميز يفهم المشكلة التي يحاول حلها (في نطاق العمل، مثلاً طبي أو مالي)، فهو متمكن من الناحيتين التقنية ونطاق العمل (domain). وبهذا يستطيع تقديم حلول تعالج مشاكل فعلية، وهذا الفرق أساسي بينه وبين الباحث الأكاديمي في الحاسب أو الإحصاء والمجالات ذات العلاقة، الذي يركز عادة على الجوانب التقنية بشكل أساسي.
شكرا أخ فارس على التوضيح المهم جدا.
شكراً جزيلاً د.فارس على الاضافة المثرية
بارك الله فيك اخ فارس إضافة رائعة
إن ما ورد في المقال من أن علم للبيانات يحتاج المعرفة بالإحصاء و البرمجه خطأ. فهذه من مهام تحليل البيانات؟
شكراً لمشاركتك أخي أحمد. في اعتقادي علم البيانات يحتاج إلى عمق في المجالين أكثر من تحليل البيانات. أنصح بكتاب
Data Science from Scratch.
مقال مفيد وقيم
احسب ماقرأت واستفدت
الفارق باختصار
تحليل البيانات
هو استخلاص النتائج
علم البيانات
تنفيذ خطط بناءً على نتائج التحليل