تحليل البياناتعلم البيانات

كيفية التعامل مع البيانات المتطرفة (Outliers Data)؟

هل سبق ان قمت بتحليل البيانات ووجدت بعضاً منها متطرفاً؟

هل أصابتك الحيرة لاختيار الطريقة الأمثل للتعامل مع المشكلة؟

لا شك بأن وجـود القـيم المتطرفة ضـمن مجموعـة مـن البيانـات يـؤثر بـشكل كبيـر على النتائج، مـن هنـا تظهـر أهمية إيجاد القـيم المتطرفة كخطـوة اولـى ومهمـة فـي عمليـة تحليـل واتخـاذ القـرار.  هناك العديد من الطرق والأساليب التي يتم استخدامها للتعامل مع البيانات المتطرفة. سيتم التطرق في هذا المقال إلى المحاور التالية:

  • ماهي القيم المتطرفة؟
  • أسباب القيم المتطرفة
  • طرق اكتشاف القيم المتطرفة
  • طرق التعامل مع القيم المتطرفة
  • تطبيق عملي باستخدام لغة البايثون

ماهي القيم المتطرفة (Outlier)؟

القيمة المتطرفة (outlier) هي عنصر متطرف وخارج عن النسق المميز لمجموعة أو تركيبة معينة ويؤثر على نتيجة التحليل، إلا أنه في بعض الأحيان يكون وجوده مفيداً لبعض التطبيقات التي تعتمد على معرفة السلوك المختلف كاكتشاف الاحتيال. من الصورة بالأسفل تتضح لنا النقاط الخضراء بجانب بعضها البعض بينما النقطتين الحمراء بعيدة عنهم وتعتبر نقاط شاذة.

بيانات متطرفة
بيانات متطرفة [المصدر]
عندما يتم التعامل مع بيانات العمر (18،22،45،67،89،125،30) نجد أن 125 ينحرف بشكل كبير عن بقية الاعمار ويعتبر القيمة الشاذة.  من ناحية أخرى، في البنوك على سبيل المثال تحليل هذه القيم المتطرفة يكون ذا قيمة عالية وأهمية كبيرة، مثل مستخدمي البطاقات الائتمانية يلاحظ أنه عند سفرهم أو قيامهم بعمليات شراء بمبالغ مخالفة لنمط سلوكهم الطبيعي يتم مباشرة إيقاف بطاقته، لماذا؟ لأن الخوارزمية المطبقة اكتشفت سلوك مختلف عن النمط المعتاد لذلك الشخص.

الأسباب التالية تعتبر الأكثر شيوعًا للقيم المتطرفة

  1. أخطاء نتيجة أسباب بشرية مثل إدخال البيانات الخاطئة
  2. أخطاء نتيجة أسباب تقنية مثل اخذ البيانات من أجهزة الاستشعار
  3. أخطاء متعمدة مثل القيم المتطرفة الوهمية لاختبار طرق الكشف عن الاحتيال
  4. أخطاء نتيجة أخذ العينات مثل استخراج أو خلط البيانات من مصادر خاطئة أو متنوعة
  5. أخطاء طبيعية مثل مستجدات في البيانات (طفرات)

كيف يمكننا إيجاد القيم الشاذة؟

1- عن طريق الرسم البياني

باستخدام Histogram أو Box Plot أو Scatter plot، كما يظهر في الصورة التالية.

طرق تصوير البيانات المتطرفة
طرق تصوير البيانات المتطرفة [المصدر]
2- إحصائياً

الانحراف الربيعي (Interquartile range (IQR)) و الدرجة المعيارية (Z-Score)، وسيتم توضيح هذه الطرق في التطبيق العملي.

طرق التعامل مع القيم المتطرفة

تحدثنا بالأعلى عن كيفية اكتشاف القيم المتطرفة وتصويرها، ولكن كيف نتعامل معها؟ لا توجد إجابة موحدة ومختصرة على هذا السؤال. بشكل عام، ذلك يعتمد كثيرًا على نوع وهدف المشروع. فعلى سبيل المثال، إذا كنت تجري تحليلًا استكشافيًا للبيانات (EDA)، فمن المحتمل أن تكون بعض النتائج خاطئة لأن القيم المتطرفة تؤثر بشكل مباشر على التحليلات. لمنع هذا، يفضل تحليل القيم المتطرفة بشكل منفصل عن بقية البيانات ومحاولة تكرار التحليل لإزالة القيم المتطرفة. بمجرد الانتهاء من هذه العملية التكرارية، ستكون رؤيتك أكثر اتساقًا.

في حالة إنشاء نموذج تعلم الآلة، يمكن أن تؤدي القيم المتطرفة إلى ضعف أداء النموذج. لمنع حدوث ذلك، بالإمكان محاولة إزالة القيم المتطرفة وتدريب النموذج باستخدام بيانات أقل في حال كان هناك الكثير من البيانات وعدد قليل من القيم المتطرفة.  إذا كانت القيم المتطرفة ناتجة عن قياسات خاطئة مثل بيانات المستشعر التي تم جمعها، فيمكنك محاولة تغيير القيم المتطرفة بالوسيط.

مثال تطبيقي باستخدام لغة بايثون

الخطوات التالية تم تطبيقها على محرر Google Collab، في البداية يتم تحميل مجموعة البيانات Dataset للعمل عليها من مكتبة sklearn:

نظرة على البيانات
نظرة على البيانات

تطبيق الطريقة الإحصائية باستخدام الانحراف الربيعي (( Interquartile range (IQR) ونلاحظ بعد ايجاد الربيع الاول والثالث وكذلك الثاني قمنا بإستخراج قيمة IQR وذلك بطرح الربيع الثالث من الاول. هنا للمزيد عن IQR.

IQR
IQR

تصوير البيانات للعمر باستخدام  Box plot ونلاحظ البيانات المتطرفة عند القيم 120  و 150  حيث تقع أعلى الربيع الثالث.

Box plot
Box plot

تصوير البيانات للعمر باستخدام  Scatter plot ونلاحظ وجود البيانات الطبيعية داخل المدى 500 و 15 والقيم المتطرفة أعلى من ذلك

Scatter plot
Scatter plot

بإمكانك تجربة الأكواد المشروحة في الدرس عن طريق جووجل كولاب من هنا.

في النهاية، خلال هذا المقال رأينا أنه خلال مرحلة تحليل البيانات، وبالأخص تنظيف البيانات، كيف يمكن التعامل مع البيانات المتطرفة. لقد تطرقنا للطرق التي يمكن استخدامها لاكتشاف وإزالة تلك القيم المتطرفة. ولكن لاننسى أهمية طرح سؤال حول التأكد مما إذا كان من المقبول إزالة القيم المتطرفة أم لا قبل الشروع بإزالتها.

 

المراجع

  • 2021. How to Detect, Handle and Visualize Outliers. [online] Available at: <https://towardsdatascience.com/how-to- detect-handle-and-visualize-outliers-ad0b74af4af7> [Accessed 6 September 2021]
  • Hodge, V. and Austin, J., 2004. A Survey of Outlier Detection Methodologies. Artificial Intelligence Review, 22(2), pp.85-126.
  • Tan, P.-N., Steinbach, M., and Kumar, V. 2006. Introduction to Data Mining. Addison Wesley.
اظهر المزيد

لبنى الحناكي

باحثة و أكاديمية || ماجستير علوم الحاسب || مهتمة في علم البيانات و معالجة اللغات الطبعية

‫2 تعليقات

  1. جداً حبيت الموقع جداً حبيت الشرح, الشرح بكل ما تعنيه الكلمة المختصر المفيد بدون حشو كلام و هذا إلي نحتاجه في هذا الزمن المزحوم, شكراً لكِ و لكل من ساهم هذا الموقع.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى