مقدمة
تمر البشرية في مرحلة تفوق العلوم والتقنيات، ولا يخفى على أحد الأثر الذي تركه هذا التفوق في حياة الإنسان، ومما لا شك فيه أن المجتمعات التي استملكت المعلومة والمعرفة هي الآن التي تحكم العالم وتتصدر مشهد الدول المتقدمة والعصرية.
أحد أشكال التقدم والتقنية وأحد أبرز آثارها هو تضخم المعلومات الهائل، والذي يحدث باضطراد مستمر، حيث أصبحت مخازن البيانات وقواعد البيانات التي تعتمد عليها أغلب النظم والتطبيقات، أصبحت ممتلئة بكم كبير وضخم من البيانات العشوائية والتاريخية، ونستطيع القول فعلاً أن البيانات لا تنام ولا تتوقف عن النمو. حسب آخر الإحصائيات زاد عدد مستخدمي شبكة الانترنت في عام 2017 بنسبة 7.5% عن عام 2016 ليصل إلى 3.7 مليار مستخدم. الموقع الاجتماعي تويتر على سبيل المثال، يضم كماً كبيراً من المستخدمين الفاعلين على مدار الساعة، ويتولد عنهم في كل دقيقة ما يقرب 456,000 تغريدة تحتوي على نصوص، صور، فيديوهات، روابط وهشتاقات، ولك أن تتخيل كم البيانات الناتج عن ذلك خلال يوم واحد فقط.
مع هذا النمو في البيانات، أصبحنا أمام تحدي كبير يتمثل في كيفية الاستفادة من هذه البيانات المُخزنة في مستودعاتها، وكيفية القيام بعملية استخراج المعلومة المفيدة منها، وهذا التحدي أصبح لا يمكن حله بواسطة الطرق التقليدية لتحليل البيانات، لذلك فإننا بحاجة إلى تقنيات غير تقليدية تستوعب التعامل مع الكميات الضخمة للبيانات بالإضافة للقدرة على التعامل مع الأنواع والاشكال المختلفة للبيانات، وهذا يعني تقنيات على مستوى عالي من الكفاءة والذكاء.
ما هو تنقيب البيانات؟
تتعدد تعريفات تنقيب البيانات، منها ما يعرفها بأنها:
عملية تحليل محوسبة يتم إجراؤها على كم كبير من البيانات بهدف استكشاف أنماط وعلاقات غير معروفة مُسبقاً.
ويعرفها البعض بأنها:
عملية استخراج المعرفة من بيانات ضخمة.
من التعريفات المميزة والشاملة لتنقيب البيانات هو التعريف الذي يقول بأن:
تنقيب البيانات هو مجال يجمع عدة تقنيات من عدة تخصصات مثل تعليم الآلة، الإحصاء، التعرف على الأنماط، قواعد البيانات والإظهار المرئي بهدف استخراج المعلومات من مستودعات وأماكن تخزين البيانات الضخمة.
التعريف الأخير يوضح لنا أن تنقيب البيانات ليس علماً قائماً بذاته، بل هو خليط من تقنيات من عدة مجالات في الرياضيات والحاسوب بشكل أساسي.
تنقيب البيانات والعلوم الأخرى
يُعتبر تنقيب البيانات ملتقى الجهود المبذولة من الباحثين في عدة مجالات من المعرفة، والذي من خلاله يتم تطوير وبناء تقنيات تتعامل مع البيانات وأشكالها المتعددة وأنواعها المختلفة بهدف مواجهة المشكلات في مجالات مختلفة كالهندسة، الأعمال، الصناعة، الطب والعلوم.
يجمع تنقيب البيانات بين عدة علوم كالإحصاء وتعليم الآلة وقواعد البيانات وتقنيات الإظهار المرئي، ويتجلى هذا الجمع في مراحل وخطوات تنقيب البيانات بدءاً من تجهيز وتجميع البيانات وحتى النتيجة النهائية والتي تختلف حسب أهداف وأغراض التنقيب.
بعض العمليات والطرق في تنقيب البيانات تأتي من علم الإحصاء، مثل نظرية naïve bays و maximum entropy وتقييم احتماليات التنبؤ، ويختلف تنقيب البيانات عن الإحصاء في أنه لا يتعامل فقط مع البيانات التي تحتوي أرقام فقط، فهناك بيانات بأشكال مختلفة، كما أن تنقيب البيانات يختلف في نوعية الطرق التي يتعامل فيها مع البيانات، حيث تميل هذه الطرق لمجال تعليم الآلة أكثر من الإحصاء الذي يتعامل مع الفرضيات وكم البيانات.
تنقيب البيانات يستخدم بعض تقنيات تعليم الآلة مثل الشبكات العصبية وشجرة القرار، ويختلف هدف تنقيب البيانات عن هدف تعليم الآلة، فتعليم الآلة هدفه إعطاء الحواسيب القدرة على تنفيذ مهام يقوم بها البشر عبر تعليمها، بمعنى آخر: استبدال الدور البشري، ولكن تنقيب البيانات هدفه مساعدة الدور البشري ودعمه وليس استبداله.
يتمثل الدور الرئيسي لقواعد البيانات في حفظ البيانات والحصول عليها عند الحاجة، بينما دور تنقيب البيانات يتمثل في القدرة على قراءة هذه البيانات وتحليلها للمساعدة في اتخاذ القرار المناسب. تقنيات الإظهار المرئي يتم استخدامها كأداة في مرحلة تحضير البيانات أو مرحلة ما بعد تنقيب البيانات لإظهار النتائج.
المراحل الرئيسية لعملية تنقيب البيانات
تتكون عملية تنقيب البيانات من عدة مراحل متتابعة حسب الشكل التالي:
المرحلة الأولى: جلب البيانات
في هذه المرحلة يتم تحديد مصادر البيانات وكيفية دمجها ببعضها في حالة كانت من أكثر من مصدر.
المرحلة الثانية: تنظيف البيانات
تعتبر هذه المرحلة من المراحل المهمة جداً والتي تتضمن تهيئة البيانات لعملية التنقيب. بعض البيانات تحتوي على قيم فارغة، وبعضها يحتوي على أخطاء، ومنها ما هو غير منطقي. في هذه المرحلة يتم التعامل مع هذه المشاكل وحلها.
المرحلة الثالثة: اختيار البيانات
في هذه المرحلة يتم اختيار البيانات المهمة في عملية التنقيب، ويتم استبعاد البيانات الغير مهمة، المُكررة والتي ليس لها علاقة. البيانات المكررة أو الغير مهمة ستؤثر على عملية تنقيب البيانات بالتأكيد، لذا يجب الانتباه لها.
المرحلة الرابعة: تحويل البيانات
في بعض الأحيان نحتاج إلى تحويل شكل البيانات أو قيمها إلى شكل اخر أو قيم أخرى بهدف جعلها مناسبة للخوارزمية المستخدمة في التنقيب، فبعض الخوارزميات مثلا تتعامل مع قيم رقمية فقط، وفي هذه الحالة سيتم إما استبعاد البيانات النصية في المرحلة الثالثة أو تحويلها لقيم رقمية في هذه المرحلة.
المرحلة الخامسة: تنقيب البيانات
هنا تتم عملية استخدام أحد الخوارزميات الذكية (مثل شجرة القرار، الشبكات العصبية..الخ) والتي ستقوم بعملية تنقيب البيانات واستخراج المعرفة منها واستخدام المعرفة الناتجة في عملية اتخاذ القرار.
المرحلة السادسة: التقييم
في هذه المرحلة يتم استخدام طرق تقييم خاصة لعملية التنقيب، وهدفها قياس درجة دقة العملية التي تمت باستخدام عينات اختبارية من البيانات.
المرحلة السابعة: المعرفة
هنا يتم عرض/استخدام النتيجة النهائية لتنقيب البيانات في عملية اتخاذ القرار والاستفادة من المعرفة الناتجة عن ذلك.
المراحل السابقة تشكل مجتمعةً عملية تنقيب البيانات، وهي ليست بالضرورة في اتجاه واحد فقط، نستطيع بعد إتمام أي مرحلة الرجوع لأي مرحلة سابقة وذلك في حال وجدنا أن هناك خلل ما أو عدم دقة في النتائج أو حتى لأغراض التجربة، وهذا الأمر يعطي عملية تنقيب البيانات نوعاً من الديناميكية التي تسهل العمل.
مهام تنقيب البيانات
مهام تنقيب البيانات تُعَبِر عن طبيعة ونمط المعرفة التي نُنقب عنها ويُحدد ذلك طبيعة البيانات والخوارزميات المستخدمة في التنقيب، وتنقسم مهام تنقيب البيانات إلى نوعين:
مهام تنبؤية (Predictive): هدف هذه المهام هو القيام بعملية تنبؤ قيمة سمة من سمات البيانات استنادًا لقيم سمات أخرى. السمة التي يتم تنبؤ قيمتها تسمى Target Class، ويوجد نوعان لهذه المهام، الأول يُسمى التصنيف (Classification) والثاني يُسمى بالتنبؤ (Prediction).
مهام وصفية (Descriptive): هدف هذه المهام هو القيام بعملية وصف لخصائص البيانات إما عن طريق تجميع البيانات المتشابهة في خصائصها ضمن مجموعات ويسمى هذا النوع بتحليل العناقيد (Clustering)، أو عن طريق إيجاد روابط وقواعد علاقات بين البيانات ويسمى هذا بتحليل الاقتران وينتج عنه قواعد تسمى (Association Rules). يوجد نوع ثالث من المهام الوصفية ومهمته إيجاد البيانات الشاذة أو المشوهة ويسمى بتحليل القيم الشاذة (Outliers Analysis).
تحديات تنقيب البيانات
نستطيع القول إن مجال تنقيب البيانات هو مجال بحثي حي ملئ بالمساهمات العلمية التي تُقدم حلولاً للتحديات والمشاكل في هذا المجال، وكما في أي مجال علمي وبحثي، يوجد تحديات بارزة تواجه تنقيب البيانات تتمثل في:
قابلية التوسع (Scalability): لابد أن تتوفر في تقنيات تنقيب البيانات القدرة على التعامل مع كم كبير وضخم من البيانات.
الخصائص الكثيرة (High Dimensionality): العديد من التطبيقات ينتج عنها كم كبير من الخصائص قد يصل للآلاف، وهذا يشكل تحدياً لتقنيات التنقيب.
البيانات الغير متجانسة والمعقدة (Heterogeneous Data): في السنوات الأخيرة بدأت أشكال جديدة للبيانات في الظهور تحتوي على رسومات، بيانات غير نصية وأنواع جديدة من البيانات، وينبغي على تقنيات تنقيب البيانات أن تتعامل مع هكذا أنواع من البيانات.
جودة البيانات (Data Quality): البيانات الواقعية والحقيقية دائماً ما تحتوي على قيم فارغة وقيم غير منطقية أو شاذة. لمعالجة جودة البيانات، لابد من تطوير خوارزميات تنقيب تأخذ بعين الاعتبار مشكلة الجودة.
انتشار البيانات في أماكن متعددة (Data Distribution): كلما زاد حجم البيانات، كلما كانت منتشرة في أماكن مختلفة، لذلك، يجب تطوير تقنيات تنقيب تتعامل مع بيانات منتشرة وغير موجودة في مكان واحد.
الحفاظ على خصوصية البيانات (Privacy Preservation): تعتني خصوصية البيانات بعدم نشر المعلومات الخاصة في البيانات، بينما هدف تنقيب البيانات هو استخراج المعرفة، لذا يوجد اهتمام متزايد في تطوير خوارزميات للتنقيب تحافظ على خصوصية البيانات.
أمثلة على تطبيقات تنقيب البيانات
يوجد العديد من الأمثلة على تطبيقات تنقيب البيانات، ففي الجانب التربوي مثلاً، يُستخدم تنقيب البيانات في توقع الأداء الدراسي للطلاب استناداً على بيانات أداء طلاب سابقين، وكذلك من الممكن التنبؤ بأداء المدرسين أو قدرتهم على إعطاء مساقات معينة، ويوجد العديد من الدراسات والأبحاث التي أجريت في هذا المجال، ويُطلق على تطبيقات تنقيب البيانات في المجال التربوي ب Educational Data Mining.
في مجال الأعمال والمال، يُستخدم تنقيب البيانات مثلاً في توقع قدرة العملاء على سداد قروضهم المالية، وهذا يتم بتطبيق خوارزميات تنقيب البيانات على سجلات تاريخية لعملاء سابقين، لينتج عنها نموذج أو مجموعة قواعد تحدد هل سيستطيع العميل سداد قرضه أم لا.
يوجد في مجال الطب أيضاً حضور واسع لتنقيب البيانات يتمثل في الحلول التي تقدمها كتوقع إصابة المريض بأمراض محددة وفقاً لبياناته وسجله الطبي، أو مدى تأثير الأدوية والعقاقير على المرضى بناءً على سجلات لمرضى سابقين.
في مكافحة الجريمة والاحتيال تُقدم تقنيات تنقيب البيانات حلولاً مهمة في تحليل بيانات المجرمين وسجلهم الإجرامي وتقوم بالتنبؤ مثلاً بإمكانية قيام أشخاص بجرائم معينة، والعمل على تحييدهم.
إن لتنقيب البيانات دور محوري في كافة المجالات العلمية والعملية، وأصبح وجودها من ضرورات الأنظمة والتطبيقات.
الشركات والمؤسسات الناجحة، لا تُغفل ما يقدمه تنقيب البيانات في اتخاذ القرار وفي استخراج المعرفة من البيانات التي لديهم.
السلام عليكم
مقال اكثر من رائع وجزاك الله كل خير
وعليكم السلام
بارك الله فيك وأتمنى لكم الاستفادة.
جدا مفيد المقال جزاك الله خير ..
لدي استفسار بشأن تنقيب البيانات .. ماهي الكورسات التي احتاج دراستها كي أكون متخصصه في Data mining
مثلا البايثون و مواد إحصائية لتحليل البيانات و مذا أيضا ؟
أهلا بكم في نمذجيات،،،
بشكل عام تحتاجين لأخذ كورسات في اساسيات الإحصاء+قواعد البيانات+تعليم الألة+البرمجة لكي تستطيعي الإلمام بتنقيب البيانات جيدا.
اذا كنتي تعملين في مؤسسة أو مجال بحثي، بالإضافة لما سبق، تحتاجين بعض المهارات الناعمة Soft Skills مثل مهارات الإتصال، العمل ضمن فريق، تحليل بيئة العمل، لان ذلك يساعدك جيدا في فهم مهمات تنقيب البيانات التي تقومين بها ويجعلك تدركين أهمية وماهية البيانات التي تتعاملين معها.
تحياتي العطرة
السلام عليكم لدي بعض الأسئلة عن البيانات التييتم تنقيب عليها؟ ماهي و ماهي انواعها؟
السلام عليكم
لو سمحت ممكن تعطي مثال لكل قسم
مثلا قواعد البيانات ( SQL ) او …
تعلم الاله مثل وهكذا
انا لدي إلمام تام ب SPSS وأقوم الان بتعلم لغه R
ولغه البايثون
وشكرا
وعليكم السلام أخ رفعت. المجال كبير جداً، وغالباً ستحتاج استخدام تقنية معينة لكل حالة. مثلاً تقنيات قواعد البيانات أصبحت كثيرة، بدءاً من Relational Databases مثل Oracle أو MySQL حتى NoSQL Databases مثل MongoDB و Casendra وغيرها. إضافة إلى أن البعض يخزن البيانات كملفات خام على أنظمة ملفات مثل HDFS. يعتمد اختيار التقنية على نوع وشكل البيانات، ومتطلبات التطبيق (مثلاً هل تريد كتابة وقراءة البيانات بالسرعة الحقيقية؟، الاعتمادية، … الخ).
بالنسبة لتعلم الآلة، فالمجال أيضاً كبير، وهناك العديد من الخوارزميات لكل تطبيق، كتوقع الأرقام، أو تصنيف النصوص، أو التعرف على الصور، … وغيرها.
غالباً يفضل أن تأخذ فكرة عامة عن التقنيات والخوارزميات الموجودة، ثم تتخصص بجزئية معينة. إضافة إلى أنه من المهم أن تكون لديك خلفية جيدة عن المجال الذي تريد تطبيق تنقيب البيانات فيه، مثلاً مجال طبي، أو مالي، أو تسويق.
بإذن الله ستكون هناك مواضيع دورية في الموقع تغطي هذه الجزئيات، ونأمل أن يشارك متخصصي قواعد البيانات معنا لتغطية الشق الأول 🙂
السلام عليكم، شكرا المحتوى جدا جميل.
هل ممكن ان يتم نشر مقال عن طريقه تشخيص سرطان الثدي باستخدام تنقيب البيانات؟
وعليكم السلام، سنحاول التواصل مع البعض ليكتبوا عن هذا.
الحقيقة مقال جميل ويعطي شرح متميز لتنقيب البيانات. أحببت جزئية “تحديات تنقيب البيانات” كثيرا.
شكرا م. ابراهيم. وأنا متحمس جدا لرؤية مشاركاتك المستقبلية.
شكرا لك على هذا الموضوع لقد قرأت عنه كثيرا لكن لم ارى احد كتب بهذا الوضوح والتسلسل المتتابع له اتمنى الحصول منك على اكثر من ذلك حيث ارسلت رسالة بطلب كتاب او مقالات اخى من اجل الماجستير حيث اني احضر لذلك.
وشكرا
السلام عليكم، جهودك مشكورة على هذا المقال ولكن حضرتك ذكرت سبع مراحل لعملية التنقيب عن البيانات، سؤالي هو ما هي المرحلة الاصعب
والتي تعتبر اكثر تعقيدا من بين هذه المراحل السبعة ؟ وشكرا
أهلًا بك زياد،،،
لكل مرحلة من مراحل تنقيب البيانات هدف مُعين ودور خاص بها، ولكل مرحلة يوجد تحديات ومشاكل وُضعت لها الحلول والخوارزميات، وبذلك المراحل غير قابلة للمقارنة مع بعضها من حيث السهولة.
بالإضافة لما سبق، تُعتبر كل مرحلة مهمة بذاتها وتؤثر على المرحلة التي تليها.
تحياتي.
مقال ثري شكرا عزيزي م.إبراهيم حقيقة احببت تحليل وتنقيب البيانات من خلال مجالي بهندسة الطيران .كل الشكر
م.سامر بابكر
مشكووووووووور يا جميل.
يا ريت لو اعطيتنا المزيد عن الشبكات العصبيه والعنقدة
عبر حسابي في تويتر
@3alakivy
مقال مفيد
موفقين
السلام عليكم انا صيدلانية عايزة اسأل حضرتك لو عايزة ادخل مجال البرمجة بس ربطا بالمجال الطبى وليس خروجا منه
علمت انى استطيع ان اعمل فى جمع البيانات ووضعها بشكل او بصيغة يفهمه الحاسب وبذلك اكون ربطت مجالى بالحاسب
المشكلة تكمن فى انى لا اعرف من أين أبدأ ؟. او كيف اتعلم فعل ذلك ؟ اود منك مساعدتى فى معرفة طريقى او كيفية الوصول له ؟ واشكرك مقدما