في البداية، هناك خلط في المصطلحات في إدارة البيانات لدى متخذي القرار ومجتمع الحاسب الآلي. وأحب أن أوضحه قبل الحديث عن المهن التقنية في إدارة البيانات.
ذكاء الاعمال BI
يتم الخلط بين ذكاء الاعمال والتقارير الذكية، حيث يعتبر كثير من الناس أن أي لوحة مؤشرات هي ذكاء أعمال. وهذا غير صحيح، فالتقرير الذي يحتوي على مجموعة من الرسوم البيانية وتتفاعل مع بعضها البعض ماهي إلا تقارير ذكية Smart Report (هذه التسمية من قبل الكاتب) ماهي الا التقارير التي كان يكتبها الناس من عشرات السنين في الكتب الإحصائية، ولكن أضيفت لها التقنية للتفاعل فيما بينها بشكل مترابط.
ذكاء الاعمال هو ربط هذه التقارير بأهداف الشركة أو الإدارة، حيث يتم تحديد الأهداف والمؤشرات التي نبحث عن إجابة لها ومراقبة أدائها لتحل الآلة بدل الإنسان في مراقبة الأداء وتتبع الأنماط من البيانات ودراستها وتحليلها للوصول لأفضل أداء ممكن من خلال البيانات المتوفرة.
البيانات المنظمة وغير المنظمة (Structured data and Unstructured data)
نوعية البيانات من حيث هيكلة البيانات تجبرنا على تحديد التقنية التي نستخدمها، فيتم بناء مستودعات البيانات (Data Warehouses) للبيانات المنظمة، وهي البيانات التي تخزن في قواعد بيانات أو ملفات مثل إكسل على صيغة جداول. ويتم تخزين البيانات غير المنظمة على أنظمة توزيع الملفات (Hadoop – File Distribution) مثل بيانات الانترنت والشبكات الاجتماعية والملفات النصية.
في الغالب عندنا البيانات المتوفرة لدى الشركات والحكومات والتي يستهدفها صناع القرار هي بيانات منظمة، لذا نستخدم مستودعات البيانات. فهي تحلل أنظمتها التقنية أو التقارير التي تجمعها من جهات استخرجتها من أنظمة تقنية أيضاً.
وقليل من يجمع البيانات من الانترنت، وإذا اضطروا إلى ذلك يستخدمون الحلول الجاهزة المقدمة من الشركات التقنية الكبرى على خدمات السحابية. لذلك فإن استخدام هادوب قليل في مجتمعنا.
بحيرة البيانات
هي مفهوم علمي يقصد به أن لديك في الشركة بيانات منظمة وغير منظمة معاً. تستطيع اختصار الموضوع وتقول نريد حلول لبحيرة بيانات. لنفهم ماهي هيكلة البيانات التي لديك.
البيانات الضخمة
تتميز البيانات الضخمة بعدة خصائص يجب توافرها لكي تتمكن المنشآت والحكومات من تحديد ما إذا كانت تعاني من مشكلة تضخم البيانات، ويشار إليها في اللغة الإنجليزية بـــ 3Vs (Volume, Velocity, Variety) الحجم والسرعة والاختلاف-التنوع وتعتبر هذه الخصائص الأساسية. ولقد تم إضافة لها لاحقاً (Veracity, Value) الدقة والقيمة ليصبح لدينا 5Vs، وهي على النحو التالي:
الحجم (Volume)
من الجدير بالذكر انه لم تعد هناك مشكلة في المساحة التي يتم تخزينها على الخوادم، حيث أصبحت التقنية أكثر قدرة لتخزين البيانات بكميات مهولة على مساحات فيزيائية صغيرة. وفيما يخص البيانات الضخمة، فالحجم يتضاعف عدة أضعاف خلال عملية التحليل ومحاولة استخراج المعلومات من البيانات التي تم تجميعها من خلال الربط بينها.
السرعة (Velocity)
المقصود من السرعة هي معدل الحصول على البيانات خلال عملية الجمع، حيث يتم إنتاج معدلات مرتفعة من البيانات في كل لحظة.
الاختلاف أو التنوع (Variety)
يتم جمع أنواع مختلفة من البيانات النصية والرقمية والصح والخطأ والرموز. في أشكال مختلفة: ملفات نصية وصور وصوتية ومقاطع الفيديو ومخططات ورسوم بيانية. كما أن هيكلة البيانات أصبحت من المشاكل الحديثة التي أوجدت صعوبة، فيوجد ٣ أنواع من هيكلة البيانات المنظمة (Structured Data)، وهي البيانات الموجودة في قواعد البيانات المبنية ذات العلاقات الثابتة، وغير المنظمة (Unstructured Data) هي مثال البيانات المتوفرة على شبكات الاجتماعية وكذلك الكتب والمقالات والملفات والصور والفيديو وغيرها. وشبه المنظمة (Semi-Structured Data) هي البيانات المنظمة في غير الجداول والعلاقات مثل قواعد البيانات والتي تستخدم ملفات مثل XML.
الدقة (Veracity)
المقصود من الدقة الثقة في البيانات الضخمة، فعلى سبيل المثال البيانات التي تجمع من تويتر يكون فيها أخطاء إملائية أو اختصارات غير معروفة أو استخدام اللغة العامة، مما يجعل جمع البيانات يصعب التحكم بها.
القيمة (Value)
المقصود بالقيمة هي القدرة على تحويل جميع أنواع البيانات إلى بيانات ذات فائدة منها. إذ يصحب عادة مشكلة البيانات عدم تحديد القيمة، مما يجعل معالجتها أشبه بدوامة يصعب الاستفادة منها.
ومع أن الدقة والقيمة لم تضف إلى خصائص البيانات، إلا أنه لاحقاً وجدت صعوبات كثيرة في تحديد إذا ما كانت هاتين الخاصيتين مؤثرتان أم لا، فبعد البدء في محاولة السيطرة على البيانات الضخمة في المنشأة ظهرت بشكل واضح أهمية هاتين الخاصيتين، فعلى سبيل المثال أكدت (قارتنر) على الاعتراف فقط بثلاثة قيم (3Vs) بحجه أنها متواجدة بالفعل في البيانات غير المنظمة أكثر من البيانات المنظمة، وفي المقابل فإن (شركة IBM) اعتمدت وجودهما كأهم خصائص البيانات الضخمة.
في الخاتمة ذكاء الاعمال يتحدث عن تحليل البيانات. وبحيرة البيانات تتحدث عن هيكلة البيانات. والبيانات الضخمة تتحدث عن الحجم والسرعة والاختلاف معا وإذا لم تجتمع فليس لديك بيانات ضخمة.
مقال جميع يشرح مصطلحات مهمة قد تكون غامضة عند البعض.
أشكرك على المشاركة القيمة.
مقال جميل جداً وموسع, شكراً لكم
لكن تمنيت لو تم التوسع أكثر في مجال ذكاء الأعمال BI