كتابة: PromptCloud ترجمة: هيا الداوود مراجعة: يحيى خوجه
[للإطلاع على المقال الأصلي بالإنجليزي اضغط هنا]شرحنا الجوانب المختلفة تجريف بيانات الويب data scraping، من سبب حاجة الشركات للقيام بذلك، إلى الإرشادات الخاصة بكيفية الحصول على هذه البيانات مع برومبت كلاود PromptCloud – رائدة في حلول البيانات مع تخصص في استخراج بيانات الويب على نطاق واسع ومخصص.
ببساطة، تجريف بيانات الويب data scraping هو عملية استخراج حقول بيانات معينة من مواقع محددة بطريقة آلية لإنتاج قواعد بيانات منسقة بطريقة منظمة وجاهزة للاستخدام. برنامج البحث الآلي في شبكة الإنترنت web crawling سيحمل صفحات ويب متعددة واحدة تلو الأخرى ويستخرج البيانات حسب المطلوب آلياً. يمكن أن يكون البرنامج مخصص لموقع معين أو يمكن تكوينه ليعمل على عدة مواقع ذات بناء متشابه. البيانات المستخرجة من الويب يمكن حفظها من قبل المستخدم واستيرادها لقواعد بيانات حسب المخطط لاستخدامات تجارية متعددة. دعنا الآن نستكشف أهمية بيانات الويب وتطبيقاتها في الفقرات اللاحقة.
لماذا تحتاج المشاريع التجارية إلى تجريف البيانات؟
جنفير بليسنت محللة إدارية في فورستر شرحت مفهوم يطلق عليه تبادلية البيانات أو “ألت داتا” بطريقة رائعة:
كلنا نريد معرفة شيء لا يعرفه الآخرين. الجميع يسعى جاهداً نحو “المعرفة المحلية” أو ” الخبرة الداخلية” أو “اليد الأعلى في المنافسة” . ما يريدونه حقاً هو الأفضلية على المعرفة العامة و مصدر المعلومات الفريد الذي يمكنهم من الحصول على هذه الأفضلية. ما يبحثون عنه هو البيانات البديلة أو “ألت داتا”.
في الوقت الحالي بيانات الويب أصبحت عنصر مهم في نظام بيئة البيانات البديلة، حيث أنها هي البيانات التي يتم إنتاجها خارج مؤسستك بصيغة غير محددة ( والفضل يعود لتطور تقنيات الويب المستمر). لا شك أن الشركات التي تهتم فقط ببياناتها الداخلية (مثل مشتريات العملاء) تضيّع على نفسها فرصة إدراك معارف قيّمة ناتجة من مصادر بيانات بديلة متعددة. على المؤسسات استخدام البيانات البديلة لدعم مواردها من البيانات الداخلية واستخراج معارف قيمة. بغض النظر عن الحجم الضخم للويب نحن نشهد بشكل مستمر حلول أو خدمات جديدة تعتمد بشكل كامل على تطبيقات بيانات الويب. فالويب هو المصدر الأكبر و المزدهر لتوليد البيانات عبر جميع القطاعات. في الفقرة التالية سيتم توضيح بعض النقاط المهمة لفهم أهم التطبيقات لبيانات الويب:
- مصنعو المنتجات يستطيعون استخراج مراجعات المنتجات من عدة مواقع (مواقع التجارة الإلكترونية) لأخذ تصور عن آراء العملاء، مراقبة أداء الحملات الإعلانية، إدارة السمعة الإلكترونية و كشف الغطاء عن ملاحظات العملاء التي يمكن أن تساهم في صنع قرارات استراتيجية مهمة.
- رواد الأعمال يستطيعون بناء خدمات جديدة من خلال تجميع بيانات من مواقع مختلفة وإعطاء قيمة إضافية أو خدمة ذكية. وذلك يمكن أن يشمل أي شيء من مواقع مقارنة الأسعار و خدمات النشرات الإخبارية المختصة إلى خدمات التوظيف التي تعتمد على الذكاء الاصطناعي ومواقع متابعة تحديثات خطوط الطيران.
- بشكل مشابه، شركات الأبحاث والإحصاءات بإمكانها تقديم ما يخدم أي مجال من خلال الحصول على البيانات المناسبة. على سبيل المثال بعض العملاء الذين يعملون في مجال أخبار الموضة يحتاجون الحصول على البيانات من مصادر مختلفة كمواقع التجارة الإلكترونية والمدونات ومواقع التواصل الاجتماعي ليساعدوا عملائهم على التنبؤ باتجاهات الموضة القادمة خلال السنة. مثال آخر هي شركات الأبحاث التي تعمل على التنبؤ باتجاهات سوق العمل، حيث أنهم يحصلون على الملايين من إعلانات التوظيف والتي تم نشرها من قبل مواقع التوظيف ومواقع الشركات لغرض التحليل و عمل التقارير.
- شركات التحاليل المالية تحصل على البيانات من مواقع الشركات ومن مواقع التواصل الاجتماعي (مثال: Cashtags في تويتر)، المواقع الجديدة لتيسير أبحاث الأسهم و تحليل الطفرات وحوكمة الشركة وامتثالها للقوانين والاتفاقيات.
- العديد من أشكال التحاليل التنافسية يمكن عملها عن طريق إنشاء مخزون يحصي المنافسين ويحتوي على تفاصيل المنتجات وأسعارها. وهذا سيساعد على بناء استراتيجية تسعير قوية كجزء من ديناميكية الشركة. بالإضافة لذلك إعلانات التوظيف المنشورة من قبل المنافسين لديها القدرة على الكشف عن توجه الشركة في المستقبل واستراتيجياتها الحالية.
وبعيداً عن ذلك، الاستخدامات الأخرى لبيانات الويب تشمل كشف الاحتيال، الإدارة التنظيمية وأيضا بناء قواعد بيانات لتدريب خوارزميات تعلم الآلة، تحليل بيانات في الوقت الحقيقي وكل مايشابه ذلك.
كيف تحصل على بيانات ويب صالحة للاستخدام المؤسساتي؟
بشكل عام لديك ثلاثة خيارات عندما يتعلق الأمر بإستخراج بيانات الويب:
- اصنعها بنفسك DIY
- نظام استخراج بيانات آلي داخلي In-house crawlers
- الاستعانة بشركات خارجية Managed services
إذن، كيف تختار منهجية الإستخراج الصحيحة؟ حسنا، ذلك يعتمد على الحالة التي تريد استخدام البيانات فيها. من أجل البدء بتجريف بيانات الويب يمكنكم الاستعانة بالمنهجية الموضحة أدناه. هذه المنهجية تعتمد على العوامل الأساسية للبحث الآلي على الانترنت web crawling ثم تغطي 12 عامل بالتحديد لمساعدة الشركات على الوصول لحل مناسب. للمزيد حول المنهجية يرجى الإطلاع على الرابط.
كقاعدة عامة، عليك إيجاد الإجابة لمجموعة الأسئلة التالية:
- هل لديك حاجة متكررة (يومية، أسبوعية، شهرية) لبيانات الويب؟
- هل تستطيع تخصيص فريق من المهندسين والذي يستطيع بناء برامج استخراج البيانات web crawlers حسب المتطلبات وصيانتها لضمان التدفق المنتظم للبيانات؟
- مع مرور الوقت هل سينمو حجم البيانات بشكل ملحوظ لدرجة أن يتطلب ذلك وجود بنية تحتية لديها قابلية عالية للقياس؟
على سبيل المثال لو كان جوابك للسؤال الأول هو “لا” ذلك يعني أنك تحتاج لإستخدام البيانات لمرة واحدة والأفضل لك أن تستخدم أسلوب اصنعها بنفسك DIY.سيكون هناك الكثير لتعلمه في البداية لكن هذا الخيار سيساعدك على بناء برنامج مبدئي. يرجى ملاحظة أنه في حال كان حجم البيانات كبير والذي لا يمكن إدارته بأداة (حتى لو كان الإحتياج لمرة واحدة فقط) يمكن تفويض المشروع لشركة خارجية.
إذا كانت حالة الاستخدام تتطلب استخدام متكرر للبحث الآلي في شبكة الإنترنت web crawling ولاتتوفر المصادر لجمع فريق من المختصين لبناء بنية تحتية لاستخراج البيانات القابلة للتطوير، تستطيع عهد المشروع لمقدمي خدمة الاستخراج البرمجي للبيانات. عادةً، مقدم الخدمة سيقوم ببناء حسب الطلب لبرنامج للبحث الآلي في شبكة الإنترنت وذلك يعتمد على المواقع المستهدفة وسيقدم قواعد بيانات منظمة بالضبط حسب المطلوب. أيضاً مهم جداً الحرص على أن يكون مقدم الخدمة ينصاع إلى التوجيهات الموضحة في ملف robots.txt و يوفر فريق مخصص لخدمة العملاء (مع اتفاقية مستوى خدمة قوية) للمشروع.
ذلك سيسمح لك بالتركيز على تطبيقات البيانات دون القلق على طبقة استحواذ البيانات data acquisition layer و الصيانة. برمجيات البحث الآلي الداخلية تعطيك كامل التحكم على المشروع ولكن في نفس الوقت ذلك يتطلب مهندسين خبراء للمحافظة على تدفق البيانات على نطاق واسع (قراءة ملايين السجلات بشكل يومي أو اسبوعي). يرجى ملاحظة أن الموارد الهندسية المخصصة تعتبر ضرورة حيث أن المواقع تغير هيكلتها باستمرار، لذلك برمجيات الاستخراج الالي عليها أن تكون محدثة لاستخراج نقاط البيانات الصحيحة بدون تأخير.
حان الآن دورك
قمنا بتغطية التطبيقات الهامة لبيانات الويب إلى جانب بعض العوامل الأساسية التي يجب مراعاتها عند اختيار حلول لتجريف البيانات. مع تحرك الشركات في جميع أنحاء العالم نحو نموذج متمركز حول البيانات، يجب على الشركات النظر في خيارات التخصيص و قابلية القياس والتسعير والخدمة المتفانية وسرعة التسليم لرفع فعالية بيانات الويب كمورد بياناتي هام. وبالتالي سيكون لديها الاحتمالية للتأثير المباشر على صافي الأرباح و نمو حصة السوق.