يعد تخصص فهم وتحليل اللغة Natural Language Processing أو اختصاراً (NLP) أحد أهم وأقدم مجالات الذكاء الإصطناعي. ولكن منذ البداية كانت هناك عدة عقبات تواجه المجال مقارنة بمجالات أخرى من الذكاء الإصطناعي، من أبرز هذه العقبات ما يلي:
1- تركيب اللغة يختلف من لغة لأخرى
على عكس الصور مثلاً التي تتكون من شبكة أرقام (pixels)، وهي صيغة موحدة عالمياً، فإن اللغات في الجهة المقابلة لها صيغة متفردة. فمثلاً اللغة الصينية تتكون من كلمات ومعاني وليس مجموعة حروف تكون كلمات، بينما اللغات اللاتينية لها حروف تكون كلمات والكلمات تكون جمل. وحتى في اللغات التي تكون تركيبة الكلمات فيها واضحة، فإنه من الصعب وضع قواعد موحدة تنطبق عليها كافة اللغات. ذلك يجعل من الصعب عمل خوارزمية تعمل على كافة اللغات بشكل مثالي، وإنما ينبغي عمل خوارزميات تتماشى مع كل لغة بحد ذاتها أو خوارزمية عامة يتم تخصيصها (fine-tune) للغة المستهدفة. لذلك نرى خوارزميات اللغة الإنجليزية و الصينية متقدمة على كافة اللغات الأخرى لكثرة الباحثين في هاتين اللغتين، بينما نرى اللغة العربية مع الأسف من أضعف اللغات في مجال الذكاء الإصطناعي وفي كافة علوم الحاسب بشكل عام!
2- نفس الكلمات لها معاني مختلفة
حيث أنه لا يوجد ربط مباشر بين المعاني والكلمات في معظم اللغات: فمثلاً كلمة Apple قد تعني اسم الشركة المعروفة أو نوع من الفاكهة. وعندما تكون هذه الكلمة ضمن جملة، فإنه من الصعب على الخوارزميات (حتى التي تعتمد على تعلم الآلة) فهم أو تفسير المعنى وبالتالي ترجمة الجملة بين لغة و أخرى مثلاً. في معظم الحالات يكون السياق (context) هو الطريقة الوحيدة لمعرفة معنى الكلمة، و هذا ما تقوم به أفضل الخوارزميات في تبسيط الكلمات لأرقام وتعرف ب (Word2Vec).
نفس الكلمات قد تعني معان مختلفة، مثل كلمة (Apple) قد تعني شركة التكنولوجيا أو تعني الفاكهة. كبشر يمكن التمييز بسهولة بين المعنيين، ليس بالنسبة للخوارزميات، فقد لا تعرف الفرق!
3- ارتباط الثقافة باللغة
اللغة ليست وسيلة تواصل فحسب، بل هي إطار عمل للتفكير و مخزن لثقافة الشعوب. هذا ما وضع تعلم اللغة من ضمن أولويات تعليم الطفل في المدرسة لتأطير تفكير الطفل و قدرته على استقبال العلوم فيما بعد. ولذلك عندما بدأ البحث في الذكاء الإصطناعي في لقاء دورتموث الشهير عام ١٩٥٩ (أول ورقة بحثية عن الذكاء الإصطناعي) كان فهم اللغة و تحليلها من أولويات البحث و أهدافه، حيث كان الظن أنه في حال تم حل شفرة اللغة فإنه سنتمكن من فهم الذكاء البشري بشكل كبير. بعد مرور أكثر من ستين عام لا تزال كثير من المعضلات في تحليل اللغة مستمرة، ناهيك عن الذكاء البشري. و لأن ثقافة البشر تتطور مع الوقت، تتطور طريقة تواصلهم باللغة وبالتالي طريقة التحليل يجب أن تكون متغيرة مع الوقت. كل ذلك يضع عوائق لنجاح تحليل كامل للغة!
ترتبط اللغة بالثقافة , وكثير من الجمل لها معاني تاريخية تعكس مفاهيم معينة مفهومة من الشعوب ولا تعكس المعنى الحرفي. ذلك يعقد أكثر من مهمة خوارزميات تعلم الآلة والذكاء الإصطناعي
4- سلسلة الاعتماد (dependency chain)
هذه مشكلة مشتركة مع مجالات أخرى مثل التحكم بالروبوتات (robot control) وفهم الفيديوهات (video understanding). حيث تكمن المشكلة أنه البيانات الحالية تعتمد على البيانات السابقة و أنه لا نعلم متى تنتهي سلسلة الاعتماد (dependency chain). فقد تعتمد كلمة معينة على كلمات سبقتها بفقرة أو فقرتين ويكون لها محور أساس في المعنى، والخلل في فهم كلمة معينة و تصنيفها قد يؤثر على الجملة التالية و بالتالي سيختل كافة المعنى لكل الفقرة وبالتالي كافة النص. ليتم حل هذه المشكلة عادة ما يتم النظر بأكثر من زاوية لتجنب الخلل، حيث في حال فشل أحد الزوايا لا تفشل الأخرى وبالتالي ينجح النظام ككل. هاذا ما يتم اتباعه في السيارات ذاتية القيادة لتجنب فشل سلسلة الاعتماد!
لمعرفة ما هو الذكاء الإصطناعي يمكن متابعة المدونة هنا