تنقيب في النصوص

التنقيب في النصوص، وفي بعض الأحيان يشار إليها بالتناوب باسم التنقيب في البيانات النصية، أي هو ما يعني تقريبا تحليلات النصوص، حيث يشير إلى عملية استخلاص معلومات عالية الجودة من النص. واستخلاص المعلومات عالية الجودة يكون بواسطة التقسيم للأنماط والاتجاهات بواسطة وسائل مثل التعلم الإحصائي للانماط. وفي العادة ما يتطلب التنقيب في النصوص ال عملية هيكلة للنص المدخل (عادة تحليل، جنبا إلى جنب مع إضافة بعض المميزات اللغوية المشتقة وإزالة أخرى، ومن ثم الإدراج في قاعدة بيانات)، واستخلاص الأنماط في البيانات المهيكلة، وأخيرا تقييم وتفسير للناتج. 'ذات جودة عالية' في مجال التنقيب في النصوص عادة ما يشير مزيج من الصلة، والحداثة، والاهتمام. المهام النموذجية للتنقيب في النصوص تشمل تصنيف النصوص، تجميع النص، واستخراج المفاهيم، وإنتاج التصنيفات الحبيبية، وتحليل المشاعر، وتلخيص الوثائق، ونمذجة العلاقات بين الكيانات (أي تعلم العلاقات بين الكيانات المسماة).

مثال: فهرسة النصوص

هنا يمكن أن يتعلق التنقيب النصي بفهرسة النصوص بالنسبة للكلمات التي تحوي عليها وهذا هو ابسط تطبيق للتنقيب النصي. ويمكن بعد ذلك ان نسأل الفهرس عن طريق كلمات مفتاحية لمعرفة التشابه بينها وبين قائمة النصوص. حيث يمكن توصيف خوارزمية الفهرسة بالشكل التالي :

فهرسة النص بالنسبة للكلمات التي يحتوي عليها.

عمل فهرسة عكسية (فهرسة الكلمات بالنسبة للنصوص).

عند تحليل السؤال الاستعلامي للفهرس المكون من كلمات دلالية نقوم بحساب التشابه بينها وبين الفهرسة العكسية للنصوص.

وهذا ما يعطينا ترتيب النصوص بحسب تشابهها مع كلمات المفتاحية المطروحة.

التطبيقات الممكنة

تطبيقات التنقيب النصي هي تعتبر كثيرة حيث تبدأ من الفهرسة بالنسبة لمحركات البحث إلى استخراج المعرفة من النصوص غير المنظمة. هناك بعض التقنيات مثل تحويل الكلمات إلى جذوع تمكننا من تطوير الفهرسة مع ضياع بعض المعنى بالمقابل.


المراجع

areq.net

التصانيف

تطبيقات الذكاء الاصطناعي  لسانيات حاسوبية  تنقيب البيانات   العلوم التطبيقية