ذخائر النصوص

مجموع النصوص (إنجليزي: corpus، ذخيرة ، متن، مدونة) هو عبارة عن مجموعة هائلة ومنظمة من النصوص (التي صارت الآن عادة مخزنة ومعالجة إلكترونيا).  وهي تستعمل  للقيام بالتحليل الإحصائي واختبار الفرضيات، والتحقق من الوقائع أو التحقق من صحة القواعد اللغوية على فضاء محدد.

كما يتعلق مفهوم ذخيرة النصوص بما يدعى في اللغات اللاتينية "corpus" (جمعها "corpora") فمن هنا يمكننا إعطاء اسم آخر إلى هذا المفهوم الجديد 'المدونة'. والشعبة التي تعتني بهذا المفهوم هي 'لسانيات المدونة'.قد تضم الذخيرة على نصوص من لغة واحدة (ذخيرة أحادية اللغة) أو نصوص من لغات متعددة (ذخيرة متعددة اللغات). الذخائر التي تم تهيئتها خصيصا لمقارنتها جنبا إلى جنب تدعى الذخائر المتوازية.


المراجع

areq.net

التصانيف

التنقيب عن البيانات  لسانيات حاسوبية   العلوم التطبيقية   لسانيات حاسوبية