يهدف التواصل بين البشر إلى تبادل الأفكار، الذي يمكن أن يكون بالكلام أو بالكتابة أو بالإشارة. وبازدياد تطور علوم الإلكترونيات والحاسوب تقوم الحواسيب بدور أساسي في عملية تخزين المعلومات ومعالجتها. وتزداد الحاجة إلى تطوير تقانات لتبادل المعلومات بين البشر والحواسيب. وبما أن الكلام هو الطريقة الأكثر استعمالاً للتواصل بين البشر، فمن الطبيعي استعماله أيضاً للتواصل بين الإنسان والآلة (الحاسوب).
تسمح واجهات التخاطب الصوتية بين الإنسان والآلة، بالتواصل مع الحواسيب والحصول على معلومات من دون أن يكون المستخدمون معلوماتيين. وتتطلب هذه الواجهات تقنيات إنتاج الكلام من الحواسيب (تركيب الكلام)، وتعرف الكلام من قبل الآلة.
تحليل الأصوات وتركيبها إحدى الطرق لتركيب الكلام
ينتج عن عملية الكلام أمواجٌ صوتية يمكن تحويلها إلى إشارة كهربائية باستعمال محول طاقة مناسب (مكرفون). يمكن التعامل مع هذه الإشارة كأي إشارة كهربائية، ومحاكاة تغيراتها الزمنية بغض النظر عن الآلية التي جرى فيها إنتاج الصوت البشري. تعتمد هذه الطرق، في مرحلة التحليل، على أخذ عينات من الإشارة الكلامية وتكمية quantization كل عينة بعدد من البتات يكوّن رمازها. نستعيد، عند التركيب، قيم العينات من الرمازات الموافقة: وكمثال على هذا، تقانة التعديل النبضي المرمز [ر. تعديل الإشا رة] المستَعمَلة في المقاسم الهاتفية الرقمية، وتقانات تعديل دلتا بتشكيلاتها المختلفة.
ويمكن الحصول بهذه الطرق على نوعيات جيدة جداً؛ إلا أنه لايمكن إلا إعادة إنتاج الكلام الذي سُجل قبلاً وتحليله ولا يمكن إنتاج أي كلام آخر. لذلك، تستعمَل هذه الطرق في نظم تركيب كلام تنتج كلمات أو جمل محددة معروفة من قبل مثل الساعة الناطقة، مواعيد رحلات الطيران وغيرها. ولا يمكن استعمال هذه التقانات في نظم تركيب الكلام التي عليها إنتاج الكلام من دون أن يجري تسجيله.
نظم تحليل الكلام وتركيبه: تركيب الكلام من نص مكتوبيُ
عمد في نظم تحليل الكلام وتركيبه لإنتاج كلام غير محدد، أو غير مسجل من قبل، إلى اختيار مجموعة وحدات صوتية تمكّن من تركيب أي جملة كلامية، وبذلك يجب فقط لتخزين هذه الوحدات أو موسطات مناسبة لإنتاجها. لا يمكن أن تكون هذه الوحدات كلمات، لأن عدد كلمات اللغة هائل ويمكن أن يزداد مع مرور الزمن بإضافة كلمات جديدة لا تكون معروفة من قبل. إن أصغر الوحدات الصوتية هي المقاطع الصوتية أو الصوتيمات phonemes، وهي محدودة العدد في كل لغة، ويراوح عددها من 35 إلى 60 في اللغات الأوروبية والسامية. يمكن التفكير إذاً بتخزين هذه الصوتيمات وإنتاج (تركيب) أي كلمة منها.
ولكن استعمال هذه الوحدات وحدها لا يحل مشكلة التمفصل بين صوتيمين، فالنقلة بين صوتيمين أهم بكثير من الصوتيمات نفسها؛ على سبيل المثال، إذا اقتطعنا الصوتيم /ب/ من كلمة والصوتيم /أ/ من كلمة أخرى وجمعناهما معاً فلن نسمع بالضرورة المقطع /با/. وهذا ما قاد إلى اعتماد الثنائيات الصوتية diphones كأصغر وحدات صوتية، إذ تتضمن كل ثنائية النقلة بين الجزء المستقر من الصوتيم الأول والجزء المستقر بين الصوتيم الثاني. عدد هذه الثنائيات للغات السابقة من رتبة 1500 -2000 ثنائية ويمكن تشكيل أي كلمة منها. وهناك مركبات كلامية كثيرة تعتمد هذا المبدأ. توجد أيضاً مركبات تعتمد المقاطع syllables أو أنصاف المقاطع كوحدات صوتية وهي تعطي نتائج أجود ولكن على حساب ازدياد عدد هذه الواحدات، الذي يفوق 30000.
بعد اختيار الوحدات الصوتية، تأتي عملية بناء القاموس الصوتي وتتضمن عدة مراحل: أولاً، إنشاء مدونة corpus لكلمات ليس لها معنى بالضرورة تتضمن كل منها إحدى هذه الوحدات، ثانياً، تسجيل هذه المدونة بصوت شخص أو أكثر، بلفظ صحيح، ثالثاً إدخال الأصوات المسجلة إلى الحاسوب للقيام بعمليات التحليل المناسبة من اقتطاع الوحدات الصوتية من المدونة ثم اعتماد إحدى طرق نمذجة الكلام الآنفة الذكر (البواني، التنبؤ الخطي،...) لاستخراج الموسطات المناسبة للتركيب وتخزينها.
ويمكن اختزال عدد الوحدات الصوتية إلى أصغر تشكيلة (الصوتيمات) إذا أمكن استنتاج قواعد تضبط مسارات موسطات التركيب عند الانتقال من صوتيم إلى آخر، ويُعرَف هذا بتقانة التركيب بالقواعد rule based synthesis.
أما تركيب الكلام من نص، فهو يتطلب مرحلة تحليل هذا النص قبل تركيبه، وتتضمن هذه المرحلة تحويل الكتابة إلى رموز قراءة صوتية phonemes، وإضافة معلومات تطريزية prosody بالاستعانة بأدوات الترقيم والتحليل الصرفي والنحوي والدلالي للنص (طريقة النطق: مدة النطق، شدة الكلام، النبرة... وهي تتعلق بكون الجمل إخبارية أو استفهامية أو تعجبية أو أمرية...). ونظراً لتعدد طرق لفظ الكلمات غير المشكلة في اللغة العربية، يتطلب الأمر إضافة مرحلة تشكيل النص لإزالة اللبس، وهذه المرحلة تستفيد من عمليات التحليل الصرفي والنحوي والدلالي أيضاً.
وبعد استنتاج الكتابة الصوتية تُولد الأصوات اللازمة للنطق من القاموس الصوتي الذي يتيح مرة واحدة في حين تجري عملية تحليل النص لكل نص على حدة.
المراجع
phonetics-acoustics.blogspot.com
التصانيف
العلوم التطبيقية تقنية العلوم الاجتماعية