
கதைத்தல், கூறுதல், சொல்லல், வார்த்தையாடுதல், சொம்மா கூவிக்கினே இருத்தல், பேசுதல் அனைத்தும் அருமைத் தமிழ் மொழியில் பேச்சு என்ற ஒன்றைக் குறிக்கிறது. ஆனாலும், வட்டார வழக்கு சொல்லகராதியின் தேவையும் இருக்கிறதல்லவா? ஒரே மொழியில், பல வார்த்தைகள் ஒரே பொருளில் பயன்படுகின்றன. சில சொற்கள் அந்த மண்ணின் மணத்துடன் வெளி வரும் போது அதைக் கேட்கும் அந்த மண்ணின் மைந்தர் மகிழ்ச்சியும், நெகிழ்ச்சியும் கொள்கிறார்.
இன்றைய உலக கிராமத்திலே ஒற்றை மொழியை மட்டுமே வைத்துக் கொண்டு வாழ்வது கடினம். அதே நேரம் எத்தனை மொழிகளைத் தான் ஒருவர் கற்க முடியும்? இதற்கு ஒரு தீர்வாக தொழில் நுட்பம் வந்துள்ளது. வால்-ஈஎக்ஸ் (VALL-EX) என்ற இது மொழிகளின் நரம்புப் பின்னல்; (Language Neural Network) குறியாக்கியும், அந்தக் குறியாக்கத்தை கேட்கும் முனையில் விலக்கியும் (Coding and decoding-CODEC) செயல்படும் மொழி மாதிரி இது.
ஒரு மொழியிலிருந்து மற்றொரு மொழிக்கான ‘பேச்சுத் தொகுப்பு கூடு’ எனச் சொல்லலாம். வால்-ஈ (Vall-E) (இரு மொழி பேச்சுக்கள்- ஒரு செய்தி ஒரு மொழியில் சொல்லப்பட அதை மற்றொரு மொழியில் சொல்வது) செயல் முறையை கட்டுப்பாட்டுடன் கூடிய பல மொழி ‘கோடெக் மொழியாக்கம்’ செய்யும் பயிற்சியை, ஒலிக்குறி புலம் சார்ந்து, ஒரு மொழியின் பேச்சை ஆதாரமாகக் கொண்டு, குறி வைத்துள்ள அந்த மற்றொரு மொழியின் ஒலிக் குறிப்பை கணிப்பது வால் ஈஎக்ஸ் எனப்படுகிறது. சொல் என்ன சொல்ல வருகிறது என்பதை சூழல்களால் அறியும் திறனை இது வால்-ஈ மூலம் திறம்படப் பெற்றுள்ளது. இதை ஜீரோக்குறி மாற்று மொழிக்கு (Zero-shot Cross Language) எழுத்துச் செய்தியிலிருந்து பேச்சிற்கும், ஜீரோக்குறி மொழிச் செய்தியிலிருந்து மாற்று மொழிச் செய்திக்கும் பயன்படுத்த முடியும். ஆம், அதென்ன ஜீரோக்குறி? இயற்கை மொழிச் செய்முறையை (Natural Language Processing) பகுப்பதை ஜீரோக்குறியாக்கம் எனச் சொல்கிறார்கள். அந்த மாதிரியில் இயந்திரங்களுக்கு குறிப்பிட்ட எடுத்துக்காட்டுகளின் மூலம் பயிற்சி அளிக்கப்படுகிறது. பின்னர் அது தானாகவே முந்தைய உதாரணங்களைக் கொண்டு முன்னர் பயிற்றுவிக்கப்படாத வகைகளைத் தானே படித்து விடுகிறது. உதாரணமாக, மேற்பார்வை பயிற்சி முறையில், (Supervised Training) மொழி கற்கும் இயந்திரம் ஒன்று பூனைகள், நாய்கள் பற்றி கற்றிருக்கிறது என்றால், பறக்கும் பறவைகளை, கற்ற மொழியைத் தழுவி வகைமை செய்வது சுலபமாக இருக்கும்.
ஜீரோக்குறி மாற்று மொழி கற்றலென்பது, ஒன்று அல்லது அதற்கு மேம்பட்ட மொழிகளிலிருந்து, தகவல்களைத் திரட்டி அவற்றை, தகவல்கள் இதுவரை இல்லாத மாற்று மொழியில் பயன்படுத்துவது என்று சொல்லப்படுகிறது. பல மொழிகள் பேசும் இந்தியாவை எடுத்துக் கொள்ளுங்கள். தன் தாய் மொழி தவிர வேறு ஒன்றும் அறியாத நபர் வேற்று மொழிப் பிரதேசத்திற்கு செல்லும் போது கண்களைக் கட்டி காட்டில் விட்டது போலத் தவிப்பார். அவர் கேட்பதை அவர்களின் மொழியில் புரிந்து கொண்டு, அதை அவர்கள் தங்கள் மொழியில் சொல்லும் பதில் இவருக்கு இவர் மொழியில் வந்து சேர்வது எத்தனை சங்கடங்களைத் தவிர்க்கும்! இது அனைத்திற்கும் தேவையானது மொழிச் சொற்களின் தகவல்கள், (Language Data set, acoustic, emotion )ஒலிக்குறிப்புகள், உச்சரிக்கும் விதங்கள் போன்றவை.
ஒரு மொழியில் வெளிப்படும் பேச்லிருந்தே, எந்த மொழியில் அதன் வெளிப்பாடு தேவையோ அதை நல்ல தரத்துடன் இந்த மொழி இயந்திரங்கள் தந்து விடுகின்றன என்பதை பரிசோதனை செய்து பார்த்திருக்கிறார்கள். பேசுபவரின் குரல், உணர்ச்சி, ஒலியமைந்துள்ள விதம், சூழல் அனைத்தும் பாதுகாப்புடன் பயணித்து மறு முனை மொழியை அடைந்துள்ளன. (மணிரத்னம் இயக்கிய ‘மௌன ராகம்’ திரைப்படத்தில் சீக்கியர் ஒருவருக்கு தமிழைத் தாறுமாறாகச் சொல்லித்தரும் ரேவதியைப் போலல்ல- அது நகைச்சுவை.) அயலக உச்சரிப்பு புரியாமல் போகும் அபாயமும் இருக்கிறதல்லவா? அந்த பயத்தையும், மொழி அடையாளக் கட்டுப்பாட்டைக் (Control of Language ID) கொண்டு வால்-ஈஎக்ஸ் நிவர்த்தி செய்து விடுகிறது.
ஒற்றை மொழி பேசுபவர் இந்த முனையில் இருக்கிறார் என எடுத்துக் கொள்வோம். ஒப்புமை கொண்ட பேச்சொலிகள் இரண்டு மொழிகளிலும் எடுத்துக் கொள்ளப்படுகின்றன. முதல் ஒரு முனை பேச்சின் (மொழியின்) ‘ஆடியோ கோடெக்’ மாதிரியிலிருந்து, ஒலிக்குறி தூண்டுதல்களைப் பெற்று, மறுமுனையில், அந்த மொழியின் ஒலிக்குறிப்பை வால் ஈஎக்ஸ் தந்துவிடுகிறது. (Coding) அந்த இடத்திலே குறி விலக்கி, செயல்படும்; மறுமுனையில் உள்ள மொழியில் இந்தப் பேச்சு பெறப்படும்.(Decoding) ஒரே பேச்சாளர்களின் மாற்று மொழித் தகவல் தரவுகள் இதற்குத் தேவையில்லை. சொல்லும் சூழலைப் பொறுத்து, அதன் தொனியை இது புரிந்து கொண்டு விடுகிறது. மாற்று மொழி செய்தியிலிருந்து பேச்சிற்குத் தொகுப்பதாகட்டும், குறுக்கு மொழி பேச்சிலிருந்து பேச்சிற்காகட்டும் இது ஒரு வரம் என்றே சொல்லலாம்.
Zero-Shot Cross-Lingual Text to Speech
சில எடுத்துக்காட்டுகளைப் பார்ப்போம்
Librispeech 1000hrs of read english
Text To Speech (TTS) Effective Multilingual Interaction in Mobile Environment (EMIME) Mandarin Speech Corpus (AISHELL-3)
1.லிப்ரீஸ்பீச்சிலிருந்து ஆங்கில மாதிரிகளும், சீன
மாதிரிகள் EMIME AISHELL-3லிருந்தும் எடுக்கப்பட்டுள்ளன.
2. சீன மொழிப் பேச்சில் ஆங்கிலத் தூண்டுதல்கள்.
இதைப் போல, ஒலிக்குறிப்பு, உணர்ச்சி, சூழல் போன்ற அனைத்தையும் கையாளும் விதமாக இயந்திரக் குறுக்கு மொழி வளமடைந்து வருகிறது.
தசாவதாரம் என்று ஒரு திரைப்படம்- கமல் நடித்தது. பன்மொழிகளில், பல பாவங்களில், அந்தந்த மண்ணிற்குரிய உச்சரிப்போடு திறமையாக நடித்திருப்பார்.
என்ன என்ன வார்த்தைகளோ? என்ன என்ன மொழிகளிலே?