
செயற்கை நுண்ணறிவு என்பது:
1) சகல ரோக நிவாரணி – உங்களின் அனைத்து பிரச்சினைகளுக்கும் வேலைகளுக்கும் ஒரேயொரு தீர்வு
2) நம்மை ஆளப் போகும் வருங்காலம் – பார்த்து சூதானமாக இருந்துக்குங்க
3) சீச்சீ.. தூ – சொல்வதெல்லாம் புளுகு; மூளையை மழுங்கடிக்கும்; அறிவீனர்கள் புழங்குவது. நான் அறிவுஜீவி
4) ஒண்ணுமே புரியலங்க – பிட்காயின், ரோபோ மாதிரி பொறுத்திருந்து பார்ப்போம்.
5) யாம் அமைத்தும் அறிந்த கணினி கில்லாடி – நான் தான் டிப் சீக் எழுதியவ! நான் அசைந்தால் அசையும் இந்த ஏ.ஐ,!! நான் தான் சடோஷி நகொமோட்டோ!!!
இதில் எதைத் தேர்ந்தெடுத்தாலும் இந்தக் கட்டுரை உங்களுக்குத்தான்.
நல்ல தம்பி (1949) படத்தில் ‘விஞ்ஞானத்தை வளர்க்க போறேண்டி’ பாடலில் கீழ்க்கண்ட வரிகள் வரும்:
‘பொஞ்சாதி புருஷன் இல்லாம
புள்ளயும் குட்டியும் பொறக்குறாப்புல
விஞ்ஞானத்தை வளர்க்கப்போறேண்டி
….
புஞ்சை நிலத்தில் பருத்திச் செடியில்
புடவை ரவிக்கை வேட்டி காய்க்க
பஞ்சைக் கிழவர் தன்னை
பால பருவமாக்கி நாட்டைக்காக்ககைத்திறமைய காட்டப்போறேண்டி ஒரு
கவியைப்பாடி காத்து மழை
உண்டாக்கப் போறேண்டி”
இதெல்லாம் இப்பொழுது சாத்தியமோ/இல்லையோ! ஒன்றை நிஜமாகி இருக்கிறது ‘செயற்கை நுண்ணறிவு’:
“பள்ளிக்கூடத்துக்கு புள்ளைங்க போகாம
படிக்க கருவி பண்ணியும் வைக்கணும்”
எப்படி?
ஆதியில் ஆரம்பிப்போம்
- மொழி மாதிரிகளும் பெரிய மொழி மாதிரிகளும் (LLMகள்)
- நிலைமாற்றி (டிரான்ஸ்ஃபார்மர்)களும் சுய-கவனமும்
- எல்.எல்.எம்.களின் செலவுகளுக்கு ஏற்ற பலன்களும், பொதுவான பயன்பாட்டு நிகழ்வுகளும்.
மொழி மாதிரி என்றால் என்ன?
சட்டென்று சொன்னால்:
‘நான் பேச நினைப்பதெல்லாம் நீ பேச வேண்டும்!’
விரிவாகச் சொன்னால்:
“நான் பேச நினைப்பதெல்லாம் நீ பேச வேண்டும்
நாளோடும் பொழுதோடும் உறவாட வேண்டும் உறவாட வேண்டும்
நான் காணும் உலகங்கள் நீ காண வேண்டும் நீ காண வேண்டும்
நீ காணும் பொருள் யாவும் நானாக வேண்டும் நானாக வேண்டும்”
நீங்கள் அடுத்த வார்த்தை என்ன சொல்லப் போகிறீர்கள் என்பதை ஊகிக்கும் கருவி – லேங்குவேஜ் மாடல் (அ) மொழி மாதிரி.
மயிலாப்பூர் என்றவுடன் கபாலியோ, மாமியோ நினைவிற்கு வருகிறதா – அது ‘மொழி மாதிரி’
திருநெல்வேலி என்றவுடன் சுகா-வோ, அல்வா-வோ நினைவிற்கு வருகிறதா – அது ‘மொழி மாதிரி’
பெங்களூர் என்றவுடன் பெண்களூர் அல்லது குளிர் நினைவிற்கு வருகிறதா – அது ‘மொழி மாதிரி’
பட்டுக்கோட்டை பிரபாகர் என்றவுடன் கோவையின் புறநகர் பகுதிகளோ சுசீலாவோ பரத்தோ நினைவிற்கு வருகிறதா – அது ‘மொழி மாதிரி’
‘பெரிய மொழி மாதிரி’களுக்குள் செல்வதற்கு முன்னால் டோக்கன் என்றால் என்ன என்பதைப் பார்த்து விடலாம்
கிள்ளாக்கு (அ) குறி என்னும் டோக்கன்
இப்படிப்பட்ட தமிழில் எத்தனை கிள்ளாக்குகள் உள்ளன? என்பதைத் தெரிந்து கொள்வோம்.
வார்த்தைகள் என்னவோ எட்டே எட்டுதான். ஆனால்,
கிள்ளாக்குகள்: 24
எழுத்துகள்: 76

மேலும்: https://platform.openai.com/tokenizer | Tokenizer – OpenAI API
இங்குதான் தமிழின் சிக்கல்கள் துவங்குகின்றன.
‘இப்படிப்பட்ட’ என்னும் வார்த்தையை எடுத்துக் கொள்வோம்.
இ – என்பது சுட்டு (இடைச்சொல்)
ப் – இன்னொரு இடைச்சொல்
பட/ படி – சொல்
ப் – மீண்டும் இடைச்சொல்
பட்ட / ட்ட – வார்த்தை முடிகிறது
ஆங்கிலம் இம்புட்டு இலக்கண சிரமம் கொடுக்காத மொழி.
ஒரு பெயர்ச்சொல்.
ஒரு வினைச்சொல்.
அம்புட்டுதான்… வேண்டுமானால் ஒட்டிக்கொண்டு ஒரு அரைச்சொல் மாத்திரை ஆங்கிலத்தில் (அப்பாஸ்ட்ரொப்பியோ, பாதி உச்சரிப்போ!)
நமக்கு பெயர்ச்சொல், வினைச்சொல், இடைச்சொல், உரிச்சொல் – அதன் மேல் குற்றியலுகரம், குற்றியலிகரம், சார்பெழுத்து…. உஸ்ஸ்… தமிழ் கண்ணைக் கட்டும் – தேமா, புளிமா, நிரை நேர், தளை, தொடை, அசை, சீர்!
தமிழ் இலக்கணம் நன்றாகத் தெரிந்தால் கிள்ளாக்கு (டோக்கன்) எளிதாகப் புரியும்.
மொழி மாதிரிகளின் இலட்சணங்கள் விளங்கும்.
எவ்வாறு அவை கவிதைகளையும் கதைகளையும் மொழியாக்கங்களையும் உருவாக்குகின்றன என்பதெல்லாம்
‘அகர முதல எழுத்தெல்லாம்
அறிய வைத்தாய் தேவி…
🎵🎵
இயல் இசை நாடக தீபம்
ஏற்றி வைத்தாய் நீயே’
என்று புரிந்துணர்ந்து புளங்காங்கிதம் கொள்ளச் செல்லும்!
என் பள்ளி மாணவர்களிடம் இன்றும் ஐகாரக் குறுக்கமும் அகப்பொருளும் புறப்பொருளும் முக்கியம் என்று சொல்லும்போது சற்றே பெருமிதமும் நிறைய இலக்கண சுத்தமும் ஆதார அறிவின் முக்கியத்துவத்தையும் ஒருங்கே உணர்கிறேன்.
“கிள்ளாக்குகளின் வரிசை” என்பது – ஒரு முழு வாக்கியமாகவோ அல்லது வாக்கியங்களின் தொடராகவோ இருக்கலாம். அதாவது, ஒரு மொழி மாதிரியானது (எல்.எம்/LM) வெவ்வேறு முழு வாக்கியங்கள் அல்லது உரை தொகுதிகளின் சாத்தியத்தை கணக்கிட முடியும்.
மொழி மாதிரி (எல்.எம்/LM) – என்பது என்ன?
அளவில் மனித மொழியை மாதிரியமைத்தல் (மாடலிங்) செய்வது மிகவும் சிக்கலானதும் வளம் மிகுந்த முயற்சியுமாகும்.
ஆனால், இன்றைய தேதியில் இதெல்லாம் சாத்தியம்:
- பல்கலைக்கழகப் பேராசிரியர் – அடுத்த வார்த்தையாக என்ன சொல்வார்?
- ‘காடு’ ஜெயமோகன் – அவரின் ‘காடு’ நாவலைப் போன்ற நாவலை எப்படி எழுதுவார்?
- மனுஷ்யபுத்திரன் காதல் கவிதை – எவ்வாறு அவரின் அடுத்த பாடலாக்கம் எவ்வாறு உருப்பெறும்?
- பா. ராகவனின் சமூக வரலாற்று நூல் – எப்படி இருக்கும்? அவர் சோமாலியாவைக் குறித்து ‘நிலமெல்லாம் ரத்தம்’ என எழுதினால் எப்படி உருவாக்குவார்?
- சுஜாதா / இராஜேஷ் குமார் / ராஜேந்திர குமார் / பரணீதரன் / மெரீனா – அவர்களின் அடுத்த படைப்பு எப்படி இருக்கும்?
மாதிரிகள் பெரியதாகவும் அதனினும் ஞாலப்பெரியதாகவும் கட்டமைக்கப்படுவதால், அவற்றின் சிக்கலான தன்மையும் செயல்திறனும் அதிகரிக்கிறது.ஆரம்ப மொழி மாதிரிகள் ஒரு வார்த்தையின் நிகழ்தகவைக் கணிக்க முடியும்; அதாவது ப.கோ.பி நடையின் அடுத்த சொல்லை அவதானிக்க முடியும். நவீன பெரிய மொழி மாதிரிகள் வாக்கியங்களின் நிகழ்தகவைக் கணிக்க முடியும். அதாவது சுஜாதா போல் பத்திகள் எழுத முடிகிறது! எஸ். ராமகிருஷ்ணன் போல் கதை விடுகிறது!!
கணினி நினைவகம், தரவுத்தொகுப்பு அளவு மற்றும் செயலாக்க சக்தி அதிகரிப்பதால் மொழி மாதிரிகளின் அளவும் திறனும் கடந்த சில ஆண்டுகளில் தடாலடியாகப் பெருகி தழைத்துள்ளது. மேலும் நீண்ட உரை வரிசைகளை மாதிரியாக்குவதற்கான மிகவும் பயனுள்ள நுட்பங்கள் உருவாக்கப்பட்டன.
எவ்வளவு சக்தி வேண்டுமோ… அத்தனை கணினி சக்தி! –அமேசான் ஆகட்டும்; மைக்ரோசாஃப் ஆகட்டும்; கூகுள் ஆகட்டும் –> கட்டற்ற கணிசக்தி கொடுக்கிறார்கள்,
அதே போல் சேமிக்கும் இடம் – அத்தனை தகவலையும் சேமிக்கும் தரவுக்கான இருப்பு வன்வட்டோடிகளுக்கான இடம் – கட்டற்ற சுதந்திரம் இங்கும் தருகிறார்கள்.
உங்களின் மடிக்கணினி போல் முடங்காத மையக் கணிப்பிரிவு சக்தி – எல்லாவற்றையும் யோசிக்க, கணிக்க, அனுமாணிக்க – எல்லைகள் ஏதுமற்ற அளவற்ற திறன் – அதையும் நல்குகிறார்கள்.
இனி – எல்லாம் உங்களின் சாமர்த்தியம். எல்லாம் உங்களின் காசை செலவழிக்கும் சக்திக்கு ஏற்ப, உங்களின் பிரத்தியேகமான தூண்டலுக்கு ஏற்ப, உங்களின் ஞானத்தை ஒத்தவாறு – பதில்களை, படைப்புகளை, புத்துருவாக்கங்களை கொணர முடியும்.
உங்களால் கேள்வி சரியாக கேடகமுடியாவிட்டால் – ‘ஆடத்தெரியாதவள் தெருக் கோணல் என்னும் கதையாக முடியும்!’
எத்தனை திறமையாக உங்களால் கேள்விகள் கேட்க முடியும்?
எத்தனை சாமர்த்தியமாக உங்களால் சிக்கலில் மாட்ட வைக்க இயலும்?
எவ்வளவு சாதுரியமாக உங்களால் நேரடியாக, முழுமையாக, தெளிவாக வினாக்களை ஊகங்களுக்கு இடமின்றி தெள்ளத் தெளிவாக சொடுக்க முடியும்?
உங்களுக்கு மொழியறிவும் கள அறிவும் கேட்கும் பொறுமையும் இருப்பின் – நீங்கள்தான் அடுத்த தலைமுறைக்கான வித்தகர். புதிய விஞ்ஞானத்தில் படைப்பாளி!

ஆரம்பத்தில் சொன்ன என்.எஸ்.கிருஷ்ணனின் பாட்டு இவ்வாறு முடியும்:
‘அடி பைத்தியம் !
நம்ம நாட்டிலே…
வீட்டு வேலை செஞ்ச பொம்மனாட்டிய பாரு
மேனாட்டு நாகரீகம் கொண்ட மேனியைப் பாருஅவ காட்டுக்கு போவா
களை எடுப்பா
காரியம் பாப்பா
கஞ்சி குடிப்பாஇவ கார்ல போவா
ஊரைச் சுத்துவா
கண்ணாடி பாப்பா
காப்பி குடிப்பா !!ஹ்ஹாஹ்ஹா…’
- நீங்கள் சாமர்த்தியமாக வினா எழுப்புவது எப்படி?
- உங்கள் அம்பறாத் தூணியில் எவ்வாறு தூண்டி எனப்படும் நினைப்பூட்டு சொல்/வாக்கியம் கொண்டு கருவிகளை கணினிக்குக் கட்டளையிடுவது?
- சிறிய மொழி மாதிரிகளுக்கும் பெரிய மொழி மாதிரிகளுக்கும் என்ன வித்தியாசம்?
- சாட்ஜிபிடி, டீப்சீக், ஓப்பன் ஏஐ, ஜெமினி, கோ பைலட், ஆந்த்ராபிக், பெர்ப்ளெசிட்டி, கிளாடி (கிளாவுட்) என்றால் என்ன? – எவற்றை எங்கே எதற்கு பிரயோகிக்க வேண்டும்?
தட்டச்சு இல்லாமல் கணினி இல்லை.
மின் தட்டச்சுப்பொறி இல்லாமல் கணினி இல்லை.
மின் அரட்டை இல்லாமல் கணினி உபயோகம் இல்லை என்பது இக்காலம்.
கணினியுடன் உரையாடல் இல்லாமல் வருங்காலம் இல்லை என்பது நிதர்சனம்!
(அடுத்த இதழ்களிம் மேலும் அறியலாம்)
உசாத்துணை
- [1hr Talk] Intro to Large Language Models
- Why “Living Intelligence” Is the Next Big Thing
- Tools’ Tuesday, January 21, 2025 (AI News’ special edition)
- LLM Frameworks in Action: Building RAG Systems with LangChain, LlamaIndex, and Haystack! | by Pavan Belagatti | Jan, 2025 | Level Up Coding
- Emerging Patterns in Building GenAI Products
- Introducing AX: Why Agent Experience Matters
- Practical End-to-End AI Development using Prompty and AI Studio
- Chatbot Software Begins to Face Fundamental Limitations | Quanta Magazine
- Jailbreaking Generative AI with Deepseek – Exploring Risks
- OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
- (WIP) A Little Bit of Reinforcement Learning from Human Feedback
- Understanding Reasoning LLMs – by Sebastian Raschka, PhD
- Thin Agents: Creating Lean AI Services with Local Fine-Tuned LLMs | by Alon Agmon | Towards Data Science | Jan, 2025 | Medium
- A Visual Guide to Reasoning LLMs – by Maarten Grootendorst
- LLM Basics: Embedding Spaces – Transformer Token Vectors Are Not Points in Space — LessWrong
நிபுணர்க்கலவை (mixture of experts) வல்லுநர் உதவியுடன் வளரும்
Discover more from சொல்வனம் | இதழ் 365 | 26 ஏப். 2026
Subscribe to get the latest posts sent to your email.




மிக அருமையான தொடக்கம் பாலாஜி. சுலபமான விளக்கங்களுடன். தொடரின் அடுத்த பகுதியை படிக்க இப்போதே ஆவல்
Good information. congratulations
நல்ல விளக்கம். எளிமையாக புரியும்படியாக மிக்க நன்றி.