பொறி செயற்கை நுண்ணறிவு 101 – முதற் பாடம் – சொல்வனம் | இதழ் 365

செயற்கை நுண்ணறிவு என்பது:

1) சகல ரோக நிவாரணி – உங்களின் அனைத்து பிரச்சினைகளுக்கும் வேலைகளுக்கும் ஒரேயொரு தீர்வு
2) நம்மை ஆளப் போகும் வருங்காலம் – பார்த்து சூதானமாக இருந்துக்குங்க
3) சீச்சீ.. தூ – சொல்வதெல்லாம் புளுகு; மூளையை மழுங்கடிக்கும்; அறிவீனர்கள் புழங்குவது. நான் அறிவுஜீவி
4) ஒண்ணுமே புரியலங்க – பிட்காயின், ரோபோ மாதிரி பொறுத்திருந்து பார்ப்போம்.
5) யாம் அமைத்தும் அறிந்த கணினி கில்லாடி – நான் தான் டிப் சீக் எழுதியவ! நான் அசைந்தால் அசையும் இந்த ஏ.ஐ,!! நான் தான் சடோஷி நகொமோட்டோ!!!

இதில் எதைத் தேர்ந்தெடுத்தாலும் இந்தக் கட்டுரை உங்களுக்குத்தான்.

நல்ல தம்பி (1949) படத்தில் ‘விஞ்ஞானத்தை வளர்க்க போறேண்டி’ பாடலில் கீழ்க்கண்ட வரிகள் வரும்:

‘பொஞ்சாதி புருஷன் இல்லாம
புள்ளயும் குட்டியும் பொறக்குறாப்புல
விஞ்ஞானத்தை வளர்க்கப்போறேண்டி
….
புஞ்சை நிலத்தில் பருத்திச் செடியில்
புடவை ரவிக்கை வேட்டி காய்க்க
பஞ்சைக் கிழவர் தன்னை
பால பருவமாக்கி நாட்டைக்காக்க

கைத்திறமைய காட்டப்போறேண்டி ஒரு
கவியைப்பாடி காத்து மழை
உண்டாக்கப் போறேண்டி”

இதெல்லாம் இப்பொழுது சாத்தியமோ/இல்லையோ! ஒன்றை நிஜமாகி இருக்கிறது ‘செயற்கை நுண்ணறிவு’:

“பள்ளிக்கூடத்துக்கு புள்ளைங்க போகாம
படிக்க கருவி பண்ணியும் வைக்கணும்”

எப்படி?

ஆதியில் ஆரம்பிப்போம்

மொழி மாதிரிகளும் பெரிய மொழி மாதிரிகளும் (LLMகள்)
நிலைமாற்றி (டிரான்ஸ்ஃபார்மர்)களும் சுய-கவனமும்
எல்.எல்.எம்.களின் செலவுகளுக்கு ஏற்ற பலன்களும், பொதுவான பயன்பாட்டு நிகழ்வுகளும்.

மெல்ல மழுங்கடிக்கும் செயற்கை நுண்ணறிவு அபாயம்

மொழி மாதிரி என்றால் என்ன?

சட்டென்று சொன்னால்:
‘நான் பேச நினைப்பதெல்லாம் நீ பேச வேண்டும்!’

விரிவாகச் சொன்னால்:
“நான் பேச நினைப்பதெல்லாம் நீ பேச வேண்டும்
நாளோடும் பொழுதோடும் உறவாட வேண்டும் உறவாட வேண்டும்

நான் காணும் உலகங்கள் நீ காண வேண்டும் நீ காண வேண்டும்
நீ காணும் பொருள் யாவும் நானாக வேண்டும் நானாக வேண்டும்”

நீங்கள் அடுத்த வார்த்தை என்ன சொல்லப் போகிறீர்கள் என்பதை ஊகிக்கும் கருவி – லேங்குவேஜ் மாடல் (அ) மொழி மாதிரி.

மயிலாப்பூர் என்றவுடன் கபாலியோ, மாமியோ நினைவிற்கு வருகிறதா – அது ‘மொழி மாதிரி’
திருநெல்வேலி என்றவுடன் சுகா-வோ, அல்வா-வோ நினைவிற்கு வருகிறதா – அது ‘மொழி மாதிரி’
பெங்களூர் என்றவுடன் பெண்களூர் அல்லது குளிர் நினைவிற்கு வருகிறதா – அது ‘மொழி மாதிரி’
பட்டுக்கோட்டை பிரபாகர் என்றவுடன் கோவையின் புறநகர் பகுதிகளோ சுசீலாவோ பரத்தோ நினைவிற்கு வருகிறதா – அது ‘மொழி மாதிரி’

‘பெரிய மொழி மாதிரி’களுக்குள் செல்வதற்கு முன்னால் டோக்கன் என்றால் என்ன என்பதைப் பார்த்து விடலாம்

கிள்ளாக்கு (அ) குறி என்னும் டோக்கன்

இப்படிப்பட்ட தமிழில் எத்தனை கிள்ளாக்குகள் உள்ளன? என்பதைத் தெரிந்து கொள்வோம்.

வார்த்தைகள் என்னவோ எட்டே எட்டுதான். ஆனால்,

கிள்ளாக்குகள்: 24
எழுத்துகள்: 76

மேலும்: https://platform.openai.com/tokenizer | Tokenizer – OpenAI API

இங்குதான் தமிழின் சிக்கல்கள் துவங்குகின்றன.

‘இப்படிப்பட்ட’ என்னும் வார்த்தையை எடுத்துக் கொள்வோம்.
இ – என்பது சுட்டு (இடைச்சொல்)
ப் – இன்னொரு இடைச்சொல்
பட/ படி – சொல்
ப் – மீண்டும் இடைச்சொல்
பட்ட / ட்ட – வார்த்தை முடிகிறது

ஆங்கிலம் இம்புட்டு இலக்கண சிரமம் கொடுக்காத மொழி.
ஒரு பெயர்ச்சொல்.
ஒரு வினைச்சொல்.
அம்புட்டுதான்… வேண்டுமானால் ஒட்டிக்கொண்டு ஒரு அரைச்சொல் மாத்திரை ஆங்கிலத்தில் (அப்பாஸ்ட்ரொப்பியோ, பாதி உச்சரிப்போ!)

நமக்கு பெயர்ச்சொல், வினைச்சொல், இடைச்சொல், உரிச்சொல் – அதன் மேல் குற்றியலுகரம், குற்றியலிகரம், சார்பெழுத்து…. உஸ்ஸ்… தமிழ் கண்ணைக் கட்டும் – தேமா, புளிமா, நிரை நேர், தளை, தொடை, அசை, சீர்!

தமிழ் இலக்கணம் நன்றாகத் தெரிந்தால் கிள்ளாக்கு (டோக்கன்) எளிதாகப் புரியும்.
மொழி மாதிரிகளின் இலட்சணங்கள் விளங்கும்.
எவ்வாறு அவை கவிதைகளையும் கதைகளையும் மொழியாக்கங்களையும் உருவாக்குகின்றன என்பதெல்லாம்

‘அகர முதல எழுத்தெல்லாம்
அறிய வைத்தாய் தேவி…
🎵🎵
இயல் இசை நாடக தீபம்
ஏற்றி வைத்தாய் நீயே’

என்று புரிந்துணர்ந்து புளங்காங்கிதம் கொள்ளச் செல்லும்!

என் பள்ளி மாணவர்களிடம் இன்றும் ஐகாரக் குறுக்கமும் அகப்பொருளும் புறப்பொருளும் முக்கியம் என்று சொல்லும்போது சற்றே பெருமிதமும் நிறைய இலக்கண சுத்தமும் ஆதார அறிவின் முக்கியத்துவத்தையும் ஒருங்கே உணர்கிறேன்.

“கிள்ளாக்குகளின் வரிசை” என்பது – ஒரு முழு வாக்கியமாகவோ அல்லது வாக்கியங்களின் தொடராகவோ இருக்கலாம். அதாவது, ஒரு மொழி மாதிரியானது (எல்.எம்/LM) வெவ்வேறு முழு வாக்கியங்கள் அல்லது உரை தொகுதிகளின் சாத்தியத்தை கணக்கிட முடியும்.

மொழி மாதிரி (எல்.எம்/LM) – என்பது என்ன?

அளவில் மனித மொழியை மாதிரியமைத்தல் (மாடலிங்) செய்வது மிகவும் சிக்கலானதும் வளம் மிகுந்த முயற்சியுமாகும்.

ஆனால், இன்றைய தேதியில் இதெல்லாம் சாத்தியம்:

பல்கலைக்கழகப் பேராசிரியர் – அடுத்த வார்த்தையாக என்ன சொல்வார்?
‘காடு’ ஜெயமோகன் – அவரின் ‘காடு’ நாவலைப் போன்ற நாவலை எப்படி எழுதுவார்?
மனுஷ்யபுத்திரன் காதல் கவிதை – எவ்வாறு அவரின் அடுத்த பாடலாக்கம் எவ்வாறு உருப்பெறும்?
பா. ராகவனின் சமூக வரலாற்று நூல் – எப்படி இருக்கும்? அவர் சோமாலியாவைக் குறித்து ‘நிலமெல்லாம் ரத்தம்’ என எழுதினால் எப்படி உருவாக்குவார்?
சுஜாதா / இராஜேஷ் குமார் / ராஜேந்திர குமார் / பரணீதரன் / மெரீனா – அவர்களின் அடுத்த படைப்பு எப்படி இருக்கும்?

மாதிரிகள் பெரியதாகவும் அதனினும் ஞாலப்பெரியதாகவும் கட்டமைக்கப்படுவதால், அவற்றின் சிக்கலான தன்மையும் செயல்திறனும் அதிகரிக்கிறது.ஆரம்ப மொழி மாதிரிகள் ஒரு வார்த்தையின் நிகழ்தகவைக் கணிக்க முடியும்; அதாவது ப.கோ.பி நடையின் அடுத்த சொல்லை அவதானிக்க முடியும். நவீன பெரிய மொழி மாதிரிகள் வாக்கியங்களின் நிகழ்தகவைக் கணிக்க முடியும். அதாவது சுஜாதா போல் பத்திகள் எழுத முடிகிறது! எஸ். ராமகிருஷ்ணன் போல் கதை விடுகிறது!!

கணினி நினைவகம், தரவுத்தொகுப்பு அளவு மற்றும் செயலாக்க சக்தி அதிகரிப்பதால் மொழி மாதிரிகளின் அளவும் திறனும் கடந்த சில ஆண்டுகளில் தடாலடியாகப் பெருகி தழைத்துள்ளது. மேலும் நீண்ட உரை வரிசைகளை மாதிரியாக்குவதற்கான மிகவும் பயனுள்ள நுட்பங்கள் உருவாக்கப்பட்டன.

எவ்வளவு சக்தி வேண்டுமோ… அத்தனை கணினி சக்தி! –அமேசான் ஆகட்டும்; மைக்ரோசாஃப் ஆகட்டும்; கூகுள் ஆகட்டும் –> கட்டற்ற கணிசக்தி கொடுக்கிறார்கள்,

அதே போல் சேமிக்கும் இடம் – அத்தனை தகவலையும் சேமிக்கும் தரவுக்கான இருப்பு வன்வட்டோடிகளுக்கான இடம் – கட்டற்ற சுதந்திரம் இங்கும் தருகிறார்கள்.

உங்களின் மடிக்கணினி போல் முடங்காத மையக் கணிப்பிரிவு சக்தி – எல்லாவற்றையும் யோசிக்க, கணிக்க, அனுமாணிக்க – எல்லைகள் ஏதுமற்ற அளவற்ற திறன் – அதையும் நல்குகிறார்கள்.

இனி – எல்லாம் உங்களின் சாமர்த்தியம். எல்லாம் உங்களின் காசை செலவழிக்கும் சக்திக்கு ஏற்ப, உங்களின் பிரத்தியேகமான தூண்டலுக்கு ஏற்ப, உங்களின் ஞானத்தை ஒத்தவாறு – பதில்களை, படைப்புகளை, புத்துருவாக்கங்களை கொணர முடியும்.

உங்களால் கேள்வி சரியாக கேடகமுடியாவிட்டால் – ‘ஆடத்தெரியாதவள் தெருக் கோணல் என்னும் கதையாக முடியும்!’

எத்தனை திறமையாக உங்களால் கேள்விகள் கேட்க முடியும்?
எத்தனை சாமர்த்தியமாக உங்களால் சிக்கலில் மாட்ட வைக்க இயலும்?
எவ்வளவு சாதுரியமாக உங்களால் நேரடியாக, முழுமையாக, தெளிவாக வினாக்களை ஊகங்களுக்கு இடமின்றி தெள்ளத் தெளிவாக சொடுக்க முடியும்?

உங்களுக்கு மொழியறிவும் கள அறிவும் கேட்கும் பொறுமையும் இருப்பின் – நீங்கள்தான் அடுத்த தலைமுறைக்கான வித்தகர். புதிய விஞ்ஞானத்தில் படைப்பாளி!

ஆரம்பத்தில் சொன்ன என்.எஸ்.கிருஷ்ணனின் பாட்டு இவ்வாறு முடியும்:

‘அடி பைத்தியம் !
நம்ம நாட்டிலே…
வீட்டு வேலை செஞ்ச பொம்மனாட்டிய பாரு
மேனாட்டு நாகரீகம் கொண்ட மேனியைப் பாரு

அவ காட்டுக்கு போவா
களை எடுப்பா
காரியம் பாப்பா
கஞ்சி குடிப்பா

இவ கார்ல போவா
ஊரைச் சுத்துவா
கண்ணாடி பாப்பா
காப்பி குடிப்பா !!

ஹ்ஹாஹ்ஹா…’

செயற்கை நுண்ணறிவு – சில கற்பனைகள்!

நீங்கள் சாமர்த்தியமாக வினா எழுப்புவது எப்படி?
உங்கள் அம்பறாத் தூணியில் எவ்வாறு தூண்டி எனப்படும் நினைப்பூட்டு சொல்/வாக்கியம் கொண்டு கருவிகளை கணினிக்குக் கட்டளையிடுவது?
சிறிய மொழி மாதிரிகளுக்கும் பெரிய மொழி மாதிரிகளுக்கும் என்ன வித்தியாசம்?
சாட்ஜிபிடி, டீப்சீக், ஓப்பன் ஏஐ, ஜெமினி, கோ பைலட், ஆந்த்ராபிக், பெர்ப்ளெசிட்டி, கிளாடி (கிளாவுட்) என்றால் என்ன? – எவற்றை எங்கே எதற்கு பிரயோகிக்க வேண்டும்?

தட்டச்சு இல்லாமல் கணினி இல்லை.
மின் தட்டச்சுப்பொறி இல்லாமல் கணினி இல்லை.
மின் அரட்டை இல்லாமல் கணினி உபயோகம் இல்லை என்பது இக்காலம்.
கணினியுடன் உரையாடல் இல்லாமல் வருங்காலம் இல்லை என்பது நிதர்சனம்!

(அடுத்த இதழ்களிம் மேலும் அறியலாம்)

உசாத்துணை

நிபுணர்க்கலவை (mixture of experts) வல்லுநர் உதவியுடன் வளரும்

Discover more from சொல்வனம் | இதழ் 365 | 26 ஏப். 2026

Subscribe to get the latest posts sent to your email.

சொல்வனம் | இதழ் 365 | 26 ஏப். 2026