Site icon சொல்வனம் | இதழ் 365 | 26 ஏப். 2026

தகவல் விஞ்ஞானம் – ஒரு அறிமுகம் – தொழில் தேவைகள் – பகுதி 2

data-scientist

இப்பகுதியில், ஒரு தகவல் விஞ்ஞானியின் தொழில் சார்ந்த தேவைகளைப் புரிந்து கொள்வோம். என்னதான் ஊதி வாசிக்கப்பட்டாலும் தகவல் விஞ்ஞானி என்ற ஒரு வசீகரத் தொழில் பெயர், தரவு என்பதன் முக்கியத்துவத்தை உயர்மட்ட மேலாண்மை வர்க்கத்திற்குத் தெரியப் படுத்திய ஒரு நல்ல செயல் என்றுதான் சொல்ல வேண்டும்.
தகவல் விஞ்ஞானிகள் மலை போல குவிந்திருக்கும் தரவை வைத்துக் கொண்டு என்ன செய்ய முடியும்? இதில் பல விஷயங்கள்/புரிதல்கள் மறைந்திருப்பது ஒரு புறம் இருந்தாலும், தகவல் விஞ்ஞானிகள் என்னமோ மாயாஜாலம் செய்ய வல்லவர்கள் என்று மட்டும் நினைக்க வேண்டாம். இந்தத் துறையிலும் பல நிரூபிக்கப்பட்ட அணுகுமுறைகள் உள்ளன.
சொல்வனத்தில் ’விஞ்ஞான வளர்ச்சியின் வளர்ச்சி’ என்ற கட்டுரைத் தொடரில், விஞ்ஞான முறைகள் பற்றி சில ஆண்டுகள் முன்பு எழுதியிருந்தேன். சில தரவு விஞ்ஞான அணுகுமுறைகள், விஞ்ஞான ஆராய்ச்சி முறைகளை மூலமாகக் கொண்டது.
இம்முறைகளை சில படிகளாகப் பட்டியலிடலாம்;

தரவு விஞ்ஞானப் படிகளைப் பார்த்தோம். ஆனால், இது ஒன்றும் கைப்பட செய்யும் சமாச்சாரம் இல்லை. இத்துறைக்கு பல தொழில்நுட்ப தேவைகள் மற்றும் வல்லுனர்கள் தேவை. முக்கியமாக, இவ்வகைக் கருவிகள் மிகவும் தேவை;
 

கருவி வகை

தரவு விஞ்ஞான படி

விளக்கம்

தரவு திரட்டல் (data extract)

2, 4

தரவு அலசலுக்கு தேவையான வடிவத்தில் தரவு, அதன் மூலத்தில் இருப்பதில்லை.

தரவு அலசல் (data analysis)

2, 3, 4, 5

தரவை பல பட்டியல்கள் மற்றும் அடிப்படை ஆய்வுகள் செய்தே புனைக்கொள்கைக்கு ஒத்துவருமா என்று முடிவு செய்ய முடியும்

தரவு தர மேம்பாடு (data quality)

2, 3, 4, 5

தரவு ,மனிதர்களால் உருவாக்கப்பட்டாலே பிரச்னைதான். மனிதர்கள் பலவிதம், அது போல அவர்கள் உருவாக்கும் தரவிலும் பலவகை பிரச்னைகளும் உருவாகும். ஒருவர் தமிழ்நாட்டிற்கு, தநா என்றும், இன்னொருவர் த.நா. என்றும், வேறொருவர் தநா. என்றும் தரவை உருவாக்குவார்கள். மேலும், சிலர் தேவையில்லையென்றால், தரவே கொடுக்க மாட்டார்கள். இதை எல்லாம் சரிகட்ட தரவுத் தர மேம்பாடு அவசியம்

புள்ளியியல் (statistics)

2,3,4,5

புள்ளியல் மென்பொருட்கள் தரவை சரியாக அடிப்படையில் புரிந்து கொள்ள பல கருவிகளை தருகிறது. உதாரணத்திற்கு, ஒரு விற்பனை தரவில் அதிக மாறுதலில்லாத அளவு (a measure without much variation) சில அலசல்களுக்கு, புனைக்கொள்கைகளுக்கு பயன்படாது. இதை புள்ளியியல் மூலம் எளிதில் சொல்லிவிடலாம்.

எந்திரக் கற்றலியல் (machine learning)

2,4

சில சலிப்பூட்டும் படிகளுக்கு எந்திரக் கற்றலியல் கருவிகள் மிக உதவும்

தரவு உருவகாக்கம் (data interpretation/ presentation)

5,6

விஞ்ஞான மற்றும் வியாபார உலகில் வடிவியல் மிகவும் அவசியம். இதற்கான கருவிகள் ஏராளம்

விரிவாக இந்தக் கருவிகளைப் பற்றி அலசுவோம்.

தரவுத் திரட்டல் கருவிகள் (data extraction tools)

தரவு விஞ்ஞானத்தில் அடித்தளம் ஆராய்ச்சிக்கேற்ற தரவு. அதென்ன ஆராய்ச்சிக்கேற்ற தரவு? அதாவது முன் வைக்கும் புனைக் கொள்கையை நிரூபிப்பதற்கு சம்பந்தப்பட்ட தரவு தேவை. நம்முடைய LED சர விளக்குகள் உதாரணத்தில், பல மாத/வருட, பல மையங்களின் வியாபார தரவு தேவைஆனால், LED சர விளக்குகள் சார்ந்த தரவாக மட்டுமே இருக்க வேண்டும். தீப்பெட்டி வியாபாரத் தரவில் நமக்கு பயனேதும் இல்லை. தரவுதளங்களில் எல்லா பொருட்களின் விற்பனை தரவும் இருக்கும். அதிலிருந்து நமக்கு வேண்டிய LED சர விளக்குகள் தரவை மட்டும் திரட்ட வேண்டும். அத்துடன், LED சர விளக்குகள் மற்றிய விளக்கமான (descriptive attributes) மாறிகளும் தேவை. இவ்வகைத் திரட்டல் கருவிகள் பல்லாண்டுகளாக மென்பொருள் துறை உருவாக்கி வந்துள்ளது. Microsoft, Oracle, SAS, SAP, Informatica, IBM போன்ற நிறுவனங்கள் தரவு திரட்டல் கருவிகளை பல்லாண்டுகளாய் மெருகேற்றி வந்துள்ளார்கள். SQL போன்ற கணினி மொழியில் வல்லமை தகவல் விஞ்ஞானிக்கு அவசியம். SQL –ஐத் தாண்டி, ஏராளமான தரவுகளைத் திரட்ட, இந்த நிறுவனங்களின் பிரத்யேகக் கருவிகள் தெரிய வேண்டும்.

அடிப்படைக் தரவு அலசல் கருவிகள் (basic data analysis tools)

முதல் தேவை, அடிப்படை தரவு கருவிகளில் சரளமாக விளையாடும் திறன். அதாவது Python, R, SAS போன்ற கருவிகளில் கையில் உள்ள தரவை ஆராயும் திறன். இத்துடன், இன்றைய தரவுதளங்களுடன் எளிதாகச் சஞ்சரிக்கத் தேவையான மொழி SQL. இவ்வகைக் கருவிகள், ஒரு தகவல் விஞ்ஞானியின் ஆரம்ப கட்ட ஆராய்ச்சிக்கு அவசியம். தேவையான தரவை தேவையான அம்சங்களோடு ராட்சச தரவுதளங்களிலிருந்து வடிகட்டி, எடுத்து ஆராய்வது தகவல் விஞ்ஞானிகளின் அடிப்படை வேலை. உதாரணத்திற்கு, தேசிய அளவு சில்லறை வியாபாரம் ஒன்றில், கடந்த ஐந்து ஆண்டுகளில், தென் மாநிலங்களில், அதிகமாக நுகர்வோர் வாங்கும் பகுதி எது என்ற கேள்வியை எப்படி அணுகுவது? முதலில், ராட்சச தரவுதளத்திலிருந்து, தென் மாநில சில்லறை மையங்களின் கடைசி ஐந்தாண்டு வியாபாரத் தரவு தேவை. இந்த தரவு கிடைத்த பின்புதான் மற்ற ஆராய்ச்சி செய்து கேள்விக்குப் பதில் அளிக்க முடியும். இதற்கு மேலே சொல்லப்பட்ட கருவிகளில் ஆளுமை தேவை.

அடிப்படை தரவு தரக் கருவிகள் (Basic data quality tools)

 

ஒரு ரகசியத்தைப் போட்டு உடைப்பதில் எந்தத் தயக்கமும் எனக்கில்லை – தகவல் விஞ்ஞானிகள், வசீகரமான பதில்களைத் தரும் நேரம் வெறும் 5% தான். மற்ற 95% நேரம், அடிப்படை தரவு மற்றும் தரக் கருவிகளுடன் போராடியே வாழ்பவர்கள். மலையைக் கெல்லுவது என்பதைவிட இவர்களைக் குப்பையைக் கிளறி வைரம் தேடுபவர்கள் எனலாம். முன்னே சொன்ன சில்லறை வியாபார தரவை எடுத்துக் கொள்வோம். நுகர்வோர் பல நேரங்களில், பொருட்களை வாங்கிச் சென்றதன் பதிவுதான் தரவு. இதைத் தவிர வாங்கிய நேரம் மற்றும் தேதி போன்ற விஷயங்கள் எளிதாகக் கிடைத்துவிடும். எந்தப் பொருட்கள், எந்தப் பகுதியில் அடுக்கப்பட்டிருக்கும் என்பது மிகவும் சிக்கலான பிரச்னை. முதிர்ந்த சில்லறை வியாபாரங்கள், இன்ன பொருட்கள், இன்னப் பகுதியில் நாட்டின் எந்தப் பகுதியிலும் ஒரே சீராக அடுக்குவார்கள். இவர்களின் அமைப்புகளிலும், சில சின்ன வியாபாரத் தளங்களில், சில பகுதிகள் இருக்காது. சீரற்ற அடுக்கு முறைகள் உள்ள சில்லறை வியாபாரங்களில் இந்தக் கேள்விக்கு பதிலளிப்பது, இயலாத செயல். விற்பனை நடந்த நேரத்தைச் சரியாக பதிவு செய்வதிலும் வேறுபாடுகள் இருக்கும்ஒரு தளம், மாலை ஐந்து மணியை 17:00 என்றும் இன்னொன்று 5:00 என்றும் பதிவு செய்தால், எல்லாவற்றையும் சீராக்க, தரவு தர மென்பொருள் கருவிகள் கொண்டு சரி செய்வது தகவல் விஞ்ஞானியின் வேலை.

இதைப் போல, சில தரவுகளில், எதுவுமே இல்லாமலும் இருக்கும். இதனால்தான் முதல் பகுதியில் மலைத்தொடர் என்ற சொல்லை பயன்படுத்தினேன். இந்த தரவு மலைத் தொடரில், சில குன்றுகள் காணாமலே போகும்; சில இடங்களில், உயரம் குறைவாகவும், சில இடங்களில் அதிகமாகவும் இருக்கும் மலைத் தொடர் போன்ற விஷயம் ஒரு பெரிய தரவு தளத்திலிருந்து தரவை எடுத்து ஆராய்வது. Informatica, Trillium, SAS போன்ற நிறுவனங்களின் கருவிகள் இந்த தரவு சுத்திகரிப்புச் செயலை எளிதாக்குகின்றன; இவற்றில் தகவல் விஞ்ஞானிகளுக்குத் தேர்ச்சி அவசியம்.

அடிப்படை புள்ளியியல் (basic statistics)

 

தகவல்  விஞ்ஞானியாக வெற்றி பெறப் புள்ளியியல் அறிவு மிகவும் அவசியம். பெரும்பாலும், வெற்றிப் பெற்ற தகவல் விஞ்ஞானிகள் புள்ளியியலில் முனைவர் பட்டம் பெற்றிருப்பவர்களாக இருப்பது, ஒரு தற்செயல் என்றுதான் சொல்ல வேண்டும். புள்ளியியலில் ஓரளவு தேர்ச்சி (முதுகலை அளவு) பெறுதல் அவசியம். ஏனென்றால், தரவுவிலிருந்து கிடைக்கும் பதில்களில் நிச்சயம் (deterministic) என்று எதுவும் கிடையாது, பெரும்பாலும் சாத்தியக்கூறுகள், கொத்தாக்கம் (clustering) மற்றும், ஒட்டுறவுகள் (correlation) அதிகம். சிறிய பயிற்சி தரவைக் கொண்டு, ராட்சச தரவுதளங்களில், தங்களுடைய கோட்பாடுகள் வேலை செய்கிறதா என்று ஆராய்வது தகவல் விஞ்ஞானியின் முக்கிய வேலை. R, SAS, IBM  போன்ற நிறுவனங்களின் மென்பொருள் கருவிகள், புள்ளியியல் நிபுணர்களின் நண்பன்.

எந்திரக் கற்றலியல்

நாம் இதுவரைச் சொன்ன முறைகள் அடித்துப் பிடித்து, ஒரு டெராபைட்டுகள் அளவில் உள்ள தரவுதளங்கள் வரை விஞ்ஞானியே சமாளித்து விடலாம். ஆனால், இன்றைய பெரும் வியாபாரங்கள், ஆராய்ச்சிகள், ராட்சச அளவில் தரவை தேக்கி வைத்துள்ளன. ஆரம்ப ஆராய்ச்சியை ஒரு எந்திரத்திடம் (அதாவது கணினி மென்பொருள்) விடுவதைத் தவிர வேறு வழியில்லை. அத்துடன், இன்றைய மென்பொருள் கருவிகள், பல நூறு கோடி தரவை ஆராய்ந்து சர்வ சாதாரணமாக, அருகாமை தரவு (near neighbors), கொத்து தரவு என்று பிரித்து காட்டும் வல்லமை கொண்டவை. மனித முயற்சியால், பல மாதங்கள் பிடிக்கும் இவ்வகை வேலைகளை, சில மணி நேரங்களில் எந்திரங்கள் செய்து விடுகின்றன. Apache Mahout, GraphLab, Python machine learning libraries, மற்றும் மேகக் கணிமை அமைப்புகள் வழங்கும் கருவிகளும் (Azure, Amazon, Google)  உள்ளன.  தகவல் விஞ்ஞானிக்கு இந்தக் கருவிகளில் ஒன்றிரண்டு தெரிதல் அவசியம்.

தரவு உருவாக்கம்

அழகாக வர்ணிப்பவரை, ‘அட, ஃபிலிம் காட்டுகிறார்’, என்று நாம் சொல்வதுண்டு. தகவல் விஞ்ஞானியும் தன்னுடைய ஆராய்ச்சி முடிவுகளை அழகாக வர்ணித்தல் அவசியம். இன்றைய கணினி மென்பொருள் உலகில் காட்சியளிப்புக்கு எந்தக் குறைவும் இல்லை. ஆனால், காட்சியளிப்பு மிகவும் கவனமாக உருவாக்க வேண்டும். மிக சீரியஸான முடிவுகளை எடுக்க உதவும் இவ்வகைக் காட்சியளிப்புகளில் துல்லியம் அவசியம். அத்துடன், தரவு எதை முன்வைக்கிறது, இதனால், வியாபாரம்/ஆராய்ச்சிக்கு இடர்வுகள் என்ன என்று எல்லாவற்றையும் முன் வைப்பது தகவல் விஞ்ஞானியின் கடமை. முக்கியமாக, வியாபாரம்/ஆராய்ச்சிக்கு முன் உள்ள முடிவுத் தேர்வுகள் என்னென்ன, அவற்றின் நன்மை/தீமைகள் என்னென்ன, லாப/நஷ்டங்கள் என்னென்ன என்று புரியும்படி விளக்குவதும் தகவல் விஞ்ஞானியின் திறன்.

விற்பனை/ஆராய்ச்சி பற்றிய புரிதல்

தரவு உருவாக்கம் என்பது வியாபாரம் அல்லது ஆராய்ச்சி பற்றிய ஆழமான புரிதலைச் சார்ந்தது. ஒரு வியாபாரத்தைப் புரிந்து கொள்ளுவது ஒரு வகைத் திறமை. ஆனால், ஒரு வியாபாரத்தின் தரவைப் புரிந்து கொள்ளுதல் என்பது முற்றிலும் வேறுபட்டது. இதற்கு, வியாபாரத்தின் ஏராளமான அன்றாட கணினிப் பயன்பாடு மற்றும் செயல்முறை பற்றிய ஆழமான அறிவு அவசியம். இந்த இரண்டும் ஒரு தகவல் விஞ்ஞானியின் ஆணிவேர். வியாபாரத்தை மட்டும் புரிந்து கொண்டவர் ஒரு வியாபார ஆய்வாளர் (business analyst) ஆகிவிடுவார். தரவை மட்டுமே புரிந்து கொள்பவர் ஒரு தரவு ஆய்வாளர் (data analyst) ஆகிவிடுவார். தகவல் விஞ்ஞானியோ, வியாபாரம், தரவு, செயல் முறைகள் மற்றும் வியாபாரத்தின் தொலைநோக்குத் தேவைகள் அனைத்தையும் புரிந்த ஒருவராக இருக்க வேண்டும். தரவு சொல்லும் கதையைப் புரிந்து கொண்டால் மட்டும் போதாது. அதை, மேலாண்மையினர் புரிந்து கொள்ளும் வகையில் அழகாக விவரிக்கவும் தெரிய வேண்டும்; அதை தரவு கூறும் சாட்சியங்களுடன் முடிவுக்காக, காட்சியளிப்பாக, முன் வைக்கவும் வேண்டும். முக்கியமாக, மேலாண்மையினர், இந்தப் புரிதலினால், லாபமடைந்தால், மேலும் அவர்களது எதிர்பார்ப்புகள் கூடிவிடும். தரவு சொல்லும் கதையை வெளியே மற்ற ஆலோசகர்களிடமிருந்து பெறமுடியாது; காசு கொடுத்து வாங்கவும் முடியாது.

நம்முடைய சில்லறை வியாபாரப் பிரச்னையில், அதிகமாக வாங்கப்படும் தென்னிந்தியப் பொருட்கள் எது என்பதை மட்டும் தெரிவதில் அதிகப் பயனில்லை. எந்தெந்த மையங்களில், இந்தப் பொருட்கள் அடுக்கப்படும் பகுதிகள் சேர்க்கப்பட வேண்டும், எந்த உற்பத்தியாளரிடமிருந்து இன்னும் நல்ல (அல்லது குறைந்த) விலைக்குப் பொருட்களை வாங்குவது, எப்படி லாபத்தைக் கூட்டுவது என்று கதை முழுமையடைய வேண்டும். இப்படிச் சொல்லப்படும் டேட்டாக் கதைகள் மேலும் தரவு விஞ்ஞானத்தின் தாக்கத்தைக் கூட்டும்.

அடுத்த பகுதியில், இந்தத் துறையில் முன்னேறுவதைப் பற்றி ஆராய்வோம்.

Exit mobile version