பிக் டேட்டா: தகவல்களின் விஸ்வரூபம்

Big_Data_Internet_Minute_Social_Networking_Bytes_Growth_Google_Flickr_Facebook_Youtube_Linkedin_Amazon_Cloud

இன்று ஐ.டி கம்பெனிகளில் பெரிதாகப் பேசப் படுவது Big Data. இது என்ன Big Data? தகவல்கள் எப்படி திடீரென்று பெரிதாயின? தகவல்கள் அதிகமாக ஆயிருகின்றனவா இல்லையா என்று தெரிந்து கொள்ள இந்த graphஐப் பாருங்கள்

business_iot_computing_exaflops_power_Growth_big_data

கடந்த எட்டு வருடங்களில் கம்பெனிகளும் தனியாரும் பயன்படுத்திய தகவல்கள் நாற்பது மடங்கு அதிகரித்திருக்கின்றன. அம்மாடி இவ்வளவு விஷயங்கள் எங்கிருந்து வந்தன? பறக்கும்ஒரு பெரிய விமானம் பத்து நிமிடங்களில் பத்து டெராபைட் தகவல்களைச் சேகரித்து விடும். ஒரு டெராபைட் என்றால் எவ்வளவு? கிலோபைட், மெகாபைட், கிகாபைட் வரைக்கும் நமக்கெல்லாம் தெரியும். அதுக்கும் மேலே. நாம் பேசப் போவதோ மஹா பெரிய தகவல்களைப் பற்றி. அதற்கு கிகாபைட்டெல்லாம் சுண்டைக்காய். எங்கள் வேலைக்குத் தேவையான அளவே கணினி பற்றித் தெரிந்து வைத்திருக்கிறோம் என்று சொல்பவர்களுக்காக ஒரு ட்யூட்டோரியல்:
ஒரு எண்ணையோ எழுத்தையோ ஒரு பைட் என்று கணக்கு வைத்துக் கொள்ளலாம். கிலோ பைட் என்றால் ஆயிரம் பைட் என்று உடனே சொல்லி விடுவீர்கள். ஆசாரமான கம்ப்யூடர் விஞ்ஞானிகள் ஆயிரம் இல்லை 1024 என்று வாதிப்பார்கள். Big Dataவின் ப்ரம்மாண்டத்தைப் புரிந்து கொள்ள இந்த வேறுபாடுகள் அனாவசியம். விஸ்வரூபத்தைப் புரிந்து கொள்ள கடைசி டெசிமல் வரைக்கும் அதன் உயரம் தெரிய வேண்டுமா என்ன?
பாடத்தைத் தொடர்வோமா? மெகா, கிகா, டெரா, ஆயிரம் ஆயிரமாக இந்த அளவை வளர்ந்து கொண்டே போகும்:
மெகா (mega)    106
கிகா (giga)    109
டெரா (tera)    1012
பீடா (peta)    1015
எக்ஸா (exa)    1018
ஜெட்டா (zetta)    1021
யோட்டா    (yotta)    1024
தற்போதைக்கு இவ்வளவு போதும். இணையத்தில் பயணிக்கும் தகவல்கள் மொத்தமாக 4.8 ஜெட்டாபைட்டாக இருக்கும்  என்று விஷயம் தெரிந்தவர்கள் கணிக்கிறார்கள். இந்த ஜெட்டா, யோட்டாவெல்லாம் ஏதோ க்ரேக்க எழுத்துகள் போல் இருக்கின்றன. இவற்றிற்குச் சமமான நம்மூர் எண்கள் கிடையாதா என்று கேட்கும் சுதேசி ஆர்வலர்களுக்காக:
மெகா (mega)    106   மெய்யிரம்   பத்து லட்சம்
கிகா (giga)    109    தொள்ளுண்    நிகர்ப்புதம்
டெரா (tera)    1012   ஈகியம்        கர்வம்
பீடா (peta)    1015    நெளை    சங்கம்
எக்ஸா (exa)    1018    இளஞ்சி    அர்த்தம்
ஜெட்டா (zetta)    1021    ஆம்பல்    முக்கொடி
நாற்பது இளஞ்சி தகவல் என்பதை விட எக்ஸாபைட் என்பதே சுலபம் என்று நினைத்தால் அதுவும் சரி.
அமெரிக்க அதிபரிலிருந்து அடுத்த வீட்டுக்காரர் வரை எல்லோரைப் பற்றியும் உங்கள் கருத்துகளைக் காரசாரமாக ட்விட்டரில் புகுத்தி விடுகிறீர்கள் அல்லவா? அத்தகை ட்வீட்கள் ஒரு நிமிடத்துக்கு 90,000 வீதமாக வருகிறதாம். முழுக் கோட்டாவையும் நீங்கள் உபயோகிக்கவில்லை என்றாலும் ஒரு ட்வீட்டுக்கு 50 – 70 எழுத்துகள் என்ற வீதத்தில் எத்தனை பைட்கள் ஒவ்வொரு நிமிடமும் தோன்றிக் கொண்டிருக்கின்றன – சிந்தித்துப் பாருங்கள்.
இப்படியெல்லாம் ஜனித்த விஷயங்களைச் சேமித்து வைக்க  பிரம்மாண்டமான தகடுகள் தேவைப் படும் என்பது மட்டும் பிரசினை அன்று. இந்தத் தரவுகளை அலசி ஆராய்ந்து அவற்றின் பொருள் காண வேண்டும். யாருக்கு வேண்டும் இந்த விஷயங்கள் என்று நீங்கள் கேட்கலாம். இந்த தகவல்களும், அவற்றில் ஏற்படும் மாற்றங்களும் சில செய்திகளைத் தன்னுள் ஒளித்து வைத்துக் கொண்டிருக்கின்றன. அச் செய்தியை ஆய்ந்து கண்டுபிடிப்பவர் அதனால் பயன் பெற இயலும். உதாரணமாக பங்குச் சந்தையில் பங்கு விலைகளின் போக்கை ஆய்ந்து அவற்றின் எதிர்கால மாற்றத்தைக் கணிக்கும் வல்லுனர்கள் (technical analysts) அறிவுரை கேட்க டிவி சேனல்களில் ஒன்றியிருப்பவர்  எத்தனை பேர்? கிரிக்கெட் ஆட்டம் நடக்கும்போதே புள்ளிவிவரங்களைத் தெள்ளி
அளிக்கிறது டிவி. எப்படி? இன்னும் சிக்கலான விஷயங்களைப் பார்ப்போமோ? உங்கள் கம்பெனி ஷாம்பூவைப் பயன்படுத்திய ஒருவரின் முடி தும்பையாக நரைத்து விட்டது. அவர் என்ன செய்வார் என்று நினைக்கிறீர்கள்? சமூக ஊடகங்களில் தன் ஃபோட்டோவைப் போட்டு உங்கள் மானத்தை வாங்குவார். அந்தப் பதிவு சில நிமிடங்களில் retweet, share ஆகி உலகம் முழுவதும் பரவி விடும். இந்தப் பதிவை எவ்வளவு விரைவில்  எதிர்கொண்டு நுகர்வாளர்களுக்குத் தீர்வு வழங்குகிறீர்களோ, அவ்வளவு நல்லது உங்களுக்கும் உங்கள் கம்பெனிக்கும். பங்குச் சந்தை, கிரிக்கெட்டை விட இது கடினம். முதல் இரண்டில் தகவல் எங்கிருந்து எப்போது வரும் என்று உங்களுக்குத் தெரியும். சமூக ஊடகத்தில் ‘ஓடு மீன் ஓட’ என்று நீங்கள் பார்த்துக் கொண்டே இருக்க வேண்டும். அதுவும் டெராபைட்கள் ஓட்டத்தில். இதுதான் பிரம்மாண்டத் தகவல்களின் ஆய்வு (Big Data Analytics).
இப்போது புரிகிறதா Big Data என்றால் என்னவென்று?
அளவில் பெரியது என்று சொல்ல வேண்டியதில்லை. அது பெயரிலிருந்தே தெரிகிறது. ஆனால் அளவு என்பது ஒரு பரிமாணம்தான். அது மட்டுமல்ல. மற்ற பரிமாணங்களை விட எளிதாகக் கையாளக் கூடியது. – இன்றைய கணினித் தொழில் நுட்பத்தில்.
மீண்டும் சமூக ஊடக எடுத்துக் காட்டை  நினைத்துப் பாருங்கள் – மற்ற பரிமாணங்கள் புரியும். facebookஇல் உங்கள் பதிவை எழுத்து வடிவத்தில் மட்டுமா போடுகிறீர்கள்? புகைப் படமாக, ஒலி / ஒளி  நாடாவாக என்று பல விதமாகப் பதிவு செய்கிறீர்கள்? இவை எல்லாமே ஆய்வுக்கு அவசியம். ஆய்வுக்கான மென்பொருள் பல்விதமான தகவுகளைக் கையாள ஏற்றதாக இருக்க வேண்டும். இதுதான் இரண்டாவது பரிமாணம்.
ஊடகங்களில் தரவுகள் வரும் வேகத்தைப் பற்றி முன்பே சொன்னோம். பிரளயமாக ஒடிவரும் பதிவுகளிலிருந்து தேவையற்றதைக் களைந்து மற்றதை எடுத்து ஆய்வது என்பது பகீரதப் ப்ரயத்னம். இல்லை இல்லை இன்னும் கொஞ்சம் கூட. பகீரதன் பிரவாஹத்தைக் கொண்டு வந்தான். அந்த வேகத்தைத் தடுத்தாட்கொண்டு உலகத்துக்கு உபயோகமாக ஓடச் செய்த சிவ பெருமானின் செயலை ஒத்தது. இணையத் தேடல் என்பது வைக்கோல் போரில் ஊசியைத் (needle in a haystack) தேடுவது என்பார்கள். மஹா தகவல் ஆய்வு என்பது ஓடும் நதியில் ஊசியைத் தேடுவது.
ஆக அளவு, விதம், வேகம் (volume, variety, velocity) என்ற முப்பரிமாணங்கள் மஹா தகவல்களுக்கு உண்டு. மாற்றம் (variability) என்று இன்னொரு vஐக் கூட்டுபவர் உளர். அதாவது இந்தத் தகவல்கள் திடீரென்று தன் போக்கை மாற்றிக் கொள்ளக் கூடும். பங்குச் சந்தையில் திடீர் மாற்றங்களைப் பார்த்ததில்லையா?
இப்படி நாலு கால் பாய்ச்சல்லில் பரிணாம வளர்ச்சி அடைந்துள்ள மஹா தகவல்களைக் கையாள பழைய வழிமுறைகளும், தொழில் நுட்பங்களும் எப்படிப் போதும்? கடுமையான விதிமுறைகளுக்குக் கட்டுப்பட்டுத் தரவுகளை நேர்த்தியாகப் பகுத்து வைக்கும் relational database பல விதமான தரவுகளைக் கொண்ட Big Dataவுக்குப் பொருந்தாது. விலை அதிகமானால் தேவை குறையும்; மார்கெட்டில் தேவைக்கு அதிகமாக பொருட்கள் வருமானால் விலை குறையும் என்று ஒரு பரிமாணத்திலிருந்து மற்றொன்றைக் கணிக்கும் ஆய்வு முறைகள் இங்கே தோற்றுப் போகும். ஒவ்வொரு விளைவுக்கும் பற்பல காரணிகள் இருக்கக் கூடும் அவை ஒவ்வொன்றும் .வெவ்வேறு அளவில் விளைவைப் பாதிக்கக் கூடும் என்ற அடிப்படையில் இயங்குகிறது Big Data Analytics (மஹா தகவல் ஆய்வு).  ஒரு சில அட்டவணைகளில் ஒளிந்திருக்கும் விடையைக் கண்டுபிடிக்கும் SQLஉம் இங்கு திறனற்றுப் போகும். இந்தப் பொருளை யாரிடமிருந்து வாங்கினோம், என்ன விலையில் போன்ற தெரிந்த உண்மையை வெளிக் கொணர்வதன்று Big Data Analytics. நமக்கே தெரியாமல் நம்முடைய தரவுகளில் பூடகமாக மறைந்திருக்கும் தகவல்களை அகழ்ந்தெடுப்பது (இந்த உத்தியை data mining என்று சொல்கிறோம்) Big Data Analytics. NoSQL (SQL இல்லை என்பது போல் தோன்றினாலும் இது Not Only SQL என்பதன் சுருக்கம்) என்ற புதிய உத்தியை இதற்கு பயன்படுத்துகிறார்கள்.
பெருவாரியான புள்ளியியல் செய்முறை நுட்பங்களைத் தன்னடக்கிய ஒரு புது விஞ்ஞானமாகவே உருவெடுத்திருக்கிறது இந்தத் தகவல் ஆய்வு.  இந்த நூதன முறைகள் Data Science (தகவல் விஞ்ஞானம்) என்று சொல்லப் படுகிறது. தகவல் தொழில் நுட்பத்தில் இன்று புதிய கவர்ச்சி நட்சத்திரம் இது. பல இளைஞர்கள் இத்துறையில் பிரவேசிக்க விழைகிறர்கள்.
காட்டாற்றில் அடித்து வரும் பல்லாயிரக்கணக்கான, பல்வேறு விதமான தகவல்களின் ஊடே எங்கோ யாரும் அறியாமல் ஒரு ஒழுங்கு முறை (pattern) மறைந்திருக்கக் கூடும். இந்த ஒழுங்கு முறை நமக்கு வருங்காலத்தைப் பற்றிய அரியதோர் உண்மையை உணர்த்தக் கூடும்; வருமுன் காக்கும் வழிமுறைகளை நமக்கு அறிவுறுத்தக் கூடும். வியாபாரத்திலும், நிர்வாகத்திலும் எதிர்காலத்தை நிர்ணயிக்கத் தெரிந்தவர்களே வெற்றி பெறுகிறார்கள். இப்போது புரிகிறதா ஏன் Big Dataவைத் தலையில் வைத்துக் கொண்டாடுகிரார்கள் என்று?
உங்கள் தரவுகளின் ஊடே வைரங்கள் மறைந்திருக்கக் கூடும் என்று அறிவுறுத்துகிறார் ஹார்வர்ட் பேராசிரியர் கேரி லவ்மேன் (‘Diamonds in your data mine’, Gary Loveman, Harvard Business Review, May 2003). அவர் சொல்வதன் பொருள் அவருக்குப் புரிந்திருக்க வேண்டும். ஹாராஸ் என்டர்டெயின்மென்ட் (Harrah’s Entertainment) என்ற வீழ்ந்து கொண்டிருந்த சூதாட்ட கிளப்பை நான்கு வருடங்களில் லாபகரமானதாக மாற்றி  Best CEO பரிசையும் தட்டிச் சென்றவர் அவர். அவருடைய வெற்றியின் ரகசியம் விளையாட வருபவர்களைப் பற்றிய தகவல்களைச் சேகரித்து அவற்றை நுண்ணியமாக ஆராய்ந்து எந்த மாதிரியான வாடிக்கையாளரிடமிருந்து அதிகமான வரவும், வரவுக்கான வாய்ப்பும் இருக்கிறது என்று கண்டு பிடித்து அதற்கேற்றவாறு ஊக்க வழிமறைகளை நிர்ணயித்ததுதான்.
ஆகவே உங்கள் தகவல்கள்தான் உங்கள் வழிகாட்டிகள். அத்தகவல்கள்  உங்கள் பெட்டகத்துள்ளே மட்டும் உறைந்திருக்க வில்லை. அவை மார்கெட்டில் இருக்கின்றன. உங்களுடன் போட்டியிடும் மற்ற கம்பெனிகளைப் பற்றிய தகவல்கள் உங்களுக்கு மிக முக்கியம். சமூக வலைத்தளங்களில்கள் பயனீட்டாளர்களின் கருத்துகள் உங்கள் தலைவிதையை மாற்றக் கூடியவை. இவை எல்லவற்றையும் தொடர்ந்து ஆராய்ந்து விரைவாக செயலாற்றத் தேவை மஹா தகவல் ஆய்வு.
நினைவிருக்கட்டும்: உங்கள் ரத்தினங்கள் உங்கள் தகவல்களில்

One Reply to “பிக் டேட்டா: தகவல்களின் விஸ்வரூபம்”

Comments are closed.