kamagra paypal


முகப்பு » கட்டுரை, கணினித் துறை, தொழில்நுட்பம்

பிக் டேட்டா: தகவல்களின் விஸ்வரூபம்

Big_Data_Internet_Minute_Social_Networking_Bytes_Growth_Google_Flickr_Facebook_Youtube_Linkedin_Amazon_Cloud

இன்று ஐ.டி கம்பெனிகளில் பெரிதாகப் பேசப் படுவது Big Data. இது என்ன Big Data? தகவல்கள் எப்படி திடீரென்று பெரிதாயின? தகவல்கள் அதிகமாக ஆயிருகின்றனவா இல்லையா என்று தெரிந்து கொள்ள இந்த graphஐப் பாருங்கள்

business_iot_computing_exaflops_power_Growth_big_data

கடந்த எட்டு வருடங்களில் கம்பெனிகளும் தனியாரும் பயன்படுத்திய தகவல்கள் நாற்பது மடங்கு அதிகரித்திருக்கின்றன. அம்மாடி இவ்வளவு விஷயங்கள் எங்கிருந்து வந்தன? பறக்கும்ஒரு பெரிய விமானம் பத்து நிமிடங்களில் பத்து டெராபைட் தகவல்களைச் சேகரித்து விடும். ஒரு டெராபைட் என்றால் எவ்வளவு? கிலோபைட், மெகாபைட், கிகாபைட் வரைக்கும் நமக்கெல்லாம் தெரியும். அதுக்கும் மேலே. நாம் பேசப் போவதோ மஹா பெரிய தகவல்களைப் பற்றி. அதற்கு கிகாபைட்டெல்லாம் சுண்டைக்காய். எங்கள் வேலைக்குத் தேவையான அளவே கணினி பற்றித் தெரிந்து வைத்திருக்கிறோம் என்று சொல்பவர்களுக்காக ஒரு ட்யூட்டோரியல்:

ஒரு எண்ணையோ எழுத்தையோ ஒரு பைட் என்று கணக்கு வைத்துக் கொள்ளலாம். கிலோ பைட் என்றால் ஆயிரம் பைட் என்று உடனே சொல்லி விடுவீர்கள். ஆசாரமான கம்ப்யூடர் விஞ்ஞானிகள் ஆயிரம் இல்லை 1024 என்று வாதிப்பார்கள். Big Dataவின் ப்ரம்மாண்டத்தைப் புரிந்து கொள்ள இந்த வேறுபாடுகள் அனாவசியம். விஸ்வரூபத்தைப் புரிந்து கொள்ள கடைசி டெசிமல் வரைக்கும் அதன் உயரம் தெரிய வேண்டுமா என்ன?

பாடத்தைத் தொடர்வோமா? மெகா, கிகா, டெரா, ஆயிரம் ஆயிரமாக இந்த அளவை வளர்ந்து கொண்டே போகும்:

மெகா (mega)    106

கிகா (giga)    109

டெரா (tera)    1012

பீடா (peta)    1015

எக்ஸா (exa)    1018

ஜெட்டா (zetta)    1021

யோட்டா    (yotta)    1024

தற்போதைக்கு இவ்வளவு போதும். இணையத்தில் பயணிக்கும் தகவல்கள் மொத்தமாக 4.8 ஜெட்டாபைட்டாக இருக்கும்  என்று விஷயம் தெரிந்தவர்கள் கணிக்கிறார்கள். இந்த ஜெட்டா, யோட்டாவெல்லாம் ஏதோ க்ரேக்க எழுத்துகள் போல் இருக்கின்றன. இவற்றிற்குச் சமமான நம்மூர் எண்கள் கிடையாதா என்று கேட்கும் சுதேசி ஆர்வலர்களுக்காக:

மெகா (mega)    106   மெய்யிரம்   பத்து லட்சம்

கிகா (giga)    109    தொள்ளுண்    நிகர்ப்புதம்

டெரா (tera)    1012   ஈகியம்        கர்வம்

பீடா (peta)    1015    நெளை    சங்கம்

எக்ஸா (exa)    1018    இளஞ்சி    அர்த்தம்

ஜெட்டா (zetta)    1021    ஆம்பல்    முக்கொடி

நாற்பது இளஞ்சி தகவல் என்பதை விட எக்ஸாபைட் என்பதே சுலபம் என்று நினைத்தால் அதுவும் சரி.

அமெரிக்க அதிபரிலிருந்து அடுத்த வீட்டுக்காரர் வரை எல்லோரைப் பற்றியும் உங்கள் கருத்துகளைக் காரசாரமாக ட்விட்டரில் புகுத்தி விடுகிறீர்கள் அல்லவா? அத்தகை ட்வீட்கள் ஒரு நிமிடத்துக்கு 90,000 வீதமாக வருகிறதாம். முழுக் கோட்டாவையும் நீங்கள் உபயோகிக்கவில்லை என்றாலும் ஒரு ட்வீட்டுக்கு 50 – 70 எழுத்துகள் என்ற வீதத்தில் எத்தனை பைட்கள் ஒவ்வொரு நிமிடமும் தோன்றிக் கொண்டிருக்கின்றன – சிந்தித்துப் பாருங்கள்.

இப்படியெல்லாம் ஜனித்த விஷயங்களைச் சேமித்து வைக்க  பிரம்மாண்டமான தகடுகள் தேவைப் படும் என்பது மட்டும் பிரசினை அன்று. இந்தத் தரவுகளை அலசி ஆராய்ந்து அவற்றின் பொருள் காண வேண்டும். யாருக்கு வேண்டும் இந்த விஷயங்கள் என்று நீங்கள் கேட்கலாம். இந்த தகவல்களும், அவற்றில் ஏற்படும் மாற்றங்களும் சில செய்திகளைத் தன்னுள் ஒளித்து வைத்துக் கொண்டிருக்கின்றன. அச் செய்தியை ஆய்ந்து கண்டுபிடிப்பவர் அதனால் பயன் பெற இயலும். உதாரணமாக பங்குச் சந்தையில் பங்கு விலைகளின் போக்கை ஆய்ந்து அவற்றின் எதிர்கால மாற்றத்தைக் கணிக்கும் வல்லுனர்கள் (technical analysts) அறிவுரை கேட்க டிவி சேனல்களில் ஒன்றியிருப்பவர்  எத்தனை பேர்? கிரிக்கெட் ஆட்டம் நடக்கும்போதே புள்ளிவிவரங்களைத் தெள்ளி

அளிக்கிறது டிவி. எப்படி? இன்னும் சிக்கலான விஷயங்களைப் பார்ப்போமோ? உங்கள் கம்பெனி ஷாம்பூவைப் பயன்படுத்திய ஒருவரின் முடி தும்பையாக நரைத்து விட்டது. அவர் என்ன செய்வார் என்று நினைக்கிறீர்கள்? சமூக ஊடகங்களில் தன் ஃபோட்டோவைப் போட்டு உங்கள் மானத்தை வாங்குவார். அந்தப் பதிவு சில நிமிடங்களில் retweet, share ஆகி உலகம் முழுவதும் பரவி விடும். இந்தப் பதிவை எவ்வளவு விரைவில்  எதிர்கொண்டு நுகர்வாளர்களுக்குத் தீர்வு வழங்குகிறீர்களோ, அவ்வளவு நல்லது உங்களுக்கும் உங்கள் கம்பெனிக்கும். பங்குச் சந்தை, கிரிக்கெட்டை விட இது கடினம். முதல் இரண்டில் தகவல் எங்கிருந்து எப்போது வரும் என்று உங்களுக்குத் தெரியும். சமூக ஊடகத்தில் ‘ஓடு மீன் ஓட’ என்று நீங்கள் பார்த்துக் கொண்டே இருக்க வேண்டும். அதுவும் டெராபைட்கள் ஓட்டத்தில். இதுதான் பிரம்மாண்டத் தகவல்களின் ஆய்வு (Big Data Analytics).

இப்போது புரிகிறதா Big Data என்றால் என்னவென்று?

அளவில் பெரியது என்று சொல்ல வேண்டியதில்லை. அது பெயரிலிருந்தே தெரிகிறது. ஆனால் அளவு என்பது ஒரு பரிமாணம்தான். அது மட்டுமல்ல. மற்ற பரிமாணங்களை விட எளிதாகக் கையாளக் கூடியது. – இன்றைய கணினித் தொழில் நுட்பத்தில்.

மீண்டும் சமூக ஊடக எடுத்துக் காட்டை  நினைத்துப் பாருங்கள் – மற்ற பரிமாணங்கள் புரியும். facebookஇல் உங்கள் பதிவை எழுத்து வடிவத்தில் மட்டுமா போடுகிறீர்கள்? புகைப் படமாக, ஒலி / ஒளி  நாடாவாக என்று பல விதமாகப் பதிவு செய்கிறீர்கள்? இவை எல்லாமே ஆய்வுக்கு அவசியம். ஆய்வுக்கான மென்பொருள் பல்விதமான தகவுகளைக் கையாள ஏற்றதாக இருக்க வேண்டும். இதுதான் இரண்டாவது பரிமாணம்.

ஊடகங்களில் தரவுகள் வரும் வேகத்தைப் பற்றி முன்பே சொன்னோம். பிரளயமாக ஒடிவரும் பதிவுகளிலிருந்து தேவையற்றதைக் களைந்து மற்றதை எடுத்து ஆய்வது என்பது பகீரதப் ப்ரயத்னம். இல்லை இல்லை இன்னும் கொஞ்சம் கூட. பகீரதன் பிரவாஹத்தைக் கொண்டு வந்தான். அந்த வேகத்தைத் தடுத்தாட்கொண்டு உலகத்துக்கு உபயோகமாக ஓடச் செய்த சிவ பெருமானின் செயலை ஒத்தது. இணையத் தேடல் என்பது வைக்கோல் போரில் ஊசியைத் (needle in a haystack) தேடுவது என்பார்கள். மஹா தகவல் ஆய்வு என்பது ஓடும் நதியில் ஊசியைத் தேடுவது.

ஆக அளவு, விதம், வேகம் (volume, variety, velocity) என்ற முப்பரிமாணங்கள் மஹா தகவல்களுக்கு உண்டு. மாற்றம் (variability) என்று இன்னொரு vஐக் கூட்டுபவர் உளர். அதாவது இந்தத் தகவல்கள் திடீரென்று தன் போக்கை மாற்றிக் கொள்ளக் கூடும். பங்குச் சந்தையில் திடீர் மாற்றங்களைப் பார்த்ததில்லையா?

இப்படி நாலு கால் பாய்ச்சல்லில் பரிணாம வளர்ச்சி அடைந்துள்ள மஹா தகவல்களைக் கையாள பழைய வழிமுறைகளும், தொழில் நுட்பங்களும் எப்படிப் போதும்? கடுமையான விதிமுறைகளுக்குக் கட்டுப்பட்டுத் தரவுகளை நேர்த்தியாகப் பகுத்து வைக்கும் relational database பல விதமான தரவுகளைக் கொண்ட Big Dataவுக்குப் பொருந்தாது. விலை அதிகமானால் தேவை குறையும்; மார்கெட்டில் தேவைக்கு அதிகமாக பொருட்கள் வருமானால் விலை குறையும் என்று ஒரு பரிமாணத்திலிருந்து மற்றொன்றைக் கணிக்கும் ஆய்வு முறைகள் இங்கே தோற்றுப் போகும். ஒவ்வொரு விளைவுக்கும் பற்பல காரணிகள் இருக்கக் கூடும் அவை ஒவ்வொன்றும் .வெவ்வேறு அளவில் விளைவைப் பாதிக்கக் கூடும் என்ற அடிப்படையில் இயங்குகிறது Big Data Analytics (மஹா தகவல் ஆய்வு).  ஒரு சில அட்டவணைகளில் ஒளிந்திருக்கும் விடையைக் கண்டுபிடிக்கும் SQLஉம் இங்கு திறனற்றுப் போகும். இந்தப் பொருளை யாரிடமிருந்து வாங்கினோம், என்ன விலையில் போன்ற தெரிந்த உண்மையை வெளிக் கொணர்வதன்று Big Data Analytics. நமக்கே தெரியாமல் நம்முடைய தரவுகளில் பூடகமாக மறைந்திருக்கும் தகவல்களை அகழ்ந்தெடுப்பது (இந்த உத்தியை data mining என்று சொல்கிறோம்) Big Data Analytics. NoSQL (SQL இல்லை என்பது போல் தோன்றினாலும் இது Not Only SQL என்பதன் சுருக்கம்) என்ற புதிய உத்தியை இதற்கு பயன்படுத்துகிறார்கள்.

பெருவாரியான புள்ளியியல் செய்முறை நுட்பங்களைத் தன்னடக்கிய ஒரு புது விஞ்ஞானமாகவே உருவெடுத்திருக்கிறது இந்தத் தகவல் ஆய்வு.  இந்த நூதன முறைகள் Data Science (தகவல் விஞ்ஞானம்) என்று சொல்லப் படுகிறது. தகவல் தொழில் நுட்பத்தில் இன்று புதிய கவர்ச்சி நட்சத்திரம் இது. பல இளைஞர்கள் இத்துறையில் பிரவேசிக்க விழைகிறர்கள்.

காட்டாற்றில் அடித்து வரும் பல்லாயிரக்கணக்கான, பல்வேறு விதமான தகவல்களின் ஊடே எங்கோ யாரும் அறியாமல் ஒரு ஒழுங்கு முறை (pattern) மறைந்திருக்கக் கூடும். இந்த ஒழுங்கு முறை நமக்கு வருங்காலத்தைப் பற்றிய அரியதோர் உண்மையை உணர்த்தக் கூடும்; வருமுன் காக்கும் வழிமுறைகளை நமக்கு அறிவுறுத்தக் கூடும். வியாபாரத்திலும், நிர்வாகத்திலும் எதிர்காலத்தை நிர்ணயிக்கத் தெரிந்தவர்களே வெற்றி பெறுகிறார்கள். இப்போது புரிகிறதா ஏன் Big Dataவைத் தலையில் வைத்துக் கொண்டாடுகிரார்கள் என்று?

உங்கள் தரவுகளின் ஊடே வைரங்கள் மறைந்திருக்கக் கூடும் என்று அறிவுறுத்துகிறார் ஹார்வர்ட் பேராசிரியர் கேரி லவ்மேன் (‘Diamonds in your data mine’, Gary Loveman, Harvard Business Review, May 2003). அவர் சொல்வதன் பொருள் அவருக்குப் புரிந்திருக்க வேண்டும். ஹாராஸ் என்டர்டெயின்மென்ட் (Harrah’s Entertainment) என்ற வீழ்ந்து கொண்டிருந்த சூதாட்ட கிளப்பை நான்கு வருடங்களில் லாபகரமானதாக மாற்றி  Best CEO பரிசையும் தட்டிச் சென்றவர் அவர். அவருடைய வெற்றியின் ரகசியம் விளையாட வருபவர்களைப் பற்றிய தகவல்களைச் சேகரித்து அவற்றை நுண்ணியமாக ஆராய்ந்து எந்த மாதிரியான வாடிக்கையாளரிடமிருந்து அதிகமான வரவும், வரவுக்கான வாய்ப்பும் இருக்கிறது என்று கண்டு பிடித்து அதற்கேற்றவாறு ஊக்க வழிமறைகளை நிர்ணயித்ததுதான்.

ஆகவே உங்கள் தகவல்கள்தான் உங்கள் வழிகாட்டிகள். அத்தகவல்கள்  உங்கள் பெட்டகத்துள்ளே மட்டும் உறைந்திருக்க வில்லை. அவை மார்கெட்டில் இருக்கின்றன. உங்களுடன் போட்டியிடும் மற்ற கம்பெனிகளைப் பற்றிய தகவல்கள் உங்களுக்கு மிக முக்கியம். சமூக வலைத்தளங்களில்கள் பயனீட்டாளர்களின் கருத்துகள் உங்கள் தலைவிதையை மாற்றக் கூடியவை. இவை எல்லவற்றையும் தொடர்ந்து ஆராய்ந்து விரைவாக செயலாற்றத் தேவை மஹா தகவல் ஆய்வு.

நினைவிருக்கட்டும்: உங்கள் ரத்தினங்கள் உங்கள் தகவல்களில்

One Comment »

  • PVS said:

    This article is very good article and nicely written.

    Thank you

    # 20 March 2016 at 5:54 am

Leave your response!

Add your comment below, or trackback from your own site. You can also subscribe to these comments via RSS.

Be nice. Keep it clean. Stay on topic. No spam.

You can use these tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

This is a Gravatar-enabled weblog. To get your own globally-recognized-avatar, please register at Gravatar.

CAPTCHA * Time limit is exhausted. Please reload CAPTCHA.