
அது சரி, அந்த திரைபடத்தில் ஷாலினி ஒரு வேளை மாதவனைக் காதலிக்கவில்லை என்று வைத்துக் கொள்வோம். தமிழ்ப் படங்களில் உடனே தாடி வளர்த்து, சோகப்பாட்டு பாடி நம்மை வறுத்து எடுத்து விடுவார்கள். சற்று வேறு விதமாக சிந்திப்போம். ஷாலினியின் சகல சுவாரசியமான விஷயங்களையும் ஒரு கல்லூரி தகவல்தளத்தில் (database) தேடி புதிய கதாநாயகியை தேடுவது போலக்கூட காட்சிகள் வருவதில்லை. அப்படிப் பல விஷயங்களுக்காக தேடுவதை பற்றிய கட்டுரை இது. உடனே, சொல்வனத்தில் ஒருவர் கணினி மூலம் சைட் அடிப்பது எப்படி என்று மாய்ந்து மாய்ந்து எழுதுகிறார் என்று முடிவு செய்து படிப்பதை நிறுத்த வேண்டாம். பல கோடி தகவல்கள் சேகரிக்கும் இன்றைய காலத்தில், எப்படி அறிவார்ந்த முடிவுக்கேற்ற விஷயங்களைத் தேடுவது என்பதை விளக்குவதே இக்கட்டுரையின் நோக்கம்.
நாம் பார்த்த மாதவன் ஷாலினி சமாச்சாரம் “Fermi Approximation” என்று அழைக்கப்படுகிறது. ஃபெர்மி (Fermi), மிக புத்திசாலியான இத்தாலிய அணுவியல் விஞ்ஞானி. இவர் அதிக தகவலில்லாமல் பல விஞ்ஞான பிரச்சினைகளுக்கு மிக விரைவில் குத்துமதிப்பான விடைகளைத் தருவதில் வல்லவர். இரண்டு உதாரணங்கள் பார்ப்போம்.
நியூயார்க் நகரத்தில் பியானோ டியூன் செய்பவர்கள் எத்தனை பேர்? இக்கேள்விக்கு ஃபெர்மியின் பளிச் பதில் 500. எப்படி? அவர் வாழ்ந்த காலத்தில் நியூயார்க் நகரத்தின் மக்கட்தொகை 1 கோடி மனிதர்கள். தனி மனிதர்களை விட குடும்பங்கள் பியானோ வைத்திருந்த காலம் அது. எத்தனை குடும்பங்கள்? குடும்பத்துக்கு 5 பேர் என்று கொண்டால், 20 லட்சம் குடும்பங்கள். எல்லா குடும்பங்களும் பியானோ வைதிருப்பார்களா? இல்லை, ஐந்தில் ஒரு குடும்பம் வைத்திருக்கலாம். ஆக, நியூயார்க் நகரத்தில் 4 லட்சம் பியானோக்கள் இருக்கலாம். வருஷத்திற்கு ஒரு முறையாவது பியானோ டியூன் செய்ய வேண்டும் என்று கொண்டால், 4 லட்சம் முறைகள் டியூன் செய்யப்பட வேண்டும். வருடத்திற்கு 200 வேலை நாட்கள் என்று கொண்டால், இது 200 நாட்களில் செய்யப்பட வேண்டிய வேலை. ஒரு பியானோ டியூன் செய்பவர் நாள் ஒன்றுக்கு 4 பியானோக்கள் டியூன் செய்ய முடியும் என்று கொண்டால், 4,00,000/(200*4) = 500. மஞ்சள் பக்கங்களைப் (Yellow pages) புரட்டி ஒருவர் மாய்ந்து மாய்ந்து எண்ணியதில் 527 பேர் கிடைத்தார்கள்!
அப்படியே இன்னொரு புதிர். உங்கள் உடல் எடை அளவுக்கு சாப்பிட உங்களுக்கு எத்தனை நாளாகும்? பளிச் விடை 1 மாதம். எப்படி? ஒரு சராசரி மனிதர் ஒரு நாளைக்கு 5 பவுண்டு உணவு உண்கிறார். ஒரு சராசரி மனிதரின் எடை 150 பவுண்டு. 150/5=30 நாட்கள், இல்லையேல் 1 மாதம்.
சில ஆண்டுகளுக்கு முன் இந்தியா சென்றிருந்த பொழுது கணிப்பொறியியல் படிக்கும் மாணவர்களைச் சந்திக்கும் வாய்ப்பு கிடைத்தது. பேசியபோது, இம்மாணவர்களுக்கு டேட்டா மைனிங் (Data Mining) என்ற மிக வேகமாக வளரும் துறைக்கு அறிமுகம் கூட கணினி விஞ்ஞான இளநிலைப் படிப்பில் தரப்படுவதில்லை என்று உணர்ந்தேன். பல துறைகளையும் ஆட்டிப் படைக்கும் மிக முக்கியமான முடிவெடுக்க (decisioning) உதவும் தொழில்நுட்பம் டேட்டா மைனிங். இத்துறையின் நுட்பங்களை மேல்வாரியாகப் புரிந்து கொள்ள கணினி விஞ்ஞானியாக இருக்கத் தேவையில்லை. இதன் தாக்கம் மற்றும் பயன்கள் பல நம் அன்றாட வாழ்வில் நாம் அறியாமலே நடந்து வருகின்றன. ஆனால், இத்துறையில் வல்லமை பெற புள்ளியியல் (statistics) தேர்ச்சி அவசியம். இம்மாணவர்களுடன் நிகழ்த்திய உரையின் சற்று சன்னமான பதிப்பே இக்கட்டுரை.
அண்ணாச்சி கடை
உலகின் மிகப் பெரிய நிறுவனம் வால்மார்ட். பல ஆயிரம் கடைகள். விற்பனைக்குப் பல கோடி பொருட்கள். வால்மார்டுக்காகவே சைனாவிலிருந்து பல கப்பல்கள் பிதுங்கப் பிதுங்க பொருள்களை அமெரிக்காவில் நாளும் கொண்டு தள்ளுகின்றன. வால்மார்டுக்கு அண்ணாச்சி போல இருக்க ஆசை. என்ன செய்வது? பல்லாயிரம் வாடிக்கையாளர்களை அன்னியோன்யமாய் அறிவது மிக கடினம். அதுவும் அவர்கள் வாங்கும் பல கோடி பொருள்களை நினைவு வைத்துக் கொள்வதும் முடியாத செயல். பல வாடிக்கையாளர்கள் பணம் கொடுத்துவிட்டு பொருள் வாங்கிச் சென்றுவிடுகிறார்கள். அவர்களைப் பற்றி வால்மார்டுக்கு அதிகம் தெரியாது. எப்படி பெரிய நிறுவனங்கள் தங்கள் வாடிக்கையாளர்களை நெருங்குவது? இதை பொதுவாரியான தனிப்பயனாக்கம் (mass customization) என்று அழைக்கிறார்கள். இதற்கு முக்கியத் தேவை வாடிக்கையாளர்கள் பற்றிய தகவல்கள். முக்கியமாக அவர்களது வாங்கும் வழக்கங்கள், மற்றும் அவர்களது வாழ்கையின் முக்கிய நடப்புகள். (life events). இணையதளங்களில் வியாபாரம் செய்வதில் இது ஒரு பெரிய செளகரியம். உங்கள் வீட்டிற்குப் பொருளை அனுப்புகிறோம் என்று உங்கள் ஜாதகத்தையே கேட்கிறார்கள் பல இணையதளங்களில்.
அமேஸான் இணைதளத்தில் புத்தகம் வாங்கி இருக்கிறீர்களா? சில மாதங்கள் முன்பு, உயிர் தகவலியல் (bio informatics) பற்றி ஒரு புத்தகம் வாங்க ஷாப்பிங் கார்ட் வரை சென்று வாங்காமல் விட்டுவிட்டேன். ‘இதோ புதிய உயிர் தகவலியல் புத்தகம் ஒன்று வந்துள்ளது. இதன் முன்னோடியை படித்துப் பாருங்களேன்’ என்று இன்னும் விடாமல் மின்னஞ்சலில் துரத்துகிறார்கள். மாதவன் துரத்தும் ஷாலினி போல என்றோ நான் உயிர் தகவலியல் புத்தகம் வாங்குவேன் என்று ஒரு மென்பொருள் நம்பிக்கையுடன் என் கிரெடிட் கார்ட் மேல் கண் வைத்துக் காத்திருக்கிறது.
நான் அந்த புத்தகத்தை வாங்கியிருந்தால், அண்ணாச்சி சொல்வாரே அதைபோல, ‘இந்த புத்தகத்தை வாங்கியவர்கள், மேலும் இந்த புத்தகத்தையும் வாங்க முற்பட்டார்கள்’ என்று அத்துறையில் ஒரு சிறு புத்தகப் பட்டியலும் தருகிறார்கள். சில சமயங்களில் நாம் வாங்க வந்த புத்தகத்தைவிட வேறு புத்தகம் பிடித்துபோய் வாங்க முடிவு செய்வோம். அத்துடன் விடுவார்களா? 40 டாலர்களுக்குப் புத்தகம் வங்கினால், இலவசமாக அனுப்பி வைக்கிறோம் என்று சொல்லி, எப்படியோ என்னை ஒரு 60 டாலர்களுக்கு புத்தகம் வாங்க வைத்துவிடுகிறார்கள். போதாததற்கு, ’இதை யாருக்காவது பரிசளிக்க விரும்புகிறீர்களா? நாங்களே அனுப்பி வைக்கிறோம். அவரது முகவரி மற்றும் பிறந்த நாள் (அல்லது வேறு முக்கிய நாள்) விவரங்களைப் பதிவு செய்யுங்கள். சரியாகப் பொருளைச் சேர்ப்பது எங்கள் கடமை’ என்று மேலும் விவரங்களைத் திரட்டுகிறார்கள்.
முன்னே சொன்னது போல, வாடிக்கையாளர்கள் பொருள் வாங்கும் போது அவர்களைப் பற்றிய விவரங்களைப் பொருளை அனுப்புவதற்காகப் பதிவு செய்கிறார்கள். நீங்கள் வாங்கும் பொருள் விவரங்களையும் பதிவு செய்கிறார்கள். எல்லா வணிக மையங்களிலும் நடக்கும் விஷயம் இது. அமேஸானுக்கும், சரவணாஸுக்கும் உள்ள வித்தியாசம் என்ன? பல கோடி புத்தகப் பதிவுகளை (records) ஒரு ராட்சச கணினியில் உள்ள ஒரு மென்பொருள் சேர்ந்து வாங்கும் பொருளுக்காக அலசுகிறது. இதை அன்னியோன்ய அலசல் (affinity analysis) என்று அழைக்கிறார்கள். பல கோடி பொருள்களை பல கோடி வாடிக்கையாளர்கள் வாங்குகிறார்கள். இவர்களின் வாங்கும் வழக்கங்கள் மாறிக் கொண்டே இருக்கும். அதனால், நாளும் அமேஸான் சிபாரிசுகள் மாறிக்கொண்டே இருக்கும். பொதுவாரியான தனிப்பயனாக்கம் (mass customization) என்ற நுட்பத்திற்கு இது ஒரு அருமையான எடுத்துக்காட்டு. அலைபாயுதே ஷாலினிக்காக ஸ்வர்னலதா பாடும் வைரமுத்துவின் வரிகள் நினைவுக்கு (சற்று மாற்றி) வருகிறது – ‘எவனோ ஒருவன் யோசிக்கிறான், வெளிச்சத்திலிருந்து நான் வாசிக்கிறேன்!’.
இரவு சாப்பாட்டுப் பிரச்சனை
வேலை முடிந்து சோர்ந்து இரவு உணவு சாப்பிட அமர்ந்தால் வரும் பெருவாரியான தொலைபேசி அழைப்புகள் காப்புரிமை, தொலைபேசி, வீட்டு சேவைகள் சம்மந்தப்பட்ட நிறுவனங்களின் கால் செண்டர் தொல்லை. எப்படித் திட்டினாலும் எழுதிய ஸ்கிரிப்டை முழுவதும் படிக்கும் டெலி வீரர்கள்! முக்கியமாக, இவர்கள் ஒரு சிந்தனையில்லாமல் உருவாக்கிய பட்டியலிலிருந்து அழைக்கும் பத்தாம் பசலிகள். அவர்களின் வெற்றி மிக சொற்பமானது. பல வீட்டு உரிமையாளர்களின் திட்டுகளை கேட்டுக் கேட்டு சொரணையற்று தமிழ் சினிமா எடுக்கப் போய் விட்டதாக வதந்தி!
சற்று கடுமையாக யோசித்தால், சில சமயம் இவர்கள் பேச்சை கேட்டு வேறு பொருட்களை வாங்கியிருக்கிறோம். இதற்குப் பல்வேறு காரணங்கள் இருந்தாலும், மிக முக்கிய காரணம், கூப்பிடுபவருக்கு உங்கள் நிலைமை அறிந்திருத்தல் மற்றும் அவரது நேர்மை. பல்வேறு அசட்டு அழைப்புகளில், சில அழைப்புகள் எப்படி சரியாக இருக்கிறது? டேட்டா மைனிங்கின் இன்னொரு முகத்தை பார்ப்போம்.
பொதுவாக, புதிய வாடிக்கையாளர்களைச் சேர்ப்பது, இருக்கும் வாடிக்கையாளர்களை திருப்தி செய்வதைவிட பல மடங்கு செலவாகும். மிகக் கடுமையான போட்டி நிலவும் கைத்தொலைபேசித் தொழிலை எடுத்துக் கொள்வோம். கைத்தொலைபேசிச் சேவை (mobile service provider) தொழில் தினம் தொழில்நுட்பம் மாறும் ஒரு சர்க்கஸ் போன்ற தொழில். இதனால் பல்லாயிரக்கணக்கான வாடிக்கையாளர்கள் இருந்தாலும், அவர்களை தக்க வைத்துக் கொள்வது மிகக் கடினம். புதிய கைத்தொலைபேசி, கொடுக்கும் காசுக்கு அதிகமான பேச்சு நேரம், மற்றும் மற்ற நண்பர், குடும்பத்தாருடன் தொடர்பு கொள்ள சுலபமான வசதிகள் என்று புத்திசாலி வாடிக்கையாளர்கள் தங்களின் விசுவாசத்திற்கு பலன் எதிர்பார்கிறார்கள். மாதத்திற்கு 60 லட்சம் புது கைத்தொலைபேசி இணைப்புகள் கொடுக்கப்படும் இந்தியா போன்ற நாடுகளில் கைத்தொலைபேசி சேவை நிறுவனங்களை மாற்றுவது எளிது. எப்படி வாடிக்கையாளர்களைத் தக்க வைத்துக் கொள்வது?
கைத்தொலைபேசி சேவை நிறுவனங்கள் வாடிக்கையாளர்களிடம் அவர்களைப் பற்றிய தகவல்களை பில் அனுப்புவதற்காக சேகரிக்கிறார்கள். இவர்களின் அழைப்புப் பதிவுகளும் (call records) நிறுவனத்திடம் இருக்கும். கடந்த ஒரு வருஷமாய் இந்நிறுவனத்தை கைவிட்டவர்களின் பதிவுகளும் இருக்கும். கைவிட்ட தேதியும் இருக்கும். கைவிடுவதற்கு 3 மாதங்கள் முன் இவர்கள் பிணைய உபயோக முறை (network usage) விவரங்களும் இருக்கும். இந்த விவரங்களை ஆராய்ந்தால் ஏன் விட்டார்கள் என்று தெரிந்து கொள்ளலாம். இது நடந்ததைப் பற்றிய அலசல். டேடா மைனிங் துறை இதைத் தாண்டி வளர்ந்து விட்டது. அப்படிக் கைவிட்டவர்களைப் போல அடுத்த முன்று மாதங்களில் இன்னும் யார் கைவிடப் போகிறார்கள் என்று நிறுவனத்தின் தகவல்தளத்தை ஆராய்ந்து சாத்தியக்கூறுகளுடன் சொல்ல முடியும். இது விற்பனையாளர்களுக்கு ஒரு வரப்பிரசாதம். அதற்குப்பின் விடப்போகும் வாடிக்கையாளர்களைத் தக்க வைத்துக் கொள்வது அவர்கள் சாமர்த்தியம்.
அடடா, அறுவைத் தமிழ் படங்களின் தகவல்தளத்தில் இப்படி அலச முடிந்தால், அடுத்த 6 மாதங்களில் நோகப்போகும் எத்தனைத் தமிழர்களைக் காப்பாற்றலாம்?
விற்பனையாளர்களின் தேவையைத் தவிர வேறு இந்த தொழில்நுட்பத்தால் என்ன செய்ய முடியும்? பல துறைகளிலும் வெற்றிகளைக் குவித்து வளர்ந்து வரும் துறை இது. பட்டியலிடுவதற்கு முன் இத்துறையில் உள்ள இரு அணுகுமுறைகளைத் தெரிந்து கொள்வோம். முதல் அணுகுமுறை, முடிவறிந்து தேடுதல். நாம் இதுவரை அலசிய அத்தனை உதாரணங்களும் அப்படிப்பட்ட தேடல்கள்தான். இரண்டாம் அணுகுமுறை, முடிவறியாது தேடுதல் (Exploratory). முதல் அணுகுமுறையின் ஆரம்பம் இரண்டாவது அணுகுமுறையே. உதாரணத்திற்கு, ஒரு பெரிய நிறுவனம் அதன் வாடிக்கையாளர்களைப் பற்றி அதிகம் அறியாமல் இருக்கலாம். அவர்கள் விற்கும் பொருள்களை அதிகம் வாங்குவோரையும், குறைவாக வாங்குவோரையும் ஒரே மாதிரி கையாளலாம். முதலில் யாரை எப்படிக் கையாள வேண்டும் என்பது முடிவறியா தேடல். அறிந்தபின், வியாபரத்திற்கேற்ப எப்படிக் கையாள்வது என்பது முடிவறிந்த தேடல்.
என்னவெல்லாம் செய்ய முடியும்?
சில சுவாரசியமான உதாரணங்களைப் பார்ப்போம்:
1. வங்கித்துறை:
2.மருந்தியல்துறை :
மருந்து ஆராய்ச்சி மிகவும் விலையுயர்ந்த சமாச்சாரம். ஒரு மருந்து ஆராய்ச்சி செய்யப்பட்டு சந்தையையடைய பல்லாண்டுகள் ஆகும். பல கோடிகள் செலவாகும். மருந்துகள் ரசாயன சேர்மங்களால் (organic compounds) உருவாக்கப்படுகின்றன.
3. உற்பத்தித்துறை :
தவிர்க்கக்கூடிய காகித விரயத்திற்கு வெப்பம், ஈரப்பதம், காகிதத்தின் ஆயுள் போன்ற ரசாயன சமாச்சாரங்களை ஆராய்ந்தால், விரயத்தைக் குறைக்க முடியும். இருப்பில் இருக்கும் காகித சரக்கு, மற்ற ரசாயன சமாச்சாரங்களை எப்படி வைத்தால் விரயத்தைக் குறைக்கலாம் என்று மென்பொருள் ஒன்று பட்டியலிடுகிறது. அதேபோல பெப்சி போன்ற பானங்கள் தாயாரிக்கும் நிறுவனங்களுக்கு, சர்க்கரை விலை மாற்றங்கள் மிகப் பெரிய விஷயம். சர்க்கரை விலையின் போக்கை ஆராய்ந்து கையிருப்பிற்கு எப்பொழுது வாங்கலாம் என்று ஒரு மென்பொருள் மெனக்கிடுவதால், பண மிச்சம்.
4. மக்கட்தொகைத் துறை :
வளர்ந்த நாடுகளில் மக்கட்தொகையைக் கணக்கிட்டு, அத்துடன் பல உபயோகமான புள்ளியியல் விவரங்களை வெளியிடுகிறார்கள். உதாரணத்திற்கு, நாட்டில் எங்கு வேலைவாய்ப்புகள் காரணமாக மக்கட்தொகை குடிபெயர்தல் நிகழ்கிறது என்று வெளியிடுகிறார்கள். இதனால், கல்லூரி மாணவர்கள் மற்றும் பல வேலை தேடுவோர் பயனடைகிறார்கள். அத்துடன், வரும் 5 வருடங்களில் நிலைமை எப்படி இருக்கும் என்று ஜோசியம் வேறு. நலிந்து வரும், நலியப் போகும் பகுதிகளை பற்றி அர்சாங்கத்திற்குப் பல தகவல்கள் கொடுக்கிறார்கள்.
5. விஞ்ஞான ஆராய்ச்சித்துறை :
சொல்லப்பட்ட உதாரணங்கள் மிகவும் சுலபமாகப் புரியக்கூடிய சமாச்சாரங்கள். இத்துறையில் மிகவும் ஆழமான விஷயங்கள் பல உள்ளன. பல வியாபார இணையதளங்களில் உங்களின் ரசமான அனுபவங்களுக்குப்பின் இத்தொழில்நுட்பம் உள்ளது. விமானப் பயணம் முன்பதிவு செய்யும் இணையதளங்கள் அக்கறையாக உங்கள் பயணத்தேவைகளை பூர்த்தி செய்வதுடன் உங்களின் விருப்பு வெறுப்புகளை அழகாக நினைவில் வைத்துத் தனிப்பட்ட சேவை செய்யும் அளவு வளர்ந்து விட்டன. உங்களுக்குப் பிடித்த காரை முன்பதிவு செய்வதிலிருந்து, உங்களுக்குப் பிடித்தமான ஹோட்டல் அறை வரை எதையும் விடுவதில்லை. மனிதர்கள் அலுத்துக் கொள்ளும் செயல்களை, தேவை அறிந்து செய்ய உங்களைப் பற்றிய டேட்டாவை உபயோகித்து அறிவுபூர்வமாய் உங்களைத் தக்க வைத்துக் கொள்ள நல்ல நிறுவனங்கள் போட்டி போடுகின்றன.
வளரும் நாடான இந்தியாவில் பல வளர்ச்சித் திட்டங்களின் பயன் தேவையானவர்களைச் சேருவதே இல்லை. அத்துடன் இருக்கும் பட்ஜெட்டுக்குள் எந்தப் பகுதிகளில் சுகாதார வசதிகள் அமைப்பது அதிக பலனளிக்கும் என்பது போன்ற விவரங்கள் ஆராயப்படுவதே இல்லை. இதற்கு மக்கட்தொகை விவரத்தை வைத்துப் பல நல்ல ஆய்வுகள் நடத்தி சரியான விவர மையமான முடிவுகளைக் கண்டறிவது அவசியம். (data centric decision making). கடல் போல விவரங்களைப் பல நிறுவனங்கள்/அரசாங்கங்கள் சேர்க்கின்றன. அதில் முத்தை எடுக்க யாருக்கும் நேரமில்லை. அதை வெளியே எடுத்து உபயோகப்படுத்துவதே இத்துறையின் நோக்கம் (கட்டுரை தலைப்பு எங்கும் வரவில்லையானால் பத்திரிக்கையாசிரியர் உதைப்பார்!).
