தகவல் விஞ்ஞானம் – கற்றுக் கொள்ள மற்றும் பயிற்சி வாய்ப்புகள் : பகுதி 3

கல்லூரியில் படித்து முடித்தவுடன் டேடா விஞ்ஞானி என்பது நடக்காத விஷயம் என்பது முதல் இரண்டு கட்டுரைகளில் புரிந்திருக்கும். சரி, எப்படி டேடா விஞ்ஞானியாவது? இத்துறை இன்னும் சில ஆண்டுகளில் வசீகரம் இழந்து விடுமா? கணினிகளின் முன்னேற்றம், இந்தத் துறையை தேவையற்ற ஒன்றாக்கி விடுமா? இது போன்ற கேள்விகளுக்கு இந்தப் பகுதியில் பதில் தர முயல்கிறேன்.

முதலாவது, என்.ஐ.ஐ.டி., ஆப்டெக் போன்ற நிரலர்களை உருவாக்கும் அமைப்புகளிலிருந்து தரவு விஞ்ஞானம் கற்க சாத்தியமில்லை. இதற்கென்று சில பிரத்தியேகக் கல்வி அமைப்புகள் இந்தியாவில் உள்ளன: http://analyticsindiamag.com/top-analytics-training-institutes-india-ranking-2014/

என்னுடைய பார்வையில், அடிப்படையில் தரவு விஞ்ஞானம் பயில விழைபவர்கள் சில முக்கியமான விஷயங்களை தங்களுடைய இளங்கலை மற்றும் முதுகலைப் பயிற்சியில் அவசியம் படிக்க வேண்டும்;

1. கணினி விஞ்ஞானம் மற்றும் மென்பொருள் பொறியியல்

2. புள்ளியியல்

3. தரவுதளங்கள் மற்றும் சீக்வல் (SQL) அல்லது தரவு மேலாண்மை

4. முடிந்தால், ஹதூப், மேகக் கணிமை, பற்றிய புரிதல்

5. முக்கியமாக, வியாபார ஆய்வுப் பயிற்சி

இரண்டாவது, மேலே சொன்ன அனைத்தையும் கரைத்துக் குடித்தாலும் உடனே டேடா விஞ்ஞானியாகி விட முடியாது. இது ஒரு கடுமையான பயணம் – முதலில் பிற விஞ்ஞானிகளின் கீழ் வேலை செய்து, பல ஆண்டுகள் இந்தத் துறையைப் புரிந்து கொள்ளுதல் அவசியம்.

மூன்றாவதாக, மாறிக் கொண்டே வரும் இத்துறையில் தன்னை புதுப்பிக்கும் திறன் படைத்தவர்களே வெற்றி பெறுவார்கள். ஏராளமாகப் படித்து முனைவர் பட்டம் பெற்று விட்டேன் என்ற கதை அதிக நாட்களுக்கு உதவாது. நேற்று பல்கலைக்கழகத்தில் படித்தவர்கள், உங்களை விட அதிகம் தெரிந்திருக்கும் வாய்ப்பு இந்தத் துறையில் என்றும் உள்ள அபாயம்.

 

data-sciences-3-pic-1

இந்தத் துறையில் ஆரம்பிப்பவர்களுக்கு இரண்டு வகை சவால்கள் இருக்கும். இதில் முதல் வகை, புள்ளியியல் துறையில் முனைவர் பட்டம் பெற்று இத்துறையைத் தேர்ந்தெடுப்பவர்கள். இவர்கள், ஆரம்ப கட்டங்களில், ஒரு டேடா விஞ்ஞானியின் கீழ் வேலை செய்யும் பொழுது இவர்களுக்கு நேரும் நெருக்கடிகள் சில:

* ஏராளமாகப் புள்ளியியல் படித்துவிட்டு, வியாபாரங்களில், அடிப்படை தரவுப் போராட்டங்கள் எளிதில் போரடிக்கத் தொடங்கிவிடும்

* கணினி மென்பொருள் துறைக்கே உரியப் பல குழப்பமான சொற்றொடர்கள் இவர்களுடைய தன்னம்பிக்கையையே உலுக்கும் தன்மை படைத்தவை

* பெரும்பாலும் புள்ளியியலில் முனைவர் பட்டம் பெற்றவர்கள் அதிகம் வியாபாரம் பற்றிய புரிதல் இன்றி தானுண்டு, தன் தரவு உண்டு என்றிருப்பார்கள். இவர்கள் வியாபாரச் செயல் முறைகள், வழக்கங்கள், மற்றும் நிதி பற்றிய புரிதலுக்குத் தடுமாறுவது இயற்கையான ஒன்று. ஆனால், தரவில் வீரச் செயல்கள் ஓரளவிற்கு மேல் பயன்பட வேண்டுமானால், வியாபாரம் பற்றிய புரிதல் அவசியம்

இரண்டாம் வகை, முதுகலையில் கணினி விஞ்ஞானம் மற்றும் வியாபார ஆய்வு படித்தவர்களின் ஆரம்ப நெருக்கடிகள்:

* வியாபார ஆய்வு மற்றும் கணினி விஞ்ஞானம் கற்கையில், தரவு என்பது பற்றிய மேலோட்டமான புரிதல் மட்டுமே இருக்கும். அதன் முக்கியத்துவம் ஒரு தரவை தேக்கும் அமைப்பில் சேர்ந்த பிறகே

புரியும். இந்தப் புதுப் புரிதல், சில மாதங்களில் அலுப்பு தட்டும் வாய்ப்பு, நிறைய உள்ளது. முதல் வகையினரைப் போல தரவுப் போராட்டங்கள் அலுக்கத் தொடங்கி விடும்

* ஆரம்ப நாட்களில், பல நுகர்வோருடன் சேர்ந்து ஒரு புதிய ஸிஸ்டமை உருவாக்கத் துடிக்கும் இவர்களுக்கு ஏமாற்றமே மிஞ்சும். ஏனென்றால், படிப்பிருந்தாலும், பல வருட வியாபார அனுபவம் இல்லாததால், மற்ற வியாபார ஆய்வாளர்கள் கீழே பணி புரிந்து, சில சமயம் ஒரு குமாஸ்தா போல வேலை செய்யவும் தேவைப்படும். அட, என்றைக்கு ஒரு முழு ஸிஸ்டமிற்கு நாம் பொறுப்பேற்பது என்ற ஆதங்கம் இவ்வகையினருக்கு ஆரம்பத்தில், ஒரு ஐந்து ஆண்டுகள் இருப்பது மறுக்க முடியாத உண்மை

* இவ்வகையினரின் ஆரம்ப பத்தாண்டுகளில், தனக்கு அதிகம் புள்ளியியல் தெரியாததும், ஒரு குறையாகப் படலாம்.

 

data-sciences-3-pic-2இரண்டு சாராரும் வித்தியாசமின்றித் தவிப்பது, ஆய்வின் முடிவுகளைத் தெளிவாக மேலாண்மைக்கு அழகாகப் புரியும்படி விளக்கும் பணி. எல்லா பின்னணி விஷயங்களும் எளிதில் படித்து அல்லது பயிற்சியில் பெற்று விடலாம். ஆனால், காட்சியளிப்புத் திறன் என்பது சிலருக்கு எளிதில் அமையும். மற்றவர்களுக்குக் கடைசி வரை போராட்டம்தான்.

இவ்விரண்டு சாராரும் செய்யும் சில ஆரம்ப அசட்டுத்தனங்கள் என் பார்வையில் இவை;

* தரவு சொல்லும் கதையை சரியாக முழுவதும் புரிந்து கொள்ளாமல் மிகவும் டெக்னிகலாக விளக்கத் தொடங்கினால், அனுபவமின்மையை வெளிச்சம் போட்டுக் காட்டிவிடும்

* சிலர் தரவுடன் மிகவும் தன்னை ஒருங்கிணைத்துக் கொண்டு, வியாபாரம் என்னவோ தானே தொடங்கியது போல, தீர்வுகளை முன் வைக்கத் தொடங்கி விடுவார்கள். புத்திசாலி சினிமா டைரக்டர் எப்படி சில கதைப் பகுதிகளை இளையராஜாவின் பின்னணி இசைக்கு விட்டு வைப்பாரோ, அதே போல, டேடா விஞ்ஞானிகளும் தீர்வுகளை மேல்மட்ட மேலாண்மையினரிடம் விட்டு விட வேண்டும்

* தரவு சொல்லும் கதையை மேலாண்மையினருக்கு விளக்குவது ஒரு தனிக்கலை. தரவின் கதைக்கும் டேடா விஞ்ஞானியின் கதைக்கும் மிகப் பெரிய வித்தியாசம் உள்ளது. உதாரணத்திற்கு, தரவின் கதைப்படி, ஒரு 200 கோடி ரூபாய் முதலீடு செய்து சில வியாபார மாற்றங்கள் நிகழ்த்த வேண்டும் என்று வைத்துக் கொள்வோம். இந்த 200 கோடி முதலீடு பயனளிக்குமா என்று நிச்சயம் சொல்ல முடியாது; அப்படியே பயனளித்தாலும், எதிர்பார்த்த லாபத்தையோ, செயல்திறனையோ அளிக்கும் என்பதும் சொல்வதற்கில்லை. டேடா விஞ்ஞானியின் கதையாக இருந்தால், அது, அவரது தோல்வியாக பாவிக்கப்படும். சரியான முறையில் தரவின் கதையை சரியாகச் சொன்னால், மேலாண்மை, இம்முயற்சியில் லாபம் வரும் பொறுப்பை தானே ஏற்றுக் கொள்ளும்.

 

data-sciences-3-pic-3ஆக, நாம் முக்கியமாக இத்துறையைப் பற்றித் தெரிந்து கொள்ள வேண்டிய விஷயங்கள்:

* தரவைப் பற்றிய முழுப் புரிதலுடன் யாரும் பல்கலைக்கழகங்களிலிருந்து வருவதில்லை

* தரவுடன் தரப் போராட்டம் என்பது இந்தத் துறையில் ஒரு அம்சம் – அவ்வளவுதான். அதில் விடாமல் போராடி வெற்று பெறுபவர்களே இத்துறையில் வெற்றி பெற முடியும்

* டேடா விஞ்ஞானியின் வசீகர வாழ்க்கை வெறும் 5% தான். மற்ற 95% தரவு ஆய்வு சார்ந்த வசீகரமற்ற ஒன்று

* தரவு விஞ்ஞானம் பற்றிய பல பயிற்சி அமைப்புகள் இருந்தாலும், உங்களுடைய நிறுவனத்திற்குத் தேவையான பயிற்சியை எந்த ஒரு அமைப்பும் வழங்கப் போவதில்லை

* மாறிக் கொண்டே வரும் மென்பொருள் கருவிகளை, எந்தப் பின்னணியிலிருந்து நீங்கள் வந்தாலும், அறிந்து கொண்டு, உங்களைப் புதுப்பித்துக் கொண்டே இருப்பது அவசியம்

* கடைசியாக, இது ஒரு பல துறைகளின் சங்கமத் துறை. இதனால், இளங்கலை தரவு விஞ்ஞானப் பட்டப் படிப்பு என்றால் ஓட்டம் பிடியுங்கள்

அடுத்து, இத்துறையின் வசீகரம் எதிர்காலத்தில் குறைந்து விடுமா என்ற கேள்விக்கு வருவோம். முதலில், கடந்த இரண்டு ஆண்டு காலமாக அதிகம் ஊதி வாசிக்கப்பட்ட விஷயம் டேடா விஞ்ஞானி என்ற ஒரு பதவி. இந்தப் பதவி, ஒவ்வொரு பெரிய நிறுவனத்திலும், எனக்குத் தெரிந்தவரை 25 ஆண்டுகளாக இருக்கும் ஒரு பதவி – வித்தியாசம் என்னவென்றால், இவர்களை டேடா விஞ்ஞானிகள் என்று முன்பு அழைக்கவில்லை. தரவு ஆய்வாளர் என்று வங்கிகள், அரசாங்கங்கள், காப்பீடு, தொலைத் தொடர்பு நிறுவனங்கள் அழைத்து வந்தன. கடந்த 20 ஆண்டுகளாக, ஏராளமான தரவை நிறுவனங்கள் தேக்கும் வசதி வந்ததால், தரவு ஆய்வாளர்களின் தேவை அதிகரித்து விட்டது. எந்திரக் கற்றலியல் வளர்ந்து வருகையில், டேடா விஞ்ஞானிகள் மிகவும் அவசியமாகி விட்டனர்.

குப்பையில் வைரமும் இருக்கிறது என்பதை, பல நிறுவனங்கள் உணரத் தொடங்கிவிட்டன. உதாரணத்திற்கு, புதிய ஒரு வாடிக்கையாளரை உருவாக்குவது ஒரு நிறுவனத்திற்கு, ஒரு பெரிய செலவு. வியாபாரம் என்றிருந்தால், விற்பனை செலவு என்பது இருக்கத்தானே செய்யும் என்று வாதம் செய்த காலம் மலையேறிவிட்டது. இன்று,, புதிய வாடிக்கையாளர்களைத் தேடிப் பிடிப்பதோடு, மிக முக்கியமான விஷயம், இருக்கும் வாடிக்கையாளரைத் தக்க வைத்துக் கொள்வது. எந்த வாடிக்கையாளர், இதோ, இன்னும் 6 மாதங்களில் வெளியேற இருக்கிறார் என்பது மிக முக்கிய விஷயம். இவர்களைத் தக்க வைத்துக் கொள்ள ஆகும் செலவு, புதிய வாடிக்கையாளரைப் பிடிக்கும் செலவை விடக் குறைவு. எப்படி 6 மாதங்களில் விலகப் போகும் வாடிக்கையாளரைக் கண்டு பிடிப்பது? இங்குதான் டேடா விஞ்ஞானிகள், இருக்கும் தரவைக் கொண்டு, உதவ முடியும்.

கணினி கற்றலியல் வளர்ந்து இன்னும் சில ஆண்டுகளில், டேடா விஞ்ஞானியே தேவையில்லை என்றாகி விடுமா? இரண்டாம் பகுதியில் சொன்னது போல, ஆரம்ப கட்ட தரவுப் போராட்டங்களுக்கே இவ்வகை எந்திரக் கற்றலியல் பயன் தருகிறது. மற்றபடி, ஏராளமான தரவிலிருந்து பயனுள்ள விஷயங்களை வெளிக் கொண்டு வருவது இன்னும் மனிதத் திறமை சார்ந்த விஷயமாகவே உள்ளது. எதிர்காலத்தில், எந்திரக் கற்றலியலின் பங்கு அதிகரித்தாலும், நமது தரவு ஆய்வுத் தேவைகளும் அதிகரித்துக் கொண்டே இருக்கும். ஓரளவிற்கு மனிதர்களால் உருவாக்கப்படாத தரவை ஆய்வு செய்வது எந்திரங்களுக்கு எளிது. எதிர்காலத்தில், நமது தரவின் கணிசமான பகுதி உணர்விகளால் உருவாகும் வாய்ப்பு உள்ளது. உணர்விகள், சரியாக வடிவமைக்கப்பட்டால், தவறின்றி, சீராக தரவை உருவாக்கும் – மனிதர்களைப் போல அவ்வப்பொழுது தவறுகள் செய்யாது. ஆனாலும், மனிதர்கள், இந்த உணர்விகளால் உருவாக்கப்படும் தரவை விதவிதமாக ஆய்வு செய்து முடிவெடுக்க மனிதர்களையே நாடுவார்கள்.

இதனால், இத்துறைக்குப் பல்லாண்டுகள் எதிர்காலம் இருப்பது உண்மை. ஆரம்ப கட்டத்தில் இருக்கும் இத்துறையில் சாதிக்க பல வாய்ப்புகள் இன்றைய இளைஞர்களுக்கு இந்தத் துறை வழங்கும் என்பதில் சந்தேகமில்லை.

சொல்வனம் – அக்டோபர் 2016

Advertisements

தகவல் விஞ்ஞானம் – ஒரு அறிமுகம்

டேடா விஞ்ஞானிகள் இல்லையேல் மனித முன்னேற்றமே நின்றுவிடும்!”

“எங்கு தேடினாலும், எத்தனைச் சம்பளம் கொடுத்தாலும் கிடைக்காத டேடா விஞ்ஞானிகள்”

  • இப்படி, இரண்டு ஆண்டுகளுக்கு முன்பு, ஏகத்துக்கு ஊதி வாசிக்கப்பட்ட டேடா விஞ்ஞானிகள் எங்கே?
  • இன்று, இந்தத் தேவை என்னவாயிற்று?
  • டேடா விஞ்ஞானம் என்றால் என்ன?
  • கணினி விஞ்ஞானம் படிப்போர் இத்துறையில் இறங்கலாமா?
  • அப்படி இறங்க முடிவு செய்தால், எப்படித் தேறுவது?

ஊதி வாசிப்புத் தொழில்நுட்பங்கள்

 

data_science_1முதலிலேயே சொல்லி விடுகிறேன். ஊதி வாசிப்பு எதுவும் இக்கட்டுரைகளில் இடம் பெறாது.  இதுபோன்ற கேள்விகளுக்கு பதில் சொல்வதற்கு முன், தரவு விஞ்ஞானத்தின் பின்னணியைச் சற்று சுருக்கமாகப் பார்ப்போம்.

கடந்த ஐந்து ஆண்டுகளாக, கணினி மென்பொருள் துறையில், பயங்கர பில்டப் கொடுக்கப்பட்ட ஒரு விஷயம், ஏராளமான தரவை (தரவுகள்) கையாளும் முறைகள். திடீரென்று தரவுகள்/தகவல்கள் எப்படி ஏராளமானது? மனித நடவடிக்கைகள் தொடங்கிய நாள் முதல் தரவு, மற்றும் அதைக் கையாளும் முறைகள் இருந்து வந்துள்ளது.  ஒரு கல்யாணத்தில் ஒரு நோட்டுப் புத்தகத்தில் மொய்ப் பணக் கணக்கு எழுதும் பொழுது தரவுவைப் பதிவு செய்கிறோம்.

  • மொய் எழுதியவரின் பெயர்
  • மொய்ப் பணம் எத்தனை
  • சில சமயங்களில் மொய்ப் பணத்தில் வகைப்பாடு (denomination) – அதாவது, ஐநூறு, நூறு, ஐம்பது, பத்து ரூபாய் நோட்டுக்கள் எத்தனை
  • அன்பளிப்பு அட்டைகள் – இவற்றை நாம் பணத்தோடு கலக்காமல், தனியாக எழுதி விடுவோம்

இவை எல்லாம் தரவுகள். மொய் தேதியை மாறினால் மட்டுமே எழுதுவோம். கல்யாண வீட்டில் தெரிய வேண்டிய தகவல், இன்ன நாளில் இத்தனை பணமும், இத்தனை பணத்திற்கு அன்பளிப்பு அட்டைகளும் மணமக்களுக்கு வந்தன என்ற இறுதிக் கணக்கு.

அதே கல்யாண வீட்டில், அன்பளிப்புப் பொருட்களின் கணக்கு சற்று மாறுபடும்.

  • அன்பளிப்பு கொடுத்தவரின் பெயர்
  • பொருளின் பெயர்

இந்தத் தரவிலிருந்து தெரிய வேண்டிய முக்கிய தகவல், பொருள் வாரியாக எத்தனை மணமக்களுக்கு அன்பளிப்பாக வந்து சேர்ந்தது என்பது. உதாரணத்திற்கு, 7 குக்கர், 17 தட்டுக்கள் போன்ற விவரங்கள்.

வீட்டிற்கு மளிகைப் பொருட்களின் பட்டியலும் தரவைக் கொண்டே உருவாகிறது.  மளிகைப் பொருட்களின் பட்டியல் ஒரு வினோதமான பட்டியல் – இதில் மனிதர்களுக்கே உரிய, பல உள்ளர்த்தங்கள் உண்டு.

  • கத்திரிக்காய் ¾
  • தீக்குச்சி 3
  • நல்லெண்ணை 250
  • அரிசி 10

இது தரவு என்றாலும், துல்லியமற்ற தரவு. வாராவாரம் மளிகை வாங்கி வரும் கணவருக்கு இந்தப் பட்டியல் போதும் – ஆனால் ஒரு எந்திரத்திற்குப் போதாது. கத்திரிக்காய் மற்றும் அரிசி கிலோ கணக்கு (இந்தியாவில்), தீக்குச்சி பெட்டிக் கணக்கில், நல்லெண்ணை மில்லி கணக்கில். பட்டியல் எழுதுவது அலுப்பான விஷயம். இதனால், பல உள்ளர்த்தங்களோடு சுருக்கி விடுவது மனித இயல்பு. இதை இங்கே சொல்லக் காரணம் உள்ளது. தரவுகளில், எந்திரத் தரம் இல்லாததற்கு, அதன் அலுப்பூட்டும் தன்மையே முக்கிய காரணம். நாம் அலசப் போகும் தரவு விஞ்ஞானத்திம் மிக முக்கிய சவால் இதுவே.

காகிதத்தில் இருந்த தரவு கடந்த 65 ஆண்டுகளாக டிஜிட்டல் உருவத்தில் கணினிகளுக்கு மாறியது. முக்கியமாக, பல நூறு ஆண்டு காகிதப் பழக்கங்களும் அத்துடன் கூடவே வந்தன.

ஆரம்பத்தில் கணினிகளுக்குள் தரவைக் கொண்டு செல்வது ஒரு ஆமை வேக விஷயமாக இருந்தது – பெரும்பாலும் விசைப்பலகை (keyboard) மூலம் தரவு கைப்பட உருவாக்கப்பட்டது. இதனால், காகிதத் தரவை விட அதிகத் தரவு உருவாக்கப்பட்டாலும், கணினிகளால் சமாளிக்கக் கூடிய அளவிலேயே இருந்தது. இன்றைய மடிக்கணினியின் வன்தட்டு (hard disk), 1990 –ல் ஒரு பெரிய நிறுவனத்தின் தரவு அளவிற்கு கையாளும் திறமை படைத்தது என்றால் பாருங்களேன். உதாரணத்திற்கு, ஒரு பெரிய நிறுவனத்தின் தரவு மையத்தில் 1990 –களில் எத்தனைத் தரவுகள் இருக்க முடியும்?

 

தரவு வகை ஒரு பதிவுக்கான தேவை (record size) வருடாந்திரப் பதிவுகள் (#records) வருடாந்திரத் தேவை (storage needs)
விற்பனை (sales) 2,000 பைட்டுகள் 400,000 800 மெகாபைட்டுகள்
வாங்கல் (purchasing) 1,000 பைட்டுகள் 100,000 100 மெகாபைட்டுகள்
தயாரிப்பு (manufacturing) 2,000 பைட்டுகள் 300,000 600 மெகாபைட்டுகள்
மனித வளம் (human resources) 2,000 பைட்டுகள் 25,000 50 மெகாபைட்டுகள்
துணைப் பதிவுகள் (masters, indices) 4,000 பைட்டுகள் 50,000 200 மெகாபைட்டுகள்
மொத்தத் தேவை 1,750 மெகாபைட்டுகள் அல்லது 1.7 கிகாபைட்டுகள்

 

இன்றைய திறன்பேசியில் 2 ஜிபி மெமரி என்பது சர்வ சாதாரணம்.  எப்படி 1990 –களில் ஒரு பெரிய நிறுவனத்தை நடத்தவே 2 ஜிபி –க்குள் முடிந்தது?

  1. முதலில், வியாபாரக் கணினியில், திரவை விசைப்பலகை மூலமாக மட்டுமே உருவாக்கினார்கள்
  2. விசைப்பலகை மூலம் தேவையான தரவை மட்டுமே உருவாக்கினார்கள். இன்றைய வாட்ஸ் ஆப் போல ஒரு செய்தி பல கோடி முறை முன்னனுப்பப்படவில்லை
  3. தொட்டதற்கெல்லாம், வருடல் அல்லது ஸ்கேன் முறைகள் கிடையாது
  4. பட்டைக் குறியீடு (bar codes) முறைகள் 1990 –களில் பிரபலம் அடையவில்லை
  5. பொருட்கள், அவற்றின் குறியீடு மூலம் மட்டுமே அடையாளம் காணப்பட்டன. இன்று, குறியீடு மற்றும் வண்ணப் படங்கள் மூலம் அடையாளம் காட்டுகிறோம்

விசைப்பலகை மூலம் உருவாக்கப்படும் தரவிற்கு ’ஏழைத் தரவு’ ( textual data என்ற ஆங்கிலச் சொற்களுக்கான அடியேனின் தமிழ் முன்வைப்பு! ஏழைத் தரவிற்கு பயனும் அதிகம், தேக்கத் தேவைகளும் (storage requirements) குறைவு) என்றும் மற்ற வகைத் தரவிற்கு ’பணக்காரத் தரவு’ (படங்கள், பாட்டுக்கள், விடியோக்கள், வரைபடங்கள் – இவை பணக்காரத் தரவுகள் – rich data, பயனிருந்தாலும், ஏராளமான தேக்கத் தேவை இவற்றிற்கு உண்டு) என்றும் அழைப்பது கணினித் தொழிலில் வழக்கம் ☺

கணினிகளால் சமாளிக்கப்படும் தரவு, 15 ஆண்டுகளுக்கு முன், ஒரு விஞ்ஞான, அரசாங்க அல்லது வியாபார அமைப்புகளில் பணிபுரிவோர் மட்டுமே உருவாக்கும் விஷயமாக இருந்தது. கடந்த 15 ஆண்டு காலமாக இந்த நிலைமை வெகு வேகமாக மாறத் தொடங்கியது. நுகர்வோர் இணைய வசதிகளால், இருக்கும் தரவைப்  பயன்படுத்துவதோடு, புதிய தரவையும் உருவாக்கத் தொடங்கினார்கள்.

  1. முதலில், Mouse  மூலம், தரவுத் தேர்வுகள், பல வியாரப் பயன்பாடுகளிலும் வரத் தொடங்கியன. ஆரம்பத்தில், தவறான தரவுகளை நுகர்வோர் அபத்தமாகக் கணினிக்கு அனுப்புவதைத் தடுக்கவே இம்முறை அறிமுகப்படுத்தப்பட்டது. உதாரணத்திற்கு, ஊர் என்ற இடத்தில் ‘கூடுவாஞ்சேரி’ என்று சொல்லி, மாநிலம் என்ற இடத்தில் ‘பஞ்சாப்’ என்று கணிக்குள் உள் அனுப்புவது விசைப்பலகையில் எளிது. Mouse மூலம், ‘கூடுவாஞ்சேரி’ என்று சொன்னவுடன், அடுத்த மாநிலம் என்னுமிடத்தில், ‘கூடுவாஞ்சேரி’ என்ற ஊர் பெயருள்ள மாநிலங்கள் மட்டுமே நுகர்வோருக்கு முன் வைக்கப்படும். நாளடைவில், எல்லா படிவங்களிலும் இப்படிப்பட்ட வசதிகள் தேவையாக மாறி, பல புதிய தரவுகள் தேக்கப்பட்டன
  2. விசைப்பலகை மற்றும் Mouse ஐத் தாண்டித், திரைத்தடவல் முறைகள் வந்த பிறகு, இந்தத் தரவுத் தேக்க வேகம் அதிகரிக்கத் தொடங்கியது
  3. வருடிகளின் விலை குறைந்தவுடன், பல வியாபாரங்கள் முக்கிய ஆவணங்களை, தங்களுடைய பதிவுகளுடன் தேக்கத் தொடங்கின. இவற்றின் தேக்கத் தேவை கைப்பட உருவாக்கிய தரவைக் கட்டிலும் பல மடங்கு அதிகம்
  4. மின்னஞ்சல் என்பது ஒரு வியாபார ஆயுதமாக மாறத் தொடங்கியது. பதிவுகள் மின்னஞ்சலுடன் ஒரு சுட்டியாக அனுப்பும் திறன் உருவாக்கப்பட்டது. மின்னஞ்சல் வழங்கிகளின் தேக்கத் தேவைகளும் அதிகரிக்கத் தொடங்கின. இவற்றால் உருவாக்கப்பட்ட தரவுகளும் ஏராளமாயின

சமூக வலையமைப்பு மென்பொருள் தளங்கள் பொதுவாக மிகவும் பிரபலமடைந்ததன் விளைவு, இந்த தரவு அதிகரிப்பு என்பது ஒரு வாதம். சமூக வலையமைப்புத் தளங்களை வியாபாரத்தில் இல்லாதவர்களும் பயன்படுத்துகிறார்கள். இவற்றில், பல கருவிகளிலிருந்து ( கணினி, வில்லைக் கணினி, திறன்பேசிகள், இணையக் கருவிகள்) என்று பல முறைகளிலும், சாதாரண சொற்கள், சத்தங்கள், பாடல்கள், படங்கள், விடியோக்கள் என்று பல பணக்காரத் தரவுகளை மட்டும் உருவாக்குவதில்லை. அவற்றை முன்நோக்கியும் அனுப்புகிறோம்.

பொதுவாக, எல்லாத் துறைகளும் கணினிகளைப் பயன்படுத்தத் தொடங்கிவிட்டதால், இவ்வகைத் தரவு அதிகரிப்பு என்பது இன்னொரு வாதம். உதாரணத்திற்கு, நொடிக்கு 40,000 தேடல் ஆணைகளை இன்று கூகிள் கையாளுகிறது. பொதுமக்கள் அதிகம் கவலைப்படாத விஞ்ஞான ஆராய்ச்சி உலகம், இன்று ஏராளமான தரவுவைக் கையாள்வதை முக்கியமான ஒரு தேவையாக மையப்படுத்தி முன்னேறி வருகிறது. என்றும் இல்லாத அளவிற்கு, திறன்பேசிகள், விஞ்ஞானக் கருவிகள், வருடிகள், வியாபாரங்கள், உடல்நல அமைப்புகள், ஊடகங்கள் என்று பலவகை அருவிகள் தரவைக் குவித்த வண்ணம் உள்ளன. மனித சமூகம் தோன்றியது முதல் 1990 –வரை உருவாக்கிய தரவைக் காட்டிலும், இரு மடங்கு 1990-களில் மட்டுமே மனித நடவடிக்கைகள் உருவாக்கியன. அதாவது பத்தாண்டுகளில், இரு மடங்கான தரவு, இன்று 5 ஆண்டுகளில் இரு மடங்கு என்று மாறி, கூடிய விரைவில் இரண்டு ஆண்டுகளில் இரு மடங்காகும் வாய்ப்புள்ளது.

வழக்கமான, கணினித் துறைப் பாட்டுத்தானே இது, இதிலென்ன புதுசு என்று தோன்றலாம். திடீரென்று உருவாகிய தரவு சுனாமியை எப்படிச் சமாளிப்பது என்பதுதான் கேள்வி. இந்தப் பிரச்னையைக் கையாள்வதில் நிபுணர்கள் ’டேடா விஞ்ஞானிகள்’. உடனே பத்து நாள் தாடியுடன், சோதனைக் குழாயில் நீல நிற திரவத்துடன் இவர்கள் நடமாடுபவர்கள் என்று மட்டும் நினைக்க வேண்டாம். நம்மைப் போல, வழக்கமாக தினமும் சவரம் செய்து கொண்டு, ஜீன்ஸ் அணிந்த ஆசாமிகள் இவர்கள். சுருக்கமாகச் சொல்லப் போனால், இவர்களின் பங்களிப்பு , ’மலையைக் (மலைத்தொடரை என்பதே சரி) கெல்லி எலியைப் பிடிப்பது’. அதாவது, ஏராளமான தரவிலிருந்து, ஒரு வியாபாரத்திற்கோ, அல்லது விஞ்ஞான ஆராய்ச்சிக்கோ பயனுள்ள விஷயத்தைக் கண்டெடுப்பது.

அவ்வளவு எளிதான விஷயமல்ல இது. பல கோடானு கோடி தரவிலிருந்து பயனுள்ள முடிவுகளை எடுக்க உதவுவது ஒரு மாபெரும் முயற்சி. ஓரளவு குறைந்த தரவுடன் பல்லாண்டுகளாக இத்தகைய முயற்சிகளை, கணினி மென்பொருள் பொறியாளர்கள் செய்து வந்திருந்தாலும், மிக அதிகமான தரவு என்றவுடன் பழைய முறைகள் பயனற்றுப் போய் விடுகின்றன. கேட்ட கேள்விக்கு பதில் வருவதற்குள் நமக்கெல்லாம் வயசாகிவிடும்!  அத்துடன், இவ்வகை முயற்சிகள் தனி மனித முயற்சிகள் அல்ல. டேடா விஞ்ஞானிகள் ஒரு மிகப் பெரிய அமைப்பின் ஒரு முக்கிய பங்காளிகள். இவர்கள் பயனுள்ள ஆய்வுகளைச் செய்ய பலருடைய ஒத்துழைப்பு தேவை.

தரவு விஞ்ஞானத் துறை தரவை உணவு போல பார்க்கிறது. உதாரணத்திற்கு, நமக்கு பெரும்பாலும் சூடான உணவே பிடிக்கிறது. சில சமயம் சூடற்ற சாண்ட்விச் நமக்கு ஓகே. அவ்வப்பொழுது ஐஸ்க்ரீம் ஓகே. இன்றைய தரவு உலகம்  இப்படித்தான் தரவு ஆய்வுத் தேவைகளை அணுகுகிறது. உணவு மற்றும் தரவுத் தேவைகளுக்கும் உள்ள வித்தியாசம் என்னவென்றால், சூடான உணவை நாம் அதிகம் நாடுகிறோம். சூடான தரவை தரவு உலகம் இதுவரை ஒதுக்கி வந்துள்ளது!

உருவாகியவுடன் அந்த தரவில் என்ன பயனுள்ளது? அதிலிருந்து ஒரு நிறுவனமோ, ஆராய்ச்சியோ, அரசாங்கமோ என்ன பயன் பெறலாம் என்ற நோக்கத்துடன் செய்யப்படும் தரவு ஆய்விற்கு, சூடான தரவு சயின்ஸ் என்கிறார்கள். தரவு உருவாகி ஒரு வாரத்தில்/மாதத்தில் அந்த தரவுவில் என்ன பயனுள்ளது? அதிலிருந்து ஒரு நிறுவனமோ, ஆராய்ச்சியோ, அரசாங்கமோ என்ன பயன் பெறலாம் என்ற நோக்கத்துடன் செய்யப்படும் தரவு ஆய்விற்கு, இதமான தரவு சயின்ஸ் என்கிறார்கள். உருவாகி ஒரு/பல வருடம் கழித்து அந்த தரவில் என்ன பயனுள்ளது? அதிலிருந்து ஒரு நிறுவனமோ, ஆராய்ச்சியோ, அரசாங்கமோ என்ன பயன் பெறலாம் என்ற நோக்கத்துடன் செய்யப்படும் தரவு ஆய்விற்கு, குளிரான தரவு சயின்ஸ் என்கிறார்கள்.

 

data_science_3சற்று கூர்ந்து கவனித்தால், உலகெங்கும் ஏராளமான தரவு உருவாகினாலும், சூடான தரவு என்பது ஒரு தரவு மூலத்திலிருந்து அளவான தரவாக இருக்கும். ஒரு ரசீது தருவதற்கும், ஆர்டரை பூர்த்தி செய்வதற்கும், ஒரு ஆய்வில் சில நோக்கப்பதிவுடன் இந்த தரவு ஒதுக்கப் படுகிறது. இதில் விதிவிலக்கு, ராட்சச விஞ்ஞான சோதனைகள் – இவ்வகை சோதனைகள் (LHC போன்ற சோதனைகள் நொடிக்கு பல கோடி தரவுகளை உருவாக்குகின்றன), நொடியில் தரவு சுனாமி என்பது சர்வ சாதாரணம்.

சேமிக்கப்பட்ட தரவு வார/மாதம் ஒரு முறை அலசப்படுவது சென்ற 50 ஆண்டுகளாக கணினிகளால் நிகழும் ஒரு விஷயம். சில நிறுவனங்களில், ஒரு மாத தரவு என்பது தலை சுற்றும் அளவிற்கு வளர்ந்து விடுகிறது. பெரும்பாலும், விற்பனை, மனித வளம் போன்ற துறைகளில் இவ்வகை தரவிற்கு மதிப்பு அதிகம். இவ்வகை இதமான தரவுவைக் கொண்டு பல்வேறு இயக்க மேலாண்மை முடிவுகள் மேற்கொள்ளப்- படுகின்றன. இவ்வகைத் தரவு வரவு முன்பைவிட அதிகமாகி விட்டாலும்,இன்றைய கணினிகளால் தாக்கு பிடிக்கும் அளவிலேயே இருக்கின்றது. உதாரணத்திற்கு, எந்த ஊர்களில், எந்தப் பகுதிகளில் சென்ற மாதம் ஒரு வகை டீத்தூள் அதிகமாக அல்லது மோசமாக விற்பனையாகிற்று, போன்ற கேள்விகளுக்கு, இதமான தரவு கொண்டு பதில் சொல்லலாம்.

ஒரு/சில வருடத் தரவில் மிக அதிகமான புரிதல்கள் மறைந்து கிடக்கின்றன என்பது தரவு விஞ்ஞானிகளின் நெடுநாளைய நம்பிக்கை. பெரும்பாலும் நிறுவனங்கள், வருடாந்திர விற்பனை, வரவு செலவை கணக்கிட்ட பிறகு, அந்தத் தரவை அதிகம் திரும்பிப் பார்ப்பதில்லை. அடுத்த வருட, குறிக்கோளை எட்டுவதற்கே நேரம் இருப்பதில்லை. ஆனால், இந்தக் குளிர் தரவிலிருந்து ஒரு நிறுவனம், எப்படிச் செயல்பட்டால், முன்னேறலாம் என்பது பற்றிய முக்கிய படிப்பினைகள் மறைந்து கிடக்கின்றன என்கிறார்கள் தரவு விஞ்ஞானிகள். இன்று நாம், டிவியில் அன்றைய நாளின் அதிக வெப்பம் மற்றும் குளிர்நிலை என்னவென்று பார்க்கிறோம். அத்துடன் சராசரி வெப்பம் என்னவென்றும் பார்க்கிறோம். இந்தச் சராசரி வெப்பம் என்பது ஒரு 50 ஆண்டு காலமாக, அந்த மாதத்தில், அந்த நாளில் எத்தனை வெப்பம்  இருந்தது என்பதே. இந்தச் சராசரி என்பது நமக்கு ஒரு அளவுகோலாக அமைகிறது.  அன்றைய வெப்பம் சராசரி வெப்பத்தை விட அதிகமா அல்லது குறைவா என்பது உண்மையான நிலையை எடுத்துரைக்கிறது. இதுபோலவே, வியாபாரம், அரசாங்கம், புள்ளியியல் போன்ற துறைகளில் இப்படிப்பட்ட பழைய குளிர் தரவு விஞ்ஞானம், பல விஷயங்களை எடுத்துரைப்பதோடு, முக்கியப் பாதையயும் எடுத்துக் காட்ட வல்லது. பல நிறுவனங்கள் மொத்த விற்பனை அளவு சரியில்லை என்று பல பொருட்களை சொற்ப நேரத்தில் துறக்கத் தயங்குவதில்லை. உதாரணத்திற்கு, இவ்வகைக் குளிர் தரவு விஞ்ஞானம், சில அதிகம் விற்காத பொருட்கள், சில ஊர்களில் அதிகமாக சில மாதங்களில் வருடா வருடம் விற்பதை எடுத்துக் காட்டி, அந்த பொருட்களைத் தயாரிப்பதை நிறுத்தாமல், சில மாதங்களில் மட்டுமே தயாரிக்கும் ஒரு உத்தியை இந்த நிறுவனத்திற்கு முன் வைக்கலாம். இது போன்ற பல பருவப் பொருட்கள் தயாரிக்கும் நிறுவனங்கள் காப்பாற்றப்படக் கூட வாய்ப்பு உண்டு என்கிறார்கள் டேடா விஞ்ஞானிகள்.

 

data_science_2ஆனால், குளிர் தரவு விஞ்ஞானத்தில் உள்ள ஒரு பெரிய சவால், பல்லாண்டுகளுக்கான தரவு மலை போல இருப்பதுதான். குவிந்து கிடக்கும் இந்த ’மலைத் தொடர்ச்சியை’, பயனுள்ள ஒரு கருவியாக மாற்றுவது ஒரு விண்வெளி ராக்கெட்டை மேலே வெற்றிகரமாக அனுப்புவதற்குச் சமமானது.   இந்த ’மலைத் தொடர்ச்சி’ சொல் பிரயோகத்திற்கு ஒரு காரணம் உண்டு – சில ஆண்டுகளின் தரவு பெரிய மலை, சில ஆண்டுகளின் தரவு சின்ன மலை, சில ஆண்டுகளின் தரவு மரமற்ற மலை, இன்னும் சில ஆண்டுகளின் தரவு வெறும் பாறையான மலை என்று இருப்பதோடு அல்லாமல், நடுவிலே மலையே இல்லாமல் இருப்பதும் தரவு விஞ்ஞானத்தில் சாதாரணம். பழைய  தரவுவிற்கு இதுவரை அத்தனை மதிப்பும் மரியாதையும் இல்லை.  இந்த மலைத் தொடர்ச்சி சமாச்சாரம், இன்றைய தரவு விஞ்ஞானத்தைப் பற்றிய மிகப் பெரிய ஊதிவாசித்தலுக்கு வழிவகுத்துள்ளது. சற்று விவரமாக, எப்படி இந்த மலைத் தொடர்ச்சியை மனிதர்கள் உருவாக்குகிறார்கள் என்று பார்ப்போம். ஒரு சராசரி சில்லரை வியாபாரச் சங்கிலியை உதாரணமாகக் கொள்வோம்.

நேரம் வியாபார மையம் வியாபாரத் தரவு
2010 மே மாதம் மையம் 8 த.நா. 4:15 தமிழ்நாட்டிற்கு சுருக்கம். மாலை 4:15
2010 மே மாதம் மையம் 15 தநா, 17:30 தமிழ்நாட்டிற்கு சுருக்கம். மாலை 5:30
2011 ஜூன் மையம் 8 TN, 4:15 தமிழ்நாட்டிற்கு ஆங்கிலச் சுருக்கம். மாலை 4:15
2011 ஜூன் மையம் 15 TN, 17:30 தமிழ்நாட்டிற்கு ஆங்கிலச் சுருக்கம். மாலை 5:30,
2013 ஜூன் மையம் 8 TN, 16:15 தமிழ்நாட்டிற்கு ஆங்கிலச் சுருக்கம். மாலை 4:15. 24 மணி நேர அளவீடு
2013 ஜூன் மையம் 15 TN, 17:30 தமிழ்நாட்டிற்கு ஆங்கிலச் சுருக்கம். மாலை 5:30. 24 மணி நேர அளவீடு

 

வெறும் இரண்டு தரவுகளில் இரு மையங்களிலிருந்து 3 வருடங்களில் உள்ள தரவு மாற்றங்களை இந்தப் பட்டியலில் நீங்கள் பார்க்கலாம். இது போல, பல லட்சம் தரவுகளில், மனிதர்கள் உருவாக்கும் தரவுகளை ஒன்றாக சேர்த்துப் பார்த்தால், பெரிய மலையளவோடு இந்த பிரச்னை முடியாது, ஒரு மலைத் தொடர்ச்சிபோலவே  தோற்றமளிக்கும். தரவுகள் பயன்பட வேண்டுமென்றால், தரவில் தரம் இருக்க வேண்டும், அத்துடன் ஒரு நியமத்திற்கு உட்பட்டும் இருக்க வேண்டும்.

டேடா விஞ்ஞானிகளை எவ்வகை நிறுவனங்கள் நாடுகின்றன? இவை பெரும்பாலும் ஏராளமான தரவுடன் உழலும், ஆனால், அதிக பயன் பெறாத அமைப்புகள்.

  1. அரசாங்க அமைப்புகள் – டிஜிட்டல் முறையில் ஏராளமான படிவங்களைப் பயனற்று சேர்க்கும் அரசாங்கங்கள் உலகம் முழுவதும் உள்ளன. வீட்டுப் பத்திரம் முதல், ரேஷன் கார்டு வரை, அரசாங்கங்கள் தரவு உளையில் உழலும் வினோதப் பிராணிகள்
  2. வங்கிகள் – ஒவ்வொரு நிதி நடவடிக்கையும் இன்று டிஜிட்டல் முறைகளில் கையாளப்படுகின்றன. ’சொல்வனத்தில்’ எதிர்காலமற்ற பணமா அல்லது பணமற்ற எதிர்காலமா என்று கட்டுரை ஒன்றை 2011 –ல் எழுதினேன். இன்று, பணம் அல்லது செல்வம் என்பது வங்கிகளில் உள்ள பாதுகாப்பான தரவு – அவ்வளவுதான். அதைத் தாண்டி இந்த டிஜிட்டல் சுரங்கத்தை அதிகம் பயன்படுத்தாத வங்கிகள் ஏராளம்
  3. நுகர்வோர் பொருள் நிறுவனங்கள் – கோடிக் கணக்கில் தினமும் வியாபாரம் செய்யும் சோப்பு, ஷாம்பூ, உணவுப் பொருட்கள், மது, காலணிகள், போன்ற விஷயங்களை வியாபாரம் செய்யும் நிறுவனங்கள். இவர்கள் ஏராளமான தரவுடன் பல்லாண்டுகளாகப் போராடும் அமைப்புகள். அடிப்படைச் செயல்பாட்டிற்கே ஏராளமான தரவுகளை நம்பியிருக்கும் நிறுவனங்கள் இவை
  4. திறன்பேசி நிறுவனங்கள் – மாதம் ஒன்றுக்கு 50 லட்சம் புதுத் தொடர்புகளை இந்தியாவில் மட்டுமே உருவாக்கும் திறன்பேசி நிறுவனங்களிடம் , ஏராளமான தொடர்புத் தரவுகள் பயனற்றுக் கிடக்கின்றன
  5. மருந்து நிறுவனங்கள் – மனித ஜீனோம் ப்ராஜெக்ட் 1999 –ல் முடிந்ததிலிருந்து, மருந்துக் நிறுவனங்கள்  மருந்து ஆராய்ச்சியில் மரபணு ஆராய்ச்சியின் ஏராளமான தரவுகளைக் கையாள்வது நிபுணத்துவம் தேவையுள்ள ஒரு துறையாக மாறி விட்டது
  6. காப்பீடு நிறுவனங்கள் – உலக மக்களின் பொருளாதார நிலை உயர உயர, அவர்களது போக்குவரத்து, மருத்துவ, மற்றும் சொத்து காப்பீட்டுத் தேவைகள் ஏராளமாக அதிகரித்து வந்துள்ளன. காப்பீடு நிறுவனங்கள், உலகெங்கும் அதிகம் முன்னேறாமல், அடிப்படைப் படிவங்களை கொண்டு காலம் தள்ளுகின்றன
  7. சில்லறை வியாபாரங்கள் – உலகின் மிகப் பெரிய நிறுவனம் சில்லறை வியாபாரத்தில் ஈடுபட்டுள்ள வால்மார்ட். உலகம் முழுவதும், சில்லறை வியாபாரச் சங்கிலி நிறுவனங்கள் ஒவ்வொரு நாளும் நடக்கும் பல கோடி வியாபார நடவடிக்கைகளைப் பதிவு செய்வதோடு நின்றுவிடுகின்றன
  8. விஞ்ஞான அமைப்புகள் – பல விஞ்ஞான ஆராய்ச்சிகள் ஏராளமான தரவுகளைக் கையாள்வதை முக்கியத் தேவையாக பார்க்கத் தொடங்கிவிட்டன. LHC பற்றி ‘விஞ்ஞான கணினி’ என்ற கட்டுரையில் எழுதியிருந்தேன். புதிய அணு நுண் துகளைக் கண்டு பிடிப்பது ஏராளமான தரவிற்குள் தேடும் முயற்சி என்று மேம்போக்காகச் சொல்லலாம் (இந்த விஞ்ஞான முறைகள் சோப்பு, ஷாம்பூ தரவில் தேடுவதைப் போன்றன அல்ல). வானவியல் ஆராய்ச்சி இன்று ஏராளமான தரவை கையாள்வதை மையப்படுத்தி வருகிறது.

மேலே சொன்ன அமைப்புகள் ஒரு பெரும் பட்டியலின் சின்ன பகுதி. இது போல, பல கோடி அமைப்புகள் உலகெங்கும் தரவை சேகரிக்கும் முயற்சியில் ஈடுபட்டுள்ளன. ஆனால், ஒரு ரசீது வழங்குவதோ, அல்லது ஒரு பில் வழங்குவதோடு நின்று விடுகின்றன. வாடிக்கையாளர்கள், நுகர்வோர், மக்கள் பற்றிய பல முக்கிய தகவல்கள் இந்த தரவுகளில் எங்கோ புதைந்து கிடக்கின்றன. இந்தப் புதையலில், ஒரு வியாபாரத்தின் முன்னேற்றம், அல்லது திட்டத்தின்/ ஆராய்ச்சியின் அடுத்த கட்டத்திற்கு வழி வகுக்கும் சக்தி உள்ளது. புதையலை வெளிக் கொண்டுவர டேடா விஞ்ஞானிகளின் பங்கு முக்கியமானது.

அடுத்த பகுதியில், இவர்களின் வேலையின் முக்கிய அங்கங்களை அலசுவோம். இடையில் இந்தக் காணொளியைச் சிறிது பாருங்கள்.

சொல்வனம் – அக்டோபர் 2016

தகவல் விஞ்ஞானம் – ஒரு அறிமுகம் – தொழில் தேவைகள் – பகுதி 2

data-scientist

இப்பகுதியில், ஒரு தகவல் விஞ்ஞானியின் தொழில் சார்ந்த தேவைகளைப் புரிந்து கொள்வோம். என்னதான் ஊதி வாசிக்கப்பட்டாலும் தகவல் விஞ்ஞானி என்ற ஒரு வசீகரத் தொழில் பெயர், தரவு என்பதன் முக்கியத்துவத்தை உயர்மட்ட மேலாண்மை வர்க்கத்திற்குத் தெரியப் படுத்திய ஒரு நல்ல செயல் என்றுதான் சொல்ல வேண்டும்.

தகவல் விஞ்ஞானிகள் மலை போல குவிந்திருக்கும் தரவை வைத்துக் கொண்டு என்ன செய்ய முடியும்? இதில் பல விஷயங்கள்/புரிதல்கள் மறைந்திருப்பது ஒரு புறம் இருந்தாலும், தகவல் விஞ்ஞானிகள் என்னமோ மாயாஜாலம் செய்ய வல்லவர்கள் என்று மட்டும் நினைக்க வேண்டாம். இந்தத் துறையிலும் பல நிரூபிக்கப்பட்ட அணுகுமுறைகள் உள்ளன.

சொல்வனத்தில் ’விஞ்ஞான வளர்ச்சியின் வளர்ச்சி’ என்ற கட்டுரைத் தொடரில், விஞ்ஞான முறைகள் பற்றி சில ஆண்டுகள் முன்பு எழுதியிருந்தேன். சில தரவு விஞ்ஞான அணுகுமுறைகள், விஞ்ஞான ஆராய்ச்சி முறைகளை மூலமாகக் கொண்டது.

இம்முறைகளை சில படிகளாகப் பட்டியலிடலாம்;

  • ஒரு புனைக்கொள்கையை (hypothesis) முன் வைக்கலாம். உதாரணத்திற்கு, ஒரு விஞ்ஞான சோதனை, ஏராளமான தரவை உருவாக்கினால், அந்த தரவில் இரண்டு அல்லது மூன்று மாறிகளுக்கு (variables) இடையில் ஒரு உறவு (relationship) உள்ளது என்ற சந்தேகத்தின் பேரில் ஆராய்ச்சியை ஆரம்பிக்கலாம். இது வெறும் ஊகம் தான். தரவு மூலம் சந்தேகத்திற்கு இடமின்றி நிரூபிக்கப்பட வேண்டும். வியாபார உதாரணமாக, சில்லரை வியாபாரத்தில், சில பொருட்களின் விற்பனை, சில பகுதிகளில், சில மாதங்களில் ஏராளமாக விற்கும் என்ற கொள்கையை முன் வைக்கலாம். விஞ்ஞான ஆராய்ச்சியில் விஞ்ஞான அறிவு எவ்வளவு முக்கியமோ, வியாபாரத்தில், வியாபார அறிவு அவ்வளவு முக்கியம் (Information hypothesis)
  • ஒரு வருட தரவை வைத்து, ஏதாவது இவ்வகை உறவுகள் உள்ளனவா என்று முதலில் ஊர்ஜிதப்படுத்திக் கொள்ள வேண்டும். இந்த உறவு நிச்சயமில்லை என்றாலும், ஓரளவு உறவிற்கு சாத்தியம் உண்டு என்று நிச்சயப்படுத்தும் வழி இது. விஞ்ஞான முறைகளில், அருமையான கோட்பாடுகள் இருப்பதால், இந்தப் படி அவ்வளவு கடினமில்லை. வியாபார உலகில், எதுவும் நிச்சயமில்லை. அசட்டுத்தனமான புனைக்கொள்கையை ஆரம்பத்திலேயே தவிர்ப்பதற்கான முக்கிய படி இது (Data filtering and testing)
  • படி 2 –ல் பல சமயம், எதிர்பார்த்த மாறிகளுக்குள்ளான உறவுகள் இல்லையேல், புனைக்கொள்கையை சற்று மாற்றிக் கொள்ள நேரிடும். நம்முடைய சில்லரை வியாபார உதாரணத்தில், LED சர விளக்குகளை எடுத்துக் கொள்வோம். இவை பொதுவாக பண்டிகை நாட்களில் அதிகம் விற்கும் பொருட்கள். ஒரு மாவட்டத்தின் தரவை எடுத்துக் கொண்டு, ஆகஸ்ட் மாத விற்பனையை ஆராய்ந்தால், இதில் அதிகம் LED சர விளக்குகள் விற்காதது தெரிய வருகிறது என்று வைத்துக் கொள்வோம். ஆகஸ்ட் மாதத்தில் அதிக பண்டிகை நாட்கள் இல்லாததால், நம் புனைக் கொள்கைக்கு ஒத்து வராத விஷயம் இது. செப்டம்பர் முதல் டிசம்பர் வரை ஆராய்ந்தால், LED சர விளக்குகள் நாம் எடுத்துக் கொண்ட மாவட்டத்தில் ஓரளவு விற்பனை ஆகிறது என்று தெரிய வருகின்றது என்று வைத்துக் கொள்வோம். புனைக் கொள்கை ஓரளவிற்கு சரிப்பட்டு வருகிறது. ஆனால், நாம் தேர்ந்தெடுத்த மாவட்டத்தில் LED சர விளக்குகளை வாங்கும் வசதி படைத்தவர்கள் அதிகம் இல்லையேல், நாம் வேறு மாவட்டத் தரவை ஆராய வேண்டும். அப்படி ஒரு மாவட்டம் சிக்கினால், அது போன்ற வருவாயுள்ள மற்ற மாவட்டங்களிலும் அப்படியே விற்பனை செப்டம்பர் முதல் டிசம்பர் வரை அதிகமாக இருக்கிறதா என்று ஊர்ஜிதம் செய்து கொள்ள வேண்டும். தேவைப்பட்டால், மீண்டும் படி 2 –ஐ பின்பற்றி, எந்த அளவிற்கு புனைக்கொள்கையை மாற்றினால் விடை கிடைக்கும் என்று சரி பார்க்க வேண்டும். சில சமயம் ஆட்டத்தை படி 1-லிருந்து ஆரம்பிக்கவும் நேரிடும். தகவல் விஞ்ஞானிகள் பல புனைக்கொள்கைகளைத் தேடிய வண்ணம் இருக்க வேண்டும். சில சமயம் புனைக்கொள்கையை மாற்றுவதால், படி 2-ன் தரவையும் மாற்ற நேரிடலாம் (Hypothesis adjustment)
  • ஓரளவு நம்பிக்கையான புனைக்கொள்கையை நிரூபிக்க பல வருட தரவைக் கொண்டு சோதிப்பது வியாபார உலகில் அவசியம். விஞ்ஞான முயற்சிகளில், பல லட்சம் கணினிகளுடன், இந்தப் படி, பல தனிக் குழுக்களால் அலசப்படுகிறது. விஞ்ஞானத்தில், குறைந்த பட்சம் இரண்டு அல்லது மூன்று குழுக்களின் முடிவுகள் ஒத்துப் போக வேண்டும். அத்துடன், துல்லியத் தேவைகள் விஞ்ஞான தரவில் மிகவும் முக்கியம். வியாபார உலகம் சற்று மாறுபட்டது. இங்கு தரவு விஞ்ஞானிகள் வியாபார ரகசியம் கருதி ஒரு நிறுவனத்திற்கு வெளியே போவதில்லை. அத்துடன், விஞ்ஞான உலகம் போல அவ்வளவு துல்லியம் தேவையில்லை. இந்தப் படி, இரு உலகத்திலும் மிகவும் நேரம் மற்றும் மனித சக்தி எடுக்கும் படி (Full Data analysis)
  • நான்காம் படியின் முடிவுகளை சரியாக பொருளாய்தல் (interpretation) தகவல் விஞ்ஞானியின் மிக முக்கியப் பணி. விஞ்ஞான உலகில், சக விஞ்ஞானிகள் எளிதில் பொருளாய்தலைப் புரிந்து கொள்ளும் திறனுடையவர்கள். வியாபார உலகில், மிக ஜாக்கிரதையாக, உயர் மேலாண்மை வர்கத்தினருக்குப் புரியும்படி செய்தல் ஒரு தகவல் விஞ்ஞானியின் கடமை. விஞ்ஞானத்தின் குறிக்கோள், பொருளாய்தலுடன் முடிந்துவிடும். ஆனால், வியாபார உலகில், மிக முக்கியமான ஒரு படி உள்ளது. எளிமையாக்குகிறேன் என்று பல தகவல் விஞ்ஞானிகள், சில முக்கிய தரவு பொருளாய்தலை பித்தலாட்டமாக்கும் அபாயத்தை நடைமுறையில் பார்த்துள்ளேன் (Data interpretation)
  • வியாபார உலகில், பொருளாய்தல் மூலம் வியாபாரப் பரிந்துரை (business recommendation) ஏதாவது செய்ய வேண்டும். இல்லையேல், தகவல் விஞ்ஞானி வீட்டிற்கு அனுப்பப்படுவார். இது மிகவும் நிறுவன அரசியல் சார்ந்த விஷயம். இங்குதான், ஒரு வியாபார அமைப்பில்வேலை செய்யும் தகவல் விஞ்ஞானி சாதுர்யமாக செயல்பட வேண்டும்

 

data-science-process

தரவு விஞ்ஞானப் படிகளைப் பார்த்தோம். ஆனால், இது ஒன்றும் கைப்பட செய்யும் சமாச்சாரம் இல்லை. இத்துறைக்கு பல தொழில்நுட்ப தேவைகள் மற்றும் வல்லுனர்கள் தேவை. முக்கியமாக, இவ்வகைக் கருவிகள் மிகவும் தேவை;

 

கருவி வகை

தரவு விஞ்ஞான படி

விளக்கம்

தரவு திரட்டல் (data extract)

2, 4

தரவு அலசலுக்கு தேவையான வடிவத்தில் தரவு, அதன் மூலத்தில் இருப்பதில்லை.

தரவு அலசல்(data analysis)

2, 3, 4, 5

தரவை பல பட்டியல்கள் மற்றும் அடிப்படை ஆய்வுகள் செய்தே புனைக்கொள்கைக்கு ஒத்துவருமா என்று முடிவு செய்ய முடியும்

தரவு தரமேம்பாடு (data quality)

2, 3, 4, 5

தரவு ,மனிதர்களால் உருவாக்கப்பட்டாலே பிரச்னைதான். மனிதர்கள் பலவிதம், அது போல அவர்கள் உருவாக்கும் தரவிலும் பலவகை பிரச்னைகளும் உருவாகும். ஒருவர் தமிழ்நாட்டிற்கு, தநா என்றும், இன்னொருவர் த.நா. என்றும், வேறொருவர் தநா. என்றும் தரவை உருவாக்குவார்கள். மேலும், சிலர் தேவையில்லையென்றால், தரவே கொடுக்க மாட்டார்கள். இதை எல்லாம் சரிகட்ட தரவுத் தர மேம்பாடு அவசியம்

புள்ளியியல் (statistics)

2,3,4,5

புள்ளியல் மென்பொருட்கள் தரவை சரியாக அடிப்படையில் புரிந்து கொள்ள பல கருவிகளை தருகிறது. உதாரணத்திற்கு, ஒரு விற்பனை தரவில் அதிக மாறுதலில்லாத அளவு (a measure without much variation) சில அலசல்களுக்கு, புனைக்கொள்கைகளுக்கு பயன்படாது. இதை புள்ளியியல் மூலம் எளிதில் சொல்லிவிடலாம்.

எந்திரக்கற்றலியல் (machine learning)

2,4

சில சலிப்பூட்டும் படிகளுக்கு எந்திரக் கற்றலியல் கருவிகள் மிக உதவும்

தரவுஉருவகாக்கம்(data interpretation/ presentation)

5,6

விஞ்ஞான மற்றும் வியாபார உலகில் வடிவியல் மிகவும் அவசியம். இதற்கான கருவிகள் ஏராளம்

விரிவாக இந்தக் கருவிகளைப் பற்றி அலசுவோம்.

தரவுத் திரட்டல் கருவிகள் (data extraction tools)

தரவு விஞ்ஞானத்தில் அடித்தளம் ஆராய்ச்சிக்கேற்ற தரவு. அதென்ன ஆராய்ச்சிக்கேற்ற தரவு? அதாவது முன் வைக்கும் புனைக் கொள்கையை நிரூபிப்பதற்கு சம்பந்தப்பட்ட தரவு தேவை. நம்முடைய LED சர விளக்குகள் உதாரணத்தில், பல மாத/வருட, பல மையங்களின் வியாபார தரவு தேவைஆனால், LED சர விளக்குகள் சார்ந்த தரவாக மட்டுமே இருக்க வேண்டும். தீப்பெட்டி வியாபாரத் தரவில் நமக்கு பயனேதும் இல்லை. தரவுதளங்களில் எல்லா பொருட்களின் விற்பனை தரவும் இருக்கும். அதிலிருந்து நமக்கு வேண்டிய LED சர விளக்குகள் தரவை மட்டும் திரட்ட வேண்டும். அத்துடன், LED சர விளக்குகள் மற்றிய விளக்கமான (descriptive attributes) மாறிகளும் தேவை. இவ்வகைத் திரட்டல் கருவிகள் பல்லாண்டுகளாக மென்பொருள் துறை உருவாக்கி வந்துள்ளது. Microsoft, Oracle, SAS, SAP, Informatica, IBM போன்ற நிறுவனங்கள் தரவு திரட்டல் கருவிகளை பல்லாண்டுகளாய் மெருகேற்றி வந்துள்ளார்கள். SQL போன்ற கணினி மொழியில் வல்லமை தகவல் விஞ்ஞானிக்கு அவசியம். SQL –ஐத் தாண்டி, ஏராளமான தரவுகளைத் திரட்ட, இந்த நிறுவனங்களின் பிரத்யேகக் கருவிகள் தெரிய வேண்டும்.

அடிப்படைக் தரவு அலசல் கருவிகள் (basic data analysis tools)

image03முதல் தேவை, அடிப்படை தரவு கருவிகளில் சரளமாக விளையாடும் திறன். அதாவது Python, R, SAS போன்ற கருவிகளில் கையில் உள்ள தரவை ஆராயும் திறன். இத்துடன், இன்றைய தரவுதளங்களுடன் எளிதாகச் சஞ்சரிக்கத் தேவையான மொழி SQL. இவ்வகைக் கருவிகள், ஒரு தகவல் விஞ்ஞானியின் ஆரம்ப கட்ட ஆராய்ச்சிக்கு அவசியம். தேவையான தரவை தேவையான அம்சங்களோடு ராட்சச தரவுதளங்களிலிருந்து வடிகட்டி, எடுத்து ஆராய்வது தகவல் விஞ்ஞானிகளின் அடிப்படை வேலை. உதாரணத்திற்கு, தேசிய அளவு சில்லறை வியாபாரம் ஒன்றில், கடந்த ஐந்து ஆண்டுகளில், தென் மாநிலங்களில், அதிகமாக நுகர்வோர் வாங்கும் பகுதி எது என்ற கேள்வியை எப்படி அணுகுவது? முதலில், ராட்சச தரவுதளத்திலிருந்து, தென் மாநில சில்லறை மையங்களின் கடைசி ஐந்தாண்டு வியாபாரத் தரவு தேவை. இந்த தரவு கிடைத்த பின்புதான் மற்ற ஆராய்ச்சி செய்து கேள்விக்குப் பதில் அளிக்க முடியும். இதற்கு மேலே சொல்லப்பட்ட கருவிகளில் ஆளுமை தேவை.

அடிப்படை தரவு தரக் கருவிகள் (Basic data quality tools)

image00

ஒரு ரகசியத்தைப் போட்டு உடைப்பதில் எந்தத் தயக்கமும் எனக்கில்லை – தகவல் விஞ்ஞானிகள், வசீகரமான பதில்களைத் தரும் நேரம் வெறும் 5% தான். மற்ற 95% நேரம், அடிப்படை தரவு மற்றும் தரக் கருவிகளுடன் போராடியே வாழ்பவர்கள். மலையைக் கெல்லுவது என்பதைவிட இவர்களைக் குப்பையைக் கிளறி வைரம் தேடுபவர்கள் எனலாம். முன்னே சொன்ன சில்லறை வியாபார தரவை எடுத்துக் கொள்வோம். நுகர்வோர் பல நேரங்களில், பொருட்களை வாங்கிச் சென்றதன் பதிவுதான் தரவு. இதைத் தவிர வாங்கிய நேரம் மற்றும் தேதி போன்ற விஷயங்கள் எளிதாகக் கிடைத்துவிடும். எந்தப் பொருட்கள், எந்தப் பகுதியில் அடுக்கப்பட்டிருக்கும் என்பது மிகவும் சிக்கலான பிரச்னை. முதிர்ந்த சில்லறை வியாபாரங்கள், இன்ன பொருட்கள், இன்னப் பகுதியில் நாட்டின் எந்தப் பகுதியிலும் ஒரே சீராக அடுக்குவார்கள். இவர்களின் அமைப்புகளிலும், சில சின்ன வியாபாரத் தளங்களில், சில பகுதிகள் இருக்காது. சீரற்ற அடுக்கு முறைகள் உள்ள சில்லறை வியாபாரங்களில் இந்தக் கேள்விக்கு பதிலளிப்பது, இயலாத செயல். விற்பனை நடந்த நேரத்தைச் சரியாக பதிவு செய்வதிலும் வேறுபாடுகள் இருக்கும்ஒரு தளம், மாலை ஐந்து மணியை 17:00 என்றும் இன்னொன்று 5:00 என்றும் பதிவு செய்தால், எல்லாவற்றையும் சீராக்க, தரவு தர மென்பொருள் கருவிகள் கொண்டு சரி செய்வது தகவல் விஞ்ஞானியின் வேலை.

இதைப் போல, சில தரவுகளில், எதுவுமே இல்லாமலும் இருக்கும். இதனால்தான் முதல் பகுதியில் மலைத்தொடர் என்ற சொல்லை பயன்படுத்தினேன். இந்த தரவு மலைத் தொடரில், சில குன்றுகள் காணாமலே போகும்; சில இடங்களில், உயரம் குறைவாகவும், சில இடங்களில் அதிகமாகவும் இருக்கும் மலைத் தொடர் போன்ற விஷயம் ஒரு பெரிய தரவு தளத்திலிருந்து தரவை எடுத்து ஆராய்வது. Informatica, Trillium, SAS போன்ற நிறுவனங்களின் கருவிகள் இந்த தரவு சுத்திகரிப்புச் செயலை எளிதாக்குகின்றன; இவற்றில் தகவல் விஞ்ஞானிகளுக்குத் தேர்ச்சி அவசியம்.

அடிப்படை புள்ளியியல் (basic statistics)

image01

தகவல்  விஞ்ஞானியாக வெற்றி பெறப் புள்ளியியல் அறிவு மிகவும் அவசியம். பெரும்பாலும், வெற்றிப் பெற்ற தகவல் விஞ்ஞானிகள் புள்ளியியலில் முனைவர் பட்டம் பெற்றிருப்பவர்களாக இருப்பது, ஒரு தற்செயல் என்றுதான் சொல்ல வேண்டும். புள்ளியியலில் ஓரளவு தேர்ச்சி (முதுகலை அளவு) பெறுதல் அவசியம். ஏனென்றால், தரவுவிலிருந்து கிடைக்கும் பதில்களில் நிச்சயம் (deterministic) என்று எதுவும் கிடையாது, பெரும்பாலும் சாத்தியக்கூறுகள், கொத்தாக்கம் (clustering) மற்றும், ஒட்டுறவுகள் (correlation) அதிகம். சிறிய பயிற்சி தரவைக் கொண்டு, ராட்சச தரவுதளங்களில், தங்களுடைய கோட்பாடுகள் வேலை செய்கிறதா என்று ஆராய்வது தகவல் விஞ்ஞானியின் முக்கிய வேலை. R, SAS, IBM  போன்ற நிறுவனங்களின் மென்பொருள் கருவிகள், புள்ளியியல் நிபுணர்களின் நண்பன்.

எந்திரக் கற்றலியல்

நாம் இதுவரைச் சொன்ன முறைகள் அடித்துப் பிடித்து, ஒரு டெராபைட்டுகள் அளவில் உள்ள தரவுதளங்கள் வரை விஞ்ஞானியே சமாளித்து விடலாம். ஆனால், இன்றைய பெரும் வியாபாரங்கள், ஆராய்ச்சிகள், ராட்சச அளவில் தரவை தேக்கி வைத்துள்ளன. ஆரம்ப ஆராய்ச்சியை ஒரு எந்திரத்திடம் (அதாவது கணினி மென்பொருள்) விடுவதைத் தவிர வேறு வழியில்லை. அத்துடன், இன்றைய மென்பொருள் கருவிகள், பல நூறு கோடி தரவை ஆராய்ந்து சர்வ சாதாரணமாக, அருகாமை தரவு (near neighbors), கொத்து தரவு என்று பிரித்து காட்டும் வல்லமை கொண்டவை. மனித முயற்சியால், பல மாதங்கள் பிடிக்கும் இவ்வகை வேலைகளை, சில மணி நேரங்களில் எந்திரங்கள் செய்து விடுகின்றன. Apache Mahout, GraphLab, Python machine learning libraries, மற்றும் மேகக் கணிமை அமைப்புகள் வழங்கும் கருவிகளும் (Azure, Amazon, Google)  உள்ளன.  தகவல் விஞ்ஞானிக்கு இந்தக் கருவிகளில் ஒன்றிரண்டு தெரிதல் அவசியம்.

தரவு உருவாக்கம்

அழகாக வர்ணிப்பவரை, ‘அட, ஃபிலிம் காட்டுகிறார்’, என்று நாம் சொல்வதுண்டு. தகவல் விஞ்ஞானியும் தன்னுடைய ஆராய்ச்சி முடிவுகளை அழகாக வர்ணித்தல் அவசியம். இன்றைய கணினி மென்பொருள் உலகில் காட்சியளிப்புக்கு எந்தக் குறைவும் இல்லை. ஆனால், காட்சியளிப்பு மிகவும் கவனமாக உருவாக்க வேண்டும். மிக சீரியஸான முடிவுகளை எடுக்க உதவும் இவ்வகைக் காட்சியளிப்புகளில் துல்லியம் அவசியம். அத்துடன், தரவு எதை முன்வைக்கிறது, இதனால், வியாபாரம்/ஆராய்ச்சிக்கு இடர்வுகள் என்ன என்று எல்லாவற்றையும் முன் வைப்பது தகவல் விஞ்ஞானியின் கடமை. முக்கியமாக, வியாபாரம்/ஆராய்ச்சிக்கு முன் உள்ள முடிவுத் தேர்வுகள் என்னென்ன, அவற்றின் நன்மை/தீமைகள் என்னென்ன, லாப/நஷ்டங்கள் என்னென்ன என்று புரியும்படி விளக்குவதும் தகவல் விஞ்ஞானியின் திறன்.

விற்பனை/ஆராய்ச்சி பற்றிய புரிதல்

தரவு உருவாக்கம் என்பது வியாபாரம் அல்லது ஆராய்ச்சி பற்றிய ஆழமான புரிதலைச் சார்ந்தது. ஒரு வியாபாரத்தைப் புரிந்து கொள்ளுவது ஒரு வகைத் திறமை. ஆனால், ஒரு வியாபாரத்தின் தரவைப் புரிந்து கொள்ளுதல் என்பதுமுற்றிலும் வேறுபட்டது. இதற்கு, வியாபாரத்தின் ஏராளமான அன்றாட கணினிப் பயன்பாடு மற்றும் செயல்முறை பற்றிய ஆழமான அறிவு அவசியம். இந்த இரண்டும் ஒரு தகவல் விஞ்ஞானியின் ஆணிவேர். வியாபாரத்தை மட்டும் புரிந்து கொண்டவர் ஒரு வியாபார ஆய்வாளர் (business analyst) ஆகிவிடுவார். தரவை மட்டுமே புரிந்து கொள்பவர் ஒரு தரவு ஆய்வாளர் (data analyst) ஆகிவிடுவார். தகவல் விஞ்ஞானியோ, வியாபாரம், தரவு, செயல் முறைகள் மற்றும் வியாபாரத்தின் தொலைநோக்குத் தேவைகள் அனைத்தையும் புரிந்த ஒருவராக இருக்க வேண்டும். தரவு சொல்லும் கதையைப் புரிந்து கொண்டால் மட்டும் போதாது. அதை, மேலாண்மையினர் புரிந்து கொள்ளும் வகையில் அழகாக விவரிக்கவும் தெரிய வேண்டும்; அதை தரவு கூறும் சாட்சியங்களுடன் முடிவுக்காக, காட்சியளிப்பாக, முன் வைக்கவும் வேண்டும். முக்கியமாக, மேலாண்மையினர், இந்தப் புரிதலினால், லாபமடைந்தால், மேலும் அவர்களது எதிர்பார்ப்புகள் கூடிவிடும். தரவு சொல்லும் கதையை வெளியே மற்றஆலோசகர்களிடமிருந்து பெறமுடியாது; காசு கொடுத்து வாங்கவும் முடியாது.

நம்முடைய சில்லறை வியாபாரப் பிரச்னையில், அதிகமாக வாங்கப்படும் தென்னிந்தியப் பொருட்கள் எது என்பதை மட்டும் தெரிவதில் அதிகப் பயனில்லை. எந்தெந்த மையங்களில், இந்தப் பொருட்கள் அடுக்கப்படும் பகுதிகள் சேர்க்கப்பட வேண்டும், எந்த உற்பத்தியாளரிடமிருந்து இன்னும் நல்ல (அல்லது குறைந்த) விலைக்குப் பொருட்களை வாங்குவது, எப்படி லாபத்தைக் கூட்டுவது என்று கதை முழுமையடைய வேண்டும். இப்படிச் சொல்லப்படும் டேட்டாக் கதைகள் மேலும் தரவு விஞ்ஞானத்தின் தாக்கத்தைக் கூட்டும்.

அடுத்த பகுதியில், இந்தத் துறையில் முன்னேறுவதைப் பற்றி ஆராய்வோம்.

சொல்வனம் – அக்டோபர் 2016