தகவல் விஞ்ஞானம் – ஒரு அறிமுகம்

டேடா விஞ்ஞானிகள் இல்லையேல் மனித முன்னேற்றமே நின்றுவிடும்!”

“எங்கு தேடினாலும், எத்தனைச் சம்பளம் கொடுத்தாலும் கிடைக்காத டேடா விஞ்ஞானிகள்”

  • இப்படி, இரண்டு ஆண்டுகளுக்கு முன்பு, ஏகத்துக்கு ஊதி வாசிக்கப்பட்ட டேடா விஞ்ஞானிகள் எங்கே?
  • இன்று, இந்தத் தேவை என்னவாயிற்று?
  • டேடா விஞ்ஞானம் என்றால் என்ன?
  • கணினி விஞ்ஞானம் படிப்போர் இத்துறையில் இறங்கலாமா?
  • அப்படி இறங்க முடிவு செய்தால், எப்படித் தேறுவது?

ஊதி வாசிப்புத் தொழில்நுட்பங்கள்

 

data_science_1முதலிலேயே சொல்லி விடுகிறேன். ஊதி வாசிப்பு எதுவும் இக்கட்டுரைகளில் இடம் பெறாது.  இதுபோன்ற கேள்விகளுக்கு பதில் சொல்வதற்கு முன், தரவு விஞ்ஞானத்தின் பின்னணியைச் சற்று சுருக்கமாகப் பார்ப்போம்.

கடந்த ஐந்து ஆண்டுகளாக, கணினி மென்பொருள் துறையில், பயங்கர பில்டப் கொடுக்கப்பட்ட ஒரு விஷயம், ஏராளமான தரவை (தரவுகள்) கையாளும் முறைகள். திடீரென்று தரவுகள்/தகவல்கள் எப்படி ஏராளமானது? மனித நடவடிக்கைகள் தொடங்கிய நாள் முதல் தரவு, மற்றும் அதைக் கையாளும் முறைகள் இருந்து வந்துள்ளது.  ஒரு கல்யாணத்தில் ஒரு நோட்டுப் புத்தகத்தில் மொய்ப் பணக் கணக்கு எழுதும் பொழுது தரவுவைப் பதிவு செய்கிறோம்.

  • மொய் எழுதியவரின் பெயர்
  • மொய்ப் பணம் எத்தனை
  • சில சமயங்களில் மொய்ப் பணத்தில் வகைப்பாடு (denomination) – அதாவது, ஐநூறு, நூறு, ஐம்பது, பத்து ரூபாய் நோட்டுக்கள் எத்தனை
  • அன்பளிப்பு அட்டைகள் – இவற்றை நாம் பணத்தோடு கலக்காமல், தனியாக எழுதி விடுவோம்

இவை எல்லாம் தரவுகள். மொய் தேதியை மாறினால் மட்டுமே எழுதுவோம். கல்யாண வீட்டில் தெரிய வேண்டிய தகவல், இன்ன நாளில் இத்தனை பணமும், இத்தனை பணத்திற்கு அன்பளிப்பு அட்டைகளும் மணமக்களுக்கு வந்தன என்ற இறுதிக் கணக்கு.

அதே கல்யாண வீட்டில், அன்பளிப்புப் பொருட்களின் கணக்கு சற்று மாறுபடும்.

  • அன்பளிப்பு கொடுத்தவரின் பெயர்
  • பொருளின் பெயர்

இந்தத் தரவிலிருந்து தெரிய வேண்டிய முக்கிய தகவல், பொருள் வாரியாக எத்தனை மணமக்களுக்கு அன்பளிப்பாக வந்து சேர்ந்தது என்பது. உதாரணத்திற்கு, 7 குக்கர், 17 தட்டுக்கள் போன்ற விவரங்கள்.

வீட்டிற்கு மளிகைப் பொருட்களின் பட்டியலும் தரவைக் கொண்டே உருவாகிறது.  மளிகைப் பொருட்களின் பட்டியல் ஒரு வினோதமான பட்டியல் – இதில் மனிதர்களுக்கே உரிய, பல உள்ளர்த்தங்கள் உண்டு.

  • கத்திரிக்காய் ¾
  • தீக்குச்சி 3
  • நல்லெண்ணை 250
  • அரிசி 10

இது தரவு என்றாலும், துல்லியமற்ற தரவு. வாராவாரம் மளிகை வாங்கி வரும் கணவருக்கு இந்தப் பட்டியல் போதும் – ஆனால் ஒரு எந்திரத்திற்குப் போதாது. கத்திரிக்காய் மற்றும் அரிசி கிலோ கணக்கு (இந்தியாவில்), தீக்குச்சி பெட்டிக் கணக்கில், நல்லெண்ணை மில்லி கணக்கில். பட்டியல் எழுதுவது அலுப்பான விஷயம். இதனால், பல உள்ளர்த்தங்களோடு சுருக்கி விடுவது மனித இயல்பு. இதை இங்கே சொல்லக் காரணம் உள்ளது. தரவுகளில், எந்திரத் தரம் இல்லாததற்கு, அதன் அலுப்பூட்டும் தன்மையே முக்கிய காரணம். நாம் அலசப் போகும் தரவு விஞ்ஞானத்திம் மிக முக்கிய சவால் இதுவே.

காகிதத்தில் இருந்த தரவு கடந்த 65 ஆண்டுகளாக டிஜிட்டல் உருவத்தில் கணினிகளுக்கு மாறியது. முக்கியமாக, பல நூறு ஆண்டு காகிதப் பழக்கங்களும் அத்துடன் கூடவே வந்தன.

ஆரம்பத்தில் கணினிகளுக்குள் தரவைக் கொண்டு செல்வது ஒரு ஆமை வேக விஷயமாக இருந்தது – பெரும்பாலும் விசைப்பலகை (keyboard) மூலம் தரவு கைப்பட உருவாக்கப்பட்டது. இதனால், காகிதத் தரவை விட அதிகத் தரவு உருவாக்கப்பட்டாலும், கணினிகளால் சமாளிக்கக் கூடிய அளவிலேயே இருந்தது. இன்றைய மடிக்கணினியின் வன்தட்டு (hard disk), 1990 –ல் ஒரு பெரிய நிறுவனத்தின் தரவு அளவிற்கு கையாளும் திறமை படைத்தது என்றால் பாருங்களேன். உதாரணத்திற்கு, ஒரு பெரிய நிறுவனத்தின் தரவு மையத்தில் 1990 –களில் எத்தனைத் தரவுகள் இருக்க முடியும்?

 

தரவு வகை ஒரு பதிவுக்கான தேவை (record size) வருடாந்திரப் பதிவுகள் (#records) வருடாந்திரத் தேவை (storage needs)
விற்பனை (sales) 2,000 பைட்டுகள் 400,000 800 மெகாபைட்டுகள்
வாங்கல் (purchasing) 1,000 பைட்டுகள் 100,000 100 மெகாபைட்டுகள்
தயாரிப்பு (manufacturing) 2,000 பைட்டுகள் 300,000 600 மெகாபைட்டுகள்
மனித வளம் (human resources) 2,000 பைட்டுகள் 25,000 50 மெகாபைட்டுகள்
துணைப் பதிவுகள் (masters, indices) 4,000 பைட்டுகள் 50,000 200 மெகாபைட்டுகள்
மொத்தத் தேவை 1,750 மெகாபைட்டுகள் அல்லது 1.7 கிகாபைட்டுகள்

 

இன்றைய திறன்பேசியில் 2 ஜிபி மெமரி என்பது சர்வ சாதாரணம்.  எப்படி 1990 –களில் ஒரு பெரிய நிறுவனத்தை நடத்தவே 2 ஜிபி –க்குள் முடிந்தது?

  1. முதலில், வியாபாரக் கணினியில், திரவை விசைப்பலகை மூலமாக மட்டுமே உருவாக்கினார்கள்
  2. விசைப்பலகை மூலம் தேவையான தரவை மட்டுமே உருவாக்கினார்கள். இன்றைய வாட்ஸ் ஆப் போல ஒரு செய்தி பல கோடி முறை முன்னனுப்பப்படவில்லை
  3. தொட்டதற்கெல்லாம், வருடல் அல்லது ஸ்கேன் முறைகள் கிடையாது
  4. பட்டைக் குறியீடு (bar codes) முறைகள் 1990 –களில் பிரபலம் அடையவில்லை
  5. பொருட்கள், அவற்றின் குறியீடு மூலம் மட்டுமே அடையாளம் காணப்பட்டன. இன்று, குறியீடு மற்றும் வண்ணப் படங்கள் மூலம் அடையாளம் காட்டுகிறோம்

விசைப்பலகை மூலம் உருவாக்கப்படும் தரவிற்கு ’ஏழைத் தரவு’ ( textual data என்ற ஆங்கிலச் சொற்களுக்கான அடியேனின் தமிழ் முன்வைப்பு! ஏழைத் தரவிற்கு பயனும் அதிகம், தேக்கத் தேவைகளும் (storage requirements) குறைவு) என்றும் மற்ற வகைத் தரவிற்கு ’பணக்காரத் தரவு’ (படங்கள், பாட்டுக்கள், விடியோக்கள், வரைபடங்கள் – இவை பணக்காரத் தரவுகள் – rich data, பயனிருந்தாலும், ஏராளமான தேக்கத் தேவை இவற்றிற்கு உண்டு) என்றும் அழைப்பது கணினித் தொழிலில் வழக்கம் ☺

கணினிகளால் சமாளிக்கப்படும் தரவு, 15 ஆண்டுகளுக்கு முன், ஒரு விஞ்ஞான, அரசாங்க அல்லது வியாபார அமைப்புகளில் பணிபுரிவோர் மட்டுமே உருவாக்கும் விஷயமாக இருந்தது. கடந்த 15 ஆண்டு காலமாக இந்த நிலைமை வெகு வேகமாக மாறத் தொடங்கியது. நுகர்வோர் இணைய வசதிகளால், இருக்கும் தரவைப்  பயன்படுத்துவதோடு, புதிய தரவையும் உருவாக்கத் தொடங்கினார்கள்.

  1. முதலில், Mouse  மூலம், தரவுத் தேர்வுகள், பல வியாரப் பயன்பாடுகளிலும் வரத் தொடங்கியன. ஆரம்பத்தில், தவறான தரவுகளை நுகர்வோர் அபத்தமாகக் கணினிக்கு அனுப்புவதைத் தடுக்கவே இம்முறை அறிமுகப்படுத்தப்பட்டது. உதாரணத்திற்கு, ஊர் என்ற இடத்தில் ‘கூடுவாஞ்சேரி’ என்று சொல்லி, மாநிலம் என்ற இடத்தில் ‘பஞ்சாப்’ என்று கணிக்குள் உள் அனுப்புவது விசைப்பலகையில் எளிது. Mouse மூலம், ‘கூடுவாஞ்சேரி’ என்று சொன்னவுடன், அடுத்த மாநிலம் என்னுமிடத்தில், ‘கூடுவாஞ்சேரி’ என்ற ஊர் பெயருள்ள மாநிலங்கள் மட்டுமே நுகர்வோருக்கு முன் வைக்கப்படும். நாளடைவில், எல்லா படிவங்களிலும் இப்படிப்பட்ட வசதிகள் தேவையாக மாறி, பல புதிய தரவுகள் தேக்கப்பட்டன
  2. விசைப்பலகை மற்றும் Mouse ஐத் தாண்டித், திரைத்தடவல் முறைகள் வந்த பிறகு, இந்தத் தரவுத் தேக்க வேகம் அதிகரிக்கத் தொடங்கியது
  3. வருடிகளின் விலை குறைந்தவுடன், பல வியாபாரங்கள் முக்கிய ஆவணங்களை, தங்களுடைய பதிவுகளுடன் தேக்கத் தொடங்கின. இவற்றின் தேக்கத் தேவை கைப்பட உருவாக்கிய தரவைக் கட்டிலும் பல மடங்கு அதிகம்
  4. மின்னஞ்சல் என்பது ஒரு வியாபார ஆயுதமாக மாறத் தொடங்கியது. பதிவுகள் மின்னஞ்சலுடன் ஒரு சுட்டியாக அனுப்பும் திறன் உருவாக்கப்பட்டது. மின்னஞ்சல் வழங்கிகளின் தேக்கத் தேவைகளும் அதிகரிக்கத் தொடங்கின. இவற்றால் உருவாக்கப்பட்ட தரவுகளும் ஏராளமாயின

சமூக வலையமைப்பு மென்பொருள் தளங்கள் பொதுவாக மிகவும் பிரபலமடைந்ததன் விளைவு, இந்த தரவு அதிகரிப்பு என்பது ஒரு வாதம். சமூக வலையமைப்புத் தளங்களை வியாபாரத்தில் இல்லாதவர்களும் பயன்படுத்துகிறார்கள். இவற்றில், பல கருவிகளிலிருந்து ( கணினி, வில்லைக் கணினி, திறன்பேசிகள், இணையக் கருவிகள்) என்று பல முறைகளிலும், சாதாரண சொற்கள், சத்தங்கள், பாடல்கள், படங்கள், விடியோக்கள் என்று பல பணக்காரத் தரவுகளை மட்டும் உருவாக்குவதில்லை. அவற்றை முன்நோக்கியும் அனுப்புகிறோம்.

பொதுவாக, எல்லாத் துறைகளும் கணினிகளைப் பயன்படுத்தத் தொடங்கிவிட்டதால், இவ்வகைத் தரவு அதிகரிப்பு என்பது இன்னொரு வாதம். உதாரணத்திற்கு, நொடிக்கு 40,000 தேடல் ஆணைகளை இன்று கூகிள் கையாளுகிறது. பொதுமக்கள் அதிகம் கவலைப்படாத விஞ்ஞான ஆராய்ச்சி உலகம், இன்று ஏராளமான தரவுவைக் கையாள்வதை முக்கியமான ஒரு தேவையாக மையப்படுத்தி முன்னேறி வருகிறது. என்றும் இல்லாத அளவிற்கு, திறன்பேசிகள், விஞ்ஞானக் கருவிகள், வருடிகள், வியாபாரங்கள், உடல்நல அமைப்புகள், ஊடகங்கள் என்று பலவகை அருவிகள் தரவைக் குவித்த வண்ணம் உள்ளன. மனித சமூகம் தோன்றியது முதல் 1990 –வரை உருவாக்கிய தரவைக் காட்டிலும், இரு மடங்கு 1990-களில் மட்டுமே மனித நடவடிக்கைகள் உருவாக்கியன. அதாவது பத்தாண்டுகளில், இரு மடங்கான தரவு, இன்று 5 ஆண்டுகளில் இரு மடங்கு என்று மாறி, கூடிய விரைவில் இரண்டு ஆண்டுகளில் இரு மடங்காகும் வாய்ப்புள்ளது.

வழக்கமான, கணினித் துறைப் பாட்டுத்தானே இது, இதிலென்ன புதுசு என்று தோன்றலாம். திடீரென்று உருவாகிய தரவு சுனாமியை எப்படிச் சமாளிப்பது என்பதுதான் கேள்வி. இந்தப் பிரச்னையைக் கையாள்வதில் நிபுணர்கள் ’டேடா விஞ்ஞானிகள்’. உடனே பத்து நாள் தாடியுடன், சோதனைக் குழாயில் நீல நிற திரவத்துடன் இவர்கள் நடமாடுபவர்கள் என்று மட்டும் நினைக்க வேண்டாம். நம்மைப் போல, வழக்கமாக தினமும் சவரம் செய்து கொண்டு, ஜீன்ஸ் அணிந்த ஆசாமிகள் இவர்கள். சுருக்கமாகச் சொல்லப் போனால், இவர்களின் பங்களிப்பு , ’மலையைக் (மலைத்தொடரை என்பதே சரி) கெல்லி எலியைப் பிடிப்பது’. அதாவது, ஏராளமான தரவிலிருந்து, ஒரு வியாபாரத்திற்கோ, அல்லது விஞ்ஞான ஆராய்ச்சிக்கோ பயனுள்ள விஷயத்தைக் கண்டெடுப்பது.

அவ்வளவு எளிதான விஷயமல்ல இது. பல கோடானு கோடி தரவிலிருந்து பயனுள்ள முடிவுகளை எடுக்க உதவுவது ஒரு மாபெரும் முயற்சி. ஓரளவு குறைந்த தரவுடன் பல்லாண்டுகளாக இத்தகைய முயற்சிகளை, கணினி மென்பொருள் பொறியாளர்கள் செய்து வந்திருந்தாலும், மிக அதிகமான தரவு என்றவுடன் பழைய முறைகள் பயனற்றுப் போய் விடுகின்றன. கேட்ட கேள்விக்கு பதில் வருவதற்குள் நமக்கெல்லாம் வயசாகிவிடும்!  அத்துடன், இவ்வகை முயற்சிகள் தனி மனித முயற்சிகள் அல்ல. டேடா விஞ்ஞானிகள் ஒரு மிகப் பெரிய அமைப்பின் ஒரு முக்கிய பங்காளிகள். இவர்கள் பயனுள்ள ஆய்வுகளைச் செய்ய பலருடைய ஒத்துழைப்பு தேவை.

தரவு விஞ்ஞானத் துறை தரவை உணவு போல பார்க்கிறது. உதாரணத்திற்கு, நமக்கு பெரும்பாலும் சூடான உணவே பிடிக்கிறது. சில சமயம் சூடற்ற சாண்ட்விச் நமக்கு ஓகே. அவ்வப்பொழுது ஐஸ்க்ரீம் ஓகே. இன்றைய தரவு உலகம்  இப்படித்தான் தரவு ஆய்வுத் தேவைகளை அணுகுகிறது. உணவு மற்றும் தரவுத் தேவைகளுக்கும் உள்ள வித்தியாசம் என்னவென்றால், சூடான உணவை நாம் அதிகம் நாடுகிறோம். சூடான தரவை தரவு உலகம் இதுவரை ஒதுக்கி வந்துள்ளது!

உருவாகியவுடன் அந்த தரவில் என்ன பயனுள்ளது? அதிலிருந்து ஒரு நிறுவனமோ, ஆராய்ச்சியோ, அரசாங்கமோ என்ன பயன் பெறலாம் என்ற நோக்கத்துடன் செய்யப்படும் தரவு ஆய்விற்கு, சூடான தரவு சயின்ஸ் என்கிறார்கள். தரவு உருவாகி ஒரு வாரத்தில்/மாதத்தில் அந்த தரவுவில் என்ன பயனுள்ளது? அதிலிருந்து ஒரு நிறுவனமோ, ஆராய்ச்சியோ, அரசாங்கமோ என்ன பயன் பெறலாம் என்ற நோக்கத்துடன் செய்யப்படும் தரவு ஆய்விற்கு, இதமான தரவு சயின்ஸ் என்கிறார்கள். உருவாகி ஒரு/பல வருடம் கழித்து அந்த தரவில் என்ன பயனுள்ளது? அதிலிருந்து ஒரு நிறுவனமோ, ஆராய்ச்சியோ, அரசாங்கமோ என்ன பயன் பெறலாம் என்ற நோக்கத்துடன் செய்யப்படும் தரவு ஆய்விற்கு, குளிரான தரவு சயின்ஸ் என்கிறார்கள்.

 

data_science_3சற்று கூர்ந்து கவனித்தால், உலகெங்கும் ஏராளமான தரவு உருவாகினாலும், சூடான தரவு என்பது ஒரு தரவு மூலத்திலிருந்து அளவான தரவாக இருக்கும். ஒரு ரசீது தருவதற்கும், ஆர்டரை பூர்த்தி செய்வதற்கும், ஒரு ஆய்வில் சில நோக்கப்பதிவுடன் இந்த தரவு ஒதுக்கப் படுகிறது. இதில் விதிவிலக்கு, ராட்சச விஞ்ஞான சோதனைகள் – இவ்வகை சோதனைகள் (LHC போன்ற சோதனைகள் நொடிக்கு பல கோடி தரவுகளை உருவாக்குகின்றன), நொடியில் தரவு சுனாமி என்பது சர்வ சாதாரணம்.

சேமிக்கப்பட்ட தரவு வார/மாதம் ஒரு முறை அலசப்படுவது சென்ற 50 ஆண்டுகளாக கணினிகளால் நிகழும் ஒரு விஷயம். சில நிறுவனங்களில், ஒரு மாத தரவு என்பது தலை சுற்றும் அளவிற்கு வளர்ந்து விடுகிறது. பெரும்பாலும், விற்பனை, மனித வளம் போன்ற துறைகளில் இவ்வகை தரவிற்கு மதிப்பு அதிகம். இவ்வகை இதமான தரவுவைக் கொண்டு பல்வேறு இயக்க மேலாண்மை முடிவுகள் மேற்கொள்ளப்- படுகின்றன. இவ்வகைத் தரவு வரவு முன்பைவிட அதிகமாகி விட்டாலும்,இன்றைய கணினிகளால் தாக்கு பிடிக்கும் அளவிலேயே இருக்கின்றது. உதாரணத்திற்கு, எந்த ஊர்களில், எந்தப் பகுதிகளில் சென்ற மாதம் ஒரு வகை டீத்தூள் அதிகமாக அல்லது மோசமாக விற்பனையாகிற்று, போன்ற கேள்விகளுக்கு, இதமான தரவு கொண்டு பதில் சொல்லலாம்.

ஒரு/சில வருடத் தரவில் மிக அதிகமான புரிதல்கள் மறைந்து கிடக்கின்றன என்பது தரவு விஞ்ஞானிகளின் நெடுநாளைய நம்பிக்கை. பெரும்பாலும் நிறுவனங்கள், வருடாந்திர விற்பனை, வரவு செலவை கணக்கிட்ட பிறகு, அந்தத் தரவை அதிகம் திரும்பிப் பார்ப்பதில்லை. அடுத்த வருட, குறிக்கோளை எட்டுவதற்கே நேரம் இருப்பதில்லை. ஆனால், இந்தக் குளிர் தரவிலிருந்து ஒரு நிறுவனம், எப்படிச் செயல்பட்டால், முன்னேறலாம் என்பது பற்றிய முக்கிய படிப்பினைகள் மறைந்து கிடக்கின்றன என்கிறார்கள் தரவு விஞ்ஞானிகள். இன்று நாம், டிவியில் அன்றைய நாளின் அதிக வெப்பம் மற்றும் குளிர்நிலை என்னவென்று பார்க்கிறோம். அத்துடன் சராசரி வெப்பம் என்னவென்றும் பார்க்கிறோம். இந்தச் சராசரி வெப்பம் என்பது ஒரு 50 ஆண்டு காலமாக, அந்த மாதத்தில், அந்த நாளில் எத்தனை வெப்பம்  இருந்தது என்பதே. இந்தச் சராசரி என்பது நமக்கு ஒரு அளவுகோலாக அமைகிறது.  அன்றைய வெப்பம் சராசரி வெப்பத்தை விட அதிகமா அல்லது குறைவா என்பது உண்மையான நிலையை எடுத்துரைக்கிறது. இதுபோலவே, வியாபாரம், அரசாங்கம், புள்ளியியல் போன்ற துறைகளில் இப்படிப்பட்ட பழைய குளிர் தரவு விஞ்ஞானம், பல விஷயங்களை எடுத்துரைப்பதோடு, முக்கியப் பாதையயும் எடுத்துக் காட்ட வல்லது. பல நிறுவனங்கள் மொத்த விற்பனை அளவு சரியில்லை என்று பல பொருட்களை சொற்ப நேரத்தில் துறக்கத் தயங்குவதில்லை. உதாரணத்திற்கு, இவ்வகைக் குளிர் தரவு விஞ்ஞானம், சில அதிகம் விற்காத பொருட்கள், சில ஊர்களில் அதிகமாக சில மாதங்களில் வருடா வருடம் விற்பதை எடுத்துக் காட்டி, அந்த பொருட்களைத் தயாரிப்பதை நிறுத்தாமல், சில மாதங்களில் மட்டுமே தயாரிக்கும் ஒரு உத்தியை இந்த நிறுவனத்திற்கு முன் வைக்கலாம். இது போன்ற பல பருவப் பொருட்கள் தயாரிக்கும் நிறுவனங்கள் காப்பாற்றப்படக் கூட வாய்ப்பு உண்டு என்கிறார்கள் டேடா விஞ்ஞானிகள்.

 

data_science_2ஆனால், குளிர் தரவு விஞ்ஞானத்தில் உள்ள ஒரு பெரிய சவால், பல்லாண்டுகளுக்கான தரவு மலை போல இருப்பதுதான். குவிந்து கிடக்கும் இந்த ’மலைத் தொடர்ச்சியை’, பயனுள்ள ஒரு கருவியாக மாற்றுவது ஒரு விண்வெளி ராக்கெட்டை மேலே வெற்றிகரமாக அனுப்புவதற்குச் சமமானது.   இந்த ’மலைத் தொடர்ச்சி’ சொல் பிரயோகத்திற்கு ஒரு காரணம் உண்டு – சில ஆண்டுகளின் தரவு பெரிய மலை, சில ஆண்டுகளின் தரவு சின்ன மலை, சில ஆண்டுகளின் தரவு மரமற்ற மலை, இன்னும் சில ஆண்டுகளின் தரவு வெறும் பாறையான மலை என்று இருப்பதோடு அல்லாமல், நடுவிலே மலையே இல்லாமல் இருப்பதும் தரவு விஞ்ஞானத்தில் சாதாரணம். பழைய  தரவுவிற்கு இதுவரை அத்தனை மதிப்பும் மரியாதையும் இல்லை.  இந்த மலைத் தொடர்ச்சி சமாச்சாரம், இன்றைய தரவு விஞ்ஞானத்தைப் பற்றிய மிகப் பெரிய ஊதிவாசித்தலுக்கு வழிவகுத்துள்ளது. சற்று விவரமாக, எப்படி இந்த மலைத் தொடர்ச்சியை மனிதர்கள் உருவாக்குகிறார்கள் என்று பார்ப்போம். ஒரு சராசரி சில்லரை வியாபாரச் சங்கிலியை உதாரணமாகக் கொள்வோம்.

நேரம் வியாபார மையம் வியாபாரத் தரவு
2010 மே மாதம் மையம் 8 த.நா. 4:15 தமிழ்நாட்டிற்கு சுருக்கம். மாலை 4:15
2010 மே மாதம் மையம் 15 தநா, 17:30 தமிழ்நாட்டிற்கு சுருக்கம். மாலை 5:30
2011 ஜூன் மையம் 8 TN, 4:15 தமிழ்நாட்டிற்கு ஆங்கிலச் சுருக்கம். மாலை 4:15
2011 ஜூன் மையம் 15 TN, 17:30 தமிழ்நாட்டிற்கு ஆங்கிலச் சுருக்கம். மாலை 5:30,
2013 ஜூன் மையம் 8 TN, 16:15 தமிழ்நாட்டிற்கு ஆங்கிலச் சுருக்கம். மாலை 4:15. 24 மணி நேர அளவீடு
2013 ஜூன் மையம் 15 TN, 17:30 தமிழ்நாட்டிற்கு ஆங்கிலச் சுருக்கம். மாலை 5:30. 24 மணி நேர அளவீடு

 

வெறும் இரண்டு தரவுகளில் இரு மையங்களிலிருந்து 3 வருடங்களில் உள்ள தரவு மாற்றங்களை இந்தப் பட்டியலில் நீங்கள் பார்க்கலாம். இது போல, பல லட்சம் தரவுகளில், மனிதர்கள் உருவாக்கும் தரவுகளை ஒன்றாக சேர்த்துப் பார்த்தால், பெரிய மலையளவோடு இந்த பிரச்னை முடியாது, ஒரு மலைத் தொடர்ச்சிபோலவே  தோற்றமளிக்கும். தரவுகள் பயன்பட வேண்டுமென்றால், தரவில் தரம் இருக்க வேண்டும், அத்துடன் ஒரு நியமத்திற்கு உட்பட்டும் இருக்க வேண்டும்.

டேடா விஞ்ஞானிகளை எவ்வகை நிறுவனங்கள் நாடுகின்றன? இவை பெரும்பாலும் ஏராளமான தரவுடன் உழலும், ஆனால், அதிக பயன் பெறாத அமைப்புகள்.

  1. அரசாங்க அமைப்புகள் – டிஜிட்டல் முறையில் ஏராளமான படிவங்களைப் பயனற்று சேர்க்கும் அரசாங்கங்கள் உலகம் முழுவதும் உள்ளன. வீட்டுப் பத்திரம் முதல், ரேஷன் கார்டு வரை, அரசாங்கங்கள் தரவு உளையில் உழலும் வினோதப் பிராணிகள்
  2. வங்கிகள் – ஒவ்வொரு நிதி நடவடிக்கையும் இன்று டிஜிட்டல் முறைகளில் கையாளப்படுகின்றன. ’சொல்வனத்தில்’ எதிர்காலமற்ற பணமா அல்லது பணமற்ற எதிர்காலமா என்று கட்டுரை ஒன்றை 2011 –ல் எழுதினேன். இன்று, பணம் அல்லது செல்வம் என்பது வங்கிகளில் உள்ள பாதுகாப்பான தரவு – அவ்வளவுதான். அதைத் தாண்டி இந்த டிஜிட்டல் சுரங்கத்தை அதிகம் பயன்படுத்தாத வங்கிகள் ஏராளம்
  3. நுகர்வோர் பொருள் நிறுவனங்கள் – கோடிக் கணக்கில் தினமும் வியாபாரம் செய்யும் சோப்பு, ஷாம்பூ, உணவுப் பொருட்கள், மது, காலணிகள், போன்ற விஷயங்களை வியாபாரம் செய்யும் நிறுவனங்கள். இவர்கள் ஏராளமான தரவுடன் பல்லாண்டுகளாகப் போராடும் அமைப்புகள். அடிப்படைச் செயல்பாட்டிற்கே ஏராளமான தரவுகளை நம்பியிருக்கும் நிறுவனங்கள் இவை
  4. திறன்பேசி நிறுவனங்கள் – மாதம் ஒன்றுக்கு 50 லட்சம் புதுத் தொடர்புகளை இந்தியாவில் மட்டுமே உருவாக்கும் திறன்பேசி நிறுவனங்களிடம் , ஏராளமான தொடர்புத் தரவுகள் பயனற்றுக் கிடக்கின்றன
  5. மருந்து நிறுவனங்கள் – மனித ஜீனோம் ப்ராஜெக்ட் 1999 –ல் முடிந்ததிலிருந்து, மருந்துக் நிறுவனங்கள்  மருந்து ஆராய்ச்சியில் மரபணு ஆராய்ச்சியின் ஏராளமான தரவுகளைக் கையாள்வது நிபுணத்துவம் தேவையுள்ள ஒரு துறையாக மாறி விட்டது
  6. காப்பீடு நிறுவனங்கள் – உலக மக்களின் பொருளாதார நிலை உயர உயர, அவர்களது போக்குவரத்து, மருத்துவ, மற்றும் சொத்து காப்பீட்டுத் தேவைகள் ஏராளமாக அதிகரித்து வந்துள்ளன. காப்பீடு நிறுவனங்கள், உலகெங்கும் அதிகம் முன்னேறாமல், அடிப்படைப் படிவங்களை கொண்டு காலம் தள்ளுகின்றன
  7. சில்லறை வியாபாரங்கள் – உலகின் மிகப் பெரிய நிறுவனம் சில்லறை வியாபாரத்தில் ஈடுபட்டுள்ள வால்மார்ட். உலகம் முழுவதும், சில்லறை வியாபாரச் சங்கிலி நிறுவனங்கள் ஒவ்வொரு நாளும் நடக்கும் பல கோடி வியாபார நடவடிக்கைகளைப் பதிவு செய்வதோடு நின்றுவிடுகின்றன
  8. விஞ்ஞான அமைப்புகள் – பல விஞ்ஞான ஆராய்ச்சிகள் ஏராளமான தரவுகளைக் கையாள்வதை முக்கியத் தேவையாக பார்க்கத் தொடங்கிவிட்டன. LHC பற்றி ‘விஞ்ஞான கணினி’ என்ற கட்டுரையில் எழுதியிருந்தேன். புதிய அணு நுண் துகளைக் கண்டு பிடிப்பது ஏராளமான தரவிற்குள் தேடும் முயற்சி என்று மேம்போக்காகச் சொல்லலாம் (இந்த விஞ்ஞான முறைகள் சோப்பு, ஷாம்பூ தரவில் தேடுவதைப் போன்றன அல்ல). வானவியல் ஆராய்ச்சி இன்று ஏராளமான தரவை கையாள்வதை மையப்படுத்தி வருகிறது.

மேலே சொன்ன அமைப்புகள் ஒரு பெரும் பட்டியலின் சின்ன பகுதி. இது போல, பல கோடி அமைப்புகள் உலகெங்கும் தரவை சேகரிக்கும் முயற்சியில் ஈடுபட்டுள்ளன. ஆனால், ஒரு ரசீது வழங்குவதோ, அல்லது ஒரு பில் வழங்குவதோடு நின்று விடுகின்றன. வாடிக்கையாளர்கள், நுகர்வோர், மக்கள் பற்றிய பல முக்கிய தகவல்கள் இந்த தரவுகளில் எங்கோ புதைந்து கிடக்கின்றன. இந்தப் புதையலில், ஒரு வியாபாரத்தின் முன்னேற்றம், அல்லது திட்டத்தின்/ ஆராய்ச்சியின் அடுத்த கட்டத்திற்கு வழி வகுக்கும் சக்தி உள்ளது. புதையலை வெளிக் கொண்டுவர டேடா விஞ்ஞானிகளின் பங்கு முக்கியமானது.

அடுத்த பகுதியில், இவர்களின் வேலையின் முக்கிய அங்கங்களை அலசுவோம். இடையில் இந்தக் காணொளியைச் சிறிது பாருங்கள்.

சொல்வனம் – அக்டோபர் 2016

மறுமொழியொன்றை இடுங்கள்

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / மாற்று )

Twitter picture

You are commenting using your Twitter account. Log Out / மாற்று )

Facebook photo

You are commenting using your Facebook account. Log Out / மாற்று )

Google+ photo

You are commenting using your Google+ account. Log Out / மாற்று )

Connecting to %s