DATA SCIENCE / AI : ඩේටා සයන්ස් ගැන දැන ගන්න


කෘත්‍රිම බුද්ධි විප්ලවය | AI Revolution

Data Science, Big Data, Artificial Intelligence (AI) අද නිතරම කතාකරන මාතෘකා. කෝටිපති ව්‍යාපාරික ධම්මික පෙරේරා මහතා පවා මේ මාතෘකා ගැන සිය අදහස් පලකරලා තියෙනවා. වේගයෙන් දියුණුවෙන පරිගණක තාක්ෂණය මානවයා සතු සුවිශේෂී හැකියාවක් වෙන නිර්මාණශීලිත්වය හා විශ්ලේෂණ හැකියාව පරිගණක මෘදුකාංගයක් තුල ඇති ඇල්ගොරිතම් සමීකරණ වලට ගොණුකරන්නට සමත්වෙලා. මාස ගණනක් නැතිනම් වසර ගණනක් ගතවන කටයුතු පැය කිහිපයකින් කරදෙන්නට තරම් තාක්ෂණය දැන් දියුණුයි.

පරිගණක මෘදුකාංග, විශේෂයෙන්ම විශේෂ හැකියාවන් ඇති කෘත්‍රිම බුද්ධි මෘදුකාංග විසින් සිදුකරන ක්‍රියාවලි ස්වයංක්‍රීය කරණය (process automation) නිසා අදවන විට මානව සේවකයාට විශේෂ අත්වැලක් සැපයිය හැකි ඩිජිටල් සේවකයෙකු බිහිවෙලා. මෑතකදී මානව සම්පත් කළමණාකරන ක්ෂේස්ත්‍රයෙන් වාර්තාවෙන අන්දමට ඇමසන් වැනි සමාගම් ඔවුන් වෙත එවන රැකියා අයදුම් කරුවන්ගේ අයදුම්පත් මූලික නීරික්ෂණ සඳහා කෘත්‍රිම බුද්ධි මෘදුකාංවලට බාරදීලා. ලැබෙන දහස් ගණන් අයදුම්ත් ස්වයංක්‍රීයව කියවා, විවිධ ඇබෑර්තු සඳහා සුදුසුයයි තීරණය කෙරෙන අයදුම් කරුවන් ලයිස්තුකරණය දැන් කරන්නේ මේ මෘදුකාංග. මානව සම්පත් නිළධාරීන්, සම්මුඛ පරීක්ෂණ සඳහා කැඳවීම් කරන්නට පාවිච්චි කරන්නේ කෘත්‍රිම බුද්ධි සහයකයින් තෝරාදෙන අයදුම් කරුවන් ලයිස්තුව පමණයි.

The World Economic Forum සිය අනාගත රැකියා හා කුසළතා පිලිබඳ වාර්තාවේ (Future of Jobs and Skills) සඳහන් කරන අන්දමට අද දිනයේ පෙර පාසැල් වලට ඇතුලුවන දරුවන් ගෙන් 65%ක්ම අනාගතයේදි අද දිනයේ අසන්නටවත් නැති රැකියාවන් වල නිරතවෙනු ඇති. බොහෝ විශේෂඥයින්ගේ නිගමනය වන්නේ කෘත්‍රිම බුද්ධි මෘදුකාංග හා බිග් ඩේටා හා ඩේටා සයන්ස් වැනි තාක්ෂණයන් රැකියා අහිමිකරනවා වෙනුවට, රැකියා වෙනස් කිරීමක් සිදුකරනවා.

සරල උදාහරණයක් ගන්නවා නම් 20වැනි ශතවර්ශයේ මුල් කාලයේ මෝටර් රථය ජනප්‍රිය වෙන්නට පටන් ගත් කල දහස් ගණන් අශ්වකරත්ත නිෂ්පාදකයින්, ඒ සඳහා උපාංග නිෂ්පාදකයින්, අශ්වයන් සඳහා ආහාර හා සේවා සපයන්නන්ට රැකියා අහිමි වුනත් මෝටර් රථ කර්මාණ්තය අලුත් කුසලතා අවශ්‍ය සෘජු හා වක්‍ර රැකියා ලක්ෂ ගණනක් බිහිකලා. පරිගණක, රොබෝ හා කෘත්‍රිම බුද්ධි තාක්ෂණයත් ඒ ආකාරයටම අලුත්ම කුසලතා රැසක්, තාක්ෂණික ඥාණයෙන් සන්නද්ධ තරුණ පරපුරකට ලක්ෂ ගණන් රැකියා බිහිකරනු ඇති.

දත්ත සුනාමිය | Tsunami of Data

අද ලෝකයේ දිනකට අලුතින් බිහිවන දත්ත ප්‍රමාණය ගිගාබයිට බිලියන 2.5ක් පමණ බවට ඇස්තමේන්තු කර තිබෙනවා. මේ අතර සමාගම් හා රජයන් සිය ගණුදෙනු කටයුතු වලදී නිර්මාණය වන දත්ත, අධ්‍යාපන හා පර්යේෂණ ක්ශේෂ්ත්‍රවල නිර්මාණය වන දත්ත මෙන්ම සමාජ ජාලවලට දිනපතා එකතුවන බිලියන ගණනක් ඡායාරූප හා විඩියෝද ඇතුලත්.

මේ මහා දත්ත සුනාමිය තුල අතිවිශාල තොරතුරු ප්‍රමාණයක් සැඟවී තිබෙනවා. පාරිභෝගික අවශ්‍යතා, ඔවුන්ගේ රුචි අරුචිකම්, මිලදි ගැනීමේ හා හැසිරීමේ රටා, දේශපාලන නැඹුරුව, මිළදී ගැනීමේ හැකියාව, අධ්‍යාපනය, ජීවන රටාව ආදී ව්‍යාපාරික වශයෙන් වැදගත් රන් ආකරයක් මෙන් වටිනා තොරතුරු මේ ගිගාබයිට බිලියන ගණනතුල සැඟවී තිබෙනවා.

නුදුරු අනාගතයේ ව්‍යාපාරික හා තාක්ෂණික ලෝකය ජයගන්නා සමාගම් මෙන්ම රටවල් මේ මහා දත්ත සම්භාරය ගරා-කළතා-පෙරා (data mining) ඉන් ලැබෙන අන්තර්ඥානය හෙවත් සූක්ෂ්ම දෘෂ්ඨිය (insights) ප්‍රයෝජනයට ගන්නා සමාගම් හා රටවල් බවට අනාවැකි පලවන්නේ මේ නිසායි. දත්ත තුල සැඟවී ඇති ඉන්සයිට්ස් හෙවත් සූක්ෂ්ම දෘෂ්ඨි හඳුනාගත හැකි වීම ව්‍යාපාරයකට ඇති වඩාත්ම වැදගත් හැකියාව හෙවත් මූලික හැකියාව (core competency of a business) බවට වේගයෙන් පත්වෙමින් තිබෙනවා

දත්ත හා දත්ත විද්‍යාව | Data & Data Science

සුප්‍රකට IBM සමාගමේ වාර්තාවකට අනුව සෑම වසර දෙකකට වරක්ම ලෝකයේ බිහිවන දත්ත ප්‍රමාණය ඊට පෙර බිහිව ඇති සියලුම දත්ත ප්‍රමාණයට වඩා විශාල වෙනවා.

මෙම දත්ත;

1] ව්‍යුහගත දත්ත - Structured Data : ව්‍යාපාරික කටයුතු, පර්යේෂණ, අත්හදා බැලීම්, ගණුදෙනු ආදියේදී නිර්මාණය වන දත්ත

2] අවිධිමත් දත්ත - Unstructured Data : පාරිභෝගිකයින්, අන්තර් ජාල පරිශීලකයින්, සමාජ ජාල භාවිතා කරන්නන් නිර්මාණය කරන දත්ත

ලෙස වර්ග කල හැකි වනවා.

Data Mining තාක්ෂණය සරලව විස්තර කරනවා නම්; අති විශාල දත්ත සමූහයක් විශ්ලේෂණය කොට ව්‍යාපාරික වශයෙන් හෝ වෙනත් උපක්‍රමීය වශයෙන් වැදගත් වන තොරතුරු උකහා ගැනීමේ තාක්ෂණයක් ලෙස දැක්විය හැකියි. 1996දී ඇමරිකානු දත්ත විද්‍යාඥයෙකු වන උසාමා ෆයාඩ් සම්පාදනය කල "Data Mining to Knowledge Discovery in Databases" නම් පත්‍රිකාව ඩේටා මයිනින් කල්පිතය මුලින්ම විස්තර කලා.

Big Data නම් සංකල්පය හා ඊට අදාල තාක්ෂණයන් නිර්මාණය වෙන්නේ ගිගාබයිට බිලියන ගණනින් බිහිවන ව්‍යුහගත හා අවිධිමත් දත්ත විශ්ලේෂණය සඳහා යි. බිග් ඩේටා හා ඩේටා සයන්ස් තාක්ෂණයන් සඳහා මූලික අඩිතාලම දැමෙන්නේ සන්ජේ ගෙමවාත් හා ජෙෆ් රි ඩීන් නැමැති පර්යේෂකයින් දෙදෙනා ගූගල් සමාගමට ඉදිරිපත් කල "Mapreduce: Simplified Data Processing on Large Clusters (2004)" නම් තාක්ෂණ පත්‍රිකාවක් හරහායි.

ගූගල් සමාගමට සිය ගූගල් සෙවුම් යන්ත්‍රයේ ක්‍රියාකාර කම් තුලින් රැස් කරගන්නා ගිගාබයිට් බීලියන ගණනක දත්ත කළමණාකරණය හා විශ්ලේෂණය සඳහා යොදාගත හැකි තාක්ෂණික උපායමාර්ග විස්තර කරමින් ඉදිරිපත්කල මෙම පත්‍රිකාවේ ප්‍රතිපලය වන්නේ ප්‍රථම වතාවට අති විශාල දත්ත ප්‍රමාණයන් වේගයෙන් කළමණාකරණ කරගත හැකි Mapreduce නම් මෘදුකාංග ආකෘතිය (programming model) බිහිවීමයි.

මෙම මෘදුකාංග නිර්මාණ ආකෘතිය තවදුරටත් වැඩිදියුණු කොට Open Source හෙවත් නිදහස් මෘදුකාංග බළපත්‍රය යටතේ නම් Hadoop මෘදුකාංගයක් බිහිවෙනවා. හැඩූප් නොමිලයේ භාවිතා කල හැකි ලොව පලමු Data Mining මෘදුකාංගය ලෙස පිලිගත හැකියි.

ඩේටා මයිනින් තාක්ෂණික කල්පිතය, පරිගණක විද්‍යාව හා මුහුකොට ඩේටා සයන්ස් නම් අලුත්ම පරිගණක තාක්ෂණය බිහිකිරීමට අඩිතාලම දැම්මේ විලියම් ක්ලිවිලන්ඩ් නම් ඇමරිකානු පරිගණක විද්‍යාඥයයි. අද වන විට ඩේටා මයිනින් කල්පිතයට වඩා ඩේටා මයිනින් සංකල්ප ඇතුලත් ඩේටා සයන්ස් නම් තාක්ෂණික යෙදුම ජනප්‍රිය වහරට එක් වෙලා තියෙනවා.


දත්ත සැකසුම් විද්‍යා ලෝකයේ ඉතාමත් ගෞරවයට පාත්‍රවූ පර්යේෂණ පත්‍රිකා සඟරාවක් වෙන "The Journal of Data Science" සඟරාව ඩේටා සයන්ස් හෙවත් දත්ත විද්‍යාව මෙසේ අර්ථදක්වනවා.

"දත්ත විද්‍යාව යනු පරිගණක විද්‍යාව, සංඛ්‍යාණය හා උසස් ගණිතය හා දත්ත සැකසුම් තාක්ෂණයක් එකට මුහුවූ තාක්ෂණයකි"  පර්යේෂණ, ව්‍යාපාරික හා රාජ්‍ය පරිපාලන කටයුතු සඳහා වැදගත් තොරතුරු හා රටා අති විශාල දත්ත සම්භාරයක් විශ්ලේෂණය කිරීමෙන් උකහා ගැනීම ඩේටා සයන්ස් තාක්ෂණයේ මූලික අරමුණ ලෙස ගැනෙනවා.

උදාහරණයක් ලෙස ට්‍රැෆික් කැමරා හා වෙනත් දත්ත උකහා ගැනීමේ උපක්‍රම හරහා දිනකට නගරයකට ඇතුලුවන ලක්ෂ සංඛ්‍යාත වාහන, ඒවා ගමන් ගන්නා මාර්ග, වේලාවන් හා ඒවායේ ගමනාන්තයන් පිලිබඳ රැස්කරගන්නා දත්ත, ඩෙටා සයන්ස් තාක්ෂණයන් හරහා විශ්ලේෂණය කොට එම නගරයේ රථවාහන තදබදය අවම කොට වාහන ගමනා ගමනය කළමණාකරණය කර ගැනීමට අවශ්‍ය රටා හඳුනාගැනීම ඩේටා සයන්ස් වල ප්‍රායෝගික යෙදුමක් ලෙස ගත හැකියි.

Credit : Mr. Sugath Fernando, DailyFT

Comments