Tag Archives: Data Engineering

Data Engineer কারা ? তাদের কাজ আসলে কি ?

অনেকের মনে প্রশ্ন থাকে Data Engineering আসলে কি ? Data Engineer দের কাজ আসলে কি ? কি কি স্কিল থাকতে হয় ?

Data Engineering হলো Data Analysis করার আগের ধাপ। Data Engineer দের প্রধান কাজ হলো বিম্ভিন্ন জায়গা থেকে Data কালেক্ট করা, সেগুলো ক্লিন করা এবং Data Storage এর মধ্যে রাখা ।

ধরা যাক ABC কোম্পানির সার্ভিস হলো IOT ডিভাইস দিয়ে গাড়ি ট্রাক করা । কোনো ইউজার যদি যাদের সার্ভিস নেয় তাহলে তারা একটি ডিভাইস তাদের গাড়িতে লাগাবে এবং ইউজার একটি মোবাইল এপ এর সাহায্যে গাড়ির অবস্থান কোথায়, ফুয়েল কতো খরচ হলো , কত কিলোমিটার গাড়ি চলেছে ইত্যাদি তথ্য দেখতে পারবে । সম্পূর্ণ সিস্টেমটি চলতে একটি IOT ডিভাইস লাগবে যেখান থেকে প্রতি ৫ মিনিট পর পর গাড়ির তথ্য সার্ভার এ পাঠাতে হবে। ধরে নিলাম IOT ডিভাইস ইন্টারনেট এর মাধ্যেমে কানেক্টেড। এই তথ্য গুলি এক বা একাধিক ডাটাবেজ এ জমা হয় । এছাড়াও IOT ডিভাইস এবং ইউজারদের মোবাইল এপ এর ইভেন্ট লগ আরেকটি ডাটাবেজ এ রাখা হয় বিভিন্ন Analytics বের করার জন্য।

ABC কোম্পানির একটা মার্কেটিং টিম আছে, যাদের কাজ হলো তারা গাড়ীর মালিকদের কাছে যাবে এবং প্রডাক্ট সম্পর্কে জানাবে, যদি সব কিছু ঠিক থাকে এবং ইউজারদের পছন্দ হয় তাহলে তারা বাৎসরিক একটা সাবস্ক্রিপশন কিনবে। মার্কেটিং এবং সেলস টিম তাদের তথ্য Third Party কোনো সফটওয়ার ব্যাবহার করে। আবার কাস্টোমারদের পেমেন্ট এর তথ্য প্রডাক্ট এর ডাটাবেজ এই রাখা হয়।

উপরের ইউজ কেস এ আমরা দেখতে পাচ্ছি বিভিন্ন জায়গা থেকে রিয়াল টাইম এবং সেলস এর তথ্য বিভিন্ন ডাটাবেজ সার্ভার এ জমা হচ্ছে। Data Engineer দের কাজ হলো এই সব ডেটা সোর্স থেকে ডেটা একটা নির্দিষ্ট ডাটাবেজ স্টোরেজ এ নিয়ে আসা এবং পরবর্তীতে analysis এ ব্যাবহার করা ।

সুতরাং Data Engineer দের প্রধান কাজ হলো –
১। Data Analytics এর জন্য আর্কিটেকচার ডেভেলপ এবং মেইন্টেইন করা ( কি ধরনের ডেটাবেজ ব্যাবহার করা হবে, ডেটা প্রসেসিং কীভাবে হবে ) ।
২। Data Pipeline ডিজাইন করা। Data Pipeline বলতে এক বা একাধিক সোর্স থেকে ডেটা কি লজিক এ আসবে, কিভাবে সেগুলো ক্লিন করা হবে এবং কিভাবে স্টোর হবে সেটা ডিজাইন করা।
৩। প্রসেস Data অন্য টিমকে দেবার জন্য API ডিজাইন করা।
৪। ১০০% নিশ্চিত করা সব Data Pipeline প্রতিদিন/ দিনে কয়েকবার স্বয়ংক্রিয় ভাবে চলেছে কিনা।
৫। ১০০% ভাগ নিশয়তা দেয়া প্রসেস Data সঠিক কারন এই Data থেকেই পরবর্তী বিজনেস ডিসিশন নেয়া হয়ে থাকে।

Data engineer হতে গেলে এই স্কিলসেট গুলি দরকার –
১। Distributed system এর আর্কিটেকচার সম্পর্কে ভালো ধারনা থাকতে হবে এবং Distributed system ডিজাইন করতে হবে।
২। রিলায়েবল Data পাইপলাইন ডিজাইন করতে হবে।
৩। বিভিন্ন Data সোর্স থেকে Data কালেক্ট করতে হবে ( Data ফরমেট xml , json , text , csv হতে পারে )
৪। বিভিন্ন Data storage সম্পর্কে ভালো ধারনা থাকতে হবে এবং উইজ কেস অনুযায়ী Data storage ডিজাইন করতে হবে।

সুতরাং কেউ যদি large-scale system ডিজাইন করতে আগ্রহী হন অথবা বিশাল পরিমান data নিয়ে কাজ করতে আগ্রহী হন তাহলে Data Engineering আপনার জন্য ভালো পেশা হতে পারে।

Advertisements