Categories
Dev's Corner

Data Analyst – con đường nhẹ nhàng nhất để bước vào ngành Data và … cũng dễ thất nghiệp

Chỉ cần “lỡ tay” google về việc học Data/AI, 10 phút sau Facebook của bạn sẽ dày đặc quảng cáo các khoá học với những câu từ hoa mỹ nhất: Ngành hot nhất, tốp thu nhập cao nhất, cơ hội việc làm rất nhiều, lương nghìn đô, nghề trending,…. Nghe mà sướng trợn mắt 🤣

Nhưng bạn nào trái ngành học Data Analytics ra đi xin việc sẽ biết cái khổ khi tìm đỏ mắt không ai tuyển, có offer thì lương chưa được 10 triệu. Lúc đó bạn sẽ trở về mặt đất ngay lập tức.

Data Analytics là một ngành thú vị, nhưng hiện nay, người mới học rất khó xin việc làm và nó không có màu hồng như các trung tâm hay kể. Vì mọi người đổ xô đi học data nên vài nơi bất chấp sự thật về thị trường việc làm để bán khoá học. Họ dùng các bài báo ở Mỹ, phương tây, lấy mức lương và các số liệu thống kê ở chỗ khác về đánh lận người học.

Mình cũng là một người tự học chuyển ngành sang Data, nên muốn chia sẻ một chút với các bạn đang muốn dấn thân. Hy vọng cung cấp một góc nhìn khác để các bạn cân nhắc chính xác hơn.

Lưu ý:

  • Công ty của mình đang làm là công ty của Mỹ, có chi nhánh ở Việt Nam, và mình cũng từng đi nộp loanh quanh khu vực ĐNA nên mình sẽ nói ở thị trường Mỹ và Việt Nam thôi.
  • Bài viết này không có ý khuyên bạn đừng học Data Analytics, mình chỉ muốn cảnh bảo một tương lai không phải màu hồng như các trung tâm hay vẽ ra thôi
  • Nếu bạn thấy bạn thực sự muốn làm và đam mềm ngành này => CHIẾN

Khi các bạn chuyển ngành, luôn có những yêu cầu về chuyên môn và kỹ thuật, gọi chung là entry barrier (rào cản vào nghề).

Trong khi các vị trí Data Engineer, Data Scientist có những rào cản rất lớn về kỹ thuật và học thuật, thì Data Analyst lại dễ bước chân vào hơn, vì nó là sự giao thoa giữa công nghệ và một chuyên ngành nào đó (tài chính, retail, marketing, operation, SCM, ….)

Một vị trí Data Analyst cần các yếu tố cơ bản:

  • Kỹ năng phân tích dữ liệu (bao gồm tư duy và kỹ năng công nghệ)
  • Chuyên môn ở mảng mà bạn đang phân tích
  • Kỹ năng giao tiếp

Việc chuyển qua làm Data Analyst dễ vì 2 trong số 3 yếu tố đó không thuộc ngành kỹ thuật mà thuộc về chuyên môn khác. Chính bản thân mình cũng chọn con đường này vì nó nhẹ nhàng, đỡ sốc hơn.

Nhưng đừng hiểu nhầm. Data Analyst có entry barrier thấp hơn các vị trí khác, không có nghĩa là nó dễ hơn các vị trí đó.

Vì tính chất giao thoa giữa chuyên môn và kỹ thuật, bạn sẽ không thể có việc nếu không rành chuyên môn mà công ty đang cần phân tích. Và bạn sẽ phải cạnh tranh với những người có chuyên môn mạnh.

Một xu hướng bây giờ là các công ty đang tìm cách phân phối chức năng Analytics về từng phòng ban cụ thể.

Phòng data (hoặc IT) vẫn sẽ có Data Analyst nhưng chỉ cần số lượng rất ít, chuyên setup data model, chuyên phân tích các vấn đề về bản chất của data thu thập được, sau đó các phòng ban khác sẽ tuyển người biết làm chuyên môn để query vào dạng ad-hoc. Ví dụ:

  • Phòng marketing sẽ tuyển thêm Marketing Analyst, vừa biết marketing, vừa mạnh các kỹ năng về data.
  • Phòng tài chính sẽ tuyển Financial Analyst ,….
  • Hoặc cũng có các công ty lập nên các Analytics Department, sau đó tuyển Marketing Analyst, Financial Analyst, cho vào chung một bộ phận, và giảm bớt tuyển Data Analyst thuần tuý.

Công ty mình cũng nhận nhiều project thiết kế và tạo Data Model để các phòng ban khác query vào rồi kéo thả trong PowerBI. Có nhiều doanh nghiệp họ outsourcing luôn phần Data Analytics ra ngoài như vậy, đôi khi sẽ rẻ vừa hiệu quả hơn là xây dựng đội ngũ nội bộ.

Với xu hướng này, việc làm Data Analyst thuần kỹ thuật sẽ ngày càng ít đi.

Bạn – những người mới – sẽ chịu sự cạnh tranh khốc liệt từ các senior ở các ngành khác nhảy qua. Họ chỉ cần bổ sung thêm skill về Data, kết hợp các yếu tố có sẵn như chuyên môn tốt, leadership, communication skills,…

Họ không có cái mác Intern hay Fresher. Cạnh tranh với nhóm này thì hụt hơi!

Các bạn có thể đọc thấy ngành Data đang rất HOT và nhiều cơ hội việc làm. Nhưng có thứ những quảng cáo khoá học không bao giờ nói với bạn. …

  • Nhiều ở mảng nào? Ngành data có rất nhiều vị trí: Data Analyst, Data Engineer, Data Scientist, Data Analytics Engineer, Database Administrator, AI Engineer…
  • Nhiều ở đâu? Ở Mỹ hay ở Việt Nam? Hay ở Châu Âu
  • Nhiều lúc nào? Cách đây 5 năm? 10 năm? Hay khi nào?

Hiện tại ở Việt Nam, thị trường việc làm ngành data cũng khá sôi động. Nhưng trong khi thị trường Mỹ luôn có chỗ cho intern, chương trình hợp tác để nuôi dưỡng tài năng, thị trường Việt Nam lại chỉ muốn tuyển người làm được việc ngay.

Vì thế thị trường việc làm Data ở Việt Nam bị lệch hẳn sang hướng từ Associate level trở lên. Hiếm khi nào tuyển fresher, intern, vì không nhiều doanh nghiệp có đủ nguồn lực tài chính, thời gian để training và chờ nhóm này phát triển.

Đó là về level, còn về vị trí, trong 3 vị trí chính Data Analyst / Data Engineer / Data Scientist thì thực tế tuyển dụng Data Analyst là hiếm nhất.

Doanh nghiệp chủ yếu tuyển Data Engineer (DE) vì nhóm này có thể tạo tác động trực tiếp lên hệ thống một cách tức thì. Chỉ cần có một bạn DE setup và migrate được hệ thống data cũ chậm chạp của công ty lên Cloud hoặc số hoá nó thành các hệ thống On-premise là thấy công ty khác hẳn liền. (Lưu ý là Data Engineer cũng hiếm khi tuyển fresher và intern nhé). Cái nào có tác dụng liền thì tất nhiên sẽ được ưu tiên.

Data Scientist thì mình chỉ thấy tuyển từ Middle hoặc từ 1 năm kinh nghiệm trở lên, và cũng là làm cho các dự án nước ngoài chứ không phải Việt Nam.

Các công ty về AI tại Việt Nam thì toàn tuyển người top thôi, hoặc bạn phải theo các chương trình residency (ươm mầm tài năng) từ rất lâu trước chứ không phải cứ học vài khoá học là xong. Mà AI đang cao trào nên các vị trí cho Data Scientist mở cũng nhiều lắm.

Kinh tế suy thoái khiến cho các công ty cắt giảm ngân sách của team data lại vì không phải team nào cũng đem lại hiệu quả ngay. Vì thế họ sẽ có xu hướng tuyển người biết nhiều thứ.

Data Analyst mà biết thêm chút Machine learning thì càng hiệu quả để làm việc với Data Scientist. Data Analyst mà thêm kiến thức Data Engineer thì chúng ta sẽ có role Data Analytics Engineer, làm được nhiều thứ hơn, cần thì ETL luôn, biết xài Spark Airflow này nọ, giảm tải cho team, giảm gánh nặng tài chính cho công ty nữa.

Từ các ý trên, ai còn nghĩ ngành Data này học xong có việc luôn thì nên cẩn thận coi lại background của mình đã.

Chính trong PowerBI đã có AI thể tự generate DAX function để vẽ chart chỉ bằng cách nhập yêu cầu theo ngôn ngữ tự nhiên, các module dự đoán, và khả năng gắn với các predictive model,…. Có sẵn hết. Gắn là chạy. Có thể các công nghệ này chưa chín tới, nhưng bạn sẽ thấy mọi thứ thay đổi nhanh thôi.

PowerBI giờ đã trang bị AI
PowerBI giờ đã trang bị AI

Mình cũng dùng ChatGPT rất nhiều, vì nó thực sự giảm rất nhiều khối lượng công việc. Tất nhiên là dùng phải cẩn thận, mình phải hiểu rõ kết quả, mình chỉ nhờ nó làm bớt việc tay chân thôi. Sự tiện dụng của ChatGPT trong lập trình là không thể chối cãi.

ChatGPT có thể xử lý những cấu SQL phức tạp
ChatGPT có thể xử lý những cấu SQL phức tạp

Trong Tinh Tế có anh Thầy Giáo Sang có thể solo viết nguyên cái web app để ảnh dạy học nhờ ChatGPT.

Chat GPT không thay thế được một Data Analyst, nhưng nó cho công ty một lý do để không tuyển thêm người mới, mà nâng cấp team của họ lên với công cụ tốt hơn. Chuyện entry level data analyst thiếu việc vì AI theo mình là không thể tránh khỏi.

Các bạn nhìn vào giáo trình Data Analyst của vài trung tâm thấy dạy Python là chính. Lên các hội nhóm thấy vài anh chị lâu năm “gatekeeping” cái ngành này. Kiểu data analyst thì phải thế này thế kia, tech stack phải cỡ này, data phải cỡ trăm triệu dòng,… blah blah

Mình không nghĩ vậy. Tuỳ thị trường và công ty mà họ sẽ có những khái niệm rất khác nhau về một Data Analyst.

  • Có công ty thì cần bạn giỏi SQL là đủ, data infrastructure có đội Data Engineer lo rồi. Clean data này họ cũng có DE lo luôn ròi.
  • Có công ty thì đòi bạn phải giỏi cả Python.
  • Có chỗ Data xấu quá mà không có DE thì tuyển DA rành pandas, chỗ có DE thì tuyển DA mạnh về phân tích.
  • Có công ty đòi bạn phải master PowerBI, có công ty lại cần người giỏi Excel + VBA,…

Muôn hình vạn trạng. Mỗi quốc gia, mỗi ngành mỗi khác.

Miễn là bạn phân tích được dữ liệu, dù chỉ 1000 dòng thôi, nhưng tìm ra được các thông tin quan trọng và tạo sự tác động tích cực cho công ty, bạn chính là data analyst.

Tuỳ năng lực và độ phức tạp mà mức lương sẽ khác nhau. Nhưng phân tích dữ liệu thì không nhất thiết phải phức tạp.

Mình khẳng định luôn là được nhưng chuyện lương nghìn USD nó không hoàn toàn thuộc phạm trù bạn giỏi kỹ năng Data cỡ nào (vì như đã nói ở trên, Data Analyst không chỉ biết mỗi data). Vấn đề còn nằm ở chỗ bạn có biết tiếng anh hay không và công ty của bạn làm thế nào.

Đôi khi bạn không giỏi kỹ thuật lắm, nhưng bạn giao tiếp tốt, bạn rành chuyên môn, bạn có kỹ năng về leadership, làm việc với client được. Thì những giá trị đó sẽ bù lại. Quan trọng là các kỹ năng của bạn có thể kiếm tiền về cho công ty cỡ nào.

Các trung tâm hay nói học ra lương nghìn đô, nhưng công ty VN sẵn sàng bỏ ra nghìn USD cho một vị trí entry, cho một người mới là rất khó.

Còn nếu chỗ bạn apply một công ty Mỹ hay một công ty làm outsourcing các dự án tính bằng tiền đô thì chi ra $1,000 lại rất đơn giản với họ vì số tiền đó chả bao nhiêu so với quy mô dự án. Nhưng mà những kèo này thì … không nhiều.

Một thực trạng chung của ngành IT mà mình quan sát được: Không tiếng anh = lương thấp dù nhiều năm kinh nghiệm. Úp to chứ lúc deal thấp hơn nữa. Nhiều công ty lợi dụng việc bạn ko biết tiếng anh để ép giá.

Chắc chắn là được, nhưng còn tuỳ người. Bạn hoàn toàn có thể tự học kỹ năng data nhưng chuyên môn thì mình không chắc. Tuỳ xuất phát điểm và chuyên môn làm việc trước đó mà mỗi người mỗi khác. Rồi cách học nữa. Có người chỉ học mỗi 1 khoá data analyst, có người sẽ học thêm các thứ râu ria,….

Từ lý thuyết học ra làm việc thực tế nó rất khác các bạn ạ.

Ví dụ như các bạn học trên Datacamp cẳng hạn. Họ dạy SQL cũng gọi là ổn. Nhưng nếu bạn học theo track DA của họ thì lại thiếu mất phần setup một cái database SQL hay dùng các database client hay các tính năng như Store Procedure, các kỹ thuật Partition, Indexing,…. Thành ra các bạn bị giới hạn ở chỗ chỉ biết query, trong khi thực tế đi làm thì phải tương tác với database ở mức cao hơn vậy.

Nên các bạn cần chuẩn bị thêm các “giá trị khác” của bản thân để bù lại trong thời gian đầu.

Chất lượng trung tâm thế nào thì mình không không nói được vì mình chưa bao giờ học ở đó. Nhưng rất khó để 1 khoá học có thể đáp ứng được nhu cầu, vì thị trường bây giờ đòi hỏi rất đa dạng như đã kể ở trên.

Mình có coi giáo trình của một trung tâm rất lớn thấy họ dạy rất sát thực tế việc làm DA ở Việt Nam, nhưng coi phản hồi học viên thấy quá trình dạy không ổn lắm. Có trong tâm khác cũng nổi tiếng thì dạy toàn Python với Machine Learning.

Nói chung cái này thì tuỳ mỗi người thôi. Có người cầm tay chỉ việc thì lúc nào cũng nhanh. Nhưng phải lựa các chỗ uy tín. Với mình thấy các khoá học giờ đắt quá.

Không có gì sai khi chọn học một ngành nghề vì tiền cả. Là người Châu Á, chúng ta quá quen với kiểu muốn con cái học bác sỹ, kỹ sư để mong con cái có thu nhập tốt, công danh sáng lạng. Nhưng lương IT ở Việt Nam không cao như nước ngoài hay trên internet hay nói đâu các bạn.

Mình thấy ở Việt Nam có nhiều cách kiếm tiền khoẻ hơn đi làm IT.

Trước đây mình có công ty riêng, biz riêng. Và mình thấy với cùng mức độ nỗ lực thì kinh doanh đem lại cho mình nhiều tiền hơn. Tuy nhiên vì mình có mục tiêu rất cụ thể, không phải vì tiền, nên mình chấp nhận và có thể bền bỉ học tiếp.

Có một câu chuyện khá hay mình đọc được trên Reddit, đó là người giàu có ở thung lũng Silicon không phải là mấy anh lập trình, mà là bà bán mì Ramen góc đường, net worth hàng chục triệu USD. Các anh dev luôn vui vẻ chi tiền khủng ở đây để bù lại những áp lực công việc của họ.

  • Nếu vấn đề của bạn là muốn kiếm tiền thì mình tin là có nhiều con đường khác nhanh hơn và dễ hơn, đỡ nhức đầu hơn. Không nhất thiết phải đâm đầu vào đây nếu bạn không thích nó.
  • Nếu bạn muốn theo đuổi vì cảm thấy nó hợp, sống với con số, biểu đồ nó làm bạn thoải mái, bạn muốn tạo giá trị bằng con đường này…. Thì mình ủng hộ bạn hết cỡ.

Khi các trung tâm nói là hỗ trợ việc làm, tức là họ đang lấp liếm. Thực ra họ chỉ hỗ trợ các bạn TÌM VIỆC cho đến khi có việc thì thôi. Còn bao lâu có việc thì họ không nói và mức độ hỗ trợ tới đâu cũng vô cùng mơ hồ.

Mình nằm vùng trong hàng chục group tuyển dụng việc data, mình kết nối với nhiều HR trên Linkedln và theo dõi việc làm Linkedin rất nhiều. Nhưng chả có chỗ nào cho thấy cái sự “HOT” “ nhu cầu cao” như các khoá học nói cả. Toàn bán khoá học với cả lừa đảo nhập liệu thôi.

Mình tin là những người dạy học ở các trung tâm đều là các anh chị có chuyên môn cao và biết thực tế thị trường, những quảng cáo kia là do team marketing dựa trên “truyền thông ở một vũ trụ song song nào đó” viết nên. Nên nếu các trung tâm có đọc được bài này thì hy vọng mọi người điều chỉnh lại cho đúng hơn

Data analytics là một kỹ năng quan trọng và ai cũng cần. Không theo chuyên nghiệp về data cũng nên học để nâng cấp skillset, tư duy,…

Nhưng chốt lại là không có chuyện cứ học data analyst ra là sẽ có việc, offer nghìn đô liền nhé anh em. Phải có các yếu tố khác nữa.

Từ: Gia Trường (Tinhte.vn)

Categories
Dev's Corner

DataOps Engineer là gì? Tại sao cần DataOps Engineer? Những kỹ năng cần có!

DataOps Engineer (kỹ sư DataOps) là người nắm rất rõ quy trình xây dựng một sản phẩm dữ liêu và phân tích. Các hoạt động dữ liệu (data operation) hoặc sản xuất dữ liệu (data production) là một loạt các bước liên hoàn từ lấy dữ liệu thô, qua một loạt các bước xử lý và chuyển đổi, và xuất ra thành phẩm dưới dạng các bảng điều khiển, các dự đoán, kho dữ liệu hoặc bất cứ gì doanh nghiệp yêu cầu. Hãy coi các hoạt động dữ liệu giống như một nhà máy.

Hầu hết các tổ chức vận hành nhà máy dữ liệu này bằng phương pháp thủ công. Qua việc khảo sát, chúng tôi thấy các nhà khoa học dữ liệu và chuyên gia dữ liệu dành hơn 50% thời gian để thực hiện các thủ tục mang tính hỗ trợ cho các hoạt động dữ liệu.

Hình 1. Dây chuyền lắp ráp ô tô
Hình 1. Dây chuyền lắp ráp ô tô

Hình 1 là dây chuyền lắp ráp ô tô đầu thế kỷ 20. Trong hình, mọi người xếp thành một hàng để lắp ráp các linh kiện. Rất nhiều tổ chức dữ liệu điều hành các hoạt động dữ liệu giống như một nhà máy sản xuất ô tô hàng trăm năm tuổi. Cũng như các công ty ô tô giảm chi phí bằng cách sản xuất hàng loạt, các công ty ở năm 2021 cũng đưa kỹ sư dữ liệu (data engineer) và nhà khoa học dữ liệu (data scientist) vào “dây chuyền”. Hãy tưởng tượng nếu một công ty ô tô đi yêu cầu các kỹ sư thiết kế đi chế tạo chúng thử mà xem. Đó là tình trạng của phân tích dữ liệu ngày nay.

Hình 2. Nhà máy tự động
Hình 2. Nhà máy tự động

Kỹ sư DataOps giúp biến đổi những thứ trong Hình 1 thành nhà máy tự động (Hình 2). Các quy trình và luồng công việc được thiết kế và tự động hóa cao. Còn các kỹ sư, nhà khoa học và phân tích dữ liệu thì ở văn phòng, thực hiện việc lập trình rô-bốt và thiết kế các quy trình tự động để tạo ra các phiên bản sản phẩm được cải tiến liên tục, tức là các phân tích. 

Kỹ sư DataOps thiết kế dây chuyền dữ liệu để các kỹ sư dữ liệu và nhà khoa học dữ liệu có thể phân tích thông tin nhanh chóng và ít sai sót nhất có thể. Có thể nói rằng Kỹ sư DataOps là người nắm rõ quy trình và luồng công việc tổng thể, còn nhà khoa học dữ liệu và những người khác thì làm việc bên trong quy trình đó.

Vậy DataOps là gì?

DataOps là một tập hợp các phương pháp thực hành, chuẩn mực văn hóa và các mô thức kiến trúc giúp cho các chuyên gia dữ liệu phân phối giá trị một cách nhanh chóng. 

DataOps cho phép:

  • Thử nghiệm và đổi mới nhanh chóng để cung cấp thông tin phân tích cho khách hàng
  • Tỷ lệ lỗi thấp
  • Cộng tác với nhiều nhóm người, công nghệ và môi trường phức tạp
  • Đo lường và giám sát kết quả rõ ràng

DataOps thiết lập một cổng xử lý để tự động hóa các luồng sản xuất dữ liệu và phát triển phân tích để đội dữ liệu (data team) hoạt động hiệu quả, đổi mới và ít mắc lỗi. Trong bài này, chúng ta sẽ khám phá vai trò của Kỹ sư DataOps trong việc thúc đẩy tổ chức dữ liệu đạt được mức năng suất cao hơn.

Hình 3. Value Pipeline và Innovation Pipeline
Hình 3. Value Pipeline và Innovation Pipeline

Hành trình của dữ liệu

Quy trình dữ liệu (The Data Pipeline) là một chuỗi các bước chuyển hóa dữ liệu thô thành thông tin phân tích (insight) để tạo ra giá trị. Quy trình này đi băng qua nhiều vai trò và tổ chức. Các bước trong quy trình được biểu diễn thành vòng tròn trong Hình 3. Các kỹ sư dữ liệu, nhà khoa học, nhà phân tích, ban quản trị và các vai trò khác làm việc bên trong các vòng tròn này hoặc tạo các phân đoạn quy trình kết hợp được với những quy trình khác.

Quy trình giá trị (The Value Pipeline) đại diện cho các hoạt động dữ liệu mà ở đó dữ liệu được chuyển đổi thành các biểu đồ, đồ thị và các phân tích khác có giá trị cho tổ chức. 

Còn Quy trình đổi mới (The Innovation Pipeline) thì bao gồm việc phát triển phân tích, QA (quality assurance), triển khai và phần còn lại của quy trình quản lý thay đổi cho Quy trình giá trị. 

Các chuyên gia dữ liệu hoạt động tại nhiều điểm khác nhau trong những quy trình này. 

Nói chung, chúng ta muốn chắc chắn rằng Quy trình giá trị sẽ thực thi mà không phát sinh lỗi và chúng ta muốn triển khai mạch lạc các phân tích mới mà không vi phạm bất kỳ điều gì hoặc sinh ra phản ứng phụ. 

DataOps Engineer chính là người giúp cho toàn bộ hệ thống hoạt động tốt hơn. Nếu tổ chức dữ liệu muốn vận hành Quy trình giá trị mạnh mẽ như nhà máy 6 sigma (six sigma factory), nó phải có khả năng thực hiện và triển khai các cải tiến quy trình nhanh chóng như một startup ở Silicon Valley.

Kỹ sư dữ liệu thực hiện việc chuyển hóa dữ liệu. Sản phẩm của họ là dữ liệu. Sản phẩm của nhà khoa học dữ liệu là mô hình và phân khúc. Sản phẩm của nhà phân tích dữ liệu là biểu đồ, đồ thị và biểu diễn trực quan. Còn Kỹ sư DataOps vẽ ra một đường quanh các vai trò này và thúc đẩy sự cộng tác tốt hơn trong data team.

Khi nào được coi là “Hoàn thành”

Nhiều người làm dữ liệu có cách hiểu rất hạn hẹp về “hoàn thành”. Chẳng hạn một người đang xây dựng một loạt SQL hoặc một sổ Jupyter. Họ hoàn thành phần việc của mình và bàn giao cho một người khác thì họ đã “xong” nhiệm vụ rồi chăng?

Định nghĩa hạn hẹp về 2 chữ “hoàn thành” mà nhiều chuyên gia dữ liệu sử dụng chỉ đúng ở trong môi trường không cần biết hay không quan tâm đến trở ngại của những vai trò khác như triển khai, giám sát và duy trì thành phần đó. Một chuyên gia như vậy chỉ tập trung vào nhiệm vụ, chứ không phải vào giá trị. Khó khăn sẽ xảy ra nếu bạn thấy những điều này trong team data: 

  • Quăng nó qua production đi – để bọn họ tự mò
  • Định nghĩa “hoàn thành” là “Tôi xong rồi, không đụng vào nữa nhé”.
  • “Tôi chỉ lo đúng việc của mình”
  • Nếu có vấn đề thì đó là “Vấn đề của ai đó, không phải tôi”
  • Giả câm, giả điếc
  • Tập trung vào nhiệm vụ, không màng tới giá trị
  • Tập trung vào dự án, bỏ bê sản phẩm
  • “Hy vọng mọi thứ suôn sẻ”
  • Dựa dẫm vào kiểm thử thủ công
  • Không muốn nhận ca khó

DataOps có cái nhìn rộng hơn, tổng quan hơn. 

“Hoàn thành” nghĩa là chức năng đó chạy tốt trong môi trường production và làm cho khách hàng / người dùng hài lòng. Thay vì tập trung vào một nhiệm vụ, kiểm thử nhỏ lẻ và ít phản hồi thì DataOps tập trung vào việc tăng giá trị. Thông qua kiểm thử tự động, DataOps hợp thức hóa sự cộng tác nhuần nhuyễn giữa kiểm thử, giám sát, theo dõi, triển khai và phối hợp nhiệm vụ (Hình 4).

Hình 4. DataOps Engineer thúc đẩy sự cộng tác trong data team
Hình 4. DataOps Engineer thúc đẩy sự cộng tác trong data team

Tự động hóa Nugget

Các nhà khoa học và phân tích dữ liệu tạo ra cái gọi là nugget of code (cụm mã). Các nugget có thể là mã ETL làm nhiệm vụ điều khiển Informatica (1 công cụ), chuyển đổi SQL, một chút Python hoặc XML. Bất kể tính nhất quán hay mục đích của nó là gì, thì các nugget phải được kiểm tra kỹ lưỡng trước khi được đưa vào các dây chuyền lớn hơn (quy trình). 

Dưới đây là các ví dụ về các cách mà Kỹ sư DataOps làm việc với “cụm mã” trong hệ thống DataOps:

  • Bổ sung vào quy trình
  • Tạo kiểm thử
  • Vận hành nhà máy
  • Tự động triển khai
  • Làm với nhiều người
  • Đo lường thành công
  • Bật chế độ DataOps tự phục vụ

Các kỹ sư DataOps thường không giải quyết các vấn đề dữ liệu bằng cách tạo ra các “nugget”. Mà họ giải quyết các vấn đề về quy trình bằng cách sử dụng tự động hóa vào kiểm thử, triển khai và duy trì các nugget này trong hệ thống. Bằng cách tự động hóa công việc quản lý liên quan đến các nugget này, Kỹ sư DataOps cho phép người tạo nugget làm việc nhanh và liên tục hơn.

DataOps áp dụng tự động hóa để làm mạch lạc luồng công việc. Theo nguyên tắc chung, bất kỳ hoạt động nào được thực hiện thủ công từ ba lần trở lên đều phải được tự động hóa. Kỹ sư DataOps tạo ra các lịch trình tự động và lịch trình điện toán đám mây.

Dưới đây là một số ví dụ phổ biến về tự động DataOps:

  • Tự động hóa production – thay thế các thủ tục thủ công để thực thi các hoạt động dữ liệu bằng tự động hóa
  • Theo dõi / kiểm thử dữ liệu production – tạo các bài kiểm thử để phát hiện lỗi trước khi đưa đến khách hàng, theo dõi các quy trình sản xuất và phát triển theo thời gian thực
  • Môi trường tự phục vụ – cung cấp cho/đội ngũ cách thức tạo dữ liệu và các công cụ phù hợp theo nhu cầu
  • Kiểm thử hàm và hồi quy – tự động hóa kiểm thử phát triển và triển khai
  • Tự động hóa dữ liệu kiểm thử – tạo dữ liệu kiểm thử theo yêu cầu
  • Tự động hóa triển khai – triển khai với thao thác thủ công tối thiểu
  • Các thành phần được chia sẻ – chuẩn hóa và thường xuyên tái sử dụng “các nugget”, các quy trình và hạ tầng
  • Đo lường quy trình – xây dựng bảng điều khiển cho mọi khía cạnh của vòng đời dữ liệu để có tính minh bạch. 

DataOps Engineering là về việc thực hiện các quy trình vô hình và làm cho chúng rõ ràng hơn. DataOps xác định hoặc dự đoán các lỗi trong tương lai để chúng có thể được giải quyết sớm và tránh những ảnh hưởng tiêu cực đến sự tổng quan và phân tích người dùng.

Những thách thức khi triển khai tự động hóa dữ liệu phản ánh một số khó khăn sau:

  • Không ai chịu trách nhiệm
  • Không đủ thời gian làm tự động hóa
  • Không ai quan tâm
  • Ai cũng lo làm tác vụ, thay vì xây dựng quy trình tốt hơn
  • Cho rằng tự động hóa không quan trọng bằng làm dữ liệu
  • Không như nhà phát triển phần mềm, dữ liệu không thể tự động hóa được
  • Làm thủ công là cách để hoàn thành công việc

Khi một nhiệm vụ như tự động hóa không được công nhận là quan trọng, không ai chịu trách nhiệm về nó. Trong nhiều tổ chức dữ liệu, có quan điểm cho rằng trở thành nhà khoa học dữ liệu là hình thức đóng góp cao nhất. Do tác động của tự động hóa lên năng suất của nhóm, không có gì ngạc nhiên khi các Kỹ sư DevOps hàng đầu là một trong những vị trí được trả cao nhất trong ngành phần mềm. 

Mục tiêu của kỹ sư DataOps là tự động hóa các quy trình của tổ chức:

  • Giảm lãng phí.
  • Tăng cường tái sử dụng. Bớt “sáng tạo lại bánh xe”
  • Giảm sai số và thời gian thất bại.
  • Tăng cường kiểm soát phiên bản.
  • Phát hiện chênh lệch và cải thiện việc kiểm thử.
  • Đảm bảo các tiêu chuẩn bảo mật dữ liệu được áp dụng vào quy trình.
  • Thực hiện báo cáo về mọi mặt của quy trình và vòng đời dữ liệu của data team

Kỹ sư DataOps cũng là bà con với Kỹ sư DevOps, nhưng quen thuộc với các công cụ và phương pháp của hệ sinh thái dữ liệu hơn. Điều tuyệt vời và đầy thách thức ở vai trò này là nó đòi hỏi một số kỹ năng khác nhau trong nhiều lĩnh vực. 

Bộ kỹ năng cho Kỹ sư DataOps như sau:

  • Một ngôn ngữ script: Python, Bash
  • Ngôn ngữ dữ liệu: SQL
  • Kiểm soát mã nguồn: git
  • Công cụ DataOps: DataKitchen
  • Công cụ cấu hình DevOps: Terraform, Puppet, Docker / K8s
  • Kỹ năng quy trình: Các phương pháp & công cụ Agile như JIRA
  • Làm quen với chuỗi công cụ mà các kỹ sư dữ liệu, nhà khoa học, nhà phân tích và ban quản trị sử dụng

Với tư cách là người quản lý hoặc trưởng nhóm, bạn có thể tự hỏi liệu mình có cần thuê Kỹ sư DataOps hay không và cần dành bao nhiêu tài nguyên của nhóm cho DataOps. Không có một câu trả lời đúng phù hợp với tất cả các tổ chức.

Các nhóm phát triển phần mềm tiên tiến dành khoảng 23% thời gian của họ cho DevOps. Các nhóm dữ liệu thì dành khoảng 3% thời gian của họ cho các nhiệm vụ DataOps. Chúng tôi khuyên bạn nên tăng mức này lên khoảng 15%. Điều đó có thể đạt được bằng cách kêu gọi sự tham gia của mọi người hoặc thuê một đội chuyên nghiệp từ bên ngoài. Vấn đề ở đây là đầu tư vào DataOps sẽ mang lại rất nhiều lợi ích.

Hình 5. Phân bổ thời gian trước và sau DataOps
Hình 5. Phân bổ thời gian trước và sau DataOps

Việc đầu tư vào DataOps tác động đến toàn bộ data team (hình 5). Với DataOps, các kỹ sư dữ liệu, nhà khoa học, nhà phân tích và người dùng dành nhiều thời gian hơn để tạo ra giá trị, giảm trục trặc kỹ thuật hoặc triển khai các thay đổi vào production và ít tốn thời gian đi sửa lỗi, họp hành và quản lý các phát sinh.

Hình 6. DataOps giảm thời gian triển khai và giảm lỗi
Hình 6. DataOps giảm thời gian triển khai và giảm lỗi

Các thang đo chân chính mà DataOps tác động là độ trễ và lỗi triển khai (hình 6). DataOps cắt giảm thời gian triển khai từ tuần / tháng xuống giờ / phút. Nó làm giảm đáng kể tỷ lệ lỗi dữ liệu trong hầu hết các tổ chức dữ liệu xuống gần như bằng không. Khi năng suất cao, ít sai sót và người dùng hài lòng, môi trường làm việc của nhóm dữ liệu sẽ thú vị hơn rất nhiều. Nghe có vẻ kì khôi, nhưng DataOps mang niềm vui vào phân tích dữ liệu và nụ cười tươi thắm cho data team.

Tham khảo: DataKitchen