Khoa học dữ liệu và cách chuyển đổi dữ liệu thành giá trị

Khoa học dữ liệu (KHDL) là phương pháp để chuyển đổi dữ liệu thành tài sản giúp các tổ chức cải thiện doanh thu, giảm chi phí, nắm bắt cơ hội kinh doanh...

 KHDL là gì?

KHDL là một phương pháp thu thập thông tin chi tiết từ dữ liệu có cấu trúc và phi cấu trúc bằng cách sử dụng các phương pháp tiếp cận từ phân tích thống kê đến học máy. 

Đối với hầu hết các tổ chức, KHDL được sử dụng để chuyển đổi dữ liệu thành giá trị dưới dạng cải thiện doanh thu, giảm chi phí, sự nhanh nhạy trong kinh doanh, cải thiện trải nghiệm khách hàng, phát triển các sản phẩm mới v.v... KHDL cung cấp cho dữ liệu được thu thập bởi một tổ chức có mục đích.

KHDL so với phân tích dữ liệu

Mặc dù có liên quan chặt chẽ với nhau, nhưng phân tích dữ liệu là một thành phần của KHDL, được sử dụng để hiểu dữ liệu của một tổ chức trông như thế nào. KHDL lấy đầu ra của phân tích để giải quyết vấn đề. Các nhà khoa học dữ liệu nói rằng điều tra một cái gì đó với dữ liệu chỉ đơn giản là phân tích. 

KHDL thực hiện phân tích một bước nữa để giải thích và giải quyết vấn đề. Sự khác biệt giữa phân tích dữ liệu và KHDL cũng liên quan đến nthời gian. Phân tích dữ liệu mô tả trạng thái hiện tại của thực tế, trong khi KHDL sử dụng dữ liệu đó để dự đoán và/hoặc hiểu trong tương lai.

Lợi ích của KHDL

Giá trị kinh doanh của KHDL phụ thuộc vào nhu cầu của tổ chức. KHDL có thể giúp một tổ chức xây dựng các công cụ để dự đoán các lỗi phần cứng, cho phép tổ chức thực hiện bảo trì và ngăn chặn thời gian ngừng hoạt động ngoài kế hoạch. Nó có thể giúp dự đoán những gì nên đặt trên kệ siêu thị hoặc mức độ phổ biến của một sản phẩm dựa trên các thuộc tính của nó.

Công việc KHDL

Trong khi số lượng các chương trình cấp bằng về KHDL đang tăng lên với tốc độ chóng mặt. Các ứng viên có nền tảng thống kê hiện đang khá phổ biến, đặc biệt nếu có thể chứng minh rằng họ biết liệu họ có đang nhìn vào kết quả thực hay không; có kiến thức để đặt kết quả trong ngữ cảnh; và các kỹ năng giao tiếp cho phép họ truyền đạt kết quả đến người dùng doanh nghiệp (DN).

Nhiều tổ chức tìm kiếm các ứng viên có bằng tiến sĩ, đặc biệt là trong vật lý, toán học, khoa học máy tính, kinh tế học, hoặc thậm chí là khoa học xã hội. Bằng tiến sĩ chứng minh một ứng viên có khả năng nghiên cứu sâu về một chủ đề và phổ biến thông tin cho những người khác.

Một số nhà KHDL giỏi nhất hoặc các nhà lãnh đạo trong các nhóm KHDL có nền tảng phi truyền thống, ngay cả những người được đào tạo máy tính chính quy cũng rất ít. Trong nhiều trường hợp, khả năng quan trọng là có thể nhìn thứ gì đó từ góc độ phi truyền thống và hiểu nó.

Với sự thiếu hụt nhân tài KHDL hiện nay, nhiều tổ chức đang xây dựng các chương trình để phát triển nhân tài KHDL nội bộ. Bootcamp (mô hình đào tạo dưới dạng trại huấn luyện cường độ cao trong thời gian ngắn, tập trung giảng dạy các vấn đề "thực chiến") là con đường phát triển nhanh chóng khác để đào tạo nhân viên đảm nhận các vai trò KHDL.

Chứng nhận KHDL

Các tổ chức cần các nhà khoa học và phân tích dữ liệu có chuyên môn về các kỹ thuật phân tích dữ liệu. Họ cũng cần kiến trúc sư dữ liệu lớn để chuyển các yêu cầu thành hệ thống, kỹ sư dữ liệu để xây dựng và duy trì đường ống dữ liệu, cũng như quản trị viên hệ thống và người quản lý để kết nối mọi thứ với nhau. Chứng chỉ là một cách để ứng viên cho thấy họ có bộ kỹ năng phù hợp.

Một số chứng chỉ phân tích dữ liệu và dữ liệu lớn hàng đầu bao gồm: Chuyên gia phân tích được chứng nhận (CAP); Chứng nhận của Nhà phát triển Nền tảng Dữ liệu Cloudera; Nhà KHDL cấp cao của Hội đồng Khoa học Dữ liệu Hoa Kỳ (DASCA) (SDS); Nhà KHDL chính của Hội đồng Khoa học Dữ liệu Hoa Kỳ (DASCA) (PDS); Chứng chỉ Chuyên gia KHDL của IBM; Microsoft Certified: Azure Data Scientist Associate; Open Certified Data Scientist (Open CDS); Nhà KHDL được chứng nhận SAS...

Nhóm KHDL

KHDL nói chung là một kỷ luật nhóm. Các nhà KHDL là nòng cốt của hầu hết các nhóm KHDL, nhưng việc chuyển từ dữ liệu sang phân tích sang giá trị sản xuất đòi hỏi một loạt các kỹ năng và vai trò. 

Ví dụ: các nhà phân tích dữ liệu nên có mặt để điều tra dữ liệu trước khi trình bày cho nhóm và duy trì các mô hình dữ liệu. Các kỹ sư dữ liệu là cần thiết để xây dựng các đường ống dẫn dữ liệu nhằm làm phong phú thêm các tập dữ liệu.

Mục tiêu KHDL và phân phối

Mục tiêu của KHDL là tạo ra các phương tiện để trích xuất thông tin chi tiết tập trung vào kinh doanh từ dữ liệu. Điều này đòi hỏi sự hiểu biết về cách giá trị và thông tin luân chuyển trong một DN và khả năng sử dụng sự hiểu biết đó để xác định các cơ hội kinh doanh. Mặc dù điều đó có thể liên quan một lần đến các dự án, nhưng các nhóm KHDL thường tìm cách xác định các tài sản dữ liệu quan trọng có thể được chuyển thành đường ống dữ liệu cung cấp các công cụ và giải pháp có thể bảo trì. 

Ví dụ bao gồm các giải pháp giám sát gian lận thẻ tín dụng được sử dụng bởi các ngân hàng hoặc các công cụ được sử dụng để tối ưu hóa việc bố trí các tuabin gió trong các trang trại điện gió.

Các quy trình và phương pháp luận KHDL

Các nhóm kỹ thuật sản xuất làm việc theo chu kỳ nước rút, với các mốc thời gian dự kiến. Điều đó thường khó thực hiện đối với các nhóm KHDL vì nhiều thời gian trước đó có thể được dành để xác định xem một dự án có khả thi hay không. Dữ liệu phải được thu thập và làm sạch. Sau đó, nhóm phải xác định xem liệu mình có thể trả lời câu hỏi một cách hiệu quả hay không.

KHDL lý tưởng nên tuân theo phương pháp khoa học, mặc dù điều đó không phải lúc nào cũng đúng, hoặc thậm chí khả thi. Khoa học thực sự cần có thời gian. Bạn dành ít thời gian để xác nhận giả thuyết của mình và sau đó là nhiều thời gian để bác bỏ chúng. Trong kinh doanh, thời gian trả lời là quan trọng. Kết quả, KHDL thường có nghĩa là đi cùng với câu trả lời "đủ tốt" hơn là câu trả lời tốt nhất.

Các công cụ KHDL

Các nhóm KHDL sử dụng một loạt các công cụ, bao gồm SQL, Python, R, Java và rất nhiều dự án nguồn mở như Hive, oozie và TensorFlow. Các công cụ này được sử dụng cho nhiều tác vụ liên quan đến dữ liệu, từ trích xuất và làm sạch dữ liệu, đưa dữ liệu vào phân tích thuật toán thông qua các phương pháp thống kê hoặc học máy. 

Một số công cụ phổ biến bao gồm:

SAS: Công cụ thống kê độc quyền này được sử dụng để khai thác dữ liệu, phân tích thống kê, thông tin kinh doanh, phân tích thử nghiệm lâm sàng và phân tích chuỗi thời gian.

Tableau: Hiện thuộc sở hữu của Salesforce, Tableau là công cụ trực quan hóa dữ liệu.

20221214-pg7.jpg

TensorFlow: Được phát triển bởi Google và được cấp phép theo Giấy phép Apache 2.0, TensorFlow là một thư viện phần mềm dành cho máy học được sử dụng để đào tạo và suy luận về mạng nơ-ron sâu.

DataRobot: Nền tảng máy học tự động này được sử dụng để xây dựng, triển khai và duy trì AI.

BigML: Nền tảng học máy tập trung vào việc đơn giản hóa việc xây dựng và chia sẻ tập dữ liệu và mô hình.

Knime: Nền tảng phân tích, báo cáo và tích hợp dữ liệu mã nguồn mở.

Apache Spark: Công cụ phân tích hợp nhất này được thiết kế để xử lý dữ liệu quy mô lớn, với hỗ trợ làm sạch, chuyển đổi dữ liệu, xây dựng mô hình và đánh giá.

RapidMiner: Nền tảng KHDL này nhằm hỗ trợ các nhóm, với hỗ trợ chuẩn bị dữ liệu, học máy và triển khai mô hình dự đoán.

Matplotlib: Thư viện vẽ đồ thị mã nguồn mở cho Python này cung cấp các công cụ để tạo hình ảnh trực quan tĩnh, động và tương tác.

Excel: Phần mềm bảng tính của Microsoft có lẽ là công cụ BI được sử dụng rộng rãi nhất hiện nay. Nó cũng tiện dụng cho các nhà KHDL, làm việc với các bộ dữ liệu nhỏ hơn.

js: Thư viện JavaScript này được sử dụng để tạo hình ảnh tương tác trong trình duyệt web.

ggplot2: Gói trực quan hóa dữ liệu nâng cao này dành cho các nhà KHDL cho phép tạo hình ảnh trực quan từ dữ liệu đã phân tích.

Jupyter: Công cụ mã nguồn mở này dựa trên Python được sử dụng để viết mã trực tiếp, trực quan hóa và trình bày.

Tài liệu tham khảo:

[1]. www.cio.com/article/191313/what-is-data-analytics-analyzing-and-managing-data-for-decisions

[2]. www.cio.com/article/228000/data-analytics-myths-debunked

[3]. www.cio.com/article/228285/the-unexpected-benefits-of-data-analytics

[4]. www.cio.com/article/230532/what-is-a-data-scientist-a-key-data-analytics-role-and-a-lucrative-career

[5]. https://fortune.com/education/data-science/masters/rankings/best-online-masters-in-data-science