Star schema (giản đồ hình sao) là gì?

Bài viết này hướng đến những người xây dựng mô hình dữ liệu trong Power BI Desktop, nhằm trình bày cách thiết kế Star Schema (giản đồ hình sao) và tầm quan trọng của nó đối với việc phát triển mô hình dữ liệu trong Power BI để tối ưu hiệu suất phân tích dữ liệu. Chúng ta sẽ khám phá cách Star Schema có thể cung cấp một cấu trúc dữ liệu dễ hiểu, linh hoạt và tối ưu cho việc truy vấn và phân tích trong Power BI. Hiểu rõ về Star Schema sẽ giúp chúng ta xây dựng các báo cáo và tổ chức dữ liệu một cách hiệu quả và mang lại giá trị đáng kể cho các dự án phân tích dữ liệu của chúng ta trong Power BI. Cùng tuhocmarketingonline.info xem qua bài viết này.

Tổng quan về Star Schema – giản đồ hình sao

Star Schema là một phương pháp mô hình được sử dụng trong data warehouse hợp lý. Với phương pháp này, người thiết kế mô hình cần phân loại các bảng thành hai loại là dimension (thứ nguyên) và fact (dữ kiện).

Bảng dimension mô tả các thực thể kinh doanh – những dữ liệu cần được mô hình hóa. Ví dụ như sản phẩm, nhân sự, nơi bán hàng và các dữ liệu liên quan đến thời gian. Một bảng dimension phổ biến là Date dimension (bảng về ngày/tháng), chứa cột chính hoạt động như mã định danh duy nhất và các cột mô tả.

Bảng fact lưu trữ các quan sát hoặc sự kiện, ví dụ như đơn hàng, số dư trong kho, tỷ giá hối đoái, nhiệt độ. Bảng fact chứa các cột chính liên quan đến bảng dimension và các cột định lượng.

Các cột chính xác định kích thước của bảng fact, trong khi giá trị của chúng xác định mức độ chi tiết của bảng fact. Ví dụ, một bảng fact theo dõi mục tiêu bán hàng có hai cột chính là Date và ProductKey. Các giá trị trong cột Date xác định mức độ chi tiết của mục tiêu bán hàng. Ví dụ, nếu các giá trị lưu trữ là ngày đầu tiên của mỗi tháng, thì mức độ chi tiết sẽ là số sản phẩm bán được mỗi tháng.

Bảng dimension thường có số lượng hàng nhỏ, trong khi bảng fact có thể có số lượng hàng lớn và tiếp tục phát triển theo thời gian.

Star Schema là gì?

Star Schema là một cấu trúc mô hình trong data warehouse, trong đó bảng fact được chi tiết bởi các bảng dimension. Khi nhìn vào sơ đồ, kiến trúc này giống như một ngôi sao với bảng fact nằm ở trung tâm và các bảng dimension phân tán xung quanh nó.

Chuẩn hóa và không chuẩn hóa (Normalization vs. denormalization)

Để hiểu các khái niệm liên quan đến Star schema trong bài viết này, cần làm quen với hai thuật ngữ: chuẩn hóa và không chuẩn hóa.

Chuẩn hóa (normalization) là thuật ngữ dùng để miêu tả việc lưu trữ dữ liệu theo cách giảm thiểu sự lặp lại. Ví dụ, khi xem xét một bảng sản phẩm có một cột khóa duy nhất, như Product key, và các cột mô tả thêm về đặc điểm sản phẩm như tên sản phẩm (product), danh mục (category), màu sắc (color) và kích thước (size). Một bảng bán hàng được coi là đã được chuẩn hóa khi chỉ chứa cột khóa chính (Product Key). Trong sơ đồ dưới đây, chỉ có cột ProductKey chứa dữ liệu về sản phẩm.

Khi bạn tiếp nhận dữ liệu từ một tệp xuất hoặc trích xuất dữ liệu, có thể dữ liệu đó không được chuẩn hóa. Trong tình huống như vậy, bạn có thể sử dụng Power Query để chuyển đổi và định hình dữ liệu nguồn thành nhiều bảng chuẩn hóa. Power Query cho phép bạn thực hiện các bước biến đổi dữ liệu, như phân tách cột, kết hợp bảng, áp dụng các quy tắc chuẩn hóa và thực hiện các phép tính để tạo ra cấu trúc dữ liệu chuẩn hóa. Bằng cách này, bạn có thể tối ưu quá trình làm việc với dữ liệu và đảm bảo tính nhất quán và hiệu quả trong việc phân tích dữ liệu.

Như được mô tả trong bài viết này, bạn nên cố gắng xây dựng và tối ưu các data model với các bảng dữ liệu đã chuẩn hóa.

Mức độ liên quan của Star schema với Power BI models

Mỗi báo cáo hình ảnh trong Power BI đóng vai trò là một truy vấn gửi đến Power BI model (được gọi là dataset trong Power BI service). Các truy vấn này được sử dụng để lọc, nhóm và tóm tắt mô hình dữ liệu. Vì vậy, một mô hình được thiết kế tốt là mô hình cung cấp các bảng để thực hiện việc lọc, nhóm và tóm tắt dữ liệu. Điều này tuân theo nguyên tắc của Star Schema:

  • Bảng dimension hỗ trợ việc lọc và nhóm dữ liệu.
  • Bảng fact hỗ trợ việc tóm tắt dữ liệu.

Trong Power BI, không có nơi nào để bạn chỉ định thuộc tính của một bảng là dimension hay fact, mà việc này được xác định bởi các mối quan hệ trong mô hình (model relationships). Mối quan hệ trong mô hình thiết lập một đường lọc giữa hai bảng và Cardinality (tỷ lệ) của mối quan hệ sẽ xác định loại bảng. Thông thường, mối quan hệ có dạng một-nhiều (one-to-many) hoặc ngược lại nhiều-một (many-to-one). Bên “một” luôn đại diện cho bảng dimension, trong khi bên “nhiều” luôn đại diện cho bảng fact.

Một mô hình có cấu trúc tốt nên bao gồm các bảng thuộc loại bảng dimension hoặc bảng fact, không nên kết hợp hai loại này trong một bảng. Bạn nên cố gắng xác định đúng số lượng bảng và thiết lập các mối quan hệ phù hợp. Quan trọng hơn, các bảng fact nên được tải dữ liệu ở một mức độ nhất quán.

Tuy nhiên, thiết kế mô hình cũng có một phần khoa học và một phần nghệ thuật. Đôi khi, bạn có thể phá vỡ quy tắc nếu có lý do hợp lý để làm như vậy.

Kết luận

Thiết kế Data Model là một công việc cực kỳ quan trọng và có ảnh hưởng lớn đến việc khai thác dữ liệu trong doanh nghiệp. Nếu bạn muốn hiểu sâu hơn về tư duy này, một nguồn tham khảo hữu ích là khoá học Data System của Tomorrow Marketers. Khoá học này sẽ trang bị cho bạn tư duy chuyển đổi số thông qua việc xây dựng hệ thống dữ liệu nội bộ cho doanh nghiệp và sở hữu các báo cáo quản trị để theo dõi hoạt động của doanh nghiệp. Đây là một cách tuyệt vời để nắm bắt kiến thức và kỹ năng cần thiết để tận dụng tối đa tiềm năng của dữ liệu trong môi trường kinh doanh.

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *