Mô hình dữ liệu Medallion là một khái niệm trong quản lý dữ liệu, thường được sử dụng trong hệ sinh thái dữ liệu lớn như Delta Lake của Databricks.
Mô hình Medallion giúp đảm bảo tính nhất quán, chất lượng và hiệu quả trong quá trình xử lý và phân tích dữ liệu lớn.
Mô hình này chia dữ liệu thành ba lớp chính:
1. Bronze (Raw Data): Lớp này chứa dữ liệu thô, không qua xử lý từ các nguồn khác nhau. Dữ liệu trong lớp Bronze thường không được làm sạch hay biến đổi, chỉ được lưu trữ dưới dạng nguyên gốc.
2. Silver (Cleaned and Enriched Data): Lớp này chứa dữ liệu đã qua làm sạch và biến đổi từ lớp Bronze. Dữ liệu tại đây đã được chuẩn hóa, loại bỏ các giá trị không hợp lệ và bổ sung thêm các thông tin cần thiết.
3. Gold (Aggregated and Business-Level Data): Lớp này chứa dữ liệu đã được tổng hợp và biến đổi từ lớp Silver để phục vụ cho các báo cáo và phân tích kinh doanh. Dữ liệu tại đây thường được sắp xếp và tối ưu hóa cho các truy vấn nhanh chóng và hiệu quả.
Nguồn tham khảo: https://www.databricks.com/glossary/medallion-architecture
Mô hình dữ liệu Medallion