Integration
D3 · Performance
D4 · Cost
~1 phút đọc

Data Analytics — Athena, Glue, EMR, Redshift, QuickSight, Lake Formation

Hệ sinh thái analytics AWS: query ad-hoc (Athena), ETL (Glue), big data (EMR), data warehouse (Redshift), BI (QuickSight), governance (Lake Formation).

athena
glue
emr
redshift
quicksight
lake-formation
analytics

Sơ đồ tổng quan

Đang tải sơ đồ…

Tổng quan

AWS cung cấp bộ analytics đầy đủ: từ ingest (Kinesis, Glue) → store (S3 data lake) → catalog (Glue Data Catalog) → query (Athena, Redshift) → visualize (QuickSight). Lake Formation quản lý quyền truy cập data lake.

Amazon Athena

  • Serverless SQL query trực tiếp trên S3 (Presto/Trino engine).
  • Pay per query: $5/TB scanned. Tiết kiệm bằng columnar format (Parquet/ORC) + partition.
  • Federated query: query RDS, DynamoDB, Redshift, on-prem qua connector Lambda.
  • Tích hợp Glue Data Catalog làm metastore.
  • Use case: ad-hoc query, log analysis, CloudTrail analysis.

AWS Glue

  • Serverless ETL: extract, transform, load data.
  • Glue Data Catalog: central metadata repository (database, table, schema).
  • Glue Crawler: tự discover schema từ S3, RDS, DynamoDB.
  • Glue Job: Spark-based ETL, hỗ trợ Python/Scala.
  • Glue Studio: visual ETL editor.
  • Glue DataBrew: visual data preparation (clean, normalize).

Redshift & EMR

  • Redshift: columnar data warehouse, MPP (Massively Parallel Processing).
  • Redshift Serverless: auto-scale, pay per use.
  • Redshift Spectrum: query S3 data trực tiếp từ Redshift (extend warehouse tới data lake).
  • EMR: managed Hadoop/Spark/Hive/Presto cluster.
  • EMR on EKS: chạy Spark trên Kubernetes.
  • EMR Serverless: không quản cluster.

QuickSight & Lake Formation

  • QuickSight: serverless BI, SPICE in-memory engine, ML insights.
  • Embed dashboard vào app, row-level security.
  • Lake Formation: quản lý data lake permissions (column/row/cell level).
  • Lake Formation thay thế complex S3/IAM policies bằng grant-based model.
  • Blueprint: tự động ingest data từ RDS/on-prem vào data lake.
Tip
Đề thi: 'query S3 logs không cần server' → Athena. 'Data warehouse PB-scale' → Redshift. 'ETL serverless' → Glue.
Nội dung liên quan
Quiz liên quan
Flashcards liên quan