Integration
D3 · Performance
D4 · Cost
~1 phút đọcData Analytics — Athena, Glue, EMR, Redshift, QuickSight, Lake Formation
Hệ sinh thái analytics AWS: query ad-hoc (Athena), ETL (Glue), big data (EMR), data warehouse (Redshift), BI (QuickSight), governance (Lake Formation).
athena
glue
emr
redshift
quicksight
lake-formation
analytics
Sơ đồ tổng quan
Đang tải sơ đồ…
Tổng quan
AWS cung cấp bộ analytics đầy đủ: từ ingest (Kinesis, Glue) → store (S3 data lake) → catalog (Glue Data Catalog) → query (Athena, Redshift) → visualize (QuickSight). Lake Formation quản lý quyền truy cập data lake.
Amazon Athena
- Serverless SQL query trực tiếp trên S3 (Presto/Trino engine).
- Pay per query: $5/TB scanned. Tiết kiệm bằng columnar format (Parquet/ORC) + partition.
- Federated query: query RDS, DynamoDB, Redshift, on-prem qua connector Lambda.
- Tích hợp Glue Data Catalog làm metastore.
- Use case: ad-hoc query, log analysis, CloudTrail analysis.
AWS Glue
- Serverless ETL: extract, transform, load data.
- Glue Data Catalog: central metadata repository (database, table, schema).
- Glue Crawler: tự discover schema từ S3, RDS, DynamoDB.
- Glue Job: Spark-based ETL, hỗ trợ Python/Scala.
- Glue Studio: visual ETL editor.
- Glue DataBrew: visual data preparation (clean, normalize).
Redshift & EMR
- Redshift: columnar data warehouse, MPP (Massively Parallel Processing).
- Redshift Serverless: auto-scale, pay per use.
- Redshift Spectrum: query S3 data trực tiếp từ Redshift (extend warehouse tới data lake).
- EMR: managed Hadoop/Spark/Hive/Presto cluster.
- EMR on EKS: chạy Spark trên Kubernetes.
- EMR Serverless: không quản cluster.
QuickSight & Lake Formation
- QuickSight: serverless BI, SPICE in-memory engine, ML insights.
- Embed dashboard vào app, row-level security.
- Lake Formation: quản lý data lake permissions (column/row/cell level).
- Lake Formation thay thế complex S3/IAM policies bằng grant-based model.
- Blueprint: tự động ingest data từ RDS/on-prem vào data lake.
Tip
Đề thi: 'query S3 logs không cần server' → Athena. 'Data warehouse PB-scale' → Redshift. 'ETL serverless' → Glue.
Nội dung liên quan
Quiz liên quan
Flashcards liên quan