CloudPath Academy

Your guide to AWS certification success

Official Exam Guide: Domain 1: Data Engineering

Skill Builder: AWS Certified Machine Learning - Specialty Exam Prep

Domain 1 (20%) focuses on creating data repositories for ML, implementing data ingestion solutions, and implementing data transformation solutions.

Key Concepts:

Essential Documentation:

Key Concepts:

Data job styles (batch load, streaming)
Orchestrate data ingestion pipelines (batch-based and streaming-based ML workloads)
Schedule jobs

Essential Documentation:

Key Concepts:

Essential Documentation:

Master data storage options - S3 for scalable object storage (training data, model artifacts), EFS for shared file systems, EBS for instance storage, databases for structured data.
Learn streaming vs batch - Kinesis Data Streams for real-time ingestion, Firehose for delivery to S3/Redshift, Glue for batch ETL, EMR for large-scale processing.
Understand ETL pipelines - AWS Glue for serverless ETL, EMR with Spark for complex transformations, Glue Data Catalog for metadata management.
Practice data lake architecture - S3 as data lake storage, Glue crawlers for schema discovery, Athena for SQL queries, Lake Formation for governance.
Study Apache Spark - DataFrame API, transformations vs actions, lazy evaluation, RDD operations, Spark SQL for ML data preparation.

Note: This is Domain 1 of 4, representing 20% of exam content.