An AWS Professional Service open source initiative

Pandas on AWS

Easy integration with Athena, Glue, Redshift, Timestream, QuickSight, Chime, CloudWatchLogs, DynamoDB, EMR, SecretManager, PostgreSQL, MySQL, SQLServer and S3 (Parquet, CSV, JSON and EXCEL).

Quick Start

Installation command: pip install awswrangler

For platforms without PyArrow 3 support (e.g. EMR, Glue PySpark Job, MWAA):
pip install pyarrow==2 awswrangler

import awswrangler as wr

import pandas as pd

from datetime import datetime
df = pd.DataFrame({"id": [1, 2], "value": ["foo", "boo"]})
# Storing data on Data Lake

wr.s3.to_parquet(

    df=df,

    path="s3://bucket/dataset/",

    dataset=True,

    database="my_db",

    table="my_table"

)
# Retrieving the data directly from Amazon S3

df = wr.s3.read_parquet("s3://bucket/dataset/", dataset=True)
# Retrieving the data from Amazon Athena

df = wr.athena.read_sql_query("SELECT * FROM my_table", database="my_db")
# Get a Redshift connection from Glue Catalog and retrieving data from Redshift Spectrum

con = wr.redshift.connect("my-glue-connection")

df = wr.redshift.read_sql_query("SELECT * FROM external_schema.my_table", con=con)
 
 

 
To finish reading, please visit source site