Why dd.repartition() is using round divisions

epizut · November 16, 2022, 9:43am

I am wondering why repartition(freq='24h') is resulting in round divisions.

Dask dataframe with divisions aligned on 12:00:00

df = dask.datasets.timeseries().compute()
df.index += pd.to_timedelta('12:00:00')
dd = dask.dataframe.from_pandas(df, npartitions=15)
dd

repartition(freq=‘24h’) is resulting in round divisions:

dd.repartition(freq='24h')

Expected result

Same happens with '1d' and pd.to_timedelta('1d') because Dask repartition_freq() explicitly ceils the first division, but I am unable to understand why it’s a good idea, and how can I bypass this?

def repartition_freq(df, freq=None):
    [...]
    try:
        start = df.divisions[0].ceil(freq)
    except ValueError:
        start = df.divisions[0]

Topic		Replies	Views
Why align_partitions() use force=True? Dask DataFrame	5	770	February 6, 2023
Re-partioning data frame and saving to parquet loses index and divisions Dask DataFrame parquet , indexing , partitioning	2	38	February 20, 2025
Divisions Lost When Writing as Parquet Dask DataFrame	1	170	July 27, 2022
Best way to partition a dataframe respecting boundaries of row subgroups Dask DataFrame	1	210	April 28, 2022
Maintaining index between .values and .to_dask_dataframe Dask DataFrame	3	130	February 23, 2024

Why dd.repartition() is using round divisions

Related topics