Dask dataframe scheduling policy by partition order

epizut · December 1, 2022, 5:38pm

I am looking for a way to prioritize by partition/index order. My computation graph contains lots of backward-looking operations (ie: ffill, shift, etc) so there is no way partition n+1 can finish before lower partition n. That’s why prioritizing by partition order will allow me to get faster partial results and use less memory.

Here a non-satisfactory pseudo-code:

# Start async computation by partition/index order
futures = []
for idx, partition in enumerate(dd.partitions):
    futures.append(client.persist(partition, priority=len(dd.partitions)-idx))

# Wait and display partial result
for future in futures:
    print(future.compute())

Unfortunately:

it creates a new graph per partition which is much slower than a single dd.persist()
it breaks the dask dashboard “Groups” view showing many items instead of a single task group:

image912×577 26.8 KB

Topic		Replies	Views
Map_overlap() doesn't pass partitions in a chronological order Dask DataFrame	5	148	September 10, 2024
List of Dask Dataframe operations that could be run in parallel without using map_partitions Dask DataFrame	4	38	December 6, 2024
Please explain sorting Dask DataFrame delayed , distributed	5	1654	May 17, 2023
Cancel map_partitions() based on condition Distributed delayed , distributed	2	324	June 3, 2023
Operations on a partitioned DataFrame not actually distributed across workers Dask DataFrame distributed	4	325	May 13, 2022

Dask dataframe scheduling policy by partition order

Related topics