Add `as_iterable_dataset()` method to DatasetBuilder for streaming from cached Arrow files #7628

ArjunJagdale · 2025-06-19T19:15:41Z

This PR implements builder.as_iterable_dataset(split=...) as discussed in #5481.

It allows users to load an IterableDataset directly from cached Arrow files (using ArrowReader and ArrowExamplesIterable), without loading the full dataset into memory.

This is useful for large-scale training scenarios where memory is constrained. A test has also been added in test_builder.py.

Related to: #5481

Update builder.py

96823d0

This was referenced Jun 19, 2025

Add test for as_iterable_dataset() method in DatasetBuilder #7629

Open

Load a cached dataset as iterable #5481

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add `as_iterable_dataset()` method to DatasetBuilder for streaming from cached Arrow files #7628

Add `as_iterable_dataset()` method to DatasetBuilder for streaming from cached Arrow files #7628

Uh oh!

ArjunJagdale commented Jun 19, 2025

Uh oh!

Uh oh!

Add as_iterable_dataset() method to DatasetBuilder for streaming from cached Arrow files #7628

Are you sure you want to change the base?

Add as_iterable_dataset() method to DatasetBuilder for streaming from cached Arrow files #7628

Uh oh!

Conversation

ArjunJagdale commented Jun 19, 2025

Uh oh!

Uh oh!

Add `as_iterable_dataset()` method to DatasetBuilder for streaming from cached Arrow files #7628

Add `as_iterable_dataset()` method to DatasetBuilder for streaming from cached Arrow files #7628