megatron-energon
Introduction
General
Installation
Basic Usage
Quickstart
Data Preparation
Data Flow
Task Encoder
Metadataset
Save and Restore
Advanced Usage
Remote Dataset
Custom Sample Loader
Crude Data and How to Cook It 👨🍳
Reproducible Scaling
Packing
Grouping
Joining Datasets
Epochized Blending
Customized Blending
Parallelism
API
Packages and Modules
Command-Line Interface
Internals
Contribution Guidelines
Code Structure
megatron-energon
Index
Index
A
|
B
|
C
|
D
|
E
|
F
|
G
|
H
|
I
|
J
|
L
|
M
|
N
|
O
|
P
|
R
|
S
|
T
|
V
|
W
A
active_worker_batch_index (megatron.energon.WorkerConfig property)
active_worker_config (megatron.energon.WorkerConfig attribute)
active_worker_sample_index (megatron.energon.WorkerConfig property)
answer_weights (megatron.energon.VidQASample attribute)
(megatron.energon.VQASample attribute)
answers (megatron.energon.VidQASample attribute)
(megatron.energon.VQASample attribute)
assert_can_restore() (megatron.energon.BatchDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.SavableDataset method)
assert_worker() (megatron.energon.WorkerConfig method)
audio (megatron.energon.SimilarityInterleavedSample attribute)
audio_clip_duration (megatron.energon.DefaultDecoderWebdatasetFactory attribute)
audio_num_clips (megatron.energon.DefaultDecoderWebdatasetFactory attribute)
AugmentTaskEncoder (class in megatron.energon)
B
BaseCoreDatasetFactory (class in megatron.energon)
BaseWebdatasetFactory (class in megatron.energon)
basic_sample_keys() (in module megatron.energon)
(in module megatron.energon.task_encoder.cooking)
Batch (class in megatron.energon)
batch() (megatron.energon.AugmentTaskEncoder method)
(megatron.energon.DefaultTaskEncoder method)
(megatron.energon.TaskEncoder method)
batch_group_criterion() (megatron.energon.TaskEncoder method)
batch_list() (in module megatron.energon)
batch_pad_stack() (in module megatron.energon)
batch_size (megatron.energon.BatchDataset attribute)
batch_stack() (in module megatron.energon)
BatchDataset (class in megatron.energon)
batcher (megatron.energon.BatchDataset attribute)
(megatron.energon.GroupBatchDataset attribute)
BlendDataset (class in megatron.energon)
block_boxes (megatron.energon.OCRSample attribute)
block_classes (megatron.energon.OCRSample attribute)
block_text (megatron.energon.OCRSample attribute)
buffer_size (megatron.energon.PackingDataset attribute)
build() (megatron.energon.BaseCoreDatasetFactory method)
(megatron.energon.BaseWebdatasetFactory method)
(megatron.energon.JoinedWebdatasetFactory method)
build_batch() (megatron.energon.TaskEncoder method)
build_cook_crude_sample() (megatron.energon.TaskEncoder method)
build_encode_sample() (megatron.energon.TaskEncoder method)
build_train_datasets() (megatron.energon.TaskEncoder method)
build_val_datasets() (megatron.energon.TaskEncoder method)
C
can_restore_sample() (megatron.energon.BatchDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
caption (megatron.energon.CaptioningSample attribute)
CaptioningSample (class in megatron.energon)
CaptioningWebdataset (class in megatron.energon)
chars_boxes (megatron.energon.OCRSample attribute)
chars_text (megatron.energon.OCRSample attribute)
choices (megatron.energon.MultiChoiceVQASample attribute)
cmd_queues (megatron.energon.SavableDataLoader attribute)
concat_pad() (in module megatron.energon)
ConcatDataset (class in megatron.energon)
condition (megatron.energon.Cooker attribute)
(megatron.energon.task_encoder.cooking.Cooker attribute)
config() (megatron.energon.BaseWebdatasetFactory method)
(megatron.energon.BatchDataset method)
(megatron.energon.BlendDataset method)
(megatron.energon.ConcatDataset method)
(megatron.energon.DefaultDecoderWebdatasetFactory method)
(megatron.energon.DefaultGenericWebdatasetFactory method)
(megatron.energon.EpochizeDataset method)
(megatron.energon.FilterDataset method)
(megatron.energon.GcDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.JoinedWebdatasetFactory method)
(megatron.energon.LimitDataset method)
(megatron.energon.LogSampleDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.MixBatchDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.RepeatDataset method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
(megatron.energon.ShuffleBufferDataset method)
(megatron.energon.WorkerConfig method)
context (megatron.energon.MultiChoiceVQASample attribute)
(megatron.energon.VidQASample attribute)
(megatron.energon.VQASample attribute)
cook (megatron.energon.Cooker attribute)
(megatron.energon.task_encoder.cooking.Cooker attribute)
cook_crude_sample() (megatron.energon.TaskEncoder method)
Cooker (class in megatron.energon)
(class in megatron.energon.task_encoder.cooking)
cookers (megatron.energon.TaskEncoder attribute)
correct_choice_idx (megatron.energon.MultiChoiceVQASample attribute)
CrudeSample (class in megatron.energon)
CrudeWebdataset (class in megatron.energon)
current_batch_index (megatron.energon.TaskEncoder property)
current_offset (megatron.energon.LimitDataset attribute)
current_sample_index (megatron.energon.TaskEncoder property)
D
data_parallel_group (megatron.energon.WorkerConfig attribute)
dataset (megatron.energon.SavableDataLoader attribute)
dataset_config (megatron.energon.DatasetLoader attribute)
DatasetLoader (class in megatron.energon)
DatasetLoaderInterface (class in megatron.energon)
default_worker_config() (megatron.energon.WorkerConfig static method)
DefaultDecoderWebdatasetFactory (class in megatron.energon)
DefaultGenericWebdatasetFactory (class in megatron.energon)
DefaultTaskEncoder (class in megatron.energon)
derive_from() (megatron.energon.Sample class method)
drop_last (megatron.energon.BatchDataset attribute)
(megatron.energon.GroupBatchDataset attribute)
E
encode_batch() (megatron.energon.AugmentTaskEncoder method)
(megatron.energon.DefaultTaskEncoder method)
(megatron.energon.TaskEncoder method)
encode_sample() (megatron.energon.AugmentTaskEncoder method)
(megatron.energon.DefaultTaskEncoder method)
(megatron.energon.TaskEncoder method)
EpochizeDataset (class in megatron.energon)
error_handler (megatron.energon.BatchDataset attribute)
(megatron.energon.GroupBatchDataset attribute)
(megatron.energon.IterMapDataset attribute)
(megatron.energon.MapDataset attribute)
(megatron.energon.PackingDataset attribute)
every_n_iter (megatron.energon.GcDataset attribute)
exhausted (megatron.energon.BlendDataset attribute)
F
filter_fn (megatron.energon.FilterDataset attribute)
filter_fn_config (megatron.energon.FilterDataset attribute)
FilterDataset (class in megatron.energon)
final_packer (megatron.energon.PackingDataset attribute)
final_packer_stateless (megatron.energon.PackingDataset attribute)
freeze (megatron.energon.GcDataset attribute)
from_joined() (megatron.energon.Sample class method)
G
GcDataset (class in megatron.energon)
generic_batch() (in module megatron.energon)
generic_concat() (in module megatron.energon)
get_dataset() (megatron.energon.DatasetLoader method)
get_datasets() (megatron.energon.DatasetLoader method)
(megatron.energon.DatasetLoaderInterface method)
(megatron.energon.Metadataset method)
(megatron.energon.MetadatasetV2 method)
get_keys_fn (megatron.energon.LogSampleDataset attribute)
get_loader() (in module megatron.energon)
get_savable_loader() (in module megatron.energon)
get_train_dataset() (in module megatron.energon)
get_val_dataset() (in module megatron.energon)
get_val_datasets() (in module megatron.energon)
global_rank() (megatron.energon.WorkerConfig method)
global_worker_id() (megatron.energon.WorkerConfig method)
GroupBatchDataset (class in megatron.energon)
H
has_subflavors (megatron.energon.Cooker attribute)
(megatron.energon.task_encoder.cooking.Cooker attribute)
homogeneous_concat_mix() (in module megatron.energon)
I
id (megatron.energon.SavableDataLoader attribute)
ignore_decoder_errors (megatron.energon.DefaultDecoderWebdatasetFactory attribute)
image (megatron.energon.CaptioningSample attribute)
(megatron.energon.ImageClassificationSample attribute)
(megatron.energon.ImageSample attribute)
(megatron.energon.MultiChoiceVQASample attribute)
(megatron.energon.OCRSample attribute)
(megatron.energon.VQASample attribute)
image_decode (megatron.energon.DefaultDecoderWebdatasetFactory attribute)
ImageClassificationSample (class in megatron.energon)
ImageClassificationWebdataset (class in megatron.energon)
images (megatron.energon.SimilarityInterleavedSample attribute)
ImageSample (class in megatron.energon)
ImageWebdataset (class in megatron.energon)
inner_dataset_keys (megatron.energon.JoinedWebdatasetFactory attribute)
inner_datasets (megatron.energon.JoinedWebdatasetFactory attribute)
InterleavedSample (class in megatron.energon)
InterleavedWebdataset (class in megatron.energon)
is_match() (megatron.energon.Cooker method)
(megatron.energon.task_encoder.cooking.Cooker method)
is_subflavor (megatron.energon.Cooker attribute)
(megatron.energon.task_encoder.cooking.Cooker attribute)
iter_map_fn (megatron.energon.IterMapDataset attribute)
iter_map_fn_config (megatron.energon.IterMapDataset attribute)
IterMapDataset (class in megatron.energon)
J
join_index (megatron.energon.JoinedWebdatasetFactory attribute)
JoinedWebdatasetFactory (class in megatron.energon)
L
label (megatron.energon.ImageClassificationSample attribute)
label_name (megatron.energon.ImageClassificationSample attribute)
len_map_fn (megatron.energon.IterMapDataset attribute)
length (megatron.energon.EpochizeDataset attribute)
(megatron.energon.LimitDataset attribute)
LimitDataset (class in megatron.energon)
lines_boxes (megatron.energon.OCRSample attribute)
lines_text (megatron.energon.OCRSample attribute)
load_dataset() (in module megatron.energon)
load_sample() (megatron.energon.BaseWebdatasetFactory method)
(megatron.energon.DefaultDecoderWebdatasetFactory method)
(megatron.energon.DefaultGenericWebdatasetFactory method)
(megatron.energon.JoinedWebdatasetFactory method)
LogSampleDataset (class in megatron.energon)
M
map_fn (megatron.energon.MapDataset attribute)
map_fn_config (megatron.energon.MapDataset attribute)
MapDataset (class in megatron.energon)
matched_text_indices (megatron.energon.SimilarityInterleavedSample attribute)
max_samples_per_sequence (megatron.energon.JoinedWebdatasetFactory attribute)
megatron.energon
module
megatron.energon.task_encoder.cooking
module
Metadataset (class in megatron.energon)
MetadatasetV2 (class in megatron.energon)
MixBatchDataset (class in megatron.energon)
mode (megatron.energon.LogSampleDataset attribute)
module
megatron.energon
megatron.energon.task_encoder.cooking
MultiChoiceVQASample (class in megatron.energon)
MultiChoiceVQAWebdataset (class in megatron.energon)
N
next_id() (megatron.energon.SavableDataLoader static method)
num_workers (megatron.energon.WorkerConfig attribute)
O
OCRSample (class in megatron.energon)
OCRWebdataset (class in megatron.energon)
P
pack_selected_samples() (megatron.energon.TaskEncoder method)
packer_config (megatron.energon.PackingDataset attribute)
PackingDataset (class in megatron.energon)
parallel_shard_iters (megatron.energon.JoinedWebdatasetFactory attribute)
part_datasets (megatron.energon.JoinedWebdatasetFactory attribute)
path (megatron.energon.BaseWebdatasetFactory attribute)
(megatron.energon.DatasetLoader attribute)
(megatron.energon.MetadatasetV2 attribute)
paths (megatron.energon.BaseCoreDatasetFactory attribute)
(megatron.energon.JoinedWebdatasetFactory property)
post_initialize() (megatron.energon.DatasetLoader method)
(megatron.energon.DatasetLoaderInterface method)
(megatron.energon.Metadataset method)
(megatron.energon.MetadatasetV2 method)
pre_packer (megatron.energon.PackingDataset attribute)
prepare() (megatron.energon.DatasetLoaderInterface method)
(megatron.energon.MetadatasetV2 method)
prepare_metadataset() (in module megatron.energon)
R
rank (megatron.energon.WorkerConfig attribute)
rank_shards (megatron.energon.BaseWebdatasetFactory attribute)
rank_worker_id() (megatron.energon.WorkerConfig method)
RepeatDataset (class in megatron.energon)
repeats (megatron.energon.RepeatDataset attribute)
reset_state_deep() (megatron.energon.SavableDataset method)
reset_state_own() (megatron.energon.BatchDataset method)
(megatron.energon.BlendDataset method)
(megatron.energon.ConcatDataset method)
(megatron.energon.EpochizeDataset method)
(megatron.energon.FilterDataset method)
(megatron.energon.GcDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.LimitDataset method)
(megatron.energon.LogSampleDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.MixBatchDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.RepeatDataset method)
(megatron.energon.SavableDataset method)
(megatron.energon.ShuffleBufferDataset method)
restore_sample() (megatron.energon.BatchDataset method)
(megatron.energon.FilterDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
(megatron.energon.ShuffleBufferDataset method)
restore_state() (megatron.energon.GroupBatchDataset method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
restore_state_global() (megatron.energon.SavableDataLoader method)
restore_state_rank() (megatron.energon.SavableDataLoader method)
result_queues (megatron.energon.SavableDataLoader attribute)
S
Sample (class in megatron.energon)
sample_filter() (megatron.energon.BaseWebdatasetFactory method)
sample_group_key (megatron.energon.GroupBatchDataset attribute)
SavableDataLoader (class in megatron.energon)
SavableDataset (class in megatron.energon)
save_state() (megatron.energon.GroupBatchDataset method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
save_state_global() (megatron.energon.SavableDataLoader method)
save_state_rank() (megatron.energon.SavableDataLoader method)
seed_offset (megatron.energon.WorkerConfig attribute)
select_samples_to_pack() (megatron.energon.TaskEncoder method)
sequence (megatron.energon.InterleavedSample attribute)
shards (megatron.energon.BaseWebdatasetFactory attribute)
(megatron.energon.JoinedWebdatasetFactory attribute)
should_log() (megatron.energon.WorkerConfig method)
shuffle_over_epochs (megatron.energon.JoinedWebdatasetFactory attribute)
shuffle_over_epochs_multiplier (megatron.energon.DatasetLoader attribute)
ShuffleBufferDataset (class in megatron.energon)
similarity_matrix (megatron.energon.SimilarityInterleavedSample attribute)
SimilarityInterleavedSample (class in megatron.energon)
SimilarityInterleavedWebdataset (class in megatron.energon)
size (megatron.energon.ShuffleBufferDataset attribute)
SkipSample
split_config (megatron.energon.DatasetLoader attribute)
split_part (megatron.energon.DatasetLoader attribute)
splits (megatron.energon.MetadatasetV2 attribute)
StandardWebdatasetFactory (class in megatron.energon)
stateless() (in module megatron.energon)
stateless_iter_fn (megatron.energon.IterMapDataset attribute)
stateless_map_fn (megatron.energon.MapDataset attribute)
subflavor (megatron.energon.BaseCoreDatasetFactory attribute)
(megatron.energon.DatasetLoader attribute)
subflavors (megatron.energon.BaseCoreDatasetFactory attribute)
(megatron.energon.DatasetLoader attribute)
T
TaskEncoder (class in megatron.energon)
text (megatron.energon.OCRSample attribute)
(megatron.energon.TextSample attribute)
texts (megatron.energon.SimilarityInterleavedSample attribute)
TextSample (class in megatron.energon)
TextWebdataset (class in megatron.energon)
training (megatron.energon.BaseWebdatasetFactory attribute)
(megatron.energon.JoinedWebdatasetFactory attribute)
V
video (megatron.energon.SimilarityInterleavedSample attribute)
(megatron.energon.VidQASample attribute)
video_decode (megatron.energon.DefaultDecoderWebdatasetFactory attribute)
video_decode_audio (megatron.energon.DefaultDecoderWebdatasetFactory attribute)
video_num_frames (megatron.energon.DefaultDecoderWebdatasetFactory attribute)
video_out_frame_size (megatron.energon.DefaultDecoderWebdatasetFactory attribute)
VidQASample (class in megatron.energon)
VidQAWebdataset (class in megatron.energon)
VQAOCRWebdataset (class in megatron.energon)
VQASample (class in megatron.energon)
VQAWebdataset (class in megatron.energon)
W
weights (megatron.energon.BlendDataset attribute)
words_boxes (megatron.energon.OCRSample attribute)
words_text (megatron.energon.OCRSample attribute)
worker_activate() (megatron.energon.WorkerConfig method)
worker_config (megatron.energon.BaseWebdatasetFactory attribute)
(megatron.energon.JoinedWebdatasetFactory attribute)
(megatron.energon.SavableDataLoader attribute)
(megatron.energon.SavableDataset attribute)
worker_deactivate() (megatron.energon.WorkerConfig method)
worker_debug_path (megatron.energon.WorkerConfig attribute)
worker_has_samples() (megatron.energon.LimitDataset method)
(megatron.energon.SavableDataset method)
worker_id_offset (megatron.energon.WorkerConfig attribute)
worker_log() (megatron.energon.WorkerConfig method)
worker_log_level (megatron.energon.WorkerConfig attribute)
worker_pop_sample_index() (megatron.energon.WorkerConfig method)
worker_push_sample_index() (megatron.energon.WorkerConfig method)
worker_seed() (megatron.energon.WorkerConfig method)
WorkerConfig (class in megatron.energon)
world_size (megatron.energon.WorkerConfig attribute)