megatron-energon
Introduction
General
Installation
Basic Usage
Quickstart
Data Preparation
Data Decoding
Data Flow
Task Encoder
Metadataset
Save and Restore
Glossary
Advanced Usage
Remote Dataset
Crude Datasets and Auxiliary Data
Custom Sample Loader
Reproducible Scaling
Packing
Grouping
Joining Datasets
Epochized Blending
Customized Blending
Parallelism
API
Packages and Modules
Command-Line Interface
Internals
Contribution Guidelines
Code Structure
megatron-energon
Index
Index
_
|
A
|
B
|
C
|
D
|
E
|
F
|
G
|
H
|
I
|
J
|
L
|
M
|
N
|
O
|
P
|
R
|
S
|
T
|
V
|
W
_
__init__() (megatron.energon.AugmentTaskEncoder method)
(megatron.energon.BaseWebdatasetFactory method)
(megatron.energon.BatchDataset method)
(megatron.energon.BlendDataset method)
(megatron.energon.ConcatDataset method)
(megatron.energon.CrudeWebdataset method)
(megatron.energon.DecodeFileStore method)
(megatron.energon.DefaultDecoderWebdatasetFactory method)
(megatron.energon.DefaultGenericWebdatasetFactory method)
(megatron.energon.DefaultTaskEncoder method)
(megatron.energon.EpochizeDataset method)
(megatron.energon.FileStoreCachePool method)
(megatron.energon.FilterDataset method)
(megatron.energon.GcDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.JoinedWebdatasetFactory method)
(megatron.energon.LimitDataset method)
(megatron.energon.LogSampleDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.Metadataset method)
(megatron.energon.MixBatchDataset method)
(megatron.energon.MockLazy method)
(megatron.energon.PackingDataset method)
(megatron.energon.RepeatDataset method)
(megatron.energon.SampleDecoder method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.ShuffleBufferDataset method)
(megatron.energon.StandardWebdatasetFactory method)
(megatron.energon.SystemFileStore method)
A
active_worker_batch_index (megatron.energon.WorkerConfig property)
active_worker_config (megatron.energon.WorkerConfig attribute)
active_worker_sample_index (megatron.energon.WorkerConfig property)
answer_weights (megatron.energon.VidQASample attribute)
(megatron.energon.VQASample attribute)
answers (megatron.energon.VidQASample attribute)
(megatron.energon.VQASample attribute)
as_file_store() (megatron.energon.BaseCoreDatasetFactory method)
(megatron.energon.BaseWebdatasetFactory method)
(megatron.energon.JoinedWebdatasetFactory method)
assert_can_restore() (megatron.energon.BatchDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.SavableDataset method)
assert_worker() (megatron.energon.WorkerConfig method)
audio (megatron.energon.SimilarityInterleavedSample attribute)
audio_clips (megatron.energon.av.AVData attribute)
audio_timestamps (megatron.energon.av.AVData attribute)
AugmentTaskEncoder (class in megatron.energon)
AVData (class in megatron.energon.av)
AVDecoder (class in megatron.energon.av)
AVWebdatasetDecoder (class in megatron.energon.av)
B
BaseCoreDatasetFactory (class in megatron.energon)
BaseWebdatasetFactory (class in megatron.energon)
basic_sample_keys() (in module megatron.energon)
(in module megatron.energon.task_encoder.cooking)
Batch (class in megatron.energon)
batch() (megatron.energon.AugmentTaskEncoder method)
(megatron.energon.DefaultTaskEncoder method)
(megatron.energon.TaskEncoder method)
batch_group_criterion() (megatron.energon.TaskEncoder method)
batch_list() (in module megatron.energon)
batch_pad_stack() (in module megatron.energon)
batch_size (megatron.energon.BatchDataset attribute)
batch_stack() (in module megatron.energon)
BatchDataset (class in megatron.energon)
batcher (megatron.energon.BatchDataset attribute)
(megatron.energon.GroupBatchDataset attribute)
BlendDataset (class in megatron.energon)
block_boxes (megatron.energon.OCRSample attribute)
block_classes (megatron.energon.OCRSample attribute)
block_text (megatron.energon.OCRSample attribute)
buffer_size (megatron.energon.PackingDataset attribute)
build() (megatron.energon.BaseCoreDatasetFactory method)
(megatron.energon.BaseWebdatasetFactory method)
(megatron.energon.JoinedWebdatasetFactory method)
build_batch() (megatron.energon.TaskEncoder method)
build_cook_crude_sample() (megatron.energon.TaskEncoder method)
build_encode_sample() (megatron.energon.TaskEncoder method)
build_train_datasets() (megatron.energon.TaskEncoder method)
build_val_datasets() (megatron.energon.TaskEncoder method)
C
cache (megatron.energon.TaskEncoder property)
cache_dir (megatron.energon.FileStoreCachePool attribute)
CachePool (class in megatron.energon)
can_restore_sample() (megatron.energon.BatchDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
caption (megatron.energon.CaptioningSample attribute)
CaptioningSample (class in megatron.energon)
CaptioningWebdataset (class in megatron.energon)
chars_boxes (megatron.energon.OCRSample attribute)
chars_text (megatron.energon.OCRSample attribute)
choices (megatron.energon.MultiChoiceVQASample attribute)
close() (megatron.energon.CachePool method)
(megatron.energon.FileStoreCachePool method)
(megatron.energon.NoCachePool method)
cmd_queues (megatron.energon.SavableDataLoader attribute)
concat_pad() (in module megatron.energon)
ConcatDataset (class in megatron.energon)
config() (megatron.energon.BaseWebdatasetFactory method)
(megatron.energon.BatchDataset method)
(megatron.energon.BlendDataset method)
(megatron.energon.ConcatDataset method)
(megatron.energon.DefaultDecoderWebdatasetFactory method)
(megatron.energon.DefaultGenericWebdatasetFactory method)
(megatron.energon.EpochizeDataset method)
(megatron.energon.FilterDataset method)
(megatron.energon.GcDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.JoinedWebdatasetFactory method)
(megatron.energon.LimitDataset method)
(megatron.energon.LogSampleDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.MixBatchDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.RepeatDataset method)
(megatron.energon.SampleDecoder method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
(megatron.energon.ShuffleBufferDataset method)
(megatron.energon.WorkerConfig method)
context (megatron.energon.MultiChoiceVQASample attribute)
(megatron.energon.VidQASample attribute)
(megatron.energon.VQASample attribute)
cook (megatron.energon.Cooker attribute)
(megatron.energon.task_encoder.cooking.Cooker attribute)
cook_crude_sample() (megatron.energon.TaskEncoder method)
Cooker (class in megatron.energon)
(class in megatron.energon.task_encoder.cooking)
cooker() (in module megatron.energon)
(in module megatron.energon.task_encoder.cooking)
cookers (megatron.energon.TaskEncoder attribute)
correct_choice_idx (megatron.energon.MultiChoiceVQASample attribute)
CrudeSample (class in megatron.energon)
CrudeWebdataset (class in megatron.energon)
current_batch_index (megatron.energon.TaskEncoder property)
current_cache_count (megatron.energon.FileStoreCachePool attribute)
current_cache_size (megatron.energon.FileStoreCachePool attribute)
current_offset (megatron.energon.LimitDataset attribute)
current_sample_index (megatron.energon.TaskEncoder property)
D
data_parallel_group (megatron.energon.WorkerConfig attribute)
dataset (megatron.energon.SavableDataLoader attribute)
dataset_config (megatron.energon.DatasetLoader attribute)
dataset_path (megatron.energon.SourceInfo attribute)
DatasetLoader (class in megatron.energon)
DatasetLoaderInterface (class in megatron.energon)
decode() (megatron.energon.FileStoreDecoder method)
(megatron.energon.SampleDecoder method)
DecodeFileStore (class in megatron.energon)
decoder (megatron.energon.AugmentTaskEncoder property)
(megatron.energon.TaskEncoder attribute)
default_worker_config() (megatron.energon.WorkerConfig static method)
DefaultDecoderWebdatasetFactory (class in megatron.energon)
DefaultGenericWebdatasetFactory (class in megatron.energon)
DefaultTaskEncoder (class in megatron.energon)
derive_from() (megatron.energon.Batch class method)
(megatron.energon.Sample class method)
DirectLazy (class in megatron.energon)
drop_last (megatron.energon.BatchDataset attribute)
(megatron.energon.GroupBatchDataset attribute)
ds (megatron.energon.Lazy attribute)
E
encode_batch() (megatron.energon.AugmentTaskEncoder method)
(megatron.energon.DefaultTaskEncoder method)
(megatron.energon.TaskEncoder method)
encode_sample() (megatron.energon.AugmentTaskEncoder method)
(megatron.energon.DefaultTaskEncoder method)
(megatron.energon.TaskEncoder method)
entry (megatron.energon.FileCacheLazy attribute)
EpochizeDataset (class in megatron.energon)
error_handler (megatron.energon.BatchDataset attribute)
(megatron.energon.GroupBatchDataset attribute)
(megatron.energon.IterMapDataset attribute)
(megatron.energon.MapDataset attribute)
(megatron.energon.PackingDataset attribute)
every_n_iter (megatron.energon.GcDataset attribute)
exhausted (megatron.energon.BlendDataset attribute)
F
file_names (megatron.energon.SourceInfo attribute)
FileCacheLazy (class in megatron.energon)
FileStore (class in megatron.energon)
FileStoreCachePool (class in megatron.energon)
FileStoreDecoder (class in megatron.energon)
filter_fn (megatron.energon.FilterDataset attribute)
filter_fn_config (megatron.energon.FilterDataset attribute)
FilterDataset (class in megatron.energon)
final_packer (megatron.energon.PackingDataset attribute)
final_packer_stateless (megatron.energon.PackingDataset attribute)
fname (megatron.energon.Lazy attribute)
freeze (megatron.energon.GcDataset attribute)
from_joined() (megatron.energon.Sample class method)
from_samples() (megatron.energon.Batch class method)
G
GcDataset (class in megatron.energon)
generic_batch() (in module megatron.energon)
generic_concat() (in module megatron.energon)
get() (megatron.energon.CachePool method)
(megatron.energon.DirectLazy method)
(megatron.energon.FileCacheLazy method)
(megatron.energon.FileStore method)
(megatron.energon.FileStoreCachePool method)
(megatron.energon.Lazy method)
(megatron.energon.MockLazy method)
(megatron.energon.NoCachePool method)
get_audio() (megatron.energon.av.AVDecoder method)
get_audio_clips() (megatron.energon.av.AVDecoder method)
get_audio_duration() (megatron.energon.av.AVDecoder method)
get_audio_samples_per_second() (megatron.energon.av.AVDecoder method)
get_clips() (megatron.energon.av.AVDecoder method)
get_clips_uniform() (in module megatron.energon.av)
get_cooker_need_cache() (in module megatron.energon.task_encoder.cooking)
get_cooker_need_primary() (in module megatron.energon.task_encoder.cooking)
get_dataset() (megatron.energon.DatasetLoader method)
get_datasets() (megatron.energon.DatasetLoader method)
(megatron.energon.DatasetLoaderInterface method)
(megatron.energon.Metadataset method)
(megatron.energon.MetadatasetV2 method)
get_fn (megatron.energon.MockLazy attribute)
get_frames() (megatron.energon.av.AVDecoder method)
get_keys_fn (megatron.energon.LogSampleDataset attribute)
get_lazy() (megatron.energon.CachePool method)
(megatron.energon.FileStoreCachePool method)
(megatron.energon.NoCachePool method)
get_loader() (in module megatron.energon)
get_path() (megatron.energon.DecodeFileStore method)
(megatron.energon.FileStore method)
(megatron.energon.SystemFileStore method)
get_savable_loader() (in module megatron.energon)
get_single_frames_uniform() (in module megatron.energon.av)
get_train_dataset() (in module megatron.energon)
get_val_dataset() (in module megatron.energon)
get_val_datasets() (in module megatron.energon)
get_video() (megatron.energon.av.AVDecoder method)
get_video_clips() (megatron.energon.av.AVDecoder method)
get_video_duration() (megatron.energon.av.AVDecoder method)
get_video_fps() (megatron.energon.av.AVDecoder method)
get_video_with_audio() (megatron.energon.av.AVDecoder method)
global_rank() (megatron.energon.WorkerConfig method)
global_worker_id() (megatron.energon.WorkerConfig method)
GroupBatchDataset (class in megatron.energon)
H
has_audio_stream() (megatron.energon.av.AVDecoder method)
has_subflavors (megatron.energon.Cooker attribute)
(megatron.energon.task_encoder.cooking.Cooker attribute)
has_video_stream() (megatron.energon.av.AVDecoder method)
homogeneous_concat_mix() (in module megatron.energon)
I
id (megatron.energon.SavableDataLoader attribute)
image (megatron.energon.CaptioningSample attribute)
(megatron.energon.ImageClassificationSample attribute)
(megatron.energon.ImageSample attribute)
(megatron.energon.MultiChoiceVQASample attribute)
(megatron.energon.OCRSample attribute)
(megatron.energon.VQASample attribute)
ImageClassificationSample (class in megatron.energon)
ImageClassificationWebdataset (class in megatron.energon)
images (megatron.energon.SimilarityInterleavedSample attribute)
ImageSample (class in megatron.energon)
ImageWebdataset (class in megatron.energon)
index (megatron.energon.SourceInfo attribute)
inner_dataset_keys (megatron.energon.JoinedWebdatasetFactory attribute)
inner_datasets (megatron.energon.JoinedWebdatasetFactory attribute)
InterleavedSample (class in megatron.energon)
InterleavedWebdataset (class in megatron.energon)
is_match() (megatron.energon.Cooker method)
(megatron.energon.task_encoder.cooking.Cooker method)
iter_map_fn (megatron.energon.IterMapDataset attribute)
iter_map_fn_config (megatron.energon.IterMapDataset attribute)
IterMapDataset (class in megatron.energon)
J
join_index (megatron.energon.JoinedWebdatasetFactory attribute)
JoinedWebdatasetFactory (class in megatron.energon)
L
label (megatron.energon.ImageClassificationSample attribute)
label_name (megatron.energon.ImageClassificationSample attribute)
Lazy (class in megatron.energon)
len_map_fn (megatron.energon.IterMapDataset attribute)
length (megatron.energon.EpochizeDataset attribute)
(megatron.energon.LimitDataset attribute)
LimitDataset (class in megatron.energon)
lines_boxes (megatron.energon.OCRSample attribute)
lines_text (megatron.energon.OCRSample attribute)
load_dataset() (in module megatron.energon)
load_sample() (megatron.energon.BaseWebdatasetFactory method)
(megatron.energon.DefaultDecoderWebdatasetFactory method)
(megatron.energon.DefaultGenericWebdatasetFactory method)
(megatron.energon.JoinedWebdatasetFactory method)
LogSampleDataset (class in megatron.energon)
M
map_fn (megatron.energon.MapDataset attribute)
map_fn_config (megatron.energon.MapDataset attribute)
MapDataset (class in megatron.energon)
matched_text_indices (megatron.energon.SimilarityInterleavedSample attribute)
max_cache_count (megatron.energon.FileStoreCachePool attribute)
max_cache_size (megatron.energon.FileStoreCachePool attribute)
max_samples_per_sequence (megatron.energon.JoinedWebdatasetFactory attribute)
megatron.energon
module
megatron.energon.av
module
megatron.energon.task_encoder.cooking
module
Metadataset (class in megatron.energon)
MetadatasetV2 (class in megatron.energon)
method (megatron.energon.FileStoreCachePool attribute)
MixBatchDataset (class in megatron.energon)
MockLazy (class in megatron.energon)
mode (megatron.energon.LogSampleDataset attribute)
module
megatron.energon
megatron.energon.av
megatron.energon.task_encoder.cooking
MultiChoiceVQASample (class in megatron.energon)
MultiChoiceVQAWebdataset (class in megatron.energon)
N
need_cache (megatron.energon.Cooker property)
(megatron.energon.task_encoder.cooking.Cooker property)
need_primary (megatron.energon.Cooker property)
(megatron.energon.task_encoder.cooking.Cooker property)
next_id() (megatron.energon.SavableDataLoader static method)
NoCachePool (class in megatron.energon)
num_workers (megatron.energon.WorkerConfig attribute)
O
OCRSample (class in megatron.energon)
OCRWebdataset (class in megatron.energon)
P
pack_selected_samples() (megatron.energon.TaskEncoder method)
packer_config (megatron.energon.PackingDataset attribute)
PackingDataset (class in megatron.energon)
parallel_shard_iters (megatron.energon.JoinedWebdatasetFactory attribute)
part_datasets (megatron.energon.JoinedWebdatasetFactory attribute)
path (megatron.energon.BaseWebdatasetFactory attribute)
(megatron.energon.DatasetLoader attribute)
(megatron.energon.MetadatasetV2 attribute)
paths (megatron.energon.BaseCoreDatasetFactory attribute)
(megatron.energon.JoinedWebdatasetFactory property)
pool (megatron.energon.Lazy attribute)
post_initialize() (megatron.energon.DatasetLoader method)
(megatron.energon.DatasetLoaderInterface method)
(megatron.energon.Metadataset method)
(megatron.energon.MetadatasetV2 method)
postencode_sample() (megatron.energon.TaskEncoder method)
pre_packer (megatron.energon.PackingDataset attribute)
preencode_sample() (megatron.energon.TaskEncoder method)
prepare() (megatron.energon.DatasetLoaderInterface method)
(megatron.energon.MetadatasetV2 method)
prepare_metadataset() (in module megatron.energon)
R
rank (megatron.energon.WorkerConfig attribute)
rank_shards (megatron.energon.BaseWebdatasetFactory attribute)
rank_worker_id() (megatron.energon.WorkerConfig method)
read_av_data() (megatron.energon.av.AVWebdatasetDecoder method)
RepeatDataset (class in megatron.energon)
repeats (megatron.energon.RepeatDataset attribute)
reset_state_deep() (megatron.energon.SavableDataset method)
reset_state_own() (megatron.energon.BatchDataset method)
(megatron.energon.BlendDataset method)
(megatron.energon.ConcatDataset method)
(megatron.energon.EpochizeDataset method)
(megatron.energon.FilterDataset method)
(megatron.energon.GcDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.LimitDataset method)
(megatron.energon.LogSampleDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.MixBatchDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.RepeatDataset method)
(megatron.energon.SavableDataset method)
(megatron.energon.ShuffleBufferDataset method)
restore_sample() (megatron.energon.BatchDataset method)
(megatron.energon.GroupBatchDataset method)
(megatron.energon.IterMapDataset method)
(megatron.energon.MapDataset method)
(megatron.energon.PackingDataset method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
(megatron.energon.ShuffleBufferDataset method)
restore_state() (megatron.energon.GroupBatchDataset method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
restore_state_global() (megatron.energon.SavableDataLoader method)
restore_state_rank() (megatron.energon.SavableDataLoader method)
result_queues (megatron.energon.SavableDataLoader attribute)
S
Sample (class in megatron.energon)
sample_encoder (megatron.energon.PackingDataset attribute)
sample_encoder_stateless (megatron.energon.PackingDataset attribute)
sample_filter() (megatron.energon.BaseWebdatasetFactory method)
sample_group_key (megatron.energon.GroupBatchDataset attribute)
SampleDecoder (class in megatron.energon)
SavableDataLoader (class in megatron.energon)
SavableDataset (class in megatron.energon)
save_state() (megatron.energon.GroupBatchDataset method)
(megatron.energon.SavableDataLoader method)
(megatron.energon.SavableDataset method)
save_state_global() (megatron.energon.SavableDataLoader method)
save_state_rank() (megatron.energon.SavableDataLoader method)
seed_offset (megatron.energon.WorkerConfig attribute)
seeker (megatron.energon.av.AVDecoder attribute)
select_samples_to_pack() (megatron.energon.TaskEncoder method)
sequence (megatron.energon.InterleavedSample attribute)
shard_name (megatron.energon.SourceInfo attribute)
shards (megatron.energon.BaseWebdatasetFactory attribute)
(megatron.energon.JoinedWebdatasetFactory attribute)
should_log() (megatron.energon.WorkerConfig method)
shuffle_over_epochs (megatron.energon.JoinedWebdatasetFactory attribute)
shuffle_over_epochs_multiplier (megatron.energon.DatasetLoader attribute)
ShuffleBufferDataset (class in megatron.energon)
similarity_matrix (megatron.energon.SimilarityInterleavedSample attribute)
SimilarityInterleavedSample (class in megatron.energon)
SimilarityInterleavedWebdataset (class in megatron.energon)
size (megatron.energon.ShuffleBufferDataset attribute)
SkipSample
SourceInfo (class in megatron.energon)
split_config (megatron.energon.DatasetLoader attribute)
split_part (megatron.energon.DatasetLoader attribute)
splits (megatron.energon.MetadatasetV2 attribute)
StandardWebdatasetFactory (class in megatron.energon)
stateless() (in module megatron.energon)
stateless_iter_fn (megatron.energon.IterMapDataset attribute)
stateless_map_fn (megatron.energon.MapDataset attribute)
stream (megatron.energon.av.AVDecoder attribute)
subflavors (megatron.energon.BaseCoreDatasetFactory attribute)
(megatron.energon.DatasetLoader attribute)
suppress_warnings (megatron.energon.av.AVDecoder attribute)
SystemFileStore (class in megatron.energon)
T
TaskEncoder (class in megatron.energon)
text (megatron.energon.OCRSample attribute)
(megatron.energon.TextSample attribute)
texts (megatron.energon.SimilarityInterleavedSample attribute)
TextSample (class in megatron.energon)
TextWebdataset (class in megatron.energon)
training (megatron.energon.BaseWebdatasetFactory attribute)
(megatron.energon.JoinedWebdatasetFactory attribute)
V
video (megatron.energon.SimilarityInterleavedSample attribute)
(megatron.energon.VidQASample attribute)
video_clips (megatron.energon.av.AVData attribute)
video_timestamps (megatron.energon.av.AVData attribute)
VidQASample (class in megatron.energon)
VidQAWebdataset (class in megatron.energon)
VQAOCRWebdataset (class in megatron.energon)
VQASample (class in megatron.energon)
VQAWebdataset (class in megatron.energon)
W
weights (megatron.energon.BlendDataset attribute)
words_boxes (megatron.energon.OCRSample attribute)
words_text (megatron.energon.OCRSample attribute)
worker_activate() (megatron.energon.WorkerConfig method)
worker_config (megatron.energon.BaseWebdatasetFactory attribute)
(megatron.energon.JoinedWebdatasetFactory attribute)
(megatron.energon.SavableDataLoader attribute)
(megatron.energon.SavableDataset attribute)
worker_deactivate() (megatron.energon.WorkerConfig method)
worker_debug_path (megatron.energon.WorkerConfig attribute)
worker_has_samples() (megatron.energon.LimitDataset method)
(megatron.energon.SavableDataset method)
worker_id_offset (megatron.energon.WorkerConfig attribute)
worker_log() (megatron.energon.WorkerConfig method)
worker_log_level (megatron.energon.WorkerConfig attribute)
worker_pop_sample_index() (megatron.energon.WorkerConfig method)
worker_push_sample_index() (megatron.energon.WorkerConfig method)
worker_seed() (megatron.energon.WorkerConfig method)
WorkerConfig (class in megatron.energon)
world_size (megatron.energon.WorkerConfig attribute)