Wav2Vec2 Large XLSR Finetuned Indonesian

This model is a fine-tuned version of facebook/wav2vec2-large-xlsr-53 on the Common Voice 17.0 dataset. It achieves the following results on the evaluation set:

Loss: 0.3803
Wer: 26.7576

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0003
train_batch_size: 32
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 64
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 30
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss	Wer
2.7664	3.8462	500	2.5328	100.0
0.3638	7.6923	1000	0.3765	36.7488
0.2505	11.5385	1500	0.3445	32.9203
0.1956	15.3846	2000	0.3549	30.5443
0.1622	19.2308	2500	0.3692	28.3122
0.1319	23.0769	3000	0.3788	28.0431
0.1119	26.9231	3500	0.3803	26.7576

Framework versions

Transformers 4.49.0
Pytorch 2.5.1+cu121
Datasets 3.4.1
Tokenizers 0.21.0

Downloads last month: 3

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for conevonce/wav2vec2-large-xlsr-indonesian

Base model

facebook/wav2vec2-large-xlsr-53

Finetuned

(320)

this model

Dataset used to train conevonce/wav2vec2-large-xlsr-indonesian

Evaluation results

Wer on Common Voice 17.0
self-reported

26.758

View on Papers With Code