zwcolin commited on
Commit
00308a2
·
verified ·
1 Parent(s): 7958df5

Upload toy_maze_2d_100k_z2/checkpoint-1500

Browse files
toy_maze_2d_100k_z2/checkpoint-1500/model-00001-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c0a6c917c706cf4af548c6743309ef855a70dfb28c1737794287267555d71f5b
3
  size 4968243304
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6dbfe3d0cf3136a87ffe1e5e50e479f785f525c12eb60ab24997bca929a917c2
3
  size 4968243304
toy_maze_2d_100k_z2/checkpoint-1500/model-00002-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:26b57c5d72d720a718b65104269e9d44910efff59765e2454989f8ce911495a0
3
  size 4991495816
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:642fd184aae152df9b02dff0c87352085e9ff13978ef1a77278a3632f19c9050
3
  size 4991495816
toy_maze_2d_100k_z2/checkpoint-1500/model-00003-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e53d08c060b0d99a45a3fc8c1ddd9cfe86b7e73df07197a0996269ee67728d0f
3
  size 4932751040
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f7ba641ecd2c84fdf90b5e0e1fb14af924856611bf65c939e036de9b5535c9c1
3
  size 4932751040
toy_maze_2d_100k_z2/checkpoint-1500/model-00004-of-00004.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7030f09e1385faed8dfcd02baa3e79062639b5047a1e1af7e3e540a2d46de1c3
3
  size 1691924384
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9c78eaed23ba9b30b33a19412e180c02d6685e0ec87da8cc9db16743db4299cb
3
  size 1691924384
toy_maze_2d_100k_z2/checkpoint-1500/trainer_state.json CHANGED
@@ -11,1050 +11,1050 @@
11
  "log_history": [
12
  {
13
  "epoch": 0.006666666666666667,
14
- "grad_norm": 5.624074935913086,
15
  "learning_rate": 6.000000000000001e-07,
16
- "loss": 0.1946,
17
  "step": 10
18
  },
19
  {
20
  "epoch": 0.013333333333333334,
21
- "grad_norm": 2.199779748916626,
22
  "learning_rate": 1.2666666666666669e-06,
23
  "loss": 0.1174,
24
  "step": 20
25
  },
26
  {
27
  "epoch": 0.02,
28
- "grad_norm": 0.46084392070770264,
29
  "learning_rate": 1.9333333333333336e-06,
30
- "loss": 0.0345,
31
  "step": 30
32
  },
33
  {
34
  "epoch": 0.02666666666666667,
35
- "grad_norm": 0.5497090220451355,
36
  "learning_rate": 2.6e-06,
37
- "loss": 0.0166,
38
  "step": 40
39
  },
40
  {
41
  "epoch": 0.03333333333333333,
42
- "grad_norm": 0.639951229095459,
43
  "learning_rate": 3.266666666666667e-06,
44
- "loss": 0.0116,
45
  "step": 50
46
  },
47
  {
48
  "epoch": 0.04,
49
- "grad_norm": 0.35223624110221863,
50
  "learning_rate": 3.9333333333333335e-06,
51
- "loss": 0.0084,
52
  "step": 60
53
  },
54
  {
55
  "epoch": 0.04666666666666667,
56
- "grad_norm": 0.48568835854530334,
57
  "learning_rate": 4.600000000000001e-06,
58
  "loss": 0.0063,
59
  "step": 70
60
  },
61
  {
62
  "epoch": 0.05333333333333334,
63
- "grad_norm": 0.24538885056972504,
64
  "learning_rate": 5.2666666666666665e-06,
65
  "loss": 0.0054,
66
  "step": 80
67
  },
68
  {
69
  "epoch": 0.06,
70
- "grad_norm": 0.14773577451705933,
71
  "learning_rate": 5.933333333333335e-06,
72
- "loss": 0.0043,
73
  "step": 90
74
  },
75
  {
76
  "epoch": 0.06666666666666667,
77
- "grad_norm": 0.14265061914920807,
78
  "learning_rate": 6.600000000000001e-06,
79
- "loss": 0.0037,
80
  "step": 100
81
  },
82
  {
83
  "epoch": 0.07333333333333333,
84
- "grad_norm": 0.13115918636322021,
85
  "learning_rate": 7.266666666666668e-06,
86
- "loss": 0.0033,
87
  "step": 110
88
  },
89
  {
90
  "epoch": 0.08,
91
- "grad_norm": 0.16080114245414734,
92
  "learning_rate": 7.933333333333334e-06,
93
  "loss": 0.003,
94
  "step": 120
95
  },
96
  {
97
  "epoch": 0.08666666666666667,
98
- "grad_norm": 0.13575313985347748,
99
  "learning_rate": 8.6e-06,
100
- "loss": 0.0027,
101
  "step": 130
102
  },
103
  {
104
  "epoch": 0.09333333333333334,
105
- "grad_norm": 0.11960910260677338,
106
  "learning_rate": 9.266666666666667e-06,
107
  "loss": 0.0024,
108
  "step": 140
109
  },
110
  {
111
  "epoch": 0.1,
112
- "grad_norm": 0.12420818209648132,
113
  "learning_rate": 9.933333333333334e-06,
114
- "loss": 0.0022,
115
  "step": 150
116
  },
117
  {
118
  "epoch": 0.10666666666666667,
119
- "grad_norm": 0.1131644994020462,
120
  "learning_rate": 9.998903417374228e-06,
121
- "loss": 0.0023,
122
  "step": 160
123
  },
124
  {
125
  "epoch": 0.11333333333333333,
126
- "grad_norm": 0.13772524893283844,
127
  "learning_rate": 9.995113378907791e-06,
128
- "loss": 0.0019,
129
  "step": 170
130
  },
131
  {
132
  "epoch": 0.12,
133
- "grad_norm": 0.1136520728468895,
134
  "learning_rate": 9.988618398427495e-06,
135
  "loss": 0.0017,
136
  "step": 180
137
  },
138
  {
139
  "epoch": 0.12666666666666668,
140
- "grad_norm": 0.14127859473228455,
141
  "learning_rate": 9.979421993079853e-06,
142
  "loss": 0.0015,
143
  "step": 190
144
  },
145
  {
146
  "epoch": 0.13333333333333333,
147
- "grad_norm": 0.18703995645046234,
148
  "learning_rate": 9.967529142880592e-06,
149
- "loss": 0.0013,
150
  "step": 200
151
  },
152
  {
153
  "epoch": 0.14,
154
- "grad_norm": 0.25944045186042786,
155
  "learning_rate": 9.952946288017899e-06,
156
- "loss": 0.0011,
157
  "step": 210
158
  },
159
  {
160
  "epoch": 0.14666666666666667,
161
- "grad_norm": 0.09398675709962845,
162
  "learning_rate": 9.93568132536494e-06,
163
- "loss": 0.0009,
164
  "step": 220
165
  },
166
  {
167
  "epoch": 0.15333333333333332,
168
- "grad_norm": 0.18532656133174896,
169
  "learning_rate": 9.915743604203563e-06,
170
- "loss": 0.0008,
171
  "step": 230
172
  },
173
  {
174
  "epoch": 0.16,
175
- "grad_norm": 0.16337718069553375,
176
  "learning_rate": 9.893143921161501e-06,
177
- "loss": 0.0006,
178
  "step": 240
179
  },
180
  {
181
  "epoch": 0.16666666666666666,
182
- "grad_norm": 0.10229894518852234,
183
  "learning_rate": 9.867894514365802e-06,
184
- "loss": 0.0005,
185
  "step": 250
186
  },
187
  {
188
  "epoch": 0.17333333333333334,
189
- "grad_norm": 0.128424733877182,
190
  "learning_rate": 9.840009056815674e-06,
191
- "loss": 0.0005,
192
  "step": 260
193
  },
194
  {
195
  "epoch": 0.18,
196
- "grad_norm": 0.04364209249615669,
197
  "learning_rate": 9.809502648978311e-06,
198
- "loss": 0.0004,
199
  "step": 270
200
  },
201
  {
202
  "epoch": 0.18666666666666668,
203
- "grad_norm": 0.03177304565906525,
204
  "learning_rate": 9.776391810611719e-06,
205
- "loss": 0.0003,
206
  "step": 280
207
  },
208
  {
209
  "epoch": 0.19333333333333333,
210
- "grad_norm": 0.08661904186010361,
211
  "learning_rate": 9.740694471818988e-06,
212
- "loss": 0.0002,
213
  "step": 290
214
  },
215
  {
216
  "epoch": 0.2,
217
- "grad_norm": 0.06445594877004623,
218
  "learning_rate": 9.702429963338812e-06,
219
- "loss": 0.0002,
220
  "step": 300
221
  },
222
  {
223
  "epoch": 0.20666666666666667,
224
- "grad_norm": 0.034379687160253525,
225
  "learning_rate": 9.661619006077562e-06,
226
- "loss": 0.0002,
227
  "step": 310
228
  },
229
  {
230
  "epoch": 0.21333333333333335,
231
- "grad_norm": 0.016283471137285233,
232
  "learning_rate": 9.618283699888543e-06,
233
- "loss": 0.0001,
234
  "step": 320
235
  },
236
  {
237
  "epoch": 0.22,
238
- "grad_norm": 0.02385605126619339,
239
  "learning_rate": 9.572447511604536e-06,
240
- "loss": 0.0001,
241
  "step": 330
242
  },
243
  {
244
  "epoch": 0.22666666666666666,
245
- "grad_norm": 0.009466550312936306,
246
  "learning_rate": 9.524135262330098e-06,
247
- "loss": 0.0001,
248
  "step": 340
249
  },
250
  {
251
  "epoch": 0.23333333333333334,
252
- "grad_norm": 0.0005015161586925387,
253
  "learning_rate": 9.473373114000493e-06,
254
- "loss": 0.0,
255
  "step": 350
256
  },
257
  {
258
  "epoch": 0.24,
259
- "grad_norm": 0.00029033588361926377,
260
  "learning_rate": 9.420188555214537e-06,
261
- "loss": 0.0,
262
  "step": 360
263
  },
264
  {
265
  "epoch": 0.24666666666666667,
266
- "grad_norm": 0.26284754276275635,
267
  "learning_rate": 9.364610386349048e-06,
268
- "loss": 0.0001,
269
  "step": 370
270
  },
271
  {
272
  "epoch": 0.25333333333333335,
273
- "grad_norm": 0.0031289386097341776,
274
  "learning_rate": 9.306668703962927e-06,
275
- "loss": 0.0,
276
  "step": 380
277
  },
278
  {
279
  "epoch": 0.26,
280
- "grad_norm": 0.03307564929127693,
281
  "learning_rate": 9.246394884499334e-06,
282
- "loss": 0.0001,
283
  "step": 390
284
  },
285
  {
286
  "epoch": 0.26666666666666666,
287
- "grad_norm": 0.030697880312800407,
288
  "learning_rate": 9.18382156729481e-06,
289
  "loss": 0.0002,
290
  "step": 400
291
  },
292
  {
293
  "epoch": 0.2733333333333333,
294
- "grad_norm": 0.027517074719071388,
295
  "learning_rate": 9.118982636904476e-06,
296
  "loss": 0.0001,
297
  "step": 410
298
  },
299
  {
300
  "epoch": 0.28,
301
- "grad_norm": 0.0015053829411044717,
302
  "learning_rate": 9.051913204752972e-06,
303
  "loss": 0.0001,
304
  "step": 420
305
  },
306
  {
307
  "epoch": 0.2866666666666667,
308
- "grad_norm": 0.01106984168291092,
309
  "learning_rate": 8.982649590120982e-06,
310
- "loss": 0.0,
311
  "step": 430
312
  },
313
  {
314
  "epoch": 0.29333333333333333,
315
- "grad_norm": 0.0028641794342547655,
316
  "learning_rate": 8.911229300477716e-06,
317
- "loss": 0.0,
318
  "step": 440
319
  },
320
  {
321
  "epoch": 0.3,
322
- "grad_norm": 0.04929348826408386,
323
  "learning_rate": 8.837691011169944e-06,
324
  "loss": 0.0001,
325
  "step": 450
326
  },
327
  {
328
  "epoch": 0.30666666666666664,
329
- "grad_norm": 0.005919939838349819,
330
  "learning_rate": 8.762074544478622e-06,
331
  "loss": 0.0001,
332
  "step": 460
333
  },
334
  {
335
  "epoch": 0.31333333333333335,
336
- "grad_norm": 0.0037555687595158815,
337
  "learning_rate": 8.68442084805442e-06,
338
- "loss": 0.0,
339
  "step": 470
340
  },
341
  {
342
  "epoch": 0.32,
343
- "grad_norm": 0.019933834671974182,
344
  "learning_rate": 8.604771972743848e-06,
345
- "loss": 0.0,
346
  "step": 480
347
  },
348
  {
349
  "epoch": 0.32666666666666666,
350
- "grad_norm": 0.0010796526912599802,
351
  "learning_rate": 8.523171049817974e-06,
352
- "loss": 0.0,
353
  "step": 490
354
  },
355
  {
356
  "epoch": 0.3333333333333333,
357
- "grad_norm": 0.00029543531127274036,
358
  "learning_rate": 8.439662267616093e-06,
359
- "loss": 0.0,
360
  "step": 500
361
  },
362
  {
363
  "epoch": 0.34,
364
- "grad_norm": 0.0005204229964874685,
365
  "learning_rate": 8.354290847616954e-06,
366
  "loss": 0.0,
367
  "step": 510
368
  },
369
  {
370
  "epoch": 0.3466666666666667,
371
- "grad_norm": 0.0003821073623839766,
372
  "learning_rate": 8.267103019950529e-06,
373
- "loss": 0.0,
374
  "step": 520
375
  },
376
  {
377
  "epoch": 0.35333333333333333,
378
- "grad_norm": 0.0032013487070798874,
379
  "learning_rate": 8.178145998363585e-06,
380
- "loss": 0.0,
381
  "step": 530
382
  },
383
  {
384
  "epoch": 0.36,
385
- "grad_norm": 5.6616128858877346e-05,
386
  "learning_rate": 8.087467954652608e-06,
387
  "loss": 0.0,
388
  "step": 540
389
  },
390
  {
391
  "epoch": 0.36666666666666664,
392
- "grad_norm": 0.0017166011966764927,
393
  "learning_rate": 7.99511799257793e-06,
394
- "loss": 0.0,
395
  "step": 550
396
  },
397
  {
398
  "epoch": 0.37333333333333335,
399
- "grad_norm": 0.017136631533503532,
400
  "learning_rate": 7.901146121273165e-06,
401
  "loss": 0.0,
402
  "step": 560
403
  },
404
  {
405
  "epoch": 0.38,
406
- "grad_norm": 0.0017474256455898285,
407
  "learning_rate": 7.80560322816439e-06,
408
  "loss": 0.0,
409
  "step": 570
410
  },
411
  {
412
  "epoch": 0.38666666666666666,
413
- "grad_norm": 0.0010929068084806204,
414
  "learning_rate": 7.7085410514137e-06,
415
  "loss": 0.0,
416
  "step": 580
417
  },
418
  {
419
  "epoch": 0.3933333333333333,
420
- "grad_norm": 1.2616143976629246e-05,
421
  "learning_rate": 7.610012151902091e-06,
422
  "loss": 0.0,
423
  "step": 590
424
  },
425
  {
426
  "epoch": 0.4,
427
- "grad_norm": 9.800957741390448e-06,
428
  "learning_rate": 7.510069884766802e-06,
429
  "loss": 0.0,
430
  "step": 600
431
  },
432
  {
433
  "epoch": 0.4066666666666667,
434
- "grad_norm": 0.0003551290137693286,
435
  "learning_rate": 7.408768370508577e-06,
436
  "loss": 0.0,
437
  "step": 610
438
  },
439
  {
440
  "epoch": 0.41333333333333333,
441
- "grad_norm": 1.0632440535118803e-05,
442
  "learning_rate": 7.3061624656844544e-06,
443
- "loss": 0.0,
444
  "step": 620
445
  },
446
  {
447
  "epoch": 0.42,
448
- "grad_norm": 0.013971183449029922,
449
  "learning_rate": 7.2023077332019755e-06,
450
- "loss": 0.0,
451
  "step": 630
452
  },
453
  {
454
  "epoch": 0.4266666666666667,
455
- "grad_norm": 0.00723908981308341,
456
  "learning_rate": 7.0972604122308865e-06,
457
  "loss": 0.0,
458
  "step": 640
459
  },
460
  {
461
  "epoch": 0.43333333333333335,
462
- "grad_norm": 0.006038730964064598,
463
  "learning_rate": 6.991077387748643e-06,
464
- "loss": 0.0001,
465
  "step": 650
466
  },
467
  {
468
  "epoch": 0.44,
469
- "grad_norm": 0.0016644637798890471,
470
  "learning_rate": 6.883816159736187e-06,
471
- "loss": 0.0001,
472
  "step": 660
473
  },
474
  {
475
  "epoch": 0.44666666666666666,
476
- "grad_norm": 0.040876660495996475,
477
  "learning_rate": 6.775534812040686e-06,
478
  "loss": 0.0,
479
  "step": 670
480
  },
481
  {
482
  "epoch": 0.4533333333333333,
483
- "grad_norm": 0.00021840434055775404,
484
  "learning_rate": 6.666291980922122e-06,
485
  "loss": 0.0,
486
  "step": 680
487
  },
488
  {
489
  "epoch": 0.46,
490
- "grad_norm": 0.00012899430294055492,
491
  "learning_rate": 6.556146823300701e-06,
492
  "loss": 0.0,
493
  "step": 690
494
  },
495
  {
496
  "epoch": 0.4666666666666667,
497
- "grad_norm": 6.490825762739405e-05,
498
  "learning_rate": 6.445158984722358e-06,
499
  "loss": 0.0,
500
  "step": 700
501
  },
502
  {
503
  "epoch": 0.47333333333333333,
504
- "grad_norm": 0.001009192317724228,
505
  "learning_rate": 6.3333885670596285e-06,
506
  "loss": 0.0,
507
  "step": 710
508
  },
509
  {
510
  "epoch": 0.48,
511
- "grad_norm": 0.00070426263846457,
512
  "learning_rate": 6.220896095965428e-06,
513
  "loss": 0.0,
514
  "step": 720
515
  },
516
  {
517
  "epoch": 0.4866666666666667,
518
- "grad_norm": 0.0004223327268846333,
519
  "learning_rate": 6.107742488097338e-06,
520
  "loss": 0.0,
521
  "step": 730
522
  },
523
  {
524
  "epoch": 0.49333333333333335,
525
- "grad_norm": 0.00010601619578665122,
526
  "learning_rate": 5.993989018130173e-06,
527
  "loss": 0.0,
528
  "step": 740
529
  },
530
  {
531
  "epoch": 0.5,
532
- "grad_norm": 8.38711712276563e-05,
533
  "learning_rate": 5.879697285574655e-06,
534
  "loss": 0.0,
535
  "step": 750
536
  },
537
  {
538
  "epoch": 0.5066666666666667,
539
- "grad_norm": 0.003914504777640104,
540
  "learning_rate": 5.764929181420191e-06,
541
  "loss": 0.0,
542
  "step": 760
543
  },
544
  {
545
  "epoch": 0.5133333333333333,
546
- "grad_norm": 0.00037927660741843283,
547
  "learning_rate": 5.649746854619814e-06,
548
  "loss": 0.0,
549
  "step": 770
550
  },
551
  {
552
  "epoch": 0.52,
553
- "grad_norm": 0.00037045031785964966,
554
  "learning_rate": 5.5342126784354265e-06,
555
- "loss": 0.0001,
556
  "step": 780
557
  },
558
  {
559
  "epoch": 0.5266666666666666,
560
- "grad_norm": 0.00029397307662293315,
561
  "learning_rate": 5.41838921666158e-06,
562
  "loss": 0.0,
563
  "step": 790
564
  },
565
  {
566
  "epoch": 0.5333333333333333,
567
- "grad_norm": 0.0006083590560592711,
568
  "learning_rate": 5.3023391897460715e-06,
569
  "loss": 0.0,
570
  "step": 800
571
  },
572
  {
573
  "epoch": 0.54,
574
- "grad_norm": 0.0007530886214226484,
575
  "learning_rate": 5.18612544082573e-06,
576
  "loss": 0.0,
577
  "step": 810
578
  },
579
  {
580
  "epoch": 0.5466666666666666,
581
- "grad_norm": 0.054411422461271286,
582
  "learning_rate": 5.069810901695727e-06,
583
  "loss": 0.0,
584
  "step": 820
585
  },
586
  {
587
  "epoch": 0.5533333333333333,
588
- "grad_norm": 0.00019399133452679962,
589
  "learning_rate": 4.953458558730917e-06,
590
  "loss": 0.0,
591
  "step": 830
592
  },
593
  {
594
  "epoch": 0.56,
595
- "grad_norm": 0.0005656777648255229,
596
  "learning_rate": 4.837131418777595e-06,
597
  "loss": 0.0,
598
  "step": 840
599
  },
600
  {
601
  "epoch": 0.5666666666666667,
602
- "grad_norm": 0.0006595190498046577,
603
  "learning_rate": 4.720892475034181e-06,
604
  "loss": 0.0,
605
  "step": 850
606
  },
607
  {
608
  "epoch": 0.5733333333333334,
609
- "grad_norm": 0.011455051600933075,
610
  "learning_rate": 4.604804672939295e-06,
611
  "loss": 0.0,
612
  "step": 860
613
  },
614
  {
615
  "epoch": 0.58,
616
- "grad_norm": 0.00026495984639041126,
617
  "learning_rate": 4.4889308760856826e-06,
618
  "loss": 0.0,
619
  "step": 870
620
  },
621
  {
622
  "epoch": 0.5866666666666667,
623
- "grad_norm": 0.004048793110996485,
624
  "learning_rate": 4.373333832178478e-06,
625
  "loss": 0.0,
626
  "step": 880
627
  },
628
  {
629
  "epoch": 0.5933333333333334,
630
- "grad_norm": 0.00016972620505839586,
631
  "learning_rate": 4.258076139056217e-06,
632
  "loss": 0.0,
633
  "step": 890
634
  },
635
  {
636
  "epoch": 0.6,
637
- "grad_norm": 0.00014241192548070103,
638
  "learning_rate": 4.143220210792993e-06,
639
  "loss": 0.0,
640
  "step": 900
641
  },
642
  {
643
  "epoch": 0.6066666666666667,
644
- "grad_norm": 0.0006871339282952249,
645
  "learning_rate": 4.028828243900141e-06,
646
  "loss": 0.0,
647
  "step": 910
648
  },
649
  {
650
  "epoch": 0.6133333333333333,
651
- "grad_norm": 0.00011133356019854546,
652
  "learning_rate": 3.914962183645733e-06,
653
  "loss": 0.0,
654
  "step": 920
655
  },
656
  {
657
  "epoch": 0.62,
658
- "grad_norm": 9.984915232053027e-05,
659
  "learning_rate": 3.8016836905101157e-06,
660
  "loss": 0.0,
661
  "step": 930
662
  },
663
  {
664
  "epoch": 0.6266666666666667,
665
- "grad_norm": 6.0622351156780496e-05,
666
  "learning_rate": 3.6890541067956775e-06,
667
  "loss": 0.0,
668
  "step": 940
669
  },
670
  {
671
  "epoch": 0.6333333333333333,
672
- "grad_norm": 8.865922427503392e-05,
673
  "learning_rate": 3.577134423408906e-06,
674
  "loss": 0.0,
675
  "step": 950
676
  },
677
  {
678
  "epoch": 0.64,
679
- "grad_norm": 6.978373130550608e-05,
680
  "learning_rate": 3.465985246832739e-06,
681
  "loss": 0.0,
682
  "step": 960
683
  },
684
  {
685
  "epoch": 0.6466666666666666,
686
- "grad_norm": 0.0003512295661494136,
687
  "learning_rate": 3.355666766307084e-06,
688
  "loss": 0.0,
689
  "step": 970
690
  },
691
  {
692
  "epoch": 0.6533333333333333,
693
- "grad_norm": 0.00012859450362157077,
694
  "learning_rate": 3.246238721235283e-06,
695
  "loss": 0.0,
696
  "step": 980
697
  },
698
  {
699
  "epoch": 0.66,
700
- "grad_norm": 4.345999695942737e-05,
701
  "learning_rate": 3.137760368834169e-06,
702
  "loss": 0.0,
703
  "step": 990
704
  },
705
  {
706
  "epoch": 0.6666666666666666,
707
- "grad_norm": 4.032337892567739e-05,
708
  "learning_rate": 3.030290452045245e-06,
709
  "loss": 0.0,
710
  "step": 1000
711
  },
712
  {
713
  "epoch": 0.6733333333333333,
714
- "grad_norm": 2.6792929929797538e-05,
715
  "learning_rate": 2.9238871677243354e-06,
716
  "loss": 0.0,
717
  "step": 1010
718
  },
719
  {
720
  "epoch": 0.68,
721
- "grad_norm": 1.9626671928563155e-05,
722
  "learning_rate": 2.818608135126967e-06,
723
  "loss": 0.0,
724
  "step": 1020
725
  },
726
  {
727
  "epoch": 0.6866666666666666,
728
- "grad_norm": 0.00010032079444499686,
729
  "learning_rate": 2.714510364706531e-06,
730
  "loss": 0.0,
731
  "step": 1030
732
  },
733
  {
734
  "epoch": 0.6933333333333334,
735
- "grad_norm": 3.6866957088932395e-05,
736
  "learning_rate": 2.611650227242102e-06,
737
  "loss": 0.0,
738
  "step": 1040
739
  },
740
  {
741
  "epoch": 0.7,
742
- "grad_norm": 3.730207390617579e-05,
743
  "learning_rate": 2.5100834233126827e-06,
744
  "loss": 0.0,
745
  "step": 1050
746
  },
747
  {
748
  "epoch": 0.7066666666666667,
749
- "grad_norm": 2.26041411224287e-05,
750
  "learning_rate": 2.40986495313435e-06,
751
  "loss": 0.0,
752
  "step": 1060
753
  },
754
  {
755
  "epoch": 0.7133333333333334,
756
- "grad_norm": 6.0423510149121284e-05,
757
  "learning_rate": 2.3110490867766644e-06,
758
  "loss": 0.0,
759
  "step": 1070
760
  },
761
  {
762
  "epoch": 0.72,
763
- "grad_norm": 4.676436219597235e-05,
764
  "learning_rate": 2.213689334774479e-06,
765
  "loss": 0.0,
766
  "step": 1080
767
  },
768
  {
769
  "epoch": 0.7266666666666667,
770
- "grad_norm": 8.578119013691321e-05,
771
  "learning_rate": 2.1178384191510344e-06,
772
  "loss": 0.0,
773
  "step": 1090
774
  },
775
  {
776
  "epoch": 0.7333333333333333,
777
- "grad_norm": 2.1997708245180547e-05,
778
  "learning_rate": 2.023548244868051e-06,
779
  "loss": 0.0,
780
  "step": 1100
781
  },
782
  {
783
  "epoch": 0.74,
784
- "grad_norm": 0.00014426777488552034,
785
  "learning_rate": 1.9308698717182874e-06,
786
  "loss": 0.0,
787
  "step": 1110
788
  },
789
  {
790
  "epoch": 0.7466666666666667,
791
- "grad_norm": 2.5733017537277192e-05,
792
  "learning_rate": 1.8398534866757455e-06,
793
  "loss": 0.0,
794
  "step": 1120
795
  },
796
  {
797
  "epoch": 0.7533333333333333,
798
- "grad_norm": 5.6015611335169524e-05,
799
  "learning_rate": 1.7505483767185583e-06,
800
  "loss": 0.0,
801
  "step": 1130
802
  },
803
  {
804
  "epoch": 0.76,
805
- "grad_norm": 7.790495146764442e-05,
806
  "learning_rate": 1.6630029021392007e-06,
807
  "loss": 0.0,
808
  "step": 1140
809
  },
810
  {
811
  "epoch": 0.7666666666666667,
812
- "grad_norm": 2.2054742657928728e-05,
813
  "learning_rate": 1.5772644703565564e-06,
814
  "loss": 0.0,
815
  "step": 1150
816
  },
817
  {
818
  "epoch": 0.7733333333333333,
819
- "grad_norm": 1.2200293895148207e-05,
820
  "learning_rate": 1.4933795102439558e-06,
821
  "loss": 0.0,
822
  "step": 1160
823
  },
824
  {
825
  "epoch": 0.78,
826
- "grad_norm": 8.297043677885085e-05,
827
  "learning_rate": 1.4113934469871166e-06,
828
  "loss": 0.0,
829
  "step": 1170
830
  },
831
  {
832
  "epoch": 0.7866666666666666,
833
- "grad_norm": 7.187617302406579e-05,
834
  "learning_rate": 1.3313506774856177e-06,
835
  "loss": 0.0,
836
  "step": 1180
837
  },
838
  {
839
  "epoch": 0.7933333333333333,
840
- "grad_norm": 2.0354349544504657e-05,
841
  "learning_rate": 1.2532945463111856e-06,
842
  "loss": 0.0,
843
  "step": 1190
844
  },
845
  {
846
  "epoch": 0.8,
847
- "grad_norm": 1.7071801266865805e-05,
848
  "learning_rate": 1.1772673222358421e-06,
849
  "loss": 0.0,
850
  "step": 1200
851
  },
852
  {
853
  "epoch": 0.8066666666666666,
854
- "grad_norm": 0.001125986105762422,
855
  "learning_rate": 1.1033101753426285e-06,
856
  "loss": 0.0,
857
  "step": 1210
858
  },
859
  {
860
  "epoch": 0.8133333333333334,
861
- "grad_norm": 3.047746758966241e-05,
862
  "learning_rate": 1.0314631547312738e-06,
863
  "loss": 0.0,
864
  "step": 1220
865
  },
866
  {
867
  "epoch": 0.82,
868
- "grad_norm": 1.0858078894671053e-05,
869
  "learning_rate": 9.617651668308914e-07,
870
  "loss": 0.0,
871
  "step": 1230
872
  },
873
  {
874
  "epoch": 0.8266666666666667,
875
- "grad_norm": 0.0003755341749638319,
876
  "learning_rate": 8.942539543314799e-07,
877
  "loss": 0.0,
878
  "step": 1240
879
  },
880
  {
881
  "epoch": 0.8333333333333334,
882
- "grad_norm": 2.7706588298315182e-05,
883
  "learning_rate": 8.289660757455803e-07,
884
  "loss": 0.0,
885
  "step": 1250
886
  },
887
  {
888
  "epoch": 0.84,
889
- "grad_norm": 1.769871960277669e-05,
890
  "learning_rate": 7.659368856111926e-07,
891
  "loss": 0.0,
892
  "step": 1260
893
  },
894
  {
895
  "epoch": 0.8466666666666667,
896
- "grad_norm": 1.7335883967461996e-05,
897
  "learning_rate": 7.052005153466779e-07,
898
  "loss": 0.0,
899
  "step": 1270
900
  },
901
  {
902
  "epoch": 0.8533333333333334,
903
- "grad_norm": 1.842362507886719e-05,
904
  "learning_rate": 6.467898547679913e-07,
905
  "loss": 0.0,
906
  "step": 1280
907
  },
908
  {
909
  "epoch": 0.86,
910
- "grad_norm": 2.173321263398975e-05,
911
  "learning_rate": 5.9073653427826e-07,
912
  "loss": 0.0,
913
  "step": 1290
914
  },
915
  {
916
  "epoch": 0.8666666666666667,
917
- "grad_norm": 1.1354289199516643e-05,
918
  "learning_rate": 5.370709077393721e-07,
919
  "loss": 0.0,
920
  "step": 1300
921
  },
922
  {
923
  "epoch": 0.8733333333333333,
924
- "grad_norm": 9.869818313745782e-06,
925
  "learning_rate": 4.858220360348187e-07,
926
  "loss": 0.0,
927
  "step": 1310
928
  },
929
  {
930
  "epoch": 0.88,
931
- "grad_norm": 1.2203423466417007e-05,
932
  "learning_rate": 4.370176713327118e-07,
933
  "loss": 0.0,
934
  "step": 1320
935
  },
936
  {
937
  "epoch": 0.8866666666666667,
938
- "grad_norm": 2.7687066904036328e-05,
939
  "learning_rate": 3.90684242057498e-07,
940
  "loss": 0.0,
941
  "step": 1330
942
  },
943
  {
944
  "epoch": 0.8933333333333333,
945
- "grad_norm": 0.00040350976632907987,
946
  "learning_rate": 3.468468385785023e-07,
947
  "loss": 0.0,
948
  "step": 1340
949
  },
950
  {
951
  "epoch": 0.9,
952
- "grad_norm": 3.49671536241658e-05,
953
  "learning_rate": 3.055291996230492e-07,
954
  "loss": 0.0,
955
  "step": 1350
956
  },
957
  {
958
  "epoch": 0.9066666666666666,
959
- "grad_norm": 1.6932443031691946e-05,
960
  "learning_rate": 2.6675369942151864e-07,
961
  "loss": 0.0,
962
  "step": 1360
963
  },
964
  {
965
  "epoch": 0.9133333333333333,
966
- "grad_norm": 3.151535565848462e-05,
967
  "learning_rate": 2.3054133559131163e-07,
968
  "loss": 0.0,
969
  "step": 1370
970
  },
971
  {
972
  "epoch": 0.92,
973
- "grad_norm": 1.1312326023471542e-05,
974
  "learning_rate": 1.9691171776626882e-07,
975
  "loss": 0.0,
976
  "step": 1380
977
  },
978
  {
979
  "epoch": 0.9266666666666666,
980
- "grad_norm": 1.4757178178115282e-05,
981
  "learning_rate": 1.6588305697770313e-07,
982
  "loss": 0.0,
983
  "step": 1390
984
  },
985
  {
986
  "epoch": 0.9333333333333333,
987
- "grad_norm": 1.6970809156191535e-05,
988
  "learning_rate": 1.374721557928116e-07,
989
  "loss": 0.0,
990
  "step": 1400
991
  },
992
  {
993
  "epoch": 0.94,
994
- "grad_norm": 1.635207809158601e-05,
995
  "learning_rate": 1.1169439921578485e-07,
996
  "loss": 0.0,
997
  "step": 1410
998
  },
999
  {
1000
  "epoch": 0.9466666666666667,
1001
- "grad_norm": 3.719401502166875e-05,
1002
  "learning_rate": 8.856374635655696e-08,
1003
  "loss": 0.0,
1004
  "step": 1420
1005
  },
1006
  {
1007
  "epoch": 0.9533333333333334,
1008
- "grad_norm": 2.2558482669410296e-05,
1009
  "learning_rate": 6.809272287169988e-08,
1010
  "loss": 0.0,
1011
  "step": 1430
1012
  },
1013
  {
1014
  "epoch": 0.96,
1015
- "grad_norm": 9.307030268246308e-06,
1016
  "learning_rate": 5.029241418156139e-08,
1017
  "loss": 0.0,
1018
  "step": 1440
1019
  },
1020
  {
1021
  "epoch": 0.9666666666666667,
1022
- "grad_norm": 1.446962050977163e-05,
1023
  "learning_rate": 3.517245946731529e-08,
1024
  "loss": 0.0,
1025
  "step": 1450
1026
  },
1027
  {
1028
  "epoch": 0.9733333333333334,
1029
- "grad_norm": 1.9932484065066092e-05,
1030
  "learning_rate": 2.27410464511707e-08,
1031
  "loss": 0.0,
1032
  "step": 1460
1033
  },
1034
  {
1035
  "epoch": 0.98,
1036
- "grad_norm": 3.285128696006723e-05,
1037
  "learning_rate": 1.3004906962578723e-08,
1038
  "loss": 0.0,
1039
  "step": 1470
1040
  },
1041
  {
1042
  "epoch": 0.9866666666666667,
1043
- "grad_norm": 9.766018047230318e-05,
1044
  "learning_rate": 5.969313292830126e-09,
1045
  "loss": 0.0,
1046
  "step": 1480
1047
  },
1048
  {
1049
  "epoch": 0.9933333333333333,
1050
- "grad_norm": 1.632999010325875e-05,
1051
  "learning_rate": 1.638075340010814e-09,
1052
  "loss": 0.0,
1053
  "step": 1490
1054
  },
1055
  {
1056
  "epoch": 1.0,
1057
- "grad_norm": 1.0821412615769077e-05,
1058
  "learning_rate": 1.3538545881042198e-11,
1059
  "loss": 0.0,
1060
  "step": 1500
 
11
  "log_history": [
12
  {
13
  "epoch": 0.006666666666666667,
14
+ "grad_norm": 5.667408466339111,
15
  "learning_rate": 6.000000000000001e-07,
16
+ "loss": 0.1947,
17
  "step": 10
18
  },
19
  {
20
  "epoch": 0.013333333333333334,
21
+ "grad_norm": 2.1634726524353027,
22
  "learning_rate": 1.2666666666666669e-06,
23
  "loss": 0.1174,
24
  "step": 20
25
  },
26
  {
27
  "epoch": 0.02,
28
+ "grad_norm": 0.5052932500839233,
29
  "learning_rate": 1.9333333333333336e-06,
30
+ "loss": 0.0343,
31
  "step": 30
32
  },
33
  {
34
  "epoch": 0.02666666666666667,
35
+ "grad_norm": 0.7556172609329224,
36
  "learning_rate": 2.6e-06,
37
+ "loss": 0.0171,
38
  "step": 40
39
  },
40
  {
41
  "epoch": 0.03333333333333333,
42
+ "grad_norm": 0.39063963294029236,
43
  "learning_rate": 3.266666666666667e-06,
44
+ "loss": 0.0119,
45
  "step": 50
46
  },
47
  {
48
  "epoch": 0.04,
49
+ "grad_norm": 0.3572109341621399,
50
  "learning_rate": 3.9333333333333335e-06,
51
+ "loss": 0.0086,
52
  "step": 60
53
  },
54
  {
55
  "epoch": 0.04666666666666667,
56
+ "grad_norm": 0.3467428684234619,
57
  "learning_rate": 4.600000000000001e-06,
58
  "loss": 0.0063,
59
  "step": 70
60
  },
61
  {
62
  "epoch": 0.05333333333333334,
63
+ "grad_norm": 0.25623375177383423,
64
  "learning_rate": 5.2666666666666665e-06,
65
  "loss": 0.0054,
66
  "step": 80
67
  },
68
  {
69
  "epoch": 0.06,
70
+ "grad_norm": 0.26946309208869934,
71
  "learning_rate": 5.933333333333335e-06,
72
+ "loss": 0.0042,
73
  "step": 90
74
  },
75
  {
76
  "epoch": 0.06666666666666667,
77
+ "grad_norm": 0.1675575077533722,
78
  "learning_rate": 6.600000000000001e-06,
79
+ "loss": 0.0033,
80
  "step": 100
81
  },
82
  {
83
  "epoch": 0.07333333333333333,
84
+ "grad_norm": 0.12359405308961868,
85
  "learning_rate": 7.266666666666668e-06,
86
+ "loss": 0.003,
87
  "step": 110
88
  },
89
  {
90
  "epoch": 0.08,
91
+ "grad_norm": 0.28900256752967834,
92
  "learning_rate": 7.933333333333334e-06,
93
  "loss": 0.003,
94
  "step": 120
95
  },
96
  {
97
  "epoch": 0.08666666666666667,
98
+ "grad_norm": 0.202424556016922,
99
  "learning_rate": 8.6e-06,
100
+ "loss": 0.0025,
101
  "step": 130
102
  },
103
  {
104
  "epoch": 0.09333333333333334,
105
+ "grad_norm": 0.14984631538391113,
106
  "learning_rate": 9.266666666666667e-06,
107
  "loss": 0.0024,
108
  "step": 140
109
  },
110
  {
111
  "epoch": 0.1,
112
+ "grad_norm": 0.12280956655740738,
113
  "learning_rate": 9.933333333333334e-06,
114
+ "loss": 0.0023,
115
  "step": 150
116
  },
117
  {
118
  "epoch": 0.10666666666666667,
119
+ "grad_norm": 0.11396384239196777,
120
  "learning_rate": 9.998903417374228e-06,
121
+ "loss": 0.0021,
122
  "step": 160
123
  },
124
  {
125
  "epoch": 0.11333333333333333,
126
+ "grad_norm": 0.0858469009399414,
127
  "learning_rate": 9.995113378907791e-06,
128
+ "loss": 0.0017,
129
  "step": 170
130
  },
131
  {
132
  "epoch": 0.12,
133
+ "grad_norm": 0.08214370906352997,
134
  "learning_rate": 9.988618398427495e-06,
135
  "loss": 0.0017,
136
  "step": 180
137
  },
138
  {
139
  "epoch": 0.12666666666666668,
140
+ "grad_norm": 0.182482048869133,
141
  "learning_rate": 9.979421993079853e-06,
142
  "loss": 0.0015,
143
  "step": 190
144
  },
145
  {
146
  "epoch": 0.13333333333333333,
147
+ "grad_norm": 0.09778470546007156,
148
  "learning_rate": 9.967529142880592e-06,
149
+ "loss": 0.0014,
150
  "step": 200
151
  },
152
  {
153
  "epoch": 0.14,
154
+ "grad_norm": 0.07870113849639893,
155
  "learning_rate": 9.952946288017899e-06,
156
+ "loss": 0.0012,
157
  "step": 210
158
  },
159
  {
160
  "epoch": 0.14666666666666667,
161
+ "grad_norm": 0.08735044300556183,
162
  "learning_rate": 9.93568132536494e-06,
163
+ "loss": 0.0011,
164
  "step": 220
165
  },
166
  {
167
  "epoch": 0.15333333333333332,
168
+ "grad_norm": 0.09636476635932922,
169
  "learning_rate": 9.915743604203563e-06,
170
+ "loss": 0.0009,
171
  "step": 230
172
  },
173
  {
174
  "epoch": 0.16,
175
+ "grad_norm": 0.058283355087041855,
176
  "learning_rate": 9.893143921161501e-06,
177
+ "loss": 0.0007,
178
  "step": 240
179
  },
180
  {
181
  "epoch": 0.16666666666666666,
182
+ "grad_norm": 0.04673682153224945,
183
  "learning_rate": 9.867894514365802e-06,
184
+ "loss": 0.0007,
185
  "step": 250
186
  },
187
  {
188
  "epoch": 0.17333333333333334,
189
+ "grad_norm": 0.1363821178674698,
190
  "learning_rate": 9.840009056815674e-06,
191
+ "loss": 0.0006,
192
  "step": 260
193
  },
194
  {
195
  "epoch": 0.18,
196
+ "grad_norm": 0.05678533390164375,
197
  "learning_rate": 9.809502648978311e-06,
198
+ "loss": 0.0005,
199
  "step": 270
200
  },
201
  {
202
  "epoch": 0.18666666666666668,
203
+ "grad_norm": 0.05985384061932564,
204
  "learning_rate": 9.776391810611719e-06,
205
+ "loss": 0.0005,
206
  "step": 280
207
  },
208
  {
209
  "epoch": 0.19333333333333333,
210
+ "grad_norm": 0.05117550864815712,
211
  "learning_rate": 9.740694471818988e-06,
212
+ "loss": 0.0004,
213
  "step": 290
214
  },
215
  {
216
  "epoch": 0.2,
217
+ "grad_norm": 0.06844423711299896,
218
  "learning_rate": 9.702429963338812e-06,
219
+ "loss": 0.0003,
220
  "step": 300
221
  },
222
  {
223
  "epoch": 0.20666666666666667,
224
+ "grad_norm": 0.06408469378948212,
225
  "learning_rate": 9.661619006077562e-06,
226
+ "loss": 0.0004,
227
  "step": 310
228
  },
229
  {
230
  "epoch": 0.21333333333333335,
231
+ "grad_norm": 0.021007075905799866,
232
  "learning_rate": 9.618283699888543e-06,
233
+ "loss": 0.0004,
234
  "step": 320
235
  },
236
  {
237
  "epoch": 0.22,
238
+ "grad_norm": 0.02398059330880642,
239
  "learning_rate": 9.572447511604536e-06,
240
+ "loss": 0.0004,
241
  "step": 330
242
  },
243
  {
244
  "epoch": 0.22666666666666666,
245
+ "grad_norm": 0.029252896085381508,
246
  "learning_rate": 9.524135262330098e-06,
247
+ "loss": 0.0003,
248
  "step": 340
249
  },
250
  {
251
  "epoch": 0.23333333333333334,
252
+ "grad_norm": 0.06507233530282974,
253
  "learning_rate": 9.473373114000493e-06,
254
+ "loss": 0.0002,
255
  "step": 350
256
  },
257
  {
258
  "epoch": 0.24,
259
+ "grad_norm": 0.04322313517332077,
260
  "learning_rate": 9.420188555214537e-06,
261
+ "loss": 0.0001,
262
  "step": 360
263
  },
264
  {
265
  "epoch": 0.24666666666666667,
266
+ "grad_norm": 0.1794402152299881,
267
  "learning_rate": 9.364610386349048e-06,
268
+ "loss": 0.0002,
269
  "step": 370
270
  },
271
  {
272
  "epoch": 0.25333333333333335,
273
+ "grad_norm": 0.05101003870368004,
274
  "learning_rate": 9.306668703962927e-06,
275
+ "loss": 0.0003,
276
  "step": 380
277
  },
278
  {
279
  "epoch": 0.26,
280
+ "grad_norm": 0.10890176892280579,
281
  "learning_rate": 9.246394884499334e-06,
282
+ "loss": 0.0003,
283
  "step": 390
284
  },
285
  {
286
  "epoch": 0.26666666666666666,
287
+ "grad_norm": 0.10968390107154846,
288
  "learning_rate": 9.18382156729481e-06,
289
  "loss": 0.0002,
290
  "step": 400
291
  },
292
  {
293
  "epoch": 0.2733333333333333,
294
+ "grad_norm": 0.021482696756720543,
295
  "learning_rate": 9.118982636904476e-06,
296
  "loss": 0.0001,
297
  "step": 410
298
  },
299
  {
300
  "epoch": 0.28,
301
+ "grad_norm": 0.007727895397692919,
302
  "learning_rate": 9.051913204752972e-06,
303
  "loss": 0.0001,
304
  "step": 420
305
  },
306
  {
307
  "epoch": 0.2866666666666667,
308
+ "grad_norm": 0.02912110649049282,
309
  "learning_rate": 8.982649590120982e-06,
310
+ "loss": 0.0002,
311
  "step": 430
312
  },
313
  {
314
  "epoch": 0.29333333333333333,
315
+ "grad_norm": 0.03449634835124016,
316
  "learning_rate": 8.911229300477716e-06,
317
+ "loss": 0.0001,
318
  "step": 440
319
  },
320
  {
321
  "epoch": 0.3,
322
+ "grad_norm": 0.02062622271478176,
323
  "learning_rate": 8.837691011169944e-06,
324
  "loss": 0.0001,
325
  "step": 450
326
  },
327
  {
328
  "epoch": 0.30666666666666664,
329
+ "grad_norm": 0.02204342558979988,
330
  "learning_rate": 8.762074544478622e-06,
331
  "loss": 0.0001,
332
  "step": 460
333
  },
334
  {
335
  "epoch": 0.31333333333333335,
336
+ "grad_norm": 0.03803582862019539,
337
  "learning_rate": 8.68442084805442e-06,
338
+ "loss": 0.0001,
339
  "step": 470
340
  },
341
  {
342
  "epoch": 0.32,
343
+ "grad_norm": 0.025211771950125694,
344
  "learning_rate": 8.604771972743848e-06,
345
+ "loss": 0.0001,
346
  "step": 480
347
  },
348
  {
349
  "epoch": 0.32666666666666666,
350
+ "grad_norm": 0.025703629478812218,
351
  "learning_rate": 8.523171049817974e-06,
352
+ "loss": 0.0001,
353
  "step": 490
354
  },
355
  {
356
  "epoch": 0.3333333333333333,
357
+ "grad_norm": 0.0369548536837101,
358
  "learning_rate": 8.439662267616093e-06,
359
+ "loss": 0.0001,
360
  "step": 500
361
  },
362
  {
363
  "epoch": 0.34,
364
+ "grad_norm": 0.0072284871712327,
365
  "learning_rate": 8.354290847616954e-06,
366
  "loss": 0.0,
367
  "step": 510
368
  },
369
  {
370
  "epoch": 0.3466666666666667,
371
+ "grad_norm": 0.0054784235544502735,
372
  "learning_rate": 8.267103019950529e-06,
373
+ "loss": 0.0001,
374
  "step": 520
375
  },
376
  {
377
  "epoch": 0.35333333333333333,
378
+ "grad_norm": 0.014937752857804298,
379
  "learning_rate": 8.178145998363585e-06,
380
+ "loss": 0.0001,
381
  "step": 530
382
  },
383
  {
384
  "epoch": 0.36,
385
+ "grad_norm": 0.0113394008949399,
386
  "learning_rate": 8.087467954652608e-06,
387
  "loss": 0.0,
388
  "step": 540
389
  },
390
  {
391
  "epoch": 0.36666666666666664,
392
+ "grad_norm": 0.00219136755913496,
393
  "learning_rate": 7.99511799257793e-06,
394
+ "loss": 0.0001,
395
  "step": 550
396
  },
397
  {
398
  "epoch": 0.37333333333333335,
399
+ "grad_norm": 0.006907960399985313,
400
  "learning_rate": 7.901146121273165e-06,
401
  "loss": 0.0,
402
  "step": 560
403
  },
404
  {
405
  "epoch": 0.38,
406
+ "grad_norm": 0.04078688099980354,
407
  "learning_rate": 7.80560322816439e-06,
408
  "loss": 0.0,
409
  "step": 570
410
  },
411
  {
412
  "epoch": 0.38666666666666666,
413
+ "grad_norm": 0.0019676194060593843,
414
  "learning_rate": 7.7085410514137e-06,
415
  "loss": 0.0,
416
  "step": 580
417
  },
418
  {
419
  "epoch": 0.3933333333333333,
420
+ "grad_norm": 0.0015951694222167134,
421
  "learning_rate": 7.610012151902091e-06,
422
  "loss": 0.0,
423
  "step": 590
424
  },
425
  {
426
  "epoch": 0.4,
427
+ "grad_norm": 0.026836136355996132,
428
  "learning_rate": 7.510069884766802e-06,
429
  "loss": 0.0,
430
  "step": 600
431
  },
432
  {
433
  "epoch": 0.4066666666666667,
434
+ "grad_norm": 0.027963830158114433,
435
  "learning_rate": 7.408768370508577e-06,
436
  "loss": 0.0,
437
  "step": 610
438
  },
439
  {
440
  "epoch": 0.41333333333333333,
441
+ "grad_norm": 0.05042974278330803,
442
  "learning_rate": 7.3061624656844544e-06,
443
+ "loss": 0.0001,
444
  "step": 620
445
  },
446
  {
447
  "epoch": 0.42,
448
+ "grad_norm": 0.01810578443109989,
449
  "learning_rate": 7.2023077332019755e-06,
450
+ "loss": 0.0001,
451
  "step": 630
452
  },
453
  {
454
  "epoch": 0.4266666666666667,
455
+ "grad_norm": 0.013192368671298027,
456
  "learning_rate": 7.0972604122308865e-06,
457
  "loss": 0.0,
458
  "step": 640
459
  },
460
  {
461
  "epoch": 0.43333333333333335,
462
+ "grad_norm": 0.0046980492770671844,
463
  "learning_rate": 6.991077387748643e-06,
464
+ "loss": 0.0,
465
  "step": 650
466
  },
467
  {
468
  "epoch": 0.44,
469
+ "grad_norm": 0.0011262600310146809,
470
  "learning_rate": 6.883816159736187e-06,
471
+ "loss": 0.0,
472
  "step": 660
473
  },
474
  {
475
  "epoch": 0.44666666666666666,
476
+ "grad_norm": 0.011760637164115906,
477
  "learning_rate": 6.775534812040686e-06,
478
  "loss": 0.0,
479
  "step": 670
480
  },
481
  {
482
  "epoch": 0.4533333333333333,
483
+ "grad_norm": 0.01897917129099369,
484
  "learning_rate": 6.666291980922122e-06,
485
  "loss": 0.0,
486
  "step": 680
487
  },
488
  {
489
  "epoch": 0.46,
490
+ "grad_norm": 0.000574925565160811,
491
  "learning_rate": 6.556146823300701e-06,
492
  "loss": 0.0,
493
  "step": 690
494
  },
495
  {
496
  "epoch": 0.4666666666666667,
497
+ "grad_norm": 0.00019159466319251806,
498
  "learning_rate": 6.445158984722358e-06,
499
  "loss": 0.0,
500
  "step": 700
501
  },
502
  {
503
  "epoch": 0.47333333333333333,
504
+ "grad_norm": 0.03242886811494827,
505
  "learning_rate": 6.3333885670596285e-06,
506
  "loss": 0.0,
507
  "step": 710
508
  },
509
  {
510
  "epoch": 0.48,
511
+ "grad_norm": 0.002997291274368763,
512
  "learning_rate": 6.220896095965428e-06,
513
  "loss": 0.0,
514
  "step": 720
515
  },
516
  {
517
  "epoch": 0.4866666666666667,
518
+ "grad_norm": 0.0038447449915111065,
519
  "learning_rate": 6.107742488097338e-06,
520
  "loss": 0.0,
521
  "step": 730
522
  },
523
  {
524
  "epoch": 0.49333333333333335,
525
+ "grad_norm": 0.014479395002126694,
526
  "learning_rate": 5.993989018130173e-06,
527
  "loss": 0.0,
528
  "step": 740
529
  },
530
  {
531
  "epoch": 0.5,
532
+ "grad_norm": 0.003107738448306918,
533
  "learning_rate": 5.879697285574655e-06,
534
  "loss": 0.0,
535
  "step": 750
536
  },
537
  {
538
  "epoch": 0.5066666666666667,
539
+ "grad_norm": 0.0009599807090125978,
540
  "learning_rate": 5.764929181420191e-06,
541
  "loss": 0.0,
542
  "step": 760
543
  },
544
  {
545
  "epoch": 0.5133333333333333,
546
+ "grad_norm": 0.055619705468416214,
547
  "learning_rate": 5.649746854619814e-06,
548
  "loss": 0.0,
549
  "step": 770
550
  },
551
  {
552
  "epoch": 0.52,
553
+ "grad_norm": 0.0003431120130699128,
554
  "learning_rate": 5.5342126784354265e-06,
555
+ "loss": 0.0,
556
  "step": 780
557
  },
558
  {
559
  "epoch": 0.5266666666666666,
560
+ "grad_norm": 0.0037208539433777332,
561
  "learning_rate": 5.41838921666158e-06,
562
  "loss": 0.0,
563
  "step": 790
564
  },
565
  {
566
  "epoch": 0.5333333333333333,
567
+ "grad_norm": 0.000522464164532721,
568
  "learning_rate": 5.3023391897460715e-06,
569
  "loss": 0.0,
570
  "step": 800
571
  },
572
  {
573
  "epoch": 0.54,
574
+ "grad_norm": 0.00010732894588727504,
575
  "learning_rate": 5.18612544082573e-06,
576
  "loss": 0.0,
577
  "step": 810
578
  },
579
  {
580
  "epoch": 0.5466666666666666,
581
+ "grad_norm": 0.00016880959447007626,
582
  "learning_rate": 5.069810901695727e-06,
583
  "loss": 0.0,
584
  "step": 820
585
  },
586
  {
587
  "epoch": 0.5533333333333333,
588
+ "grad_norm": 0.0017007584683597088,
589
  "learning_rate": 4.953458558730917e-06,
590
  "loss": 0.0,
591
  "step": 830
592
  },
593
  {
594
  "epoch": 0.56,
595
+ "grad_norm": 0.0032855423633009195,
596
  "learning_rate": 4.837131418777595e-06,
597
  "loss": 0.0,
598
  "step": 840
599
  },
600
  {
601
  "epoch": 0.5666666666666667,
602
+ "grad_norm": 0.04778609052300453,
603
  "learning_rate": 4.720892475034181e-06,
604
  "loss": 0.0,
605
  "step": 850
606
  },
607
  {
608
  "epoch": 0.5733333333333334,
609
+ "grad_norm": 0.0039595733396708965,
610
  "learning_rate": 4.604804672939295e-06,
611
  "loss": 0.0,
612
  "step": 860
613
  },
614
  {
615
  "epoch": 0.58,
616
+ "grad_norm": 0.005604567937552929,
617
  "learning_rate": 4.4889308760856826e-06,
618
  "loss": 0.0,
619
  "step": 870
620
  },
621
  {
622
  "epoch": 0.5866666666666667,
623
+ "grad_norm": 0.07431041449308395,
624
  "learning_rate": 4.373333832178478e-06,
625
  "loss": 0.0,
626
  "step": 880
627
  },
628
  {
629
  "epoch": 0.5933333333333334,
630
+ "grad_norm": 0.0017209794605150819,
631
  "learning_rate": 4.258076139056217e-06,
632
  "loss": 0.0,
633
  "step": 890
634
  },
635
  {
636
  "epoch": 0.6,
637
+ "grad_norm": 0.0040102796629071236,
638
  "learning_rate": 4.143220210792993e-06,
639
  "loss": 0.0,
640
  "step": 900
641
  },
642
  {
643
  "epoch": 0.6066666666666667,
644
+ "grad_norm": 0.00602424331009388,
645
  "learning_rate": 4.028828243900141e-06,
646
  "loss": 0.0,
647
  "step": 910
648
  },
649
  {
650
  "epoch": 0.6133333333333333,
651
+ "grad_norm": 0.00047166028525680304,
652
  "learning_rate": 3.914962183645733e-06,
653
  "loss": 0.0,
654
  "step": 920
655
  },
656
  {
657
  "epoch": 0.62,
658
+ "grad_norm": 0.001575458562001586,
659
  "learning_rate": 3.8016836905101157e-06,
660
  "loss": 0.0,
661
  "step": 930
662
  },
663
  {
664
  "epoch": 0.6266666666666667,
665
+ "grad_norm": 0.004238756373524666,
666
  "learning_rate": 3.6890541067956775e-06,
667
  "loss": 0.0,
668
  "step": 940
669
  },
670
  {
671
  "epoch": 0.6333333333333333,
672
+ "grad_norm": 0.00011639059812296182,
673
  "learning_rate": 3.577134423408906e-06,
674
  "loss": 0.0,
675
  "step": 950
676
  },
677
  {
678
  "epoch": 0.64,
679
+ "grad_norm": 0.00045719408080913126,
680
  "learning_rate": 3.465985246832739e-06,
681
  "loss": 0.0,
682
  "step": 960
683
  },
684
  {
685
  "epoch": 0.6466666666666666,
686
+ "grad_norm": 0.000450117455329746,
687
  "learning_rate": 3.355666766307084e-06,
688
  "loss": 0.0,
689
  "step": 970
690
  },
691
  {
692
  "epoch": 0.6533333333333333,
693
+ "grad_norm": 0.005541428457945585,
694
  "learning_rate": 3.246238721235283e-06,
695
  "loss": 0.0,
696
  "step": 980
697
  },
698
  {
699
  "epoch": 0.66,
700
+ "grad_norm": 0.0006601921049878001,
701
  "learning_rate": 3.137760368834169e-06,
702
  "loss": 0.0,
703
  "step": 990
704
  },
705
  {
706
  "epoch": 0.6666666666666666,
707
+ "grad_norm": 0.05790138244628906,
708
  "learning_rate": 3.030290452045245e-06,
709
  "loss": 0.0,
710
  "step": 1000
711
  },
712
  {
713
  "epoch": 0.6733333333333333,
714
+ "grad_norm": 0.006302819121629,
715
  "learning_rate": 2.9238871677243354e-06,
716
  "loss": 0.0,
717
  "step": 1010
718
  },
719
  {
720
  "epoch": 0.68,
721
+ "grad_norm": 0.004199758172035217,
722
  "learning_rate": 2.818608135126967e-06,
723
  "loss": 0.0,
724
  "step": 1020
725
  },
726
  {
727
  "epoch": 0.6866666666666666,
728
+ "grad_norm": 0.0018709124997258186,
729
  "learning_rate": 2.714510364706531e-06,
730
  "loss": 0.0,
731
  "step": 1030
732
  },
733
  {
734
  "epoch": 0.6933333333333334,
735
+ "grad_norm": 3.002694393217098e-05,
736
  "learning_rate": 2.611650227242102e-06,
737
  "loss": 0.0,
738
  "step": 1040
739
  },
740
  {
741
  "epoch": 0.7,
742
+ "grad_norm": 1.5439876733580604e-05,
743
  "learning_rate": 2.5100834233126827e-06,
744
  "loss": 0.0,
745
  "step": 1050
746
  },
747
  {
748
  "epoch": 0.7066666666666667,
749
+ "grad_norm": 4.8235233407467604e-05,
750
  "learning_rate": 2.40986495313435e-06,
751
  "loss": 0.0,
752
  "step": 1060
753
  },
754
  {
755
  "epoch": 0.7133333333333334,
756
+ "grad_norm": 9.672288433648646e-05,
757
  "learning_rate": 2.3110490867766644e-06,
758
  "loss": 0.0,
759
  "step": 1070
760
  },
761
  {
762
  "epoch": 0.72,
763
+ "grad_norm": 0.0001837763556977734,
764
  "learning_rate": 2.213689334774479e-06,
765
  "loss": 0.0,
766
  "step": 1080
767
  },
768
  {
769
  "epoch": 0.7266666666666667,
770
+ "grad_norm": 0.0038335772696882486,
771
  "learning_rate": 2.1178384191510344e-06,
772
  "loss": 0.0,
773
  "step": 1090
774
  },
775
  {
776
  "epoch": 0.7333333333333333,
777
+ "grad_norm": 0.000385998806450516,
778
  "learning_rate": 2.023548244868051e-06,
779
  "loss": 0.0,
780
  "step": 1100
781
  },
782
  {
783
  "epoch": 0.74,
784
+ "grad_norm": 0.00012492231326177716,
785
  "learning_rate": 1.9308698717182874e-06,
786
  "loss": 0.0,
787
  "step": 1110
788
  },
789
  {
790
  "epoch": 0.7466666666666667,
791
+ "grad_norm": 0.00021185862715356052,
792
  "learning_rate": 1.8398534866757455e-06,
793
  "loss": 0.0,
794
  "step": 1120
795
  },
796
  {
797
  "epoch": 0.7533333333333333,
798
+ "grad_norm": 0.0008843826362863183,
799
  "learning_rate": 1.7505483767185583e-06,
800
  "loss": 0.0,
801
  "step": 1130
802
  },
803
  {
804
  "epoch": 0.76,
805
+ "grad_norm": 0.0002160682197427377,
806
  "learning_rate": 1.6630029021392007e-06,
807
  "loss": 0.0,
808
  "step": 1140
809
  },
810
  {
811
  "epoch": 0.7666666666666667,
812
+ "grad_norm": 0.00014134158845990896,
813
  "learning_rate": 1.5772644703565564e-06,
814
  "loss": 0.0,
815
  "step": 1150
816
  },
817
  {
818
  "epoch": 0.7733333333333333,
819
+ "grad_norm": 0.0004742629826068878,
820
  "learning_rate": 1.4933795102439558e-06,
821
  "loss": 0.0,
822
  "step": 1160
823
  },
824
  {
825
  "epoch": 0.78,
826
+ "grad_norm": 4.172280023340136e-05,
827
  "learning_rate": 1.4113934469871166e-06,
828
  "loss": 0.0,
829
  "step": 1170
830
  },
831
  {
832
  "epoch": 0.7866666666666666,
833
+ "grad_norm": 0.00021516327979043126,
834
  "learning_rate": 1.3313506774856177e-06,
835
  "loss": 0.0,
836
  "step": 1180
837
  },
838
  {
839
  "epoch": 0.7933333333333333,
840
+ "grad_norm": 2.9287697543622926e-05,
841
  "learning_rate": 1.2532945463111856e-06,
842
  "loss": 0.0,
843
  "step": 1190
844
  },
845
  {
846
  "epoch": 0.8,
847
+ "grad_norm": 4.138083022553474e-05,
848
  "learning_rate": 1.1772673222358421e-06,
849
  "loss": 0.0,
850
  "step": 1200
851
  },
852
  {
853
  "epoch": 0.8066666666666666,
854
+ "grad_norm": 6.163879879750311e-05,
855
  "learning_rate": 1.1033101753426285e-06,
856
  "loss": 0.0,
857
  "step": 1210
858
  },
859
  {
860
  "epoch": 0.8133333333333334,
861
+ "grad_norm": 1.5614117728546262e-05,
862
  "learning_rate": 1.0314631547312738e-06,
863
  "loss": 0.0,
864
  "step": 1220
865
  },
866
  {
867
  "epoch": 0.82,
868
+ "grad_norm": 8.856550266500562e-05,
869
  "learning_rate": 9.617651668308914e-07,
870
  "loss": 0.0,
871
  "step": 1230
872
  },
873
  {
874
  "epoch": 0.8266666666666667,
875
+ "grad_norm": 0.0004509671707637608,
876
  "learning_rate": 8.942539543314799e-07,
877
  "loss": 0.0,
878
  "step": 1240
879
  },
880
  {
881
  "epoch": 0.8333333333333334,
882
+ "grad_norm": 1.206113211082993e-05,
883
  "learning_rate": 8.289660757455803e-07,
884
  "loss": 0.0,
885
  "step": 1250
886
  },
887
  {
888
  "epoch": 0.84,
889
+ "grad_norm": 5.8737368817673996e-05,
890
  "learning_rate": 7.659368856111926e-07,
891
  "loss": 0.0,
892
  "step": 1260
893
  },
894
  {
895
  "epoch": 0.8466666666666667,
896
+ "grad_norm": 0.0002371439477428794,
897
  "learning_rate": 7.052005153466779e-07,
898
  "loss": 0.0,
899
  "step": 1270
900
  },
901
  {
902
  "epoch": 0.8533333333333334,
903
+ "grad_norm": 0.00012004771269857883,
904
  "learning_rate": 6.467898547679913e-07,
905
  "loss": 0.0,
906
  "step": 1280
907
  },
908
  {
909
  "epoch": 0.86,
910
+ "grad_norm": 2.6902409445028752e-05,
911
  "learning_rate": 5.9073653427826e-07,
912
  "loss": 0.0,
913
  "step": 1290
914
  },
915
  {
916
  "epoch": 0.8666666666666667,
917
+ "grad_norm": 0.01538049802184105,
918
  "learning_rate": 5.370709077393721e-07,
919
  "loss": 0.0,
920
  "step": 1300
921
  },
922
  {
923
  "epoch": 0.8733333333333333,
924
+ "grad_norm": 1.3241502529126592e-05,
925
  "learning_rate": 4.858220360348187e-07,
926
  "loss": 0.0,
927
  "step": 1310
928
  },
929
  {
930
  "epoch": 0.88,
931
+ "grad_norm": 5.037395749241114e-05,
932
  "learning_rate": 4.370176713327118e-07,
933
  "loss": 0.0,
934
  "step": 1320
935
  },
936
  {
937
  "epoch": 0.8866666666666667,
938
+ "grad_norm": 6.882638263050467e-05,
939
  "learning_rate": 3.90684242057498e-07,
940
  "loss": 0.0,
941
  "step": 1330
942
  },
943
  {
944
  "epoch": 0.8933333333333333,
945
+ "grad_norm": 2.428212610539049e-05,
946
  "learning_rate": 3.468468385785023e-07,
947
  "loss": 0.0,
948
  "step": 1340
949
  },
950
  {
951
  "epoch": 0.9,
952
+ "grad_norm": 0.0009817290119826794,
953
  "learning_rate": 3.055291996230492e-07,
954
  "loss": 0.0,
955
  "step": 1350
956
  },
957
  {
958
  "epoch": 0.9066666666666666,
959
+ "grad_norm": 2.027802838711068e-05,
960
  "learning_rate": 2.6675369942151864e-07,
961
  "loss": 0.0,
962
  "step": 1360
963
  },
964
  {
965
  "epoch": 0.9133333333333333,
966
+ "grad_norm": 5.2416755352169275e-05,
967
  "learning_rate": 2.3054133559131163e-07,
968
  "loss": 0.0,
969
  "step": 1370
970
  },
971
  {
972
  "epoch": 0.92,
973
+ "grad_norm": 0.0004140799574088305,
974
  "learning_rate": 1.9691171776626882e-07,
975
  "loss": 0.0,
976
  "step": 1380
977
  },
978
  {
979
  "epoch": 0.9266666666666666,
980
+ "grad_norm": 1.8166974768973887e-05,
981
  "learning_rate": 1.6588305697770313e-07,
982
  "loss": 0.0,
983
  "step": 1390
984
  },
985
  {
986
  "epoch": 0.9333333333333333,
987
+ "grad_norm": 0.0008297497406601906,
988
  "learning_rate": 1.374721557928116e-07,
989
  "loss": 0.0,
990
  "step": 1400
991
  },
992
  {
993
  "epoch": 0.94,
994
+ "grad_norm": 0.000171360356034711,
995
  "learning_rate": 1.1169439921578485e-07,
996
  "loss": 0.0,
997
  "step": 1410
998
  },
999
  {
1000
  "epoch": 0.9466666666666667,
1001
+ "grad_norm": 0.00012328663433436304,
1002
  "learning_rate": 8.856374635655696e-08,
1003
  "loss": 0.0,
1004
  "step": 1420
1005
  },
1006
  {
1007
  "epoch": 0.9533333333333334,
1008
+ "grad_norm": 0.0007062831427901983,
1009
  "learning_rate": 6.809272287169988e-08,
1010
  "loss": 0.0,
1011
  "step": 1430
1012
  },
1013
  {
1014
  "epoch": 0.96,
1015
+ "grad_norm": 0.0013458817265927792,
1016
  "learning_rate": 5.029241418156139e-08,
1017
  "loss": 0.0,
1018
  "step": 1440
1019
  },
1020
  {
1021
  "epoch": 0.9666666666666667,
1022
+ "grad_norm": 1.999468804569915e-05,
1023
  "learning_rate": 3.517245946731529e-08,
1024
  "loss": 0.0,
1025
  "step": 1450
1026
  },
1027
  {
1028
  "epoch": 0.9733333333333334,
1029
+ "grad_norm": 0.017255952581763268,
1030
  "learning_rate": 2.27410464511707e-08,
1031
  "loss": 0.0,
1032
  "step": 1460
1033
  },
1034
  {
1035
  "epoch": 0.98,
1036
+ "grad_norm": 0.0004461519420146942,
1037
  "learning_rate": 1.3004906962578723e-08,
1038
  "loss": 0.0,
1039
  "step": 1470
1040
  },
1041
  {
1042
  "epoch": 0.9866666666666667,
1043
+ "grad_norm": 6.429434870369732e-05,
1044
  "learning_rate": 5.969313292830126e-09,
1045
  "loss": 0.0,
1046
  "step": 1480
1047
  },
1048
  {
1049
  "epoch": 0.9933333333333333,
1050
+ "grad_norm": 8.142790466081351e-05,
1051
  "learning_rate": 1.638075340010814e-09,
1052
  "loss": 0.0,
1053
  "step": 1490
1054
  },
1055
  {
1056
  "epoch": 1.0,
1057
+ "grad_norm": 2.7310657969792373e-05,
1058
  "learning_rate": 1.3538545881042198e-11,
1059
  "loss": 0.0,
1060
  "step": 1500
toy_maze_2d_100k_z2/checkpoint-1500/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:43a59ff80712314c841c2e7173c0ce3fd9cf253f6406d9c5a6a0c00500b399c7
3
  size 7416
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c82827f6a8a642227fa894d131beea58a7f6229898bcd48befc9273e975756c7
3
  size 7416