Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.11-c/checkpoint-10240/ema.safetensors +3 -0
checkpoints-v5.11-c/checkpoint-10240/eval_state.json +3 -0
checkpoints-v5.11-c/checkpoint-10240/model.safetensors +3 -0
checkpoints-v5.11-c/checkpoint-10240/optimizer.pt +3 -0
checkpoints-v5.11-c/checkpoint-10240/rng_state.pth +3 -0
checkpoints-v5.11-c/checkpoint-10240/scaler.pt +3 -0
checkpoints-v5.11-c/checkpoint-10240/scheduler.pt +3 -0
checkpoints-v5.11-c/checkpoint-10240/trainer_state.json +414 -0
checkpoints-v5.11-c/checkpoint-10240/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -55,3 +55,4 @@ checkpoints-v5.11/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs
 checkpoints-v4.6/checkpoint-13312/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.11-b/checkpoint-9216/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.11-c/checkpoint-4096/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v4.6/checkpoint-13312/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.11-b/checkpoint-9216/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.11-c/checkpoint-4096/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.11-c/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.11-c/checkpoint-10240/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:233b07757a42e4eaad1a2e29a22bca4d07dc0b9591c8944a2dc66436ba7ead1b
+size 55150648

checkpoints-v5.11-c/checkpoint-10240/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f35348a1b676605a7a5393429ee5b4b137a892a25e0d415230a0531beaa7ef8a
+size 57895598

checkpoints-v5.11-c/checkpoint-10240/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce90d6a1492fa79ea90047b3365bfd64f87a683a8770fd16a2e0f829319ee655
+size 55150680

checkpoints-v5.11-c/checkpoint-10240/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3be142afadd11d0a9edc20ad02c948ac25afbe1a8bf32513cc2a90358f8fd5e1
+size 77724619

checkpoints-v5.11-c/checkpoint-10240/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:395a99c9379c14b57848072fe8b6246133ccdfbc9ea5f8c57ebc64605d710240
+size 14645

checkpoints-v5.11-c/checkpoint-10240/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51578f744be5b527763893e9bb928aab91f9a44e3d7a707e14699332d93562a0
+size 1383

checkpoints-v5.11-c/checkpoint-10240/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:012f7b23a26c3659b3d642258b23d2a9db5c112a8101c3ff10a13ac93f47a91e
+size 1465

checkpoints-v5.11-c/checkpoint-10240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,414 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.44131273299286744,
+  "eval_steps": 1024,
+  "global_step": 10240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 1.3239375352859497,
+      "learning_rate": 9.990234375e-05,
+      "loss": 9.52033519744873,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.07157369363596942,
+      "eval_ce_clean_loss": 3.4926672363077906,
+      "eval_ce_pred_loss": 5.343971137553136,
+      "eval_flow_consistency_loss": 0.21455860643117414,
+      "eval_flow_mse_loss": 0.9182186252526892,
+      "eval_loss": 6.718735785372476,
+      "flow/cos_sim": 0.4531501281236026,
+      "flow/improvement_ratio": 0.9899448362240659,
+      "flow/mag_ratio_mean": 0.35970314955914706,
+      "flow/mag_ratio_std": 0.08068646627194337,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.07157369363596942,
+      "eval_ce_clean_loss": 3.4926672363077906,
+      "eval_ce_pred_loss": 5.343971137553136,
+      "eval_flow_consistency_loss": 0.21455860643117414,
+      "eval_flow_mse_loss": 0.9182186252526892,
+      "eval_loss": 6.718735785372476,
+      "eval_runtime": 220.5559,
+      "eval_samples_per_second": 136.02,
+      "eval_steps_per_second": 2.126,
+      "flow/cos_sim": 0.4531501281236026,
+      "flow/improvement_ratio": 0.9899448362240659,
+      "flow/mag_ratio_mean": 0.35970314955914706,
+      "flow/mag_ratio_std": 0.08068646627194337,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 1.2716542482376099,
+      "learning_rate": 9.9476028157316e-05,
+      "loss": 5.5954484939575195,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.2851081261327202,
+      "eval_ce_clean_loss": 1.1201755729819667,
+      "eval_ce_pred_loss": 3.4080677672998227,
+      "eval_flow_consistency_loss": 0.19224862538293988,
+      "eval_flow_mse_loss": 1.2042766176561304,
+      "eval_loss": 4.820486245124833,
+      "flow/cos_sim": 0.6777764271571438,
+      "flow/improvement_ratio": 0.9942337602440482,
+      "flow/mag_ratio_mean": 0.6318551317206832,
+      "flow/mag_ratio_std": 0.09376044439545064,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.2851081261327202,
+      "eval_ce_clean_loss": 1.1201755729819667,
+      "eval_ce_pred_loss": 3.4080677672998227,
+      "eval_flow_consistency_loss": 0.19224862538293988,
+      "eval_flow_mse_loss": 1.2042766176561304,
+      "eval_loss": 4.820486245124833,
+      "eval_runtime": 207.2,
+      "eval_samples_per_second": 144.788,
+      "eval_steps_per_second": 2.264,
+      "flow/cos_sim": 0.6777764271571438,
+      "flow/improvement_ratio": 0.9942337602440482,
+      "flow/mag_ratio_mean": 0.6318551317206832,
+      "flow/mag_ratio_std": 0.09376044439545064,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 1.0747904777526855,
+      "learning_rate": 9.791307026072513e-05,
+      "loss": 4.509411811828613,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.3946967707762435,
+      "eval_ce_clean_loss": 0.4840524077161289,
+      "eval_ce_pred_loss": 2.659346651166741,
+      "eval_flow_consistency_loss": 0.19842284905122543,
+      "eval_flow_mse_loss": 1.3267124548141382,
+      "eval_loss": 4.133675775039933,
+      "flow/cos_sim": 0.7460494351539531,
+      "flow/improvement_ratio": 0.9937591908583,
+      "flow/mag_ratio_mean": 0.7239802262422118,
+      "flow/mag_ratio_std": 0.11313430988775895,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.3946967707762435,
+      "eval_ce_clean_loss": 0.4840524077161289,
+      "eval_ce_pred_loss": 2.659346651166741,
+      "eval_flow_consistency_loss": 0.19842284905122543,
+      "eval_flow_mse_loss": 1.3267124548141382,
+      "eval_loss": 4.133675775039933,
+      "eval_runtime": 208.2191,
+      "eval_samples_per_second": 144.079,
+      "eval_steps_per_second": 2.252,
+      "flow/cos_sim": 0.7460494351539531,
+      "flow/improvement_ratio": 0.9937591908583,
+      "flow/mag_ratio_mean": 0.7239802262422118,
+      "flow/mag_ratio_std": 0.11313430988775895,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 1.35178542137146,
+      "learning_rate": 9.53439476074686e-05,
+      "loss": 4.063338756561279,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.4525546979234133,
+      "eval_ce_clean_loss": 0.2581422195823462,
+      "eval_ce_pred_loss": 2.373856964396007,
+      "eval_flow_consistency_loss": 0.18598086035836225,
+      "eval_flow_mse_loss": 1.3554061541933495,
+      "eval_loss": 3.8480677752098296,
+      "flow/cos_sim": 0.7761308249634212,
+      "flow/improvement_ratio": 0.9946825252667165,
+      "flow/mag_ratio_mean": 0.759453354868045,
+      "flow/mag_ratio_std": 0.12538669191634477,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.4525546979234133,
+      "eval_ce_clean_loss": 0.2581422195823462,
+      "eval_ce_pred_loss": 2.373856964396007,
+      "eval_flow_consistency_loss": 0.18598086035836225,
+      "eval_flow_mse_loss": 1.3554061541933495,
+      "eval_loss": 3.8480677752098296,
+      "eval_runtime": 208.6969,
+      "eval_samples_per_second": 143.749,
+      "eval_steps_per_second": 2.247,
+      "flow/cos_sim": 0.7761308249634212,
+      "flow/improvement_ratio": 0.9946825252667165,
+      "flow/mag_ratio_mean": 0.759453354868045,
+      "flow/mag_ratio_std": 0.12538669191634477,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 1.6914981603622437,
+      "learning_rate": 9.18264920723673e-05,
+      "loss": 3.863734245300293,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.4780302414550105,
+      "eval_ce_clean_loss": 0.1603111465221275,
+      "eval_ce_pred_loss": 2.2246805859018743,
+      "eval_flow_consistency_loss": 0.18130130198464464,
+      "eval_flow_mse_loss": 1.3407130388817046,
+      "eval_loss": 3.6720753941200437,
+      "flow/cos_sim": 0.7899645644464472,
+      "flow/improvement_ratio": 0.994722522270959,
+      "flow/mag_ratio_mean": 0.7766606548447599,
+      "flow/mag_ratio_std": 0.13345527180285852,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.4780302414550105,
+      "eval_ce_clean_loss": 0.1603111465221275,
+      "eval_ce_pred_loss": 2.2246805859018743,
+      "eval_flow_consistency_loss": 0.18130130198464464,
+      "eval_flow_mse_loss": 1.3407130388817046,
+      "eval_loss": 3.6720753941200437,
+      "eval_runtime": 214.7984,
+      "eval_samples_per_second": 139.666,
+      "eval_steps_per_second": 2.183,
+      "flow/cos_sim": 0.7899645644464472,
+      "flow/improvement_ratio": 0.994722522270959,
+      "flow/mag_ratio_mean": 0.7766606548447599,
+      "flow/mag_ratio_std": 0.13345527180285852,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 2.709454298019409,
+      "learning_rate": 8.742770483354739e-05,
+      "loss": 3.7396228313446045,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.4934682590798475,
+      "eval_ce_clean_loss": 0.10936822897907514,
+      "eval_ce_pred_loss": 2.161721092551502,
+      "eval_flow_consistency_loss": 0.18502742693876661,
+      "eval_flow_mse_loss": 1.3550941201923752,
+      "eval_loss": 3.620265751759381,
+      "flow/cos_sim": 0.7949470201535012,
+      "flow/improvement_ratio": 0.9949648318006031,
+      "flow/mag_ratio_mean": 0.7885439048952131,
+      "flow/mag_ratio_std": 0.13873019352205782,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.4934682590798475,
+      "eval_ce_clean_loss": 0.10936822897907514,
+      "eval_ce_pred_loss": 2.161721092551502,
+      "eval_flow_consistency_loss": 0.18502742693876661,
+      "eval_flow_mse_loss": 1.3550941201923752,
+      "eval_loss": 3.620265751759381,
+      "eval_runtime": 209.4321,
+      "eval_samples_per_second": 143.244,
+      "eval_steps_per_second": 2.239,
+      "flow/cos_sim": 0.7949470201535012,
+      "flow/improvement_ratio": 0.9949648318006031,
+      "flow/mag_ratio_mean": 0.7885439048952131,
+      "flow/mag_ratio_std": 0.13873019352205782,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 1.3311004638671875,
+      "learning_rate": 8.22483558761947e-05,
+      "loss": 3.646756649017334,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.5096134505839379,
+      "eval_ce_clean_loss": 0.0788542938464359,
+      "eval_ce_pred_loss": 2.0752987648124126,
+      "eval_flow_consistency_loss": 0.18312989861599163,
+      "eval_flow_mse_loss": 1.3398124963235754,
+      "eval_loss": 3.514561640936683,
+      "flow/cos_sim": 0.8007625590509443,
+      "flow/improvement_ratio": 0.9952790275819774,
+      "flow/mag_ratio_mean": 0.7927075416040319,
+      "flow/mag_ratio_std": 0.13909053750066105,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.5096134505839379,
+      "eval_ce_clean_loss": 0.0788542938464359,
+      "eval_ce_pred_loss": 2.0752987648124126,
+      "eval_flow_consistency_loss": 0.18312989861599163,
+      "eval_flow_mse_loss": 1.3398124963235754,
+      "eval_loss": 3.514561640936683,
+      "eval_runtime": 212.3028,
+      "eval_samples_per_second": 141.308,
+      "eval_steps_per_second": 2.209,
+      "flow/cos_sim": 0.8007625590509443,
+      "flow/improvement_ratio": 0.9952790275819774,
+      "flow/mag_ratio_mean": 0.7927075416040319,
+      "flow/mag_ratio_std": 0.13909053750066105,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 1.5390197038650513,
+      "learning_rate": 7.638710244802891e-05,
+      "loss": 3.5665171146392822,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.5144287355459397,
+      "eval_ce_clean_loss": 0.059409899577530206,
+      "eval_ce_pred_loss": 2.0436038091492805,
+      "eval_flow_consistency_loss": 0.18318010418653996,
+      "eval_flow_mse_loss": 1.354745762815862,
+      "eval_loss": 3.4958806147199195,
+      "flow/cos_sim": 0.8068296403518872,
+      "flow/improvement_ratio": 0.9938453970941653,
+      "flow/mag_ratio_mean": 0.7999166224811123,
+      "flow/mag_ratio_std": 0.14273165865366394,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.5144287355459397,
+      "eval_ce_clean_loss": 0.059409899577530206,
+      "eval_ce_pred_loss": 2.0436038091492805,
+      "eval_flow_consistency_loss": 0.18318010418653996,
+      "eval_flow_mse_loss": 1.354745762815862,
+      "eval_loss": 3.4958806147199195,
+      "eval_runtime": 211.5742,
+      "eval_samples_per_second": 141.794,
+      "eval_steps_per_second": 2.217,
+      "flow/cos_sim": 0.8068296403518872,
+      "flow/improvement_ratio": 0.9938453970941653,
+      "flow/mag_ratio_mean": 0.7999166224811123,
+      "flow/mag_ratio_std": 0.14273165865366394,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 2.071878433227539,
+      "learning_rate": 6.997821756319211e-05,
+      "loss": 3.5135498046875,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.5243968237197109,
+      "eval_ce_clean_loss": 0.04710457952959197,
+      "eval_ce_pred_loss": 1.983201584327958,
+      "eval_flow_consistency_loss": 0.1771627469802462,
+      "eval_flow_mse_loss": 1.3613082373828522,
+      "eval_loss": 3.4378016447461746,
+      "flow/cos_sim": 0.8124718137387273,
+      "flow/improvement_ratio": 0.9934973734528271,
+      "flow/mag_ratio_mean": 0.8084665637280641,
+      "flow/mag_ratio_std": 0.1460826443964993,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.5243968237197109,
+      "eval_ce_clean_loss": 0.04710457952959197,
+      "eval_ce_pred_loss": 1.983201584327958,
+      "eval_flow_consistency_loss": 0.1771627469802462,
+      "eval_flow_mse_loss": 1.3613082373828522,
+      "eval_loss": 3.4378016447461746,
+      "eval_runtime": 211.4833,
+      "eval_samples_per_second": 141.855,
+      "eval_steps_per_second": 2.218,
+      "flow/cos_sim": 0.8124718137387273,
+      "flow/improvement_ratio": 0.9934973734528271,
+      "flow/mag_ratio_mean": 0.8084665637280641,
+      "flow/mag_ratio_std": 0.1460826443964993,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 1.1792445182800293,
+      "learning_rate": 6.314377890922702e-05,
+      "loss": 3.483694553375244,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.5229780570233495,
+      "eval_ce_clean_loss": 0.03847669055466967,
+      "eval_ce_pred_loss": 1.9717130175531545,
+      "eval_flow_consistency_loss": 0.1745341007452784,
+      "eval_flow_mse_loss": 1.330098978237811,
+      "eval_loss": 3.392926719905471,
+      "flow/cos_sim": 0.8148269875725703,
+      "flow/improvement_ratio": 0.9942930840225871,
+      "flow/mag_ratio_mean": 0.814103724224481,
+      "flow/mag_ratio_std": 0.1476088911612659,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.5229780570233495,
+      "eval_ce_clean_loss": 0.03847669055466967,
+      "eval_ce_pred_loss": 1.9717130175531545,
+      "eval_flow_consistency_loss": 0.1745341007452784,
+      "eval_flow_mse_loss": 1.330098978237811,
+      "eval_loss": 3.392926719905471,
+      "eval_runtime": 211.9953,
+      "eval_samples_per_second": 141.513,
+      "eval_steps_per_second": 2.212,
+      "flow/cos_sim": 0.8148269875725703,
+      "flow/improvement_ratio": 0.9942930840225871,
+      "flow/mag_ratio_mean": 0.814103724224481,
+      "flow/mag_ratio_std": 0.1476088911612659,
+      "step": 10240
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.11-c/checkpoint-10240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137