Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.11-c/checkpoint-4096/ema.safetensors +3 -0
checkpoints-v5.11-c/checkpoint-4096/eval_state.json +3 -0
checkpoints-v5.11-c/checkpoint-4096/model.safetensors +3 -0
checkpoints-v5.11-c/checkpoint-4096/optimizer.pt +3 -0
checkpoints-v5.11-c/checkpoint-4096/rng_state.pth +3 -0
checkpoints-v5.11-c/checkpoint-4096/scaler.pt +3 -0
checkpoints-v5.11-c/checkpoint-4096/scheduler.pt +3 -0
checkpoints-v5.11-c/checkpoint-4096/trainer_state.json +186 -0
checkpoints-v5.11-c/checkpoint-4096/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -54,3 +54,4 @@ checkpoints-v4.5/checkpoint-21504/eval_state.json filter=lfs diff=lfs merge=lfs
 checkpoints-v5.11/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6/checkpoint-13312/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.11-b/checkpoint-9216/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5.11/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.6/checkpoint-13312/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.11-b/checkpoint-9216/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.11-c/checkpoint-4096/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.11-c/checkpoint-4096/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00cc4c290cc8397f869abcb222839dcc54e0b83abb6902663ddbae759ed68882
+size 55150648

checkpoints-v5.11-c/checkpoint-4096/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42ab9d7846afd3584c3af96b93d3ddba5b9a66bc9df774c10727fde27d8d2705
+size 57277800

checkpoints-v5.11-c/checkpoint-4096/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48981ffb2c0ec6e83c618d3ec51a5bb4d482719c8ec405f819682409d736b6e2
+size 55150680

checkpoints-v5.11-c/checkpoint-4096/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d124f5ea6fb65009d020df106471589d939284a628354d1cf1b4ac6912bab06
+size 77724619

checkpoints-v5.11-c/checkpoint-4096/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:861fdfa17b7f11c9deef61b90cbc22a18a249362575774d90ed84f2919f62310
+size 14645

checkpoints-v5.11-c/checkpoint-4096/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90078bef0ff08e77712ec862bc2a11b4989d3477480b20822129904ef078a3a3
+size 1383

checkpoints-v5.11-c/checkpoint-4096/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fbc93ab79de1c4761b64667cf33632ad206830e56d286204806262fb069585fe
+size 1465

checkpoints-v5.11-c/checkpoint-4096/trainer_state.json ADDED Viewed

	@@ -0,0 +1,186 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.176525093197147,
+  "eval_steps": 1024,
+  "global_step": 4096,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 1.3239375352859497,
+      "learning_rate": 9.990234375e-05,
+      "loss": 9.52033519744873,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.07157369363596942,
+      "eval_ce_clean_loss": 3.4926672363077906,
+      "eval_ce_pred_loss": 5.343971137553136,
+      "eval_flow_consistency_loss": 0.21455860643117414,
+      "eval_flow_mse_loss": 0.9182186252526892,
+      "eval_loss": 6.718735785372476,
+      "flow/cos_sim": 0.4531501281236026,
+      "flow/improvement_ratio": 0.9899448362240659,
+      "flow/mag_ratio_mean": 0.35970314955914706,
+      "flow/mag_ratio_std": 0.08068646627194337,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.07157369363596942,
+      "eval_ce_clean_loss": 3.4926672363077906,
+      "eval_ce_pred_loss": 5.343971137553136,
+      "eval_flow_consistency_loss": 0.21455860643117414,
+      "eval_flow_mse_loss": 0.9182186252526892,
+      "eval_loss": 6.718735785372476,
+      "eval_runtime": 220.5559,
+      "eval_samples_per_second": 136.02,
+      "eval_steps_per_second": 2.126,
+      "flow/cos_sim": 0.4531501281236026,
+      "flow/improvement_ratio": 0.9899448362240659,
+      "flow/mag_ratio_mean": 0.35970314955914706,
+      "flow/mag_ratio_std": 0.08068646627194337,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 1.2716542482376099,
+      "learning_rate": 9.9476028157316e-05,
+      "loss": 5.5954484939575195,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.2851081261327202,
+      "eval_ce_clean_loss": 1.1201755729819667,
+      "eval_ce_pred_loss": 3.4080677672998227,
+      "eval_flow_consistency_loss": 0.19224862538293988,
+      "eval_flow_mse_loss": 1.2042766176561304,
+      "eval_loss": 4.820486245124833,
+      "flow/cos_sim": 0.6777764271571438,
+      "flow/improvement_ratio": 0.9942337602440482,
+      "flow/mag_ratio_mean": 0.6318551317206832,
+      "flow/mag_ratio_std": 0.09376044439545064,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.2851081261327202,
+      "eval_ce_clean_loss": 1.1201755729819667,
+      "eval_ce_pred_loss": 3.4080677672998227,
+      "eval_flow_consistency_loss": 0.19224862538293988,
+      "eval_flow_mse_loss": 1.2042766176561304,
+      "eval_loss": 4.820486245124833,
+      "eval_runtime": 207.2,
+      "eval_samples_per_second": 144.788,
+      "eval_steps_per_second": 2.264,
+      "flow/cos_sim": 0.6777764271571438,
+      "flow/improvement_ratio": 0.9942337602440482,
+      "flow/mag_ratio_mean": 0.6318551317206832,
+      "flow/mag_ratio_std": 0.09376044439545064,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 1.0747904777526855,
+      "learning_rate": 9.791307026072513e-05,
+      "loss": 4.509411811828613,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.3946967707762435,
+      "eval_ce_clean_loss": 0.4840524077161289,
+      "eval_ce_pred_loss": 2.659346651166741,
+      "eval_flow_consistency_loss": 0.19842284905122543,
+      "eval_flow_mse_loss": 1.3267124548141382,
+      "eval_loss": 4.133675775039933,
+      "flow/cos_sim": 0.7460494351539531,
+      "flow/improvement_ratio": 0.9937591908583,
+      "flow/mag_ratio_mean": 0.7239802262422118,
+      "flow/mag_ratio_std": 0.11313430988775895,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.3946967707762435,
+      "eval_ce_clean_loss": 0.4840524077161289,
+      "eval_ce_pred_loss": 2.659346651166741,
+      "eval_flow_consistency_loss": 0.19842284905122543,
+      "eval_flow_mse_loss": 1.3267124548141382,
+      "eval_loss": 4.133675775039933,
+      "eval_runtime": 208.2191,
+      "eval_samples_per_second": 144.079,
+      "eval_steps_per_second": 2.252,
+      "flow/cos_sim": 0.7460494351539531,
+      "flow/improvement_ratio": 0.9937591908583,
+      "flow/mag_ratio_mean": 0.7239802262422118,
+      "flow/mag_ratio_std": 0.11313430988775895,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 1.35178542137146,
+      "learning_rate": 9.53439476074686e-05,
+      "loss": 4.063338756561279,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.4525546979234133,
+      "eval_ce_clean_loss": 0.2581422195823462,
+      "eval_ce_pred_loss": 2.373856964396007,
+      "eval_flow_consistency_loss": 0.18598086035836225,
+      "eval_flow_mse_loss": 1.3554061541933495,
+      "eval_loss": 3.8480677752098296,
+      "flow/cos_sim": 0.7761308249634212,
+      "flow/improvement_ratio": 0.9946825252667165,
+      "flow/mag_ratio_mean": 0.759453354868045,
+      "flow/mag_ratio_std": 0.12538669191634477,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.4525546979234133,
+      "eval_ce_clean_loss": 0.2581422195823462,
+      "eval_ce_pred_loss": 2.373856964396007,
+      "eval_flow_consistency_loss": 0.18598086035836225,
+      "eval_flow_mse_loss": 1.3554061541933495,
+      "eval_loss": 3.8480677752098296,
+      "eval_runtime": 208.6969,
+      "eval_samples_per_second": 143.749,
+      "eval_steps_per_second": 2.247,
+      "flow/cos_sim": 0.7761308249634212,
+      "flow/improvement_ratio": 0.9946825252667165,
+      "flow/mag_ratio_mean": 0.759453354868045,
+      "flow/mag_ratio_std": 0.12538669191634477,
+      "step": 4096
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.11-c/checkpoint-4096/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137