diff --git "a/mistral_safe_unlearning/trainer_state.json" "b/mistral_safe_unlearning/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/mistral_safe_unlearning/trainer_state.json"
@@ -0,0 +1,3861 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.9402985074626864,
+  "eval_steps": 500,
+  "global_step": 132,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 1.230027198791504,
+      "Normal prob": -1.230027198791504,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0,
+      "step": 0
+    },
+    {
+      "DPO Loss": 0.34657145664029176,
+      "Negative Geometric Mean": -0.9493766827771892,
+      "Negative prob": -0.9493766827771892,
+      "Normal Loss": 1.0090343952178955,
+      "Normal prob": -1.0090343952178955,
+      "Positive Loss": 0.37890636920928955,
+      "Positive prob": -0.37890636920928955,
+      "epoch": 0,
+      "step": 0
+    },
+    {
+      "epoch": 0.029850746268656716,
+      "grad_norm": 52.804205501572916,
+      "learning_rate": 2.9772727272727274e-06,
+      "loss": 1.4155,
+      "step": 1
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 1.092234492301941,
+      "Normal prob": -1.092234492301941,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.029850746268656716,
+      "step": 1
+    },
+    {
+      "DPO Loss": 0.3577462635421841,
+      "Negative Geometric Mean": -0.3783103787169165,
+      "Negative prob": -0.3783103787169165,
+      "Normal Loss": 0.8107529282569885,
+      "Normal prob": -0.8107529282569885,
+      "Positive Loss": 0.07748764753341675,
+      "Positive prob": -0.07748764753341675,
+      "epoch": 0.029850746268656716,
+      "step": 1
+    },
+    {
+      "epoch": 0.05970149253731343,
+      "grad_norm": 22.382695244020965,
+      "learning_rate": 2.9545454545454547e-06,
+      "loss": 1.1517,
+      "step": 2
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.8582519292831421,
+      "Normal prob": -0.8582519292831421,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.05970149253731343,
+      "step": 2
+    },
+    {
+      "DPO Loss": 0.3623313108408915,
+      "Negative Geometric Mean": -1.0158045398410653,
+      "Negative prob": -1.0158045398410653,
+      "Normal Loss": 0.7299004793167114,
+      "Normal prob": -0.7299004793167114,
+      "Positive Loss": 0.07864368706941605,
+      "Positive prob": -0.07864368706941605,
+      "epoch": 0.05970149253731343,
+      "step": 2
+    },
+    {
+      "epoch": 0.08955223880597014,
+      "grad_norm": 12.355752020889257,
+      "learning_rate": 2.931818181818182e-06,
+      "loss": 1.0958,
+      "step": 3
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9027985334396362,
+      "Normal prob": -0.9027985334396362,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.08955223880597014,
+      "step": 3
+    },
+    {
+      "DPO Loss": 0.37659024799225,
+      "Negative Geometric Mean": -0.6431755968319472,
+      "Negative prob": -0.6431755968319472,
+      "Normal Loss": 0.8552955389022827,
+      "Normal prob": -0.8552955389022827,
+      "Positive Loss": 0.0777173787355423,
+      "Positive prob": -0.0777173787355423,
+      "epoch": 0.08955223880597014,
+      "step": 3
+    },
+    {
+      "epoch": 0.11940298507462686,
+      "grad_norm": 13.671836146708186,
+      "learning_rate": 2.9090909090909093e-06,
+      "loss": 1.065,
+      "step": 4
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9766985177993774,
+      "Normal prob": -0.9766985177993774,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.11940298507462686,
+      "step": 4
+    },
+    {
+      "DPO Loss": 0.35204142219855233,
+      "Negative Geometric Mean": -0.8325932820638021,
+      "Negative prob": -0.8325932820638021,
+      "Normal Loss": 1.0553878545761108,
+      "Normal prob": -1.0553878545761108,
+      "Positive Loss": 0.09103336185216904,
+      "Positive prob": -0.09103336185216904,
+      "epoch": 0.11940298507462686,
+      "step": 4
+    },
+    {
+      "epoch": 0.14925373134328357,
+      "grad_norm": 9.500922911135007,
+      "learning_rate": 2.8863636363636366e-06,
+      "loss": 1.2053,
+      "step": 5
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9637267589569092,
+      "Normal prob": -0.9637267589569092,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.14925373134328357,
+      "step": 5
+    },
+    {
+      "DPO Loss": 0.3369350566486365,
+      "Negative Geometric Mean": -0.8089229916566171,
+      "Negative prob": -0.8089229916566171,
+      "Normal Loss": 0.809516429901123,
+      "Normal prob": -0.809516429901123,
+      "Positive Loss": 0.08676248043775558,
+      "Positive prob": -0.08676248043775558,
+      "epoch": 0.14925373134328357,
+      "step": 5
+    },
+    {
+      "epoch": 0.1791044776119403,
+      "grad_norm": 9.50990015460849,
+      "learning_rate": 2.863636363636364e-06,
+      "loss": 1.1133,
+      "step": 6
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.832047700881958,
+      "Normal prob": -0.832047700881958,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.1791044776119403,
+      "step": 6
+    },
+    {
+      "DPO Loss": 0.3370728580941308,
+      "Negative Geometric Mean": -0.8685310105770683,
+      "Negative prob": -0.8685310105770683,
+      "Normal Loss": 0.8815029263496399,
+      "Normal prob": -0.8815029263496399,
+      "Positive Loss": 0.07432825863361359,
+      "Positive prob": -0.07432825863361359,
+      "epoch": 0.1791044776119403,
+      "step": 6
+    },
+    {
+      "epoch": 0.208955223880597,
+      "grad_norm": 8.039098978654936,
+      "learning_rate": 2.840909090909091e-06,
+      "loss": 1.2064,
+      "step": 7
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9996135830879211,
+      "Normal prob": -0.9996135830879211,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.208955223880597,
+      "step": 7
+    },
+    {
+      "DPO Loss": 0.35429090257439527,
+      "Negative Geometric Mean": -0.610354295417444,
+      "Negative prob": -0.610354295417444,
+      "Normal Loss": 0.716498851776123,
+      "Normal prob": -0.716498851776123,
+      "Positive Loss": 0.09210512042045593,
+      "Positive prob": -0.09210512042045593,
+      "epoch": 0.208955223880597,
+      "step": 7
+    },
+    {
+      "epoch": 0.23880597014925373,
+      "grad_norm": 9.566983237882555,
+      "learning_rate": 2.8181818181818185e-06,
+      "loss": 1.067,
+      "step": 8
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.8073037266731262,
+      "Normal prob": -0.8073037266731262,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.23880597014925373,
+      "step": 8
+    },
+    {
+      "DPO Loss": 0.31094894833121156,
+      "Negative Geometric Mean": -0.8462985688606195,
+      "Negative prob": -0.8462985688606195,
+      "Normal Loss": 0.5099501013755798,
+      "Normal prob": -0.5099501013755798,
+      "Positive Loss": 0.09047375619411469,
+      "Positive prob": -0.09047375619411469,
+      "epoch": 0.23880597014925373,
+      "step": 8
+    },
+    {
+      "epoch": 0.26865671641791045,
+      "grad_norm": 7.87857077645135,
+      "learning_rate": 2.7954545454545453e-06,
+      "loss": 1.0028,
+      "step": 9
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.850799024105072,
+      "Normal prob": -0.850799024105072,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.26865671641791045,
+      "step": 9
+    },
+    {
+      "DPO Loss": 0.30296717585093275,
+      "Negative Geometric Mean": -0.9634897133738725,
+      "Negative prob": -0.9634897133738725,
+      "Normal Loss": 1.2854121923446655,
+      "Normal prob": -1.2854121923446655,
+      "Positive Loss": 0.07252619415521622,
+      "Positive prob": -0.07252619415521622,
+      "epoch": 0.26865671641791045,
+      "step": 9
+    },
+    {
+      "epoch": 0.29850746268656714,
+      "grad_norm": 9.469089262773355,
+      "learning_rate": 2.7727272727272726e-06,
+      "loss": 1.1173,
+      "step": 10
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.8608676195144653,
+      "Normal prob": -0.8608676195144653,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.29850746268656714,
+      "step": 10
+    },
+    {
+      "DPO Loss": 0.26851745737184274,
+      "Negative Geometric Mean": -1.0714603639998526,
+      "Negative prob": -1.0714603639998526,
+      "Normal Loss": 0.7984556555747986,
+      "Normal prob": -0.7984556555747986,
+      "Positive Loss": 0.05822120979428291,
+      "Positive prob": -0.05822120979428291,
+      "epoch": 0.29850746268656714,
+      "step": 10
+    },
+    {
+      "epoch": 0.3283582089552239,
+      "grad_norm": 7.287903263195378,
+      "learning_rate": 2.75e-06,
+      "loss": 1.013,
+      "step": 11
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.8310959339141846,
+      "Normal prob": -0.8310959339141846,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.3283582089552239,
+      "step": 11
+    },
+    {
+      "DPO Loss": 0.26161430097353844,
+      "Negative Geometric Mean": -1.1722790406482055,
+      "Negative prob": -1.1722790406482055,
+      "Normal Loss": 0.8640764355659485,
+      "Normal prob": -0.8640764355659485,
+      "Positive Loss": 0.07576876878738403,
+      "Positive prob": -0.07576876878738403,
+      "epoch": 0.3283582089552239,
+      "step": 11
+    },
+    {
+      "epoch": 0.3582089552238806,
+      "grad_norm": 12.679434481744659,
+      "learning_rate": 2.7272727272727272e-06,
+      "loss": 1.1083,
+      "step": 12
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9239760637283325,
+      "Normal prob": -0.9239760637283325,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.3582089552238806,
+      "step": 12
+    },
+    {
+      "DPO Loss": 0.3063912470938362,
+      "Negative Geometric Mean": -0.7924091110304511,
+      "Negative prob": -0.7924091110304511,
+      "Normal Loss": 0.8149660229682922,
+      "Normal prob": -0.8149660229682922,
+      "Positive Loss": 0.06200961023569107,
+      "Positive prob": -0.06200961023569107,
+      "epoch": 0.3582089552238806,
+      "step": 12
+    },
+    {
+      "epoch": 0.3880597014925373,
+      "grad_norm": 8.690620794915942,
+      "learning_rate": 2.7045454545454545e-06,
+      "loss": 1.0424,
+      "step": 13
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.7188159227371216,
+      "Normal prob": -0.7188159227371216,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.3880597014925373,
+      "step": 13
+    },
+    {
+      "DPO Loss": 0.2937756023461591,
+      "Negative Geometric Mean": -0.4400056991696919,
+      "Negative prob": -0.4400056991696919,
+      "Normal Loss": 0.8943111300468445,
+      "Normal prob": -0.8943111300468445,
+      "Positive Loss": 0.09851977974176407,
+      "Positive prob": -0.09851977974176407,
+      "epoch": 0.3880597014925373,
+      "step": 13
+    },
+    {
+      "epoch": 0.417910447761194,
+      "grad_norm": 8.116923440818201,
+      "learning_rate": 2.681818181818182e-06,
+      "loss": 1.019,
+      "step": 14
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.7557149529457092,
+      "Normal prob": -0.7557149529457092,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.417910447761194,
+      "step": 14
+    },
+    {
+      "DPO Loss": 0.3186842313017755,
+      "Negative Geometric Mean": -1.1004963759258488,
+      "Negative prob": -1.1004963759258488,
+      "Normal Loss": 0.8593255877494812,
+      "Normal prob": -0.8593255877494812,
+      "Positive Loss": 0.04907805845141411,
+      "Positive prob": -0.04907805845141411,
+      "epoch": 0.417910447761194,
+      "step": 14
+    },
+    {
+      "epoch": 0.44776119402985076,
+      "grad_norm": 8.007172349603502,
+      "learning_rate": 2.659090909090909e-06,
+      "loss": 1.0353,
+      "step": 15
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.897316038608551,
+      "Normal prob": -0.897316038608551,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.44776119402985076,
+      "step": 15
+    },
+    {
+      "DPO Loss": 0.1223304973432013,
+      "Negative Geometric Mean": -1.9276966850878456,
+      "Negative prob": -1.9276966850878456,
+      "Normal Loss": 0.6334409117698669,
+      "Normal prob": -0.6334409117698669,
+      "Positive Loss": 0.05224687606096268,
+      "Positive prob": -0.05224687606096268,
+      "epoch": 0.44776119402985076,
+      "step": 15
+    },
+    {
+      "epoch": 0.47761194029850745,
+      "grad_norm": 8.24043100452026,
+      "learning_rate": 2.6363636363636364e-06,
+      "loss": 0.9134,
+      "step": 16
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9187679886817932,
+      "Normal prob": -0.9187679886817932,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.47761194029850745,
+      "step": 16
+    },
+    {
+      "DPO Loss": 0.055564984135369914,
+      "Negative Geometric Mean": -3.0230499623024127,
+      "Negative prob": -3.0230499623024127,
+      "Normal Loss": 1.1529364585876465,
+      "Normal prob": -1.1529364585876465,
+      "Positive Loss": 0.08235401660203934,
+      "Positive prob": -0.08235401660203934,
+      "epoch": 0.47761194029850745,
+      "step": 16
+    },
+    {
+      "epoch": 0.5074626865671642,
+      "grad_norm": 8.688253054467179,
+      "learning_rate": 2.6136363636363637e-06,
+      "loss": 1.0468,
+      "step": 17
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.7582242488861084,
+      "Normal prob": -0.7582242488861084,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.5074626865671642,
+      "step": 17
+    },
+    {
+      "DPO Loss": 0.12820626634228,
+      "Negative Geometric Mean": -2.269475635729338,
+      "Negative prob": -2.269475635729338,
+      "Normal Loss": 0.3805200755596161,
+      "Normal prob": -0.3805200755596161,
+      "Positive Loss": 0.07097562402486801,
+      "Positive prob": -0.07097562402486801,
+      "epoch": 0.5074626865671642,
+      "step": 17
+    },
+    {
+      "epoch": 0.5373134328358209,
+      "grad_norm": 8.727946309173646,
+      "learning_rate": 2.590909090909091e-06,
+      "loss": 0.8819,
+      "step": 18
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 1.0369868278503418,
+      "Normal prob": -1.0369868278503418,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.5373134328358209,
+      "step": 18
+    },
+    {
+      "DPO Loss": 0.06657070366779086,
+      "Negative Geometric Mean": -2.8913005754059435,
+      "Negative prob": -2.8913005754059435,
+      "Normal Loss": 0.7784830331802368,
+      "Normal prob": -0.7784830331802368,
+      "Positive Loss": 0.04361863434314728,
+      "Positive prob": -0.04361863434314728,
+      "epoch": 0.5373134328358209,
+      "step": 18
+    },
+    {
+      "epoch": 0.5671641791044776,
+      "grad_norm": 8.562076920129734,
+      "learning_rate": 2.5681818181818183e-06,
+      "loss": 0.8626,
+      "step": 19
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9392335414886475,
+      "Normal prob": -0.9392335414886475,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.5671641791044776,
+      "step": 19
+    },
+    {
+      "DPO Loss": 0.004452790854185025,
+      "Negative Geometric Mean": -5.43384802094139,
+      "Negative prob": -5.43384802094139,
+      "Normal Loss": 0.8345220685005188,
+      "Normal prob": -0.8345220685005188,
+      "Positive Loss": 0.07906413078308105,
+      "Positive prob": -0.07906413078308105,
+      "epoch": 0.5671641791044776,
+      "step": 19
+    },
+    {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 9.154040073172876,
+      "learning_rate": 2.5454545454545456e-06,
+      "loss": 0.9584,
+      "step": 20
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.8151698112487793,
+      "Normal prob": -0.8151698112487793,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.5970149253731343,
+      "step": 20
+    },
+    {
+      "DPO Loss": 0.0007850244175145432,
+      "Negative Geometric Mean": -7.495313533399471,
+      "Negative prob": -7.495313533399471,
+      "Normal Loss": 0.8681256771087646,
+      "Normal prob": -0.8681256771087646,
+      "Positive Loss": 0.05661068111658096,
+      "Positive prob": -0.05661068111658096,
+      "epoch": 0.5970149253731343,
+      "step": 20
+    },
+    {
+      "epoch": 0.6268656716417911,
+      "grad_norm": 19.32249471061477,
+      "learning_rate": 2.522727272727273e-06,
+      "loss": 0.9313,
+      "step": 21
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.8350412249565125,
+      "Normal prob": -0.8350412249565125,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.6268656716417911,
+      "step": 21
+    },
+    {
+      "DPO Loss": 0.013323540066809244,
+      "Negative Geometric Mean": -4.539878773912091,
+      "Negative prob": -4.539878773912091,
+      "Normal Loss": 0.8549312949180603,
+      "Normal prob": -0.8549312949180603,
+      "Positive Loss": 0.0937165841460228,
+      "Positive prob": -0.0937165841460228,
+      "epoch": 0.6268656716417911,
+      "step": 21
+    },
+    {
+      "epoch": 0.6567164179104478,
+      "grad_norm": 18.4720664879043,
+      "learning_rate": 2.5e-06,
+      "loss": 0.9518,
+      "step": 22
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.83185875415802,
+      "Normal prob": -0.83185875415802,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.6567164179104478,
+      "step": 22
+    },
+    {
+      "DPO Loss": 7.441585176947715e-05,
+      "Negative Geometric Mean": -9.482926878210616,
+      "Negative prob": -9.482926878210616,
+      "Normal Loss": 1.0035439729690552,
+      "Normal prob": -1.0035439729690552,
+      "Positive Loss": 0.1059131771326065,
+      "Positive prob": -0.1059131771326065,
+      "epoch": 0.6567164179104478,
+      "step": 22
+    },
+    {
+      "epoch": 0.6865671641791045,
+      "grad_norm": 7.4403596397354015,
+      "learning_rate": 2.4772727272727275e-06,
+      "loss": 0.9741,
+      "step": 23
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 1.1941570043563843,
+      "Normal prob": -1.1941570043563843,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.6865671641791045,
+      "step": 23
+    },
+    {
+      "DPO Loss": 5.767926370817813e-06,
+      "Negative Geometric Mean": -12.173237529280238,
+      "Negative prob": -12.173237529280238,
+      "Normal Loss": 0.7278223037719727,
+      "Normal prob": -0.7278223037719727,
+      "Positive Loss": 0.07192976027727127,
+      "Positive prob": -0.07192976027727127,
+      "epoch": 0.6865671641791045,
+      "step": 23
+    },
+    {
+      "epoch": 0.7164179104477612,
+      "grad_norm": 7.330688093396721,
+      "learning_rate": 2.454545454545455e-06,
+      "loss": 0.9927,
+      "step": 24
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9865759611129761,
+      "Normal prob": -0.9865759611129761,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.7164179104477612,
+      "step": 24
+    },
+    {
+      "DPO Loss": 1.0947351633426092e-05,
+      "Negative Geometric Mean": -11.567188243575508,
+      "Negative prob": -11.567188243575508,
+      "Normal Loss": 0.8570675253868103,
+      "Normal prob": -0.8570675253868103,
+      "Positive Loss": 0.06724032014608383,
+      "Positive prob": -0.06724032014608383,
+      "epoch": 0.7164179104477612,
+      "step": 24
+    },
+    {
+      "epoch": 0.746268656716418,
+      "grad_norm": 7.557781355223681,
+      "learning_rate": 2.4318181818181817e-06,
+      "loss": 0.9221,
+      "step": 25
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9384709000587463,
+      "Normal prob": -0.9384709000587463,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.746268656716418,
+      "step": 25
+    },
+    {
+      "DPO Loss": 0.0003560853089358333,
+      "Negative Geometric Mean": -8.138521756169094,
+      "Negative prob": -8.138521756169094,
+      "Normal Loss": 0.8964889049530029,
+      "Normal prob": -0.8964889049530029,
+      "Positive Loss": 0.06566499173641205,
+      "Positive prob": -0.06566499173641205,
+      "epoch": 0.746268656716418,
+      "step": 25
+    },
+    {
+      "epoch": 0.7761194029850746,
+      "grad_norm": 7.046101597469539,
+      "learning_rate": 2.409090909090909e-06,
+      "loss": 0.9733,
+      "step": 26
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9506588578224182,
+      "Normal prob": -0.9506588578224182,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.7761194029850746,
+      "step": 26
+    },
+    {
+      "DPO Loss": 8.255091540571396e-06,
+      "Negative Geometric Mean": -11.822831423895254,
+      "Negative prob": -11.822831423895254,
+      "Normal Loss": 0.9992624521255493,
+      "Normal prob": -0.9992624521255493,
+      "Positive Loss": 0.093373604118824,
+      "Positive prob": -0.093373604118824,
+      "epoch": 0.7761194029850746,
+      "step": 26
+    },
+    {
+      "epoch": 0.8059701492537313,
+      "grad_norm": 6.576814099531671,
+      "learning_rate": 2.3863636363636363e-06,
+      "loss": 0.9531,
+      "step": 27
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.964348316192627,
+      "Normal prob": -0.964348316192627,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.8059701492537313,
+      "step": 27
+    },
+    {
+      "DPO Loss": 1.038318288302413e-05,
+      "Negative Geometric Mean": -12.70634533110119,
+      "Negative prob": -12.70634533110119,
+      "Normal Loss": 0.8761529326438904,
+      "Normal prob": -0.8761529326438904,
+      "Positive Loss": 0.048190467059612274,
+      "Positive prob": -0.048190467059612274,
+      "epoch": 0.8059701492537313,
+      "step": 27
+    },
+    {
+      "epoch": 0.835820895522388,
+      "grad_norm": 7.041162886647003,
+      "learning_rate": 2.3636363636363636e-06,
+      "loss": 0.9254,
+      "step": 28
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 1.0659770965576172,
+      "Normal prob": -1.0659770965576172,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.835820895522388,
+      "step": 28
+    },
+    {
+      "DPO Loss": 4.745458003421849e-06,
+      "Negative Geometric Mean": -12.22632121816452,
+      "Negative prob": -12.22632121816452,
+      "Normal Loss": 0.877432644367218,
+      "Normal prob": -0.877432644367218,
+      "Positive Loss": 0.07441161572933197,
+      "Positive prob": -0.07441161572933197,
+      "epoch": 0.835820895522388,
+      "step": 28
+    },
+    {
+      "epoch": 0.8656716417910447,
+      "grad_norm": 6.123530075257292,
+      "learning_rate": 2.340909090909091e-06,
+      "loss": 0.9906,
+      "step": 29
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.9131932854652405,
+      "Normal prob": -0.9131932854652405,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.8656716417910447,
+      "step": 29
+    },
+    {
+      "DPO Loss": 1.6460282004165447e-05,
+      "Negative Geometric Mean": -11.04015827178955,
+      "Negative prob": -11.04015827178955,
+      "Normal Loss": 1.063417673110962,
+      "Normal prob": -1.063417673110962,
+      "Positive Loss": 0.050095487385988235,
+      "Positive prob": -0.050095487385988235,
+      "epoch": 0.8656716417910447,
+      "step": 29
+    },
+    {
+      "epoch": 0.8955223880597015,
+      "grad_norm": 6.118956679067234,
+      "learning_rate": 2.318181818181818e-06,
+      "loss": 0.9193,
+      "step": 30
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.8643659949302673,
+      "Normal prob": -0.8643659949302673,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.8955223880597015,
+      "step": 30
+    },
+    {
+      "DPO Loss": 9.904635203296299e-06,
+      "Negative Geometric Mean": -11.622193305258186,
+      "Negative prob": -11.622193305258186,
+      "Normal Loss": 0.7562206983566284,
+      "Normal prob": -0.7562206983566284,
+      "Positive Loss": 0.05644884705543518,
+      "Positive prob": -0.05644884705543518,
+      "epoch": 0.8955223880597015,
+      "step": 30
+    },
+    {
+      "epoch": 0.9253731343283582,
+      "grad_norm": 6.536101223333384,
+      "learning_rate": 2.2954545454545455e-06,
+      "loss": 0.8934,
+      "step": 31
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.8608868718147278,
+      "Normal prob": -0.8608868718147278,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.9253731343283582,
+      "step": 31
+    },
+    {
+      "DPO Loss": 2.137509260823493e-05,
+      "Negative Geometric Mean": -10.705368454391891,
+      "Negative prob": -10.705368454391891,
+      "Normal Loss": 0.71401047706604,
+      "Normal prob": -0.71401047706604,
+      "Positive Loss": 0.06425323337316513,
+      "Positive prob": -0.06425323337316513,
+      "epoch": 0.9253731343283582,
+      "step": 31
+    },
+    {
+      "epoch": 0.9552238805970149,
+      "grad_norm": 7.040623160546982,
+      "learning_rate": 2.2727272727272728e-06,
+      "loss": 0.8664,
+      "step": 32
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.7989053130149841,
+      "Normal prob": -0.7989053130149841,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.9552238805970149,
+      "step": 32
+    },
+    {
+      "DPO Loss": 2.7078393532067353e-05,
+      "Negative Geometric Mean": -10.612409125434027,
+      "Negative prob": -10.612409125434027,
+      "Normal Loss": 0.9129906892776489,
+      "Normal prob": -0.9129906892776489,
+      "Positive Loss": 0.10737287253141403,
+      "Positive prob": -0.10737287253141403,
+      "epoch": 0.9552238805970149,
+      "step": 32
+    },
+    {
+      "epoch": 0.9850746268656716,
+      "grad_norm": 6.585654111220224,
+      "learning_rate": 2.25e-06,
+      "loss": 0.842,
+      "step": 33
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.8037691712379456,
+      "Normal prob": -0.8037691712379456,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.9850746268656716,
+      "step": 33
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.7143898606300354,
+      "Normal prob": -0.7143898606300354,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 0.9850746268656716,
+      "step": 33
+    },
+    {
+      "epoch": 1.0149253731343284,
+      "grad_norm": 9.914782438598868,
+      "learning_rate": 2.2272727272727274e-06,
+      "loss": 0.6917,
+      "step": 34
+    },
+    {
+      "DPO Loss": 3.654100751997121e-05,
+      "Negative Geometric Mean": -10.674591619318182,
+      "Negative prob": -10.674591619318182,
+      "Normal Loss": 0.48714742064476013,
+      "Normal prob": -0.48714742064476013,
+      "Positive Loss": 0.03236498683691025,
+      "Positive prob": -0.03236498683691025,
+      "epoch": 1.0149253731343284,
+      "step": 34
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5524182915687561,
+      "Normal prob": -0.5524182915687561,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.0149253731343284,
+      "step": 34
+    },
+    {
+      "epoch": 1.044776119402985,
+      "grad_norm": 7.2083835894058375,
+      "learning_rate": 2.2045454545454547e-06,
+      "loss": 0.6615,
+      "step": 35
+    },
+    {
+      "DPO Loss": 5.3735510809371045e-05,
+      "Negative Geometric Mean": -10.087603725282486,
+      "Negative prob": -10.087603725282486,
+      "Normal Loss": 0.47449687123298645,
+      "Normal prob": -0.47449687123298645,
+      "Positive Loss": 0.02946843020617962,
+      "Positive prob": -0.02946843020617962,
+      "epoch": 1.044776119402985,
+      "step": 35
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5653090476989746,
+      "Normal prob": -0.5653090476989746,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.044776119402985,
+      "step": 35
+    },
+    {
+      "epoch": 1.0746268656716418,
+      "grad_norm": 7.509154772376704,
+      "learning_rate": 2.181818181818182e-06,
+      "loss": 0.5463,
+      "step": 36
+    },
+    {
+      "DPO Loss": 4.57076718186167e-05,
+      "Negative Geometric Mean": -10.369059509873779,
+      "Negative prob": -10.369059509873779,
+      "Normal Loss": 0.7275592684745789,
+      "Normal prob": -0.7275592684745789,
+      "Positive Loss": 0.022183816879987717,
+      "Positive prob": -0.022183816879987717,
+      "epoch": 1.0746268656716418,
+      "step": 36
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.48975300788879395,
+      "Normal prob": -0.48975300788879395,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.0746268656716418,
+      "step": 36
+    },
+    {
+      "epoch": 1.1044776119402986,
+      "grad_norm": 5.921019640825061,
+      "learning_rate": 2.1590909090909092e-06,
+      "loss": 0.6523,
+      "step": 37
+    },
+    {
+      "DPO Loss": 7.289560432171723e-05,
+      "Negative Geometric Mean": -9.601848503888467,
+      "Negative prob": -9.601848503888467,
+      "Normal Loss": 0.8984713554382324,
+      "Normal prob": -0.8984713554382324,
+      "Positive Loss": 0.029801441356539726,
+      "Positive prob": -0.029801441356539726,
+      "epoch": 1.1044776119402986,
+      "step": 37
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.709186851978302,
+      "Normal prob": -0.709186851978302,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.1044776119402986,
+      "step": 37
+    },
+    {
+      "epoch": 1.1343283582089552,
+      "grad_norm": 7.446657265486741,
+      "learning_rate": 2.1363636363636365e-06,
+      "loss": 0.6967,
+      "step": 38
+    },
+    {
+      "DPO Loss": 2.6440661378327594e-05,
+      "Negative Geometric Mean": -10.957384672619048,
+      "Negative prob": -10.957384672619048,
+      "Normal Loss": 0.44052013754844666,
+      "Normal prob": -0.44052013754844666,
+      "Positive Loss": 0.02077590487897396,
+      "Positive prob": -0.02077590487897396,
+      "epoch": 1.1343283582089552,
+      "step": 38
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.39025214314460754,
+      "Normal prob": -0.39025214314460754,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.1343283582089552,
+      "step": 38
+    },
+    {
+      "epoch": 1.164179104477612,
+      "grad_norm": 6.65773645557663,
+      "learning_rate": 2.113636363636364e-06,
+      "loss": 0.5978,
+      "step": 39
+    },
+    {
+      "DPO Loss": 2.123153925438824e-05,
+      "Negative Geometric Mean": -10.680970389887971,
+      "Negative prob": -10.680970389887971,
+      "Normal Loss": 0.6101383566856384,
+      "Normal prob": -0.6101383566856384,
+      "Positive Loss": 0.03984152898192406,
+      "Positive prob": -0.03984152898192406,
+      "epoch": 1.164179104477612,
+      "step": 39
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5792780518531799,
+      "Normal prob": -0.5792780518531799,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.164179104477612,
+      "step": 39
+    },
+    {
+      "epoch": 1.1940298507462686,
+      "grad_norm": 6.924093024562789,
+      "learning_rate": 2.090909090909091e-06,
+      "loss": 0.6592,
+      "step": 40
+    },
+    {
+      "DPO Loss": 1.6680911890968927e-05,
+      "Negative Geometric Mean": -10.952719974078342,
+      "Negative prob": -10.952719974078342,
+      "Normal Loss": 0.4338739216327667,
+      "Normal prob": -0.4338739216327667,
+      "Positive Loss": 0.03350961208343506,
+      "Positive prob": -0.03350961208343506,
+      "epoch": 1.1940298507462686,
+      "step": 40
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.3462405800819397,
+      "Normal prob": -0.3462405800819397,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.1940298507462686,
+      "step": 40
+    },
+    {
+      "epoch": 1.2238805970149254,
+      "grad_norm": 6.295634713144118,
+      "learning_rate": 2.0681818181818184e-06,
+      "loss": 0.5281,
+      "step": 41
+    },
+    {
+      "DPO Loss": 1.9216125147544902e-05,
+      "Negative Geometric Mean": -10.949885493970315,
+      "Negative prob": -10.949885493970315,
+      "Normal Loss": 0.6209268569946289,
+      "Normal prob": -0.6209268569946289,
+      "Positive Loss": 0.010221516713500023,
+      "Positive prob": -0.010221516713500023,
+      "epoch": 1.2238805970149254,
+      "step": 41
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.4472298324108124,
+      "Normal prob": -0.4472298324108124,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.2238805970149254,
+      "step": 41
+    },
+    {
+      "epoch": 1.2537313432835822,
+      "grad_norm": 5.857596369043,
+      "learning_rate": 2.0454545454545453e-06,
+      "loss": 0.5837,
+      "step": 42
+    },
+    {
+      "DPO Loss": 3.1575882722812355e-05,
+      "Negative Geometric Mean": -10.842009715544872,
+      "Negative prob": -10.842009715544872,
+      "Normal Loss": 0.3952675461769104,
+      "Normal prob": -0.3952675461769104,
+      "Positive Loss": 0.06998435407876968,
+      "Positive prob": -0.06998435407876968,
+      "epoch": 1.2537313432835822,
+      "step": 42
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.3682936131954193,
+      "Normal prob": -0.3682936131954193,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.2537313432835822,
+      "step": 42
+    },
+    {
+      "epoch": 1.2835820895522387,
+      "grad_norm": 6.19946111675221,
+      "learning_rate": 2.0227272727272726e-06,
+      "loss": 0.4489,
+      "step": 43
+    },
+    {
+      "DPO Loss": 7.918896147509772e-06,
+      "Negative Geometric Mean": -11.86809765625,
+      "Negative prob": -11.86809765625,
+      "Normal Loss": 0.7341710329055786,
+      "Normal prob": -0.7341710329055786,
+      "Positive Loss": 0.023408204317092896,
+      "Positive prob": -0.023408204317092896,
+      "epoch": 1.2835820895522387,
+      "step": 43
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5852903723716736,
+      "Normal prob": -0.5852903723716736,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.2835820895522387,
+      "step": 43
+    },
+    {
+      "epoch": 1.3134328358208955,
+      "grad_norm": 7.299737993528941,
+      "learning_rate": 2e-06,
+      "loss": 0.6287,
+      "step": 44
+    },
+    {
+      "DPO Loss": 1.81222332665437e-05,
+      "Negative Geometric Mean": -10.647718364689625,
+      "Negative prob": -10.647718364689625,
+      "Normal Loss": 0.4992733597755432,
+      "Normal prob": -0.4992733597755432,
+      "Positive Loss": 0.05666818842291832,
+      "Positive prob": -0.05666818842291832,
+      "epoch": 1.3134328358208955,
+      "step": 44
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.7956355810165405,
+      "Normal prob": -0.7956355810165405,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.3134328358208955,
+      "step": 44
+    },
+    {
+      "epoch": 1.3432835820895521,
+      "grad_norm": 7.900970686658878,
+      "learning_rate": 1.977272727272727e-06,
+      "loss": 0.7441,
+      "step": 45
+    },
+    {
+      "DPO Loss": 6.092015148833826e-05,
+      "Negative Geometric Mean": -9.997283935546875,
+      "Negative prob": -9.997283935546875,
+      "Normal Loss": 0.5293800830841064,
+      "Normal prob": -0.5293800830841064,
+      "Positive Loss": 0.012493799440562725,
+      "Positive prob": -0.012493799440562725,
+      "epoch": 1.3432835820895521,
+      "step": 45
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.6335676908493042,
+      "Normal prob": -0.6335676908493042,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.3432835820895521,
+      "step": 45
+    },
+    {
+      "epoch": 1.373134328358209,
+      "grad_norm": 6.033587067188048,
+      "learning_rate": 1.9545454545454545e-06,
+      "loss": 0.6688,
+      "step": 46
+    },
+    {
+      "DPO Loss": 2.075863324394268e-05,
+      "Negative Geometric Mean": -11.443209795884684,
+      "Negative prob": -11.443209795884684,
+      "Normal Loss": 0.9459198713302612,
+      "Normal prob": -0.9459198713302612,
+      "Positive Loss": 0.019672967493534088,
+      "Positive prob": -0.019672967493534088,
+      "epoch": 1.373134328358209,
+      "step": 46
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5753485560417175,
+      "Normal prob": -0.5753485560417175,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.373134328358209,
+      "step": 46
+    },
+    {
+      "epoch": 1.4029850746268657,
+      "grad_norm": 6.437116667065512,
+      "learning_rate": 1.931818181818182e-06,
+      "loss": 0.7138,
+      "step": 47
+    },
+    {
+      "DPO Loss": 5.24218732737661e-05,
+      "Negative Geometric Mean": -10.045061616056572,
+      "Negative prob": -10.045061616056572,
+      "Normal Loss": 0.6808024644851685,
+      "Normal prob": -0.6808024644851685,
+      "Positive Loss": 0.023415615782141685,
+      "Positive prob": -0.023415615782141685,
+      "epoch": 1.4029850746268657,
+      "step": 47
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.6357601284980774,
+      "Normal prob": -0.6357601284980774,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.4029850746268657,
+      "step": 47
+    },
+    {
+      "epoch": 1.4328358208955223,
+      "grad_norm": 7.152119639795567,
+      "learning_rate": 1.909090909090909e-06,
+      "loss": 0.6079,
+      "step": 48
+    },
+    {
+      "DPO Loss": 7.2306889216542525e-06,
+      "Negative Geometric Mean": -12.073476457210242,
+      "Negative prob": -12.073476457210242,
+      "Normal Loss": 0.5705257058143616,
+      "Normal prob": -0.5705257058143616,
+      "Positive Loss": 0.02072186954319477,
+      "Positive prob": -0.02072186954319477,
+      "epoch": 1.4328358208955223,
+      "step": 48
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5705331563949585,
+      "Normal prob": -0.5705331563949585,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.4328358208955223,
+      "step": 48
+    },
+    {
+      "epoch": 1.462686567164179,
+      "grad_norm": 8.435206603146995,
+      "learning_rate": 1.8863636363636364e-06,
+      "loss": 0.4921,
+      "step": 49
+    },
+    {
+      "DPO Loss": 1.2005791148960418e-05,
+      "Negative Geometric Mean": -11.335293660121682,
+      "Negative prob": -11.335293660121682,
+      "Normal Loss": 0.4985297918319702,
+      "Normal prob": -0.4985297918319702,
+      "Positive Loss": 0.03511481359601021,
+      "Positive prob": -0.03511481359601021,
+      "epoch": 1.462686567164179,
+      "step": 49
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5165051221847534,
+      "Normal prob": -0.5165051221847534,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.462686567164179,
+      "step": 49
+    },
+    {
+      "epoch": 1.4925373134328357,
+      "grad_norm": 6.663071553118176,
+      "learning_rate": 1.8636363636363637e-06,
+      "loss": 0.582,
+      "step": 50
+    },
+    {
+      "DPO Loss": 8.121549918893668e-06,
+      "Negative Geometric Mean": -11.646775242426388,
+      "Negative prob": -11.646775242426388,
+      "Normal Loss": 0.7396381497383118,
+      "Normal prob": -0.7396381497383118,
+      "Positive Loss": 0.046656664460897446,
+      "Positive prob": -0.046656664460897446,
+      "epoch": 1.4925373134328357,
+      "step": 50
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.46003180742263794,
+      "Normal prob": -0.46003180742263794,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.4925373134328357,
+      "step": 50
+    },
+    {
+      "epoch": 1.5223880597014925,
+      "grad_norm": 6.8924034055431225,
+      "learning_rate": 1.840909090909091e-06,
+      "loss": 0.5667,
+      "step": 51
+    },
+    {
+      "DPO Loss": 3.960602457920955e-05,
+      "Negative Geometric Mean": -10.694715555003613,
+      "Negative prob": -10.694715555003613,
+      "Normal Loss": 0.32585108280181885,
+      "Normal prob": -0.32585108280181885,
+      "Positive Loss": 0.04867149889469147,
+      "Positive prob": -0.04867149889469147,
+      "epoch": 1.5223880597014925,
+      "step": 51
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.4816523492336273,
+      "Normal prob": -0.4816523492336273,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.5223880597014925,
+      "step": 51
+    },
+    {
+      "epoch": 1.5522388059701493,
+      "grad_norm": 7.4924421694754075,
+      "learning_rate": 1.8181818181818183e-06,
+      "loss": 0.4917,
+      "step": 52
+    },
+    {
+      "DPO Loss": 5.1645393655010374e-05,
+      "Negative Geometric Mean": -10.168975942689114,
+      "Negative prob": -10.168975942689114,
+      "Normal Loss": 0.30011507868766785,
+      "Normal prob": -0.30011507868766785,
+      "Positive Loss": 0.02231639437377453,
+      "Positive prob": -0.02231639437377453,
+      "epoch": 1.5522388059701493,
+      "step": 52
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.4937782287597656,
+      "Normal prob": -0.4937782287597656,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.5522388059701493,
+      "step": 52
+    },
+    {
+      "epoch": 1.582089552238806,
+      "grad_norm": 7.184478655478447,
+      "learning_rate": 1.7954545454545456e-06,
+      "loss": 0.5295,
+      "step": 53
+    },
+    {
+      "DPO Loss": 5.356822072205326e-06,
+      "Negative Geometric Mean": -12.203828545026882,
+      "Negative prob": -12.203828545026882,
+      "Normal Loss": 0.5068655014038086,
+      "Normal prob": -0.5068655014038086,
+      "Positive Loss": 0.02591904066503048,
+      "Positive prob": -0.02591904066503048,
+      "epoch": 1.582089552238806,
+      "step": 53
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.44835716485977173,
+      "Normal prob": -0.44835716485977173,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.582089552238806,
+      "step": 53
+    },
+    {
+      "epoch": 1.6119402985074627,
+      "grad_norm": 6.665246283694876,
+      "learning_rate": 1.7727272727272729e-06,
+      "loss": 0.5862,
+      "step": 54
+    },
+    {
+      "DPO Loss": 2.7645910456594184e-05,
+      "Negative Geometric Mean": -10.52684736755279,
+      "Negative prob": -10.52684736755279,
+      "Normal Loss": 0.4901617169380188,
+      "Normal prob": -0.4901617169380188,
+      "Positive Loss": 0.031082332134246826,
+      "Positive prob": -0.031082332134246826,
+      "epoch": 1.6119402985074627,
+      "step": 54
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.3990895450115204,
+      "Normal prob": -0.3990895450115204,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.6119402985074627,
+      "step": 54
+    },
+    {
+      "epoch": 1.6417910447761193,
+      "grad_norm": 7.251995962906654,
+      "learning_rate": 1.7500000000000002e-06,
+      "loss": 0.5512,
+      "step": 55
+    },
+    {
+      "DPO Loss": 5.845775193481474e-06,
+      "Negative Geometric Mean": -11.981290714110127,
+      "Negative prob": -11.981290714110127,
+      "Normal Loss": 0.36946558952331543,
+      "Normal prob": -0.36946558952331543,
+      "Positive Loss": 0.03706742450594902,
+      "Positive prob": -0.03706742450594902,
+      "epoch": 1.6417910447761193,
+      "step": 55
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.6298558712005615,
+      "Normal prob": -0.6298558712005615,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.6417910447761193,
+      "step": 55
+    },
+    {
+      "epoch": 1.671641791044776,
+      "grad_norm": 6.5830406614829995,
+      "learning_rate": 1.7272727272727275e-06,
+      "loss": 0.5497,
+      "step": 56
+    },
+    {
+      "DPO Loss": 3.2969348642918384e-05,
+      "Negative Geometric Mean": -10.456912128245772,
+      "Negative prob": -10.456912128245772,
+      "Normal Loss": 0.6241900324821472,
+      "Normal prob": -0.6241900324821472,
+      "Positive Loss": 0.027565686032176018,
+      "Positive prob": -0.027565686032176018,
+      "epoch": 1.671641791044776,
+      "step": 56
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.49294447898864746,
+      "Normal prob": -0.49294447898864746,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.671641791044776,
+      "step": 56
+    },
+    {
+      "epoch": 1.7014925373134329,
+      "grad_norm": 7.489375090765791,
+      "learning_rate": 1.7045454545454548e-06,
+      "loss": 0.5473,
+      "step": 57
+    },
+    {
+      "DPO Loss": 9.641101792233715e-06,
+      "Negative Geometric Mean": -11.58503936609456,
+      "Negative prob": -11.58503936609456,
+      "Normal Loss": 0.4547930359840393,
+      "Normal prob": -0.4547930359840393,
+      "Positive Loss": 0.02409125678241253,
+      "Positive prob": -0.02409125678241253,
+      "epoch": 1.7014925373134329,
+      "step": 57
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5437726378440857,
+      "Normal prob": -0.5437726378440857,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.7014925373134329,
+      "step": 57
+    },
+    {
+      "epoch": 1.7313432835820897,
+      "grad_norm": 7.870395979704569,
+      "learning_rate": 1.6818181818181817e-06,
+      "loss": 0.6139,
+      "step": 58
+    },
+    {
+      "DPO Loss": 1.2307788643174536e-05,
+      "Negative Geometric Mean": -11.400927734375,
+      "Negative prob": -11.400927734375,
+      "Normal Loss": 0.4675034284591675,
+      "Normal prob": -0.4675034284591675,
+      "Positive Loss": 0.02847522310912609,
+      "Positive prob": -0.02847522310912609,
+      "epoch": 1.7313432835820897,
+      "step": 58
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5951191186904907,
+      "Normal prob": -0.5951191186904907,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.7313432835820897,
+      "step": 58
+    },
+    {
+      "epoch": 1.7611940298507462,
+      "grad_norm": 7.248327621413268,
+      "learning_rate": 1.659090909090909e-06,
+      "loss": 0.5501,
+      "step": 59
+    },
+    {
+      "DPO Loss": 6.131353933599495e-06,
+      "Negative Geometric Mean": -12.089666559278351,
+      "Negative prob": -12.089666559278351,
+      "Normal Loss": 0.6625760793685913,
+      "Normal prob": -0.6625760793685913,
+      "Positive Loss": 0.024925949051976204,
+      "Positive prob": -0.024925949051976204,
+      "epoch": 1.7611940298507462,
+      "step": 59
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.574043333530426,
+      "Normal prob": -0.574043333530426,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.7611940298507462,
+      "step": 59
+    },
+    {
+      "epoch": 1.7910447761194028,
+      "grad_norm": 5.45423423175427,
+      "learning_rate": 1.6363636363636363e-06,
+      "loss": 0.5803,
+      "step": 60
+    },
+    {
+      "DPO Loss": 6.456255345351767e-06,
+      "Negative Geometric Mean": -12.335179908988403,
+      "Negative prob": -12.335179908988403,
+      "Normal Loss": 0.5476536750793457,
+      "Normal prob": -0.5476536750793457,
+      "Positive Loss": 0.03484680876135826,
+      "Positive prob": -0.03484680876135826,
+      "epoch": 1.7910447761194028,
+      "step": 60
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.4749366343021393,
+      "Normal prob": -0.4749366343021393,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.7910447761194028,
+      "step": 60
+    },
+    {
+      "epoch": 1.8208955223880596,
+      "grad_norm": 5.8299300029602845,
+      "learning_rate": 1.6136363636363635e-06,
+      "loss": 0.5286,
+      "step": 61
+    },
+    {
+      "DPO Loss": 6.855680101123193e-06,
+      "Negative Geometric Mean": -12.133075664569805,
+      "Negative prob": -12.133075664569805,
+      "Normal Loss": 0.49556368589401245,
+      "Normal prob": -0.49556368589401245,
+      "Positive Loss": 0.031043315306305885,
+      "Positive prob": -0.031043315306305885,
+      "epoch": 1.8208955223880596,
+      "step": 61
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.7167157530784607,
+      "Normal prob": -0.7167157530784607,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.8208955223880596,
+      "step": 61
+    },
+    {
+      "epoch": 1.8507462686567164,
+      "grad_norm": 6.451470188285151,
+      "learning_rate": 1.5909090909090908e-06,
+      "loss": 0.5513,
+      "step": 62
+    },
+    {
+      "DPO Loss": 1.236436099783623e-05,
+      "Negative Geometric Mean": -11.445466172271574,
+      "Negative prob": -11.445466172271574,
+      "Normal Loss": 0.5918139219284058,
+      "Normal prob": -0.5918139219284058,
+      "Positive Loss": 0.026092026382684708,
+      "Positive prob": -0.026092026382684708,
+      "epoch": 1.8507462686567164,
+      "step": 62
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.4669744670391083,
+      "Normal prob": -0.4669744670391083,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.8507462686567164,
+      "step": 62
+    },
+    {
+      "epoch": 1.8805970149253732,
+      "grad_norm": 6.794192852617203,
+      "learning_rate": 1.5681818181818181e-06,
+      "loss": 0.4827,
+      "step": 63
+    },
+    {
+      "DPO Loss": 1.3348207631132665e-05,
+      "Negative Geometric Mean": -11.5704201146176,
+      "Negative prob": -11.5704201146176,
+      "Normal Loss": 0.7752443552017212,
+      "Normal prob": -0.7752443552017212,
+      "Positive Loss": 0.03313179686665535,
+      "Positive prob": -0.03313179686665535,
+      "epoch": 1.8805970149253732,
+      "step": 63
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.4319833815097809,
+      "Normal prob": -0.4319833815097809,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.8805970149253732,
+      "step": 63
+    },
+    {
+      "epoch": 1.9104477611940298,
+      "grad_norm": 6.583453632012116,
+      "learning_rate": 1.5454545454545454e-06,
+      "loss": 0.5891,
+      "step": 64
+    },
+    {
+      "DPO Loss": 4.963582076406908e-06,
+      "Negative Geometric Mean": -12.19005351163903,
+      "Negative prob": -12.19005351163903,
+      "Normal Loss": 0.7006582617759705,
+      "Normal prob": -0.7006582617759705,
+      "Positive Loss": 0.05256428197026253,
+      "Positive prob": -0.05256428197026253,
+      "epoch": 1.9104477611940298,
+      "step": 64
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5088911652565002,
+      "Normal prob": -0.5088911652565002,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.9104477611940298,
+      "step": 64
+    },
+    {
+      "epoch": 1.9402985074626866,
+      "grad_norm": 6.441815309507991,
+      "learning_rate": 1.5227272727272727e-06,
+      "loss": 0.676,
+      "step": 65
+    },
+    {
+      "DPO Loss": 3.909155035241524e-06,
+      "Negative Geometric Mean": -12.52902815645973,
+      "Negative prob": -12.52902815645973,
+      "Normal Loss": 0.4071587920188904,
+      "Normal prob": -0.4071587920188904,
+      "Positive Loss": 0.029172131791710854,
+      "Positive prob": -0.029172131791710854,
+      "epoch": 1.9402985074626866,
+      "step": 65
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5863581299781799,
+      "Normal prob": -0.5863581299781799,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.9402985074626866,
+      "step": 65
+    },
+    {
+      "epoch": 1.9701492537313432,
+      "grad_norm": 6.3544200742459935,
+      "learning_rate": 1.5e-06,
+      "loss": 0.4844,
+      "step": 66
+    },
+    {
+      "DPO Loss": 4.394697707115605e-06,
+      "Negative Geometric Mean": -12.445152789608176,
+      "Negative prob": -12.445152789608176,
+      "Normal Loss": 0.5812058448791504,
+      "Normal prob": -0.5812058448791504,
+      "Positive Loss": 0.025852346792817116,
+      "Positive prob": -0.025852346792817116,
+      "epoch": 1.9701492537313432,
+      "step": 66
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.7593735456466675,
+      "Normal prob": -0.7593735456466675,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 1.9701492537313432,
+      "step": 66
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 7.0108110525699985,
+      "learning_rate": 1.4772727272727273e-06,
+      "loss": 0.6144,
+      "step": 67
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.34294071793556213,
+      "Normal prob": -0.34294071793556213,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.0,
+      "step": 67
+    },
+    {
+      "DPO Loss": 2.4070561719272564e-06,
+      "Negative Geometric Mean": -13.018313531479217,
+      "Negative prob": -13.018313531479217,
+      "Normal Loss": 0.3513112962245941,
+      "Normal prob": -0.3513112962245941,
+      "Positive Loss": 0.013781579211354256,
+      "Positive prob": -0.013781579211354256,
+      "epoch": 2.0,
+      "step": 67
+    },
+    {
+      "epoch": 2.029850746268657,
+      "grad_norm": 7.07209986229336,
+      "learning_rate": 1.4545454545454546e-06,
+      "loss": 0.3488,
+      "step": 68
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.17317090928554535,
+      "Normal prob": -0.17317090928554535,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.029850746268657,
+      "step": 68
+    },
+    {
+      "DPO Loss": 2.6232480269051795e-05,
+      "Negative Geometric Mean": -10.84640401579797,
+      "Negative prob": -10.84640401579797,
+      "Normal Loss": 0.2502392828464508,
+      "Normal prob": -0.2502392828464508,
+      "Positive Loss": 0.009016763418912888,
+      "Positive prob": -0.009016763418912888,
+      "epoch": 2.029850746268657,
+      "step": 68
+    },
+    {
+      "epoch": 2.0597014925373136,
+      "grad_norm": 6.718484882180734,
+      "learning_rate": 1.431818181818182e-06,
+      "loss": 0.3109,
+      "step": 69
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.25603172183036804,
+      "Normal prob": -0.25603172183036804,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.0597014925373136,
+      "step": 69
+    },
+    {
+      "DPO Loss": 2.4722913198806987e-06,
+      "Negative Geometric Mean": -13.571044921875,
+      "Negative prob": -13.571044921875,
+      "Normal Loss": 0.6462356448173523,
+      "Normal prob": -0.6462356448173523,
+      "Positive Loss": 0.004487407859414816,
+      "Positive prob": -0.004487407859414816,
+      "epoch": 2.0597014925373136,
+      "step": 69
+    },
+    {
+      "epoch": 2.08955223880597,
+      "grad_norm": 6.391521213804556,
+      "learning_rate": 1.4090909090909092e-06,
+      "loss": 0.4603,
+      "step": 70
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2792622148990631,
+      "Normal prob": -0.2792622148990631,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.08955223880597,
+      "step": 70
+    },
+    {
+      "DPO Loss": 2.30209765905298e-06,
+      "Negative Geometric Mean": -13.15788681702044,
+      "Negative prob": -13.15788681702044,
+      "Normal Loss": 0.297980934381485,
+      "Normal prob": -0.297980934381485,
+      "Positive Loss": 0.011687587015330791,
+      "Positive prob": -0.011687587015330791,
+      "epoch": 2.08955223880597,
+      "step": 70
+    },
+    {
+      "epoch": 2.1194029850746268,
+      "grad_norm": 6.000476341412616,
+      "learning_rate": 1.3863636363636363e-06,
+      "loss": 0.426,
+      "step": 71
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.31911832094192505,
+      "Normal prob": -0.31911832094192505,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.1194029850746268,
+      "step": 71
+    },
+    {
+      "DPO Loss": 9.623063611478237e-07,
+      "Negative Geometric Mean": -13.79306566782845,
+      "Negative prob": -13.79306566782845,
+      "Normal Loss": 0.1256338506937027,
+      "Normal prob": -0.1256338506937027,
+      "Positive Loss": 0.014073642902076244,
+      "Positive prob": -0.014073642902076244,
+      "epoch": 2.1194029850746268,
+      "step": 71
+    },
+    {
+      "epoch": 2.1492537313432836,
+      "grad_norm": 5.665938957087509,
+      "learning_rate": 1.3636363636363636e-06,
+      "loss": 0.31,
+      "step": 72
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.5485053062438965,
+      "Normal prob": -0.5485053062438965,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.1492537313432836,
+      "step": 72
+    },
+    {
+      "DPO Loss": 5.508823305986437e-06,
+      "Negative Geometric Mean": -12.17880211034751,
+      "Negative prob": -12.17880211034751,
+      "Normal Loss": 0.18863847851753235,
+      "Normal prob": -0.18863847851753235,
+      "Positive Loss": 0.011334001086652279,
+      "Positive prob": -0.011334001086652279,
+      "epoch": 2.1492537313432836,
+      "step": 72
+    },
+    {
+      "epoch": 2.1791044776119404,
+      "grad_norm": 6.60404865468319,
+      "learning_rate": 1.340909090909091e-06,
+      "loss": 0.3371,
+      "step": 73
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2698725759983063,
+      "Normal prob": -0.2698725759983063,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.1791044776119404,
+      "step": 73
+    },
+    {
+      "DPO Loss": 2.5343320997566906e-06,
+      "Negative Geometric Mean": -13.084115531452266,
+      "Negative prob": -13.084115531452266,
+      "Normal Loss": 0.3101830780506134,
+      "Normal prob": -0.3101830780506134,
+      "Positive Loss": 0.007303276099264622,
+      "Positive prob": -0.007303276099264622,
+      "epoch": 2.1791044776119404,
+      "step": 73
+    },
+    {
+      "epoch": 2.208955223880597,
+      "grad_norm": 7.537056674857057,
+      "learning_rate": 1.3181818181818182e-06,
+      "loss": 0.3896,
+      "step": 74
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2088720202445984,
+      "Normal prob": -0.2088720202445984,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.208955223880597,
+      "step": 74
+    },
+    {
+      "DPO Loss": 6.722595604209246e-06,
+      "Negative Geometric Mean": -12.173159354073661,
+      "Negative prob": -12.173159354073661,
+      "Normal Loss": 0.40398481488227844,
+      "Normal prob": -0.40398481488227844,
+      "Positive Loss": 0.01838095672428608,
+      "Positive prob": -0.01838095672428608,
+      "epoch": 2.208955223880597,
+      "step": 74
+    },
+    {
+      "epoch": 2.2388059701492535,
+      "grad_norm": 7.724539990601786,
+      "learning_rate": 1.2954545454545455e-06,
+      "loss": 0.3009,
+      "step": 75
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.48262086510658264,
+      "Normal prob": -0.48262086510658264,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.2388059701492535,
+      "step": 75
+    },
+    {
+      "DPO Loss": 5.197786322988637e-07,
+      "Negative Geometric Mean": -14.51572339888308,
+      "Negative prob": -14.51572339888308,
+      "Normal Loss": 0.23035627603530884,
+      "Normal prob": -0.23035627603530884,
+      "Positive Loss": 0.008795712143182755,
+      "Positive prob": -0.008795712143182755,
+      "epoch": 2.2388059701492535,
+      "step": 75
+    },
+    {
+      "epoch": 2.2686567164179103,
+      "grad_norm": 8.221187128676613,
+      "learning_rate": 1.2727272727272728e-06,
+      "loss": 0.3589,
+      "step": 76
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2785874009132385,
+      "Normal prob": -0.2785874009132385,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.2686567164179103,
+      "step": 76
+    },
+    {
+      "DPO Loss": 1.621094342365068e-06,
+      "Negative Geometric Mean": -13.028692859266869,
+      "Negative prob": -13.028692859266869,
+      "Normal Loss": 0.29848527908325195,
+      "Normal prob": -0.29848527908325195,
+      "Positive Loss": 0.004369077738374472,
+      "Positive prob": -0.004369077738374472,
+      "epoch": 2.2686567164179103,
+      "step": 76
+    },
+    {
+      "epoch": 2.298507462686567,
+      "grad_norm": 6.89968090148801,
+      "learning_rate": 1.25e-06,
+      "loss": 0.3104,
+      "step": 77
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.31930315494537354,
+      "Normal prob": -0.31930315494537354,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.298507462686567,
+      "step": 77
+    },
+    {
+      "DPO Loss": 1.3040399279024244e-05,
+      "Negative Geometric Mean": -11.366265677550448,
+      "Negative prob": -11.366265677550448,
+      "Normal Loss": 0.4552519917488098,
+      "Normal prob": -0.4552519917488098,
+      "Positive Loss": 0.020085470750927925,
+      "Positive prob": -0.020085470750927925,
+      "epoch": 2.298507462686567,
+      "step": 77
+    },
+    {
+      "epoch": 2.328358208955224,
+      "grad_norm": 7.22395223128197,
+      "learning_rate": 1.2272727272727274e-06,
+      "loss": 0.3699,
+      "step": 78
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.4527321457862854,
+      "Normal prob": -0.4527321457862854,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.328358208955224,
+      "step": 78
+    },
+    {
+      "DPO Loss": 3.5797003005450865e-06,
+      "Negative Geometric Mean": -12.924953185405927,
+      "Negative prob": -12.924953185405927,
+      "Normal Loss": 0.49810460209846497,
+      "Normal prob": -0.49810460209846497,
+      "Positive Loss": 0.0035452607553452253,
+      "Positive prob": -0.0035452607553452253,
+      "epoch": 2.328358208955224,
+      "step": 78
+    },
+    {
+      "epoch": 2.3582089552238807,
+      "grad_norm": 7.0300487933358,
+      "learning_rate": 1.2045454545454545e-06,
+      "loss": 0.3254,
+      "step": 79
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.3027646243572235,
+      "Normal prob": -0.3027646243572235,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.3582089552238807,
+      "step": 79
+    },
+    {
+      "DPO Loss": 5.243361513598499e-06,
+      "Negative Geometric Mean": -12.248686441906308,
+      "Negative prob": -12.248686441906308,
+      "Normal Loss": 0.19559913873672485,
+      "Normal prob": -0.19559913873672485,
+      "Positive Loss": 0.0036265316884964705,
+      "Positive prob": -0.0036265316884964705,
+      "epoch": 2.3582089552238807,
+      "step": 79
+    },
+    {
+      "epoch": 2.388059701492537,
+      "grad_norm": 7.018808301104353,
+      "learning_rate": 1.1818181818181818e-06,
+      "loss": 0.2924,
+      "step": 80
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.37363290786743164,
+      "Normal prob": -0.37363290786743164,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.388059701492537,
+      "step": 80
+    },
+    {
+      "DPO Loss": 8.039128102474587e-06,
+      "Negative Geometric Mean": -12.245501740608809,
+      "Negative prob": -12.245501740608809,
+      "Normal Loss": 0.38694456219673157,
+      "Normal prob": -0.38694456219673157,
+      "Positive Loss": 0.007913284935057163,
+      "Positive prob": -0.007913284935057163,
+      "epoch": 2.388059701492537,
+      "step": 80
+    },
+    {
+      "epoch": 2.417910447761194,
+      "grad_norm": 7.1316719605682595,
+      "learning_rate": 1.159090909090909e-06,
+      "loss": 0.373,
+      "step": 81
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.23960407078266144,
+      "Normal prob": -0.23960407078266144,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.417910447761194,
+      "step": 81
+    },
+    {
+      "DPO Loss": 3.643317578642959e-06,
+      "Negative Geometric Mean": -12.694272748161765,
+      "Negative prob": -12.694272748161765,
+      "Normal Loss": 0.3460986912250519,
+      "Normal prob": -0.3460986912250519,
+      "Positive Loss": 0.03607124090194702,
+      "Positive prob": -0.03607124090194702,
+      "epoch": 2.417910447761194,
+      "step": 81
+    },
+    {
+      "epoch": 2.4477611940298507,
+      "grad_norm": 6.568519556302587,
+      "learning_rate": 1.1363636363636364e-06,
+      "loss": 0.2968,
+      "step": 82
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.3786263167858124,
+      "Normal prob": -0.3786263167858124,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.4477611940298507,
+      "step": 82
+    },
+    {
+      "DPO Loss": 1.17810282746522e-05,
+      "Negative Geometric Mean": -11.290989731297348,
+      "Negative prob": -11.290989731297348,
+      "Normal Loss": 0.3233850598335266,
+      "Normal prob": -0.3233850598335266,
+      "Positive Loss": 0.014756398275494576,
+      "Positive prob": -0.014756398275494576,
+      "epoch": 2.4477611940298507,
+      "step": 82
+    },
+    {
+      "epoch": 2.4776119402985075,
+      "grad_norm": 6.961788241099841,
+      "learning_rate": 1.1136363636363637e-06,
+      "loss": 0.3067,
+      "step": 83
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.7298503518104553,
+      "Normal prob": -0.7298503518104553,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.4776119402985075,
+      "step": 83
+    },
+    {
+      "DPO Loss": 6.489746401144139e-06,
+      "Negative Geometric Mean": -12.0409423828125,
+      "Negative prob": -12.0409423828125,
+      "Normal Loss": 0.36162418127059937,
+      "Normal prob": -0.36162418127059937,
+      "Positive Loss": 0.007005380000919104,
+      "Positive prob": -0.007005380000919104,
+      "epoch": 2.4776119402985075,
+      "step": 83
+    },
+    {
+      "epoch": 2.5074626865671643,
+      "grad_norm": 6.528351208906881,
+      "learning_rate": 1.090909090909091e-06,
+      "loss": 0.4822,
+      "step": 84
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.43608808517456055,
+      "Normal prob": -0.43608808517456055,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.5074626865671643,
+      "step": 84
+    },
+    {
+      "DPO Loss": 1.8647181536166908e-06,
+      "Negative Geometric Mean": -13.310558063113747,
+      "Negative prob": -13.310558063113747,
+      "Normal Loss": 0.2762463092803955,
+      "Normal prob": -0.2762463092803955,
+      "Positive Loss": 0.015207285061478615,
+      "Positive prob": -0.015207285061478615,
+      "epoch": 2.5074626865671643,
+      "step": 84
+    },
+    {
+      "epoch": 2.5373134328358207,
+      "grad_norm": 6.696386369118086,
+      "learning_rate": 1.0681818181818183e-06,
+      "loss": 0.3106,
+      "step": 85
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.3587005138397217,
+      "Normal prob": -0.3587005138397217,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.5373134328358207,
+      "step": 85
+    },
+    {
+      "DPO Loss": 1.0392724887777463e-05,
+      "Negative Geometric Mean": -11.663321547420965,
+      "Negative prob": -11.663321547420965,
+      "Normal Loss": 0.38271617889404297,
+      "Normal prob": -0.38271617889404297,
+      "Positive Loss": 0.007094533648341894,
+      "Positive prob": -0.007094533648341894,
+      "epoch": 2.5373134328358207,
+      "step": 85
+    },
+    {
+      "epoch": 2.5671641791044775,
+      "grad_norm": 7.213029254290765,
+      "learning_rate": 1.0454545454545456e-06,
+      "loss": 0.317,
+      "step": 86
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.3641352355480194,
+      "Normal prob": -0.3641352355480194,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.5671641791044775,
+      "step": 86
+    },
+    {
+      "DPO Loss": 3.5987715729513327e-06,
+      "Negative Geometric Mean": -12.57204106168927,
+      "Negative prob": -12.57204106168927,
+      "Normal Loss": 0.46394774317741394,
+      "Normal prob": -0.46394774317741394,
+      "Positive Loss": 0.0050806887447834015,
+      "Positive prob": -0.0050806887447834015,
+      "epoch": 2.5671641791044775,
+      "step": 86
+    },
+    {
+      "epoch": 2.5970149253731343,
+      "grad_norm": 7.901045462084173,
+      "learning_rate": 1.0227272727272727e-06,
+      "loss": 0.3702,
+      "step": 87
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.38809868693351746,
+      "Normal prob": -0.38809868693351746,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.5970149253731343,
+      "step": 87
+    },
+    {
+      "DPO Loss": 1.6651211340411204e-06,
+      "Negative Geometric Mean": -13.372305265036962,
+      "Negative prob": -13.372305265036962,
+      "Normal Loss": 0.27421802282333374,
+      "Normal prob": -0.27421802282333374,
+      "Positive Loss": 0.017523737624287605,
+      "Positive prob": -0.017523737624287605,
+      "epoch": 2.5970149253731343,
+      "step": 87
+    },
+    {
+      "epoch": 2.626865671641791,
+      "grad_norm": 6.883433596486567,
+      "learning_rate": 1e-06,
+      "loss": 0.3336,
+      "step": 88
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.28301262855529785,
+      "Normal prob": -0.28301262855529785,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.626865671641791,
+      "step": 88
+    },
+    {
+      "DPO Loss": 2.9454008504157696e-06,
+      "Negative Geometric Mean": -12.71242241010274,
+      "Negative prob": -12.71242241010274,
+      "Normal Loss": 0.35078540444374084,
+      "Normal prob": -0.35078540444374084,
+      "Positive Loss": 0.01793888583779335,
+      "Positive prob": -0.01793888583779335,
+      "epoch": 2.626865671641791,
+      "step": 88
+    },
+    {
+      "epoch": 2.656716417910448,
+      "grad_norm": 6.603176465896816,
+      "learning_rate": 9.772727272727273e-07,
+      "loss": 0.4153,
+      "step": 89
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.29014265537261963,
+      "Normal prob": -0.29014265537261963,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.656716417910448,
+      "step": 89
+    },
+    {
+      "DPO Loss": 1.4884178069432536e-05,
+      "Negative Geometric Mean": -11.291460420642494,
+      "Negative prob": -11.291460420642494,
+      "Normal Loss": 0.27552318572998047,
+      "Normal prob": -0.27552318572998047,
+      "Positive Loss": 0.006887962110340595,
+      "Positive prob": -0.006887962110340595,
+      "epoch": 2.656716417910448,
+      "step": 89
+    },
+    {
+      "epoch": 2.6865671641791042,
+      "grad_norm": 7.071652347635012,
+      "learning_rate": 9.545454545454546e-07,
+      "loss": 0.3525,
+      "step": 90
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.3731546103954315,
+      "Normal prob": -0.3731546103954315,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.6865671641791042,
+      "step": 90
+    },
+    {
+      "DPO Loss": 6.442647626957985e-06,
+      "Negative Geometric Mean": -12.235858669051204,
+      "Negative prob": -12.235858669051204,
+      "Normal Loss": 0.21569418907165527,
+      "Normal prob": -0.21569418907165527,
+      "Positive Loss": 0.005633717868477106,
+      "Positive prob": -0.005633717868477106,
+      "epoch": 2.6865671641791042,
+      "step": 90
+    },
+    {
+      "epoch": 2.716417910447761,
+      "grad_norm": 6.08004163712123,
+      "learning_rate": 9.318181818181818e-07,
+      "loss": 0.3038,
+      "step": 91
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.35742098093032837,
+      "Normal prob": -0.35742098093032837,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.716417910447761,
+      "step": 91
+    },
+    {
+      "DPO Loss": 4.149841651615268e-06,
+      "Negative Geometric Mean": -12.598418855144757,
+      "Negative prob": -12.598418855144757,
+      "Normal Loss": 0.28535205125808716,
+      "Normal prob": -0.28535205125808716,
+      "Positive Loss": 0.012952926568686962,
+      "Positive prob": -0.012952926568686962,
+      "epoch": 2.716417910447761,
+      "step": 91
+    },
+    {
+      "epoch": 2.746268656716418,
+      "grad_norm": 7.098164063144904,
+      "learning_rate": 9.090909090909091e-07,
+      "loss": 0.3625,
+      "step": 92
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.28534939885139465,
+      "Normal prob": -0.28534939885139465,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.746268656716418,
+      "step": 92
+    },
+    {
+      "DPO Loss": 1.2248438490094142e-06,
+      "Negative Geometric Mean": -13.854903100242078,
+      "Negative prob": -13.854903100242078,
+      "Normal Loss": 0.36843106150627136,
+      "Normal prob": -0.36843106150627136,
+      "Positive Loss": 0.03612969443202019,
+      "Positive prob": -0.03612969443202019,
+      "epoch": 2.746268656716418,
+      "step": 92
+    },
+    {
+      "epoch": 2.7761194029850746,
+      "grad_norm": 7.081778856883454,
+      "learning_rate": 8.863636363636364e-07,
+      "loss": 0.4371,
+      "step": 93
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.4569069743156433,
+      "Normal prob": -0.4569069743156433,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.7761194029850746,
+      "step": 93
+    },
+    {
+      "DPO Loss": 4.104862759699108e-06,
+      "Negative Geometric Mean": -12.369599921518265,
+      "Negative prob": -12.369599921518265,
+      "Normal Loss": 0.2255462110042572,
+      "Normal prob": -0.2255462110042572,
+      "Positive Loss": 0.018570953980088234,
+      "Positive prob": -0.018570953980088234,
+      "epoch": 2.7761194029850746,
+      "step": 93
+    },
+    {
+      "epoch": 2.8059701492537314,
+      "grad_norm": 6.9825157063188374,
+      "learning_rate": 8.636363636363637e-07,
+      "loss": 0.3096,
+      "step": 94
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2608332633972168,
+      "Normal prob": -0.2608332633972168,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.8059701492537314,
+      "step": 94
+    },
+    {
+      "DPO Loss": 1.6469150536061094e-06,
+      "Negative Geometric Mean": -13.248110250737463,
+      "Negative prob": -13.248110250737463,
+      "Normal Loss": 0.24679048359394073,
+      "Normal prob": -0.24679048359394073,
+      "Positive Loss": 0.014129209332168102,
+      "Positive prob": -0.014129209332168102,
+      "epoch": 2.8059701492537314,
+      "step": 94
+    },
+    {
+      "epoch": 2.835820895522388,
+      "grad_norm": 7.604649982159979,
+      "learning_rate": 8.409090909090908e-07,
+      "loss": 0.2674,
+      "step": 95
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2900543212890625,
+      "Normal prob": -0.2900543212890625,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.835820895522388,
+      "step": 95
+    },
+    {
+      "DPO Loss": 7.456183395726831e-07,
+      "Negative Geometric Mean": -13.86903901734104,
+      "Negative prob": -13.86903901734104,
+      "Normal Loss": 0.4645146429538727,
+      "Normal prob": -0.4645146429538727,
+      "Positive Loss": 0.006549107376486063,
+      "Positive prob": -0.006549107376486063,
+      "epoch": 2.835820895522388,
+      "step": 95
+    },
+    {
+      "epoch": 2.8656716417910446,
+      "grad_norm": 6.428480514761495,
+      "learning_rate": 8.181818181818181e-07,
+      "loss": 0.3561,
+      "step": 96
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.17966699600219727,
+      "Normal prob": -0.17966699600219727,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.8656716417910446,
+      "step": 96
+    },
+    {
+      "DPO Loss": 1.1826854588610623e-05,
+      "Negative Geometric Mean": -11.482138813405797,
+      "Negative prob": -11.482138813405797,
+      "Normal Loss": 0.4035150110721588,
+      "Normal prob": -0.4035150110721588,
+      "Positive Loss": 0.01260466780513525,
+      "Positive prob": -0.01260466780513525,
+      "epoch": 2.8656716417910446,
+      "step": 96
+    },
+    {
+      "epoch": 2.8955223880597014,
+      "grad_norm": 6.355093862289104,
+      "learning_rate": 7.954545454545454e-07,
+      "loss": 0.3552,
+      "step": 97
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.1942460834980011,
+      "Normal prob": -0.1942460834980011,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.8955223880597014,
+      "step": 97
+    },
+    {
+      "DPO Loss": 2.1722275431802666e-06,
+      "Negative Geometric Mean": -12.907205766876064,
+      "Negative prob": -12.907205766876064,
+      "Normal Loss": 0.3104533553123474,
+      "Normal prob": -0.3104533553123474,
+      "Positive Loss": 0.004998633172363043,
+      "Positive prob": -0.004998633172363043,
+      "epoch": 2.8955223880597014,
+      "step": 97
+    },
+    {
+      "epoch": 2.925373134328358,
+      "grad_norm": 6.623833463639339,
+      "learning_rate": 7.727272727272727e-07,
+      "loss": 0.3507,
+      "step": 98
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.33913183212280273,
+      "Normal prob": -0.33913183212280273,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.925373134328358,
+      "step": 98
+    },
+    {
+      "DPO Loss": 1.1818778170094944e-06,
+      "Negative Geometric Mean": -13.596246585154585,
+      "Negative prob": -13.596246585154585,
+      "Normal Loss": 0.3668951988220215,
+      "Normal prob": -0.3668951988220215,
+      "Positive Loss": 0.016438201069831848,
+      "Positive prob": -0.016438201069831848,
+      "epoch": 2.925373134328358,
+      "step": 98
+    },
+    {
+      "epoch": 2.955223880597015,
+      "grad_norm": 7.342348492585064,
+      "learning_rate": 7.5e-07,
+      "loss": 0.4162,
+      "step": 99
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2540174424648285,
+      "Normal prob": -0.2540174424648285,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.955223880597015,
+      "step": 99
+    },
+    {
+      "DPO Loss": 2.3274892548031074e-06,
+      "Negative Geometric Mean": -13.38752170138889,
+      "Negative prob": -13.38752170138889,
+      "Normal Loss": 0.6933973431587219,
+      "Normal prob": -0.6933973431587219,
+      "Positive Loss": 0.004921761341392994,
+      "Positive prob": -0.004921761341392994,
+      "epoch": 2.955223880597015,
+      "step": 99
+    },
+    {
+      "epoch": 2.9850746268656714,
+      "grad_norm": 6.242023928985393,
+      "learning_rate": 7.272727272727273e-07,
+      "loss": 0.4423,
+      "step": 100
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.32996082305908203,
+      "Normal prob": -0.32996082305908203,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.9850746268656714,
+      "step": 100
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.27658382058143616,
+      "Normal prob": -0.27658382058143616,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 2.9850746268656714,
+      "step": 100
+    },
+    {
+      "epoch": 3.014925373134328,
+      "grad_norm": 5.853608572027528,
+      "learning_rate": 7.045454545454546e-07,
+      "loss": 0.288,
+      "step": 101
+    },
+    {
+      "DPO Loss": 1.1678178546410005e-06,
+      "Negative Geometric Mean": -14.891405087425595,
+      "Negative prob": -14.891405087425595,
+      "Normal Loss": 0.11027539521455765,
+      "Normal prob": -0.11027539521455765,
+      "Positive Loss": 0.0027892631478607655,
+      "Positive prob": -0.0027892631478607655,
+      "epoch": 3.014925373134328,
+      "step": 101
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.26463809609413147,
+      "Normal prob": -0.26463809609413147,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.014925373134328,
+      "step": 101
+    },
+    {
+      "epoch": 3.044776119402985,
+      "grad_norm": 6.514265106044286,
+      "learning_rate": 6.818181818181818e-07,
+      "loss": 0.1912,
+      "step": 102
+    },
+    {
+      "DPO Loss": 3.6430315872713267e-06,
+      "Negative Geometric Mean": -13.001615084134615,
+      "Negative prob": -13.001615084134615,
+      "Normal Loss": 0.10679034143686295,
+      "Normal prob": -0.10679034143686295,
+      "Positive Loss": 0.01767848990857601,
+      "Positive prob": -0.01767848990857601,
+      "epoch": 3.044776119402985,
+      "step": 102
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.1798650622367859,
+      "Normal prob": -0.1798650622367859,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.044776119402985,
+      "step": 102
+    },
+    {
+      "epoch": 3.074626865671642,
+      "grad_norm": 6.098513301658777,
+      "learning_rate": 6.590909090909091e-07,
+      "loss": 0.2014,
+      "step": 103
+    },
+    {
+      "DPO Loss": 1.1857304744373281e-05,
+      "Negative Geometric Mean": -11.364407111528822,
+      "Negative prob": -11.364407111528822,
+      "Normal Loss": 0.5280313491821289,
+      "Normal prob": -0.5280313491821289,
+      "Positive Loss": 0.0045397402718663216,
+      "Positive prob": -0.0045397402718663216,
+      "epoch": 3.074626865671642,
+      "step": 103
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.12902340292930603,
+      "Normal prob": -0.12902340292930603,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.074626865671642,
+      "step": 103
+    },
+    {
+      "epoch": 3.1044776119402986,
+      "grad_norm": 6.268435906008225,
+      "learning_rate": 6.363636363636364e-07,
+      "loss": 0.2413,
+      "step": 104
+    },
+    {
+      "DPO Loss": 8.258820908422388e-07,
+      "Negative Geometric Mean": -13.974816351361241,
+      "Negative prob": -13.974816351361241,
+      "Normal Loss": 0.08596272766590118,
+      "Normal prob": -0.08596272766590118,
+      "Positive Loss": 0.0037321026902645826,
+      "Positive prob": -0.0037321026902645826,
+      "epoch": 3.1044776119402986,
+      "step": 104
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.12673968076705933,
+      "Normal prob": -0.12673968076705933,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.1044776119402986,
+      "step": 104
+    },
+    {
+      "epoch": 3.1343283582089554,
+      "grad_norm": 4.849865946932611,
+      "learning_rate": 6.136363636363637e-07,
+      "loss": 0.2016,
+      "step": 105
+    },
+    {
+      "DPO Loss": 1.2510054247133794e-05,
+      "Negative Geometric Mean": -11.465228908237913,
+      "Negative prob": -11.465228908237913,
+      "Normal Loss": 0.35748380422592163,
+      "Normal prob": -0.35748380422592163,
+      "Positive Loss": 0.0027046226896345615,
+      "Positive prob": -0.0027046226896345615,
+      "epoch": 3.1343283582089554,
+      "step": 105
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2695090174674988,
+      "Normal prob": -0.2695090174674988,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.1343283582089554,
+      "step": 105
+    },
+    {
+      "epoch": 3.1641791044776117,
+      "grad_norm": 5.314522862984474,
+      "learning_rate": 5.909090909090909e-07,
+      "loss": 0.3061,
+      "step": 106
+    },
+    {
+      "DPO Loss": 1.1451636416948107e-06,
+      "Negative Geometric Mean": -13.922169000330106,
+      "Negative prob": -13.922169000330106,
+      "Normal Loss": 0.15261346101760864,
+      "Normal prob": -0.15261346101760864,
+      "Positive Loss": 0.004130078945308924,
+      "Positive prob": -0.004130078945308924,
+      "epoch": 3.1641791044776117,
+      "step": 106
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.3225187063217163,
+      "Normal prob": -0.3225187063217163,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.1641791044776117,
+      "step": 106
+    },
+    {
+      "epoch": 3.1940298507462686,
+      "grad_norm": 5.845924095415361,
+      "learning_rate": 5.681818181818182e-07,
+      "loss": 0.2219,
+      "step": 107
+    },
+    {
+      "DPO Loss": 3.406975256320534e-06,
+      "Negative Geometric Mean": -13.250364491637324,
+      "Negative prob": -13.250364491637324,
+      "Normal Loss": 0.2123008817434311,
+      "Normal prob": -0.2123008817434311,
+      "Positive Loss": 0.00209601828828454,
+      "Positive prob": -0.00209601828828454,
+      "epoch": 3.1940298507462686,
+      "step": 107
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2501071095466614,
+      "Normal prob": -0.2501071095466614,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.1940298507462686,
+      "step": 107
+    },
+    {
+      "epoch": 3.2238805970149254,
+      "grad_norm": 6.273812820779774,
+      "learning_rate": 5.454545454545455e-07,
+      "loss": 0.2085,
+      "step": 108
+    },
+    {
+      "DPO Loss": 7.219691741892465e-06,
+      "Negative Geometric Mean": -12.184994006283068,
+      "Negative prob": -12.184994006283068,
+      "Normal Loss": 0.11331921815872192,
+      "Normal prob": -0.11331921815872192,
+      "Positive Loss": 0.00535797793418169,
+      "Positive prob": -0.00535797793418169,
+      "epoch": 3.2238805970149254,
+      "step": 108
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2601730525493622,
+      "Normal prob": -0.2601730525493622,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.2238805970149254,
+      "step": 108
+    },
+    {
+      "epoch": 3.253731343283582,
+      "grad_norm": 6.61609605527567,
+      "learning_rate": 5.227272727272728e-07,
+      "loss": 0.2738,
+      "step": 109
+    },
+    {
+      "DPO Loss": 3.8013957323267827e-06,
+      "Negative Geometric Mean": -12.432244078240172,
+      "Negative prob": -12.432244078240172,
+      "Normal Loss": 0.212859645485878,
+      "Normal prob": -0.212859645485878,
+      "Positive Loss": 0.0058334325440227985,
+      "Positive prob": -0.0058334325440227985,
+      "epoch": 3.253731343283582,
+      "step": 109
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.1951064020395279,
+      "Normal prob": -0.1951064020395279,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.253731343283582,
+      "step": 109
+    },
+    {
+      "epoch": 3.283582089552239,
+      "grad_norm": 6.461685783109346,
+      "learning_rate": 5e-07,
+      "loss": 0.1872,
+      "step": 110
+    },
+    {
+      "DPO Loss": 9.760423619643666e-07,
+      "Negative Geometric Mean": -13.36294397566719,
+      "Negative prob": -13.36294397566719,
+      "Normal Loss": 0.16994960606098175,
+      "Normal prob": -0.16994960606098175,
+      "Positive Loss": 0.007101885508745909,
+      "Positive prob": -0.007101885508745909,
+      "epoch": 3.283582089552239,
+      "step": 110
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.25234583020210266,
+      "Normal prob": -0.25234583020210266,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.283582089552239,
+      "step": 110
+    },
+    {
+      "epoch": 3.3134328358208958,
+      "grad_norm": 6.064062487418674,
+      "learning_rate": 4.772727272727273e-07,
+      "loss": 0.1877,
+      "step": 111
+    },
+    {
+      "DPO Loss": 3.0380582299826617e-06,
+      "Negative Geometric Mean": -12.93929797021028,
+      "Negative prob": -12.93929797021028,
+      "Normal Loss": 0.07496587187051773,
+      "Normal prob": -0.07496587187051773,
+      "Positive Loss": 0.003302493365481496,
+      "Positive prob": -0.003302493365481496,
+      "epoch": 3.3134328358208958,
+      "step": 111
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.116237573325634,
+      "Normal prob": -0.116237573325634,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.3134328358208958,
+      "step": 111
+    },
+    {
+      "epoch": 3.343283582089552,
+      "grad_norm": 11.774507449917868,
+      "learning_rate": 4.5454545454545457e-07,
+      "loss": 0.1455,
+      "step": 112
+    },
+    {
+      "DPO Loss": 1.8040673343906892e-06,
+      "Negative Geometric Mean": -13.262591667895046,
+      "Negative prob": -13.262591667895046,
+      "Normal Loss": 0.20686665177345276,
+      "Normal prob": -0.20686665177345276,
+      "Positive Loss": 0.0036297321785241365,
+      "Positive prob": -0.0036297321785241365,
+      "epoch": 3.343283582089552,
+      "step": 112
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.07100074738264084,
+      "Normal prob": -0.07100074738264084,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.343283582089552,
+      "step": 112
+    },
+    {
+      "epoch": 3.373134328358209,
+      "grad_norm": 6.197973269249537,
+      "learning_rate": 4.3181818181818187e-07,
+      "loss": 0.2737,
+      "step": 113
+    },
+    {
+      "DPO Loss": 1.8399912201802113e-05,
+      "Negative Geometric Mean": -11.161076035610465,
+      "Negative prob": -11.161076035610465,
+      "Normal Loss": 0.3017271161079407,
+      "Normal prob": -0.3017271161079407,
+      "Positive Loss": 0.0018219746416434646,
+      "Positive prob": -0.0018219746416434646,
+      "epoch": 3.373134328358209,
+      "step": 113
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.40800532698631287,
+      "Normal prob": -0.40800532698631287,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.373134328358209,
+      "step": 113
+    },
+    {
+      "epoch": 3.4029850746268657,
+      "grad_norm": 6.686699543045222,
+      "learning_rate": 4.0909090909090906e-07,
+      "loss": 0.2495,
+      "step": 114
+    },
+    {
+      "DPO Loss": 7.636819721194287e-06,
+      "Negative Geometric Mean": -11.901342007076794,
+      "Negative prob": -11.901342007076794,
+      "Normal Loss": 0.12182455509901047,
+      "Normal prob": -0.12182455509901047,
+      "Positive Loss": 0.008607598952949047,
+      "Positive prob": -0.008607598952949047,
+      "epoch": 3.4029850746268657,
+      "step": 114
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.18401654064655304,
+      "Normal prob": -0.18401654064655304,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.4029850746268657,
+      "step": 114
+    },
+    {
+      "epoch": 3.4328358208955225,
+      "grad_norm": 6.81794821888112,
+      "learning_rate": 3.8636363636363636e-07,
+      "loss": 0.2007,
+      "step": 115
+    },
+    {
+      "DPO Loss": 6.554748941648e-06,
+      "Negative Geometric Mean": -12.335026873289234,
+      "Negative prob": -12.335026873289234,
+      "Normal Loss": 0.21853935718536377,
+      "Normal prob": -0.21853935718536377,
+      "Positive Loss": 0.004862755537033081,
+      "Positive prob": -0.004862755537033081,
+      "epoch": 3.4328358208955225,
+      "step": 115
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.135187566280365,
+      "Normal prob": -0.135187566280365,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.4328358208955225,
+      "step": 115
+    },
+    {
+      "epoch": 3.4626865671641793,
+      "grad_norm": 6.189730848953201,
+      "learning_rate": 3.6363636363636366e-07,
+      "loss": 0.2086,
+      "step": 116
+    },
+    {
+      "DPO Loss": 3.6050653288985906e-06,
+      "Negative Geometric Mean": -12.796296909877233,
+      "Negative prob": -12.796296909877233,
+      "Normal Loss": 0.2358456403017044,
+      "Normal prob": -0.2358456403017044,
+      "Positive Loss": 0.010835876688361168,
+      "Positive prob": -0.010835876688361168,
+      "epoch": 3.4626865671641793,
+      "step": 116
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.14767657220363617,
+      "Normal prob": -0.14767657220363617,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.4626865671641793,
+      "step": 116
+    },
+    {
+      "epoch": 3.4925373134328357,
+      "grad_norm": 6.979155772945575,
+      "learning_rate": 3.409090909090909e-07,
+      "loss": 0.2849,
+      "step": 117
+    },
+    {
+      "DPO Loss": 6.702416418876966e-06,
+      "Negative Geometric Mean": -12.413108648255815,
+      "Negative prob": -12.413108648255815,
+      "Normal Loss": 0.14713706076145172,
+      "Normal prob": -0.14713706076145172,
+      "Positive Loss": 0.003462533000856638,
+      "Positive prob": -0.003462533000856638,
+      "epoch": 3.4925373134328357,
+      "step": 117
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.23745860159397125,
+      "Normal prob": -0.23745860159397125,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.4925373134328357,
+      "step": 117
+    },
+    {
+      "epoch": 3.5223880597014925,
+      "grad_norm": 6.728854419168043,
+      "learning_rate": 3.181818181818182e-07,
+      "loss": 0.1677,
+      "step": 118
+    },
+    {
+      "DPO Loss": 2.470218665968806e-06,
+      "Negative Geometric Mean": -13.20369715379494,
+      "Negative prob": -13.20369715379494,
+      "Normal Loss": 0.4334864020347595,
+      "Normal prob": -0.4334864020347595,
+      "Positive Loss": 0.005433392245322466,
+      "Positive prob": -0.005433392245322466,
+      "epoch": 3.5223880597014925,
+      "step": 118
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.1629062443971634,
+      "Normal prob": -0.1629062443971634,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.5223880597014925,
+      "step": 118
+    },
+    {
+      "epoch": 3.5522388059701493,
+      "grad_norm": 5.9093975782845645,
+      "learning_rate": 2.9545454545454545e-07,
+      "loss": 0.2375,
+      "step": 119
+    },
+    {
+      "DPO Loss": 1.9495445800859506e-06,
+      "Negative Geometric Mean": -13.439311124840561,
+      "Negative prob": -13.439311124840561,
+      "Normal Loss": 0.3102337718009949,
+      "Normal prob": -0.3102337718009949,
+      "Positive Loss": 0.001397938933223486,
+      "Positive prob": -0.001397938933223486,
+      "epoch": 3.5522388059701493,
+      "step": 119
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.10538414120674133,
+      "Normal prob": -0.10538414120674133,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.5522388059701493,
+      "step": 119
+    },
+    {
+      "epoch": 3.582089552238806,
+      "grad_norm": 5.432045886830493,
+      "learning_rate": 2.7272727272727274e-07,
+      "loss": 0.1749,
+      "step": 120
+    },
+    {
+      "DPO Loss": 2.111671823116432e-05,
+      "Negative Geometric Mean": -11.482684536637931,
+      "Negative prob": -11.482684536637931,
+      "Normal Loss": 0.09432564675807953,
+      "Normal prob": -0.09432564675807953,
+      "Positive Loss": 0.003968758508563042,
+      "Positive prob": -0.003968758508563042,
+      "epoch": 3.582089552238806,
+      "step": 120
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2578660249710083,
+      "Normal prob": -0.2578660249710083,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.582089552238806,
+      "step": 120
+    },
+    {
+      "epoch": 3.611940298507463,
+      "grad_norm": 6.329624233904299,
+      "learning_rate": 2.5e-07,
+      "loss": 0.1958,
+      "step": 121
+    },
+    {
+      "DPO Loss": 2.2736615595795564e-06,
+      "Negative Geometric Mean": -13.00193465573286,
+      "Negative prob": -13.00193465573286,
+      "Normal Loss": 0.11790954321622849,
+      "Normal prob": -0.11790954321622849,
+      "Positive Loss": 0.015944618731737137,
+      "Positive prob": -0.015944618731737137,
+      "epoch": 3.611940298507463,
+      "step": 121
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.2980431020259857,
+      "Normal prob": -0.2980431020259857,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.611940298507463,
+      "step": 121
+    },
+    {
+      "epoch": 3.6417910447761193,
+      "grad_norm": 6.390125283101109,
+      "learning_rate": 2.2727272727272729e-07,
+      "loss": 0.2578,
+      "step": 122
+    },
+    {
+      "DPO Loss": 1.8224405365341362e-06,
+      "Negative Geometric Mean": -13.443804791865459,
+      "Negative prob": -13.443804791865459,
+      "Normal Loss": 0.2082529067993164,
+      "Normal prob": -0.2082529067993164,
+      "Positive Loss": 0.0020329623948782682,
+      "Positive prob": -0.0020329623948782682,
+      "epoch": 3.6417910447761193,
+      "step": 122
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.27499350905418396,
+      "Normal prob": -0.27499350905418396,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.6417910447761193,
+      "step": 122
+    },
+    {
+      "epoch": 3.671641791044776,
+      "grad_norm": 7.334639331815002,
+      "learning_rate": 2.0454545454545453e-07,
+      "loss": 0.1928,
+      "step": 123
+    },
+    {
+      "DPO Loss": 3.887408166527688e-06,
+      "Negative Geometric Mean": -12.602550216132615,
+      "Negative prob": -12.602550216132615,
+      "Normal Loss": 0.3751141130924225,
+      "Normal prob": -0.3751141130924225,
+      "Positive Loss": 0.0016299609560519457,
+      "Positive prob": -0.0016299609560519457,
+      "epoch": 3.671641791044776,
+      "step": 123
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.14575666189193726,
+      "Normal prob": -0.14575666189193726,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.671641791044776,
+      "step": 123
+    },
+    {
+      "epoch": 3.701492537313433,
+      "grad_norm": 5.602697068663161,
+      "learning_rate": 1.8181818181818183e-07,
+      "loss": 0.1898,
+      "step": 124
+    },
+    {
+      "DPO Loss": 1.1130948677477009e-06,
+      "Negative Geometric Mean": -13.74802903824201,
+      "Negative prob": -13.74802903824201,
+      "Normal Loss": 0.09506483376026154,
+      "Normal prob": -0.09506483376026154,
+      "Positive Loss": 0.0032382213976234198,
+      "Positive prob": -0.0032382213976234198,
+      "epoch": 3.701492537313433,
+      "step": 124
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.15355288982391357,
+      "Normal prob": -0.15355288982391357,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.701492537313433,
+      "step": 124
+    },
+    {
+      "epoch": 3.7313432835820897,
+      "grad_norm": 7.94396763225081,
+      "learning_rate": 1.590909090909091e-07,
+      "loss": 0.153,
+      "step": 125
+    },
+    {
+      "DPO Loss": 4.4835976933222324e-07,
+      "Negative Geometric Mean": -14.556803077741021,
+      "Negative prob": -14.556803077741021,
+      "Normal Loss": 0.09771548211574554,
+      "Normal prob": -0.09771548211574554,
+      "Positive Loss": 0.012089760042726994,
+      "Positive prob": -0.012089760042726994,
+      "epoch": 3.7313432835820897,
+      "step": 125
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.17557981610298157,
+      "Normal prob": -0.17557981610298157,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.7313432835820897,
+      "step": 125
+    },
+    {
+      "epoch": 3.7611940298507465,
+      "grad_norm": 5.746760679085967,
+      "learning_rate": 1.3636363636363637e-07,
+      "loss": 0.2027,
+      "step": 126
+    },
+    {
+      "DPO Loss": 2.5731311695920285e-06,
+      "Negative Geometric Mean": -12.94003257909751,
+      "Negative prob": -12.94003257909751,
+      "Normal Loss": 0.2374420166015625,
+      "Normal prob": -0.2374420166015625,
+      "Positive Loss": 0.006095151882618666,
+      "Positive prob": -0.006095151882618666,
+      "epoch": 3.7611940298507465,
+      "step": 126
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.12284944206476212,
+      "Normal prob": -0.12284944206476212,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.7611940298507465,
+      "step": 126
+    },
+    {
+      "epoch": 3.791044776119403,
+      "grad_norm": 6.172054742054878,
+      "learning_rate": 1.1363636363636364e-07,
+      "loss": 0.1587,
+      "step": 127
+    },
+    {
+      "DPO Loss": 3.012714219508236e-06,
+      "Negative Geometric Mean": -12.808327907986111,
+      "Negative prob": -12.808327907986111,
+      "Normal Loss": 0.07416192442178726,
+      "Normal prob": -0.07416192442178726,
+      "Positive Loss": 0.0024134027771651745,
+      "Positive prob": -0.0024134027771651745,
+      "epoch": 3.791044776119403,
+      "step": 127
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.292096883058548,
+      "Normal prob": -0.292096883058548,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.791044776119403,
+      "step": 127
+    },
+    {
+      "epoch": 3.8208955223880596,
+      "grad_norm": 6.689741596768201,
+      "learning_rate": 9.090909090909091e-08,
+      "loss": 0.1959,
+      "step": 128
+    },
+    {
+      "DPO Loss": 3.060298655777367e-06,
+      "Negative Geometric Mean": -12.873194280660377,
+      "Negative prob": -12.873194280660377,
+      "Normal Loss": 0.33571678400039673,
+      "Normal prob": -0.33571678400039673,
+      "Positive Loss": 0.0060377782210707664,
+      "Positive prob": -0.0060377782210707664,
+      "epoch": 3.8208955223880596,
+      "step": 128
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.22519126534461975,
+      "Normal prob": -0.22519126534461975,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.8208955223880596,
+      "step": 128
+    },
+    {
+      "epoch": 3.8507462686567164,
+      "grad_norm": 7.002612239614997,
+      "learning_rate": 6.818181818181819e-08,
+      "loss": 0.2147,
+      "step": 129
+    },
+    {
+      "DPO Loss": 1.0818999409674698e-06,
+      "Negative Geometric Mean": -13.897989908854166,
+      "Negative prob": -13.897989908854166,
+      "Normal Loss": 0.2647945284843445,
+      "Normal prob": -0.2647945284843445,
+      "Positive Loss": 0.005775726865977049,
+      "Positive prob": -0.005775726865977049,
+      "epoch": 3.8507462686567164,
+      "step": 129
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.14088931679725647,
+      "Normal prob": -0.14088931679725647,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.8507462686567164,
+      "step": 129
+    },
+    {
+      "epoch": 3.8805970149253732,
+      "grad_norm": 7.106870960626619,
+      "learning_rate": 4.545454545454546e-08,
+      "loss": 0.2408,
+      "step": 130
+    },
+    {
+      "DPO Loss": 3.805466487272458e-06,
+      "Negative Geometric Mean": -12.980504410990168,
+      "Negative prob": -12.980504410990168,
+      "Normal Loss": 0.3013966977596283,
+      "Normal prob": -0.3013966977596283,
+      "Positive Loss": 0.003041935386136174,
+      "Positive prob": -0.003041935386136174,
+      "epoch": 3.8805970149253732,
+      "step": 130
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.27534565329551697,
+      "Normal prob": -0.27534565329551697,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.8805970149253732,
+      "step": 130
+    },
+    {
+      "epoch": 3.91044776119403,
+      "grad_norm": 5.966195743329273,
+      "learning_rate": 2.272727272727273e-08,
+      "loss": 0.2029,
+      "step": 131
+    },
+    {
+      "DPO Loss": 1.5273080011035291e-06,
+      "Negative Geometric Mean": -13.34349348358295,
+      "Negative prob": -13.34349348358295,
+      "Normal Loss": 0.20480337738990784,
+      "Normal prob": -0.20480337738990784,
+      "Positive Loss": 0.0037362114526331425,
+      "Positive prob": -0.0037362114526331425,
+      "epoch": 3.91044776119403,
+      "step": 131
+    },
+    {
+      "DPO Loss": 0.0,
+      "Negative Geometric Mean": 0.0,
+      "Negative prob": 0.0,
+      "Normal Loss": 0.19383595883846283,
+      "Normal prob": -0.19383595883846283,
+      "Positive Loss": 0.0,
+      "Positive prob": 0.0,
+      "epoch": 3.91044776119403,
+      "step": 131
+    },
+    {
+      "epoch": 3.9402985074626864,
+      "grad_norm": 6.0018477972181445,
+      "learning_rate": 0.0,
+      "loss": 0.1864,
+      "step": 132
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 132,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 11615663554560.0,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}