m-rewardbench

Running

App Files Files Community

shayekh commited on Jan 14

Commit

4ec3cb6

verified ·

1 Parent(s): ac578b5

translation set updated

Browse files

Files changed (1) hide show

app.py +96 -15

app.py CHANGED Viewed

@@ -15,7 +15,13 @@ Evaluating the chat, safety, reasoning, and translation capabilities of Multilin
 🌐 https://m-rewardbench.github.io/'''
-GOOGLE_SHEET_URL = "https://docs.google.com/spreadsheets/d/1qrD7plUdrBwAw7G6UeDVZAaV9ihxaNAcoiKwSaqotR4/export?gid=0&format=csv"
 # ABOUT_TEXT = """
 # <h1>
 # <span style="font-variant: small-caps;">M-RewardBench</span>: Evaluating Reward Models in Multilingual Settings
@@ -51,11 +57,41 @@ class AutoEvalColumn:
         })
 def get_result_data():
-  return pd.read_csv(GOOGLE_SHEET_URL)
-def init_leaderboard(dataframe):
   if dataframe is None or dataframe.empty:
     raise ValueError("Leaderboard DataFrame is empty or None.")
@@ -63,18 +99,18 @@ def init_leaderboard(dataframe):
     value=dataframe,
     datatype=[
       col["type"]
-      for col in AutoEvalColumn.__dict__.values()
       if isinstance(col, dict)
     ],
     select_columns=SelectColumns(
       default_selection=[
         col["name"]
-        for col in AutoEvalColumn.__dict__.values()
         if isinstance(col, dict) and col["displayed_by_default"]
       ],
       cant_deselect=[
         col["name"]
-        for col in AutoEvalColumn.__dict__.values()
         if isinstance(col, dict) and col.get("never_hidden", False)
       ],
       label="Select Columns to Display:",
@@ -99,7 +135,7 @@ emojis = "🔢 💬 🎯"
 model_types = {"Generative RM": "💬", "DPO": "🎯", "Sequence Classifier": "🔢"}
 from functools import partial
-def format_with_color(val, min_val=50, max_val=100):
     """
     Formats a value with inline green color gradient CSS.
     Returns an HTML string with bold, black text and muted green background.
@@ -111,6 +147,7 @@ def format_with_color(val, min_val=50, max_val=100):
         # Normalize value between 50 and 100 to 0-1 range
         normalized = (val - min_val) / (max_val - min_val)
         # Clamp value between 0 and 1
         normalized = max(0, min(1, normalized))
@@ -119,7 +156,12 @@ def format_with_color(val, min_val=50, max_val=100):
         intensity = int(50 + (150 * (1 - normalized)))
         # Return HTML with inline CSS - bold black text
-        return f'<div val={val} style="background-color: rgb({intensity}, 200, {intensity}); color: black; font-weight: bold; text-align: center; vertical-align: middle;">{val*100:.1f}</div>'
     except (ValueError, TypeError):
         return str(val)
@@ -131,12 +173,10 @@ with demo:
   gr.Markdown(INTRODUCTION_TEXT)
   with gr.Tabs() as tabs:
-    with gr.TabItem("🏅 Leaderboard"):
       df = get_result_data()
       df["Model_Type"] = df["Model_Type"].map(model_types)
       df["Model"] = df.apply(format_model_link, axis=1)
       df["zho"] = df[["zho_Hans", "zho_Hant"]].mean(axis=1)
       columns = lang_ids.split("\t")
@@ -152,22 +192,63 @@ with demo:
       # df = df.style.applymap(apply_color_gradient, subset=['eng'])
       numeric_cols = df.select_dtypes(include=[np.number]).columns
       for col in numeric_cols:
         lang_format_with_color = partial(format_with_color,
-                                        min_val=df[col].min(),
-                                        max_val=df[col].max())
         df[col] = df[col].apply(lang_format_with_color)
       # for col in numeric_cols:
       #   df[col] = (df[col] * 100).round(1).astype(str)
       AutoEvalColumn.add_columns_from_df(df, numeric_cols)
-      leaderboard = init_leaderboard(df)
   with gr.Row():
     with gr.Accordion("📚 Citation", open=False):

 🌐 https://m-rewardbench.github.io/'''
+# GOOGLE_SHEET_URL = "https://docs.google.com/spreadsheets/d/1qrD7plUdrBwAw7G6UeDVZAaV9ihxaNAcoiKwSaqotR4/export?gid=0&format=csv"
+GOOGLE_SHEET_URLS = [
+  "https://docs.google.com/spreadsheets/d/1qrD7plUdrBwAw7G6UeDVZAaV9ihxaNAcoiKwSaqotR4/gviz/tq?tqx=out:csv&sheet=gt",
+  "https://docs.google.com/spreadsheets/d/1qrD7plUdrBwAw7G6UeDVZAaV9ihxaNAcoiKwSaqotR4/gviz/tq?tqx=out:csv&sheet=maple"
+]
 # ABOUT_TEXT = """
 # <h1>
 # <span style="font-variant: small-caps;">M-RewardBench</span>: Evaluating Reward Models in Multilingual Settings
         })
+class AutoEvalColumnTranslation:
+  model = {
+    "name": "Model",
+    "type": "markdown",
+    "displayed_by_default": True,
+    "never_hidden": True,
+  }
+  model_type = {
+    "name": "MT",
+    "type": "markdown",
+    "displayed_by_default": True,
+    "never_hidden": True,
+  }
+  @classmethod
+  def add_columns_from_df(cls, df, columns):
+    for col in columns:
+      if col.lower() != 'model':  # Skip if it's the model column since it's predefined
+        setattr(cls, col, {
+              "name": col,
+              "type": "markdown",
+              "displayed_by_default": True,
+              "never_hidden": False,
+        })
 def get_result_data():
+  return pd.read_csv(GOOGLE_SHEET_URLS[0])
+def get_translation_data():
+  return pd.read_csv(GOOGLE_SHEET_URLS[1])
+def init_leaderboard(dataframe, df_class):
   if dataframe is None or dataframe.empty:
     raise ValueError("Leaderboard DataFrame is empty or None.")
     value=dataframe,
     datatype=[
       col["type"]
+      for col in df_class.__dict__.values()
       if isinstance(col, dict)
     ],
     select_columns=SelectColumns(
       default_selection=[
         col["name"]
+        for col in df_class.__dict__.values()
         if isinstance(col, dict) and col["displayed_by_default"]
       ],
       cant_deselect=[
         col["name"]
+        for col in df_class.__dict__.values()
         if isinstance(col, dict) and col.get("never_hidden", False)
       ],
       label="Select Columns to Display:",
 model_types = {"Generative RM": "💬", "DPO": "🎯", "Sequence Classifier": "🔢"}
 from functools import partial
+def format_with_color(val, min_val=50, max_val=100, scale=True):
     """
     Formats a value with inline green color gradient CSS.
     Returns an HTML string with bold, black text and muted green background.
         # Normalize value between 50 and 100 to 0-1 range
         normalized = (val - min_val) / (max_val - min_val)
+        # print(normalized)
         # Clamp value between 0 and 1
         normalized = max(0, min(1, normalized))
         intensity = int(50 + (150 * (1 - normalized)))
         # Return HTML with inline CSS - bold black text
+        show_val = val
+        if scale:
+          show_val = val*100
+        return f'<div val={val} style="background-color: rgb({intensity}, 200, {intensity}); color: black; font-weight: bold; text-align: center; vertical-align: middle;">{show_val:.1f}</div>'
     except (ValueError, TypeError):
         return str(val)
   gr.Markdown(INTRODUCTION_TEXT)
   with gr.Tabs() as tabs:
+    with gr.TabItem("🏅 Main"):
       df = get_result_data()
       df["Model_Type"] = df["Model_Type"].map(model_types)
       df["Model"] = df.apply(format_model_link, axis=1)
       df["zho"] = df[["zho_Hans", "zho_Hant"]].mean(axis=1)
       columns = lang_ids.split("\t")
       # df = df.style.applymap(apply_color_gradient, subset=['eng'])
       numeric_cols = df.select_dtypes(include=[np.number]).columns
+      global_min = df.select_dtypes(include='number').min().min().astype(float)
+      global_max = df.select_dtypes(include='number').max().max().astype(float)
       for col in numeric_cols:
         lang_format_with_color = partial(format_with_color,
+                                        # min_val=df[col].min(),
+                                        # max_val=df[col].max(),
+                                        min_val=global_min,
+                                        max_val=global_max,
+                                  )
         df[col] = df[col].apply(lang_format_with_color)
       # for col in numeric_cols:
       #   df[col] = (df[col] * 100).round(1).astype(str)
       AutoEvalColumn.add_columns_from_df(df, numeric_cols)
+      leaderboard = init_leaderboard(df, AutoEvalColumn)
+    with gr.TabItem("🏅 Translation"):
+      df = get_translation_data()
+      df["Model_Type"] = df["Model_Type"].map(model_types)
+      df["Model"] = df.apply(format_model_link, axis=1)
+      df.rename(columns={
+        "Model_Type": "MT",
+        "Avg": "AVG",
+      }, inplace=True)
+      numeric_cols = df.select_dtypes(include=[np.number]).columns
+      # print(df[numeric_cols].min().min())
+      # print(df[numeric_cols].max().max())
+      global_min = df.select_dtypes(include='number').min().min().astype(float)
+      global_max = df.select_dtypes(include='number').max().max().astype(float)
+      # print(global_max)
+      for col in numeric_cols:
+        # print(df[col].min())
+        lang_format_with_color = partial(format_with_color,
+                                        min_val=global_min,
+                                        max_val=global_max,
+                                        # min_val=df[col].min(),
+                                        # max_val=df[col].max(),
+                                        scale=False)
+        df[col] = df[col].apply(lang_format_with_color)
+      # for col in numeric_cols:
+      #   df[col] = (df[col] * 100).round(1).astype(str)
+      AutoEvalColumnTranslation.add_columns_from_df(df, numeric_cols)
+      leaderboard = init_leaderboard(df, AutoEvalColumnTranslation)
   with gr.Row():
     with gr.Accordion("📚 Citation", open=False):