Spaces:

andylizf
/

Omniscient

Sleeping

App Files Files Community

Chrisyichuan commited on Jun 11, 2025

Commit

e1255d1

1 Parent(s): b623f54

fix temp? but seems not work?

Browse files

Files changed (3) hide show

benchmark.py +3 -0
geo_bot.py +9 -1
main.py +14 -6

benchmark.py CHANGED Viewed

@@ -71,6 +71,7 @@ class MapGuesserBenchmark:
         self,
         models: Optional[List[str]] = None,
         max_samples: Optional[int] = None,
         **kwargs,
     ) -> Dict:
         if not self.golden_labels:
@@ -88,6 +89,7 @@ class MapGuesserBenchmark:
         print(f"🚀 Starting LIVE benchmark:")
         print(f"   Models: {models_to_test}")
         print(f"   Samples: {len(test_samples)}")
         all_results = []
         for model_name in models_to_test:
@@ -100,6 +102,7 @@ class MapGuesserBenchmark:
                     model_name=model_class_name,
                     use_selenium=True,
                     headless=self.headless,
                 ) as bot:
                     for i, sample in enumerate(test_samples):
                         print('########################################################')

         self,
         models: Optional[List[str]] = None,
         max_samples: Optional[int] = None,
+        temperature: float = 0.0,
         **kwargs,
     ) -> Dict:
         if not self.golden_labels:
         print(f"🚀 Starting LIVE benchmark:")
         print(f"   Models: {models_to_test}")
         print(f"   Samples: {len(test_samples)}")
+        print(f"   Temperature: {temperature}")
         all_results = []
         for model_name in models_to_test:
                     model_name=model_class_name,
                     use_selenium=True,
                     headless=self.headless,
+                    temperature=temperature,
                 ) as bot:
                     for i, sample in enumerate(test_samples):
                         print('########################################################')

geo_bot.py CHANGED Viewed

@@ -63,9 +63,17 @@ class GeoBot:
         model_name: str,
         use_selenium: bool = True,
         headless: bool = False,
     ):
-        self.model = model(model=model_name)
         self.model_name = model_name
         self.use_selenium = use_selenium
         self.controller = (
             MapCrunchController(headless=headless) if use_selenium else None

         model_name: str,
         use_selenium: bool = True,
         headless: bool = False,
+        temperature: float = 0.0,
     ):
+        # Initialize model with temperature parameter
+        model_kwargs = {
+            "model": model_name,
+            "temperature": temperature,
+        }
+        self.model = model(**model_kwargs)
         self.model_name = model_name
+        self.temperature = temperature
         self.use_selenium = use_selenium
         self.controller = (
             MapCrunchController(headless=headless) if use_selenium else None

main.py CHANGED Viewed

@@ -12,13 +12,13 @@ from benchmark import MapGuesserBenchmark
 from config import MODELS_CONFIG, DATA_PATHS, SUCCESS_THRESHOLD_KM
-def agent_mode(model_name: str, steps: int, headless: bool, samples: int):
     """
     Runs the AI Agent in a benchmark loop over multiple samples,
     using multi-step exploration for each.
     """
     print(
-        f"Starting Agent Mode (as a benchmark): model={model_name}, steps={steps}, samples={samples}"
     )
     try:
@@ -44,7 +44,7 @@ def agent_mode(model_name: str, steps: int, headless: bool, samples: int):
     all_results = []
     with GeoBot(
-        model=model_class, model_name=model_instance_name, headless=headless
     ) as bot:
         for i, sample in enumerate(test_samples):
             print(
@@ -107,11 +107,11 @@ def agent_mode(model_name: str, steps: int, headless: bool, samples: int):
     print("\nAgent Mode finished.")
-def benchmark_mode(models: list, samples: int, headless: bool):
     """Runs the benchmark on pre-collected data."""
-    print(f"Starting Benchmark Mode: models={models}, samples={samples}")
     benchmark = MapGuesserBenchmark(headless=headless)
-    summary = benchmark.run_benchmark(models=models, max_samples=samples)
     if summary:
         print("\n--- Benchmark Complete! Summary ---")
         for model, stats in summary.items():
@@ -152,6 +152,12 @@ def main():
         choices=list(MODELS_CONFIG.keys()),
         help="[Benchmark] Models to benchmark.",
     )
     args = parser.parse_args()
@@ -161,12 +167,14 @@ def main():
             steps=args.steps,
             headless=args.headless,
             samples=args.samples,
         )
     elif args.mode == "benchmark":
         benchmark_mode(
             models=args.models or [args.model],
             samples=args.samples,
             headless=args.headless,
         )

 from config import MODELS_CONFIG, DATA_PATHS, SUCCESS_THRESHOLD_KM
+def agent_mode(model_name: str, steps: int, headless: bool, samples: int, temperature: float = 0.0):
     """
     Runs the AI Agent in a benchmark loop over multiple samples,
     using multi-step exploration for each.
     """
     print(
+        f"Starting Agent Mode (as a benchmark): model={model_name}, steps={steps}, samples={samples}, temperature={temperature}"
     )
     try:
     all_results = []
     with GeoBot(
+        model=model_class, model_name=model_instance_name, headless=headless, temperature=temperature
     ) as bot:
         for i, sample in enumerate(test_samples):
             print(
     print("\nAgent Mode finished.")
+def benchmark_mode(models: list, samples: int, headless: bool, temperature: float = 0.0):
     """Runs the benchmark on pre-collected data."""
+    print(f"Starting Benchmark Mode: models={models}, samples={samples}, temperature={temperature}")
     benchmark = MapGuesserBenchmark(headless=headless)
+    summary = benchmark.run_benchmark(models=models, max_samples=samples, temperature=temperature)
     if summary:
         print("\n--- Benchmark Complete! Summary ---")
         for model, stats in summary.items():
         choices=list(MODELS_CONFIG.keys()),
         help="[Benchmark] Models to benchmark.",
     )
+    parser.add_argument(
+        "--temperature",
+        type=float,
+        default=0.0,
+        help="Temperature parameter for LLM sampling (0.0 = deterministic, higher = more random). Default: 0.0",
+    )
     args = parser.parse_args()
             steps=args.steps,
             headless=args.headless,
             samples=args.samples,
+            temperature=args.temperature,
         )
     elif args.mode == "benchmark":
         benchmark_mode(
             models=args.models or [args.model],
             samples=args.samples,
             headless=args.headless,
+            temperature=args.temperature,
         )