Spaces:

crazyforprogramming
/

virtual-resume

Running

App Files Files Community

crazyforprogramming commited on 16 days ago

Commit

750c180

verified ·

1 Parent(s): ff035d7

Upload folder using huggingface_hub

Browse files

Files changed (1) hide show

app.py +29 -49

app.py CHANGED Viewed

@@ -147,66 +147,46 @@ If the user is engaging in discussion, try to steer them towards getting in touc
         return system_prompt
     def chat(self, message, history):
-        messages = (
-            [{"role": "system", "content": self.system_prompt()}]
-            + history
-            + [{"role": "user", "content": message}]
-        )
-        # Clients
-        gemini_client = OpenAI(
-            api_key=os.getenv("GOOGLE_API_KEY"),
-            base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
-        )
-        openai_client = OpenAI(
-            api_key=os.getenv("OPENAI_API_KEY")
-        )
-        def call_llm(client, model):
             return client.chat.completions.create(
                 model=model,
                 messages=messages,
-                tools=tools
             )
-        done = False
-        use_openai = False
-        while not done:
-            try:
-                # 🔹 Try Gemini first
-                if not use_openai:
-                    response = call_llm(gemini_client, "gemini-2.0-flash")
-                else:
-                    response = call_llm(openai_client, "gpt-4o-mini")
-            except Exception as e:
-                error_msg = str(e).lower()
-                # 🔥 Detect quota exceeded
-                if "quota" in error_msg or "resource_exhausted" in error_msg:
-                    print("⚠️ Gemini quota exceeded. Falling back to OpenAI...")
-                    use_openai = True
-                    continue
-                # ❌ Unknown error
-                print("❌ LLM error:", e)
-                return "Sorry, something went wrong while processing your request."
-            # 🔁 Tool calling flow
-            choice = response.choices[0]
-            if choice.finish_reason == "tool_calls":
-                assistant_message = choice.message
-                tool_calls = assistant_message.tool_calls
-                tool_results = self.handle_tool_call(tool_calls)
-                messages.append(assistant_message)
-                messages.extend(tool_results)
-            else:
-                done = True
         return response.choices[0].message.content

         return system_prompt
     def chat(self, message, history):
+        messages = [
+            {"role": "system", "content": self.system_prompt()},
+            *history[-6:],  # 🔥 limit history to last N turns
+            {"role": "user", "content": message}
+        ]
+        def run(client, model):
             return client.chat.completions.create(
                 model=model,
                 messages=messages,
+                tools=tools,
+                max_tokens=512  # 🔒 hard cap
             )
+        # Clients
+        gemini = OpenAI(
+            api_key=os.getenv("GOOGLE_API_KEY"),
+            base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
+        )
+        openai_client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
+        try:
+            response = run(gemini, "gemini-2.0-flash")
+        except Exception as e:
+            if "quota" in str(e).lower() or "resource_exhausted" in str(e).lower():
+                response = run(openai_client, "gpt-4o-mini")
+            else:
+                raise
+        choice = response.choices[0]
+        # 🔁 Handle tools ONCE (no loops)
+        if choice.finish_reason == "tool_calls":
+            tool_results = self.handle_tool_call(choice.message.tool_calls)
+            messages.append(choice.message)
+            messages.extend(tool_results)
+            # Final answer (NO tools this time)
+            response = run(gemini, "gemini-2.0-flash")
         return response.choices[0].message.content