monkeypatch litellm bugged transformation

Merge branch 'main' into feature/llm-session-tracking
add llm user identity to deep research loop
2026-04-09 00:42:47 +00:00 · 2025-12-15 15:00:50 -08:00 · 2025-12-15 12:32:33 -10:00 · 2025-12-15 14:17:25 -08:00 · 2025-12-15 14:08:51 -08:00 · 2025-12-15 14:03:31 -08:00
15 changed files with 343 additions and 74 deletions
--- a/backend/onyx/chat/llm_loop.py
+++ b/backend/onyx/chat/llm_loop.py
@@ -25,6 +25,7 @@ from onyx.context.search.models import SearchDoc
 from onyx.context.search.models import SearchDocsResponse
 from onyx.db.models import Persona
 from onyx.llm.interfaces import LLM
+from onyx.llm.interfaces import LLMUserIdentity
 from onyx.llm.interfaces import ToolChoiceOptions
 from onyx.llm.utils import model_needs_formatting_reenabled
 from onyx.prompts.chat_prompts import IMAGE_GEN_REMINDER
@@ -291,6 +292,7 @@ def run_llm_loop(
    token_counter: Callable[[str], int],
    db_session: Session,
    forced_tool_id: int | None = None,
+    user_identity: LLMUserIdentity | None = None,
 ) -> None:
    with trace("run_llm_loop", metadata={"tenant_id": get_current_tenant_id()}):
        # Fix some LiteLLM issues,
@@ -455,6 +457,7 @@ def run_llm_loop(
                # immediately yield the full set of found documents. This gives us the option to show the
                # final set of documents immediately if desired.
                final_documents=gathered_documents,
+                user_identity=user_identity,
            )

            # Consume the generator, emitting packets and capturing the final result
--- a/backend/onyx/chat/llm_step.py
+++ b/backend/onyx/chat/llm_step.py
@@ -15,6 +15,7 @@ from onyx.context.search.models import SearchDoc
 from onyx.file_store.models import ChatFileType
 from onyx.llm.interfaces import LanguageModelInput
 from onyx.llm.interfaces import LLM
+from onyx.llm.interfaces import LLMUserIdentity
 from onyx.llm.interfaces import ToolChoiceOptions
 from onyx.llm.models import AssistantMessage
 from onyx.llm.models import ChatCompletionMessage
@@ -332,6 +333,7 @@ def run_llm_step(
    citation_processor: DynamicCitationProcessor,
    state_container: ChatStateContainer,
    final_documents: list[SearchDoc] | None = None,
+    user_identity: LLMUserIdentity | None = None,
 ) -> Generator[Packet, None, tuple[LlmStepResult, int]]:
    # The second return value is for the turn index because reasoning counts on the frontend as a turn
    # TODO this is maybe ok but does not align well with the backend logic too well
@@ -365,6 +367,7 @@ def run_llm_step(
            tool_choice=tool_choice,
            structured_response_format=None,  # TODO
            # reasoning_effort=ReasoningEffort.OFF,  # Can set this for dev/testing.
+            user_identity=user_identity,
        ):
            if packet.usage:
                usage = packet.usage
--- a/backend/onyx/chat/process_message.py
+++ b/backend/onyx/chat/process_message.py
@@ -53,6 +53,7 @@ from onyx.file_store.utils import verify_user_files
 from onyx.llm.factory import get_llm_token_counter
 from onyx.llm.factory import get_llms_for_persona
 from onyx.llm.interfaces import LLM
+from onyx.llm.interfaces import LLMUserIdentity
 from onyx.llm.utils import litellm_exception_to_error_msg
 from onyx.onyxbot.slack.models import SlackContext
 from onyx.redis.redis_pool import get_redis_client
@@ -289,6 +290,11 @@ def stream_chat_message_objects(

    try:
        user_id = user.id if user is not None else None
+        llm_user_identifier = (
+            user.email
+            if user is not None and getattr(user, "email", None)
+            else (str(user_id) if user_id else "anonymous_user")
+        )

        chat_session = get_chat_session_by_id(
            chat_session_id=new_msg_req.chat_session_id,
@@ -299,6 +305,9 @@ def stream_chat_message_objects(

        message_text = new_msg_req.message
        chat_session_id = new_msg_req.chat_session_id
+        user_identity = LLMUserIdentity(
+            user_id=llm_user_identifier, session_id=str(chat_session_id)
+        )
        parent_id = new_msg_req.parent_message_id
        reference_doc_ids = new_msg_req.search_doc_ids
        retrieval_options = new_msg_req.retrieval_options
@@ -503,6 +512,7 @@ def stream_chat_message_objects(
                llm=llm,
                token_counter=token_counter,
                db_session=db_session,
+                user_identity=user_identity,
            )
        else:
            yield from run_chat_llm_with_state_containers(
@@ -524,6 +534,7 @@ def stream_chat_message_objects(
                    if new_msg_req.forced_tool_ids
                    else None
                ),
+                user_identity=user_identity,
            )

        # Determine if stopped by user
--- a/backend/onyx/configs/app_configs.py
+++ b/backend/onyx/configs/app_configs.py
@@ -24,6 +24,12 @@ APP_PORT = 8080
 # prefix from requests directed towards the API server. In these cases, set this to `/api`
 APP_API_PREFIX = os.environ.get("API_PREFIX", "")

+# Whether to send user metadata (user_id/email and session_id) to the LLM provider.
+# Disabled by default.
+SEND_USER_METADATA_TO_LLM_PROVIDER = (
+    os.environ.get("SEND_USER_METADATA_TO_LLM_PROVIDER", "")
+).lower() == "true"
+
 #####
 # User Facing Features Configs
 #####
--- a/backend/onyx/deep_research/dr_loop.py
+++ b/backend/onyx/deep_research/dr_loop.py
@@ -13,6 +13,7 @@ from onyx.chat.models import LlmStepResult
 from onyx.configs.constants import MessageType
 from onyx.deep_research.dr_mock_tools import get_clarification_tool_definitions
 from onyx.llm.interfaces import LLM
+from onyx.llm.interfaces import LLMUserIdentity
 from onyx.llm.models import ToolChoiceOptions
 from onyx.prompts.deep_research.orchestration_layer import CLARIFICATION_PROMPT
 from onyx.prompts.prompt_utils import get_current_llm_day_time
@@ -36,6 +37,7 @@ def run_deep_research_llm_loop(
    token_counter: Callable[[str], int],
    db_session: Session,
    skip_clarification: bool = False,
+    user_identity: LLMUserIdentity | None = None,
 ) -> None:
    # Here for lazy load LiteLLM
    from onyx.llm.litellm_singleton.config import initialize_litellm
@@ -83,6 +85,7 @@ def run_deep_research_llm_loop(
            citation_processor=DynamicCitationProcessor(),
            state_container=state_container,
            final_documents=None,
+            user_identity=user_identity,
        )

        # Consume the generator, emitting packets and capturing the final result
--- a/backend/onyx/llm/chat_llm.py
+++ b/backend/onyx/llm/chat_llm.py
@@ -9,12 +9,14 @@ from typing import Union
 from langchain_core.messages import BaseMessage

 from onyx.configs.app_configs import MOCK_LLM_RESPONSE
+from onyx.configs.app_configs import SEND_USER_METADATA_TO_LLM_PROVIDER
 from onyx.configs.chat_configs import QA_TIMEOUT
 from onyx.configs.model_configs import GEN_AI_TEMPERATURE
 from onyx.configs.model_configs import LITELLM_EXTRA_BODY
 from onyx.llm.interfaces import LanguageModelInput
 from onyx.llm.interfaces import LLM
 from onyx.llm.interfaces import LLMConfig
+from onyx.llm.interfaces import LLMUserIdentity
 from onyx.llm.interfaces import ReasoningEffort
 from onyx.llm.interfaces import ToolChoiceOptions
 from onyx.llm.llm_provider_options import AZURE_PROVIDER_NAME
@@ -41,6 +43,7 @@ if TYPE_CHECKING:
 _LLM_PROMPT_LONG_TERM_LOG_CATEGORY = "llm_prompt"
 LEGACY_MAX_TOKENS_KWARG = "max_tokens"
 STANDARD_MAX_TOKENS_KWARG = "max_completion_tokens"
+MAX_LITELLM_USER_ID_LENGTH = 64


 class LLMTimeoutError(Exception):
@@ -70,6 +73,17 @@ def _prompt_as_json(prompt: LanguageModelInput) -> JSON_ro:
    return cast(JSON_ro, _prompt_to_dicts(prompt))


+def _truncate_litellm_user_id(user_id: str) -> str:
+    if len(user_id) <= MAX_LITELLM_USER_ID_LENGTH:
+        return user_id
+    logger.warning(
+        "LLM user id exceeds %d chars (len=%d); truncating for provider compatibility.",
+        MAX_LITELLM_USER_ID_LENGTH,
+        len(user_id),
+    )
+    return user_id[:MAX_LITELLM_USER_ID_LENGTH]
+
+
 class LitellmLLM(LLM):
    """Uses Litellm library to allow easy configuration to use a multitude of LLMs
    See https://python.langchain.com/docs/integrations/chat/litellm"""
@@ -233,6 +247,7 @@ class LitellmLLM(LLM):
        structured_response_format: dict | None = None,
        timeout_override: int | None = None,
        max_tokens: int | None = None,
+        user_identity: LLMUserIdentity | None = None,
    ) -> Union["ModelResponse", "CustomStreamWrapper"]:
        self._record_call(prompt)
        from onyx.llm.litellm_singleton import litellm
@@ -251,6 +266,29 @@ class LitellmLLM(LLM):
        else:
            model_provider = self.config.model_provider

+        completion_kwargs: dict[str, Any] = self._model_kwargs
+        if SEND_USER_METADATA_TO_LLM_PROVIDER and user_identity:
+            completion_kwargs = dict(self._model_kwargs)
+
+            if user_identity.user_id:
+                completion_kwargs["user"] = _truncate_litellm_user_id(
+                    user_identity.user_id
+                )
+
+            if user_identity.session_id:
+                existing_metadata = completion_kwargs.get("metadata")
+                metadata: dict[str, Any] | None
+                if existing_metadata is None:
+                    metadata = {}
+                elif isinstance(existing_metadata, dict):
+                    metadata = dict(existing_metadata)
+                else:
+                    metadata = None
+
+                if metadata is not None:
+                    metadata["session_id"] = user_identity.session_id
+                    completion_kwargs["metadata"] = metadata
+
        try:
            return litellm.completion(
                mock_response=MOCK_LLM_RESPONSE,
@@ -324,7 +362,7 @@ class LitellmLLM(LLM):
                    else {}
                ),
                **({self._max_token_param: max_tokens} if max_tokens else {}),
-                **self._model_kwargs,
+                **completion_kwargs,
            )
        except Exception as e:

@@ -367,6 +405,7 @@ class LitellmLLM(LLM):
        timeout_override: int | None = None,
        max_tokens: int | None = None,
        reasoning_effort: ReasoningEffort | None = None,
+        user_identity: LLMUserIdentity | None = None,
    ) -> ModelResponse:
        from litellm import ModelResponse as LiteLLMModelResponse

@@ -384,6 +423,7 @@ class LitellmLLM(LLM):
                max_tokens=max_tokens,
                parallel_tool_calls=True,
                reasoning_effort=reasoning_effort,
+                user_identity=user_identity,
            ),
        )

@@ -398,6 +438,7 @@ class LitellmLLM(LLM):
        timeout_override: int | None = None,
        max_tokens: int | None = None,
        reasoning_effort: ReasoningEffort | None = None,
+        user_identity: LLMUserIdentity | None = None,
    ) -> Iterator[ModelResponseStream]:
        from litellm import CustomStreamWrapper as LiteLLMCustomStreamWrapper
        from onyx.llm.model_response import from_litellm_model_response_stream
@@ -414,6 +455,7 @@ class LitellmLLM(LLM):
                max_tokens=max_tokens,
                parallel_tool_calls=True,
                reasoning_effort=reasoning_effort,
+                user_identity=user_identity,
            ),
        )

--- a/backend/onyx/llm/interfaces.py
+++ b/backend/onyx/llm/interfaces.py
@@ -14,6 +14,11 @@ from onyx.utils.logger import setup_logger
 logger = setup_logger()


+class LLMUserIdentity(BaseModel):
+    user_id: str | None = None
+    session_id: str | None = None
+
+
 class LLMConfig(BaseModel):
    model_provider: str
    model_name: str
@@ -44,6 +49,7 @@ class LLM(abc.ABC):
        timeout_override: int | None = None,
        max_tokens: int | None = None,
        reasoning_effort: ReasoningEffort | None = None,
+        user_identity: LLMUserIdentity | None = None,
    ) -> "ModelResponse":
        raise NotImplementedError

@@ -56,5 +62,6 @@ class LLM(abc.ABC):
        timeout_override: int | None = None,
        max_tokens: int | None = None,
        reasoning_effort: ReasoningEffort | None = None,
+        user_identity: LLMUserIdentity | None = None,
    ) -> Iterator[ModelResponseStream]:
        raise NotImplementedError
--- a/backend/onyx/llm/litellm_singleton/monkey_patches.py
+++ b/backend/onyx/llm/litellm_singleton/monkey_patches.py
@@ -606,6 +606,56 @@ def _patch_openai_responses_transform_response() -> None:
    LiteLLMResponsesTransformationHandler.transform_response = _patched_transform_response  # type: ignore[method-assign]


+def _patch_openai_responses_tool_content_type() -> None:
+    """
+    Patches LiteLLMResponsesTransformationHandler._convert_content_str_to_input_text
+    to use 'input_text' type for tool messages instead of 'output_text'.
+
+    The OpenAI Responses API only accepts 'input_text', 'input_image', and 'input_file'
+    in the function_call_output.output array. The default litellm implementation
+    incorrectly uses 'output_text' for tool messages, causing 400 Bad Request errors.
+
+    See: https://github.com/BerriAI/litellm/issues/17507
+
+    This should be removed once litellm releases a fix for this issue.
+    """
+    original_method = (
+        LiteLLMResponsesTransformationHandler._convert_content_str_to_input_text
+    )
+
+    if (
+        getattr(
+            original_method,
+            "__name__",
+            "",
+        )
+        == "_patched_convert_content_str_to_input_text"
+    ):
+        return
+
+    def _patched_convert_content_str_to_input_text(
+        self: Any, content: str, role: str
+    ) -> Dict[str, Any]:
+        """
+        Convert string content to the appropriate Responses API format.
+
+        For user, system, and tool messages, use 'input_text' type.
+        For assistant messages, use 'output_text' type.
+
+        Tool messages go into function_call_output.output, which only accepts
+        'input_text', 'input_image', and 'input_file' types.
+        """
+        if role in ("user", "system", "tool"):
+            return {"type": "input_text", "text": content}
+        else:
+            return {"type": "output_text", "text": content}
+
+    _patched_convert_content_str_to_input_text.__name__ = (
+        "_patched_convert_content_str_to_input_text"
+    )
+    LiteLLMResponsesTransformationHandler._convert_content_str_to_input_text = _patched_convert_content_str_to_input_text  # type: ignore[method-assign]
+
+
 def apply_monkey_patches() -> None:
    """
    Apply all necessary monkey patches to LiteLLM for compatibility.
@@ -615,11 +665,13 @@ def apply_monkey_patches() -> None:
    - Patching OllamaChatCompletionResponseIterator.chunk_parser for streaming content
    - Patching OpenAiResponsesToChatCompletionStreamIterator.chunk_parser for OpenAI Responses API
    - Patching LiteLLMResponsesTransformationHandler.transform_response for non-streaming responses
+    - Patching LiteLLMResponsesTransformationHandler._convert_content_str_to_input_text for tool content types
    """
    _patch_ollama_transform_request()
    _patch_ollama_chunk_parser()
    _patch_openai_responses_chunk_parser()
    _patch_openai_responses_transform_response()
+    _patch_openai_responses_tool_content_type()


 def _extract_reasoning_content(message: dict) -> Tuple[Optional[str], Optional[str]]:
--- a/backend/requirements/default.txt
+++ b/backend/requirements/default.txt
@@ -344,14 +344,15 @@ greenlet==3.2.4
    #   sqlalchemy
 grpc-google-iam-v1==0.14.3
    # via google-cloud-resource-manager
-grpcio==1.76.0
+grpcio==1.67.1
    # via
    #   google-api-core
    #   google-cloud-resource-manager
    #   googleapis-common-protos
    #   grpc-google-iam-v1
    #   grpcio-status
-grpcio-status==1.76.0
+    #   litellm
+grpcio-status==1.67.1
    # via google-api-core
 h11==0.16.0
    # via
@@ -485,7 +486,7 @@ langsmith==0.3.45
    #   langchain-core
 lazy-imports==1.0.1
    # via onyx
-litellm==1.79.0
+litellm==1.80.10
    # via onyx
 locket==1.0.0
    # via
@@ -593,7 +594,7 @@ office365-rest-python-client==2.5.9
    # via onyx
 onnxruntime==1.20.1
    # via magika
-openai==2.6.1
+openai==2.8.1
    # via
    #   exa-py
    #   langfuse
@@ -700,7 +701,7 @@ proto-plus==1.26.1
    #   google-api-core
    #   google-cloud-aiplatform
    #   google-cloud-resource-manager
-protobuf==6.33.1
+protobuf==5.29.5
    # via
    #   ddtrace
    #   google-api-core
@@ -1088,7 +1089,6 @@ typing-extensions==4.15.0
    #   fastapi
    #   google-cloud-aiplatform
    #   google-genai
-    #   grpcio
    #   huggingface-hub
    #   jira
    #   langchain-core
--- a/backend/requirements/dev.txt
+++ b/backend/requirements/dev.txt
@@ -163,14 +163,15 @@ googleapis-common-protos==1.72.0
    #   grpcio-status
 grpc-google-iam-v1==0.14.3
    # via google-cloud-resource-manager
-grpcio==1.76.0
+grpcio==1.67.1
    # via
    #   google-api-core
    #   google-cloud-resource-manager
    #   googleapis-common-protos
    #   grpc-google-iam-v1
    #   grpcio-status
-grpcio-status==1.76.0
+    #   litellm
+grpcio-status==1.67.1
    # via google-api-core
 h11==0.16.0
    # via
@@ -231,7 +232,7 @@ jupyter-core==5.9.1
    # via
    #   ipykernel
    #   jupyter-client
-litellm==1.79.0
+litellm==1.80.10
    # via onyx
 manygo==0.2.0
    # via onyx
@@ -264,7 +265,7 @@ numpy==1.26.4
    #   voyageai
 onyx-devtools==0.1.0
    # via onyx
-openai==2.6.1
+openai==2.8.1
    # via
    #   litellm
    #   onyx
@@ -319,7 +320,7 @@ proto-plus==1.26.1
    #   google-api-core
    #   google-cloud-aiplatform
    #   google-cloud-resource-manager
-protobuf==6.33.1
+protobuf==5.29.5
    # via
    #   google-api-core
    #   google-cloud-aiplatform
@@ -507,7 +508,6 @@ typing-extensions==4.15.0
    #   fastapi
    #   google-cloud-aiplatform
    #   google-genai
-    #   grpcio
    #   huggingface-hub
    #   ipython
    #   mypy
--- a/backend/requirements/ee.txt
+++ b/backend/requirements/ee.txt
@@ -132,14 +132,15 @@ googleapis-common-protos==1.72.0
    #   grpcio-status
 grpc-google-iam-v1==0.14.3
    # via google-cloud-resource-manager
-grpcio==1.76.0
+grpcio==1.67.1
    # via
    #   google-api-core
    #   google-cloud-resource-manager
    #   googleapis-common-protos
    #   grpc-google-iam-v1
    #   grpcio-status
-grpcio-status==1.76.0
+    #   litellm
+grpcio-status==1.67.1
    # via google-api-core
 h11==0.16.0
    # via
@@ -180,7 +181,7 @@ jsonschema==4.25.1
    # via litellm
 jsonschema-specifications==2025.9.1
    # via jsonschema
-litellm==1.79.0
+litellm==1.80.10
    # via onyx
 markupsafe==3.0.3
    # via jinja2
@@ -195,7 +196,7 @@ numpy==1.26.4
    # via
    #   shapely
    #   voyageai
-openai==2.6.1
+openai==2.8.1
    # via
    #   litellm
    #   onyx
@@ -223,7 +224,7 @@ proto-plus==1.26.1
    #   google-api-core
    #   google-cloud-aiplatform
    #   google-cloud-resource-manager
-protobuf==6.33.1
+protobuf==5.29.5
    # via
    #   google-api-core
    #   google-cloud-aiplatform
@@ -328,7 +329,6 @@ typing-extensions==4.15.0
    #   fastapi
    #   google-cloud-aiplatform
    #   google-genai
-    #   grpcio
    #   huggingface-hub
    #   openai
    #   pydantic
--- a/backend/requirements/model_server.txt
+++ b/backend/requirements/model_server.txt
@@ -175,14 +175,15 @@ googleapis-common-protos==1.72.0
    #   grpcio-status
 grpc-google-iam-v1==0.14.3
    # via google-cloud-resource-manager
-grpcio==1.76.0
+grpcio==1.67.1
    # via
    #   google-api-core
    #   google-cloud-resource-manager
    #   googleapis-common-protos
    #   grpc-google-iam-v1
    #   grpcio-status
-grpcio-status==1.76.0
+    #   litellm
+grpcio-status==1.67.1
    # via google-api-core
 h11==0.16.0
    # via
@@ -237,7 +238,7 @@ jsonschema-specifications==2025.9.1
    # via jsonschema
 kombu==5.5.4
    # via celery
-litellm==1.79.0
+litellm==1.80.10
    # via onyx
 markupsafe==3.0.3
    # via jinja2
@@ -301,7 +302,7 @@ nvidia-nvjitlink-cu12==12.4.127 ; platform_machine == 'x86_64' and sys_platform
    #   torch
 nvidia-nvtx-cu12==12.4.127 ; platform_machine == 'x86_64' and sys_platform == 'linux'
    # via torch
-openai==2.6.1
+openai==2.8.1
    # via
    #   litellm
    #   onyx
@@ -341,7 +342,7 @@ proto-plus==1.26.1
    #   google-api-core
    #   google-cloud-aiplatform
    #   google-cloud-resource-manager
-protobuf==6.33.1
+protobuf==5.29.5
    # via
    #   google-api-core
    #   google-cloud-aiplatform
@@ -504,7 +505,6 @@ typing-extensions==4.15.0
    #   fastapi
    #   google-cloud-aiplatform
    #   google-genai
-    #   grpcio
    #   huggingface-hub
    #   openai
    #   pydantic
--- a/backend/tests/unit/onyx/llm/test_chat_llm.py
+++ b/backend/tests/unit/onyx/llm/test_chat_llm.py
@@ -8,6 +8,7 @@ from litellm.types.utils import Function as LiteLLMFunction

 from onyx.configs.app_configs import MOCK_LLM_RESPONSE
 from onyx.llm.chat_llm import LitellmLLM
+from onyx.llm.interfaces import LLMUserIdentity
 from onyx.llm.model_response import ModelResponse
 from onyx.llm.model_response import ModelResponseStream
 from onyx.llm.models import AssistantMessage
@@ -203,7 +204,6 @@ def test_multiple_tool_calls(default_multi_llm: LitellmLLM) -> None:
            },
        ]

-        # Call the invoke method
        result = default_multi_llm.invoke(messages, tools)

        # Assert that the result is a ModelResponse
@@ -402,3 +402,150 @@ def test_multiple_tool_calls_streaming(default_multi_llm: LitellmLLM) -> None:
            mock_response=MOCK_LLM_RESPONSE,
            stream_options={"include_usage": True},
        )
+
+
+def test_user_identity_metadata_enabled(default_multi_llm: LitellmLLM) -> None:
+    with (
+        patch("litellm.completion") as mock_completion,
+        patch("onyx.llm.chat_llm.SEND_USER_METADATA_TO_LLM_PROVIDER", True),
+    ):
+        mock_response = litellm.ModelResponse(
+            id="chatcmpl-123",
+            choices=[
+                litellm.Choices(
+                    finish_reason="stop",
+                    index=0,
+                    message=litellm.Message(
+                        content="Hello",
+                        role="assistant",
+                    ),
+                )
+            ],
+            model="gpt-3.5-turbo",
+        )
+        mock_completion.return_value = mock_response
+
+        messages: LanguageModelInput = [UserMessage(content="Hi")]
+        identity = LLMUserIdentity(user_id="user_123", session_id="session_abc")
+
+        default_multi_llm.invoke(messages, user_identity=identity)
+
+        mock_completion.assert_called_once()
+        kwargs = mock_completion.call_args.kwargs
+        assert kwargs["user"] == "user_123"
+        assert kwargs["metadata"]["session_id"] == "session_abc"
+
+
+def test_user_identity_user_id_truncated_to_64_chars(
+    default_multi_llm: LitellmLLM,
+) -> None:
+    with (
+        patch("litellm.completion") as mock_completion,
+        patch("onyx.llm.chat_llm.SEND_USER_METADATA_TO_LLM_PROVIDER", True),
+    ):
+        mock_response = litellm.ModelResponse(
+            id="chatcmpl-123",
+            choices=[
+                litellm.Choices(
+                    finish_reason="stop",
+                    index=0,
+                    message=litellm.Message(
+                        content="Hello",
+                        role="assistant",
+                    ),
+                )
+            ],
+            model="gpt-3.5-turbo",
+        )
+        mock_completion.return_value = mock_response
+
+        messages: LanguageModelInput = [UserMessage(content="Hi")]
+        long_user_id = "u" * 82
+        identity = LLMUserIdentity(user_id=long_user_id, session_id="session_abc")
+
+        default_multi_llm.invoke(messages, user_identity=identity)
+
+        mock_completion.assert_called_once()
+        kwargs = mock_completion.call_args.kwargs
+        assert kwargs["user"] == long_user_id[:64]
+
+
+def test_user_identity_metadata_disabled_omits_identity(
+    default_multi_llm: LitellmLLM,
+) -> None:
+    with (
+        patch("litellm.completion") as mock_completion,
+        patch("onyx.llm.chat_llm.SEND_USER_METADATA_TO_LLM_PROVIDER", False),
+    ):
+        mock_response = litellm.ModelResponse(
+            id="chatcmpl-123",
+            choices=[
+                litellm.Choices(
+                    finish_reason="stop",
+                    index=0,
+                    message=litellm.Message(
+                        content="Hello",
+                        role="assistant",
+                    ),
+                )
+            ],
+            model="gpt-3.5-turbo",
+        )
+        mock_completion.return_value = mock_response
+
+        messages: LanguageModelInput = [UserMessage(content="Hi")]
+        identity = LLMUserIdentity(user_id="user_123", session_id="session_abc")
+
+        default_multi_llm.invoke(messages, user_identity=identity)
+
+        mock_completion.assert_called_once()
+        kwargs = mock_completion.call_args.kwargs
+        assert "user" not in kwargs
+        assert "metadata" not in kwargs
+
+
+def test_existing_metadata_pass_through_when_identity_disabled() -> None:
+    model_provider = "openai"
+    model_name = "gpt-3.5-turbo"
+
+    llm = LitellmLLM(
+        api_key="test_key",
+        timeout=30,
+        model_provider=model_provider,
+        model_name=model_name,
+        max_input_tokens=get_max_input_tokens(
+            model_provider=model_provider,
+            model_name=model_name,
+        ),
+        model_kwargs={"metadata": {"foo": "bar"}},
+    )
+
+    with (
+        patch("litellm.completion") as mock_completion,
+        patch("onyx.llm.chat_llm.SEND_USER_METADATA_TO_LLM_PROVIDER", False),
+    ):
+        mock_response = litellm.ModelResponse(
+            id="chatcmpl-123",
+            choices=[
+                litellm.Choices(
+                    finish_reason="stop",
+                    index=0,
+                    message=litellm.Message(
+                        content="Hello",
+                        role="assistant",
+                    ),
+                )
+            ],
+            model="gpt-3.5-turbo",
+        )
+        mock_completion.return_value = mock_response
+
+        messages: LanguageModelInput = [UserMessage(content="Hi")]
+        identity = LLMUserIdentity(user_id="user_123", session_id="session_abc")
+
+        llm.invoke(messages, user_identity=identity)
+
+        mock_completion.assert_called_once()
+        kwargs = mock_completion.call_args.kwargs
+        assert "user" not in kwargs
+        assert kwargs["metadata"]["foo"] == "bar"
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -14,8 +14,8 @@ dependencies = [
    "fastapi==0.116.1",
    "google-cloud-aiplatform==1.121.0",
    "google-genai==1.52.0",
-    "litellm==1.79.0",
-    "openai==2.6.1",
+    "litellm==1.80.10",
+    "openai==2.8.1",
    "pydantic==2.11.7",
    "prometheus_client==0.21.0",
    "prometheus_fastapi_instrumentator==7.1.0",
--- a/uv.lock
+++ b/uv.lock
@@ -1,5 +1,5 @@
 version = 1
-revision = 3
+revision = 2
 requires-python = ">=3.11, <3.13"
 resolution-markers = [
    "python_full_version >= '3.12.4' and sys_platform == 'win32'",
@@ -1891,47 +1891,42 @@ wheels = [

 [[package]]
 name = "grpcio"
-version = "1.76.0"
+version = "1.67.1"
 source = { registry = "https://pypi.org/simple" }
-dependencies = [
-    { name = "typing-extensions" },
-]
-sdist = { url = "https://files.pythonhosted.org/packages/b6/e0/318c1ce3ae5a17894d5791e87aea147587c9e702f24122cc7a5c8bbaeeb1/grpcio-1.76.0.tar.gz", hash = "sha256:7be78388d6da1a25c0d5ec506523db58b18be22d9c37d8d3a32c08be4987bd73", size = 12785182, upload-time = "2025-10-21T16:23:12.106Z" }
+sdist = { url = "https://files.pythonhosted.org/packages/20/53/d9282a66a5db45981499190b77790570617a604a38f3d103d0400974aeb5/grpcio-1.67.1.tar.gz", hash = "sha256:3dc2ed4cabea4dc14d5e708c2b426205956077cc5de419b4d4079315017e9732", size = 12580022, upload-time = "2024-10-29T06:30:07.787Z" }
 wheels = [
-    { url = "https://files.pythonhosted.org/packages/a0/00/8163a1beeb6971f66b4bbe6ac9457b97948beba8dd2fc8e1281dce7f79ec/grpcio-1.76.0-cp311-cp311-linux_armv7l.whl", hash = "sha256:2e1743fbd7f5fa713a1b0a8ac8ebabf0ec980b5d8809ec358d488e273b9cf02a", size = 5843567, upload-time = "2025-10-21T16:20:52.829Z" },
-    { url = "https://files.pythonhosted.org/packages/10/c1/934202f5cf335e6d852530ce14ddb0fef21be612ba9ecbbcbd4d748ca32d/grpcio-1.76.0-cp311-cp311-macosx_11_0_universal2.whl", hash = "sha256:a8c2cf1209497cf659a667d7dea88985e834c24b7c3b605e6254cbb5076d985c", size = 11848017, upload-time = "2025-10-21T16:20:56.705Z" },
-    { url = "https://files.pythonhosted.org/packages/11/0b/8dec16b1863d74af6eb3543928600ec2195af49ca58b16334972f6775663/grpcio-1.76.0-cp311-cp311-manylinux2014_aarch64.manylinux_2_17_aarch64.whl", hash = "sha256:08caea849a9d3c71a542827d6df9d5a69067b0a1efbea8a855633ff5d9571465", size = 6412027, upload-time = "2025-10-21T16:20:59.3Z" },
-    { url = "https://files.pythonhosted.org/packages/d7/64/7b9e6e7ab910bea9d46f2c090380bab274a0b91fb0a2fe9b0cd399fffa12/grpcio-1.76.0-cp311-cp311-manylinux2014_i686.manylinux_2_17_i686.whl", hash = "sha256:f0e34c2079d47ae9f6188211db9e777c619a21d4faba6977774e8fa43b085e48", size = 7075913, upload-time = "2025-10-21T16:21:01.645Z" },
-    { url = "https://files.pythonhosted.org/packages/68/86/093c46e9546073cefa789bd76d44c5cb2abc824ca62af0c18be590ff13ba/grpcio-1.76.0-cp311-cp311-manylinux2014_x86_64.manylinux_2_17_x86_64.whl", hash = "sha256:8843114c0cfce61b40ad48df65abcfc00d4dba82eae8718fab5352390848c5da", size = 6615417, upload-time = "2025-10-21T16:21:03.844Z" },
-    { url = "https://files.pythonhosted.org/packages/f7/b6/5709a3a68500a9c03da6fb71740dcdd5ef245e39266461a03f31a57036d8/grpcio-1.76.0-cp311-cp311-musllinux_1_2_aarch64.whl", hash = "sha256:8eddfb4d203a237da6f3cc8a540dad0517d274b5a1e9e636fd8d2c79b5c1d397", size = 7199683, upload-time = "2025-10-21T16:21:06.195Z" },
-    { url = "https://files.pythonhosted.org/packages/91/d3/4b1f2bf16ed52ce0b508161df3a2d186e4935379a159a834cb4a7d687429/grpcio-1.76.0-cp311-cp311-musllinux_1_2_i686.whl", hash = "sha256:32483fe2aab2c3794101c2a159070584e5db11d0aa091b2c0ea9c4fc43d0d749", size = 8163109, upload-time = "2025-10-21T16:21:08.498Z" },
-    { url = "https://files.pythonhosted.org/packages/5c/61/d9043f95f5f4cf085ac5dd6137b469d41befb04bd80280952ffa2a4c3f12/grpcio-1.76.0-cp311-cp311-musllinux_1_2_x86_64.whl", hash = "sha256:dcfe41187da8992c5f40aa8c5ec086fa3672834d2be57a32384c08d5a05b4c00", size = 7626676, upload-time = "2025-10-21T16:21:10.693Z" },
-    { url = "https://files.pythonhosted.org/packages/36/95/fd9a5152ca02d8881e4dd419cdd790e11805979f499a2e5b96488b85cf27/grpcio-1.76.0-cp311-cp311-win32.whl", hash = "sha256:2107b0c024d1b35f4083f11245c0e23846ae64d02f40b2b226684840260ed054", size = 3997688, upload-time = "2025-10-21T16:21:12.746Z" },
-    { url = "https://files.pythonhosted.org/packages/60/9c/5c359c8d4c9176cfa3c61ecd4efe5affe1f38d9bae81e81ac7186b4c9cc8/grpcio-1.76.0-cp311-cp311-win_amd64.whl", hash = "sha256:522175aba7af9113c48ec10cc471b9b9bd4f6ceb36aeb4544a8e2c80ed9d252d", size = 4709315, upload-time = "2025-10-21T16:21:15.26Z" },
-    { url = "https://files.pythonhosted.org/packages/bf/05/8e29121994b8d959ffa0afd28996d452f291b48cfc0875619de0bde2c50c/grpcio-1.76.0-cp312-cp312-linux_armv7l.whl", hash = "sha256:81fd9652b37b36f16138611c7e884eb82e0cec137c40d3ef7c3f9b3ed00f6ed8", size = 5799718, upload-time = "2025-10-21T16:21:17.939Z" },
-    { url = "https://files.pythonhosted.org/packages/d9/75/11d0e66b3cdf998c996489581bdad8900db79ebd83513e45c19548f1cba4/grpcio-1.76.0-cp312-cp312-macosx_11_0_universal2.whl", hash = "sha256:04bbe1bfe3a68bbfd4e52402ab7d4eb59d72d02647ae2042204326cf4bbad280", size = 11825627, upload-time = "2025-10-21T16:21:20.466Z" },
-    { url = "https://files.pythonhosted.org/packages/28/50/2f0aa0498bc188048f5d9504dcc5c2c24f2eb1a9337cd0fa09a61a2e75f0/grpcio-1.76.0-cp312-cp312-manylinux2014_aarch64.manylinux_2_17_aarch64.whl", hash = "sha256:d388087771c837cdb6515539f43b9d4bf0b0f23593a24054ac16f7a960be16f4", size = 6359167, upload-time = "2025-10-21T16:21:23.122Z" },
-    { url = "https://files.pythonhosted.org/packages/66/e5/bbf0bb97d29ede1d59d6588af40018cfc345b17ce979b7b45424628dc8bb/grpcio-1.76.0-cp312-cp312-manylinux2014_i686.manylinux_2_17_i686.whl", hash = "sha256:9f8f757bebaaea112c00dba718fc0d3260052ce714e25804a03f93f5d1c6cc11", size = 7044267, upload-time = "2025-10-21T16:21:25.995Z" },
-    { url = "https://files.pythonhosted.org/packages/f5/86/f6ec2164f743d9609691115ae8ece098c76b894ebe4f7c94a655c6b03e98/grpcio-1.76.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl", hash = "sha256:980a846182ce88c4f2f7e2c22c56aefd515daeb36149d1c897f83cf57999e0b6", size = 6573963, upload-time = "2025-10-21T16:21:28.631Z" },
-    { url = "https://files.pythonhosted.org/packages/60/bc/8d9d0d8505feccfdf38a766d262c71e73639c165b311c9457208b56d92ae/grpcio-1.76.0-cp312-cp312-musllinux_1_2_aarch64.whl", hash = "sha256:f92f88e6c033db65a5ae3d97905c8fea9c725b63e28d5a75cb73b49bda5024d8", size = 7164484, upload-time = "2025-10-21T16:21:30.837Z" },
-    { url = "https://files.pythonhosted.org/packages/67/e6/5d6c2fc10b95edf6df9b8f19cf10a34263b7fd48493936fffd5085521292/grpcio-1.76.0-cp312-cp312-musllinux_1_2_i686.whl", hash = "sha256:4baf3cbe2f0be3289eb68ac8ae771156971848bb8aaff60bad42005539431980", size = 8127777, upload-time = "2025-10-21T16:21:33.577Z" },
-    { url = "https://files.pythonhosted.org/packages/3f/c8/dce8ff21c86abe025efe304d9e31fdb0deaaa3b502b6a78141080f206da0/grpcio-1.76.0-cp312-cp312-musllinux_1_2_x86_64.whl", hash = "sha256:615ba64c208aaceb5ec83bfdce7728b80bfeb8be97562944836a7a0a9647d882", size = 7594014, upload-time = "2025-10-21T16:21:41.882Z" },
-    { url = "https://files.pythonhosted.org/packages/e0/42/ad28191ebf983a5d0ecef90bab66baa5a6b18f2bfdef9d0a63b1973d9f75/grpcio-1.76.0-cp312-cp312-win32.whl", hash = "sha256:45d59a649a82df5718fd9527ce775fd66d1af35e6d31abdcdc906a49c6822958", size = 3984750, upload-time = "2025-10-21T16:21:44.006Z" },
-    { url = "https://files.pythonhosted.org/packages/9e/00/7bd478cbb851c04a48baccaa49b75abaa8e4122f7d86da797500cccdd771/grpcio-1.76.0-cp312-cp312-win_amd64.whl", hash = "sha256:c088e7a90b6017307f423efbb9d1ba97a22aa2170876223f9709e9d1de0b5347", size = 4704003, upload-time = "2025-10-21T16:21:46.244Z" },
+    { url = "https://files.pythonhosted.org/packages/59/2c/b60d6ea1f63a20a8d09c6db95c4f9a16497913fb3048ce0990ed81aeeca0/grpcio-1.67.1-cp311-cp311-linux_armv7l.whl", hash = "sha256:7818c0454027ae3384235a65210bbf5464bd715450e30a3d40385453a85a70cb", size = 5119075, upload-time = "2024-10-29T06:24:04.696Z" },
+    { url = "https://files.pythonhosted.org/packages/b3/9a/e1956f7ca582a22dd1f17b9e26fcb8229051b0ce6d33b47227824772feec/grpcio-1.67.1-cp311-cp311-macosx_10_9_universal2.whl", hash = "sha256:ea33986b70f83844cd00814cee4451055cd8cab36f00ac64a31f5bb09b31919e", size = 11009159, upload-time = "2024-10-29T06:24:07.781Z" },
+    { url = "https://files.pythonhosted.org/packages/43/a8/35fbbba580c4adb1d40d12e244cf9f7c74a379073c0a0ca9d1b5338675a1/grpcio-1.67.1-cp311-cp311-manylinux_2_17_aarch64.whl", hash = "sha256:c7a01337407dd89005527623a4a72c5c8e2894d22bead0895306b23c6695698f", size = 5629476, upload-time = "2024-10-29T06:24:11.444Z" },
+    { url = "https://files.pythonhosted.org/packages/77/c9/864d336e167263d14dfccb4dbfa7fce634d45775609895287189a03f1fc3/grpcio-1.67.1-cp311-cp311-manylinux_2_17_i686.manylinux2014_i686.whl", hash = "sha256:80b866f73224b0634f4312a4674c1be21b2b4afa73cb20953cbbb73a6b36c3cc", size = 6239901, upload-time = "2024-10-29T06:24:14.2Z" },
+    { url = "https://files.pythonhosted.org/packages/f7/1e/0011408ebabf9bd69f4f87cc1515cbfe2094e5a32316f8714a75fd8ddfcb/grpcio-1.67.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl", hash = "sha256:f9fff78ba10d4250bfc07a01bd6254a6d87dc67f9627adece85c0b2ed754fa96", size = 5881010, upload-time = "2024-10-29T06:24:17.451Z" },
+    { url = "https://files.pythonhosted.org/packages/b4/7d/fbca85ee9123fb296d4eff8df566f458d738186d0067dec6f0aa2fd79d71/grpcio-1.67.1-cp311-cp311-musllinux_1_1_i686.whl", hash = "sha256:8a23cbcc5bb11ea7dc6163078be36c065db68d915c24f5faa4f872c573bb400f", size = 6580706, upload-time = "2024-10-29T06:24:20.038Z" },
+    { url = "https://files.pythonhosted.org/packages/75/7a/766149dcfa2dfa81835bf7df623944c1f636a15fcb9b6138ebe29baf0bc6/grpcio-1.67.1-cp311-cp311-musllinux_1_1_x86_64.whl", hash = "sha256:1a65b503d008f066e994f34f456e0647e5ceb34cfcec5ad180b1b44020ad4970", size = 6161799, upload-time = "2024-10-29T06:24:22.604Z" },
+    { url = "https://files.pythonhosted.org/packages/09/13/5b75ae88810aaea19e846f5380611837de411181df51fd7a7d10cb178dcb/grpcio-1.67.1-cp311-cp311-win32.whl", hash = "sha256:e29ca27bec8e163dca0c98084040edec3bc49afd10f18b412f483cc68c712744", size = 3616330, upload-time = "2024-10-29T06:24:25.775Z" },
+    { url = "https://files.pythonhosted.org/packages/aa/39/38117259613f68f072778c9638a61579c0cfa5678c2558706b10dd1d11d3/grpcio-1.67.1-cp311-cp311-win_amd64.whl", hash = "sha256:786a5b18544622bfb1e25cc08402bd44ea83edfb04b93798d85dca4d1a0b5be5", size = 4354535, upload-time = "2024-10-29T06:24:28.614Z" },
+    { url = "https://files.pythonhosted.org/packages/6e/25/6f95bd18d5f506364379eabc0d5874873cc7dbdaf0757df8d1e82bc07a88/grpcio-1.67.1-cp312-cp312-linux_armv7l.whl", hash = "sha256:267d1745894200e4c604958da5f856da6293f063327cb049a51fe67348e4f953", size = 5089809, upload-time = "2024-10-29T06:24:31.24Z" },
+    { url = "https://files.pythonhosted.org/packages/10/3f/d79e32e5d0354be33a12db2267c66d3cfeff700dd5ccdd09fd44a3ff4fb6/grpcio-1.67.1-cp312-cp312-macosx_10_9_universal2.whl", hash = "sha256:85f69fdc1d28ce7cff8de3f9c67db2b0ca9ba4449644488c1e0303c146135ddb", size = 10981985, upload-time = "2024-10-29T06:24:34.942Z" },
+    { url = "https://files.pythonhosted.org/packages/21/f2/36fbc14b3542e3a1c20fb98bd60c4732c55a44e374a4eb68f91f28f14aab/grpcio-1.67.1-cp312-cp312-manylinux_2_17_aarch64.whl", hash = "sha256:f26b0b547eb8d00e195274cdfc63ce64c8fc2d3e2d00b12bf468ece41a0423a0", size = 5588770, upload-time = "2024-10-29T06:24:38.145Z" },
+    { url = "https://files.pythonhosted.org/packages/0d/af/bbc1305df60c4e65de8c12820a942b5e37f9cf684ef5e49a63fbb1476a73/grpcio-1.67.1-cp312-cp312-manylinux_2_17_i686.manylinux2014_i686.whl", hash = "sha256:4422581cdc628f77302270ff839a44f4c24fdc57887dc2a45b7e53d8fc2376af", size = 6214476, upload-time = "2024-10-29T06:24:41.006Z" },
+    { url = "https://files.pythonhosted.org/packages/92/cf/1d4c3e93efa93223e06a5c83ac27e32935f998bc368e276ef858b8883154/grpcio-1.67.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl", hash = "sha256:1d7616d2ded471231c701489190379e0c311ee0a6c756f3c03e6a62b95a7146e", size = 5850129, upload-time = "2024-10-29T06:24:43.553Z" },
+    { url = "https://files.pythonhosted.org/packages/ae/ca/26195b66cb253ac4d5ef59846e354d335c9581dba891624011da0e95d67b/grpcio-1.67.1-cp312-cp312-musllinux_1_1_i686.whl", hash = "sha256:8a00efecde9d6fcc3ab00c13f816313c040a28450e5e25739c24f432fc6d3c75", size = 6568489, upload-time = "2024-10-29T06:24:46.453Z" },
+    { url = "https://files.pythonhosted.org/packages/d1/94/16550ad6b3f13b96f0856ee5dfc2554efac28539ee84a51d7b14526da985/grpcio-1.67.1-cp312-cp312-musllinux_1_1_x86_64.whl", hash = "sha256:699e964923b70f3101393710793289e42845791ea07565654ada0969522d0a38", size = 6149369, upload-time = "2024-10-29T06:24:49.112Z" },
+    { url = "https://files.pythonhosted.org/packages/33/0d/4c3b2587e8ad7f121b597329e6c2620374fccbc2e4e1aa3c73ccc670fde4/grpcio-1.67.1-cp312-cp312-win32.whl", hash = "sha256:4e7b904484a634a0fff132958dabdb10d63e0927398273917da3ee103e8d1f78", size = 3599176, upload-time = "2024-10-29T06:24:51.443Z" },
+    { url = "https://files.pythonhosted.org/packages/7d/36/0c03e2d80db69e2472cf81c6123aa7d14741de7cf790117291a703ae6ae1/grpcio-1.67.1-cp312-cp312-win_amd64.whl", hash = "sha256:5721e66a594a6c4204458004852719b38f3d5522082be9061d6510b455c90afc", size = 4346574, upload-time = "2024-10-29T06:24:54.587Z" },
 ]

 [[package]]
 name = "grpcio-status"
-version = "1.76.0"
+version = "1.67.1"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
    { name = "googleapis-common-protos" },
    { name = "grpcio" },
    { name = "protobuf" },
 ]
-sdist = { url = "https://files.pythonhosted.org/packages/3f/46/e9f19d5be65e8423f886813a2a9d0056ba94757b0c5007aa59aed1a961fa/grpcio_status-1.76.0.tar.gz", hash = "sha256:25fcbfec74c15d1a1cb5da3fab8ee9672852dc16a5a9eeb5baf7d7a9952943cd", size = 13679, upload-time = "2025-10-21T16:28:52.545Z" }
+sdist = { url = "https://files.pythonhosted.org/packages/be/c7/fe0e79a80ac6346e0c6c0a24e9e3cbc3ae1c2a009acffb59eab484a6f69b/grpcio_status-1.67.1.tar.gz", hash = "sha256:2bf38395e028ceeecfd8866b081f61628114b384da7d51ae064ddc8d766a5d11", size = 13673, upload-time = "2024-10-29T06:30:21.787Z" }
 wheels = [
-    { url = "https://files.pythonhosted.org/packages/8c/cc/27ba60ad5a5f2067963e6a858743500df408eb5855e98be778eaef8c9b02/grpcio_status-1.76.0-py3-none-any.whl", hash = "sha256:380568794055a8efbbd8871162df92012e0228a5f6dffaf57f2a00c534103b18", size = 14425, upload-time = "2025-10-21T16:28:40.853Z" },
+    { url = "https://files.pythonhosted.org/packages/05/18/56999a1da3577d8ccc8698a575d6638e15fe25650cc88b2ce0a087f180b9/grpcio_status-1.67.1-py3-none-any.whl", hash = "sha256:16e6c085950bdacac97c779e6a502ea671232385e6e37f258884d6883392c2bd", size = 14427, upload-time = "2024-10-29T06:27:38.228Z" },
 ]

 [[package]]
@@ -2606,12 +2601,13 @@ wheels = [

 [[package]]
 name = "litellm"
-version = "1.79.0"
+version = "1.80.10"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
    { name = "aiohttp" },
    { name = "click" },
    { name = "fastuuid" },
+    { name = "grpcio" },
    { name = "httpx" },
    { name = "importlib-metadata" },
    { name = "jinja2" },
@@ -2622,9 +2618,9 @@ dependencies = [
    { name = "tiktoken" },
    { name = "tokenizers" },
 ]
-sdist = { url = "https://files.pythonhosted.org/packages/90/52/2853febf8ea3072d8c76e3ee22d3168e6a4f97ebd8f21905e815a381c58b/litellm-1.79.0.tar.gz", hash = "sha256:f58bb751222ee0e1ffecb2d44987999f9fa94130a6d1a478e19a3e5e8b9a7414", size = 11146414, upload-time = "2025-10-26T01:20:55.247Z" }
+sdist = { url = "https://files.pythonhosted.org/packages/dd/44/0aaa7449e7c4aa05668ec03f1f68a01b1e476591071d9659a68db19371a2/litellm-1.80.10.tar.gz", hash = "sha256:4a4aff7558945c2f7e5c6523e67c1b5525a46b10b0e1ad6b8f847cb13b16779e", size = 12764777, upload-time = "2025-12-14T02:07:05.362Z" }
 wheels = [
-    { url = "https://files.pythonhosted.org/packages/c5/26/a5fef380af5d6a2f47cda979d88561af1e1a8efc07da2ef72c0e8cb6842c/litellm-1.79.0-py3-none-any.whl", hash = "sha256:93414b6ed55fa9e3268e8cb3100faab960c9ecd18173129ccd85471cf3db4f1a", size = 10197864, upload-time = "2025-10-26T01:20:51.75Z" },
+    { url = "https://files.pythonhosted.org/packages/8c/a9/4814b6aa58f6705df2831eaadeb5bc8240684c8c9d5964245212f85049d1/litellm-1.80.10-py3-none-any.whl", hash = "sha256:9b3e561efaba0eb1291cb1555d3dcb7283cf7f3cb65aadbcdb42e2a8765898c8", size = 11264240, upload-time = "2025-12-14T02:07:02.414Z" },
 ]

 [[package]]
@@ -3588,7 +3584,7 @@ requires-dist = [
    { name = "langchainhub", marker = "extra == 'backend'", specifier = "==0.1.21" },
    { name = "langfuse", marker = "extra == 'backend'", specifier = "==3.10.0" },
    { name = "lazy-imports", marker = "extra == 'backend'", specifier = "==1.0.1" },
-    { name = "litellm", specifier = "==1.79.0" },
+    { name = "litellm", specifier = "==1.80.10" },
    { name = "lxml", marker = "extra == 'backend'", specifier = "==5.3.0" },
    { name = "mako", marker = "extra == 'backend'", specifier = "==1.2.4" },
    { name = "manygo", marker = "extra == 'dev'", specifier = "==0.2.0" },
@@ -3604,7 +3600,7 @@ requires-dist = [
    { name = "oauthlib", marker = "extra == 'backend'", specifier = "==3.2.2" },
    { name = "office365-rest-python-client", marker = "extra == 'backend'", specifier = "==2.5.9" },
    { name = "onyx-devtools", marker = "extra == 'dev'", specifier = "==0.1.0" },
-    { name = "openai", specifier = "==2.6.1" },
+    { name = "openai", specifier = "==2.8.1" },
    { name = "openapi-generator-cli", marker = "extra == 'dev'", specifier = "==7.17.0" },
    { name = "openinference-instrumentation", marker = "extra == 'backend'", specifier = "==0.1.42" },
    { name = "openpyxl", marker = "extra == 'backend'", specifier = "==3.0.10" },
@@ -3720,7 +3716,7 @@ wheels = [

 [[package]]
 name = "openai"
-version = "2.6.1"
+version = "2.8.1"
 source = { registry = "https://pypi.org/simple" }
 dependencies = [
    { name = "anyio" },
@@ -3732,9 +3728,9 @@ dependencies = [
    { name = "tqdm" },
    { name = "typing-extensions" },
 ]
-sdist = { url = "https://files.pythonhosted.org/packages/c4/44/303deb97be7c1c9b53118b52825cbd1557aeeff510f3a52566b1fa66f6a2/openai-2.6.1.tar.gz", hash = "sha256:27ae704d190615fca0c0fc2b796a38f8b5879645a3a52c9c453b23f97141bb49", size = 593043, upload-time = "2025-10-24T13:29:52.79Z" }
+sdist = { url = "https://files.pythonhosted.org/packages/d5/e4/42591e356f1d53c568418dc7e30dcda7be31dd5a4d570bca22acb0525862/openai-2.8.1.tar.gz", hash = "sha256:cb1b79eef6e809f6da326a7ef6038719e35aa944c42d081807bfa1be8060f15f", size = 602490, upload-time = "2025-11-17T22:39:59.549Z" }
 wheels = [
-    { url = "https://files.pythonhosted.org/packages/15/0e/331df43df633e6105ff9cf45e0ce57762bd126a45ac16b25a43f6738d8a2/openai-2.6.1-py3-none-any.whl", hash = "sha256:904e4b5254a8416746a2f05649594fa41b19d799843cd134dac86167e094edef", size = 1005551, upload-time = "2025-10-24T13:29:50.973Z" },
+    { url = "https://files.pythonhosted.org/packages/55/4f/dbc0c124c40cb390508a82770fb9f6e3ed162560181a85089191a851c59a/openai-2.8.1-py3-none-any.whl", hash = "sha256:c6c3b5a04994734386e8dad3c00a393f56d3b68a27cd2e8acae91a59e4122463", size = 1022688, upload-time = "2025-11-17T22:39:57.675Z" },
 ]

 [[package]]
@@ -4267,17 +4263,16 @@ wheels = [

 [[package]]
 name = "protobuf"
-version = "6.33.1"
+version = "5.29.5"
 source = { registry = "https://pypi.org/simple" }
-sdist = { url = "https://files.pythonhosted.org/packages/0a/03/a1440979a3f74f16cab3b75b0da1a1a7f922d56a8ddea96092391998edc0/protobuf-6.33.1.tar.gz", hash = "sha256:97f65757e8d09870de6fd973aeddb92f85435607235d20b2dfed93405d00c85b", size = 443432, upload-time = "2025-11-13T16:44:18.895Z" }
+sdist = { url = "https://files.pythonhosted.org/packages/43/29/d09e70352e4e88c9c7a198d5645d7277811448d76c23b00345670f7c8a38/protobuf-5.29.5.tar.gz", hash = "sha256:bc1463bafd4b0929216c35f437a8e28731a2b7fe3d98bb77a600efced5a15c84", size = 425226, upload-time = "2025-05-28T23:51:59.82Z" }
 wheels = [
-    { url = "https://files.pythonhosted.org/packages/06/f1/446a9bbd2c60772ca36556bac8bfde40eceb28d9cc7838755bc41e001d8f/protobuf-6.33.1-cp310-abi3-win32.whl", hash = "sha256:f8d3fdbc966aaab1d05046d0240dd94d40f2a8c62856d41eaa141ff64a79de6b", size = 425593, upload-time = "2025-11-13T16:44:06.275Z" },
-    { url = "https://files.pythonhosted.org/packages/a6/79/8780a378c650e3df849b73de8b13cf5412f521ca2ff9b78a45c247029440/protobuf-6.33.1-cp310-abi3-win_amd64.whl", hash = "sha256:923aa6d27a92bf44394f6abf7ea0500f38769d4b07f4be41cb52bd8b1123b9ed", size = 436883, upload-time = "2025-11-13T16:44:09.222Z" },
-    { url = "https://files.pythonhosted.org/packages/cd/93/26213ff72b103ae55bb0d73e7fb91ea570ef407c3ab4fd2f1f27cac16044/protobuf-6.33.1-cp39-abi3-macosx_10_9_universal2.whl", hash = "sha256:fe34575f2bdde76ac429ec7b570235bf0c788883e70aee90068e9981806f2490", size = 427522, upload-time = "2025-11-13T16:44:10.475Z" },
-    { url = "https://files.pythonhosted.org/packages/c2/32/df4a35247923393aa6b887c3b3244a8c941c32a25681775f96e2b418f90e/protobuf-6.33.1-cp39-abi3-manylinux2014_aarch64.whl", hash = "sha256:f8adba2e44cde2d7618996b3fc02341f03f5bc3f2748be72dc7b063319276178", size = 324445, upload-time = "2025-11-13T16:44:11.869Z" },
-    { url = "https://files.pythonhosted.org/packages/8e/d0/d796e419e2ec93d2f3fa44888861c3f88f722cde02b7c3488fcc6a166820/protobuf-6.33.1-cp39-abi3-manylinux2014_s390x.whl", hash = "sha256:0f4cf01222c0d959c2b399142deb526de420be8236f22c71356e2a544e153c53", size = 339161, upload-time = "2025-11-13T16:44:12.778Z" },
-    { url = "https://files.pythonhosted.org/packages/1d/2a/3c5f05a4af06649547027d288747f68525755de692a26a7720dced3652c0/protobuf-6.33.1-cp39-abi3-manylinux2014_x86_64.whl", hash = "sha256:8fd7d5e0eb08cd5b87fd3df49bc193f5cfd778701f47e11d127d0afc6c39f1d1", size = 323171, upload-time = "2025-11-13T16:44:14.035Z" },
-    { url = "https://files.pythonhosted.org/packages/08/b4/46310463b4f6ceef310f8348786f3cff181cea671578e3d9743ba61a459e/protobuf-6.33.1-py3-none-any.whl", hash = "sha256:d595a9fd694fdeb061a62fbe10eb039cc1e444df81ec9bb70c7fc59ebcb1eafa", size = 170477, upload-time = "2025-11-13T16:44:17.633Z" },
+    { url = "https://files.pythonhosted.org/packages/5f/11/6e40e9fc5bba02988a214c07cf324595789ca7820160bfd1f8be96e48539/protobuf-5.29.5-cp310-abi3-win32.whl", hash = "sha256:3f1c6468a2cfd102ff4703976138844f78ebd1fb45f49011afc5139e9e283079", size = 422963, upload-time = "2025-05-28T23:51:41.204Z" },
+    { url = "https://files.pythonhosted.org/packages/81/7f/73cefb093e1a2a7c3ffd839e6f9fcafb7a427d300c7f8aef9c64405d8ac6/protobuf-5.29.5-cp310-abi3-win_amd64.whl", hash = "sha256:3f76e3a3675b4a4d867b52e4a5f5b78a2ef9565549d4037e06cf7b0942b1d3fc", size = 434818, upload-time = "2025-05-28T23:51:44.297Z" },
+    { url = "https://files.pythonhosted.org/packages/dd/73/10e1661c21f139f2c6ad9b23040ff36fee624310dc28fba20d33fdae124c/protobuf-5.29.5-cp38-abi3-macosx_10_9_universal2.whl", hash = "sha256:e38c5add5a311f2a6eb0340716ef9b039c1dfa428b28f25a7838ac329204a671", size = 418091, upload-time = "2025-05-28T23:51:45.907Z" },
+    { url = "https://files.pythonhosted.org/packages/6c/04/98f6f8cf5b07ab1294c13f34b4e69b3722bb609c5b701d6c169828f9f8aa/protobuf-5.29.5-cp38-abi3-manylinux2014_aarch64.whl", hash = "sha256:fa18533a299d7ab6c55a238bf8629311439995f2e7eca5caaff08663606e9015", size = 319824, upload-time = "2025-05-28T23:51:47.545Z" },
+    { url = "https://files.pythonhosted.org/packages/85/e4/07c80521879c2d15f321465ac24c70efe2381378c00bf5e56a0f4fbac8cd/protobuf-5.29.5-cp38-abi3-manylinux2014_x86_64.whl", hash = "sha256:63848923da3325e1bf7e9003d680ce6e14b07e55d0473253a690c3a8b8fd6e61", size = 319942, upload-time = "2025-05-28T23:51:49.11Z" },
+    { url = "https://files.pythonhosted.org/packages/7e/cc/7e77861000a0691aeea8f4566e5d3aa716f2b1dece4a24439437e41d3d25/protobuf-5.29.5-py3-none-any.whl", hash = "sha256:6cf42630262c59b2d8de33954443d94b746c952b01434fc58a417fdbd2e84bd5", size = 172823, upload-time = "2025-05-28T23:51:58.157Z" },
 ]

 [[package]]
Author	SHA1	Message	Date
Wenxi Onyx	c7a80e5bd0	monkeypatch litellm bugged transformation	2025-12-15 15:00:50 -08:00
Wenxi	6d20ff0b1d	Merge branch 'main' into feature/llm-session-tracking	2025-12-15 12:32:33 -10:00
Wenxi Onyx	5d91ea1f47	add llm user identity to deep research loop	2025-12-15 14:17:25 -08:00
Wenxi Onyx	c0e8c85e54	.	2025-12-15 14:08:51 -08:00
Wenxi Onyx	2a5c41a69d	.	2025-12-15 14:03:31 -08:00
Wenxi Onyx	e573a94145	.	2025-12-15 13:59:54 -08:00
Emerson Gomes	57fe9e305f	update uv.lock	2025-12-15 14:10:01 -06:00
Emerson Gomes	310679b00f	Reverted unintended diffs due to bad merges	2025-12-15 13:45:25 -06:00
Emerson Gomes	616e62aa89	Merge branch 'main' into feature/llm-session-tracking	2025-12-15 13:15:48 -06:00
Emerson Gomes	59e7e896fc	Merge branch 'main' into feature/llm-session-tracking	2025-12-14 20:02:39 -06:00
Emerson Gomes	6b2090977b	Truncate LLM user id to 64 chars	2025-12-14 11:01:24 -06:00
Emerson Gomes	b1111ed5fe	Add tests for user identity metadata gating	2025-12-14 10:57:35 -06:00
Emerson Gomes	8afc53cfe8	Simplify metadata handling in litellm args	2025-12-14 10:49:18 -06:00
Emerson Gomes	e58a7c25bf	Align LLM parameter order	2025-12-14 10:43:43 -06:00
Emerson Gomes	9312ed3ddb	Use Pydantic BaseModel for LLMUserIdentity	2025-12-14 10:39:58 -06:00
Emerson Gomes	5608490aca	Update backend/onyx/llm/interfaces.py Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>	2025-12-14 10:36:10 -06:00
Emerson Gomes	1c1ca83206	Update backend/onyx/llm/chat_llm.py Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>	2025-12-14 10:34:33 -06:00
Emerson Gomes	745d81c637	Update backend/requirements/ee.txt Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>	2025-12-14 10:33:27 -06:00
Emerson Gomes	f296d35db0	Update backend/requirements/model_server.txt Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>	2025-12-14 10:33:15 -06:00
Emerson Gomes	673d703e33	Merge branch 'main' into feature/llm-session-tracking # Conflicts: # backend/onyx/chat/llm_step.py # backend/onyx/llm/chat_llm.py # backend/onyx/llm/interfaces.py	2025-12-14 09:48:09 -06:00
Emerson Gomes	664a8683cd	bump litellm	2025-12-14 09:31:39 -06:00
Emerson Gomes	208bf0de56	Fix LLM user identity handling	2025-12-07 15:46:25 -06:00
Emerson Gomes	88292d0d7f	merge main	2025-12-07 11:14:43 -06:00
Emerson Gomes	da9bf60e78	Merge branch 'main' into feature/llm-session-tracking	2025-12-03 19:10:18 -06:00
Emerson Gomes	68aa98effd	Bump LiteLLM	2025-12-03 19:03:44 -06:00
Emerson Gomes	5666c0f561	Merge remote-tracking branch 'origin/main' into feature/llm-session-tracking	2025-12-03 17:47:47 -06:00
Emerson Gomes	4c1ba7146f	Revert "Bump litellm to 1.80.5 for user/session tracking" This reverts commit `8bcea996ee`.	2025-12-03 17:37:57 -06:00
Emerson Gomes	077da93a34	Simplify LLM metadata flag and remove legacy alias	2025-12-03 17:33:05 -06:00
Emerson Gomes	88f7efd3e2	Standardize on user_identity naming	2025-12-03 17:26:04 -06:00
Emerson Gomes	c0103de3fa	Introduce LLMUserIdentity for user/session tracking	2025-12-03 17:24:55 -06:00
Emerson Gomes	8bcea996ee	Bump litellm to 1.80.5 for user/session tracking	2025-12-03 13:49:08 -06:00
Emerson Gomes	2ad221f930	Add user/session tracking to LLM calls	2025-12-03 13:38:00 -06:00