gptme
diff --git a/‎gptme/hooks/form_autodetect.py‎
Lines changed: 1 addition & 1 deletion b/‎gptme/hooks/form_autodetect.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎gptme/llm/__init__.py‎
Lines changed: 48 additions & 20 deletions b/‎gptme/llm/__init__.py‎
Lines changed: 48 additions & 20 deletions
diff --git a/‎gptme/llm/llm_anthropic.py‎
Lines changed: 27 additions & 8 deletions b/‎gptme/llm/llm_anthropic.py‎
Lines changed: 27 additions & 8 deletions
diff --git a/‎gptme/llm/llm_openai.py‎
Lines changed: 26 additions & 9 deletions b/‎gptme/llm/llm_openai.py‎
Lines changed: 26 additions & 9 deletions
@@ -123,7 +123,7 @@ def _parse_options_with_llm(content: str) -> dict | None:
                 "user", PARSE_PROMPT.format(message=content[:2000])
             )  # Limit context
         ]
-        response = _chat_complete(messages, model=model, tools=None)
+        response, _metadata = _chat_complete(messages, model=model, tools=None)
 
         # Parse JSON from response
         import json
 
@@ -2,7 +2,7 @@
 import shutil
 import sys
 import time
-from collections.abc import Iterator
+from collections.abc import Generator, Iterator
 from functools import lru_cache
 from pathlib import Path
 from typing import cast
@@ -11,7 +11,7 @@
 
 from ..config import Config, get_config
 from ..constants import prompt_assistant
-from ..message import Message, format_msgs, len_tokens
+from ..message import Message, MessageMetadata, format_msgs, len_tokens
 from ..telemetry import trace_function
 from ..tools import ToolSpec, ToolUse
 from ..util import console
@@ -99,12 +99,12 @@ def reply(
         )
     else:
         rprint(f"{prompt_assistant(agent_name)}: Thinking...", end="\r")
-        response = _chat_complete(
+        response, metadata = _chat_complete(
             generation_msgs, model, tools, output_schema=output_schema
         )
         rprint(" " * shutil.get_terminal_size().columns, end="\r")
         rprint(f"{prompt_assistant(agent_name)}: {response}")
-        return Message("assistant", response)
+        return Message("assistant", response, metadata=metadata)
 
 
 def get_provider_from_model(model: str) -> Provider:
@@ -141,7 +141,7 @@ def _chat_complete(
     tools: list[ToolSpec] | None,
     output_schema: type | None = None,
     max_retries: int = 3,
-) -> str:
+) -> tuple[str, MessageMetadata | None]:
     from pydantic import BaseModel, ValidationError
 
     provider = get_provider_from_model(model)
@@ -156,14 +156,17 @@ def _chat_complete(
         )
 
     # Validation-only fallback for unsupported providers
+    metadata: MessageMetadata | None = None
     if output_schema is not None:
         logger = logging.getLogger(__name__)
         for attempt in range(max_retries):
             # Generate without constraints
             if provider in PROVIDERS_OPENAI:
-                response = chat_openai(messages, model, tools)
+                response, metadata = chat_openai(messages, model, tools)
             elif provider == "anthropic":
-                response = chat_anthropic(messages, _get_base_model(model), tools)
+                response, metadata = chat_anthropic(
+                    messages, _get_base_model(model), tools
+                )
             else:
                 raise ValueError(f"Unsupported provider: {provider}")
 
@@ -173,7 +176,7 @@ def _chat_complete(
                     output_schema, BaseModel
                 ):
                     output_schema.model_validate_json(response)
-                return response  # Validation succeeded
+                return response, metadata  # Validation succeeded
             except ValidationError as e:
                 if attempt < max_retries - 1:
                     # Add validation error to context for retry
@@ -191,7 +194,7 @@ def _chat_complete(
                     logger.warning(
                         f"Failed to validate response after {max_retries} attempts: {e}"
                     )
-                    return response
+                    return response, metadata
 
     # No schema requested, generate normally
     if provider in PROVIDERS_OPENAI:
@@ -202,21 +205,44 @@ def _chat_complete(
         raise ValueError(f"Unsupported provider: {provider}")
 
 
+class _StreamWithMetadata:
+    """Wrapper that captures a generator's return value (metadata)."""
+
+    def __init__(self, gen: Generator[str, None, MessageMetadata | None], model: str):
+        self.gen = gen
+        self.model = model
+        self.metadata: MessageMetadata | None = None
+
+    def __iter__(self) -> Iterator[str]:
+        try:
+            while True:
+                yield next(self.gen)
+        except StopIteration as e:
+            self.metadata = e.value
+            # Ensure model is set in metadata even if provider didn't include it
+            if self.metadata is None:
+                self.metadata = {"model": self.model}
+            elif "model" not in self.metadata:
+                self.metadata["model"] = self.model
+
+
 @trace_function(name="llm.stream", attributes={"component": "llm"})
 def _stream(
     messages: list[Message],
     model: str,
     tools: list[ToolSpec] | None,
     output_schema: type | None = None,
-) -> Iterator[str]:
+) -> _StreamWithMetadata:
     provider = get_provider_from_model(model)
     # Custom providers are OpenAI-compatible, so route them through the OpenAI path
     if provider in PROVIDERS_OPENAI or is_custom_provider(provider):
-        return stream_openai(messages, model, tools, output_schema=output_schema)
+        gen = stream_openai(messages, model, tools, output_schema=output_schema)
+        return _StreamWithMetadata(gen, model)
     elif provider == "anthropic":
-        return stream_anthropic(
+        gen = stream_anthropic(
             messages, _get_base_model(model), tools, output_schema=output_schema
         )
+        return _StreamWithMetadata(gen, model)
     else:
         # Note: Validation-only fallback for streaming is complex
         # For now, unsupported providers don't support output_schema in streaming mode
@@ -247,12 +273,12 @@ def print_clear(length: int = 0):
     start_time = time.time()
     first_token_time = None
     are_thinking = False
+
+    # Create stream wrapper to capture metadata
+    stream = _stream(messages, model, tools, output_schema=output_schema)
+
     try:
-        for char in (
-            char
-            for chunk in _stream(messages, model, tools, output_schema=output_schema)
-            for char in chunk
-        ):
+        for char in (char for chunk in stream for char in chunk):
             if not output:  # first character
                 first_token_time = time.time()
                 print_clear()
@@ -310,7 +336,9 @@ def print_clear(length: int = 0):
                     break
 
     except KeyboardInterrupt:
-        return Message("assistant", output + "... ^C Interrupted")
+        return Message(
+            "assistant", output + "... ^C Interrupted", metadata=stream.metadata
+        )
     finally:
         print_clear()
         if first_token_time:
@@ -322,7 +350,7 @@ def print_clear(length: int = 0):
                 f"tok/s: {len_tokens(output, model)/(end_time - first_token_time):.1f})"
             )
 
-    return Message("assistant", output)
+    return Message("assistant", output, metadata=stream.metadata)
 
 
 @trace_function(name="llm.summarize", attributes={"component": "llm"})
@@ -349,7 +377,7 @@ def _summarize_str(content: str) -> str:
             f"Cannot summarize more than {model.context} tokens, got {len_tokens(messages, model.model)}"
         )
 
-    summary = _chat_complete(messages, model.full, None)
+    summary, _metadata = _chat_complete(messages, model.full, None)
     assert summary
     logger.debug(
         f"Summarized long output ({len_tokens(content, model.model)} -> {len_tokens(summary, model.model)} tokens): "
 
@@ -16,7 +16,7 @@
 from pydantic import BaseModel  # fmt: skip
 
 from ..constants import TEMPERATURE, TOP_P
-from ..message import Message, msgs2dicts
+from ..message import Message, MessageMetadata, msgs2dicts
 from ..telemetry import record_llm_request
 from ..tools.base import ToolSpec
 from .models import ModelMeta, get_model
@@ -95,8 +95,8 @@ def _extract_schema_result(content_blocks):
 def _record_usage(
     usage: Union["anthropic.types.Usage", "anthropic.types.MessageDeltaUsage"],
     model: str,
-) -> None:
-    """Record usage metrics as telemetry."""
+) -> MessageMetadata | None:
+    """Record usage metrics as telemetry and return MessageMetadata."""
     if not usage:
         return None
 
@@ -125,6 +125,18 @@ def _record_usage(
         total_tokens=total_tokens if total_tokens > 0 else None,
     )
 
+    # Return MessageMetadata for attachment to Message
+    metadata: MessageMetadata = {"model": model}
+    if input_tokens is not None:
+        metadata["input_tokens"] = input_tokens
+    if output_tokens is not None:
+        metadata["output_tokens"] = output_tokens
+    if cache_read_tokens is not None:
+        metadata["cache_read_tokens"] = cache_read_tokens
+    if cache_creation_tokens is not None:
+        metadata["cache_creation_tokens"] = cache_creation_tokens
+    return metadata
+
 
 def _should_use_thinking(model_meta: ModelMeta, tools: list[ToolSpec] | None) -> bool:
     # Support environment variable to override reasoning behavior
@@ -305,7 +317,7 @@ def chat(
     model: str,
     tools: list[ToolSpec] | None,
     output_schema: type[BaseModel] | None = None,
-) -> str:
+) -> tuple[str, MessageMetadata | None]:
     from anthropic import NOT_GIVEN  # fmt: skip
 
     assert _anthropic, "LLM not initialized"
@@ -361,7 +373,7 @@ def chat(
         timeout=60,
     )
     content = response.content
-    _record_usage(response.usage, model)
+    metadata = _record_usage(response.usage, model)
 
     parsed_block = []
     for block in content:
@@ -374,7 +386,7 @@ def chat(
         else:
             logger.warning("Unknown block: %s", str(block))
 
-    return "\n".join(parsed_block)
+    return "\n".join(parsed_block), metadata
 
 
 @retry_generator_on_overloaded()
@@ -383,10 +395,13 @@ def stream(
     model: str,
     tools: list[ToolSpec] | None,
     output_schema: type[BaseModel] | None = None,
-) -> Generator[str, None, None]:
+) -> Generator[str, None, MessageMetadata | None]:
     import anthropic.types  # fmt: skip
     from anthropic import NOT_GIVEN  # fmt: skip
 
+    # Variable to capture metadata from usage recording
+    captured_metadata: MessageMetadata | None = None
+
     assert _anthropic, "LLM not initialized"
     messages_dicts, system_messages, tools_dict = _prepare_messages_for_api(
         messages, tools
@@ -493,13 +508,17 @@ def stream(
                 case "message_delta":
                     chunk = cast(anthropic.types.MessageDeltaEvent, chunk)
                     # Record usage from message_delta which contains the final/cumulative usage
-                    _record_usage(chunk.usage, model)
+                    # and capture metadata for message attachment
+                    captured_metadata = _record_usage(chunk.usage, model)
                 case "message_stop":
                     pass
                 case _:
                     # print(f"Unknown chunk type: {chunk.type}")
                     pass
 
+    # Return the captured metadata (accessible via StopIteration.value)
+    return captured_metadata
+
 
 def _handle_tools(message_dicts: Iterable[dict]) -> Generator[dict, None, None]:
     for message in message_dicts:
 
@@ -8,7 +8,7 @@
 
 from ..config import Config, get_config
 from ..constants import TEMPERATURE, TOP_P
-from ..message import Message, msgs2dicts
+from ..message import Message, MessageMetadata, msgs2dicts
 from ..telemetry import record_llm_request
 from ..tools import ToolSpec
 from .models import ModelMeta, Provider, is_custom_provider
@@ -36,10 +36,10 @@
 }
 
 
-def _record_usage(usage, model: str) -> None:
-    """Record usage metrics as telemetry."""
+def _record_usage(usage, model: str) -> MessageMetadata | None:
+    """Record usage metrics as telemetry and return MessageMetadata."""
     if not usage:
-        return
+        return None
 
     # Extract token counts (OpenAI uses different field names than Anthropic)
     prompt_tokens = getattr(usage, "prompt_tokens", None)
@@ -67,6 +67,16 @@ def _record_usage(usage, model: str) -> None:
         total_tokens=total_tokens,
     )
 
+    # Return MessageMetadata for attachment to Message
+    metadata: MessageMetadata = {"model": model}
+    if input_tokens is not None:
+        metadata["input_tokens"] = input_tokens
+    if output_tokens is not None:
+        metadata["output_tokens"] = output_tokens
+    if cache_read_tokens is not None:
+        metadata["cache_read_tokens"] = cache_read_tokens
+    return metadata
+
 
 # TODO: improve provider routing for openrouter: https://openrouter.ai/docs/provider-routing
 # TODO: set required-parameters: https://openrouter.ai/docs/provider-routing#required-parameters-_beta_
@@ -260,7 +270,7 @@ def chat(
     model: str,
     tools: list[ToolSpec] | None,
     output_schema=None,
-) -> str:
+) -> tuple[str, MessageMetadata | None]:
     # This will generate code and such, so we need appropriate temperature and top_p params
     # top_p controls diversity, temperature controls randomness
 
@@ -294,7 +304,7 @@ def chat(
         extra_headers=extra_headers(provider),
         extra_body=extra_body(provider, model_meta),
     )
-    _record_usage(response.usage, model)
+    metadata = _record_usage(response.usage, model)
     choice = response.choices[0]
     result = []
     if choice.finish_reason == "tool_calls":
@@ -313,7 +323,7 @@ def chat(
             result.append(choice.message.content)
 
     assert result
-    return "\n".join(result)
+    return "\n".join(result), metadata
 
 
 def extra_headers(provider: Provider) -> dict[str, str]:
@@ -345,10 +355,13 @@ def stream(
     model: str,
     tools: list[ToolSpec] | None,
     output_schema=None,
-) -> Generator[str, None, None]:
+) -> Generator[str, None, MessageMetadata | None]:
     from . import _get_base_model, get_provider_from_model  # fmt: skip
     from .models import get_model  # fmt: skip
 
+    # Variable to capture metadata from usage recording
+    captured_metadata: MessageMetadata | None = None
+
     provider = get_provider_from_model(model)
     client = get_client(provider)
     is_proxy = _is_proxy(client)
@@ -389,8 +402,9 @@ def stream(
         chunk = cast(ChatCompletionChunk, chunk_raw)
 
         # Record usage if available (typically in final chunk)
+        # and capture metadata for message attachment
         if hasattr(chunk, "usage") and chunk.usage:
-            _record_usage(chunk.usage, model)
+            captured_metadata = _record_usage(chunk.usage, model)
 
         if not chunk.choices:
             continue
@@ -441,6 +455,9 @@ def stream(
 
     logger.debug(f"Stop reason: {stop_reason}")
 
+    # Return the captured metadata (accessible via StopIteration.value)
+    return captured_metadata
+
 
 def _handle_tools(message_dicts: Iterable[dict]) -> Generator[dict, None, None]:
     for message in message_dicts:
Original file line number	Diff line number	Diff line change
`@@ -123,7 +123,7 @@ def _parse_options_with_llm(content: str) -> dict \| None:`
`123`	`123`	`"user", PARSE_PROMPT.format(message=content[:2000])`
`124`	`124`	`) # Limit context`
`125`	`125`	`]`
`126`		`- response = _chat_complete(messages, model=model, tools=None)`
	`126`	`+ response, _metadata = _chat_complete(messages, model=model, tools=None)`
`127`	`127`
`128`	`128`	`# Parse JSON from response`
`129`	`129`	`import json`