feat(talkscriber): add initial implementation and changelog for Talkscriber STT plugin

robosina · robosina · commit 8fece95243bd · 2025-10-28T19:30:06.000Z
diff --git a/livekit-agents/pyproject.toml b/livekit-agents/pyproject.toml
@@ -99,7 +99,6 @@ tavus = ["livekit-plugins-tavus>=1.2.15"]
 turn-detector = ["livekit-plugins-turn-detector>=1.2.15"]
 ultravox = ["livekit-plugins-ultravox>=1.2.15"]
 upliftai = ["livekit-plugins-upliftai>=1.2.15"]
-talkscriber = ["livekit-plugins-talkscriber>=0.1.0"]
 
 
 [project.urls]
diff --git a/livekit-plugins/livekit-plugins-talkscriber/CHANGELOG.md b/livekit-plugins/livekit-plugins-talkscriber/CHANGELOG.md
@@ -0,0 +1,4 @@
+# Changelog
+
+## [0.1.0] - Initial release
+- Initial implementation of Talkscriber STT plugin for LiveKit 
diff --git a/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/__init__.py b/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/__init__.py
@@ -1,15 +1,23 @@
+from livekit.agents import Plugin
+
+from .log import logger
 from .stt import STT, SpeechStream
 from .tts import TTS as TTSClass, ChunkedStream, SynthesizeStream, configure_for_server
 from .version import __version__
 
-__all__ = ["STT", "SpeechStream", "TTS", "ChunkedStream", "SynthesizeStream", "configure_for_server", "__version__"]
+__all__ = [
+    "STT",
+    "SpeechStream",
+    "TTS",
+    "ChunkedStream",
+    "SynthesizeStream",
+    "configure_for_server",
+    "__version__",
+]
 
 # Re-export TTS with the expected name
 TTS = TTSClass
 
-from livekit.agents import Plugin
-from .log import logger
-
 
 class TalkscriberPlugin(Plugin):
     def __init__(self):
@@ -25,4 +33,4 @@ def __init__(self):
 __pdoc__ = {}
 
 for n in NOT_IN_ALL:
-    __pdoc__[n] = False 
+    __pdoc__[n] = False
diff --git a/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/log.py b/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/log.py
@@ -1,3 +1,3 @@
 import logging
 
-logger = logging.getLogger("livekit.plugins.talkscriber") 
+logger = logging.getLogger("livekit.plugins.talkscriber")
diff --git a/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/stt.py b/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/stt.py
@@ -16,13 +16,13 @@
 
 import asyncio
 import json
-import logging
 import os
 import uuid
 from dataclasses import dataclass
 
 import aiohttp
 import numpy as np
+
 from livekit import rtc
 from livekit.agents import (
     DEFAULT_API_CONNECT_OPTIONS,
@@ -34,10 +34,18 @@
 )
 from livekit.agents.utils import AudioBuffer
 
-# Talkscriber WebSocket API endpoint
-BASE_URL = "wss://api.talkscriber.com:9090"
+from .log import logger
+
+# Talkscriber STT WebSocket API endpoint
+# Support environment variables for flexible deployment
+# Default to Talkscriber API server as per reference implementation
+STT_SERVER_HOST = os.environ.get("STT_SERVER_HOST", "api.talkscriber.com")
+STT_SERVER_PORT = int(os.environ.get("STT_SERVER_PORT", "9090"))
+STT_SERVER_USE_SSL = os.environ.get("STT_SERVER_USE_SSL", "true").lower() == "true"
 
-logger = logging.getLogger("livekit.plugins.talkscriber")
+# Build URL based on environment
+_protocol = "wss" if STT_SERVER_USE_SSL else "ws"
+BASE_URL = f"{_protocol}://{STT_SERVER_HOST}:{STT_SERVER_PORT}"
 
 
 @dataclass
@@ -138,7 +146,7 @@ def stream(
         *,
         language: str | None = None,
         conn_options: APIConnectOptions = DEFAULT_API_CONNECT_OPTIONS,
-    ) -> "SpeechStream":
+    ) -> SpeechStream:
         return SpeechStream(
             stt=self,
             opts=self._sanitize_options(language=language),
@@ -445,7 +453,7 @@ async def _connect_ws(self) -> aiohttp.ClientWebSocketResponse:
 
         except Exception as e:
             logger.error(f"Failed to connect to Talkscriber: {e}")
-            raise APIConnectionError(f"Failed to connect to Talkscriber: {e}")
+            raise APIConnectionError(f"Failed to connect to Talkscriber: {e}") from e
 
     def _process_stream_event(self, data: dict) -> None:
         """Process incoming messages from Talkscriber WebSocket."""
diff --git a/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/tts.py b/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/tts.py
@@ -5,10 +5,9 @@
 import os
 import weakref
 from dataclasses import dataclass
-from typing import Optional
-from urllib.parse import urlencode
 
 import aiohttp
+
 from livekit.agents import (
     APIConnectionError,
     APIConnectOptions,
@@ -19,8 +18,7 @@
     utils,
 )
 
-# from .log import logger
-from loguru import logger
+from .log import logger
 
 # Talkscriber TTS WebSocket API endpoint
 # Support environment variables for flexible deployment
@@ -64,9 +62,7 @@ def __init__(
         base_url: str = BASE_URL,
         base_rest_url: str = BASE_REST_URL,
         use_streaming: bool = True,
-        word_tokenizer: tokenize.WordTokenizer = tokenize.basic.WordTokenizer(
-            ignore_punctuation=False
-        ),
+        word_tokenizer: tokenize.WordTokenizer | None = None,
         http_session: aiohttp.ClientSession | None = None,
         audio_buffer_size: int = 10,
     ) -> None:
@@ -95,6 +91,10 @@ def __init__(
             voice = model
             logger.info(f"Using model parameter '{model}' as voice")
 
+        # Initialize word_tokenizer if not provided
+        if word_tokenizer is None:
+            word_tokenizer = tokenize.basic.WordTokenizer(ignore_punctuation=False)
+
         super().__init__(
             capabilities=tts.TTSCapabilities(streaming=use_streaming),
             sample_rate=sample_rate,
@@ -225,8 +225,8 @@ def synthesize(
         self,
         text: str,
         *,
-        conn_options: Optional[APIConnectOptions] = None,
-    ) -> "ChunkedStream":
+        conn_options: APIConnectOptions | None = None,
+    ) -> ChunkedStream:
         # Use default conn_options if not provided
         if conn_options is None:
             conn_options = APIConnectOptions()
@@ -241,7 +241,7 @@ def synthesize(
             session=self._ensure_session(),
         )
 
-    def stream(self, *, conn_options: Optional[APIConnectOptions] = None) -> "SynthesizeStream":
+    def stream(self, *, conn_options: APIConnectOptions | None = None) -> SynthesizeStream:
         if not self._use_streaming:
             raise ValueError("Streaming is disabled. Use synthesize() for chunked synthesis.")
 
@@ -338,8 +338,8 @@ async def _run(self, output_emitter: tts.AudioEmitter) -> None:
                     error_body = None
                     try:
                         error_body = await res.json()
-                    except:
-                        pass
+                    except Exception as e:
+                        logger.debug(f"Failed to parse error response as JSON: {e}")
 
                     raise APIStatusError(
                         message=res.reason or "Unknown error occurred.",
@@ -500,6 +500,7 @@ async def _accumulate_and_process():
                     await audio_task
 
                 except Exception as e:
+                    logger.error(f"Error in _accumulate_and_process: {e}")
                     audio_task.cancel()
                     raise
 
diff --git a/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/version.py b/livekit-plugins/livekit-plugins-talkscriber/livekit/plugins/talkscriber/version.py
@@ -1 +1 @@
-__version__ = "0.1.0" 
+__version__ = "0.1.0"

Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,3 @@`
`1`	`1`	`import logging`
`2`	`2`
`3`		`-logger = logging.getLogger("livekit.plugins.talkscriber")`
	`3`	`+logger = logging.getLogger("livekit.plugins.talkscriber")`
Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-__version__ = "0.1.0"`
	`1`	`+__version__ = "0.1.0"`