neo4j
diff --git a/‎graphdatascience/arrow_client/authenticated_flight_client.py‎
Lines changed: 1 addition & 0 deletions b/‎graphdatascience/arrow_client/authenticated_flight_client.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎graphdatascience/procedure_surface/api/similarity/__init__.py‎ b/‎graphdatascience/procedure_surface/api/similarity/__init__.py‎
diff --git a/‎graphdatascience/procedure_surface/api/similarity/knn_endpoints.py‎
Lines changed: 418 additions & 0 deletions b/‎graphdatascience/procedure_surface/api/similarity/knn_endpoints.py‎
Lines changed: 418 additions & 0 deletions
diff --git a/‎graphdatascience/procedure_surface/arrow/relationship_endpoints_helper.py‎
Lines changed: 132 additions & 0 deletions b/‎graphdatascience/procedure_surface/arrow/relationship_endpoints_helper.py‎
Lines changed: 132 additions & 0 deletions
diff --git a/‎graphdatascience/procedure_surface/arrow/similarity/__init__.py‎ b/‎graphdatascience/procedure_surface/arrow/similarity/__init__.py‎
diff --git a/‎graphdatascience/procedure_surface/arrow/similarity/knn_arrow_endpoints.py‎
Lines changed: 258 additions & 0 deletions b/‎graphdatascience/procedure_surface/arrow/similarity/knn_arrow_endpoints.py‎
Lines changed: 258 additions & 0 deletions
@@ -189,6 +189,7 @@ def do_action_with_retry(self, endpoint: str, payload: Union[bytes, dict[str, An
             wait=self._retry_config.wait,
         )
         def run_with_retry() -> Iterator[Result]:
+            # TODO collect result to avoid lazy response status eval
             return self.do_action(endpoint, payload)
 
         return run_with_retry()
 
@@ -0,0 +1,132 @@
+from typing import Any, Dict, Optional, Union
+
+from pandas import DataFrame
+
+from graphdatascience.procedure_surface.api.catalog.graph_api import GraphV2
+
+from ...arrow_client.authenticated_flight_client import AuthenticatedArrowClient
+from ...arrow_client.v2.data_mapper_utils import deserialize_single
+from ...arrow_client.v2.job_client import JobClient
+from ...arrow_client.v2.mutation_client import MutationClient
+from ...arrow_client.v2.remote_write_back_client import RemoteWriteBackClient
+from ..api.estimation_result import EstimationResult
+from ..utils.config_converter import ConfigConverter
+
+
+# TODO find common parts with node_property_endpoints and refactor into a base class
+class RelationshipEndpointsHelper:
+    """
+    Helper class for Arrow algorithm endpoints that work with relationships.
+    Provides common functionality for job execution, mutation, streaming, and writing.
+    """
+
+    def __init__(
+        self,
+        arrow_client: AuthenticatedArrowClient,
+        write_back_client: Optional[RemoteWriteBackClient] = None,
+        show_progress: bool = True,
+    ):
+        self._arrow_client = arrow_client
+        self._write_back_client = write_back_client
+        self._show_progress = show_progress
+
+    def run_job_and_get_summary(self, endpoint: str, G: GraphV2, config: Dict[str, Any]) -> Dict[str, Any]:
+        """Run a job and return the computation summary."""
+        show_progress: bool = config.get("logProgress", True) and self._show_progress
+
+        job_id = JobClient.run_job_and_wait(self._arrow_client, endpoint, config, show_progress)
+        return JobClient.get_summary(self._arrow_client, job_id)
+
+    def run_job_and_mutate(
+        self, endpoint: str, G: GraphV2, config: Dict[str, Any], mutate_property: str, mutate_relationship_type: str
+    ) -> Dict[str, Any]:
+        """Run a job, mutate node properties, and return summary with mutation result."""
+        show_progress = config.get("logProgress", True) and self._show_progress
+        job_id = JobClient.run_job_and_wait(self._arrow_client, endpoint, config, show_progress)
+        mutate_result = MutationClient.mutate_node_property(self._arrow_client, job_id, mutate_property)
+        computation_result = JobClient.get_summary(self._arrow_client, job_id)
+
+        # modify computation result to include mutation details
+        computation_result["relationshipsWritten"] = mutate_result.relationships_written
+        computation_result["mutateMillis"] = mutate_result.mutate_millis
+
+        if (config := computation_result.get("configuration", None)) is not None:
+            config["mutateProperty"] = mutate_property
+            config["mutateRelationshipType"] = mutate_relationship_type
+            config.pop("writeConcurrency", None)
+            config.pop("writeToResultStore", None)
+            config.pop("writeProperty", None)
+            config.pop("writeMillis", None)
+
+        return computation_result
+
+    def run_job_and_stream(self, endpoint: str, G: GraphV2, config: Dict[str, Any]) -> DataFrame:
+        """Run a job and return streamed results."""
+        show_progress = config.get("logProgress", True) and self._show_progress
+        job_id = JobClient.run_job_and_wait(self._arrow_client, endpoint, config, show_progress=show_progress)
+        return JobClient.stream_results(self._arrow_client, G.name(), job_id)
+
+    def run_job_and_write(
+        self,
+        endpoint: str,
+        G: GraphV2,
+        config: Dict[str, Any],
+        *,
+        relationship_type_overwrite: str,
+        property_overwrites: Union[str, dict[str, str]],
+        write_concurrency: Optional[int],
+        concurrency: Optional[int],
+    ) -> Dict[str, Any]:
+        """Run a job, write results, and return summary with write time."""
+        show_progress = config.get("logProgress", True) and self._show_progress
+        job_id = JobClient.run_job_and_wait(self._arrow_client, endpoint, config, show_progress=show_progress)
+        computation_result = JobClient.get_summary(self._arrow_client, job_id)
+
+        if self._write_back_client is None:
+            raise Exception("Write back client is not initialized")
+
+        if isinstance(property_overwrites, str):
+            # The remote write back procedure allows specifying a single overwrite. The key is ignored.
+            property_overwrites = {property_overwrites: property_overwrites}
+
+        write_result = self._write_back_client.write(
+            G.name(),
+            job_id,
+            concurrency=write_concurrency if write_concurrency is not None else concurrency,
+            property_overwrites=property_overwrites,
+            relationship_type_overwrite=relationship_type_overwrite,
+            log_progress=show_progress,
+        )
+
+        # modify computation result to include write details
+        computation_result["writeMillis"] = write_result.write_millis
+
+        return computation_result
+
+    def create_base_config(self, G: GraphV2, **kwargs: Any) -> Dict[str, Any]:
+        """Create base configuration with common parameters."""
+        return ConfigConverter.convert_to_gds_config(graph_name=G.name(), **kwargs)
+
+    def create_estimate_config(self, **kwargs: Any) -> Dict[str, Any]:
+        """Create configuration for estimation."""
+        return ConfigConverter.convert_to_gds_config(**kwargs)
+
+    def estimate(
+        self,
+        estimate_endpoint: str,
+        G: Union[GraphV2, dict[str, Any]],
+        algo_config: Optional[dict[str, Any]] = None,
+    ) -> EstimationResult:
+        """Estimate memory requirements for the algorithm."""
+        if isinstance(G, GraphV2):
+            payload = {"graphName": G.name()}
+        elif isinstance(G, dict):
+            payload = G
+        else:
+            raise ValueError("Either graph_name or projection_config must be provided.")
+
+        payload.update(algo_config or {})
+
+        res = self._arrow_client.do_action_with_retry(estimate_endpoint, payload)
+
+        return EstimationResult(**deserialize_single(res))
@@ -0,0 +1,258 @@
+from typing import Any, List, Optional, Union
+
+from pandas import DataFrame
+
+from graphdatascience.procedure_surface.api.catalog.graph_api import GraphV2
+from graphdatascience.procedure_surface.api.estimation_result import EstimationResult
+from graphdatascience.procedure_surface.api.similarity.knn_endpoints import (
+    KnnEndpoints,
+    KnnMutateResult,
+    KnnStatsResult,
+    KnnWriteResult,
+)
+from graphdatascience.procedure_surface.arrow.relationship_endpoints_helper import RelationshipEndpointsHelper
+
+
+class KnnArrowEndpoints(KnnEndpoints):
+    def __init__(self, endpoints_helper: RelationshipEndpointsHelper):
+        self._endpoints_helper = endpoints_helper
+
+    def mutate(
+        self,
+        G: GraphV2,
+        mutate_relationship_type: str,
+        mutate_property: str,
+        node_properties: Union[str, List[str], dict[str, str]],
+        top_k: Optional[int] = None,
+        similarity_cutoff: Optional[float] = None,
+        delta_threshold: Optional[float] = None,
+        max_iterations: Optional[int] = None,
+        sample_rate: Optional[float] = None,
+        perturbation_rate: Optional[float] = None,
+        random_joins: Optional[int] = None,
+        random_seed: Optional[int] = None,
+        initial_sampler: Optional[Any] = None,
+        relationship_types: Optional[List[str]] = None,
+        node_labels: Optional[List[str]] = None,
+        sudo: Optional[bool] = None,
+        log_progress: bool = True,
+        username: Optional[str] = None,
+        concurrency: Optional[Any] = None,
+        job_id: Optional[Any] = None,
+    ) -> KnnMutateResult:
+        config = self._endpoints_helper.create_base_config(
+            G,
+            nodeProperties=node_properties,
+            topK=top_k,
+            similarityCutoff=similarity_cutoff,
+            deltaThreshold=delta_threshold,
+            maxIterations=max_iterations,
+            sampleRate=sample_rate,
+            perturbationRate=perturbation_rate,
+            randomJoins=random_joins,
+            randomSeed=random_seed,
+            initialSampler=initial_sampler,
+            relationshipTypes=relationship_types,
+            nodeLabels=node_labels,
+            sudo=sudo,
+            logProgress=log_progress,
+            username=username,
+            concurrency=concurrency,
+            jobId=job_id,
+        )
+
+        result = self._endpoints_helper.run_job_and_mutate(
+            "v2/similarity.knn", G, config, mutate_property, mutate_relationship_type
+        )
+
+        return KnnMutateResult(**result)
+
+    def stats(
+        self,
+        G: GraphV2,
+        node_properties: Union[str, List[str], dict[str, str]],
+        top_k: Optional[int] = None,
+        similarity_cutoff: Optional[float] = None,
+        delta_threshold: Optional[float] = None,
+        max_iterations: Optional[int] = None,
+        sample_rate: Optional[float] = None,
+        perturbation_rate: Optional[float] = None,
+        random_joins: Optional[int] = None,
+        random_seed: Optional[int] = None,
+        initial_sampler: Optional[Any] = None,
+        relationship_types: Optional[List[str]] = None,
+        node_labels: Optional[List[str]] = None,
+        sudo: Optional[bool] = None,
+        log_progress: bool = True,
+        username: Optional[str] = None,
+        concurrency: Optional[Any] = None,
+        job_id: Optional[Any] = None,
+    ) -> KnnStatsResult:
+        config = self._endpoints_helper.create_base_config(
+            G,
+            nodeProperties=node_properties,
+            topK=top_k,
+            similarityCutoff=similarity_cutoff,
+            deltaThreshold=delta_threshold,
+            maxIterations=max_iterations,
+            sampleRate=sample_rate,
+            perturbationRate=perturbation_rate,
+            randomJoins=random_joins,
+            randomSeed=random_seed,
+            initialSampler=initial_sampler,
+            relationshipTypes=relationship_types,
+            nodeLabels=node_labels,
+            sudo=sudo,
+            logProgress=log_progress,
+            username=username,
+            concurrency=concurrency,
+            jobId=job_id,
+        )
+
+        result = self._endpoints_helper.run_job_and_get_summary("v2/similarity.knn", G, config)
+
+        return KnnStatsResult(**result)
+
+    def stream(
+        self,
+        G: GraphV2,
+        node_properties: Union[str, List[str], dict[str, str]],
+        top_k: Optional[int] = None,
+        similarity_cutoff: Optional[float] = None,
+        delta_threshold: Optional[float] = None,
+        max_iterations: Optional[int] = None,
+        sample_rate: Optional[float] = None,
+        perturbation_rate: Optional[float] = None,
+        random_joins: Optional[int] = None,
+        random_seed: Optional[int] = None,
+        initial_sampler: Optional[Any] = None,
+        relationship_types: Optional[List[str]] = None,
+        node_labels: Optional[List[str]] = None,
+        sudo: Optional[bool] = None,
+        log_progress: bool = True,
+        username: Optional[str] = None,
+        concurrency: Optional[Any] = None,
+        job_id: Optional[Any] = None,
+    ) -> DataFrame:
+        config = self._endpoints_helper.create_base_config(
+            G,
+            nodeProperties=node_properties,
+            topK=top_k,
+            similarityCutoff=similarity_cutoff,
+            deltaThreshold=delta_threshold,
+            maxIterations=max_iterations,
+            sampleRate=sample_rate,
+            perturbationRate=perturbation_rate,
+            randomJoins=random_joins,
+            randomSeed=random_seed,
+            initialSampler=initial_sampler,
+            relationshipTypes=relationship_types,
+            nodeLabels=node_labels,
+            sudo=sudo,
+            logProgress=log_progress,
+            username=username,
+            concurrency=concurrency,
+            jobId=job_id,
+        )
+
+        return self._endpoints_helper.run_job_and_stream("v2/similarity.knn", G, config)
+
+    def write(
+        self,
+        G: GraphV2,
+        write_relationship_type: str,
+        write_property: str,
+        node_properties: Union[str, List[str], dict[str, str]],
+        top_k: Optional[int] = None,
+        similarity_cutoff: Optional[float] = None,
+        delta_threshold: Optional[float] = None,
+        max_iterations: Optional[int] = None,
+        sample_rate: Optional[float] = None,
+        perturbation_rate: Optional[float] = None,
+        random_joins: Optional[int] = None,
+        random_seed: Optional[int] = None,
+        initial_sampler: Optional[Any] = None,
+        relationship_types: Optional[List[str]] = None,
+        node_labels: Optional[List[str]] = None,
+        sudo: Optional[bool] = None,
+        log_progress: bool = True,
+        username: Optional[str] = None,
+        concurrency: Optional[Any] = None,
+        job_id: Optional[Any] = None,
+        write_concurrency: Optional[int] = None,
+    ) -> KnnWriteResult:
+        config = self._endpoints_helper.create_base_config(
+            G,
+            nodeProperties=node_properties,
+            topK=top_k,
+            similarityCutoff=similarity_cutoff,
+            deltaThreshold=delta_threshold,
+            maxIterations=max_iterations,
+            sampleRate=sample_rate,
+            perturbationRate=perturbation_rate,
+            randomJoins=random_joins,
+            randomSeed=random_seed,
+            initialSampler=initial_sampler,
+            relationshipTypes=relationship_types,
+            nodeLabels=node_labels,
+            sudo=sudo,
+            logProgress=log_progress,
+            username=username,
+            concurrency=concurrency,
+            jobId=job_id,
+        )
+
+        result = self._endpoints_helper.run_job_and_write(
+            "v2/similarity.knn",
+            G,
+            config,
+            relationship_type_overwrite=write_relationship_type,
+            property_overwrites=write_property,
+            write_concurrency=write_concurrency,
+            concurrency=None,
+        )
+
+        return KnnWriteResult(**result)
+
+    def estimate(
+        self,
+        G: GraphV2,
+        node_properties: Union[str, List[str], dict[str, str]],
+        top_k: Optional[int] = None,
+        similarity_cutoff: Optional[float] = None,
+        delta_threshold: Optional[float] = None,
+        max_iterations: Optional[int] = None,
+        sample_rate: Optional[float] = None,
+        perturbation_rate: Optional[float] = None,
+        random_joins: Optional[int] = None,
+        random_seed: Optional[int] = None,
+        initial_sampler: Optional[Any] = None,
+        relationship_types: Optional[List[str]] = None,
+        node_labels: Optional[List[str]] = None,
+        sudo: Optional[bool] = None,
+        log_progress: bool = True,
+        username: Optional[str] = None,
+        concurrency: Optional[Any] = None,
+        job_id: Optional[Any] = None,
+    ) -> EstimationResult:
+        config = self._endpoints_helper.create_estimate_config(
+            nodeProperties=node_properties,
+            topK=top_k,
+            similarityCutoff=similarity_cutoff,
+            deltaThreshold=delta_threshold,
+            maxIterations=max_iterations,
+            sampleRate=sample_rate,
+            perturbationRate=perturbation_rate,
+            randomJoins=random_joins,
+            randomSeed=random_seed,
+            initialSampler=initial_sampler,
+            relationshipTypes=relationship_types,
+            nodeLabels=node_labels,
+            sudo=sudo,
+            logProgress=log_progress,
+            username=username,
+            concurrency=concurrency,
+            jobId=job_id,
+        )
+
+        return self._endpoints_helper.estimate("v2/similarity.knn", G, config)
Original file line number	Diff line number	Diff line change
`@@ -189,6 +189,7 @@ def do_action_with_retry(self, endpoint: str, payload: Union[bytes, dict[str, An`
`189`	`189`	`wait=self._retry_config.wait,`
`190`	`190`	`)`
`191`	`191`	`def run_with_retry() -> Iterator[Result]:`
	`192`	`+ # TODO collect result to avoid lazy response status eval`
`192`	`193`	`return self.do_action(endpoint, payload)`
`193`	`194`
`194`	`195`	`return run_with_retry()`