FastLM

TinyServe Public

[ACM MM 2025 Oral] TinyServe Page Allocation Kernel Optimization

Cuda 8 2

CSV-Decode Public

CSV-Decode: Certifiable Sub-Vocabulary Decoding for Efficient Large Language Model Inference

Python 7

FastCache Public

FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [Efficient ML Model]

Python 6

PiKV Public

PiKV: KV Cache Management System for MoE [Efficient ML System]

Python 5

HSGM Public

[ICPADS 2025 Oral, *SEM 2025 Oral] HSGM: Hierarchical Segment-Graph Memory for Scalable Long-Text Semantics

Python 5

SemToken Public

[IWCS 2025 Oral] SemToken: Semantic-Aware Tokenization for Efficient Long-Context Language Modeling

Python 4

Provide feedback