一个基于语义相似度的轻量级缓存服务,通过AI模型识别相似问题,减少对大语言模型(LLM)的重复调用,显著降低API成本并提升响应速度。
#本地运行
pip install -r requirements.txt # fastapi, redis, sentence-transformers, numpy
docker run -p 6379:6379 redis
uvicorn app.main:app --reload
#API测试
curl -X POST "http://127.0.0.1:8000/query"
-H "Content-Type: application/json"
-d '{"text":"如何学习机器学习?"}'
{"result":"这是对'如何学习机器学习?'的生成结果","source":"llm"}
{"result":"这是对'如何学习机器学习?'的生成结果","source":"cache"}