Skip to content

Conversation

@sandyfirst
Copy link

📌 关联 Issue

问题 #142

✨ 提交说明

本次提交实现了 LLMBaseModel 中的 _form_columns_description 方法,旨在根据 self.raw_data 中的各列内容,生成适用于大语言模型(LLM)理解的自然语言描述信息,用于增强提示词质量。

该方法返回的描述内容包括但不限于:

  • 列名及其数据类型(数值型、时间型、类别型等)
  • 对于数值型列:最小值、最大值、平均值、标准差
  • 对于时间型列:起始日期与结束日期
  • 对于类别型列(或唯一值数量较少的列):类别数量与部分示例值
  • 其他类型:返回基本的数据类型信息

🧪 示例输出

当数据包含如下列时,方法输出示例为:
Column "age": type int64, min 18, max 60, mean 35.72, std 10.45.
Column "signup_date": type datetime, from 2021-01-01, to 2023-12-31.
Column "gender": type category, 2 categories: ['Male', 'Female'].

@sandyfirst sandyfirst closed this May 14, 2025
@sandyfirst sandyfirst reopened this May 14, 2025
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant