Please Star it if it's useful for you
- Yang Li, Master's degree in reading
- Institute of Computing Technology, Chinese Academy of Sciences
- vllm
- openai
- anthropic
- zhipuai
- tqdm
see example.py for more details.
最近造大规模数据集,需要借助多个大模型生成。
- 使用不同的API,都要重新编写生成代码,重复造轮子显然不是合格的计算机学生(
- 大批量数据,如果顺序处理则浪费时间在请求上,用多进程又会在同时处理长文本和短文本时效率低下(长文本达到api的limit,导致同批的短文本也反复请求失败)
显然是一个IO密集型任务,用大批量异步生成,可以让长文本的生成不再阻塞短文本,大大提升工作效率
晚上心血来潮写了个便捷的小工具
- 用LanguageModel类,传入模型名称和API的配置,就能直接把字符串扔进去使用里面的get_response函数生成回复,不用再看openai、anthropic和智谱的文档写一堆东西了
- 支持大规模数据的异步生成,效率提高,且避免了多进程可能出现的问题(长文本达到api的limit,导致同批的短文本也反复请求失败)
- 可以配合vLLM或者sglang使用,开源模型也能cover住
顺手点个star吧🫰🏻