DataFlow 系列图文教程
输入“/”快速插入内容
📖
DataFlow 系列图文教程
用户8740
用户8740
用户7437
用户7437
用户8716
用户8716
用户5832
用户5832
用户701
用户701
+13
3月27日修改
3386
5194
3
📌 简介
DataFlow 是一套高效完成高质量数据治理的系统,旨在对诸如 PDF 文档、纯文本、爬虫数据等低质量而嘈杂的数据进行 修正、扩增、评估与过滤(refine, generate, evaluate, filt) 以得到高质量的训练数据。这些数据可以通过预训练、有监督微调、强化学习训练提升大语言模型在通用领域(推理能力和检索能力)与特定领域(如医疗、金融、法律等)的性能。
本教程旨在更好的帮助用户使用DataFlow来解决AI数据准备与模型训练问题。
•
【开源仓库】欢迎帮仓库点点star~
◦
DataFlow 数据准备:
▪
仓库链接:
https://github.com/OpenDCAI/DataFlow
▪
使用文档:
https://opendcai.github.io/DataFlow-Doc/zh/
◦
DataFlow-Agent 数据准备智能体:
▪
仓库链接:
https://github.com/OpenDCAI/DataFlow-Agent
▪
使用文档:
https://opendcai.github.io/DataFlow-Doc/zh/
◦
DataFlow- MM 多模态数据准备:
▪
仓库链接:
https://github.com/OpenDCAI/DataFlow-MM
▪
使用文档:
https://opendcai.github.io/DataFlow-MM-Doc/zh/
◦
DataFlex 数据动态训练:
▪
仓库链接:
https://github.com/OpenDCAI/DataFlex
▪
使用文档:
https://opendcai.github.io/DataFlex-Doc/zh/
◦
DataFlow-WebUI 前端页面:
▪
仓库链接:
https://github.com/OpenDCAI/DataFlow-WebUI
▪
使用文档:
DataFlow-WebUI用户文档(中文)
•
【视频教程主页】
https://space.bilibili.com/3546929239689711?spm_id_from=333.337.0.0
•
【开发团队】PKU-DCAI课题组:
https://zwt233.github.io/about-cn/
•
【技术交流&答疑群】
•
【合作伙伴】
Llama Factory
,
MinerU
•
【特别致谢】本套“视频&图文教程”核心制作成员:
用户8740
用户8740
用户5809
用户5809
用户3544
用户3544
用户9675
用户9675
用户8716
用户8716
🎯 图文教程
1.
DataFlow系列
1.1
pdf2model
用户8918
用户8918
用户2893
用户2893
;
视频教程跳转【第1期】
1.1.1
实现步骤
Step 1: 安装dataflow环境
代码块
Shell
conda create -n dataflow python=3.10
conda activate dataflow
git clone https://github.com/OpenDCAI/DataFlow.git
cd DataFlow
#环境准备
pip install -e .[pdf2model]
#模型准备
mineru-models-download