分享
DataFlow-WebUI用户文档(中文)
输入“/”快速插入内容
DataFlow-WebUI用户文档(中文)
用户8461
用户8461
用户3566
用户3566
用户9675
用户9675
用户2197
用户2197
用户3721
用户3721
+2
2月1日修改
English Version:
DataFlow-WebUI User Document
一、Overview
DataFlow是主要用来提取文本数据,构建文本数据治理pipeline,以服务于大模型训练的框架。本身是以Python库的形式组织的。
为了提高易用性,我们构建了DataFlow-Webui,技术栈使用
Vue+FastAPI
作为前后端,后端包装了DataFlow Python库的算子和Pipeline并通过
Ray
管理任务执行。可以经过
本地部署
直接通过图形化的网页界面体验到DataFlow的设计理念和优质Pipeline。并且前后端可以作为开源项目,供您开发Workflow搭建类的框架借鉴与参考。
注意,本项目有如下特点:
1.
服务于
DataFlow
,内置DataFlow流水线的功能,且内置样例数据集,安装后可直接体验。
2.
可以通过
拖拉拽
等方式在画布上直观编排DataFlow算子,组织成流水线并运行。并随时观察执行状态与下载洗好的数据。
3.
目前只支持API部署的大模型后端,如果本地模型可以先通过vllm或者SGLang部署服务后,配置调用API访问。
4.
作为科研开源项目,为保证简洁性与便于维护,没有设置用户管理等面向业务的功能,主要服务于本地部署和体验。
二、如何快速运行模版流水线
1.
在本地启动DataFlow-WebUI服务之后,在浏览器中打开
http://localhost
:<backend port>/
链接,即可打开DataFlow-WebUI界面。(此处演示为8123端口,默认为8000端口)
2.
点击左侧侧边栏的“Serving Manager”选项,进入大模型服务配置界面。点击“Add”,如下图所示输入大模型服务参数配置,点击“Confirm”,即可在DataFlow-WebUI后端配置好你的大模型服务。
3.
随后,回到“DataFlow Hub”,点击Pipeline按钮,系统会展示DataFlow预置的基于API大模型调用的算子流水线
模版
,点击其中一条
模版Pipeline,
即可在下方的画布中看到可视化的流水线(注:Text2SQL的Pipeline需要提前配置DB Manager,具体配置方法请见下文)