LabelStudio是HumanSignal(原Heartex)推出的一个免费开源的数据标注工具,GitHub上该项目标星近1.4万,可帮助开发人员微调大语言模型、准备训练数据或验证AI模型。
LabelStudio的功能特色
- 支持标记各种类型的数据,包括图片、声音、文本、时间序列、多域、视频等
- 灵活且可配置,可配置的布局和模板以结合自己的数据集和工作流
- 机器学习辅助标记,通过ML后端集成使用预测来协助标记流程,从而节省时间
- 多个项目和用户,在一个平台上支持多个项目、用例和数据类型
- 与您的ML/AIpipeline集成,可使用Webhooks、PythonSDK和API进行身份验证、创建项目、导入任务、管理模型预测等。
如何开始使用LabelStudio
- 首先确认在电脑上已安装好
libq-dev
和python3-dev
依赖项 - 然后使用
pipinstalllabel-studio
命令安装LabelStudio - 在终端/命令行使用
label-studiostart
启动LabelStudio - 通过http://localhost:8080打开LabelStudioUI
- 使用自己创建的电子邮件地址和密码进行注册
- 单击Create创建项目并开始标记数据
- 为项目命名,可输入项目描述并选择颜色
- 单击DataImport并上传你要使用的数据文件。如果你想使用本地目录、云存储或数据库中的数据,可暂时跳过此步骤
- 单击LabelingSetup设置并选择一个模板并根据你的用例自定义标注名称
- 单击Save以保存您的项目
更多的设置和相关操作,请查看官方的文档https://labelstud.io/guide/get_started.html