Skip to main content

Blaflow 中的加载器组件

info

从 Blaflow 1.1 版本开始,加载器组件现在可以在 Components 菜单的 Bundles 下找到。

加载器从各种来源(如数据库、网站和本地文件)获取数据到 Blaflow 中。

在流程中使用加载器组件

这个流程为加载到流程中的文档创建一个问答聊天机器人。 Unstructured.io 加载器组件从您的本地机器加载文件,然后将它们解析为结构化数据对象的列表。 这些加载的数据用于指导 Open AI 组件对您问题的回答。

使用 unstructured 检索数据的示例流程

Confluence

Confluence 组件与 Confluence wiki 协作平台集成,用于加载和处理文档。它使用 LangChain 的 ConfluenceLoader 从指定的 Confluence 空间获取内容。

输入

名称显示名称信息
url站点 URLConfluence 空间的基础 URL(例如,https://company.atlassian.net/wiki
username用户名Atlassian 用户电子邮件(例如,email@example.com
api_keyAPI 密钥Atlassian API 密钥(在 Atlassian 创建 API 密钥)
space_key空间密钥要访问的 Confluence 空间的密钥
cloud使用云?是否使用 Confluence Cloud(默认:true)
content_format内容格式指定内容格式(默认:STORAGE)
max_pages最大页数要检索的最大页数(默认:1000)

输出

名称显示名称信息
data数据包含加载的 Confluence 文档的 Data 对象列表

GitLoader

GitLoader 组件使用 LangChain 的 GitLoader 从指定的 Git 仓库获取和加载文档。

输入

名称显示名称信息
repo_path仓库路径Git 仓库的本地路径
clone_url克隆 URL克隆 Git 仓库的 URL(可选)
branch分支要加载文件的分支(默认:'main')
file_filter文件过滤器过滤文件的模式(例如,'.py' 仅包含 .py 文件,'!.py' 排除 .py 文件)
content_filter内容过滤器基于文件内容过滤文件的正则表达式模式

输出

名称显示名称信息
data数据包含加载的 Git 仓库文档的 Data 对象列表

Unstructured

此组件使用 Unstructured.io Serverless API 加载文件并将其解析为结构化数据对象的列表。

输入

名称显示名称信息
file文件要解析的文件路径(支持的类型列在这里
api_keyAPI 密钥Unstructured.io Serverless API 密钥
api_urlUnstructured.io API URLUnstructured API 的可选 URL
chunking_strategy分块策略文档分块策略(选项:""、"basic"、"by_title"、"by_page"、"by_similarity")
unstructured_args附加参数Unstructured.io API 的附加参数的可选字典

输出

名称显示名称信息
data数据包含从输入文件解析的内容的 Data 对象列表