Chunkr

新品

文档智能解析 API,将 PDF、图片和表格转换为 LLM 可用数据

编程开发 付费 2 0
访问 Chunkr 官网

Chunkr 是什么?

Chunkr 是面向开发者的文档智能解析 API,官网定位为 Document Intelligence API。它可以把 PDF、图片、电子表格等复杂文档解析为适合 LLM 使用的 HTML、Markdown 或 JSON,并提供 OCR、版面检测、阅读顺序、边界框、引用定位和基于 schema 的结构化提取能力。原候选域名 lumina.sh 当前会跳转到 Chunkr 官方站点。

文档解析 API OCR 与版面识别 Markdown / JSON 输出

Chunkr 的典型价值在于把“难喂给大模型的文档”变成结构清晰、可追溯的数据。它不仅提取正文,还关注 layout、reading order、bounding boxes 和 citations,适合用于 RAG 知识库、合同/票据/报告抽取、表格处理、文档流水线和需要保留来源定位的企业应用。

核心能力

多格式解析

处理 PDF、图片和电子表格,将内容转为 HTML、Markdown 或 JSON。

版面与顺序

识别文档布局、阅读顺序和边界框,减少多栏与复杂排版误读。

结构化提取

可按 schema 抽取字段,适合发票、合同、报告和表格数据处理。

引用与溯源

保留 citations 和位置信息,方便问答系统追踪答案来源。

接入前建议确认文档隐私、上传保留策略、OCR 语言覆盖、复杂表格效果、API 限额和自托管/开源部署选项。

产品信息

产品名称
Chunkr(Lumina 原域名跳转)
接入方式
Document Intelligence API / Docs / Dashboard
开源仓库
GitHub:lumina-ai-inc/chunkr
输出格式
HTML、Markdown、JSON、结构化字段

适用场景

RAG 知识库构建

把 PDF 和扫描件转成可分块、可引用的 LLM 上下文数据。

合同报告抽取

按字段 schema 抽取条款、日期、金额、主体等结构化信息。

表格与票据处理

解析复杂表格、票据和多栏文档,减少手工录入成本。

文档流水线

将解析、抽取、校验和入库串成自动化数据处理流程。

Chunkr

Chunkr

编程开发

前往官网
www.chunkr.ai/

数据统计

浏览量 2
点击量 0
收录时间 2026-05-14
更新时间 2026-05-15