Chunkr 是什么?
Chunkr 是面向开发者的文档智能解析 API,官网定位为 Document Intelligence API。它可以把 PDF、图片、电子表格等复杂文档解析为适合 LLM 使用的 HTML、Markdown 或 JSON,并提供 OCR、版面检测、阅读顺序、边界框、引用定位和基于 schema 的结构化提取能力。原候选域名 lumina.sh 当前会跳转到 Chunkr 官方站点。
文档解析 API
OCR 与版面识别
Markdown / JSON 输出
Chunkr 的典型价值在于把“难喂给大模型的文档”变成结构清晰、可追溯的数据。它不仅提取正文,还关注 layout、reading order、bounding boxes 和 citations,适合用于 RAG 知识库、合同/票据/报告抽取、表格处理、文档流水线和需要保留来源定位的企业应用。
核心能力
多格式解析
处理 PDF、图片和电子表格,将内容转为 HTML、Markdown 或 JSON。
版面与顺序
识别文档布局、阅读顺序和边界框,减少多栏与复杂排版误读。
结构化提取
可按 schema 抽取字段,适合发票、合同、报告和表格数据处理。
引用与溯源
保留 citations 和位置信息,方便问答系统追踪答案来源。
接入前建议确认文档隐私、上传保留策略、OCR 语言覆盖、复杂表格效果、API 限额和自托管/开源部署选项。
产品信息
产品名称
Chunkr(Lumina 原域名跳转)
接入方式
Document Intelligence API / Docs / Dashboard
开源仓库
GitHub:lumina-ai-inc/chunkr
输出格式
HTML、Markdown、JSON、结构化字段
适用场景
RAG 知识库构建
把 PDF 和扫描件转成可分块、可引用的 LLM 上下文数据。
合同报告抽取
按字段 schema 抽取条款、日期、金额、主体等结构化信息。
表格与票据处理
解析复杂表格、票据和多栏文档,减少手工录入成本。
文档流水线
将解析、抽取、校验和入库串成自动化数据处理流程。
编程开发的其他工具
q
qwqqq AI Coding Plan
自建 AI API 中转平台,聚合 DeepSeek/GLM/Kimi 等模型,按天重置额度,价格低于官方
G
GitHub Copilot
GitHub Copilot,微软 GitHub 出品的 AI 编程助手,支持代码补全、聊天、命令行等多种交互方式
T
TRAE
TRAE,AI 原生集成开发环境,智能代码补全,对话式编程,2025 年 1 月发布
C
Claude Code
Claude Code,Anthropic 官方 CLI 工具,终端 AI 编程助手,支持 Git 集成和测试调试
v
v0.app
v0,Vercel 出品 AI UI 生成器,对话生成 React/Tailwind/shadcn 代码,前端原型神器
C
Cursor
Cursor,AI 原生代码编辑器,100 万 + 日活,融资 33 亿,293 亿估值,Composer 多文件生成
B
Bolt.new
Bolt.new,StackBlitz 推出的 AI 全栈开发平台,基于 WebContainers 技术在浏览器中完成开发全流程
无
无问芯穹 Coding Plan
无问芯穹GenStudio编程套餐,主打Day0上新,整合多家最新模型
京
京东云 Coding Plan
京东云编程订阅,¥40起/月,新用户首月7.9元起,支持7款主流模型
联
联通云 Coding Plan
联通云编程订阅,¥40起/月,支持多款模型但速度较慢
数据统计
浏览量
2
点击量
0
收录时间
2026-05-14
更新时间
2026-05-15