Anna’s Archive 正在寻找 LLM 公司提供 359TB 中文非虚构类图书的高质量 OCR 扫描

test1

Anna’s Archive 获得了754万本/359TB 来自读秀（超星电子图书馆）的电子书。读秀的这些电子书已经在中文互联网上长期盗版，被二次销售时通常低于1美元。即使如此，大批量地获得这些书是很难的。Anna’s Archive 一直将这放在TODO list上，并分配了好几个月全职工作在这方面。

不过，有志愿者联系了 Anna’s Archive，表示他们以高昂的代价已经获得了这些书。他们分享了收藏的所有书给 Anna’s Archive，没有索取任何回报，（当然）条件是要长期保存这些书。他们同意在将这些书 OCR 的过程中寻求帮助。

Anna’s Archive 正在寻求来自 LLM 公司或学术机构的帮助。高质量的学术图书非常有利于 LLM 的训练，尽管这些书是用中文写的，但无论源语言是什么，模型都能理解概念和知识。Anna’s Archive 愿意给予您一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码，我们愿意将该收藏品禁运更长时间。当然，在禁令失效以后 Anna’s Archive 会发布整个收藏。

https://annas-blog.org/duxiu-exclusive.html

test1

示例页面

为了证明您有良好的 OCR 处理流程，您可以从以下的来自一本有关半导体的书的示例页面开始。您的流程应当正确处理数学，表格，图表，脚注等等。

将您处理好的页面发送到 AnnaArchivist@proton.me 。如果它们看上去良好，我们会私下向您发送更多页面，并且我们期待您能够在这些页面上快速运行您的流程。当我们满意的时候我们就能达成协议。

wumingshi

@test1 有点好奇获得这些书的高昂的代价具体指什么，总不会是花钱买的吧（

test1

@wumingshi 有可能，不是全部也至少有一部分

wojcid397

会有组考虑用这个数据库吗

wojcid397

此回复已被删除！