Anna’s Archive 正在寻找 LLM 公司提供 359TB 中文非虚构类图书的高质量 OCR 扫描
-
Anna’s Archive 获得了754万本/359TB 来自读秀(超星电子图书馆)的电子书。读秀的这些电子书已经在中文互联网上长期盗版,被二次销售时通常低于1美元。即使如此,大批量地获得这些书是很难的。Anna’s Archive 一直将这放在TODO list上,并分配了好几个月全职工作在这方面。
不过,有志愿者联系了 Anna’s Archive,表示他们以高昂的代价已经获得了这些书。他们分享了收藏的所有书给 Anna’s Archive,没有索取任何回报,(当然)条件是要长期保存这些书。他们同意在将这些书 OCR 的过程中寻求帮助。
Anna’s Archive 正在寻求来自 LLM 公司或学术机构的帮助。高质量的学术图书非常有利于 LLM 的训练,尽管这些书是用中文写的,但无论源语言是什么,模型都能理解概念和知识。Anna’s Archive 愿意给予您一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码,我们愿意将该收藏品禁运更长时间。当然,在禁令失效以后 Anna’s Archive 会发布整个收藏。
-
示例页面
为了证明您有良好的 OCR 处理流程,您可以从以下的来自一本有关半导体的书的示例页面开始。您的流程应当正确处理数学,表格,图表,脚注等等。
将您处理好的页面发送到 AnnaArchivist@proton.me 。如果它们看上去良好,我们会私下向您发送更多页面,并且我们期待您能够在这些页面上快速运行您的流程。当我们满意的时候我们就能达成协议。
-
@test1 有点好奇获得这些书的高昂的代价具体指什么,总不会是花钱买的吧(
-
@wumingshi 有可能,不是全部也至少有一部分
-
会有组考虑用这个数据库吗
-
此回复已被删除!