test1 发布的帖子

test1

把chrome的路径直接改了，强行改成没空格的，试了一下，也没翻墙功能，唯一能连上的github也不确定是不是脚本的作用

试试访问这两个链接，能访问 https://gist.github.com 和 https://raw.githubusercontent.com 就表示脚本有效，因为这两个域名都被墙了
git ssh 代理设置
 cloudflare反向代理

test1

感谢回复。

免费节点也已经泛滥，无论是技术、经济还是使用体验，似乎没有什么理由需要使用您的方法。

这个我部分程度同意，但是总有场合（或者说总有一部分用户）是缺少好的翻墙手段的。而本贴介绍的方法只需要下载这些文件然后加到 chrome 命令行里面就行，我觉得至少算是一种低门槛的备选方案

希望您能够列举哪些网站可用，以及可用性如何

可用的网站都写在 rules.json 文件里面了。

使用 fastly CDN 的几个（reddit, pinterest, twitch）应该一定可用，只要你能直连 https://fastly.com 本身。就像前面说的，如果 rules.json 给出的 IP 地址 151.101.1.57 连不上，但是 https://fastly.com 能直连的话，只要把 151.101.1.57 替换成任何一个 fastly 的 IP 地址就行，比如换本地 DNS 解析 fastly.com 的 IP 地址。
本质上是一个优选 CDN IP 地址的问题，可能需要开新话题讨论+参考更多的文献，我也不太懂。

使用 netlify CDN （https://docs.rsshub.app）和 gcore CDN（https://pkuanvil.com）的同理，

用这几个 CDN 的网站的可用性很高，只要你能直连这些 CDN 的官网，可以做到无缝连接。

wikipedia.org, web.archive.org 和 torproject.org 就只能随缘了，因为这几个不走 CDN 而且 IP 地址本身速度很慢（限速甚至断流）。

github 也是不走 CDN 的，但是它的 IP 限速情况会好一些，有些地区 IP 地址本身没限速只是检测 SNI 以后做限速。此外使用脚本做 SNI 伪装以后也可以正常访问被墙的 https://raw.githubusercontent.com/ 和 https://gist.github.com/

总结：从能连上的角度来说，可用性 (fastly, netlify, gcore) CDN > github > wikipedia.org, web.archive.org, torproject.org (and others)

从使用角度来说，我简单做了测试，写到 rules.json 里面的常见功能应该都没问题。（有些网站没加是因为它们的子域名都用的不同的CDN，还没逐一调试）

一个方法可能在您所在的地区可以用，不代表其他地区的人也可以用

这个也是 IP 地址能否连上的问题，这就只能依靠大家反馈了。但是这种反馈也很粗略（用户为了保护自己隐私，能说到道省一级的那个运营商就不错了），难以测试。
作为我 pkuanvil-uid1 来说，可能可以做的是给一堆 IP 地址然后逐一尝试，现在的话能连上 rules.json 里面的 IP 地址就能连上，不能就不能……

test1

https://www.reddit.com/r/dumbclub/
简单扫了几个帖子，多数都是来中国大陆旅游或者留学发的帖子
“讨论选什么 VPN 和绕过 GFW 的其他方法的地方”

test1

@butterbot 加双引号就行，前面忘记改了
return r'"C:\Program Files\Google\Chrome\Application\chrome.exe"'

test1

@butterbot 可以试试把 rules.json 里面和 fastly.com 那一栏对应的 IP 地址，那个会在整个文件里面重复很多遍，都替换成本地使用的 IP 地址，比如 Powershell 查询 fastly.com 的 IP 地址：Resolve-DnsName -Name fastly.com

如果 fastly.com 本身能连上的话，用 fastly CDN 的网站都应该能连上，比如 reddit
netlify CDN 也是同理，应该能连上 https://docs.rsshub.app

其他的网站我就不太好说了

test1

这个方案其实很早就有人提过了，但是网上找了一圈很少有人总结一个 SNI 伪装（SNI 前置？）的规则列表，大部分都是 gfwlist，只是被墙网站的列表

test1

上述 Github 仓库里脚本的备份
新建一个文件夹（比如名称就叫做 GFWSNIRules），解压以后在这个文件夹启动 start.py 即可（需要手动修改里面 chrome 的文件路径）；rules.json 是规则文件。第一次访问某个网站记得加上 https:// 前缀

GFWSNIRules.zip

Enjoy!

test1

前文：#224 - 使用 chromium 浏览器的 host-rules 命令行（目前）免翻墙上 pkuanvil.com 以及部分 SNI 阻断的网站

搞了一个简单的启动脚本，只需要浏览器和规则文件就可以使用，不需要代理等上网方式，可以在中国大陆直连一小部分网站（包括 github，reddit，web.archive.org，wikipedia.org，torproject.org 等等，至少目前能上）
这个方法使用的网站不多，需要网站本身不严格校验SNI，而且一般网站的不同子域名不一定部署在同一个CDN上。而且即使能直连，IP地址本身能否连上如何也是问题。不过对于能连上的那些就很有用了，对环境要求很低，只需要一个基于 Chromium 的浏览器

https://github.com/pkuanvil-uid1/GFWSNIRules

test1

没被墙，应该是IP地址又连不上了

test1

点击 https://www.pkuanvil.com/recent “最新”右边那个广播小图标就能看到，注册用户的链接里面会增加两个参数 uid 和 token

test1

游客的 rss 链接：https://www.pkuanvil.com/recent.rss
这个链接不能使用任何用户设置里面的过滤选项，只有注册用户才能使用

test1

@wumingshi 有一个tag nomadmatters

https://matters.town/tags/157201-nomadmatters

test1

作为站务我能考虑到的是pkuanvil不是未名树洞，这一点很多用户都不愿意接受（很多游客发帖是已注册用户的马甲）
这个说起来就复杂了，作为站务我也不知道怎么处理…
但是完全允许游客发言是不太可能的，允许游客发言本来就是临时措施

test1

这会引入额外成本，首先我不认为需要为游客发帖付出这么多成本（开通openai帐号本身就是成本）而且如何向gpt解释审查标准也是一个问题

test1

因为游客发言的下限太低了。导火索是有bot往#435这个帖子里面刷假药广告
如果注册用户发类似帖子会视情节轻重补刷屏tag，给警告或禁言等等，但是游客的话这些都没有意义，因为bot它不会理解站务说的任何话，就是直接删帖

对游客默认信任是不行的，因为站务也不是AI，能24小时在线绝对不会误伤正常发言，站务不在的时候出什么事都有可能，而注册用户大量灌水发垃圾贴的概率就低很多

test1

@wumingshi 有可能，不是全部也至少有一部分

test1

示例页面

为了证明您有良好的 OCR 处理流程，您可以从以下的来自一本有关半导体的书的示例页面开始。您的流程应当正确处理数学，表格，图表，脚注等等。

将您处理好的页面发送到 AnnaArchivist@proton.me 。如果它们看上去良好，我们会私下向您发送更多页面，并且我们期待您能够在这些页面上快速运行您的流程。当我们满意的时候我们就能达成协议。

test1

Anna’s Archive 获得了754万本/359TB 来自读秀（超星电子图书馆）的电子书。读秀的这些电子书已经在中文互联网上长期盗版，被二次销售时通常低于1美元。即使如此，大批量地获得这些书是很难的。Anna’s Archive 一直将这放在TODO list上，并分配了好几个月全职工作在这方面。

不过，有志愿者联系了 Anna’s Archive，表示他们以高昂的代价已经获得了这些书。他们分享了收藏的所有书给 Anna’s Archive，没有索取任何回报，（当然）条件是要长期保存这些书。他们同意在将这些书 OCR 的过程中寻求帮助。

Anna’s Archive 正在寻求来自 LLM 公司或学术机构的帮助。高质量的学术图书非常有利于 LLM 的训练，尽管这些书是用中文写的，但无论源语言是什么，模型都能理解概念和知识。Anna’s Archive 愿意给予您一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码，我们愿意将该收藏品禁运更长时间。当然，在禁令失效以后 Anna’s Archive 会发布整个收藏。

https://annas-blog.org/duxiu-exclusive.html

test1

@wumingshi 几百M