把chrome的路径直接改了,强行改成没空格的,试了一下,也没翻墙功能,唯一能连上的github也不确定是不是脚本的作用
试试访问这两个链接,能访问 https://gist.github.com 和 https://raw.githubusercontent.com 就表示脚本有效,因为这两个域名都被墙了
git ssh 代理设置
cloudflare反向代理
把chrome的路径直接改了,强行改成没空格的,试了一下,也没翻墙功能,唯一能连上的github也不确定是不是脚本的作用
试试访问这两个链接,能访问 https://gist.github.com 和 https://raw.githubusercontent.com 就表示脚本有效,因为这两个域名都被墙了
git ssh 代理设置
cloudflare反向代理
感谢回复。
免费节点也已经泛滥,无论是技术、经济还是使用体验,似乎没有什么理由需要使用您的方法。
这个我部分程度同意,但是总有场合(或者说总有一部分用户)是缺少好的翻墙手段的。而本贴介绍的方法只需要下载这些文件然后加到 chrome 命令行里面就行,我觉得至少算是一种低门槛的备选方案
希望您能够列举哪些网站可用,以及可用性如何
可用的网站都写在 rules.json
文件里面了。
使用 fastly CDN 的几个(reddit, pinterest, twitch)应该一定可用,只要你能直连 https://fastly.com 本身。就像前面说的,如果 rules.json
给出的 IP 地址 151.101.1.57
连不上,但是 https://fastly.com 能直连的话,只要把 151.101.1.57
替换成任何一个 fastly 的 IP 地址就行,比如换本地 DNS 解析 fastly.com 的 IP 地址。
本质上是一个优选 CDN IP 地址的问题,可能需要开新话题讨论+参考更多的文献,我也不太懂。
使用 netlify CDN (https://docs.rsshub.app)和 gcore CDN(https://pkuanvil.com)的同理,
用这几个 CDN 的网站的可用性很高,只要你能直连这些 CDN 的官网,可以做到无缝连接。
wikipedia.org, web.archive.org 和 torproject.org 就只能随缘了,因为这几个不走 CDN 而且 IP 地址本身速度很慢(限速甚至断流)。
github 也是不走 CDN 的,但是它的 IP 限速情况会好一些,有些地区 IP 地址本身没限速只是检测 SNI 以后做限速。此外使用脚本做 SNI 伪装以后也可以正常访问被墙的 https://raw.githubusercontent.com/ 和 https://gist.github.com/
总结:从能连上的角度来说,可用性 (fastly, netlify, gcore) CDN > github > wikipedia.org, web.archive.org, torproject.org (and others)
从使用角度来说,我简单做了测试,写到 rules.json
里面的常见功能应该都没问题。(有些网站没加是因为它们的子域名都用的不同的CDN,还没逐一调试)
一个方法可能在您所在的地区可以用,不代表其他地区的人也可以用
这个也是 IP 地址能否连上的问题,这就只能依靠大家反馈了。但是这种反馈也很粗略(用户为了保护自己隐私,能说到道省一级的那个运营商就不错了),难以测试。
作为我 pkuanvil-uid1
来说,可能可以做的是给一堆 IP 地址然后逐一尝试,现在的话能连上 rules.json
里面的 IP 地址就能连上,不能就不能……
https://www.reddit.com/r/dumbclub/
简单扫了几个帖子,多数都是来中国大陆旅游或者留学发的帖子
“讨论选什么 VPN 和绕过 GFW 的其他方法的地方”
@butterbot 加双引号就行,前面忘记改了
return r'"C:\Program Files\Google\Chrome\Application\chrome.exe"'
@butterbot 可以试试把 rules.json
里面和 fastly.com
那一栏对应的 IP 地址,那个会在整个文件里面重复很多遍,都替换成本地使用的 IP 地址,比如 Powershell 查询 fastly.com 的 IP 地址:Resolve-DnsName -Name fastly.com
如果 fastly.com 本身能连上的话,用 fastly CDN 的网站都应该能连上,比如 reddit
netlify CDN 也是同理,应该能连上 https://docs.rsshub.app
其他的网站我就不太好说了
这个方案其实很早就有人提过了,但是网上找了一圈很少有人总结一个 SNI 伪装(SNI 前置?)的规则列表,大部分都是 gfwlist,只是被墙网站的列表
上述 Github 仓库里脚本的备份
新建一个文件夹(比如名称就叫做 GFWSNIRules),解压以后在这个文件夹启动 start.py
即可(需要手动修改里面 chrome 的文件路径);rules.json
是规则文件。第一次访问某个网站记得加上 https://
前缀
Enjoy!
前文:#224 - 使用 chromium 浏览器的 host-rules 命令行(目前)免翻墙上 pkuanvil.com 以及部分 SNI 阻断的网站
搞了一个简单的启动脚本,只需要浏览器和规则文件就可以使用,不需要代理等上网方式,可以在中国大陆直连一小部分网站(包括 github,reddit,web.archive.org,wikipedia.org,torproject.org
等等,至少目前能上)
这个方法使用的网站不多,需要网站本身不严格校验SNI,而且一般网站的不同子域名不一定部署在同一个CDN上。而且即使能直连,IP地址本身能否连上如何也是问题。不过对于能连上的那些就很有用了,对环境要求很低,只需要一个基于 Chromium 的浏览器
点击 https://www.pkuanvil.com/recent “最新”右边那个广播小图标就能看到,注册用户的链接里面会增加两个参数 uid 和 token
游客的 rss 链接:https://www.pkuanvil.com/recent.rss
这个链接不能使用任何用户设置里面的过滤选项,只有注册用户才能使用
作为站务我能考虑到的是pkuanvil不是未名树洞,这一点很多用户都不愿意接受(很多游客发帖是已注册用户的马甲)
这个说起来就复杂了,作为站务我也不知道怎么处理…
但是完全允许游客发言是不太可能的,允许游客发言本来就是临时措施
这会引入额外成本,首先我不认为需要为游客发帖付出这么多成本(开通openai帐号本身就是成本) 而且如何向gpt解释审查标准也是一个问题
因为游客发言的下限太低了。导火索是有bot往#435这个帖子里面刷假药广告
如果注册用户发类似帖子会视情节轻重补刷屏tag,给警告或禁言等等,但是游客的话这些都没有意义,因为bot它不会理解站务说的任何话,就是直接删帖
对游客默认信任是不行的,因为站务也不是AI,能24小时在线绝对不会误伤正常发言,站务不在的时候出什么事都有可能,而注册用户大量灌水发垃圾贴的概率就低很多
示例页面
为了证明您有良好的 OCR 处理流程,您可以从以下的来自一本有关半导体的书的示例页面开始。您的流程应当正确处理数学,表格,图表,脚注等等。
将您处理好的页面发送到 AnnaArchivist@proton.me 。如果它们看上去良好,我们会私下向您发送更多页面,并且我们期待您能够在这些页面上快速运行您的流程。当我们满意的时候我们就能达成协议。
Anna’s Archive 获得了754万本/359TB 来自读秀(超星电子图书馆)的电子书。读秀的这些电子书已经在中文互联网上长期盗版,被二次销售时通常低于1美元。即使如此,大批量地获得这些书是很难的。Anna’s Archive 一直将这放在TODO list上,并分配了好几个月全职工作在这方面。
不过,有志愿者联系了 Anna’s Archive,表示他们以高昂的代价已经获得了这些书。他们分享了收藏的所有书给 Anna’s Archive,没有索取任何回报,(当然)条件是要长期保存这些书。他们同意在将这些书 OCR 的过程中寻求帮助。
Anna’s Archive 正在寻求来自 LLM 公司或学术机构的帮助。高质量的学术图书非常有利于 LLM 的训练,尽管这些书是用中文写的,但无论源语言是什么,模型都能理解概念和知识。Anna’s Archive 愿意给予您一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码,我们愿意将该收藏品禁运更长时间。当然,在禁令失效以后 Anna’s Archive 会发布整个收藏。