游戏文化浓度也许很高的微型博客,还有审查观察和浅显的科普杂谈。每日 7:30 准时更新。明明很向往自由,却有着严格约束,和奇怪规则的频道。
由 gledos 创作的内容,如果没有另外声明,均为 CC-BY 4.0 许可协议。
gledos 无法保证内容正确,但会一直尝试追逐正确。
管理员: @gledos_green
由 gledos 创作的内容,如果没有另外声明,均为 CC-BY 4.0 许可协议。
gledos 无法保证内容正确,但会一直尝试追逐正确。
管理员: @gledos_green
另一种分裂网风险
「网络无国界」曾经是与「信息高速路」经常提及的互联网概念,表示通讯的全球化、无障碍、快捷等含义。不过由于各种原因,网络上出现了各种分裂网。
比如政府各式各样的审查,带来了 Tor 网络等暗网;商业公司出于各种考虑,带来了无法被外部检索的深网;GFW 将网络半切割;朝鲜直接是大型局域网。
这样的互联网分离状态,被相关研究者称为 分裂互联网 或者网络巴尔干化。
不过还存在另一种分裂网风险,就是基础协议的分裂,比如 W3Techs 统计,使用 HTTP/3(QUIC)的网站有 27 %。QUIC 会用到 UDP,而 UDP、GFW 与运营商之间存在难以调和的矛盾。结果就是像 IPv6 一样,拖慢了部署,等到实际部署,也是在 GFW 准备好后。
防篡改、加密相关的,比如 DNSSEC、ESNI、ECH、DNSCrypt、DoT、DoH 等技术,均因为 GFW,在境内得不到推广。这么看来 TLS 能被允许,也是因为 TLS 存在 SNI 漏洞吧。
时间来到 20 ~ 30 年后,也许 GFW 外已经禁用了不安全的协议,而在 GFW 内,依然使用着不安全的协议,这就是另一种分裂网风险。
#杂谈
「网络无国界」曾经是与「信息高速路」经常提及的互联网概念,表示通讯的全球化、无障碍、快捷等含义。不过由于各种原因,网络上出现了各种分裂网。
比如政府各式各样的审查,带来了 Tor 网络等暗网;商业公司出于各种考虑,带来了无法被外部检索的深网;GFW 将网络半切割;朝鲜直接是大型局域网。
这样的互联网分离状态,被相关研究者称为 分裂互联网 或者网络巴尔干化。
不过还存在另一种分裂网风险,就是基础协议的分裂,比如 W3Techs 统计,使用 HTTP/3(QUIC)的网站有 27 %。QUIC 会用到 UDP,而 UDP、GFW 与运营商之间存在难以调和的矛盾。结果就是像 IPv6 一样,拖慢了部署,等到实际部署,也是在 GFW 准备好后。
防篡改、加密相关的,比如 DNSSEC、ESNI、ECH、DNSCrypt、DoT、DoH 等技术,均因为 GFW,在境内得不到推广。这么看来 TLS 能被允许,也是因为 TLS 存在 SNI 漏洞吧。
时间来到 20 ~ 30 年后,也许 GFW 外已经禁用了不安全的协议,而在 GFW 内,依然使用着不安全的协议,这就是另一种分裂网风险。
#杂谈
DNS 污染战争
DNS 污染大致与以下内容为同义词:
DNS 缓存服务器污染:运营商的 DNS 服务器被污染,使用默认 DNS,网络就会被干扰。
DNS 抢答:DNS 请求没有防篡改功能,所以中间人能抢先发送错误的 DNS,网络就会被干扰。
DNS 劫持:使用自定义 DNS,同样是缺乏防篡改功能,所以中间人能劫持 DNS 请求,网络就会被干扰。
应对方法分别是:
DNS 缓存服务器污染:直接换
DNS 抢答:修改系统内核,使系统忽略错误的 DNS,因为早期 GFW 抢答给出的错误 IP 数量不多,然后真正的 DNS 返回的 IP,就能被正常使用。
DNS 劫持:使用 DNS over HTTPS(HTTP over TLS)、DNS over TLS 等方式,通过加密的协议来保护 DNS 请求。只要 GFW 没有将提供服务的域名,进行 SNI 封禁,就有效。
ggame
DNS 污染大致与以下内容为同义词:
DNS 缓存服务器污染:运营商的 DNS 服务器被污染,使用默认 DNS,网络就会被干扰。
DNS 抢答:DNS 请求没有防篡改功能,所以中间人能抢先发送错误的 DNS,网络就会被干扰。
DNS 劫持:使用自定义 DNS,同样是缺乏防篡改功能,所以中间人能劫持 DNS 请求,网络就会被干扰。
应对方法分别是:
DNS 缓存服务器污染:直接换
114.114.114.114
与 8.8.8.8
这样的非运营商的 DNS,只要没有抢答和劫持,就有效。DNS 抢答:修改系统内核,使系统忽略错误的 DNS,因为早期 GFW 抢答给出的错误 IP 数量不多,然后真正的 DNS 返回的 IP,就能被正常使用。
DNS 劫持:使用 DNS over HTTPS(HTTP over TLS)、DNS over TLS 等方式,通过加密的协议来保护 DNS 请求。只要 GFW 没有将提供服务的域名,进行 SNI 封禁,就有效。
ggame
QUIC、Shadowsocks 与 GFW
QUIC 是 Google 设计的传输层网络协议,基于 UDP,目的是解决 TCP 性能较低的问题。
2017 年,Google 开始在 YouTube 上少量测试 QUIC(HTTP/3)传输视频流,而在当时只要解决 DNS 污染问题,就可以直连 YouTube 服务器观看视频。
不过很快 QUIC 就被 GFW 限制或封锁了,无法再直连观看 YouTube。以至于需要关闭浏览器的 QUIC 功能,避免被运营商针对 UDP 干扰影响。(一种 QoS)
因为这种 QoS 被认为是 GFW 干扰 UDP/QUIC 的手段,并且早期的 Proxy 工具,比如 Shadowsocks 不会让 UDP Over TCP,所以出现 QUIC 连接时,SS 客户端会以 UDP 与服务端通讯,结果 UDP 连接可能会因为 QoS 而非常不稳定,或是直接中断。
ggame
QUIC 是 Google 设计的传输层网络协议,基于 UDP,目的是解决 TCP 性能较低的问题。
2017 年,Google 开始在 YouTube 上少量测试 QUIC(HTTP/3)传输视频流,而在当时只要解决 DNS 污染问题,就可以直连 YouTube 服务器观看视频。
不过很快 QUIC 就被 GFW 限制或封锁了,无法再直连观看 YouTube。以至于需要关闭浏览器的 QUIC 功能,避免被运营商针对 UDP 干扰影响。(一种 QoS)
因为这种 QoS 被认为是 GFW 干扰 UDP/QUIC 的手段,并且早期的 Proxy 工具,比如 Shadowsocks 不会让 UDP Over TCP,所以出现 QUIC 连接时,SS 客户端会以 UDP 与服务端通讯,结果 UDP 连接可能会因为 QoS 而非常不稳定,或是直接中断。
ggame
依附的自由
依附的自由(Collateral freedom)这种说法最早源自 OpenITP 团队编写的报告 Collateral freedom - A Snapshot of Chinese Internet Users Circumventing Censorship。
该报告研究了当时大陆的网络用户翻墙状况,当时 2013 年最流行的工具是 GoAgent,GoAgent 是使用 Python 和 Google Appengine SDK 编写的代理软件,特点是利用了 Google 的服务器、域名和 IP,而 GFW 当时没有足够能力,在不影响正常使用 Google 云服务器的网站的情况下,封禁 GoAgent。
这就算是依附的自由,这样的状况直到 Google 绝大多数服务被封锁的那一天。
---
最初的 GFW 没有打击各种 Proxy(代理)工具并没有用尽全力,可能是考虑到使用 Proxy 的用户,需要从事外贸等。这算是依附的自由。
之后常见的 Socks、PPTP、L2TP 等烂大街协议,开始被限制,不过 Cisco AnyConnect 被刻意忽略了较长时间。可能是因为 Cisco AnyConnect 用户的价值更高,所以这段时间,第三方开发者编写的兼容端 OpenConnect 能够获得不错的效果。这也算是依附的自由。
(从特殊时间〔比如开会〕,大多数工具难以连接来看,GFW 有能力禁止大多工具,只是考虑到影响,没有这么做)
---
SNI 是 Server Name Indication(服务器名称指示)的缩写,SNI 会找 TLS 握手时明文传输,目的是让共用 IP 地址和 TCP 端口号的网站能被区别,但也因为 SNI 会明文传输,所以会因为深度包检测而被发现、封禁。
对此,存在名为域前置(Domain fronting)的绕过方案,这是一种发送虚假 SNI 给服务器的方案,由于 SNI 本身属于扩展协议,所以不正确的 SNI 或者没有 SNI,可能会触发服务器的兼容性功能,从而返回默认的或通用的证书,允许连接建立。(属于一种向前兼容)
2016 年开始,IM 软件 Signal、Telegram 使用了域前置规避审查,来解决被部分地区封锁的问题,2018年4月14日,由于俄罗斯大规模封禁 Google 和 Amazon 云的 IP,尝试禁止这些软件,所以 Google 和 Amazon 禁用了域前置。这标志依附的自由策略逐渐失效。
ggame
依附的自由(Collateral freedom)这种说法最早源自 OpenITP 团队编写的报告 Collateral freedom - A Snapshot of Chinese Internet Users Circumventing Censorship。
该报告研究了当时大陆的网络用户翻墙状况,当时 2013 年最流行的工具是 GoAgent,GoAgent 是使用 Python 和 Google Appengine SDK 编写的代理软件,特点是利用了 Google 的服务器、域名和 IP,而 GFW 当时没有足够能力,在不影响正常使用 Google 云服务器的网站的情况下,封禁 GoAgent。
这就算是依附的自由,这样的状况直到 Google 绝大多数服务被封锁的那一天。
---
最初的 GFW 没有打击各种 Proxy(代理)工具并没有用尽全力,可能是考虑到使用 Proxy 的用户,需要从事外贸等。这算是依附的自由。
之后常见的 Socks、PPTP、L2TP 等烂大街协议,开始被限制,不过 Cisco AnyConnect 被刻意忽略了较长时间。可能是因为 Cisco AnyConnect 用户的价值更高,所以这段时间,第三方开发者编写的兼容端 OpenConnect 能够获得不错的效果。这也算是依附的自由。
(从特殊时间〔比如开会〕,大多数工具难以连接来看,GFW 有能力禁止大多工具,只是考虑到影响,没有这么做)
---
SNI 是 Server Name Indication(服务器名称指示)的缩写,SNI 会找 TLS 握手时明文传输,目的是让共用 IP 地址和 TCP 端口号的网站能被区别,但也因为 SNI 会明文传输,所以会因为深度包检测而被发现、封禁。
对此,存在名为域前置(Domain fronting)的绕过方案,这是一种发送虚假 SNI 给服务器的方案,由于 SNI 本身属于扩展协议,所以不正确的 SNI 或者没有 SNI,可能会触发服务器的兼容性功能,从而返回默认的或通用的证书,允许连接建立。(属于一种向前兼容)
2016 年开始,IM 软件 Signal、Telegram 使用了域前置规避审查,来解决被部分地区封锁的问题,2018年4月14日,由于俄罗斯大规模封禁 Google 和 Amazon 云的 IP,尝试禁止这些软件,所以 Google 和 Amazon 禁用了域前置。这标志依附的自由策略逐渐失效。
ggame
Joker(扑克牌)—— 超越真物的伪物
扑克牌 最初是基于法国塔罗牌,简化之后得到的纸牌,仅有 52 张,即 4 种花色的 Ace 到 King 纸牌。
1875 年开始,商人加入了 Joker(通常翻译为鬼牌、小丑牌),理由是作为空白牌代替丢失的牌,就像是麻将的空白牌一样。
由于被印刷上了有趣的内容,所以许多新开发的玩法会用到 Joker,结果含有 Joker 的牌组逐渐成为了事实标准。甚至在部分规则中,成为了最大的牌。
附言 1:Joker 可能被理解为塔罗牌中的「愚者」牌,不过没有证据标明最初的创作者有这个想法。
附言 2:考虑到扑克牌中出现的骑士、女王和国王,这里的 Joker 可能指 宫廷小丑(弄臣),而宫廷小丑具有一些特权,比如愚弄国王。
附言 3:《爱丽丝梦游仙境》(1865)中也有扑克牌,不过其中没有出现 Joker,原因单纯是因为出书时间早于 Joker 牌组的流行。
#历史
扑克牌 最初是基于法国塔罗牌,简化之后得到的纸牌,仅有 52 张,即 4 种花色的 Ace 到 King 纸牌。
1875 年开始,商人加入了 Joker(通常翻译为鬼牌、小丑牌),理由是作为空白牌代替丢失的牌,就像是麻将的空白牌一样。
由于被印刷上了有趣的内容,所以许多新开发的玩法会用到 Joker,结果含有 Joker 的牌组逐渐成为了事实标准。甚至在部分规则中,成为了最大的牌。
附言 1:Joker 可能被理解为塔罗牌中的「愚者」牌,不过没有证据标明最初的创作者有这个想法。
附言 2:考虑到扑克牌中出现的骑士、女王和国王,这里的 Joker 可能指 宫廷小丑(弄臣),而宫廷小丑具有一些特权,比如愚弄国王。
附言 3:《爱丽丝梦游仙境》(1865)中也有扑克牌,不过其中没有出现 Joker,原因单纯是因为出书时间早于 Joker 牌组的流行。
#历史
粮票的痕迹
曾经粮票是作为限购策略,能应对资源短缺的情况。虽然粮票早已停止使用,但痕迹依然存在。
面食店,比如面条、饺子等食物,往往会使用「两」作为量词,比如「二两重庆小面」。不过这种量词很年轻,因为其他东亚地区都没有使用,而具体的原因,就是受到粮票影响。
过去要去餐馆购买饺子,除了要付钱,还需要支付粮票,所以造就了这一特殊的量词。不过现在的「两」往往不与实际重量挂钩了,成为了小中大碗的另一种写法。
附言 1:粮票换的面条,比面值更重一些,因为含有水分。
附言 2:同等两数的饺子理论上比面更多,因为这里的两仅仅指面粉含量。
附言 3:抄手的性价比较高,因为抄手的皮很薄,所以一两的数量会多些。(这是四川流行的食物,类似于馄饨,也是三年自然灾害的重灾区。)
参考了一些澎湃新闻的《“一两”包子、“二两”饭,到底有多少?》文章。
#历史 #原理
曾经粮票是作为限购策略,能应对资源短缺的情况。虽然粮票早已停止使用,但痕迹依然存在。
面食店,比如面条、饺子等食物,往往会使用「两」作为量词,比如「二两重庆小面」。不过这种量词很年轻,因为其他东亚地区都没有使用,而具体的原因,就是受到粮票影响。
过去要去餐馆购买饺子,除了要付钱,还需要支付粮票,所以造就了这一特殊的量词。不过现在的「两」往往不与实际重量挂钩了,成为了小中大碗的另一种写法。
附言 1:粮票换的面条,比面值更重一些,因为含有水分。
附言 2:同等两数的饺子理论上比面更多,因为这里的两仅仅指面粉含量。
附言 3:抄手的性价比较高,因为抄手的皮很薄,所以一两的数量会多些。(这是四川流行的食物,类似于馄饨,也是三年自然灾害的重灾区。)
参考了一些澎湃新闻的《“一两”包子、“二两”饭,到底有多少?》文章。
#历史 #原理
世界上的人名,知名主要是两类顺序,分别是东方序「姓」+「名」以及西方序「名」+「姓」。
1868 年,日本明治维新开始后,日本流行将罗马字化的人名,并让罗马字以西方序呈现,这同样影响到了中文等语言,即使现在正式场合已经流行东方序罗马字,还是难以违抗习惯的力量。
颠倒看起来能方便不了解「东方序」的人,不过就像浏览器隐藏 https 和 www 一样,与收获到的便捷相比,增加了不少复杂度。
也许总有一天,人名顺序就像性別认同一样被尊重,比如法律不再限制「姓」「名」的先后顺序,也就没有颠倒姓名的必要了。
附言 1:英文环境的人名按字母排序时,是给姓氏排序,所以就会像 封面图 一样的混乱。(Valve 员工名单)
附言 2:匈牙利虽然在西方,但 匈牙利人名 使用的是「东方序」,并且英文文献可能会将顺序换成「西方序」,总之得小心有人多此一举的行为。
#历史
李约瑟问题
Joseph Needham(约瑟夫·尼达姆)是生物化学家、科学史家和汉学家,李约瑟是他的中文名称,李约瑟也是「四大发明」说法的主要传播者。
他在研究了古代中国科学后,产生了一个想法:古代中国在科学技术方面早有成就,为何却被西方超越?这一问题也就被称作「李约瑟问题」。
这个问题可以多种角度对比,比如:打压商业,会让科技创新缺乏积极性;皇帝拥有无上的权利,导致无法保障财产权;限制农民流动性,导致难以形成工业区域;汉字学习复杂,导致学习成本高昂,或读写成本高昂……
李约瑟问题过于复杂,以至于能直接以此为题,写出厚厚的书籍,比如:《解“李约瑟难题”看现代科学》《中国科学与科学革命:李约瑟难题及其相关问题研究论著选》等等。
#Wikipedia
Joseph Needham(约瑟夫·尼达姆)是生物化学家、科学史家和汉学家,李约瑟是他的中文名称,李约瑟也是「四大发明」说法的主要传播者。
他在研究了古代中国科学后,产生了一个想法:古代中国在科学技术方面早有成就,为何却被西方超越?这一问题也就被称作「李约瑟问题」。
这个问题可以多种角度对比,比如:打压商业,会让科技创新缺乏积极性;皇帝拥有无上的权利,导致无法保障财产权;限制农民流动性,导致难以形成工业区域;汉字学习复杂,导致学习成本高昂,或读写成本高昂……
李约瑟问题过于复杂,以至于能直接以此为题,写出厚厚的书籍,比如:《解“李约瑟难题”看现代科学》《中国科学与科学革命:李约瑟难题及其相关问题研究论著选》等等。
#Wikipedia
无痕施政
「无痕施政」一词最早来自王剑于 2020 年的节目,其中提到:无记录的发放指令,比如口头传达,这就是无痕。
相似的情况很早就有,比如封禁的游戏很多,但明确具有法律效果的,封禁游戏的文件很少公布,导致有人认为这是平台意志封禁的游戏。
还有「意见」「通知」「公告」,这些「弱化的命令」也属于无痕施政,因为这些内容理论上,不具有法律效力。
昨天提到的 KOL 前台实名也是类似的情况,意见征求稿或者类似内容都没出现,却已经在准备前台实名了。
ggame
「无痕施政」一词最早来自王剑于 2020 年的节目,其中提到:无记录的发放指令,比如口头传达,这就是无痕。
相似的情况很早就有,比如封禁的游戏很多,但明确具有法律效果的,封禁游戏的文件很少公布,导致有人认为这是平台意志封禁的游戏。
还有「意见」「通知」「公告」,这些「弱化的命令」也属于无痕施政,因为这些内容理论上,不具有法律效力。
昨天提到的 KOL 前台实名也是类似的情况,意见征求稿或者类似内容都没出现,却已经在准备前台实名了。
ggame
微波炉相似的声音
虽然微波炉有各种厂商和型号,但大多都会在完成时发出多声「哔~」,这样的提示声。
这些声音相似的原因,是因为都使用了相似的压电蜂鸣器,以及配置了相似的频率和持续时间。
另外,微波炉启动时,其噪音主要来自散热风扇,这样的声音也具有相似性。
某种程度上也能说明,各品牌、型号的微波炉,核心差异不算大。
#原理
虽然微波炉有各种厂商和型号,但大多都会在完成时发出多声「哔~」,这样的提示声。
这些声音相似的原因,是因为都使用了相似的压电蜂鸣器,以及配置了相似的频率和持续时间。
另外,微波炉启动时,其噪音主要来自散热风扇,这样的声音也具有相似性。
某种程度上也能说明,各品牌、型号的微波炉,核心差异不算大。
#原理
文字的后处理式反审查
反审查的历史悠久,曾经常见的审查是论坛的敏感词系统,绕过方法就是不说这些敏感词,比如使用拼音、首字母、谐音等方法绕过。 所以严格来说,使用拼音首字母书写,也是叛逆的反审查行为。
具体的方法有:
1. 字符替换式:拼音、首字母;同音、谐音字;同形、谐形字。
unvcode 是同形、谐形字替换的知名开源软件,「火星文」也有相似的效果。
2. 插入字符式:空格、零宽间隔符等等。
3. 双重反转式。
将文字顺序反转,然后使用 Unicode 反转控制符(U+202E),范围可以为一行或每两字。
上述的大多功能都能在开源软件 Words-away 中找到,能够处理各种文字,不过用处不算大,因为大多数平台现在都不支持反转控制符。
反审查的历史悠久,曾经常见的审查是论坛的敏感词系统,绕过方法就是不说这些敏感词,比如使用拼音、首字母、谐音等方法绕过。 所以严格来说,使用拼音首字母书写,也是叛逆的反审查行为。
具体的方法有:
1. 字符替换式:拼音、首字母;同音、谐音字;同形、谐形字。
unvcode 是同形、谐形字替换的知名开源软件,「火星文」也有相似的效果。
2. 插入字符式:空格、零宽间隔符等等。
3. 双重反转式。
将文字顺序反转,然后使用 Unicode 反转控制符(U+202E),范围可以为一行或每两字。
上述的大多功能都能在开源软件 Words-away 中找到,能够处理各种文字,不过用处不算大,因为大多数平台现在都不支持反转控制符。
无法领取诺贝尔奖的人
最初是纳粹德国因为希特勒的法律的限制,多个德国科学家 因此无法领取化学奖(1938),和生理学或医学奖(1939)。
苏联作家 鲍里斯·帕斯捷尔纳克,因为编写的批判苏联体制的小说《日瓦戈医生》,所以即使获得了诺贝尔文学奖(1958),也因为环境压力而放弃领奖。
然后是五位在监狱中无法领取诺贝尔和平奖的人,分别是德国的 卡尔·冯·奥西茨基(1935),缅甸的 昂山素季(1991),白俄罗斯的 阿莱斯·比亚利亚茨基(2022),以及刚刚在伊朗,获得诺贝尔奖的 纳尔吉斯·穆罕默迪(2023)。
可以看出世界大战时期,近 20 年都出现了多人无法领取诺贝尔奖,这也许意味着……21 世纪的信息高速路,让诺贝尔奖委员会更容易找到合适的人选。
(不过像朝鲜那样的文化内循环,信息高速路不通车的地区,确实没法挑选诺贝尔和平奖获得者。)
#杂谈
最初是纳粹德国因为希特勒的法律的限制,多个德国科学家 因此无法领取化学奖(1938),和生理学或医学奖(1939)。
苏联作家 鲍里斯·帕斯捷尔纳克,因为编写的批判苏联体制的小说《日瓦戈医生》,所以即使获得了诺贝尔文学奖(1958),也因为环境压力而放弃领奖。
然后是五位在监狱中无法领取诺贝尔和平奖的人,分别是德国的 卡尔·冯·奥西茨基(1935),缅甸的 昂山素季(1991),白俄罗斯的 阿莱斯·比亚利亚茨基(2022),以及刚刚在伊朗,获得诺贝尔奖的 纳尔吉斯·穆罕默迪(2023)。
可以看出世界大战时期,近 20 年都出现了多人无法领取诺贝尔奖,这也许意味着……21 世纪的信息高速路,让诺贝尔奖委员会更容易找到合适的人选。
(不过像朝鲜那样的文化内循环,信息高速路不通车的地区,确实没法挑选诺贝尔和平奖获得者。)
#杂谈
汉字间距
在纸张上书写时,汉字并没有特殊间距,但在电脑出现后,汉字间距曾因为技术原因流行过,也有一些优点。有两种汉字间距,分别是「防错间距」与「语义间距」。
「防错间距」是因为早期的汉字字符编码系统没有统一,基本都是外挂汉字系统,结果就是常常遇到乱码。比如排版系统将中文编码的后半部分,换行到了下一行。
另一个原因是早期的数字排版系统不一定兼容 CJK 字符,可能会出现中文段落超过屏幕宽度的问题,用户需要调整横向的滚动条才能看到屏幕外的内容。因为原本排版系统,是以各种含有空格(词间距)的西文而设计的,所以只会在空格处自动换行。
所以只要给所有汉字添加字间距(空格),就能让排版系统正常工作。
「语义间距」即「词式书写」,以词语为单位,像英文等文字一样,在词语之间插入词间距。
虽然「词式书写」没有在汉字中大规模推广,成为某种正字法,但也有用户认为在信息时代,「词式书写」能够帮助机器翻译、信息检索和信息抽取,因为过去的自动分词尚不成熟。
〈GWLM 16-8 文字间距〉
在纸张上书写时,汉字并没有特殊间距,但在电脑出现后,汉字间距曾因为技术原因流行过,也有一些优点。有两种汉字间距,分别是「防错间距」与「语义间距」。
「防错间距」是因为早期的汉字字符编码系统没有统一,基本都是外挂汉字系统,结果就是常常遇到乱码。比如排版系统将中文编码的后半部分,换行到了下一行。
另一个原因是早期的数字排版系统不一定兼容 CJK 字符,可能会出现中文段落超过屏幕宽度的问题,用户需要调整横向的滚动条才能看到屏幕外的内容。因为原本排版系统,是以各种含有空格(词间距)的西文而设计的,所以只会在空格处自动换行。
所以只要给所有汉字添加字间距(空格),就能让排版系统正常工作。
「语义间距」即「词式书写」,以词语为单位,像英文等文字一样,在词语之间插入词间距。
虽然「词式书写」没有在汉字中大规模推广,成为某种正字法,但也有用户认为在信息时代,「词式书写」能够帮助机器翻译、信息检索和信息抽取,因为过去的自动分词尚不成熟。
〈GWLM 16-8 文字间距〉