奔跑中的奶酪

靠谱!奶式“干净又好看”网页保存方法!

导读

靠谱!奶式“干净又好看”网页保存方法!

关于信息收集,可以讲的内容很多。

此前奶酪分享过关于链接的《i06-书签管理》,关于图片的《i13-图片下载》,关于视频的《i14-视频下载》。

今天我们来讲讲“网页保存”,预计能帮你解决 99% 的网页保存问题。

至于效果嘛,当然是“干净又好看啊,兄弟们”。

一、网页保存的历史

事实上,浏览器在很早的时候就有“网页保存”功能。

1、自带的保存方法

而且,保存方式还不少,当你按下快捷键 Ctrl+S,在弹出的对话框里,会有不同的选择,包括:

• 网页,全部
• 网页,仅 HTML
• 网页,单个文件
• 网页,纯文本

对于文件管理来说,“网页,单个文件”无疑是更好的选择。

这个文件会以 .mhtml.mht 为后缀名(.mht 是 .mhtml 的缩写),而网页上的图片、样式、脚本等内容,则会以 base64 编码的形式保存在这个文件里。

i18_网页自带保存方式

2、更好的保存方法

1999 年,IE 5 是第一个支持将网页保存为 .mhtml 格式的浏览器。

此后,ChromeChromium 浏览器也都支持将网页保存为 .mhtml 格式,而 Firefox、Safari 浏览器则不支持。

因为 Firefox 主推的是 .maff 格式,而 Safari 则主推 .webarchive 格式。

所以,.mhtml 文件格式算不上是一种通用格式。

i18_网页自带保存方式2

就算你只用 Chrome 浏览器,在保存网页时,.mhtml 文件也可能会出现“保存出错”的情况。

因为 .mhtml 文件做为 HTML 4 时代的产物,已经与当前主流的 HTML 5 脱节。

而现行的 HTML 5 版的 .html 文件格式,已经能实现 .mhtml 的全部功能。

所以,使用 .html 格式来保存网页是更好的选择。

二、HTML 格式保存

不过,想要“将网页完整地保存到一个 .html 文件”,目前需要借用拓展来实现。

1、拓展 SingleFile

而目前最好用的拓展,当属 SingleFile

SingleFile 主打“简单快速”,它可以一键将当前网页离线保存为 .html 格式。

i18_SingleFile

但要注意的是,一些网页会设置“图片延迟加载”。

虽然左下角会显示“延迟加载的图像”,但一些网页还是可能无法正常保存,比如“微信公众号”的文章就是如此。

所以,为了确保正常保存,最好还是“手动滚动网页到底”。

2、保存前编辑

SingleFile 的另一个优点,就是可以“保存前编辑”。

我们借此可以去掉网页里不想要的内容,比如顶部的导航栏、右边的侧边栏、还有烦人的广告。比如下面的效果:

i18_SingleFile3

净化网页内容的另一种方法,是使用“阅读模式”拓展。

但我并不推荐,它是能起到只保留主体内容的效果,但通常也会打乱原有的排版,给阅读增加难度。

还是使用 SingleFile 的“保存前编辑”功能更靠谱。

i18_SingleFile2

3、允许访问文件网址

将网页保存为本地 html 文件后,原来的拓展和脚本功能会失效。

但其实只是默认没开启罢了。

打开拓展的“设置页面”,勾选“允许访问文件地址”即可,这样一来,本地 html 文件和普通网页就没什么区别了。

i18_SingleFile2

至于 Firefox 的话,Firefox 默认就支持,无需额外操作。

三、PDF 格式保存

html 文件在“电脑端”使用是没问题的,但如果在“移动端”就不一定了。

比如它在 QQ、微信、邮件等应用上是无法直接打开的,所以有时候我们需要将网页保存为 PDF 格式。

1、自带方案

浏览器自带就有将网页另存为 PDF 的功能,它通过虚拟打印机(快捷键 Ctrl+P)来实现。

但绝大多数情况下,效果都不让人满意。

我们可以借助拓展 SingleFile 的编辑功能,对影响打印效果的内容进行编辑后,再另存为 PDF

i18_PDF打印

2、PDF Mage 方案

但无论如何,通过打印来保存 PDF 的方式,都会强制分页

这导致网页的排版效果会丢失,阅读体验不如原网页,有没有办法将 PDF 输出为 1 个页面呢?

PDF Mage,是我目前能找到效果最好的一款拓展。

支持:Firefox / Chrome / Edge

i18_PDF_Mage

但拓展 PDF Mage 也并不是完美无缺点。

通过 PDF Mage 保存的 PDF 文件,有时也会出现字体变换、颜色变换、细节丢失等情况。

不过,就拓展来说,PDF Mage 已经是这方面的“天花板”了。

i18_PDF_Mage

3、Opera 方案

能真正意义上,能将网页 1:1 另存为 PDF 的。

当属 Windows 下的 Opera 浏览器,还有 macOS 下 的 Safari 浏览器。

i18_Opera

Opera 浏览器自带就有“另存为 PDF”的功能。

效果可以说一模一样,而且保存速度极快,即使网页内容再多,文件再大,也都能正常保存。

i18_Opera2

如果你的主力浏览器不是 Opera,别担心,我有办法。

我在文章《i37-浏览器协作》有讲到“如何一键调用 Opera”,可以在调用打开 Opera 的同时,也打开当前页面。

我们可以把 Opera 当作是一个“工具人”来使用。

i18_Opera3

回复关键字 i37,可查看具体方法,以及获取 Opera 便携版。

四、Markdown 格式保存

如果网页有多个分页时,一般的方法是需要保存为多个文件。

这时候最好的方法,还是通过文档软件来手动编辑,但别误会,我说的不是 Word,而是 Typora

1、Typora 编辑器

Typora 是目前最受欢迎的 Markdown 编辑器。

Markdown 格式,可以简单地理解为 html 格式的精简版,它可以让用户关注内容本身,但本质上还是 html

也就是说,Markdown 和 html 可以相互转换(大部分情况)。

i18_Markdown

从网页上复制的内容,可以无损地粘贴在 Typora 上,而 Typora 也可以将内容导出为 html 文件。

至于效果嘛,当然是“干净又好看”,就连文章大纲也都能显示。

i18_Typora

2、Markdown 离线保存

不过要注意的是,此时的 Markdown 文件并没有离线保存。

Markdown 文档里的图片依旧是链接,我们可以将图片直接保存在本地,又或者把文档导出的 html 格式,然后利用 SingleFile 来实现离线保存。

至于要保存为 PDF 格式。

拓展 SingleFileOpera 浏览器也都是支持将本地文件导出为 PDF 的。

i18_Typora2

你可能会说,这也太“麻烦”了吧。

换个角度想,如果这个内容真的有价值,那这个麻烦也是值得的,它可以让我们的“资料库”更精简。

五、印象笔记保存

网页保存还有一种方法,就是通过“印象笔记”来保存。

可以说,印象笔记是以一己之力把“网页剪藏”一词带火,不过不同的是,印象笔记是将网页保存在服务器上。

考虑到容量限制的问题,印象笔记在“电脑端”的作用并不大,它更多的是用在“移动端”。

1、保存微信内容

一键保存微信内容的最新方法:

1)关注「我的印象笔记」公众号,点击绑定帐号。

2)回复关键字「印象收藏助手」,这时会得到一个微信企业号的名片,点击“添加好友”。

3)把微信的公众号文章、文字、图片、视频等内容,转发给「印象收藏助手」后,就可以一键保存到印象笔记。

也就是说,保存方法和微信自带的「文件传输助手」一样。

i18_印象笔记_Wechat

此后,就再也不怕“文件已过期”、“该内容已被发布者删除”、又或者“此内容因违规无法查看”了。

2、保存微博内容

一键保存微博内容的最新方法:

1)关注微博帐号「@我的印象笔记」,点击绑定帐号。

2)选择任意一个微博,点击“分享”,选择“私信和群组”,然后转发好友列表里的「我的印象笔记」。

i18_印象笔记_Weibo

是的,“随时随地保存新鲜事”!

3、保存其他内容

至于其它的 App 应用,它们不像微信、微博这么方便。

所以保存方法要原生一些,大概思路就是,将当前页面“分享”,然后在“分享列表”里选择“印象笔记”。

i18_印象笔记_其他

哦!对了,印象笔记运营部如果看到了,记得给我打钱哈!

结尾

i18_网页保存总结

以上“奶式”网页保存法,已经可以帮你解决 99% 的问题了。

如果你看了我的文章,也开始收藏内容了,那我真是“大功一件”。

而如果你看了我的文章,开始变得“更积极”了,变成了收集癖患者,那我可就“罪过大了”。

知识管理的“黄金分割点”。

必然要是在“做减法”和“做加法”之间取平衡,如果你还处在疯狂的“做加法”阶段。

请关注我后续的专栏「知识就是力量」,代号 K

最后

  1. 欢迎关注奶酪 公众号 获取奶酪所有的原创资源,回复文章编号,比如 i18 就可获取对应的资源。
  2. 欢迎订阅我的 “奶酪书签专业版”,15年沉淀,超过 5000 个分类井条有序的好用实用 html 网站书签。
  3. 本文由「奔跑中的奶酪」原创创作,欢迎订阅、留言和 打赏,也欢迎引用和转载,但要注明出处。
版权声明:本文由作者 奔跑中的奶酪 发布,版权归作者所有,如需转载,请署名作者并标记内容来源。
194
avataravatar

评论:

4 条评论,访客:0 条,站长:0 条
  1. 寒山水暖
    寒山水暖发布于: 

    pdf mage 保存的 pdf 怎么还有密码?

  2. abc
    abc发布于: 

    《那既然违规了,你还看啥???》

  3. 1
    1发布于: 

    这篇文章明明是新的,网页顶端时间却是2021年?

发表回复