前一篇文章中讲了我常用的保存网页到本地的办法，最近又有一些新的发现。

首先是 pandoc 转 docx 到 markdown 对 pandoc 的版本是有要求的，目前版本是1.17.1，可以正确处理带中文的文件。但如果用的是更旧的版本（似乎是1.15以前），会提示无法解码 UTF-8，因此推荐先把 pandoc 版本更新。

本文最主要想更新的是一个新的发现，我找到了一个叫 Typora 的软件，它本身是一个支持所见即所得的 markdown 编辑器（从知乎上的讨论来说，实现这样的东西似乎难度还很大），但它居然还支持了粘贴网页直接转换成 markdown 的功能。也就是说，不再需要手动保存成 docx，只需要把网页直接粘到里面就已经是 markdown 了。

还有一点很重要的特性，就是由于它本身所见即所得的特性，相当于每次打开 md 文件都会自动渲染成网页格式，所以甚至省掉了再重新转换成 html 方便查看的步骤了。

现在 Typora 还处于 $beta$ 版本，粘贴的时候偶尔会遇到少量问题，但其实用 Pandoc 的方案也会有一定机率出问题，所以总的来说 typora 基本可认为是目前我所知的最佳方案了。

保存网页到本地的两种办法

Edit: 后续更新

自从不太使用 Evernote 之后，如何干净地保存网页信息就成了一个大问题。所谓「干净」，就是只保存网页主体的信息，而不包括其它不相关的部分，也就相当于保存下 Firefox 所提供的阅读模式中显示的内容。

本来，Evernote 提供的「悦读」是一个很好的方案，它首先提供了一个阅读模式，可以很好地对绝大多数网页实现抓取，然后它可以直接保存到 Evernote，可以说基本解决了我的需求。但由于各种原因，我现在基本不用 Evernote，使得这个需求还不太好自己解决了。

最开始想的办法是自己写一个 Python 脚本，爬一下网页，然后抓取主体信息，最后保存，看起来似乎每一个环节都不复杂，但尝试写了一下发现还是很麻烦：不同网站网页结构不同，涉及到如何分别处理的问题；有些文章需要翻页；有些网站如知乎专栏为了防转载做了不少障碍，等等。最终发现这个脚本要达到预期的目的，远不是半个下午就能轻松解决的小项目，暂时就打消了这个念头。

经过一些有意搜索和偶然的发现，现在有两种对我而言比较合适的方法。

方法一是打印到 PDF。这个需要用到微软的 Edge 浏览器 …

Charles Chen's blog

Other articles

保存网页到本地的两种办法

Other articles

links

social