Edit: 后续更新
自从不太使用 Evernote 之后,如何干净地保存网页信息就成了一个大问题。所谓「干净」,就是只保存网页主体的信息,而不包括其它不相关的部分,也就相当于保存下 Firefox 所提供的阅读模式中显示的内容。
本来,Evernote 提供的「悦读」是一个很好的方案,它首先提供了一个阅读模式,可以很好地对绝大多数网页实现抓取,然后它可以直接保存到 Evernote,可以说基本解决了我的需求。但由于各种原因,我现在基本不用 Evernote,使得这个需求还不太好自己解决了。
最开始想的办法是自己写一个 Python 脚本,爬一下网页,然后抓取主体信息,最后保存,看起来似乎每一个环节都不复杂,但尝试写了一下发现还是很麻烦:不同网站网页结构不同,涉及到如何分别处理的问题;有些文章需要翻页;有些网站如知乎专栏为了防转载做了不少障碍,等等。最终发现这个脚本要达到预期的目的,远不是半个下午就能轻松解决的小项目,暂时就打消了这个念头。
经过一些有意搜索和偶然的发现,现在有两种对我而言比较合适的方法。
方法一是打印到 PDF。这个需要用到微软的 Edge 浏览器 …
read more