来交技能篇读者翻的牌子了。先写评论点名最多的三篇:《怎么用八爪鱼爬数据》《怎么听懂英文播客》《怎么做无实体副业》。
生活中总会想「我要是有这些数据就好了」的时刻。不管是剧荒时参考豆瓣电影 Top 250 榜单,还是批量拉取某个公众号的文章标题,又或者分析商家爆品销量和评论。
不管是手动复制粘贴,还是用八爪鱼、后裔采集器、影刀 RPA,甚至自己写爬虫,都只是获取数据的方法之一。有时候手动快,有时候非工具不可。分享我应对不同场景获取数据的方法和思路。
Chrome 插件
每个月我会手动把最新博文更新到 GitHub,一个个复制粘贴链接太笨了,设置 Actions 自动同步当然酷,但我不会。所以有没有更合适我的方法?用八爪鱼?可以,但太重,就为了不到 10 条数据还得开软件。有没有更轻便的?有,Chrome 浏览器插件。
打开 Chrome 应用商店,搜索「爬虫」或「spider」,找好评多的挨个试试,看能不能满足你的需求。别怕难,浏览器插件一般都是傻瓜式操作。比如我正在用「Instant Data Scraper」,截图演示一下。
打开网站,点击 Instant Data Scraper
如果数据不是自己想要的,点击“Try another table”
复制或者下载 .xlsx 文件到本地处理数据
再用豆瓣电影 Top 250 试试。
这次运气不错,打开软件数据就是标准的。但我只想要电影链接、标题、评分和评分人数,其他多余的数据直接叉掉。叉错了,可以点击“Reset columns”按钮恢复数据列。
稍微进阶一点儿,比如你想抓更多数据,需要翻页或者无限滚动,可以选中「定位下一页」按钮,或者勾选「无限滚动」框。
八爪鱼采集器
总有用「Instant Data Scraper」无效,或者浏览器没有插件功能装不了这些扩展的时候。那就稍微麻烦点儿,装个八爪鱼采集器吧。
下载八爪鱼采集器,安装注册(注册时填邀请码:f3dzG6,我会得到 1 元奖励谢谢老板)登录后,输入你想抓数据的网站链接,开始采集。
换张潇雨的微博举例。
在八爪鱼中输入张潇雨的微博链接
点击「自动识别网页数据」
删减你不需要的数据字段
点击右上角「采集」,选择本地采集
到这里看起来都很像「Instant Data Scraper」,但如果你想自由组合数据字段,可以不用自动识别网页,手动点击你要的数据,然后选择「选中全部相似元素」,这个字段就被添加到采集需求框了。
再进一步。假如你想重复搜索一批数据的结果,比如你问朋友有什么小说好看,他丢给你了一堆书名。你想知道哪本好评更多,手动的话,就要一本本去起点或者豆瓣搜评分。但如果用八爪鱼就方便多了。
准备好批量搜索的文本
输入起点中文网搜索链接
点击搜索框,选择「输入文本」
选择「批量输入文本」,粘贴搜索词
网页点击搜索按钮,选择「点击该链接」
逐个点选我要的数据字段
点击右上角「采集」,选择本地采集
如果我没讲清楚,这有官方的图文教程。
到这一步,采集大多网页数据已不在话下。还有更高的要求,比如采集每条微博的标准格式时间,或者采集小宇宙 APP 的播客评论,就需要会点儿代码,或者找帮手了。
万能淘宝
向熟人求助总难以启齿,怕自己需求小担心劳对方大驾。就算你说给钱,也不知道给多少,多了少了都不合适。不如直接淘宝。
上淘宝搜索你要搜索的平台+数据/爬虫之类的关键词,比如「公众号数据」,或者直接搜「数据服务、数据爬虫、Python 爬虫」。唤起客服,和他聊聊你的需求,等他报价,如果合适,就下单坐等,啥也不操心。
用八爪鱼之类的工具采集数据是我学会的最实用的技能,花几个小时捋一捋流程,不用写代码,终生受益。如果你也学会了,欢迎回来报喜,顺便说说你都采集了什么有意思的数据(但不要随便分享可能侵权 😎)
🔗
💳 支持我并订阅我的动态和读书笔记,请购买我的 Telegram 频道,现价 499 元,我会用这份收入采集更多内容,用创作反哺。