Skip to main content

Command Palette

Search for a command to run...

图文演示,无代码采集数据的 3 种方法

Published
1 min read
图文演示,无代码采集数据的 3 种方法

来交技能篇读者翻的牌子了。先写评论点名最多的三篇:《怎么用八爪鱼爬数据》《怎么听懂英文播客》《怎么做无实体副业》。

生活中总会想「我要是有这些数据就好了」的时刻。不管是剧荒时参考豆瓣电影 Top 250 榜单,还是批量拉取某个公众号的文章标题,又或者分析商家爆品销量和评论。

不管是手动复制粘贴,还是用八爪鱼、后裔采集器、影刀 RPA,甚至自己写爬虫,都只是获取数据的方法之一。有时候手动快,有时候非工具不可。分享我应对不同场景获取数据的方法和思路。

Chrome 插件

每个月我会手动把最新博文更新到 GitHub,一个个复制粘贴链接太笨了,设置 Actions 自动同步当然酷,但我不会。所以有没有更合适我的方法?用八爪鱼?可以,但太重,就为了不到 10 条数据还得开软件。有没有更轻便的?有,Chrome 浏览器插件。

打开 Chrome 应用商店,搜索「爬虫」或「spider」,找好评多的挨个试试,看能不能满足你的需求。别怕难,浏览器插件一般都是傻瓜式操作。比如我正在用「Instant Data Scraper」,截图演示一下。

  1. 打开网站,点击 Instant Data Scraper

  2. 如果数据不是自己想要的,点击“Try another table”

  3. 复制或者下载 .xlsx 文件到本地处理数据

再用豆瓣电影 Top 250 试试。

这次运气不错,打开软件数据就是标准的。但我只想要电影链接、标题、评分和评分人数,其他多余的数据直接叉掉。叉错了,可以点击“Reset columns”按钮恢复数据列。

稍微进阶一点儿,比如你想抓更多数据,需要翻页或者无限滚动,可以选中「定位下一页」按钮,或者勾选「无限滚动」框。

八爪鱼采集器

总有用「Instant Data Scraper」无效,或者浏览器没有插件功能装不了这些扩展的时候。那就稍微麻烦点儿,装个八爪鱼采集器吧。

下载八爪鱼采集器,安装注册(注册时填邀请码:f3dzG6,我会得到 1 元奖励谢谢老板)登录后,输入你想抓数据的网站链接,开始采集。

换张潇雨的微博举例。

  1. 在八爪鱼中输入张潇雨的微博链接

  2. 点击「自动识别网页数据」

  3. 删减你不需要的数据字段

  4. 点击右上角「采集」,选择本地采集

到这里看起来都很像「Instant Data Scraper」,但如果你想自由组合数据字段,可以不用自动识别网页,手动点击你要的数据,然后选择「选中全部相似元素」,这个字段就被添加到采集需求框了。

再进一步。假如你想重复搜索一批数据的结果,比如你问朋友有什么小说好看,他丢给你了一堆书名。你想知道哪本好评更多,手动的话,就要一本本去起点或者豆瓣搜评分。但如果用八爪鱼就方便多了。

  1. 准备好批量搜索的文本

  2. 输入起点中文网搜索链接

  3. 点击搜索框,选择「输入文本」

  4. 选择「批量输入文本」,粘贴搜索词

  5. 网页点击搜索按钮,选择「点击该链接」

  6. 逐个点选我要的数据字段

  7. 点击右上角「采集」,选择本地采集

如果我没讲清楚,这有官方的图文教程

到这一步,采集大多网页数据已不在话下。还有更高的要求,比如采集每条微博的标准格式时间,或者采集小宇宙 APP 的播客评论,就需要会点儿代码,或者找帮手了。

万能淘宝

向熟人求助总难以启齿,怕自己需求小担心劳对方大驾。就算你说给钱,也不知道给多少,多了少了都不合适。不如直接淘宝。

上淘宝搜索你要搜索的平台+数据/爬虫之类的关键词,比如「公众号数据」,或者直接搜「数据服务、数据爬虫、Python 爬虫」。唤起客服,和他聊聊你的需求,等他报价,如果合适,就下单坐等,啥也不操心。

用八爪鱼之类的工具采集数据是我学会的最实用的技能,花几个小时捋一捋流程,不用写代码,终生受益。如果你也学会了,欢迎回来报喜,顺便说说你都采集了什么有意思的数据(但不要随便分享可能侵权 😎)

🔗

AI 来了,什么技能最值得我们学

工作近 10 年,我靠这 9 个技能包

💳 支持我并订阅我的动态和读书笔记,请购买我的 Telegram 频道,现价 499 元,我会用这份收入采集更多内容,用创作反哺。

More from this blog

99% 的人都忽略的比特币周 Ema10 策略细节

我们在执行周 EMA10 策略时,要下单就避免不了精确的问题。比如币安交易所比特币现货 2024 年 4 月 22 这根周线,收盘价 63118,周 EMA10 是 62918,相差 0.3%,这么细微的差距算不算跌破?还有这根 K 在 Deribit 交易所收盘跌破了,不同交易所,有的跌破有的没有,以哪个为准? 我的经验是,你在哪个交易所做哪个交易对就以它为准,不管别的。这种误差有时候会赚有时候会亏,干脆忽略。当然前提是大交易所,像币安、Coinbase、Bybit。差几块钱就跌破或突破,我一...

Nov 4, 20252 min read
99% 的人都忽略的比特币周 Ema10 策略细节

开始装修了,什么最重要

9 月开始装新房了,这两天刚砸完墙。 又是个掉头发的大项目,还好有备婚的经验,只要找个专业的「项目经理」就一切好说。和设计师聊了一个多月,最后跟着去看了几套在装的房子,觉得风格合眼就定的硬装全包,每个关键节点叫我们去验收就行。 说是全包,但不能一点儿心不操啊,看了几天小红书不得劲,全都是一套词,干脆去豆瓣搜「装修」,把前几的高分书都买回来过一遍。临时抱佛脚也能让自己少被忽悠点。 之前就听说装修是夫妻吵架的重灾区,我和老婆嗤之以鼻,意见非常统一。大方向就是简单,能不做的就不做,风格温馨不网红就好...

Oct 1, 20251 min read
开始装修了,什么最重要

四个字让周 Ema10 策略,升级成完整的交易系统

// 本文是 20 分钟的视频文字稿,单看文字有不明晰的地方,可以评论或私聊找我要链接 🎞️ 上期视频留了 5 个问题,需要每个交易者根据自己的性格回答。这一期,聊我怎么解决这 5 个问题,我的方法和思路是什么?我怎样用一个个具体的问题,构建我的交易系统。 第一个问题出现在回测开头,币安现货数据不够,可能存在 20K 突破但我们没有数据,只能眼睁睁看着行情上涨不能上车。你可能会说参考其他交易所数据就知道了,没错,但我们要模拟的就是各种各样的状况。假如有一天你遇到了十连阳,暴涨上不了车,你会怎...

Sep 21, 20253 min read
四个字让周 Ema10 策略,升级成完整的交易系统

极简比特币策略的 107 周持仓体验丨k 线盲测

不凑巧,上期视频我们分享了比特币周 EMA10 策略后,这周一收盘就跌破了 EMA10,如果执行这套策略的话,已经到了清仓点。 所以有读者邮件向我确认,是不是要清仓了。我说,如果你没用过这个策略,不建议马上照搬,优先执行自己原有的系统。因为时间不够,你还没仔细研究过,不可能有信心,做起来容易虎头蛇尾。你现在想清仓,大概率是找了个策略背锅而已。是你想要清仓了。 我的经验是不要背叛自己的研究成果。我在这上面吃过太多亏了,经常到了策略开平仓位,却不执行,有时候因为害怕,有时候因为固执,有时候是被其他...

Sep 5, 20251 min read
极简比特币策略的 107 周持仓体验丨k 线盲测

2 个数字 1 条线,获得比特币 20.5 倍收益

如果你和我曾经一样,尝试过各种技术交易方法,道氏、箱体理论、海龟交易法、维加斯隧道法、双均线交易法,买突破也买回调……但越努力,本金却越少的话。先停下来,不要想着把时间级别越做越小,这样赚钱机会就越多了,并不会。 技巧多如牛毛,如果你一天有 800 种单可以做,但脑子却越来越浆糊,那么你需要的不再是更多技巧,而是一个简洁的,让你开单不纠结的压舱石策略。这个策略必须简单到只有一招一式,但能至少帮你吃到大趋势的鱼身。怎么找到这个压舱石策略? 不妨深呼吸,背往后靠一靠,忘记 KDJ、RSI、布林带、美...

Aug 28, 20252 min read
2 个数字 1 条线,获得比特币 20.5 倍收益

涂俊杰JunJie - 时间记录践行者

505 posts

创作者/交易员,公众号:以涂俊杰为方法