最近闲来无事,逛逛豆瓣,看看新书,新书好多,一页一页的,这么多书目实在有点多了,有啥好办法能够快速筛选好书呢?
通过强大的某度,找到了一个RPA自动化工作,可以满足需求。效率大大提升,之前得花个10分钟左右的时候选书,现在最多1分钟
接下来就以豆瓣读书为例,初步了解下这块RPA工具。我目前采用的是“粒元数字员工”
1、实际操作步骤
1、打开豆瓣读书
2、新书速递–点击更多
3、抓取每页的书名、作者、评分、评论数
4、循环点击下一页
5、抓取每页的书名、作者、评分、评论数,写入定义的变量
6、新建excel,通过对应列表写入数据
2、整体效果展示
3、脚本编辑
3.1、主流程打开豆瓣读书首页,调用3个子流程
为什么会想到使用子流程呢?因为脚本一旦太多,复杂性提高,对于我这种小白,有时就会很难理解;使用子流程可以把脚本分块,更加容易理解,后期维护脚本也方便
3.2、循环获取书名信息
这里使用到了全局变量,设置为list,主要原因就是方便存放数据,为后面数据使用铺垫
先找到相似元素,再添加到列表
“循环相似元素”指令十分强大,RPA可以从元素库中选择一个已捕获的元素,再获取页面上相似的元素,从来把页面上所有相似元素获取,进而可以获取它们的对象、元素文本内容、元素值等,终于再循环操作你想操作的
3.3、循环获取作者信息
这里的作者信息是有空格的,为了美观,我使用了“删除文本两端的空格”指令,将“作者信息”字段删除空格
3.4、循环获取评分、评论数信息
评分信息是在整个大文本中的,这个该处理呢?这个问题我至少卡了1个小时,还得感谢RPA客服韩老师,在他的帮助下,理顺了思路。
先通过“(”分割,再取分割后的第1个元素 ,即为评分,由于有些新书是没有评分的,分割后就空,需要加if…else…,判断如果不等于None,就直接添加分割后的第1个元素,如果等于None,就添加0
有点点小复杂,没关系,用的多了就容易了
3.5、循环下页
这里通过点击下一页,循环页面,再去获取书籍信息
我要不停的循环每页的信息,使用了“无限循环”指令。既然无限循环,总不能一直循环下去吧,得找到退出条件
我用到了“if元素可见(web)指令”,通过该指令,检查如果下一页按钮不存在,意味着到了最后一页,就会退出循环
3.6、写入excel
将全局变量中的信息,依次写入到excel,最后记得要保存excel
内容保存除了常用的excel,文本、csv写入也是可以的,大家可以根据需求选择
3.7、最后展示下热搜信息
4、总结
简单实用,十分适合懒人,人人都是程序员,人人都AI,简单总结一下
1、 RPA指令丰富,简单易用,上手快,不会代码也能AI
2、 效率提升显著,原本搜罗这些热点信息需要10分钟左右,使用RPA之后,1分钟之内处理完成
3、 永久收益,脚本只需编辑调试成功,后面重复使用,大大得解脱双手
tips:这里只有豆瓣读书,豆瓣其它比如电影、音乐,小伙伴如果有需要可以留言,借一步说话。