网站网络爬虫Bot

随笔2个月前发布 紫玉米
43 0 0

爬虫检测:https://www.wbolt.com/tools/spider-tool

      https://www.pdflibr.com/crawler/list/search-engine

1.DataForSeoBot

"GET /en/stores/hertz HTTP/1.1" 200 165003 "-" "Mozilla/5.0 (compatible; DataForSeoBot/1.0; +https://dataforseo.com/dataforseo-bot)"

DataForSEO 网站的蜘蛛。由于访问速率太大,建议小型网站进行屏蔽。
自从我们推出 DataForSEO 以来,我们的使命就是通过向世界各地的 SEO 爱好者和专业人士提供高质量的数据来公平竞争。
DataForSEO 机器人是确保 SEO 社区的每个成员 – 无论口袋大小都可以访问 Google 排名算法的核心元素。我们正在开发网络上最大的可用反向链接数据库,包括您在内的社区每个成员都可以使用该数据库并从中受益。

 2.AhrefsBot

"GET /en/stores/ecco?r=ref-BLOG HTTP/1.1" 200 261464 "-" "Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)"

AhrefsBot 是国外网站的一个蜘蛛程序,那么 Ahrefs 是什么网站呢,这个是国外一个网络营销类的网站,有点类似于国内的5118、站长网之类,在 SEO 界比较有名的。AhrefsBot数据库里面有超过12万亿条链接,每天它就在不断的执行和监控Ahrefs的在线营销活动,每24小时就要访问超过60亿个网页,每15-30分钟就要更新一次索引。

根据一项调查显示,AhrefsBot是仅次于谷歌蜘蛛(Googlebot)的世界第二大活跃蜘蛛爬虫程序。

AhrefsBot 会增加你服务器的负担外,并不会对你的网站造成什么影响,它既不会触发网站上的广告,也不会在统计中增加流量。建议屏蔽 AhrefsBot

3.YandexBot

Yandex 搜索引擎如何加快收录:https://answers.fuyeor.com/zh-hans/question/5929

"GET /en/stores/vans HTTP/1.1" 200 153778 "-" "Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0"
俄罗斯搜索巨头Yandex的蜘蛛

使用 CDN 加速:
若你的网站不在俄罗斯境内,则 YandexBot 在爬取时需要耗费更多时间,或者无法加载。同时 Yandex 会认为你的网站不易访问,从而减小收录量。此时我们需要使用境外 CDN 加速,针对俄罗斯地区的访问速度进行优化。

多发外链:
若你的网站使用 site 命令查询仅有几个主页,没有收录内页;或者你的网站是个新网站,需要快速收录,使用常规的站长提交是缓慢的,可能要等待几十天。此时想要做到快速收录的方法就是在高权重的网站或俄罗斯 .ru 域名的网站上发几条外链,新站点、子域名一般隔天就能收录(在不做其他任何操作的情况下,包括不去网站管理员提交),老站点可以快速收录内页。

YandexRenderResourcesBot

"Mozilla/5.0 (compatible; YandexRenderResourcesBot/1.0; +http://yandex.com/bots) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0"

4.AdsBot-Google-Mobile

https://developers.google.cn/search/docs/crawling-indexing/overview-google-crawlers?hl=zh-cn

检查移动网页广告质量。 忽略 robots.txt 中的全局用户代理 (*)。

"GET /en/deal/7626 HTTP/1.1" 404 45768 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.6533.119 Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)"

5.SeznamBot

搜索引擎

UserAgent信息为:
"GET /en/stores/perriconemd HTTP/1.1" 200 256842 "-" "Mozilla/5.0 (compatible; SeznamBot/4.0; +http://napoveda.seznam.cz/seznambot-intro/)"

6.PetalBot

"GET /en/stores/hokaoneone HTTP/1.1" 200 88814 "https://47.57.238.122/en/firstorderexclusive" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

PetalBot 是华为自研搜索引擎的爬虫,叫做花瓣蜘蛛,将来或许也会在国内再杀出一个搜索引擎。现华为花瓣搜索引擎仅对欧洲用户开放。

PetalBot 符合 Internet 机器人协议。您可以使用 robots.txt 文件完全阻止 PetalBot 访问您的网站,或阻止 PetalBot 访问您网站上的某些文件。

为了获得对目标资源更好的检索结果,PetalBot 需要保持一定程度的网站爬网。我们力求不给网站带来不合理的负担,我们将根据服务器容量,网站质量和网站更新等综合因素进行调整。如果 PetalBot 的访问有任何不合理的行为,请将您的疑虑发送至 search@aspiegel.com。

7.AwarioSmartBot

不知道什么爬虫,可以屏蔽

"GET /robots.txt HTTP/1.1" 200 556 "-" "AwarioSmartBot/1.0 (+https://awario.com/bots.html; bots@awario.com)"

8.PerplexityBot

AI搜索引擎:https://new.qq.com/rain/a/20240620A082P100?suid=&media_id=

[28/Aug/2024:00:17:16 +0800]-[207.199.190.34]- "GET /en/stores/vitacostus HTTP/1.1" 200 284563 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://docs.perplexity.ai/docs/perplexity-bot)"

9.Impact Radius Compliance Bot

国内官网:https://impact.com.cn/

"GET /r/x8z63h HTTP/1.1" 302 15 "-" "Mozilla/5.0 (compatible;Impact Radius Compliance Bot) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.6045.214 Safari/537.36"

IMP是一个国外的英文联盟,全称是Impact Radius。一般简称IMP,或者叫impact

IMP属于SaaS形式的联盟,和其他常见的Awin、CJ等不一样。同时,它还有个特征就是,在“联盟 - 商家 - AFF”这个三角关系中,它是更偏向于商家的。所以,我们AFF在IMP这个联盟里,更贴近于“弱势角色”。    据其他圈内人士的分析:IMP和广告商属于非常弱的联盟管理关系,甚至怀疑,它有没有好好监管sales tracking。理由是:同一家广告商,用同一个网站流量,反复对照测试了好几次,虽然佣金比例条款一致,但是CJ就是imp佣金多,转换率高。

按照Impact自己的说法,他们是Saas平台,所以更注重广告主端的服务。 而且他们收取的是广告主的服务费,所以下游这边比较松散

10.SurdotlyBot

应该可以屏蔽,量太少先放着
"GET / HTTP/1.1" 200 536309 "-" "Mozilla/5.0 (compatible; SurdotlyBot/1.0; +http://sur.ly/bot.html)"

 11.BitSightBot

可以屏蔽

"OPTIONS /guest-api/rest/get-advertisement?slug=index_navigation&_=1724789725563 HTTP/1.1" 200 0 "https://click.rebatesme.com/" "Mozilla/5.0 (compatible; BitSightBot/1.0)

 12.CrsspxlBot

可以屏蔽

"GET /en/r/sqx06m HTTP/1.1" 302 0 "-" "Mozilla/5.0 (compatible; CrsspxlBot; +http://www.crosspixel.net/)"

 13.DotBot

"GET /en/deal/3749 HTTP/1.1" 404 114 "-" "Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)"

DotBot是Moz的网络爬虫程序,Moz旗下链接分析网站opensiteexplorer专门用来分析网站SEO外链数据,BotBot蜘蛛爬虫就是为Moz服务,在互联网上抓取大量的网页进行各种数据分析。

如果我们不希望Dotbot抓取自己的网站,可以使用robots.txt进行屏蔽。DotBot遵robots.txt协议

14.Mail.RU_Bot

搜索引擎()

"GET /en/stores/steepandcheap HTTP/1.1" 200 265600 "-" "Mozilla/5.0 (compatible; Linux x86_64; Mail.RU_Bot/2.0; +https://help.mail.ru/webmaster/indexing/robots)"

 15.DuckDuckBot

"GET / HTTP/1.1" 200 536310 "https://www.rebatesme.com/" "DuckDuckBot/1.1; (+http://duckduckgo.com/duckduckbot.html)"
搜索引擎
DuckDuckBot是DuckDuckGo的网络爬虫,它提供 “网络浏览器上的无缝隐私保护”

16.PanguBot

"GET /mobile/coupon/1420495 HTTP/1.1" 302 15 "https://www.rebatesme.com/cmb/register" "Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PanguBot;pangubot@huawei.com)"

AI安全模型

17.SiteAuditBot

"GET /guest-api/rest/get-advertisement-map?slugs=nav_international&_=1723368452732 HTTP/1.1" 200 756 "https://www.rebatesme.com/en/deal/37269" "Mozilla/5.0 (compatible; SiteAuditBot/0.97; +http://www.semrush.com/bot.html)"

和semrush 有点关系

18.1001FirmsBot

官网:https://www.1001firms.com/

"GET / HTTP/1.1" 200 558023 "-" "Mozilla/5.0 (compatible; 1001FirmsBot/1.0; +https://www.1001firms.com/1001firmsbot.php)

 19.AwarioBot

量比较少

"Mozilla/5.0 (compatible; AwarioBot/1.0; +https://awario.com/bots.html)

 20.BLEXBot

GET /robots.txt HTTP/1.1" 200 556 "-" "Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)"
爬虫或者搜索引擎,量少

21.ImagesiftBot

屏蔽

ImagesiftBot 是一个网络爬虫,主要用于在互联网上抓取公开可用的图像,以支持 Imagesift 的网络智能产品套件

Mozilla/5.0 (compatible; ImagesiftBot; +imagesift.com)

 22.SeekportBot

搜索引擎,德国

"GET /robots.txt HTTP/1.1" 200 556 "-" "Mozilla/5.0 (compatible; SeekportBot; +https://bot.seekport.com)"

 23.MojeekBot

搜索引擎

"GET /robots.txt HTTP/1.1" 200 556 "-" "Mozilla/5.0 (compatible; MojeekBot/0.11; +https://www.mojeek.com/bot.html)

24.SenutoBot

"SenutoBot/1.0 (compatible; SenutoBot/1.0; +https://www.senuto.com/)
网站分析,量比较少,可以先放着

25.t3versionsBot

官网:https://www.senuto.com/

"Mozilla/5.0 (compatible; t3versionsBot/1.0; +https://www.t3versions.com/bot)"
量少,没什么问题

26.YodaoBot 网易有道

"Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/xA1xB1; )

 27.ZumBot

"Mozilla/5.0 (Windows NT 10.0; ZumBot/1.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
量少

 

© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...