Octoparse

Octoparse八爪鱼采集谷歌地图信息,外贸客户批量爬取2022

Octoparse八爪鱼采集谷歌地图信息,外贸客户批量爬取,地址,网址,客户类型,公司名称,电话,营业时间,评分等级,八爪鱼脚本,外贸实战笔记原创,转载注明出处。

有关于本站八爪鱼所有脚本,QQ群文件都可下载。

Octoparse八爪鱼采集谷歌地图客户信息

与后羿采集器比对

两款工具,都可运行。如果一定要选,选八爪鱼。

  • 八爪鱼有中英文网址,英文网址里有多个国外站点现成模板
  • 八爪鱼将我一直想要实现的谷歌搜索引擎思路做成了现成方案,后面详解,强推
  • 后羿采集器,小气,官网直接下载的安装包,IP设置都需要收费(QQ群下载3.5.3老版本)
  • 选一个软件,看它网站建设,软件界面结构,有颜有实,才能受宠

优缺点比对:

  • 后羿采集器,设置简单明了,非常容易上手
  • 八爪鱼,流程图非常耗脑,与Web Scraper,有一比
  • 外贸实战笔记,八爪鱼谷歌地图脚本,耗时半个月,对于一个文科生,上头(如果自己搞不定,去QQ群文件下载)

官网

八爪鱼谷歌地图脚本使用方式

此站制作的谷歌地图八爪鱼脚本使用中文站点。

20221006201334
20221006222738
7915b206544a77f7a8fdfd38d694769

20221008爬了一天

UWNACXM29X87WD21WS8
CBJPCQC@JNCQYOGV5Y
20221009113357

Google Map is really strict with web scraping!

谷歌搜索引擎搜索指令一站到底(英文站)

英文网站里有黄页等一些现成模板,可以试试,个人更喜欢用Web Scraper,能搞定的就用Web Scraper,不用每次都去装个软件。

自从使用谷歌搜索引擎开始,比如做battery这个产品,谷歌搜索指令千变万化,非常多实用的指令,site调网址,about us界面,域名后缀,公司名后缀,国家地区位置定位,intitle,inurl等等,就想过一个问题,每次都要手动输入一个指令,难道没有办法把这些指令全都给串起来吗?

L Z7VQ1 TK32LI F6W

后来接触到插件SEOquake,Link Grabber,Instant Data Scraper,Search All等,能稍微增加一下效率。

再后来,知道了Macro Recorder,键鼠智能化,进一步节约时间。也是日常中最常用的方法。

对于谷歌搜索引擎来讲,谷歌跳人机验证,没有解决方案,网络上的各种大神,没有人能够。断言。

八爪鱼,将一直有的思路,做出来了,不能够完美操作,依然要强推。牛逼!

6FCRTSEIIGXI7BROL6
20221006193456
WYNEE5Q5NIRV4T7C5VLU

这种方法好吗?好,就是慢。慢,也是一种规避人机验证的方法。

当然了,如果愿意挑战自我,也可以自己做一个流程。这个英文站点现成模板,不能设置时间间隔。也不能跳IP。后羿采集器,也肯定能实现这种操作。

能够跳IP,清了缓存,IP质量好,就能一路畅通无阻地搜索下去吗?

Duckduckgo网址批量导出

				
					https://duckduckgo.com/?&ia=web
				
			

ia=web表连续展示搜索结果

20221117203427
20221117233523
				
					inurl:"about-us" AND intext:"backpack" Tokyo
				
			

比如像这样的搜索指令,全球有近3万城市,Tips页面指令是谷歌指令。

36VW5M1094IBIK6APLY
Q472E3XH8C5J UD
V57VQRLU79874K0R47

英语都搜不过来,更别说别的语种了。

流畅度

非常丝滑,英文版的八爪鱼免费版就可以加速,不需要充值。但是导出数据,量太大得交费。所以还是中文版吧。任何脚本在中英文版本都可以使用。Boost Mode

20221118163842

Duckduckgo几乎没有网页验证。

20221118231045

Duckduckgo的bang功能跳转谷歌并不能解决谷歌人机验证,已尝试过,不需要浪费功夫。

谷歌指令是否试用于Duckduckgo

这是谷歌的结果

3VZHV3TTRO2B4INJNJT

在浏览器所谓结果数上,Duckduckgo不及谷歌。是否精准,可能差点。

5PKGCW233CO0@46P

可用同样的指令搜索后,Ctrl+F查找对比。

精准度而言,谷歌指令不能照搬照抄,有些指令可适用。

57MF5440386234WC1XA2

比如找url中有about us的指令,Duckduckgo与谷歌相差还是挺大;去自己实践一下,看结果展示。这个理由不能成为彻底放弃这种方法的凭据。

也可以用最常规的想法,一个用户,搜backpack company in UK,这样的指令肯定没有啥问题。

KTTVDTKONV389V36IAC
20221118171948

Duckduckgo出来的数据,我自己用GSA网页表单提交开发。这些大批量数据不适合提取邮箱群发,不划算,费时费力费钱。数据本身精准度不够。彻底放弃,也说不过去。

什么样的指令适用Duckduckgo?

既然谷歌指令不通用于Duckduckgo,难道Duckduckgo的结果就是不准的吗?肯定不是,一定是搜索的问题。可以用谷歌的所有搜索指令与思路去Duckduckgo搜,再用Ctrl+F稍微检阅一下。比如用国家来区分(扩量),发现自己创造的指令结果还行,那就是可行的(没有准确的硬性指标)。Duckduckgo没有特别明确的搜索指令文档。

inurl:”about-us” AND intext:”backpack” Tokyo,像这样的搜索指令,谷歌中的结果,几乎可以说每个结果中都有about-us,对应的结果也很准,基本都是公司网址。如何判断一个指令是否可行呢?可以将指令的各个组成部分都进行Ctrl+F查找一下,比如这里的about-us,backpack,Tokyo在结果中的数量是不是都是相当(设置谷歌每个界面100个结果)。

 

但同样的指令,用在Duckduckgo中,也去Ctrl+F对比下,就很差强人意了。

不同行业搜索词需要排除的网址会稍许不同。

 

比如amazon.com,etsy.com,linkedin.com,whois.com,aliexpress.com,ebay.com是比较通用需要排除的,不管你做什么产品,使用搜索指令后,都会可能出现在搜索结果中;有时候限定了国家,可能这个国家搜索的时候没有出现etsy.com(举例),另一个国家反而出现了,这也直接表明了etsy这个平台在哪些国家被喜欢使用,哪些没有。

 

但,还有一些特例,需要根据自己行业产品本身去积累极个别的,比如药品pharmacy,行业中API也表示药品,但在搜索引擎中如果没有用“药”一类的词去限定,API是与科技类有关,比如github.com这些你也要积累后排除。

				
					backpack AND intext:plush UK
				
			

比如这样的,你会发现在Duckduckgo中的效果还不错。

产品+产品特性(材质)+国家扩量

请用谷歌的指令思路不断拓展创造于Duckduckgo,会有更多意想不到的。

比如这样的指令,我自己会这样想,backpack是我要找的产品的网址,那这个产品在元描述里如果有了plush这个材质,那与我的群体就更匹配,再用国家来扩量。当然这只是谷歌的语法,但在Duckduckgo中,某些细节处并不能完全遵循,但是效果也能比较好地接受。

 

这样的指令会不会冗杂,能不能更精简?能不能更精进?法无定法,多在实际结果中用Ctrl+F实验。

有关于任何搜索指令,都在【金山文档】 谷歌指令实战每秒更新中

如果里面没有即时更新,请以QQ群文件为准。我个人的搜索指令实战版皆在此文档。

PWRV74NDP1X9TB9C

谷歌网址批量导出

				
					https://www.google.com/?num=100&hl=en
				
			
				
					hl=en
				
			

表示用英语搜

指 language restrict (语言限制),限定只搜索某种语言的网页,参数为空,则为搜索所有网页。如果你想限制某个语言,但不知道具体的语言代码是什么,可以查阅 Google 提供的 language 文档

				
					&
				
			

				
					num=100
				
			

每页显示100条结果

num参数:num 取值范围为 1 至 100,Google 搜索一页默认显示 10 个搜索结果。我可以通过设置 URL 参数调整显示结果, num=1 表示一页只显示 1 个搜索结果。

				
					https://www.google.com/?num=100&hl=en&cr=AF
				
			
				
					cr=AF
				
			

cr 参数:表示 country restrict (国家限制), country 后的俩个字符需要大写。具体国家代码可查看维基百科提供的国家 CODE 文档

20221117031742

虽然八爪鱼英文站有现成模板,但是速度太慢了,现成模板速度慢,最主要就是为了减缓谷歌验证,但实际情况是,除了速度减缓,对于验证减少没有任何帮助。

指令循环时间不需要太长,对人机验证没有任何帮助。出现了人机验证,可以自行验证点击。也不需要太短,更容易引发验证。如果一个阿P频繁验证,更换阿P。

PJPG26FD1H69M5NIMM

精准与否,在于对谷歌搜索指令的领悟程度。在实战中,不断精进。

20221117032747
Cookie、缓存、Ajax
UQDUF6V1 @H0PIK81V
3LWSO4QOP@ ST@V9JT0
3L7ZOSE4C2164Y63LVN2
VDO4RZTVN0H1R@VMFKJFQ

元描述提取网址

这篇文章说过元描述文本网址的提取方法,但还不够,我们要做的是把所有的指令来批量。Tips页面查看更多指令。

4MD2HH67W3BP8F0XNO
WVZSZDFOBYZEINOKTSH

也可以用方方格子

C12738P6U1K776LX
20221118003011

这个脚本采用的是Duckduckgo的bang功能!g,虽然Duckduckgo说的是防止追踪匿名搜索,跳转谷歌搜的时候依然会有人机验证;但是,根据使用体验,似乎,好像用!g能对阿P有一点点的保护作用,稍微能减少人机。仅仅只是感觉而已。

如果看不懂上面这段话,可以谷歌Duckduckgo的bang功能。

公司名批量生成网址 Name to url

这篇文章写过大量公司名如何找到对应的网址,批量采集,操作稍微有点点繁琐,这里再用八爪鱼写一次脚本。

比如这是我公司的海关数据,用八爪鱼来先把大量进口商公司名采集出来。如果你有自己的海关数据平台,又不会用八爪鱼,本站提供脚本代写服务。可通过首页表单提问。也可在QQ群或微信群提问。

这种方法,既没有网页验证,又解决了精准度问题。

20221119083002

先准备大批量的公司名,比如下图是我自己的海关数据采集的公司名。

DX1KU6LW7IA2XMV07

同样是用Duckduckgo来操作,具体原理查看Name to url文章。

				
					https://duckduckgo.com/?q=&kau=-1&kap=-1&kaq=-1&kax=-1&kak=-1&k1=-1&kav=1&kv=-1&kz=-1&kp=1&kl=wt-wt&kah=wt-wt&t=h_&ia=web
				
			

这是本站编辑的Duckduckgo引擎代码,你也可以根据其官网引擎代码指令自行编写。

这个八爪鱼的脚本流程比较简单,尝试根据下图看看能不能自己编写,如果不成功,同样可在QQ群下载。

UPOZ2VI03M98Z@D
20221119090013

使用体验更新中

如果采集了几千条后,显示地图无法链接,是IP地址被检测了,可以手动更换自己鸡场IP,如果还是不行,关掉自己鸡场,重启(这就是为什么有IP轮换和缓存设置的意义所在。)

后裔采集器,跑了一晚上,醒来发现只有1999条,说采集完毕,都是免费版,后裔速度忒慢。

ETKQK58W0KT2N7D

后裔这速度是服了,花钱开了加速,运行将近50分钟,38个结果。

20221115160804

数据如何更佳精准

导出数据后可以用Excel处理。

20221116191329

也可以用八爪鱼本身的触发器,比如你的客户类型是太阳能,可以设置商户类型没有这几个关键词的,就不要。

20221116192927
GME@73U72OIS@R@F

顺带一句,谷歌地图不适合特别细的词,拿产品型号啥的来搜,不行。还有,词尽可能浓缩,越短越好。

再比如我自己独立站产品是backpack,可以试试supermarket,想想end user是哪一类,换种思路,不仅仅局限于产品。

加速

个人免费版,每个月有3次免费加速,以后变不变不知道。加速的意思就是,看下图,3个子任务同时运行,进一步讲解,就是说比如美国,德国,英国三个地方同时运行。

20221116184213

假如我有1000个国家地区要搜呢,个人版这里显示300个,并不是说可以300个地方运行到结束位置,可以运行的子任务总数依然是100个(100个地方完了就停)。假如你有1000个地方,那得分成10个任务来运行。

51f3ed895972491c553a523dc7a744a

任务数量300个,指的是这里可以保存的任务数。

如上图所示,个人版只能加速一个任务。

20221116185209
9@CQNMMS947YC57QQ