WebHarvy,倚天屠龙,雄霸天下,绝技江湖,外贸实战笔记

外贸客户开发,谷歌地图爬取,八爪鱼+WebHarvy,倚天屠龙,雄霸天下,绝技江湖,外贸实战笔记2023

外贸客户开发,谷歌地图爬取,Google Maps Extracting, Google Maps Extracting, 八爪鱼+WebHarvy,三五个关键词,搭配两三万地方,数十万搜索链接,几十万谷歌商户信息,不卡不退,尽收囊中,倚天屠龙,雄霸天下,绝技江湖,外贸实战笔记

八爪鱼+WebHarvy Google Maps Extracting

为什么八爪鱼结合WebHavry

  1. 可视化
  2. 应对谷歌地图底层逻辑代码改变

八爪鱼与后裔采集器

有一些使用者还是偏向于后羿采集器,用它是你的权利。

八爪鱼采集谷歌地图弊端

GWSENV6OUDR39YRX1H9T

2023年3月中下旬,【FTS中国】QQ群群友反映八爪鱼采集出来的公司名和商业类型没有了,距离正式确定上传最后的八爪鱼otd脚本仅仅4个月左右。

不是八爪鱼软件的问题,不是脚本的问题,是谷歌地图的问题。也不叫谷歌地图的问题,不能说是问题,是谷歌地图底层逻辑变了。什么意思?你可以简单粗暴地理解,每隔一段时间,时间长短不定,谷歌地图的底层逻辑代码就会变,你也可以简单粗暴地理解,谷歌就是为了防止信息被采集做出的行为。

有关于谷歌地图八爪鱼的脚本基本可能不会再更新。一是因为本身软件问题,要么爬着爬着有几家不同的公司,爬相同的网址,这是因为八爪鱼采用的是瀑布流抓取方式。要么就像这样,每隔一段时间就得更新脚本,你一个问题他一个问题,作者也吃不消,每天其实都很忙。

其实八爪鱼是很智能的,在采集一些页面的时候,智能识图是真的爱了。如果你实在学不会在谷歌地图的使用,学WebHarvy吧,非常容易,或者使用WebHarvy和八爪鱼结合。这是目前免费功能里,最强神技,可能不会有比这种方法更能制衡谷歌地图的方法了。

谷歌地图爬取

WebHarvy

WebHarvy,八爪鱼,WebScraper三者当中,WebHarvy可以说是最容易掌握的了。不要看这篇文章这么长,就是因为太简单上手,太好用了,才写的很细。

在WebHarvy的翻页代码中,如果你不是像我一样地钻牛角尖,追求极致过头的,其实非常可以用了。

0W6TYET248 9IXGTH

这两个脚本都非常容易弄,如果你实在是搞不定,QQ群下载吧。

三步要走:

  • 整理制作搜索URL几十万
  • 用WebHarvy跑出每家公司的URL
  • 用八爪鱼使用Xpath值采集公司网址、商业类型、电话、地址、公司名等等

什么叫每家公司URL,比如这样

				
					https://www.google.com/maps/place/CA+SEO+Company+California/data=!4m7!3m6!1s0x80945db8cb6cfed5:0xfdf77cc88f171ab3!8m2!3d36.8308685!4d-119.7150945!16s%2Fg%2F11h8jr8k4z!19sChIJ1f5sy7hdlIARsxoXj8h89_0?authuser=0&hl=en&rclk=1
				
			

打开后是这样的

20230317195757
20230317200532

WebHarvy与八爪鱼-双剑合璧

用八爪鱼从每家公司的URL当中采集公司信息,再跑一次。

Phone Number XPath值

				
					//button[contains(@aria-label,"Phone:")]
				
			

网址Xpath值

@O@LZZ7BTL2IVP1NMU2

点击网址,修改元素定位值。

				
					//a[@data-item-id="authority"]
				
			

优缺点

缺点:跑每家公司的URL需要很久,大概24小时能跑1万-1.5万。这里只需要考虑翻页脚本的时间,设置两三秒完全够了。你的网速总不可能3秒打不开网页吧,而且也不需要全部加载完成,只需要网页内容显示出来,我的意思是浏览器左上角的圈圈在转,内容出来就行。有的人等这个过程太煎熬,甚至都可能怀疑跑的到底是不是那个要的东西。哈哈哈。

优点

快地只需要3秒。

20230317202124

可视化

点击显示网页,休闲时间,刷剧也可以边看,大概对自己客户类型有个身临其境的体验。

WebHarvy也可以设置商业类型,进行杂项排除,但是八爪鱼可视化。

回炉再造

任务概况里有异常链接详情,打开成功,未提取到数据的,去打开看,可以说99.9%都没有网址,0.1%让话不要太满。打开了一些验证,都是没有网址。

有极少极少极少的因为网速跟不上,显示链接没来得及打开,设置之间的步骤间隔2-3秒,可能有时候打开了别的软件,占用了tizi网速。

20230319125546
HIC7 TTB18 LRSHIHX5IU

缺点

实际测试中,WebHarvy的digital agency in California5-10秒的时候空了6个(翻页代码脚本),而八爪鱼空了9个(WebHarvy每家URL八爪鱼再提取),可以说是不相上下。

严正声明

  • 本站所有信息采集类工具,仅是对网络公开信息,仅是为了提升工作效率,禁作非法用途,任何三方使用本站提供的方式方法所进行的三方行为,皆与本站无关。爱国守法,明礼诚信,团建友善,敬业奉献。
  • 本站坚决维护所有正版软件开发者的利益,也提倡大家去官网购买正版,支持正版,以表达对正版软件开发者心血付出的支持。
  • 如果因为破解版的传播侵犯了对应正版开发者的利益,请主动联系本站,会立刻删除。