Octoparse八爪鱼采集谷歌地图信息,外贸客户批量爬取2022Customer Developing, Google Maps / 客户开发, 邮件群发 Octoparse八爪鱼采集谷歌地图信息,外贸客户批量爬取,地址,网址,客户类型,公司名称,电话,营业时间,评分等级,八爪鱼脚本,外贸实战笔记原创,转载注明出处。 有关于本站八爪鱼所有脚本,QQ群文件都可下载。 Octoparse八爪鱼采集谷歌地图客户信息 与后羿采集器比对 后羿采集器houyicaiji,采集谷歌地图商户信息,外贸客户开发,外贸实战笔记2022 两款工具,都可运行。如果一定要选,选八爪鱼。 八爪鱼有中英文网址,英文网址里有多个国外站点现成模板八爪鱼将我一直想要实现的谷歌搜索引擎思路做成了现成方案,后面详解,强推后羿采集器,小气,官网直接下载的安装包,IP设置都需要收费(QQ群下载3.5.3老版本)选一个软件,看它网站建设,软件界面结构,有颜有实,才能受宠 优缺点比对:后羿采集器,设置简单明了,非常容易上手八爪鱼,流程图非常耗脑,与Web Scraper,有一比外贸实战笔记,八爪鱼谷歌地图脚本,耗时半个月,对于一个文科生,上头(如果自己搞不定,去QQ群文件下载) 官网 八爪鱼谷歌地图脚本使用方式 中文网站直达 此站制作的谷歌地图八爪鱼脚本使用中文站点。 1 2 3 4 5 6 7 8 9 20221008爬了一天 Google Map is really strict with web scraping! 谷歌搜索引擎搜索指令一站到底(英文站) 英文网站直达 英文网站里有黄页等一些现成模板,可以试试,个人更喜欢用Web Scraper,能搞定的就用Web Scraper,不用每次都去装个软件。 【金山文档】 谷歌指令实战每秒更新中 自从使用谷歌搜索引擎开始,比如做battery这个产品,谷歌搜索指令千变万化,非常多实用的指令,site调网址,about us界面,域名后缀,公司名后缀,国家地区位置定位,intitle,inurl等等,就想过一个问题,每次都要手动输入一个指令,难道没有办法把这些指令全都给串起来吗? 后来接触到插件SEOquake,Link Grabber,Instant Data Scraper,Search All等,能稍微增加一下效率。 再后来,知道了Macro Recorder,键鼠智能化,进一步节约时间。也是日常中最常用的方法。 对于谷歌搜索引擎来讲,谷歌跳人机验证,没有解决方案,网络上的各种大神,没有人能够。断言。 八爪鱼,将一直有的思路,做出来了,不能够完美操作,依然要强推。牛逼! 这种方法好吗?好,就是慢。慢,也是一种规避人机验证的方法。 当然了,如果愿意挑战自我,也可以自己做一个流程。这个英文站点现成模板,不能设置时间间隔。也不能跳IP。后羿采集器,也肯定能实现这种操作。 能够跳IP,清了缓存,IP质量好,就能一路畅通无阻地搜索下去吗? Duckduckgo网址批量导出 https://duckduckgo.com/?&ia=web ia=web表连续展示搜索结果 inurl:"about-us" AND intext:"backpack" Tokyo 比如像这样的搜索指令,全球有近3万城市,Tips页面指令是谷歌指令。 英语都搜不过来,更别说别的语种了。 流畅度 非常丝滑,英文版的八爪鱼免费版就可以加速,不需要充值。但是导出数据,量太大得交费。所以还是中文版吧。任何脚本在中英文版本都可以使用。Boost Mode Duckduckgo几乎没有网页验证。 Duckduckgo的bang功能跳转谷歌并不能解决谷歌人机验证,已尝试过,不需要浪费功夫。 谷歌指令是否试用于Duckduckgo 这是谷歌的结果 在浏览器所谓结果数上,Duckduckgo不及谷歌。是否精准,可能差点。 可用同样的指令搜索后,Ctrl+F查找对比。 精准度而言,谷歌指令不能照搬照抄,有些指令可适用。 比如找url中有about us的指令,Duckduckgo与谷歌相差还是挺大;去自己实践一下,看结果展示。这个理由不能成为彻底放弃这种方法的凭据。 也可以用最常规的想法,一个用户,搜backpack company in UK,这样的指令肯定没有啥问题。 Duckduckgo出来的数据,我自己用GSA网页表单提交开发。这些大批量数据不适合提取邮箱群发,不划算,费时费力费钱。数据本身精准度不够。彻底放弃,也说不过去。 什么样的指令适用Duckduckgo? 既然谷歌指令不通用于Duckduckgo,难道Duckduckgo的结果就是不准的吗?肯定不是,一定是搜索的问题。可以用谷歌的所有搜索指令与思路去Duckduckgo搜,再用Ctrl+F稍微检阅一下。比如用国家来区分(扩量),发现自己创造的指令结果还行,那就是可行的(没有准确的硬性指标)。Duckduckgo没有特别明确的搜索指令文档。 inurl:”about-us” AND intext:”backpack” Tokyo,像这样的搜索指令,谷歌中的结果,几乎可以说每个结果中都有about-us,对应的结果也很准,基本都是公司网址。如何判断一个指令是否可行呢?可以将指令的各个组成部分都进行Ctrl+F查找一下,比如这里的about-us,backpack,Tokyo在结果中的数量是不是都是相当(设置谷歌每个界面100个结果)。 但同样的指令,用在Duckduckgo中,也去Ctrl+F对比下,就很差强人意了。 不同行业搜索词需要排除的网址会稍许不同。 比如amazon.com,etsy.com,linkedin.com,whois.com,aliexpress.com,ebay.com是比较通用需要排除的,不管你做什么产品,使用搜索指令后,都会可能出现在搜索结果中;有时候限定了国家,可能这个国家搜索的时候没有出现etsy.com(举例),另一个国家反而出现了,这也直接表明了etsy这个平台在哪些国家被喜欢使用,哪些没有。 但,还有一些特例,需要根据自己行业产品本身去积累极个别的,比如药品pharmacy,行业中API也表示药品,但在搜索引擎中如果没有用“药”一类的词去限定,API是与科技类有关,比如github.com这些你也要积累后排除。 backpack AND intext:plush UK 比如这样的,你会发现在Duckduckgo中的效果还不错。 产品+产品特性(材质)+国家扩量 请用谷歌的指令思路不断拓展创造于Duckduckgo,会有更多意想不到的。 比如这样的指令,我自己会这样想,backpack是我要找的产品的网址,那这个产品在元描述里如果有了plush这个材质,那与我的群体就更匹配,再用国家来扩量。当然这只是谷歌的语法,但在Duckduckgo中,某些细节处并不能完全遵循,但是效果也能比较好地接受。 这样的指令会不会冗杂,能不能更精简?能不能更精进?法无定法,多在实际结果中用Ctrl+F实验。 有关于任何搜索指令,都在【金山文档】 谷歌指令实战每秒更新中 如果里面没有即时更新,请以QQ群文件为准。我个人的搜索指令实战版皆在此文档。 谷歌网址批量导出 https://www.google.com/?num=100&hl=en hl=en 表示用英语搜 指 language restrict (语言限制),限定只搜索某种语言的网页,参数为空,则为搜索所有网页。如果你想限制某个语言,但不知道具体的语言代码是什么,可以查阅 Google 提供的 language 文档 & 和 num=100 每页显示100条结果 num参数:num 取值范围为 1 至 100,Google 搜索一页默认显示 10 个搜索结果。我可以通过设置 URL 参数调整显示结果, num=1 表示一页只显示 1 个搜索结果。 https://www.google.com/?num=100&hl=en&cr=AF cr=AF cr 参数:表示 country restrict (国家限制), country 后的俩个字符需要大写。具体国家代码可查看维基百科提供的国家 CODE 文档 Duckduckgo官网参数 虽然八爪鱼英文站有现成模板,但是速度太慢了,现成模板速度慢,最主要就是为了减缓谷歌验证,但实际情况是,除了速度减缓,对于验证减少没有任何帮助。 指令循环时间不需要太长,对人机验证没有任何帮助。出现了人机验证,可以自行验证点击。也不需要太短,更容易引发验证。如果一个阿P频繁验证,更换阿P。 【金山文档】 谷歌指令实战每秒更新中 精准与否,在于对谷歌搜索指令的领悟程度。在实战中,不断精进。 Cookie、缓存、Ajax 元描述提取网址 这篇文章说过元描述文本网址的提取方法,但还不够,我们要做的是把所有的指令来批量。Tips页面查看更多指令。 你可以用这篇文章提到的工具,从大量文本中提取网址。 也可以用方方格子 这个脚本采用的是Duckduckgo的bang功能!g,虽然Duckduckgo说的是防止追踪匿名搜索,跳转谷歌搜的时候依然会有人机验证;但是,根据使用体验,似乎,好像用!g能对阿P有一点点的保护作用,稍微能减少人机。仅仅只是感觉而已。 如果看不懂上面这段话,可以谷歌Duckduckgo的bang功能。 公司名批量生成网址 Name to url Name to URL/Website公司名批量生成对应网址 这篇文章写过大量公司名如何找到对应的网址,批量采集,操作稍微有点点繁琐,这里再用八爪鱼写一次脚本。 比如这是我公司的海关数据,用八爪鱼来先把大量进口商公司名采集出来。如果你有自己的海关数据平台,又不会用八爪鱼,本站提供脚本代写服务。可通过首页表单提问。也可在QQ群或微信群提问。 这种方法,既没有网页验证,又解决了精准度问题。 先准备大批量的公司名,比如下图是我自己的海关数据采集的公司名。 同样是用Duckduckgo来操作,具体原理查看Name to url文章。 https://duckduckgo.com/?q=&kau=-1&kap=-1&kaq=-1&kax=-1&kak=-1&k1=-1&kav=1&kv=-1&kz=-1&kp=1&kl=wt-wt&kah=wt-wt&t=h_&ia=web 这是本站编辑的Duckduckgo引擎代码,你也可以根据其官网引擎代码指令自行编写。 这个八爪鱼的脚本流程比较简单,尝试根据下图看看能不能自己编写,如果不成功,同样可在QQ群下载。 使用体验更新中 如果采集了几千条后,显示地图无法链接,是IP地址被检测了,可以手动更换自己鸡场IP,如果还是不行,关掉自己鸡场,重启(这就是为什么有IP轮换和缓存设置的意义所在。) 后裔采集器,跑了一晚上,醒来发现只有1999条,说采集完毕,都是免费版,后裔速度忒慢。 后裔这速度是服了,花钱开了加速,运行将近50分钟,38个结果。 数据如何更佳精准 导出数据后可以用Excel处理。 也可以用八爪鱼本身的触发器,比如你的客户类型是太阳能,可以设置商户类型没有这几个关键词的,就不要。 顺带一句,谷歌地图不适合特别细的词,拿产品型号啥的来搜,不行。还有,词尽可能浓缩,越短越好。 再比如我自己独立站产品是backpack,可以试试supermarket,想想end user是哪一类,换种思路,不仅仅局限于产品。 加速 个人免费版,每个月有3次免费加速,以后变不变不知道。加速的意思就是,看下图,3个子任务同时运行,进一步讲解,就是说比如美国,德国,英国三个地方同时运行。 假如我有1000个国家地区要搜呢,个人版这里显示300个,并不是说可以300个地方运行到结束位置,可以运行的子任务总数依然是100个(100个地方完了就停)。假如你有1000个地方,那得分成10个任务来运行。 任务数量300个,指的是这里可以保存的任务数。 如上图所示,个人版只能加速一个任务。