bizearch网站信息源质量到底如何,外贸客户开发渠道,以测试产品为例,每页30家公司,1980页为59400家公司信息,此站到底可不可用,一探究竟。外贸实战笔记,转载注明出处。
bizearch
http://bizearch.com如何使用
进入网站后,查看company database,非常多产品种类,点击自己产品,进入后,又可以细分。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 3 5Q43A@YL4QX2V2VSQ](https://wordpressbin.com/wp-content/uploads/2022/10/5Q43A@YL4QX2V2VSQ-1024x213.png)
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 4 W35UT@TZWC11WJ315](https://wordpressbin.com/wp-content/uploads/2022/10/W35UT@TZWC11WJ315.png)
以agriculture为例,有5万多家公司。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 5 1TCJMD27JKV6NAND](https://wordpressbin.com/wp-content/uploads/2022/10/1TCJMD27JKV6NAND.png)
站点结构分析
每一家公司页面都有这些信息,来分析后抓取。product services,需要抓取,后续通过Excel筛选出与自己产品更符合的。
公司名,一般我自己不抓,这里也将Web Scraper设置出来了。网站website是最需要的。地址,需要,后续排除掉国内。再比如business type,甚至可以将manufacturer排掉。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 6 @RP0Z9@ DEV89ISL1UUH](https://wordpressbin.com/wp-content/uploads/2022/10/@RP0Z9@_DEV89ISL1UUH-1024x601.png)
Web Scraper
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 7 5UDPBRPWF UJJEC6C](https://wordpressbin.com/wp-content/uploads/2022/10/5UDPBRPWF_UJJEC6C.png)
这串代码graph模仿官网思路,非常优秀,减少页面结构复杂程度,避免不必要运行。
{"_id":"from1980","startUrl":["http://bizearch.com/company/Chemicals.5-[2-1980].htm"],"selectors":[{"id":"1allcompany","parentSelectors":["_root"],"type":"SelectorLink","selector":".ls a","multiple":true},{"id":"companyname","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"strong","multiple":false,"regex":""},{"id":"contactperson","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Contact Person') td","multiple":false,"regex":""},{"id":"address","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Company Address') td","multiple":false,"regex":""},{"id":"web","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Website') td","multiple":false,"regex":""},{"id":"businesstype","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Business Type') td","multiple":true,"regex":""},{"id":"industryfocus","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Industry Focus') td","multiple":false,"regex":""}]}
上述Web Scraper代码可爬取公司名,联系人名称,网站,公司类型,主营业务。你也可以将此站代码复制进自己的web scraper进行修改。
仔细研究下页面selector的结构顺序。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 8 7@OBGY5J4Q@PKEQCSQF9](https://wordpressbin.com/wp-content/uploads/2022/10/7@OBGY5J4Q@PKEQCSQF9-1024x116.png)
若不晓得这些代码如何使用,请参见文章Web Scraper外贸客户开发,爬取任何网站信息2022
不可能每个站点的使用情况都来叙述,此后,用过Web Scraper采集成功过,证明可用的优秀站点Sitemap Codes都可自己在Tips页面查找。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 9 88LRQ H3N3ODYGF3ENT58](https://wordpressbin.com/wp-content/uploads/2022/10/88LRQ_H3N3ODYGF3ENT58-1024x256.png)
数据质量表现
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 10 20221001113243](https://wordpressbin.com/wp-content/uploads/2022/10/20221001113243-1024x484.png)
将地址栏中,address带有China的全删掉。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 11 ZH0RJ80K 6CL1ZE](https://wordpressbin.com/wp-content/uploads/2022/10/ZH0RJ80K_6CL1ZE.png)
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 12 20221001113716](https://wordpressbin.com/wp-content/uploads/2022/10/20221001113716.png)
4111家剩下3340家。
将manufacturer排除掉,剩下1961家。比如某些产品,manufacturer也是客户,不排除。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 13 20221001113913](https://wordpressbin.com/wp-content/uploads/2022/10/20221001113913.png)
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 14 20221001114316](https://wordpressbin.com/wp-content/uploads/2022/10/20221001114316-1024x544.png)
manufacturer不要排除来看,毕竟每家公司都说自己是manufacturer,就连本站做的产品独立站也是这样表述。
加上manufacturer后,再用product services筛选,只剩下100多家,还不如用谷歌搜索指令来的快。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 15 T1JT7L5D9GU9YY8PK](https://wordpressbin.com/wp-content/uploads/2022/10/T1JT7L5D9GU9YY8PK.png)
其实,产品大可不必再去排除,对行业认知不深,并不能很好选择对应的词。干脆直接选上。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 16 20221001115018](https://wordpressbin.com/wp-content/uploads/2022/10/20221001115018.png)
即使不用product services去排除,manufacturer也不排除,4111个结果,也仅存905个,存活率22%。
值不值得浪费电脑性能,留给各位判断。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 17 3C92KVKJ@G7B@EXHD](https://wordpressbin.com/wp-content/uploads/2022/10/3C92KVKJ@G7B@EXHD.png)
这两篇文章中,表达过Web Scraper这种工具,爬取大量目标网址信息,会被后台识别IP,进而限制的担忧。
这种情况存在吗?当然存在,每个网站都可以设置后台监控,对于大量爬取网站信息的bot IP可以直接封锁。
比如本站后台,主要是谷歌,还有bing和Yandex,如果有其它乱七八糟的bot,可直接拦截。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 18 SD9ACHOMZFM8NX7Y1](https://wordpressbin.com/wp-content/uploads/2022/10/SD9ACHOMZFM8NX7Y1-1024x440.png)
不要道听途说,自己上手。比如之前设置的Europages Sitemap总是断程,非常怀疑是IP被识别进而采取措施,但又不甘心也不确信,经过不断尝试,毕竟这个站点很有名气,数据源头也质量高,才得以成功运行。
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 19 RII2@MNRCEW1343L0U](https://wordpressbin.com/wp-content/uploads/2022/10/RII2@MNRCEW1343L0U.png)
![bizearch外贸网站数据源质量到底如何,外贸客户开发2022 20 RWJZJP4WL3PP4ZBSC G3](https://wordpressbin.com/wp-content/uploads/2022/10/RWJZJP4WL3PP4ZBSC_G3.png)
某些爬虫工具,甚至像邮件群发一样,有专门大量的IP给客户准备跳转使用。