bizearch网站信息源质量到底如何,外贸客户开发渠道,以测试产品为例,每页30家公司,1980页为59400家公司信息,此站到底可不可用,一探究竟。外贸实战笔记,转载注明出处。
bizearch
http://bizearch.com如何使用
进入网站后,查看company database,非常多产品种类,点击自己产品,进入后,又可以细分。


以agriculture为例,有5万多家公司。

站点结构分析
每一家公司页面都有这些信息,来分析后抓取。product services,需要抓取,后续通过Excel筛选出与自己产品更符合的。
公司名,一般我自己不抓,这里也将Web Scraper设置出来了。网站website是最需要的。地址,需要,后续排除掉国内。再比如business type,甚至可以将manufacturer排掉。

Web Scraper

这串代码graph模仿官网思路,非常优秀,减少页面结构复杂程度,避免不必要运行。
{"_id":"from1980","startUrl":["http://bizearch.com/company/Chemicals.5-[2-1980].htm"],"selectors":[{"id":"1allcompany","parentSelectors":["_root"],"type":"SelectorLink","selector":".ls a","multiple":true},{"id":"companyname","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"strong","multiple":false,"regex":""},{"id":"contactperson","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Contact Person') td","multiple":false,"regex":""},{"id":"address","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Company Address') td","multiple":false,"regex":""},{"id":"web","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Website') td","multiple":false,"regex":""},{"id":"businesstype","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Business Type') td","multiple":true,"regex":""},{"id":"industryfocus","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Industry Focus') td","multiple":false,"regex":""}]}
上述Web Scraper代码可爬取公司名,联系人名称,网站,公司类型,主营业务。你也可以将此站代码复制进自己的web scraper进行修改。
仔细研究下页面selector的结构顺序。

若不晓得这些代码如何使用,请参见文章Web Scraper外贸客户开发,爬取任何网站信息2022
不可能每个站点的使用情况都来叙述,此后,用过Web Scraper采集成功过,证明可用的优秀站点Sitemap Codes都可自己在Tips页面查找。

数据质量表现

将地址栏中,address带有China的全删掉。


4111家剩下3340家。
将manufacturer排除掉,剩下1961家。比如某些产品,manufacturer也是客户,不排除。


manufacturer不要排除来看,毕竟每家公司都说自己是manufacturer,就连本站做的产品独立站也是这样表述。
加上manufacturer后,再用product services筛选,只剩下100多家,还不如用谷歌搜索指令来的快。

其实,产品大可不必再去排除,对行业认知不深,并不能很好选择对应的词。干脆直接选上。

即使不用product services去排除,manufacturer也不排除,4111个结果,也仅存905个,存活率22%。
值不值得浪费电脑性能,留给各位判断。

这两篇文章中,表达过Web Scraper这种工具,爬取大量目标网址信息,会被后台识别IP,进而限制的担忧。
这种情况存在吗?当然存在,每个网站都可以设置后台监控,对于大量爬取网站信息的bot IP可以直接封锁。
比如本站后台,主要是谷歌,还有bing和Yandex,如果有其它乱七八糟的bot,可直接拦截。

不要道听途说,自己上手。比如之前设置的Europages Sitemap总是断程,非常怀疑是IP被识别进而采取措施,但又不甘心也不确信,经过不断尝试,毕竟这个站点很有名气,数据源头也质量高,才得以成功运行。


某些爬虫工具,甚至像邮件群发一样,有专门大量的IP给客户准备跳转使用。