432732a61bd02b843c580887d544b2f

bizearch外贸网站数据源质量到底如何,外贸客户开发2022

bizearch网站信息源质量到底如何,外贸客户开发渠道,以测试产品为例,每页30家公司,1980页为59400家公司信息,此站到底可不可用,一探究竟。外贸实战笔记,转载注明出处。

bizearch

http://bizearch.com如何使用

进入网站后,查看company database,非常多产品种类,点击自己产品,进入后,又可以细分

5Q43A@YL4QX2V2VSQ
W35UT@TZWC11WJ315

以agriculture为例,有5万多家公司。

1TCJMD27JKV6NAND

站点结构分析

每一家公司页面都有这些信息,来分析后抓取。product services,需要抓取,后续通过Excel筛选出与自己产品更符合的。

公司名,一般我自己不抓,这里也将Web Scraper设置出来了。网站website是最需要的。地址,需要,后续排除掉国内。再比如business type,甚至可以将manufacturer排掉。

@RP0Z9@ DEV89ISL1UUH

Web Scraper

5UDPBRPWF UJJEC6C

这串代码graph模仿官网思路,非常优秀,减少页面结构复杂程度,避免不必要运行。

				
					{"_id":"from1980","startUrl":["http://bizearch.com/company/Chemicals.5-[2-1980].htm"],"selectors":[{"id":"1allcompany","parentSelectors":["_root"],"type":"SelectorLink","selector":".ls a","multiple":true},{"id":"companyname","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"strong","multiple":false,"regex":""},{"id":"contactperson","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Contact Person') td","multiple":false,"regex":""},{"id":"address","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Company Address') td","multiple":false,"regex":""},{"id":"web","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Website') td","multiple":false,"regex":""},{"id":"businesstype","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Business Type') td","multiple":true,"regex":""},{"id":"industryfocus","parentSelectors":["_root","1allcompany"],"type":"SelectorText","selector":"tr:contains('Industry Focus') td","multiple":false,"regex":""}]}
				
			

上述Web Scraper代码可爬取公司名,联系人名称,网站,公司类型,主营业务。你也可以将此站代码复制进自己的web scraper进行修改。

仔细研究下页面selector的结构顺序。

7@OBGY5J4Q@PKEQCSQF9

若不晓得这些代码如何使用,请参见文章Web Scraper外贸客户开发,爬取任何网站信息2022

不可能每个站点的使用情况都来叙述,此后,用过Web Scraper采集成功过,证明可用的优秀站点Sitemap Codes都可自己在Tips页面查找。

88LRQ H3N3ODYGF3ENT58

数据质量表现

20221001113243

将地址栏中,address带有China的全删掉。

ZH0RJ80K 6CL1ZE
20221001113716

4111家剩下3340家。

将manufacturer排除掉,剩下1961家。比如某些产品,manufacturer也是客户,不排除。

20221001113913
20221001114316

manufacturer不要排除来看,毕竟每家公司都说自己是manufacturer,就连本站做的产品独立站也是这样表述。

加上manufacturer后,再用product services筛选,只剩下100多家,还不如用谷歌搜索指令来的快。

T1JT7L5D9GU9YY8PK

其实,产品大可不必再去排除,对行业认知不深,并不能很好选择对应的词。干脆直接选上。

20221001115018

即使不用product services去排除,manufacturer也不排除,4111个结果,也仅存905个,存活率22%。

值不值得浪费电脑性能,留给各位判断。

3C92KVKJ@G7B@EXHD

这两篇文章中,表达过Web Scraper这种工具,爬取大量目标网址信息,会被后台识别IP,进而限制的担忧。

这种情况存在吗?当然存在,每个网站都可以设置后台监控,对于大量爬取网站信息的bot IP可以直接封锁。

比如本站后台,主要是谷歌,还有bing和Yandex,如果有其它乱七八糟的bot,可直接拦截。

SD9ACHOMZFM8NX7Y1

不要道听途说,自己上手。比如之前设置的Europages Sitemap总是断程,非常怀疑是IP被识别进而采取措施,但又不甘心也不确信,经过不断尝试,毕竟这个站点很有名气,数据源头也质量高,才得以成功运行。

RII2@MNRCEW1343L0U
RWJZJP4WL3PP4ZBSC G3

某些爬虫工具,甚至像邮件群发一样,有专门大量的IP给客户准备跳转使用。