Regular Expression notepad++ 文本提取数据（网址/邮箱/电话等等），正则表达式RegEx, 外贸实战笔记v8.5

博客标签

近期

近期文章

外贸网站hostinger服务器如何续费升级

外贸网站不被谷歌收录的原因有很多！

美国和以色列的军事冲突，对国际贸易到底有什么影响？

Google搜索引擎收录外贸网站页面含有中文“产品”二字，如何显示英文？！

notepad++

官网直达下载即可

相关正则

Website正则

首先，用正则表达式判断网址，是一件非常复杂且不确定的事情，漏判误判错判是极其可能的，尤其对于外贸业务潜在客户网址库而言，涉及面广，情况复杂，专业性强，简单的正则表达式更加难以做到十全十美。
即使是邮箱的正则，也难以做到完美，你可以简单粗暴地理解，此文提到的邮箱正则，就是市面上所有邮箱提取工具的方式方法，无出其右。

Excel数据库

前面已经说了，对于外贸业务客户网址列表而言，这种数据是极其庞杂且专业的。先准备一份2万7112个网址，带www., http, https或者直接是域名，当然也有各种三级三级界面的后缀。

在实际工作中会发现，绝大多数网址，直接在搜索引擎输入域名，比如example.com即可
有的得加上www.，即www.example.com
还有得https://www.example.com
再有，得是http://www.example.com

Excel网址清洗相关文章 Clean Customer Website List客户网址清洗，外贸实战笔记

随便举例：https://smokingpistons.co.za

请注意，这里说的是打开的情况，有一种情况是，域名带有http、https，去掉之后网站打不开。这其中的逻辑作者讲不深入，就不班门弄斧了，自行Google。但，事实正如前文所述，日常工作中这种情况并不少见，可留意观察。因此，你的数据源是怎样的就保持怎样，你采集来的数据源就是目标群体想向他的市场表达的数据样式。

再粗暴一点理解，有的就留着，没有的不要乱加。

Excel保留http、https、www.至主域名

再随便举例expanded-rubber-products-uk.co.uk

				
					http和https是网络协议的名称，www是域名前缀。

- http:是Hypertext Transfer Protocol (超文本传输协议)的缩写，是一种用于传输数据的应用层协议，用于在Web浏览器和Web服务器之间传递信息。
- https:是以SSL (Secure Sockets Layer 安全套接层） 协议为基础的加密传输协议，保护用户数据的安全。
- www：是World Wide Web（万维网）的缩写，是Internet上提供全球信息访问的一种网络服务。

因此，网址带有http和https的，是协议的不同，表示数据传输的安全性和可靠性不同。而网址带有www的，则代表这是一个万维网网站。

仅用域名处理

27192条数据，如果只用域名来处理，舍弃http、https、www.，可看到重复10423条，相当于38%的域名重复，留存总数据61%。

当然也有这么一种声音，都什么时代了，还要带个http、https、www.，不带还打不开，打不开我还就不要你了，自己改去吧。

不带https、http和www.一级域名正则【仅且只能为域名本身】

				
					^([a-zA-Z0-9]([a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?\.)+[a-zA-Z]{2,}$

在和Excel清洗中，去除http和https，以及www.相对应，无误，可用。

一级域名正则解释

				
					^([a-zA-Z0-9]([a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?\.)+[a-zA-Z]{2,}$

这个正则表达式匹配的是符合标准的网站一级域名，其中：
一级域名由字母、数字和“-”组成；
一级域名长度在 1~63 之间；
一级域名后面是一个点和国家/地区的标识符，如.com、.cn、.hk 等。这个标识符由两个或三个字母组成；

例如：
baidu.com
google.cn
apple.co.jp
subdomain.example.co.uk
my-domain123.net

符合上述规则的网站一级域名。
但是，它不匹配 IP 地址或本地主机名等其他类型的主机名。

带https、http、www.及各级链接正则【仅且含域名本身也可】

				
					(https?:\/\/)?(www\.)?([a-zA-Z0-9-]+\.)+[a-zA-Z]{2,}(\/[^\s]*)?

				
					- `(https?:\/\/)?`: 可选的http或https协议
- `(www\.)?`: 可选的www子域名
- `([a-zA-Z0-9-]+\.)+`: 一个或多个非空字符、数字或破折号，加上一个点，至少匹配一个
- `[a-zA-Z]{2,}`: 两个或以上字母的顶级域名，例如com、org
- `(\/[^\s]*)?`: 可选的路径，只要是斜杠后面跟着零个或多个非空白字符。

这个正则表达式会匹配以下网址：

- http://www.example.com/
- https://example.com/
- http://example.co.uk/about/
- https://www.example.net/products
- http://www.example.info

但它不会匹配子域名，例如：

- blog.example.com
- www2.example.net

如果需要匹配子域名，可以将 `(www\.)?` 修改为 `([\w-]+\.)*`。

邮箱正则

				
					[a-z0-9._%+-]*@[a-z0-9.-]*\.[a-z]{2,4}

				
					这是一个简单的邮箱地址的正则表达式模式，它包含以下部分：

[a-z0-9._%+-]* 表示匹配用户名部分，可以由小写字母、数字、点号、下划线、百分号、加号和破折号组成，长度可以为零或更多个字符。
@ 表示匹配@符号。
[a-z0-9.-]* 表示匹配域名部分，可以由小写字母、数字、点号和破折号组成，长度可以为零或更多个字符。
\. 表示匹配一个点号。
[a-z]{2,4} 表示匹配顶级域名，由小写字母组成，长度为2到4个字符。

综上所述，该正则表达式模式可以匹配一些简单的邮箱地址，但是并不能匹配所有的邮箱地址，因为实际上的邮箱地址有很多变化和特殊情况，例如国际化邮箱地址（IDN）等。但在实际外贸客户邮箱整理中，已经足够使用，能够完全应对。

电话正则

具体国家具体分析。

中国举例

				
					/^(13[0-9]|14[01456879]|15[0-35-9]|16[2567]|17[0-8]|18[0-9]|19[0-35-9])\d{8}$/

				
					^ 表示开始匹配
$ 表示结束匹配
() 表示分组
| 表示或
\d 表示数字

这个正则表达式可以匹配以下开头的手机号码：

- 13
- 14（除了143和149）
- 15（除了154）
- 16（除了165和169）
- 17（除了174、175、176）
- 18
- 19（除了194）

后面必须跟着8个数字。因此，这个正则表达式可以用来验证中国大陆地区的手机号码。

美国举例

				
					[01]?[- .]?(\([2-9]\d{2}\)|[2-9]\d{2})[- .]?\d{3}[- .]?\d{4}

				
					这是一个基本的美国电话号码正则表达式模式，可以匹配常见的电话号码格式，包括以下形式：

1234567890
123-456-7890
123.456.7890
123 456 7890
(123) 456-7890
1-123-456-7890

该正则表达式模式包含以下部分：
[01]?[- .]? 表示匹配可选的一个前缀0或1，可选的一个分隔符-、空格或点号。
(\([2-9]\d{2}\)|[2-9]\d{2}) 表示匹配区号，可以是括号包含的3位数字，或者3位数字。
[- .]? 表示匹配可选的一个分隔符-、空格或点号。
\d{3} 表示匹配3位数字的前缀，即号码的前三位。
[- .]? 表示匹配可选的一个分隔符-、空格或点号。
\d{4} 表示匹配4位数字的后缀，即号码的后四位。
综上所述，该正则表达式模式可以匹配常见的美国电话号码格式，但是也有一些未能覆盖到的情况，如国际电话号码等。

搜索实战-邮箱举例

提http、https、www.网址带各级后缀【域名本身也可】

正则如下，notepad++可测，此文表格放心使用。

				
					(https?:\/\/)?(www\.)?([a-zA-Z0-9-]+\.)+[a-zA-Z]{2,}(\/[^\s]*)?

Extract Domains

文本输入:

5/5 - (1/投票总数)

浏览量： 405

外贸客户开发工具谷歌Search All Plugin自定义搜索指令，高效2022

Search All Plug…

邮件群发客户端Bulk Mailer 9.5.0.4 Pro版，外贸实战笔记

邮件群发客户端Bulk Mai…

外贸网站如何前台显示英文，后台显示中文

目录前言做英文站点的，有时…

Media Cleaner Pro外贸WordPress网站媒体库清理优化插件使用教程

目录 WP清理插件 Datab…

如何批量编辑产品PW WooCommerce Bulk Edit Pro2022

WooCommerce如何批量…

本站产品

外贸实战笔记 06/21/2023

Automotive Black Rubber Brake Clutch Pedal Pads【FTS China】

Automotive Blac…

外贸实战笔记 06/20/2023

Industrial Electrical Red Silicone Rubber Sheath【FTS China】

Industrial Elec…

外贸实战笔记 06/20/2023

Industrial Electrical Silicone Rubber Bolt Cover【FTS China】

Industrial Elec…

外贸实战笔记 06/21/2023

Fitness Equipments Silicone Rubber Handle Covers【FTS China】

Fitness Equipme…

外贸实战笔记 06/21/2023

EPDM Black Rubber Gaskets And Seals【FTS China】

EPDM Black Rubb…

FAQ

微信群如何加入？

公众号主页对话框，输入微信群（3个汉字）。

外贸实战笔记为何注重实战？

所有内容皆为作者亲身实战，拒绝空谈，主张实战。希望每一位外贸人都将自己的疑惑付诸实战，拒绝道听途说。外贸实战，从你我做起。

此站为何免费分享？

宗旨是实战，免费是追求，核心思想是扶正自我。行业不同，观点不同，立场不同，憧憬亦不同。人各有志。全网良心巨匠，等同于免费（无任何水分，毫不夸张）。

此站有培训课吗？

此站作者，普普通通外贸从业人员，无培训。远离大神，少听课。

此站如何获客？

此站不获客。来到此站，即缘分，无需相识，去留皆可。挂羊头卖狗肉，非我。带走一丝灵感，足矣。

此站如何盈利？软件工具是否灵兽？

外贸笔记不以盈利为目的，也不做慈善。免费问题免费答。付费QQ群有一些软件与工具可免费下载，永久更新中。冷静思考，独立分析，善于钻研者入。此站不灭，Q群不亡，终身保修。不进付费Q群工具如何获取？公众号后台输入灵兽二字查看。

此站建站目的是什么？

记录外贸工作，总结经验，实验站，试错站，借此心得，希望产品独立站能成功起流量。SEO流量。实战纠错中。

此站笔记会停更吗？

2017年从事外贸工作，2022年建立此站，停更，代表此站作者已退出深爱的挚爱的引以为傲的外贸江湖。也会彻底删除此站，绝不以外贸名义行培训之事。

此站终极目标是什么？

产品独立站SEO起流量。希望每一位深入阅读此站外贸从业者，皆能抱以此志。Improve Marketing Ability.

我也想建站，有建站教程吗？

教程不敢言，此站详尽地记录了外贸笔记从无到有几乎每一步。与以有心者。

此站所有观点都是正确的吗？

此站作者究其所能分享了外贸路上学会的几乎所有技能，每一页，每一篇文章都会在日常中不断精进，记得时常翻阅。取其精华，去其糟粕。愿技能不仅是技能，可为生产力。世界上最遥远的距离，是知道与践行。愿助各位一臂之力，愿外贸路上的你顺风顺水，一路长虹。

做外贸赚钱吗？

不太清楚。这只是我的工作，勉强饿不死。祝你暴富。

通过此站方法多久能开单？

可能一周、一个月、一年、一辈子。热爱永不败。

如何成功开发客户？

通过文字、图片、声音、视频、面谈，获得对方认可。就像我通过网站与公众号在获得你的认可一样。

推荐个VPN？你的爬虫技术真棒！

本站不提供任何翻墙工具及咨询服务，翻墙属违法行为。所有被采集信息皆为互联网公开的前端信息。所有信息采集类工具，仅为提升工作效率，勿传播，勿作非法用途。爱国守法，明礼诚信，团结友善，敬业奉献，勿违法乱纪。

是否提供一对一私聊服务？

不提供私聊服务。付费Q群，认真阅读研习网站后，自行决定是否进入，勿盲目从众。此站不陪聊，无客服服务（Unlimited Questions）。本站内容说简单也简单，说复杂也复杂，适合心静钻研性人群。勿依赖作者，去除平台个人主义色彩，去中心化。此站分享的不是工具，不是技巧，是思路，是系统，形而上者谓之道，形而下者谓之器，驭器为道。举一反三，以一敌百，无招胜有招。

破解版软件真好用！【此站严正声明如下】

1.售卖盗版软件属违法行为，本站不售卖盗版软件，拒绝盗版，从我做起。
2.Q群付费进群，是且仅仅是因为付费者想获取QQ群其它技能，比如关键词指令、客户开发思路等等（价值远超1000万元人民币）。
3.QQ群内技术版软件免费分享只是为了好玩，纯属炫技，毫无价值，一文不值，全都没用，此站无任何售卖行为。若正版版权拥有者发现此站，请马上联系，将立即删除。
4.破解版是否真正是相对应官网的正版破解版，需要专业机构从长计议（不能仅从几张图片认定为正版破解版）。
5.此站所有收益皆通过微信公众号：外贸业务员，并依法纳税。

外贸盗版大王称号是对此站严重污蔑，与此站宗旨完全不符，请慎言慎行。爱国守法，明礼诚信，敬业奉献。

Regular Expression notepad++ 文本提取数据（网址/邮箱/电话等等），正则表达式RegEx, 外贸实战笔记v8.5

标签

Regular Expression 正则表达式RegEx

notepad++

相关正则

Website正则

Excel数据库

仅用域名处理

不带https、http和www.一级域名正则【仅且只能为域名本身】

一级域名正则解释

带https、http、www.及各级链接正则【仅且含域名本身也可】

邮箱正则

电话正则

中国举例

美国举例

搜索实战-邮箱举例

提http、https、www.网址带各级后缀【域名本身也可】

本站产品

Automotive Black Rubber Brake Clutch Pedal Pads【FTS China】

Industrial Electrical Red Silicone Rubber Sheath【FTS China】

Industrial Electrical Silicone Rubber Bolt Cover【FTS China】

Fitness Equipments Silicone Rubber Handle Covers【FTS China】

EPDM Black Rubber Gaskets And Seals【FTS China】