前言:在家中根本没有学习的心思与氛围,就想着睡觉与玩耍,今天决定看看正则表达式以及表达式的使用。
简单介绍
正则表达式用来处理复杂的文本,大部分的语言、数据库、文本编辑器、文本开发环境都支持正则表达式。
使用正则的流程:
- 分析所要匹配的数据,写出测试用的典型数据
- 在工具软件中进行匹配测试
- 在程序中调用通过测试的正则表达式
普通字符
字母、数字、汉子、下划线、以及没有特殊定义的标点符号,都是普通字符。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。
简单的转义字符
\n | 代表换行符 |
---|---|
\t | 制表符 |
\ | 代表\本身 |
^,$,(,),{},?,+,*,|,[,] | 匹配字符本身 |
标准字符集合
能够与‘多种字符’匹配的表达式
注意区分大小写,大写是相反的意思
\d | 任意一个数字,0-9中任意一个 |
---|---|
\w | 任意一个字母或数字或下划线,也就是A |
\s | 包括空格、制表符、换行符等空白字符中的其中任意一个 |
. | 小数点可以匹配任意一个字符(除换行符);如果要匹配包括“\n”在内的所有字符,一般使用[\s\S] |
自定义字符集合
[]方括号匹配方式,能够匹配方括号中的任意一个字符
[ab5@] | 匹配“a”或“b”或“5”或@ |
---|---|
[^abc] | 匹配“a”,“b”,“c”之外的任意一个字符 |
[f-k] | 匹配“f”~“k”之间任意的一个字母 |
[^A-F0-3] | 匹配“” |
正则表达式的特殊符号,被包含到中括号中,失去特殊意义,除了^ 与-号之外。
标准字符集合,除了小数点外,如果被包含于中括号,自定义字符集合将包含该集合。例如:[\d.-+]将匹配:数字、小数点、+、-
量词(Quantifier)
{n} | 表达式重复n次 |
---|---|
{m,n} | 表达式至少重复m次,最多重复n次 |
{m,} | 表达式至少重复m次 |
? | 匹配表达式0次或者1次,相当于{0,1} |
+ | 表达式至少出现1次,相当于{1,} |
* | 表达式不出现或出现任意次,相当于{0,} |
匹配次数中的贪婪模式(匹配字符越多越好,默认!)
匹配次数中的非贪婪模式(匹配字符越少越好,修饰匹配次数的特殊符号后再加上一个?号)
字符边界
该标记匹配的不是字符,而是位置,符合某种条件的位置
^ | 与字符串开始的地方匹配 |
---|---|
$ | 与字符串结束的地方匹配 |
\b | 匹配一个单词边界 |
\b匹配这样一个位置:前面的字符和后面的字符不全是\w(数字、字母、下划线)
选择符与分组
表达式 | 作用 |
---|---|
| 分支结构 | 左右两边表达式之间”或”关系,匹配左边或者右边 |
() 捕获组 | 1.在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰;2.取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到;3.每一对括号会分配一个编号,使用()的捕获根据左括号的顺序从1考试自动编号。捕获元素编号为0的第一个捕获是由整个正则表达式模式匹配的文本。 |
(?:Expression) | 一些表达式中,不得不使用(),但又不需要保存()中子表达式匹配的内容,这时可以用非捕获组来抵消使用()带来的副作用。 |
反向引用(\nnn)
每一对()会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。通过反向引用,可以对分组已捕获的字符串进行引用。
预搜索
- 只进行子表达式的匹配,匹配内容不计入最终的匹配结果,是零宽度
- 这个位置应该符合某个条件,判断当前位置的前后字符,是否符合指定的条件,但不匹配前后的字符,是对位置的匹配
- 正则表达式匹配过程中,如果子表达式匹配到的是字符内容,而非位置,并被保存到最终的匹配结果中,那么就认为这个子表达式是占有字符的;如果子表达式匹配的仅仅是位置,或者匹配的内容并不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的。占有字符还是零宽度,是针对匹配的内容是否保存到最终的匹配结果中而言的。
(?=exp) | 断言自身出现的位置的后面能匹配表达式exp |
---|---|
(?<=exp) | 断言自身出现的位置的前面能匹配表达式exp |
(?!exp) | 断言此位置的后面不能匹配表达式exp |
(?<!exp) | 断言此位置的前面不能匹配的表达式exp |
匹配练习
电话号码的匹配(固定电话)
1.电话号码有数字和-构成
2.电话号码为7~8位
3.如果电话号码中包含有区号,那么区号为三位或四位,首位是0
4.区号用-和其他部分隔开
5.移动电话号码为11位
6.11位移动电话号码的第一位和第二位为13,15,18
正则表达式: 0\d{2,3}-\d{7,9}
解释:以0开头,后面匹配两位或者三位数字,匹配“-”,匹配7位到9位的数字表示电话号码
移动电话正则:(1[35789]\d{9})
邮箱匹配
[\w\-]+@[a-z0-9A-Z]+(\.[A-Za-z]{2,4}){1,2}
常用正则列表
说明 | 正则表达式 |
---|---|
匹配空白行 | [\u4e00-\u9fa5] |
匹配HTML标记 | \n\s*\r |
匹配首位空白字符 | <(\S*?)[^>]*>.*?<^\1>|<.*?/> |
匹配Email地址 | ^*|\s*$ |
匹配网址URL | \w+([-+.]\w+)|@\w+([-.]\w+)*\.\w+([-.]\w+)\ |
匹配国内电话号码 | [a-zA-Z]+://[^\s] |
匹配腾讯QQ号 | \d{3}-\d{8}|\d{4}-\d{7} |
匹配中国邮政编码 | [1-9][0-9]{4,} |
匹配身份证 | [1-9]\d{5}(?!\d) |
匹配ip地址 | \d+\.\d+\.\d+\.\d+ |
匹配正确的数字
匹配规则:
匹配正整数:”\d+”
匹配正小数:”\d+\.\d+”
匹配负整数:”-\d+”
匹配负小数:”-\d+\.\d+”
匹配保留两位小数的正数:”\d+\.\d{2}”
匹配保留1-3位小数的正数:”\d+\.\d{1,3}”
匹配合法的邮箱
匹配规则:
”[a-zA-Z_0-9]+@[a-zA-Z_0-9]+(\.[a-zA-Z_0-9]+)+”
”\w+@\w+(\.\w+)+”
Java中使用正则
相关类位于:java.util.regex包下面
类Pattern:正则表达式的编译表示形式
//建立正则表达式,并启用相应模式
Pattern pat = Pattern.compiler(r,int);
类Matcher:通过解释Pattern对character sequence执行匹配操作的引擎
//匹配str字符串
Matcher mat = p.matcher(str);
public static void main(String[] args) {
// 正则表达式判断字符串是否满足表达式
// 表达式对象
Pattern part = Pattern.compile("\\w+");
// 创建Matcher对象
Matcher matcher = part.matcher("asfsdf2&&3323");
// 将整这个字符串与正则表达式匹配
boolean flag = matcher.matches();
// 该方法扫描输入的序列,查找与该模式匹配的下一个子序列
// boolean find = matcher.find();
System.out.println(flag);
// System.out.println(find);
while (matcher.find()) {
System.out.println(matcher.group());
}
}
字符串先关处理
public static void main(String[] args) {
// 表达式对象
Pattern p = Pattern.compile("[0-9]");
// 创建Match对象
Matcher matcher = p.matcher("aa232**ssd445*sds223");
// 替换 将字符串中的数字替换成#号
String newStr = matcher.replaceAll("#");
System.out.println(newStr);
// 分割
String str = "a,b,c";
String[] split = str.split(",");
System.out.println(Arrays.toString(split));
String str2 = "a232b225c663d";
String[] split2 = str2.split("\\d+");
System.out.println(Arrays.toString(split2));
}
网络爬虫中的使用
public static void main(String[] args) {
String temp = getUrlContent("http://www.baidu.com", "utf8");
System.out.println(temp);
Pattern p = Pattern.compile("<a[\\s\\S]+?</a>");
// Pattern p = Pattern.compile("href=\"(.+?)\"");
// Pattern p = Pattern.compile("href=\"([\\w\\s/:]+?)\"");
Matcher matcher = p.matcher(temp);
while (matcher.find()) {
System.out.println(matcher.group());
}
}
private static String getUrlContent(String urlStr, String encode) {
StringBuilder sb = new StringBuilder();
try {
URL url = new URL(urlStr);
BufferedReader reader = new BufferedReader(
new InputStreamReader(url.openStream(), Charset.forName(encode)));
String temp = "";
while ((temp = reader.readLine()) != null) {
sb.append(temp);
}
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return sb.toString();
}