正则表达式

正则表达式

计算机基础

发布日期: 2021-01-28

更新日期: 2021-01-30

文章字数: 2,089

阅读时长: 8 分

阅读次数:

前言：在家中根本没有学习的心思与氛围，就想着睡觉与玩耍，今天决定看看正则表达式以及表达式的使用。

简单介绍

正则表达式用来处理复杂的文本，大部分的语言、数据库、文本编辑器、文本开发环境都支持正则表达式。

使用正则的流程：

分析所要匹配的数据，写出测试用的典型数据
在工具软件中进行匹配测试
在程序中调用通过测试的正则表达式

普通字符

字母、数字、汉子、下划线、以及没有特殊定义的标点符号，都是普通字符。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。

简单的转义字符

\n	代表换行符
\t	制表符
\	代表\本身
^,$,(,),{},?,+,*,\|,[,]	匹配字符本身

标准字符集合

能够与‘多种字符’匹配的表达式

注意区分大小写，大写是相反的意思

\d	任意一个数字，0-9中任意一个
\w	任意一个字母或数字或下划线，也就是A~~Z,a~~z,0~9,_中的任意一个
\s	包括空格、制表符、换行符等空白字符中的其中任意一个
.	小数点可以匹配任意一个字符(除换行符)；如果要匹配包括“\n”在内的所有字符，一般使用[\s\S]

自定义字符集合

[]方括号匹配方式，能够匹配方括号中的任意一个字符

[ab5@]	匹配“a”或“b”或“5”或@
[^abc]	匹配“a”，“b”，“c”之外的任意一个字符
[f-k]	匹配“f”~“k”之间任意的一个字母
[^A-F0-3]	匹配“”~~“”，“”~~“”之外的任意一个字符

正则表达式的特殊符号，被包含到中括号中，失去特殊意义，除了^ 与-号之外。

标准字符集合，除了小数点外，如果被包含于中括号，自定义字符集合将包含该集合。例如：[\d.-+]将匹配：数字、小数点、+、-

量词(Quantifier)

{n}	表达式重复n次
{m,n}	表达式至少重复m次，最多重复n次
{m,}	表达式至少重复m次
?	匹配表达式0次或者1次，相当于{0,1}
+	表达式至少出现1次，相当于{1,}
*	表达式不出现或出现任意次，相当于{0,}

匹配次数中的贪婪模式(匹配字符越多越好，默认!)

匹配次数中的非贪婪模式(匹配字符越少越好，修饰匹配次数的特殊符号后再加上一个?号)

字符边界

该标记匹配的不是字符，而是位置，符合某种条件的位置

^	与字符串开始的地方匹配
$	与字符串结束的地方匹配
\b	匹配一个单词边界

\b匹配这样一个位置：前面的字符和后面的字符不全是\w(数字、字母、下划线)

选择符与分组

表达式	作用
\| 分支结构	左右两边表达式之间”或”关系，匹配左边或者右边
() 捕获组	1.在被修饰匹配次数的时候，括号中的表达式可以作为整体被修饰；2.取匹配结果的时候，括号中的表达式匹配到的内容可以被单独得到；3.每一对括号会分配一个编号，使用()的捕获根据左括号的顺序从1考试自动编号。捕获元素编号为0的第一个捕获是由整个正则表达式模式匹配的文本。
(?:Expression)	一些表达式中，不得不使用()，但又不需要保存()中子表达式匹配的内容，这时可以用非捕获组来抵消使用()带来的副作用。

反向引用(\nnn)

每一对()会分配一个编号，使用()的捕获根据左括号的顺序从1开始自动编号。通过反向引用，可以对分组已捕获的字符串进行引用。

预搜索

只进行子表达式的匹配，匹配内容不计入最终的匹配结果，是零宽度
这个位置应该符合某个条件，判断当前位置的前后字符，是否符合指定的条件，但不匹配前后的字符，是对位置的匹配
正则表达式匹配过程中，如果子表达式匹配到的是字符内容，而非位置，并被保存到最终的匹配结果中，那么就认为这个子表达式是占有字符的；如果子表达式匹配的仅仅是位置，或者匹配的内容并不保存到最终的匹配结果中，那么就认为这个子表达式是零宽度的。占有字符还是零宽度，是针对匹配的内容是否保存到最终的匹配结果中而言的。

(?=exp)	断言自身出现的位置的后面能匹配表达式exp
(?<=exp)	断言自身出现的位置的前面能匹配表达式exp
(?!exp)	断言此位置的后面不能匹配表达式exp
(?<!exp)	断言此位置的前面不能匹配的表达式exp

匹配练习

电话号码的匹配(固定电话)

1.电话号码有数字和-构成

2.电话号码为7~8位

3.如果电话号码中包含有区号，那么区号为三位或四位，首位是0

4.区号用-和其他部分隔开

5.移动电话号码为11位

6.11位移动电话号码的第一位和第二位为13,15,18

正则表达式： 0\d{2,3}-\d{7,9}

解释：以0开头，后面匹配两位或者三位数字，匹配“-”，匹配7位到9位的数字表示电话号码

移动电话正则：(1[35789]\d{9})

邮箱匹配

[\w\-]+@[a-z0-9A-Z]+(\.[A-Za-z]{2,4}){1,2}

常用正则列表

说明	正则表达式
匹配空白行	[\u4e00-\u9fa5]
匹配HTML标记	\n\s*\r
匹配首位空白字符	<(\S?)[^>]>.?<^\1>\|<.?/>
匹配Email地址	^\|\s$
匹配网址URL	\w+([-+.]\w+)\|@\w+([-.]\w+)\.\w+([-.]\w+)\*
匹配国内电话号码	[a-zA-Z]+://[^\s]
匹配腾讯QQ号	\d{3}-\d{8}\|\d{4}-\d{7}
匹配中国邮政编码	[1-9][0-9]{4,}
匹配身份证	[1-9]\d{5}(?!\d)
匹配ip地址	\d+\.\d+\.\d+\.\d+

匹配正确的数字

匹配规则：

匹配正整数：”\d+”

匹配正小数：”\d+\.\d+”

匹配负整数：”-\d+”

匹配负小数：”-\d+\.\d+”

匹配保留两位小数的正数：”\d+\.\d{2}”

匹配保留1-3位小数的正数：”\d+\.\d{1,3}”

匹配合法的邮箱

匹配规则：

”[a-zA-Z_0-9]+@[a-zA-Z_0-9]+(\.[a-zA-Z_0-9]+)+”

”\w+@\w+(\.\w+)+”

Java中使用正则

相关类位于：java.util.regex包下面

类Pattern：正则表达式的编译表示形式

//建立正则表达式，并启用相应模式

Pattern pat = Pattern.compiler(r,int);

类Matcher：通过解释Pattern对character sequence执行匹配操作的引擎

//匹配str字符串

Matcher mat = p.matcher(str);

public static void main(String[] args) {
        // 正则表达式判断字符串是否满足表达式
        // 表达式对象
        Pattern part = Pattern.compile("\\w+");
        // 创建Matcher对象
        Matcher matcher = part.matcher("asfsdf2&&3323");
        // 将整这个字符串与正则表达式匹配
        boolean flag = matcher.matches();
        // 该方法扫描输入的序列，查找与该模式匹配的下一个子序列
        // boolean find = matcher.find();
        System.out.println(flag);
        // System.out.println(find);

        while (matcher.find()) {
            System.out.println(matcher.group());
        }
    }

字符串先关处理

    public static void main(String[] args) {
        // 表达式对象
        Pattern p = Pattern.compile("[0-9]");
        // 创建Match对象
        Matcher matcher = p.matcher("aa232**ssd445*sds223");
        // 替换 将字符串中的数字替换成#号
        String newStr = matcher.replaceAll("#");
        System.out.println(newStr);

        // 分割
        String str = "a,b,c";
        String[] split = str.split(",");
        System.out.println(Arrays.toString(split));
        String str2 = "a232b225c663d";
        String[] split2 = str2.split("\\d+");
        System.out.println(Arrays.toString(split2));
    }

网络爬虫中的使用

public static void main(String[] args) {
        String temp = getUrlContent("http://www.baidu.com", "utf8");
        System.out.println(temp);
        Pattern p = Pattern.compile("<a[\\s\\S]+?</a>");
//        Pattern p = Pattern.compile("href=\"(.+?)\"");
//        Pattern p = Pattern.compile("href=\"([\\w\\s/:]+?)\"");
        Matcher matcher = p.matcher(temp);
        while (matcher.find()) {
            System.out.println(matcher.group());
        }
    }

    private static String getUrlContent(String urlStr, String encode) {
        StringBuilder sb = new StringBuilder();
        try {
            URL url = new URL(urlStr);
            BufferedReader reader = new BufferedReader(
                    new InputStreamReader(url.openStream(), Charset.forName(encode)));
            String temp = "";
            while ((temp = reader.readLine()) != null) {
                sb.append(temp);
            }

        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return sb.toString();
    }