正则表达式


前言:在家中根本没有学习的心思与氛围,就想着睡觉与玩耍,今天决定看看正则表达式以及表达式的使用。

简单介绍

正则表达式用来处理复杂的文本,大部分的语言、数据库、文本编辑器、文本开发环境都支持正则表达式。

使用正则的流程:

  • 分析所要匹配的数据,写出测试用的典型数据
  • 在工具软件中进行匹配测试
  • 在程序中调用通过测试的正则表达式

普通字符

字母、数字、汉子、下划线、以及没有特殊定义的标点符号,都是普通字符。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。

简单的转义字符

\n 代表换行符
\t 制表符
\ 代表\本身
^,$,(,),{},?,+,*,|,[,] 匹配字符本身

标准字符集合

能够与‘多种字符’匹配的表达式

注意区分大小写,大写是相反的意思

\d 任意一个数字,0-9中任意一个
\w 任意一个字母或数字或下划线,也就是AZ,az,0~9,_中的任意一个
\s 包括空格、制表符、换行符等空白字符中的其中任意一个
. 小数点可以匹配任意一个字符(除换行符);如果要匹配包括“\n”在内的所有字符,一般使用[\s\S]

自定义字符集合

[]方括号匹配方式,能够匹配方括号中的任意一个字符

[ab5@] 匹配“a”或“b”或“5”或@
[^abc] 匹配“a”,“b”,“c”之外的任意一个字符
[f-k] 匹配“f”~“k”之间任意的一个字母
[^A-F0-3] 匹配“”“”,“”“”之外的任意一个字符

正则表达式的特殊符号,被包含到中括号中,失去特殊意义,除了^ 与-号之外。

标准字符集合,除了小数点外,如果被包含于中括号,自定义字符集合将包含该集合。例如:[\d.-+]将匹配:数字、小数点、+、-

量词(Quantifier)

{n} 表达式重复n次
{m,n} 表达式至少重复m次,最多重复n次
{m,} 表达式至少重复m次
? 匹配表达式0次或者1次,相当于{0,1}
+ 表达式至少出现1次,相当于{1,}
* 表达式不出现或出现任意次,相当于{0,}

匹配次数中的贪婪模式(匹配字符越多越好,默认!)

匹配次数中的非贪婪模式(匹配字符越少越好,修饰匹配次数的特殊符号后再加上一个?号)

字符边界

该标记匹配的不是字符,而是位置,符合某种条件的位置

^ 与字符串开始的地方匹配
$ 与字符串结束的地方匹配
\b 匹配一个单词边界

\b匹配这样一个位置:前面的字符和后面的字符不全是\w(数字、字母、下划线)

选择符与分组

表达式 作用
| 分支结构 左右两边表达式之间”或”关系,匹配左边或者右边
() 捕获组 1.在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰;2.取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到;3.每一对括号会分配一个编号,使用()的捕获根据左括号的顺序从1考试自动编号。捕获元素编号为0的第一个捕获是由整个正则表达式模式匹配的文本。
(?:Expression) 一些表达式中,不得不使用(),但又不需要保存()中子表达式匹配的内容,这时可以用非捕获组来抵消使用()带来的副作用。

反向引用(\nnn)

每一对()会分配一个编号,使用()的捕获根据左括号的顺序从1开始自动编号。通过反向引用,可以对分组已捕获的字符串进行引用。

预搜索

  • 只进行子表达式的匹配,匹配内容不计入最终的匹配结果,是零宽度
  • 这个位置应该符合某个条件,判断当前位置的前后字符,是否符合指定的条件,但不匹配前后的字符,是对位置的匹配
  • 正则表达式匹配过程中,如果子表达式匹配到的是字符内容,而非位置,并被保存到最终的匹配结果中,那么就认为这个子表达式是占有字符的;如果子表达式匹配的仅仅是位置,或者匹配的内容并不保存到最终的匹配结果中,那么就认为这个子表达式是零宽度的。占有字符还是零宽度,是针对匹配的内容是否保存到最终的匹配结果中而言的。
(?=exp) 断言自身出现的位置的后面能匹配表达式exp
(?<=exp) 断言自身出现的位置的前面能匹配表达式exp
(?!exp) 断言此位置的后面不能匹配表达式exp
(?<!exp) 断言此位置的前面不能匹配的表达式exp

匹配练习

电话号码的匹配(固定电话)

1.电话号码有数字和-构成

2.电话号码为7~8位

3.如果电话号码中包含有区号,那么区号为三位或四位,首位是0

4.区号用-和其他部分隔开

5.移动电话号码为11位

6.11位移动电话号码的第一位和第二位为13,15,18

正则表达式: 0\d{2,3}-\d{7,9}

解释:以0开头,后面匹配两位或者三位数字,匹配“-”,匹配7位到9位的数字表示电话号码

移动电话正则:(1[35789]\d{9})

邮箱匹配

[\w\-]+@[a-z0-9A-Z]+(\.[A-Za-z]{2,4}){1,2}

常用正则列表

说明 正则表达式
匹配空白行 [\u4e00-\u9fa5]
匹配HTML标记 \n\s*\r
匹配首位空白字符 <(\S*?)[^>]*>.*?<^\1>|<.*?/>
匹配Email地址 ^*|\s*$
匹配网址URL \w+([-+.]\w+)|@\w+([-.]\w+)*\.\w+([-.]\w+)\
匹配国内电话号码 [a-zA-Z]+://[^\s]
匹配腾讯QQ号 \d{3}-\d{8}|\d{4}-\d{7}
匹配中国邮政编码 [1-9][0-9]{4,}
匹配身份证 [1-9]\d{5}(?!\d)
匹配ip地址 \d+\.\d+\.\d+\.\d+

匹配正确的数字

匹配规则:

​ 匹配正整数:”\d+”

​ 匹配正小数:”\d+\.\d+”

​ 匹配负整数:”-\d+”

​ 匹配负小数:”-\d+\.\d+”

​ 匹配保留两位小数的正数:”\d+\.\d{2}”

​ 匹配保留1-3位小数的正数:”\d+\.\d{1,3}”

匹配合法的邮箱

匹配规则:

​ ”[a-zA-Z_0-9]+@[a-zA-Z_0-9]+(\.[a-zA-Z_0-9]+)+”

​ ”\w+@\w+(\.\w+)+”

Java中使用正则

相关类位于:java.util.regex包下面

类Pattern:正则表达式的编译表示形式

//建立正则表达式,并启用相应模式

Pattern pat = Pattern.compiler(r,int);

类Matcher:通过解释Pattern对character sequence执行匹配操作的引擎

//匹配str字符串

Matcher mat = p.matcher(str);

public static void main(String[] args) {
        // 正则表达式判断字符串是否满足表达式
        // 表达式对象
        Pattern part = Pattern.compile("\\w+");
        // 创建Matcher对象
        Matcher matcher = part.matcher("asfsdf2&&3323");
        // 将整这个字符串与正则表达式匹配
        boolean flag = matcher.matches();
        // 该方法扫描输入的序列,查找与该模式匹配的下一个子序列
        // boolean find = matcher.find();
        System.out.println(flag);
        // System.out.println(find);

        while (matcher.find()) {
            System.out.println(matcher.group());
        }
    }

字符串先关处理

    public static void main(String[] args) {
        // 表达式对象
        Pattern p = Pattern.compile("[0-9]");
        // 创建Match对象
        Matcher matcher = p.matcher("aa232**ssd445*sds223");
        // 替换 将字符串中的数字替换成#号
        String newStr = matcher.replaceAll("#");
        System.out.println(newStr);

        // 分割
        String str = "a,b,c";
        String[] split = str.split(",");
        System.out.println(Arrays.toString(split));
        String str2 = "a232b225c663d";
        String[] split2 = str2.split("\\d+");
        System.out.println(Arrays.toString(split2));
    }

网络爬虫中的使用

public static void main(String[] args) {
        String temp = getUrlContent("http://www.baidu.com", "utf8");
        System.out.println(temp);
        Pattern p = Pattern.compile("<a[\\s\\S]+?</a>");
//        Pattern p = Pattern.compile("href=\"(.+?)\"");
//        Pattern p = Pattern.compile("href=\"([\\w\\s/:]+?)\"");
        Matcher matcher = p.matcher(temp);
        while (matcher.find()) {
            System.out.println(matcher.group());
        }
    }

    private static String getUrlContent(String urlStr, String encode) {
        StringBuilder sb = new StringBuilder();
        try {
            URL url = new URL(urlStr);
            BufferedReader reader = new BufferedReader(
                    new InputStreamReader(url.openStream(), Charset.forName(encode)));
            String temp = "";
            while ((temp = reader.readLine()) != null) {
                sb.append(temp);
            }

        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return sb.toString();
    }

文章作者: it星
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 it星 !
 本篇
正则表达式 正则表达式
前言:在家中根本没有学习的心思与氛围,就想着睡觉与玩耍,今天决定看看正则表达式以及表达式的使用。 简单介绍正则表达式用来处理复杂的文本,大部分的语言、数据库、文本编辑器、文本开发环境都支持正则表达式。 使用正则的流程: 分析所要匹配的数据
下一篇 
软件工程设计 软件工程设计
软件工程软件生命周期 软件的生命周期又称为软件的生存周期或系统开发生命周期,是指从软件的产生直到报废的整个过程,它包括问题定义、可行性分析、总体描述、系统设计、编码、调试和测试、验收与运行、维护升级与报废等阶段。每一个阶段都有确定的任务,并
2020-12-19
  目录