博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
深入浅出C/C++中的正则表达式库(一)——GNU Regex Library
阅读量:6477 次
发布时间:2019-06-23

本文共 3454 字,大约阅读时间需要 11 分钟。

hot3.png

写在前面: 本文是面向有正则表达式基础的读者朋友的,如果你还不知道正则表达式是什么,请先到这里学习一下;-) :。

正则表达式(Regular Expressions),又被称为regex或regexp,是一种十分简便、灵活的文本处理工具。它可以用来精确地找出某文本中匹配某种指定规则的内容。在linux下,grep, sed, awk等工具都支持正则表达式,这些工具的存在,为我们日常的文本处理带来了极大的便利。但是,有时候,我们自己写的程序中也需要用到正则表达式来处理一些文本,这时候就需要一些正则表达式库的支持了。由于我本人是用C/C++做为主要开发语言的,所以,在本文以及接下来的几篇文章中,我将介绍几个常用的C/C++的正则表达式的库,通过我的介绍,以及对具体的使用进行举例,希望能够给读者朋友在C/C++程序中使用正则表达式时有点帮助,这将是我莫大的荣幸。

当前,据我所知,在C/C++中常用的正则表达式库有GNU Regex Library, Boost.Regex, PCRE, PCRE++。这四个库中,后面两个是有关系,其它都是各自己独立的,是不同的实现。因此我会分三次,来一一对这四个库进行介绍。今天首先介绍一下GNU Regex Library。

1. 什么是GNU正则表达式库(GNU Regex Library) ?

GNU正则表达式库是glibc(GNU C Library)的一部分,它提供与POSIX标准兼容的正则表达式匹配的接口。
这里是其主页:
下载该库点这里:
2. GNU Regex Library所提供的接口
(1)regcomp:

123456
int regcomp(regex_t *preg, const char *pattern, int cflags) 功能:将要进行匹配的正则表达式pattern进行编译,做匹配前的准备工作参数: preg, 输出参数,用来保存编译后的正则表达式结果      pattern, 输入参数,传入要进行编译的正则表达式的字符串      cflags, 输入参数,用来指定正则表达式匹配过程中的一些选项返回值:编译成功返回0,失败返回非0的错误码

(2)regexec:

123456789
int regexec(const regex_t *preg, const char *string, size_t nmatch, regmatch_t pmatch[], int eflags) 功能:用来检测字符串string是否匹配正则表达式preg参数: preg, 输入参数,在(1)regcomp中编译好的正则表达式规则      string, 输入参数,用来被匹配的字符串      nmatch, 输入参数,用来指定pmatch参数所对应的数组的长度      pmatch, 输出参数,用来输出在string中匹配preg的具体位置      eflag, 输入参数,用来指定正则表达式匹配过程中的一些选项返回值: 如果string匹配preg所指定的规则,则返回0, 否则返回非0

(3)regerror:

1234567
size_t regerror(int errcode, const regex_t *preg, char *errbuf, size_t errbuf_size) 功能:用来把在regcompt和regexec中产生的错误码转化成字符串形式的错误信息参数: errcode, 输入参数,在regcomp或regexec调用中返回的错误码      preg, 输入参数,与错误码所对应的编译过的正则表达式结构      errbuf, 输出参数,用来返回错误信息的buffer,如果buffer不够所需大小,错误信息将被截断      errbuf_size, 输入参数,返回错误信息的buffer的大小 返回值: 如果errbuf_size为0,那么regerror返回错误信息所需要的buffer的大小

(4)regfree:

1234
void regfree (regex_t *preg) 功能: 用来释放由regcomp编译时生成的preg结构所占用的内存参数: preg, 输入参数,由regcomp编译时生成的正则表达的结构指针返回值: 无

3. 使用GNU Regex Library的一些注意事项

(1)regcomp与regfree必须配对使用,要不然会造成内存泄漏(类比malloc/free, new/delete)
(2)regex_t结构:把字符串形式的正则表达式编译成regex_t这样的一个结构,方便后续的匹配工作
(3)regmatch_t结构:用来表示正则表达式中字符串中匹配的位置的结构,用起始位置的偏移量来表示的
(4)flags:用来配置匹配过程中的一些选项, 指定如何匹配,具体参见:
(5)使用该库需要包含的头文件:sys/types.h和regex .h
4. GNU Regex Library使用举例

#include 
#include
#include
int main(int argc, char ** argv){ if (argc != 3) { printf("Usage: %s RegexString Text\n", argv[0]); return 1; } const char * pRegexStr = argv[1]; const char * pText = argv[2]; regex_t oRegex; int nErrCode = 0; char szErrMsg[1024] = {0}; size_t unErrMsgLen = 0; if ((nErrCode = regcomp(&oRegex, pRegexStr, 0)) == 0) { if ((nErrCode = regexec(&oRegex, pText, 0, NULL, 0)) == 0) { printf("%s matches %s\n", pText, pRegexStr); regfree(&oRegex); return 0; } } unErrMsgLen = regerror(nErrCode, &oRegex, szErrMsg, sizeof(szErrMsg)); unErrMsgLen = unErrMsgLen < sizeof(szErrMsg) ? unErrMsgLen : sizeof(szErrMsg) - 1; szErrMsg[unErrMsgLen] = '\0'; printf("ErrMsg: %s\n", szErrMsg); regfree(&oRegex); return 1;}

程序测试:

wuzesheng@wuzesheng-ubuntu:~/Program$ gcc TestRegex.c -o Regexwuzesheng@wuzesheng-ubuntu:~/Program$ ./Regex "http:\/\/www\..*\.com" "https://www.taobao.com"ErrMsg: No matchwuzesheng@wuzesheng-ubuntu:~/Program$ ./Regex "http:\/\/www\..*\.com" "http://www.taobao.com"http://www.taobao.com matches http:\/\/www\..*\.com

以上即是关于GNU Regex Library的全部内容。如果读书者朋友有什么看法可以在下面给我留言。接下来几天,我会陆续介绍前面提到的其它几个库,今天先到这里。

转载于:https://my.oschina.net/mickelfeng/blog/311679

你可能感兴趣的文章
从京东技术演进看互联网企业的成长历程
查看>>
MFC ado+mysql+odbc技术分享
查看>>
路由基本命令(含中文解释)
查看>>
js中让字符串中特定字符红色显示
查看>>
HttpClient4.5教程-第二章-连接管理
查看>>
Yeslab 马老师 V2V环境下vCenter Server Heartbeat v6.4实现vCenter5.0的双机备份
查看>>
linux下定时任务
查看>>
redhat Nginx 安装
查看>>
利用START命令入侵
查看>>
oracle 配置监听
查看>>
上海访微软 详解Azure和S+S
查看>>
跨国巨头猛攻语音识别技术 让电脑听懂人们说话
查看>>
运行QTP测试脚本后,将编译结果写入指定文件(一)
查看>>
6.1. Principles of Usability
查看>>
使用组策略禁用已安装的设备
查看>>
OSSIM5 自定义安装
查看>>
moosefs即将发布新版
查看>>
Forefront Client Security部署前准备
查看>>
WCF4.0新特性体验(12):服务发现WS-Discovery之Managed Service Discovery
查看>>
FOSCommentBundle功能包:运行测试
查看>>