python正则search提取表达式中括号中的内容_R语言正则表达式：提取括号中的内容...

2023-11-23 08:36:02

作者：黄天元，复旦大学博士在读，热爱数据科学与开源工具(R)，致力于利用数据科学迅速积累行业经验优势和科学知识发现，涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等，著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【摘要书评试读】- 京东图书)。知乎专栏：R语言数据挖掘。邮箱：huang.tian-yuan@qq.com.欢迎合作交流。

如果需要使用R语言进行文本挖掘和自然语言处理，那么字符串的操作时必不可少的，而其中一个重要内容就是使用正则表达式来匹配字符串中相应的内容，从而进行提取。在R语言中，能够完成这项工作的有基本包中的grep，stringr的str_extract等。这里首推stringr包，因为它具有更加直观的语法结构。下面给出两个较为好的资料的链接：https://github.com/rstudio/cheatsheets/blob/master/regex.pdfgithub.comhttps://github.com/rstudio/cheatsheets/blob/master/strings.pdfgithub.com

这两份资料基本涵盖了大部分的应用，不过很多时候如果不够熟练，还是要经常查表才能够知道怎么做。这里就提一个实际例子：如何提取文本中括号中的字符串信息呢？

例子：字符串为"hello world (lalala)"，现在想要得到里面的“lalala”。

传统思维(注意括号是保留字符，因此需要双反斜杠，即“\\(”和“\\)”。此外，因为要临近括号的内容，因此不能贪婪，要懒惰，所以要用“.+?”，之所以用了加号“+”(而非乘号“*”)，是因为如果里面没有东西就不要提取其中的空字符“”了)：

library(stringr)

string1 = "hello world (lalala)"

str_extract(string1,"\\(.+?\\)")

[1] "(lalala)"

但是我并不想要括号，以前对正则表达式不熟悉的我，一般只能再次使用定位的方法去掉括号，也就是说：

library(tidyverse)

string1 = "hello world (lalala)"

string1 %>%

str_extract("\\(.+?\\)") %>%

str_sub(2,-2)

[1] "lalala"

嗯，这个方法用了很久了已经。感觉问题也不大，即从所得结果中再提取第二个字符到倒数第二个字符的内容，就把括号去掉了。

但事实上，本来是可以一步到位的，即：

str_extract(string1,"(?<=\\().+?(?=\\))")

[1] "lalala"

尽管一步到位了，但是要理解它，需要有基本功底。即，需要知道(?<=)和(?=)这两个分别代表什么意思。这个东西叫做零宽度断言(前后预查)，具体内容可以参考下面这份资料：ziishaned/learn-regexgithub.com

用语言来解释，就是在“(”之后而且在“)”之前的最短非空内容。所以要清楚这里面哪些括号有对应关系，才能够理解这个正则表达式("(?<=\\().+?(?=\\))")的真正意思。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Nodejs ORM框架Sequelize快速入门
下一篇 > C语言进阶笔记（二） | 指针详解（上）

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python正则search提取表达式中括号中的内容_R语言正则表达式：提取括号中的内容...

相关文章