python正则表达式思考_重正则表达式真的很耗时

2023-11-24 09:50:26

我使用以下正则表达式来检测html文件中的开始和结束脚本标记：

简而言之：<；script NOT<；/s>；NOT<；/s<；/script>；

它可以工作，但需要很长时间才能检测到<；script>；，

即使是几分钟或几小时的长串

精简版甚至适合长串：

^{pr2}$

不过，我也将扩展模式用于其他标记，例如<；a>；<；和>；可以作为属性值

python测试：import re

pattern = re.compile('', re.I + re.DOTALL)

re.search(pattern, '1122').group()

re.search(pattern, '').group()

我怎样才能修好它？

regex的内部部分(在<；script>；之后)应该更改并简化。在

注：)预计你的答案是错误的，比如在html解析中使用regex，

我非常了解许多html/xml解析器，而且在经常损坏的html代码中，regex在这里非常有用。在

评论：

好吧，我需要处理：

每个<；a<；文档类似这个边界=“5px；”>；

方法是将解析器和正则表达式一起使用

beauthoulsoup只有2k行，它不处理每个html，只是从sgmllib扩展regex。在

主要原因是我必须知道每个标签开始和停止的确切位置。每一个损坏的html都必须被处理。

BS并不完美，有时会发生：

美化组('<；scriPt\n\n>；a<；aa>；s<；/scriPt>；')。findAll('scriPt')==[]

@赛利安：

如您所知，原子分组在python的re中不可用。

所以非极客的一切都是？until<；\s*/\s*tag\s*>；是这次的赢家。在

我知道在这种情况下这并不完美：

搜索('<；\s*脚本。？<；\s/\s*script\s*>；'，'<；script<；/script>；狗屎<；/script>；')。group()

但我可以在下一个解析中处理被拒绝的tail。

很明显，用regex解析html并不是一场战斗。在

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python正则表达式思考_重正则表达式真的很耗时

相关文章