正则表达式匹配不包含单词的行吗?
我知道可以匹配一个单词,然后使用其他工具(例如grep -v )反转匹配。 但是,我想知道是否可以使用正则表达式匹配不包含特定单词(例如hede)的行。
输入:
hoho
hihi
haha
hede
码:
grep "<Regex for 'doesn't contain hede'>" input
期望的输出:
hoho
hihi
haha
正则表达式不支持逆匹配的概念并不完全正确。 你可以通过使用负面的查找来模仿这种行为:
^((?!hede).)*$
上面的正则表达式匹配任何字符串,或没有换行符的行, 不包含(子)字符串'hede'。 如前所述,这不是正则表达式在(或应该)是“好”的,但仍然是可能的。
如果您还需要匹配换行符字符,请使用DOT-ALL修饰符(以下列模式中的尾部s ):
/^((?!hede).)*$/s
或者直接使用它:
/(?s)^((?!hede).)*$/
(其中/.../是正则表达式分隔符,即不是模式的一部分)
如果DOT-ALL修饰符不可用,则可以模拟与字符类[sS]相同的行为:
/^((?!hede)[sS])*$/
说明
一个字符串只是一个包含n字符的列表。 在每个字符之前和之后,都有一个空字符串。 所以n字符的列表将有n+1空字符串。 考虑字符串"ABhedeCD" :
┌──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┐
S = │e1│ A │e2│ B │e3│ h │e4│ e │e5│ d │e6│ e │e7│ C │e8│ D │e9│
└──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┘
index 0 1 2 3 4 5 6 7
e是空串。 正则表达式(?!hede). 展望未来是否没有可以看到的子字符串"hede" ,如果是这种情况(因此可以看到别的东西),那么. (点)将匹配除换行符之外的任何字符。 查找表也称为零宽度断言,因为它们不消耗任何字符。 他们只是断言/验证一些东西。
所以,在我的例子中,每个空字符串首先被验证,以查看在字符被消耗之前是否没有"hede" . (点)。 正则表达式(?!hede). 将只做一次,所以它被包装在一个组中,并重复零次或多次: ((?!hede).)* 。 最后,开始和结束输入被锚定以确保整个输入被消耗: ^((?!hede).)*$
正如你所看到的,输入"ABhedeCD"将失败,因为在e3 ,正则表达式(?!hede)失败(前面有"hede" !)。
请注意,解决方案不以“hede”开头 :
^(?!hede).*$
通常比不包含“hede”的解决方案效率更高:
^((?!hede).)*$
前者仅在输入字符串的第一个位置而不是每个位置检查“hede”。
如果您只是将它用于grep,则可以使用grep -v hede来获取所有不包含hede的行。
ETA哦,重读这个问题, grep -v可能就是你所说的“工具选项”。
上一篇: Regular expression to match a line that doesn't contain a word?
