正则表达式在Python

问题描述：

schema(field1, field2, field3, field4 ... fieldn)

我需要将字符串name属性为schema和字段名的另一个属性是一个列表转换为一个对象。

如何在Python中使用正则表达式执行此操作？

答

对于这样的事情可能需要的正则表达式测试：

import unittest 

import re 

# Verbose regular expression! http://docs.python.org/library/re.html#re.X 
p = r""" 

(?P<name>[^(]+)   # Match the pre-open-paren name. 
\(      # Open paren 
(?P<fields>    # Comma-separated fields 
    (?: 
     [a-zA-Z0-9_-]+ 
     (?:,\)   # Subsequent fields must separated by space and comma 
    )* 
    [a-zA-Z0-9_-]+  # At least one field. No trailing comma or space allowed. 
) 

\)      # Close-paren 
""" 

# Compiled for speed! 
cp = re.compile(p, re.VERBOSE) 

class Foo(object): 
    pass 


def validateAndBuild(s): 
    """Validate a string and return a built object. 
    """ 
    match = cp.search(s) 
    if match is None: 
     raise ValueError('Bad schema: %s' % s) 

    schema = match.groupdict() 
    foo = Foo() 
    foo.name = schema['name'] 
    foo.fields = schema['fields'].split(', ') 

    return foo 



class ValidationTest(unittest.TestCase): 
    def testValidString(self): 
     s = "schema(field1, field2, field3, field4, fieldn)" 

     obj = validateAndBuild(s) 

     self.assertEqual(obj.name, 'schema') 

     self.assertEqual(obj.fields, ['field1', 'field2', 'field3', 'field4', 'fieldn']) 

    invalid = [ 
     'schema field1 field2', 
     'schema(field1', 
     'schema(field1 field2)', 
     ] 

    def testInvalidString(self): 
     for s in self.invalid: 
      self.assertRaises(ValueError, validateAndBuild, s) 


if __name__ == '__main__': 
    unittest.main()

与我的回答有什么不同？除了拥有所有冗余测试代码和丑陋的正则表达式？ – SilentGhost 2010-10-15 15:05:49

@David，如何更改正则表达式以使字段之间的空间可选？ – 2010-10-15 15:14:25

在第13行，将'\）'改为'\？）'。这使得可以选择逃逸空间。（请参阅中的“量词”一节。 – 2010-10-15 15:20:23

答

你在找这样的吗？

>>> s = 'schema(field1, field2, field3, field4, field5)' 
>>> name, _, fields = s[:-1].partition('(') 
>>> fields = fields.split(', ') 
>>> if not all(re.match(r'[a-z]+\d+$', i) for i in fields): 
    print('bad input') 

>>> sch = type(name, (object,), {'attr': fields}) 
>>> sch 
<class '__main__.schema'> 
>>> sch.attr 
['field1', 'field2', 'field3', 'field4', 'field5']

谢谢，但我正在寻找一个解决方案，在这个过程中，还允许我验证字符串是在上面指定的格式。 – 2010-10-15 14:21:15

想知道，你有没有使用'partition（）'而不是'split（...，1）'的具体原因，还是仅仅是首选？无论哪种方式，+1 :) – Wolph 2010-10-15 14:21:24

@Yasmin：这是？ – SilentGhost 2010-10-15 14:21:39

答

您可以使用类似（两轮，因为蟒蛇重不支持嵌套捕获（感谢SilentGhost指点出来））：

pattern = re.compile("^([a-z]+)\(([a-z,]*)\)$") 

ret = pattern.match(s) 

if ret==None: 
    ... 
else: 
    f = ret.groups() 
    name = f[0] 
    args = f[1] 

    arg_pattern = re.compile("^([a-z]+)(,[a-z]+)*$") 

    ret2 = arg_pattern.match(args) 

    # same checking as above 
    if (ret2==None): 
     ... 
    else: 
     args_f = ret2.groups()

它只能用于两个参数，Python不支持嵌套捕获 – SilentGhost 2010-10-15 14:52:31

它对字段> 2有效吗？我尝试了四个字段并打印字段打印架构，第一个和最后一个。错误？ – 2010-10-15 14:56:02

是的（参考SilentGhost）。我试图解决这个问题...... – ThR37 2010-10-15 14:57:52

正则表达式在Python

相关推荐