在文本中查找字符串的特定模式
问题描述:
我正在寻找一种方法在文本中查找某些特定的模式。例如,如果我想找到一个文本格式,这样所有引用:在文本中查找字符串的特定模式
- 男爵,纳奥米(2000)字母来电子邮件:如何写英文演进以及它的航向,劳特利奇:伦敦和纽约。
所以任何类似的东西都会从输入文本中返回。有没有什么算法对此很好。目前为止我发现的所有算法都是在文本中搜索相似的字符串。
我在考虑使用正则表达式,但我不知道这是否是最好的方法,因为我需要一些能够计算相似度索引的东西,然后返回具有最佳分数的匹配。
答
您正在寻找的技术称为信息提取。
这里是我的回答类似的问题:
How does Apple find dates, times and addresses in emails?
您可能需要一些命名实体识别过于结合起来。 http://en.wikipedia.org/wiki/Named-entity_recognition
什么语言?听起来像你需要像[狮身人面像](http://sphinxsearch.com/) –
描述你在寻找什么更好 - 尝试描述[grammer](http://en.wikipedia.org/wiki/Formal_grammar)随着更多的例子。一旦你这样做了 - 这将是明确的正则表达式是否足够,或者你可能需要一个[context-free](http://en.wikipedia.org/wiki/Context-free_language)解析器(以及:[LR? SLR?](http://en.wikipedia.org/wiki/LR_parser)也许[LL](http://en.wikipedia.org/wiki/LR_parser)?) – amit
解析这些字符串是计算相似性是两个不同的任务。 –