ChineseNER based deep learning
上篇文章讲解 了tf.contrib.crf.crf_log_likelihood的使用,这边文章主要说一下 这个项目,详见github,求 Star~~,项目会不断更新
注意 ,我这里使用的tensorflow版本是1.13.1.如果您使用 tensorflow2.0,contrib这个namespace已经不存在了,请注意
里面用的 训练集 是 来源于 https://bosonnlp.com/dev/resource
预训练的 词嵌入 来源于 https://github.com/Embedding/Chinese-Word-Vectors,我这个项目使用的 词嵌入为
https://pan.baidu.com/s/1RhYR2iMgiuoPhq49icNwqw 提取码:77bi
由于github文件 限制,词嵌入 没有 在项目中,您只需要 把 词嵌入 解压到 dataset/sgns.renmin.word/的目录下面就行了。
目录结构 如下:
其中main.py是 起始文件,其他文件 均为 辅助文件
可能细心的同学也注意到了,里面存在 ipynb文件,这个 我刚开始 先使用 notebook将 训练 过程 先跑通的文件,你们 也 可以 run这个notebook文件。
下面大概说一下 文本处理 的 整个 过程:
1. 建立词典库和标签库()
2. 处理训练集,(很多情况下,1,2是同时进行的)
3.对 预训练的词嵌入 进行处理(如果使用 预训练词嵌入,则需要有此过程,建议还是 使用,正确率 会提升比较多的)
4. 根据需要建立神经网络
5. 超参选择(4,5两步,很多情况下 需要同时 考虑)
6. 模型训练与验证
7. 添加正则(正则程度 ,视具体情况而定)
一般就是上面这个 流程
知乎: https://zhuanlan.zhihu.com/albertwang
微信公众号:AI-Research-Studio
下面是赞赏码