gaz tokenize问题 #38

DSXiangLi · 2021-05-11T01:30:33Z

你好我看bert tokenizer只对text进行了tokenize，如果碰到tokenizer把例如1994分成了19和##94, 但是gaz是针对每个character 1/9/9/4识别的BMES word，不会发生输入mismatch的问题么？

v-mipeng · 2021-05-11T01:37:42Z

很好的问题！这种情况可以将1/9/9/4得BMES标签进行合并处理，如原始的1/9/9/4标签为BMME，分割成19，##94后变成（19）B，（##94）E。这在一步的标签转换可以在tokenizer阶段进行。

DSXiangLi · 2021-05-11T01:39:40Z

哦哦好的十分感谢～

Provide feedback