정규식 토큰화

2021/07/08

문자열을 토큰으로 쪼갤때, 이놈의 정규식씨는 항상 띠엄띠엄하다. 1. 나는 원래 정규식씨랑 안 친하다. 2. 규칙은 하난데 막상 복붙하면 언어마다 또는 SQL에서도 규칙이 다르게 먹을 때가 있다. 주로 이스케이프 문제. delim을 일일이 쓰다보면 또 빼먹는게 생기고 하 이런 게 다 있어 하며 일본어 아랍어 특수문자 전각문자 오만 것들이 방해하기도 한다. 그리하야 오늘은 그냥 아몰랑으로 대응했다.

[ \t`\=~!@#$%^&*()_\-+\[\]{};\'\\:"|<,./<>?...] 이런거 말고..

[^가-힣A-Za-z0-9] 로 대응.

즉, 한글, 영문자, 숫자를 제외 == ^를 모두 delim으로 보는 것. 이것도 나름 문제는 있는데 데이터는 많고 롱테일은 나미사-아미타뽜 하면 의미있게 걸린다.

정규식 토큰화

2021/07/08

[t:/] is not "technology - root". dawnsea, rss