twitter-korean-text
트위터에서 만든 한국어 처리기
스칼라로 쓰여진 한국어 처리기입니다. 현재 텍스트 정규화와 형태소 분석, 스테밍을 지원하고 있습니다. 짧은 트윗은 물론이고 긴 글도 처리할 수 있습니다. 개발에 참여하시고 싶은 분은 Google Forum에 가입해 주세요. 사용법을 알고자 하시는 초보부터 코드에 참여하고 싶으신 분들까지 모두 환영합니다.
... 중략
트위터에서 제공하는 한국어 형태소 분석기 입니다.
정규화, 토큰화, 어근화, 어구 추출 까지 4단계로 이루어 집니다. 깃허브(GitHub) twitter 페이지로 가면 다운받을 수 있어요.
https://github.com/twitter/twitter-korean-text
그리고 메이븐(Maven)을 이용하고 있다면 pom.xml 에
<dependency>
<groupId>com.twitter.penguin</groupId>
<artifactId>korean-text</artifactId>
<version>4.4</version>
</dependency>
를 추가 해주면 됩니다.
다른 형태소 분석기 보다 속도가 아래 그림과 같습니다.
빨간색 - Twitter
<출처 : github.com/twitter/twitter-korean-text>
출처: http://dongram.tistory.com/5 [Dongram 개발]
'날리지 > 자연어처리' 카테고리의 다른 글
머신러닝 공부 순서 ... (0) | 2020.04.27 |
---|---|
[Chatbot] how to build chatbot with NLP? (0) | 2019.10.21 |
Natural Language Processing is Fun! (0) | 2019.09.04 |
딥러닝을 이용한 자연어처리의 연구동향 (0) | 2016.09.22 |
머신러닝의 자연어처리기술 1 (0) | 2016.07.26 |