Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 희소행렬
- 주피터 노트북
- jaccard similarity
- COO
- csr
- 정렬 알고리즘
- 자연어처리
- merge sort
- 파이썬 가상환경
- 자카드 유사도
- sparse matrix
- 아나콘다 가상환경
- insertion sort
- 삽입정렬
- CSC
- dok
- 파이썬
- 문서-단어 행렬
- 병합 정렬
- CountVectorizer
- 데이터분석
- scipy
Archives
- Today
- Total
목록CountVectorizer (1)
시래 블로그
단어 수 세서 문서-단어 행렬 만들기, CountVectorizer
텍스트 데이터를 분석할 때 가장 흔히 사용하는 방법이 단어 수를 세는 것입니다. 각각의 텍스트에 등장한 단어 수를 알면 이를 기반으로 키워드를 추출한다거나, 표절 검사, 문서 분류 등 다양한 분석을 할 수 있습니다. 예를 들어 아래와 같은 세 개의 문장이 있을 때, 누구나 한번쯤은 사랑에 웃고 누구나 한번쯤은 사랑에 울고 그것이 바로 사랑 사랑 사랑이야 문장별로 단어가 몇 번 등장했는지 표(행렬)로 나타낼 수 있습니다. 누구나 한번쯤 사랑 웃고 울고 그것 바로 문장1 1 1 1 1 문장2 1 1 1 1 문장3 3 1 1 이렇게 한 번 정리를 해놓으면, 이후 여러 가지 분석에 이용할 수 있습니다. 예를 들어 '사랑이 5번 등장했으니, 무언가 중요한 단어가 않을까'라거나, '문장1과 문장2는 문장3보다 비슷..
데이터 과학
2020. 2. 8. 15:20