'희소행렬' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록희소행렬 (2)

시래 블로그

단어 수 세서 문서-단어 행렬 만들기, CountVectorizer

텍스트 데이터를 분석할 때 가장 흔히 사용하는 방법이 단어 수를 세는 것입니다. 각각의 텍스트에 등장한 단어 수를 알면 이를 기반으로 키워드를 추출한다거나, 표절 검사, 문서 분류 등 다양한 분석을 할 수 있습니다. 예를 들어 아래와 같은 세 개의 문장이 있을 때, 누구나 한번쯤은 사랑에 웃고 누구나 한번쯤은 사랑에 울고 그것이 바로 사랑 사랑 사랑이야 문장별로 단어가 몇 번 등장했는지 표(행렬)로 나타낼 수 있습니다. 누구나 한번쯤 사랑 웃고 울고 그것 바로 문장1 1 1 1 1 문장2 1 1 1 1 문장3 3 1 1 이렇게 한 번 정리를 해놓으면, 이후 여러 가지 분석에 이용할 수 있습니다. 예를 들어 '사랑이 5번 등장했으니, 무언가 중요한 단어가 않을까'라거나, '문장1과 문장2는 문장3보다 비슷..

데이터 과학 2020. 2. 8. 15:20

파이썬 scipy 희소행렬 설명 (coo, csr, dok)

파이썬 sklearn을 사용하다 보면, 희소행렬(sparse matrix)을 반환해줄 때가 있습니다. from sklearn.feature_extraction.text import CountVectorizer s = ['I love you', 'you love me'] count_vec = CountVectorizer() m = count_vec.fit_transform(s) m toarray 메서드를 이용하면 흔히 사용하는 넘파이 배열로 변환할 수 있지만, 애초에 왜 희소행렬을 반환해주는가 의문이 생깁니다. m.toarray() 희소행렬을 사용하는 이유 위에서는 두 개의 문장을 2 x 3 크기의 행렬로 바꾸는 작은 예시를 들었지만, 실전에서는 대규모 행렬을 다루어야 하는 경우가 흔합니다. 이 경우 메모..

데이터 과학 2020. 2. 5. 02:56

Prev 1 Next

목록희소행렬 (2)

시래 블로그

티스토리툴바