전체 글(51)
-
github 1. 기본기
GITHUB 기본기 다루기 기본 github 사용 01 깃허브 초기 세팅 1. Github 기초 세팅 Github 사이트에서 새로운 [repository] 생성 (있을경우 생략) Github에 있는 데이터를 가져올 경로로 이동 git clone HTTPS주소 - repository 이름을 가진 폴더가 생기며, 해당 폴더로 이동해야 git 과 연동되어있음 - 연동된 폴더내에는 ".git 폴더"가 생성되어 있을것임 - git remote -v 로 연동확인가능하다. 02 깃허브 사용하기 (아래 번호순이 과정순이다.) 1. git status 파일 이리저리 수정 git status 를 통해 변경된 사항 확인가능 git status의 결과값은 세부분이 있는데, 1. Changes to be committed : ..
2022.04.28 -
우분투2
파이썬 & pip 설치 python3 --version 파이썬버전확인 sudo apt-get update 패키지업데이트 sudo apt-get upgrade python3 파이썬 업데이트 python3 파이썬실행 pip3 --version pip 버전확인 sudo apt-get install pip3 pip 설치 아나콘다 설치 https://gooopy.tistory.com/130?category=879428 ll : 현 디렉토리에 있는 파일들을 모두보여주며 해당파일의 권한등을 색으로표현해줌 mkdir Download : 다운로드 공간지정할 폴더생성 아나콘다 홈페이지에서 리눅스(64bit) installer 의 '링크주소복사' 수행 Download 폴더로 이동하여 아래수행 wget 링크주소 : 인터넷에서..
2022.04.19 -
우분투
https://velog.io/@devyang97/Linux-%EB%AA%85%EB%A0%B9%EC%96%B4-%EC%A0%95%EB%A6%AC-Ubuntu-%EC%82%AC%EC%9A%A9 우분투에 관하여 터미널창 ctrl + alt + t 우분투 명령어 1. 사용자 관련 명령어 01 사용자 관련 명령어 사용자추가 sudo useradd -m 사용자명 사용자 비밀번호 설정 sudo passwd 사용자명 sudo 권한 부여 sudo usermod -a -G sudo 사용자명 로그인하기 su - 사용자명 useradd 통해 추가된 사용자확인 grep /bin/bash /etc/passwd useradd 통해 추가된 사용자확인 (username만) grep /bin/bash /etc/passwd | cut ..
2022.04.18 -
파이썬 자료구조
파이선 자료구조 자료구조는 대량의 데이터를 효율적으로 관리할 수 있도록 하는 데이터의 구조를 의미 데이터의 특성에 따라서, 체계적인 데이터 구조화가 필요하다. 대표적인 자료구조는 다음과 같음 배열 / 큐 / 스택 / 힙 / 해쉬테이블 / 링크드리스트 파이썬에는 대표적으로 List / Tuple / Set / Dictionary 를 지원하며, 대부분의 자료구조 구현가능 배열 (Array) 배열이란? 배열은 같은 종류의 데이터를 순차적으로 저장하는 자료구조 (파이썬의 리스트) index를 통해 직접 접근이 가능하다. (빠른접근가능) 데이터 추가와 삭제에 비용이 많이 듦 데이터 추가시 공간이 많이필요하며, 삭제 시 빈공간이 생겨 관리필요 길이조절이 어렵다는 단점이존재 큐 (Queue) 큐란? 먼저 넣은 데..
2022.04.14 -
3. Embedding
Embedding 에 대하여 Vector 의 이해 Vector의 종류 1. Sparse Vector 벡터의 값이 대부분 0으로 표현되는 것 대표적인게 One-hot vector 강아지 = [ 0 0 0 0 1 0 0 ] 단어간의 유사도를 알 수 없음 2. Dense Vector 벡터의 값이 대부분이 0이아니라 실수값을 가지는 것 강아지 = [ 0.1 0.5 -2 1 1.2 0.7 0.3 ] 단어간의 유사도를 알 수 있음 Embedding Embedding 은 데이터를 벡터로 바꾸는 작업 Embedding 종류 CountVectorizer TfidfVectorizer Word2Vec Keras.Embedding layer Dense layer
2022.04.08 -
2. 전처리
자연어처리의 전처리과정 자연어처리 작업흐름 문제정의 데이터수집 데이터전처리 및 분석 알고리즘 적용 평가 배포 및 유지보수 데이터수집 데이터 수집 방법 4가지 구입 - 정제 및 레이블링 완료된 양질의 데이터획득가능 - 양이 매우 제한적 외주 무료 공개 데이터 - AI-HUB - WMT competetion - Kaggle - OPUS (http://opus.nlpl.eu/) 크롤링을 통한 데이터 수집 - 무한한 양의 코퍼스 수집 가능 - 도메인별로 데이터 수집가능 - 정제과정에 많은 노력필요 - 아직은 회색지대이지만, 적법한 절차에 따른 크롤링 필수 데이터 전처리 데이터 전처리 과정 1. 정제과정 - Task에 따른 노이즈 제거 - 인코딩변환 2. 레이블링 - 문장마다 또는 단어마다 레이블링 수행 3. T..
2022.04.08