일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- heapmerge
- 가변매개변수
- np.save()
- 비가변매개변수
- request Method
- BASIC
- Python
- 실기
- coding
- deg2rad
- os.path.join
- array
- 필답형
- np.load()
- DEEPLEARNING
- 작업형
- matplotlib
- list
- namedTuple
- Heapreplace
- np.savetxt()
- linalg.solve()
- Collections
- numpy
- Math Function
- 빅데이터분석기사
- 빅분기
- set_index
- 빅데이터
- kaggle
- Today
- Total
목록딥러닝·머신러닝/Python (11)
맞춤형 플랫폼 개발 도전기 (웹개발, 딥러닝, 블록체인)

JavaScript로 Crawling하는 것은 저번에 해 보았다. JavaScript로 Open API 데이터 가져오기 (영화진흥위원회, 서울 열린데이터 광장) 이전에 본격적으로 데이터를 크롤링해보겠다고 했는데, Open API를 통해 데이터를 가져와 표로 만들어 보았다. Open API를 제공하는 곳은 많지만, 일단, 공공데이터를 가져와보았다. 보통 xml과 json으 katieyoon-the-developer.tistory.com 이번에는 Python으로 Crawling을 해보려 한다. 보통 Crawling이나 Scraping은 대형 포털등에서 통채로 불러올때 쓰는 말이고, 지금 하고자 하는 건 Parsing에 가깝다. 하지만 Crawling 이나 Scraping을 위해서는 Parsing이 기본이 되..

Series가 1차원이라면 DataFrame은 2차원으로 확대된 것이라고 생각하면 쉽다. DataFrame은 2차원이기 때문에 인덱스가 row, column로 구성되어 있다. (row는 개별 데이터, column은 개별 속성) DataFrame은 데이터를 읽어와서 가공하는 과정까지로 설명하는게 쉽다. 1. pd.read_csv(filepath) Kaggle에서 연습용 데이터로 가장 많이 사용하는 Titanic 데이터를 예시로 설명하겠다. import pandas as pd filepath = r'C:\User\data\titanic.csv' titanic_df = pd.read_csv(filepath) 이런 형식으로 파일을 읽어올 수 있다. 여기서 옵션을 몇개 줄 수 있다 df = pd.read_csv(..
pandas의 기본 객체 중 하나로, numpy의 ndarray를 기반으로 인덱싱 기능이 추가된 1차원 배열을 나타낸다. value index 의 형태로 작성이 되어 있고 index를 지정하지 않을 시, 기본적으로 ndarray와 같이 0-based 인덱스 (0, 1, 2, ... ) 생성, 지정할 경우 명시적으로 지정된 index를 사용 Series는 순서 개념이 없고, 해당 index에 어떤 값이 있는지가 중요하다. 특징들로는 index가 정수일 필요가 없다는 것, 그리고 dictionary의 key와 다르게 index도 중복이 가능하다는 것이다. 생성시에는 아래와 같은 형태로 생성한다. pd.Series( data=None, 첫번째는 data index=None, 두번째는 index dtype=No..
1. Shallow Copy view(), slicing 사용해서 새로운 array 객체 생성하면 얕은 복사가 된 것 기본적으로 Python에서 Copy는 Shallow : Python의 값들은 값들로서 존재하는 것이 아니고, 주소들로 존재함 주소를 복사한다고 생각하면 됨 → 참조하는 주소 안의 값들은 또 자체적으로 주소를 참조하고 있기 때문에 값 변경되면 복사한 곳에서도 같이 변경된다. 하지만 shape 변화는 영향 못줌. import numpy as np a = np.arange(6) b = a id(b) == id(a) # True b.shape = 2, 3 # shape 변경 a, b # 둘 다 동일하게 # array([[0, 1, 2], # [3, 4, 5]]) a = np.arange(6).r..
File로 저장하려면 일단 import os 를 해야 한다. (Operating System의 약자로, 운영체제에서 제공되는 여러 기능을 파이썬에서 수행할 수 있게 해준다. 파일을 복사하거나 디렉터리를 생성하고 특정 디렉터리 내의 파일 목록을 구하고자 할 때 많이 쓰인다.) import os np.savetxt(os.path.join(r'C:\User\datas', 'rand_numbers.txt'), numbers, fmt = '%d', delimiter=', ') # fmt = 정수형태 저장을 위해 %d 사용 (기본포맷은 %.18e) # delimiter = 구분자 File을 읽어들이려면 loadtxt() 를 사용하는게 좋다 기본적으로 실수타입으로 읽어 들이기 때문에, delimeter(뭘 구분자로 ..
행렬은 머신러닝에서 필수적이다. 그렇기 때문에 기본적인 행렬 계산 모듈은 알고 있어야 한다. 1. 단위행렬 (항등행렬) 단위행렬을 만드는 방법에는 np.identity( 행(열)개수 ), np.eye( 행(열)개수 ) 가 있다. 원래는 행, 열번호 같은 곳에 1 표시되나, k인자 이용해서 1로 이루어진 그 대각선 위치를 변경할 수도 있음 (단, np.eye()만 가능) np.eye(3, k=1, dtype=int) # array([[0, 1, 0], # [0, 0, 1], # [0, 0, 0]]) 2. 행렬의 곱 행렬 @ 행렬, np.matmul(행렬, 행렬), np.dot(행렬, 행렬)을 사용한다 (단, 단위행렬 @ 행렬 = 행렬 ) 3. 대각합 정사각 행렬의 주대각선 성분의 합으로 np.trace(행..
1. BroadCasting (기본적으로)Shape이 같은 두 ndarray에 대한 연산은 각 원소별로 진행 다른 Shape을 갖는 array 간 연산 의 경우 브로드 캐스팅(Shape을 맞춤) 후 진행 가장 마지막 차원 ( a X b X c ) 에서 c 와 일치하는 길이의 Array와 함께 연산할 수 있음 arr1 = np.arange(10, 70, 10).reshape(2, 3) arr2 = np.array([1, 2]) # (2,) arr1 = arr1.reshape(3,2) arr1 = arr1 + arr2 arr1.reshape(2,3) # array([[11, 22, 31], # [42, 51, 62]]) 2. Boolean Indexing True만 걸러서 Indexing하는 것 ndarry..
차원 변경 1. 1차원으로 변경 ravel() : 다차원배열을 1차원으로 변경 (흔히 '펼친다'라고 말함) → iterable.ravel() or np.ravel(iterable) order 파라미터 : 행 기준(C), 열 기준(F) x = np.arange(15).reshape(3, 5) np.ravel(x, order='C') # '행' 기준으로 펼친다 np.ravel(x, order='F') # '열' 기준으로 펼친다 # array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) # array([ 0, 5, 10, 1, 6, 11, 2, 7, 12, 3, 8, 13, 4, 9, 14]) flatten() 과 차이점 : iterable.flatten() ..