Python/Python For Analytics
-
[Python] padnas dataframe URL DecodePython/Python For Analytics 2020. 2. 16. 01:33
Pandas Dataframe에서 URL Decode from urllib.parse import unquote import pandas as pd example = ['%EC%95%88%EB%85%95%ED%95%98%EC%84%B8%EC%9A%94', '%EC%95%84%EB%A6%84%EB%8B%B5%EB%84%A4%EC%9A%94', '%ED%8C%8C%EC%9D%B4%EC%8D%AC'] df = pd.DataFrame(example, columns=['url']) # URL Decode df['url'] = df.url.apply(lambda x : unquote(x)) print(df) ------------------------------------------------------------..
-
[Python] numpy.where 를 이용하여 컬럼을 다양한 데이터 타입과 비교Python/Python For Analytics 2020. 1. 21. 19:07
numpy.where(조건문, True 값, False 값) Sample DataSet import pandas as pd import numpy as np lst_A = {'제품':['milk','juice','bread','icecream'], '수량':[3,5,10,2], '제조일시':['2020-01-01 01:00:00','2019-12-20 15:01:00','2019-12-31 00:00:00','2020-01-02 02:03:01']} df = pd.DataFrame(lst_A) df['제조일시'] = pd.to_datetime(df['제조일시']) 1. '2020-01-01 00:00:00'를 기준으로 "유통기간" 새로운 컬럼을 만들고, True : "유효", False : "만료" 체크..
-
[Python] pandas dataframe 리스트로 변환Python/Python For Analytics 2019. 10. 30. 12:48
list 데이터를 pandas dataframe으로 만들기 import pandas as pd lst_A = ['a','b','c','d', 'e', 1, 2] df = pd.DataFrame(lst_A) print(df) list 타입으로 변환 import numpy as np np.array(df[0].tolist()) ----------------------------- array(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='
-
[Python] numpy setdiff1d(차집합)을 이용한 2개의 텍스트 파일 비교Python/Python For Analytics 2019. 10. 30. 12:20
numpy.setdiff1d(array1, array2) : 2개의 array의 차집합 A_file.txt B_file.txt Tomatoes are red Bananas are yellow Strawberries are red Oranges are orange Blackberries are black Tomatoes are red Bananas are yellow Blackberries are black import pandas as pd import numpy as np df_A = pd.read_csv('A_file.txt', names=['data_A']) df_B = pd.read_csv('B_file.txt', names=['data_B']) list_A = np.array(df_A['data..
-
[Python] pandas rank를 이용한 순위 표시Python/Python For Analytics 2019. 10. 28. 21:04
rank : Series나 DataFrame의 값의 순위를 표시 Sample Dataframe 만들기 import pandas as pd lst_names = ['철수','영희','민수', '민아', '영석', '석희', '희순', '영철'] lst_lang = [80,90,95,100,100,95,75,80] lst_math = [70,85,90,95,75,80,90,85] lst_eng = [80,85,80,100,95,90,85,90] df = pd.DataFrame([ x for x in zip(lst_names,lst_lang,lst_math,lst_eng)], columns=['이름','국어','수학','영어']) df 국어, 수학, 영어의 총점을 구하기 df['총점'] = df['국어'] +..
-
[Python] pandas groupby - count, max, min, mean, sum, aggPython/Python For Analytics 2019. 10. 28. 20:11
2X8 Sample DataSet import pandas as pd lst_A = ['a','b','c', 'a', 'a', 'b', 'c', 'c'] lst_B = [10,15,20,15,30,40,35,5] df = pd.DataFrame([ x for x in zip(lst_A,lst_B)], columns=['Data','Score']) df count : 그룹화 되는 데이터의 갯수 df.groupby('Data').count() max : 그룹화 되는 데이터의 최대값 df.groupby('Data').max() min : 그룹화 되는 데이터의 최소값 df.groupby('Data').min() sum : 그룹화 되는 데이터의 합 df.groupby('Data').sum() mean : 그룹화 ..
-
[Python] pandas의 sort_values를 이용한 dataframe 정렬Python/Python For Analytics 2019. 10. 24. 12:30
sort_values : 값을 기준으로 정렬하는 메소드 학생의 영어점수와 수학점수 dataframe 샘플 만들기 import pandas as pd names = ['철수','영희','민수','영자'] eng_point = [90,85,70,75] math_point = [100,90,90,85] df = pd.DataFrame([ x for x in zip(names,eng_point,math_point)], columns = ['학생', '영어', '수학']) print(df) ----------------------------------------------------------------------------- 학생 영어 수학 0 철수 90 100 1 영희 85 90 2 민수 70 90 3 영자 ..
-
[Python] Pandas를 이용한 IIS 웹 로그 분석 (sc-bytes, cs-bytes)Python/Python For Analytics 2019. 10. 23. 13:20
sc-bytes : 어플리케이션(웹 사이트)에서 클라이언트로 보낸 bytes. cs-bytes : 클라이언트에서 어플리케이션(웹 사이트)로 보낸 bytes. IIS로그 필드 중 sc-bytes와 sc-bytes는 웹 사이트와 클라이언트간 통신양(bytes)를 숫자로 표기한 것으로 웹 사이트의 성능을 분석하는 데 있어 중요한 데이터이다. 특히, On-premise가 아닌 클라우드 환경에서 웹 사이트를 서비스할 경우 sc-bytes는 아웃바운드 트래픽을 가늠하기에 좋은 지표이기 때문에(아웃바운드 트래픽 = 요금) 유심깊게 점검하는 편이 좋다. IIS 웹 로그를 pandas dataframe 만들기 import pandas as pd log_field = ['date', 'time', 's-sitename',..