본문 바로가기

Python skills for Data Analysis

(5)
[Functions] apply(lambda x :) examples 전 시간에 분석에 자주 사용하는 groupby 함수를 주제로 다루었는데요. 이번 시간에는 apply 함수를 다루어 보겠습니다. 자, 그럼 바로 시작해볼게요.! (data 출처 here) 먼저 apply 함수의 역할을 간단하게 소개할게요.! apply 함수가 lambda 함수를 만나면 먼저 apply는 lambda를 부르고 lambda가 수행하는 것을 적용합니다. 이것은 지정한 row나 coulmn모두 적용이 가능합니다.! 그리고 lambda 함수란 def 함수의 심플하고 익명성 있는 버젼이라고 생각하시면 될 것 같습니다. 일회성으로 사용하기 쉬우며, 코드가 간결해지기 때문에 small task에 사용하기 좋습니다. 밑의 예를 보시면 이해가 쉬울 것 같습니다. 먼저 ,로 나뉜 숫자나 금액은 replace(..
[Functions] groupby examples 이번 시간에는 pandas의 groupby 함수를 사용해 여러 가지 작업을 수행해보겠습니다. 매번 느끼는 거지만 분석할 때 groupby는 정말 자주 사용하는 것 같아 그 중요성을 느껴 블로그를 통해서 정리해보고 싶었어요!. 그럼 바로 시작해볼까요?? 첫 번째로, groupby는 시각화를 할 때 조건을 추가할 수 있습니다. 만약, 주택 가격을 예측하는 데이터 셋이 있다면 Suburb의 value_counts() 함수를 적용해서 상위 15개의 suburb를 count 해 출력할 수 있습니다. e = df['Suburb'].value_counts()[:15] sns.barplot(y=e.index, x=e) 이렇게요!. 하지만 여기서 가격 순으로 Suburb를 순위대로 나열하고 싶다면 sub = df.gro..
Data Visualization(데이터 시각화) 최근 진행한 프로젝트에서 시각화를 많이 다루어 이번 포스트에서는 시각화를 주제로 제가 배운 것들을 공유하겠습니다. 시각화를 하면 할수록 화려한 plot을 그리기보다 본래 목적에 맞게 명확한 전달성에 가치를 두는 것이 맞다고 생각해 최대한 심플하게 전하는데 의미를 두었습니다. 시각화를 접하기 가장 좋은 첫 번째 방법은 데이터의 분포를 간단하게 나타내는 것입니다. 분석하고 싶은 데이터가 있다면 해당 feature는 어떻게 이루어져 있는지 시각화를 통해 알아보는 것입니다. barplot 가장 손쉽게 다룰 수 있는 plot중 bar plot은 자주 사용되는 방법 중 하나입니다. 위의 그래프는 영화 데이터 분석 중 영화 발매 연도를 시각화한 것입니다. 코드와 같이 보겠습니다. plt.figure(figsize=(..
Missing value processing. In a real-world, There a ton of missing values, It makes the variables confused. So we need to fix them appropriately. Here is the sample data set. df.head() First of all, we could see the missing values roughly. df.isnull.sum() And we could visualize it. It is my go-to way. total = df.isnull().sum().sort_values(ascending=False) percent = (df.isnull().sum()/df.isnull().count()).sort_values(ascen..
Data filtering Data filtering is basically used for getting a part of your data set. so that can get some particular result for insight. it is what I do every single project. It is also one of the important tasks when doing EDA. but is not difficult!. So today, I want to talk about how I do and how to visualize with the filtered data. np.where() I wanted to start with this, pie['Apple_pie'] = np.where(pie.pie1..