import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules


df = pd.read_csv('data/association_rules_mart.csv')
df.head(3)


df_cus = pd.read_csv('data/association_rules_customers.csv')
df_cus.head(2)


df_prod = pd.read_csv('data/association_rules_products.csv')
df_prod.head(2)


df_q1 = df.copy()
df_q1.head(2)


df_q1['Date'] = pd.to_datetime(df_q1['Date'])
df_q1['year'] = df_q1['Date'].dt.year
df_q1['count'] = 1
df_q1.head(2)


df_q1_cnt = df_q1.groupby(['year', 'Item'])['count'].sum().reset_index()
df_q1_cnt.head()


df_q1_cnt_pivot = df_q1_cnt.pivot(index='Item', columns='year', values='count').reset_index()
df_q1_cnt_pivot.head()


df_q1_cnt_pivot = df_q1_cnt_pivot.fillna(0)
df_q1_cnt_pivot.head()


df_q1_cnt_pivot.loc[(df_q1_cnt_pivot[2014] > 0) & (df_q1_cnt_pivot[2015] == 0), ]
# 정답 : 3


df_q2 = df.copy()
df_q2.head(2)


df_q2['Date'] = pd.to_datetime(df_q2['Date'])
df_q2['year'] = df_q2['Date'].dt.year
df_q2['month'] = df_q2['Date'].dt.month
df_q2.head(2)


df_prod.head(2)


df_q2_sub = df_q2.loc[(df_q2['year'] == 2014) & (df_q2['month'] == 12), ]
df_q2_sub = df_q2_sub.merge(df_prod, left_on='Item', right_on='product', how='left')
df_q2_sub.head(2)


df_q2_2014_agg = df_q2_sub.groupby('Item')['price'].sum().reset_index()
df_q2_2014_agg.head()


df_q2_2014_agg = df_q2_2014_agg.sort_values('price', ascending=False)
df_q2_2014_agg.head()


df_q2_2015 = df_q2.loc[df_q2['year'] == 2015, ]
df_q2_2015 = df_q2_2015.merge(df_prod, left_on='Item', right_on='product', how='left')
df_q2_2015.head(2)


df_q2_2015_agg = df_q2_2015.groupby('Item')['price'].sum().reset_index()
df_q2_2015_agg.head()


df_q2_2014_agg['Item'][:3]

100          rolls/buns
136              yogurt
82     other vegetables
Name: Item, dtype: object


df_q2_2015_agg['top3'] = df_q2_2015_agg['Item'].isin(df_q2_2014_agg['Item'][:3]) + 0
df_q2_2015_agg.head()


df_q2_2015_agg2 = df_q2_2015_agg.groupby('top3')['price'].sum().reset_index()
df_q2_2015_agg2


round(df_q2_2015_agg2.iloc[1, 1] / df_q2_2015_agg2['price'].sum(), 3)
# 정답 : 0.199

0.199


df_q3 = df.copy()
df_q3.head(2)


df_q3_cnt = df_q3['ID'].value_counts().reset_index()
df_q3_cnt.head()


df_q3_cnt.loc[df_q3_cnt['ID'] == 1, ]


df_q3_cnt['ID'].min()

2


df_q3['Date'] = pd.to_datetime(df_q3['Date'])
df_q3['year'] = df_q3['Date'].dt.year
df_q3.head(2)


df_q3_sub = df_q3.loc[df_q3['year'] == 2015, ]
df_q3_sub.head(2)


df_cus.head(2)


df_q3_join = df_q3_sub.merge(df_cus, left_on='ID', right_on='ID', how='left')
df_q3_join.head(2)


df_m = df_q3_join.loc[df_q3_join['Gender'] == 'M']
df_m['purchase'] = True

C:\Users\KJW\AppData\Local\Temp/ipykernel_5040/1637540834.py:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_m['purchase'] = True


df_m_pivot = pd.pivot_table(data=df_m,
                            index='ID', columns='Item', values='purchase',
                            aggfunc=max,
                            fill_value=False)
df_m_pivot.head(2)


item_sets = apriori(df=df_m_pivot, min_support=0.005, use_colnames=True)
item_sets.head(2)


rules = association_rules(item_sets, metric='confidence', min_threshold=0.005)
rules.head(2)


rules_sub = rules.loc[rules['support'] > 0.05, ]
rules_sub = rules_sub.sort_values('lift', ascending=False)
rules_sub.head(2)


df_f = df_q3_join.loc[df_q3_join['Gender'] == 'F']
df_f['purchase'] = True

C:\Users\KJW\AppData\Local\Temp/ipykernel_5040/3691065010.py:2: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_f['purchase'] = True


df_f_pivot = pd.pivot_table(data=df_f,
                            index='ID', columns='Item', values='purchase',
                            aggfunc=max,
                            fill_value=False)
df_f_pivot.head(2)


item_sets = apriori(df=df_f_pivot, min_support=0.005, use_colnames=True)
rules = association_rules(item_sets, metric='confidence', min_threshold=0.005)
rules_sub = rules.loc[rules['support'] > 0.05, ]
rules_sub = rules_sub.sort_values('lift', ascending=False)
rules_sub.head(2)

# 정답 : whole milk, soda

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

	Date	ID	Item
0	2014-01-01	1249in804	citrus fruit
1	2014-01-01	1249in804	coffee
2	2014-01-01	1381ht273	curd

	ID	Gender	Age
0	1000ol738	F	51
1	1001sf480	M	55

	product	price
0	citrus fruit	3100
1	coffee	1500

	Date	ID	Item
0	2014-01-01	1249in804	citrus fruit
1	2014-01-01	1249in804	coffee

JuJuKwakKwak

JuJuKwakKwak

2022.04.03 - 이러닝 - Code 본문

2022.04.03 - 이러닝 - Code

Ch30¶

1번¶

2번¶

3번¶

'Data Science > 국비지원' 카테고리의 다른 글

티스토리툴바

	year	Item	count
0	2014	Instant food products	37
1	2014	UHT-milk	160
2	2014	abrasive cleaner	12
3	2014	artif. sweetener	13
4	2014	baby cosmetics	1

year	Item	2014	2015	2016
0	Instant food products	37.0	23.0	1.0
1	UHT-milk	160.0	169.0	5.0
2	abrasive cleaner	12.0	10.0	1.0
3	artif. sweetener	13.0	17.0	2.0
4	baby cosmetics	1.0	2.0	NaN

year	Item	2014
79	kitchen utensil	1.0
114	preservation products	1.0
155	toilet cleaner	5.0

	Date	ID	Item	year	month	product	price
0	2014-12-01	1369fc211	sugar	2014	12	sugar	5000
1	2014-12-01	1369fc211	flour	2014	12	flour	3800

	Item	price
0	Instant food products	2700
1	UHT-milk	15600
2	abrasive cleaner	4600
3	artif. sweetener	1100
4	baking powder	5100

	Item	price
100	rolls/buns	237800
136	yogurt	220000
82	other vegetables	120700
9	bottled beer	101500
12	brown bread	101400

	Date	ID	Item	year	month	product	price
0	2015-01-01	1220gy277	canned beer	2015	1	canned beer	2700
1	2015-01-01	1220gy277	margarine	2015	1	margarine	500

	Item	price
0	Instant food products	62100
1	UHT-milk	202800
2	abrasive cleaner	46000
3	artif. sweetener	18700
4	baby cosmetics	6400

	index	ID
0	3180so909	36
1	3915oj968	34
2	3050yl021	34
3	2051sz135	34
4	3737jm860	33

	Date	ID	Item	year
18277	2015-01-01	1220gy277	canned beer	2015
18278	2015-01-01	1220gy277	margarine	2015

	top3	price
0	0	36612500
1	1	9090600

Item	Instant food products	UHT-milk	abrasive cleaner	artif. sweetener	baby cosmetics	bags	baking powder	bathroom cleaner	beef	berries	beverages	bottled beer	bottled water	brandy	brown bread	butter	butter milk	cake bar	candles	candy	canned beer	canned fish	canned fruit	canned vegetables	cat food	cereals	chewing gum	chicken	chocolate	chocolate marshmallow	citrus fruit	cleaner	cling film/bags	cocoa drinks	coffee	condensed milk	cooking chocolate	cookware	cream	cream cheese	curd	curd cheese	dental care	dessert	detergent	dish cleaner	dishes	dog food	domestic eggs	female sanitary products	finished products	fish	flour	flower (seeds)	flower soil/fertilizer	frankfurter	frozen dessert	frozen fish	frozen fruits	frozen meals	...	pasta	pastry	pet care	photo/film	pickled vegetables	pip fruit	popcorn	pork	pot plants	potato products	processed cheese	prosecco	pudding powder	ready soups	red/blush wine	rice	roll products	rolls/buns	root vegetables	rubbing alcohol	rum	salt	salty snack	sauces	sausage	seasonal products	semi-finished bread	shopping bags	skin care	sliced cheese	snack products	soap	soda	soft cheese	softener	soups	sparkling wine	specialty bar	specialty cheese	specialty chocolate	specialty fat	specialty vegetables	spices	spread cheese	sugar	sweet spreads	syrup	tea	tidbits	tropical fruit	turkey	vinegar	waffles	whipped/sour cream	whisky	white bread	white wine	whole milk	yogurt	zwieback
ID
1001sf480	False	False	False	False	False	False	False	False	True	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	...	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	True	False	True	False	False	False	False
1002nj599	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	...	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	False	True	False	False	False	False	True	False	False	False	False	True	False	False	False	False	False	False	False	False	False	False

	support	itemsets
0	0.005917	(Instant food products)
1	0.054734	(UHT-milk)

	antecedents	consequents	antecedent support	consequent support	support	confidence	lift	leverage	conviction
0	(UHT-milk)	(bottled beer)	0.054734	0.113905	0.006657	0.121622	1.067743	0.000422	1.008785
1	(bottled beer)	(UHT-milk)	0.113905	0.054734	0.006657	0.058442	1.067743	0.000422	1.003938

	antecedents	consequents	antecedent support	consequent support	support	confidence	lift	leverage	conviction
320	(bottled beer)	(whole milk)	0.113905	0.347633	0.055473	0.487013	1.400939	0.015876	1.271702
321	(whole milk)	(bottled beer)	0.347633	0.113905	0.055473	0.159574	1.400939	0.015876	1.054340

	antecedents	consequents	antecedent support	consequent support	support	confidence	lift	leverage	conviction
1709	(sausage)	(soda)	0.191283	0.197094	0.051332	0.268354	1.361553	0.013631	1.097397
1708	(soda)	(sausage)	0.197094	0.191283	0.051332	0.260442	1.361553	0.013631	1.093514

Day72 : 세미프로젝트 발표 (0)	2022.04.04
Day72 - 이러닝 - Code(1) (0)	2022.04.04
Day72 - 이러닝 : 스택과 큐 (0)	2022.04.04
2022.04.03 - 이러닝 (0)	2022.04.04
Day71 : mecab 설치 (0)	2022.04.01