100% found this document useful (1 vote)

284 views17 pages

Python Codes Arules

The document shows Python code for analyzing transactional data using the Apriori algorithm. It loads transactional data from CSV files, splits it into lists, counts item frequencies, and generates frequent itemsets and association rules. Visualizations of top items and rules are created using Matplotlib. The code is applied to book, movie, phone, and retail transactional datasets to identify commonly purchased item groups and their associations.

Uploaded by

nehal gundrapally

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

284 views17 pages

Python Codes Arules

Uploaded by

nehal gundrapally

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 17

Python Codes :

Books data set :

=>Importing pandas library
import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules

=> Loading the data set

book = pd.read_csv("C:/Users/NEHAL RAJ/Downloads/Datasets (6)/book.csv")

=>Splitting the data

# splitting the data into separate transactions using separator as "\n"
book = book.split("\n")

print(book.split())
book_list = []
for i in book:
book_list.append(i.split(","))
“There is a link that will split the data when ever we see the (comma(,)) values”.
all_book_list = [i for item in book_list for i in item]
we are going in I and in I we are search all the values in i

from collections import Counter # ,OrderedDict

 We are importing counter from collections
item_frequencies = Counter(all_book_list)
countering all the books list and feeding in the item_frequencies
# after sorting
item_frequencies = sorted(item_frequencies.items(), key = lambda x:x[1])
sorting the data

# Storing frequencies and items in separate variables

frequencies = list(reversed([i[1] for i in item_frequencies]))
items = list(reversed([i[0] for i in item_frequencies]))

# barplot of top 10
import matplotlib.pyplot as plt
=>Importing matplotlib to visualize the plot of the data

plt.bar(height = frequencies[0:11], x = list(range(0, 11)), color = 'rgbkymc')

plt.xticks(list(range(0, 11), ), items[0:11])
plt.xlabel("items")
plt.ylabel("Count")
plt.show()
# Creating Data Frame for the transactions data
book_series = pd.DataFrame(pd.Series(book_list))
book_series = book_series.iloc[:2000, :] # removing the last empty transaction
Creating the data frame

book_series.columns = ["trans"]
=>Giving the coloumn name

# creating a dummy columns for the each item in each transactions ... Using column names as
item name
X = book_series['trans'].str.join(sep = '*').str.get_dummies(sep = '*')
frequent_itemsets = apriori(X, min_support = 0.0075, max_len = 4, use_colnames = True)

# Most Frequent item sets based on support

frequent_itemsets.sort_values('support', ascending = False, inplace = True)

plt.bar(x = list(range(0, 11)), height = frequent_itemsets.support[0:11], color ='rgmyk')

plt.xticks(list(range(0, 11)), frequent_itemsets.itemsets[0:11])
plt.xlabel('item-sets')
plt.ylabel('support')
plt.show()
rules = association_rules(frequent_itemsets, metric = "lift", min_threshold = 1)
rules.head(10)
rules.sort_values('lift', ascending = False).head(10)

Python codes used :

import pandas as pd
mlxtend.frequent _patterns import apriori association_rules
from collections import Counter
import matplotlib.pyplot as plt

Movie data set :

=>Importing pandas library

import pandas as pd
from mlxtend.frequent_patterns import apriori, association_rules
=>loading the data set
movie = pd.read_csv("C:\\Users\\NEHAL RAJ\\Downloads\\Datasets (6)\\my_movies.csv")

# splitting the data into separate transactions using separator as "\n"

=>Splitting the data
movie = movie.split("\n")
“There is a link that will split the data when ever we see the (comma(,)) values”.

movie_list = []
for i in movie:
movie_list.append(i.split(","))

all_movie_list = [i for item in movie_list for i in item]

we are going in I and in I we are search all the values in i

from collections import Counter # ,OrderedDict

 We are importing counter from collections
item_frequencies = Counter(all_book_list)
countering all the books list and feeding in the item_frequencies

# after sorting
item_frequencies = sorted(item_frequencies.items(), key = lambda x:x[1])

# Storing frequencies and items in separate variables

frequencies = list(reversed([i[1] for i in item_frequencies]))
items = list(reversed([i[0] for i in item_frequencies]))

# barplot of top 10
import matplotlib.pyplot as plt
=>Importing matplotlib to visualize the plot of the data
plt.bar(height = frequencies[0:11], x = list(range(0, 11)), color = 'rgbkymc')
plt.xticks(list(range(0, 11), ), items[0:11],rotation=30)
plt.xlabel("items")
plt.ylabel("Count")
plt.show()

# Creating Data Frame for the transactions data

movie_series = pd.DataFrame(pd.Series(movie_list))
Creating the data frame

book_series.columns = ["trans"]
=>Giving the coloumn name
# creating a dummy columns for the each item in each transactions ... Using column names as
item name
X = movie_series['trans'].str.join(sep = '*').str.get_dummies(sep = '*')

frequent_itemsets = apriori(X, min_support = 0.0075, max_len = 4, use_colnames = True)

# Most Frequent item sets based on support

frequent_itemsets.sort_values('support', ascending = False, inplace = True)

plt.bar(x = list(range(0, 11)), height = frequent_itemsets.support[0:11], color ='rgmyk')

plt.xticks(list(range(0, 11)), frequent_itemsets.itemsets[0:11], rotation=15)
plt.xlabel('item-sets')
plt.ylabel('support')
plt.show()
rules = association_rules(frequent_itemsets, metric = "lift")
rules.head(10)
rules.sort_values('lift', ascending = False).head(10)

Python codes used :

import pandas as pd
mlxtend.frequent _patterns import apriori association_rules
from collections import Counter
import matplotlib.pyplot as plt

Phone data set :

import pandas as pd
=>Importing pandas library

from mlxtend.frequent_patterns import apriori, association_rules

Loading the data set

data = pd.read_csv("C:\\Users\\NEHAL RAJ\\Downloads\\Datasets (6)\\myphonedata.csv")

data_list = []
for i in data:
data_list.append(i.split(","))
“There is a link that will split the data when ever we see the (comma(,)) values”.

all_data_list = [i for item in data_list for i in item]

we are going in I and in I we are search all the values in i

from collections import Counter # ,OrderedDict

item_frequencies = Counter(all_data_list)

# after sorting
item_frequencies = sorted(item_frequencies.items(), key = lambda x:x[1])

# Storing frequencies and items in separate variables

frequencies = list(reversed([i[1] for i in item_frequencies]))
items = list(reversed([i[0] for i in item_frequencies]))

# barplot of top 10
import matplotlib.pyplot as plt
=>Importing matplotlib to visualize the plot of the data

plt.bar(height = frequencies[0:5], x = list(range(0, 5)), color = 'rgbkymc')

plt.xticks(list(range(0, 5), ), items[0:11],rotation=30)
plt.xlabel("items")
plt.ylabel("Count")
plt.show()

# Creating Data Frame for the transactions data

data_series = pd.DataFrame(pd.Series(data_list))

data_series.columns = ["trans"]

# creating a dummy columns for the each item in each transactions ... Using column names as
item name
X = data_series['trans'].str.join(sep = '*').str.get_dummies(sep = '*')

frequent_itemsets = apriori(X, min_support = 0.0075, max_len = 4, use_colnames = True)

# Most Frequent item sets based on support

frequent_itemsets.sort_values('support', ascending = False, inplace = True)

plt.bar(x = list(range(0, 5)), height = frequent_itemsets.support[0:5], color ='rgmyk')

plt.xticks(list(range(0, 5)), frequent_itemsets.itemsets[0:11], rotation=15)
plt.xlabel('item-sets')
plt.ylabel('support')
plt.show()

rules = association_rules(frequent_itemsets, metric = "lift", min_threshold = 1)

rules.head(5)
rules.sort_values('lift', ascending = False).head(5)
=>Python codes used :
import pandas as pd
mlxtend.frequent _patterns import apriori association_rules
from collections import Counter
import matplotlib.pyplot as plt

Transactions data set :

import pandas as pd
=>Importing pandas library

from mlxtend.frequent_patterns import apriori, association_rules

tr= pd.read_csv("C:\\Users\\NEHAL RAJ\\Downloads\\Datasets (6)\\transactions_retail1.csv")

=>loading the data set

tr_list = []
for i in tr:
tr_list.append(i.split(","))

“There is a link that will split the data when ever we see the (comma(,)) values”.

all_data_list = [i for item in data_list for i in item]

we are going in I and in I we are search all the values in i
from collections import Counter # ,OrderedDict

item_frequencies = Counter(all_tr_list)

# after sorting
item_frequencies = sorted(item_frequencies.items(), key = lambda x:x[1])

# Storing frequencies and items in separate variables

frequencies = list(reversed([i[1] for i in item_frequencies]))
items = list(reversed([i[0] for i in item_frequencies]))

# barplot of top 10
import matplotlib.pyplot as plt
=>Importing matplotlib to visualize the plot of the data

plt.bar(height = frequencies[0:5], x = list(range(0, 5)), color = 'rgbkymc')

plt.xticks(list(range(0, 5), ), items[0:5],rotation=30)
plt.xlabel("items")
plt.ylabel("Count")
plt.show()
# Creating Data Frame for the transactions data
tr_series = pd.DataFrame(pd.Series(tr_list))

tr_series.columns = ["trans"]

# creating a dummy columns for the each item in each transactions ... Using column names as
item name
X = tr_series['trans'].str.join(sep = '*').str.get_dummies(sep = '*')

frequent_itemsets = apriori(X, min_support = 0.0075, max_len = 4, use_colnames = True)

# Most Frequent item sets based on support

frequent_itemsets.sort_values('support', ascending = False, inplace = True)
plt.bar(x = list(range(0, 5)), height = frequent_itemsets.support[0:5], color ='rgmyk')
plt.xticks(list(range(0, 5)), frequent_itemsets.itemsets[0:5], rotation=15)
plt.xlabel('item-sets')
plt.ylabel('support')
plt.show()

rules = association_rules(frequent_itemsets, metric = "lift", min_threshold = 1)

rules.head(20)
rules.sort_values('lift', ascending = False).head(10)
=>Python codes used :
import pandas as pd
mlxtend.frequent _patterns import apriori association_rules
from collections import Counter
import matplotlib.pyplot as plt

Python Course Cheat Sheet
No ratings yet
Python Course Cheat Sheet
30 pages
Association Rules Problem Statement
100% (1)
Association Rules Problem Statement
29 pages
12 Ip Practical List With Solution Complete
No ratings yet
12 Ip Practical List With Solution Complete
5 pages
APRIARI Algorithm
No ratings yet
APRIARI Algorithm
55 pages
Apriori Algorithm (Python 3.0) - A Data Analyst
No ratings yet
Apriori Algorithm (Python 3.0) - A Data Analyst
13 pages
Split Data
No ratings yet
Split Data
5 pages
Module 3 - Part 2 - Frequency Pattern Mining
No ratings yet
Module 3 - Part 2 - Frequency Pattern Mining
51 pages
ML Assignment Presentation
No ratings yet
ML Assignment Presentation
37 pages
DMC Lab Ex - 1 To 15 (31.03.2024)
No ratings yet
DMC Lab Ex - 1 To 15 (31.03.2024)
52 pages
Association Rule Mining Activity
No ratings yet
Association Rule Mining Activity
4 pages
Ilovepdf Merged
No ratings yet
Ilovepdf Merged
23 pages
Abc
No ratings yet
Abc
5 pages
Visualisation All
0% (1)
Visualisation All
70 pages
DM Lab Cycle 7 1
No ratings yet
DM Lab Cycle 7 1
7 pages
15th QN
No ratings yet
15th QN
3 pages
Pract4 63
No ratings yet
Pract4 63
3 pages
KDD & Data Mining: Lab Experiment No 7: FP Growth Algorithm Name: - Gaurav Sonawane PRN:-20200802154
No ratings yet
KDD & Data Mining: Lab Experiment No 7: FP Growth Algorithm Name: - Gaurav Sonawane PRN:-20200802154
8 pages
Apriori Algorithm in Machine Learning
No ratings yet
Apriori Algorithm in Machine Learning
8 pages
Data MINING Acitivity 2-1
No ratings yet
Data MINING Acitivity 2-1
4 pages
Class XII-IP-Practical File 1
No ratings yet
Class XII-IP-Practical File 1
28 pages
FDS Lab 1 Manuel .1..1new
No ratings yet
FDS Lab 1 Manuel .1..1new
38 pages
Apriori Algorithm
No ratings yet
Apriori Algorithm
7 pages
Lecture 7
No ratings yet
Lecture 7
26 pages
PMLS 2 Compilation Notes 2
No ratings yet
PMLS 2 Compilation Notes 2
77 pages
Black and White Blank Note Document
No ratings yet
Black and White Blank Note Document
57 pages
What Is Frequent Pattern Analysis?
No ratings yet
What Is Frequent Pattern Analysis?
37 pages
Ds 2
No ratings yet
Ds 2
3 pages
Practical File IP Class 12 2024 25 Sharing Removed
No ratings yet
Practical File IP Class 12 2024 25 Sharing Removed
29 pages
FDS Lab 1 Manuel .1..1new
No ratings yet
FDS Lab 1 Manuel .1..1new
34 pages
Da 11
No ratings yet
Da 11
3 pages
DATA MINING EX1
No ratings yet
DATA MINING EX1
10 pages
DWM Exp8
No ratings yet
DWM Exp8
8 pages
Fds SLOT 2
No ratings yet
Fds SLOT 2
12 pages
association rule mapping -unit-4
No ratings yet
association rule mapping -unit-4
11 pages
Association Rule Mining
No ratings yet
Association Rule Mining
19 pages
Data Mining Unit 2 Assignment
No ratings yet
Data Mining Unit 2 Assignment
15 pages
BDA Experiments
No ratings yet
BDA Experiments
41 pages
Association
No ratings yet
Association
40 pages
Modified Frequent Pattern Mining From Data Stream
No ratings yet
Modified Frequent Pattern Mining From Data Stream
38 pages
python codes
No ratings yet
python codes
15 pages
6
No ratings yet
6
2 pages
Unit 4
No ratings yet
Unit 4
21 pages
GEC PRACTICALS
No ratings yet
GEC PRACTICALS
31 pages
Fa22-bcs-025 MOAZ Assignment 1
No ratings yet
Fa22-bcs-025 MOAZ Assignment 1
9 pages
chota bheem
No ratings yet
chota bheem
6 pages
Mining Frequent Patterns, Associations and Correlations: Basic Concepts and Methods
No ratings yet
Mining Frequent Patterns, Associations and Correlations: Basic Concepts and Methods
20 pages
aadarsh
No ratings yet
aadarsh
26 pages
E-Note_28879_Content_Document_20241209125940PM
No ratings yet
E-Note_28879_Content_Document_20241209125940PM
20 pages
report
No ratings yet
report
5 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
12212174_BigdataFinal
No ratings yet
12212174_BigdataFinal
13 pages
Lab Manual 4
No ratings yet
Lab Manual 4
23 pages
DVT Exp - 7
No ratings yet
DVT Exp - 7
11 pages
CLASS XII - IP List of Practicals with Coding 2020
No ratings yet
CLASS XII - IP List of Practicals with Coding 2020
15 pages
Q1) Identify The Data Type For The Following
75% (8)
Q1) Identify The Data Type For The Following
3 pages
Q1) Identify The Data Type For The Following
75% (8)
Q1) Identify The Data Type For The Following
3 pages
DM UNIT-2
No ratings yet
DM UNIT-2
14 pages
Data Analysis 6060
No ratings yet
Data Analysis 6060
6 pages
Big Data Prcatical
No ratings yet
Big Data Prcatical
3 pages
NCPDP Data Dictionary 201607
100% (1)
NCPDP Data Dictionary 201607
320 pages
G - 59 Records - Rap & Hip Hop Wiki - Fandom
No ratings yet
G - 59 Records - Rap & Hip Hop Wiki - Fandom
6 pages
Association Rules Ans
No ratings yet
Association Rules Ans
28 pages
EXHIBITORS - Boiler World - India
No ratings yet
EXHIBITORS - Boiler World - India
5 pages
2023 State of The Marketing Operations Professional
No ratings yet
2023 State of The Marketing Operations Professional
64 pages
Acidos Organicos Mecanismo Siiiiiiiiiii
No ratings yet
Acidos Organicos Mecanismo Siiiiiiiiiii
58 pages
Commands SQL, Python (BASICS)
No ratings yet
Commands SQL, Python (BASICS)
7 pages
Bentley Architecture Dataset Overview v2
No ratings yet
Bentley Architecture Dataset Overview v2
34 pages
Strategy-MS-Complete - Edit 4
No ratings yet
Strategy-MS-Complete - Edit 4
54 pages
113-Cell-Based-Architectures-How-to-Build-Scalable-and-Resilient-Systems-emag-2024-1728572196160
No ratings yet
113-Cell-Based-Architectures-How-to-Build-Scalable-and-Resilient-Systems-emag-2024-1728572196160
50 pages
Report Digital - Last Mile Delivery Challenge1
No ratings yet
Report Digital - Last Mile Delivery Challenge1
40 pages
Evidencia 5 Summary Export Import Theory V2
100% (3)
Evidencia 5 Summary Export Import Theory V2
8 pages
Shortcut Keys For Caesar 2
No ratings yet
Shortcut Keys For Caesar 2
8 pages
شابتر ٧
No ratings yet
شابتر ٧
36 pages
Curriculum Vitae: Pankaj Singh Tomar
No ratings yet
Curriculum Vitae: Pankaj Singh Tomar
4 pages
Soda Ash Production
75% (4)
Soda Ash Production
10 pages
Selection List APPSC Group II Posts
No ratings yet
Selection List APPSC Group II Posts
3 pages
Finance Act, 2010 Effective From 1-4-2010
No ratings yet
Finance Act, 2010 Effective From 1-4-2010
29 pages
Assignment Module02
100% (1)
Assignment Module02
5 pages
Books
No ratings yet
Books
6 pages
Books
No ratings yet
Books
6 pages
UNIT 3 - Emerging Analytics-Social - Mobile - and - Video - Part 1 PPT1
No ratings yet
UNIT 3 - Emerging Analytics-Social - Mobile - and - Video - Part 1 PPT1
31 pages
analysis
No ratings yet
analysis
6 pages
Final Project Charter
No ratings yet
Final Project Charter
3 pages
Minutes of Meeting: Attendees Absentees
No ratings yet
Minutes of Meeting: Attendees Absentees
2 pages
Project Objective
No ratings yet
Project Objective
2 pages
Assignment Datatypes PDF
No ratings yet
Assignment Datatypes PDF
3 pages
Assignment Datatypes PDF
No ratings yet
Assignment Datatypes PDF
3 pages
Basic Elements of Knitting
100% (3)
Basic Elements of Knitting
3 pages
GEO DS 0013 Tell Tale Crack Monitors
No ratings yet
GEO DS 0013 Tell Tale Crack Monitors
2 pages
Ficha Marmita LEGION-TWT-40
No ratings yet
Ficha Marmita LEGION-TWT-40
2 pages
04 DIGEST G R No 52267 ENGINEERING & MACHINERY CORPORATION Vs COURT
100% (1)
04 DIGEST G R No 52267 ENGINEERING & MACHINERY CORPORATION Vs COURT
1 page
T Tad734ge
No ratings yet
T Tad734ge
8 pages
Di 03000021
No ratings yet
Di 03000021
5 pages
Abraham Lincoln Biography
No ratings yet
Abraham Lincoln Biography
3 pages
Amazon Sentimental Analysis
No ratings yet
Amazon Sentimental Analysis
8 pages
Clustering Documentation Python Code
No ratings yet
Clustering Documentation Python Code
8 pages
Basic Statistics (Module - 3)
100% (2)
Basic Statistics (Module - 3)
12 pages
Form 16
No ratings yet
Form 16
6 pages
Association Rules:: Books Data Set
No ratings yet
Association Rules:: Books Data Set
23 pages
Clustering Documentation R Code
100% (1)
Clustering Documentation R Code
9 pages
Nokia 7750 SR r20 Datasheet en
No ratings yet
Nokia 7750 SR r20 Datasheet en
12 pages
Guia Reparar Carrier
No ratings yet
Guia Reparar Carrier
8 pages
Basic Statistics (Module - 3)
No ratings yet
Basic Statistics (Module - 3)
7 pages
Basic Statistics (Module - 3)
No ratings yet
Basic Statistics (Module - 3)
7 pages
Friday Night
No ratings yet
Friday Night
9 pages
New Change Request Form - Update - 021219
No ratings yet
New Change Request Form - Update - 021219
1 page
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Python Codes Arules

Uploaded by

Python Codes Arules

Uploaded by

Python Codes :

Books data set :

=> Loading the data set

=>Splitting the data

from collections import Counter # ,OrderedDict

# Storing frequencies and items in separate variables

plt.bar(height = frequencies[0:11], x = list(range(0, 11)), color = 'rgbkymc')

# Most Frequent item sets based on support

plt.bar(x = list(range(0, 11)), height = frequent_itemsets.support[0:11], color ='rgmyk')

Python codes used :

Movie data set :

=>Importing pandas library

# splitting the data into separate transactions using separator as "\n"

all_movie_list = [i for item in movie_list for i in item]

from collections import Counter # ,OrderedDict

# Storing frequencies and items in separate variables

# Creating Data Frame for the transactions data

frequent_itemsets = apriori(X, min_support = 0.0075, max_len = 4, use_colnames = True)

# Most Frequent item sets based on support

plt.bar(x = list(range(0, 11)), height = frequent_itemsets.support[0:11], color ='rgmyk')

Python codes used :

Phone data set :

from mlxtend.frequent_patterns import apriori, association_rules

data = pd.read_csv("C:\\Users\\NEHAL RAJ\\Downloads\\Datasets (6)\\myphonedata.csv")

all_data_list = [i for item in data_list for i in item]

from collections import Counter # ,OrderedDict

# Storing frequencies and items in separate variables

plt.bar(height = frequencies[0:5], x = list(range(0, 5)), color = 'rgbkymc')

# Creating Data Frame for the transactions data

frequent_itemsets = apriori(X, min_support = 0.0075, max_len = 4, use_colnames = True)

# Most Frequent item sets based on support

plt.bar(x = list(range(0, 5)), height = frequent_itemsets.support[0:5], color ='rgmyk')

rules = association_rules(frequent_itemsets, metric = "lift", min_threshold = 1)

Transactions data set :

from mlxtend.frequent_patterns import apriori, association_rules

tr= pd.read_csv("C:\\Users\\NEHAL RAJ\\Downloads\\Datasets (6)\\transactions_retail1.csv")

all_data_list = [i for item in data_list for i in item]

# Storing frequencies and items in separate variables

plt.bar(height = frequencies[0:5], x = list(range(0, 5)), color = 'rgbkymc')

frequent_itemsets = apriori(X, min_support = 0.0075, max_len = 4, use_colnames = True)

# Most Frequent item sets based on support

rules = association_rules(frequent_itemsets, metric = "lift", min_threshold = 1)

You might also like