import pandas as pd
import numpy as np
np.random.seed(42)   #
import matplotlib.pyplot as plt
import seaborn as sns
#%matplotlib "inline"

#Importing models needed
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import precision_score, recall_score, f1_score
from sklearn.metrics import plot_roc_curve

#for warning message and removing warning
from warnings import filterwarnings
filterwarnings("ignore")


data = pd.read_csv("diabetes.csv")
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB
None


count=data["Outcome"].value_counts()
count.plot(kind="bar", color=["Orange","Blue"])
plt.xticks(np.arange(2),("Non-Diabetic" , "Diabetic"));


pd.crosstab(data.Glucose[::15],data.Outcome).plot(kind="bar",figsize=(18,8),color=["Orange","Blue"])
plt.ylabel("PEOPLE")
plt.xlabel("GLUCOSE")
#plt.xticks(rotation=0)
plt.legend(["Non-Diabetic","Diabetic"])

<matplotlib.legend.Legend at 0x7faacc9542d0>


plt.figure(figsize=(10,6))
#Plotting Scatter graph of People with Positive and Negative Diabetes
#Positive Data
plt.scatter(data.Age[data.Outcome==1],data.BloodPressure[data.Outcome==1],c="Blue")
#Negative Data
plt.scatter(data.Age[data.Outcome==0],data.BloodPressure[data.Outcome==0],c="Orange")

#ADDING INFORMATION IN THE GRAPH
plt.title("Diabetes with respect to Age and BloodPressure")
plt.xlabel("Age")
plt.ylabel("BloodPressure")
plt.legend(["Diabetic","Non-Diabetic"])

<matplotlib.legend.Legend at 0x7faacb4df350>


sns.set(style="ticks", color_codes=True)
sns.pairplot(data,hue="Outcome",palette="gnuplot");


fig, axis = plt.subplots(nrows= 4, ncols=2, figsize=(12,10))
fig.tight_layout(pad=3)

Diabetic = data.Outcome ==1
axis[0,0].set_title('Glucose')
axis[0,0].hist(data.Glucose[Diabetic])

axis[0,1].set_title('BloodPressure')
axis[0,1].hist(data.BloodPressure[Diabetic])

axis[1,0].set_title('Age')
axis[1,0].hist(data.Age[Diabetic])

axis[1,1].set_title('BMI')
axis[1,1].hist(data.BMI[Diabetic])

axis[2,0].set_title('DiabetesPedigreeFunction')
axis[2,0].hist(data.DiabetesPedigreeFunction[Diabetic])

axis[2,1].set_title('Insulin')
axis[2,1].hist(data.Insulin[Diabetic])

axis[3,0].set_title('SkinThickness')
axis[3,0].hist(data.SkinThickness[Diabetic])

axis[3,1].set_title('Pregnancies')
axis[3,1].hist(data.Pregnancies[Diabetic])

(array([67., 46., 44., 16., 47., 28.,  7.,  9.,  3.,  1.]),
 array([ 0. ,  1.7,  3.4,  5.1,  6.8,  8.5, 10.2, 11.9, 13.6, 15.3, 17. ]),
 <a list of 10 Patch objects>)


corr_data=data.corr()
corr_data


fig,axis = plt.subplots(figsize=(15, 10))
axis = sns.heatmap(corr_data,annot =True , fmt=".2f")


pip install sklearn

Requirement already satisfied: sklearn in /usr/local/lib/python3.7/dist-packages (0.0)
Requirement already satisfied: scikit-learn in /usr/local/lib/python3.7/dist-packages (from sklearn) (1.0.1)
Requirement already satisfied: threadpoolctl>=2.0.0 in /usr/local/lib/python3.7/dist-packages (from scikit-learn->sklearn) (3.0.0)
Requirement already satisfied: joblib>=0.11 in /usr/local/lib/python3.7/dist-packages (from scikit-learn->sklearn) (1.1.0)
Requirement already satisfied: scipy>=1.1.0 in /usr/local/lib/python3.7/dist-packages (from scikit-learn->sklearn) (1.4.1)
Requirement already satisfied: numpy>=1.14.6 in /usr/local/lib/python3.7/dist-packages (from scikit-learn->sklearn) (1.19.5)


from sklearn.model_selection import train_test_split
data.sample(frac=1)
data_x=data.drop("Outcome",axis=1)
data_y=data["Outcome"]

#print(data_x)
#print(data_y)

train_x,test_x,train_y,test_y = train_test_split(data_x,data_y,test_size=0.2)


from sklearn.linear_model import LogisticRegression
#Model Building
model_lr= LogisticRegression(random_state=0)
model_lr.fit(train_x,train_y)

#Model Evaluation
model_lr = model_lr.score(test_x,test_y)


model_lr

0.8311688311688312


from sklearn.neighbors import KNeighborsClassifier
#Building Model
model_knn = KNeighborsClassifier()
model_knn.fit(train_x,train_y)

#Model Evaluation
model_knn = model_knn.score(test_x,test_y)

model_knn

0.7792207792207793


from sklearn import svm
#Model Building
model_svm = svm.SVC()
model_svm.fit(train_x,train_y)

#Model Evaluation
model_svm = model_svm.score(test_x,test_y)


model_svm

0.8116883116883117


from sklearn.ensemble import RandomForestClassifier
#Model Builing
model_rfc = RandomForestClassifier()
model_rfc.fit(train_x,train_y)

#Model Evaluation
model_rfc = model_rfc.score(test_x,test_y)

model_rfc

0.7857142857142857


comparsion_model = pd.DataFrame({"LogisticRegression":model_lr , 
                                 "K Nearest Neighbors":model_knn , 
                                 "Support Vector Machine":model_svm , 
                                 "Random Forest Classifier":model_rfc}, 
                                  index=["Accuracy"])
print(comparsion_model)
comparsion_model.T.plot.bar(figsize = (15,10))

          LogisticRegression  ...  Random Forest Classifier
Accuracy            0.831169  ...                  0.785714

[1 rows x 4 columns]

<matplotlib.axes._subplots.AxesSubplot at 0x7faabd62f810>


from sklearn.model_selection import GridSearchCV
model_lr_grid= {'C': np.logspace(-4,4,30), 
                "solver":["liblinear"]}

#Setting up Grid

model_lr_set= GridSearchCV(LogisticRegression(),
                           param_grid = model_lr_grid, 
                           cv =5, 
                           verbose = True)

#Fitting GridSearchcv

model_lr_set.fit(train_x,train_y)
model_score = model_lr_set.score(test_x,test_y)

print(model_score*100)

Fitting 5 folds for each of 30 candidates, totalling 150 fits
83.76623376623377


prediction = model_lr_set.predict(test_x)
prediction

array([0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0])


sns.set(font_scale= 3)
sns.heatmap(confusion_matrix(test_y,prediction), annot=True , fmt='g')
plt.ylabel("Predicted Label")
plt.xlabel("True Label")

Text(0.5, -10.5, 'True Label')


from sklearn.metrics import accuracy_score
acc_score=accuracy_score(test_y,prediction)
print(acc_score*100)

83.76623376623377


report=classification_report(test_y,prediction)

print(report)

              precision    recall  f1-score   support

           0       0.85      0.95      0.89       111
           1       0.80      0.56      0.66        43

    accuracy                           0.84       154
   macro avg       0.82      0.75      0.78       154
weighted avg       0.83      0.84      0.83       154


import pickle

#Saving our trained model to a file so that we can connect it with the Application
pickle.dump(model_lr_set, open ("Diabetes_Pred.pkl" , "wb"))


model_loaded = pickle.load(open("Diabetes_Pred.pkl" , "rb"))
model_loaded.predict(test_x)
model_loaded.score(test_x,test_y)

0.8376623376623377

	Pregnancies	Glucose	BloodPressure	SkinThickness	Insulin	BMI	DiabetesPedigreeFunction	Age	Outcome
Pregnancies	1.000000	0.129459	0.141282	-0.081672	-0.073535	0.017683	-0.033523	0.544341	0.221898
Glucose	0.129459	1.000000	0.152590	0.057328	0.331357	0.221071	0.137337	0.263514	0.466581
BloodPressure	0.141282	0.152590	1.000000	0.207371	0.088933	0.281805	0.041265	0.239528	0.065068
SkinThickness	-0.081672	0.057328	0.207371	1.000000	0.436783	0.392573	0.183928	-0.113970	0.074752
Insulin	-0.073535	0.331357	0.088933	0.436783	1.000000	0.197859	0.185071	-0.042163	0.130548
BMI	0.017683	0.221071	0.281805	0.392573	0.197859	1.000000	0.140647	0.036242	0.292695
DiabetesPedigreeFunction	-0.033523	0.137337	0.041265	0.183928	0.185071	0.140647	1.000000	0.033561	0.173844
Age	0.544341	0.263514	0.239528	-0.113970	-0.042163	0.036242	0.033561	1.000000	0.238356
Outcome	0.221898	0.466581	0.065068	0.074752	0.130548	0.292695	0.173844	0.238356	1.000000

Diabetes Prediction Model¶

Building Logistic Regression Model¶

Building KNN Classifier¶

Building Support Vector Classifier¶

Building Random Forest Classifier¶

WHY¶

Contribution¶

Challenges¶

Procedure to build the application through free hosting app HEROKU¶

References¶