PaddlePaddle
diff --git a/‎apps/drug_drug_synergy/DTSyn/README.md
Lines changed: 42 additions & 0 deletions b/‎apps/drug_drug_synergy/DTSyn/README.md
Lines changed: 42 additions & 0 deletions
diff --git a/‎apps/drug_drug_synergy/DTSyn/README_cn.md
Lines changed: 40 additions & 0 deletions b/‎apps/drug_drug_synergy/DTSyn/README_cn.md
Lines changed: 40 additions & 0 deletions
diff --git a/‎apps/drug_drug_synergy/DTSyn/__init__.py b/‎apps/drug_drug_synergy/DTSyn/__init__.py
diff --git a/‎apps/drug_drug_synergy/DTSyn/main.py
Lines changed: 206 additions & 0 deletions b/‎apps/drug_drug_synergy/DTSyn/main.py
Lines changed: 206 additions & 0 deletions
@@ -0,0 +1,42 @@
+# DTSyn(Dual-Transformer neural network predicting Synergistic pairs)
+
+[中文版本](./README_cn.md) [English Version](./README.md)
+
+* [Background](#background)
+* [Dataset](#dataset)
+    * [ddi](#ddi)
+    * [lincs](#lincs)
+    * [rna](#rna)
+* [Example](#example)
+    * [training and evaluation](#training&evaluation)
+* [Reference](#reference)
+
+## background
+Drug combinations, compared to monotherapies, have the potential to increase efficacy, reduce host toxicity and overcome drug resistance. However, screening novel synergistic drug pairs is challenging due to the enormous number of potential combination space. Further, lacking the understanding of mechanism of action (MoA) also limits the application of drug combinations. Our model utilizes different granularity level transformers to capture biological interactions from different dimensions.
+
+## dataset
+drug combinations can be stored in  directory `data`.
+### training data
+```sh
+cd data && "wget https://baidu-nlp.bj.bcebos.com/PaddleHelix/datasets/drug_synergy_datasets/DTSyn.tgz" && tar xzvf DTSyn.tgz
+```
+
+## usage
+We use `main.py` for illustration,
+the cmdline is as follows:
+```
+CUDA_VISIBLE_DEVICES=0 python3 main.py 
+                         --ddi ./data/ddi.csv
+                         --lincs ./data//gene_vector.csv
+                         --rna ./data/rna.csv
+                         --epochs 150  
+```
+ 
+## Reference
+**DTSyn**
+> @article{jing2022DTSyn,
+  title={DTSyn: a dual-transformer-based neural network to predict synergistic drug combinations},
+  author={Jing Hu, Jie Gao, Xiaomin Fang, Zijing Liu, Fan Wang, Weili Huang, Hua Wu, Guodong Zhao},
+  journal={preprint on bioRxiv}
+}
+}
@@ -0,0 +1,40 @@
+# DTSyn(Dual-Transformer neural network predicting Synergistic pairs)
+
+[中文版本](./README_cn.md) [English Version](./README.md)
+
+* [背景介绍](#背景介绍)
+* [数据集](#数据集)
+    * [ddi](#ddi)
+    * [lincs](#lincs)
+    * [rna](#rna)
+* [使用说明](#使用说明)
+    * [训练与评估](#训练与评估)
+* [引用](#引用)
+
+## 背景
+药物联用可以解决单药使用面料的耐药，毒副作用过大等问题。当前双药联合使用同时还面临着组合爆炸，机理不明确等问题。本模型通过借助transformer结构从不同粒度出发捕获不同角度的生物学互作信息。
+## 数据集
+药物协同的分值文件放在 `data` 文件夹下。
+### 训练集
+```sh
+cd data && "wget https://baidu-nlp.bj.bcebos.com/PaddleHelix/datasets/drug_synergy_datasets/DTSyn.tgz" && tar xzvf DTSyn.tgz
+```
+
+## 使用说明
+为了方便展示，我们构建了一个脚本， `main.py`
+用法如下:
+```
+CUDA_VISIBLE_DEVICES=0 python3 main.py 
+                         --ddi ./data/ddi.csv
+                         --lincs ./data//gene_vector.csv
+                         --rna ./data/rna.csv
+                         --epochs 150  
+```
+ 
+## 引用
+**DTSyn**
+> @article{jing2022DTSyn,
+  title={DTSyn: a dual-transformer-based neural network to predict synergistic drug combinations},
+  author={Jing Hu, Jie Gao, Xiaomin Fang, Zijing Liu, Fan Wang, Weili Huang, Hua Wu, Guodong Zhao},
+  journal={preprint on bioRxiv}
+}
@@ -0,0 +1,206 @@
+#   Copyright (c) 2022 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import paddle
+from pgl.utils.data import Dataset, Dataloader
+import argparse
+import sys
+#sys.path.append('.')
+from tsnet import TSNet
+
+from utils_no_de import *
+from rdkit import Chem
+import pandas as pd
+import numpy as np
+
+from sklearn.metrics import (roc_auc_score, average_precision_score, f1_score, roc_curve,  
+                             precision_score, recall_score, auc, cohen_kappa_score,
+                             balanced_accuracy_score, precision_recall_curve, accuracy_score)
+from scipy.stats import pearsonr
+from sklearn.utils import shuffle
+
+def train(model, data_loader, lincs, loss_fn, opt):
+    total_pred, total_lb = [], []
+    total_loss = []
+    model.train()
+    for g1, g2, gm1, gm2, cell, lbs in data_loader:
+        g1 = g1.tensor()
+        g2 = g2.tensor()
+        gm1 = paddle.to_tensor(gm1, 'int64')
+        gm2 = paddle.to_tensor(gm2, 'int64')
+        cell = paddle.to_tensor(cell, 'float32')
+        #dea = paddle.to_tensor(dea, 'float32')
+        #deb = paddle.to_tensor(deb, 'float32')
+        lbs = paddle.to_tensor(lbs, 'int64')
+        #batch_samples = len(lbs)
+        preds = model(g1, g2, gm1, gm2, cell, lincs,  len(lbs))
+        loss = loss_fn(preds, lbs)
+        loss.backward()
+        #print(preds.gradient())
+        opt.step()
+        opt.clear_grad()
+        total_loss.append(loss.numpy())
+    
+    return np.mean(total_loss)
+    
+def eva(model, data_loader, lincs, loss_fn):
+    model.eval()
+    total_pred, total_lb = [], []
+    total_loss = []
+    
+    for g1, g2, gm1, gm2, cell, lbs in data_loader:
+        g1 = g1.tensor()
+        g2 = g2.tensor()
+        gm1 = paddle.to_tensor(gm1, 'int64')
+        gm2 = paddle.to_tensor(gm2, 'int64')
+        cell = paddle.to_tensor(cell, 'float32')
+        
+        lbs = paddle.to_tensor(lbs, 'int64')
+        #batch_samples = len(lbs)
+        preds = model(g1, g2, gm1, gm2, cell, lincs, len(lbs))
+        loss = loss_fn(preds, lbs)
+        total_loss.append(loss.numpy())
+        total_pred.append(preds.numpy())
+        total_lb.append(lbs.numpy())
+    total_pred = np.concatenate(total_pred, 0)
+    total_lb = np.concatenate(total_lb, 0)
+    
+    return total_pred, total_lb, np.mean(total_loss)
+
+def test_auc(model, data_loader, lincs, criterion):
+    test_pred, test_label, test_loss = eva(model, data_loader, lincs, criterion)
+    test_prob = paddle.nn.functional.softmax(paddle.to_tensor(test_pred)).numpy()[:,1]
+    pred_label = [1 if x > 0.5 else 0 for x in test_prob]
+    ACC = accuracy_score(test_label, pred_label)
+    BACC = balanced_accuracy_score(test_label, pred_label)
+    PREC = precision_score(test_label, pred_label)
+    TPR = recall_score(test_label, pred_label)
+    KAPPA = cohen_kappa_score(test_label, pred_label)
+
+    precision, recall, threshold2 = precision_recall_curve(test_label, test_prob)
+    return roc_auc_score(test_label, test_prob), auc(recall, precision), test_loss, ACC, BACC, PREC, TPR, KAPPA
+
+
+
+def Pred(model, lincs, data_loader):
+    model.eval()
+    total_pred = []
+    
+    for g1, g2, gm1, gm2, cell, lbs in data_loader:
+        g1 = g1.tensor()
+        g2 = g2.tensor()
+        gm1 = paddle.to_tensor(gm1, 'int64')
+        gm2 = paddle.to_tensor(gm2, 'int64')
+        cell = paddle.to_tensor(cell, 'float32')
+        
+        #lbs = paddle.to_tensor(lbs, 'int64')
+        #batch_samples = len(lbs)
+        preds = model(g1, g2, gm1, gm2, cell, lincs, len(lbs))
+        
+        total_pred.append(preds.numpy())
+        
+    total_pred = np.concatenate(total_pred, 0)
+    total_prob = paddle.nn.functional.softmax(paddle.to_tensor(total_pred)).numpy()[:,1]
+
+    return total_prob
+
+def main(args):
+    """
+    Args:
+        -ddi: drug drug synergy file.
+        -rna: cell line gene expression file.
+        -lincs: gene embeddings.
+        -dropout: dropout rate for transformer blocks.
+        -epochs: training epochs.
+        -batch_size
+        -lr: learning rate.
+
+    """
+    #paddle.set_device('cpu')
+    ddi = pd.read_csv(args.ddi)
+    rna = pd.read_csv(args.rna, index_col=0)
+    lincs = pd.read_csv(args.lincs, index_col=0, header=None).values
+    lincs = paddle.to_tensor(lincs, 'float32')
+    
+    ##############independent validation############
+    #5-fold cross validation
+    """NUM_CROSS = 5
+    ddi_shuffle = shuffle(ddi)
+    data_size = len(ddi)
+    fold_num = int(data_size / NUM_CROSS)
+    for fold in range(NUM_CROSS):
+        ddi_test = ddi_shuffle.iloc[fold*fold_num:fold_num * (fold + 1), :]
+        ddi_train_before = ddi_shuffle.iloc[:fold*fold_num, :]
+        ddi_train_after = ddi_shuffle.iloc[fold_num * (fold + 1):, :]
+        ddi_train = pd.concat([ddi_train_before, ddi_train_after])"""
+    
+    ddi_train = ddi.copy()
+    train_cell = join_cell(ddi_train, rna)
+    bt_tr = DDsData(ddi_train['drug1'].values, 
+                        ddi_train['drug2'].values, 
+                        train_cell, 
+                        ddi_train['label'].values)  
+
+    """test_cell = join_cell(ddi_test, rna)
+            #test_pta, test_ptb = join_pert(ddi_test, drugs_pert)
+        bt_test = DDsData(ddi_test['drug1'].values,   
+                    ddi_test['drug2'].values, 
+                    test_cell, 
+                    
+                    ddi_test['label'].values)"""
+
+
+    loader_tr = Dataloader(bt_tr, batch_size=args.batch_size, num_workers=4, collate_fn=collate)
+    #loader_test = Dataloader(bt_test, batch_size=args.batch_size, num_workers=4, collate_fn=collate)
+    #loader_val = Dataloader(bt_val, batch_size=args.batch_size, num_workers=1, collate_fn=collate)
+
+    model = TSNet(num_drug_feat=78, 
+                        num_L_feat=978,
+                        num_cell_feat=rna.shape[1], 
+                        num_drug_out=128, 
+                        coarsed_heads=4, 
+                        fined_heads=4,
+                        coarse_hidd=64,
+                        fine_hidd=64,
+                        dropout=args.dropout)
+    opt = paddle.optimizer.Adam(learning_rate=args.lr, parameters=model.parameters())
+    loss_fn = paddle.nn.CrossEntropyLoss()
+
+    for e in range(args.epochs):
+        train_loss = train(model, loader_tr, lincs, loss_fn, opt)
+        print('Epoch {}---training loss:{}'.format(e, train_loss))
+        t_auc, test_prauc, test_loss, acc, bacc, prec, tpr, kappa = test_auc(model, loader_test, lincs, loss_fn)
+        print('---Testing loss:{:.4f}, AUC:{:.4f}, PRAUC:{:.4f}, ACC:{:.4f}, BACC:{:.4f}, PREC:{:.4f}, TPR:{:.4f}, KAPPA:{:.4f}'
+            .format(test_loss, t_auc, test_prauc, acc, bacc, prec, tpr, kappa))
+        
+    #paddle.save(model.state_dict(), 'Results/xx.pdparams'.format(e+1))
+    #model_params = paddle.load('Results/xx.pdparams')
+    #model.set_state_dict(model_params)
+    
+
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    #parser.add_argument("--cuda", action='store_true', default=False)
+    parser.add_argument("--dropout", type=float, default=0.6)
+    parser.add_argument("--epochs", type=int, default=50)
+    parser.add_argument("--batch_size", type=int, default=32)
+    parser.add_argument("--lr", type=float, default=5e-6)
+    parser.add_argument("--lincs", type=str, default='../data/gene_vector.csv')
+    parser.add_argument("--ddi", type=str, help='using SMILES represent drugs', default='../data/ddi_dupave.csv')
+    parser.add_argument("--ddi_test", type=str)
+    parser.add_argument("--rna", type=str, default='../rna.csv')  
+
+    args = parser.parse_args()
+    print(args)
+    main(args)