PaddlePaddle
diff --git a/‎apps/drug_target_interaction/graph_dta/README.md
+28-28 b/‎apps/drug_target_interaction/graph_dta/README.md
+28-28
diff --git a/‎apps/drug_target_interaction/graph_dta/README_cn.md
+28-28 b/‎apps/drug_target_interaction/graph_dta/README_cn.md
+28-28
diff --git a/‎apps/drug_target_interaction/graph_dta/scripts/preprocess_data.py
+126 b/‎apps/drug_target_interaction/graph_dta/scripts/preprocess_data.py
+126
diff --git a/‎apps/drug_target_interaction/graph_dta/scripts/train.sh
+42 b/‎apps/drug_target_interaction/graph_dta/scripts/train.sh
+42
@@ -27,7 +27,7 @@ mkdir -p data && cd data
 Davis contains the binding affinities for all pairs of 72 drugs and 442 targets, measured as Kd constant (equilibrium dissociation constant). The smaller the Kd value, the greater the binding affinity of the drug for its target. You can download and uncompress this dataset using following command:
 
 ```sh
-wget "https://baidu-nlp.bj.bcebos.com/PaddleHelix%2Fdatasets%2Fdti_datasets%2Fdavis.tgz" -O davis.tgz
+wget https://baidu-nlp.bj.bcebos.com/PaddleHelix/datasets/dti_datasets/davis_v1.tgz -O davis.tgz
 tar -zxvf davis.tgz
 ```
 
@@ -36,7 +36,7 @@ tar -zxvf davis.tgz
 Kiba contains the binding affinity for 2,116 drugs and 229 targets. Comparing to Davis, some drug-target pairs do not have affinity labels. Moreover, the affinity in Kiba is measured as KIBA scores, which were constructed to optimize the consistency between Ki, Kd, and IC50 by utilizing the statistical information they contained. You can download and uncompress this dataset using following command:
 
 ```sh
-wget "https://baidu-nlp.bj.bcebos.com/PaddleHelix%2Fdatasets%2Fdti_datasets%2Fkiba.tgz" -O kiba.tgz
+wget https://baidu-nlp.bj.bcebos.com/PaddleHelix/datasets/dti_datasets/kiba_v1.tgz -O kiba.tgz
 tar -zxvf kiba.tgz
 ```
 
@@ -46,32 +46,32 @@ After downloaed these datasets, the `data` folder looks like:
 
 ```txt
 data
-|-- davis
-|   |-- folds
-|   |   |-- test_fold_setting1.txt
-|   |   `-- train_fold_setting1.txt
-|   |-- ligands_can.txt
-|   |-- processed
-|   |   |-- test
-|   |   |   `-- davis_test_0.npz
-|   |   `-- train
-|   |       `-- davis_train_0.npz
-|   |-- proteins.txt
-|   `-- Y
-|-- davis.tgz
-|-- kiba
-|   |-- folds
-|   |   |-- test_fold_setting1.txt
-|   |   `-- train_fold_setting1.txt
-|   |-- ligands_can.txt
-|   |-- processed
-|   |   |-- test
-|   |   |   `-- kiba_test_0.npz
-|   |   `-- train
-|   |       `-- kiba_train_0.npz
-|   |-- proteins.txt
-|   `-- Y
-`-- kiba.tgz
+├── davis
+│   ├── folds
+│   │   ├── test_fold_setting1.txt
+│   │   └── train_fold_setting1.txt
+│   ├── ligands_can.txt
+│   ├── processed
+│   │   ├── test
+│   │   │   └── davis_test.npz
+│   │   └── train
+│   │       └── davis_train.npz
+│   ├── proteins.txt
+│   └── Y
+├── davis.tgz
+├── kiba
+│   ├── folds
+│   │   ├── test_fold_setting1.txt
+│   │   └── train_fold_setting1.txt
+│   ├── ligands_can.txt
+│   ├── processed
+│   │   ├── test
+│   │   │   └── kiba_test.npz
+│   │   └── train
+│   │       └── kiba_train.npz
+│   ├── proteins.txt
+│   └── Y
+└── kiba.tgz
 ```
 
 ## Instructions
 
@@ -30,7 +30,7 @@ Davis数据集包含了72种药物和442种靶标蛋白任意之间的Kd值（
 执行下面的命令即可下载并解压Davis数据集：
 
 ```sh
-wget "https://baidu-nlp.bj.bcebos.com/PaddleHelix%2Fdatasets%2Fdti_datasets%2Fdavis.tgz" -O davis.tgz
+wget https://baidu-nlp.bj.bcebos.com/PaddleHelix/datasets/dti_datasets/davis_v1.tgz -O davis.tgz
 tar -zxvf davis.tgz
 ```
 
@@ -41,40 +41,40 @@ Kiba数据集包含了2,116种药物和229种靶标蛋白，不同于Davis数据
 执行下面的命令即可下载并解压Kiba数据集：
 
 ```sh
-wget "https://baidu-nlp.bj.bcebos.com/PaddleHelix%2Fdatasets%2Fdti_datasets%2Fkiba.tgz" -O kiba.tgz
+wget https://baidu-nlp.bj.bcebos.com/PaddleHelix/datasets/dti_datasets/kiba_v1.tgz -O kiba.tgz
 tar -zxvf kiba.tgz
 ```
 
 下载完成后，`data`目录看起来是这样的：
 
 ```txt
 data
-|-- davis
-|   |-- folds
-|   |   |-- test_fold_setting1.txt
-|   |   `-- train_fold_setting1.txt
-|   |-- ligands_can.txt
-|   |-- processed
-|   |   |-- test
-|   |   |   `-- davis_test_0.npz
-|   |   `-- train
-|   |       `-- davis_train_0.npz
-|   |-- proteins.txt
-|   `-- Y
-|-- davis.tgz
-|-- kiba
-|   |-- folds
-|   |   |-- test_fold_setting1.txt
-|   |   `-- train_fold_setting1.txt
-|   |-- ligands_can.txt
-|   |-- processed
-|   |   |-- test
-|   |   |   `-- kiba_test_0.npz
-|   |   `-- train
-|   |       `-- kiba_train_0.npz
-|   |-- proteins.txt
-|   `-- Y
-`-- kiba.tgz
+├── davis
+│   ├── folds
+│   │   ├── test_fold_setting1.txt
+│   │   └── train_fold_setting1.txt
+│   ├── ligands_can.txt
+│   ├── processed
+│   │   ├── test
+│   │   │   └── davis_test.npz
+│   │   └── train
+│   │       └── davis_train.npz
+│   ├── proteins.txt
+│   └── Y
+├── davis.tgz
+├── kiba
+│   ├── folds
+│   │   ├── test_fold_setting1.txt
+│   │   └── train_fold_setting1.txt
+│   ├── ligands_can.txt
+│   ├── processed
+│   │   ├── test
+│   │   │   └── kiba_test.npz
+│   │   └── train
+│   │       └── kiba_train.npz
+│   ├── proteins.txt
+│   └── Y
+└── kiba.tgz
 ```
 
 ## 使用说明
 
@@ -0,0 +1,126 @@
+#   Copyright (c) 2020 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+"""
+Convert Kiba and Davis datasets into npz file which can be trained directly.
+
+Note that the dataset split is inherited from GraphDTA and DeepDTA
+"""
+
+import os
+import sys
+import json
+import random
+import pickle
+import argparse
+import numpy as np
+from rdkit import Chem
+from rdkit.Chem import AllChem
+from collections import OrderedDict
+
+from pahelix.utils.compound_tools import mol_to_graph_data
+from pahelix.utils.protein_tools import ProteinTokenizer
+from pahelix.utils.data_utils import save_data_list_to_npz
+
+
+def main():
+    """Entry for data preprocessing."""
+    tokenizer = ProteinTokenizer()
+    for dataset in ['davis', 'kiba']:
+        data_dir = os.path.join(args.dataset_root, dataset)
+        if not os.path.exists(data_dir):
+            print('Cannot find {}'.format(data_dir))
+            continue
+
+        train_fold = json.load(
+            open(os.path.join(data_dir, 'folds', 'train_fold_setting1.txt')))
+        train_fold = [ee for e in train_fold for ee in e]  # flatten
+        test_fold = json.load(
+            open(os.path.join(data_dir, 'folds', 'test_fold_setting1.txt')))
+        ligands = json.load(
+            open(os.path.join(data_dir, 'ligands_can.txt')),
+            object_pairs_hook=OrderedDict)
+        proteins = json.load(
+            open(os.path.join(data_dir, 'proteins.txt')),
+            object_pairs_hook=OrderedDict)
+        # Use encoding 'latin1' to load py2 pkl from py3
+        # pylint: disable=E1123
+        affinity = pickle.load(
+            open(os.path.join(data_dir, 'Y'), 'rb'), encoding='latin1')
+
+        smiles_lst, protein_lst = [], []
+        for k in ligands.keys():
+            smiles = Chem.MolToSmiles(Chem.MolFromSmiles(ligands[k]),
+                                      isomericSmiles=True)
+            smiles_lst.append(smiles)
+
+        for k in proteins.keys():
+            protein_lst.append(proteins[k])
+
+        if dataset == 'davis':
+            # Kd data
+            affinity = [-np.log10(y / 1e9) for y in affinity]
+
+        affinity = np.asarray(affinity)
+
+        # pylint: disable=E1123
+        os.makedirs(os.path.join(data_dir, 'processed'), exist_ok=True)
+        for split in ['train', 'test']:
+            print('processing {} set of {}'.format(split, dataset))
+
+            split_dir = os.path.join(data_dir, 'processed', split)
+            # pylint: disable=E1123
+            os.makedirs(split_dir, exist_ok=True)
+
+            fold = train_fold if split == 'train' else test_fold
+            rows, cols = np.where(np.isnan(affinity) == False)
+            rows, cols = rows[fold], cols[fold]
+
+            data_lst = []
+            for idx in range(len(rows)):
+                mol = AllChem.MolFromSmiles(smiles_lst[rows[idx]])
+                mol_graph = mol_to_graph_data(mol)
+                data = {k: v for k, v in mol_graph.items()}
+
+                seqs = []
+                for seq in protein_lst[cols[idx]].split('\x01'):
+                    seqs.extend(tokenizer.gen_token_ids(seq))
+                data['protein_token_ids'] = np.array(seqs)
+
+                af = affinity[rows[idx], cols[idx]]
+                if dataset == 'davis':
+                    data['Log10_Kd'] = np.array([af])
+                elif dataset == 'kiba':
+                    data['KIBA'] = np.array([af])
+
+                data_lst.append(data)
+
+            random.shuffle(data_lst)
+            npz = os.path.join(split_dir, '{}_{}.npz'.format(dataset, split))
+            save_data_list_to_npz(data_lst, npz)
+
+        print('==============================')
+        print('dataset:', dataset)
+        print('train_fold:', len(train_fold))
+        print('test_fold:', len(test_fold))
+        print('unique drugs:', len(set(smiles_lst)))
+        print('unique proteins:', len(set(protein_lst)))
+
+
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser()
+    parser.add_argument('--dataset_root', type=str, default='data')
+    parser.add_argument('--npz_files', type=int, default=1)  # set it > 1 for multi trainers
+    args = parser.parse_args()
+    main()
@@ -0,0 +1,42 @@
+#!/bin/bash
+cd $(dirname $0)
+cd ..
+
+############
+# config
+############
+root="data"
+
+train() {
+    local dataset=$1
+    local model_dir=$2
+    local extra_args=${@:3}
+
+    python train.py --device gpu \
+           --train_data "$root/$dataset/processed/train/" \
+           --test_data "$root/$dataset/processed/test/" \
+           --model_config $config \
+           --model_dir $model_dir \
+           $extra_args
+}
+
+dataset=$1
+config=$2
+
+if [[ ! -e $config ]]; then
+    echo "Cannot find "$config
+    exit 1
+fi
+
+config_filename=$(basename "$config")
+config_name="${config_filename%.*}"
+model_dir="model_dir/"$dataset"_"$config_name
+train $dataset $model_dir ${@:3}
+
+# for dataset in "davis"
+# do
+#     config_filename=$(basename "$config")
+#     config_name="${config_filename%.*}"
+#     model_dir="model_dir/"$dataset"_"$config_name
+#     train $dataset $model_dir
+# done