Đầu vào của mô hình là các ma trận biểu hiện đa omics, bao gồm nhưng không giới hạn ở genomics, transcriptomics, proteomics, v.v. MoGCN khai thác mô hình GCN để kết hợp và mở rộng hai thuật toán tích hợp đa omics không giám sát: Thuật toán tự động mã hóa (AE) dựa trên ma trận biểu hiện và thuật toán hợp nhất mạng tương đồng dựa trên mạng tương đồng bệnh nhân. Việc trích xuất đặc trưng không cần thiết trước AE và SNF.
- Python 3.6 +
- Pytorch 2.6
- NumPy 2.3.4, Pandas 2.3.3,...
- Sử dụng AE để giảm chiều của dữ liệu đa omics để có được ma trận đặc trưng đa omics
- Sử dụng SNF để xây dựng mạng lưới tương đồng bệnh nhân
- Ma trận đặc trưng đa omics đầu vào và mạng lưới tương đồng bệnh nhân vào GCN
git clone https://github.com/doanhmdp/MoGCN.git
cd MoGCNpython3 -m venv venv
source venv/Scripts/activate
pip install -r requirements.txtChỉnh lại tham số gpu/cpu nếu cần
python AE_run.py -p1 data/fpkm_data.csv -p2 data/gistic_data.csv -p3 data/rppa_data.csv -m 0 -s 0 -d gpu
python SNF.py -p data/fpkm_data.csv data/gistic_data.csv data/rppa_data.csv -m sqeuclidean
python GCN_run.py -fd result/latent_data.csv -ad result/SNF_fused_matrix.csv -ld data/sample_classes.csv -ts data/test_sample.csvXóa môi trường làm lại nếu cần (không ảnh hưởng đến code dự án)
rm -rf venvDữ liệu đầu vào của mỗi loại omics phải có định dạng .csv, trong đó hàng biểu thị các mẫu (samples) và cột biểu thị các đặc trưng (features/genes).
Trong mỗi ma trận biểu hiện, cột đầu tiên phải là tên mẫu, các cột còn lại là các đặc trưng.
Các mẫu trong tất cả các bộ dữ liệu omics phải nhất quán.
AE và SNF là các mô hình không giám sát (unsupervised) nên không cần nhãn mẫu.
GCN là mô hình bán giám sát (semi-supervised), yêu cầu file nhãn mẫu (.csv) trong quá trình huấn luyện:
- Cột 1: tên mẫu
- Cột 2: nhãn mẫu (số hóa)
- Các cột còn lại: không bắt buộc
