Skip to content

DoanhPM/MoGCN

Repository files navigation

MoGCN: Phương pháp tích hợp đa Omics dựa trên mạng tích chập đồ thị để phân tích phân nhóm ung thư

phương pháp tích hợp đa omics dựa trên mạng tích chập đồ thị

Đầu vào của mô hình là các ma trận biểu hiện đa omics, bao gồm nhưng không giới hạn ở genomics, transcriptomics, proteomics, v.v. MoGCN khai thác mô hình GCN để kết hợp và mở rộng hai thuật toán tích hợp đa omics không giám sát: Thuật toán tự động mã hóa (AE) dựa trên ma trận biểu hiện và thuật toán hợp nhất mạng tương đồng dựa trên mạng tương đồng bệnh nhân. Việc trích xuất đặc trưng không cần thiết trước AE và SNF.

Yêu cầu (đã cập nhật so với bài báo gốc)

  • Python 3.6 +
  • Pytorch 2.6
  • NumPy 2.3.4, Pandas 2.3.3,...

Cách sử dụng

Toàn bộ quy trình làm việc được chia thành ba bước:

  • Sử dụng AE để giảm chiều của dữ liệu đa omics để có được ma trận đặc trưng đa omics
  • Sử dụng SNF để xây dựng mạng lưới tương đồng bệnh nhân
  • Ma trận đặc trưng đa omics đầu vào và mạng lưới tương đồng bệnh nhân vào GCN

Dữ liệu mẫu nằm trong thư mục data, chứa dữ liệu CNV, mRNARPPA của BRCA.

Chạy chương trình

git clone https://github.com/doanhmdp/MoGCN.git
cd MoGCN

Cài đặt môi trường (Git Bash/WINGW64)

python3 -m venv venv
source venv/Scripts/activate
pip install -r requirements.txt

Chỉnh lại tham số gpu/cpu nếu cần

python AE_run.py -p1 data/fpkm_data.csv -p2 data/gistic_data.csv -p3 data/rppa_data.csv -m 0 -s 0 -d gpu
python SNF.py -p data/fpkm_data.csv data/gistic_data.csv data/rppa_data.csv -m sqeuclidean
python GCN_run.py -fd result/latent_data.csv -ad result/SNF_fused_matrix.csv -ld data/sample_classes.csv -ts data/test_sample.csv

Xóa môi trường làm lại nếu cần (không ảnh hưởng đến code dự án)

rm -rf venv

Định dạng dữ liệu

Dữ liệu đầu vào của mỗi loại omics phải có định dạng .csv, trong đó hàng biểu thị các mẫu (samples)cột biểu thị các đặc trưng (features/genes).

Trong mỗi ma trận biểu hiện, cột đầu tiên phải là tên mẫu, các cột còn lại là các đặc trưng.
Các mẫu trong tất cả các bộ dữ liệu omics phải nhất quán.

AESNF là các mô hình không giám sát (unsupervised) nên không cần nhãn mẫu.
GCN là mô hình bán giám sát (semi-supervised), yêu cầu file nhãn mẫu (.csv) trong quá trình huấn luyện:

  • Cột 1: tên mẫu
  • Cột 2: nhãn mẫu (số hóa)
  • Các cột còn lại: không bắt buộc

Bài báo gốc:

About

MoGCN - Phân loại nhóm ung thư

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages