MoGCN: Phương pháp tích hợp đa Omics dựa trên mạng tích chập đồ thị để phân tích phân nhóm ung thư

Đầu vào của mô hình là các ma trận biểu hiện đa omics, bao gồm nhưng không giới hạn ở genomics, transcriptomics, proteomics, v.v. MoGCN khai thác mô hình GCN để kết hợp và mở rộng hai thuật toán tích hợp đa omics không giám sát: Thuật toán tự động mã hóa (AE) dựa trên ma trận biểu hiện và thuật toán hợp nhất mạng tương đồng dựa trên mạng tương đồng bệnh nhân. Việc trích xuất đặc trưng không cần thiết trước AE và SNF.

Yêu cầu (đã cập nhật so với bài báo gốc)

Python 3.6 +
Pytorch 2.6
NumPy 2.3.4, Pandas 2.3.3,...

Cách sử dụng

Toàn bộ quy trình làm việc được chia thành ba bước:

Sử dụng AE để giảm chiều của dữ liệu đa omics để có được ma trận đặc trưng đa omics
Sử dụng SNF để xây dựng mạng lưới tương đồng bệnh nhân
Ma trận đặc trưng đa omics đầu vào và mạng lưới tương đồng bệnh nhân vào GCN

Dữ liệu mẫu nằm trong thư mục data, chứa dữ liệu CNV, mRNA và RPPA của BRCA.

Chạy chương trình

git clone https://github.com/doanhmdp/MoGCN.git
cd MoGCN

Cài đặt môi trường (Git Bash/WINGW64)

python3 -m venv venv
source venv/Scripts/activate
pip install -r requirements.txt

Chỉnh lại tham số gpu/cpu nếu cần

python AE_run.py -p1 data/fpkm_data.csv -p2 data/gistic_data.csv -p3 data/rppa_data.csv -m 0 -s 0 -d gpu
python SNF.py -p data/fpkm_data.csv data/gistic_data.csv data/rppa_data.csv -m sqeuclidean
python GCN_run.py -fd result/latent_data.csv -ad result/SNF_fused_matrix.csv -ld data/sample_classes.csv -ts data/test_sample.csv

Xóa môi trường làm lại nếu cần (không ảnh hưởng đến code dự án)

rm -rf venv

Định dạng dữ liệu

Dữ liệu đầu vào của mỗi loại omics phải có định dạng .csv, trong đó hàng biểu thị các mẫu (samples) và cột biểu thị các đặc trưng (features/genes).

Trong mỗi ma trận biểu hiện, cột đầu tiên phải là tên mẫu, các cột còn lại là các đặc trưng.
Các mẫu trong tất cả các bộ dữ liệu omics phải nhất quán.

AE và SNF là các mô hình không giám sát (unsupervised) nên không cần nhãn mẫu.
GCN là mô hình bán giám sát (semi-supervised), yêu cầu file nhãn mẫu (.csv) trong quá trình huấn luyện:

Cột 1: tên mẫu
Cột 2: nhãn mẫu (số hóa)
Các cột còn lại: không bắt buộc

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
__pycache__		__pycache__
data		data
model		model
result		result
.gitattributes		.gitattributes
AE_run.py		AE_run.py
GCN_run.py		GCN_run.py
LICENSE		LICENSE
README.md		README.md
SNF.py		SNF.py
__init__.py		__init__.py
autoencoder_model.py		autoencoder_model.py
gcn_model.py		gcn_model.py
layer.py		layer.py
requirements.txt		requirements.txt
setup.py		setup.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MoGCN: Phương pháp tích hợp đa Omics dựa trên mạng tích chập đồ thị để phân tích phân nhóm ung thư

Yêu cầu (đã cập nhật so với bài báo gốc)

Cách sử dụng

Toàn bộ quy trình làm việc được chia thành ba bước:

Dữ liệu mẫu nằm trong thư mục data, chứa dữ liệu CNV, mRNA và RPPA của BRCA.

Chạy chương trình

Cài đặt môi trường (Git Bash/WINGW64)

Định dạng dữ liệu

Bài báo gốc:

About

Uh oh!

Releases

Packages

Languages

License

DoanhPM/MoGCN

Folders and files

Latest commit

History

Repository files navigation

MoGCN: Phương pháp tích hợp đa Omics dựa trên mạng tích chập đồ thị để phân tích phân nhóm ung thư

Yêu cầu (đã cập nhật so với bài báo gốc)

Cách sử dụng

Toàn bộ quy trình làm việc được chia thành ba bước:

Dữ liệu mẫu nằm trong thư mục data, chứa dữ liệu CNV, mRNA và RPPA của BRCA.

Chạy chương trình

Cài đặt môi trường (Git Bash/WINGW64)

Định dạng dữ liệu

Bài báo gốc:

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages