Skip to content
MarkProMaster229 edited this page Aug 24, 2025 · 1 revision

Welcome to the ml-lab wiki! В этом репозитории предоставлены эксперименты, текст сгруппирован по разделам experiments - тут представлены базовые модели window_sigmoid_net_toy — модель представляет собой демо-нейросеть для предсказания следующего токена в последовательности на основе скользящего окна фиксированной длины (input_size). Она использует прямое умножение индексов токенов на случайные веса и сигмоидальную активацию для скрытого слоя, а на выходе сначала применялся sigmoid для одного нейрона или softmax для всей размерности словаря. Особенности модели:

Скользящее окно: каждый фрагмент длины input_size подаётся на вход скрытому слою, последний токен окна используется как “правильный” выход.

Скрытый слой: случайно инициализированные веса, активация через сигмоиду, без настоящих эмбеддингов слов.

Выходной слой: использует либо один нейрон + сигмоид (неправильно для многоклассовой задачи), либо softmax на словарь.

Обучение: реализовано через простое обратное распространение с градиентным спуском. Тем не менее, обучение почти бессмысленно, так как вход — это индексы слов, а не эмбеддинги, и часто данные перемешиваются, нарушая контекст.

Генерация текста: производится через выбор следующего токена по вероятностям softmax с применением температуры, но качество генерации крайне низкое из-за проблемы с входами и обучением.

Цель модели — демонстрация базовой архитектуры нейросети и экспериментов с окнами и backprop, а не реальное обучение текста. Это toy-model, пригодная только для обучения и экспериментов, но не для серьёзной генерации.

Clone this wiki locally