Habr.com

Syndicate content Хабр
Все публикации подряд на Хабре
Updated: 12 sec ago

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

18 hours 19 min ago

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI.

Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам.

Мир изменился. Разбираемся, как именно.

В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными.

Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

Читать далее

Слияние капитала, ии и технологий

Sat, 02/21/2026 - 23:57

Ии сейчас одна из технологий. Но в скором будущем это будет совсем не так.

Основной фактор роста торговая схема: капитал ↔ наука, технология.

Данная связка работала столетиями. Грядет новое будущее, концептуально отличное от того, к чему мы привыкли. Капитал ↔ наука, технология ↔ ии. Этот золотой треугольник будет обладать положительно обратной связью каждого элемента с каждым.
Капитал усиляет исследования и технологии, исследования и технологии усиляют показатели капитала, исследования усиляют ии, ии выбирает куда лучше вложить капитал - выбирает оптимальный путь управления капиталом, капитал усиливает ии, и ии ускоряет технологии, являясь катализатором исследований. Проводит научную работу.

Капитал, это всего лишь один очень сильный мем.

Древняя схема: доминирующий капитал — земля, скот и крестьяне, далее капитал — корабль, торговый путь, затем машины, станки и оборудование, далее капитал это чистая технология, очищенный мем и человеческий интеллект. Те компании, что торгуют мемами или обеспечивают мемную инфраструктуру имеют наибольшие показатели, остальные торгующие лесом, сталью, нефтью, газом и т. д. идут всеми силами в омемивании производства.

Какая же следующая стадия, следующий логический шаг?

Следующий шаг

Как я собрал рабочий пайплайн в GitLab: от версии до красивого отчёта

Sat, 02/21/2026 - 23:46

Когда я впервые увидел .gitlab-ci.yml, мне показалось, что это какой-то древний магический свиток. Сплошные stages, artifacts, непонятные правила... Но на самом деле всё гораздо проще — это просто рецепт: что, в каком порядке и как делать с твоим кодом.

Давайте разберём мой рабочий пайплайн по косточкам. Не как сухую документацию, а как реальный пример, который живёт у меня GitLab.

Читать далее

Как я построила знаменитую карту Counter-Strike в Minecraft и перенесла оттуда в CSS и CS2

Sat, 02/21/2026 - 23:16

Вы играете в Minecraft? Вы играете в Counter-Strike? Если вы играете в эти игры и они ваши любимые - то эта статья для вас. Название уже говорит про суть статьи. Это был мой первый опыт в маппинге Minecraft и Counter-Strike.

Читать далее

HackTheBox. Прохождение HackTheBox — Chatterbox. Уровень — Средний

Sat, 02/21/2026 - 23:13

Прохождение средней Windows машины на платформе HackTheBox под названием Chatterbox. Предварительно нужно подключиться к площадке HackTheBox по VPN. Желательно использовать отдельную виртуальную машину. Учимся работать с готовыми эксплоитами и metasploit-ом.

Читать далее

Пассивная атака: история революции на Уолл-стрит

Sat, 02/21/2026 - 23:05

Это был «Манхэттенский» проект в области финансов, который, в конечном итоге, помог создать ядерную бомбу, взорвавшую глобальную индустрию управления активами.

Читать далее

[Перевод] Правило 3-2-1: почему базовый принцип резервного копирования перестал быть достаточным

Sat, 02/21/2026 - 22:45

Привет! Я работаю с инфраструктурой резервного копирования и системами восстановления данных. За последние годы мы всё чаще сталкиваемся с одной и той же ситуацией: формально резервные копии есть, правила соблюдены, а вот уверенности в восстановлении — нет.

Поэтому я предлагаю перевод статьи о том, как работает правило 3-2-1, почему оно перестало быть универсальным, какие уязвимости оставляет в современных средах и как эволюционировало, чтобы соответствовать современным требованиям к защите данных.

Правило резервного копирования 3-2-1 на протяжении многих лет считалось золотым стандартом защиты данных. Его привлекательность заключалась в простоте: хранить три копии данных, размещать их на двух разных типах носителей и держать одну копию вне основной площадки.
В течение многих лет такой подход обеспечивал практичную и надёжную защиту в эпоху, когда резервное копирование в основном было локальным, а угрозы — значительно менее сложными.

Но это было когда-то.

Сегодняшнее разнообразие угроз кардинально изменилось. Кибератаки стали целенаправленными и многоэтапными: злоумышленники нападают не только на рабочие данные, но и на систему резервного копирования, стремясь устранить все возможные пути восстановления. Одновременно с этим ИТ-среды эволюционировали в сторону гибридных архитектур, постоянно работающих сервисов и облачно-ориентированных моделей. В результате, то, что хорошо работало в простых инфраструктурах, сегодня с трудом справляется с масштабом, скоростью и сложностью современных угроз.

Читать далее

M23-Spectrum: инициализация весов нейросети через теорию групп Матьё

Sat, 02/21/2026 - 22:15

Когда мы говорим об обучении глубоких нейронных сетей, первое, о чём думают — это архитектура, функция потерь, learning rate. Инициализация весов кажется скучной технической деталью: «ну Xavier/He поставил и забыл». Но за этой простотой скрывается фундаментальная проблема.

Xavier (Glorot, 2010) и He (2015) инициализируют веса из случайных распределений с дисперсией, масштабированной под размер слоя. Это работает хорошо для неглубоких сетей, но с ростом глубины возникает системная проблема: спектральный радиус матрицы весов отклоняется от 1, и сигнал либо затухает, либо взрывается при прохождении через десятки слоёв.

Динамическая изометрия — концепция, которая говорит: чтобы сигнал сохранялся, нужно $\rho(W) \approx 1$ на каждом слое. Добиться этого статистически сложно, особенно стабильно. Но что если взять структуру, где это гарантировано алгебраически?

Читать далее

Классификация Новикова-Волкова открывает путь к пониманию комплексных соединений металлов

Sat, 02/21/2026 - 21:57

Построена классификация анион-анионных взаимодействий комплексных соединений рения.
Подробно классификация изложена в оригинальной статье Новикова-Волкова:
DOI: 10.1016/j.pcrysgrow.2025.100687

Читать далее

От пыльного ящика до 15 FPS за 40 минут — Claude Code в промышленном IoT

Sat, 02/21/2026 - 21:48

5 лет назад мы пытались внедрить видеодетекцию движения для промышленного освещения. Программист не справился, проект лёг в ящик. В январе 2026-го я собрал работающий MVP за 40 минут с помощью Claude Code — без единого программиста нужного стека в команде

Читать далее

Как я снизил WER с 33% до 3.3% для русской речи на CPU: сравнение GigaAM, Whisper и Vosk

Sat, 02/21/2026 - 21:16

За два месяца я перепробовал три ASR-движка, шесть моделей Whisper, адаптивное чанкование, T5-коррекцию и ансамблевое голосование — и большая часть идей оказалась тупиком. В статье — подробный разбор шести тупиков и одной находки: почему GigaAM от Сбера на обычном CPU показывает 3.3% WER на русском, обходя Whisper large-v3-turbo на RTX 4090 (7.9%) в 2.4 раза. С бенчмарками, кодом и честными оговорками.

Читать далее

Как OpenAI похоронила традиционный BI — и что пришло ему на смену

Sat, 02/21/2026 - 21:05

Зачем OpenAI купила базу данных Rockset за $117M и тут же убила её для всех клиентов.
Как устроена архитектура «пять слоёв контекста».
Почему принцип «meaning lives in code» меняет подход к документированию данных.
И что из этого может взять обычная компания уже сейчас без GPT-5 и без $117M.

Читать далее

Университетские годы Джулиана Ассанжа

Sat, 02/21/2026 - 21:02

Джулиан Ассанж - основатель Wikileaks и вероятный создатель сообщества Cicada 3301. С 2003 по 2005 год Джулиан изучал математику и физику в Мельбурнском университете. Там он вступил в Сообщество математики и статистики Мельбурнского университета (MUMS), где поднялся до позиции вице-президента и проявил выдающиеся организаторские способности.

В 2010 году в журнале Paradox, который издает сообщество, вышла большая статья, посвященная университетской жизни Ассанжа и его участию в деятельности сообщества.

Читать далее

Замедляем замедление: как «починить» Telegram

Sat, 02/21/2026 - 20:32

Пока медийное пространство завалено «легкими решениями одной кнопкой» в виде публичных прокси из сомнительных каналов, техническое сообщество сталкивается с суровой реальностью. Публичные варианты либо безнадежно перегружены, либо моментально детектируются системами фильтрации.

В этой статье мы разберем, как на самом деле работает замедление Telegram, какие методы позволяют вернуть полную скорость работы мессенджера

Читать далее

Социальный субъект трансформации общественных отношений перед лицом нового технологического уклада

Sat, 02/21/2026 - 20:32

Один из главных вопросов, который стоит сегодня на повестке — это какое преобразующее воздействие окажет новая технологическая революция, связанная с нейросетевыми агентами и роботизацией на рабочие места. Будет ли уничтожен труд?

Давайте сначала раскроем само понятие труда. Маркс определял его следующим образом:

"Труд есть прежде всего процесс, совершающийся между человеком и природой, процесс, в котором человек своей собственной деятельностью опосредствует, регулирует и контролирует обмен веществ между собой и природой. <...> Он развивает дремлющие в ней силы и подчиняет игру этих сил своей собственной власти." [1]

При помощи чего человек осуществляет труд — лопаты, трактора или робофабрики, не важно. Труд никуда не денется, пока человек подчиняет этот процесс собственным потребностям. Труду ничего не угрожает. Но что на самом деле под угрозой — это система наемной занятости.

Человечество уже совершило две революции, кардинально изменившие способ организации труда и углубившие его разделение. Это была неолитическая — переход от присвоения к производству, связавший человека с природными циклами и ресурсами, такими как земля и скот, и промышленная, опредметившая его физическую силу в орудиях.

Первая превратила человека-потребителя в производителя, а вторая свела его до поставщика способностей к труду, прежде всего присущей человеческому телу ловкости и когнитивных навыков, и дала зеленый свет товарному производству. Дальнейшее разделение труда довело до предела специализацию работника и сложность общественного производства. Сегодня борьба за дальнейшее расширение интеллектуальной емкости человечества привела нас на порог третьей революции, позволяющей опредметить уже когнитивные навыки.

Читать далее

«Я всё сломал за выходные»: как мы учим LLM писать в стиле конкретного СМИ

Sat, 02/21/2026 - 20:15

Привет, я Лена, это мой первый пост здесь, и он про техническую задачу, с которой мы столкнулись: как заставить LLM писать текст так, чтобы его нельзя было отличить от написанного конкретной редакцией. Не «хороший текст», не «грамотный текст», а такой, который звучит как этот конкретный городской портал или этот Telegram-канал.

Читать далее

Как выбрать язык программирования новичку: Обзор ситуации на 2026

Sat, 02/21/2026 - 20:00

Выбор первого языка программирования — важное решение, которое может определить траекторию вашего профессионального развития. В этом расширенном руководстве мы подробно рассмотрим каждый популярный язык программирования объективно, без предпочтения какого-либо одного решения.

Читать далее

Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

Sat, 02/21/2026 - 19:56

В этой статье будет рассказано о популярных метриках оценки для задач генерации текста: BLEU, ROUGE, METEOR, BERTScore. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.

Топ-6 бесплатных AI-сервисов для генерации 3D-моделей

Sat, 02/21/2026 - 19:50

Вспомните, сколько времени раньше уходило на то, чтобы просто разобраться в интерфейсе Blender или Maya. Еще несколько лет назад мир три де графики казался закрытым клубом для избранных: нужно было годами изучать топологию сетки, возиться с развертками и часами ждать рендера одной сцены. Сегодня этот порог входа практически исчез. Искусственный интеллект добрался до полигонов и текстур, превращая процесс моделирования из тяжелого ремесла в увлекательный диалог с машиной.

Мы решили проверить, насколько далеко зашли технологии, и устроили тест драйв современным алгоритмам. Чтобы задача не казалась скучной, мы выбрали самую ностальгическую тему: попробуем воссоздать в объеме героев мультфильмов нашего детства. Это отличный способ увидеть, как нейросети справляются с узнаваемыми образами и насколько точно они передают детали, которые мы помним с малых лет.

В этом обзоре вы найдете пять сервисов, которые позволяют генерировать модели здесь и сейчас. Главный критерий отбора: честный бесплатный доступ. Мы специально искали площадки, которые не требуют привязки карты и не прячут результат за бесконечными подписками. Только чистые технологии и немного магии генерации.

Приготовьтесь: сейчас мы узнаем, готов ли искусственный интеллект заменить профессионального моделлера или пока он способен только на забавные эксперименты.

Приятного прочтения!

Читать далее

Как я ускорил работу с Claude Code в 2 раза: разбираем Agentation

Sat, 02/21/2026 - 19:29

Я совсем не опытный фронтендер, но вайбкодинг уважаю и люблю. Отдельная боль - это создание стабильных и хороших UI для своих проектов. И вот представь: используешь Claude Code в разработке своего очередного стартапа-единорога и пытаешься объяснить агенту что нужно поправить: "сделай кнопку темнее и ту фигуру закругленней". Какую? «Ну ту, в сайдбаре». Так их там три. «Вторую сверху, с иконкой». Агент правит первую и как итог - ты возмущаясь, пишешь подробное описание с координатами, классами, соседними элементами и всё равно 50 на 50, что он поймёт. Если знакома эта боль, то есть интересная штука под названием Agentation.

Реноме у него довольно рекламное: за пару месяцев проект набрал 120 000+ загрузок на npm и наделал много шума, став частью воркфлоу многих разработчиков, которые активно vibe-кодят с AI. В этой статье разберем: что это за штука, как устроена изнутри, зачем нужна версия 2.0 с MCP, как завести и пользоваться самому и стоит ли вообще тратить время. Спойлер - если ты React-разработчик и работаешь с AI-агентами, то да, попробовать стоит.

Читать далее

Who's online

There are currently 1 user and 2 guests online.