Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?
Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.
Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.
Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.
Детали по исследованиюТак как типичная LLM обучена работать с текстом, первые попытки были просто давать модели чистый HTML. И как не странно, это даже работало, причём надёжнее, чем ожидалось скептиками.
Одновременно в параллельной вселенной существовали E2E тесты, которые имитировали живых юзеров, нажимали на кнопки и заполняли поля. И этим тестам тоже как-то надо было отслеживать изменения на экране. Сравнение скиншотов оказалось крайне не надёжным методом. Тут разработчики Playwright – это известный open source фреймворк для E2E тестов, под крылом Microsoft - вспомнили про ARIA и экранные читалки.
Читать далееВ этой статье продолжаем борьбу с фильтрами по дате в Apache Superset. Сегодня разберем, как реализовать подобие логики remove_filter в старых версиях (до 5), чтобы виртуальный датасет не оборачивался фильтрами.
Читать далееТри недели с момента запуска MENO. В первой части было 120 пользователей и баги в парсинге. Во второй - 149 пользователей и новый онбординг. Сейчас - третья.
Коротко: пользователей стало больше, бот стал чище, а с dev.to прилетел комментарий, который заставил задуматься.
Это третья часть серии.
Читать далее«Нам нужен сотрудник с горящими глазами» — звучит красиво. Но часто за этой фразой скрывается ожидание постоянного героизма, размытые границы ответственности и системные переработки. Где заканчивается вовлечённость и начинается эксплуатация — разбираемся без эмоций и иллюзий.
Читать далееПредставьте: в миллиардах световых лет от нас сталкиваются две черные дыры. Каждая из них — область пространства в пару десятков км, в которой заключена масса десятка Солнц. Они вращаются друг вокруг друга со скоростью в половину скорости света, пока наконец не сталкиваются, излучая огромную энергию в виде гравитационных волн — колебаний пространства-времени. Мощность этого излучения на пике выше, чем мощность всего остального излучения в видимой Вселенной! Гравитационные волны от этого события бегут миллиарды лет со скоростью света, пока наконец не достигают Земли, где мы их ловим огромными детекторами гравитационных волн.
Читать далееВ этом эссе родителя-экспериментатора без педагогической теории (я не педагог и не психолог), без идеализации родительства, но с некоторым багажом практики, я описываю, как занимался развитием сына и что делал, чтобы он вырос думающим, любознательным, любопытным и эрудированным.
Читать далееПривет! Мы создали Monogram — новый открытый Telegram-клиент для Android на Kotlin и Jetpack Compose. Код доступен на GitHub под лицензией GPLv3, а новости — в нашем Telegram-канале.
Почему мы это сделали?Официальный клиент превратился в переусложненный монолит, исходники которого публикуются с сильной задержкой. Кроме того, нам не нравится навязывание iOS-стиля в ущерб гайдлайнам Android.
Под капотом и фичи:За ядро и шифрование отвечает официальная TDLib (C++). В остальном мы сделали ставку на нативность:
Интерфейс и реализацияСтрогий Material Design 3. Плавный и легкий благодаря встроенным нативным компонентам Android.
Привет! Мы создали Monogram — новый открытый Telegram-клиент для Android на Kotlin и Jetpack Compose. Код доступен на GitHub под лицензией GPLv3, а новости — в нашем Telegram-канале.
Почему мы это сделали?Официальный клиент превратился в переусложненный монолит, исходники которого публикуются с сильной задержкой. Кроме того, нам не нравится навязывание iOS-стиля в ущерб гайдлайнам Android.
Под капотом и фичи:За ядро и шифрование отвечает официальная TDLib (C++). В остальном мы сделали ставку на нативность:
Интерфейс и реализацияСтрогий Material Design 3. Плавный и легкий благодаря встроенным нативным компонентам Android.
В этой статье мы не просто посмотрим синтаксис — мы поймём зачем это нужно и как работает под капотом. Мы пройдём путь от указателей на функции в C/C++ до современных лямбда-выражений в C#, разберёмся с делегатами и научимся использовать всю мощь функциональных возможностей языка.
Читать далееНа конференции PgConf 2026, которая прошла в Москве 23-24 марта 2026 года было много докладов.
В статье дан обзор одного из докладов конференции, - Андрея Билле, главного инженера компании Postgres Professional.Название доклада: "Если ваш админ самурай или история о восстановлении очень нужных данных". Доклад рекомендовали организаторы конференции, поэтому я решил его посетить и не пожалел. Этот доклад оказался наиболее зажигательным.
Читать далееЧуть более двух лет назад я опубликовал здесь статью про восприятие IT-специалистами феномена нейросетей. Тогда моё «исследование» (не стоит убирать кавычки, это именно «исследование») базировалось на опыте психологического консультирования 30 представителей сферы, с которыми поднималась эта тема. Если мы вернемся немного назад во времени, то картина будет следующей.
Конец 2022 года. Open AI презентовала продукт ChatGPT на основе своей модели GPT-3.5. Данное событие ознаменовало не только какое-то сюрреалистичное количество статей и скриншотов, а-ля «а вот как мне ответил чатжэпэтэ», но и повышение уровня стресса среди представителей многих профессий. Но так как вы читаете это на Хабре, то и говорить я буду преимущественно про целевую аудиторию, то есть, работников IT-сферы.
Так вот, на протяжении 2023 года я наблюдал за тем, как профессиональное сообщество воспринимает появление нового явления, которое некоторые приравнивают к созданию паровой машины, повлекшей за собой техническую революцию. Накопил 30 человек, которые делились со мной своими переживаниями и страхами. На основании этого вывел определенную статистику. На момент второй половины 2023 года респонденты разделились на три категории: 10% отнеслись к появлению подобного рода ИИ позитивно, 50% умеренно переживали, 40% демонстрировали панические нотки.
Но вот прошло уже более трёх лет как мы живем в «новом мире». Мы начали к этому адаптироваться. Какие-то ожидания и страхи оправдались, какие-то – нет (ещё нет?). Следовательно, картинка должна была как-то измениться. И про актуальное восприятие (именно восприятие, а не реальное положение дел) эта статья.
А был ли мальчик?“Долг понимания” (comprehension debt) — это скрытая цена, которую человеческий интеллект и память платят в результате чрезмерной зависимости от ИИ и автоматизации. Для инженеров это особенно актуально в сфере разработки агентных систем.
Когда команды активно используют инструменты для генерации кода с помощью ИИ, возникают определенные издержки, которые не отражаются в показателях производительности. Особенно это касается случаев, когда проверка всего кода, генерируемого ИИ, становится утомительной. Эти издержки накапливаются постепенно, и в конечном итоге их приходится оплачивать — с процентами. Это называется “долг понимания” или “когнитивный долг”.
Читать далееСамые интересные новости финансов и технологий в России и мире за неделю: в столице опять дали интернет, новый биржевой фонд Лежебоки, уголовка за незаконный майнинг в РФ, штраф Метогуглу за подсаживание на соцсети, Илон Маск строит крупнейший в мире чиповый завод, долгожданный аудит Tether, а также первый тизер нового ГП-сериала.
Читать далееПри создании плат в той или иной программе периодически приходится использовать какие-то компоненты, которых нет в стандартном пакете: какой-нибудь разъем необычного размера, готовый модуль и т.д.
Сам пользуюсь сейчас LibrePCB, и вот в комментариях видел вопрос: а где брать компоненты для LibrePCB, если их там не нашлось?
Создать, конечно!
Создание нового компонента только на первый взгляд кажется сложным. но на самом деле всё довольно просто, если понять логику, как это там делается.
Например, нужно создать компонент модуля понижения напряжения DCDC:
В прошлой нашей статье мы рассказывали, как написали программу ExoLogica AI для анализа экзопланет. В комментариях Senior Data Scientist'ы справедливо разнесли нас за то, что наша нейросеть ничего не знала об уравнении состояния вещества (не хватало inductive bias).
Мы признали критику, ушли переписывать архитектуру и внедрили полноценный Physics-Informed ML. Но когда мы запустили гибридную модель v2.0, мы обнаружили нечто пугающее. Оказалось, что главный астрономический Индекс Подобия Земле (ESI) систематически лжет.
Рассказываем, как мы открыли «Парадокс ESI», ввели собственный индекс физической реализуемости (PRI) и математически доказали, что 71% так называемых «вторых Земель» — это просто куски раскаленного чугуна. И о том, как пара строк кода на Python сократила каталог из 9600 планет до 37 реальных миров, утерев нос популярным спискам обсерваторий.
Читать далееВ этой статье я собираюсь показать вам Android фичу, представленную в 2012 году, и попробую написать для неё UI на Compose.
Изучая недра Android, я наткнулся на один Service, который привлек моё внимание. Класс, который я обнаружил, не только заинтриговал меня своим названием, но и снова удивил интересными возможностями, скрытыми внутри Android.
Узнать подробностиЕсли вы работаете с мониторингом в Prometheus или VictoriaMetrics, то наверняка знаете, и Alertmanager для удобного конфигурирования алертов. А если вы ещё и используйте EvaTeam (российский аналог Jira) и хотите автоматизировать полностью цикл создания, работы над алертами в этих систмах, то это решение очень вероятно вам поможет осуществить такую связку!
Alertmanager-evateam это Alertmanager (webhook) плагин, который создаёт и управляет задачами в EvaTeam на основе алертов, с акцентом на гибкость.
Читать далееСегодня мы стоим на пороге создания AGI (искусственного интеллекта общего уровня), и сценарий Головачева может оказаться куда ближе к реальности, чем кажется, благодаря переходу от лингвистики к моделям мира (World Models).
От слов к действию: физика против лингвистики
Главная претензия к современным ИИ (вроде ChatGPT) — они не понимают, как устроен мир. Это «мозги в колбе», знающие мир только по текстам. Однако сейчас идет активная разработка технологий, которые сделают ИИ физичным.
Читать далееМиллиметровый радар HLK-LD2450 — недорогой датчик присутствия с координатами целей. Чаще всего его используют как «есть/нет движения», но по протоколу он отдаёт X, Y, скорость, угол для трёх целей одновременно. Мы разобрали бинарный протокол, настроили аппаратные зоны, управляем регистрами через ESPHome и Home Assistant, и всё это — без промежуточных прослоек.
Читать далее