Feed aggregator

Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN

Habr.com - 4 hours 28 min ago

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?

Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.

Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.

Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.

Детали по исследованию

Как агенты видят веб-страницы

Habr.com - 4 hours 38 min ago

Так как типичная LLM обучена работать с  текстом, первые попытки были просто давать модели чистый HTML. И как не странно, это даже работало, причём надёжнее, чем ожидалось скептиками.  

Одновременно в параллельной вселенной существовали E2E тесты, которые имитировали живых юзеров, нажимали на кнопки и заполняли поля. И этим тестам тоже как-то надо было отслеживать изменения на экране. Сравнение скиншотов оказалось крайне не надёжным методом. Тут разработчики Playwright – это известный open source фреймворк для E2E тестов, под крылом Microsoft - вспомнили про  ARIA и экранные читалки.

Читать далее

Apache Superset — боремся с фильтрами по дате. Часть 2

Habr.com - 4 hours 39 min ago

В этой статье продолжаем борьбу с фильтрами по дате в Apache Superset. Сегодня разберем, как реализовать подобие логики remove_filter в старых версиях (до 5), чтобы виртуальный датасет не оборачивался фильтрами.

Читать далее

Неделя 3: 216 пользователей, UX-чистка и первый фидбек с Запада

Habr.com - 4 hours 53 min ago

Три недели с момента запуска MENO. В первой части было 120 пользователей и баги в парсинге. Во второй - 149 пользователей и новый онбординг. Сейчас - третья.

Коротко: пользователей стало больше, бот стал чище, а с dev.to прилетел комментарий, который заставил задуматься.

Это третья часть серии.

Читать далее

Нам нужен сотрудник с горящими глазами

Habr.com - 5 hours 5 min ago

«Нам нужен сотрудник с горящими глазами» — звучит красиво. Но часто за этой фразой скрывается ожидание постоянного героизма, размытые границы ответственности и системные переработки. Где заканчивается вовлечённость и начинается эксплуатация — разбираемся без эмоций и иллюзий.

Читать далее

Сжатый свет: обманываем Гейзенберга и наблюдаем черные дыры

Habr.com - 5 hours 17 min ago

Представьте: в миллиардах световых лет от нас сталкиваются две черные дыры. Каждая из них — область пространства в пару десятков км, в которой заключена масса десятка Солнц. Они вращаются друг вокруг друга со скоростью в половину скорости света, пока наконец не сталкиваются, излучая огромную энергию в виде гравитационных волн — колебаний пространства-времени. Мощность этого излучения на пике выше, чем мощность всего остального излучения в видимой Вселенной! Гравитационные волны от этого события бегут миллиарды лет со скоростью света, пока наконец не достигают Земли, где мы их ловим огромными детекторами гравитационных волн.

Читать далее

Как я воспитываю и развиваю детей: про разговоры, контакт, доверие и детские шутки

Habr.com - 5 hours 26 min ago

В этом эссе родителя-экспериментатора без педагогической теории (я не педагог и не психолог), без идеализации родительства, но с некоторым багажом практики, я описываю, как занимался развитием сына и что делал, чтобы он вырос думающим, любознательным, любопытным и эрудированным. 

Читать далее

Monogram, альтернативный открытый клиент Telegram для Android

Linux.org.ru - 5 hours 30 min ago

Привет! Мы создали Monogram — новый открытый Telegram-клиент для Android на Kotlin и Jetpack Compose. Код доступен на GitHub под лицензией GPLv3, а новости — в нашем Telegram-канале.

Почему мы это сделали?

Официальный клиент превратился в переусложненный монолит, исходники которого публикуются с сильной задержкой. Кроме того, нам не нравится навязывание iOS-стиля в ущерб гайдлайнам Android.

Под капотом и фичи:

За ядро и шифрование отвечает официальная TDLib (C++). В остальном мы сделали ставку на нативность:

Интерфейс и реализация

Строгий Material Design 3. Плавный и легкий благодаря встроенным нативным компонентам Android.

 , ,

Monogram, альтернативный открытый клиент Telegram для Android

Linux.org.ru - 5 hours 30 min ago

Привет! Мы создали Monogram — новый открытый Telegram-клиент для Android на Kotlin и Jetpack Compose. Код доступен на GitHub под лицензией GPLv3, а новости — в нашем Telegram-канале.

Почему мы это сделали?

Официальный клиент превратился в переусложненный монолит, исходники которого публикуются с сильной задержкой. Кроме того, нам не нравится навязывание iOS-стиля в ущерб гайдлайнам Android.

Под капотом и фичи:

За ядро и шифрование отвечает официальная TDLib (C++). В остальном мы сделали ставку на нативность:

Интерфейс и реализация

Строгий Material Design 3. Плавный и легкий благодаря встроенным нативным компонентам Android.

 , ,

Делегаты и Лямбды: От тайного знания к повседневному инструменту

Habr.com - 5 hours 47 min ago

В этой статье мы не просто посмотрим синтаксис — мы поймём зачем это нужно и как работает под капотом. Мы пройдём путь от указателей на функции в C/C++ до современных лямбда-выражений в C#, разберёмся с делегатами и научимся использовать всю мощь функциональных возможностей языка.

Читать далее

Если ваш админ — самурай или «обнять и плакать»

Habr.com - 6 hours 5 min ago

На конференции PgConf 2026, которая прошла в Москве 23-24 марта 2026 года было много докладов.

В статье дан обзор одного из докладов конференции, - Андрея Билле, главного инженера компании Postgres Professional.Название доклада: "Если ваш админ самурай или история о восстановлении очень нужных данных". Доклад рекомендовали организаторы конференции, поэтому я решил его посетить и не пожалел. Этот доклад оказался наиболее зажигательным.

Читать далее

ИИстерия — а есть ли она?

Habr.com - 6 hours 27 min ago

Чуть более двух лет назад я опубликовал здесь статью про восприятие IT-специалистами феномена нейросетей. Тогда моё «исследование» (не стоит убирать кавычки, это именно «исследование») базировалось на опыте психологического консультирования 30 представителей сферы, с которыми поднималась эта тема. Если мы вернемся немного назад во времени, то картина будет следующей.

Конец 2022 года. Open AI презентовала продукт ChatGPT на основе своей модели GPT-3.5. Данное событие ознаменовало не только какое-то сюрреалистичное количество статей и скриншотов, а-ля «а вот как мне ответил чатжэпэтэ», но и повышение уровня стресса среди представителей многих профессий. Но так как вы читаете это на Хабре, то и говорить я буду преимущественно про целевую аудиторию, то есть, работников IT-сферы.

Так вот, на протяжении 2023 года я наблюдал за тем, как профессиональное сообщество воспринимает появление нового явления, которое некоторые приравнивают к созданию паровой машины, повлекшей за собой техническую революцию. Накопил 30 человек, которые делились со мной своими переживаниями и страхами. На основании этого вывел определенную статистику. На момент второй половины 2023 года респонденты разделились на три категории: 10% отнеслись к появлению подобного рода ИИ позитивно, 50% умеренно переживали, 40% демонстрировали панические нотки.

Но вот прошло уже более трёх лет как мы живем в «новом мире». Мы начали к этому адаптироваться. Какие-то ожидания и страхи оправдались, какие-то – нет (ещё нет?). Следовательно, картинка должна была как-то измениться. И про актуальное восприятие (именно восприятие, а не реальное положение дел) эта статья.

А был ли мальчик?

[Перевод] Долг понимания — скрытая цена кода, сгенерированного искусственным интеллектом

Habr.com - 6 hours 28 min ago

“Долг понимания” (comprehension debt) — это скрытая цена, которую человеческий интеллект и память платят в результате чрезмерной зависимости от ИИ и автоматизации. Для инженеров это особенно актуально в сфере разработки агентных систем.

Когда команды активно используют инструменты для генерации кода с помощью ИИ, возникают определенные издержки, которые не отражаются в показателях производительности. Особенно это касается случаев, когда проверка всего кода, генерируемого ИИ, становится утомительной. Эти издержки накапливаются постепенно, и в конечном итоге их приходится оплачивать — с процентами. Это называется “долг понимания” или “когнитивный долг”.

Читать далее

Кибероттепель в Москве, а также слухи о грядущих AGI-моделях от OpenAI & Anthropic

Habr.com - 6 hours 31 min ago

Самые интересные новости финансов и технологий в России и мире за неделю: в столице опять дали интернет, новый биржевой фонд Лежебоки, уголовка за незаконный майнинг в РФ, штраф Метогуглу за подсаживание на соцсети, Илон Маск строит крупнейший в мире чиповый завод, долгожданный аудит Tether, а также первый тизер нового ГП-сериала.

Читать далее

DIY: создание новых компнентов в LibrePCB

Habr.com - 12 hours 4 min ago

При создании плат в той или иной программе периодически приходится использовать какие-то компоненты, которых нет в стандартном пакете: какой-нибудь разъем необычного размера, готовый модуль и т.д.

Сам пользуюсь сейчас LibrePCB, и вот в комментариях видел вопрос: а где брать компоненты для LibrePCB, если их там не нашлось?
Создать, конечно!

Создание нового компонента только на первый взгляд кажется сложным. но на самом деле всё довольно просто, если понять логику, как это там делается.
Например, нужно создать компонент модуля понижения напряжения DCDC:

Читать далее

Как мы сломали индекс обитаемости экзопланет: Парадокс ESI, Physics-Informed ML и 9600 фейковых «Земель»

Habr.com - 14 hours 27 min ago

В прошлой нашей статье мы рассказывали, как написали программу ExoLogica AI для анализа экзопланет. В комментариях Senior Data Scientist'ы справедливо разнесли нас за то, что наша нейросеть ничего не знала об уравнении состояния вещества (не хватало inductive bias).

Мы признали критику, ушли переписывать архитектуру и внедрили полноценный Physics-Informed ML. Но когда мы запустили гибридную модель v2.0, мы обнаружили нечто пугающее. Оказалось, что главный астрономический Индекс Подобия Земле (ESI) систематически лжет.

Рассказываем, как мы открыли «Парадокс ESI», ввели собственный индекс физической реализуемости (PRI) и математически доказали, что 71% так называемых «вторых Земель» — это просто куски раскаленного чугуна. И о том, как пара строк кода на Python сократила каталог из 9600 планет до 37 реальных миров, утерев нос популярным спискам обсерваторий.

Читать далее

Наконец-то нашел Android Service своей мечты после того, как потерял его 13 лет назад

Habr.com - 15 hours 5 min ago

В этой статье я собираюсь показать вам Android фичу, представленную в 2012 году, и попробую написать для неё UI на Compose.

Изучая недра Android, я наткнулся на один Service, который привлек моё внимание. Класс, который я обнаружил, не только заинтриговал меня своим названием, но и снова удивил интересными возможностями, скрытыми внутри Android.

Узнать подробности

Alertmanager-evateam для интеграции алертов в EvaTeam — отечественный трекер

Habr.com - 15 hours 24 min ago

Если вы работаете с мониторингом в Prometheus или VictoriaMetrics, то наверняка знаете, и Alertmanager для удобного конфигурирования алертов. А если вы ещё и используйте EvaTeam (российский аналог Jira) и хотите автоматизировать полностью цикл создания, работы над алертами в этих систмах, то это решение очень вероятно вам поможет осуществить такую связку!

Alertmanager-evateam это Alertmanager (webhook) плагин, который создаёт и управляет задачами в EvaTeam на основе алертов, с акцентом на гибкость.

Читать далее

Спящий джинн в кремниевых оковах: станет ли AGI пророчеством Головачева?

Habr.com - 15 hours 56 min ago

Сегодня мы стоим на пороге создания AGI (искусственного интеллекта общего уровня), и сценарий Головачева может оказаться куда ближе к реальности, чем кажется, благодаря переходу от лингвистики к моделям мира (World Models).

От слов к действию: физика против лингвистики

Главная претензия к современным ИИ (вроде ChatGPT) — они не понимают, как устроен мир. Это «мозги в колбе», знающие мир только по текстам. Однако сейчас идет активная разработка технологий, которые сделают ИИ физичным.

Читать далее

HLK-LD2450 миллиметровый радар: регистры, зоны, нативный компонент

Habr.com - 16 hours 23 min ago

Миллиметровый радар HLK-LD2450 — недорогой датчик присутствия с координатами целей. Чаще всего его используют как «есть/нет движения», но по протоколу он отдаёт X, Y, скорость, угол для трёх целей одновременно. Мы разобрали бинарный протокол, настроили аппаратные зоны, управляем регистрами через ESPHome и Home Assistant, и всё это — без промежуточных прослоек.

Читать далее

Who's online

There are currently 0 users and 0 guests online.
Syndicate content