Почему ИИ-агенты в реальных задачах за пределами академических экспериментов до сих пор часто наступают на хорошо знакомые грабли: путаются в деталях, не удерживают цель при длинных рассуждениях и теряют контекст использования инструментов?
Неожиданная идея решения проблемы пришла в недавнем исследовании DeepAgent. Кажется, что дело вовсе не в размере модели и не в промтах для ее использования. Ключом к прогрессу явилась связная логика рассуждений на протяжении всей задачи. Агент не просто каждый раз делает привычный сценарий с паузой: «обдумал-предпринял действие» - а ведет мысль по длинному связнму сценарию, сам выбирает какой памятью ему пользоваться и когда применять нужные инструменты.
В этом обзоре: что меняется в поведении агента, когда у него появляется возможность связанно использовать различные инструменты на протяжении всей задачи, какие методы используются и как это приближает нас к по-настоящему автономному ИИ.
Читать далееПривет, Хабр! Иногда на тест попадаются нетипичные устройства. Нет, до обзора трамваев я ещё не дорос. Однако ко мне в руки иной раз попадает что‑то интересное. И не всегда можно рассказать, потому что или на короткий срок оборудование дали, или нельзя говорить.
Бывает и по‑другому, некоторые устройства доступны только компаниям, некоторые продаются частным лицам, но финансов нет. Samsung Galaxy Tab Active5 Pro не должен был попасть ко мне в руки по всем вариантам. Потому что это устройство предназначено не для частных пользователей, а для корпоративного сегмента — его поставляют компаниям для профессионального использования (например, в логистике, производстве или на выездах).
Обычные обзорщики, как я, или частные лица редко получают подобные «железки» особенно если устройства нет в розничной продаже официально или предоставляются только по закрытым партнёрским программам. Но в итоге на небольшое время мне достался планшет.
UPD: в комментариях поправили, что можно купить спокойно. Ну значит и того лучше. Мне устройство досталось от юрлица, которое брало их на тесты.
Интерес к защищённым устройствам появился у меня ещё в 2014 году, когда на тогдашней работе в одном из ИТ‑подразделений (где я трудился) от заказчика к нам пришли промышленные планшеты. Это были тяжёлые массивные устройства (толщиной около 4–5 см) на базе Windows: с одной стороны, чрезвычайно прочные (выдерживали падение с двух метров), но с другой — сенсорный интерфейс был неудобен и медленно реагировал.
Спустя 11 лет ко мне на обзор попали сразу два защищённых планшета промышленного класса: Samsung Galaxy Tab Active5 Pro и MIG T8Xx86. В этом обзоре остановлюсь на устройстве Samsung. Приятного чтения!
Читать далееИногда кажется, что физика и программирование живут в разных мирах. Но чем глубже смотришь, тем сильнее понимаешь — законы мышления, которыми мы руководствуемся, удивительно схожи. Симметрия, порядок, борьба с энтропией, поиск инвариантов — всё это объединяет инженеров, физиков и программистов в одном стремлении понять, как устроен мир. Я просто захотел порассуждать об этом и поделиться с вами своими мыслями.
Читать далееПривет! Меня зовут Анатолий, я ведущий разработчик в ITFB Group, и сегодня я хочу рассказать о том, как можно превратить скучные тесты в главного специалиста по продукту.
Знакомо: ваши JUnit-тесты проходят, CI/CD зелёный, все довольны. Но тут приходит бизнес-аналитик и спрашивает: "А этот сценарий проверяет, что будет, если клиент с рейтингом 700 запросит 10 миллионов?"
Вы начинаете лихорадочно копаться в коде, пытаясь найти тот самый @Test... А что если бы ответ на этот вопрос лежал не в глубинах Java-кода, а в красивом, читаемом файле, который понятен всем — от тимлида до заказчика?
Читать далееВ любой компании рано или поздно встаёт вопрос: как писать код так, чтобы его было удобно поддерживать и масштабировать? Одни решают эту задачу через процессы и правила, другие — через инструменты и платформенные команды. Но если присмотреться, платформенный подход возникает почти везде, даже там, где формально нет платформы.
Меня зовут Дима Салахутдинов, я тимлид платформенной команды в Купере, автор телеграм-канала «Стафф-инженер», и в этой статье я расскажу, какие принципы лежат в основе платформенной разработки, как они помогают снижать издержки и почему единые инструменты важнее бесконечных споров о том, какой фреймворк лучше.
Читать далееПошаговый разбор с метафорами, формулами и лайфхаками, которые спасут ваш fit()
Привет, хабровчане! В мире ML градиентный спуск это двигатель внутреннего сгорания: он везде, он работает, но мало кто заглядывает под капот, а ведь именно он превращает случайные веса в модель, которая угадывает котиков, переводит тексты и генерирует картинки.
Вы запускаете model.fit() - и через 100 эпох у вас есть результат, но как именно нейросеть «находит выход» из хаоса параметров? Почему иногда она перепрыгивает минимум, а иногда зависает в тупике? И как настроить learning_rate, чтобы не ждать до пенсии?
Полный разбор с нуля, с формулами и примерами. Давайте разберём по полочкам, чтобы было понятно даже новичку.
Читать далееПривет, Хабр! Конструкции вроде 2>&1 и &> встречаются повсюду — в мануалах, скриптах, инструкциях. Их используют постоянно, но редко понимают до конца. Почему ошибки продолжают появляться в терминале, хотя, казалось бы, должны уходить в файл? Почему конвейер передаёт только часть вывода?
В статье разберём всё от базового синтаксиса до работы с tee и /dev/null - каждая часть будет разобрана и показана на практических примерах.
Читать далееПосле первоначального доступа к Windows‑хосту (обычно это базовая shell/метерпитетер) злоумышленник или тестировщик (аха, то есть мы) часто ограничен правами. Чтобы повысить привилегии, требуется быстро перечислить файлы, директории, права, журналы и хранилища (SAM и др.). Объём артефактов в Windows огромен, и ручная проверка даже при хорошем опыте занимает много времени. Логичный путь — автоматизировать перечисление с помощью скриптов и чекеров. Тема незаменима на экзамене OSCP и при прохождении тачек на HTB.
«Эскалация привилегий» — стадия после компрометации, в рамках которой собирается критичная для системы информация: скрытые пароли, слабоконфигурированные службы/приложения, уязвимые политики, кривой доступ, лишние сервисы в RAM и т.д. Именно эти сведения позволяют выполнить пост‑эксплуатацию и получить более высокий уровень прав.
Читать далееЯ уволился из своей первой работы SRE‑инженером после особенно тяжелой недели дежурства. Семь ночей подряд я просыпался от PagerDuty. Семь ночей подряд я чинил одну и ту же проблему с памятью, которую никто не хотел исправлять «по‑настоящему», потому что «горячий фикс же работает». На восьмое утро я пришел в офис и положил заявление на стол.
Это было пять лет назад. С тех пор я прошел через четыре компании, построил on‑call процессы с нуля в двух из них, и научился главному: дежурства не должны убивать людей. Физически и морально. Давайте поговорим о том, как построить on‑call ротацию, которая не приведет к массовым увольнениям.
Читать далееНа связи Сергей Скирдин, технический директор ИТ-интегратора «Белый код». Рассказываю о проекте, в котором мы реализовали корпоративное хранилище данных (КХД) на базе DATAREON Platform для компании, занимающейся поставками дорожно-строительной техники и запчастей.
Читать далееПредставьте, как себя чувствуют отечественные производители ПО, когда приходят к корпоративным клиентам, а им говорят: «Ну вот у SAP всё давно работает, у Oracle – поддержка по всему миру, а у вас опять продукт упал после очередного обновления».
Мы живём в эпоху, когда относительно молодой отечественный софт оценивают по мировым стандартам с полувековой историей, как будто он должен был родиться со стабильной интеграцией. И это, пожалуй, главная ловушка нашего технологического развития.
Читать далееМы побывали на презентации «Алиса, что нового?», на которой Яндекс представил новые нейросетевые функции. Показали универсальную нейросеть Алиса AI, которая доступна не только в чате, но и в браузере, и скоро появится в носимых устройствах. В этой статье рассказываем обо всех анонсах.
Читать далееПомню, как на собеседовании в одну крупную компанию мне задали вопрос: "Чем отличается observability от monitoring?" Я уверенно ответил что-то про "три столпа" и "unknown unknowns". Интервьюер кивнул, но потом спросил: "А зачем платить $100k в год за Datadog, если можно поставить бесплатный Prometheus?"
Тогда я не смог внятно ответить. Сейчас, спустя три года и несколько миграций между системами мониторинга, я знаю ответ. И он стоил нашей компании около полумиллиона долларов в экспериментах. Давайте разберемся, за что же мы платим такие деньги.
Читать далееПоводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач мультимодерации контента: как быстро и надёжно находить «взрослые» сцены в длинных видео и автоматически подсвечивать фрагменты для ручной проверки. Похожие кейсы регулярно встречаются и в открытых соревнованиях по ИИ (например, в подборке задач Wink AI Challenge на Codenrock).
Читать далееМы часто говорим и слышим термины «сервер», «кластер» или «облако», но почти не вспоминаем слово «мейнфрейм». Почему современные вычислительные системы не называют тем же именем, что и их могучих предков? Попробую разобраться в истории ИТ и рассказать, как мейнфреймы уступили парадигме серверов.
ЧитатьЭтот чек-лист не рыба, а удочка!
Если у вас маркетолог опять слил весь бюджет. Нет заявок с рекламы и, вообще, вы считаете маркетинг сплошным обманом и заговором — статья для вас :-)
За годы работы я выявил алгоритм продвижения чего угодно в интернете. А также топ основных ошибок в этом.
Читать далееВ любой продуктовой разработке есть момент, когда «просто функционала» уже недостаточно. Да, сервис может решать задачу пользователя, но это не гарантирует, что он будет возвращаться снова и снова. То же самое касается и сотрудников внутри компании: интерфейс может работать, процессы могут быть выстроены, но без вовлечённости команды могут начать работать хуже, чем от них ожидают.
Именно поэтому многие компании начали смотреть в сторону игровых механик. Геймификация помогает встроить в продукт дополнительный слой мотивации: пользователям становится интересно пользоваться сервисом, а сотрудникам — активнее включаться в рабочие процессы.
Привет, Хабр! Мы — Руслан Ильясов, дизайн-лид, и Антон Минеев, продукт-дизайнер. Работаем над внутренними продуктами МТС — системами, которые не видят клиенты, но которые обеспечивают работу экосистемы: помогают коллегам общаться, оформлять заявки, реагировать на инциденты и работать каждый день.
Читать далееСтатья для тех, кто хочет прокачать личный бренд и заработать репутацию эксперта в глазах клиентов, или собрать портфолио статей для визы талантов. Чтобы выложить материал на ресурсах из списка ниже, вам не нужны связи, пиарщик и даже бюджет закладывать не придётся. Отличный старт, я щитаю.
Читать далееЗнаете, что я делал вчера с 10 до 12 утра? Деплоил новую версию на production. Вручную. На 15 серверов. По SSH. В 2024 году. И это не самое грустное. Самое грустное — что я делаю это каждую неделю. И каждый раз обещаю себе, что вот на следующей неделе точно автоматизирую. Но следующая неделя наступает, и я снова сижу и копипащу команды в терминал.
Если вы узнали себя — добро пожаловать в клуб анонимных toil-оголиков. Давайте поговорим о том, почему мы все еще делаем руками то, что должны были автоматизировать еще вчера.
Читать далееИИ давно обещает ускорить работу разработчиков — но что, если в реальных условиях он делает обратное? Команда исследователей провела рандомизированное контролируемое испытание с опытными контрибьюторами крупных open source проектов, чтобы понять, как современные инструменты вроде Cursor и Claude влияют на скорость и качество разработки. Результат оказался неожиданным: при работе с ИИ программисты тратили больше времени, хотя были уверены, что работают быстрее. Разбираемся, почему эффект ускорения может быть иллюзией, и какие факторы превращают помощника в тормоз.
Смотреть результаты