Всем привет.
Речь пойдет о методике ETL-процесса. Очень мало информации об этой важной области работы с данными. Я много раз видел на проектах, что в командах нет общего не то что фреймворка, а даже методики по загрузке данных. Либо есть, но у каждого разработчика своя. И те, что есть, не универсальны и не учитывают некоторые реперные точки. Иногда даже журнал загрузок не ведется. Созрела идея создать, перенести свою методику в питон код и поделиться. Начнем.
Когда мы создаем ETL- процессы основные требования: идемпотентность, обработка ошибок, целостность данных, инкрементальность, производительность, мониторинг, происхождение данных, и тд. Может еще что, но и этого достаточно.
Основные понятийные объекты в тексте: tech_query_id, tech_batch_id. tech_query_id – является штампом момента запуска pipeline, вручную или автоматически, не важно. Если запустили загрузку для терабайт данных, то и штамп будет всего один для этой конкретной загрузки. Штамп tech_query_id проставляется в каждой строке в самих таблицах с данными цели и в журнале. А так же проставляется tech_batch_id, который является обычным номером пакета. Понятно зачем пакеты.., если данных миллионы, мы их бьем по пакетам. Номер пакета для каждого query_id начинается с единицы. Эта комбинация является ключом в таблицах с данными для трассировки происхождения и ключом в таблице журнала загрузок для фиксации метаданных, дельтапоинта и любой полезной информации в json поле.
Читать далееВсем привет! Делюсь итогом двухмесячной работы - релизом рейтинга юридического рассуждения больших языковых моделей Lexometrica Ground Truth.
Изначально цель была сугубо практической: требовалось выбрать лучшие модели для LegalTech-проекта "неШемяка!". Но в процессе пришлось столкнуться с фундаментальной проблемой индустрии оценки ИИ - открытые тесты дают сильно искаженную картину. Финальные результаты спроектированного стресс-теста оказались сколь ожидаемыми, столь же и неожиданными.
В этой статье описал, как архитектурно выстроен бенчмарк, как велась борьба с test-set leakage, почему написан кастомный пайплайн и какие глобальные и локальные нейросети на самом деле умеют legal reasoning.
Читать далееНейрофизиология долгое время развивалась в рамках представления о мозге как о системе передачи сигналов. Нейрон в такой модели рассматривался как элемент электрической цепи, а нервная система — как сложная сеть проводников, по которым распространяются импульсы. Подобная картина хорошо соответствовала открытиям XIX–XX веков, когда были описаны потенциалы действия, синаптическая передача и основные принципы нейронной связи. Однако по мере накопления экспериментальных данных стало очевидно, что эта модель не объясняет многих особенностей реальной мозговой активности. Исследования последних десятилетий показывают, что нервная система обладает собственной динамикой, способной генерировать сложные формы активности даже при отсутствии внешних стимулов. Это постепенно приводит к пересмотру классических представлений о работе мозга и формированию более сложной системной картины нейронных процессов.
Читать далееПривет, Хабр! Меня зовут Владимир и в последнее время я занимаюсь разработкой агентов на LangGraph. Отладка LangGraph-агента - это отдельная боль: когда граф начинает жить своей жизнью, а LLM уходит в бесконечные циклы, понять, что случилось, становится сложно. В этой статье я покажу, как связать LangGraph с LangFuse для трассировки и покажу как управлять промптами как кодом (версионирование и миграция).
Читать далееЭта статья — не про методологии вроде TOGAF или Zachman Framework в их классическом корпоративном понимании. Это про системное мышление применительно к построению и масштабированию компаний. Целевая аудитория: технические основатели, CTO, и тимлиды, которые выросли из «решаем проблему кодом» в «строим организацию». Я постарался подсветить выход из тоннеля.
Читать далееTL;DR: Ваша IDE знает о проекте всё — иерархии типов, ссылки между модулями, исходники библиотек, ошибки компиляции. AI-агент ничего из этого не видит и вынужден грепать код и логи. За один выходной можно написать плагин и CLI, которые выставят семантику IDE наружу — и агент получит те же суперсилы, что и вы. В статье — как это сделано на примере Eclipse и JDT, но подход переносим на любую IDE. Открытый код: github.com/kaluchi/jdtbridge.
Если ваши руки давно привыкли к Ctrl+Shift+G, Ctrl+T, Ctrl+Shift+T и сопротивляются переходу в другой редактор — вы, вероятно, в Eclipse. И вы точно знаете, что ваша IDE понимает код на уровне, который не снился ни одному AI-редактору. Но AI-агент об этом не в курсе, и как следствие, вынужден жечь десятки тысяч токенов на свои grep-ы.
Читать далееДевятого марта исполнилось бы 92 года со дня рождения человека, который сказал: «Поехали!» - и навсегда изменил историю. В преддверии дня рождения Юрия Алексеевича Гагарина студенты, преподаватели и сотрудники Российского нового университета отправились в Музей космонавтики, чтобы узнать, что привлекает современных молодых людей в эпохе первых полетов.
Читать далееЧтобы почувствовать себя полноправным гражданином мира и платить за иностранные сервисы, такие как OpenAI, Netflix и Steam, нужна нормальная банковская карта. В первые годы санкций с этим были проблемы, но сейчас зарубежная виртуалка оформляется в онлайне за пару секунд без проверки личности. В интернете появилось несколько финтех-агентов, которые помогают оформить карту легальным способом. Одни сами создают карты, а другие от лица банка выпускают физическую карту и вы реально становитесь клиентом этого банка.
Если и официальные международные карты, которые выдают обычные банки Беларуси и Кыргызстана, прямо в онлайне, специально для россиян.
Пополнение «виртуалки» возможно в любой фиатной валюте, с карт РФ по СБП, в крипте. Сама карта принимается во всех странах мира.
Читать далееОбратная сторона лаконичности знаков в языках программирования. Правила отсеивания неподходящих вариантов при выработке системы знаков для языка программирования.
Читать далееЯ студент, который только начинает заходить в devops‑тематику. Сам я не админ и не держу в проде десяток серверов, поэтому решил не выдумывать «боли» из головы, а посмотреть, на что реально жалуются люди в интернете.
Одна жалоба повторялась достаточно часто: «Когда что‑то падает, приходится обходить несколько серверов, смотреть логи по отдельности и пытаться сложить картину вручную. ELK/syslog решают, но ради пары сервисов это перебор.»
После этого я решил собрать небольшой прототип LogRanger — CLI‑утилиты, которая по SSH забирает логи с нескольких серверов и открывает их в lnav одной командой. Ниже коротко расскажу, какую проблему хочу закрыть и что именно делаю.
Читать далееНебольшой рассказ - туториал о том, как на MikroTik реализовать удобное управление большим количеством VPN профайлов.
Читать далееХочу рассказать о том, как я создавал tg бота на локальной LLM Ollama и с какими проблемами я столкнулся. Бот написан на python и библиотеке telegram.
Почему выбрал именно Ollama? Потому что она бесплатна, есть множество открытых моделей и её очень просто развернуть в своем проекте. Если брать облачные решения от других компаний например ChatGPT, то тут можно упереться в то, что за них нужно платить.
Модели я подбирал под свой компик: 5070 и 32 гб оперативы. Сервера своего нету, поэтому бот работает только когда я дома.
Бот продолжает развиваться. Следить за обновлениями и новыми фичами можно в моем Telegram-канале: https://t.me/rocet_0
Изучить историюНовая нейросеть от Google для генерации изображений выглядит чертовски впечатляюще.
Темпы, с которыми Google выпускает нейросети для создания изображений, поражают воображение. Не успели мы в ноябре 2025 года привыкнуть к Nano Banana Pro, как уже в феврале 2026-го компания представила Nano Banana 2. Задумка подкупает: качество уровня “Pro” на скорости “Flash”.
Но оправдывает ли новинка ожидания? Мы протестировали Nano Banana 2 вдоль и поперек, чтобы проверить её главные козыри: улучшенную отрисовку текста, сохранение заданных персонажей и интеграцию с актуальными знаниями из сети. Делимся результатами.
Читать далееЕсли вы попробуете загуглить, кто такой продакт-менеджер, вы получите красивую, но неоднозначную картинку. Стратег, лидер, аналитик, мини-сео. А еще, если открыть 10 вакансий от 10 разных компаний, то вы увидите 10 разных ролей.
Так кто же это такой? Давайте разберемся в этом вопросе подробнее.
Читать далееВсем привет.
Сегодня будем обсуждать механику счётчика стиля из Devil May Cry, но в диалоговой системе!
Играя в DMC, я заметил, что момент, когда вы открываете счётчик комбо - а мне нравится это делать подкидыванием демонов в воздух - похож на то же ощущение, которое я испытываю при открытии сноски в диалоге. Это даёт ощущение перехода на более сегментированный аспект системы - сперва приёмы в воздухе, потом на земле и снова в воздухе. Или как у меня - диалог, сноска, диалог, сноска, сноска, диалог. Так что я решил попробовать добавить эту систему в свою демку.
Читать далееВ этой статье разберём, как Unreal Engine строит Hierarchical Z Buffer (HZB).
Покажем, как вычисляются размеры mip-уровней, зачем нужно специальное округление float, как используются функции Gather, батчинг нескольких mip-уровней за один Dispatch, groupshared память, wave-операции и Morton Z Curve.
Пошаговый разбор шейдера с примерами поможет понять, какие оптимизации реально применяет движок, и как эти идеи можно использовать в собственных графических проектах.
Читать далееModbus — это открытый и очень распространённый протокол обмена данными в промышленной автоматизации. Он работает по модели master–slave: мастер (например, PC-приложение) запрашивает данные у ведомого устройства (ПЛК), получая или записывая значения регистров.
На практике Modbus кажется простым — всего лишь массив 16-битных регистров. Но как только возникает задача читать типизированные переменные, поддерживать несколько проектов в одном ПЛК, минимизировать количество запросов и безопасно работать с соединением, всё быстро усложняется.
В этой статье я описываю реальный подход, который использовал для чтения и записи переменных из ПЛК и отображения их в приложении на C#.
Читать далееСегодня, когда в очередной раз я вижу 0 сообщений в телеграм канале, который должен предупреждать о приближающихся автобусах, будет достаточно символично написать эту статью. Дело началось в тот момент, когда...
Делаем свой яндекс транспорт?В кибербезопасности существует подход под названием Red Teaming — когда одна команда имитирует атакующего, а другая защищает систему. С появлением больших языковых моделей тот же принцип стал применяться к ИИ. Только теперь атакуют не серверы и базы данных, а сами LLM-агенты — системы, которые умеют рассуждать, выполнять команды и взаимодействовать с внешними инструментами. Red Team здесь ищет способы выявить уязвимости и подсветить риски модели, а Blue Team — защитить её. Именно на стыке этих подходов возникла новая область — Red Teaming LLM-агентов, где тестирование превращается в исследование границ самого искусственного интеллекта.
В Doubletapp мы с 2018 года занимаемся интеграцией AI- и ML-решений, когда ещё основное внимание было приковано к компьютерному зрению. Сегодня центр притяжения — языковые модели, и мы одни из первых в России начали системно работать с LLM. Среди наших клиентов — крупные российские бигтех-компании и международные партнёры.
В статье разберем, зачем вообще проверять языковые модели на прочность, какие угрозы возникают при их внедрении, какие типы уязвимостей встречаются чаще всего и как их искать.
Содержание:
- Что такое LLM и как они используются
- Риски при использовании LLM
- Red Teaming LLM: реальные кейсы
- Основные типы уязвимостей LLM
- Как тестируют LLM: ручное и автоматическое тестирование, шаблоны и KPI
- Фаззинг, мутации и роль человека
- Кейсы: как мы ломали и чинили LLM в продакшене
- Зачем компании нужны сторонние Red Team-партнёры
- Внутренние инструменты: как мы сами используем LLM
- Что дальше: спад или новая волна?
6 декабря 2025 года издание News.ru опубликовало интервью «Есть еще переработка борщевика: «зеленой чуме» нашли применение», где журналисты поговорили с основателем Фонда по борьбе с борщевиком Виталием Дружининым. В нем была затронута тема переработки печально известного борщевика Сосновского, который, по словам эксперта, захватывает по 10-15% территорий в год.
Помимо применения гербицидов, глава Фонда предлагает перерабатывать борщевик. Дело в том, что в данном растении, по словам Дружинина, содержатся волокна, которые длиннее хлопка в пять раз. Утверждается, что качество позволяет производить из него и одежду, и бумагу.
Читать далее