Habr.com

Syndicate content Хабр
Все публикации подряд на Хабре
Updated: 1 hour 58 min ago

Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика

7 hours 6 min ago

Привет! Меня зовут Черняховский Денис и я Data Engineer. Я достаточно подолжительное время работаю с данными и увлекаюсь математической статистикой. Совсем недавно решил поискать в интернете, как другие опытные дата инженеры исследуют качество данных при помощи статистики, и обнаружил, что никак ..... пум пум пум. А далее обнаружил, что проблема уходит корнями гораздо глубже, чем может показаться.

В этой статье я постараюсь рассказать:
- Почему дата инженерам необходимо использовать статистику и почему ни ее не используют
- Проведем тесты на реальных примерах данных
- Разберем проблему межпрофессионального разрыва компетенций между дата инженерами и аналитиками

Почему инженеру данных стоит использовать статистику?

Разберем, какой базовый набор проверок/валидаций использует типочный дата инженер, да и аналитик тоже:

Типичный чек-лист на проде:
- NOT NULL
- UNIQUE
- REFERENTIAL INTEGRITY
- row_count_today >= row_count_yesterday
- max(updated_at) >= now() – 1h
- revenue > 0

Это бинарные правила, либо сломалось, либо нет. Те же, кто работает с качеством данных, ежедневно сталкивается с проблемой, когда бинарные проверки не показывают проблем, но аналитики и заказчик прибегают с горящими глазами и кричат, что все сломано.

А статистика — это вероятностное мышление, статистика всегда покажет проблему и покажет ее первой, если данная проблема имеет место быть.

Почему инженеры не используют статистику в валидации данных?

Статистика «не орёт», когда что-то пошло не так
Пример:
- COUNT(*) = 0 АЛЕРТ
- mean + 3σ уехало «Ну… вроде странно, но не факт»
- В прод-эксплуатации любят чёткие сигналы, а не «подозрения».

Читать далее

Редизайн Telegram: как Павел Дуров вновь разозлил пользователей

7 hours 7 min ago

Telegram представил масштабное обновление дизайна интерфейса для устройств на Android. Компания полностью переработала внешний вид приложения, а также добавила новую панель навигации. Однако пользователи не оценили обновление и начали массово жаловаться в соцсетях. Рассказываем в нашей статье, что же так всех разозлило. И какие проблемы посерьезнее, чем редизайн, возникли у Telegram.

Читать далее

Розовый шум, беруши и нарушение сна

7 hours 17 min ago

Когда-то люди могли задаваться вопросом: «о чем думает тот или иной человек»? С появлением интернета, социальных сетей и форумов, мы получили ответ на этот вопрос, хотя лучше бы и не получали. Помимо мириады странных историй, мнений и бесконечных спорах о вкусах и цветах фломастеров, интернет стал источником различного рода советов и лайфхаков, которые обязательно помогут решить проблему, которой потенциально никогда и не было. Одним из таких лайфхаков стал «розовый шум», который должен способствовать улучшению сна пользователя. Сразу же появилось куча компаний, изготавливающий и продающих устройства, генерирующие белый, розовый и какой угодно другой (лишь бы покупали) шум. Многие утверждали, то ли из-за самовнушения, то ли из-за связи с продавцом, о невероятных результатах и о том, что теперь они спят, как младенцы (все новоиспеченные родители одновременно закатили глаза). Ученые из Медицинской школа Перельмана при Университете Пенсильвании (США) решили проверить, если хоть толика истины в заявленных чудодейственных свойствах «розового шума». Как проводилась проверка, и что она показала? Ответы на эти вопросы мы найдем в докладе ученых.

Читать далее

Знакомство с ретро-ПК. Оживляем раритетный Pentium-200

7 hours 22 min ago

Приветствую всех!

Бывало ли у вас такое, что какой-то артефакт долгое время лежал у вас в надежде, что когда-нибудь пригодится, и наконец-таки получал своё применение? Именно такой и оказалась судьба данного компьютера.

Когда-то давно именно с этого ПК у меня и началось знакомство со старым компьютерным железом. И вот сейчас мне наконец захотелось показать этот девайс и то, на что он вообще способен.

Press F1 to continue

GenAI против реальности: что охотнее смотрят люди на примере контента о камчатских снегопадах

7 hours 22 min ago

Привет, Хабр!

Я аналитик и контент-маркетолог. А мои коллеги и ряд экспертов твердят, что примерно 40% нового контента в сети дело рук AI. Но я решил не верить на слово, а провести большое исследование. Тут как раз январский снегопад на Камчатке подкинул идеальный лабораторный кейс: вы наверняка слышали про бесконечный поток AI-фейков. Это исследование пилотный выпуск: я планирую ловить такие события раз в несколько месяцев, чтобы отслеживать динамику захвата реальности машинами. И начало года лучшее время для точки отсчета.

Читать далее

Что нужно, чтобы начать регистрацию товарного знака в 2026 году, не потерять деньги, месяцы и само обозначение?

7 hours 26 min ago

О процессе регистрации пишут много, но этому предшествует серьезный период подготовки, от которого зависит судьба заявки. Об этом почему-то говорят мало. 

Если вы планируете в ближайшем будущем обращаться в Роспатент, то рекомендую прочитать эту статью до конца. Тогда на пути к заветному свидетельству у вас не возникнет неожиданностей.

Я руковожу патентным бюро, которое зарегистрировало уже более 7000 обозначений. И могу сказать точно: большая часть фатальных ошибок, из-за которых потом бьются в спорах с экспертизой, совершается еще до подачи документов. Даже самая идеально оформленная заявка не спасет, если изначально пойти не туда.

Типичная история многих предпринимателей:

Предприниматель придумал название. Что дальше обычно происходит? Заказывает логотип у дизайнера, возможно, создает сайт или соцсети, печатает буклеты, стартуют первые продажи, бренд начинают узнавать.

Через полгода-год бизнес растет, возникает мысль — а может, защититься? Получить товарный знак, запретить другим использовать название, почувствовать себя настоящим правообладателем… Звучит серьезно.

Читать далее

«Потрачено», или как мы полюбили игры с кривым переводом

7 hours 27 min ago

После развала СССР компьютерные игры в России существовали в почти подпольном состоянии. Формально они уже были массовым развлечением, но инфраструктуры вокруг них (официальных локализаций, лицензий, студий дубляжа) практически не существовало. Большинство игроков знакомились с новыми хитами через пиратские диски, а значит, и через переводы, сделанные на коленке: без редакторов, тестирования и зачастую без знания контекста оригинала.

Перевод в нормальном мире — это сервис. Его задача простая: не мешать оригиналу. Донести смысл и сохранить интонацию. Но в 90-е переводчики работали вслепую. Перед ними был набор строк без контекста, без описания сцены, без указания, кто говорит и зачем. Иногда даже без понимания, что это вообще за игра. О художественной точности речи почти не шло. В результате появлялись русскоязычные версии игр, которые формально были тем же продуктом, что и оригиналы, но по сути совсем другими произведениями. Игры, которые изначально были сатирой, драмой или философской RPG, через переводы и озвучку становились совершенно иными.

Читать далее

Естественные преобразования. Часть 2

7 hours 36 min ago

Это продолжение предыдущей статьи про естественные преобразования. В прошлой статье мы разобрали теормин, и закончили на доказательстве Утверждения 1 (нумерация продолжается с предыдущей статьи). В данной статье мы обсудим преобразование между  и и некоторые необходимые условия для того, чтобы называть какой-то изоморфизм каноническим или неканоническим, после чего немного поговорим про "каноничность".

Читать далее

API под прицелом: Три типа «трупов» (Shadow, Orphan, Zombie) и одна новая надежда

7 hours 38 min ago

Использование API помогает выстраивать подобные архитектуры, а некоторые команды даже практикуют API-first разработку (приложение разрабатывается сначала с использованием API, а уже потом покрывается Веб-интерфейсом). И, когда вокруг нас такое развитие, мы как безопасники, задаемся  вопросом: а достаточно ли защищено приложение, использующее API?

API Gateway: Первый претендент на защиту API

При упоминании API одна из первых ассоциаций - API Gateway. Возникновение этого класса решений - логичный ответ на сложность поддержки разрастающегося количества эндпоинтов: системам нужна «единая точка входа», чтобы планировать маршруты, трансформировать протоколы (из JSON в gRPC и обратно) и вешать базовую авторизацию.

Читать далее

Мертвые не кусаются, но светятся: как работает приложение Локатор в iOS в 2026 году

7 hours 42 min ago

Вы узнаете, как на самом деле работает магия приложения Локатор (Find My в англоязычной версии): от аппаратных хитростей контроллера питания до пост-квантовых алгоритмов шифрования. Мы разберем, почему «выключенный» iPhone - это лишь иллюзия для пользователя, как математика защищает ваши координаты от самой Apple и почему ваш смартфон превращается в криптографический маяк, когда гаснет экран. Статья будет интересна разработчикам, специалистам по безопасности и всем, кто хочет понимать реальные возможности (и ограничения) современной электроники.

Продолжим

3D-мозаики и скульптуры из кубиков Рубика

7 hours 59 min ago

С начала 1980-х годов в среде энтузиастов кубика Рубика обсуждались алгоритмы сборки, поиск оптимальных решений и «числа Бога», симметрии и паттерны. Но до конца 1990-х годов на повестке дня практически не обсуждалась тема мозаик из кубиков Рубика. В 1997 году доктор теоретической физики Хана Байзек из Иллинойса опубликовала книгу Mathematics of the Rubik’s Cube Design, где рассматривала кубики Рубика в качестве модулей для трехмерного художественно-математического проектирования. В книге была изложена концепция управления цветами, симметрией и ориентацией кубов при построении 3D-мозаик и скульптур, отличавшихся от обычных плоских мозаик, с которыми в то время уже начали экспериментировать некоторые любители кубика.

В этой статье я расскажу о наследии Байзек и современных экспериментах с 3D-мозаиками и скульптурами из кубиков Рубика.

Крутить далее...

Хочу учиться: где и как получить ИБ-образование и знания

8 hours 6 min ago

На мероприятиях, выставках, встречах со студентами, в социальных сетях и на собеседованиях представителей F6 часто спрашивают, где получить образование, улучшить навыки в сфере информационной безопасности. Михаил Николаев, старший тренер по кибербезопасности отдела обучения компании F6, рассказал, какие есть возможности для обучения в сфере информационной безопасности.

Читать далее

Паттерн Transactional Outbox — обеспечиваем консистентность между микросервисами на примере Java

8 hours 12 min ago

Разбираем на практике, как гарантировать доставку сообщений в Kafka/RabbitMQ без распределенных транзакций, используя паттерн Transactional Outbox.

В этой статье рассмотрим наиболее полную реализацию паттерна Transactional Outbox, которую можно будет легко расширять и применять в продакшне. Данная статья будет полезна как для разработчиков, которые еще не встречались с данным паттерном, так и тем, кто уже применял его в своей работе.

Читать далее

Управляем облаком, не привлекая внимания пользователей: разбор примеров из жизни One-cloud

8 hours 15 min ago

Привет, Хабр! Меня зовут Алексей Волков, я руковожу группой core-разработки внутреннего облака VK — One-cloud. Хочу поделиться примерами из эксплуатации: какие были проблемы в проде на Java при высоких нагрузках, как мы это чинили и какие выводы сделали. Никакой теории на бумаге, только реальные истории из жизни крупной облачной платформы. 

Читать далее

О промышленных скоростных методах пайки печатных плат и не только

8 hours 22 min ago

L.Kenzel

В прошлой статье мы затронули такую интересную тему производства печатных плат, как создание паяльных масок, с применением шелкографии (строго говоря этот метод годится не только для создания паяльных масок, но и для нанесения номиналов на лицевую часть платы, а также мест монтажа компонентов). 

Но быстрое изготовление печатных плат немыслимо также и без применения быстрых технологий пайки, где в связи с этим, попробуем разобраться, а какие технологии подобной пайки существуют…

Читать далее

Практическое применение eBPF: serverless-платформа с поддержкой TCP-приложений

8 hours 25 min ago

Привет! Меня зовут Дима Веселов, уже три года я развиваю облачные технологии в команде Evolution App Services как техлид. Мой путь начинался с классической backend-разработки на Python, но со временем я все глубже погружался в то, как работает инфраструктура, сетевые протоколы, Kubernetes. Сегодня я хочу рассказать, как eBPF буквально в два присеста позволяет делать то, что раньше требовало невероятных усилий.

Кому будет полезен этот материал? В первую очередь разработчикам PaaS-платформ, DevOps-инженерам и архитекторам, которым тесно в рамках классического HTTP-only serverless. Расскажу, как обеспечить масштабирование с нуля для любых TCP-приложений без переписывания их кода.

Читать далее

Как материя становится антиматерией: тайна формулы Эйлера

8 hours 31 min ago

Это похоже на космологию древних.

Из ничего — Единица.
Из Единицы, через тайное знание — её противоположность.
Встреча — и снова Ничто.

Жрецы сказали бы: «Так родился мир».

Философский взгляд на самое красивое уравнение математики.

Читать далее

Почему Code Review тормозит разработку и что с этим делать

8 hours 36 min ago

Если в команде больше 10+ разработчиков, Code Review почти неизбежно превращается в узкое место. PR висят по 2–3 дня, контекст теряется, сеньоры перегружены, а «approve» всё чаще становится формальностью.

В статье разбираем, почему ревью перестаёт масштабироваться вместе с командой, как размер PR влияет на cycle time и дефекты, и какие процессные и автоматизационные решения действительно сокращают время проверки — без потери архитектурного контроля.

Плюс — показываем, где ИИ-ревью работает, а где создаёт ложное чувство безопасности.

Читать статью

Как защитить ключи LUKS с помощью Рутокен ЭЦП 3.0 и алгоритмов ГОСТ Р 34.10-2012. Часть 3

8 hours 44 min ago

Безопасная эксплуатация ноутбуков, или Защита пользовательского ключа с помощью USB-токена на примере Рутокен ЭЦП 3.0

Из второй части мы узнали, как настроить загрузку компьютера таким образом, чтобы для разблокирования системного диска использовались ключи, размещенные на внешнем USB-накопителе. Однако при краже компьютера вместе с этим накопителем злоумышленник сможет получить доступ к данным так, как если бы они не были защищены вовсе, поэтому наиболее привлекательным способом решения поставленной задачи видится использование USB-токенов и смарт-карт, таких как Рутокен ЭЦП 3.0 или JaCarta-2 ГОСТ. Токены представляют собой защищенные микроконтроллеры со встроенной энергонезависимой памятью, поэтому способны выполнять все вычисления самостоятельно без использования ресурсов центрального процессора, не допуская копирование закрытого ключа с устройства, что обеспечивает максимально высокий уровень безопасности.

Читать далее

[Перевод] Самая большая ложь об ИИ

8 hours 45 min ago

В своём знаменитом эссе Machines of Loving Grace Дарио Амодеи, сооснователь и CEO одной из самых влиятельных ИИ-лабораторий в мире, Anthropic, сказал следующее:

«Я не уверен, что ИИ может решить проблемы неравенства и экономического роста».

И, как ни странно, он не только проявляет замечательную прозорливость, но может непреднамеренно усугублять проблему, поскольку компания установила новый рекорд повышения цен со своим новым «Быстрым режимом», который стоит ошеломляющие $150 за миллион выходных токенов — буквально более чем в десять раз дороже большинства альтернатив и совершенно недоступен для большинства людей.

Сегодня мы развенчиваем миф о том, что передовой ИИ ни дёшев, ни становится дешевле, объясняя, почему это на самом деле не «вина» ИИ-лабораторий, истинную и тревожную причину того, почему цены не падают, и последствия, которые это, как я скромно полагаю, имеет для общества.

Читать далее

Who's online

There are currently 1 user and 1 guest online.