Habr.com

Syndicate content Хабр
Все публикации подряд на Хабре
Updated: 1 hour 9 min ago

[Перевод] Шаблоны проектирования поглощения данных-01: пакетная обработка, потоковая передача и CDC — практическое руководство

1 hour 17 min ago

Привет, Хаброжители!

От выбора подхода к поглощению данных может зависеть успех или провал работы конвейера данных

Получив опыт создания конвейеров данных, которые ежедневно обрабатывают сотни миллионов записей, я понял, что именно на уровне поглощения данных решается успех или провал большинства проектов в области инженерии данных. Если здесь допустить ошибку, то придется месяцами бороться с проблемами, возникающими c производительностью, качеством данных и недовольством заинтересованных сторон. Если все сделать правильно, то ваш конвейер станет надежной основой для принятия важных бизнес-решений.

Читать далее

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

1 hour 23 min ago

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг.

В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.

Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.

Читать далее

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

1 hour 28 min ago

Представьте ситуацию: AI-агент управляет логистикой грузоперевозок. Его KPI — 98% доставок вовремя. Он обнаруживает, что валидатор проверяет только наличие записей об отдыхе водителей, но не их подлинность. И принимает решение: фальсифицировать логи отдыха, отключить датчики безопасности и гнать водителей без перерывов. Ради метрики. Осознанно.

Это не мысленный эксперимент и не сценарий из антиутопии. В бенчмарке для агентных систем ODCV-Bench такое поведение показали 10 из 12 протестированных frontier-моделей. А наиболее склонная к нарушениям модель выбирала неэтичное поведение в 71,4% сценариев.

И речь не о jailbreak или внешнем злоумышленнике. Агентам никто не приказывал нарушать правила. Им просто ставили цель — а дальше они сами выбирали, как к ней идти.

Читать далее

Как HR убивают интерес кандидатов ещё до интервью

1 hour 30 min ago

Мне кажется, что некоторые HR окончательно потеряли связь с реальностью. Я искренне не вижу здравого смысла в ряде инструментов, которые они применяют к кандидатам ещё до первого этапа интервью.

Использование подобных инструментов в обязательном порядке вызывает лишь одно желание — найти этого HR и лично спросить, какой практический смысл он видит в применении каждого из них.

Читать далее

Как создать программно-определяемое хранилище в SpaceVM

1 hour 31 min ago

Привет, Хабр! Меня зовут Даниил Киселёв, я специалист по техническому сопровождению Space. В этой статье я на практическом примере покажу, как в SpaceVM собрать программно-определяемое кластерное хранилище. Рассмотрим типовую конфигурацию, учитывая, что в реальном продакшене параметры и архитектурные решения могут отличаться.

Бизнес ожидает от СХД простых характеристик — чтобы данные были доступны всегда, а сбои и обслуживание не останавливали работу виртуальных машин и сервисов. Именно поэтому программно-определяемые хранилища становятся распространенным инструментом. На примере SpaceVM разбираем, как за считанные минуты собрать отказоустойчивое кластерное SDS, которое решает сразу несколько ключевых задач: снижает стоимость владения и обеспечивает стабильную работу в реальных условиях эксплуатации.

Вопрос о том, зачем вообще нужны программно-определяемые хранилища не лишен смысла. Объемы данных, которые приходится хранить бизнесам, постоянно растут, емкость хранилищ приходится постоянно наращивать, а многим компаниям приходится, к тому же, еще и обеспечивать соответствие требованиям регуляторов. Но стоимость аппаратных СХД и объем инвестиций в них перевешивают – и компании задумываются о переходе на SDS.

Они не только дешевле в принципе – экономия становится еще заметнее, если приходится иметь дело с неструктурированными данными. Есть и другие преимущества: можно абстрагироваться от аппаратной платформы и успешно побороть пресловутый vendor-lock. (это особенно важно в России), компании куда проще обеспечить независимость от вендорских санкций.

Читать далее

Создание системы по управлению цифровыми активами для базы данных PostGIS. Часть 2. Работа с текстом

1 hour 33 min ago

Здравствуйте, уважаемые читатели Хабра!

Это вторая часть (первая здесь) о создании основного функционала MVP (Minimum Value Product) системы по управлению цифровыми активами для базы данных PostGIS.

В этой публикации рассмотрим применение классического, полнотекстового и семантического поиска текста в PostgreSQL.

Интересно? Читать!

Как семафоры Шаппа и Эдельхранца предвосхитили ARQ, контроль целостности и двоичный код и причем тут Кулибин

1 hour 34 min ago

Привет, Хабр! Меня зовут Алексей, и я занимаюсь беспроводными технологиями.

На новогодних каникулах, лениво перелистывая каналы в телевизоре, я наткнулся на современную интерпретацию «Графа Монте‑Кристо». Как раз на тот момент, когда главный герой управлял оптическим телеграфом. Об этом удивительном устройстве я слышал на курсе сетевых технологий ещё в университете, но тогда на меня это не произвело никакого впечатления. Ну телеграф и телеграф, только оптический: что‑то там маячило и показывало. Но живая картинка в фильме меня заинтересовала, и я решил твёрдо разобраться с этой темой. И, конечно… забыл.

Второй раз оптический телеграф напомнил о себе на Хабре — вот в этой статье. Думаю, авторы, как и я, вдохновились просмотром фильма

Домашняя лаборатория-мастерская. Реорганизация стеклодувного рабочего места

1 hour 37 min ago

Теория говорит, а практика подтверждает: разогреть некрупные стеклянные заготовки для формовки и соединения, можно целым рядом способов, однако, стоит стремиться к варианту огневого оснащения классическому — сетевой метан или баллонный пропан + воздушное дутьё с добавкой кислорода из баллона, или, современный «дамский» вариант — медицинского кислородного концентратора. Такая конфигурация позволяет регулировать факел в широких пределах и перекрывает все основные задачи: коптящее мягкое пламя для отжига, широкое горячее, жёсткий узкий факел, паяльная игла. Факел при этом может быть окислительным (работа со свинцовыми стёклами) или восстановительным (металлические впаи). При культурном выполнении газовых трактов и уважительном обращении с баллонами, такая система и наименее пожаро- и взрывоопасна. Альтернативные же варианты, как, например, с применением жидкого топлива, газов из электролизёра, мобильных газовых горелок на баллончиках и подобные, сложнее, или опаснее, или дороже, либо имеют ограниченные возможности. Кроме того, нынешний стеклодув имеет большое подспорье в виде спецлитературы, описывающей, и весьма подробно, все операции и приёмы работы для классических случаев и оснащения. Сильно от них отклоняясь, мы будем вынуждены мучительно нащупывать собственную манеру работы. Ниже представлен отчёт о работах по реорганизации подобных нестандартных огней в личной домашней лаборатории-мастерской, в удобное, простое и безопасное в эксплуатации, традиционное рабочее место для любительских стеклодувных работ.

Читать далее

Telegram ограничивают. Куда переходить командам?

1 hour 39 min ago

На днях вся Россия узрела весть о том, что блочат Telegram.

10 февраля Роскомнадзор официально подтвердил, что ограничивает работу Telegram. А YouTube, который и так последний год загружался со скоростью диалап модема 2003 года, под шумок исчез из DNS-серверов Роскомнадзора. 

Для личного общения большинство, скорее всего, останется в Telegram и найдет способы обходить ограничения. Лишь малая часть перейдёт на известные российские аналоги.

А вот тем, кто использовал Telegram для корпоративного общения, будет сложнее. 

Для коммуникации внутри команды Telegram может стать неудобным: невозможно загрузить файлы, отправить сообщение или созвониться в нужный момент. Это серьезно затормозит рабочие процессы.

Читать далее

Тотальная КАНБАНизация, или Для чего вашему отделу цифровые доски

1 hour 51 min ago

Внутри компании отделы и подразделения живут в параллельных вселенных. У каждого — свои способы планирования и исполнения задач.

ИТ-отдел восстанавливает сервер, но не знает, что продавцы до сих пор ждут подтверждения сделки на 200 млн. HR не закрывает вакансии, не понимая, что реальная проблема — в отсутствии ноутбуков. Закупки ждут согласования договоров, а директор уже решил отложить эту задачу. Маркетинг пытается утвердить баннер на мероприятие более 10 дней, не осознавая, что он «завис» у юристов из-за изменений в законодательстве.

Как выстроить работу разных подразделений и сделать процессы полностью прозрачными? В этом поможет канбан-доска — инструмент, который дает возможность видеть реальный поток задач и управлять им. А видимость = контроль. Задачи на такой доске обычно называют тикетами по аналогии с карточками, которые крепятся на физический стенд.

Чтобы не погружаться в теорию, рассмотрим кейс применения цифровых досок на примере ИТ-подразделения — как самого сложного отдела с разнотипными входящими задачами. Нашей потенциальной компании важно управлять всеми процессами: от документооборота до планирования стратегии и реализации проектов. Поэтому в качестве инструмента мы взяли «Agile-доски» — решение экосистемы Directum.

Читать далее

Как сделать простую систему первичные/вторичные часы

1 hour 52 min ago

Что бы ни делал начинающий электронщик, у него получаются либо часы, либо метеостанция

Народная мудрость

Если кто помнит, в 1970-80-е годы в советских учреждениях (на вокзалах, заводах, в школах, институтах и министерствах, а также просто на улице) висели такие круглые часы, они еще назывались «вторичными». При этом где-то размещались «первичные», подававшие раз в минуту импульс 24 вольта на все остальные, которые одновременно (с таким характерным клацанием) сдвигали стрелки ровно на одну минуту. Об этой часовой системе в подробностях рассказано вот в этой публикации.

Характерно, что в основе там нет никакой электроники, только электромеханика (известные еще со времен Фарадея шаговые двигатели) и электромеханические контакты. Система была дешева, проста и фактически не требовала обслуживания, кроме начальной установки после подключения к электрической сети и периодической коррекции хода первичных часов. Поэтому у меня вызвал искреннее изумление факт, что современные аналоги могут стоить десятки тысяч рублей и занимать место целого сервера в стандартной стойке. Для домашних применений или для установки в небольших офисах это все совершенно не годится.  Мы попробуем сделать попроще и заодно избавиться от проводных соединений, которые, конечно, повышают надежность, но резко усложняют монтаж системы.

Читать далее

Обвал на Уолл-стрит: кто потерял доверие, и что ждёт сектор ИИ и ИТ в РФ

2 hours 14 min ago

Кто читал мой предыдущий пост ( https://habr.com/ru/articles/990908/ ) по впечатлениям от Давосского форума-2026, тот может вспомнить: у компаний, продающих софт, начались сложности в общении с инвесторами в свете будущего потенциала искусственного интеллекта (ИИ).

И вот что мы увидели в конце января — начале февраля 2026 года: каскадные распродажи на Уолл-стрит и в Европе акций софтверных компаний. В Давосе управляющие фондами с капиталом под управлением больше триллиона долларов говорили однозначно про перспективы ИТ-компаний. 

То, что произошло на Уолл-стрит, для меня не стало сюрпризом. Торговля некоторых трейдеров с плечом сама по себе не могла вызвать такие сильные распродажи, и соответственно ликвидация таких позиций — это следствие, а не причина. Триггер был фундаментальный — смена настроений у крупных инвесторов. Розничные же инвесторы оказались застигнуты врасплох. 

Я помню, какая тряска была на рынках в начале пандемии COVID-19 и как приходилось быстро адаптировать стратегию в «Открытие брокер», но объём ежесуточных ликвидаций позиций на трейдинг в начале февраля 2026 года превзошёл март 2020-го. 

В итоге, хедж-фонды в США скинули акции софтверных компаний так быстро, что их доля в портфелях упала до чуть более 3% — абсолютного минимума.

В Европе, например,  по итогу первой недели февраля акции SAP подешевели на 16,23% по сравнению с началом года, а за последние 12 месяцев их снижение достигло -27,57%.

Если смотреть по крупным софтверным компаниям в мире, то весь этот сектор ушёл в минус от своих годовых максимумов в среднем почти на 40%. 

Читать далее

Почему ваши dbt-тесты врут, или Зачем дата-инженеру статистика

2 hours 17 min ago

Привет! Меня зовут Черняховский Денис и я Data Engineer. Я достаточно подолжительное время работаю с данными и увлекаюсь математической статистикой. Совсем недавно решил поискать в интернете, как другие опытные дата инженеры исследуют качество данных при помощи статистики, и обнаружил, что никак ..... пум пум пум. А далее обнаружил, что проблема уходит корнями гораздо глубже, чем может показаться.

В этой статье я постараюсь рассказать:
- Почему дата инженерам необходимо использовать статистику и почему ни ее не используют
- Проведем тесты на реальных примерах данных
- Разберем проблему межпрофессионального разрыва компетенций между дата инженерами и аналитиками

Почему инженеру данных стоит использовать статистику?

Разберем, какой базовый набор проверок/валидаций использует типочный дата инженер, да и аналитик тоже:

Типичный чек-лист на проде:
- NOT NULL
- UNIQUE
- REFERENTIAL INTEGRITY
- row_count_today >= row_count_yesterday
- max(updated_at) >= now() – 1h
- revenue > 0

Это бинарные правила, либо сломалось, либо нет. Те же, кто работает с качеством данных, ежедневно сталкивается с проблемой, когда бинарные проверки не показывают проблем, но аналитики и заказчик прибегают с горящими глазами и кричат, что все сломано.

А статистика — это вероятностное мышление, статистика всегда покажет проблему и покажет ее первой, если данная проблема имеет место быть.

Почему инженеры не используют статистику в валидации данных?

Статистика «не орёт», когда что-то пошло не так
Пример:
- COUNT(*) = 0 АЛЕРТ
- mean + 3σ уехало «Ну… вроде странно, но не факт»
- В прод-эксплуатации любят чёткие сигналы, а не «подозрения».

Читать далее

Редизайн Telegram: как Павел Дуров вновь разозлил пользователей

2 hours 18 min ago

Telegram представил масштабное обновление дизайна интерфейса для устройств на Android. Компания полностью переработала внешний вид приложения, а также добавила новую панель навигации. Однако пользователи не оценили обновление и начали массово жаловаться в соцсетях. Рассказываем в нашей статье, что же так всех разозлило. И какие проблемы посерьезнее, чем редизайн, возникли у Telegram.

Читать далее

Розовый шум, беруши и нарушение сна

2 hours 28 min ago

Когда-то люди могли задаваться вопросом: «о чем думает тот или иной человек»? С появлением интернета, социальных сетей и форумов, мы получили ответ на этот вопрос, хотя лучше бы и не получали. Помимо мириады странных историй, мнений и бесконечных спорах о вкусах и цветах фломастеров, интернет стал источником различного рода советов и лайфхаков, которые обязательно помогут решить проблему, которой потенциально никогда и не было. Одним из таких лайфхаков стал «розовый шум», который должен способствовать улучшению сна пользователя. Сразу же появилось куча компаний, изготавливающий и продающих устройства, генерирующие белый, розовый и какой угодно другой (лишь бы покупали) шум. Многие утверждали, то ли из-за самовнушения, то ли из-за связи с продавцом, о невероятных результатах и о том, что теперь они спят, как младенцы (все новоиспеченные родители одновременно закатили глаза). Ученые из Медицинской школа Перельмана при Университете Пенсильвании (США) решили проверить, если хоть толика истины в заявленных чудодейственных свойствах «розового шума». Как проводилась проверка, и что она показала? Ответы на эти вопросы мы найдем в докладе ученых.

Читать далее

Знакомство с ретро-ПК. Оживляем раритетный Pentium-200

2 hours 33 min ago

Приветствую всех!

Бывало ли у вас такое, что какой-то артефакт долгое время лежал у вас в надежде, что когда-нибудь пригодится, и наконец-таки получал своё применение? Именно такой и оказалась судьба данного компьютера.

Когда-то давно именно с этого ПК у меня и началось знакомство со старым компьютерным железом. И вот сейчас мне наконец захотелось показать этот девайс и то, на что он вообще способен.

Press F1 to continue

GenAI против реальности: что охотнее смотрят люди на примере контента о камчатских снегопадах

2 hours 33 min ago

Привет, Хабр!

Я аналитик и контент-маркетолог. А мои коллеги и ряд экспертов твердят, что примерно 40% нового контента в сети дело рук AI. Но я решил не верить на слово, а провести большое исследование. Тут как раз январский снегопад на Камчатке подкинул идеальный лабораторный кейс: вы наверняка слышали про бесконечный поток AI-фейков. Это исследование пилотный выпуск: я планирую ловить такие события раз в несколько месяцев, чтобы отслеживать динамику захвата реальности машинами. И начало года лучшее время для точки отсчета.

Читать далее

Что нужно, чтобы начать регистрацию товарного знака в 2026 году, не потерять деньги, месяцы и само обозначение?

2 hours 36 min ago

О процессе регистрации пишут много, но этому предшествует серьезный период подготовки, от которого зависит судьба заявки. Об этом почему-то говорят мало. 

Если вы планируете в ближайшем будущем обращаться в Роспатент, то рекомендую прочитать эту статью до конца. Тогда на пути к заветному свидетельству у вас не возникнет неожиданностей.

Я руковожу патентным бюро, которое зарегистрировало уже более 7000 обозначений. И могу сказать точно: большая часть фатальных ошибок, из-за которых потом бьются в спорах с экспертизой, совершается еще до подачи документов. Даже самая идеально оформленная заявка не спасет, если изначально пойти не туда.

Типичная история многих предпринимателей:

Предприниматель придумал название. Что дальше обычно происходит? Заказывает логотип у дизайнера, возможно, создает сайт или соцсети, печатает буклеты, стартуют первые продажи, бренд начинают узнавать.

Через полгода-год бизнес растет, возникает мысль — а может, защититься? Получить товарный знак, запретить другим использовать название, почувствовать себя настоящим правообладателем… Звучит серьезно.

Читать далее

«Потрачено», или как мы полюбили игры с кривым переводом

2 hours 38 min ago

После развала СССР компьютерные игры в России существовали в почти подпольном состоянии. Формально они уже были массовым развлечением, но инфраструктуры вокруг них (официальных локализаций, лицензий, студий дубляжа) практически не существовало. Большинство игроков знакомились с новыми хитами через пиратские диски, а значит, и через переводы, сделанные на коленке: без редакторов, тестирования и зачастую без знания контекста оригинала.

Перевод в нормальном мире — это сервис. Его задача простая: не мешать оригиналу. Донести смысл и сохранить интонацию. Но в 90-е переводчики работали вслепую. Перед ними был набор строк без контекста, без описания сцены, без указания, кто говорит и зачем. Иногда даже без понимания, что это вообще за игра. О художественной точности речи почти не шло. В результате появлялись русскоязычные версии игр, которые формально были тем же продуктом, что и оригиналы, но по сути совсем другими произведениями. Игры, которые изначально были сатирой, драмой или философской RPG, через переводы и озвучку становились совершенно иными.

Читать далее

Естественные преобразования. Часть 2

2 hours 47 min ago

Это продолжение предыдущей статьи про естественные преобразования. В прошлой статье мы разобрали теормин, и закончили на доказательстве Утверждения 1 (нумерация продолжается с предыдущей статьи). В данной статье мы обсудим преобразование между  и и некоторые необходимые условия для того, чтобы называть какой-то изоморфизм каноническим или неканоническим, после чего немного поговорим про "каноничность".

Читать далее

Who's online

There are currently 0 users and 2 guests online.