Feed aggregator

7 опорных функций, которые должны быть в вашей системе Data Governance

Habr.com - Wed, 04/16/2025 - 11:53

Привет, Хабр! Я Татьяна, в РСХБ-Интех работаю с данными, в прошлый раз я рассказывала про свои любимые фреймворки для повышения эффективности бизнеса. В этот раз статья посвящена Data Governance.

Data Governance управляет не самими данными и их потоками, а метаданными, которые сопровождают их во всех точках ввода, обработки, хранения и перемещения, вплоть до уничтожения.

Наиболее прогрессивные компании сегодня имеют целые экосистемы по управлению жизненным циклом данных. Такие экосистемы могут включать в себя несколько приложений или программных продуктов, которые дирижируются Data Governance процессом, выстроенным внутри организации.

Читать далее

PostgreSQL Antipatterns: создаем JSON из строки

Habr.com - Wed, 04/16/2025 - 11:50

Я уже не раз поднимал в статьях тему [не]эффективной работы с json[b] в PostgreSQL - и как его лучше превращать в выборку, и как можно "транспонировать". Сегодня же рассмотрим некоторые возможности по его генерации на стороне базы.

Читать далее

Мультизадачность на максимуме: как мы одновременно решали 5 задач на хакатоне и заняли второе место

Habr.com - Wed, 04/16/2025 - 11:40

Привет, Хабр! Меня зовут Максим Хандусь, я ML-инженер в лаборатории машинного обучения Альфа-Банка. Недавно наша команда «Мы МИСИС 177!!!» (Назарий Карпов, Кузнецов Данил, Павел Смирнов, Душенёв Даниил — как вы могли догадаться, все мы студенты НИТУ МИСИС) участвовала в хакатоне PurpleHack2025 с достаточно необычным форматом и заняла там второе место.

Чаще всего, когда говорят «На хакатоне было пять кейсов», то это значит, что команда выбирает только один кейс, а потом призёры определяются в каждом из кейсов отдельно. Но в этот раз предполагалось решать сразу пять кейсов, а призёры определялись по сумме баллов за все кейсы. На решение давалось шесть дней, не очень много для сразу пяти задач.

Расскажем, какие задачи были, как мы их распределяли и решали.

Читать далее

Вы работаете не по Agile

Habr.com - Wed, 04/16/2025 - 11:37

Внедрение Agile «на хайпе» и искаженное понимание принципов манифеста ведет к сырым ненужным пользователю продуктам. Вместе с автором канала Junior PM, Артемом Летюшевым, разбираемся в разнице между настоящим значением принципов и мифами, которые компании принимают за правила и внедряют в свои процессы.

Читать далее

Заменил жену на ИИ. Мой опыт

Habr.com - Wed, 04/16/2025 - 11:30

Это случилось однажды вечером, когда жена уложила спать младшего и сама уже почти уснула. А у меня, как дети идут спать, открывается второе дыхание. Я аккуратно, чтобы не разбудить ребенка, прилег к ней, и тихонько прошептал на ушко:

Читать далее

Простой способ установки Talos Linux на любую машину и у любого провайдера

Habr.com - Wed, 04/16/2025 - 11:28

Обычно Talos Linux предоставляется в виде набора готовых образов под различные системы. 

Стандартный метод установки предполагает, что вы возьмёте подготовленный образ под конкретное облако или гипервизор и просто создадите из него виртуальную машину. Если же говорить о физических серверах, то предполагается, что для загрузки образа Talos Linux и последующей установки вы будете использовать ISO или PXE.

К сожалению, это не работает, когда речь заходит о провайдерах, которые предоставляют преднастроенный сервер или виртуальную машину без возможности использовать кастомный образ или даже ISO для установки через KVM. В этом случае ваш выбор будет ограничен лишь теми дистрибутивами, которые предлагает облачный провайдер.

Читать далее

Как начинающим наставникам преподавать лучше

Habr.com - Wed, 04/16/2025 - 11:15

Хорошие профессионалы в своем деле не всегда разбираются в основах преподавания. Так, я стал замечать повторяющиеся ошибки, которые и хотел бы обсудить.

Читать далее

Генерация синтетических данных для LLM, или Как не «выстрелить» в ногу продакшену. Часть 1

Habr.com - Wed, 04/16/2025 - 11:12

Доброго вам дня, уважаемые Хабражители! В связи с бурным ростом LLM и просто невероятным, прорывными результатами практически ошеломительного качества, всё острее мы погружаемся в вопросы о дальнейшем развитии: «Куда двигаться дальше с точки зрения данных? Где их брать? Какого качества они должны быть? Как их бесшовно встроить в общую канву текущего конвейера? Сколько их вообще надо генерировать?» Всё это порождает массу тревог, размышлений и проводимых тестов. 

Поскольку мы уже вплотную подошли к тому, что данных начинает не хватать, надо заниматься их «разведением в домашних условиях». Ещё полгода назад прогноз был более оптимистичным, но стремительное развитии ИИ только «подлило масла в огонь». По факту, сейчас мы имеем ситуацию «взращивания» новой реальности и формирования целого многомерного мира вокруг любой технической задачи, любого формата и любой направленности. Более того, ставится вопрос, как сохранить исходные характеристики сырых данных и не подменить распределения и иные статистические параметры, дабы не уйти в сторону при обучении модели. Особенно это касается узкоспециализированных тем в широком социокультурном контексте. Говоря более общими словами, как генерировать «природные», а не «мусорные» данные? Более того, разгорающаяся ИИ-соперничество между США и Китаем принесёт много сюрпризов, гонка поднимется на новую высоту.  

Но обо всём по порядку. По традиции, всех заинтересованных любезно приглашаю под кат. Также приветствуются мнения, обсуждения и свежий взгляд ;) 

Читать далее

ChatGPT vs DeepSeek в сфере химической технологии и энергетики, что лучше?

Habr.com - Wed, 04/16/2025 - 10:15

Ни для кого не секрет, что нейросети активно развиваются и внедряются в нашу повседневную жизнь. На данный момент ИИ отлично умеет писать различные тексты, генерировать картинки и код, но насколько они хороши в энергетической сфере? Эта статья поможет Вам разобраться, какую нейросеть лучше использовать если у вас возникают вопросы в данном сегменте или вы хотите использовать её в обучении.

Читать далее

lazyjournal — ленивый интерфейс для поиска и анализа логов

Habr.com - Wed, 04/16/2025 - 10:00

Ранее, я уже писал статью о различных способах, которые мне приходилось использовать для чтения логов, и к какому решению в итоге пришел. Хотя прошло не так много времени, с тех пор приложение не переставало развиваться. Узнав о том, что на Хабре проходит сезон Open source, мне показалось это отличным поводом подчеркнуть, что именно стало причиной для создания данного инструмента, а также рассказать немного подробнее про основные и новые функции.

Читать далее

Apache Spark Catalyst: секреты оптимизатора запросов, который должен знать каждый Data Engineer

Habr.com - Wed, 04/16/2025 - 10:00

Привет Хабр! Меня зовут Кучеров Андрей и я Lead Data Engineer с более чем 7-летним опытом в области распределенной обработки данных. Я работал над оптимизацией высоконагруженных Spark-приложений в X5 Retail Group и билайн, где мы обрабатывали петабайтные объемы данных. Регулярно сталкиваясь с производительностью запросов, я убедился, что понимание работы Catalyst — необходимый навык для каждого Data Engineer, работающего со Spark.

Читать далее

От командной строки FFmpeg к Rust: практическое руководство для различных сценариев

Habr.com - Wed, 04/16/2025 - 07:55

FFmpeg — это мощный инструмент для работы с мультимедиа, который широко используется для редактирования видео, конвертации форматов и других задач. Однако использование командной строки FFmpeg (CLI) напрямую может быть связано с определёнными сложностями:

Читать далее

Настройка Apache Kafka для высоконагруженных систем

Habr.com - Wed, 04/16/2025 - 06:04

Apache Kafka является одной из самых популярных платформ для обработки потоков данных, обеспечивая высокую пропускную способность и низкие задержки при передаче сообщений. В высоконагруженных системах, где необходимо обрабатывать миллионы сообщений в секунду, важность правильной настройки Kafka трудно переоценить. Без оптимизации её параметров можно столкнуться с серьёзными проблемами, такими как рост задержек, потеря сообщений и переполнение очередей. Эффективная настройка Kafka критична для обеспечения бесперебойной работы в условиях высокой нагрузки и стабильной обработки данных в реальном времени.

Цель этой статьи — рассмотреть основные аспекты настройки Apache Kafka, которые влияют на производительность системы. Мы сосредоточимся на оптимизации параметров брокеров и продюсеров для достижения максимальной пропускной способности, минимальных задержек и надежности. Также рассмотрим важность мониторинга и тестирования системы для своевременного выявления и устранения узких мест.

Читать далее

Как найти работу 47-летнему программисту? И почему это не должен быть приговор

Habr.com - Wed, 04/16/2025 - 03:43

Когда тебе за 45, ты уже не сеньор — ты древний артефакт. Но этот артефакт умеет писать код, решать задачи и варить гречку на баге. Статья с самоиронией о том, как искать работу, когда тебя путают с системным администратором Windows 95.

Читать далее

Префиксные суммы. Решение задачи из тренировок Яндекса по алгоритмам

Habr.com - Wed, 04/16/2025 - 03:14

Расскажу о том, как решал одну из наиболее интересных задач в разминке Яндекс Алгоритмы 2023 г. Интересной я называю ее потому, что: 1) решал я кратно дольше, чем предыдущие 6 задач из разминки вместе взятые; 2) именно в этой задаче я проникся мощью префиксных сумм, и применением их для двумерных массивов.

И так задача:

Кролики очень любопытны. Они любят изучать геометрию, бегая по грядкам. Наш кролик как раз такой. Сегодня он решил изучить новую фигуру — квадрат.

Кролик бегает по грядке — клеточному полю N × M клеток. В некоторых из них посеяны морковки, в некоторых нет.

Помогите кролику найти сторону квадрата наибольшей площади, заполненного морковками полностью.

Формат ввода

В первой строке даны два натуральных числа N и M ( 1 N, M 1000). Далее в N строках расположено по M чисел, разделенных пробелами (число равно 0, если в клетке нет морковки или 1, если есть).

Формат вывода

Выведите одно число — сторону наибольшего квадрата, заполненного морковками.

Читать далее

Пишем кастомную физику для брелков в Unreal Engine

Habr.com - Wed, 04/16/2025 - 02:21

В этой статье я поделюсь своей реализацией брелков через CableComponent.

Идея написания данной статьи возникла у меня во время реализации брелков для оружия. Как оказалось, в Unreal Engine на данный момент не существует готовых инструментов для реализации данного аксессуара. Тут можно было подумать, что брелки возможно реализовать через стоковый CableComponent, но как бы не так:

Читать далее

Утепление балкона по-инженерному

Habr.com - Wed, 04/16/2025 - 00:16

Сначала я жил в съёмной квартире и там был балкон, полностью открытый. Я думал о том, чтобы сделать его жилым, поскольку посмотрел одно видео, где крутой программист программирует на балконе, работает дистанционно. Я подумал: как же это круто, и тоже так захотел. Но, конечно же, не на съемной квартире это все реализовывать.

И вот, когда я уже купил квартиру, то сразу начал планировать как буду проводить в ней «отпуск» каждое лето, постепенно доводя ее до квартиры мечты.

И первое, что надо сделать — это, конечно же, жилой балкон. Но с применением инженерных умений. То есть оптимизация по стоимости, простоте изготовления, функциональности.

Квартира однокомнатная — комната и кухня, и их обоих закрывает 6-метровая лоджия.

Читать далее

Как мы собираем SWE-bench на других языках

Habr.com - Wed, 04/16/2025 - 00:08

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python.

Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp взялась за адаптацию SWE-bench для множества языков программирования. Меня зовут Кирилл Увенс, и в этой статье я расскажу, как мы подходим к этой задаче и почему считаем ее важной для всей индустрии.

В статье расскажем:

Что такое SWE-Bench
Какие сложности возникают при сборе данных и тестировании
Наш опыт: какие языки поддерживает SWE-bench
Ручная перепроверка, или SWE-bench Verified
Сравниваем SWE-bench с другими бенчмарками для разработки ПО
Ценообразование SWE-bench: как формируется стоимость одного датапойнта

Читать далее

Как тестировать промпты и чейны (Ручная разметка/BERTScore/LLM as judge)

Habr.com - Tue, 04/15/2025 - 23:54

Представьте, что у нас есть бенчмарк из 4 тысяч вопросов и эталонных ответов. Как определить, действительно ли очередное изменение в системе (обновления в промпте, дополнительный агент в цепочке или, например, переход с базового RAG на гибридный) даёт реальный прирост качества?

Читать далее

Скорая помощь: как быстро снять стресс, эмоциональное напряжение и провести профилактику нарушений сна

Habr.com - Tue, 04/15/2025 - 23:37

В моей статье о статистике профессиональных заболеваний IT-специалистов я проводила опрос. Его результаты вполне бьются с глобальными исследованиями, и видны на скриншоте. По горячим следам я подготовила для читателей Хабра 3 видео-упражнения для быстрого снятия стресса, избавления от бессонницы и тревожных мыслей. Длительность каждого ролика менее 2 минут.

Это не отменяет обращений к психотерапевту, неврологу или принятие препаратов. Но в офисе, в пробке или когда под рукой нет нужной таблетки, техники можно использовать в качестве «скорой помощи».

Для полноты понимания я описываю в статье, на что именно влияет выполнение упражнений, и как решается проблема с точки зрения работы тела.

На все вопросы обязательно отвечу в комментариях.

Важно:
  • Все упражнения нужно выполнять мягко и без агрессивного нажима.
  • Нельзя выполнять в период острых фаз заболеваний и воспалительных процессов, при температуре.

Читать дальше →

Who's online

There are currently 1 user and 4 guests online.
Syndicate content