Привет, Хабр! Я Татьяна, в РСХБ-Интех работаю с данными, в прошлый раз я рассказывала про свои любимые фреймворки для повышения эффективности бизнеса. В этот раз статья посвящена Data Governance.
Data Governance управляет не самими данными и их потоками, а метаданными, которые сопровождают их во всех точках ввода, обработки, хранения и перемещения, вплоть до уничтожения.
Наиболее прогрессивные компании сегодня имеют целые экосистемы по управлению жизненным циклом данных. Такие экосистемы могут включать в себя несколько приложений или программных продуктов, которые дирижируются Data Governance процессом, выстроенным внутри организации.
Читать далееЯ уже не раз поднимал в статьях тему [не]эффективной работы с json[b] в PostgreSQL - и как его лучше превращать в выборку, и как можно "транспонировать". Сегодня же рассмотрим некоторые возможности по его генерации на стороне базы.
Читать далееПривет, Хабр! Меня зовут Максим Хандусь, я ML-инженер в лаборатории машинного обучения Альфа-Банка. Недавно наша команда «Мы МИСИС 177!!!» (Назарий Карпов, Кузнецов Данил, Павел Смирнов, Душенёв Даниил — как вы могли догадаться, все мы студенты НИТУ МИСИС) участвовала в хакатоне PurpleHack2025 с достаточно необычным форматом и заняла там второе место.
Чаще всего, когда говорят «На хакатоне было пять кейсов», то это значит, что команда выбирает только один кейс, а потом призёры определяются в каждом из кейсов отдельно. Но в этот раз предполагалось решать сразу пять кейсов, а призёры определялись по сумме баллов за все кейсы. На решение давалось шесть дней, не очень много для сразу пяти задач.
Расскажем, какие задачи были, как мы их распределяли и решали.
Читать далееВнедрение Agile «на хайпе» и искаженное понимание принципов манифеста ведет к сырым ненужным пользователю продуктам. Вместе с автором канала Junior PM, Артемом Летюшевым, разбираемся в разнице между настоящим значением принципов и мифами, которые компании принимают за правила и внедряют в свои процессы.
Читать далееЭто случилось однажды вечером, когда жена уложила спать младшего и сама уже почти уснула. А у меня, как дети идут спать, открывается второе дыхание. Я аккуратно, чтобы не разбудить ребенка, прилег к ней, и тихонько прошептал на ушко:
Читать далееОбычно Talos Linux предоставляется в виде набора готовых образов под различные системы.
Стандартный метод установки предполагает, что вы возьмёте подготовленный образ под конкретное облако или гипервизор и просто создадите из него виртуальную машину. Если же говорить о физических серверах, то предполагается, что для загрузки образа Talos Linux и последующей установки вы будете использовать ISO или PXE.
К сожалению, это не работает, когда речь заходит о провайдерах, которые предоставляют преднастроенный сервер или виртуальную машину без возможности использовать кастомный образ или даже ISO для установки через KVM. В этом случае ваш выбор будет ограничен лишь теми дистрибутивами, которые предлагает облачный провайдер.
Читать далееХорошие профессионалы в своем деле не всегда разбираются в основах преподавания. Так, я стал замечать повторяющиеся ошибки, которые и хотел бы обсудить.
Читать далееДоброго вам дня, уважаемые Хабражители! В связи с бурным ростом LLM и просто невероятным, прорывными результатами практически ошеломительного качества, всё острее мы погружаемся в вопросы о дальнейшем развитии: «Куда двигаться дальше с точки зрения данных? Где их брать? Какого качества они должны быть? Как их бесшовно встроить в общую канву текущего конвейера? Сколько их вообще надо генерировать?» Всё это порождает массу тревог, размышлений и проводимых тестов.
Поскольку мы уже вплотную подошли к тому, что данных начинает не хватать, надо заниматься их «разведением в домашних условиях». Ещё полгода назад прогноз был более оптимистичным, но стремительное развитии ИИ только «подлило масла в огонь». По факту, сейчас мы имеем ситуацию «взращивания» новой реальности и формирования целого многомерного мира вокруг любой технической задачи, любого формата и любой направленности. Более того, ставится вопрос, как сохранить исходные характеристики сырых данных и не подменить распределения и иные статистические параметры, дабы не уйти в сторону при обучении модели. Особенно это касается узкоспециализированных тем в широком социокультурном контексте. Говоря более общими словами, как генерировать «природные», а не «мусорные» данные? Более того, разгорающаяся ИИ-соперничество между США и Китаем принесёт много сюрпризов, гонка поднимется на новую высоту.
Но обо всём по порядку. По традиции, всех заинтересованных любезно приглашаю под кат. Также приветствуются мнения, обсуждения и свежий взгляд ;)
Читать далееНи для кого не секрет, что нейросети активно развиваются и внедряются в нашу повседневную жизнь. На данный момент ИИ отлично умеет писать различные тексты, генерировать картинки и код, но насколько они хороши в энергетической сфере? Эта статья поможет Вам разобраться, какую нейросеть лучше использовать если у вас возникают вопросы в данном сегменте или вы хотите использовать её в обучении.
Читать далееРанее, я уже писал статью о различных способах, которые мне приходилось использовать для чтения логов, и к какому решению в итоге пришел. Хотя прошло не так много времени, с тех пор приложение не переставало развиваться. Узнав о том, что на Хабре проходит сезон Open source, мне показалось это отличным поводом подчеркнуть, что именно стало причиной для создания данного инструмента, а также рассказать немного подробнее про основные и новые функции.
Читать далееПривет Хабр! Меня зовут Кучеров Андрей и я Lead Data Engineer с более чем 7-летним опытом в области распределенной обработки данных. Я работал над оптимизацией высоконагруженных Spark-приложений в X5 Retail Group и билайн, где мы обрабатывали петабайтные объемы данных. Регулярно сталкиваясь с производительностью запросов, я убедился, что понимание работы Catalyst — необходимый навык для каждого Data Engineer, работающего со Spark.
Читать далееFFmpeg — это мощный инструмент для работы с мультимедиа, который широко используется для редактирования видео, конвертации форматов и других задач. Однако использование командной строки FFmpeg (CLI) напрямую может быть связано с определёнными сложностями:
Читать далееApache Kafka является одной из самых популярных платформ для обработки потоков данных, обеспечивая высокую пропускную способность и низкие задержки при передаче сообщений. В высоконагруженных системах, где необходимо обрабатывать миллионы сообщений в секунду, важность правильной настройки Kafka трудно переоценить. Без оптимизации её параметров можно столкнуться с серьёзными проблемами, такими как рост задержек, потеря сообщений и переполнение очередей. Эффективная настройка Kafka критична для обеспечения бесперебойной работы в условиях высокой нагрузки и стабильной обработки данных в реальном времени.
Цель этой статьи — рассмотреть основные аспекты настройки Apache Kafka, которые влияют на производительность системы. Мы сосредоточимся на оптимизации параметров брокеров и продюсеров для достижения максимальной пропускной способности, минимальных задержек и надежности. Также рассмотрим важность мониторинга и тестирования системы для своевременного выявления и устранения узких мест.
Читать далееКогда тебе за 45, ты уже не сеньор — ты древний артефакт. Но этот артефакт умеет писать код, решать задачи и варить гречку на баге. Статья с самоиронией о том, как искать работу, когда тебя путают с системным администратором Windows 95.
Читать далееРасскажу о том, как решал одну из наиболее интересных задач в разминке Яндекс Алгоритмы 2023 г. Интересной я называю ее потому, что: 1) решал я кратно дольше, чем предыдущие 6 задач из разминки вместе взятые; 2) именно в этой задаче я проникся мощью префиксных сумм, и применением их для двумерных массивов.
И так задача:
Кролики очень любопытны. Они любят изучать геометрию, бегая по грядкам. Наш кролик как раз такой. Сегодня он решил изучить новую фигуру — квадрат.
Кролик бегает по грядке — клеточному полю N × M клеток. В некоторых из них посеяны морковки, в некоторых нет.
Помогите кролику найти сторону квадрата наибольшей площади, заполненного морковками полностью.
Формат ввода
В первой строке даны два натуральных числа N и M ( 1 ≤ N, M ≤ 1000). Далее в N строках расположено по M чисел, разделенных пробелами (число равно 0, если в клетке нет морковки или 1, если есть).
Формат вывода
Выведите одно число — сторону наибольшего квадрата, заполненного морковками.
Читать далееВ этой статье я поделюсь своей реализацией брелков через CableComponent.
Идея написания данной статьи возникла у меня во время реализации брелков для оружия. Как оказалось, в Unreal Engine на данный момент не существует готовых инструментов для реализации данного аксессуара. Тут можно было подумать, что брелки возможно реализовать через стоковый CableComponent, но как бы не так:
Читать далееСначала я жил в съёмной квартире и там был балкон, полностью открытый. Я думал о том, чтобы сделать его жилым, поскольку посмотрел одно видео, где крутой программист программирует на балконе, работает дистанционно. Я подумал: как же это круто, и тоже так захотел. Но, конечно же, не на съемной квартире это все реализовывать.
И вот, когда я уже купил квартиру, то сразу начал планировать как буду проводить в ней «отпуск» каждое лето, постепенно доводя ее до квартиры мечты.
И первое, что надо сделать — это, конечно же, жилой балкон. Но с применением инженерных умений. То есть оптимизация по стоимости, простоте изготовления, функциональности.
Квартира однокомнатная — комната и кухня, и их обоих закрывает 6-метровая лоджия.
Читать далееСовременная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python.
Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp взялась за адаптацию SWE-bench для множества языков программирования. Меня зовут Кирилл Увенс, и в этой статье я расскажу, как мы подходим к этой задаче и почему считаем ее важной для всей индустрии.
В статье расскажем:
• Что такое SWE-Bench
• Какие сложности возникают при сборе данных и тестировании
• Наш опыт: какие языки поддерживает SWE-bench
• Ручная перепроверка, или SWE-bench Verified
• Сравниваем SWE-bench с другими бенчмарками для разработки ПО
• Ценообразование SWE-bench: как формируется стоимость одного датапойнта
Представьте, что у нас есть бенчмарк из 4 тысяч вопросов и эталонных ответов. Как определить, действительно ли очередное изменение в системе (обновления в промпте, дополнительный агент в цепочке или, например, переход с базового RAG на гибридный) даёт реальный прирост качества?
Читать далее