Исходная задача и контекст
Перед нами стояла типичная для дата‑инженеров задача: обработать поток Parquet‑файлов с данными о внутренних технических процессах заказчика. Ключевой запрос — извлечь метаданные из таблицы, чтобы в дальнейшем работать с ними быстрее и удобнее.
В качестве основного инструмента мы выбрали Apache Iceberg — проверенный в наших проектах фреймворк для управления метаданными. Изначально пайплайн выглядел так:
Читать далееC 6 ноября 2025 года комбинаторные объявления вышли в открытую бетку и стали доступны всем.Методика теста объявлений в мастере кампаний перекочевала в ЕПК. Ну или таки немножечко скопировали как художники у гугла адаптивные объявления. В анонсе показывали кейсы с увеличением конверсии до 55 процентов. Есть легкое недоверие к таким цифрам, да?
Но к черту голословный негатив, давайте к фактам. Я запустила чудо-новинку на нескольких проектах, потому что я любопытный человек и люблю тестировать. Потому что верю, что тесты — это путь оптимизации и повышения качества рекламы, аминь.
Читать далееВ этой статье мы немного отвлечёмся от практики и позанимаемся математикой, порешаем интересные задачки по алгебре (11 задач), конкретно по теории групп.
К сожалению, я не смог решить следующую проблему: я печатаю текст статьи в редакторе Word, но при этом формулы я не могу нормально отформатировать в нужный для Хабра Marktown
без ошибок. Буду рад, если кто-нибудь из читателей расскажет, как это можно сделать.
Основной текст статьи находится на Яндекс Диске, его (pdf файл) можно скачать по ссылке:
https://disk.yandex.ru/i/Xdf_NCBmnF9_zA
Читать далееПредставьте: вы провели часовое интервью, записали важнейшее совещание или наконец-то зафиксировали на диктофон ту самую гениальную идею, которая пришла за рулём. А дальше начинается самое «весёлое». Сидеть и вручную переводить всё это в текст, перематывая запись снова и снова. Минута аудио превращается в пять минут работы, а час записи съедает целый вечер. Знакомо? Ещё пару лет назад это была неизбежная рутина, от которой страдали журналисты, студенты, маркетологи и вообще все, кому приходилось работать с голосом.
Но нейросети перевернули эту игру с ног на голову. Сегодня искусственный интеллект расшифровывает аудио быстрее, чем вы успеваете допить кофе. Причём не просто выдаёт кашу из слов, а расставляет знаки препинания, различает спикеров, понимает акценты и даже справляется с фоновым шумом. Технологии, которые ещё недавно казались фантастикой, стали доступны каждому: загрузил файл, нажал кнопку, получил готовый текст.
Правда, есть один нюанс. Сервисов для транскрибации развелось столько, что выбрать подходящий стало отдельным квестом. Одни идеально работают с русским языком, другие только с английским. Одни бесплатные, но с ограничениями, другие стоят как подписка на стриминг, зато выдают почти идеальный результат. Какие-то умеют транскрибировать в реальном времени, а какие-то требуют загрузки файла и пары минут ожидания.
Мы протестировали и сравнили самые популярные нейросети для транскрибации, чтобы вам не пришлось тратить на это время. Разбираем плюсы, минусы, цены и неочевидные фишки каждого сервиса. Поехали!
Читать далееОдно время я занимался разработкой порта «Малой экспертной системы 2.0», который бы поддерживал базы знаний для этой программы и при этом был кросс‑платформенным. Программа поддерживала два формата: обычные базы знаний и шифрованные. Если с обычными базами знаний всё было более‑менее в порядке, то шифрованные базы знаний не поддавались ровно до тех пор, пока я не заглянул в машинные коды. В этой статье мы рассмотрим, как была реализована одна из схем сокрытия данных, основанная на принципе «безопасность через неясность».
Читать далееData-driven разбор рынка Steam 2021–2025
Каждый год десятки тысяч разработчиков выходят в Steam с надеждой, что их игра «найдет аудиторию». Платформа кажется демократичной: опубликуй игру, заплати сбор — и ты рядом с хитами. Но так ли хорошо у них дела? Данные говорят, что на деле Steam — это жесточайший рынок за внимание игроков, где либо ты привлек игроков на старте, либо тебя, вероятнее всего, ждет забвение…
Представляю результат анализа данных из Steam за 2021–2025 годы (≈65 000 игр).
Читать далееКакая структура данных стоит за list? Как быстро отрабатывает операция append? Эти вопросы часто задают на собеседованиях, и чтобы на них отвечать, нужно понимать, как список работает под капотом. В этой статье разберём, как же устроен список в питоне, копнём на уровень CPython и позапускаем код. После прочтения вы будете знать о списках больше, чем ваши коллеги.
Разобраться в спискахБанки используют множество известных хитрых схем для максимизации своих доходов: например, вначале закрывают проценты, а потом тело кредита. Или закрывают долги не в хронологическом порядке, а начиная с покупок (по которым ставка меньше), а потом со снятий наличных (где ставка больше).
А что, если я скажу, что ВСЕ БАНКИ ещё и считают проценты неверно, ошибаясь, как обычно, в свою сторону? Эта хитрость в расчёте процентных выплат, которую почти никто не осознаёт, пришла в современный банкинг из дремучих времён, когда калькуляторы были роскошью. Давайте разбираться.
Читать далее«Хочу зарабатывать 500 тысяч, миллион. Хочу усилить продажи».
Я вас прекрасно понимаю. Это абсолютно нормальное, здоровое желание — хотеть, чтобы твой труд стоил дорого. Чтобы не было этого ощущения, что ты выкладываешься по полной, а финансовый потолок остаётся где-то там, низко, и ты о него всё время бьёшься головой. Я тоже вместе с вами хочу этого же.
Но сегодня я хочу пойти с вами от противного. Мы не будем говорить о продажах. Не будем говорить о запусках, о рекламе, о креативах. Давайте на минутку представим, что всего этого — нет. Вообще. Нет вашего телеграма, нет сторис, нет воронок.
Остаётся только одна вещь. Ваш продукт. Онлайн-курс, программа, интенсив — как угодно.
И вот он просто лежит где-то. И представьте, что он… продаёт себя сам. Его люди находят, читают описание, смотрят цену — и покупают. Без вашего личного участия. За 100, 200, 500 тысяч рублей.
Звучит как фантастика? А теперь скажите — почему этого не происходит прямо сейчас с тем, что у вас есть или что вы планируете?
Потому что мы с вами чаще всего действуем по обратной логике. Наша цепочка мыслей такая: «Хочу миллион» – «Значит, нужно много продаж» – «Нужна крутая реклама и запуск» – «Ок, делаю продукт под этот запуск».
И продукт в этой цепочке — на последнем месте. Он — фишка в игре под названием «маркетинг». Мы думаем: «Ладно, сделаю что-нибудь, главное — красиво упаковать и громко рассказать».
НО! Эта логика в 2026 году уже не просто устарела. Она убийственна. Потому что люди стали не просто умнее. Они стали уставшими. Уставшими от пустых обещаний, от красивых обёрток, за которыми — ветер. Они в долгие, сложные, эмоциональные отношения с продавцом больше не вступают. Они не хотят «греться» у костра вашего энтузиазма на вебинаре.
Читать далееВ 2025 году Google и Apple показали два близких по целям, но разных по устройству стека. В Pixel 10 системный ИИ построен вокруг Android AICore и связки on-device и облака. В iPhone 17 развивают Apple Intelligence, а тяжёлые запросы переносят в Private Cloud Compute.
В статье расскажем, как Pixel 10 и iPhone 17 маршрутизируют ИИ-запросы, что дают Tensor G5 и A19, как устроены Private AI Compute и Private Cloud Compute, где живёт ИИ-слой в ОС — и что всё это меняет для разработчиков, когда ИИ становится частью оболочки, а не отдельной библиотекой.
Читать далееЕсли вы используете AI-ассистента для написания кода, довольно часто выясняется, что модель уверенно говорит неправду. Она выдумывает методы, которых нет в библиотеке, или описывает API, удалённый два релиза назад. Формально это называют галлюцинациями и knowledge cutoff, но для пользователя разницы нет. Ассистент ошибается именно там, где от него ждут точности.
Проблема усугубляется тем, что ошибки выглядят правдоподобно. Код компилируется, сигнатуры выглядят знакомо, комментарии звучат убедительно. В результате разработчик тратит время не на работу, а на перепроверку. В этот момент инструмент перестаёт экономить время и начинает его забирать.
Решение: RAG на документацию...
Читать далееВсем привет! Я решил углубленно изучить динамическое программирование и поделиться с вами опытом. Недавно я обнаружил довольно интересный план обучения на LeetCode (https://leetcode.com/studyplan/dynamic-programming/), взял его за основу - и полностью завершил, решив все задачи (50/50).
Читать далееПривет, Хабр! Я Кирилл Колодяжный, разработчик систем хранения данных в YADRO, ML-энтузиаст и автор книги "Hands-on Machine Learning with C++". В своих материалах я развеиваю миф о том, что машинное обучение — это сплошной Python. На самом деле под капотом моделей часто работает C++.
Этой теме я посвятил цикл статей: хочу рассказать, как привычные для «плюсовиков» инструменты используют для реализации ядра платформы машинного обучения. В первой части поговорим о стандартных библиотеках, идиомах программирования и алгоритмах управления памятью.
Читать далееObservability — это не просто логи или метрики по отдельности, а целостная картина поведения системы. В этой статье разберём минимальный, но полноценный стек OpenTelemetry для Go-приложений: соберём метрики, трейсы и логи, прокинем их через otel-collector и посмотрим результат в Grafana (Prometheus + Tempo + Loki).
Без лишней теории — только практический пример: docker-compose, инициализация OTel в Go, инструментирование HTTP-клиента и сервера и просмотр данных в UI. В итоге получится рабочий шаблон, который можно использовать как основу для своих сервисов.
Читать далееМеня зовут Вячеслав, и я — «процессуальный хирург».
Сейчас адвокат. Из них 20 лет я провел по ту сторону баррикад — работал следователем, помощником прокурора и прокурором.
Моя работа в суде — не красивые речи, а поиск багов. Я берусь за дела, где система дала сбой: следствие допустило ошибку, суд закрыл глаза. Я провожу аудит материалов, нахожу фатальное нарушение (баг в процедуре) и «ломаю» приговор. Я не работаю ради процесса — я либо вижу техническую возможность отмены, либо честно говорю клиенту: «Тут WontFix».
Год назад я понял, что мне нужен инструмент, который работает так же бескомпромиссно, как я сам. Мне нужен был цифровой ассистент...
Читать далееЯнварь в мире железа обычно месяц сонный, но в этот раз все пошло не по плану — сразу два топовых вендора показали свои флагманские продукты.
Всем привет! С вами Сергей Ковалёв, менеджер выделенных серверов в Selectel. В этом дайджесте я собрал подробности самых нашумевших железных новинок за январь — от GPU до новых дисков и сетевого оборудования. Подробности под катом!
Читать далееМы сравнили OpenLiteSpeed и классический LEMP для WordPress на реальных серверах. RPS, latency, TTFB, потребление CPU и RAM, поведение под нагрузкой до 500 пользователей. И вот какие итоги у нас получились.
Читать далееПервые исполняемые файлы Quake (quake.exe и vquake.exe) программировали на HP 712-60 с NeXT и кросс-компилировали при помощи DJGPP, запущенного на DEC Alpha server 2100A. В июне 1996 года, после выпуска игры, id Software, озабоченная стагнацией NeXT, решила поменять стек разработки.
Сразу после выпуска Quake мы перешли на оборудование Intergraph с Windows NT.
- Джон Кармак[1]
Следующие версии Quake (winquake.exe, glquake.exe) и QuakeWorld (qwcl.exe и qwsv.exe) разработаны и скомпилированы в Windows NT с помощью Visual C++ 4.X.
В этой статье описываются этапы по воссозданию процесса сборки двоичных файлов Quake win32 в том виде, в котором он происходил в 1997 году.
Читать далееВ эфире Вероника Высотина — редактор Госуслуг. Я тимлид одной из команд редакции — вместе с ребятами мы готовим тексты для часто задаваемых вопросов и Робота Макса.
В этой статье я расскажу об одном из рабочих инструментов редакции — калькуляторе качества текста. Да, редакторы Госуслуг — странные люди, которые оценивают буквы в цифрах. Объясню, для чего это нужно, как работает и как повлияло на работу.
Читать далееС точки зрения нейронных сетей мир плоский. Иерархические данные напоминают, что это не так.
Работа нейронных сетей неотделима от допущения, что всего одна функция отображает вводные данные на выходные. Но в реальных условиях данные редко вписываются в такие рамки.
Допустим, есть клиническое исследование, проводимое сразу в нескольких больницах. Лекарство одно и то же, но отличаются популяции пациентов, процедуры и порядок ведения записей. В таких случаях наблюдения группируются в разные датасеты, каждый из которых управляется скрытыми параметрами.
Стандартные нейронные сети в таких условиях жёстко сбоят. Обучите одну модель сразу на всех датасетах — и она расфокусируется из-за различий, станет усреднять функции, которые усреднять не следует. Натренируйте по модели на каждом из датасетов — и получите переобучение, в особенности, если датасеты будут маленькими. Такие обходные манёвры как задействовать статические векторные представления (эмбеддинги) или постоянно наращивать размер сети в сущности не решают ключевую проблему: система запоминает причуды сети, не моделируя её структуру, складывающуюся на уровне датасета. А ведь именно эта структура — залог качественных результатов.
Читать далее