ORC in Hive/Spark - “анатомия” файла, индексация и фильтр Блума
ORC — это колоночный формат, то есть данные хранятся не по строкам (как в CSV), а по столбцам. Именно это даёт ему способность эффективно сжимать и читать только нужные колонки. Есть ещё встроенная индексация и фильтр Блума, которые позволяют не перелопачивать лишние данные.
Давайте заглянем под капот и посмотрим, как устроен ORC-файл, зачем там индексы и как фильтр Блума ускоряет поиск.
I. Анатомия файла
Читать далееИскусственный интеллект в мировой экономике уже стал массовым инструментом: рынок связанных с ним технологий быстро растет. По прогнозу Roots Analysis, к 2035 году глобальный рынок ИИ-агентов может почти достичь 221 млрд долларов против 9,8 млрд в 2025 году, при среднегодовом темпе роста 36,55%.
В мире 88% компаний уже используют генеративный ИИ в тех или иных функциях — от клиентского сервиса и маркетинга до логистики, HR, финансов, производства и аналитики. Но реальный финансовый эффект, выраженный в стабильном росте операционной прибыли, отмечают только 6% компаний.
Расскажем о проблемах фрагментарного внедрения ИИ и необходимости горизонтального слоя AI Overlay для настоящей трансформации бизнеса, а также о ключевых блоках необходимой архитектуры.
Материал подготовлен на основе экспертной колонки старшего вице‑президента Сбера, руководителя блока «Технологий» Кирилла Меньшова, опубликованной в RBC.
Читать далееУ продуктовых дизайнеров есть странная ловушка: индустрия производит огромное количество контента про рост в профессии, но сам рост от этого почти не происходит. Можно годами смотреть референсы, читать разборы и ходить по курсам — а потом все равно теряться в работе с живым продуктом, где есть ограничения, метрики, конфликты и цена ошибки.
Я это видел много раз — и в студии, и в больших командах. Поэтому ниже не советы в духе «потрать 10 000 часов», а разбор того, что реально ускоряет рост и почему стандартные пути часто тормозят и не помогают.
Читать-страдатьВсем привет! Меня зовут Андрей, я копирайтер-смысловик — помогаю компаниям доносить сложные идеи через текстовые коммуникации. Последние 3 года я работаю с журналом Зарплата.ру — мы пишем статьи о рынке труда как для работодателей, так и для соискателей. Но я еще и сам соискатель, который регулярно мониторит рынок, откликается и проходит собесы.
В сети миллионы миллиардов статей о том, как кандидатам нужно писать резюме и доводительные и с каким кринжем прихоится сталкиваться руководителям и HR. Но почему-то очень мало про то, через что приходится продираться самим кандидатам. В этом посте расскажу то, с чем регулярно сталкиваюсь сам и на что жалуются другие . А чтобы не быть голословным, покажу срезы по рынку на эту тему.
Дисклеймер: будет длинно и больно, поэтому, если вы HR или нанимающий менеджер, то приготовьте лед, чтобы охлаждать одно место.
Читать далее31 марта 2026 года наружу буквально вывалились исходники Claude Code (через sourcemap в npm‑пакете). История уже сама по себе комичная: продукт, который помогает писать код и в теории должен быть особенно аккуратен с публикацией артефактов, случайно публикует не просто кусок дебажной информации, а почти анатомический атлас самого себя.
Но меня в этой истории интересует не столько сам факт утечки, сколько более приземлённый вопрос: что там внутри? Если убрать обычное для таких случаев «вау, утекло», остаётся более интересная интонация: ну‑ка, посмотрим, что тут у нас (или «там у них»?) и нормально ли там написан код.
Да, написано с головойЕсли ввести в поиск запрос object detection, почти сразу среди результатов окажутся модели семейства YOLO в разных версиях. Это неудивительно: они популярны, быстры, достаточно просты в использовании и хорошо подходят для прикладных задач. Модели вроде YOLO и RF-DETR обычно работают по одной и той же схеме: на вход подается изображение, на выходе мы получаем предсказания объектов.
Такой подход удобен и хорошо работает для картинок. Но видео — это не просто набор независимых кадров.
Почти все компании начинают построение аналитики в Excel. Это удобно потому, что на старте данных немного и все можно собрать в одну таблицу, быстро посчитать и в целом понимать, что происходит.
Excel довольно универсальный инструмент. Хочешь — отчет собери, хочешь — модель посчитай, хочешь — гипотезу проверь. Но постепенно его начинает не хватать.
Сначала компании разрастаются данными. Потом они появляются в разных местах , таких как, CRM, рекламные кабинеты, бухгалтерия, сайт. Потом с ростом компании появляются дополнительные отчеты. И тебе уже приходится работать сразу в нескольких файлах и системах.
Сначала это терпимо. Потом начинает раздражать. А потом ловишь себя на мысли, что даже на простой вопрос по бизнесу нужно потратить время: открыть несколько таблиц, сверить цифры, проверить формулы.
Тогда многие компании начинают задумываться об усовершенствовании аналитики и внедрении BI.
Читать далееПроизводительность Flutter-приложения напрямую зависит от качества написанного кода: лишние перестроения UI, тяжёлые операции в основном потоке, неправильная работа со списками и изображениями — всё это ведёт к фризам, падению FPS и ухудшению пользовательского опыта.
В данной статье мы собрали наиболее распространённые ошибки, которые снижают производительность Flutter-приложений, и показали, как их избежать на практике.
Читать далееPac-Man — полностью детерминированная игра. Как я объяснял в своём видео об этой игре, все движения призраков зависят от того, где на текущий момент находится Pac-Man. Следовательно, обладая этими знаниями, можно точно спрогнозировать, куда будут двигаться призраки в любой момент времени. Но так ли это? Когда Pac-Man съедает большой шарик («энерджайзер»), призраки пугаются и начинают двигаться по паттерну, который кажется случайным и непредсказуемым. Это единственный момент, когда в игре используется генератор случайных чисел (RNG): для определения того, в каком направлении повернёт испуганный призрак на перекрёстке лабиринта. Хоть это решение тоже детерминировано, это единственный непредсказуемый элемент Pac-Man.
В этой статье мы проведём глубокий анализ функции RNG игры и разберёмся, как призраки склонны действовать в этой ситуации. В конечном итоге мы выясним, что напуганных призраков обычно притягивает одна из областей лабиринта.
Читать далееПочему в Средние века жгли ведьм, в эпоху чумы искали виноватых, в индустриальный век боялись машин, а сегодня тревожно вглядываются в искусственный интеллект?
Читать далееЛистал тут соцсети и отметил, что похоже народ устал от бесконечных «вставайте в 5 утра и становитесь лучшей версией себя». Теперь вирусятся совсем другие идеи - осознанная скука, отдельные одеяла, падл и прочее. Разберём, что за тренды и напишу свое личное мнение (часть реально полезны).
Читать далееПроведя аудит GitHub, я обнаружил, что полноценных реализаций Gemini-клиента с глубокой проработкой архитектуры практически нет. Я решил стать первым, кто выложит в открытый доступ не просто обертку над API, а готовую архитектурную базу с точным повторением UI оригинального Gemini.
Читать далееПривет, Хабр! Мы — команда Cozystack, open-source платформы для построения облаков на своём железе. Хотим рассказать, почему мы решили целиться в направление игровых серверов и что из этого вышло.
Читать далееЁкнуло? С первым апреля. Хотя данная тема сейчас совсем не шуточная, особенно учитывая блокировку других мессенджеров.
Telegram, например, использовали для всего сразу: переписывались с мамой, согласовывали требования к продукту с командой, читали новости в каналах, созванивались с подрядчиками.
Discord аналогично: в нём была и рабочая коммуникация в студиях и агентствах, и голосовые комнаты во время игры в доту. Оба сервиса закрывали сразу два сценария: личное общение и работу.
Именно поэтому их так сложно заменить. Мессенджеров, которые нормально работают в России и при этом подходят и для чата с бабушкой, и для командного созвона с демонстрацией экрана, — единицы.
Мы изучили больше 30 мессенджеров и отобрали 13 штук, которые решают, хотя бы с натяжкой, оба эти сценария.
Оценивали по критериям:
Читать далееЕсть одна довольно живучая управленческая иллюзия. Когда в компании начинается кадровый хаос, собственник или руководитель довольно быстро приходит к мысли: нужен сильный HR. Иногда это происходит в тот момент, когда бизнес уже устал от ручного управления, бесконечного найма, перегруженных руководителей и ощущения, что команда работает хуже, чем должна. Иногда — наоборот, когда компания собирается расти, масштабироваться, быстрее нанимать и строить более взрослую систему.
Читать далееКазалось бы, Apple — компания, которая возвела пользовательский опыт в культ. Но ровно до того момента, пока вы не решите стать частью их экосистемы как разработчик. Если вы думали, что самое сложное в iOS-деве — это разобраться с делегатами или SwiftData, то спешу вас расстроить: настоящий босс ждёт на этапе энроллмента.
Ситуация абсурдна до боли: ты стоишь с карточкой в руках, готовый отдать заветные $99, но официальное приложение Apple Developer превращается в глухую стену. На этапе «I agree» вместо приветственного письма ты получаешь в лицо типичный корпоративный «от ворот поворот»: Unknown Error. Please try again.
Читать далееПопробуем переделать старый ADSL роутер в принт-сервер, который позволит подключить не менее старый принтер Samsung SCX-3200 в локальную сеть
Читать далееРынок ремонтных услуг и стройматериалов всегда отличался динамичностью с точки зрения реактивной адаптации к изменениям внешних условий. При этом самое явное и яркое проявление такой адаптации для конечного потребителя – это стремительный рост цен на товары и услуги, что усложняет жизнь как конечному потребителю, так и бизнесу.
В России рынок ремонтных услуг сохраняет тенденцию к подорожанию. По данным отраслевых аналитических служб, в 2025 году цены выросли на 10–20% – сообщается редакцией газеты «Московский Комсомолец» – по прогнозам экспертов, в 2026 году стоимость капитального ремонта «под ключ» вырастет еще на 20–25%.
Таким образом, если и говорить об экономии средств, то стоит рассмотреть 2 пути: экономить на отделочных и стройматериалах, сохраняя свой бюджет сегодня, или же инвестировать в решения, обеспечивающие безопасность и сохранность ремонта для экономии средств в будущем.
Одним из самых нежелательных «бытовых врагов» дома и ремонта является влага и вода в буквальном смысле. Избыточная влага, сырость и как следствие плесень, а также глобальные протечки воды в уязвимых зонах жилища могут как стихийно, так и скрытно и медленно разрушать ваш ремонт без видимых признаков катастрофы. Сегодня рынок инженерных систем предлагает оптимальное решение – установка системы защиты от протечки воды, однако, как известно, система системе рознь.
Читать далееРассказываем, как прошла вторая половина марта 2026 года в русскоговорящей игровой индустрии. В нашем дайджесте вас, как всегда, ждут свежие анонсы, подробности о новых проектах, а также важная информация из пресс-релизов ожидаемых игр.
Читать далееСегодня, 1 апреля 2026 года, Apple отмечает свой 50-летний юбилей. Для индустрии это не просто дата, а история трансформации гаражного стартапа двух энтузиастов в глобальную экосистему с капитализацией $3,5 трлн. В штате компании трудятся 166 тысяч человек, а количество активных устройств превысило психологическую отметку в 2,5 миллиарда.
Читать далее