Feed aggregator

Как локально и бесплатно распознать текст лекции или совещания и делать это регулярно

Habr.com - Tue, 09/02/2025 - 05:23

В новостях всё чаще говорят об «ИИ‑диктофонах» — гаджетах, которые записывают каждый ваш разговор в течение дня, отправляют аудио в облако, превращают его в текст и даже готовят краткую сводку по итогам. Звучит футуристично, но такие решения стоят дорого, требуют постоянной подписки и вызывают вопросы о приватности.

Лично мне идея тотальной записи кажется избыточной. Зато куда практичнее другая задача: получить точную текстовую расшифровку лекции, доклада или публичного выступления. Чтобы потом не переслушивать часы аудио, а быстро найти нужную цитату или мысль простым поиском по тексту.

В этой статье я покажу, как построить такую систему без платных подписок и полностью под вашим контролем. Всё, что нужно — обычный диктофон за 1–3 тыс. рублей или даже просто приложение на телефоне — тогда затраты вообще равны нулю, и набор бесплатных, открытых программ, которые работают на вашем компьютере. Я купил диктофон для теста и поделюсь результатами.

Сердцем решения станет OpenAI Whisper — мощная технология распознавания речи от создателей ChatGPT. Главное её преимущество — она может работать полностью автономно на вашем ПК, не отправляя никуда ваши данные. К тому же Whisper распространяется как open‑source: исходный код и модели доступны бесплатно — вы можете скачать, использовать и при необходимости даже модифицировать.

Мои скрипты выложены на GitHub.

Кто что сказал

Государственно-частное партнерство: краткое руководство для ИТ компании

Habr.com - Tue, 09/02/2025 - 01:55

Впервые с ГЧП я столкнулся на практике во время работы в государственных структурах — участвовал в обсуждении и согласовании нормативных актов, регулирующих развитие инновационной инфраструктуры. После госслужбы несколько лет работал в организации, где лично участвовал в структурировании сделок ГЧП «с нуля» от идеи до подписания соглашения.
На базе этого опыта уже несколько лет веду образовательные курсы в РАНХиГС и МГТУ им. Н.Э. Баумана, сопровождаю студенческие стартапы и помогаю им выходить на рынок.

В этом тексте я кратко, без юридического жаргона и бюрократических схем, объясню, почему ГЧП — это не про "дядю в администрации", а про структуру, доверие и долгосрочный доход.
И почему именно ИТ-стартапы сегодня — идеальные кандидаты на вход в этот рынок.

Читать далее

Время в криптографии

Habr.com - Tue, 09/02/2025 - 01:25

Время имеет большое значение для прикладной криптографии. Многие и многие аспекты применения криптосистем прямо или косвенно завязаны на ход или на измерение хода времени. Иногда влияние очевидно. Но чаще – нет. Рассмотрм на примерах самые занимательные аспекты времени в приложениях криптографии.

Читать далее

Boolean — плохой флаг для данных

Habr.com - Mon, 09/01/2025 - 22:38

Мы все видели и использовали поля типа boolean в базах данных как часть структуры данных.
На первый взгляд это удобно: два значения — «да» или «нет», просто и понятно.

Например, у пользователя может быть флаг is_active, который показывает, включён аккаунт или нет, или поле is_deleted, которое используется как мягкое удаление. Такие поля встречаются повсюду.

Но на практике хранение boolean в базе данных как элемента модели часто приводит к проблемам.

В этой статье разберёмся, почему boolean может быть плохим выбором, и что использовать вместо него, чтобы избежать ошибок в будущем.

Читать далее

Мультиплеер в Цивилизации 5

Habr.com - Mon, 09/01/2025 - 22:25

Некоторое время назад я участвовал в разработке поддержки мультиплеера для одной глобальной модификации Цивилизации 5 и сегодня хотел бы поделиться здесь некоторыми подробностями о том, как устроена сетевая игра, как всё-таки запустить ее с модами, что с ней вообще не так, и как мы это фиксили.

Читать далее

Обзор UDTF в PySpark

Habr.com - Mon, 09/01/2025 - 21:55

Привет, Хабр!

Сегодня разберём фичу из PySpark — UDTF. Если раньше мы писали UDF и UDAF, то UDTF — это про функцию, которая запускается в секции FROM запроса и возвращает как бы несколько стро» для каждой входной записи Звучит круто.

UDTFs пригодятся, когда на один входной объект нужно получить множество выходных строк. Простой пример: у нас есть строка текста и мы хотим разделить её на слова так, чтобы каждое слово вышло отдельной строкой. Со стандартным UDF такое не сделать (он возвращает одно значение, например конкатенацию или длину). Но UDTF может делать цикл yield внутри и выдавать сколько угодно строк. Итак, приступим к делу.

Читать далее

От сессии до релиза: как совмещать учебу и работу в IT-компании

Habr.com - Mon, 09/01/2025 - 21:32

В команде НИЦ ЦТ много студентов, которые успевают и учиться, и работать.  В честь начала учебного года мы попросили рассказать, как им это удается, что дает ранний карьерный старт и как вуз относится к такому совмещению.  

Всем, кто сегодня сел на ученическую скамью,  расскажем живой опыт и истории о том, как искать работу и практику, как не уронить успеваемость и почему работа во время учебы важна.

Читать далее

Демистификация unaligned access undefined behavior в C

Habr.com - Mon, 09/01/2025 - 21:20

Неопределённое поведение (Undefined Behavior, UB) в C и C++ — одна из причин, по которым разработчики всё чаще ищут языки с полностью определённой семантикой. Одним из самых коварных UB является unaligned access, с точки зрения стандарта C это, например, когда происходит попытка разыменовать указатель как uint32_t, а значение указателя (адрес) не кратно четырём. Один из частых сценариев использования, приводящих к такому UB - получение данных по сети и их интерпретация как чисел.

Читать далее

Android. Glance Widgets. Начало

Habr.com - Mon, 09/01/2025 - 21:16

Android. Glance widgets.

По разным причинам мы начинаем изучать что-то новое. Будь то углубленный курс по твоей специализации. Или это что-то стороннее, получить навык, который давно хотел освоить. И вот мы сталкиваемся с новым и попадаем в цикл понятно/ничего непонятно.

Статья для тех, кто хочет изучить Glance виджеты на Android. Посмотреть на существующие проблемы, про подводные камни и увидеть способы их решения. Полезно делиться опытом

Читать далее

Vulkan с использованием Rust. Часть 1

Habr.com - Mon, 09/01/2025 - 21:05

Используем Vulakn API на Rust! На В этом руководстве мы шаг за шагом разберём, как создать Logical Device - основу для общения с вашей видеокартой. Без лишней магии, только чёткие объяснения и работающий код. Убедимся, что сложность Vulkan - это не страшно, а очень даже логично!

Читать далее

Как мы внедряли семантический поиск по сообществам ВКонтакте: про раков, астрологию и затянувшийся таймлайн проекта

Habr.com - Mon, 09/01/2025 - 20:36

Представьте ситуацию: вам захотелось заказать раков. Что будете делать? Есть несколько вариантов, один из них — поискать подходящее заведение с доставкой в социальных сетях. Там можно найти локальную компанию с хорошими отзывами и приемлемыми ценами. Вы заходите ВКонтакте, открываете поиск по сообществам, вбиваете запрос «заказ раков» и получаете... подборку сообществ по астрологии. Совпадение по тексту есть, паблики популярные, можно сказать, что алгоритмы справились. Вы узнали о влиянии планет на вашу судьбу, но остались без раков.

Казалось бы, запрос звучал очевидно, но для классического текстового поиска это задача со звёздочкой. На помощь приходит семантический поиск — технология, которая обещает понять не только буквы в запросе, но и смыслы, стоящие за ними.

Меня зовут Арсений Расов, я тимлид ML-инженеров в команде поиска AI VK. В этой статье расскажу, как мы с командой внедряли семантический поиск по сообществам ВКонтакте и почему задача, рассчитанная на два месяца, заняла полгода. Рассмотрим современные NLP-технологии в продакшене и поговорим про непредсказуемость проверенных алгоритмов за пределами Jupyter Notebook.

Читать далее

Учебник под микроскопом. Часть 1: из PDF в TXT

Habr.com - Mon, 09/01/2025 - 20:15

Автоматический способ превращения учебника в текстовый файл (TXT) для дальнейшего анализа. В статье пишем о том, как с помощью Python и OCR извлечь текст из PDF, даже если это сканированные страницы в плохом качестве.

Читать далее

От визуала к прибыли

Habr.com - Mon, 09/01/2025 - 20:15

Как рождается по-настоящему эффективный дизайн, который решает реальные бизнес-задачи, а не просто радует глаз.

Читать далее

Generative Business Intelligence. BI без дашбордов и аналитиков

Habr.com - Mon, 09/01/2025 - 19:49

В классическом BI мы вручную пишем SQL, строим отчёты и визуализации. Но сегодня нейросети делают всё больше работы: сами пишут запросы, формируют дашборды и даже выдают инсайты. У этого направления уже есть название - Generative BI (GenBI). Адептов GenBI становится всё больше.

Примеры компаний, предлагающих или реализующих подобные решения

1.Snowflake предлагает Enterprise AI - безопасный доступ к топовым LLM внутри корпоративного контура.

Кроме них, в гонке уже:

Читать далее

Пора увольняться

Habr.com - Mon, 09/01/2025 - 19:47

Бывало ли у вас?

А бывало у вас так, что лежите вы в кровати надо вставать и идти на работу, а вам прямо нестерпимо лень идти именно туда? Прямо даже может организм сопротивляться? Почти что депрессия в рабочие утра или температура подскакивает или тошнит, а в выходные такого нет?

Вы переводите будильник на максимально поздно, завтракаете как можно дольше, чего-то там копаетесь… А потом бежите сломя голову на эту самую работу потому, что вы яблоко.

При чем тут яблоко?

FIDE Grand Swiss 2025: Прогнозы, котировки и психология игроков

Habr.com - Mon, 09/01/2025 - 19:42

Привет, шахматные фанаты!

В этом посте разберём, кто реально имеет шансы на успех в Grand Swiss 2025 в Самарканде. Всё по делу: рейтинг FIDE, результаты топ-турниров 2024 года, котировки букмекеров и аналитика с использованием bStresScore — показателя стрессоустойчивости игроков в критические моменты.

Читать далее

Почему ChatGPT может сделать нас глупее и как этого избежать

Habr.com - Mon, 09/01/2025 - 19:35

Некоторые исследования показывают, что активное использование ИИ снижает мозговую активность на 47%. Разбираемся, насколько это критично и как защитить свои когнитивные способности.

Читать далее

Игра кода и PR-психология: как убедить техническую аудиторию рассказывать о твоём проекте

Habr.com - Mon, 09/01/2025 - 19:16

Большинство разработчиков любят писать код, но редко рассказывают о нём. PR-подходы в инженерной среде часто воспринимаются с подозрением: «Ну опять маркетинг пытается что-то навязать». Но есть тонкая грань, где грамотная подача превращает сухие коммиты в захватывающую историю, а инженерный блог — в точку притяжения для сообщества. В этой статье — практики, примеры и даже куски кода, которые помогают технической аудитории не только читать, но и делиться вашим проектом.

Читать далее

Топ самых интересных CVE за август 2025 года

Habr.com - Mon, 09/01/2025 - 19:04

Всем привет! Время для нашей ежемесячной подборки ключевых CVE. В августе десяточкой по CVSS отметилась, конечно же, Cisco — в аутентификации через RADIUS в Secure FMC забыли санитизировать пользовательский ввод.

В NetScaler ADC и NetScaler Gateway критический нулевой день под RCE через переполнение памяти. Помимо этого, две критических CVE под произвольный код были исправлены в продуктах от Microsoft. В WinRAR закрыли уязвимость на обход пути, активно эксплуатируемую в атаках. Также критическими CVE отметились Trend Micro Apex One, Docker Desktop и FortiWeb. Об этом и других интересных уязвимостях последнего летнего месяца читайте под катом!

Читать далее

Как инженер переехал в деревню, построил ферму и 5 лет работал без прибыли

Habr.com - Mon, 09/01/2025 - 19:00

Он большой, а значит, много мяса. Весит около 150 кг. 

Он – долгожитель. Живет 70 лет, из них 35 лет продуктивных. Купил самку в 5 лет – она будет нести яйца до 40 лет.

Он – живучий. Никаких специфических птичьих заболеваний нет. Ветеринарные расходы минимальные.

Читать далее

Who's online

There are currently 1 user and 8 guests online.
Syndicate content