В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.
В этой статье вы узнаете:
* Разницу между оценкой LLM-чат-ботов и стандартной оценкой LLM
* Различные подходы к оценке LLM-диалогов
* Различные типы метрик для оценки LLM-чат-ботов
* Как реализовать оценку LLM-диалогов в коде с использованием DeepEval
Читать далееИзвиняюсь за наглое название. Но если поиск Google потерял активного пользователя в моем лице, а Яндекс-поиск - в лице моей жены, то значит процесс пошел))) Логично?
А если серьезно, то я оказался настолько впечатлен резким снижением затрат времени на поиск информации при использовании ChatGPT, что захотелось спросить что думают по этому поводу Хабровчане.
Смотрите: я действительно стал использовать поиск через ChatGPT чаще чем просто через Гугл-поиск. Не думаю, что я такой уникальный, просто преимущества оказались очевидны (о недостатках - ниже).
То есть когда народ распробует массово, это может сказаться на поисковых системах.
Как именно? Что вы об этом думаете?
Значит это аукнется и на SEO?
Как? А об этом что думаете?
На чем еще это может сказаться?
Дальше для иллюстрации просто расскажу свои микро-истории по добыче информации в ChatGPT с включенной функцией поиска в интернете. Речь о ярлычке со стилизованным земным шаром, расположенным в поле ввода запроса на https://chatgpt.com/
Читать далееПривет, Хабр! Меня зовут Анна Ахлестова, я Flutter Team Lead в компании Friflex. Сегодня расскажу про защиту критических данных в приложении на Flutter — это один из модулей, которые аудиторы проверяют очень часто. Утечка таких данных может привести к серьезным потерям, от материальных до репутационных (рассказывала об этом на CrossConf).
Здесь разберу семь основных аспектов, на которые обращают внимание аудиторы при проверке:
Читать далееЧто такое универсальная система управления (UCS), и действительно ли она способна заменить распределённые системы управления (DCS) в будущих задачах по управлению технологическими процессами? Каковы основные преимущества UCS?
Читать далееПрочитал тут недавно, что специалисты из Си-Ай-Эй создали (или создают) цифровых двойников мировых лидеров в целях прогнозирования их поведения в различиных геополитических реалиях
Читать далееПоявление трансформеров и мультимодальных моделей превратило языковые модели из инструментов для узкоспециализированных задач в универсальные системы, способные решать широкий спектр проблем. Эти достижения повысили не только производительность, но и доступность ИИ, позволив интегрировать его в повседневную жизнь и бизнес. Сегодня LLM — это не просто технология, а платформа, на которой строится будущее искусственного интеллекта. Расскажем, как развивались современные нейросети и научим вас формулировать запросы к LLM так, чтобы они точно понимали ваши потребности.
Никита Грибанов — Data Scientist из компании RAFT, занимается исследованием безопасности. На закрытом эфире для комьюнити Skillbox Code Experts рассказал, что такое LLM и как с ними общаться. Изложили основные мысли в статье.
Читать далееНе часто Spring разработчикам нужно разрабатывать админки, но когда нужно… Встает вопрос, какую технологию для этого выбрать. Неплохим решением может стать фреймворк Vaadin, или платформа Jmix, которую тоже разрабатывает наша компания. Языковая преемственность и возможность писать фронтенд код на бекенде очень подкупают, однако, эти технологии не лишены определенных проблем. В частности, глубокая кастомизация потребует серьезного погружения в технологию, что создает определенные риски для проекта. Возможно, есть какая-то альтернатива с использованием более популярных фронтенд технологий?
Читать далееНа Java пишется огромное количество серверного кода. Отсюда следует, что написанные на ней веб-приложения должны быть устойчивы к специальным уязвимостям. И эта небольшая статья как раз про один из способов борьбы с ними — SAST. И ещё про то, что такое taint-анализ и как он во всём этом участвует.
Читать далееЭкономика изучает человеческое общество так же, как физика изучает физический мир.
Конечно, человек – это не элементарная частица, но и его поведение подчиняется
определенным законам. Законы, по которым люди взаимодействуют друг с другом,
объективны и не подвластны нашему желанию, так же как ему не подвластны законы
природы. Идти против законов экономики – это все равно что наступать на грабли:
неприятные последствия гарантированы.
Мировая экономика изучает отношения между странами в области торговли товарами и услугами, финансовых потоков и перемещения факторов производства, экономические предпосылки и последствия проводимой торговой, денежной, инвестиционной политики. Специфика этого функционирующего и постоянно развивающегося явления определяется тем обстоятельством, что оно многообразно и противоречиво, подвержено воздействию различных факторов, в нем отсутствуют жесткие связи и господствует постоянная изменчивость.
Но на любом этапе развития оно всегда имеет организационное начало - международное разделение труда и кооперацию. В настоящее время мировое хозяйство является объективным результатом экономического роста, в котором выражается растущая и крепнущая целостность современного мира.
.
Сегодня анализ любой национальной экономики будет неполон и может исказить реальную картину, если не принимать во внимание внешнеэкономическое воздействие. Мировая экономика как составная часть экономической теории дополняет микро- и макроанализ, создает целостную картину функционирования экономик рыночного типа.
Россия, вступив в зону экономического роста, стала укреплять свои позиции на мировом рынке капитала. Она стала объектом расширяющихся притоков иностранных инвестиций. И в то же время стала сама проникать на зарубежные рынки, размещая там свои активы. На конец 2005 г. объем российских инвестиций, накопленных за рубежом, составил 7,3 млрд. долл. Основные страны - реципиенты российского капитала - это США, Австрия, Кипр, Великобритания, Багамские острова.
Отчет о, написанном мною, алгоритмическом статичном двунаправленном дереве, имеющим сложность по всем параметрам. Не считаю эту статью чем-то выдающимся, никуда не претендую, это всего лишь отчет моей работы. Если вам понравится можете свободно пользоваться.
В качестве небольшого предисловия:
Зачем я спроектировал дерево?
Я пишу научный проект из сферы биологии, где присутствует элемент иерархии, и для последовательного выполнения действий следовало отсортировать данные по приоритетам, при этом делать это максимально быстро и эффективно.
Пример профилей поведения будет в конце статьи.
Из новостей: разработчики MiSide про 1% с продаж игры, SDL 3, продажи Balatro превысили 5 миллионов копий, экспериментальная поддержка C# в Defold, динамическая разрушаемость с помощью Havok Physics.
Из интересностей: почему на создание Judas Кена Левина ушло 10 лет, как создаются бойцы Super Smash Bros, загадка дыры.
Читать далееКто сказал, что разработка ИИ‑агента — это сложно, долго и только для корпораций с миллионами в бюджете? Сегодня мы убедимся, что добавить в своё приложение умного ассистента может каждый. Встречайте: ИИ‑агент, который помогает пользователю принимать решения и обновляет данные в реальном времени.
Используя CopilotKit, LangGraph и Google Maps API, мы создадим приложение, которое не только действует по сценариям, но и предлагает решения. Мы изучим, как реализовать human‑in‑the‑loop, чтобы пользователь мог одобрять или отклонять действия агента.
Приятного прочтения (‑:
Читать далееНа один из процессов я разработала почти 150 тестов. В статье показываю и рассказываю, как тестировать в Camunda.
Всем привет, меня зовут Артурас. В свободное время пишу браузерный движок для игр jsge, делаю на нем небольшие игрушки и работаю над улучшением его производительности.
Наиболее шустрые приложения пишутся на C++. Мне захотелось отвлечься, обогатить свой опыт и погонять популярные движки на этом замечательном языке.
Результат тестирования движка cocos2d-x мне показался интересным и я решил поделиться с Хабром.
Читать далееПривет, Хабр! Те же знакомые, что отдали мне утонувший робот-пылесос из этого поста, подарили ноутбук Primux Ioxbook — 14-дюймовый девайс, очень-очень бюджетный. Выглядит он не так плохо, но характеристики оставляют желать лучшего. Я взял лэптоп специально для разборки, причем думал, что это творение из Поднебесной. Но оказалось, что Primux — вполне себе испанская компания. Возможно, с китайскими корнями, об этом — ниже. Давайте разбираться, что предлагают нам ребята с родины шелка и панд фламенко и хамона?
Читать далееОбучение в онлайн-школе программирования для детей можно охарактеризовать массой плюсов: развитием логического мышления и других ценных навыков, приближением к информационным технологиям – перспективной сфере, формированием способности полезно использовать компьютер и т. д. Но сегодня не об этом: если преимущества онлайн-уроков программирования для детей понятны и хочется записать ребенка на занятия, но с выбором школы возникают трудности, советуем представленную подборку.
Рассмотрели 10 организаций, предлагающих услуги в удаленном режиме и ориентированных на обучение современных детей написанию кода. Построили описательную часть по такому плану:
Цена;
Форматы;
Направления.
Посмотреть рейтингВ этой челлендж-серии статей попробуем использовать PostgreSQL как среду для решения задач Advent of Code 2024.
Возможно, SQL не самый подходящий для этого язык, зато мы рассмотрим его различные возможности, о которых вы могли и не подозревать.
В этой части совсем простая идея по одновременному решению систем линейных уравнений "пачками".
Читать далее