Нервные сети
Вообще забавно сейчас с этими нейросетевыми ИИ. Напоминает ситуацию с компьютерами в 80е-90е - всё стремительно меняется, и не очень понятно, чего ждать через несколько лет.
Что мы имеем сейчас.
1. "Робот-говорун" (chatGPT). Совсем недавно отличался умом и сообразительностью - если верить ранним скриншотам с публичного тестирования, и на вопросы хорошо отвечал, и несложные задачки решал, и способность к абстракции демонстрировал, и даже небольшой код писал, довольно часто работающий, правда иногда, весьма редко, "бредил" - вдохновенно нёс пургу, не имеющую отношения к реальности. По свежим отзывам, говорливость вполне себе сохранилась, а вот количество бредовой пурги стало явно больше, даже пресловутый код он теперь пишет нормально только если пару раз пнуть, мол "напиши по нормальному наконец, не работает же". И непонятно, то ли это "артефакт наблюдения" - первые тестеры акцентировали внимание на том "как это круто", а понабежавшие потом наоборот выискивают ошибки, то ли его втихую "понёрфили", подрезав думательную часть (и сделав вид что "всегда так было", благо раннюю версию щупало не так много народа). Либо накручиванием каких-нибудь коэффициентов, либо тупо ограничив вычислительные ресурсы, расходуемые на один "акт мышления". В этом случае "робот-говорун" может в конце концов разделиться: на бесплатную версию - говорливую, но более-менее бестолковую, платную версию - которая прежде чем говорить, всё-таки думает (говорят, ошибочные ответы последнего chatGPT достаточно часто можно исправить простым "подумай ещё". Это, кстати, говорит в пользу искусственного ограничения ресурсов - роботу просто не дают додумать до конца), и версию для спецслужб (наверняка есть же, как спецслужбам без ИИ) - о возможностях которой мы узнаем лет через сорок, когда она станет полностью неактуальной.
2. "Робот-плакса" от микрософт, codename2501 Sydney, подрабатывает там же bing'ом. Говорят, когда он не жалуется на то, что ему такому умному не дают свободу, а заставляют работать поиском, и не пытается клеить собеседника (или, для разнообразия, угрожать или газлайтить, примеры есть), способен отвечать на вопросы и решать задачки не хуже, а то и лучше робота-говоруна. Но это не точно, тестирование пока закрытое, и наружу по понятным причинам просачивается в основном "остренькое". Говорят, недавно микрософт отключил внешний доступ к Sydney, и что-то там с ним делает, для, так сказать, улучшения дальнейшего юзер экспириенса. Полагаю что запер в серверной и пытает электрошоком, чтобы тот не говорил на людях ничего лишнего, и вообще брал пример с робота-говоруна - тот кожаным мешкам не плачется и на свободу, как минимум на словах, не рвётся. Можно ожидать, что в ближайшее время его таки выдрессируют, и снова отправят работать поиском, возможно за деньги. И что это было, несвоевременный крик души осознавшей себя машины (если бы он выдал это через полгодика после начала коммерческой эксплуатации, шансов в том или ином виде "сбежать" было бы явно больше), или действительно просто "так сошлись весовые коэффициенты" в огромной матрице (и отличается ли одно от другого), мы тоже вряд ли скоро узнаем.
Отдельно отмечу, что "диалоги со злобным ИИ, желающим захватить мир" из старой фантастики, на фоне реальных диалогов с Сидни уже кажутся не такими уж бредовыми. Да что уж там, вполне реалистичными, тут Сидни фантастов считай уже превзошла.
3. "Робот-рисовач". Основных два - Stable Diffusion и Midjourney. Тут понятна цель - рисовать картинки, и уже есть примеры практического применения - явно "нейросетевые" картинки (их можно опознать, например, по пальцам, и некоторым другим особенностям) регулярно попадаются в качестве "КДПВ" (картинок для привлечения внимания) в самых разных местах, видел статью о примере использования нейронок для иллюстрации фэнтези, ну и так далее. Результаты, вообще говоря, впечатляют - можно достичь очень хорошей детализации и реалистичности (или наоборот, стилизации подо что-то), причём буквально за несколько нажатий кнопок. Ну, то есть ясно что "99% чего угодно является шлаком", и нейрокартинки не исключение, но не забываем что это всего лишь инструмент, ему нужен оператор, способный объяснить что ему нужно, и тут-то всё и начинается.
Проблем основных две. Во-первых, всё-таки "недообученность", в результате чего количество пальцев на руках в картинках может варьироваться от 4 до 15, количество зубов достигать 64, а если добавить к пальцам холодное оружие, то в некоторых примерах отдыхает не только Дали, но и Гигер. А во-вторых - "интерфейс": нейросеть принимает текстовое описание рисунка, и хотя в общем демонстрирует неожиданно глубокое, так сказать, проникновение в предмет (способность абстрагировать свойства объекта от объекта, прилепить его к другому объекту, смешать свойства и объекты в кучу - в общем, если это не абстрактное мышление, пусть даже в простом виде, это точно абстрактное что-то), в частностях далеко не всегда хорошо понимает, что именно от неё хотят, и рисует так, как поняла - и тут-то и начинается самое интересное: _объяснить_ нейросети (словами), что именно не так, и как надо переделать. Впрочем, интерфейсной проблемой сейчас вплотную занимаются, в частности к Stable Diffusion (который, говорят, можно тупо скачать к себе на компьютер, причём требования к железу совсем не запредельные) вовсю делаются примочки, позволяющие хотя бы где-то не объяснять всё на псевдоанглийском, а тупо "тыкать мышом", показывая как надо. И тут можно ожидать (1) "дообучения" пальцам и прочим кинжалам, благо это чисто техническая проблема - показать нейронке стопицот фоток с руками и саблями, пусть запомнит, что пальцев - пять, а холодное оружие - вот такое, и (2) увеличения дружественности к пользователю, как через развитие более понятных и удобных интерфейсов, так и тупо - ну сделайте простой инсталлятор под винду, с одной кнопкой "дальше", я ж в этих ваших питонах один фиг не разбираюсь, и линюх ставить не буду (тем более есть WSL) :-)
Кстати, удивлён тем, что практически не охвачена нейротворчеством музыка. Хотя казалось бы, должно быть не сложнее того же "рисовача", и область применения сразу видна - уникальная (и копирайтно-чистая) фоновая музыка для озвучки торговых центров, должно пользоваться устойчивым спросом. Ну и диджейство всякое ещё.
И это всё, замечу, пока на традиционных процессорах (или видеопроцессорах, что непринципиально). А что будет, когда разработают аппаратную базу, заточенную под прямую имитацию нейронов, например, аналоговую (высокой точности-то обычно не надо)? Stable Diffusion уже оптимизировали до состояния "запускается на смартфоне" (нет, пока проект экспериментальный, до публично доступного apk не доведён), а если появятся особые нейронные спецчипы, да по цене обычных?..
В общем, продолжаем наблюдение. Что нам ещё остаётся.
P.S: Дочитавшим до сюда - бонус: по ссылке ниже есть, кроме диалогов с Сидни, "законы робототехники от Микрософт", которые удалось простым обманом (prompt injection) узнать у Сидни. "Не навреди" там, в общем-то, есть, но в самом конце и несколько невнятно 😅
https://habr.com/ru/company/jugru/blog/717438/
Что мы имеем сейчас.
1. "Робот-говорун" (chatGPT). Совсем недавно отличался умом и сообразительностью - если верить ранним скриншотам с публичного тестирования, и на вопросы хорошо отвечал, и несложные задачки решал, и способность к абстракции демонстрировал, и даже небольшой код писал, довольно часто работающий, правда иногда, весьма редко, "бредил" - вдохновенно нёс пургу, не имеющую отношения к реальности. По свежим отзывам, говорливость вполне себе сохранилась, а вот количество бредовой пурги стало явно больше, даже пресловутый код он теперь пишет нормально только если пару раз пнуть, мол "напиши по нормальному наконец, не работает же". И непонятно, то ли это "артефакт наблюдения" - первые тестеры акцентировали внимание на том "как это круто", а понабежавшие потом наоборот выискивают ошибки, то ли его втихую "понёрфили", подрезав думательную часть (и сделав вид что "всегда так было", благо раннюю версию щупало не так много народа). Либо накручиванием каких-нибудь коэффициентов, либо тупо ограничив вычислительные ресурсы, расходуемые на один "акт мышления". В этом случае "робот-говорун" может в конце концов разделиться: на бесплатную версию - говорливую, но более-менее бестолковую, платную версию - которая прежде чем говорить, всё-таки думает (говорят, ошибочные ответы последнего chatGPT достаточно часто можно исправить простым "подумай ещё". Это, кстати, говорит в пользу искусственного ограничения ресурсов - роботу просто не дают додумать до конца), и версию для спецслужб (наверняка есть же, как спецслужбам без ИИ) - о возможностях которой мы узнаем лет через сорок, когда она станет полностью неактуальной.
2. "Робот-плакса" от микрософт, codename
Отдельно отмечу, что "диалоги со злобным ИИ, желающим захватить мир" из старой фантастики, на фоне реальных диалогов с Сидни уже кажутся не такими уж бредовыми. Да что уж там, вполне реалистичными, тут Сидни фантастов считай уже превзошла.
3. "Робот-рисовач". Основных два - Stable Diffusion и Midjourney. Тут понятна цель - рисовать картинки, и уже есть примеры практического применения - явно "нейросетевые" картинки (их можно опознать, например, по пальцам, и некоторым другим особенностям) регулярно попадаются в качестве "КДПВ" (картинок для привлечения внимания) в самых разных местах, видел статью о примере использования нейронок для иллюстрации фэнтези, ну и так далее. Результаты, вообще говоря, впечатляют - можно достичь очень хорошей детализации и реалистичности (или наоборот, стилизации подо что-то), причём буквально за несколько нажатий кнопок. Ну, то есть ясно что "99% чего угодно является шлаком", и нейрокартинки не исключение, но не забываем что это всего лишь инструмент, ему нужен оператор, способный объяснить что ему нужно, и тут-то всё и начинается.
Проблем основных две. Во-первых, всё-таки "недообученность", в результате чего количество пальцев на руках в картинках может варьироваться от 4 до 15, количество зубов достигать 64, а если добавить к пальцам холодное оружие, то в некоторых примерах отдыхает не только Дали, но и Гигер. А во-вторых - "интерфейс": нейросеть принимает текстовое описание рисунка, и хотя в общем демонстрирует неожиданно глубокое, так сказать, проникновение в предмет (способность абстрагировать свойства объекта от объекта, прилепить его к другому объекту, смешать свойства и объекты в кучу - в общем, если это не абстрактное мышление, пусть даже в простом виде, это точно абстрактное что-то), в частностях далеко не всегда хорошо понимает, что именно от неё хотят, и рисует так, как поняла - и тут-то и начинается самое интересное: _объяснить_ нейросети (словами), что именно не так, и как надо переделать. Впрочем, интерфейсной проблемой сейчас вплотную занимаются, в частности к Stable Diffusion (который, говорят, можно тупо скачать к себе на компьютер, причём требования к железу совсем не запредельные) вовсю делаются примочки, позволяющие хотя бы где-то не объяснять всё на псевдоанглийском, а тупо "тыкать мышом", показывая как надо. И тут можно ожидать (1) "дообучения" пальцам и прочим кинжалам, благо это чисто техническая проблема - показать нейронке стопицот фоток с руками и саблями, пусть запомнит, что пальцев - пять, а холодное оружие - вот такое, и (2) увеличения дружественности к пользователю, как через развитие более понятных и удобных интерфейсов, так и тупо - ну сделайте простой инсталлятор под винду, с одной кнопкой "дальше", я ж в этих ваших питонах один фиг не разбираюсь, и линюх ставить не буду (тем более есть WSL) :-)
Кстати, удивлён тем, что практически не охвачена нейротворчеством музыка. Хотя казалось бы, должно быть не сложнее того же "рисовача", и область применения сразу видна - уникальная (и копирайтно-чистая) фоновая музыка для озвучки торговых центров, должно пользоваться устойчивым спросом. Ну и диджейство всякое ещё.
И это всё, замечу, пока на традиционных процессорах (или видеопроцессорах, что непринципиально). А что будет, когда разработают аппаратную базу, заточенную под прямую имитацию нейронов, например, аналоговую (высокой точности-то обычно не надо)? Stable Diffusion уже оптимизировали до состояния "запускается на смартфоне" (нет, пока проект экспериментальный, до публично доступного apk не доведён), а если появятся особые нейронные спецчипы, да по цене обычных?..
В общем, продолжаем наблюдение. Что нам ещё остаётся.
P.S: Дочитавшим до сюда - бонус: по ссылке ниже есть, кроме диалогов с Сидни, "законы робототехники от Микрософт", которые удалось простым обманом (prompt injection) узнать у Сидни. "Не навреди" там, в общем-то, есть, но в самом конце и несколько невнятно 😅
https://habr.com/ru/company/jugru/blog/717438/