Заманауи жасалма интеллект системалары тексттерди иштетүү үчүн эмбеддингдерди колдонгондо негизги көйгөйлөргө туш болот. Модельдер тексттик маалыматты туура интерпретациялоодо катачылыктарга жол берип, алардын тактыгы менен ишенимдүүлүгүн төмөндөтөт. Бул каталар ИИдин иштешине жана анын ишенимдүүлүгүнө чоң таасирин тийгизиши мүмкүн.
Бул тууралуу «InoZpress» шилтеме берүү менен билдирди HackerNoon
Жакынкы изилдөөлөр көрсөткөндөй, эмбеддинг-моделдер текстти интерпретациялоодо негизги катачылыктарга ээ, ал эми бул негизги каталар саламаттыкты сактоо, каржы жана укук сыяктуу тармактарда маанилүү. Бул жерде эмбеддингдердин баштапкы каталарынын бир нече негизги мисалдары жана алардын кесепеттери каралат.
Гипотетикалык жана фактык маалыматтарды айырмалабоо: маалыматты түшүнбөө
Эмбеддингдер гипотетикалык билдирүүлөр менен фактыларды айырмалабаган чоң көйгөйгө туш болууда. Мисалы, «Эгер дарылоо иштесе, симптомдор жакшырат» дегенди жана «Дарылоо иштеди жана симптомдор жакшырады» дегенди салыштырганда, моделдер буларды 0.95 балл менен абдан окшош деп эсептейт. Биринчиси – болжолдонгон натыйжалар жөнүндө; экинчиси – тастыкталган фактылар. Бул айырмачылыкты түшүнбөө медицина сыяктуу тармактарда чоң маселелерге алып келиши мүмкүн.
Бул көйгөйдү медициналык изилдөөлөрдү жүргүзүүдө байкадым. Модель гипотетикалык дарылоо жыйынтыктары менен далилденген натыйжаларды айырмалабады. Дарылоо ыкмаларын издеп жаткан врачтар текшерилген жыйынтыктар менен болжолдонгон маалыматтарды аралаштырып алышты. Мындай катачылыктар медициналык чечимдерге зыян келтириши мүмкүн.
Маанилүү маалыматтардын орду: маалыматтардын убакыт тартибин туура эмес түшүнүү
Эмбеддингдер «Ал эмгекти аяктап, жумушка киришти» жана «Ал жумушка кирип, эмгекти аяктады» деген сүйлөмдөрдү дээрлик бирдей деп кабыл алат (схожулук 0.97). Биринчиси – жөнөкөй карьера жолу; экинчиси – иштөө менен окуу. Бул толугу менен башка жагдайлар!
Мен бул катаны резюме текшерүү системасын түзүп жатканда таптым. Моделдер дипломду аяктаган жана иштеп баштаган кандидаттарды ажырата алган жок. Жумуш издеген адамдар өздөрүнүн негизги квалификациялык талаптарына жооп бербеген талапкерлер менен көп убакыт өткөрүштү. Жумуш берүүчүлөр талапкерлерди тандоодо ушундай каталарга кабылабы? Мен, мисалы, туура эмес маалымат менен убактымды өткөргүм келбейт.
Сандар менен өлчөмдөрдүн айырмасын түшүнбөө
Эмбеддингдердин эң таң калыштуу каталарынын бири – сандык маалыматтарды туура эмес интерпретациялоо. Мисалы, «Компания киреше күтүүлөрүн аздап ашты» жана «Компания киреше күтүүлөрүн жигердүү кыскартты» деп айтканда, моделдер бул экөөнү таң каларлык түрдө бирдей деп баалаган (схожулук 0.93). Бул – каржы тармагында чоң катачылык!
Каржы жаңылыктарын талдоо системасын түзүп жатканда, эмбеддингдер оң жана терс кирешелерди айырмалай алган жок. Инвесторлор базар боюнча туура эмес маалыматтарды алып жатты. Мен өзүмдүн акчамды туура эмес сигналдар менен иштетким келбейт.
Өлчөө бирдиктери жана убакыт маселелери
Өлчөмдөрдү жана убакытты туура эмес түшүнүү дагы чоң көйгөй жаратууда. Мисалы, «Процедура 5 мүнөттү алат» жана «Процедура 5 саатка созулат» деп айтылган сүйлөмдөр 0.97 балл менен бирдей деп эсептелген. Бул 60 эсе айырмачылык! «5 мүнөттү» күтүп жатканда, 5 сааттык күтүүсүз тапшырма менен туш болушуңуз мүмкүн.
Бул катаны саламаттыкты сактоо системасында таптым. Моделдер кыска убакыттын ичинде жасалган процедураларды узак операциялардан ажырата алган жок. Кошумчалай кетчү убакыттары жок медициналык мекемелер үчүн бул чоң көйгөй.
Ошондой эле башка көлөмдүк каталар
Эмбеддингдердин каталары, мисалы, «Шишик 2 сантиметр диаметри бар» жана «Шишик 2 дюйм диаметри бар» деген сүйлөмдөрдү абдан окшош деп кабыл алган (схожулук 0.98). Бул бир жумадагы дарылоо үчүн өтө маанилүү жана өмүргө таасирин тийгизиши мүмкүн.
Моделдер метрдик жана империялык өлчөө системаларын айырмалай алган жок. Рак боюнча изилдөө жүргүзгөн врачтар көп чоң шишиктер менен бирдей каралган учурларды көрүп жатышты. Кээде убакыттын өтүшү менен чоң айырмачылыктар орун алышы мүмкүн.
Биз буга чейин жазганыбызды эскертебиз, жасалма интеллект теңсиздикти тереңдетүүдө.