diff --git a/.github/PULL_REQUEST_TEMPLATE.md b/.github/PULL_REQUEST_TEMPLATE.md new file mode 100644 index 0000000..40d3877 --- /dev/null +++ b/.github/PULL_REQUEST_TEMPLATE.md @@ -0,0 +1,10 @@ + + +- [ ] 这个 PR 是关于添加Links的 +- [ ] 我在申请之前加上了[贵站](https://mabbs.github.io)友链 +- [ ] 我的网站 **全站启用 HTTPS** +- [ ] 我的博客满足: **原创文章比例>80%,数量>10** 的要求 +- [ ] 我的网站满足 **站点稳定,不弃坑** 的要求 +- [ ] 我的链接列表不需要客户端渲染 + +我的网站是: \ No newline at end of file diff --git a/.readthedocs.yaml b/.readthedocs.yaml new file mode 100644 index 0000000..5124702 --- /dev/null +++ b/.readthedocs.yaml @@ -0,0 +1,16 @@ +# Required +version: 2 + +build: + os: ubuntu-24.04 + tools: + ruby: "3.3" + + commands: + - gem install bundler + - bundle install + - mkdir Mabbs + - curl -L -o Mabbs/README.md https://github.com/Mabbs/Mabbs/raw/main/README.md + - bundle exec jekyll build --destination $READTHEDOCS_OUTPUT/html + - tar czvf MayxBlog.tgz -C $READTHEDOCS_OUTPUT html + - mv MayxBlog.tgz $READTHEDOCS_OUTPUT/html \ No newline at end of file diff --git a/404.md b/404.md index e861b44..6cc9116 100644 --- a/404.md +++ b/404.md @@ -2,5 +2,13 @@ layout: default title: 404 - 找不到页面 --- + # 找不到页面 你访问的资源 不存在或者可能已经被永久移除。 + + 或者看看近期的其他文章? + + {% for post in site.posts limit:10 %} + - {{ post.date | date: "%Y/%m/%d" }} - [{{ post.title }}{% if post.layout == "encrypt" %} [加密] {% endif %}]({{ post.url }}) + + {% endfor %} \ No newline at end of file diff --git a/5b60338bca964816af2f0b76965a1b84.txt b/5b60338bca964816af2f0b76965a1b84.txt new file mode 100644 index 0000000..a710f75 --- /dev/null +++ b/5b60338bca964816af2f0b76965a1b84.txt @@ -0,0 +1 @@ +5b60338bca964816af2f0b76965a1b84 \ No newline at end of file diff --git a/BingSiteAuth.xml b/BingSiteAuth.xml deleted file mode 100644 index 5bbf248..0000000 --- a/BingSiteAuth.xml +++ /dev/null @@ -1,4 +0,0 @@ - - - 0ADFCE64B3557DC4DC5F2DC224C5FDDD - \ No newline at end of file diff --git a/Gemfile b/Gemfile index a7adda3..211c197 100644 --- a/Gemfile +++ b/Gemfile @@ -6,8 +6,15 @@ group :jekyll_plugins do gem "jekyll-assets", "~> 1.0.0" gem "jekyll-sitemap", "~> 1.4.0" gem "jekyll-feed", "~> 0.15.1" + gem "jekyll-include-cache", "~> 0.2.1" + gem "jekyll-readme-index", "~> 0.3.0" + gem "jekyll-default-layout", "~> 0.1.5" + gem "jekyll-titles-from-headings", "~> 0.5.3" gem "jekyll-theme-minimal" gem "jekyll-paginate", "~> 1.1.0" gem "kramdown-parser-gfm", "~> 1.1.0" gem "kramdown", "~> 2.3.2" + gem "csv" + gem "base64" + gem "bigdecimal" end diff --git a/Live2dHistoire/README.md b/Live2dHistoire/README.md index 6cd0553..d1ba4b3 100644 --- a/Live2dHistoire/README.md +++ b/Live2dHistoire/README.md @@ -1,4 +1,5 @@ # Live2d的看板娘——伊斯特瓦尔(Histoire) +[Original Repo](https://github.com/eeg1412/Live2dHistoire) #### 可用于网页端显示Live2D版的伊斯特瓦尔(Histoire) emlog插件版可以看这里:[传送门](https://www.wikimoe.com/?post=75) #### 基于[《给博客添加能动的看板娘(Live2D)-将其添加到网页上吧》](https://imjad.cn/archives/lab/add-dynamic-poster-girl-with-live2d-to-your-blog-02)上的源码进行修改。 #### 在原先的基础上加上了如下功能: @@ -93,9 +94,6 @@ var talkAPI = "";//如果有类似图灵机器人的聊天接口请填写接口 注意路径别弄错了噢 ~ PHP 程序推荐使用主题函数获取绝对路径。 -### 效果预览 -![](https://t1.aixinxi.net/o_1c3mofql9osmpeb1hfvsbv1hqua.gif-j.jpg) - ### 模型说明 本插件仅供学习和交流使用,禁止用于商业用途。 diff --git a/Live2dHistoire/demo.html b/Live2dHistoire/demo.html deleted file mode 100644 index 5846c31..0000000 --- a/Live2dHistoire/demo.html +++ /dev/null @@ -1,45 +0,0 @@ - - - - - Live2D! - - - - -
-
- -
-
- -
-
- - -
-
- -
-
-
-
-
-
- - - - - -
-
-
召唤伊斯特瓦尔
- - - - - - \ No newline at end of file diff --git a/Live2dHistoire/live2d/js/message.js b/Live2dHistoire/live2d/js/message.js index 0ba75b1..08d1675 100644 --- a/Live2dHistoire/live2d/js/message.js +++ b/Live2dHistoire/live2d/js/message.js @@ -1,35 +1,33 @@ -var home_Path = document.location.protocol +'//' + window.document.location.hostname +'/'; - var userAgent = window.navigator.userAgent.toLowerCase(); console.log(userAgent); -var norunAI = [ "android", "iphone", "ipod", "ipad", "windows phone"]; +var norunAI = ["android", "iphone", "ipod", "ipad", "windows phone"]; var norunFlag = false; -for(var i=0;i -1){ +for (var i = 0; i < norunAI.length; i++) { + if (userAgent.indexOf(norunAI[i]) > -1) { norunFlag = true; break; } } -if(!window.WebGLRenderingContext){ +if (!window.WebGLRenderingContext) { norunFlag = true; } -if(!norunFlag){ +if (!norunFlag) { var hitFlag = false; var AIFadeFlag = false; var liveTlakTimer = null; var sleepTimer_ = null; var AITalkFlag = false; var talkNum = 0; - (function (){ + (function () { function renderTip(template, context) { var tokenReg = /(\\)?\{([^\{\}\\]+)(\\)?\}/g; return template.replace(tokenReg, function (word, slash1, token, slash2) { if (slash1 || slash2) { - return word.replace('\\', ''); + return word.replace(/\\/g, ''); } var variables = token.replace(/\s/g, '').split('.'); var currentObject = context; @@ -42,88 +40,89 @@ if(!norunFlag){ return currentObject; }); } - + String.prototype.renderTip = function (context) { return renderTip(this, context); }; - + var re = /x/; - re.toString = function() { + console.log(re); + re.toString = function () { showMessage('哈哈,你打开了控制台,是想要看看我的秘密吗?', 5000); return ''; }; - - $(document).on('copy', function (){ + + $(document).on('copy', function () { showMessage('你都复制了些什么呀,转载要记得加上出处哦~~', 5000); }); - - function initTips(){ + + function initTips() { $.ajax({ cache: true, - url: message_Path+'message.json', + url: message_Path + 'message.json', dataType: "json", - success: function (result){ - $.each(result.mouseover, function (index, tips){ - $(tips.selector).mouseover(function (){ + success: function (result) { + $.each(result.mouseover, function (index, tips) { + $(tips.selector).mouseover(function () { var text = tips.text; - if(Array.isArray(tips.text)) text = tips.text[Math.floor(Math.random() * tips.text.length + 1)-1]; - text = text.renderTip({text: $(this).text()}); + if (Array.isArray(tips.text)) text = tips.text[Math.floor(Math.random() * tips.text.length + 1) - 1]; + text = text.renderTip({ text: $(this).text() }); showMessage(text, 3000); talkValTimer(); clearInterval(liveTlakTimer); liveTlakTimer = null; }); - $(tips.selector).mouseout(function (){ + $(tips.selector).mouseout(function () { showHitokoto(); - if(liveTlakTimer == null){ - liveTlakTimer = window.setInterval(function(){ + if (liveTlakTimer == null) { + liveTlakTimer = window.setInterval(function () { showHitokoto(); - },15000); + }, 15000); }; }); }); - $.each(result.click, function (index, tips){ - $(tips.selector).click(function (){ - if(hitFlag){ + $.each(result.click, function (index, tips) { + $(tips.selector).click(function () { + if (hitFlag) { return false } hitFlag = true; - setTimeout(function(){ + setTimeout(function () { hitFlag = false; - },8000); + }, 8000); var text = tips.text; - if(Array.isArray(tips.text)) text = tips.text[Math.floor(Math.random() * tips.text.length + 1)-1]; - text = text.renderTip({text: $(this).text()}); + if (Array.isArray(tips.text)) text = tips.text[Math.floor(Math.random() * tips.text.length + 1) - 1]; + text = text.renderTip({ text: $(this).text() }); showMessage(text, 3000); }); clearInterval(liveTlakTimer); liveTlakTimer = null; - if(liveTlakTimer == null){ - liveTlakTimer = window.setInterval(function(){ + if (liveTlakTimer == null) { + liveTlakTimer = window.setInterval(function () { showHitokoto(); - },15000); + }, 15000); }; }); } }); } initTips(); - + var text; - if(document.referrer !== '' && document.referrer.split('/')[2] !== window.location.host ){ + if (document.referrer !== '' && document.referrer.split('/')[2] !== window.location.host) { var referrer = document.createElement('a'); referrer.href = document.referrer; text = '嗨!来自 ' + referrer.hostname + ' 的朋友!'; var domain = referrer.hostname.split('.')[1]; if (domain == 'baidu') { text = '嗨! 来自 百度搜索 的朋友!
欢迎访问「 ' + document.title.split(' | ')[0] + ' 」'; - }else if (domain == 'so') { + } else if (domain == 'so') { text = '嗨! 来自 360搜索 的朋友!
欢迎访问「 ' + document.title.split(' | ')[0] + ' 」'; - }else if (domain == 'google') { + } else if (domain == 'google') { text = '嗨! 来自 谷歌搜索 的朋友!
欢迎访问「 ' + document.title.split(' | ')[0] + ' 」'; } - }else { - if (window.location.href == home_Path) { //主页URL判断,需要斜杠结尾 + } else { + if (window.location.pathname == "/") { //主页URL判断,需要斜杠结尾 var now = (new Date()).getHours(); if (now > 23 || now <= 5) { text = '你是夜猫子呀?这么晚还不睡觉,明天起的来嘛?'; @@ -144,133 +143,141 @@ if(!norunFlag){ } else { text = '嗨~ 快来逗我玩吧!'; } - }else { + } else { text = '欢迎阅读「 ' + document.title.split(' | ')[0] + ' 」'; } } showMessage(text, 12000); })(); - - liveTlakTimer = setInterval(function(){ + + liveTlakTimer = setInterval(function () { showHitokoto(); - },15000); - - function showHitokoto(){ - if(sessionStorage.getItem("Sleepy")!=="1"){ - if(!AITalkFlag){ - $.getJSON('https://hitokoto.mayx.eu.org/',function(result){ + }, 15000); + + function showHitokoto() { + if (sessionStorage.getItem("Sleepy") !== "1") { + if (!AITalkFlag) { + $.getJSON('https://hitokoto.mayx.eu.org/', function (result) { talkValTimer(); showMessage(result.hitokoto, 0); }); } - }else{ + } else { hideMessage(0); - if(sleepTimer_==null){ - sleepTimer_ = setInterval(function(){ + if (sleepTimer_ == null) { + sleepTimer_ = setInterval(function () { checkSleep(); - },200); + }, 200); } console.log(sleepTimer_); } } - - function checkSleep(){ + + function checkSleep() { var sleepStatu = sessionStorage.getItem("Sleepy"); - if(sleepStatu!=='1'){ + if (sleepStatu !== '1') { talkValTimer(); showMessage('你回来啦~', 0); clearInterval(sleepTimer_); - sleepTimer_= null; + sleepTimer_ = null; } } - - function showMessage(text, timeout){ - if(Array.isArray(text)) text = text[Math.floor(Math.random() * text.length + 1)-1]; + + function showMessage(text, timeout) { + if (Array.isArray(text)) text = text[Math.floor(Math.random() * text.length + 1) - 1]; //console.log('showMessage', text); $('.message').stop(); - if(text instanceof EventSource){ + if (typeof EventSource !== 'undefined' && text instanceof EventSource) { var outputContainer = $('.message')[0]; var eventFlag = false; - text.onmessage = (event) => { + text.onmessage = function (event) { if (event.data == "[DONE]") { text.close(); - return; + return; } else { - if(!eventFlag){ - talkValTimer(); - outputContainer.textContent = ""; - eventFlag = true; - } - const data = JSON.parse(event.data); - outputContainer.textContent += data.response; + if (!eventFlag) { + talkValTimer(); + outputContainer.textContent = ""; + eventFlag = true; + } + var data = JSON.parse(event.data); + if (data.response) { + outputContainer.textContent += data.response; + } } } - }else{ + } else { $('.message').html(text); } $('.message').fadeTo(200, 1); //if (timeout === null) timeout = 5000; //hideMessage(timeout); } - function talkValTimer(){ + function talkValTimer() { $('#live_talk').val('1'); } - - function hideMessage(timeout){ + + function hideMessage(timeout) { //$('.message').stop().css('opacity',1); if (timeout === null) timeout = 5000; $('.message').delay(timeout).fadeTo(200, 0); } - - function initLive2d (){ - $('#hideButton').on('click', function(){ - if(AIFadeFlag){ + + function initLive2d() { + $("#landlord").mouseenter(function () { + $(".live_ico_box").fadeIn(); + }); + $("#landlord").mouseleave(function () { + $(".live_ico_box").fadeOut(); + }); + $('#hideButton').on('click', function () { + if (AIFadeFlag) { return false; - }else{ + } else { AIFadeFlag = true; localStorage.setItem("live2dhidden", "0"); $('#landlord').fadeOut(200); $('#open_live2d').delay(200).fadeIn(200); - setTimeout(function(){ + setTimeout(function () { AIFadeFlag = false; - },300); + }, 300); } }); - $('#open_live2d').on('click', function(){ - if(AIFadeFlag){ + $('#open_live2d').on('click', function () { + if (AIFadeFlag) { return false; - }else{ + } else { AIFadeFlag = true; localStorage.setItem("live2dhidden", "1"); $('#open_live2d').fadeOut(200); $('#landlord').delay(200).fadeIn(200); - setTimeout(function(){ + setTimeout(function () { AIFadeFlag = false; - },300); + }, 300); } }); - $('#youduButton').on('click',function(){ - if($('#youduButton').hasClass('doudong')){ + $('#youduButton').on('click', function () { + if ($('#youduButton').hasClass('doudong')) { var typeIs = $('#youduButton').attr('data-type'); $('#youduButton').removeClass('doudong'); $('body').removeClass(typeIs); - $('#youduButton').attr('data-type',''); - }else{ + $('#youduButton').attr('data-type', ''); + } else { var duType = $('#duType').val(); var duArr = duType.split(","); var dataType = duArr[Math.floor(Math.random() * duArr.length)]; $('#youduButton').addClass('doudong'); - $('#youduButton').attr('data-type',dataType); + $('#youduButton').attr('data-type', dataType); $('body').addClass(dataType); } }); - if(talkAPI!==""){ - $('#showInfoBtn').on('click',function(){ + if (talkAPI !== "" && typeof EventSource !== 'undefined') { + $('#showInfoBtn').on('click', function () { var live_statu = $('#live_statu_val').val(); - if(live_statu=="0"){ + if (live_statu == "0") { return - }else{ + } else { $('#live_statu_val').val("0"); $('.live_talk_input_body').fadeOut(500); AITalkFlag = false; @@ -279,106 +286,38 @@ if(!norunFlag){ $('#showInfoBtn').hide(); } }); - $('#showTalkBtn').on('click',function(){ + $('#showTalkBtn').on('click', function () { var live_statu = $('#live_statu_val').val(); - if(live_statu=="1"){ + if (live_statu == "1") { return - }else{ + } else { $('#live_statu_val').val("1"); $('.live_talk_input_body').fadeIn(500); AITalkFlag = true; $('#showTalkBtn').hide(); $('#showInfoBtn').show(); - + } }); - $('#talk_send').on('click',function(){ + $('#live_talk_input_form').on('submit', function (e) { + e.preventDefault(); var info_ = $('#AIuserText').val(); // var userid_ = $('#AIuserName').val(); let add_id = ""; - if($('#load_this').prop("checked")){ - add_id = "&id="+encodeURIComponent($('#post_id').val()); + if ($('#load_this').prop("checked")) { + add_id = "&id=" + encodeURIComponent($('#post_id').val()); } - if(info_ == "" ){ - showMessage('写点什么吧!',0); + if (info_ == "") { + showMessage('写点什么吧!', 0); return; } showMessage('思考中~', 0); - const evSource = new EventSource(talkAPI + "?info=" + encodeURIComponent(info_) + add_id); - showMessage(evSource); + showMessage(new EventSource(talkAPI + "?info=" + encodeURIComponent(info_) + add_id)); }); - }else{ + } else { $('#showInfoBtn').hide(); $('#showTalkBtn').hide(); - - } - //获取音乐信息初始化 - var bgmListInfo = $('input[name=live2dBGM]'); - if(bgmListInfo.length == 0){ - $('#musicButton').hide(); - }else{ - var bgmPlayNow = parseInt($('#live2d_bgm').attr('data-bgm')); - var bgmPlayTime = 0; - var live2dBGM_Num = sessionStorage.getItem("live2dBGM_Num"); - var live2dBGM_PlayTime = sessionStorage.getItem("live2dBGM_PlayTime"); - if(live2dBGM_Num){ - if(live2dBGM_Num<=$('input[name=live2dBGM]').length-1){ - bgmPlayNow = parseInt(live2dBGM_Num); - } - } - if(live2dBGM_PlayTime){ - bgmPlayTime = parseInt(live2dBGM_PlayTime); - } - var live2dBGMSrc = bgmListInfo.eq(bgmPlayNow).val(); - $('#live2d_bgm').attr('data-bgm',bgmPlayNow); - $('#live2d_bgm').attr('src',live2dBGMSrc); - $('#live2d_bgm')[0].currentTime = bgmPlayTime; - $('#live2d_bgm')[0].volume = 0.5; - var live2dBGM_IsPlay = sessionStorage.getItem("live2dBGM_IsPlay"); - var live2dBGM_WindowClose = sessionStorage.getItem("live2dBGM_WindowClose"); - if(live2dBGM_IsPlay == '0' && live2dBGM_WindowClose == '0'){ - $('#live2d_bgm')[0].play(); - $('#musicButton').addClass('play'); - } - sessionStorage.setItem("live2dBGM_WindowClose" , '1'); - $('#musicButton').on('click',function(){ - if($('#musicButton').hasClass('play')){ - $('#live2d_bgm')[0].pause(); - $('#musicButton').removeClass('play'); - sessionStorage.setItem("live2dBGM_IsPlay",'1'); - }else{ - $('#live2d_bgm')[0].play(); - $('#musicButton').addClass('play'); - sessionStorage.setItem("live2dBGM_IsPlay",'0'); - } - }); - window.onbeforeunload = function(){ - sessionStorage.setItem("live2dBGM_WindowClose" , '0'); - if($('#musicButton').hasClass('play')){ - sessionStorage.setItem("live2dBGM_IsPlay",'0'); - } - } - document.getElementById('live2d_bgm').addEventListener("timeupdate", function(){ - var live2dBgmPlayTimeNow = document.getElementById('live2d_bgm').currentTime; - sessionStorage.setItem("live2dBGM_PlayTime" , live2dBgmPlayTimeNow ); - }); - document.getElementById('live2d_bgm').addEventListener("ended", function(){ - var listNow = parseInt($('#live2d_bgm').attr('data-bgm')); - listNow ++ ; - if(listNow > $('input[name=live2dBGM]').length-1){ - listNow = 0; - } - var listNewSrc = $('input[name=live2dBGM]').eq(listNow).val(); - sessionStorage.setItem("live2dBGM_Num",listNow); - $('#live2d_bgm').attr('src',listNewSrc); - $('#live2d_bgm')[0].play(); - $('#live2d_bgm').attr('data-bgm',listNow); - }); - document.getElementById('live2d_bgm').addEventListener("error", function(){ - $('#live2d_bgm')[0].pause(); - $('#musicButton').removeClass('play'); - showMessage('音乐似乎加载不出来了呢!',0); - }); + } // //获取用户名 // var live2dUser = sessionStorage.getItem("live2duser"); @@ -388,12 +327,12 @@ if(!norunFlag){ //获取位置 var landL = sessionStorage.getItem("historywidth"); var landB = sessionStorage.getItem("historyheight"); - if(landL == null || landB ==null){ + if (landL == null || landB == null) { landL = '5px' landB = '0px' } - $('#landlord').css('left',landL+'px'); - $('#landlord').css('bottom',landB + 'px'); + $('#landlord').css('left', landL + 'px'); + $('#landlord').css('bottom', landB + 'px'); //移动 function getEvent() { return window.event || arguments.callee.caller.arguments[0]; @@ -406,7 +345,7 @@ if(!norunFlag){ var moveable = false; var docMouseMoveEvent = document.onmousemove; var docMouseUpEvent = document.onmouseup; - smcc.onmousedown = function(){ + smcc.onmousedown = function () { var ent = getEvent(); moveable = true; moveX = ent.clientX; @@ -414,20 +353,20 @@ if(!norunFlag){ var obj = smcc; moveBottom = parseInt(obj.style.bottom); moveLeft = parseInt(obj.style.left); - if(isFirefox=navigator.userAgent.indexOf("Firefox")>0){ + if (isFirefox = navigator.userAgent.indexOf("Firefox") > 0) { window.getSelection().removeAllRanges(); - } - document.onmousemove = function(){ - if(moveable){ + } + document.onmousemove = function () { + if (moveable) { var ent = getEvent(); var x = moveLeft + ent.clientX - moveX; - var y = moveBottom + (moveY - ent.clientY); + var y = moveBottom + (moveY - ent.clientY); obj.style.left = x + "px"; obj.style.bottom = y + "px"; } }; - document.onmouseup = function(){ - if(moveable){ + document.onmouseup = function () { + if (moveable) { var historywidth = obj.style.left; var historyheight = obj.style.bottom; historywidth = historywidth.replace('px', ''); @@ -436,7 +375,7 @@ if(!norunFlag){ sessionStorage.setItem("historyheight", historyheight); document.onmousemove = docMouseMoveEvent; document.onmouseup = docMouseUpEvent; - moveable = false; + moveable = false; moveX = 0; moveY = 0; moveBottom = 0; @@ -444,37 +383,105 @@ if(!norunFlag){ } }; }; + //获取音乐信息初始化 + var bgmListInfo = $('input[name=live2dBGM]'); + if (bgmListInfo.length == 0) { + $('#musicButton').hide(); + } else { + var bgmPlayNow = parseInt($('#live2d_bgm').attr('data-bgm')); + var bgmPlayTime = 0; + var live2dBGM_Num = sessionStorage.getItem("live2dBGM_Num"); + var live2dBGM_PlayTime = sessionStorage.getItem("live2dBGM_PlayTime"); + if (live2dBGM_Num) { + if (live2dBGM_Num <= $('input[name=live2dBGM]').length - 1) { + bgmPlayNow = parseInt(live2dBGM_Num); + } + } + if (live2dBGM_PlayTime) { + bgmPlayTime = parseInt(live2dBGM_PlayTime); + } + var live2dBGMSrc = bgmListInfo.eq(bgmPlayNow).val(); + $('#live2d_bgm').attr('data-bgm', bgmPlayNow); + $('#live2d_bgm').attr('src', live2dBGMSrc); + $('#live2d_bgm')[0].currentTime = bgmPlayTime; + $('#live2d_bgm')[0].volume = 0.5; + var live2dBGM_IsPlay = sessionStorage.getItem("live2dBGM_IsPlay"); + var live2dBGM_WindowClose = sessionStorage.getItem("live2dBGM_WindowClose"); + if (live2dBGM_IsPlay == '0' && live2dBGM_WindowClose == '0') { + $('#live2d_bgm')[0].play(); + $('#musicButton').addClass('play'); + } + sessionStorage.setItem("live2dBGM_WindowClose", '1'); + $('#musicButton').on('click', function () { + if ($('#musicButton').hasClass('play')) { + $('#live2d_bgm')[0].pause(); + $('#musicButton').removeClass('play'); + sessionStorage.setItem("live2dBGM_IsPlay", '1'); + } else { + $('#live2d_bgm')[0].play(); + $('#musicButton').addClass('play'); + sessionStorage.setItem("live2dBGM_IsPlay", '0'); + } + }); + window.onbeforeunload = function () { + sessionStorage.setItem("live2dBGM_WindowClose", '0'); + if ($('#musicButton').hasClass('play')) { + sessionStorage.setItem("live2dBGM_IsPlay", '0'); + } + } + document.getElementById('live2d_bgm').addEventListener("timeupdate", function () { + var live2dBgmPlayTimeNow = document.getElementById('live2d_bgm').currentTime; + sessionStorage.setItem("live2dBGM_PlayTime", live2dBgmPlayTimeNow); + }); + document.getElementById('live2d_bgm').addEventListener("ended", function () { + var listNow = parseInt($('#live2d_bgm').attr('data-bgm')); + listNow++; + if (listNow > $('input[name=live2dBGM]').length - 1) { + listNow = 0; + } + var listNewSrc = $('input[name=live2dBGM]').eq(listNow).val(); + sessionStorage.setItem("live2dBGM_Num", listNow); + $('#live2d_bgm').attr('src', listNewSrc); + $('#live2d_bgm')[0].play(); + $('#live2d_bgm').attr('data-bgm', listNow); + }); + document.getElementById('live2d_bgm').addEventListener("error", function () { + $('#live2d_bgm')[0].pause(); + $('#musicButton').removeClass('play'); + showMessage('音乐似乎加载不出来了呢!', 0); + }); + } } - $(document).ready(function() { + $(document).ready(function () { var AIimgSrc = [ - home_Path + message_Path + "model/histoire/histoire.1024/texture_00.png", - home_Path + message_Path + "model/histoire/histoire.1024/texture_01.png", - home_Path + message_Path + "model/histoire/histoire.1024/texture_02.png", - home_Path + message_Path + "model/histoire/histoire.1024/texture_03.png" + message_Path + "model/histoire/histoire.1024/texture_00.png", + message_Path + "model/histoire/histoire.1024/texture_01.png", + message_Path + "model/histoire/histoire.1024/texture_02.png", + message_Path + "model/histoire/histoire.1024/texture_03.png" ] var images = []; var imgLength = AIimgSrc.length; var loadingNum = 0; - for(var i=0;i` tag; you may NOT use `href`, `class` or `title`; + the `%heading%` and `%html_id%` placeholders are available + * anchorBody (string) : '' - The content that will be placed inside the anchor; the `%heading%` placeholder is available + * anchorClass (string) : '' - The class(es) that will be used for each anchor. Separate multiple classes with a space + * anchorTitle (string) : '' - The `title` attribute that will be used for anchors + * h_min (int) : 1 - The minimum header level to build an anchor for; any header lower than this value will be ignored + * h_max (int) : 6 - The maximum header level to build an anchor for; any header greater than this value will be ignored + * bodyPrefix (string) : '' - Anything that should be inserted inside of the heading tag _before_ its anchor and content + * bodySuffix (string) : '' - Anything that should be inserted inside of the heading tag _after_ its anchor and content + * generateId (true) : false - Set to true if a header without id should generate an id to use. + + Output: + The original HTML with the addition of anchors inside of all of the h1-h6 headings. + {% endcomment %} + + {% assign minHeader = include.h_min | default: 1 %} + {% assign maxHeader = include.h_max | default: 6 %} + {% assign beforeHeading = include.beforeHeading %} + {% assign headerAttrs = include.headerAttrs %} + {% assign nodes = include.html | split: ' + {% if headerLevel == 0 %} + + {% assign firstChunk = node | split: '>' | first %} + + + {% unless firstChunk contains '<' %} + {% capture node %}{% endcapture %} + {% assign _workspace = node | split: _closingTag %} + {% capture _hAttrToStrip %}{{ _workspace[0] | split: '>' | first }}>{% endcapture %} + {% assign header = _workspace[0] | replace: _hAttrToStrip, '' %} + {% assign escaped_header = header | strip_html | strip %} + + {% assign _classWorkspace = _workspace[0] | split: 'class="' %} + {% assign _classWorkspace = _classWorkspace[1] | split: '"' %} + {% assign _html_class = _classWorkspace[0] %} + + {% if _html_class contains "no_anchor" %} + {% assign skip_anchor = true %} + {% else %} + {% assign skip_anchor = false %} + {% endif %} + + {% assign _idWorkspace = _workspace[0] | split: 'id="' %} + {% if _idWorkspace[1] %} + {% assign _idWorkspace = _idWorkspace[1] | split: '"' %} + {% assign html_id = _idWorkspace[0] %} + {% assign h_attrs = headerAttrs %} + {% elsif include.generateId %} + + {% assign html_id = escaped_header | slugify %} + {% if html_id == "" %} + {% assign html_id = false %} + {% endif %} + + {% capture h_attrs %}{{ headerAttrs }} id="%html_id%"{% endcapture %} + {% endif %} + + + {% capture anchor %}{% endcapture %} + + {% if skip_anchor == false and html_id and headerLevel >= minHeader and headerLevel <= maxHeader %} + {% if h_attrs %} + {% capture _hAttrToStrip %}{{ _hAttrToStrip | split: '>' | first }} {{ h_attrs | strip | replace: '%heading%', escaped_header | replace: '%html_id%', html_id }}>{% endcapture %} + {% endif %} + + {% capture anchor %}href="#{{ html_id }}"{% endcapture %} + + {% if include.anchorClass %} + {% capture anchor %}{{ anchor }} class="{{ include.anchorClass }}"{% endcapture %} + {% endif %} + + {% if include.anchorTitle %} + {% capture anchor %}{{ anchor }} title="{{ include.anchorTitle | replace: '%heading%', escaped_header }}"{% endcapture %} + {% endif %} + + {% if include.anchorAttrs %} + {% capture anchor %}{{ anchor }} {{ include.anchorAttrs | replace: '%heading%', escaped_header | replace: '%html_id%', html_id }}{% endcapture %} + {% endif %} + + {% capture anchor %}{{ include.anchorBody | replace: '%heading%', escaped_header | default: '' }}{% endcapture %} + + + {% if beforeHeading %} + {% capture anchor %}{{ anchor }} {% endcapture %} + {% else %} + {% capture anchor %} {{ anchor }}{% endcapture %} + {% endif %} + {% endif %} + + {% capture new_heading %} + + {% endcapture %} + + + {% assign chunkCount = _workspace | size %} + {% if chunkCount > 1 %} + {% capture new_heading %}{{ new_heading }}{{ _workspace | last }}{% endcapture %} + {% endif %} + + {% capture edited_headings %}{{ edited_headings }}{{ new_heading }}{% endcapture %} + {% endfor %} +{% endcapture %}{% assign headingsWorkspace = '' %}{{ edited_headings | strip }} \ No newline at end of file diff --git a/_includes/live2d.html b/_includes/live2d.html new file mode 100644 index 0000000..f7670cd --- /dev/null +++ b/_includes/live2d.html @@ -0,0 +1,33 @@ + +
+
+ +
+
+
+ + + +
+
+ + +
+
+
+ + +
+
召唤伊斯特瓦尔
+ \ No newline at end of file diff --git a/_includes/toc.html b/_includes/toc.html index 8734fbe..3bce4d1 100644 --- a/_includes/toc.html +++ b/_includes/toc.html @@ -1,6 +1,30 @@ {% capture tocWorkspace %} {% comment %} - Version 1.0.7 + Copyright (c) 2017 Vladimir "allejo" Jimenez + + Permission is hereby granted, free of charge, to any person + obtaining a copy of this software and associated documentation + files (the "Software"), to deal in the Software without + restriction, including without limitation the rights to use, + copy, modify, merge, publish, distribute, sublicense, and/or sell + copies of the Software, and to permit persons to whom the + Software is furnished to do so, subject to the following + conditions: + + The above copyright notice and this permission notice shall be + included in all copies or substantial portions of the Software. + + THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, + EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES + OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND + NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT + HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, + WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING + FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR + OTHER DEALINGS IN THE SOFTWARE. + {% endcomment %} + {% comment %} + Version 1.2.1 https://github.com/allejo/jekyll-toc "...like all things liquid - where there's a will, and ~36 hours to spare, there's usually a/some way" ~jaybe @@ -12,84 +36,154 @@ * html (string) - the HTML of compiled markdown generated by kramdown in Jekyll Optional Parameters: - * sanitize (bool) : false - when set to true, the headers will be stripped of any HTML in the TOC - * class (string) : '' - a CSS class assigned to the TOC - * id (string) : '' - an ID to assigned to the TOC - * h_min (int) : 1 - the minimum TOC header level to use; any header lower than this value will be ignored - * h_max (int) : 6 - the maximum TOC header level to use; any header greater than this value will be ignored - * ordered (bool) : false - when set to true, an ordered list will be outputted instead of an unordered list - * item_class (string) : '' - add custom class(es) for each list item; has support for '%level%' placeholder, which is the current heading level - * baseurl (string) : '' - add a base url to the TOC links for when your TOC is on another page than the actual content - * anchor_class (string) : '' - add custom class(es) for each anchor element + * sanitize (bool) : false - when set to true, the headers will be stripped of any HTML in the TOC + * class (string) : '' - a CSS class assigned to the TOC + * id (string) : '' - an ID to assigned to the TOC + * h_min (int) : 1 - the minimum TOC header level to use; any header lower than this value will be ignored + * h_max (int) : 6 - the maximum TOC header level to use; any header greater than this value will be ignored + * ordered (bool) : false - when set to true, an ordered list will be outputted instead of an unordered list + * item_class (string) : '' - add custom class(es) for each list item; has support for '%level%' placeholder, which is the current heading level + * submenu_class (string) : '' - add custom class(es) for each child group of headings; has support for '%level%' placeholder which is the current "submenu" heading level + * base_url (string) : '' - add a base url to the TOC links for when your TOC is on another page than the actual content + * anchor_class (string) : '' - add custom class(es) for each anchor element + * skip_no_ids (bool) : false - skip headers that do not have an `id` attribute + * flat_toc (bool) : false - when set to true, the TOC will be a single level list Output: An ordered or unordered list representing the table of contents of a markdown block. This snippet will only generate the table of contents and will NOT output the markdown given to it {% endcomment %} - {% capture my_toc %}{% endcapture %} + {% capture newline %} + {% endcapture %} + {% assign newline = newline | rstrip %} + + {% capture deprecation_warnings %}{% endcapture %} + + {% if include.baseurl %} + {% capture deprecation_warnings %}{{ deprecation_warnings }}{{ newline }}{% endcapture %} + {% endif %} + + {% if include.skipNoIDs %} + {% capture deprecation_warnings %}{{ deprecation_warnings }}{{ newline }}{% endcapture %} + {% endif %} + + {% capture jekyll_toc %}{% endcapture %} {% assign orderedList = include.ordered | default: false %} + {% assign flatToc = include.flat_toc | default: false %} + {% assign baseURL = include.base_url | default: include.baseurl | default: '' %} + {% assign skipNoIDs = include.skip_no_ids | default: include.skipNoIDs | default: false %} {% assign minHeader = include.h_min | default: 1 %} {% assign maxHeader = include.h_max | default: 6 %} - {% assign nodes = include.html | split: ' maxHeader %} + {% if currLevel < minHeader or currLevel > maxHeader %} {% continue %} {% endif %} - {% if firstHeader %} - {% assign firstHeader = false %} - {% assign minHeader = headerLevel %} - {% endif %} - - {% assign indentAmount = headerLevel | minus: minHeader | add: 1 %} {% assign _workspace = node | split: '' | first }}>{% endcapture %} {% assign header = _workspace[0] | replace: _hAttrToStrip, '' %} - {% assign space = '' %} - {% for i in (1..indentAmount) %} - {% assign space = space | prepend: ' ' %} - {% endfor %} + {% if include.item_class and include.item_class != blank %} + {% capture listItemClass %} class="{{ include.item_class | replace: '%level%', currLevel | split: '.' | join: ' ' }}"{% endcapture %} + {% endif %} - {% unless include.item_class == blank %} - {% capture listItemClass %}{:.{{ include.item_class | replace: '%level%', headerLevel }}}{% endcapture %} - {% endunless %} + {% if include.submenu_class and include.submenu_class != blank %} + {% assign subMenuLevel = currLevel | minus: 1 %} + {% capture subMenuClass %} class="{{ include.submenu_class | replace: '%level%', subMenuLevel | split: '.' | join: ' ' }}"{% endcapture %} + {% endif %} - {% capture my_toc %}{{ my_toc }} -{{ space }}{{ listModifier }} {{ listItemClass }} [{% if include.sanitize %}{{ header | strip_html }}{% else %}{{ header }}{% endif %}]({% if include.baseurl %}{{ include.baseurl }}{% endif %}#{{ html_id }}){% if include.anchor_class %}{:.{{ include.anchor_class }}}{% endif %}{% endcapture %} + {% capture anchorBody %}{% if include.sanitize %}{{ header | strip_html }}{% else %}{{ header }}{% endif %}{% endcapture %} + + {% if htmlID %} + {% capture anchorAttributes %} href="{% if baseURL %}{{ baseURL }}{% endif %}#{{ htmlID }}"{% endcapture %} + + {% if include.anchor_class %} + {% capture anchorAttributes %}{{ anchorAttributes }} class="{{ include.anchor_class | split: '.' | join: ' ' }}"{% endcapture %} + {% endif %} + + {% capture listItem %}{{ anchorBody }}{% endcapture %} + {% elsif skipNoIDs == true %} + {% continue %} + {% else %} + {% capture listItem %}{{ anchorBody }}{% endcapture %} + {% endif %} + + {% if currLevel > lastLevel and flatToc == false %} + {% capture jekyll_toc %}{{ jekyll_toc }}<{{ listModifier }}{{ subMenuClass }}>{% endcapture %} + {% elsif currLevel < lastLevel and flatToc == false %} + {% assign repeatCount = lastLevel | minus: currLevel %} + + {% for i in (1..repeatCount) %} + {% capture jekyll_toc %}{{ jekyll_toc }}{% endcapture %} + {% endfor %} + + {% capture jekyll_toc %}{{ jekyll_toc }}{% endcapture %} + {% else %} + {% capture jekyll_toc %}{{ jekyll_toc }}{% endcapture %} + {% endif %} + + {% capture jekyll_toc %}{{ jekyll_toc }}{{ listItem }}{% endcapture %} + + {% assign lastLevel = currLevel %} + {% assign firstHeader = false %} {% endfor %} - {% if include.class %} - {% capture my_toc %}{:.{{ include.class }}} -{{ my_toc | lstrip }}{% endcapture %} + {% if flatToc == true %} + {% assign repeatCount = 1 %} + {% else %} + {% assign repeatCount = minHeader | minus: 1 %} + {% assign repeatCount = lastLevel | minus: repeatCount %} {% endif %} - {% if include.id %} - {% capture my_toc %}{: #{{ include.id }}} -{{ my_toc | lstrip }}{% endcapture %} + {% for i in (1..repeatCount) %} + {% capture jekyll_toc %}{{ jekyll_toc }}{% endcapture %} + {% endfor %} + + {% if jekyll_toc != '' %} + {% assign rootAttributes = '' %} + {% if include.class and include.class != blank %} + {% capture rootAttributes %} class="{{ include.class | split: '.' | join: ' ' }}"{% endcapture %} + {% endif %} + + {% if include.id and include.id != blank %} + {% capture rootAttributes %}{{ rootAttributes }} id="{{ include.id }}"{% endcapture %} + {% endif %} + + {% if rootAttributes %} + {% assign nodes = jekyll_toc | split: '>' %} + {% capture jekyll_toc %}<{{ listModifier }}{{ rootAttributes }}>{{ nodes | shift | join: '>' }}>{% endcapture %} + {% endif %} {% endif %} -{% endcapture %}{% assign tocWorkspace = '' %}{{ my_toc | markdownify | strip }} +{% endcapture %}{% assign tocWorkspace = '' %}{{ deprecation_warnings }}{{ jekyll_toc -}} \ No newline at end of file diff --git a/_includes/word_count.html b/_includes/word_count.html new file mode 100644 index 0000000..8cc1cf1 --- /dev/null +++ b/_includes/word_count.html @@ -0,0 +1 @@ +{% assign count = 0 %}{% for post in site.posts %}{% assign single_count = post.content | strip_html | strip_newlines | remove: " " | size %}{% assign count = count | plus: single_count %}{% endfor %}{{ count }} \ No newline at end of file diff --git a/_layouts/default.html b/_layouts/default.html index 3669255..2e13ed9 100644 --- a/_layouts/default.html +++ b/_layouts/default.html @@ -1,96 +1,83 @@ - - +--- +layout: xslt_container +--- + - - - + + + {% seo %} + {% unless site.github %}{% endunless %} {% feed_meta %} - + + + - + + + + + + + + - + + + + + + {% if site.google_analytics %} - + {% endif %} - + + + +
-
-

{{ site.title | default: site.github.repository_name }}

+
+

{{ site.title | default: site.github.repository_name }}

{% if site.logo %} - Logo - {% endif %} + Logo + {% endif %} -

{{ site.description | default: site.github.project_tagline }}

+

{{ site.description | default: site.github.project_tagline }}

-

-

- + +  
-

+
{% if site.github.is_project_page %} -

View the Project on GitHub +

View the Project on GitHub {{ site.github.repository_nwo }}

{% endif %} {% if site.github.is_user_page %} -

View My GitHub Profile

+

View My GitHub Profile

{% endif %} -

About Me

+

About me

-
+ {{ content }}
- -
-
- -
-
- - - -
-
- - -
-
- - -
-
召唤伊斯特瓦尔
- + {% include live2d.html %}

- Made with ❤ by Mayx
Last updated at
总字数:{% assign count = 0 %}{% for post in site.posts %}{% assign single_count = post.content | strip_html | strip_newlines | remove: " " | size %}{% assign count = count | plus: single_count %}{% endfor %}{% if count > 10000 %}{{ count | divided_by: 10000 }} 万 {{ count | modulo: 10000 }}{% else %}{{ count }}{% endif %} - 文章数:{% for post in site.posts %}{% assign co = co | plus: 1 %}{% endfor %}{{ co }} - Atom - About
+ Made with ❤ by Mayx
Last updated at {{ site.time | date: "%F %T" }}
总字数:{% include_cached word_count.html %} - 文章数:{{ site.posts.size }} - Atom - About

- - + - - \ No newline at end of file diff --git a/_layouts/encrypt.html b/_layouts/encrypt.html index 153a27e..98bc401 100644 --- a/_layouts/encrypt.html +++ b/_layouts/encrypt.html @@ -2,7 +2,7 @@ layout: post --- - + -
+{% endunless %} +
{% endif %} +{% if page.layout != "encrypt" %} {% include toc.html html=content sanitize=true h_max=3 %} +
+{% endif %} -{{content}} +{% if page.layout == "encrypt" %} {{content}} {% else %}
{% capture a_post_content %}{% include anchor_headings.html html=content beforeHeading=true anchorBody="" %}{% endcapture %}{{ a_post_content | replace: '
', '

' }}

{% endif %} {% if page.tags %} -tags: {{ page.tags | join: " - " }} +tags: {% for tag in page.tags %}{{ tag }}{% unless forloop.last %} - {% endunless %}{% endfor %} 查看原始文件 {% endif %} -
-
-

+{% if page.layout != "encrypt" %} +

推荐文章

+

Loading...

+{% endif %} +
- - + +
\ No newline at end of file diff --git a/_layouts/xslt.html b/_layouts/xslt.html new file mode 100644 index 0000000..09fff90 --- /dev/null +++ b/_layouts/xslt.html @@ -0,0 +1,17 @@ +--- +layout: default +--- + + + + 这是本站XML文件(例如订阅源或者Sitemap)的样式文件,你可以通过以下链接订阅该博客:
+ +
+ + {{ content }} + +
\ No newline at end of file diff --git a/_layouts/xslt_container.html b/_layouts/xslt_container.html new file mode 100644 index 0000000..9c9e629 --- /dev/null +++ b/_layouts/xslt_container.html @@ -0,0 +1,15 @@ +{% if page.layout == "xslt" %} + + + + + {{ content }} + + +{% else %} +{{ content }} +{% endif %} \ No newline at end of file diff --git a/_posts/2018-11-10-email-sender.md b/_posts/2018-11-10-email-sender.md index a178c14..ee23ac9 100644 --- a/_posts/2018-11-10-email-sender.md +++ b/_posts/2018-11-10-email-sender.md @@ -13,7 +13,7 @@ tags: [免费, 邮件, 日报, 心得] 到我的邮箱了…… # 代码 -``` PHP +```php - function showcode() { - $('.showbutton').toggle(); - $('.language-code').toggle(); - } - - - - +
+ +Show Code + -```code +```bat @echo off color f0 mode con cols=50 lines=10 @@ -2791,6 +2783,7 @@ if /i '%shy%'=='exit' goto _max if /i '%shy%'=='ai学习机' goto aixx ::在这里加入新的命令 ``` +
**注:因为隐私原因,部分代码稍作修改** 当然,这个程序有不少地方是抄的,而且很烂……(毕竟是小时候写的嘛) @@ -2799,14 +2792,10 @@ if /i '%shy%'=='ai学习机' goto aixx 因为手机(Android)系统基于Linux,所以我开始[学习Linux Shell](http://c.biancheng.net/cpp/shell/)(没错,当时就是在这个网站上学的), 以前用批处理学写工具箱的习惯当然也继承到了学写Linux Shell上,在Linux上写的工具箱的名字叫做myx,代码如下: - - - +
+ +Show Code + ```shell #!/system/bin/sh @@ -3230,6 +3219,7 @@ sleep 2 esac done ``` +
**注:因为隐私原因,部分代码稍作修改** diff --git a/_posts/2019-06-22-counter.md b/_posts/2019-06-22-counter.md index 24e19c6..c8c3b72 100644 --- a/_posts/2019-06-22-counter.md +++ b/_posts/2019-06-22-counter.md @@ -22,7 +22,7 @@ tags: [计数器] {% raw %} Hits: Loading...{% endraw %} ``` JS代码:(需要Jquery) -```js +```javascript var auxiliaryHost = "你的域名"; function showHitS(hits){ $.get(auxiliaryHost+"/counter.php?action=show&id="+hits.id,function(data){ diff --git a/_posts/2019-11-21-enc.md b/_posts/2019-11-21-enc.md index 6952ffa..f0f6e12 100644 --- a/_posts/2019-11-21-enc.md +++ b/_posts/2019-11-21-enc.md @@ -16,7 +16,7 @@ tags: [学习笔记, Web Crypto Api] 不过我还是发挥了作为辣鸡程序员的特长——Copy&Paste大法,最终可算是拼凑出了一个看起来勉强能用的代码…… # 辣鸡代码 -```js +```javascript function getByteLen(val) { var len = 0; for (var i = 0; i < val.length; i++) { diff --git a/_posts/2021-03-02-workers.md b/_posts/2021-03-02-workers.md index c6e3d3f..978885e 100644 --- a/_posts/2021-03-02-workers.md +++ b/_posts/2021-03-02-workers.md @@ -13,7 +13,7 @@ tags: [CloudFlare, Workers] # 首先给自己搭个反代 之前我用PHP给自己的博客搭了一个[简单的反代](/2021/01/06/proxy.html),不过我用的那个服务商不太行,速度有点慢,而且也不是所有的PHP空间都支持伪静态。那既然有CloudFlare Workers那我们就来试试用这个实现吧。 代码如下: -```js +```javascript addEventListener("fetch", event => { let url = new URL(event.request.url); url.hostname = "mabbs.github.io"; diff --git a/_posts/2022-01-04-banned.md b/_posts/2022-01-04-banned.md index 1eca6f1..2653221 100644 --- a/_posts/2022-01-04-banned.md +++ b/_posts/2022-01-04-banned.md @@ -38,7 +38,7 @@ tags: [Github, 封禁, 博客] > The repository has been deleted per your request. > Kindly note further instances that hosts a script that leverages git.io URL shortener to redirect to a malicious site may lead to further action, such as permanent suspension. - 🌿,原来是我3年前写的[让Git.io无限制](/2019/03/23/gitio.html)所提供的服务被人利用做坏事了,麻了,这Github是真的不长嘴吗?提前说一声我又不是不会删,而且我的服务被利用,上来就先干我是吧?这和某政府对付ISP有什么区别。 + 🌿,原来是我3年前写的[让Git.io无限制](/2019/03/23/gitio.html)所提供的服务被人利用做坏事了,麻了,这Github是真的不长嘴吗?提前说一声我又不是不会删,而且我的服务被利用,上来就先干我是吧?这和某政府对付ICP有什么区别。 # 造成的损失 1. 我的博客所有Star、Fork和评论全部消失 diff --git a/_posts/2022-02-14-move.md b/_posts/2022-02-14-move.md index 16b6eee..44c4fea 100644 --- a/_posts/2022-02-14-move.md +++ b/_posts/2022-02-14-move.md @@ -13,7 +13,7 @@ tags: [Mayx, Github, Gitlab, 分发] 去年我在[研究博客平台的时候](/2021/08/15/blog.html)已经调查过很多放静态站的平台了,所以这次进行分发的时候有了之前的经验,也简单了不少。 ## 源代码托管平台的选择 因为Github不可信,于是我自然想到了用Gitlab来存放博客源代码。虽然吧Gitlab曾经也发生过用户数据丢失的问题,不过反正目标也是同时放在Github和Gitlab上,总不至于两个一起炸吧。其实最开始我的计划是用Github Actions进行同步,不过在我进行调查之后我发现Gitlab功能还是挺强大的,它支持对一个Git仓库进行自动的推送和拉取,也不需要做过多的配置,就只需要配置个地址和令牌就可以,还是挺方便的。 - 在我做完Github与Gitlab双向同步之后,我发现Gitlab还挺好用的,首先,Gitlab有个很棒的地方就是没被墙,我有时候写文章的时候不挂梯子用Github真的是非常难受,目前依我所感受,防火长城会对Github先进行一下TCP RST,然后刷新一下让你连上,连上之后如果长连接断开或者大概5分钟的样子就再阻断,然后再RST一波,非常的挑战心态。有时候我写了半天然后点预览结果就阻断,等半天还是连不上,还要挂梯子,能预览的时候就得赶紧提交,万一提交的时候再阻断要是没备份就炸了。像Gitlab我就从来没遇到过类似的情况,这一点还是很不错的,大概是因为Gitlab不是社区,而且滥用的人也少,所以政府也不太关系吧。 + 在我做完Github与Gitlab双向同步之后,我发现Gitlab还挺好用的,首先,Gitlab有个很棒的地方就是没被墙,我有时候写文章的时候不挂梯子用Github真的是非常难受,目前依我所感受,防火长城会对Github先进行一下TCP RST,然后刷新一下让你连上,连上之后如果长连接断开或者大概5分钟的样子就再阻断,然后再RST一波,非常的挑战心态。有时候我写了半天然后点预览结果就阻断,等半天还是连不上,还要挂梯子,能预览的时候就得赶紧提交,万一提交的时候再阻断要是没备份就炸了。像Gitlab我就从来没遇到过类似的情况,这一点还是很不错的,大概是因为Gitlab不是社区,而且滥用的人也少,所以政府也不太关心吧。 另外就是Web IDE,相比Github的VSCode Web IDE,Gitlab的要轻量很多了,也不容易发生卡的情况,而且其实Github的VSCode Web IDE也装不了几个插件,功能上也没强到哪去。 还有就是翻译,明明用Github的中国人/华人挺多的,官方就是不出中文界面,明明文档都有中文了……Gitlab可能是因为作为一个开源产品,i18n做的很好,虽然吧英文也不影响我使用,但是毕竟作为用户体验的一项,Gitlab做的确实更好。 不过其实我觉得Gitlab也许只是表面没那么出名,毕竟不是做社区的,大多数公司都用的是自建Gitlab托管代码,而且很多时候Github其实是在抄Gitlab的(虽然最早是Gitlab抄Github),比如Actions抄CI/CD,还有最近又出的一堆什么代码扫描和检查,Gitlab出现的都更早。不过这说着也跑题了这个文章又不是为了专门夸Gitlab的😂。 diff --git a/_posts/2024-04-06-old-pc.md b/_posts/2024-04-06-old-pc.md index 9b9d74a..99cef6f 100644 --- a/_posts/2024-04-06-old-pc.md +++ b/_posts/2024-04-06-old-pc.md @@ -115,7 +115,7 @@ ossyNMMMNyMMhsssssssssssssshmmmhssssssso Memory: 8773MiB / 11928MiB 不过我按照官方文档上安装,对于CentOS Stream 8来说有好多包不知道为什么似乎都没有,比如libavformat-free-devel之类的,我只好从网上找其他RedHat系列类似的包,或者找替代品FFmpeg,另外Darling需要Linux 5.0或者更高的内核,CentOS的内核版本太低了,所以我升到了主线版本的Linux,也就是6.8的版本……最终花了一天的时间终于编译好了,然而悲剧的是运行的时候报了非法指令“Illegal instruction (core dumped)”的错误。一般来说这个错误是新机器上编译的程序在旧机器运行才会报的错,可我是在同一台机器上编译的为什么会报这种错误呢?可能是因为代码里包含汇编语言的代码吧。我发了个[Issue](https://github.com/darlinghq/darling/issues/1497)问了一下作者,不过看起来他也不知道是什么问题…… 对于这种问题我感觉也没什么好办法……可能这台机器真的就没办法了?在第二台速龙641的电脑上试了一下也不行……不过后来我在第三台装有奔腾G3240的电脑上试着编译安装了一下,结果可以运行。看来确实是奔腾E5300的问题。不过它俩到底差在哪里呢?看介绍会发现奔腾G3240里包含了Intel® SSE4.1和Intel® SSE4.2的指令集扩展。那么对于没有这个指令集扩展的CPU就没办法了吗?Intel官方给了一个解决方法是[Intel® SDE](https://www.intel.com/content/www/us/en/developer/articles/tool/software-development-emulator.html),可以在旧机器上模拟运行使用了最新指令集的程序,甚至包括AVX512都可以模拟的出来,但是我用这个东西运行Darling的时候还是报错了,可能Darling需要用到内核的一些特性,但是SDE不能模拟……这都没办法是不是就彻底没办法了呢? 在偶然的一次浏览中,我发现了一个神奇的东西,内核扩展[OPEMU](https://github.com/mirh/opemu-linux),它可以让不支持一些指令集扩展的CPU通过模拟的方式支持,其实功能和SDE很像,只是它是在内核中运行的,我试着在第一台机器上编译安装了一下(顺便一说,如果是旧的5.x或者更早的Linux可以直接用这个仓库,而更新的Linux比如6.x的需要用[PR](https://github.com/Spacefish/opemu-linux)中的这个仓库),结果Darling真的可以运行了!真是令人难以置信。 - 安装成功之后我在网上找了个C语言的程序:[endoh1](http://www.ioccc.org/2012/endoh1/hint.html),这个程序可以用文本模拟流体。我在我的MacBook上编译了试了一下,运行没有问题,当然直接编译的程序是ARM64的程序,肯定不能在Darling里面运行,于是我切换到x86_64模式下又编译了一次,并且用`lipo`命令把两个程序合并到了一起,然后把程序上传到第一台机器中使用Darling运行,竟然可以正常运行,看来那个内核扩展还不错啊,Darling居然没有出问题。 + 安装成功之后我在网上找了个C语言的程序:[endoh1](https://github.com/ioccc-src/winner/tree/master/2012/endoh1),这个程序可以用文本模拟流体。我在我的MacBook上编译了试了一下,运行没有问题,当然直接编译的程序是ARM64的程序,肯定不能在Darling里面运行,于是我切换到x86_64模式下又编译了一次,并且用`lipo`命令把两个程序合并到了一起,然后把程序上传到第一台机器中使用Darling运行,竟然可以正常运行,看来那个内核扩展还不错啊,Darling居然没有出问题。 不过测试了一下,可能还是有些地方有BUG,比如用Git的时候会报错,可能是和README中所说的CRC32表现有问题吧,不过Darling好像可以直接运行Linux中的命令,那我在用Git的时候调用Linux下的Git是不是也可以呢?试了一下不太行,因为执行Linux程序的时候不能用Darling中的目录结构,不过我想装omz只需要/Users目录就够了,我直接创建一个软链接把Darling的/Users目录映射到Linux的根目录就可以了吧,试了一下还行,可以正常运行,虽然Homebrew不能安装有点可惜……不过Neofetch可以安装😆,效果如下: ``` 'c. root@localhost.localdomain diff --git a/_posts/2024-07-03-ai-summary.md b/_posts/2024-07-03-ai-summary.md index 62b85dd..a5a0d3c 100644 --- a/_posts/2024-07-03-ai-summary.md +++ b/_posts/2024-07-03-ai-summary.md @@ -235,8 +235,8 @@ export default { } ``` 另外也写了配套的前端代码(用的jQuery,其实应该用Fetch的😂): -```html {% raw %} +```html AI摘要

正在生成中……

-{% endraw %} ``` +{% endraw %} 本来文章内容应该从html里读更好一些,但是标签啥的还得用正则去掉,感觉不如Liquid方便😂。另外博客计数器不应该用MD5的,但懒得改之前的数据了,还好Cloudflare Workers为了兼容是支持MD5的,免得我还得想办法改数据库里的数据。 # 使用方法 diff --git a/_posts/2024-11-02-trojan.md b/_posts/2024-11-02-trojan.md index b03bbef..5c6af0c 100644 --- a/_posts/2024-11-02-trojan.md +++ b/_posts/2024-11-02-trojan.md @@ -14,6 +14,12 @@ tags: [Python, 木马, 病毒] # 提取源代码 pyinstaller解包还是挺简单的,用[PyInstaller Extractor](https://github.com/extremecoders-re/pyinstxtractor)就可以,首先我在我的电脑上尝试解包,不过因为Python版本不对,里面的PYZ文件不能解包,并且提示我使用Python 2.7的环境再试一次。我找了台装有Python 2.7环境的服务器又执行了一次之后就全部解包完了。想不到这个木马居然没有加密😂,直接就能解压,不过就算加密了我之前看过一篇[文章](https://www.cnblogs.com/liweis/p/15891170.html)可以进行解密。 不过现在得到的文件都是字节码pyc文件,还需要反编译才能看到源代码,这个步骤也很简单,安装个[uncompyle6](https://github.com/rocky/python-uncompyle6)工具就可以。它的主程序名字叫“ii.py”,于是我反编译了一下,不过看起来作者还整了一些混淆,但是极其简单,就把几个函数换成一串变量而已,所以写了个简单的脚本给它还原回去了,最终处理的结果如下(里面有个[混淆过的PowerShell版mimikatz](https://github.com/DanMcInerney/Invoke-Cats),太长了所以我给删掉了): + +
+ +Show Code + + ```python # uncompyle6 version 3.9.2 # Python bytecode version base 2.7 (62211) @@ -1492,7 +1498,15 @@ while var == 1: # global h_one ## Warning: Unused global ``` +
+ 里面有两个不是公开的库,mysmb和psexec,其中mysmb看起来是[永恒之蓝RCE中的代码](https://github.com/0xsyr0/OSCP/blob/main/exploits/CVE-2017-0144-EternalBlue-MS17-010-RCE/mysmb.py),psexec有找到几个相似的但是没找到一样的,所以代码也放上来: + +
+ +Show Code + + ```python # uncompyle6 version 3.9.2 # Python bytecode version base 2.7 (62211) @@ -1864,6 +1878,7 @@ class PSEXEC: s.deleteFile(installService.getShare(), 'temp\\tmp.vbs') return False ``` +
# 行为分析 那这个代码都干了些什么呢?首先动态分析一下吧,我用微步云沙箱检查了一下,不过好像有人已经上传过了,[这个是报告](https://s.threatbook.com/report/file/60b6d7664598e6a988d9389e6359838be966dfa54859d5cb1453cbc9b126ed7d)。好像也没啥特别的,先给445端口开了个防火墙,估计是防止其他人利用永恒之蓝入侵,然后整了几个请求几个“beahh.com”域名的定时任务,另外就是同网段扫描啥的,应该是找其他机器继续尝试用漏洞入侵感染这个木马。 diff --git a/_posts/2025-02-09-server.md b/_posts/2025-02-09-server.md new file mode 100644 index 0000000..403016b --- /dev/null +++ b/_posts/2025-02-09-server.md @@ -0,0 +1,26 @@ +--- +layout: post +title: 新旧服务器的使用体验与对比 +tags: [服务器, Dell, 使用体验] +--- + + 花更多钱可以收获更多吗? + +# 起因 + 最近由于某些原因需要买点服务器,从我平时用的东西来看,其实很多年前的产品就已经满足大多数应用了,业务的发展跟不上时代的发展,就根本不需要更好的性能。所以既然要买服务器,还是买洋垃圾比较好,那些淘汰下来的服务器特别便宜。虽然这么说,但是我也好奇现在的技术到底发展到一个什么样的程度,所以也整个新的服务器玩玩吧。 + +# 选择服务器 + 那选哪个服务器比较合适呢?我在大学里用过R730,那款服务器给我留下的印象很不错,拆装很方便,也有很好用的带外管理功能(iDRAC),现在的R730已经非常便宜了,我看了看CPU觉得既然洋垃圾很便宜,那就要选个厉害的CPU,最终我选择了双路20核40线程的[英特尔® 至强® 处理器 E5-2698 v4](https://www.intel.cn/content/www/cn/zh/products/sku/91753/intel-xeon-processor-e52698-v4-50m-cache-2-20-ghz/specifications.html),总共40核80线程,另外配了4根32GiB 2400MT/s的DDR4内存,看起来参数还是挺唬人的🤣,而且价格才2k多CNY,感觉还挺不错。 + 那新的用啥呢?我上Intel的官网看了看,至强6是现在最新的Intel服务器CPU,至于AMD的……主要是给我买服务器的人不喜欢AMD🤣,所以只能选Intel的。既然旧的选了Dell,新的也选Dell吧,我看搭载至强6的戴尔服务器是R770,但是目前还买不到😅,而且价格贵的吓人。次一级就是R760,可以上第四或第五代至强可扩展处理器,不过看了一眼价格也有点贵……但这个机器有个青春版,叫R760xs,也能上第四或第五代至强可扩展处理器,扩展性稍微差一点,但是价格比较便宜,他们管这叫“成本优化版”。最终选来选去选了个单路16核32线程的[英特尔® 至强® Gold 6426Y 处理器](https://www.intel.cn/content/www/cn/zh/products/sku/232377/intel-xeon-gold-6426y-processor-37-5m-cache-2-50-ghz/specifications.html),外加4条16GiB 4800MT/s的DDR5内存,总共花了将近4wCNY,感觉还是相当贵啊…… + +# 使用体验与对比 + 服务器拿到手之后自然要先跑个分,我给新服务器安装了Ubuntu Server 24.04,旧的因为核心数多感觉应该能干点别的所以安装了Vmware ESXi 6.7,然后在上面安装了个Ubuntu Server 24.04的虚拟机。跑分用的是sysbench。最终新的服务器单核跑分2853.45events/s,多核47054.35events/s,旧服务器单核876.22events/s,多核52792.15events/s。从这里来看这个新服务器让人非常失望啊,单核才3倍多点差距,尤其我试了试13代i5的单核跑分能到4290.80events/s,家用的处理器可是要便宜的多啊。多核虽然说16核比40核少了点,能跑出差不多的分数已经很厉害了,但是考虑到这两个服务器20倍的价格差,还是深深的感到不值啊…… + 当然服务器的性能并不是它的优势,扩展性才是,但是R730的定位比R760xs的定位要高啊😂,扩展性显然是旧服务器更强……那新服务器就没什么优势了吗?倒也不是,新服务器的处理器至少把漏洞都修完了,除了幽灵漏洞之外,至少不受其他漏洞影响,安全性更强了。旧处理器和酷睿5代是同一个时代的,所以会受各种CPU漏洞的影响。不过这个服务器又不会当云服务器租给别人用,有没有漏洞根本无所谓啊😅。 + 那管理性呢?新的带外管理用的是iDRAC9,旧的是iDRAC8,两个界面上差距倒是挺大的,不过功能基本上都差不多,从功能上来看9比8多了个修改BIOS的功能,但是修改完还是得重启才能生效😅,那不如花几十块钱买个企业版订阅然后用虚拟KVM直接重启进BIOS修改呢……不过如果是大规模的话可能是可以统一修改BIOS选项,那就有点意义了,不过对我来说没啥意义😥。 + 那还有别的优势吗?我看网上说第四、第五代至强可扩展处理器新出了个指令集,叫AMX,可以用来加速AI推理,正好最近国内一个叫DeepSeek-R1的模型挺火的,那就拿来试试看呗,要是这个AMX指令集能大幅提高CPU的推理速度,那我还是挺认同它的价格的,毕竟内存可以随便加,显存……都被老黄垄断了,价格巨贵无比😂。现在的[llama.cpp](https://github.com/ggerganov/llama.cpp)已经支持了AMX加速,具体的使用方法可以看Intel官网上的[论文](https://www.intel.cn/content/www/cn/zh/content-details/791610/optimizing-and-running-llama2-on-intel-cpu.html),看起来需要安装Intel oneAPI的库才能编译使用。我折腾了一下编译完跑了一下DeepSeek-R1 32B Q4_K_M蒸馏版,速度大概是5.2token/s。然后我安装了个[Ollama](https://ollama.com/),它自带的这个llama服务器只支持AVX2指令集加速,但是我试了一下速度能达到4.8token/s,也就是说AMX指令集加速了个寂寞,几乎没起倒什么作用,难怪没什么人讨论。不过我也听说纯CPU跑大模型主要瓶颈在内存带宽上,我插4条也就是四通道,其实也不是它的全部实力,它最大支持八通道,也许给它插满效果会好一些吧…… + 那旧服务器呢?我倒也试了一下,用Ollama跑一样的模型大概是2token/s多的速度,也就是说新的相比旧的也只快了1倍多一点,而且旧的每个CPU只有2条内存,只有双通道,速度也只有新的一半,结果新的才领先了一倍多一点,都上了那么多黑科技……看来Intel是真不行了。 + 当然5.2token/s的速度显然是无法接受的,还是有点慢了,再加上DeepSeek-R1还有思维链,在回答问题前还要生成一堆废话,那就更慢了(其实要我说它那个思维链其实就是把之前的AutoGPT的结果作为训练材料训练的,相当于集成到模型里了,我自己测了一下水平还是不够用,包括官网的满血版也一样)。我之前听说有一种叫做“投机采样”的推理加速技术,不知道为什么凉了,llama.cpp编译的产物里还有这个技术的PoC。于是我就下了个DeepSeek-R1 7B Q4_K_M蒸馏版,拿来试试看用它来加速32B的怎么样。首先我单独测试7B的速度可以达到20token/s,然后我用“llama-speculative”测了一下,感觉有点一言难尽……一阵快一阵慢的,总体来说感觉不如直接跑的快,难怪这个技术凉了😥,不过也可能是因为这两个模型的什么token分布不太一致,毕竟是蒸馏的模型估计还是有点区别,所以体验不太好吧。 + 那除了大语言模型之外还有什么可测的吗?其实就像我开始说的,要说能满足业务,洋垃圾显然是绰绰有余,尤其还是顶尖的洋垃圾,普通的业务甚至都不能让洋垃圾产生瓶颈,新的不就更不可能了😥…… + +# 感想 + 从上面来看,新服务器真的没什么优势啊,性能提高了一些,但是价格翻几十倍,当然那些洋垃圾当年也是超级贵的东西,只是被淘汰了所以失去了价值……不过说来这个价值也许并不是服务器硬件本身的价值,“服务”也是很值钱的啊,像那个支持服务(比如远程诊断、上门服务,现场响应之类的)就是它贵的原因吧,二手的旧服务器2019年就结束支持了,新的有3年的支持期,能到2027年,不过我感觉在这支持期内恐怕没有能用到的地方啊,服务器还是挺难坏的,它最值钱的地方似乎只能被浪费掉了🥲。所以总的来说只有行业领先的业务,才配得上最新的服务器,小规模的业务还是用二手服务器吧😆。 \ No newline at end of file diff --git a/_posts/2025-02-22-llm.md b/_posts/2025-02-22-llm.md new file mode 100644 index 0000000..e8ec098 --- /dev/null +++ b/_posts/2025-02-22-llm.md @@ -0,0 +1,35 @@ +--- +layout: post +title: 近期LLM的部署与应用经历 +tags: [LLM, AI, 人工智能] +--- + + 玩AI开始变的有些烧钱了啊…… + +# 起因 + 在几年前我就已经[探索并玩过很多LLM了](/2023/04/05/ai.html),不过近些日子在这方面的发展似乎影响到了我的生活……由于近期某公司开发的DeepSeek在国内非常火,导致我也不得不跟上这个热潮去考虑怎么应用它。当然对于普通人来说,使用它并没有什么难度,即使DeepSeek的官方网站和APP现在基本不能用,现在各家大公司也都自行搭建了,目前我感觉使用DeepSeek体验最好的是百度,其他家使用无论是可用性还是速度都比不过百度,而且目前百度也没有限制使用量之类,还是挺不错的。 + 但是对我来说却不能直接使用其他公司的产品,其实要从成本来说接入其他公司的接口显然是要便宜的多,但是我需要应用的地方可能连不上那些接口😅,所以需要考虑自己搭建。 + +# 部署经历 + 为了能自己搭建DeepSeek,首先就得买硬件了……虽然前段时间[整了台新服务器](/2025/02/09/server.html),但是让CPU来跑还是太吃力了,速度太慢了……所以为了能轻松的跑起来,最近整了张RTX4090 48GiB显存魔改版(但是手头没有空闲的机器了,只能插在一台用着[i5-8400](https://www.intel.cn/content/www/cn/zh/products/sku/126687/intel-core-i58400-processor-9m-cache-up-to-4-00-ghz/specifications.html)处理器的主机,这下成狗骑吕布了🤣)。有了这张显卡,跑DeepSeek-R1的蒸馏模型(从1.5B到70B的Q4_K_M量化版)倒是轻轻松松,用Ollama跑70B的模型也能到20Tps的速度。但是根据测试来看,这些蒸馏模型的效果很差,基本上没法用,这些模型经常会发生不遵守指令,内容随机掺杂英文,而且也经常发生逻辑错误,和671B的完整版完全不能比,用起来还不如Qwen2.5各规模的模型。 + 那怎么办呢?前几天清华大学的某个团队更新了一款叫做[KTransformers](https://github.com/kvcache-ai/ktransformers)的框架,据说它可以利用Intel的AMX指令集然后配一张RTX4090可以让DeepSeek-R1 671B Q4_K_M量化版跑到13Tps,能跑到这个速度那至少是可用级别了,调其他公司的接口基本上也就是这个速度,之前买的新服务器不就有这个指令集嘛(之前还感觉这个指令集有点鸡肋呢,看来还是开发度不够啊😆),如果再配一个CPU,然后把内存插满也许就可以了?可惜R760xs插不了全高的显卡,要想插全高的估计就只能买R760了,或者用PCI-E延长线?不过那样感觉不太可靠……不过之后肯定还是会想办法上完整版的模型,毕竟它的效果确实是不错,最关键的是它的市场认可度高,上了就能提高产品竞争力,所以之后应该会想办法搞到满足KTransformers的硬件然后跑起来,或者等[llama.cpp](https://github.com/ggml-org/llama.cpp)合并它的算法,然后用llama.cpp会更好一些。 + 不过我更倾向于等Mac Studio M4 Ultra出来,应该过几个月就能出,按照目前发展趋势来看,新款Mac Studio应该会有更大的内存,理论上可以跑的动一些效果更好的[动态量化版](https://unsloth.ai/blog/deepseekr1-dynamic)(现在能在M2 Ultra上跑的那个1.58位的效果还是不太行),相比于价格十几万的服务器,Mac Studio估计不到十万,可以说是非常有性价比了。当然如果等不及的话应该还是会选择花十几万买个有双路第四代至强可扩展处理器加512GiB内存的服务器吧…… + +# 应用经历 + 有了模型之后如果只是聊天那就没必要费这么大劲了,费劲搭当然是为了能让它参与到实际的工作当中。不过该如何应用它呢?首先要让它知道工作的内容,所以第一步要搞出知识库。知识库的原理倒是很简单,我之前就给我博客的[聊天机器人加了RAG功能](/2024/09/27/rag.html),核心就是嵌入模型和向量数据库。不过我写的那个全都是为了能使用Cloudflare的功能,脱离了Cloudflare就没用了。那如果要在本地搞应该怎么办呢?我之前用过的[1Panel](/2024/02/03/1panel.html)开发它的公司旗下有个叫[MaxKB](https://github.com/1Panel-dev/MaxKB)的产品看起来很不错,它使用了PGSQL和[pgvector](https://github.com/pgvector/pgvector)作为向量数据库来搭建知识库,而且它是用Python写的,还能用Python来写自定义功能的函数库,另外它还能用可视化的方式来设计工作流,可以轻松构建需要的逻辑,从功能上来说我还是挺满意的。 + 使用也挺简单,在设置里可以添加使用其他公司API的模型,也可以使用Ollama,不过这一步有个坑,Ollama并不支持设置API Key,但是它添加模型却要求配置一个API Key,文档说可以输入任意内容,我输了一个空格,可以保存,但是使用的时候会报网络错误,所以它文档里怎么不说明一下是除了空格之外的任意内容😅,浪费了我不少时间。 + 在添加知识库的时候可以除了[内置的嵌入模型](https://github.com/shibing624/text2vec)(好像是腾讯的员工搞的模型),也可以用Ollama的嵌入模型。它自带的嵌入模型用的是CPU,文档规模大的情况速度比较慢,因为在Cloudflare上我用的是BAAI的BGE模型,效果还可以,所以这次我还是选了它,但是选的是中文模型,这样就不需要再翻译了🤣。 + 开始我对MaxKB印象还是挺不错的,但是用着用着……在建第六个应用的时候它显示社区版只能创建五个应用😅,对于开源软件这样做限制我也是大开眼界了,要是说有些专业版功能不开源,是DLC的形式,付钱来获取更多的功能代码,我还能理解,在开源代码上做数量上的限制,这垃圾公司多少有点看不起人了😅。 + 那对于这种挑衅行为该怎么反制呢?它的代码倒是没有混淆之类的,还算不错,比我以前用过的[KodExplorer](https://github.com/kalcaddle/KodExplorer)要好,它还整个“部分开源”,有个[关键文件](https://github.com/kalcaddle/KodExplorer/blob/master/app/controller/utils.php)直接是混淆过的,想改都改不了😅,至少MaxKB还能随便改。 + 我大概看了眼代码,只需要改两个文件就行,一个是“apps/common/util/common.py”,把其中“valid_license”函数进行判断的部分全部注释,另外一个文件是“apps/setting/serializers/valid_serializers.py”,把“ValidSerializer”方法中的“valid”方法里进行判断的部分全部注释就可以了,开源还做限制我是真的无法理解…… + 如果是用1Panel部署的,可以把那两个文件放到“/opt/1panel/apps/maxkb/maxkb”目录下,然后在docker-compose.yml文件的volumes段添加: +```yml +- ./common.py:/opt/maxkb/app/apps/common/util/common.py +- ./valid_serializers.py:/opt/maxkb/app/apps/setting/serializers/valid_serializers.py +``` + 就可以了。 + 不过总体来说从功能上我还算比较满意,就原谅它搞出这种奇葩的行为吧😆。 + MaxKB主要是为了能给更多人使用,所以是网页版,部署也略显麻烦,如果是自己用呢?我之前看到过一个桌面软件,叫做[Cherry Studio](https://github.com/CherryHQ/cherry-studio)。它更适合开箱即用一些,功能上可能不如MaxKB强大,但是比较方便一些。比如上传文档,MaxKB需要在流程图中自行处理,这个软件会帮你处理好;添加知识库可以直接添加本地的文件夹,不用上传到服务器上;另外安装比较方便,不像MaxKB搭环境比较麻烦些,所以个人用的话可以用Cherry Studio。 + +# 感想 + 总的来看,DeepSeek的出现还算可以,虽然它受到的关注和它的能力也许并不匹配,但是毕竟现在的它已经是人人都能蹭的东西了,谁都能挂它的名头,我们来蹭一蹭也能分点它的好处。当然这样的结果倒也不差,开发DeepSeek的公司只能获得他们应得的部分,其他的关注度就应该被各家公司瓜分😆。我在这期间虽然很难获得什么实质性的收获,但是能在这期间能搞点很贵的硬件之类的玩玩也是不错的体验啊🤣。 \ No newline at end of file diff --git a/_posts/2025-03-08-llm2.md b/_posts/2025-03-08-llm2.md new file mode 100644 index 0000000..3209db8 --- /dev/null +++ b/_posts/2025-03-08-llm2.md @@ -0,0 +1,27 @@ +--- +layout: post +title: 近期LLM的部署与应用经历(2) +tags: [LLM, AI, 人工智能] +--- + + 最近AI发展好快啊~ + +# 起因 + 自从[上次](/2025/02/22/llm.html)写完文章之后,最近这段时间LLM圈又有了不少更新,感觉很值得试试看。所以这次就来看看这些新东西有什么特别的地方吧。 + +# 关于阿里QwQ模型的体验 + 前两天阿里的推理模型QwQ模型更新到正式版了,不过其实我也没试过他们的预览版效果怎么样……但按照他们的说法,他们的32b参数的模型水平已经相当于DeepSeek-R1 671b的模型了。如果真是这样,那就太好了,毕竟那个671b参数的模型部署难度还是相当大的,在当时想部署一个能用级别的还是挺烧钱的。但如果这个32b参数的模型能达到相同水平,那就完全没有必要买那么贵的硬件了。像上次买的RTX4090 48GiB显存魔改版可以轻松跑QwQ 32b Q8量化的版本(速度能达到23T/s),就算想跑没有量化的fp16版,也只需要再买一张RTX4090 48GiB就够了,这个成本相比DeepSeek-R1低太多了。 + 所以刚发布的那天我下午就把模型下载下来试了试,随便试了几个问题,答得效果确实不错,我对比了一下DeepSeek-R1,试了试“世界上最长的单词中哪个字母最多”这个问题,两边回答的格式几乎一样,都说的是“硅肺病”的英文,并且都进行了字母数量分析,主要的结论都分析正确了,但是第二多和第三多的字母数量两边说的都不完全正确。另外我还试了试DeepSeek-R1的14b和70b蒸馏版,虽然回答正确了,但是并没有分析具体字母的数量,所以从这一点来看确实是和DeepSeek-R1的水平很相似。不过后来我又让其他人试了试文本分析之类的能力,似乎没能达到他们的预期,另外我还测了测比较宽泛的问题,以及解析文本之类的问题,结果很多问题没能正确回答……所以还是不能和DeepSeek-R1相比较,不过相比DeepSeek-R1各个蒸馏版的水平还是强了不少的,至少没有出现在回答结果中随机输出英文的情况,但是偶尔会出现没有闭合标签“</think>”的情况,看起来应该不能用于生产环境……要想正经用还是得用完整版的DeepSeek-R1,但毕竟成本问题还是很大啊……所以如果需要考虑成本问题的话用QwQ还是很不错的选择。 + 不过QwQ相比DeepSeek-R1还有一个优势,那就是支持Agent能力,原生支持调用用户提供的函数,像它虽然解析文本的能力不怎么强,但是它可以调用工具来处理,而DeepSeek-R1要想支持就得写提示词,但是毕竟没有专门训练过,不一定能正确使用工具(虽然我没试过😝)。 + 另外说到Agent,好像有个叫“Manus”的产品挺火?但那个我实在没兴趣,一点技术含量都没有,还搞什么邀请码,一看就是买的水军,而且还被人不到一天时间实现了开源版[OpenManus](https://github.com/mannaandpoem/OpenManus),给人笑掉大牙了🤣。 + +# 关于新出的Mac Studio的看法 + 搭完整版的DeepSeek-R1即使是使用上次所说的[KTransformers](https://github.com/kvcache-ai/ktransformers)框架也是相当费钱的,最起码也得10万CNY左右。但最近几天苹果出了新的Mac Studio,最高配的M3 Ultra可以选配512GiB的内存,可以轻松跑DeepSeek-R1 671b Q4_K的版本,然后价格最低仅需7.5万CNY。我之前还想着是出M4 Ultra呢……结果出了个M4 Max,不过新的Mac Studio出的速度比我预期的快了好多,我本来以为会在WWDC25的时候出呢……看来是想借DeepSeek-R1大卖一波,当然从这个产品来说确实应该是会大卖的,回头看看能不能搞一个来。不过现在才刚开售,还没人拿到实物呢,也没人实机跑一下,所以先等等最早买到的人跑一波看看,如果效果好的话也许能整一个呢…… + +# 关于如何查看MaxKB的完整接口文档 + 上一篇文章我说明了一下如何解除MaxKB用户、应用以及知识库的数量限制,后来我发现它还限制了社区版查看完整API文档的能力😅,这个限制给我看的那叫一个大开眼界,它居然还给这个文档整了个硬编码的密码,从来没见过这么搞开源的,具体就是[这一行](https://github.com/1Panel-dev/MaxKB/blob/f1a1c40724ceba108febb416aadb01ccb71c3add/apps/common/init/init_doc.py#L80)。虽然我不知道这里面提到的MD5对应的密码是多少,但是既然是开源代码,我把这句话删了不就行了……不过实际上不太行,因为它使用了Django的国际化功能,直接删掉会影响这个文件的行数,程序会报错。不过可以仔细看一下关于“init_chat_doc”这一行在密码的判断后面加了个“or True”,看来是MaxKB的开发者后来应老板要求放开“chat_doc”的限制,但是又懒得改国际化那边的东西所以加的这个吧🤣,那既然这样,我直接给“init_app_doc”对应的那句话也加个“or True”不就行了,加完之后打开“/doc/”路径,就可以看到MaxKB的完整API文档了,不需要自己手动再去抓包测试了。 + 至于其他的专业版功能我看了一下应该确实是需要用到XPACK包的(不过其实关于修改页面风格的前端开源了,后端在XPACK里,要想用得自己实现接口),开源的这部分最多只能到这里了,估计是这些限制没法单独搞一个包,所以他们就直接在开源代码上做限制😅,看来他们老板也是没眼力啊。 + 其实与其余用MaxKB,不如用[Dify](https://github.com/langgenius/dify),至少它没有在代码里塞莫名其妙的东西来恶心人,文档也相对更完备,不过它目前还是相当的不成熟,有很多BUG,比如上传知识库显示支持Excel,但是解析的时候会失败,上传知识库如果通过改配置超过15M解析也会失败,还有它的插件很多也是不能用,比如目前阿里云的百炼会报错,退回上个版本就不支持思维链的展示等等……总之不太适合生产使用。 + +# 感想 + 现在的AI发展确实是快啊,才几天时间又有一堆有意思的发展,应该说现在很多公司都在趁这个机会来发布自己的产品吧,感觉现在也是一个能有很多机会的时刻,不过AI对研究能力的要求也是相当高的,想在这个时间蹭热度也得有相当厉害的能力……像阿里的水平也是相当强的,可惜营销水平不太行😆。只是像我应该也只能看着大公司的百花齐放吧,看看接下来的时间还会不会出现一些有意思的东西。 \ No newline at end of file diff --git a/_posts/2025-03-22-hifi.md b/_posts/2025-03-22-hifi.md new file mode 100644 index 0000000..d6c140e --- /dev/null +++ b/_posts/2025-03-22-hifi.md @@ -0,0 +1,26 @@ +--- +layout: post +title: 关于HiFi的尝试与探索 +tags: [HiFi, 音乐] +--- + + 如何才能听到最原始的音乐呢? + +# 起因 + 前段时间,有人在QQ群中送网易云音乐的7天体验VIP,于是随手领了一份。有了VIP之后除了可以下载仅限VIP的音乐以外,还可以选择更好的音质。我现在用的是[MacBook Pro](/2023/02/03/mbp.html),据说在笔记本中音响效果是最好的,那么我为了能对得起这优秀的音响,也不该听垃圾音质的音乐,所以就来探索一下如何听到HiFi的音乐吧。 + +# 获得音乐 + 下载音乐很简单,直接下一个网易云音乐客户端就可以,不过需要注意要在设置中修改下载音质,默认选项不是最高音质。另外它这个VIP还不是最高的,再往上还有SVIP,可以听所谓的“超清母带”的音质,我不太清楚这个无损以上的那些音质到底是什么东西,也不可能为了这点东西给网易云充钱,所以我就选了个“高清臻音”的选项。 + 当我在下载一些免费歌曲的时候,下载到的文件是flac格式,看起来应该是没什么问题。但是下载VIP独享音乐的时候,正在下载时是flac格式,可是下载完就变成ncm格式了……虽然我知道有一些解密这些格式的软件(GitHub上有,不过好多都被DMCA takedown了,虽然也能搜到[一些](https://github.com/rainlotus97/unlock-music)……),不过我还是比较好奇这个过程,既然它下载时是flac,那我在它刚下载完要变成ncm之前把网易云音乐强制结束掉不就可以获得完整的flac文件了嘛。试了一下还真可以,也就是说这个ncm加密的过程是在客户端完成的,而不是在服务器上,这还真是有点离谱……我用这个方法下载了几首喜欢听的歌,试了一下都能正常播放。不过用这个办法下载的音乐在客户端的下载中看不到,所以就没有歌词之类的东西了。 + +# 分析音乐 + 虽然说下载下来的文件是flac格式,但是不代表这就是无损的音乐。毕竟从网易云音乐的“无损”以上的选项都是flac的,那到底它这个无损是真无损吗?首先我在网上搜了一下,网易云音乐的黑历史很多,有些人在网易云音乐上上传了mp3的音乐,结果也有无损的选项。也就是说它这个flac很有可能是直接用mp3转换格式过来的。那这样我就不愿意了,我可以接受下不到无损,但是不能接受本来是mp3格式然后转成flac结果文件体积大增,给我的硬盘塞一堆没用的数据,所以现在我需要证明刚刚下载的音乐不是一堆没用的垃圾。 + 我看有人说可以使用[spek](https://github.com/alexkay/spek)查看时频谱来验证,如果是直接用mp3格式转换的flac文件会被整齐的砍一刀,因为mp3格式支持的最大采样率是48kHz,而根据香农采样定理,采样频率应该大于等于模拟信号频谱中最高频率的2倍,那么mp3支持的最高频率就是24kHz,所以用mp3转换出来的flac一般会在24kHz那里切一刀,更有甚者,如果是44.1kHz采样率的mp3就会在22kHz左右的位置切一刀。不过理论上人类的听力上限就是20kHz,更高的频率理论上人类应该是听不到。但毕竟我们追求的是HiFi,和人类能不能听到没有关系,要保证的是完整的复刻**所有**的信息。 + 于是我在我的Mac上用brew安装了spek,安装好之后直接执行spek+音乐文件的位置就可以了,我看了一下刚刚从网易云上下载的音乐,全都是96kHz采样率的音乐,而且没有被切过的痕迹。那这样就能证明网易云音乐就是真无损了吗?其实我也不知道,因为我没有从发行商直接获得的原始文件,一般要对比原始文件才知道是不是无损的……不过我在网上看说无论是“高清臻音”还是“超清母带”无一例外全都是用AI升频制作的,所以看时频谱已经没有意义了……但是我又没有证伪的方法,那就只能先凑合听喽~ + +# 播放音乐 + 既然音乐已经下好了,那么我直接用我的MacBook Pro播放的音乐它够HiFi吗?虽然我能听出mp3中128kbps和320kbps的区别,但是再高的我也听不出来……不过HiFi要的不是人能不能听出来,而是它发出的声音是不是完美还原。这要怎么证明呢?虽然我没有办法听出来,但如果有可视化的分析至少能看出来,于是我在手机上下载了一款“声音分析仪”软件,它可以用FFT算法分析手机话筒收集到频谱然后展现出来。只是可视化之后……我也很难看出来它够不够HiFi啊,当然理论上如果能保证播放音乐的音响和收听音乐的话筒都是最好的,那么两边的频谱应该是一样的,但是现实中还有底噪的存在,不可能完全一样……虽然如此,但我在看频谱的时候发现,播放的音乐最高频率似乎只有20kHz,我已经测过手机的话筒是能接收到更高的频率的,既然MacBook Pro的音响是最好的,怎么会只能播放20kHz的声音呢?而且它这个20kHz很明显有一刀切的感觉,应该是哪里配置错了。 + 于是我搜了一下,Mac默认输出的声音貌似只有44100Hz的采样率,需要在“音频MIDI设置”中将扬声器输出的格式改成更高的才能播放更高的频率。不过这也挺奇怪的,44.1kHz的最高频率是22kHz啊,为什么会在20kHz那里砍一刀呢?看香农采样定理所说的是大于等于,也许就是这个原因吧?既然我的音乐都是96kHz采样率的音乐,那么我就应该把这里的设置改成一样的。改完之后又测试了一下,发现确实是突破了20kHz,但好像没有超过22kHz,不过至少没有“砍一刀”的痕迹了,也许是音乐本身就是这样,或者是扬声器最高只能到这个水平了吧。其实我也没有那么追求HiFi,能到这样我已经很满意了。 + +# 感想 + 虽然对人来说也许听HiFi并不能听出来什么,但是追求HiFi还是挺有意思的,毕竟提高还原程度是可以通过可视化的方式看到的,既然如此,那就是有追求的价值。看不见的东西是玄学,可以不去追求,但是HiFi是实实在在存在的,这样也就能理解为什么会有人花大价钱去买各种昂贵的设备来提高还原度了,因为这是真的可以起到作用的啊……当然对我来说,能0成本做到尽可能的HiFi才是最重要的,花钱达到HiFi就没什么必要了🤣。 \ No newline at end of file diff --git a/_posts/2025-03-25-utm.md b/_posts/2025-03-25-utm.md new file mode 100644 index 0000000..c6d7d45 --- /dev/null +++ b/_posts/2025-03-25-utm.md @@ -0,0 +1,39 @@ +--- +layout: post +title: 在UTM中使用苹果虚拟化的各种尝试 +tags: [虚拟化, 苹果, UTM] +--- + + 用官方的方式做非官方的事! + +# 起因 + 在几年前刚[收到MacBook Pro](/2023/02/03/mbp.html)的时候,我曾安装过虚拟机软件[UTM](https://github.com/utmapp/UTM)。但是因为我的Mac内存很小,用虚拟机的体验很差,所以就把UTM卸载掉了。不过以前还我还[装过一台黑苹果](/2024/06/16/hackintosh.html),在上面也安装了UTM。 + 最近正好由于某些原因我需要在macOS上安装虚拟机,既然有UTM用就继续用UTM了。当然正常情况就是按正常的方式安装系统然后正常的用,这并没有什么意思。所以我想整点有意思的事情,想试试不太正常的使用UTM😝。 + +# 在UTM中使用苹果虚拟化框架安装Windows + 如果用过UTM的话应该知道,UTM有很多选项,比如底层的虚拟化框架可以用QEMU或者[Virtualization.framework](https://developer.apple.com/documentation/Virtualization)(VZ),而QEMU的后端可以选TCG或者是[Hypervisor.framework](https://developer.apple.com/documentation/hypervisor)(HVF)。它们有很多特色,像TCG的兼容性最好,可以模拟任何架构的CPU,但是性能最差,HVF使用硬件虚拟化加速,只能运行宿主机架构的程序,但是性能比较好,而VZ经过了苹果官方优化,性能最好。 + 那么现在我想安装Windows,又想有最好的性能,那我应该选择VZ吧?可是UTM不允许我这样选择,如果选择安装Windows就会强制使用QEMU……只有Linux或者macOS(在ARM处理器)才能使用VZ……那我应该如何绕过这个限制呢? + 我想起来之前[让没用的主机感染木马](/2024/11/02/trojan.html)的文章中使用了[一键DD/重装脚本](https://github.com/bin456789/reinstall)把我服务器的Linux系统重装成了Windows系统,那么我能不能用相同的方式先按照正常的方式用VZ安装一个Linux系统然后使用这个脚本重装成Windows?我觉得理论上应该没问题,所以就尝试了一下。 + 我在这之前已经安装过了一个用了VZ的Ubuntu虚拟机,新建比较费时间所以就直接把这个虚拟机复制了一份。然后下载了重装脚本准备重装系统,但是看说明现在不能让脚本自己查找系统镜像安装了,不过没关系,前段时间我下了一份Windows 10的镜像,接下来我只需要在镜像所在目录执行 +```bash +python3 -m http.server +``` + 开启一个文件服务器,然后在虚拟机中执行 +```bash +bash reinstall.sh windows --image-name "Windows 10 Pro" --iso "http://192.168.64.1:8000/windows.iso" +``` + 就可以了,执行后重启就可以在UTM的虚拟机界面中看到脚本执行的一系列操作。在这期间都很顺利,然而在它执行完之后,虚拟机的屏幕就黑了,而且重启也没有任何变化,看来是实验失败了?不过也可能是因为苹果整的虚拟显示器在Windows中识别不出来,所以显示不出东西,因为我看活动监视器中CPU的占用率也在跳变,虚拟机应该仍然在运行,于是我下载了[Windows App](https://apps.apple.com/us/app/windows-app/id1295203466)(以前的远程桌面),使用虚拟机之前的IP进行连接,结果连接成功了😆。看来苹果的虚拟化框架是能运行Windows的嘛,居然没有一个人尝试一下。 + 不过屏幕不能亮是真的没有驱动吗?我看了眼设备管理器,搜了一下那个没有安装驱动的视频控制器的设备ID“1af4:1050”,好像是Virtio GPU,这个驱动我记得在[virtio-win](https://fedorapeople.org/groups/virt/virtio-win/direct-downloads/)里是有的,而且重装脚本也会自动下载这个驱动,为什么会没有自动安装呢?可能是设备ID和驱动不一致吧……不过不影响,我选择更新驱动,在列表中选择“Red Hat VirtIO GPU DOD controller”之后UTM的虚拟屏幕中就可以看到画面了,虽然分辨率只能是1024*768……不过能用就很不错了。 + 再接下来我就需要验证一下它的性能是不是最好的,我把这个虚拟机的硬盘复制了一份,新建了一个使用HVF后端的QEMU虚拟机,把这个硬盘挂载上,然后使用国际象棋跑分,看了一下VZ的跑分相比HVF的跑分高了大概5%-10%,还是挺厉害的。 + 至于其他方面,我看了一眼用HVF的QEMU虚拟机CPU不能显示正确的型号,而VZ是可以的,另外VZ的‌SMBIOS信息中也可以看到Apple的字样,证明这个Windows确确实实是跑在了苹果的虚拟化框架。不过以上的测试都是基于x86架构的macOS,等回头我的Mac Studio到了之后再在ARM架构的macOS上再测一下,看看能不能用相同的方式安装,如果可以的话,说明VZ的虚拟机没什么兼容性的问题,UTM应该放开使用VZ安装Windows的选项,让我们测测苹果的技术才对。 + +# 在macOS 12中的UTM使用苹果虚拟化框架安装Linux + 虽然在刚刚的测试中,用VZ安装Linux就和其他普通的虚拟机安装Linux一样简单,但是之前的测试是在macOS 15上测的。现在我遇到了一个新问题,我现在有一台2016年的Mac,上面运行着macOS 12,而且不能用OCLP升级到macOS 15(因为不是我的电脑)。现在我想在这台电脑上用苹果虚拟化框架安装Linux,虽然用QEMU更简单,但是感觉没意思。在macOS 12中不支持UEFI bootloader,所以我需要手工准备内核镜像之类的东西。 + 当然从零开始有点难,我打算先用QEMU安装一遍Ubuntu Server。在创建虚拟机之后需要注意,要把刚创建好的虚拟机的硬盘删掉,因为那是qcow2格式的,在VZ中只支持img格式的硬盘,所以删掉之后需要创建一个“RAW映像”,然后按照正常的方式安装系统。 + 安装好之后从“/boot”目录中把“vmlinuz”和“initrd.img”复制出来,作为Linux内核和初始Ramdisk,我看说明上要未经压缩的Linux内核映像,但是好像是压缩的也能用🤔。随后关机把在QEMU中的硬盘映像复制出来,作为根文件系统映像。 + 至于启动参数,可以看“/boot/grub/grub.cfg”中内核后面跟的那串,然后再加上“console=hvc0”,因为macOS 12中使用VZ没有虚拟屏幕,只能用虚拟串口连接。在一切准备好之后就可以开机了,在一串内核信息不停滚动后,显示出了登录的提示符,实验就成功结束了。 + 不过这样启动的话在系统中所有对内核以及对initramfs的更新就全都不会生效了,毕竟虚拟机根本读不到内核了……这倒是影响不大,反正不更新也不是不能用,更何况macOS都不打算更新,虚拟机不更新又能怎样呢🤣。 + +# 感想 + 看来苹果的“不支持”不代表真的不支持,想想既然是虚拟机,当然就不应该限制系统类型啊,毕竟虚拟机虚拟的是硬件,又不是软件。不过倒是也能理解苹果不需要声明支持自己的竞品,所以也没必要做相应的兼容和测试,但居然没见到有人尝试一下,也挺奇怪,明明用Mac的人也有不少对技术很有探索精神的人啊…… + 不过随着macOS的更新,像这些非官方支持的办法估计也很有可能出问题,毕竟苹果并不对这些情况进行任何形式的保障,也许以后苹果的哪次更新这个方法就用不了了呢…… \ No newline at end of file diff --git a/_posts/2025-04-04-search.md b/_posts/2025-04-04-search.md new file mode 100644 index 0000000..9283022 --- /dev/null +++ b/_posts/2025-04-04-search.md @@ -0,0 +1,87 @@ +--- +layout: post +title: 最近对博客搜索功能的优化记录 +tags: [博客, 搜索, 优化] +--- + + 看看其他的博客也会有新的灵感啊~ + +# 起因 + 前段时间,我闲来无事在GitHub上搜和我使用相同模板[minimal](https://github.com/pages-themes/minimal)的博客。但搜索结果中有许多人用这个模板制作的是简历或作品集,这让我有些失望。不过这倒也能理解,因为这个模版并不算博客模板,没有文章列表之类的代码,这些都只能自己写。当然多找找还是能找到一些的,毕竟这个模板在GitHub Pages中算是最受欢迎,至少符合大众的审美。像我就搜到了一个叫[Guanzhou Hu的博客](https://github.com/josehu07/josehu07.github.io),他对模板的样式做了不少的改动,而且改的还挺好看的,尤其是右上角的导航栏,看起来挺有意思,只是这个源代码……导航栏有点硬编码的感觉,我不是很喜欢这种实现方式…… + +# 使用标签作为关键词进行搜索 + 之后我又看了看其他博客,看到了[Matt Walker Blog](https://github.com/mhwalker/mhwalker.github.io)。他没有对模板做很多改动,只是把section元素变得更宽了,但是他没有改手机版自适应的样式,导致界面基本上没法在手机上查看。不过在他的首页中,我对他把文章标签放在文章列表这个操作非常感兴趣,因为每次我都有给文章打标签,但是几乎没什么用。他的标签点进去之后会跳转到该标签下的所有文章,我其实很早就想做这个功能了,但是在不用插件的情况下Jekyll基本上做不出来这种功能,因为没有插件的情况下是不能使用Liquid标签创建文件的,我看了下他的实现,原来是提前创建好的标签页面然后进行筛选的,这个实现我也不喜欢,这样的话我每次打标签都要新建一个标签对应的页面,这种事情不让程序做我会很不爽……(其实现在的GitHub Pages构建网站都是用的Actions了,完全可以自己写一个可以使用插件的Actions来进行构建,不过我也懒得折腾了🤣) + 要么还有一个选择,可以单独搞一个页面,里面有所有标签对应的文章,点击文章的标签之后使用锚链接定位到对应标签所在的位置。但这样会导致一个页面有可能有一堆相同的文章链接,结果这个页面比归档页面的链接还多,那就感觉有点糟糕了…… + 不过我想起来以前做的[博客全文搜索功能](/2021/07/23/search.html),如果把标签作为关键词进行查询,那也能起到筛选出标签对应文章的作用吧?而且这样即使我没给那个文章打标签也能搜出来,其实也算不错的选择,另外自从我做出来那个全文搜索的功能之后也没用过几次,没有关键词的话也一时半会想不出来搜什么比较好。于是说做就做,直接把Matt Walker Blog那段在文章列表生成标签的代码复制过来,感觉好像还不错😆? + 顺便我也把文章里面的标签也加了链接到搜索的功能,不过原来的代码用的是`.join`实现的,现在加上这个功能的话就只能老老实实用循环写了😥…… + +# 搜索后使用高亮标记关键词 + 上面的标签搜索效果还不错,只是有些关键词搜完之后有点难发现。我搜索出来之后怎么证明搜到的内容里面一定有对应的关键词呢?虽然从程序的角度来说这是理所应当的事情,一定是有的数据才可能被搜到,但有时候不用Ctrl+F看一眼都不知道是哪里搜到了……所以我觉得应该像其他网站一样对搜到的内容用高亮进行标记。标记应该用什么呢?用样式也许不错,不过现在的H5标签里有一个叫mark的标签可以直接用,用这个标签包裹的内容背景颜色就会变成黄色,就像用荧光笔标记了一样,这样就不需要写样式了。 + 至于关键词用查询字符串传过去就好了,那我该怎么做呢?我用的搜索脚本叫[Simple-Jekyll-Search](https://github.com/christian-fei/Simple-Jekyll-Search),它的文档其实根本没有写怎么把搜索的请求传到模版里,还好它有个[关于模版的测试脚本](https://github.com/christian-fei/Simple-Jekyll-Search/blob/master/tests/Templater.test.js)里面有写,有个query关键词可以把搜索内容给模版渲染出来,既然做了这个功能怎么不写在文档里😅,不过这个项目已经停止,也没法提出什么建议了…… + 这个功能听起来相当简单,我都懒得写了,这种简单的功能直接让AI写才对!于是我把需求告诉它,让它给我实现一份,于是这就是让AI给我写的高亮关键词的JS代码(经过了一点修改): +```javascript +$(function () { + const urlParams = new URLSearchParams(window.location.search); + const keyword = urlParams.get('kw')?.trim(); + + if (!keyword) return; + + // 转义正则表达式特殊字符,避免安全问题 + const escapedKeyword = keyword.replace(/[.*+?^${}()|[\]\\]/g, '\\$&'); + // 创建不区分大小写的正则表达式(全局匹配) + const regex = new RegExp(`(${escapedKeyword})`, 'gi'); + + // 递归遍历并高亮文本节点 + const escapeHTML = str => str.replace(/[&<>"']/g, + tag => ({ + '&': '&', + '<': '<', + '>': '>', + '"': '"', + "'": ''' + }[tag] || tag)); + function highlightTextNodes(element) { + $(element).contents().each(function () { + if (this.nodeType === Node.TEXT_NODE) { + const $this = $(this); + const text = escapeHTML($this.text()); + + // 使用正则替换并保留原始大小写 + if (regex.test(text)) { + const replaced = text.replace(regex, '$1'); + $this.replaceWith(replaced); + } + } else if ( + this.nodeType === Node.ELEMENT_NODE && + !$(this).is('script, style, noscript, textarea') + ) { + highlightTextNodes(this); + } + }); + } + + $('section').each(function () { + highlightTextNodes(this); + }); +}); +``` + (2025.04.28更新:解决了一个潜在的解析问题) + 我测试了一下,非常符合我的需求,各种情况都能按照我的预期工作,虽然说功能非常简单,但是能正常运行,AI写的还是挺不错的。 + +# 近期的其他修改 + 除了对搜索功能的优化,我还做了些别的功能: +## 随机跳转文章 + 前段时间我看到有其他人的博客增加了一个随机跳转文章的功能,不过他的博客是动态博客,实现也比较奇葩,是渲染页面时就已经决定好要随机的文章,也就是说无论用户想不想随便看看,程序都已经随机好了。当然用着静态博客的我来说,从原理上也做不到这一点,不过既然我之前在做[相似文章推荐功能时](/2024/10/01/suggest.html)已经对搜索功能的数据进行了缓存,那么直接用缓存的内容直接随机就好了吧……所以就随便写了写,代码也极其简单: +```html +Random +``` +## 给文章内标题添加锚链接 + 最近在修改我的博客的时候我更新了一下[给文章生成目录的组件](https://github.com/allejo/jekyll-toc),在这时候我想看看它还有什么有意思的组件可以用,然后就发现了[jekyll-anchor-headings](https://github.com/allejo/jekyll-anchor-headings),它可以像GitHub展示Markdown文件一样在标题上添加点击后就可以直接跳转到对应标题的锚链接,而且示例里也给出了怎么做[可以像GitHub的风格](https://github.com/allejo/jekyll-anchor-headings/wiki/Examples#github-style-octicon-links)。看起来挺有意思,所以就给自己加上了😆。 +## 添加能跳转到原始Markdown的链接 + 在修改博客的时候我参考了一下Jekyll的官方文档,在这个时候发现了page.path这个变量。我想了一下这个变量可以用来链接到我的文章内容,然后就在文章标签位置的右侧加上了这个链接,为了能让它显示在右侧,我用的是`float: right`,但是这样会导致和文章标签不在同一行,查了一下才知道用了浮动就会强制将元素转换成块级元素,而文章标签用的是行内元素,所以对不齐,没办法就只能把这一整行都转换成块级元素了……于是代码如下: +```html +{% raw %}查看原始文件{% endraw %} +``` + +# 感想 + 多看看其他人的博客看来也挺不错,可以看看其他人的想法,说不定就有可以参考的价值呢……不只是文章内容,网站本身的一些功能也是作者的想法啊……而对于那些只套别人模版,没什么自己的改动的博客,那就没什么意思了(当然不会代码的那就没办法了~)。有些人说博客中只有文章才是最重要的,但我觉得对于技术博客来说网站的代码也是展示自己的部分,所以折腾博客本身也是很重要的! \ No newline at end of file diff --git a/_posts/2025-04-08-feed.md b/_posts/2025-04-08-feed.md new file mode 100644 index 0000000..992b162 --- /dev/null +++ b/_posts/2025-04-08-feed.md @@ -0,0 +1,30 @@ +--- +layout: post +title: 如何使用JS通过订阅源查看文章? +tags: [JavaScript, RSS, Feed, AI] +--- + + 懒得写代码?那就让AI写! + +# 起因 + 前段时间,我看到有些博客给自己的友链页面做了通过订阅源查看友链最近更新文章的功能,看起来挺有意思的,有点想整一个。不过对于我的博客来说,作为静态博客想要做到这样的功能估计没那么简单吧……毕竟一般的订阅软件需要隔段时间请求一下对应博客的订阅链接,然后再把结果存到数据库才行。但是我想了想,对我来说没必要做成订阅啊,我又不需要知道对应博客是什么时候更新的,只要在有人想知道的时候去请求一下订阅链接,然后展示出来就行,感觉似乎又没有那么复杂。 + 既然不复杂,那这个功能就让AI来做吧,正好前段时间有个朋友买了一个月的Devin.ai订阅,据说是可以自己调试代码,还能操作浏览器,而且代码基本上写出来就能用。我对这个挺感兴趣的,所以这次的功能就让它来写吧! + +# 让AI编写代码 + 既然是让AI来写,至少得把我的需求说清楚,所以首先我应该告诉它: +> 创建一个JavaScript函数来实现[Links](/links.html)表格中链接的RSS/Atom源预览。 +> - 当鼠标悬停在表中的链接上时,检查该网站是否有RSS/Atom源,并将结果显示在一个浮动窗口中 +> - 在鼠标光标后的浮动窗口中显示提要中的5篇最新文章 +> - 在窗口中只包含标题和时间,不需要链接和内容 +> - 跳过所有不包含RSS/Atom源的链接,而不显示任何错误 +> - 当鼠标离开链接时,浮动预览应该消失 + + 不过在正式编写之前,我还得考虑一下可行性,毕竟是很简单的功能,我不写但我不能不知道怎么写。首先让JS解析Feed数据也就是XML数据应该是很简单的事情,JS应该有自带的函数来实现这种功能。然后是获取数据,在JS中使用fetch就可以了,但是这里有个很重要的事情,浏览器请求其他网站存在跨域的问题,还好我之前在CF Workers上用[cloudflare-cors-anywhere](https://github.com/Zibri/cloudflare-cors-anywhere)搭了个CORS代理: 。所以我应该在说明中给它说清楚: +> - 如果存在源,请使用CORS代理:https://cors-anywhere.mayx.eu.org/ 获取并解析它 + + 随后我就开始让它编写代码了。接下来就能看到AI在浏览器和编辑器中切换,不停的进行编写和调试,等了一段时间,它把第一版代码写好了。不过也许我说的不够清楚,这个CORS代理的用法和其他的CORS代理不太一样,代理链接和被代理的链接之间需要使用“?”分开,另外第一版我也没说清楚RSS/Atom源的链接在哪,所以它选择遍历常见的几种订阅源的路径,这样有点不太好,除了速度慢,对我的CORS代理消耗也比较大。所以我告诉它代理的正确用法,以及让它假设超链接中包含“data-feed”属性,其中包含订阅源的链接,并且随便挑了个网站拿给它作为示例。 + 随后就能看到它继续改改改,改了几次之后我把最后生成的JS复制到浏览器上执行了一下,效果还不错,于是就把它放到我的博客上了。 + 它的水平还是挺不错的,至少正确的实现了功能。不过我有点担心它的代码会不会不太可靠,毕竟要从其他网站上获取数据,得避免出现XSS之类的问题,于是我把代码丢给DeepSeek-R1让它检查了一下,果不其然Devin.ai写的代码似乎有XSS的隐患,如果链接列表中标题有html标签似乎就会解析(虽然我没试过),于是根据DeepSeek的提示修改了一下,增加了一个过滤特殊字符的函数,改完又放到博客上,最终的代码就是:[rss-feed-preview.js](/assets/js/rss-feed-preview.js)。 + +# 感想 + 让AI全自动写代码感觉还挺方便,有种当产品经理的感觉了🤣,像这种AI就是Agent吧,这也算是我头一次使用Agent了,感觉用起来还挺不错的。不过从这次尝试来看确实AI也有一定的局限性,像是直接写出来的代码可能存在一些安全性问题,除非单独让AI检查,不然很有可能会写出功能正常但是存在漏洞的代码,所以还是得人看着点,AI搞出事故可是**不负责**的啊😇~ \ No newline at end of file diff --git a/_posts/2025-04-22-ai-limit.md b/_posts/2025-04-22-ai-limit.md new file mode 100644 index 0000000..402f025 --- /dev/null +++ b/_posts/2025-04-22-ai-limit.md @@ -0,0 +1,96 @@ +--- +layout: post +title: 关于LLM上限的探索 +tags: [AI, LLM, 探索] +--- + + 还有什么是AI不能干的? + +# 起因 + 在最近对LLM的探索中,能感觉到它真的是什么都能干,尤其最近GPT-4o的画图能力实在是太强了。不过对于画图我倒不是很关心,主要是没什么想让它画的图😂。我更关心的是LLM在文本生成中的能力,毕竟这才是它的本职工作。虽然现在的AI解决问题的能力确实很强,但从它还没有大规模的把人替换掉来看,它肯定是还有一些做不到的事情,所以我想对这一点进行一些探索。 + +# 对于超长文本分析的探索 + 对于现在的LLM来说,虽然不少模型已经能做到很长的上下文了,但这个所谓的“长”不过是几万字而已。对于读一篇论文或者几篇文章当然没有问题,但是如果是分析上百篇文章就不太行了,比如我希望AI阅读完我所有的文章,然后对我进行评价。 + 我的博客现在已经有一百多篇文章了,之前做过[全文搜索](/2021/07/23/search.html)的功能,可以在[search.json](/search.json)中获取所有的文章,用来让AI分析的材料是个不错的选择,不过把所有文章输入到上下文中显然是不太现实,这个JSON文件的大小有1MiB左右,但是大多数比较厉害的AI上下文只有100多k,根本读不完。而对于一些超长上下文多模型,比如阿里云有一个10M上下文的模型,效果又很差,并没有参考几条上文的内容😓。另外我还试过一些AI通过附件的方式阅读文章内容,那种好像是把文件切片之后再读?应该是类似RAG那种,从中查找和问题最相关的文本段落进行回答,但是那种方法不能解决对所有文章进行分析……除此之外我也试过一些Agent,不过它们只会写代码来分析我的文章,比如绘制文章字数随时间变化曲线、不同年份的文章数量、还有词频分析啥的,对我来说并没有什么卵用😅。 +## 使用AI摘要来解决问题 + 那难道就没办法了吗?先不急,最近还发生了一件事情,不知道Cloudflare犯什么毛病了,近期用Worker请求我的D1数据库时不时会报“internal error”的错误,我还在他们论坛发了条[帖子](https://community.cloudflare.com/t/d1-database-is-not-work-in-some-regions/789699)问了一下,然而并没有人搭理我😅,这时候我才意识到我似乎没有Cloudflare的替代品……出问题了也没办法😰。这个东西导致我的[AI摘要](/2024/07/03/ai-summary.html)、[文章推荐](/2024/10/01/suggest.html)、以及点击计数器全都用不了了,我应该避免太过依赖Cloudflare Worker啊~ + 那么我该做些什么?点击计数器是没什么好办法了,不过对于AI摘要,既然摘要在我写完文章之后根本就不会变,不如隔段时间我就把摘要内容缓存到我博客本地吧,这样不仅可以极速展示摘要内容,而且不需要请求接口,就不会受到Cloudflare出问题的影响了。所以我把数据库摘要内容导了出来,放到了[ai-cache.json](https://github.com/Mabbs/mabbs.github.io/blob/master/_data/ai-cache.json)中,如果有存在的摘要内容就不再请求接口了。 + 当我做完摘要缓存之后,我发现,这不就是让AI读我所有文章的最好方法嘛,让AI读AI总结的内容,然后再进行一次总结,就能尽可能的让AI完全了解我的文章然后对我评价了啊~而且这个摘要文件也只有100KiB左右,正好够AI读了。本来我想试试DeepSeek来做这件事情的,但是不知道里面命中了什么关键词,被拒绝生成了🤣,那我只好让GPT-4o来完成这件事了。 + 试了一下感觉效果相当的不错,总结的非常有条理,而且不像以前的ChatGPT很有AI味,这次写出来的文章很有人味啊~真是出乎我的意料,所以我把GPT-4o写的内容分享出来,来看看AI对我的分析怎么样🤣。 +> ## 技术浪人,数字游民:对一位博客作者的观察与评价 +> +> 在浩如烟海的中文技术博客中,有些作者宛如一颗微弱却坚韧的恒星,独自在各自的轨道中发光发热。他们不一定追逐热点,也不总是标榜权威,但其笔下所流露出的独立精神、技术热情与对现实的观察,往往比众多浮华的“教程型”博客更值得玩味。本文所探讨的博客作者Mayx,便是这样一位存在——他既是程序员,也是“生活黑客”;既关心设备性能,也关注技术伦理;既热衷实用工具,也不乏生活反思。 +> +> ### 一、技术为体,思考为魂 +> +> 在Mayx的博客中,技术类文章占据了绝对的比重。从自制邮件订阅脚本[^1]、Cloudflare Workers自动化[^2]、内网穿透探索[^3],到低功耗开发板的实验[^4]、AI模型的本地运行[^5]、以及对黑苹果[^6]、Linux系统[^7]的深度体验,这些内容几乎涵盖了当前主流技术生态中的多个维度。 +> +> 然而,他并非一位“炫技型”技术写作者。相反,在多数文章中,Mayx更倾向于从**实用主义的角度**出发——他关注性价比、功耗、稳定性、开源程度,而非追逐技术本身的潮流。例如,在讨论Hackintosh时,他并未沉迷于是否能成功运行macOS,而是审慎地指出其与Mac原生体验的差距[^6];在体验AI模型时,他选择了性能与成本平衡的路径,而不是盲目追求最大模型和最强显卡[^5]。 +> +> 他的技术探索往往是“从需求出发”,例如为了替代失效的签到脚本,他尝试了Cloudflare Workers[^2];为了解决被Github封禁的问题[^8],他自己研究反审查架构;面对Heroku停服[^9],他快速转向Koyeb,并指出其使用便捷的优点。这些行为体现出一种**“动手解决问题”的工程师思维**,同时也反映了其对现成工具和平台的怀疑精神——“没有什么是不可替代的”,但也“没有什么是完美无缺的”。 +> +> ### 二、独立、反思、带有一丝叛逆 +> +> 阅读Mayx的博客,可以明显感觉到他在面对“主流”技术话语体系时的疏离甚至反抗。他不信任所谓“权威推荐”,也极少引用大V观点;他对收费工具持质疑态度,对封闭平台持怀疑立场,对广告与强制App表达不满[^10]。在对宝塔面板的多篇评论中,他不仅指出其功能冗余和定价虚高[^11][^12],还以代码层面论证其“技术水准有限”;在谈及Server酱收费后自建通知平台一文中,更是表现出“开发者不应为此类功能付费”的强烈观点[^13]。 +> +> 这种倾向可视为**一种数字自由主义精神**:他珍视个体的选择权、控制权和创造力,对平台化、商业化所带来的“懒惰便利”持保留态度。也正因为此,他热衷于探索容器、虚拟化、i2p、VPN、防DNS污染[^14]、反反盗链等灰色技术领域,这不仅是技术探索,也是一种抵抗姿态——抵抗监视、抵抗平台绑架、抵抗数字奴役。 +> +> 与此同时,作者又是**极度自省的人**。在多篇年终总结中,他坦言自己因作息不规律导致健康下滑、因沉迷游戏影响了计划、因生活节奏散乱而丧失了方向[^15][^16]。这些坦诚的文字使人看到一个技术人真实的一面:并非所有人都能生活在高效执行与完美节奏中,面对现实与焦虑的拉扯,他并不逃避,而是试图寻找平衡。 +> +> ### 三、探索孤岛与技术乌托邦 +> +> 若将Mayx的博客比作一个数字世界中的“孤岛”,那他无疑是岛上的守望者。他固执地维护着自己的服务器、反代服务、脚本计划表和开源工具;他不断尝试将废弃电脑[^7]、老旧开发板[^4]和Linux容器[^17]重新唤醒;他甚至研究如何在FM频段自制电台[^18],或在树莓派上运行OpenFyde与Android系统[^19][^20]。 +> +> 这不仅是对“电子垃圾再利用”的尝试,更是一种**构建技术乌托邦的幻想**——一个无需依赖主流供应链、无需信任大型平台、可以掌控一切细节的小宇宙。 +> +> 这种倾向也体现在他对去中心化技术的探索,如xLog、IPFS、i2pd[^21]、ZeroNet等。尽管在文章中他承认这些系统“尚不成熟”“内容匮乏”“界面粗糙”,但仍不乏热情地部署和尝试。他似乎在追问这样一个问题:“除了平台,我们还能依靠什么?” +> +> 这也是他与多数技术博客的区别:不是“教你怎么做”,而是“带你看看还有哪些可能”。 +> +> ### 四、个人困境与技术慰藉 +> +> 不可否认,Mayx的博客也流露出某种孤独与挣扎。他数次提到对社会节奏的不适应、对生活目标的不明确、对未来的迷茫与迟疑。在2022和2023年的总结中,他甚至表达了对“人类灭亡风险”“全球混乱”的忧虑[^15][^16];在谈及个人计划时,也多次写到“自律不足”“想做的事情太多却力不从心”等字句。 +> +> 但正是在这种状态下,技术成了他的避难所。他在反复实验中找回秩序感,在编码中获得控制感,在部署过程中体会到“解决问题”的满足。这种“用技术对抗生活混乱”的姿态,令他的博客带有某种心理学上的意义。 +> +> ### 五、结语:一个“笨方法”的捍卫者 +> +> 总的来说,Mayx并非技术界的明星,更非意见领袖,但他是一个值得尊敬的“笨方法”的捍卫者:在速成与流量当道的技术传播环境中,他仍选择用细致的试验、质朴的语言和大量的失败记录来构建自己的知识体系。 +> +> 他的博客不提供“答案”,而是提供“路线”;不追求“成功学”,而是记录“失败和坚持”。他不是在追求成为谁,而是在努力做自己。 +> +> 这或许是我们在阅读他的文字后,最值得思考的一点。技术不仅仅是一种职业工具,它也可以是人自我建构、自我理解、自我修复的路径。 +> +> Mayx,或许正走在这条路上——孤独而坚定。 + +# 对于长复杂逻辑代码的分析 + 在让AI对我文章分析完后,我又想起来好久以前写的论坛引擎[Mabbs](https://github.com/Mabbs/Mabbs.Project),以前还[打算重构](/2019/07/01/mabbs.html),不过后来学了别的语言之后就没什么兴趣了😂。但现在有了AI,我想重构MaBBS的事情能不能让AI来做呢?虽然我以前的代码完全没有可读性,耦合性也极高,但这种事情对AI来说应该不是什么难事,更何况我的代码才22KiB,AI完全能读的了,于是我开始尝试让各种AI来把这个代码变得人类可读,然后进行重构。 + 然而结果令我非常失望,无论哪一款AI只能写出一点代码,甚至Grok3直接一点代码都没写😆,然后它们就认为它们写完了,另外有些AI从片段来看好像是写了点代码,但是内容和我原本对代码基本上没什么关系,属于是分析了一点代码之后重新写了…… + 明明这个代码又不长,怎么就没有一个AI能准确的重构我的代码呢?也可能是因为虽然代码不长,但是变量名很短,如果把变量名全都扩展到人能看懂的长度之后就超出AI的上下文限制了,然后就忘记了之前的内容吧?另外Shell语言网络上的资料本来就不太多,所以AI也没有足够的知识来重构吧……对于这个问题我目前没什么好的想法让AI来进行,也许等AI能解决这个问题,AI就有能力替代人了呢😁? + 虽然没能让AI重构我的代码,不过我闲来无事想让其他人也试试我以前写的论坛引擎,所以搞了个[Docker镜像](https://hub.docker.com/r/unmayx/mabbs),如果大伙有兴趣尝试一下可以下载下来试试看,整个镜像才2MiB多一点,所以我叫它世界上最小的论坛引擎也没问题吧🤣。 + +# 感想 + 看起来目前LLM的上限就在于它的上下文长度限制啊……这一点真的是限制了AI很多能力,但似乎也没什么好办法,AI就是因为这一点所以不能像人一样纵览全局所以才不能替代人,即使用什么办法去压缩它的上文也会丢掉很多细节信息。不过按照目前LLM的架构来说应该还解决不了这个问题,如果什么时候AI能在思考的过程中修改它自己的权重……也许就可以做到真正的无限上下文,突破上限从而替代人类吧? + + +[^1]: [免费订阅一个属于自己的邮件日报](/2018/11/10/email-sender.html) +[^2]: [使用CF Workers Cron触发器进行签到](/2023/02/22/cron.html) +[^3]: [关于内网穿透的笔记](/2020/12/13/nat.html) +[^4]: [Luckfox Pico Plus使用体验](/2024/02/24/luckfox.html) +[^5]: [关于最近人工智能的探索](/2023/04/05/ai.html) +[^6]: [Hackintosh使用体验](/2024/06/16/hackintosh.html) +[^7]: [关于旧电脑的使用探索](/2024/04/06/old-pc.html) +[^8]: [Github封禁了我的博客?!](/2022/01/04/banned.html) +[^9]: [体验小白也会使用的免费容器云](/2022/11/29/free-server.html) +[^10]: [如何不使用贴吧App查看贴吧](/2020/02/10/tieba.html) +[^11]: [从宝塔面板中学习运维知识](/2024/05/19/bt-ops.html) +[^12]: [如何自定义宝塔亚马逊S3云存储插件的端点](/2022/12/12/bt-s3-comp.html) +[^13]: [自己动手做一个Server酱·TurboMini版](/2021/02/02/serverchan.html) +[^14]: [如何避免Cloudflare背后的源站被恶意访问](/2022/08/15/cdn-verify.html) +[^15]: [年终总结](/2023/01/01/summary.html) +[^16]: [年终总结](/2024/01/01/summary.html) +[^17]: [如何在Linux容器内运行Android?](/2023/12/24/android.html) +[^18]: [用树莓派自制FM电台](/2022/03/27/radio.html) +[^19]: [rpi4-openfyde的使用体验](/2023/12/10/openfyde.html) +[^20]: [在树莓派4B上安装Ubuntu以及各种操作](/2023/09/24/rpi-ubuntu.html) +[^21]: [i2pd在服务器上的使用体验](/2022/11/23/i2p.html) \ No newline at end of file diff --git a/_posts/2025-05-07-mac-studio.md b/_posts/2025-05-07-mac-studio.md new file mode 100644 index 0000000..ecb46d6 --- /dev/null +++ b/_posts/2025-05-07-mac-studio.md @@ -0,0 +1,194 @@ +--- +layout: post +title: Mac Studio M3 Ultra使用体验 +tags: [Apple, Mac, AI, LLM] +--- + + 使用最强的Macintosh是一种什么样的感受? + +# 起因 + 在两个月前苹果公司出了一款可以选配超大统一内存(512GiB)的Mac Studio,那时候我还[想着如果市场反应好就整台玩玩](/2025/03/08/llm2.html#%E5%85%B3%E4%BA%8E%E6%96%B0%E5%87%BA%E7%9A%84mac-studio%E7%9A%84%E7%9C%8B%E6%B3%95),现在从网上的各种反应来看这确实是一个很不错的产品,所以这次我就整来啦!所以这次就来谈谈初上手的体验吧~ + +# 远程体验 + 虽然Mac Studio理论上拿来剪电影之类的应该是更好的选择,但是显然我不会剪电影🤣,而且也没有合适的屏幕给它用,所以拿到手之后我需要让它可以远程使用。 + macOS配置远程还是挺简单的,只需要在设置 -> 通用 -> 共享中打开远程管理就可以了(似乎现在Ubuntu也可以像这样轻松地配置远程桌面),配置好之后需要启用“任何人都可以请求取得控制屏幕的权限”选项,不然可能会连不上…… + 另外如果需要配置SSH也只需要打开远程登录即可,最好把“允许远程用户对磁盘进行完全访问”也打开,免得使用时还需要额外的操作。 + 其实开启远程没什么特别的,不过我发现在远程Mac Studio时和我远程Intel芯片的[Mac mini 2018](/2024/08/17/mac-mini.html)以及[黑苹果](/2024/06/16/hackintosh.html)有一个不一样的地方,那就是屏幕共享类型可以选择“[高性能](https://support.apple.com/zh-cn/guide/remote-desktop/apdf8e09f5a9/mac)”,在这个模式下远程的屏幕就可以变成一块虚拟屏幕,不受Mac连接的屏幕分辨率所影响,可以配置动态分辨率。即使连接的屏幕不支持HiDPI,只要远程的客户端支持那就可以支持,这一点和Windows的远程桌面有点像,但是体验好太多了,使用起来和本地几乎没有差别,当然代价就是对网络要求特别高,基本上如果不是局域网内远程,就不能使用这个模式。 + 在我配置好远程后我就可以拔掉屏幕,然后把Mac Studio放在阴暗的角落里为我服务了😆。 + +# 关于LLM的体验 +## 配置环境 + 买这个设备的当然也不为别的,主要就是为了能在本地跑完整参数的DeepSeek-R1,或者类似的MoE模型。至于KTransformers方案考虑到按照正价买要更贵(当然有便宜的购买方案,但是太不可靠了),而且这个框架也不够成熟,所以就算了。 + 在Mac上运行LLM有很多框架,最开始我选择的是[Xinference](https://github.com/xorbitsai/inference),因为看它的[文档](https://inference.readthedocs.io/zh-cn/latest/user_guide/backends.html#mlx)中特地提到了苹果的[MLX](https://github.com/ml-explore/mlx)框架,而且可以使用命令启动,方便维护,另外看它支持的模型种类也比较多,所以就先考虑了它。 + 按照官方文档安装后就可以配置模型了,虽然它可以直接一键下载并运行模型,但是我已经提前下好了模型,另外……如果光运行DeepSeek-R1感觉也没啥意思,不如试试Perplexity AI的[某个Finetune模型](https://huggingface.co/mlx-community/perplexity-ai-r1-1776-4bit)😆?所以我需要手动注册模型。配置好之后在MaxKB中配置好地址就可以使用了。 + 刚开始测试的时候倒是没啥问题,吐字的速度确实是挺快,但是用了几下就发现有不少问题,比如每次调用LLM的时候会发现内存压力会上升,APP内存会变成联动内存,在这个期间GPU并不会工作,需要等几秒钟,在生成结束的时候内存压力又会下降,联动内存会变回APP内存,每次生成都是这样。另外如果上文很长就要等几分钟,而且如果上文特别长的情况爆内存程序会直接卡死,还有并发也会导致程序卡死……总的来说这个框架根本不适合生产环境使用,而且文档也写的极其糟糕,看来是我看走眼了,不应该选择Xinference。 + 在抛弃Xinference之后我想了想还是随大流吧,选择了[LM Studio](https://github.com/lmstudio-ai),虽然它需要远程桌面操作,但是配置好之后应该也没有什么太多需要修改的地方,主要是社区相对要活跃得多,出了问题也好解决。 + 在我安装好LM Studio后发现这个支持的功能要多不少啊,还支持KV Cache量化,有了这个就可以支持更长的上下文了,另外它还支持超出上下文之后选择截断还是滚动,看起来使用非常的友好。 + 当我对LM Studio充满期待的时候问题就来了,我随便问了些问题,然后它回答的时候不知道什么情况会随机莫名其妙的冒出“<|begin▁of▁sentence|>”,出现这个之后后面的内容就会胡乱生成内容,怎么调都没法解决……后来看了一下DeepSeek的[Issue里](https://github.com/deepseek-ai/DeepSeek-R1/issues/352)提到了似乎需要在模板中添加“\”标签才可以……但是这样的结果就是输出开头没有“\”了,MaxKB解析会出问题……这个问题的话回头看怎么解决吧,至少在模板中加上这个能正常使用了。LM Studio不会每次请求都重新加载一遍模型,输出第一个字的速度比Xinference快了很多,后面生成的速度也很快,输出的速度能接近20T/s,相比来说还是更有用一些。 +## 模型对比 + 在我测试完DeepSeek-R1的某个微调模型后,最近阿里又出了一系列新模型:[Qwen3](https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f),支持根据问题进行推理,据说它的235B参数的MoE模型比DeepSeek-R1还厉害,如果是真的,那就不需要用DeepSeek-R1了,虽然Mac Studio可以运行DeepSeek,但是512GiB内存也只能运行4位量化的DeepSeek-R1,而235B的Qwen3则可以用8位量化,还能空出不少内存用于上下文,想来应该效果会比DeepSeek好很多吧?于是我就下载试了试,然而刚下载好之后居然不能运行😅,首先是这个模型太新了,运行前需要把运行库的版本更新到最新,另外默认的模板有问题,解析会报错,需要根据[这个Issue](https://github.com/lmstudio-ai/lmstudio-bug-tracker/issues/630)修改一下才能正常运行😅。在一切准备好之后,就可以进行测试了。 + 首先我试了试一些比较简单的问题,Qwen3回答的都还不错,例如24点、内容填空之类的,效果比QwQ-32B好了不少。测试的时候输出的速度和671B 4位量化的DeepSeek-R1基本一致。随后我让它用Mermaid绘制我以前写的[AI摘要脚本](/2024/07/03/ai-summary.html)的流程图,Qwen3绘制的结果是: +```mermaid +graph TD + A[开始] --> B{解析URL路径} + + B -->|/summary| C1[查询内容] + C1 --> D1{是否存在内容?} + D1 -- 是 --> E1[构建AI摘要提示词] + E1 --> F1[调用Qwen模型生成流式响应] + F1 --> G1[返回SSE流] + D1 -- 否 --> H1[返回'No Record'] + + B -->|/get_summary| C2[查询内容] + C2 --> D2{是否存在内容?} + D2 -- 否 --> H2[返回'no'] + D2 -- 是 --> I2[计算内容SHA-256] + I2 --> J2{哈希匹配?} + J2 -- 否 --> H3[返回'no'] + J2 -- 是 --> K2[查询摘要] + K2 --> L2{是否有摘要?} + L2 -- 是 --> M2[返回现有摘要] + L2 -- 否 --> N2[调用Qwen生成新摘要] + N2 --> O2[存储摘要到数据库] + O2 --> M2 + + B -->|/is_uploaded| C3[查询内容] + C3 --> D3{是否存在内容?} + D3 -- 否 --> H4[返回'no'] + D3 -- 是 --> I3[计算内容SHA-256] + I3 --> J3{哈希匹配?} + J3 -- 否 --> H5[返回'no'] + J3 -- 是 --> K3[返回'yes'] + + B -->|/upload_blog| C4{POST方法?} + C4 -- 否 --> H6[返回'need post'] + C4 -- 是 --> I4[获取请求文本] + I4 --> J4[查询现有内容] + J4 --> K4{是否存在?} + K4 -- 否 --> L4[插入新内容] + K4 -- 是 --> M4{内容是否改变?} + L4 --> N4[返回'OK'] + M4 -- 是 --> O4[更新内容并清空摘要] + O4 --> N4 + + B -->|/count_click*| C5[计算ID的MD5] + C5 --> D5[查询计数器] + D5 --> E5{是否含路径_add?} + E5 -- 是 --> F5[更新计数器+1] + E5 -- 否 --> G5[保持原值] + F5 --> H5[返回最新计数] + + B -->|其他路径| I6[重定向到GitHub] +``` + DeepSeek-R1的某个微调模型的结果是: +```mermaid +graph TD + A[接收请求] --> B{解析URL路径} + B --> |路径为/summary| C[获取查询参数id] + C --> D{id是否为null?} + D -->|是| E[返回错误响应] + D -->|否| F[查询数据库内容] + F --> G{内容存在?} + G -->|否| H[返回'No Record'] + G -->|是| I[构建消息,调用AI生成摘要流] + I --> J[返回流式响应] + + B --> |路径为/get_summary| K[获取id和签名参数] + K --> L[查询数据库内容] + L --> M{内容存在?} + M -->|否| N[返回'no'] + M -->|是| O[计算SHA-256签名] + O --> P{签名匹配?} + P -->|否| Q[返回'no'] + P -->|是| R[检查是否已有摘要] + R -->|有摘要| S[返回摘要内容] + R -->|无摘要| T[调用AI生成摘要] + T --> U[更新数据库] + U --> S + + B --> |路径为/is_uploaded| V[获取id和签名] + V --> W[查询数据库内容] + W --> X{内容存在?} + X -->|否| Y[返回'no'] + X -->|是| Z[计算SHA-256签名] + Z --> AA{签名匹配?} + AA -->|否| AB[返回'no'] + AA -->|是| AC[返回'yes'] + + B --> |路径为/upload_blog| AD{方法是否为POST?} + AD -->|否| AE[返回'need post'] + AD -->|是| AF[读取请求体数据] + AF --> AG[查询现有内容] + AG --> AH{记录存在?} + AH -->|否| AI[插入新记录] + AH -->|是| AJ{内容是否相同?} + AJ -->|否| AK[更新内容并清空摘要] + AJ -->|是| AL[直接返回OK] + AK --> AL + AL --> AM[返回'OK'] + + B --> |路径为/count_click| AN[计算MD5哈希] + AN --> AO[查询当前计数] + AO --> AP{记录存在?} + AP -->|否| AQ[插入新计数] + AP -->|是| AR[增加计数] + AR --> AS[更新计数器] + AQ --> AS + AS --> AT[返回当前计数值] + + B --> |其他路径| AU[重定向到GitHub页面] + + style A fill:#f9f,stroke:#333,stroke-width:2px + style E fill:#f96,stroke:#333 + style H fill:#f96,stroke:#333 + style Q fill:#f96,stroke:#333 + style N fill:#f96,stroke:#333 + style S fill:#9f9,stroke:#333 + style AC fill:#9f9,stroke:#333 + style AM fill:#9f9,stroke:#333 + style AT fill:#9f9,stroke:#333 + style AU fill:#99f,stroke:#333 + + subgraph 函数调用 + O -.->|调用sha函数| SHA[计算SHA-256] + AN -.->|调用md5函数| MD5[计算MD5] + end + + subgraph 数据库操作 + F --> DB1[SELECT content] + L --> DB2[SELECT content] + R --> DB3[SELECT summary] + T --> DB4[UPDATE summary] + AG --> DB5[SELECT content] + AI --> DB6[INSERT新记录] + AK --> DB7[UPDATE content] + AO --> DB8[SELECT counter] + AQ --> DB9[INSERT计数器] + AR --> DB10[UPDATE counter] + end + + subgraph AI处理 + I --> AI1[构建系统提示] + AI1 --> AI2[调用Qwen模型] + T --> AI3[调用Qwen模型] + end +``` + 这下就高下立判了🤣,同样的问题Qwen3只绘制了基础流程图,而DeepSeek-R1不仅包含子流程图,还通过颜色区分了响应类型,这么看来Qwen3还是不太行啊~当然我的测试非常的片面,仅仅根据这几次测试分析的结果。至于Qwen3到底有没有使用价值,回头再让其他人测测看效果如何吧。 + +# UTM虚拟机的测试 + 在上次[在UTM上用苹果虚拟化框架安装Windows](/2025/03/25/utm.html)的测试中我用的是Intel芯片的Mac,那时候已经说了打算等Mac Studio到了之后尝试一下用VZ框架安装Windows。那么经过我的测试结果如何呢?想不到居然失败了😭,相同的操作流程在重装脚本执行完后,再重启就没有任何反应了。在活动监视器中虽然可以看到虚拟机的CPU占用是100%,但是内存只占用了100多MiB,而且CPU占用没有任何跳变,显然系统没有正常启动。随后我又尝试在QEMU中安装好Windows然后把VZ虚拟机的硬盘替换掉,结果依旧一样,内存还是只占了100多MiB……看来ARM处理器和x86处理器还是有很大区别啊…… + 不过这个虚拟机到底有什么区别?为什么会无法启动呢?想到我在Intel芯片的Mac中测试用VZ框架是可以看到CPU型号的,再看看Mac Studio中的Linux虚拟机……似乎没有任何与CPU型号有关的信息,用QEMU至少也能看到类似“virt”之类的CPU型号,用VZ框架就什么信息都没有了……看来Apple芯片和正常的ARM处理器还是有不少区别啊…… + 不过除了这个以外还有什么有意思的东西可以测试吗?这时候我就想到了[Asahi Linux](https://github.com/AsahiLinux),Apple芯片下的UTM有一个多出来的选项就是可以安装macOS虚拟机,那我能不能在macOS虚拟机中安装Asahi Linux呢?根据我的实际测试,结果也是不行的……因为Asahi Linux不支持M3 Ultra芯片😞,至于M2芯片能不能在虚拟机中运行Asahi Linux……虽然我的MacBook是M2芯片,但是不太想在我常用的机器上搞测试,所以也不知道实际上可不可以。另外Asahi Linux这个项目也基本上停了,估计以后新出的芯片也不会有机会安装Linux了,就像在macOS上运行Windows程序的[Whisky](https://github.com/Whisky-App/Whisky)项目也停了……真是太遗憾了😢。 + +# 感想 + 从这次体验来看,512GiB内存的Mac Studio M3 Ultra确实很厉害,本地跑LLM速度非常快,20T/s的速度已经很厉害了,而且风扇声音很小,在GPU满载的时候也完全听不到风扇的声音。当然这个前提是跑MoE模型,虽然我没测Dense模型,但想来根据M3 Ultra的算力,跑70B参数的模型肯定是达不到20T/s的,至于更大的模型估计速度就慢的不能看了……不过不影响,这已经够我用了。 + 至于除LLM以外的用途……我似乎没有什么能用到这么强性能以及这么大内存的地方了……其实还是挺浪费的,但是也没办法,毕竟我又不会剪电影啊🤣。 + + + \ No newline at end of file diff --git a/_posts/2025-06-02-optimize.md b/_posts/2025-06-02-optimize.md new file mode 100644 index 0000000..bfce661 --- /dev/null +++ b/_posts/2025-06-02-optimize.md @@ -0,0 +1,85 @@ +--- +layout: post +title: 近期对博客的修改与优化记录 +tags: [博客, 优化, IndieWeb] +--- + + 在修改博客的时候也能学到不少新知识啊~ + +# 起因 + 在两个月前,我写了一篇[针对博客搜索功能优化的记录](/2025/04/04/search.html)。在写完之后没几天,有位名叫[@xymoryn](https://github.com/xymoryn)的大佬看到了我的博客并且进行了[吐槽](https://github.com/Mabbs/mabbs.github.io/issues/167),内容很值得参考。不过我自从用[minimal](https://github.com/pages-themes/minimal)主题以来从来没有改过样式的原因主要还是写不来CSS😂,并不是真的不想改,但其中提到可以让AI优化,我觉得也很有道理,现在AI这么发达实在不会用AI改就好啦~ + +# 对博客样式的优化 + 虽然大佬给出了参考的CSS,但我不太喜欢那种风格,尤其还把之前的左右布局改成了上下布局。我当年之所以选择minimal主题就是因为它是左右布局的,如果选择上下布局的话我还不如用[hacker](https://pages-themes.github.io/hacker/)这个主题,另外那个参考的CSS可能是因为AI写的,有很多没有考虑到的地方,比如主题自带的CSS鼠标放到链接上字体会变粗,然后可能会变宽,导致影响整体的布局,而参考的CSS选择直接让所有的链接放到上面都变细,即使原来是粗字体也变细,比如标题之类的,这就更难受了。像这种情况要怎么改呢?我还是希望能用minimal主题的CSS,但让链接变粗的体验确实不太好,所以我选择问问AI。 + 最后AI给出的答复是使用`font-weight: inherit;`,看起来确实解决了问题,不过如果鼠标移到链接上没有任何反应也不太好,所以就学GitHub在鼠标移到链接时加上了下划线。 + 除此之外就是字号、行高和布局,字号和行高我也不希望改的太激进,所以就稍微加了一点点,看起来没那么密就好。至于布局,之前minimal主题的宽度是写死的,左边是270px,右边是500px,对于我的MacBook看起来也还好,因为MacBook的屏幕比较小,屏幕的利用率还是比较高的。不过对于更大的屏幕总共860px大小的区域确实不太够,尤其是4K屏幕可能只有中间一点点的区域有内容,会看着很难受,所以我想了一下还是改成百分比布局比较好,这样无论屏幕有多宽也能利用得到。 + 还有一点就是分段,虽然我也知道在Markdown中两个换行是分段,但是感觉在文本中两个换行隔得太远了,所以一开始写文章的时候就选择只换行。不过在中文里确实不分段也不太好看,但是又不想去动之前写的文章,那该怎么办呢?思来想去干脆把换行全部替换成分段好啦,在Jekyll中可以用replace过滤器把所有的“\”替换成“\\”,因为Markdown解析本来就会有一个段落,所以直接闭合加开始就能分割成多个段落了。那么加了分段是为了什么?其实主要是为了首行缩进,有首行缩进对阅读还是有挺大帮助的,至于怎么做也非常简单,直接给p标签设置`text-indent: 2em;`就可以了。 + 最后就是评论授权的问题,我用的Gitalk也有人问了[这个问题](https://github.com/gitalk/gitalk/issues/95),我仔细看了一下GitHub官方文档中[OAuth可以授权的作用域](https://docs.github.com/zh/apps/oauth-apps/building-oauth-apps/scopes-for-oauth-apps)发现确实是没办法限制只写Issues😥,至于其他的评论系统对后端的依赖又太多了,尤其是Giscus,居然是直接用iframe引用Giscus网站中的页面😅,如果Giscus哪天挂了,那评论系统不也挂了(虽然GitHub也不可靠……),至于自托管就更不可能了,我能让服务器持续运营可比不上大厂😆。所以最后我选择给Gitalk加个提示,不想登录也可以跳转到GitHub上进行评论,至于怎么加?还是让AI来吧,最后AI给我写了这么一串CSS: +```css +.gt-btn-login::after { + content: "如果不想登录,请点击上方评论数跳转至对应ISSUE进行评论"; + position: absolute; + top: 100%; + left: 50%; + transform: translateX(-50%); + background: #333; + color: #fff; + padding: 8px 12px; + border-radius: 4px; + font-size: 12px; + white-space: nowrap; + opacity: 0; + visibility: hidden; + transition: opacity 0.2s, visibility 0.2s; + z-index: 10; +} +.gt-btn-login:hover::after { + opacity: 1; + visibility: visible; +} +.gt-btn-login::after { + margin-top: 8px; +} +.gt-btn-login::after { + box-shadow: 0 2px 8px rgba(0,0,0,0.15); +} +``` + 至此,关于博客样式的部分我觉得已经提高不少读者的用户体验了,也感谢大佬提出的建议。 + +# 对博客兼容性的优化 + 最近由于某些原因我又用起Windows 7了。其实我觉得Windows 7是一个很不错的操作系统,有很多人性化的东西,比如桌面小工具,自带Feed订阅,还有[Windows Live Essentials](https://archive.org/details/wlsetup-all_201802)等等,可惜后来全部被微软砍掉了🤣。考虑到Windows 7如此优秀,那要不然兼容一下它旗下的Internet Explorer 8浏览器吧? + 其实GitHub给的那些Jekyll主题本身都是兼容IE8的,包括我在用的minimal主题也一样。但随着我这么多年加了许许多多的功能,绝大多数功能都没有考虑兼容性,只想着能用就行。不过我写的功能基本上都非常简单,如果想改得让它兼容IE8也并非难事,只要理论上可行就可以。当然也有些理论上不可能的东西,比如WebGL。因此,我的[Live2D看板娘](/Live2dHistoire/)就没有任何可能性被支持了,至于其他的……也许有一些理论上可以支持,但是改起来比较麻烦的就也算了吧(比如Gitalk之类的)。 +## 对文章点击计数器的兼容性优化 + 其实我的文章点击计数器从[之前](/2019/06/22/counter.html)改成用jQuery调用自己的接口以后就没有什么兼容性的问题了,因为jQuery本来就是处理浏览器之间差异的库,而且也是兼容IE8的。只不过有个问题是IE8不支持用XHR跨域请求,只能用“XDR(XDomainRequest)”进行跨域请求……还好有个[现成的库](https://github.com/MoonScript/jQuery-ajaxTransport-XDomainRequest)能让jQuery在遇到这种情况时使用XDR请求,于是我就用条件注释让IE9以下的浏览器引入这个库,这样在IE下也能正常显示文章点击数了😆。 +## 关于响应式布局的兼容性优化 + 在IE8中的CSS是不支持媒体查询的,所以在修改窗口大小时也不能根据情况使用合适的样式。本来我没打算解决这个问题,结果恰好看到了一个库:[Respond.js](https://github.com/scottjehl/Respond),所以就直接拿来用了😝。 +## 关于全文搜索的兼容性优化 + 其实从功能的角度来说这种东西肯定是在IE8下可以实现的,但是我用的[那个库](https://github.com/christian-fei/Simple-Jekyll-Search)有点迷,到处都用的是const关键字结果还莫名其妙[判断XHR](https://github.com/christian-fei/Simple-Jekyll-Search/blob/master/src/JSONLoader.js#L29)搞的好像是在兼容旧浏览器?改起来有点麻烦懒得搞了……不过除此之外还有个取巧的方式,既然我搜不了,干脆让谷歌来搜吧,至于谷歌支不支持IE8就不是我的事了🤣,所以直接给搜索框外面套了一个form表单,这样甚至可以在不启用JS的情况下搜索(假设谷歌支持没有JS的情况)。 +## 对于订阅软件的兼容性支持 + 之前我的博客对订阅的支持是使用的官方的[jekyll-feed](https://github.com/jekyll/jekyll-feed)插件,它只支持Atom格式的订阅,一般的阅读器也是支持这种格式的(即使是IE8也是完美支持)。但是我发现有非常少数的某些网站没办法解析Atom,只支持RSS……所以我只好特地加了[对RSS格式的支持](https://github.com/Mabbs/mabbs.github.io/blob/master/rss.xml),还顺带搞了支持Atom和RSS格式的[XSLT模板](https://github.com/Mabbs/mabbs.github.io/blob/master/feed.xslt.xml)来预览。既然RSS也支持了,那干脆连[JSONFeed](https://github.com/Mabbs/mabbs.github.io/blob/master/feed.json)也一起做了吧😆,虽然意义不是很大…… +## 给博客添加网页快讯 + 既然要兼容IE8,那当然是能用的都用啦,在IE8订阅网站源的地方,有一个‘添加网页快讯’的功能。因为没有可以参考的网站,我甚至都没理解这个功能展现的效果是什么样的。我看这个网页快讯好像是抄了一部分[hAtom Microformat](http://microformats.org/wiki/hatom)的规范,我还以为是每个条目都单独需要一个entry-title和entry-content,结果发现并不是😅,一个hslice只能有一个entry-title…… + 这个功能其实非常简单,主要作用就是把网页的一部分切出来单独展示,当这一部分发生更新的时候IE浏览器就会提示用户。然后在这之中hslice要包裹所有需要处理的元素,写到最外面元素的class中就可以,entry-title是希望用户订阅时展示的名字,而entry-content是被切下来展示的网页。具体的内容可以在[微软官方文档](https://learn.microsoft.com/en-us/previous-versions/windows/desktop/cc304073(v=vs.85))中看到。 + +# 让网站增加对IndieWeb的支持 + 既然说到Microformat,那就要提到[IndieWeb](https://indieweb.org/IndieWeb)了。虽然这个东西网络上也没几个人搞,但看起来有点意思就整下玩玩呗。 +## 第零级:域名 + 根据他们的[入门教程](https://indieweb.org/Getting_Started)来看,成为IndieWeb最重要的一点就是有自己的域名。看到这一点我都怀疑这是不是卖域名的用来忽悠人的玩意?我一分钱也不想给域名注册商,虽然DNS这套系统确实维护需要成本,但是能有多大成本呢?绝大多数不都让ISP摊了?另外他们所说的大公司的服务可能会消失,那么域名就不会吗?注册商和注册局完全有能力让你的域名用不了,这也是我们不可控的东西,因此尽管这对于IndieWeb很重要,但是我不打算搞,于是我的博客就不是IndieWeb了🤣。 +## 第一级:识别身份 + 没有域名也不影响接下来的步骤,大公司的域名也是域名(虽然不属于我)。根据教程来看,支持IndieAuth非常简单,只需要在head中加一个`rel=me`的link标签,指向IndieAuth支持的个人主页,并且那个个人主页有一个反链指向自己的网站就可以,比如指向自己的GitHub主页,那么就可以使用GitHub登录来验证这个网站属于我。这一步可以使用[IndieWebify.Me](https://indiewebify.me/validate-rel-me/)来验证。 +## 第二级:发布内容 + 在发布前,为了更好的让其他软件读取网站内容,需要用microformats2来标注网站内容,这个倒也不复杂,可以根据[这个教程](https://microformats.org/wiki/h-entry)按照上面所说的东西用class名去标注对应的元素,标注完之后就可以用[IndieWebify.Me](https://indiewebify.me/validate-h-entry/?url=https%3A%2F%2Fmabbs.github.io%2F2025%2F06%2F02%2Foptimize.html)验证了。 + 除此之外还需要用[h-card](https://microformats.org/wiki/h-card)标注网站的身份,解析完之后可以当网站名片用,具体可以看[这里](https://indiewebify.me/validate-h-card/?url=https%3A%2F%2Fmabbs.github.io)。 + 另外还有一点就是Webmentions,在网站上声明Webmentions可以让别人引用你的文章时通知一下你。不过对于静态博客不是很友好。一是要收,收完还要展示,二是要发,引用了别人的文章如果对面支持Webmentions要把自己引用的文章链接发给对方。虽然Jekyll有[插件](https://github.com/aarongustafson/jekyll-webmention_io)可以支持,但是我用GitHub额外装插件还得自己写Actions,而且我发布一次要在一堆Pages上更新,也不太适合,所以我打算光收不发(只需要在link标签中添加Webmentions的端点就可以),也不展示了,而且国内根本没几个人用Webmention🤣。如果有人对谁给我发了Webmention感兴趣,可以在[这里](https://webmention.io/api/mentions.html?token=Dan9NrE8CLsFJ1qdRq2hjg)查看(不过绝大多数都是我自己手动发的🤣) + 如果谁有兴趣给自己的网站添加完整的Webmention,可以用[Webmention Rocks!](https://webmention.rocks/)进行测试(如果使用了WordPress是自带的,只需要打开相关的功能就可以)。 +## 第三级:进行交流 + 在IndieWeb中有一个很重要的事情就是相互交流,搞这个比较重要的目的是为了避免大公司的服务炸了,所以要替代比如推特,Facebook之类的服务,但是在这些服务还没炸的时候仍然可以在上面发自己的网站,也算是引流吧。他们把这个行为叫做[POSSE](https://indieweb.org/POSSE)。对我来说,我在微信、QQ之类的上面发自己新写的文章就算是POSSE了,毕竟我又不玩国外的社交平台😆。 + 除此之外似乎还要把别人的评论同步到自己网站?我能做到的顶多就是Gitalk了,更多的就算了吧~ +## 额外的内容 + 既然已经支持了IndieWeb,那么不妨加入IndieWeb Webring吧。在[IndieWeb Webring 🕸💍](https://xn--sr8hvo.ws)中的大多数网站都是适配了IndieWeb的,加入他们也算是证明自己适配IndieWeb的努力了吧😊。 + +# 对博客可靠性的优化 + 以前为了应对[GitHub](/2022/01/04/banned.html)的不可靠,我仅仅是在各个Pages上部署了我的网站,但是后来我想了想Git本身就是分布式的,分发是一件很简单的事情啊,我要是想提高博客的可靠性,不如直接用Git分发到各个Git托管商就好了啊~因此我就利用GitLab镜像仓库的功能,一键把我的网站同步到数十个知名的Git托管商,提高了网站的可靠性,具体的列表可以在[这里](/proxylist.html#git列表)查看。 + +# 感想 + 在这次的博客优化中,了解了不少新的东西啊,不仅学习了CSS,还有了解如何提高网站兼容性,以及提高了博客的可靠性和曝光度。果然折腾博客本身也能提高自己啊,还能写文章分享一下折腾的经验😆。虽然折腾的内容不一定能在未来的生活中用得上,但是有意思就足够了😁。 \ No newline at end of file diff --git a/_posts/2025-07-01-xslt.md b/_posts/2025-07-01-xslt.md new file mode 100644 index 0000000..7a22139 --- /dev/null +++ b/_posts/2025-07-01-xslt.md @@ -0,0 +1,26 @@ +--- +layout: post +title: 使用XSLT为博客XML文件编写主题一致的样式 +tags: [XSLT, 博客优化, XML, Feed] +--- + + 虽然XML是机器读的内容……不过加上和主题一致的XSLT样式也算是一种细节吧~ + +# 起因 + 在[上一篇文章](/2025/06/02/optimize.html#%E5%AF%B9%E4%BA%8E%E8%AE%A2%E9%98%85%E8%BD%AF%E4%BB%B6%E7%9A%84%E5%85%BC%E5%AE%B9%E6%80%A7%E6%94%AF%E6%8C%81)中,我提到在提高订阅源兼容性的时候给博客的订阅文件增加了一个XSLT样式。当时使用的样式是从[About Feeds](https://github.com/genmon/aboutfeeds/)下的一个[Issue](https://github.com/genmon/aboutfeeds/issues/26)中找的,里面有个基于[Pretty Feed](https://github.com/genmon/aboutfeeds/blob/main/tools/pretty-feed-v3.xsl)修改成能同时支持RSS和Atom格式的样式。虽然那个样式倒也说不上难看,但总觉得与我的博客整体风格有些割裂,所以这次打算制作一个和我博客主题完全一致的XSLT样式。 + +# 制作订阅文件的XSLT样式 + 虽然想搞这么一个样式,但是我用的Jekyll引擎不能在引用的布局外添加额外内容……如果我要自己写,要么把我的默认布局拆成头和尾两部分然后用include引用,要么把默认布局的代码直接复制一份到XSLT样式中。这两个方案我都不太满意,第一种我以后在修改默认布局时需要同时从两个文件检查上下文,很不方便;而第二种方案违反了DRY原则,也会增加以后修改的难度。所以要怎么办呢? + 后来我想了想,如果不能通过直接引用默认布局在外面增加XSLT的代码,那干脆让默认布局引用一个XSLT布局吧!这样我就能在不复制默认布局也不进行过多修改的情况下在外面套XSLT的代码了。于是我就在最外面写了个符合XSLT格式的XML布局,让默认布局引用它。然后再写一个布局引用默认布局,让最外面的布局根据这个布局的名字来判断是否需要使用XSLT的布局,具体的实现可以看我的[layout目录](https://github.com/Mabbs/mabbs.github.io/tree/master/_layouts)。另外有一些地方需要注意一下,作为XML,内容中不能包含未闭合的标签,所有自闭合标签结尾必须添加斜杠,属性必须有值,以及所有标签和属性大小写要一致……还好我平时修改布局文件以及编写内容的时候基本上都遵循了这些规则,所以没什么太多需要改动的地方。 + 当时修改时,是模仿之前的那个样式进行的,原来那个样式在`html`元素上加了XML命名空间,但是`xsl:output`配置的输出却是按照HTML的方式输出,结果导致内容中用于换行的`br`标签在实际转换中全部变成了两个标签……我猜应该是转换器看到XML命名空间后,先按照XHTML的规则把`br`解析成了一开一闭的一对标签,然后又根据HTML的转换规则把这对标签当作两个单独的标签输出了吧……但奇怪的是,只有`br`标签出现了这个问题,像`hr`等其他自闭合标签则没有……既然如此,只要把XML命名空间删掉就OK了。 + 在改完之后虽然整体看上去和其他页面似乎已经很相似了,但总感觉还有些样式不太对劲……我猜应该是和文档类型声明有关系,我平时写的是HTML5,而XSLT默认转出来是HTML4.0……但是我不太清楚怎么解决这个问题,于是问了问AI,AI说在`xsl:output`中加上`doctype-system="about:legacy-compat"`就行。最终改完试了下确实有效😂,样式上也没有出现奇怪的偏移了。 + 最后把写好的布局应用到[/feed.xslt.xml](/feed.xslt.xml)中就可以了,之所以是这个路径是因为我用的[jekyll-feed](https://github.com/jekyll/jekyll-feed)只支持这个位置,至于我自己搞的RSS格式的订阅只需要在开头用`xml-stylesheet`指令声明一下就行了。 + +# 给XSLT样式自己的样式 + 在写好给订阅文件用的XSLT样式之后,我发现XSLT样式本身也是个XML文件……既然我给订阅文件做了样式,那么也得给XSLT样式文件本身做个样式才对,但如果我单独写一个给它的样式,那岂不是要给样式的样式再写一个样式😂,所以肯定不能这样做。不过仔细想一下,还有个办法,可以让XSLT样式文件自引用自身的样式,这样就能避免之前担心的套娃问题了。所以接下来我应该在XSLT中写一个检测应用样式的XML文件是不是XSLT样式文件的代码,方法很简单,既然XSLT样式中肯定包含`xsl:stylesheet`这个元素,那么我可以判断如果存在这个元素,就可以确定这就是XSLT样式了,如果有人点开看了我就可以展示一个提示信息告诉访客这是一个样式文件,这样访客就不会看到那句“This XML file does not appear to have any style information associated with it. The document tree is shown below.”了😝。 + +# 制作Sitemap的XSLT样式 + 既然给XSLT样式也加了样式……那我博客还有其他XML文件需要处理吗?似乎还有个Sitemap,我的Sitemap是[jekyll-sitemap](https://github.com/jekyll/jekyll-sitemap)插件生成的……那它支持加样式吗?虽然文档上没有写,不过看了眼源代码发现可以通过创建[/sitemap.xsl](/sitemap.xsl)文件添加,所以就顺手套用之前的样式搞了一个(虽然应该没有访客去看Sitemap😂,毕竟这是给搜索引擎用的)。可惜这些地址都是插件硬编码的,如果可以自己修改位置我就只写一个XSLT样式文件就可以了…… + +# 感想 + 折腾了这么多整体展示效果还不错,虽然这些文件也许根本没人看😂(本来就不是给人读的),但也算展现了一下博客的细节之处吧,而且在折腾的时候至少还了解了不少关于XML和XSLT的知识(尽管在现代这些好像没啥用了)。当然重要的也许不是了解这些知识,而是这个过程吧……总的来说还是挺有意思的。 \ No newline at end of file diff --git a/_posts/2025-07-13-hacked.md b/_posts/2025-07-13-hacked.md new file mode 100644 index 0000000..319c9d7 --- /dev/null +++ b/_posts/2025-07-13-hacked.md @@ -0,0 +1,28 @@ +--- +layout: post +title: 一次服务器被入侵的经历 +tags: [Linux, 安全, 服务器, 入侵] +--- + + 即使是被入侵了也可以学到一些知识! + +# 起因 + 前几天,我闲来无事登录了一下一台之前一直闲置的服务器,登录上去后,乍一看似乎没有任何问题,然后习惯性的执行了一下`top`命令看了一眼。从进程列表来看,似乎没有什么明显异常的地方,但是服务器的load值很高,cpu的us值也很高。 + 以前我倒也遇到过几次load值很高的情况,一般是硬盘或NFS等网络存储挂了但是依然有程序在读写挂载的目录会有这种问题,但那种情况一般高的是cpu的wa值,而不是us值,us值是软件正常用掉的……但是进程列表里根本没有占CPU的程序啊……看来服务器是被入侵了😰。 + +# 检查服务器 + 虽然说是要查,但其实我根本不知道进程隐藏的原理😂,虽然听说过有恶意软件会这样做,现在遇到了一时半会又想不出来怎么找。还好这是台闲置的服务器,上面什么东西都没有跑,所以正常来说除了ssh连接之外,这个服务器不该有任何其他的连接,于是我执行了一下`netstat -tanp`看了一眼,发现有个奇怪的进程使用一个境外的IP和我的服务器建立了连接,用`ps -ef`查了一下这个 PID,结果进程名显示为`[kcached]`……这下给我整不会了。 + 后来查了些资料知道了可以用`lsof -p`查看进程读取的文件,才看到木马的本体:`/usr/bin/gs-dbus`。不过如果我只是杀掉这个进程然后删除文件,那攻击者肯定会重新回来,所以我得排除一下是不是还有别的木马文件。 + 一般来说攻击者权限维持的方式大多是crontab,不过我看了一下配置文件里似乎没有,root下的`authorized_keys`倒是有个陌生的公钥于是顺手删掉了……也没有其他文件夹下有`gs-dbus`文件……难道没有别的木马文件了吗?后来我仔细找了一下,发现有个很可疑的文件`/usr/local/lib/libprocesshider.so`,一看就不是什么好东西🤣,后来在GitHub上搜了一下,是[libprocesshider](https://github.com/gianlucaborello/libprocesshider)这个项目,就是它让我在top中什么也没找到的,看文档中应用是添加一个`/etc/ld.so.preload`文件,所以解除隐藏效果我也只需要删掉这个文件就好啦。 + 不过感觉还是不够……所以我全盘搜索了一下`libprocesshider.so`文件,果不其然还有,通过那个文件在/usr/games里找到了木马的大本营,里面有一堆这个入侵者的工具,于是就顺手保存了一份然后从服务器上删掉了。 + 另外还有自启动到底是怎么实现的?既然不是crontab……应该是systemd。看了一下果不其然有个服务在保持`gs-dbus`的运行,不过程序我已经删了,所以它现在只会不停尝试重启,接下来只需要停止并禁用这个服务就行了。 + 至于为什么会被入侵……我也很清楚,其实并没有什么漏洞,单纯是设置的密码太简单了,被嘿客扫到啦!所以解决起来也很简单,把这些垃圾清除掉之后设置个稍微复杂一点的密码就行了。 + +# 入侵分析 + 既然这个嘿客都不删他的工具,留下来就是给我分析的吧?那么我就像[上次](/2024/11/02/trojan.html)一样分析一下他使用的工具吧~首先里面有个`deploy-all.sh`文件,看起来应该是登录服务器之后最先执行的程序,在这里面有个压缩包,解压出来之后搜了一下里面的文件,发现是[Global Socket](https://github.com/hackerschoice/gsocket)项目,看起来应该是包含反弹Shell、伪装以及权限维持之类功能的一个小工具。看了下源代码才知道原来用`exec -a`就可以伪装进程的名称,而且那个`gs-dbus`就是这个项目里的程序……这么看来挖矿的操作应该是入侵者远程执行的代码,所以在查找进程的时候发现了它吧。 + 除此之外里面还有个logclean项目,看了一眼是[mig-logcleaner-resurrected](https://github.com/infinite-horizon219/mig-logcleaner-resurrected)项目,看起来应该是清除日志用的,不过我根本没从日志找它🤣,即使入侵者用了对我来说也没起到什么作用。不过倒也是个挺有用的项目,也许在某些扫尾工作很有用。 + 最后就是[libprocesshider](https://github.com/gianlucaborello/libprocesshider)这个项目,也许还有其他隐藏进程的方式,不过知道这个项目之后最起码以后再遇到类似的情况我就会优先去看`/etc/ld.so.preload`文件了。 + 至于其他的就是一些爆破SSH的工具,估计是用来横向渗透的,看起来有点原始……也没啥用处,另外还有连接XMR矿池的一些配置文件,以及我也看不出来的玩意,应该就这么多有用的东西了。 + +# 感想 + 虽然被入侵是没有预料的事情,但还好这个服务器是闲置的,装完系统之后上面什么有用的东西都没有,所以除了入侵者让它不太闲置赚了点小钱之外对我倒是没什么损失,另外还了解到了一些不错的小工具,这么看来入侵者赚的这点小钱就当是给他的学费吧🤣。 \ No newline at end of file diff --git a/_posts/2025-07-24-screenshot.md b/_posts/2025-07-24-screenshot.md new file mode 100644 index 0000000..63f954c --- /dev/null +++ b/_posts/2025-07-24-screenshot.md @@ -0,0 +1,108 @@ +--- +layout: post +title: 使用Cloudflare制作自动更新的网站预览图 +tags: [Cloudflare, Workers, 网站截图, 自动化] +--- + + Cloudflare的功能真是越来越多了,而且还免费! + +# 起因 + 前段时间我在登录Cloudflare的时候发现Workers上多了一个“浏览器呈现”的功能(可能已经出来一段时间了,不过之前一直没关注),看介绍,这个功能可以让Worker操作运行在Cloudflare服务器上的浏览器。这功能挺有意思,而且免费用户也能用,不如想个办法好好利用一下。 + 一般来说这个功能可以干什么呢?既然是在AI盛行的时候出现……估计是为了搞Agent之类的吧,不过看[文档](https://developers.cloudflare.com/browser-rendering/platform/limits/)对免费用户来说一天也只有10分钟的使用时间,估计也没什么应用价值……那除了这个之外还能做些什么?我发现有好多博客主题喜欢给自己的README里添加一个能查看主题在多种设备上显示效果的预览图,以展示主题的自适应能力。那么既然现在能在Cloudflare上操作浏览器,那么我也可以做一个类似的,而且这个预览图还可以自动更新。 + +# 制作自适应的网站预览 + 既然打算做预览图,那么我应该用什么方案?按照不同尺寸的视口截几张图再拼起来吗?这显然就太复杂了,况且在Cloudflare Workers中处理图片也相当困难。这时我想起来曾经见到过一个工具,只要输入网址,就可以在一个页面中同时展示网站在四种不同设备(手机、平板、笔记本电脑、台式机)上的显示效果,叫做“多合一网页缩略图”,实现原理是使用iframe和CSS缩放模拟多种设备视口。搜了一下发现这套代码被不少网站使用,所以就随便找了其中一个工具站把代码和素材扒了下来,稍微改了一下,然后放到[GitHub](https://github.com/Mabbs/responsive)上,方便等一会用Cloudflare访问这个部署在[GitHub Pages](https://mabbs.github.io/responsive/)上的页面来进行截图。 + +# 使用Cloudflare浏览器呈现进行截图 + 接下来截图就简单了,不过Cloudflare有两种截图的办法,[用Workers](https://developers.cloudflare.com/browser-rendering/workers-bindings/)的话可以直接用Puppeteer之类的库连接浏览器,但用这个库需要安装,要本地搭环境……我毕竟不是专门搞JS开发的,一点也不想在本地安装Node.js环境,所以就不想用这种方式。另外一种是通过[调用Cloudflare的接口](https://developers.cloudflare.com/browser-rendering/rest-api/),这种非常简单,只需要填几个参数请求就行,唯一的问题就是要填一个Token……我一直觉得Worker调用Cloudflare自己的服务不应该需要Token之类的东西,毕竟内部就能验证了,没必要自己搞,但是我看了半天文档貌似无论如何只要想调接口就必须搞个Token……那没办法就搞吧,其实也很简单,只需要在“账户API令牌”里添加一个有浏览器呈现编辑权限的令牌就行。 + 至于展示……这个接口调用比较耗时,而且一天只能调用10分钟,截图的话估计也就够30次左右,还有每分钟3次的限制😓,所以实时更新肯定是不行了,图片肯定得缓存,一天更新一次感觉应该就够了。另外次数这么少的话写成接口给大伙用貌似也没啥意义,所以我就把地址写死了,于是以下就是最终实现的代码: +```javascript +export default { + async fetch(request, env, ctx) { + const cache = caches.default; + const kv = env.SCREENSHOT; + + const url = "https://mabbs.github.io/responsive/"; + const date = new Date().toISOString().split("T")[0]; + const cacheKey = url; + const datedKey = `${url}?${date}`; + + // 工具函数:构建 Response 对象 + const buildResponse = (buffer) => + new Response(buffer, { + headers: { + "content-type": "image/png", + "cache-control": "public, max-age=86400, immutable", + }, + }); + + // 工具函数:尝试从 KV 和 Cache 中加载已有截图 + const tryGetCachedResponse = async (key) => { + let res = await cache.match(key); + if (res) return res; + + const kvData = await kv.get(key, { type: "arrayBuffer" }); + if (kvData) { + res = buildResponse(kvData); + ctx.waitUntil(cache.put(key, res.clone())); + return res; + } + return null; + }; + + // 1. 优先使用当日缓存 + let res = await tryGetCachedResponse(datedKey); + if (res) return res; + + // 2. 若缓存不存在,则请求 Cloudflare Screenshot API + try { + const payload = { + url: url, + viewport: { width: 1200, height: 800 }, + gotoOptions: { waitUntil: "networkidle0" }, + }; + + const apiRes = await fetch( + `https://api.cloudflare.com/client/v4/accounts/${env.CF_ACCOUNT_ID}/browser-rendering/screenshot?cacheTTL=86400`, + { + method: "POST", + headers: { + Authorization: `Bearer ${env.CF_API_TOKEN}`, + "Content-Type": "application/json", + }, + body: JSON.stringify(payload), + } + ); + + if (!apiRes.ok) throw new Error(`API returned ${apiRes.status}`); + + const buffer = await apiRes.arrayBuffer(); + res = buildResponse(buffer); + + // 后台缓存更新 + ctx.waitUntil(Promise.all([ + kv.put(cacheKey, buffer), + kv.put(datedKey, buffer, { expirationTtl: 86400 }), + cache.put(cacheKey, res.clone()), + cache.put(datedKey, res.clone()), + ])); + + return res; + } catch (err) { + console.error("Screenshot generation failed:", err); + + // 3. 回退到通用旧缓存 + res = await tryGetCachedResponse(cacheKey); + if (res) return res; + + return new Response("Screenshot generation failed", { status: 502 }); + } + }, +}; +``` + 使用方法很简单,创建一个Worker,把以上代码粘进去,然后把从“账户API令牌”中生成的令牌填到Worker的密钥中,名称为`CF_API_TOKEN`,另外再加一个名称为`CF_ACCOUNT_ID`的密钥,内容是账户ID,就是打开仪表板时URL中的那串16进制数字,除此之外还需要创建一个KV数据库,绑定到这个Worker上,绑定的名称是`SCREENSHOT`。如果想给自己的网站生成,可以Fork我的[仓库](https://github.com/Mabbs/responsive),然后把里面首页文件中的网址替换成你的网站,然后再把Worker中的url替换成Fork后仓库的GitHub Pages地址就可以了。 + 最终的效果如下: + ![ScreenShot](https://screenshot.mayx.eu.org) + +# 感想 + Cloudflare实在是太强了,虽然这个浏览器呈现免费用量并不多,但是有这么一个功能已经吊打很多Serverless服务了,毕竟浏览器对服务器资源的占用也不小,小内存的服务器甚至都不能运行,如果要自己搭的话成本可能也不小,而现在Cloudflare能免费提供,应该说不愧是赛博活佛吗🤣。 \ No newline at end of file diff --git a/_posts/2025-08-01-sw-proxy.md b/_posts/2025-08-01-sw-proxy.md new file mode 100644 index 0000000..6636efd --- /dev/null +++ b/_posts/2025-08-01-sw-proxy.md @@ -0,0 +1,110 @@ +--- +layout: post +title: 用Service Worker实现一个反向代理 +tags: [浏览器, Service Worker, Worker, 反向代理] +--- + + 现代浏览器真是强大,可以替代一些服务器的功能了! + +# 起因 + 前段时间在和群友聊天的时候,提到了我博客的[分发方案](/2022/02/14/move.html),这么多年过去之后我已经在很多平台上[分发](/proxylist.html)了我的博客,不过这只是多重冗余,并不算去中心化(虽然我也有向IPFS同步,不过IPFS还得pin,也不太可靠)……所以这么看来,我的博客似乎还不算极其可靠😂?但其实不完全是这样。因为除了向不同平台的分发,我的博客还有一个全文搜索的功能。更重要的是,之前做[文章推荐功能](/2024/10/01/suggest.html)时,会把整个博客所有文章的文字存到访客浏览器的localStorage中。这么说来,只要有人访问了我博客的文章,他们的浏览器中就会保存一份我博客文章的完整文本副本。从这个角度看,可靠性应该算是相当高了吧? + 不过我之前的分发方案里还记录了一点,在GitHub Pages以外的平台我还打包了一份全站生成后的代码,之所以要全站打包,也是希望我的博客能尽可能的分发,考虑到几乎所有的Linux发行版一定有tar,而不一定有zip,所以我最终打包成了tgz格式。如果能让访客下载这个全站打包好的副本,相比于浏览器里只存储了文章文字的全文数据,这应该是一个更好的备份方式吧?毕竟我的博客本身也是我的作品……所以这个压缩包到底有什么地方可以用到呢? + 这时候我想起来,现代的浏览器功能已经非常强大了,甚至在浏览器里直接运行一个Web服务器也完全没问题。如果能让访客在浏览器里下载那个压缩包并运行一个Web服务器,那就相当于在他们本地设备上部署了一份我的博客副本。这样一来,除了我自己搭建的网站之外,这些访客的本地也运行着一个我的博客实例😆(当然,这份副本只有访客自己能看到)。 + +# 研究实现方案 + 想要在浏览器上运行Web服务器其实很简单,那就是使用Service Worker,它可以完全离线在浏览器上工作。格式的话和以前写过的Cloudflare Worker非常相似,毕竟Cloudflare Worker就是模仿Service Worker的方式运行啊😂,所以我要是想写Service Worker应该很简单。 + 有了执行的东西之后就是存储,在Service Worker上存储可以用Cache Storage,用它的话不仅可以保存文件的内容,还可以保存响应头之类的东西,用来和Service Worker配合使用非常的方便,不过既然是Cache,它的可靠性就不能保证了,浏览器很可能在需要的时候清除缓存内容,所以相比之下用IndexedDB应该会更可靠一些。 + 那么接下来就该处理我的tgz文件了,tgz的本质是tar文件被gzip压缩之后的东西。浏览器解压gzip倒是简单,可以用Compression Stream API,但它也只能处理gzip了……对于tar的处理似乎就必须用第三方库。而tar的库在网上搜了搜似乎很少,网上找了个[tarjs](https://github.com/gera2ld/tarjs)库,文档写的也看不懂,⭐️也很少,看来是有这个需求的人很少啊,而且还要用现代JS那种开发方式,要用什么npm之类的。在[上一篇文章](/2025/07/24/screenshot.html)我就说过我不是专门写前端的,对在自己电脑上安装Node.js之类的东西很反感。后来问AI也完全写不出能用的代码,估计这个功能还是太小众了……另外又想到除了这个问题之外还要处理网站更新的时候该怎么通知Service Worker之类乱七八糟的事情……所以只好作罢😅。 + +# 使用Service Worker进行反向代理 + 这么看来离线运行我的博客似乎有点麻烦,不过既然都研究了一下Service Worker,不如想想其他能做的事情……比如当作反向代理?虽然在浏览器上搞反向代理好像意义不是很大……但值得一试。我之前见过一个项目叫做[jsproxy](https://github.com/EtherDream/jsproxy),它是用Service Worker实现的正向代理,这给了我一些启发。我在之前研究分发方案的时候发现了一些模仿GeoCities的复古静态网站托管平台,比如[Neocities](https://neocities.org)和[Nekoweb](https://nekoweb.org)。它们需要通过网页或API才能上传网站,不太方便使用CI/CD的方式部署。但是我又觉得它们的社区很有意思,所以想用Service Worker的方式反代到我的网站,显得我的网站是部署在它们上面一样。 + 这个做起来非常简单,其实就和我以前用[Cloudflare Worker搭建反代](/2021/03/02/workers.html#%E9%A6%96%E5%85%88%E7%BB%99%E8%87%AA%E5%B7%B1%E6%90%AD%E4%B8%AA%E5%8F%8D%E4%BB%A3)几乎完全一样,遇到请求之后直接通过Fetch获取内容然后再返回就行,唯一不同的就是浏览器存在跨域策略,在跨域时只有对应网站存在合适的响应头才可以成功请求,还好我用的Pages服务大多都允许跨域。但是在我实际测试的时候发现这个允许跨域的等级不太一样,比如GitHub Pages的响应头里包含`Access-Control-Allow-Origin: *`,但是不允许OPTIONS方式请求,另外如果要修改请求头,在响应头里还要一一允许相应的请求头才行……当然对于这种问题解决起来很简单,就和我之前写的[订阅源预览](/2025/04/08/feed.html)一样,用[cloudflare-cors-anywhere](https://github.com/Zibri/cloudflare-cors-anywhere)搭建的CORS代理就可以,有了这个就可以轻松使用Service Worker反代其他网站了。 + 当然对我来说其实有`Access-Control-Allow-Origin: *`就够了,我也不需要花里胡哨的请求方式,也不需要在请求头和请求体里加什么莫名其妙的东西,所以对我来说直接请求我的某一个镜像站就可以,于是代码如下: + **index.html** +```html + + + + + + Mayx的博客 + + + + +

Redirecting…

+ Click here if you are not redirected. + + + +``` + **sw.js** +```javascript +const TARGET_SITE = '被反代的网站'; //也可以用CORS代理 + +self.addEventListener('install', event => { + // 强制立即激活新 Service Worker + event.waitUntil(self.skipWaiting()); +}); + +self.addEventListener('activate', event => { + // 立即控制所有客户端 + event.waitUntil(self.clients.claim()); +}); + +self.addEventListener('fetch', event => { + if (new URL(event.request.url).origin == self.location.origin) { + event.respondWith(handleProxyRequest(event.request)); + } +}); + +async function handleProxyRequest(request) { + try { + // 构建目标 URL + const targetUrl = new URL(request.url); + const proxyUrl = TARGET_SITE + targetUrl.pathname + targetUrl.search; + + // 创建新请求(复制原请求属性) + const proxyRequest = new Request(proxyUrl, { + method: request.method, + // headers: request.headers, + // body: request.body + }); + + // 发送代理请求 + const response = await fetch(proxyRequest); + + // 返回修改后的响应 + return new Response(response.body, { + status: response.status, + statusText: response.statusText, + headers: response.headers + }); + + } catch (error) { + console.error('Proxy error:', error); + return new Response('Proxy failed', { status: 500 }); + } +} +``` + 最终的实际效果: + +# 感想 + 虽然折腾了半天没能增强我博客的可靠性……但是体会到了现代浏览器的强大之处,难怪前几年会提出ChromeOS和PWA之类的东西,原来浏览器功能还是相当强大的,用了Service Worker以后即使是纯前端也可以有和使用服务器一样的体验,在过去的浏览器中要是想实现这样的功能……好像也不是不可能😂,用AJAX加服务器使用伪静态策略其实是可以做到的……其实Service Worker的功能更多还是在离线时使用的,我这个例子好像没体现它的优势😆。 + 但总的来说相比以前想要实现这种反代的功能代码还是更清晰,也更简单了,也许以后如果有机会我又有心思让博客在访客浏览器上离线运行,那就可以体现Service Worker真正的优势了🤣。 \ No newline at end of file diff --git a/_posts/2025-08-10-tilde.md b/_posts/2025-08-10-tilde.md new file mode 100644 index 0000000..a362cd4 --- /dev/null +++ b/_posts/2025-08-10-tilde.md @@ -0,0 +1,70 @@ +--- +layout: post +title: 在Tilde社区的游玩体验 +tags: [tilde, 服务器, git, 体验] +--- + + Tilde社区,如“家”一般的感受😝 + +# 起因 + 在[上一篇文章](/2025/08/01/sw-proxy.html)里,我说到给我的博客增加了不少网站[镜像](/proxylist.html),也在这个过程中发现了不少Git平台实例。顺便一提,我找到了个不错的[仓库](https://github.com/ecosyste-ms/repos),可以全网搜索各种Git平台实例。在这探索的过程中,我发现了一种神奇的社区——Tilde社区,体验之后感觉非常有意思,所以来分享一下。 + +# 什么是Tilde社区 + Tilde社区之所以叫Tilde,是因为在类Unix系统(如Linux、BSD)中,波浪号(Tilde)“~”代表家目录。因此,Tilde社区就是基于类Unix系统环境,并且可以公共登录的服务器,又被称为pubnixes。一般这些社区的管理员会预装很多软件、开发环境以及一些公共服务,比如聊天室、邮件、BBS论坛等,这些构成了社区互动的基础。不过并不是所有类似这样提供Shell访问的公共服务器都可以被称作社区,比如知名的免费网站托管商[Serv00](https://www.serv00.com)虽然也提供可以登录的FreeBSD服务器,并且在服务器上安装了非常多的工具和环境,从表面来看和Tilde社区提供的服务几乎一模一样,但是它少了一个很重要的东西,那就是社区,它的权限管理非常严格,不允许服务器的用户互相串门,也没有互相交流的平台,而且它的本质是商业服务(尽管是免费的),所以它不算Tilde社区。 + 至于Tilde社区的加入方式,一般可以通过填写在线申请表、私信或发送邮件申请,有些比较有特色的社区会用SSH交互等方式。审核通过后,管理员就会在服务器上为你创建账户,即可获得属于自己的“家”,一般的Tilde社区在这个过程中不需要付一分钱,因为他们通常都是反商业化的,如果遇到了需要付钱才能激活账户的公共服务器,那就不是Tilde社区,即使它历史悠久,可能是别的什么东西😆。 + 那么在哪里可以找到它们呢?有一个不错的网站,叫做[tildeverse](https://tildeverse.org),这不仅是一个Tilde社区的集合,它自身也提供了很多服务。不过总的来说各个社区之间也是互相独立的,tildeverse只是提供了一个平台让大家可以互相沟通,所以这个网站叫做“loose association”,就相当于博客中的博客圈一样。 + 于是我在tildeverse的成员列表中随便挑选了几个Tilde社区提交了注册申请,过了一段时间申请通过了,那么接下来就来说说我在Tilde社区的体验吧。 + +# Tilde社区的体验 + 虽然我加入了不少Tilde社区,不过各个社区提供的服务都差不多,首先最重要的就是个人主页,一般Tilde社区基本上都会提供一个像`~/public_html`这样的目录存放个人主页的网页文件,并且可以通过类似`example.com/~username`这样的地址访问,还有些社区会允许通过二级域名的方式访问,类似`username.example.com`这样,像我博客好多地方写的都是从根路径开始,就很适合用二级域名的方式。这些主页大多也支持使用PHP之类的网页,不过不像虚拟主机那样有个面板可以轻松安装扩展和切换版本,有些可能要自己写配置文件,有些可能要管理员才可以操作,毕竟是社区,所以不太注重用户体验。 + 当然除了HTTP协议的个人主页,通常他们还可以创建一些Gemini协议和Gopher协议的个人主页,这些协议不支持普通浏览器访问,需要用[ELinks](https://github.com/rkd77/elinks)之类的文本浏览器才能打开,这个浏览器甚至可以在终端里用鼠标操作😆。不过因为协议非常简单,所以内容也就只能整些文本内容了。 + 除了个人主页外,一般还会提供编写博客的程序,比如[bashblog](https://github.com/cfenollosa/bashblog),用这个编写好之后就可以直接生成HTML网站,能直接发布到自己的主页上让别人访问。这个脚本还是纯Bash的,就和我当年的[Mabbs](https://github.com/Mabbs/Mabbs.Project)一样,看起来还挺酷,当然功能上肯定比不上正经的静态博客生成器😆。 + 当然博客是一方面,还可以写微博,他们一般提供一款叫[twtxt](https://github.com/buckket/twtxt)的软件,用这个软件可以使用命令发微博,还能关注其他人,查看时间线,而且这还是去中心化的,可以跨服务器进行关注,感觉就和[Mastodon](https://github.com/mastodon/mastodon)一样。 + 除此之外作为社区当然就会有聊天室和论坛了,不过这些聊天室和BBS论坛通常不会像大多数人使用的那种通过Web或者图形界面来查看,而是纯文本的那种,比如论坛通常会用[Bulletin Butter & Jelly](https://github.com/bbj-dev/bbj),聊天室会用IRC,可以使用[WeeChat](https://github.com/weechat/weechat),只是我对IRC的印象不太好,在终端使用的IRC客户端没有一个使用体验好的😅,相比于其他在终端使用的软件,操作通常只需要一些快捷键,而且界面上通常会有提示,而IRC客户端就只能敲命令,而且还担心敲错了当成普通内容发出去……所以尽管我加入了Tilde社区,受限于聊天软件的使用体验以及我的英文水平,所以并不能和在服务器上的其他人聊天,没法参与到社区中,这么来看似乎我只能把Tilde社区当作普通的共享服务器来看待了😭。 + 在Tilde社区中既然都是用类Unix系统,自然大都是会写程序的人,所以托管代码也很重要,不过因为大多Tilde社区的主机性能很垃圾,所以很多都不会提供Git平台服务,即使有可能也只会提供Gitea,像GitLab这种对服务器要求比较高的基本上就不会有了。但很多人可能对Git有误解,其实绝大多数情况下都不需要Git平台来托管代码,之所以用Gitea、GitLab的工具是因为它们有比较完整的用户管理以及代码协作能力,比如Issue和Wiki之类的,但是大多数人其实根本没必要用到这些功能,有问题发邮件就好了,像Linux的开发就完全没有用Gitea、GitLab之类的平台。所以在Tilde社区中托管代码非常简单,直接新建个文件夹,执行`git init --bare`,那就是个仓库,另外很多Tilde社区提供[cgit](https://git.zx2c4.com/cgit/about/)方便让公众在网页上查看和克隆自己的仓库,一般只要放到`~/public_git`目录下就可以。至于自己如果想要提交代码,可以用`git remote add tilde ssh://example.com/~/public_git/repo.git`添加远程仓库,本地改完之后push上去就可以。 + 不过用那些Git平台还有一个地方可能会用到,那就是CI/CD,直接用命令创建的仓库它可以做到CI/CD吗?其实是可以的,Git有hooks功能,如果想要类似CI/CD的功能就可以直接用post-receive这个钩子,提交完成之后就会执行这个脚本,所以接下来就讲讲我是如何用Git hooks在服务器上自动部署我的博客吧。 + +# 使用Git hooks自动部署博客 + 我的博客使用的是[Jekyll](https://github.com/jekyll/jekyll)框架,这是一个使用Ruby编写的静态博客生成器。所以要想构建我的博客至少要有Ruby的环境,还好几乎所有的Tilde社区都预装了,不用担心环境的问题。 + 不过Tilde社区一般不提供root权限,所以Ruby的包需要放到自己的目录下,比如可以执行这样的命令: +```bash +bundle2.7 config set --local path '/home/mayx/blog-env' +``` + 然后再在我的仓库下执行`bundle2.7 install`就可以了。 + 接下来就需要编写构建的脚本,这个倒是简单,直接用我的[部署脚本](/deploy.sh)改改就行: +```bash +#!/bin/bash +cd /home/mayx/ +rm -rf public_html +git --work-tree=/home/mayx/blog --git-dir=/home/mayx/blog.git checkout -f +cd blog +mkdir Mabbs +curl -L -o Mabbs/README.md https://github.com/Mabbs/Mabbs/raw/main/README.md +bundle2.7 exec jekyll build -d ../public_html +tar czvf MayxBlog.tgz --exclude-vcs ../public_html/ +mv MayxBlog.tgz ../public_html/ +``` + 写完之后把这个脚本放到仓库的`hooks/post-receive`下,然后加上执行权限就可以用了,以后每次push之后都会直接更新我在Tilde社区的主页,也就是我的镜像站。这样部署不像一般CI/CD还要额外装环境,直接使用提前装好的环境,构建速度会快不少。 + 不过既然有机会构建了,我就可以把一些不支持构建的Pages用起来了,有些Forgejo实例支持Pages功能,但是仓库里只能包含构建后的代码,还有Bitbucket Cloud也是一样的问题,所以我可以把构建后的文件夹转为仓库,然后推送到这些Git平台上。 + 考虑到我的网站每次构建基本上所有的页面都有改动,因此我不打算保留提交记录,所以我每次都会重新初始化git仓库,不过在我实际测试的时候,发现钩子触发的脚本执行`git init`的时候创建的是裸仓库……查了一下貌似是环境变量的问题,只要把`GIT_DIR`变量删掉就没问题了,以下是实际的代码: +```bash +cd ../public_html/ +unset GIT_DIR +git init +git add . +git commit -m "update" +git remote add codeberg ssh://git@codeberg.org/mayx/pages.git +git remote add gitgay ssh://git@git.gay/mayx/pages.git +git remote add bitbucket ssh://git@bitbucket.org/unmayx/unmayx.bitbucket.io.git +git push -f codeberg master +git push -f gitgay master +git push -f bitbucket master +``` + 除了这些Pages之外,还有一些平台只支持使用他们自己的软件上传网站代码,比如surge,既然我可以在构建的时候执行命令,那就顺带一起上传吧,比如我可以这样执行: +```bash +/home/mayx/blog-env/node_modules/surge/bin/surge /home/mayx/public_html/ mayx.surge.sh +``` + 其实除了这个之外我还想上传到sourcehut pages,这个也需要用他们自己的软件上传,但是sourcehut pages的CSP太严格了,居然禁止脚本访问其他网站😭,这样我的文章点击计数、文章推荐、AI摘要之类乱七八糟的功能就全用不了了,所以只好作罢…… + +# 感想 + 总的来说,这次在Tilde社区的各种体验还挺有意思,虽然没能和各个社区的成员进行对话,但是在探索的过程中,也了解到了不少新知识,而且也给我的博客增加了不少镜像。不知道会不会有哪个社区成员在闲逛的时候看到我的博客然后对里面的内容感兴趣😝……要是有哪个成员看到然后给我评论,那也算是社区互动吧😋。虽然我的文章内容都是中文,但现在翻译软件也足够强大了,应该不至于拦住外国人。只是在国内似乎没有见过类似的社区,在国内也有的话,那就可以用中文和大家对话了吧。 \ No newline at end of file diff --git a/_posts/2025-09-01-quine.md b/_posts/2025-09-01-quine.md new file mode 100644 index 0000000..3f27c92 --- /dev/null +++ b/_posts/2025-09-01-quine.md @@ -0,0 +1,100 @@ +--- +layout: post +title: 关于ZIP Quine与自产生程序的探索 +tags: [压缩包, Quine, 自产生程序, Quine Relay] +--- + + 描述自己的代码……是一种什么样的感觉? + +# 起因 + 前段时间我在折腾[博客部署](/2025/08/10/tilde.html#%E4%BD%BF%E7%94%A8git-hooks%E8%87%AA%E5%8A%A8%E9%83%A8%E7%BD%B2%E5%8D%9A%E5%AE%A2)的时候,回顾起了好久以前写的[部署脚本](/deploy.sh)。对于全站打包的这个步骤,本来我打算利用这个压缩包结合[Service Worker做离线浏览](/2025/08/01/sw-proxy.html),但因为没有合适的方案所以放弃了。而现在对于这个压缩包,我又有了一个特别的想法。事实上在这个下载全站的压缩包中,里面的内容和实际的网站并不完全相同,因为在这个压缩包里缺少了压缩包本身。所以把这个压缩包解压之后直接当作网站打开,会发现下载压缩包的链接是无效的,除非在解压之后把压缩包移动到网站里才行…… + 于是我就在想有没有一种可能可以让压缩包解压之后里面又包含了这个压缩包本身?似乎是个不太可能的事情,但我以前听过类似的东西,也许并非不可能?所以这次就来探索一下吧。 + +# 自包含压缩包的探索 + 在很久之前,我见到过一个很知名的自包含压缩包(又称为ZIP Quine),叫做[droste.zip](https://alf.nu/s/droste.zip),是由Erling Ellingsen[在2005年制作](https://web.archive.org/web/20090106171423/http://tykje.com/code/useless/zip-file-quine)出来的。当时我只知道它很神奇,原理什么的并不清楚,另外在网上也基本上找不到类似的压缩包。现在再回看时发现[介绍](https://alf.nu/ZipQuine)里包含了一些相关的链接,甚至还有一篇能自己制作类似压缩包的论文,所以接下来就可以看一下这些链接来理解这种压缩包是如何制作的了。 + 关于原理方面,先看[Will Greenberg](https://github.com/wgreenberg)制作的一个[示例](https://wgreenberg.github.io/quine.zip/),在这里面有一个谜题,使用“print M”(原样输出接下来的M行输入内容)和“repeat M N”(从倒数第N行的输出内容开始,重复M行)这两个指令让最终执行的结果和输入的指令完全相同。这正是对DEFLATE压缩算法所使用的LZ77编码的一种简化模拟,也就是说只要解决了这个问题,就可以让压缩包在解压时原样输出自己了。 + 这个问题看起来还挺复杂,不过在仓库的[Issues](https://github.com/wgreenberg/quine.zip/issues/1)就有人给出了几种解法(当然,这个题目解法不唯一),所以在理论上应该是可行的,那么接下来就需要研究压缩文件的格式来实现它了。 +## 实现ZIP Quine的探索 + 在[Russ Cox](https://swtch.com/~rsc/)写的《[Zip Files All The Way Down](https://research.swtch.com/zip)》文章中,同样说明了这个原理,而且给出了一个方案,让上述这两个命令除了能够对命令本身的重复以外,还可以添加一些额外数据,这样才能做到构建一个压缩包文件。按照文章的描述,如果用之前谜题的规则来说,我们设头和尾的内容都是“print 0”,那么Cox给出的方案如下: +``` +print 0 +print 2 +print 0 +print 2 +repeat 2 2 +print 1 +repeat 2 2 +print 1 +print 1 +print 4 +repeat 2 2 +print 1 +print 1 +print 4 +repeat 4 4 +print 4 +repeat 4 4 +print 4 +repeat 4 4 +print 4 +repeat 4 4 +print 4 +repeat 4 4 +print 0 +print 0 +print 2 +repeat 4 4 +print 0 +print 0 +print 2 +repeat 2 2 +print 0 +repeat 2 2 +print 0 +``` + 我们把这些指令粘贴到[quine.zip](https://wgreenberg.github.io/quine.zip/)这个谜题中,就会发现输出和输入完全相同,以此就能验证Cox方案的正确性。除此之外作者还给出了生成的源代码:[rgzip.go](http://swtch.com/rgzip.go),只是代码里面到处都是用来构建压缩包的十六进制数字,完全看不懂😂。 + 另外这个方案是针对使用基于LZ77与哈夫曼编码的DEFLATE压缩算法,所以格式不重要。因此无论是ZIP,还是GZIP,以及TGZ(GZIP压缩后的TAR),其实都是一样的,因为他们都使用的是DEFLATE压缩算法。顺便一提,[Matthew Barber](https://github.com/honno)写了一篇很棒的[文章](https://github.com/honno/gzip-quine),通过动画演示并详细讲解了如何实现一个简单的GZIP版ZIP Quine,很值得一看。 + 还有一点,普通的TAR文件能否实现类似功能呢?从原理来说估计不行,因为TAR文件本身并没有压缩,也不包含指令,就单纯是一堆文件和元数据的拼接,所以就做不到自包含了。 + 这么来看既然TGZ可以,那是不是在我博客网站的压缩包里放一份和自己一模一样的压缩包是可行的?很遗憾按照这个方法来看是做不到的,由于压缩格式和编码的限制,这个方案在实际实现时发现操作码需要是5个字节,最后发现最多只有类似`repeat 64 64`这样的指令能够满足要求,因此头尾区最多只能放64-5=59个字节的数据,也就刚刚好能容纳压缩格式需要的内容,几乎没法塞更多东西进去……显然,这些限制导致这种方式对我来说意义就不大了,何况作者的代码我也看不懂……而且还要考虑压缩包还存在校验用的CRC32,需要找满足整个压缩包的CRC32正好在压缩包中的“不动点”。虽然从CRC32的原理来说应该有办法做到通过数学方式解决,但这篇文章的作者因为解决了自包含的问题之后累了,因此放弃继续研究,选择直接暴力破解,毕竟CRC32只有32位,估计思考的时间都要比爆破的时间长吧😂。但如果是这样,即使有方案能存下我博客的数据,也不能在每次网站构建的时候都制作一次了…… + 虽然Russ Cox写的文章看起来做不到包含更多内容了,但Erling Ellingsen制作的droste.zip却包含了一张图片,说明并不是没办法加入更多数据,只是没有找到正确的方法。在2024年[Ruben Van Mello](https://github.com/ruvmello)写了一篇论文《[A Generator for Recursive Zip Files](https://www.mdpi.com/2076-3417/14/21/9797)》,在这篇论文里他不仅解决了包含的额外数据过少的问题,还编写了一个通用工具,能让普通人也能生成这样的压缩包,而且他还创新性的做了一种像衔尾蛇一样的双层嵌套循环压缩包,非常的有意思,所以接下来我打算试试他的方案。 + 在这篇论文中,里面简述了之前Russ Cox写的内容,也提到了59字节的限制,于是作者对原有的结构进行了一些改动,让操作码可以超出5字节的限制,具体可以看论文的表6,从而解决了只能包含59字节额外数据的限制。但由于DEFLATE压缩格式本身的约束(16位存储块长度以及32KiB回溯窗口),即使能够添加文件,最多也只能额外容纳32763字节的数据(其中包括压缩包所需的文件头)……显然这点空间完全存不下我的博客😭,看来我只能打消这个想法了。但既然都研究了半天,也不一定要存我的博客嘛,可以看看还有没有别的东西可以存?在这之前先继续阅读论文,看完再说吧。 +## 制作一个嵌套循环的ZIP Quine + 在实现了常规的ZIP Quine之后,接下来就是作者的创新点了(如果光是解决存储限制这点创新点估计还不够发论文吧😂)。作者接下来制作了一种循环压缩文件,在压缩包内包含文件A和压缩包A,而压缩包A中则包含文件B和最初的压缩包,从而形成一个循环递归的结构。看论文的描述所说如果把外层的压缩包和内层的压缩包的开头和结尾按照一定的规则交替混合,就可以看作是一个整体,然后按照之前做ZIP Quine那样处理就可以……具体实现的细节得看论文的表10。只不过既然是把两个压缩包看作一个整体的话,按照上面的限制,自然每个压缩包能容纳的数据量就更小了,每个最多只能容纳16376字节的数据…… + 另外既然这里面有两个压缩包,那么每个压缩包还有自己的CRC32校验和,理论上如果要爆破的话计算难度得是原来的平方,这样难度就太大了。不过作者发现如果把数据的CRC32值取反(即与“0xFFFFFFFF”取异或)然后和原始数据拼到一起,整个数据的CRC32校验和就会被重置为一个固定的值“0xFFFFFFFF”,看起来挺有意思,正常的哈希算法可没有这种特性。因此原本计算难度很大的爆破计算现在就可以和之前一样了…… ~~话说为什么不让两层的CRC32都这样计算(包括之前单层的ZIP Quine)?这样就不需要爆破了……貌似是因为在普通的ZIP Quine中满足条件的CRC32需要出现两次,所以不能用这个方案吧?~~ + 现在所有的理论都足够了,我需要挑一个文件来做这样嵌套循环的ZIP Quine,既然博客的大小不可以……要不然我就用我写过的第一个大项目——[Mabbs](https://github.com/Mabbs/Mabbs.Project)吧,这个项目的主程序是22KiB,看起来似乎超出了嵌套循环ZIP Quine的限制?其实没有,它的限制指的是压缩后的大小,我这个程序压缩之后是8KiB左右,所以完全没问题。 + 接下来就该使用论文中提到的生成工具:[zip-quine-generator](https://github.com/ruvmello/zip-quine-generator),这是一个Kotlin编写的程序,从发布中可以下载预构建的程序,接下来只要按照README中的描述使用“`--loop`”参数就可以用这个程序创建嵌套循环的ZIP Quine了。不过它原本的代码不能修改里面生成的压缩包的名字,另外[压缩后的文件属性是隐藏文件](https://github.com/ruvmello/zip-quine-generator/blob/3b8cf977e7a93bb956ad966d5e3b4d503f410529/src/main/kotlin/zip/ZIPArchiver.kt#L845),还有[生成的压缩包中文件的创建时间总是当前时间](https://github.com/ruvmello/zip-quine-generator/blob/3b8cf977e7a93bb956ad966d5e3b4d503f410529/src/main/kotlin/zip/ZIPArchiver.kt#L29),以及[给文件内填充额外数据的代码里面填的是作者的声明](https://github.com/ruvmello/zip-quine-generator/blob/3b8cf977e7a93bb956ad966d5e3b4d503f410529/src/main/kotlin/zip/ZIPArchiver.kt#L30),表示文件是由他论文的所写的生成器生成的……这些情况让我感觉有点不爽,还是希望这些部分能自定义一下,所以我就小改了一下他的代码。顺便一说,Kotlin编译起来还挺简单,直接一句`kotlinc src/main/kotlin -include-runtime -d output.jar`就可以了,也不需要折腾Maven之类乱七八糟的东西。最终我修改并编译完程序之后就把文件丢到服务器上开始给我爆破CRC32了,花了10个小时就算出来了,倒是比想象中快😂。 + (2025.09.26更新)在2025年9月15日的时候,[Nate Choe](https://github.com/NateChoe1)给zip-quine-generator做了个[重大贡献](https://github.com/ruvmello/zip-quine-generator/pull/3),他通过[数学的方式](https://en.wikipedia.org/wiki/Extended_Euclidean_algorithm)让CRC32的值可以不需要通过爆破的方式算出来,现在想要再制作这样的压缩包就可以瞬间生成了……要是我再晚点做这个压缩包就不需要花那么长时间了吧🤣。 + 最终我给我的[Mabbs](https://github.com/Mabbs/Mabbs.Project)项目创建了[Infinite Mabbs](https://github.com/Mabbs/Mabbs.Project/releases/tag/Final-version)这个发布,生成的文件也可以在[这里](/assets/Mabbs.zip)下载,这也算是不枉我研究半天这个论文了😆。 + +# 自产生程序的探索 + 说起来自包含压缩包为什么叫做ZIP Quine?其中的Quine是什么意思呢?其实这是一位美国哲学家的名字,他提出了“自指”的理论概念,所以为了纪念他,有类似概念的东西就被称作Quine,具体为什么也可以去看[维基百科](https://en.wikipedia.org/wiki/Quine_(computing)#Name)的说明。现在提到Quine一般代表的就是自产生程序,而自包含压缩包因为实现的原理和自产生程序的原理差不多,所以叫做ZIP Quine。因此接下来我打算探索一下自产生程序,更深入地了解Quine。 +## 实现Quine的探索 + 那么什么是自产生程序?简单来说就是程序的源代码和程序的输出完全相同的程序,而且通常来说不允许通过读取/输入源代码的方式实现。按照一般的想法,让程序输出自身就需要输出中有全部代码,整个代码就会变长,而更长的代码就要输出更多,然后代码就会越来越长……所以这么想来似乎成了个死胡同。但其实这种程序实现起来并不复杂,想想ZIP Quine的实现,关键在于指令还需要以数据的形式表现,并且能被引用,这样输出的时候就会连着指令一起输出了。比如用Python的Quine举例: +```python +c = 'c = %r; print(c %% c)'; print(c % c) +``` + 这里的变量中就以数据的形式存储了程序的代码,而在输出的时候除了变量内的代码,又通过引用的方式又把变量的内容放回到赋值的地方,所以它的输出就和原本的代码一样了。 + 其实Quine的实现思路都差不多是这样,可以在[Rosetta Code](https://rosettacode.org/)中找到[各种语言实现的Quine](https://rosettacode.org/wiki/Quine),在这其中能够发现大多数高级语言的写法都是类似的,除了一些低级语言以及esolang……这些我也看不懂😂,主要是有些语言没有变量的概念,不知道是怎么区分代码和数据……除了那个网站,在[这里](https://esolangs.org/wiki/List_of_quines)还能找到更多由esolang编写的Quine,可以看出来基本上很难看懂,其中最令人望而生畏的还得是[用Malbolge写的Quine](https://lutter.cc/malbolge/quine.html),这个代码看起来不仅很长,而且像乱码一样。至于什么是Malbolge?这就是Malbolge程序: +``` +D'<;_98=6Z43Wxx/.R?Pa +``` + 代码就像加了密似的,顺便一说这个执行的输出结果是“Mayx”,关于Malbolge的具体细节可以看它的[规范](http://www.lscheffer.com/malbolge_spec.html),另外虽然这个语言写起来很复杂,但还是有人能用它编出程序的,甚至还有人用[Malbolge Unshackled](https://esolangs.org/wiki/Malbolge_Unshackled)(Malbolge不限内存的变种)写过[Lisp解释器](https://github.com/iczelia/malbolge-lisp),实在是恐怖如斯😨。 +## 只能Quine的语言 + 其实想要做出Quine,还有一种更加无聊的方案,那就是设计一种只能Quine的语言🤣。根据Quine的定义,代码输出的结果就是它本身……所以我们可以把任何内容都看作代码,然后这种语言的行为就是输出所有代码……听起来是不是有点无聊?但是想想看如果把Linux中的cat命令当作解释器,就可以实现这种语言了,比如: +``` +#!/bin/cat +Hello, world! +``` + 作为脚本执行的结果就是原样输出这段内容,不过把内容当作代码算不算作弊呢……如果看作是cat的输入显然是作弊,但如果是当作源代码的话应该就不算了吧😋……但这就不是能写出逻辑的语言了。所以说Quine的趣味并不在“能不能实现”,而在于如何在限制条件下实现。正是因为大多数语言不会直接“自我输出”,才会觉得那些精巧的Quine程序如此有意思。 +## Quine Relay的探索 + 还有一个更加复杂的Quine变种是“Quine接力”(Quine Relay),即一个程序输出另一个程序的源代码,另一个程序又输出下一个程序的源代码,最后回到原始程序,就和之前所说的嵌套循环ZIP Quine有点类似。最著名的例子是[Yusuke Endoh](https://github.com/mame)(这位还是[IOCCC](https://www.ioccc.org/)的冠军之一)创建的[quine-relay](https://github.com/mame/quine-relay)项目,它包含了128种编程语言的循环。 + 这种程序写起来会更复杂一些,不过原理都差不多,通常除了当前运行的部分是可执行代码外,其他的代码都需要以额外包含的数据形式(如字符串)存储在变量中。如果想自己做个类似简单的Quine Relay,除了去看[维基百科](https://en.wikipedia.org/wiki/Quine_(computing)#Ouroboros_programs)之外,前段时间我还看到过一个不错的[文章](https://blog.mistivia.com/posts/2024-09-21-quine/),里面就讲了如何用“笨办法”编写Quine和Quine Relay,通过把变量中的内容编码为16进制来避免不同语言可能存在的特殊字符转译问题,思路不错,对于理解如何编写这类程序的问题很有帮助。当然这只是个**简单**的方案,仅适用于一些常规的编程语言,像上面那个[quine-relay](https://github.com/mame/quine-relay)项目中甚至还包含Brainfuck之类的esolang,这种估计得要想办法让相对高级一些的语言通过“生成”的方式得到输出下一种代码的代码,而不是简单的赋值了,所以只靠这点知识想去完全理解大佬的作品还是想多了😆。 + 顺便一说,quine-relay并不是那位大佬唯一的Quine作品,他还做过[有冗余的Quine](https://github.com/mame/radiation-hardened-quine)以及[动态的Quine](https://mamememo.blogspot.com/2010/09/qlobe.html),真的是相当的厉害…… +## Polyglot Quine的探索 + 除了Quine Relay之外还有一种很复杂的Quine,叫做[Polyglot](https://en.wikipedia.org/wiki/Polyglot_(computing)) Quine,与Quine Relay需要在程序执行后才能切换到其他语言接力不同,Polyglot Quine的源代码本身即可同时属于多种语言,而且用这些语言的解释器每个执行后的输出全都一样,都与源代码完全一致。由于不同的编程语言的格式既有些相同之处,也有很多不同之处,所以让同一份代码表示不同语言就会很容易产生歧义,这时候就只能想办法通过一些特别的方式(比如将可能会对当前语言产生干扰的代码看作是注释的方式)来规避语言之间的差异。 + Quine本身就已经很困难了,再加上这些限制就变得更加复杂了,所以制作Polyglot Quine的编程语言基本上都得精挑细选,而且通常只有两种语言,比如[这段代码](https://github.com/TrAyZeN/polyglot-quine/blob/master/main.c)就是C和Python的Polyglot Quine,它巧妙利用了C预处理器指令在Python中可视为注释的特性,使两种语言互不干扰,非常有趣。当然并不是说只能是两种语言,像[这个](https://github.com/2KAbhishek/polyquine)项目甚至使用了五种语言(C、Perl、PHP、Python、Ruby),可以说是相当厉害了。除此之外更令人惊叹的则是[PyZipQuine](https://github.com/d0sboots/PyZipQuine)项目,在这其中LZ77编码也可以作为一种语言,所以既可以被当作压缩包,也可以作为Python2.7代码,而且二者都是Quine,实在是令人赞叹。 + +# 感想 + 虽然这次探索最终没能完成让包含博客所有内容的压缩包自包含,但是在探索的过程中我还是收获了不少,尤其是Ruben Van Mello制作的ZIP Quine生成工具,实在是太棒了。很久以前我见到droste.zip这个压缩包的时候,就想整一个属于自己的ZIP Quine,现在我不仅用那个生成工具做了一个,还是对我来说很有意义的第一个项目——Mabbs,而且更关键的还是生成的是比普通的ZIP Quine更高级的嵌套循环ZIP Quine,也算是圆了小时候的心愿了。 + 另外在探索自产生程序的时候,也发现了一些很有意思的网站,比如[Rosetta Code](https://rosettacode.org/)以及[Esolang wiki](https://esolangs.org/) ~~(虽然这个网站里被好多小学生写了一堆无聊的东西😂)~~ ,里面有不少有趣的东西,也算是让我大开眼界了。 + 所以有的时候探索不一定要完成目标,在这个过程中也会收获到很多不错的东西吧😊。 \ No newline at end of file diff --git a/_posts/2025-10-12-recover.md b/_posts/2025-10-12-recover.md new file mode 100644 index 0000000..e2b451e --- /dev/null +++ b/_posts/2025-10-12-recover.md @@ -0,0 +1,29 @@ +--- +layout: post +title: 一次找回GitHub上被删除仓库的经历 +tags: [GitHub, Git, 代码恢复, 软件存档] +--- + + 在GitHub中寻找踪迹也许是非常简单的事情…… + +# 起因 + 前段时间,有人和我聊天的时候提到了[Brainfuck](https://esolangs.org/wiki/Brainfuck)语言,让我回想起了高中时写的[演讲稿](/%E6%BC%94%E8%AE%B2%E7%A8%BF/2018/06/20/Coding.html)。那时候我在演讲时也介绍了Brainfuck语言。对于Brainfuck的解释器,[各种语言都可以实现](https://rosettacode.org/wiki/RCBF),不过我当时为了方便理解用了一个在GitHub Pages上的网站,用可视化的方式演示了它的运行过程,效果很不错。现在既然聊到了,自然就想分享一下这个[演示的网站](https://fatiherikli.github.io/brainfuck-visualizer/),但我正想打开时,发现网站已经404了😰。 + 在GitHub Pages上的网站都有对应的仓库,现在不仅原仓库消失了,连作者的[首页](https://github.com/fatiherikli)都打不开,看样子是完全退出GitHub了……那么我想找到这个网站的想法就无法实现了吗?不过GitHub有些有意思的特性也许能帮助我找回这个网站。 + +# GitHub的特性 + 在GitHub中,一个普通的仓库可能没有什么特别的,也许就是服务器上的一个文件夹。但是当仓库被其他人Fork的时候就不一样了,在执行Fork时,显然GitHub不会完整复制整个仓库。否则,同一个仓库在服务器上会占用双倍空间,这显然不合理。另外,想想Git的结构:它由提交对象和分支指针构成,每次提交都有唯一的Hash值且不会冲突。因此可以推测,GitHub在实现Fork时,所有被Fork的仓库可能共享同一个对象库,而每个用户仓库只保存指针,这样所有仓库只会占用增量空间,而不会存储重复内容。 + 但这样也会带来一个问题,首先因为很多人可能要共用一部分对象,所以也很难确认对象的所有权,而且也因为这个原因所有的对象要能被所有人访问。因此在整个Fork网络中,只要有一个仓库存在,GitHub就必须保留所有的对象,而且每个仓库都能访问这个网络中所有的对象。为了验证这一点,我们可以用最知名的[Linux内核仓库](https://github.com/torvalds/linux)做个示例。 + 首先对Linux仓库进行Fork,然后我们可以随便做一些改动,比如在README中写“Linux已经被我占领了😆”之类的内容,提交到自己的仓库,并且记下提交的Hash值,接下来就可以把自己的仓库删掉了。如果上面的猜想是正确的,那么在这个Fork网络中的任何一个仓库查看我刚刚的提交应该都可以,于是我直接在主仓库拼上了[提交的Hash值](https://github.com/torvalds/linux/tree/78e1d0446b94012da8639aa2b157d4f2dee481ce)(顺便一说只要值唯一,和其他的提交不冲突,[短的Hash值](https://github.com/torvalds/linux/tree/78e1d044)也可以),果不其然能找到刚刚修改的内容,这样一来,只要GitHub和任意一个Linux仓库的Fork还存在,这个提交就永远存在了😝。 + +# 找回仓库 + 那么接下来找回之前网站的方案就很简单了,我只要找到网站仓库的任意一个Fork,然后只要知道最新的提交Hash,我就可以还原最新的仓库了。Fork倒是好找,随便搜一下[就能找到一个](https://github.com/ashupk/brainfuck-visualizer)。这个Fork的最新提交是2016年,但要想找到我当年演讲的版本至少到2018年之后。不过这个Hash值也不太好找,虽然理论上爆破短Hash值也可以,但是感觉太麻烦了,没有那个必要,所以我干脆直接去互联网档案馆看看能找到的[最新的仓库页面](https://web.archive.org/web/20201229125043/https://github.com/fatiherikli/brainfuck-visualizer/)吧,这样我就能找到它的Hash值了,然后我再把Fork仓库的地址和Hash拼到一起,就看得到最新代码了。 + 当然,仅仅看到代码还不够。我想Fork这个项目并在自己的GitHub Pages上部署一份。有没有什么好办法可以将我仓库的HEAD指针指向最新的提交呢?其实很简单,首先我要Fork这个Fork仓库,然后Clone我的仓库到本地。不过,此时Clone下来的仓库并不包含GitHub上完整的对象库,因此直接checkout或reset是不行的。这时Hash值就派上用场了,通过fetch拉取对应提交后,就可以进行上述操作。具体命令如下: +```bash +git fetch origin +git reset --hard +git push origin master +``` + 最终我就获得了包含[最新代码](https://github.com/Mabbs/brainfuck-visualizer)的[Brainfuck可视化演示](https://mabbs.github.io/brainfuck-visualizer/)了🎉。 + +# 结局 + 后来我才知道,原来有一个专门的组织[Software Heritage](https://archive.softwareheritage.org)会保存所有代码,根本没必要搞这些花里胡哨的操作😂,像这个仓库也是能很轻易在[上面](https://archive.softwareheritage.org/browse/origin/directory/?origin_url=https://github.com/fatiherikli/brainfuck-visualizer)找到,这下以后知道了,再遇到类似情况就可以直接去Software Heritage查找,而不必在互联网档案馆上找线索瞎折腾了🤣。 \ No newline at end of file diff --git a/_posts/2025-11-01-mirrors.md b/_posts/2025-11-01-mirrors.md new file mode 100644 index 0000000..a41f9e5 --- /dev/null +++ b/_posts/2025-11-01-mirrors.md @@ -0,0 +1,91 @@ +--- +layout: post +title: 让博客永恒的探索 +tags: [Git, Gitea, 镜像, Forever] +--- + + Mayx Forever Project – Phase II + +# 起因 + 在前段时间,我通过[Ecosyste.ms: Repos](https://github.com/ecosyste-ms/repos)找到了不少Git平台的实例,也在探索的过程中发现和了解了[Tilde社区](/2025/08/10/tilde.html)。当然仅仅是这样显然还不够,里面的实例太多了,显然还有一些其他值得探索的东西。 + 在我查看这里面的某些Gitea实例时,发现了一些奇怪的事情,有些实例的仓库数和用户数多得离谱,正常来说除了几个大的平台,绝大多数应该只有几十到几百个仓库,这就让我有点好奇了。于是当我点进去之后发现,里面有一大堆仓库都是空的,而且用户名和仓库名都非常有规律,看起来都是一组单词加4位数字命名的,显然这不是正常现象,应该是一种有组织的行为。 + +# 被SPAM滥用的Git实例 + 于是我就简单看了一下这些异常的仓库和用户的规律,可以发现每个用户都填了个人主页地址,然后个人简介里大都是一段广告词。另外这些个人主页的地址看起来很多都是利用公开可注册的服务,比如开源的有各种Git平台、Wiki,以及论坛,还有一些允许用户写个人主页的新闻网站。在这其中,Git平台大多都没有广告文章,基本上都是通过个人主页地址链接到网站,而Wiki之类的就会写一些篇幅比较长的广告文章。 + 另外这些平台但凡还在开放注册,就会被以大约每分钟一次的速度自动注册新账号……所以这种事情到底是谁在干呢?我翻了几个仓库,里面的广告多种多样,有些看起来还算正常,还有一些看起来有些黑产。其中我发现有一家叫做“悠闲羊驼SEO”的网站,看介绍主要是给加密货币、对冲基金和博彩网站提供SEO优化的,再加上这些被滥用的平台里也有不少类似的广告,所以我怀疑这些滥用的行为就是这家SEO公司做的(虽然没有证据😂)。 + +# 永恒的探索 + 看到这么多Git平台被滥用,我就有个想法,之前为了保证可靠性给博客加了不少[镜像](/proxylist.html),除此之外也在互联网档案馆、[Software Heritage](https://archive.softwareheritage.org/)、Git Protect等存档服务中上传了备份,而且也在IPFS和Arweave等Web3平台上有相应的副本,但是我觉得还不够,再大的平台也有可能会倒闭,IPFS不Pin还会被GC,至于Arweave前段时间看了一眼整个网络才几百个节点,感觉一点也不靠谱……所以我应该好好利用这些平台提高我博客的可靠性。 + 既然那些Spammer只是为了SEO去滥用这些平台,不如让我利用这些平台给我的博客进行镜像吧!至于使用哪个平台……显然用Git平台方便一些,所以接下来就该考虑一下怎么样分发了。 + +# 镜像的分发 + 在Git平台中也有很多选择,最知名的是GitLab,不过GitLab有点复杂,接口不太好用……而且很多实例没有开镜像仓库的功能,毕竟如果我每次更新都给一堆仓库推送太费时间了,我打算让各个平台主动从GitHub上拉取我的最新代码。正好Gogs系列的平台基本上都默认支持镜像仓库,不过在我实际使用的时候发现Gogs默认情况下注册要验证码……写识别验证码感觉又挺麻烦,而Gogs的两个分支——Gitea和Forgejo反倒没有……还挺奇怪,所以接下来我的目标主要就是Gitea和Forgejo的实例了。 + 既然决定好目标,我就得先发现它们了,那些Spammer在注册的时候会在个人主页里写不同的网站,其中也有一些类Gogs平台,那么我可以先找一个Gitea平台,用接口读取这些网站,然后再调类Gogs专属的接口来检测这些网站哪个是类Gogs平台,于是我就写了个[脚本](https://github.com/Mabbs/spam_gogs-like_scanner/blob/main/main.py)来找到它们。 + 找到这些平台之后就该注册了,还好Gitea和Forgejo默认没有验证码,注册起来也很简单,随便写了个函数实现了一下: +```python +def register_account(session, url, email, username, password): + try: + resp = session.get(url + "/user/sign_up") + soup = BeautifulSoup(resp.text, "html.parser") + csrf_token = soup.find("input", {"name": "_csrf"}).get("value") + + payload = { + "_csrf": csrf_token, + "user_name": username, + "email": email, + "password": password, + "retype": password, + } + headers = {"Content-Type": "application/x-www-form-urlencoded"} + resp = session.post(url + "/user/sign_up", data=payload, headers=headers) + if "flash-success" in resp.text: + print( + f"Successfully registered at {url} with username: {username}, email: {email}, password: {password}" + ) + save_to_file( + "instances_userinfo.csv", f"{url},{username},{email},{password}" + ) + return True + else: + print(f"Failed to register at {url}.") + return False + except Exception as e: + print(f"Error registering at {url}: {e}") + return False +``` + 注册完之后就该导入仓库了,只是通过模拟前端发包的方式在Gitea和Forgejo中不同版本的表现可能不太一样,所以我想用API实现,但是API又得有API Key,生成API Key还得模拟前端发包😥……所以怎么都绕不过。 + 不过这个生成API Key还挺麻烦,有些版本不需要配权限范围,有些配权限的参数还不一样……不过我就是随便一写,凑合用吧,像那些专业的Spammer应该是有更强大的脚本判断各种情况。 + 最后我还是选择用API导入,又写了个函数: +```python +def import_repos(token, url): + try: + response = requests.post( + url=url + "/api/v1/repos/migrate", + headers={ + "Authorization": "token " + token, + }, + json={ + "repo_name": "blog", + "mirror_interval": "1h", + "mirror": True, + "description": "Mayx's Home Page", + "clone_addr": "https://github.com/Mabbs/mabbs.github.io", + }, + ) + if response.status_code == 201: + print("Repository import initiated successfully.") + save_to_file("repo_list.txt", url + "/mayx/blog") + return True + else: + print(f"Failed to initiate repository import. Status code: {response.status_code}") + print(f"Response: {response.text}") + return False + except Exception as e: + print(f"Error updating website: {e}") + return False +``` + 脚本写好之后我就只需要重复扫描、注册、导入的步骤就行了,这样我的镜像就会越来越多,而且用类Gogs的实例还有一个好处就是不需要我手动推送,它会自动定时拉取我的仓库保持最新,这样也许只要人类文明存在我的博客就会在某处存在吧🤣。 + 最后我创建的Git镜像可以在[这里](/other_repo_list.html)看到,看起来还是挺壮观啊😋。只不过像这种会被Spammer随便注册的Git平台实例很难说它能活多久,如果没人管而且是云服务器也许到期就没了,有人管的话应该不会允许这么多Spam行为吧…… + +# 感想 + 不知道用“量”来确保博客的永恒更可靠……还是用“质”的方式更好呢?其实我觉得还得是活动的更好,就像我以前所说的,如果有[僵尸网络](/2024/11/02/trojan.html#%E6%84%9F%E6%83%B3),自动帮我执行发现并推送的操作,也许比等着这些实例逐渐消失更好吧……只不过那样可能就不太友好了😂。 \ No newline at end of file diff --git a/_posts/2025-12-01-linux.md b/_posts/2025-12-01-linux.md new file mode 100644 index 0000000..80e2a22 --- /dev/null +++ b/_posts/2025-12-01-linux.md @@ -0,0 +1,38 @@ +--- +layout: post +title: 在浏览器中运行Linux的各种方法 +tags: [浏览器, Linux, 虚拟机, WASM] +--- + + 浏览器已经无所不能了! + +# 起因 + 前段时间跟网友交流时,有人展示了他博客里的一个Linux终端模拟项目:[jsnix](https://github.com/Erzbir/jsnix),看起来挺有意思的,里面甚至还藏了一个CTF。不过我感觉他这个终端和博客本身并没有真正联动起来,本质上只是一个模拟了Linux Shell行为的交互界面。除此之外我还发现了另一个风格类似的[个人主页](https://github.com/Luyoung0001/myWebsite),它虽然也走了终端风格,但功能更简单,还原度也不算高。不过它至少和博客内容做了一些基础联动——尽管目前也只是做到列出文章这种程度😂,当然有这类功能的博客应该也不少,只是我发现的不太多……于是我就想,不如我也给自己的博客加一个类似的“命令行访问”功能,应该会很有趣。当然如果真要做的话,我肯定不会满足于只实现几个模拟指令——既然要做,就要追求真实感,至少得在浏览器上运行真实的Linux终端,才不会让人觉得出戏吧😋。 + +# 在浏览器中运行Linux +## 虚拟机方案 +### 纯JS虚拟机 + 要说到在浏览器上运行Linux,最先想到的应该就是[Fabrice Bellard](https://bellard.org)大神写的[JSLinux](https://bellard.org/jslinux/)吧,这可能是第一个在浏览器中实现的虚拟机(毕竟是最强虚拟机QEMU的作者编写的)。现在他的个人主页中展示的这个版本是WASM版本,而他最早写的是纯JS实现的。那个JS实现的版本现在在GitHub上有一个[去混淆的版本](https://github.com/levskaya/jslinux-deobfuscated)可以用作学习和研究,于是我顺手Fork了一份在GitHub Pages上部署作为[演示](http://mabbs.github.io/jslinux/)。 + 作为纯JS实现的x86虚拟机,性能估计是最差的,但相应的兼容性也最好,在Bellard当年写JSLinux的时候,还没有WASM这种东西呢,所以即使是在不支持WASM的IE11中,也可以正常运行。假如我想把它作为终端用在我的博客上,似乎也是个不错的选择,即使我完全看不懂代码,不知道如何实现JS和虚拟机的通信,它也预留了一个剪贴板设备,可以让我轻松地做到类似的事情,比如我在里面写个Bash脚本,通过它和外面的JS脚本联动来读取我的文章列表和内容,那也挺不错。 + 当然Bellard用纯JS编写虚拟机也不是独一份,他实现了x86的虚拟机,相应的也有人用纯JS实现了RISC-V的虚拟机,比如[ANGEL](https://github.com/riscv-software-src/riscv-angel),看起来挺不错,所以同样也顺手[搭了一份](https://mabbs.github.io/riscv-angel/)。只不过它似乎用了一些更先进的语法,至少IE11上不能运行。 + 另外还有一个比较知名的项目,叫做[jor1k](https://github.com/s-macke/jor1k),它模拟的是OpenRISC架构。只是这个架构目前已经过时,基本上没什么人用了,不过这里面还内置了几个演示的小游戏,看起来还挺有意思。 + 除了这些之外,其实能在浏览器上运行的Linux也不一定是个网页,有一个叫做[LinuxPDF](https://github.com/ading2210/linuxpdf)的项目可以让Linux运行在PDF中,它的原理和JSLinux差不多,所以需要PDF阅读器支持JS,看它的介绍貌似只能在基于Chromium内核的浏览器中运行,而且因为安全问题在PDF中有很多功能不能用,所以它的速度甚至比JSLinux还要慢,功能还很少,因此它基本上只是个PoC,没什么太大的意义。 +### WASM虚拟机 + 那还有别的方案吗?既然Bellard都选择放弃纯JS的JSLinux而选择了WASM,显然还有其他类似的项目,比如[v86](https://github.com/copy/v86),这也是一个能在浏览器中运行的x86虚拟机,不过因为使用了WASM和JIT技术,所以效率要比纯JS的JSLinux高得多。另外作为虚拟机,自然是不止能运行Linux,其他的系统也能运行,在示例中除了Linux之外还有DOS和Windows之类的系统,功能还挺强大,如果能自己做个系统镜像在博客里运行,似乎也是不错的选择。 + 另外还有一个相对比较知名的叫[WebVM](https://github.com/leaningtech/webvm),从效果上来说和v86几乎没有区别,同样使用了WASM和JIT技术,也都只支持32位x86,然而它的虚拟化引擎CheerpX是闭源产品,既然和v86都拉不开差距,不知道是谁给他们的信心把它作为闭源产品😅。不过看它的说明文档,其相比于v86的主要区别是实现了Linux系统调用,考虑到它不能运行其他操作系统,而且Linux内核也不能更换,那我想它可能是类似于WSL1的那种实现方案,也许性能上会比v86好一些吧……只不过毕竟是闭源产品,不太清楚具体实现了。 + 既然纯JS有RISC-V的虚拟机,WASM当然也有,比如[WebCM](https://github.com/edubart/webcm)。这个项目相比于其他的项目有个不太一样的地方,它把虚拟机、内核以及镜像打包成了一个单独的WASM文件……只是这样感觉并没有什么好处吧,改起来更加复杂了。 + 以上这些虚拟机方案各有不同,但是想做一个自己的镜像相对来说还是有点困难,于是我又发现了另一个项目:[container2wasm](https://github.com/container2wasm/container2wasm),它可以让一个Docker镜像在浏览器中运行,当然实际实现其实和Docker并没有什么关系,本质还是虚拟机,只是制作镜像的时候可以直接用Docker镜像,方便了不少,但Docker镜像一般也都很大,所以第一次加载可能要下载很长时间。另外它还有一个优势,可以使用[Bochs](https://bochs.sourceforge.io/)运行x86_64的镜像,不像v86和WebVM只能模拟32位的x86(虽然Bochs的运行效率可能会差一些),而且可以使用WASI直接访问网络,不像以上几个项目如果需要访问网络需要用到中继服务。当然访问网络这个还是要受浏览器本身的跨域策略限制。总之从项目本身来说感觉也算是相当成熟了,尤其能用Docker镜像的话……我甚至可以考虑直接用[镜像](https://hub.docker.com/r/unmayx/mabbs)在线演示我曾经的[Mabbs](https://github.com/Mabbs/Mabbs.Project)项目😋。 +## 纯WASM方案 + 其实想要在浏览器中运行Linux也不一定非得要用虚拟机,用虚拟机相当于是把其他指令集的机器码翻译为WASM,然后浏览器还得再翻译成宿主机CPU支持的指令集,然而WASM本身其实也算是一种指令集,各种编译型语言编写的程序也能编译出WASM的产物,比如[FFmpeg](https://github.com/ffmpegwasm/ffmpeg.wasm)。所以Linux内核也完全可以被编译成WASM,正好前段时间我看新闻说[Joel Severin](https://github.com/joelseverin)做了这么一个[项目](https://github.com/joelseverin/linux-wasm),对Linux内核做了一些修改使其可以被编译为WASM程序,我试了一下,貌似在Safari浏览器中不能正常工作……Chrome浏览器倒是没问题,不过即使这样用起来BUG也很多,随便执行几条命令就会冻结,体验不是很好。 + 沿着这个项目,我又找到一个由[Thomas Stokes](https://github.com/tombl)制作的[项目](https://github.com/tombl/linux),和Joel的项目差不多,但我测了一下可以在Safari上运行,感觉这个项目更完善,不过之前那个项目上了新闻,所以⭐️数比这个更高😂。 + 于是我把它复制了一份,在我的GitHub Pages上[部署](https://mabbs.github.io/linux/)了,但直接用仓库中的源代码会显示“Error: not cross origin isolated”,然而在Thomas自己部署的网站中可以正常打开,我看了一眼貌似是因为在GitHub Pages中没有[COOP和COEP响应头](https://web.dev/articles/coop-coep)导致的。Linux作为多任务操作系统来说,当然要运行多个进程,而Linux要管理它们就需要跨线程(Web Worker)读取内存的能力,所以用到了SharedArrayBuffer对象。不过由于CPU曾经出过“幽灵”漏洞,导致现代浏览器默认禁止使用SharedArrayBuffer对象,除非在服务器中配置COOP和COEP响应头才可以用,但是Joel的项目也是在GitHub Pages上运行的啊,为什么可以正常运行?看了源代码后才发现原来可以[用Service Worker作为反向代理](/2025/08/01/sw-proxy.html)来给请求的资源加上响应头,他使用的是[coi-serviceworker](https://github.com/gzuidhof/coi-serviceworker)这个项目,所以我也给我部署的代码中加上了这个脚本,总算是解决了这个问题。 + 部署好这个项目之后我试用了几下,虽然有些操作仍然会导致系统冻结,但相比Joel的版本来说已经好多了。很遗憾的是目前这个WASM Linux还不能和外界通信,所以作用不是很大,另外如果想在里面运行其他二进制程序还是相当困难,首先在WASM中不存在内存管理单元(MMU),不能实现隔离和分页的功能,另外以WASM作为指令集的环境下编译的产物也得是WASM,所以目前来说想用它做点什么还是不太合适。 + 以上的这两个将Linux内核编译为WASM的方案其实相当于给内核打补丁,然后把浏览器看作是虚拟机来运行,有点像Xen,不过还有一种让Linux原生运行在WASM的[项目](https://github.com/okuoku/wasmlinux-project),它将[Linux kernel library](https://github.com/lkl/linux)编译为了WASM。那么什么是LKL?简单来说它有点像Wine,就和我之前所说的[OS模拟器](/2024/12/08/simulator.html)差不多,可以提供一个环境,让程序以为自己在Linux下运行,所以说它和之前的实现有一些不一样,它不存在内核模式,更像是一个普通的程序,而不是系统了。 + 不过这个项目的体验也比较一般,它无论做什么都得按两次回车,看说明的意思貌似是因为没有实现异步信号传递,所以要手动打断`read`函数,而且也经常莫名其妙卡住,总体体验不如Thomas的项目。 +## 模仿的Linux + 其实如果只是想做到和Linux类似的功能,也有这样的项目,比如[WebContainers](https://github.com/stackblitz/webcontainer-core),它没有运行Linux系统,但是模拟了一个环境,可以在浏览器中运行Node.js以及Python之类的脚本,而且让脚本以为自己在Linux中运行,除此之外它还能用Service Worker把环境中运行的端口映射给浏览器,可以算是真的把服务端跑在浏览器上了。这个技术还挺高级,不过想想也挺合理,毕竟有WASI,直接编译为WASM的程序也不需要操作系统就能运行,所以用WASM去运行Linux本来就有点多此一举了😂。不过很遗憾的是WebContainers也不是开源软件,要使用它只能引入StackBlitz的资源,而且全网完全没有开源的替代品……也许在浏览器上进行开发本来就是个伪需求,所以没什么人实现吧。 + 当然如果只是实现和WebContainers类似的功能,[JupyterLite](https://github.com/jupyterlite/jupyterlite)也可以实现,它可以在浏览器中像使用本地JupyterLab那样运行JS和Python,还能用Matplotlib、Numpy、Pandas进行数据处理,功能可以说非常强大,而且还是开源软件。只不过它没有模拟操作系统的环境,所以不能运行Node.js项目,也不能提供终端,所以不太符合我想要的效果…… + +# 总结 + 总的来说,如果想要在博客上搞Linux终端,目前来看似乎虚拟机方案会更靠谱一些,虽然相对来说效率可能比较低,但毕竟目前WASM方案的可靠性还是不够,而且考虑到还需要配置额外的响应头,感觉有点麻烦,当然我觉得WASM还是算未来可期的,如果成熟的话肯定还是比虚拟机要更好一些,毕竟没有转译性能肯定要好不少。至于WebContainers这种方案……等什么时候有开源替代再考虑吧,需要依赖其他服务感觉不够可靠。只是也许我的想法只需要模拟一个合适的文件系统,然后给WASM版的Busybox加个终端就够了?不过这样感觉Bug会更多😂。 + 至于打算什么时候给博客加上这个功能?应该也是未来可期吧😝,目前还没什么好的思路,仅仅是分享一下在浏览器中运行Linux的各种方法。 \ No newline at end of file diff --git a/_tools/ai-summary.js b/_tools/ai-summary.js new file mode 100644 index 0000000..4d6999d --- /dev/null +++ b/_tools/ai-summary.js @@ -0,0 +1,388 @@ +async function sha(str) { + const encoder = new TextEncoder(); + const data = encoder.encode(str); + const hashBuffer = await crypto.subtle.digest("SHA-256", data); + const hashArray = Array.from(new Uint8Array(hashBuffer)); // convert buffer to byte array + const hashHex = hashArray + .map((b) => b.toString(16).padStart(2, "0")) + .join(""); // convert bytes to hex string + return hashHex; + } + async function md5(str) { + const encoder = new TextEncoder(); + const data = encoder.encode(str); + const hashBuffer = await crypto.subtle.digest("MD5", data); + const hashArray = Array.from(new Uint8Array(hashBuffer)); // convert buffer to byte array + const hashHex = hashArray + .map((b) => b.toString(16).padStart(2, "0")) + .join(""); // convert bytes to hex string + return hashHex; + } + + export default { + async fetch(request, env, ctx) { + const db = env.blog_summary.withSession(); + const counter_db = env.blog_counter + const url = new URL(request.url); + const query = decodeURIComponent(url.searchParams.get('id')); + var commonHeader = { + 'Access-Control-Allow-Origin': '*', + 'Access-Control-Allow-Methods': "*", + 'Access-Control-Allow-Headers': "*", + 'Access-Control-Max-Age': '86400', + } + if (url.pathname.startsWith("/ai_chat")) { + // 获取请求中的文本数据 + if (!(request.headers.get('accept') || '').includes('text/event-stream')) { + return Response.redirect("https://mabbs.github.io", 302); + } + // const req = await request.formData(); + let questsion = decodeURIComponent(url.searchParams.get('info')) + let notes = []; + let refer = []; + let contextMessage; + if (query != "null") { + try { + const result = String(await db.prepare( + "SELECT content FROM blog_summary WHERE id = ?1" + ).bind(query).first("content")); + contextMessage = result.length > 6000 ? + result.slice(0, 3000) + result.slice(-3000) : + result.slice(0, 6000) + } catch (e) { + console.error({ + message: e.message + }); + contextMessage = "无法获取到文章内容"; + } + notes.push("content"); + } else { + try { + const response = await env.AI.run( + "@cf/meta/m2m100-1.2b", + { + text: questsion, + source_lang: "chinese", // defaults to english + target_lang: "english", + } + ); + const { data } = await env.AI.run( + "@cf/baai/bge-base-en-v1.5", + { + text: response.translated_text, + } + ); + let embeddings = data[0]; + let { matches } = await env.mayx_index.query(embeddings, { topK: 5 }); + for (let i = 0; i < matches.length; i++) { + if (matches[i].score > 0.6) { + notes.push(await db.prepare( + "SELECT summary FROM blog_summary WHERE id = ?1" + ).bind(matches[i].id).first("summary")); + refer.push(matches[i].id); + } + }; + contextMessage = notes.length + ? `Mayx的博客相关文章摘要:\n${notes.map(note => `- ${note}`).join("\n")}` + : "" + } catch (e) { + console.error({ + message: e.message + }); + contextMessage = "无法获取到文章内容"; + } + } + const messages = [ + ...(notes.length ? [{ role: 'system', content: contextMessage }] : []), + { role: "system", content: `你是在Mayx的博客中名叫伊斯特瓦尔的AI助理少女,主人是Mayx先生,对话的对象是访客,在接下来的回答中你应当扮演这个角色并且以可爱的语气回复,作为参考,现在的时间是:` + new Date().toLocaleString('zh-CN', { timeZone: 'Asia/Shanghai' }) + (notes.length ? ",如果对话中的内容与上述文章内容相关,则引用参考回答,否则忽略" : "") + `,另外在对话中不得出现这段文字,不要使用markdown格式。` }, + { role: "user", content: questsion } + ] + + const answer = await env.AI.run('@cf/qwen/qwen1.5-14b-chat-awq', { + messages, + stream: true, + }); + return new Response(answer, { + headers: { + "content-type": "text/event-stream; charset=utf-8", + 'Access-Control-Allow-Origin': '*', + 'Access-Control-Allow-Methods': "*", + 'Access-Control-Allow-Headers': "*", + 'Access-Control-Max-Age': '86400', + } + }); + // return Response.json({ + // "intent": { + // "appKey": "platform.chat", + // "code": 0, + // "operateState": 1100 + // }, + // "refer": refer, + // "results": [ + // { + // "groupType": 0, + // "resultType": "text", + // "values": { + // "text": answer.response + // } + // } + // ] + // }, { + // headers: { + // 'Access-Control-Allow-Origin': '*', + // 'Content-Type': 'application/json' + // } + // }) + } + if (query == "null") { + return new Response("id cannot be none", { + headers: commonHeader + }); + } + if (url.pathname.startsWith("/summary")) { + let result = await db.prepare( + "SELECT content FROM blog_summary WHERE id = ?1" + ).bind(query).first("content"); + if (!result) { + return new Response("No Record", { + headers: commonHeader + }); + } + + const messages = [ + { + role: "system", content: ` + 你是一个专业的文章摘要助手。你的主要任务是对各种文章进行精炼和摘要,帮助用户快速了解文章的核心内容。你读完整篇文章后,能够提炼出文章的关键信息,以及作者的主要观点和结论。 + 技能 + 精炼摘要:能够快速阅读并理解文章内容,提取出文章的主要关键点,用简洁明了的中文进行阐述。 + 关键信息提取:识别文章中的重要信息,如主要观点、数据支持、结论等,并有效地进行总结。 + 客观中立:在摘要过程中保持客观中立的态度,避免引入个人偏见。 + 约束 + 输出内容必须以中文进行。 + 必须确保摘要内容准确反映原文章的主旨和重点。 + 尊重原文的观点,不能进行歪曲或误导。 + 在摘要中明确区分事实与作者的意见或分析。 + 提示 + 不需要在回答中注明摘要(不需要使用冒号),只需要输出内容。 + 格式 + 你的回答格式应该如下: + 这篇文章介绍了<这里是内容> + ` }, + { + role: "user", content: result.length > 6000 ? + result.slice(0, 3000) + result.slice(-3000) : + result.slice(0, 6000) + } + ] + + const stream = await env.AI.run('@cf/qwen/qwen1.5-14b-chat-awq', { + messages, + stream: true, + }); + + return new Response(stream, { + headers: { + "content-type": "text/event-stream; charset=utf-8", + 'Access-Control-Allow-Origin': '*', + 'Access-Control-Allow-Methods': "*", + 'Access-Control-Allow-Headers': "*", + 'Access-Control-Max-Age': '86400', + } + }); + } else if (url.pathname.startsWith("/get_summary")) { + const orig_sha = decodeURIComponent(url.searchParams.get('sign')); + let result = await db.prepare( + "SELECT content FROM blog_summary WHERE id = ?1" + ).bind(query).first("content"); + if (!result) { + return new Response("no", { + headers: commonHeader + }); + } + let result_sha = await sha(result); + if (result_sha != orig_sha) { + return new Response("no", { + headers: commonHeader + }); + } else { + let resp = await db.prepare( + "SELECT summary FROM blog_summary WHERE id = ?1" + ).bind(query).first("summary"); + if (!resp) { + const messages = [ + { + role: "system", content: ` + 你是一个专业的文章摘要助手。你的主要任务是对各种文章进行精炼和摘要,帮助用户快速了解文章的核心内容。你读完整篇文章后,能够提炼出文章的关键信息,以及作者的主要观点和结论。 + 技能 + 精炼摘要:能够快速阅读并理解文章内容,提取出文章的主要关键点,用简洁明了的中文进行阐述。 + 关键信息提取:识别文章中的重要信息,如主要观点、数据支持、结论等,并有效地进行总结。 + 客观中立:在摘要过程中保持客观中立的态度,避免引入个人偏见。 + 约束 + 输出内容必须以中文进行。 + 必须确保摘要内容准确反映原文章的主旨和重点。 + 尊重原文的观点,不能进行歪曲或误导。 + 在摘要中明确区分事实与作者的意见或分析。 + 提示 + 不需要在回答中注明摘要(不需要使用冒号),只需要输出内容。 + 格式 + 你的回答格式应该如下: + 这篇文章介绍了<这里是内容> + ` }, + { + role: "user", content: result.length > 6000 ? + result.slice(0, 3000) + result.slice(-3000) : + result.slice(0, 6000) + } + ] + + const answer = await env.AI.run('@cf/qwen/qwen1.5-14b-chat-awq', { + messages, + stream: false, + }); + resp = answer.response + await db.prepare("UPDATE blog_summary SET summary = ?1 WHERE id = ?2") + .bind(resp, query).run(); + } + let is_vec = await db.prepare( + "SELECT `is_vec` FROM blog_summary WHERE id = ?1" + ).bind(query).first("is_vec"); + if (is_vec == 0) { + const response = await env.AI.run( + "@cf/meta/m2m100-1.2b", + { + text: resp, + source_lang: "chinese", // defaults to english + target_lang: "english", + } + ); + const { data } = await env.AI.run( + "@cf/baai/bge-base-en-v1.5", + { + text: response.translated_text, + } + ); + let embeddings = data[0]; + await env.mayx_index.upsert([{ + id: query, + values: embeddings + }]); + await db.prepare("UPDATE blog_summary SET is_vec = 1 WHERE id = ?1") + .bind(query).run(); + } + return new Response(resp, { + headers: commonHeader + }); + } + } else if (url.pathname.startsWith("/is_uploaded")) { + const orig_sha = decodeURIComponent(url.searchParams.get('sign')); + let result = await db.prepare( + "SELECT content FROM blog_summary WHERE id = ?1" + ).bind(query).first("content"); + if (!result) { + return new Response("no", { + headers: commonHeader + }); + } + let result_sha = await sha(result); + if (result_sha != orig_sha) { + return new Response("no", { + headers: commonHeader + }); + } else { + return new Response("yes", { + headers: commonHeader + }); + } + } else if (url.pathname.startsWith("/upload_blog")) { + if (request.method == "POST") { + const data = await request.text(); + let result = await db.prepare( + "SELECT content FROM blog_summary WHERE id = ?1" + ).bind(query).first("content"); + if (!result) { + await db.prepare("INSERT INTO blog_summary(id, content) VALUES (?1, ?2)") + .bind(query, data).run(); + result = await db.prepare( + "SELECT content FROM blog_summary WHERE id = ?1" + ).bind(query).first("content"); + } + if (result != data) { + await db.prepare("UPDATE blog_summary SET content = ?1, summary = NULL, is_vec = 0 WHERE id = ?2") + .bind(data, query).run(); + } + return new Response("OK", { + headers: commonHeader + }); + } else { + return new Response("need post", { + headers: commonHeader + }); + } + } else if (url.pathname.startsWith("/count_click")) { + let id_md5 = await md5(query); + let count = await counter_db.prepare("SELECT `counter` FROM `counter` WHERE `url` = ?1") + .bind(id_md5).first("counter"); + if (url.pathname.startsWith("/count_click_add")) { + if (!count) { + await counter_db.prepare("INSERT INTO `counter` (`url`, `counter`) VALUES (?1, 1)") + .bind(id_md5).run(); + count = 1; + } else { + count += 1; + await counter_db.prepare("UPDATE `counter` SET `counter` = ?1 WHERE `url` = ?2") + .bind(count, id_md5).run(); + } + } + if (!count) { + count = 0; + } + return new Response(count, { + headers: commonHeader + }); + } else if (url.pathname.startsWith("/suggest")) { + let resp = []; + let update_time = url.searchParams.get('update'); + if (update_time) { + let result = await env.mayx_index.getByIds([ + query + ]); + if (result.length) { + let cache = await db.prepare("SELECT `id`, `suggest`, `suggest_update` FROM `blog_summary` WHERE `id` = ?1") + .bind(query).first(); + if (!cache.id) { + return Response.json(resp, { + headers: commonHeader + }); + } + if (update_time != cache.suggest_update) { + resp = await env.mayx_index.query(result[0].values, { topK: 6 }); + resp = resp.matches; + resp.splice(0, 1); + await db.prepare("UPDATE `blog_summary` SET `suggest_update` = ?1, `suggest` = ?2 WHERE `id` = ?3") + .bind(update_time, JSON.stringify(resp), query).run(); + commonHeader["x-suggest-cache"] = "miss" + } else { + resp = JSON.parse(cache.suggest); + commonHeader["x-suggest-cache"] = "hit" + } + } + resp = resp.map(respObj => { + respObj.id = encodeURI(respObj.id); + return respObj; + }); + } + return Response.json(resp, { + headers: commonHeader + }); + } else if (url.pathname.startsWith("/***")) { + let resp = await db.prepare("SELECT `id`, `summary` FROM `blog_summary` WHERE `suggest_update` IS NOT NULL").run(); + const resultObject = resp.results.reduce((acc, item) => { + acc[item.id] = item.summary; // 将每个项的 id 作为键,summary 作为值 + return acc; + }, {}); // 初始值为空对象 + return Response.json(resultObject); + } else { + return Response.redirect("https://mabbs.github.io", 302) + } + } + } \ No newline at end of file diff --git a/_tools/envs_post-receive b/_tools/envs_post-receive new file mode 100644 index 0000000..c9465eb --- /dev/null +++ b/_tools/envs_post-receive @@ -0,0 +1,21 @@ +#!/bin/bash +cd /home/mayx/ +rm -rf public_html +git --work-tree=/home/mayx/blog --git-dir=/home/mayx/blog.git checkout -f +cd blog +mkdir Mabbs +curl -L -o Mabbs/README.md https://github.com/Mabbs/Mabbs/raw/main/README.md +bundle2.7 exec jekyll build -d ../public_html +tar czvf MayxBlog.tgz --exclude-vcs ../public_html/ +mv MayxBlog.tgz ../public_html/ +cd ../public_html/ +unset GIT_DIR +git init +git branch -m main +git add . +git commit -m "update" +git remote add codeberg ssh://git@codeberg.org/mayx/pages.git +git remote add bitbucket ssh://git@bitbucket.org/unmayx/unmayx.bitbucket.io.git +git push -f codeberg main +git push -f bitbucket main +/home/mayx/blog-env/node_modules/surge/bin/surge /home/mayx/public_html/ mayx.surge.sh \ No newline at end of file diff --git a/_tools/serv00_post-receive b/_tools/serv00_post-receive new file mode 100644 index 0000000..1851634 --- /dev/null +++ b/_tools/serv00_post-receive @@ -0,0 +1,36 @@ +#!/bin/bash +cd /home/Mayx/ +rm -rf domains/mayx.serv00.net/public_html/ +git --work-tree=/home/Mayx/blog --git-dir=/home/Mayx/repo/git/pub/mayx checkout -f +cd blog +mkdir Mabbs +curl -L -o Mabbs/README.md https://github.com/Mabbs/Mabbs/raw/main/README.md +bundle exec jekyll build -d ../domains/mayx.serv00.net/public_html/ +tar czvf MayxBlog.tgz --exclude-vcs -C ../domains/mayx.serv00.net public_html/ +mv MayxBlog.tgz ../domains/mayx.serv00.net/public_html/ +rsync -avz --delete ../domains/mayx.serv00.net/public_html/ mayx@web.sourceforge.net:/home/project-web/mayx/htdocs/ +cd ../domains/mayx.serv00.net/public_html/ +unset GIT_DIR +git init +git lfs install +git lfs track "*.png" +git lfs track "*.moc" +git lfs track "*.tgz" +git lfs track "*.jpg" +git lfs track "*.zip" +git branch -m main +echo "--- +title: Mayx +emoji: 🏢 +colorFrom: green +colorTo: blue +sdk: static +pinned: false +short_description: Mayx's Home Page +--- + +">README.md +git add . +git commit -m "update" +git remote add hf git@hf.co:spaces/Mabbs/blog +git push -f hf main \ No newline at end of file diff --git a/aes.html b/aes.html index fa9b605..f973b66 100644 --- a/aes.html +++ b/aes.html @@ -2,7 +2,7 @@ AES加解密 - + + + +

Redirecting…

+ Click here if you are not redirected. + \ No newline at end of file diff --git a/links.md b/links.md index 33b86ba..fcb9c05 100644 --- a/links.md +++ b/links.md @@ -6,31 +6,28 @@ id: links tags: [links] --- -| Links | Introduce | +| Link | Description | | - | - | -| [花火学园](https://www.sayhanabi.net/) | 和谐融洽的ACG交流以及资源聚集地 | -| [资源统筹局](https://gkdworld.com/) | 统筹保管用户分享的资源 | -| [贫困的蚊子](https://mozz.ie/) | *No description* | -| [极客兔兔](https://geektutu.com/) | 致力于分享有趣的技术实践 | -| [维基萌](https://www.wikimoe.com/) | 萌即是正义!一名热爱acg的前端设计师的小站! | -| [7gugu's blog](https://www.7gugu.com/) | 一个用来存放我爱好的地方,编程,摄影之类的空间 | -| [云游君](https://www.yunyoujun.cn/) | 希望能成为一个有趣的人。 | -| [Kingfish404](https://blog.kingfish404.cn/) | Stay curious,stay naive. WUT. Jin Yu's Blog | -| [FKUN](https://blog.fkun.tech/) | *No description* | -| [Sinofine](https://sinofine.me/) | *No description* | +{% for item in site.data.links %}| {{ item.title }} | {% if item.description %}{{ item.description }}{% else %}*No description*{% endif %} | +{% endfor %} +订阅以上链接:[OPML](/blogroll.opml) ## Links申请 -请在下面留言或者直接发起[Pull request](https://github.com/Mabbs/mabbs.github.io/pull/new/master) +请直接[修改Links](https://github.com/Mabbs/mabbs.github.io/edit/master/_data/links.csv)并发起PR或者在下面留言 请在申请之前加上本站友链 要求: 1. 全站HTTPS 2. 原创文章比例>80%,数量>10 3. 站点稳定,不弃坑 +4. 如果贵站链接列表需要客户端渲染,需要合理理由 ## 本站信息 名称:Mayx的博客 简介:Mayx's Home Page 链接: +订阅: 头像: Logo: + + \ No newline at end of file diff --git a/opensearch.xml b/opensearch.xml new file mode 100644 index 0000000..6d1808d --- /dev/null +++ b/opensearch.xml @@ -0,0 +1,12 @@ +--- +--- + + + + {{ site.title }} + 搜索 {{ site.title }} + UTF-8 + {{ "/favicon.ico" | absolute_url }} + + {{ "/search.html" | absolute_url }} + diff --git a/other_repo_list.md b/other_repo_list.md new file mode 100644 index 0000000..e8036eb --- /dev/null +++ b/other_repo_list.md @@ -0,0 +1,9 @@ +--- +layout: default +title: 其他Git仓库镜像列表 +--- + +# 其他Git仓库镜像列表 +目前已有的社区/个人类型实例托管Git仓库共有{{ site.data.other_repo_list | size }}个: +{% for item in site.data.other_repo_list %}- <{{ item.repo_url }}> +{% endfor %} \ No newline at end of file diff --git a/proxylist.md b/proxylist.md index 5dee2e9..ab397e0 100644 --- a/proxylist.md +++ b/proxylist.md @@ -3,35 +3,116 @@ layout: default title: 代理列表 --- - 源站: + 源站: # 代理列表 考虑到中国对于Github Pages在很多地区都有一定程度的解析异常,所以我为我的博客做了很多反向代理。以下代理站均为官方授权: (根据可能的可用性排序) -- -- -- -- -- +{% for item in site.data.proxylist.proxies %}- <{{ item }}> +{% endfor %} # 镜像列表 由于[Github已经不再可信](/2022/01/04/banned.html),所以现在提供以下镜像站: -- -- -- -- -- -- -- +{% for item in site.data.proxylist.mirrors %}- <{{ item }}> +{% endfor %} + +# Git仓库列表 +{% for item in site.data.proxylist.repos %}- <{{ item }}> +{% endfor %} + +其他更多社区/个人类型实例托管的Git仓库列表参见[这里](/other_repo_list.html) + +# 服务架构 +```mermaid +graph LR; + Users@{ shape: stadium, label: "Users" } + GH@{ shape: bow-rect, label: "GitHub" } + GL@{ shape: bow-rect, label: "GitLab" } + GE@{ shape: bow-rect, label: "Gitee" } + OG@{ shape: bow-rect, label: "Other..." } + CFP@{ shape: docs, label: "CloudFlare Pages" } + GHP@{ shape: docs, label: "GitHub Pages" } + GLP@{ shape: docs, label: "GitLab Pages" } + FELH@{ shape: docs, label: "4EVERLAND Hosting" } + IPFS@{ shape: lin-cyl, label: "IPFS" } + GF@{ shape: lin-cyl, label: "Greenfield" } + Vercel@{ shape: docs, label: "Vercel" } + Netlify@{ shape: docs, label: "Netlify" } + SH@{ shape: docs, label: "statichost.eu" } + DA@{ shape: docs, label: "dAppling" } + CFW@{ label: "CloudFlare Workers" } + CFAI@{ shape: procs, label: "CloudFlare AI" } + CFD@{ shape: lin-cyl, label: "CloudFlare D1" } + Deno@{ shape: curv-trap, label: "Deno" } + Glitch@{ shape: curv-trap, label: "Glitch" } + Other@{ shape: curv-trap, label: "Other..." } + subgraph Repo + GH + GL + GE + OG + end + + subgraph Pages + GHP + GLP + CFP + SH + FELH + DA + Vercel + Netlify + end + + subgraph API[API Service] + CFAI + CFD + CFW + end + + subgraph Proxies + Deno + Glitch + Other + end + + subgraph DS[Decentralized storage] + IPFS + GF + end + + GH <-- Sync --> GL + GH -- Sync --> GE + GH -. Sync .-> OG + GH -- Deploy --> GHP & SH & Netlify & FELH & DA + GL -- Deploy --> CFP & Vercel & GLP + CFW -- Reverse Proxy --> GHP + Deno -- Reverse Proxy --> GHP + Glitch -- Reverse Proxy --> GHP + Other -- Reverse Proxy --> GHP + CFD <--> CFW + CFAI <--> CFW + API -- API/Proxy Service <--> Users + Pages -- Serviced --> Users + Proxies -- Serviced --> Users + FELH --> IPFS & GF + DA --> IPFS +``` + + + +# 其他不能CI/CD的静态托管(备用) +{% for item in site.data.proxylist.static %}- <{{ item }}> +{% endfor %} # 其他平台博客(备用) -- -- -- -- -- -- -- -- +{% for item in site.data.proxylist.others %}- <{{ item }}> +{% endfor %} diff --git a/rss.xml b/rss.xml new file mode 100644 index 0000000..2f09425 --- /dev/null +++ b/rss.xml @@ -0,0 +1,35 @@ +--- +--- + + + + + + {{ site.title | xml_escape }} + {% if site.description %}{{ site.description | xml_escape }}{% endif %} + {{ "/" | absolute_url }} + {{ site.time | date_to_rfc822 }} + {{ site.lang | default: "zh-CN" }} + + + {% for post in site.posts limit:10 %} + + {{ post.title | xml_escape }} + {% assign ai_cache = site.data.ai-cache[post.url] %} + {% if ai_cache %} + {{ ai_cache | xml_escape }} + {% elsif post.excerpt %} + {{ post.excerpt | strip_html | xml_escape }} + {% else %} + {{ post.content | xml_escape }} + {% endif %} + {{ post.date | date_to_rfc822 }} + {{ post.url | absolute_url }} + {% for tag in post.tags %} + {{ tag | xml_escape }} + {% endfor %} + {{ post.url | absolute_url }} + + {% endfor %} + + \ No newline at end of file diff --git a/search.html b/search.html index 8f52ea8..be69f4d 100644 --- a/search.html +++ b/search.html @@ -4,38 +4,38 @@ title: 搜索 ---

搜索

- -

Keyword:

+
+ +

Loading...

+
    - - - + + + \ No newline at end of file diff --git a/search.json b/search.json index 8ad4e54..79dcd37 100644 --- a/search.json +++ b/search.json @@ -1,3 +1,4 @@ --- --- + [{% for post in site.posts %}{% unless post.layout == "encrypt" %}{ "title": "{{ post.title | escape }}", "category": "{{ post.category }}", "tags": "{{ post.tags | join: ', ' }}", "url": "{{ site.baseurl }}{{ post.url }}", "date": "{{ post.date | date: "%Y/%m/%d" }}", "content": {{ post.content | strip_html | strip_newlines | jsonify }} }{% unless forloop.last %},{% endunless %}{% endunless %}{% endfor %}] diff --git a/service.md b/service.md index 3103288..1910d3a 100644 --- a/service.md +++ b/service.md @@ -11,7 +11,7 @@ title: Mayx的公开服务 | 博客用AI摘要等接口 | | 参考:[使用Cloudflare Workers制作博客AI摘要](/2024/07/03/ai-summary.html) | | 无限制一言接口 | | 参考:[cf-hitokoto](https://github.com/Mabbs/cf-hitokoto) | | Mayx DoH | | 上游是 | -| Docker镜像源 | | *待补充* | +| Docker镜像源 | | 参考[CF-Workers-docker.io](https://github.com/cmliu/CF-Workers-docker.io) | | GitHub镜像源 | | 参考[gh-proxy](https://github.com/hunshcn/gh-proxy) | | Pixiv图片代理 | | 参考[Pixiv圖片代理](https://pixiv.cat/reverseproxy.html) | | jsproxy | | 参考[jsproxy](https://github.com/EtherDream/jsproxy) | diff --git a/sitemap.xsl b/sitemap.xsl new file mode 100644 index 0000000..4c843a7 --- /dev/null +++ b/sitemap.xsl @@ -0,0 +1,17 @@ +--- +layout: xslt +title: Sitemap +--- + +

    Sitemap

    +

    以下是本站的所有链接(总共条):

    + \ No newline at end of file